Audiovisuell integration och talperceptionsteori

Det har varit känt sedan länge att läppavläsning inte bara praktiseras av döva och hörselskadade, utan även av normalhörande. Särskilt i bullrig miljö bidrar visuella ledtrådar avsevärt till talförståelsen. Detta gäller främst välsynliga särdrag som har med läpparna att göra. År 1976 redovisade McGurk ett experiment i vilket försökspersoner hade exponerats för auditiva stimuli av typen "baba", "dada", "gaga" dubbade på avvikande visuella stimuli ur samma serie. Sådana stimuli, som då innehöll oförenliga ledtrådar, gav upphov till dels "fusioner": när ett auditivt "b" presenteras tillsammans med ett visuellt "g" uppfattade försökspersonerna ofta ett "d" men även till "kombinationer": när ett auditivt "g" presenterades tillsammans med ett visuellt "b" uppfattades det ibland som "bg". McGurk-effekten har påvisats hos försökspersoner med varierande språklig bakgrund, men det finns språk- eller kulturbetingade skillnader: Japanska lyssnare visar nästan ingen påverkan av det som kan ses förutom när talaren är en utlänning. Det finns också könsskillnader. Kvinnor tenderar att nå bättre resultat än män vid läppavläsning.

Frågan om fusioner i analogi med dem som observerades med konsonanter också kan framkallas av vokaler besvarades nyligen av Öhrström och Traunmüller i ett experiment med svenska försökspersoner. I det experimentent användes nonsensstavelserna "gig", "gyg", "geg" och "gög". De presenterades både endast auditivt och endast visuellt men också med ljud och bild antingen riktigt eller på tre olika vis falskt ihopparade.

Resultaten visade att de flesta lyssnarna (16 av 21) uppfattade vokalernas rundning via synen och inte via hörseln, medan en minoritet, som bestod mest av män med god hörsel för tal men dålig avläseförmåga (4 av 10 män och 1 av 11 kvinnor) inte litade lika mycket på sin syn.

Till skillnad från rundnignen uppfattade dock samtliga lyssnare vokalernas öppnignsgrad uteslutande via öronen. Ett auditivt "e" parat med ett visuellt "y" uppfattades således av de flesta som ett "ö".

Försökspersoner som får oförenliga audiovisuella ledtrådar brukar berätta att de “hörde” det som de måste ha uppfattat med sina ögon. Illusionen förefaller ha ett neuralt grundlag: visuell information från läpprörelser modifierar aktiviteten i människans hörselbark. Det hörandet som då sker via synsinnet står i centrum för intresset i det här forskningsprojektet.

Det här projektet ska ge svar på frågan under vilka förutsättningar auditiv talperception på grundval av synintryck uppträder. Uppträder fenomenet redan vid läppavläsning medan avläsarens hörsel maskeras med brus av något slag eller krävs det viss akustisk information om talet - vilken i så fall?

Hörförnimmelser framkallade via synsinnet behöver inte nödvändigtvis överensstämma med de samtidiga synförnimmelserna, och den auditiva perception som framkallas via synsinnet ver-kar skilja sig från hörselintryck framkallade via öronen. Detta ska också utrönas. En annan fråga som ska undersökas är den, om även kombinationer förekommer med vokaler, alltså fall där lyssnare hör både det talljud som presenteras för deras öron och det som presenteras för deras ögon.

Projektets målsättning inbegriper också att relatera kunskapen om audiovisuell perception till annan kunskap som vi redan har om perceptionen av den språkliga och den utomspråkliga information som förmedlas av talet och att vidareutveckla talperceptionsteorin.

Den teori som i första hand avses är "modulationsteorin", vars grundtanke är den att talarens röst fungerar som en bärsignal som moduleras med språkliga talrörelser. Bärsignalen i sig förmedlar utomspråklig information, medan den språkliga informationen förmedlas av signalens modulation. Två talsingnaler vars bärsignaler kan vara olika (t. ex. en vuxen mans och ett barns) uppfattas som språkligt identiska om de är modulerade på samma sätt. Man kan alltså säga att lyssnaren "demodulerar" signalen. Modulationsteorin är i grunden också tillämplig på talperceptionens visuella komponent. I det fallet har talarens ansikte bärsignalens funktion. Teorin behöver dock kompletteras för att hantera audiovisuella fenomen.

Uppgiften att förklara existensen av könsskillnader hör inte till det här projektets primära mål, vilket dock inte utesluter att förklaringsförsök kan komma att göras.

Projektledare: Hartmut Traunmüller
Medarbetare: Niklas Öhrström; Ola Andersson (2005)
Projektet finansieras av Vetenskapsrådet för åren 2005-2007.


 
Här kan du testa audiovisuell perception av vokaler hos dig själv.

 

Rapporter från projektet

Niklas Öhrström and Hartmut Traunmüller (2004) Audiovisual perception of Swedish vowels with and without conflicting cues, Proceedings, FONETIK 2004, 40-43, Dept. of Linguistics, Stockholm University.

Niklas Öhrström (2004) Audiovisuell perception av svenska vokaler med och utan motstridiga ledtrådar. Kandidatuppsats i fonetik, Institutionen för lingvistik, Stockholms universitet.

Hartmut Traunmüller (2006) "Cross-modal interactions in visual as opposed to auditory perception of vowels" Working Papers 52: 137 - 140 (Lund University, Dept. of Linguistics). pdf-version | ppt

Niklas Öhrström and Hartmut Traunmüller (2006) "Acoustical prerequisites for visual hearing" Working Papers 52: 149-152 (Lund University, Dept. of Linguistics). pdf-version

Niklas Öhrström (2006) Akustiska förutsättningar för visuell hörsel. Magisteruppsats i fonetik, Institutionen för lingvistik, Stockholms universitet.

Hartmut Traunmüller and Niklas Öhrström (2007) "Audiovisual perception of openness and lip rounding in front vowels" Journal of Phonetics 35: 244 - 258. Abstract | Manuscript

Hartmut Traunmüller and Niklas Öhrström (2007) "The effect of incongruent visual cues on the heard quality of front vowels" Contr. to ICPhS 2007, pdf | ppt

Hartmut Traunmüller and Niklas Öhrström (2007) "The auditory and the visual percept evoked by the same audiovisual stimuli" Contr. to AVSP 2007, pdf | ppt

Modulationsteorin

Hartmut Traunmüller "Speech considered as modulated voice". Abstract | Manuscript

Hartmut Traunmüller (2007) "Demodulation, mirror neurons and audiovisual perception nullify the motor theory" Contr. to Fonetik 2007, TMH-QPSR 50: 17 - 20. Detpt. of Speech, Music and Hearing, Royal Inst. of Technology, Stockholm. pdf | ppt

Avdelningen för fonetik | Institutionen för lingvistik | Stockholms universitet | 2010.