Talmodulationsteorin


Som vi har sett (bakgrund) innehåller talsignaler förutom den språkliga, samtidigt expressiv, organisk, och perspektivisk information. Lyssnare är i stånd att skilja dessa fyra typer av information från varandra, men de akustiska egenskaper som fonetiker brukar mäta påverkas av flera av dessa faktorer. Detta beaktades inte tillräckligt i tidigare teoretiska resonemang och teorier om talets perception. Talmodulationsteorin är tänkt att låta oss se hur de olika typerna av information kan separeras igen, varvid den utgår från en analys av hur de smälter samman när talet bildas.

Inom ramen för talmodulationsteorin betraktas människans förmåga att kommunicera med tal som en biologisk innovation som bygger på en förmåga till expressiv kommunikation som har funnits tidigare och som fortfarande spelar en viktig roll hos människan såväl som hos många andra arter.

Talsignaler betraktas i enlighet med detta som ett resultat av att en bärsignal, vars egenskaper är givna av organiska och expressiva faktorer, har modulerats med språkliga (konventionella) talrörelser.

En språkligt neutral bärsignal kan tänkas som en 'färglös' vokal, ett primitivt mänskligt läte som bl a förekommer som tvekljud. Dess egenskaper är givna av storleken hos talarens talorgan (stämläpparnas massa och längd, ansatsrörets längd, mm) och av dess paralingvistiska "inställning".

Talsignalers akustiska egenskaper avviker från dem hos en språkligt neutral bärsignal på ett för varje talljud karakteristiskt sätt.

Den språkliga kvaliteten är alltså kopplad till dessa avvikelser och inte direkt till talsignalens absoluta egenskaper, medan den organiska och den expressiva kvaliteten är kopplad till bärsignalen.

För varseblivningen av de olika typerna av information i talet innebär detta att det oundvikligen krävs en demodulering för att kunna skilja dem åt.

Lyssnaren måste komma underfund med hur bärsignalen har modulerats för att känna igen den konventionella språkliga informationen. Modulationen ska däremot inte påverka hans bedömning av den organiska och expressiva kvaliteten, som återspeglas i bärsignalen. Lyssnaren måste alltså separera modulationen från bärsignalen och bedöma båda för sig.

När ett småbarn säger sitt första ord, visar det därmed att det, åtminstone rudimentärt, behärskar de processer som talmodulationsteorin beskriver. När ett barn härmar något som en äldre person har sagt, och det är ju det som händer då, så måste det ju först ha känt igen hur den äldre har modulerat sin bärsignal, och därefter måste det ha modulerat sin egen bärsignal på samma sätt. På ett liknande sätt går det till vid härmning av åtbördor. Det är alltså inte fråga om en direkt imitation av talsignalen. Det kan ju förekomma att ett barn någon gång försöker direkt imitera, alltså även låta som en äldre person, men förutsättningarna saknas för att detta ska lyckas fullt ut, eftersom det skulle kräva ett större talorgan.

När man ska beskriva vad som sker vid perceptionen, är det väsentligt att man vid mätningen av varje typ av avvikelse använder rätt måttstock. Den måste ha den egenskapen, att lika intervall är ekvivalenta för en lyssnare. Det skulle t. ex. vara fel att mäta tonhöjden och dess avvikelse från sitt basvärde i Hz, som är den fysikaliska enheten för frekvens. För tonhöjdens del förefaller det rätta måttet vara halvtoner, eller någon annat mått som är proportionellt mot logaritmen av frekvens. För formantfrekvenser förefaller en s. k. tonotopisk skala (barkskala) vara det rätta, men vissa potensfunktioner kan också tillämpas. För intensitetsskillnader förefaller en dB-skala vara nära idealet.

För att känna igen talljudens språkliga kvalitet, kan man säga att lyssnare utvärderar avvikelserna hos talsignalens momentana egenskaper (F0, formantfrekvenser, mm) från dem som de väntar sig av ett språkligt neutralt läte med samma organiska och expressiva kvalitet. Lyssnarnas förväntningar är därvid styrda av erfarenheter, t.ex. när man känner igen talaren, eller när man hört honom tala en stund, samt av sådana egenskaper hos talsignalen, som de högre formanternas frekvensläge, som inte påverkas lika mycket som F1 och F2 av en variation i språklig kvalitet. Som vi har sett på förra sidan, så spelar även F0 en viktig roll i sammanhanget. Lyssnarna bildar sig omedvetet en uppfattning om dess basvärde genom att analysera hur F0-kurvan har sett ut under den senaste tiden.

Lyssnarna utvärderar läget hos de spektrala topparna formade av formanterna i förhållande till varandra, och till F0s basvärde, och experiment har visat att de gör detta framför allt med spektrala toppar som ligger någorlunda nära varandra. På det sättet kan den språkliga information som finns i formanternas frekvensläge ofta kännas igen även före och oberoende av igenkänningen av den organiska och expressiva kvaliteten. När det finns brister i den akustiska signalen, t ex vid viskning, där F0 saknas, eller i närvaro av störande ljud blir lyssnarna mera beroende av sina förväntningar.

Vid närvaro av störande ljud blir det mycket tydligt att igenkänningen av talets språkliga kvalitet även på annat sätt är styrd av förväntningar och inte bara av talsignalen. Lyssnare har en förmåga att höra även det som inte går att höra objektivt. Fenomenet kallas "perceptuell restaurering". Under lyssningsprocessen testar lyssnare hur välförenliga egenskaperna hos talsignalen är med olika tänkbara tolkningsalternativ. Därvid förblir en talsignal välförenlig med ett tolkningsalternativ även om den delvis skyms av något störande ljud. Fenomen av det slaget illustreras på nästnästa sida, men först ska vi bekanta oss med "nolla-halloneffekten".


bakgrund - bakgrund | nästa sida - nästa sida