Zur Geschichte der Sprachsynthese

Wolfgang von Kempelens sprechende Maschine

Die ersten Versuche, menschliche Sprache maschinell zu erzeugen, wurden in der zweiten Hälfte des 18. Jhdts. gemacht. Ch. G. Kratzenstein, Professor der Physiologie in Kopenhagen, vorher in Halle und Petersburg, gelang es, mit an Orgelpfeifen angeschlossenen Resonanzröhren Vokale hervorzubringen (1773). Um diese Zeit hatte auch Wolfgang von Kempelen schon mit Versuchen begonnen, die ihn zum Bau einer sprechenden Maschine führten. Von Kempelen war ein Ingenius im Dienste von Maria Theresia in Wien. Er wurde 1734 in Pressburg, der damaligen Hauptstadt von Ungarn, geboren und starb 1804 in Wien. Obwohl er mehr wegen anderer Taten berühmt wurde, war das Studium der menschlichen Sprachproduktion sein hauptsächliches Anliegen, wobei er auch therapeutische Anwendungen im Sinne hatte. Man hat ihn den ersten Experimentalphonetiker genannt. In seinem Buch Mechanismus der menschlichen Sprache nebst Beschreibung einer sprechenden Maschine (1791) beschrieb er auch seine Sprachmaschine ganz detailiert, damit andere sie nachbauen und verbessern mögen. Die hier unten rechts gezeigten sechs Zeichnungen sind diesem Buch entnommen. (Anklicken um vergrößert zu sehen - und zurück mit der entspr. Taste Ihres Browsers.)

Von Kempelens Maschine war die erste, mit der es möglich war, nicht nur einzelne Sprachlaute, sondern auch Wörter und kürzere Sätze hervorzubringen. Nach Kempelen kann man damit "in einer Zeit von drei Wochen eine bewundernswerte Fertigkeit im Spielen erlangen, besonders wenn man sich auf die lateinische, französische oder italienische Sprache verlegt, denn die deutsche ist ... um sehr vieles schwerer" (wegen der häufigen geschlossenen Silben und Konsonantenbündel).

Die Maschine besteht aus einem mit dem rechten Unterarm zu betätigenden Blasebalg, der die Lungen simuliert (oberste Zeichnung). Ein Gegengewicht sorgt dabei für das 'Einatmen'. Die zwei Zeichnungen darunter zeigen die 'Windlade' mit einigen Hebeln, die mit den Fingern der rechten Hand zu bedienen sind, sowie den aus Gummi angefertigten 'Mund' und die 'Nase' des Gerätes. Die beiden Nasenlöcher sind zuzuhalten, wenn nicht gerade ein Nasal hervorgebracht werden soll.

Der Luftstrom wird nicht nur über ein Rohrblatt, sondern auch durch ein parallel dazu angeordnetes enges Rohr in den Mund geführt. Das erlaubt den Anstieg des Luftdruckes in der Mundhöhle, wenn zur Hervorbringung stimmloser Sprachlaute die Öffnung des Ansatzrohres ganz verschlossen wird. Ein kleiner Blasebalg liefert dann einen extra Luftpuff beim Lösen des Verschlusses.

Mit der linken Hand können auch die Resonanzeigenschaften des Mundes durch variiertes Verdecken seiner Öffnung beeinflusst werden. Dadurch können einige Vokale und Konsonanten in hinreichender Weise simuliert werden. Dabei handelt es sich also nicht um eine Nachahmung der natürlichen Artikulation, denn die Form des Ansatzrohres der Maschine ist an sich unveränderlich. Manche Vokale und insbesondere die Konsonanten [d t g k] können damit nicht nachgeahmt, sondern bestenfalls vorgetäuscht werden. Ein [l] wird dadurch hervorgebracht, dass man den Daumen in den Mund steckt.

Die Funktion der Stimmlippen wird durch ein aufschlagendes Rohrblatt aus Elfenbein simuliert (linke Zeichnung). Die im Buch beschriebene Version sprach zwar noch monoton, aber es gab schon die Möglichkeit, die effektive Länge des Rohrblattes und damit die Stimmlage zu verändern.

Zwei der von der rechten Hand zu betätigenden Hebel dienen der Erzeugung der Frikative [s] und [] sowie [z] und [] mittels separater, zischender Pfeifen (Zeichnung rechts). Ein rasselndes [R] wird durch eine Vorrichtung erzeugt, die einen Draht auf das schwingende Rohrblatt fallen lässt (Zeichnung in der Mitte).

Die letzte Ausführung der Maschine von Kempelens ist bis zum heutigen Tage erhalten. Sie wurde bis 1906 im k. k. Konservatorium für Musik in Wien aufbewahrt und dann als Stiftung an das nur drei Jahre zuvor gegründete Deutsche Museum (von Meisterwerken der Naturwissenschaft und Technik) in München übergeben. Dort ist sie seither in der Abteilung für Musikinstrumente ausgestellt. Dieses Gerät unterscheidet sich von der im Buch beschriebenen Ausführung darin, dass die schwingende Länge des Rohrblattes mit einer von der rechten Handfläche zu betätigenden Klinke variiert werden kann. Damit kann dann versucht werden, einen natürlichen Verlauf der Intonation zu simulieren.

Anblick Einblick

Wolfgang von Kempelens sprechende Maschine, wie sie im Deutschen Museum in München zu sehen ist, und von oben gesehen, mit abgenommenem Deckel des Kastens. Ansichten des Lautbildungsmechanismus

Am 8. Juli 1997 genoss ich das Privilegium, Kempelens Maschine ausprobieren zu dürfen. Ihr Stimmgebungsmechanismus funktionierte noch, und auch die Tonhöhenregelung hatte noch eine Wirkung. Die Stimme war der eines Kindes ähnlich und ziemlich laut. Mehrere wesentliche Details des Gerätes waren aber nicht mehr in funktionsfähigem Zustand.

Eine von Wheatstone 1835 in Dublin demonstrierte Nachbildung der Maschine wich von der in Kempelens Buch beschriebenen darin ab, dass sie mit einem formbaren Ansatzrohr und mit einem Hebel zum Unterdrücken der Stimme versehen war, aber es fehlte ihr der Mechanismus zur Tohöhenvariation Kempelens letzter Version.

Im 19. Jhdt. wurden zwar einige weitere Maschinen ähnlicher Art konstruiert, aber grundsätzliche Neuerungen auf dem Gebiet der Sprachsynthese sind für dieses Jahrhundert eigentlich nicht zu verzeichnen. Erwähnenswert ist aber das von Joseph Faber in 1835 vorgestellte Gerät, das im Vergleich mit Kempelens Maschine insofern einen Fortschritt darstellte, als es auch eine Zunge und einen formveränderlichen Rachenraum hatte und außerdem zur Synthese von Gesang geeignet war. Sein Blasebalg wurde über ein Fußpedal getrieben, und die sonstige Bedienung erfolgte über eine Klaviatur.

Joseph Fabers "Euphonia", wie sie 1846 in London zur Schau gestellt wurde. Die Maschine erzeugte gewöhnliche und geflüsterte Sprache sowie Gesang, u.a. die Hymne "God Save the Queen".

Noch 1937 baute R. R. Riesz (USA) ein Gerät ähnlicher Konzeption wie Kempelens, aber mit im wesentlichen naturgetreuer Form des Ansatzrohres.

Das von Riesz (1937) konstruierte mechanische Modell der Spracherzeugung.

Obwohl schon Kempelen zur Einsicht gekommen war, dass man nur ein Ansatzrohr verwenden soll, wenn man kontinuierliche Sprache hervorbringen will, sind für andere Zwecke Geräte mit separaten Resonatoren für jeweils einen Vokal auch mehr als hundert Jahre später noch gebaut worden. Einen gewissen Anreiz haben die Sirènes a voyelles et résonateurs buccaux von G.R.M. Marage (Paris, 1900).

Homer Dudleys VODER

Die Entwicklung der Elektrotechnik am Anfang des 20. Jahrhunderts ermöglichte es, Sprachschall auf elektrischem Wege hervorzubringen. Das erste Gerät dieser Art, das einiges Aufsehen erregte, war der von Homer Dudley entwickelte VODER, der 1939 auf der Weltausstellung in New York der Öffentlichkeit vorgestellt wurde. Dieser erforderte aber eine sehr lange Übungszeit, um ihn erfolgreich bedienen zu können.

Funktionsschema des VODERs und die Präsentation des Gerätes auf der Weltausstellung 1939.

Good evening, radio audience. Good afternoon, radio audience. (Voder, .wav) .aiff (381 kB)

Manuell bediente Sprachsynthesegeräte wie Kempelens und der VODER dienten hauptsächlich dem Zweck der Unterhaltung, aber sie hatten doch einen tiefsinnigeren Hintergrund. Kempelens Gerät entstand parallel mit seinem Studium der menschlichen Spracherzeugung, und Dudleys Gerät wurde aus dem VOCODER (Voice Coder) entwickelt, dessen Zweck es war, bei telefonischer Übertragung der Sprache die erforderliche Bandbreite zu verringern, so dass eine größere Anzahl von Ferngesprächen über eine gegebene Telefonleitung geführt werden kann.

Frank Coopers Pattern Playback

Ein Sprachsynthesesystem ganz anderer Art war der Pattern Playback. Dieses Gerät wurde 1950 von Frank Cooper in den Haskins Labs fertiggestellt, und es diente der Untersuchung der Wahrnehmung der Sprache. Sein Funktionsprinzip ist das eines inversen Lautspektrogafen.

Eine Lichtquelle erzeugt einen Strahl, der radial auf eine rotierende Scheibe auftrifft. Die Scheibe hat 50 konzentrische Tonspuren, wie bei einem Tonfilm, durch welche 50 Teiltöne mit einer Grundfrequenz von 120 Hz abgebildet werden. Das so modulierte Licht wird auf ein Spektrogram projiziert, dessen Reflektanz oder, bei anderer Betriebsweise, dessen Lichtdurchlässigkeit dem Schallpegel der Teiltöne entspricht, und einer Photozelle zugeführt, mit der die Lichtschwankungen schließlich in Schalldruckschwankungen umgewandelt werden. Das Spektrogram wird dabei über Rollen am Lichtstrahl vorbeibewegt. Damit erhält man ein dem ursprünglichen Sprachsignal ähnliches, aber jedenfalls monotones Schallsignal. An Stelle von richtigen Spektrogrammen kann man aber auch von Hand mit weißer Farbe gemalte "Spektrogramme" verwenden. Durch Perzeptionsexperimente mit derart generierten Signalen sind eine Reihe von neuen Erkenntnissen über die perzeptuelle Rolle verschiedener Einzelheiten in Schallspektren erhalten worden.

These days ... It's easy to tell ... Four hours ... (Pattern Playback, .wav) .aiff (237 kB)

Elektrische Modelle der Sprachproduktion

Bei den Modellen, die seit 1950 von mehreren Forschern entwickelt worden sind, wird das Signal von einer elektrisch simulierten Schallquelle durch ein Filter geschickt. Das Quellensignal ist entweder ein periodischer Klang, wie bei den Stimmhaften Sprachlauten, oder aperiodisches Rauschen.

Mit dem Filter werden die Resonanzeigenschaften des Vokaltraktes simuliert. Dabei kann man zwei Typen unterscheiden. Bei dem einen wird die Artikulation mit einer großen Anzahl in Serie gekoppelter elektrischer Kreise simuliert, die jeweils eine kurzes Stück des Ansatzrohres (z.B. 5 mm) repräsentieren, wobei dessen Querschnittsfläche entscheidend ist (Leitungsanalog, transmission line analog). Bei dem anderen werden die Formanten, also die Resonanzen des Ansatzrohres, direkt durch jeweils einen Kreis simuliert (Formantsynthese, terminal analog).

Gunnar Fant, von der Kgl. Technischen Hochschule in Stockholm, mit seinem OVE, ein Formantsynthesegerät für Vokale, bei dem die Frequenzlage der zwei wichtigsten Formanten mit einer Führungsvorrichtung manuell variiert werden konnte.

How are you? I love you! (OVE, .wav) .aiff (77 kB)

Mit dem Parametric Artificial Taker von Walter Lawrence (1953) konnte man auch vollwertige Konsonanten hervorbringen.

What did you say before that? ... (PAT, .wav) .aiff (117 kB)

Computergesteuerte Sprachsynthese

Seit 1970 war die weitere Entwicklung der Sprachsynthesetechnik eng mit der der elektronischen Datenverarbeitung verknüpft. Man simulierte jetzt nicht mehr nur die natürliche Sprachproduktion mit elektrischen Kreisen, sondern diese elektrischen Kreise wurden ihrerseits auch wieder nur simuliert. Computer machten es möglich, Sprachsynthese für praktische Zwecke einzusetzen, und es wurden verschiedene Systeme zur Umwandlung von Text in Sprache entwickelt.

Auch die naheliegende Idee, Sprache durch Verkettung gespeicherter Wörter oder kürzerer Segmente zu produzieren, ist aufgegriffen worden. Einzelne Sprachlaute kann man jedoch nicht ohne weiteres erfolgreich zu Wörtern und Sätzen verketten, weil die akustischen Eigenschaften eines Sprachlautes von seiner jeweiligen lautlichen Umgebung mitbestimmt werden. Besser geht es mit sogenannten Diphonen, die aus der zweiten Hälfte eines Sprachlautes und der ersten des folgenden bestehen. Das ergibt dann aber eine große Anzahl von Elementen, die zu speichern sind. Mit solchen Verkettungsmethoden lässt sich eine hohe Natürlichkeit erzielen, ohne eine vollständige Beschreibung ihrer akustischen Grundlage zu erfordern. Diesen Methoden fehlt aber die Flexibilität der regelgesteuerten Synthese.

Beim heutigen Stand der Technik ist die Grenze der erzielbaren Verständlichkeit und Natürlichkeit synthetischer Sprache kaum noch durch Faktoren technischer Art, sondern vielmehr durch unser begrenztes Wissen über die Akustik und Perzeption der Sprache gegeben. In der Forschung kann Sprachsynthese verwendet werden, um dieses Wissen zu testen. Es gibt jetzt automatische Methoden zur akustischen Analyse und Wiedersynthese von Sprache. Man kann dabei vor der Wiedersynthese gewisse Eingriffe machen, und z.B. versuchen, das scheinbare Alter des Sprechers zu verändern. Der Erfolg hängt davon ab, wie gut man die dabei wesentlichen Faktoren kennt. Hören Sie sich solche Manipulationen doch mal an, und beurteilen Sie selbst, inwieweit sie gelungen sind: Manipulations in speaker age and sex (schwedische Beispiele).

Hier noch einige Hinweise zu diesem Thema

Literatur:

Wolfgang von Kempelen (1791) Mechanismus der menschlichen Sprache nebst Beschreibung einer sprechenden Maschine, Wien: J.V. Degen, daselbst auch in französisch erschienen, Le Méchanisme de la parole, suivi de la description d'une machine parlante. Ein Faksimile-Neudruck der deutschsprachigen Version, mit einer Einleitung von Herbert E. Brekle und Wolfgang Wildgren, ist 1970 bei Frommann-Holzboog in Stuttgart erschienen. Es gibt auch neuere Übersetzungen ins Ungarische und Slowakische.

James L. Flanagan (1965) Speech Analysis: Synthesis and Perception, Berlin: Springer.

Jens-Peter Köster (1973) Historische Entwicklung von Syntheseapparaten zur Erzeugung statischer und vokalartiger Signale nebst Untersuchungen zur Synthese deutscher Vokale (Dissertation), Hamburg: H. Buske.

Dennis H. Klatt (1987) Review of text-to-speech conversion for English, Journal of the Acoustical Society of America, 82: 737 - 793.

Joachim Gessinger (1994) Auge & Ohr. Studien zur Erforschung der Sprache am Menschen 1700-1850, Berlin, N.Y.: De Gruyter. Hartmut Traunmüller | Abt. für Phonetik | Inst. für Linguistik | Stockholms Universität | im August 1997.