Persona Design für Sprachportale / Synthetische Sprachausgabe

Graph

Kein Blech

Heutige TTS-Maschinen haben nichts mehr mit blechernen Roboterstimmen gemein. Die besten unter ihnen wie zum Beispiel Rhetorical sind zwar noch als synthetische Stimme zu erkennen, haben aber den typisch abgehackten Roboter-Stil überwunden.

Ein Text durchläuft mehrere Verarbeitungsschritte. Zuerst werden Schreibweisen wie “9:00” in “neun Uhr”, “Str.” in “Straße”, “@” in “at” oder “.de” in “punkt de eh” umgewandelt. Im nächsten Schritt wird die Eingabe grammatisch interpretiert. So kann die TTS-Software beispielsweise unterscheiden, ob das englische “read” in der Gegenwartsform (mit langem Vokal) oder in der Vergangenheit (mit kurzem Vokal) auftaucht.

Anschließend wird der Text - entsprechend der Regeln in der jeweiligen Sprache - in Laute transkribiert. Die TTS-Engine sucht sich zu jedem transkribierte Element ein passendes Gegenstück aus einer Datenbank mit mehreren hundert Stunden gesprochener Sprache aus. Das kann ein einzelner Laut, aber auch ein ganzes Wort sein.
TTS-Demos
Rhetorical
Scansoft Speechify
Elan Tempo
Elan Sayso
Svox


Als nächstes wird aus diesen Bruchstücken eine zusammenhängende Aussage erzeugt. Dabei werden die einzelnen Elemente allerdings nicht einfach aneinander gereiht, sondern dienen als Schablone, nach der die Laute neu generiert werden. Dadurch kann die Engine auch nachträglich noch die Betonung eines Elementes ändern - zum Beispiel vom Senken der Stimme in einem Aussage-Satz zum Heben der Stimme in einem Fragesatz. Auf diese Weise wird eine besonders natürliche Abbildung der so genannten prosodischen Elemente der Sprache - also Rhythmus, Tonhöhe, Tonfall und Betonung - erreicht.

Die Anbieter von TTS-Software liefern eine bestimmten Satz von vorproduzierten Stimmen mit - in der Regel mindestens eine weibliche und eine männliche Stimme pro Sprache. Darüber hinaus gibt es für viele Sprachen auch diverse Akzente - britischen Englisch, amerikanisches Englisch, europäisches Spanisch, amerikanisches Spanisch und so weiter.

Um eine neue Stimme anzulegen, liest ein Sprecher dem System eine gewisse Menge an Beispielsätzen vor. Anhand dieser Eingabe synthetisiert die TTS-Engine später beliebige Äußerungen. Auf diese Weise lassen sich auch wiedererkennbare und prosodisch korekte Stimmen von Prominenten oder von bestimmten Mitarbeitern erzeugen.

<<

>>