211service.com
Gesicht eines Roboters, Stimme eines Engels?
Das letzte Mal, als Sie gehört haben, wie ein Computer eine Textzeile in Sprache umwandelt, hat es wahrscheinlich geruckelt. Googles Abteilung für maschinelles Lernen, DeepMind, hat ein neues Sprachsynthesesystem mit künstlicher Intelligenz entwickelt, von dem sie glaubt, dass es die Situation verbessern wird.
Dass ein Computer den Klang einer Stimme erzeugt, ist keine neue Idee. Der vielleicht gebräuchlichste Ansatz besteht einfach darin, eine unglaublich große Auswahl an vorab aufgezeichneten Sprachfragmenten einer einzelnen Person zu verwenden. In einer Technik namens konkatenative Synthese werden diese zusammengesetzt, um größere Klänge, Wörter und Sätze zu erzeugen. Aus diesem Grund leiden viele computergenerierte Sprache oft unter Störungen, skurrilen Änderungen in der Intonation und Aussprachefehlern.
Der andere konkurrierende Ansatz verwendet mathematische Modelle, um bekannte Laute nachzubilden, die dann zu Wörtern und Sätzen zusammengesetzt werden. Dieser sogenannte parametrische Ansatz ist zwar weniger anfällig für Störungen, klingt aber am Ende roboterhaft. Was die beiden Ansätze jedoch vereint, ist, dass sie beide Klangstücke zusammenfügen, anstatt die gesamte Audio-Wellenform von Grund auf neu zu erstellen.
Doch genau das leistet der Ansatz von DeepMind. Die Convolutional Neural Networks von WaveNet werden gelehrt, indem sie mit Clips echter menschlicher Stimmen und den entsprechenden sprachlichen und phonetischen Merkmalen gefüttert werden, damit sie Muster identifizieren können, die die beiden verbinden. Im Gebrauch wird das System mit einer neuen Reihe von Tonmerkmalen versorgt, die aus einer Textzeile generiert werden; dann versucht es, die rohe Schallwelle zu erzeugen, um sie von Grund auf neu darzustellen. Dies geschieht schrittweise, wobei zuerst ein Sample der Schallwelle generiert wird, dann das nächste und das nächste – an jedem Punkt werden Informationen über die bereits erstellten Samples verwendet, um ein neues zu informieren.
Die Ergebnisse klingen überzeugend – hier kannst du sie dir selbst anhören . Im Vergleich zu den konkatenativen und parametrischen Ansätzen ist es merklich menschlicher.
Es gibt jedoch einen Haken: Die Technik erfordert eine Menge Rechenleistung. Da WaveNet die gesamte Wellenform erstellen muss, muss es seine neuronalen Netzwerkprozesse verwenden, um 16.000 Samples für jede Sekunde des produzierten Audios zu generieren (und selbst dann entspricht der Ton nur der Qualität des Tons, der über Telefon- oder VoIP-Anrufe gesendet wird). Laut einer DeepMind-Quelle, die sprach mit dem Finanzzeiten (Paywall), das heißt, es wird vorerst in keinem der Produkte von Google verwendet.
Dennoch ist es nicht das einzige Sprachproblem, mit dem Computer konfrontiert sind. Das Interpretieren von Sprache und geschriebenem Wort ist auch für Systeme der künstlichen Intelligenz notorisch schwierig. Wenn Computer das nötige Kleingeld aufbringen können, um wirklich intelligente Gedanken zu erzeugen, werden sie uns zumindest in diesem Tempo schwungvoll mitteilen können.
(Weiterlesen: DeepMind , Finanzzeiten , das Sprachproblem der KI )