211service.com
Die automatische Vervollständigung von Google für Sprache kann Störungen in Videoanrufen vertuschen
Kategorie: Künstliche Intelligenz Gesendet 06.04
Die Nachrichten: Da sich viele von uns jetzt auf Videoanrufe für die persönliche Interaktion verlassen, sind abgehackte Verbindungen frustrierender denn je. Eine künstliche Intelligenz, die die Sprechweise eines einzelnen Sprechers nachahmt, kann die Risse glätten, indem sie kleine Lücken mit Schnipseln generierter Sprache füllt. Die von einem Team bei Google entwickelte Technologie wird jetzt in verwendet Googles Videoanruf-App Duo .
Was ist das Problem? Wenn Sie ein Online-Gespräch führen, wird Ihre Stimme in viele winzige Stücke zerhackt, die in Datenblöcken, die als Pakete bezeichnet werden, über das Internet gezippt werden. Pakete kommen oft durcheinander am anderen Ende an und müssen von der Software neu geordnet werden. Aber manchmal kommen Pakete überhaupt nicht an, was zu Störungen und Lücken in einer Konversation führt. Das passiert zu den besten Zeiten. Laut Google müssen 99 % der Duo-Anrufe mit durcheinander geratenen oder verlorenen Paketen fertig werden. Ein Zehntel dieser Anrufe verliert mehr als 8 % des Tons.
Sprache erzeugen: Um das Problem zu beheben, baute das Team auf ein von DeepMind entwickeltes neuronales Netzwerk, das dies kann Realistische Sprache aus Text generieren . Das neue neuronale Netzwerk namens WaveNetEQ wurde dann mit einem großen Datensatz von 100 aufgezeichneten menschlichen Stimmen trainiert, die 48 verschiedene Sprachen sprachen, bis es kurze Sprachabschnitte basierend auf gemeinsamen Mustern in der Art und Weise, wie Menschen sprechen, automatisch vervollständigen konnte. Da Duo Ende-zu-Ende verschlüsselt ist, läuft die KI auf dem Gerät, nicht in der Cloud. Während eines Anrufs ist WaveNetEQ in der Lage, Eigenschaften der Stimme eines Sprechers zu lernen und Audioschnipsel zu generieren, die sowohl dem Stil als auch dem Inhalt dessen entsprechen, was der Sprecher sagt. Wenn ein Paket verloren geht, wird die von der KI generierte Stimme an seiner Stelle eingefügt.
Derzeit kann die KI nur Silben und keine ganzen Wörter oder Sätze generieren. Aber kurz Beispiele, die Google online gestellt hat zeigen, dass die Ergebnisse ziemlich lebensecht sein können. In einem Fall ersetzt die KI die zweite Silbe des Wortes Ärger durch eine Stimme, die den männlichen Sprecher genau nachahmt.