211service.com
Microsoft erweckt den Sprachübersetzer von Star Trek zum Leben
Es könnte das nächstbeste sein, eine neue Sprache zu lernen. Microsoft-Forscher haben eine Software demonstriert, die gesprochenes Englisch fast augenblicklich in gesprochenes Chinesisch übersetzt und dabei den einzigartigen Rhythmus der Stimme des Sprechers beibehält – ein Trick, der Gespräche effektiver und persönlicher machen könnte.
Die erste öffentliche Demonstration wurde von Rick Rashid , Chief Research Officer von Microsoft, am 25. Oktober bei einer Veranstaltung in Tianjin, China. Ich spreche Englisch und Sie werden meine Worte auf Chinesisch mit meiner eigenen Stimme hören, sagte Rashid dem Publikum. Das System funktioniert, indem es die Wörter einer Person erkennt, den Text schnell in richtig geordnete chinesische Sätze umwandelt und diese dann an eine Sprachsynthese-Software übergibt, die darauf trainiert wurde, die Stimme des Sprechers zu replizieren.
Videos, die von Zuschauern aufgenommen wurden, kursieren seit der Demonstration auf chinesischen Social-Media-Sites. Rashid präsentierte die Demonstration einem englischsprachigen Publikum in a Blogeintrag heute beinhaltet das ein Video.
Microsoft hat Anfang des Jahres erstmals eine Technologie demonstriert, die synthetisierte Sprache modifiziert, damit sie der Stimme einer Person entspricht (siehe Software übersetzt Ihre Stimme in eine andere Sprache). Aber dieses System war nur in der Lage, getippten Text zu sprechen. Die Software erfordert etwa eine Stunde Training, um Sprache in der Stimme einer Person zu synthetisieren, was durch die Anpassung eines Standard-Text-to-Speech-Modells geschieht, sodass bestimmte Geräusche auf die gleiche Weise wie der Sprecher erzeugt werden.
AT&T hat zuvor ein Live-Übersetzungssystem für Spanisch und Englisch gezeigt (siehe AT&T will Ihre Stimme für Apps verantwortlich machen), und Google ist dafür bekannt, seine eigenen experimentellen Live-Übersetzer entwickelt zu haben. Die von diesen Unternehmen entwickelten Prototypen sind jedoch nicht in der Lage, synthetisierte Sprache an den Klang der Stimme einer Person anzupassen.
Das Microsoft-System ist eine Demonstration der neuesten Spracherkennungstechnologie des Unternehmens, die auf einer Lernsoftware basiert, die der Funktionsweise von Netzwerken von Gehirnzellen nachempfunden ist. In einem Blogbeitrag über das Demonstrationssystem sagt Rashid, dass der Wechsel zu dieser Technologie den bedeutendsten Sprung in der Erkennungsgenauigkeit seit Jahrzehnten ermöglicht hat. Anstatt ein Wort von vier oder fünf falsch zu haben, liege die Fehlerrate jetzt bei einem Wort von sieben oder acht, schrieb er.
Microsoft ist nicht der Einzige, der nach neuronalen Netzen sucht, um die Spracherkennung zu verbessern. Google hat vor kurzem damit begonnen, seine eigene, auf neuronalen Netzwerken basierende Technologie in seinen Spracherkennungs-Apps und -Diensten zu verwenden (siehe Google Puts Its Virtual Brain Technology to Work). Die Übernahme dieses Ansatzes führte zu einer Verbesserung der Wortfehlerraten um 20 bis 25 Prozent, sagen die Ingenieure von Google.
Rashid teilte MIT Technology Review per E-Mail mit, dass er und die Forscher von Microsoft Research Asia in Peking das System noch nicht verwendet haben, um mit jemandem außerhalb des Unternehmens zu sprechen, aber die öffentliche Demonstration hat großes Interesse geweckt.
Was ich gesehen habe, ist eine Kombination aus Aufregung, Erstaunen und Optimismus hinsichtlich der Zukunft, die die Technologie bringen könnte, sagt er.
Rashid sagt, dass das System bei weitem nicht perfekt ist, stellt jedoch fest, dass es gut genug ist, um eine Kommunikation zu ermöglichen, wo sonst keine möglich wäre. Ingenieure, die bei Microsoft und Google an dem neuronalen Netzwerk-basierten Ansatz arbeiten, sind optimistisch, dass sie viel mehr Leistung aus der Technik herausholen können, da sie gerade erst eingesetzt wird.
Wir kennen die Grenzen der Genauigkeit dieser Technologie noch nicht – sie ist wirklich zu neu, sagt Rashid. Da wir das System weiterhin mit mehr Daten „trainieren“, scheint es immer besser zu werden.