Das Deep-Learning-System von Baidu konkurriert mit Menschen bei der Spracherkennung

Chinas führendes Internetsuchunternehmen Baidu hat ein Sprachsystem entwickelt, das Englisch und Mandarin in einigen Fällen besser erkennen kann als Menschen.



Das neue System, genannt Tiefe Sprache 2 , ist besonders wichtig, da es sich bei der Übersetzung vollständig auf maschinelles Lernen stützt. Während ältere Spracherkennungssysteme viele handgefertigte Komponenten zur Unterstützung der Audioverarbeitung und -transkription enthalten, lernte das Baidu-System, Wörter von Grund auf zu erkennen, indem es einfach Tausende von Stunden transkribierter Audiodaten anhörte.

Die Technologie stützt sich auf eine leistungsstarke Technik namens Deep Learning, bei der ein sehr großes, vielschichtiges virtuelles Netzwerk von Neuronen trainiert wird, um Muster in riesigen Datenmengen zu erkennen. Die Baidu-App für Smartphones ermöglicht Benutzern die Suche per Sprache und enthält auch einen sprachgesteuerten persönlichen Assistenten namens Duer (siehe Baidu’s Duer Joins the Personal Assistant Party ). Sprachabfragen sind in China beliebter, weil die Texteingabe zeitaufwändiger ist und weil einige Leute nicht wissen, wie man Pinyin verwendet, das phonetische System zum Transkribieren von Mandarin mit lateinischen Buchstaben.



In der Vergangenheit betrachteten die Menschen Chinesisch und Englisch als zwei sehr unterschiedliche Sprachen, und daher mussten sehr unterschiedliche Funktionen entwickelt werden, sagt Andrew Ng, ehemaliger Stanford-Professor und Google-Forscher und jetzt Chefwissenschaftler des chinesischen Unternehmens. Die Lernalgorithmen sind mittlerweile so allgemein, dass man einfach lernen kann.



Deep Learning hat seine Wurzeln in Ideen, die vor mehr als 50 Jahren entwickelt wurden, aber in den letzten Jahren haben neue mathematische Techniken in Kombination mit größerer Computerleistung und riesigen Mengen an Trainingsdaten zu bemerkenswerten Fortschritten geführt, insbesondere bei Aufgaben, die eine Art von Aufgaben erfordern der visuellen oder auditiven Wahrnehmung. Die Technik hat bereits die Leistung der Spracherkennung und Bildverarbeitung verbessert, und große Unternehmen wie Google, Facebook und Baidu wenden sie auf die riesigen Datensätze an, die sie besitzen.

Auch Deep Learning wird für immer mehr Aufgaben eingesetzt. Facebook zum Beispiel verwendet Deep Learning, um Gesichter in den Bildern zu finden, die seine Benutzer hochladen. Und in jüngerer Zeit hat es Fortschritte bei der Verwendung von Deep Learning zum Analysieren von geschriebenem Text gemacht (siehe Maschinen beibringen, uns zu verstehen). Google nutzt Deep Learning mittlerweile in mehr als 100 verschiedenen Projekten, von der Suche bis hin zu selbstfahrenden Autos.

Im Jahr 2013 eröffnete Baidu eigene Anstrengungen, um diese neue Technologie zu nutzen, die Institut für tiefes Lernen , die sich am Hauptsitz des Unternehmens in Peking und im Silicon Valley befinden. Deep Speech 2 wurde hauptsächlich von einem Team in Kalifornien entwickelt.



Bei der Entwicklung von Deep Speech 2 hat Baidu auch eine neue Hardwarearchitektur für Deep Learning geschaffen, die siebenmal schneller läuft als die Vorgängerversion. Deep Learning setzt in der Regel auf Grafikprozessoren, weil diese gut für die intensiven parallelen Berechnungen sind.

Die erreichte Geschwindigkeit ermöglichte es uns, in viel größerem Umfang zu experimentieren, als dies zuvor möglich war, sagt er Jess Engel , ein Forscher bei Baidu und einer von mehr als 30 Forschern, die in einem Artikel über Deep Speech 2 genannt wurden. Wir konnten viele Architekturen [neuronaler Netzwerke] durchsuchen und die Wortfehlerrate um 40 Prozent reduzieren.

Ng fügt hinzu, dass dies kürzlich zu einigen beeindruckenden Ergebnissen geführt hat. Für kurze, aus dem Zusammenhang gerissene Sätze scheinen wir das menschliche Erkennungsniveau zu übertreffen, sagt er.



Er fügt hinzu: Auf Mandarin gibt es viele regionale Dialekte, die von viel kleineren Bevölkerungsgruppen gesprochen werden, also gibt es viel weniger Daten. Dies könnte uns helfen, die Dialekte besser zu erkennen.

verbergen