Auch für Computer ist es schwer, Chinesisch zu lernen





Forscher nennen 2017 oft das Jahr des Konversationscomputers in China. Der E-Commerce-Riese Alibaba und der Suchriese Baidu nutzen die jüngsten Fortschritte bei der Spracherkennung und der Verarbeitung natürlicher Sprache und haben beide Technologien entwickelt, um die sprachbasierte Kommunikation zu knacken (siehe 10 Breakthrough Technologies: Conversational Interfaces .) Jetzt sind sprachgesteuerte Produkte von Baidu abgeleitet und Alibabas Technologie kommen auf den chinesischen Markt.

Der Tmall Genie, in den Alibabas Sprachassistent AliGenie integriert ist, ähnelt dem Amazon Echo. Es kann Online-Bestellungen aufgeben, das Wetter überprüfen, Ihre Lieblingsmusik abspielen und andere intelligente Geräte in Ihrem Zuhause über Sprachbefehle steuern.

Die Konversationsplattform DuerOS von Baidu wurde als Funktion in Produkten wie einem Heimassistenten-Roboter, einer TV-Set-Top-Box und einem HTC-Smartphone hinzugefügt. Es hat ähnliche Funktionen wie AliGenie und andere Sprachassistenten sowie rudimentäre Fähigkeiten, um einen zufälligen Chat zu führen, und das Unternehmen gibt an, eine große Anzahl von Bestellungen für sein DuerOS-Entwicklungskit erhalten zu haben.



Kun Jing, General Manager der Geschäftseinheit Duer von Baidu, erwartet, dass in diesem Jahr viele weitere Unternehmen in das Feld einsteigen werden, was teilweise durch den Erfolg von Produkten wie dem Echo auf dem US-Markt motiviert ist, der das Interesse chinesischer Technologieinvestoren geweckt hat.

Das Forschungsunternehmen IDC prognostiziert, dass bis 2020 51 Prozent der Smart-Driving-Industrie und 68 Prozent der Handy- und Wearables-Industrie in China über ein konversationsbasiertes KI-System verfügen werden. Genauso wie der Touchscreen die Interaktion mit einem mobilen Gerät ermöglicht so viel einfacher, Konversationsschnittstellen werden die Interaktion natürlicher machen und mehr Menschen in die vernetzte Welt ziehen, sagt Jing, der die Entwicklung von DuerOS überwacht.

Voice-based Computing ist eine gute Option für China. Heutzutage stützt sich das Tippen von Chinesisch auf einer typischen QWERTZ-Tastatur auf ein System namens Pinyin, das auf der Aussprache der Zeichen basiert, aber da es im Mandarin vier Töne gibt und jeder eine andere Bedeutung hat, muss der Benutzer das richtige Zeichen sorgfältig aus einem Dropdown-Menü auswählen nachdem Sie die Aussprache eingegeben haben. Eine gebräuchliche Silbe wie yi kann 60 oder mehr häufig verwendeten chinesischen Schriftzeichen entsprechen. Einige Eingabemethoden können das wahrscheinlichste Zeichen gemäß dem Kontext priorisieren, aber sie sind nicht immer genau. Es überrascht nicht, dass Benutzer mobiler Technologien wie der beliebten WeChat-Kommunikations-App dazu neigen, sich gegenseitig verbale Nachrichten zu hinterlassen, anstatt die in den USA typischen getippten Texte.



In China funktioniert die Sprachassistententechnologie heute, indem sie die Sprachbefehle eines Benutzers in Text umwandelt und eine Antwort basierend auf der Bedeutung des Textes generiert. Dieser Prozess funktioniert ziemlich gut für aufgabenbasierte Befehle – überprüfen Sie das Wetter oder suchen Sie nach der englischen Übersetzung eines bestimmten chinesischen Wortes –, aber er kann ein Hin-und-Her-Gespräch über mehrere Themen nicht aufrechterhalten.

Um Conversational Computing zu lösen, müssen einige der herausfordernden Komplexitäten der chinesischen Sprache überwunden werden. Im Chinesischen zum Beispiel bedeuten dieselben Zeichen in unterschiedlicher Reihenfolge unterschiedliche Dinge, und selbst wenn sie in derselben Reihenfolge angeordnet sind, können sie unterschiedliche Bedeutungen haben, je nachdem, was vor oder nach ihnen kommt. Darüber hinaus hat geschriebenes Chinesisch keine Leerzeichen, die Wörter auf natürliche Weise trennen, wie dies im Englischen der Fall ist. Chinesische Forscher zur Verarbeitung natürlicher Sprache müssen ihren Algorithmen also beibringen, wo sie Leerzeichen einfügen müssen, um die richtige Bedeutung einer bestimmten Zeichenkombination zu ermitteln. Das Fehlen chinesischer Zeitformen – es gibt keine eindeutigen Formen für Vergangenheit, Gegenwart oder Zukunft – macht es auch für Maschinen schwierig, die Zeitachse einer Sequenz zu entziffern.

Chinesische Natural-Language-Processing-Forscher stellen sich aber auch anderen Herausforderungen: Es gibt zahlreiche Dialekte, von denen einige untereinander nicht verständlich sind, und derselbe Ausdruck kann in verschiedenen Kontexten unterschiedliche Bedeutungen haben.



Zhiyong Wu, ein außerordentlicher Professor an der Tsinghua-Universität, der sich mit dem Verstehen natürlicher Sprache befasst, stellt fest, dass Computer, um die Absicht eines menschlichen Sprechers wirklich zu verstehen und angemessen zu kommunizieren, subtile Hinweise wie Intonation und Betonung erkennen müssen. Sie müssen auch Emotionen verstehen, da die menschliche Entscheidungsfindung nicht nur auf Logik basiert, bemerkt Jia Jia, außerordentlicher Professor an der Tsinghua-Universität, der sich mit Social Affective Computing befasst.

Um sein System intelligenter zu machen, hat Baidu in diesem Jahr einen Trainermodus auf seiner Plattform eingeführt, der es Softwareentwicklern ermöglicht, Sprachdaten in Echtzeit über einen integrierten Annotator-Bot beizutragen. Der Bot erhält Entwickler-Feedback (z. B. die Erklärung einer Frage, die das System beim ersten Mal nicht verstanden hat), lernt daraus und korrigiert dann das System.

Ein Vorteil chinesischer Forscher bei der Lösung dieser Probleme ist eine große Datenmenge. Die neuronalen Netze, die das Sprachverständnis heutiger Computer untermauern, benötigen zum Trainieren große Datenmengen. Je mehr Daten ein Unternehmen hat, desto intelligenter werden seine neuronalen Netzwerke, und Unternehmen wie Baidu und Alibaba profitieren von einer riesigen Benutzerbasis. Ende 2016 verzeichnete Baidu monatlich 665 Millionen aktive mobile Nutzer, und im März dieses Jahres hatte Alibaba 507 Millionen monatlich aktive mobile Nutzer.



Aber Gang Wang, ein Wissenschaftler bei Alibabas A.I. Lab, sagt, dass Forscher neuronale Netze entwerfen müssen, die nicht viele Daten benötigen, um beim Sprachenlernen effizienter zu werden. In der realen Welt drücken Menschen dieselbe Bedeutung auf unterschiedliche Weise aus, und es ist unmöglich, dem Computer jeden möglichen Ausdruck beizubringen, bemerkt er. In seiner früheren Rolle als akademischer Forscher entwickelten er und seine Kollegen eine Methode, um Computern beizubringen, ein Thema zu verstehen, wenn nur sehr wenige Daten verfügbar sind: Verwenden Sie Daten aus verwandten Themen. Um zum Beispiel ein neuronales Netz darauf zu trainieren, Texte in der Sportmedizin zu verstehen, könnte man auf Daten aus dem Sport und Daten aus der Medizin zurückgreifen. Der Ansatz ist nicht so gut wie die Verwendung organischer Daten, stellt Wang fest, aber wenn diese fehlen, ermöglicht er es, neuronale Netze zu einem Thema zu trainieren.

Was einen Sprachassistenten in China letztendlich erfolgreich machen wird, sind seine Inhalte und Dienste, sagt Chenfeng Song, Gründer von Ainemo, einem Startup, das einen sprachaktivierten Heimassistenten-Roboter namens Little Fish herstellt, der im Juni in den Handel kam. Song plant, Bildungs- und Gesundheitsprogramme schrittweise in die Haushaltshilfe seines Unternehmens einzubauen. Little Fish verwendet die Gesprächsplattform DuerOS. Laut Song ist Sprache eine Möglichkeit, Inhalte für Personen bereitzustellen, die über Desktop-Computer und Smartphones nicht sehr gut auf das Internet zugreifen können, insbesondere für ältere Menschen und kleine Kinder.

verbergen