Menschliche Übersetzer sind immer noch an der Spitze – vorerst

Sie haben vielleicht das Knallen von Sektkorken und den Schauer von Laufbändern verpasst, aber in den letzten Monaten haben Computerlinguisten begonnen zu behaupten, dass die neuronale maschinelle Übersetzung jetzt der Leistung menschlicher Übersetzer entspricht.





Die Technik der Verwendung eines neuronalen Netzes zur Übersetzung von Text von einer Sprache in eine andere hat sich in den letzten Jahren dank der anhaltenden Durchbrüche beim maschinellen Lernen und der künstlichen Intelligenz sprunghaft verbessert. So ist es nicht wirklich verwunderlich, dass sich Maschinen an die Leistungsfähigkeit des Menschen angenähert haben. Tatsächlich haben Computerlinguisten gute Beweise, um diese Behauptung zu untermauern.

Aber heute sagen Samuel Laubli von der Universität Zürich und ein paar Kollegen, dass der Champagner wieder auf Eis gehen sollte. Sie bestreiten die Ergebnisse ihrer Kollegen nicht, sagen aber, dass das Testprotokoll nicht berücksichtigt, wie Menschen ganze Dokumente lesen. Wenn dies bewertet wird, hinken Maschinen dem Menschen deutlich hinterher, heißt es.

Fraglich ist, wie die maschinelle Übersetzung zu bewerten ist. Dies geschieht derzeit anhand von zwei Maßstäben: Angemessenheit und Geläufigkeit. Die Angemessenheit einer Übersetzung wird von professionellen menschlichen Übersetzern bestimmt, die sowohl den Originaltext als auch die Übersetzung lesen, um zu sehen, wie gut sie die Bedeutung der Quelle wiedergeben. Die Geläufigkeit wird von einsprachigen Lesern beurteilt, die nur die Übersetzung sehen und feststellen, wie gut sie auf Englisch ausgedrückt wird.



Computerlinguisten sind sich einig, dass dieses System nützliche Bewertungen liefert. Laut Laubli und Co. vergleicht das aktuelle Protokoll Übersetzungen jedoch nur auf Satzebene, während Menschen Text auch auf Dokumentebene bewerten.

Daher haben sie ein neues Protokoll entwickelt, um die Leistung von maschinellen und menschlichen Übersetzern auf Dokumentenebene zu vergleichen. Sie baten professionelle Übersetzer zu beurteilen, wie gut Maschinen und Menschen über 100 Nachrichtenartikel aus dem Chinesischen ins Englische übersetzten. Die Prüfer bewerteten jede Übersetzung auf Satzebene, aber vor allem auch auf der Ebene des gesamten Dokuments auf Angemessenheit und Flüssigkeit.

Die Ergebnisse sorgen für eine interessante Lektüre. Zunächst einmal fanden Laubli und Co. keinen signifikanten Unterschied in der Art und Weise, wie professionelle Übersetzer die Angemessenheit von maschinell und von Menschen übersetzten Sätzen bewerteten. Durch diese Maßnahme sind Mensch und Maschine gleich gute Übersetzer, was sich mit bisherigen Erkenntnissen deckt.



Wenn es jedoch um die Bewertung des gesamten Dokuments geht, werden menschliche Übersetzungen als angemessener und flüssiger bewertet als maschinelle Übersetzungen. Menschliche Bewerter, die Angemessenheit und Geläufigkeit beurteilen, bevorzugen bei der Bewertung von Dokumenten die menschliche gegenüber der maschinellen Übersetzung stärker als einzelne Sätze, sagen sie.

Die Forscher glauben zu wissen, warum. Wir gehen davon aus, dass die Bewertung auf Dokumentebene Fehler wie die falsche Übersetzung eines mehrdeutigen Wortes oder Fehler im Zusammenhang mit textlicher Kohäsion und Kohärenz aufdeckt, die bei einer Bewertung auf Satzebene schwer oder unmöglich zu erkennen sind, heißt es.

Das Team nennt beispielsweise das Beispiel einer neuen App namens 微信挪 车, die von Menschen durchgängig als WeChat Move the Car übersetzt wird, die Maschinen jedoch häufig in demselben Artikel auf verschiedene Weise übersetzen. Maschinen übersetzen diesen Satz als Twitter Move Car, WeChat Mobile und WeChat Move. Diese Art von Inkonsistenz, sagen Laubli und Co., erschwert die Nachverfolgung von Dokumenten.



Dies deutet darauf hin, dass sich die Art und Weise, wie maschinelle Übersetzung bewertet wird, von einem System wegbewegen muss, bei dem Maschinen jeden Satz isoliert betrachten.

Da sich die Qualität der maschinellen Übersetzung verbessert, werden Übersetzungen in Bezug auf die Qualität schwieriger zu unterscheiden sein, und es könnte an der Zeit sein, auf die Bewertung auf Dokumentebene umzusteigen, was den Bewertern mehr Kontext zum Verständnis des Originaltextes und seiner Übersetzung bietet und auch damit verbundene Übersetzungsfehler aufdeckt auf Diskursphänomene, die bei einer Auswertung auf Satzebene unsichtbar bleiben, sagen Laubli und Co.

Diese Änderung sollte zur Verbesserung der maschinellen Übersetzung beitragen. Was bedeutet, dass es die menschliche Übersetzung immer noch übertreffen wird – nur noch nicht.



Ref: arxiv.org/abs/1808.07048 : Hat die maschinelle Übersetzung die menschliche Parität erreicht? Ein Fall für die Bewertung auf Dokumentenebene

verbergen