211service.com
König – Mann + Frau = Königin: Die wunderbare Mathematik der Computerlinguistik
Die Computerlinguistik hat die Art und Weise, wie Forscher Sprache studieren und verstehen, dramatisch verändert. Die Fähigkeit, zum ersten Mal riesige Mengen von Wörtern zu berechnen, hat zu völlig neuen Denkweisen über Wörter und ihre Beziehung zueinander geführt.
Dieses Zahlen-Crunching zeigt genau, wie oft ein Wort in der Nähe anderer Wörter vorkommt, ein wichtiger Faktor dafür, wie sie verwendet werden. So kann das Wort Olympia in der Nähe von Wörtern wie Laufen, Springen und Werfen erscheinen, aber seltener neben Wörtern wie Elektron oder Stegosaurus. Diese Reihe von Beziehungen kann als mehrdimensionaler Vektor betrachtet werden, der beschreibt, wie das Wort Olympics innerhalb einer Sprache verwendet wird, die selbst als Vektorraum betrachtet werden kann.
Und darin liegt diese massive Veränderung. Dieser neue Ansatz ermöglicht es, Sprachen wie Vektorräume mit präzisen mathematischen Eigenschaften zu behandeln. Nun wird das Studium der Sprache zu einem Problem der Vektorraummathematik.
Heute erforschen Timothy Baldwin von der University of Melbourne in Australien und ein paar Freunde eine der merkwürdigen mathematischen Eigenschaften dieses Vektorraums: dass das Addieren und Subtrahieren von Vektoren einen anderen Vektor im selben Raum erzeugt.
Die Frage, der sie sich stellen, lautet: Was bedeuten diese zusammengesetzten Vektoren? Und bei der Erforschung dieser Frage stellen sie fest, dass der Unterschied zwischen Vektoren ein mächtiges Werkzeug ist, um die Sprache und die Beziehung zwischen Wörtern zu studieren.
Zuerst etwas Hintergrund. Der einfachste Weg, über Wörter nachzudenken und wie sie wie Vektoren addiert und subtrahiert werden können, ist ein Beispiel. Die bekannteste ist die folgende: König – Mann + Frau = Königin. Mit anderen Worten, das Hinzufügen der den Wörtern zugeordneten Vektoren König und Frau beim Subtrahieren Mann gleich dem zugeordneten Vektor ist Königin . Dies beschreibt ein Geschlechterverhältnis.
Ein anderes Beispiel ist: Paris – Frankreich + Polen = Warschau. In diesem Fall ist die Vektordifferenz zwischen Paris und Frankreich fängt das Konzept der Hauptstadt ein.
Baldwin und Co fragen, wie zuverlässig dieser Ansatz sein kann und wie weit er gehen kann. Dazu vergleichen sie, wie sich Vektorbeziehungen je nach untersuchtem Wortkorpus verändern. Funktionieren beispielsweise die gleichen Vektorbeziehungen im Wortkorpus von Wikipedia wie im Wortkorpus von Google News oder dem englischen Newswire von Reuters?
Um das herauszufinden, betrachten sie die Vektoren, die mit einer Reihe bekannter Beziehungen zwischen Wortklassen verbunden sind. Dazu gehören die Beziehung zwischen einer Entität und ihren Teilen, zum Beispiel Flugzeug und Cockpit; eine Aktion und das Objekt, das sie beinhaltet, wie Jagd und Hirsch; ein Substantiv und sein Sammelbegriff wie Ameise und Armee. Sie enthalten auch eine Reihe grammatikalischer Verknüpfungen – ein Substantiv und seinen Plural, wie z. B. Hund und Hunde, ein Verb und seine Vergangenheitsform, wie z. B. wissen und wussten; und ein Verb und seine dritte Person Plural wie akzeptieren und akzeptiert.
Die Ergebnisse sorgen für eine interessante Lektüre. Baldwin und Co sagen, dass die in diesen Beziehungen erfassten Vektorsummen im Allgemeinen enge Cluster in den Vektorräumen bilden, die jedem Korpus zugeordnet sind.
Es gibt jedoch einige interessante Ausreißer, bei denen Wörter mehr als eine Bedeutung haben und daher mehrdeutige Darstellungen in diesen Vektorräumen haben. Beispiele im Plural-Cluster der dritten Person umfassen Studie und Studien, Laufen und Läufe, Erhöhen und Erhöhen, alle Wörter, die Substantive und Verben sein können, was ihre Vektoren in diesen Räumen verzerrt.
Das ist eine interessante Arbeit, die diesen neuen Weg in der Untersuchung von Wörtern und ihren Beziehungen zueinander einschlägt. Dieses Papier ist das erste, das die Verallgemeinerbarkeit des Vektordifferenzansatzes über ein breites Spektrum lexikalischer Beziehungen testet, sagen sie.
Eine wichtige Frage, die Baldwin und Co. vernachlässigen, ist, wie dieses bessere Verständnis in der realen Welt genutzt werden könnte. Eine offensichtliche Antwort ist, Maschinen dabei zu helfen, die menschliche Sprache zu verstehen. Eine andere ist, bei der Sprachübersetzung zu helfen.
Es ist erwähnenswert, dass einer der Pioniere und treibenden Kräfte auf diesem Gebiet Google und sein Team für maschinelle Übersetzung sind. Diese Leute haben herausgefunden, dass eine Vektorbeziehung, die im Englischen erscheint, im Allgemeinen auch in Spanisch, Deutsch, Vietnamesisch und tatsächlich in allen Sprachen funktioniert.
So macht Google seine maschinelle Übersetzung. Im Wesentlichen betrachtet es einen Satz in zwei Sprachen als äquivalent, wenn seine Position in den Vektorräumen beider Sprachen gleich ist. Durch diesen Ansatz ist seine traditionelle Bedeutung fast irrelevant.
Aufgrund der Eigenart der Sprache gibt es jedoch zahlreiche Ausnahmen. Diese verursachen die Probleme für maschinelle Übersetzungsalgorithmen.
Das Auffinden von Wegen zum Erkennen der Mehrdeutigkeiten kann daher eine nützliche Möglichkeit darstellen, diese Probleme zu korrigieren.
Ref: arxiv.org/abs/1509.01692 : Take and Take, Gaggle and Goose, Book and Read: Bewertung der Nützlichkeit von Vektorunterschieden für das Lernen lexikalischer Beziehungen