Wie IBM Jeopardy gewinnen will!

Jahrzehntelang haben Menschen damit gekämpft, Maschinen zu schaffen, die der menschlichen Sprache mit all ihrer Unordnung, ihrem subtilen Kontext, ihrem Humor und ihrer Ironie Bedeutungen entziehen können. Herkömmliche Ansätze erfordern viel manuelle Arbeit im Vorfeld, um das Material für Computeralgorithmen verständlich zu machen. Das ultimative Ziel ist es, diesen Schritt überflüssig zu machen.





Was ist Watson? : IBM bereitet ein Computersystem in natürlicher Sprache vor, das in der Fernsehsendung Jeopardy!, die von Alex Trebek moderiert wird, gegen Menschen antreten wird.

IBM hofft, diesem Ziel mit Watson, einem Computersystem, das spielen wird, näher zu kommen Gefahr! , die beliebte TV-Quiz-Spielshow, gegen menschliche Teilnehmer. Demonstrationen des Systems werden in diesem Jahr erwartet, mit einem letzten im Fernsehen übertragenen Matchup – komplett mit der Moderation durch Alex Trebek der Show – irgendwann im nächsten Jahr. Fragen werden von Trebek laut gesprochen, aber während der Show im Textformat in die Maschine eingespeist.

Das Unternehmen hat noch keine Forschungspapiere veröffentlicht, in denen beschrieben wird, wie sein System angehen wird Gefahr! - Stilfragen. Aber David Ferrucci, der leitende IBM-Informatiker, erklärt, dass das System eine Frage in Stücke zerlegt, seine eigenen Datenbanken nach verwandtem Wissen durchsucht und dann schließlich Verbindungen herstellt, um ein Ergebnis zusammenzustellen. Watson ist nicht darauf ausgelegt, das Web zu durchsuchen, und das Endziel von IBM ist ein System, das es seinen Unternehmenskunden verkaufen kann, die große Mengen an Informationen leichter zugänglich machen müssen.



Ferrucci beschreibt, wie die Technologie folgendes handhaben würde Gefahr! -Stilfrage: Es ist die Oper, die in den Texten eines 1970er Nummer-Eins-Hits von Smokey Robinson and the Miracles erwähnt wird.

Die Watson-Engine verwendet Techniken zur Verarbeitung natürlicher Sprache, um die Frage in strukturelle Komponenten aufzuteilen. In diesem Fall umfassen die Stücke 1) eine Oper; 2) die Oper wird in einem Lied erwähnt; 3) das Lied war 1970 ein Hit; und 4) der Hit war von Smokey Robinson and the Miracles.

Beim Durchsuchen seiner Datenbanken nach Informationen, die für diese Segmente relevant sein könnten, kann das System Hunderte von Passagen finden. Dazu können die folgenden drei gehören:



Pagliacci, die Oper über einen Clown, der versucht, seine Gefühle zu verbergen;

Smokey Robinsons Motown-Hitplatte des ' 60er Tränen eines Clowns;

Tears of a Clown by the Miracles erreichte 1970 in Großbritannien Platz 1



Durch die Analyse dieser Passagen kann Watson Pagliacci als Oper identifizieren, obwohl dies allein nicht viel helfen würde, da viele andere Passagen auch Opernnamen identifizieren. Das zweite Ergebnis identifiziert eine Hit-Platte, The Tears of a Clown, von Smokey Robinson, die nach Ansicht des Systems wahrscheinlich dasselbe ist wie Smokey Robinson and the Miracles. Viele andere Songtitel würden jedoch auf ähnliche Weise generiert. Die Wahrscheinlichkeit, dass das Ergebnis stimmt, wird ebenfalls als gering eingeschätzt, da das Lied mit den 60er Jahren und nicht mit 1970 in Verbindung gebracht wird. Die dritte Passage bestärkt jedoch die Idee, dass The Tears of a Clown 1970 ein Hit war, vorausgesetzt das System stellt fest, dass sich The Miracles auf dasselbe bezieht wie Smokey Robinson and the Miracles.

Aus dem ersten dieser drei Passagen würde der Watson-Motor das wissen Clowns ist eine Oper über einen Clown, der seine Gefühle verbirgt. Um die Verbindung zu Smokey Robinson herzustellen, muss das System erkennen, dass Tränen stark mit Gefühlen verbunden sind, und da es das weiß Clowns handelt von einem Clown, der versucht, seine Gefühle zu verbergen, er vermutet – richtig – dass Clowns ist die Antwort. Natürlich kann das System immer noch die falsche Wahl treffen, je nachdem, wie die falschen Antworten durch die verfügbaren Beweise gestützt werden, sagt Ferrucci.

Für weniger ausgeklügelte natürlichsprachliche Systeme ist es einfach, sagt Ferrucci, zu dem Schluss zu kommen, dass The Tears of a Clown die Antwort ist, indem sie die Tatsache übersehen, dass die Anfrage nach einer Oper war, auf die sich dieses Lied bezieht. Eine solche Schlussfolgerung könnte durch Passagen ausgelöst werden, die viele Schlüsselwörter enthalten, die zur Frage passen.



Marti Hearst , Informatiker an der University of California, Berkeley, sagt, dass die Forscher im Bereich der Verarbeitung natürlicher Sprache bei dieser Aufgabe in den letzten zehn Jahren enorme Fortschritte gemacht haben. Sie fügt hinzu, dass das Watson-Frage-Antwort-System von IBM in einem Spiel gegen die Top-Menschen antritt Gefahr! ist eine unterhaltsame Möglichkeit, diesen Fortschritt zu veröffentlichen und zu präsentieren, aber sie weist auch auf den Mangel an veröffentlichten Forschungsergebnissen hin, die zur Prüfung zur Verfügung stehen.

In der Zwischenzeit wird die Defense Advanced Research Projects Agency (DARPA) in Kürze die Teilnehmer bekannt geben, die für die Teilnahme an einem fünfjähriger Forschungsaufwand Ziel ist es, den Stand der Verarbeitung natürlicher Sprache zu verbessern. Ich gehe davon aus, dass sich dieser ganze Bereich in den nächsten Jahren stark aufheizen wird, sagt Dan Weld, Informatiker an der University of Washington, der eine Gruppe leitet, die sich um die Teilnahme an der DARPA-Initiative beworben hat.

Ob IBMs Watson die Menschen schlägt oder nicht Gefahr! nächstes Jahr wird das DARPA-Projekt das Feld sicherlich voranbringen, sagt Weld. Wie die DARPA in ihrer Aufforderung zur Einreichung von Forschungsanträgen feststellte, sind die intelligentesten Sprachverarbeitungssysteme von heute eng fokussiert, während breiter ausgerichtete Systeme ungenauer sind. Die Beteiligung von DARPA wird sich auf die Forschung vieler Leute an Spitzenuniversitäten und Forschungslabors konzentrieren, um integrierte Systeme voranzutreiben, die tatsächlich eine breite Palette von Dokumenten lesen können, sagt Weld. Die meisten aktuellen Systeme lösen kleine Teile des Puzzles.

verbergen