211service.com
Das Sprachproblem der KI
Maschinen, die Sprache wirklich verstehen, wären unglaublich nützlich. Aber wir wissen nicht, wie man sie baut. 9. August 2016
Ungefähr zur Hälfte eines besonders angespannten Go-Spiels, das in Seoul, Südkorea, zwischen Lee Sedol, einem der besten Spieler aller Zeiten, und AlphaGo, einer von Google entwickelten künstlichen Intelligenz, stattfand, machte das KI-Programm einen mysteriösen Schritt, der nervtötend war Vorteil gegenüber seinem menschlichen Gegner.
Im 37. Zug entschied sich AlphaGo dafür, einen schwarzen Stein in eine zunächst lächerlich erscheinende Position zu setzen. Es sah so aus, als würde es ein beträchtliches Territorium aufgeben – ein Anfängerfehler in einem Spiel, bei dem es nur darum geht, den Raum auf dem Brett zu kontrollieren. Zwei Fernsehkommentatoren fragten sich, ob sie den Umzug falsch verstanden hatten oder ob die Maschine irgendwie versagt hatte. Tatsächlich würde Zug 37 es AlphaGo im Gegensatz zu jeder herkömmlichen Meinung ermöglichen, eine beeindruckende Grundlage in der Mitte des Bretts aufzubauen. Das Google-Programm hatte das Spiel mit einem Zug gewonnen, auf den kein Mensch gekommen wäre.
Über die Kunst
-
Ein Grund dafür, dass das Verstehen von Sprache für Computer und KI-Systeme so schwierig ist, ist, dass Wörter oft eine Bedeutung haben, die auf dem Kontext und sogar dem Aussehen der Buchstaben und Wörter basiert. In den Bildern, die diese Geschichte begleiten, demonstrieren mehrere Künstler die Verwendung einer Vielzahl von visuellen Hinweisen, um Bedeutungen zu vermitteln, die weit über die eigentlichen Buchstaben hinausgehen.
Diese Geschichte war Teil unserer Ausgabe vom September 2016
- Siehe den Rest des Problems
- Abonnieren
Der Sieg von AlphaGo ist besonders beeindruckend, weil das alte Go-Spiel oft als Test der intuitiven Intelligenz angesehen wird. Die Regeln sind ganz einfach. Zwei Spieler legen abwechselnd schwarze oder weiße Steine an den Schnittpunkt horizontaler und vertikaler Linien auf einem Brett und versuchen, die gegnerischen Figuren zu umzingeln und sie aus dem Spiel zu entfernen. Gut zu spielen ist jedoch unglaublich schwer.
Während Schachspieler ein paar Züge vorausschauen können, ist dies bei Go nicht möglich, ohne dass sich das Spiel in unlösbare Komplexität entfaltet, und es gibt keine klassischen Gambits. Es gibt auch keine einfache Möglichkeit, den Vorteil zu messen, und es kann sogar für einen erfahrenen Spieler schwierig sein, genau zu erklären, warum er oder sie einen bestimmten Zug gemacht hat. Dies macht es unmöglich, einen einfachen Satz von Regeln zu schreiben, die ein Computerprogramm auf Expertenebene befolgen kann.
AlphaGo wurde überhaupt nicht gesagt, wie man Go spielt. Stattdessen analysierte das Programm Hunderttausende von Spielen und spielte Millionen von Matches gegen sich selbst. Unter mehreren KI-Techniken wurde eine immer beliebtere Methode verwendet, die als Deep Learning bekannt ist und mathematische Berechnungen beinhaltet, die sehr locker von der Art und Weise inspiriert sind, wie miteinander verbundene Schichten von Neuronen in einem Gehirn feuern, wenn es lernt, neue Informationen zu verstehen. Das Programm hat sich durch stundenlanges Üben selbst beigebracht und nach und nach ein intuitives Gespür für Strategie verfeinert. Dass es dann einen der weltbesten Go-Spieler schlagen konnte, ist ein echter Meilenstein in der maschinellen Intelligenz und KI.

Lawrence Weiner
Ein Gummiball, der auf das Meer geworfen wird
1970 / 2014
Ein paar Stunden nach Zug 37 gewann AlphaGo die Partie und ging im Best-of-Five-Match zwei Partien zu null in Führung. Danach stand Sedol vor einer Menge Journalisten und Fotografen und entschuldigte sich höflich dafür, dass er die Menschheit im Stich gelassen hatte. Ich bin ziemlich sprachlos, sagte er und blinzelte durch einen Sturm von Blitzlichtaufnahmen.
Der überraschende Erfolg von AlphaGo zeigt, wie viel Fortschritt in der künstlichen Intelligenz in den letzten Jahren gemacht wurde, nach Jahrzehnten der Frustration und Rückschläge, die oft als KI-Winter bezeichnet werden. Deep Learning bedeutet, dass Maschinen sich zunehmend selbst beibringen können, komplexe Aufgaben auszuführen, von denen noch vor wenigen Jahren angenommen wurde, dass sie die einzigartige Intelligenz des Menschen erfordern. Selbstfahrende Autos sind bereits eine absehbare Möglichkeit. In naher Zukunft werden auf Deep Learning basierende Systeme helfen, Krankheiten zu diagnostizieren und Behandlungen zu empfehlen.
Deep Learning bedeutet, dass Maschinen sich zunehmend selbst beibringen können, komplexe Aufgaben auszuführen, von denen noch vor wenigen Jahren angenommen wurde, dass sie die einzigartige Intelligenz des Menschen erfordern.
Doch trotz dieser beeindruckenden Fortschritte bleibt eine grundlegende Fähigkeit schwer fassbar: Sprache. Systeme wie Siri und Watson von IBM können einfachen gesprochenen oder getippten Befehlen folgen und grundlegende Fragen beantworten, aber sie können keine Unterhaltung führen und haben kein wirkliches Verständnis der von ihnen verwendeten Wörter. Wenn KI wirklich transformativ sein soll, muss sich dies ändern.
Auch wenn AlphaGo nicht sprechen kann, enthält es Technologie, die zu einem besseren Sprachverständnis führen könnte. Bei Unternehmen wie Google, Facebook und Amazon sowie in führenden akademischen KI-Laboren versuchen Forscher, dieses scheinbar unlösbare Problem endlich zu lösen, indem sie einige der gleichen KI-Tools – einschließlich Deep Learning – verwenden, die für den Erfolg von AlphaGo verantwortlich sind die heutige KI-Wiederbelebung. Ob sie erfolgreich sind, wird das Ausmaß und den Charakter dessen bestimmen, was sich zu einer Revolution der künstlichen Intelligenz entwickelt. Es wird dabei helfen festzustellen, ob wir Maschinen haben, mit denen wir leicht kommunizieren können – Maschinen, die zu einem intimen Teil unseres Alltags werden – oder ob KI-Systeme mysteriöse Black Boxes bleiben, selbst wenn sie autonomer werden. Es gibt keine Möglichkeit, ein menschenähnliches KI-System zu haben, das keine Sprache im Kern hat, sagt Josh Tenenbaum, Professor für Kognitionswissenschaft und Berechnung am MIT. Es ist eines der offensichtlichsten Dinge, die die menschliche Intelligenz auszeichnen.
Vielleicht werden die gleichen Techniken, die AlphaGo Go erobern ließen, Computer endlich in die Lage versetzen, die Sprache zu beherrschen, oder vielleicht wird auch noch etwas anderes erforderlich sein. Aber ohne Sprachverständnis wird die Wirkung von KI anders sein. Natürlich können wir immer noch immens leistungsstarke und intelligente Software wie AlphaGo haben. Aber unsere Beziehung zur KI ist möglicherweise weit weniger kooperativ und vielleicht weit weniger freundlich. Eine quälende Frage war von Anfang an: „Was wäre, wenn Sie Dinge hätten, die intelligent im Sinne von effektiv sind, aber nicht wie wir im Sinne von nicht mitfühlen, was wir sind?“, sagt Terry Winograd, emeritierter Professor an der Stanford University. Sie können sich Maschinen vorstellen, die nicht auf menschlicher Intelligenz basieren, die auf diesem Big-Data-Zeug basieren und die die Welt regieren.
Maschinenflüsterer
Ein paar Monate nach dem Triumph von AlphaGo reiste ich ins Silicon Valley, das Herz des jüngsten Booms der künstlichen Intelligenz. Ich wollte die Forscher besuchen, die bemerkenswerte Fortschritte bei der praktischen Anwendung von KI machen und die jetzt versuchen, Maschinen ein besseres Sprachverständnis zu vermitteln.
Ich begann mit Winograd, der in einem Vorort am südlichen Rand des Stanford-Campus in Palo Alto lebt, nicht weit von den Hauptsitzen von Google, Facebook und Apple entfernt. Mit seinen weißen Locken und dem buschigen Schnurrbart wirkt er wie ein ehrwürdiger Akademiker und hat eine ansteckende Begeisterung.
Bereits 1968 unternahm Winograd einen der frühesten Versuche, einer Maschine das intelligente Sprechen beizubringen. Als mathematisches Wunderkind, das von Sprache fasziniert war, kam er in das neue KI-Labor des MIT, um für seine Promotion zu studieren, und er beschloss, ein Programm zu entwickeln, das sich mit Menschen über eine Texteingabeaufforderung in Alltagssprache unterhalten würde. Es schien damals kein ausgefallener Ehrgeiz zu sein. In der KI wurden unglaubliche Fortschritte gemacht, und andere am MIT bauten komplexe Computer-Vision-Systeme und futuristische Roboterarme. Es gab ein Gefühl von unbekannten, unbegrenzten Möglichkeiten, erinnert er sich.

Josef Kosuth
Vier Farben vier Wörter
1966
Allerdings waren nicht alle davon überzeugt, dass Sprache so einfach zu beherrschen sei. Einige Kritiker, darunter der einflussreiche Linguist und MIT-Professor Noam Chomsky, waren der Meinung, dass die KI-Forscher Schwierigkeiten haben würden, Maschinen zum Verständnis zu bringen, da die Mechanik der Sprache beim Menschen so schlecht verstanden sei. Winograd erinnert sich an eine Party, bei der ein Schüler von Chomsky wegging, als er ihn sagen hörte, dass er im KI-Labor arbeite.
Aber es gab auch Grund zum Optimismus. Joseph Weizenbaum, ein in Deutschland geborener Professor am MIT, hatte einige Jahre zuvor das allererste Chatbot-Programm entwickelt. Es hieß ELIZA und war so programmiert, dass es sich wie ein Cartoon-Psychotherapeut verhielt, wichtige Teile einer Aussage wiederholte oder Fragen stellte, um zu weiteren Gesprächen anzuregen. Wenn Sie dem Programm zum Beispiel sagten, Sie seien wütend auf Ihre Mutter, würde es sagen: Was fällt Ihnen noch ein, wenn Sie an Ihre Mutter denken? Ein billiger Trick, der aber überraschend gut funktionierte. Weizenbaum war schockiert, als einige Probanden anfingen, seiner Maschine ihre dunkelsten Geheimnisse zu gestehen.
Es gibt ein offensichtliches Problem bei der Anwendung von Deep Learning auf Sprache. Wörter sind willkürliche Symbole und unterscheiden sich daher grundlegend von Bildern.
Winograd wollte etwas schaffen, das die Sprache wirklich zu verstehen schien. Er begann damit, den Umfang des Problems einzuschränken. Er schuf eine einfache virtuelle Umgebung, eine Blockwelt, bestehend aus einer Handvoll imaginärer Objekte, die auf einem imaginären Tisch sitzen. Dann erstellte er ein Programm, die er SHRDLU nannte , das in der Lage war, alle Substantive, Verben und einfachen Grammatikregeln zu analysieren, die erforderlich sind, um sich auf diese abgespeckte virtuelle Welt zu beziehen. SHRDLU (ein unsinniges Wort, das aus der zweiten Tastenspalte einer Linotype-Maschine gebildet wird) konnte die Objekte beschreiben, Fragen zu ihren Beziehungen beantworten und als Reaktion auf getippte Befehle Änderungen an der Blockwelt vornehmen. Es hatte sogar eine Art Gedächtnis, so dass es, wenn Sie ihm sagten, es solle den roten Kegel bewegen, und sich später auf den Kegel bezog, annehmen würde, dass Sie eher den roten als einen andersfarbigen meinten.
SHRDLU wurde als Zeichen dafür hochgehalten, dass der Bereich der KI tiefgreifende Fortschritte mache. Aber es war nur eine Illusion. Als Winograd versuchte, die Blockwelt des Programms zu vergrößern, wurden die Regeln, die erforderlich waren, um die erforderlichen Wörter und die grammatikalische Komplexität zu berücksichtigen, unüberschaubar. Nur wenige Jahre später hatte er aufgegeben und schließlich die KI ganz aufgegeben, um sich anderen Forschungsgebieten zu widmen. Die Grenzen waren viel enger, als es damals schien, sagt er.
Winograd kam zu dem Schluss, dass es unmöglich sei, Maschinen mit den damals verfügbaren Werkzeugen ein echtes Sprachverständnis zu vermitteln. Das Problem, wie Hubert Dreyfus, Professor für Philosophie an der UC Berkeley, in einem Buch von 1972 mit dem Titel argumentierte Was Computer nicht können , ist, dass viele Dinge, die Menschen tun, eine Art instinktive Intelligenz erfordern, die nicht mit festen Regeln erfasst werden kann. Genau aus diesem Grund bezweifelten viele Experten vor dem Match zwischen Sedol und AlphaGo, dass Maschinen Go beherrschen würden.

Johannes Baldessari
Pure Schönheit
1966–68
Aber noch während Dreyfus dieses Argument vorbrachte, entwickelten einige Forscher tatsächlich einen Ansatz, der Maschinen schließlich diese Art von Intelligenz verleihen würde. Sie ließen sich von der Neurowissenschaft inspirieren und experimentierten mit künstlichen neuronalen Netzen – Schichten mathematisch simulierter Neuronen, die darauf trainiert werden konnten, als Reaktion auf bestimmte Eingaben zu feuern. Zunächst waren diese Systeme schmerzhaft langsam, und der Ansatz wurde als unpraktisch für Logik und Argumentation abgetan. Entscheidend ist jedoch, dass neuronale Netze lernen konnten, Dinge zu tun, die nicht von Hand codiert werden konnten, und dies würde sich später für einfache Aufgaben als nützlich erweisen, wie das Erkennen handgeschriebener Zeichen, eine Fähigkeit, die in den 1990er Jahren kommerzialisiert wurde, um die Zahlen auf Schecks zu lesen. Befürworter behaupteten, dass neuronale Netze es Maschinen schließlich ermöglichen würden, viel, viel mehr zu tun. Eines Tages, so behaupteten sie, würde die Technologie sogar Sprache verstehen.
In den letzten Jahren sind neuronale Netze erheblich komplexer und leistungsfähiger geworden. Der Ansatz hat von wichtigen mathematischen Verfeinerungen und, was noch wichtiger ist, schnellerer Computerhardware und Unmengen von Daten profitiert. Bis 2009 hatten Forscher der University of Toronto gezeigt, dass ein vielschichtiges Deep-Learning-Netzwerk Sprache mit Rekordgenauigkeit erkennen kann. Und dann, im Jahr 2012, gewann dieselbe Gruppe einen Machine-Vision-Wettbewerb mit einem Deep-Learning-Algorithmus, der erstaunlich genau war.
Ein tieflernendes neuronales Netz erkennt Objekte in Bildern mit einem einfachen Trick. Eine Schicht simulierter Neuronen erhält Eingaben in Form eines Bildes, und einige dieser Neuronen feuern als Reaktion auf die Intensität einzelner Pixel. Das resultierende Signal durchläuft viele weitere Schichten miteinander verbundener Neuronen, bevor es eine Ausgangsschicht erreicht, die signalisiert, dass das Objekt gesehen wurde. Eine als Backpropagation bekannte mathematische Technik wird verwendet, um die Empfindlichkeit der Neuronen des Netzwerks anzupassen, um die richtige Antwort zu erzeugen. Dieser Schritt verleiht dem System die Fähigkeit zu lernen. Verschiedene Schichten innerhalb des Netzwerks reagieren auf Merkmale wie Kanten, Farben oder Texturen. Solche Systeme können jetzt Objekte, Tiere oder Gesichter mit einer Genauigkeit erkennen, die mit der von Menschen konkurriert.
Es gibt ein offensichtliches Problem bei der Anwendung von Deep Learning auf Sprache. Wörter sind willkürliche Symbole und unterscheiden sich daher grundlegend von Bildern. Zwei Wörter können beispielsweise eine ähnliche Bedeutung haben, aber völlig unterschiedliche Buchstaben enthalten; und dasselbe Wort kann in verschiedenen Kontexten verschiedene Dinge bedeuten.
In den 1980er Jahren hatten Forscher eine clevere Idee, wie man Sprache in die Art von Problem verwandeln kann, das ein neuronales Netzwerk lösen kann. Sie zeigten, dass Wörter als mathematische Vektoren dargestellt werden können, wodurch Ähnlichkeiten zwischen verwandten Wörtern berechnet werden können. Zum Beispiel sind Boot und Wasser im Vektorraum nah beieinander, obwohl sie sehr unterschiedlich aussehen. Forscher an der Universität von Montreal unter der Leitung von Yoshua Bengio und einer anderen Gruppe bei Google haben diese Erkenntnis genutzt, um Netzwerke aufzubauen, in denen jedes Wort in einem Satz verwendet werden kann, um eine komplexere Darstellung zu konstruieren – etwas, das Geoffrey Hinton, ein Professor an der University of Toronto und ein prominenter Deep-Learning-Forscher, der in Teilzeit bei Google arbeitet, nennt einen Gedankenvektor.
Durch die Verwendung von zwei solchen Netzwerken ist es möglich, mit ausgezeichneter Genauigkeit zwischen zwei Sprachen zu übersetzen. Und durch die Kombination eines solchen Netzwerks mit einem zur Erkennung von Objekten in Bildern lassen sich überraschend plausible Bildunterschriften zaubern.
Der Sinn des Lebens
Quoc Le, einer der Forscher des Unternehmens, der an der Entwicklung dieses Ansatzes mitgewirkt hat, sitzt in einem Konferenzraum im Herzen des geschäftigen Hauptsitzes von Google in Mountain View, Kalifornien, und denkt über die Idee einer Maschine nach, die eine richtige Unterhaltung führen könnte. Le’s Ambitionen treffen genau den Kern dessen, warum sprechende Maschinen nützlich sein könnten. Ich möchte eine Möglichkeit, Gedanken in einer Maschine zu simulieren, sagt er. Und wenn Sie Gedanken simulieren wollen, dann sollten Sie eine Maschine fragen können, woran sie denkt.

Tauba Auerbach
Die Antwort/war nicht hier II
2008
Google bringt seinen Computern bereits die Grundlagen der Sprache bei. Im Mai dieses Jahres kündigte das Unternehmen ein System namens Parsey McParseface an, das die Syntax untersuchen und Substantive, Verben und andere Textelemente erkennen kann. Es ist nicht schwer zu erkennen, wie wertvoll ein besseres Sprachverständnis für das Unternehmen sein könnte. Der Suchalgorithmus von Google, der verwendet wird, um Schlüsselwörter und Links zwischen Webseiten einfach zu verfolgen. Jetzt liest es mit einem System namens RankBrain den Text auf den Seiten, um die Bedeutung zu ermitteln und bessere Ergebnisse zu liefern. Le will noch viel weiter gehen. Er und seine Kollegen passten das System an, das sich bei der Übersetzung und Bildbeschriftung als nützlich erwiesen hat, und bauten Smart Reply, das den Inhalt von Gmail-Nachrichten liest und eine Handvoll möglicher Antworten vorschlägt. Er erstellte auch ein Programm, das aus den Chatprotokollen des IT-Supports von Google lernte, wie man einfache technische Fragen beantwortet.
Zuletzt hat Le ein Programm entwickelt, das in der Lage ist, passable Antworten auf offene Fragen zu liefern; es wurde trainiert, indem es mit Dialogen aus 18.900 Filmen gefüttert wurde. Einige seiner Antworten scheinen unheimlich treffend zu sein. Zum Beispiel fragte Le: Was ist der Sinn des Lebens? und das Programm antwortete: Um dem größeren Wohl zu dienen. Das war eine ziemlich gute Antwort, erinnert er sich mit einem breiten Grinsen. Wahrscheinlich besser als meiner gewesen wäre.
Es gibt nur ein Problem, wie schnell deutlich wird, wenn man sich weitere Antworten des Systems ansieht. Als Le fragte: Wie viele Beine hat eine Katze? Sein System antwortete: Vier, glaube ich. Dann versuchte er: Wie viele Beine hat ein Tausendfüßler? was eine merkwürdige Antwort hervorrief: Acht. Im Grunde hat Le’s Programm keine Ahnung, wovon es spricht. Es versteht, dass bestimmte Kombinationen von Symbolen zusammenpassen, aber es hat keine Wertschätzung für die reale Welt. Es weiß nicht, wie ein Tausendfüßler tatsächlich aussieht oder wie er sich bewegt. Es ist immer noch nur eine Illusion von Intelligenz, ohne den gesunden Menschenverstand, den Menschen für selbstverständlich halten. Deep-Learning-Systeme können auf diese Weise oft wackelig sein. Die eine, die Google erstellt hat, um Bildunterschriften zu generieren, würde bizarre Fehler machen, wie die Beschreibung eines Straßenschilds als einen mit Lebensmitteln gefüllten Kühlschrank.
Le fragte: Was ist der Sinn des Lebens? und das Programm antwortete: Um dem größeren Wohl zu dienen.
Durch einen merkwürdigen Zufall ist Terry Winograds Nachbar in Palo Alto jemand, der Computern helfen könnte, ein tieferes Verständnis dafür zu erlangen, was Wörter tatsächlich bedeuten. Fei-Fei Li, Direktorin des Stanford Artificial Intelligence Lab, war bei meinem Besuch im Mutterschaftsurlaub, aber sie lud mich zu sich nach Hause ein und stellte mir stolz ihr wunderschönes drei Monate altes Baby Phoenix vor. Schau, wie sie dich mehr ansieht als mich, sagte Li, während Phoenix mich anstarrte. Das liegt daran, dass Sie neu sind; Es ist die frühe Gesichtserkennung.
Li hat einen Großteil ihrer Karriere damit verbracht, maschinelles Lernen und Computer Vision zu erforschen. Vor einigen Jahren leitete sie die Bemühungen, eine Datenbank mit Millionen von Bildern von Objekten aufzubauen, die jeweils mit einem geeigneten Schlüsselwort versehen waren. Aber Li glaubt, dass Maschinen ein noch ausgefeilteres Verständnis dessen brauchen, was in der Welt passiert, und dieses Jahr veröffentlichte ihr Team eine weitere Datenbank mit Bildern, die viel detaillierter kommentiert sind. Jedes Bild wurde von einem Menschen mit Dutzenden von Beschreibungen versehen: Ein Hund, der auf einem Skateboard fährt, Hund hat flauschiges, welliges Fell, Straße ist rissig und so weiter. Die Hoffnung ist, dass maschinell lernende Systeme lernen, mehr über die physische Welt zu verstehen. Der Sprachteil des Gehirns wird mit vielen Informationen versorgt, auch aus dem visuellen System, sagt Li. Ein wichtiger Teil der KI wird die Integration dieser Systeme sein.
Dies kommt der Art und Weise näher, wie Kinder lernen, indem sie Wörter mit Objekten, Beziehungen und Handlungen in Verbindung bringen. Aber die Analogie zum menschlichen Lernen reicht nur so weit. Kleine Kinder müssen einen Skateboard-Hund nicht sehen, um sich einen vorstellen oder verbal beschreiben zu können. Tatsächlich glaubt Li, dass die heutigen maschinellen Lern- und KI-Tools nicht ausreichen werden, um echte KI zu schaffen. Es wird nicht nur datenreiches Deep Learning sein, sagt sie. Li glaubt, dass KI-Forscher über Dinge wie emotionale und soziale Intelligenz nachdenken müssen. Wir [Menschen] sind schrecklich darin, mit riesigen Datenmengen zu rechnen, sagt sie, aber wir sind großartig in Abstraktion und Kreativität.
Niemand weiß, wie man Maschinen diese menschlichen Fähigkeiten verleiht – wenn es überhaupt möglich ist. Gibt es etwas einzigartig Menschliches an solchen Eigenschaften, das sie außerhalb der Reichweite der KI stellt?
Kognitionswissenschaftler wie Tenenbaum vom MIT theoretisieren, dass wichtige Komponenten des Geistes in den heutigen neuronalen Netzwerken fehlen, egal wie groß diese Netzwerke auch sein mögen. Menschen haben die Fähigkeit, sehr schnell aus einer relativ kleinen Datenmenge zu lernen, und haben eine eingebaute Fähigkeit, die Welt sehr effizient in 3-D zu modellieren. Sprache baut auf anderen Fähigkeiten auf, die wahrscheinlich grundlegender sind und die bei jungen Säuglingen vorhanden sind, bevor sie Sprache haben: die visuelle Wahrnehmung der Welt, das Einwirken auf unsere motorischen Systeme, das Verständnis der Physik der Welt oder der Ziele anderer Agenten, sagt Tenenbaum.
Wenn er Recht hat, wird es schwierig sein, das Sprachverständnis in Maschinen und KI-Systemen wiederherzustellen, ohne zu versuchen, menschliches Lernen, mentale Modellbildung und Psychologie nachzuahmen.
Erklären Sie sich
Noah Goodmans Büro in der psychologischen Abteilung von Stanford ist praktisch leer, abgesehen von ein paar abstrakten Gemälden, die an einer Wand gelehnt sind, und ein paar überwucherten Pflanzen. Als ich ankam, tippte Goodman auf einem Laptop herum, seine nackten Füße auf einem Tisch. Für einen Eiskaffee machten wir einen Spaziergang über den sonnengebleichten Campus. Sprache ist insofern etwas Besonderes, als sie auf viel Wissen über Sprache, aber auch auf einer großen Menge an gesundem Menschenverstand über die Welt beruht, und diese beiden gehen auf sehr subtile Weise zusammen, erklärte er.
Goodman und seine Studenten haben eine Programmiersprache namens Webppl entwickelt, die verwendet werden kann, um Computern eine Art probabilistischen gesunden Menschenverstand zu verleihen, was sich in einem Gespräch als ziemlich nützlich herausstellt. Eine experimentelle Version kann Wortspiele verstehen und eine andere kann mit Übertreibungen umgehen. Wenn gesagt wird, dass einige Leute ewig auf einen Tisch in einem Restaurant warten mussten, wird automatisch entschieden, dass die wörtliche Bedeutung unwahrscheinlich ist, und sie höchstwahrscheinlich nur lange herumgehangen haben und sich geärgert haben. Das System ist alles andere als wirklich intelligent, aber es zeigt, wie neue Ansätze dazu beitragen könnten, KI-Programme lebensechter sprechen zu lassen.
Gleichzeitig lässt Goodmans Beispiel auch erahnen, wie schwierig es sein wird, Maschinen Sprache beizubringen. Die kontextuelle Bedeutung von „ewig“ zu verstehen, ist etwas, was KI-Systeme lernen müssen, aber es ist eine ziemlich einfache und rudimentäre Leistung.
Ich möchte eine Möglichkeit, Gedanken in einer Maschine zu simulieren, sagt er. Und wenn Sie Gedanken simulieren wollen, dann sollten Sie eine Maschine fragen können, woran sie denkt.
Doch trotz der Schwierigkeit und Komplexität des Problems lässt der verblüffende Erfolg, den Forscher mit Deep-Learning-Techniken zur Erkennung von Bildern und herausragenden Leistungen in Spielen wie Go erzielt haben, zumindest hoffen, dass wir auch in der Sprache kurz vor dem Durchbruch stehen könnten . Wenn ja, werden diese Fortschritte gerade rechtzeitig kommen. Wenn KI als allgegenwärtiges Werkzeug dienen soll, mit dem Menschen ihre eigene Intelligenz erweitern und darauf vertrauen, Aufgaben in einer nahtlosen Zusammenarbeit zu übernehmen, wird Sprache der Schlüssel sein. Dies gilt insbesondere, da KI-Systeme zunehmend Deep Learning und andere Techniken verwenden, um sich im Wesentlichen selbst zu programmieren.
Im Allgemeinen sind Deep-Learning-Systeme beeindruckend, sagt John Leonard, Professor am MIT, der automatisiertes Fahren erforscht. Aber auf der anderen Seite ist ihre Leistung wirklich schwer zu verstehen.
Toyota, das eine Reihe von Selbstfahrtechnologien untersucht, hat am MIT ein Forschungsprojekt unter der Leitung von Gerald Sussman, einem Experten für künstliche Intelligenz und Programmiersprache, initiiert, um automatisierte Fahrsysteme zu entwickeln, die erklären können, warum sie eine bestimmte Aktion durchgeführt haben. Und ein naheliegender Weg für ein selbstfahrendes Auto, dies zu tun, wäre das Sprechen. Systeme zu bauen, die wissen, was sie wissen, ist ein wirklich schwieriges Problem, sagt Leonard, der ein anderes von Toyota unterstütztes Projekt am MIT leitet. Aber ja, idealerweise würden sie nicht nur eine Antwort, sondern eine Erklärung geben.
Ein paar Wochen nach meiner Rückkehr aus Kalifornien sah ich David Silver, den Google DeepMind-Forscher, der AlphaGo entwickelt hat, auf einer akademischen Konferenz in New York einen Vortrag über das Spiel gegen Sedol halten. Silver erklärte, dass sein Team genauso überrascht war wie alle anderen, als das Programm im zweiten Spiel mit seinem Killerzug auftauchte. Alles, was sie sehen konnten, waren die von AlphaGo prognostizierten Gewinnchancen, die sich auch nach Zug 37 kaum veränderten. Erst einige Tage später, nach sorgfältiger Analyse, machte das Google-Team eine Entdeckung: Durch das Verdauen früherer Partien hatte das Programm die Gewinnchancen berechnet ein menschlicher Spieler, der den gleichen Zug bei einem von 10.000 macht. Und seine Übungsspiele hatten auch gezeigt, dass das Spiel einen ungewöhnlich starken Positionsvorteil bot.
In gewisser Weise wusste die Maschine also, dass Sedol völlig überrumpelt werden würde.
Silver sagte, Google erwäge mehrere Optionen zur Kommerzialisierung der Technologie, darunter eine Art intelligenter Assistent und ein Tool für die Gesundheitsfürsorge. Danach fragte ich ihn, wie wichtig es ist, mit der KI hinter solchen Systemen kommunizieren zu können. Das ist eine interessante Frage, sagte er nach einer Pause. Für einige Anwendungen kann es wichtig sein. Wie im Gesundheitswesen kann es wichtig sein zu wissen, warum eine Entscheidung getroffen wird.
Da KI-Systeme immer ausgefeilter und komplexer werden, ist es in der Tat schwer vorstellbar, wie wir ohne Sprache mit ihnen zusammenarbeiten werden – ohne sie fragen zu können: Warum? Darüber hinaus würde die Fähigkeit, mühelos mit Computern zu kommunizieren, sie unendlich nützlicher machen, und es würde sich geradezu magisch anfühlen. Schließlich ist Sprache unser stärkstes Mittel, um die Welt zu verstehen und mit ihr zu interagieren. Es wird Zeit, dass unsere Maschinen
verwickelt.
Will Knight ist leitender Redakteur für KI und Robotik bei MIT Technology Review . Sein Feature The People’s Robots erschien in der Mai/Juni-Ausgabe .
