Maschinen beibringen, uns zu verstehen





Das erste Mal, als Yann LeCun die künstliche Intelligenz revolutionierte, war es eine falsche Morgendämmerung. Es war 1995, und fast ein Jahrzehnt lang hatte sich der junge Franzose dem verschrieben, was viele Informatiker für eine schlechte Idee hielten: dass die grobe Nachahmung bestimmter Eigenschaften des Gehirns der beste Weg sei, intelligente Maschinen zu erschaffen. Aber LeCun hatte gezeigt, dass dieser Ansatz etwas auffallend Kluges – und Nützliches – hervorbringen kann. Als er bei Bell Labs arbeitete, entwickelte er Software, die Neuronen grob simulierte, und lernte, handschriftlichen Text zu lesen, indem er sich viele verschiedene Beispiele ansah. Die Muttergesellschaft von Bell Labs, AT&T, verkaufte damit die ersten Maschinen, die in der Lage waren, die Handschrift auf Schecks und schriftlichen Formularen zu lesen. Für LeCun und einige andere Anhänger künstlicher neuronaler Netze schien es den Beginn einer Ära zu markieren, in der Maschinen viele andere Fähigkeiten erlernen konnten, die zuvor Menschen vorbehalten waren. Es war nicht.

Dieses ganze Projekt verschwand am Tag seines größten Erfolgs, sagt LeCun. Am selben Tag feierte er die Einführung von Bankautomaten, die Tausende von Schecks pro Stunde lesen konnten, wie AT&T mitteilte Aufspaltung in drei Unternehmen für verschiedene Märkte in Kommunikation und Computer gewidmet. LeCun wurde Forschungsleiter bei einem schlankeren AT&T und wurde angewiesen, an anderen Dingen zu arbeiten; 2002 verließ er AT&T, um bald Professor an der New York University zu werden. In der Zwischenzeit fanden Forscher anderswo heraus, dass sie LeCuns Durchbruch nicht auf andere Computerprobleme anwenden konnten. Der vom Gehirn inspirierte Ansatz für KI wurde wieder zu einem Randinteresse.

35 Innovatoren unter 35

Diese Geschichte war Teil unserer Ausgabe vom September 2015



  • Siehe den Rest des Problems
  • Abonnieren

LeCun, jetzt ein stämmiger 55-Jähriger mit einem bereitwilligen Lächeln und einem seitwärts geschwungenen dunklen Haar, das mit Grau übersät ist, hat nie aufgehört, diesem Randinteresse nachzugehen. Und bemerkenswerterweise ist der Rest der Welt dazugekommen. Die Ideen, die er und einige andere angesichts von über zwei Jahrzehnten der Apathie und manchmal völligen Ablehnung hegten, haben in den letzten Jahren erstaunliche Ergebnisse in Bereichen wie der Gesichts- und Spracherkennung hervorgebracht. Deep Learning, wie das Feld heute genannt wird, ist zu einem neuen Schlachtfeld zwischen Google und anderen führenden Technologieunternehmen geworden, die darum kämpfen, es in Verbraucherdiensten einzusetzen. Eines dieser Unternehmen ist Facebook, das LeCun im Dezember 2013 von der NYU anstellte und ihm die Leitung einer neuen Forschungsgruppe für künstliche Intelligenz, FAIR, übertrug, die heute 50 Forscher hat, aber auf 100 anwachsen wird. LeCuns Labor ist Facebooks erste bedeutende Investition in die Grundlagenforschung Forschung, und es könnte entscheidend für die Bemühungen des Unternehmens sein, mehr als nur ein virtueller sozialer Ort zu werden. Es könnte auch unsere Erwartungen an die Leistungsfähigkeit von Maschinen verändern.

Facebook und andere Unternehmen, darunter Google, IBM und Microsoft, sind in den letzten Jahren schnell in diesen Bereich vorgedrungen, weil Deep Learning weitaus besser ist als frühere KI-Techniken, wenn es darum geht, Computer dazu zu bringen, sich Fähigkeiten anzueignen, die Maschinen herausfordern, wie das Verstehen von Fotos . Diese etablierteren Techniken erfordern menschliche Experten, um bestimmte Fähigkeiten mühsam zu programmieren, z. B. das Erkennen von Linien und Ecken in Bildern. Deep-Learning-Software findet heraus, wie sie Daten für sich selbst verstehen kann, ohne eine solche Programmierung. Einige Systeme können das jetzt Bilder erkennen oder Gesichter ungefähr so ​​genau wie Menschen.

Jetzt strebt LeCun nach etwas viel Stärkerem. Er möchte Software mit den Sprachkenntnissen und dem gesunden Menschenverstand liefern, die für eine einfache Konversation erforderlich sind. Anstatt mit Maschinen zu kommunizieren, indem wir auf Schaltflächen klicken oder sorgfältig ausgewählte Suchbegriffe eingeben, könnten wir ihnen einfach sagen, was wir wollen, als würden wir mit einer anderen Person sprechen. Unsere Beziehung zur digitalen Welt wird sich durch intelligente Agenten, mit denen man interagieren kann, komplett verändern, prognostiziert er. Er glaubt, dass Deep Learning Software hervorbringen kann, die unsere Sätze versteht und mit angemessenen Antworten, klärenden Fragen oder eigenen Vorschlägen reagieren kann.



Agenten, die Sachfragen beantworten oder Restaurants für uns buchen, sind eine offensichtliche – wenn auch nicht gerade weltverändernde – Anwendung. Es ist auch leicht zu erkennen, wie eine solche Software zu anregenderen Videospielfiguren führen oder das Online-Lernen verbessern könnte. Provokanter sagt LeCun, dass Systeme, die gewöhnliche Sprache verstehen, uns gut genug kennenlernen könnten, um zu verstehen, was gut für uns ist. Systeme wie dieses sollten in der Lage sein, nicht nur zu verstehen, was die Leute unterhalten würde, sondern auch, was sie sehen müssen, unabhängig davon, ob es ihnen Spaß machen wird, sagt er. Solche Leistungen sind mit den Techniken hinter Suchmaschinen, Spamfiltern und virtuellen Assistenten, die uns heute zu verstehen versuchen, nicht möglich. Sie ignorieren oft die Reihenfolge der Wörter und kommen mit statistischen Tricks wie dem Abgleichen und Zählen von Schlüsselwörtern aus. Apples Siri zum Beispiel versucht, das, was Sie sagen, in eine kleine Anzahl von Kategorien einzuordnen, die geskriptete Antworten auslösen. Sie verstehen den Text nicht wirklich, sagt LeCun. Erstaunlich, dass es überhaupt funktioniert. Inzwischen Systeme, die komplexe Sprachaufgaben zu beherrschen scheinen, wie etwa das von IBM Gefahr! Gewinner Watson, machen Sie es, indem Sie sich auf ein bestimmtes Format superspezialisieren. Als Demonstration ist es niedlich, aber keine Arbeit, die sich wirklich auf eine andere Situation übertragen lässt, sagt er.

Im Gegensatz dazu ist Deep-Learning-Software möglicherweise in der Lage, Sprache eher so zu verstehen, wie es Menschen tun. Forscher bei Facebook, Google und anderswo entwickeln Software, die Fortschritte beim Verständnis der Bedeutung von Wörtern gezeigt hat. LeCuns Team verfügt über ein System, das in der Lage ist, einfache Geschichten zu lesen und Fragen dazu zu beantworten, wobei es auf Fähigkeiten wie logische Schlussfolgerungen und ein rudimentäres Zeitverständnis zurückgreift.

Wie LeCun jedoch aus erster Hand weiß, ist künstliche Intelligenz berüchtigt für Fortschrittsschübe, die Vorhersagen über große Sprünge nach vorne schüren, aber letztendlich nur sehr wenig ändern. Eine Software zu entwickeln, die mit der schillernden Komplexität von Sprache umgehen kann, ist eine größere Herausforderung, als sie darauf zu trainieren, Objekte in Bildern zu erkennen. Die Nützlichkeit von Deep Learning für die Spracherkennung und Bilderkennung steht außer Zweifel, aber es ist immer noch nur eine Vermutung, dass es die Sprache beherrschen und unser Leben radikaler verändern wird. Wir wissen noch nicht genau, ob Deep Learning ein Ausrutscher ist, der sich als etwas viel Größeres herausstellen wird.



Tiefe Geschichte

Die Wurzeln des Deep Learning reichen weiter zurück als LeCuns Zeit bei Bell Labs. Er und einige andere Pioniere dieser Technik haben tatsächlich eine längst tote Idee der künstlichen Intelligenz wiederbelebt.

Als das Feld in den 1950er Jahren begann, begannen Biologen gerade damit, einfache mathematische Theorien darüber zu entwickeln, wie Intelligenz und Lernen aus Signalen hervorgehen, die zwischen Neuronen im Gehirn ausgetauscht werden. Die bis heute aktuelle Kernidee war, dass die Verbindungen zwischen Neuronen gestärkt werden, wenn diese Zellen häufig kommunizieren. Die Salve neuronaler Aktivität, die durch eine neue Erfahrung ausgelöst wird, passt die Verbindungen des Gehirns an, damit es sie beim zweiten Mal besser verstehen kann.



1956 nutzte der Psychologe Frank Rosenblatt diese Theorien, um eine Möglichkeit zu erfinden, einfache Simulationen von Neuronen in Software und Hardware zu erstellen. Der New York Times kündigte seine Arbeit mit der Überschrift an Elektronisches „Gehirn“ lernt sich selbst . Rosenblatts Perzeptron, wie er sein Design nannte, konnte lernen, einfache Bilder in Kategorien zu sortieren – zum Beispiel Dreiecke und Quadrate. Rosenblatt setzte seine Vorstellungen meist weiter um riesige Maschinen dicht mit Drähten verflochten, aber sie haben die Grundprinzipien etabliert, die heute in künstlichen neuronalen Netzen funktionieren.

Deep Learning eignet sich gut zum Aufnehmen von Diktaten und zum Erkennen von Bildern. Aber kann es die menschliche Sprache beherrschen?

Ein Computer, den er baute, hatte acht simulierte Neuronen, die aus Motoren und Zifferblättern bestanden, die mit 400 Lichtdetektoren verbunden waren. Jedes der Neuronen erhielt einen Anteil der Signale der Lichtdetektoren, kombinierte sie und spuckte je nach Summe entweder a aus eins oder ein 0 . Zusammen ergaben diese Ziffern die Beschreibung dessen, was das Perzeptron sah. Anfangs waren die Ergebnisse Müll. Rosenblatt verwendete jedoch eine Methode namens überwachtes Lernen, um ein Perzeptron so zu trainieren, dass es Ergebnisse generiert, die verschiedene Formen korrekt unterscheiden. Er würde dem Perzeptron ein Bild zusammen mit der richtigen Antwort zeigen. Dann würde die Maschine optimieren, wie viel Aufmerksamkeit jedes Neuron seinen eingehenden Signalen schenkt, und diese Gewichte in Richtung Einstellungen verschieben, die die richtige Antwort liefern würden. Nach vielen Beispielen statteten diese Optimierungen den Computer mit genügend Intelligenz aus, um Bilder, die er noch nie zuvor gesehen hatte, korrekt zu kategorisieren. Die heutigen Deep-Learning-Netzwerke verwenden ausgeklügelte Algorithmen und verfügen über Millionen simulierter Neuronen mit Milliarden von Verbindungen zwischen ihnen. Aber sie werden auf die gleiche Weise trainiert.

Rosenblatt sagte voraus, dass Perceptrons bald in der Lage sein würden, Menschen mit Namen zu begrüßen, und seine Idee wurde zu einem Dreh- und Angelpunkt des aufstrebenden Gebiets der künstlichen Intelligenz. Die Arbeit konzentrierte sich auf die Herstellung von Perceptrons mit komplexeren Netzwerken, die in einer Hierarchie mehrerer Lernschichten angeordnet sind. Bilder oder andere Daten nacheinander durch die Schichten zu leiten, würde es einem Perzeptron ermöglichen, komplexere Probleme anzugehen. Leider funktionierte der Lernalgorithmus von Rosenblatt nicht auf mehreren Ebenen. 1969 veröffentlichte der KI-Pionier Marvin Minsky, der mit Rosenblatt aufs Gymnasium gegangen war, a Buchlange Kritik an Perzeptronen das das Interesse an neuronalen Netzen auf einen Schlag tötete. Minsky behauptete, dass es Perzeptronen nicht leistungsfähig genug machen würde, wenn mehr Schichten funktionieren würden, um nützlich zu sein. Forscher der künstlichen Intelligenz gaben die Idee auf, Software zu entwickeln, die lernt. Stattdessen wandten sie sich der Verwendung von Logik zu, um funktionierende Facetten der Intelligenz zu entwickeln – wie zum Beispiel eine Begabung für Schach. Neuronale Netze wurden an den Rand der Informatik gedrängt.

Nichtsdestotrotz war LeCun fasziniert, als er Anfang der 1980er Jahre als Ingenieurstudent in Paris etwas über Perzeptronen las. Ich war erstaunt, dass das funktionierte und fragte mich, warum die Leute es aufgegeben haben, sagt er. Er verbrachte Tage in einer Forschungsbibliothek in der Nähe von Versailles und suchte nach Artikeln, die veröffentlicht wurden, bevor Perceptrons ausstarben. Dann entdeckte er, dass eine kleine Gruppe von Forschern in den USA wieder heimlich an neuronalen Netzen arbeitete. Das war eine sehr unterirdische Bewegung, sagt er. In Papieren, die sorgfältig von Wörtern wie neural und lernen, um die Ablehnung durch Gutachter zu vermeiden, befreit wurden, arbeiteten sie an etwas, das Rosenblatts altem Problem sehr ähnlich war, wie man neuronale Netze mit mehreren Schichten trainiert.

LeCun trat dem Underground bei, nachdem er 1985 seine zentralen Persönlichkeiten kennengelernt hatte, darunter einen ironischen Briten namens Geoff Hinton, der jetzt bei Google und der University of Toronto arbeitet. Sie wurden sofort Freunde, gegenseitige Bewunderer – und der Kern einer kleinen Gemeinschaft, die die Idee der neuronalen Vernetzung wiederbelebte. Sie wurden von der Überzeugung getragen, dass die Verwendung eines Kernmechanismus, der in der natürlichen Intelligenz zu sehen ist, der einzige Weg ist, künstliche Intelligenz aufzubauen. Die einzige Methode, von der wir wussten, dass sie funktioniert, war ein Gehirn, also musste es auf lange Sicht so sein, dass solche Systeme zum Laufen gebracht werden konnten, sagt Hinton.

LeCuns Erfolg bei Bell Labs kam zustande, nachdem er, Hinton und andere einen Lernalgorithmus für neuronale Netze mit mehreren Schichten perfektioniert hatten. Es war als Backpropagation bekannt und löste bei Psychologen und Informatikern ein stürmisches Interesse aus. Aber nachdem LeCuns Check-Reading-Projekt beendet war, erwies sich Backpropagation als schwierig, um es an andere Probleme anzupassen, und eine neue Methode zum Trainieren von Software zum Sortieren von Daten wurde von einem Bell Labs-Forscher neben LeCun erfunden. Es beinhaltete keine simulierten Neuronen und wurde als mathematisch eleganter angesehen. Sehr schnell wurde es zu einem Eckpfeiler von Internetunternehmen wie Google, Amazon und LinkedIn, die es verwenden, um Systeme zu trainieren, die Spam blockieren oder Ihnen Dinge zum Kauf vorschlagen.

Nachdem LeCun 2003 an die NYU kam, gründeten er, Hinton und ein dritter Mitarbeiter, Professor Yoshua Bengio von der Universität Montreal, das, was LeCun die Deep-Learning-Verschwörung nennt. Um zu beweisen, dass neuronale Netze nützlich wären, entwickelten sie im Stillen Methoden, um sie größer zu machen, sie mit größeren Datensätzen zu trainieren und sie auf leistungsfähigeren Computern auszuführen. LeCuns Handschrifterkennungssystem hatte fünf Schichten von Neuronen, aber jetzt könnten sie 10 oder mehr haben. Um 2010 begann das, was heute als Deep Learning bezeichnet wurde, etablierte Techniken bei realen Aufgaben wie dem Sortieren von Bildern zu übertreffen. Microsoft, Google und IBM haben es zu Spracherkennungssystemen hinzugefügt. Aber neuronale Netze waren den meisten Forschern immer noch fremd und wurden nicht als allgemein nützlich angesehen. Anfang 2012 schrieb LeCun einen feurigen Brief – zunächst anonym veröffentlicht – nachdem ein Papier, das behauptete, einen neuen Rekord bei einer standardmäßigen Sehaufgabe aufgestellt zu haben, von einer führenden Konferenz abgelehnt wurde. Er warf den Rezensenten vor, ahnungslos und negativ voreingenommen zu sein.

Sechs Monate später änderte sich alles. Hinton und zwei Doktoranden nutzten ein Netzwerk wie das von LeCun zum Lesen von Schecks, um das Feld im führenden Wettbewerb für Bilderkennung in die Flucht zu schlagen. Bekannt als ImageNet Large Scale Visual Recognition Challenge, fordert es Software auf, 1.000 Arten von Objekten zu identifizieren, die so unterschiedlich sind wie Moskitonetze und Moscheen. Der Toronto-Eintrag identifizierte das Objekt in einem Bild innerhalb von fünf Versuchen in etwa 85 Prozent der Fälle korrekt, mehr als 10 Prozentpunkte besser als das zweitbeste System. Die ersten Schichten von Neuronen der Deep-Learning-Software optimierten sich selbst, um einfache Dinge wie Kanten und Ecken zu finden, während die Schichten danach nach sukzessive komplexeren Merkmalen wie Grundformen und schließlich Hunden oder Menschen suchten.

LeCun erinnert sich, wie sich die Community, die neuronale Netze größtenteils ignoriert hatte, in den Raum drängte, in dem die Gewinner ein Papier über ihre Ergebnisse präsentierten. Man konnte genau dort sehen, wie viele ältere Leute in der Gemeinde einfach ausgeflippt sind, sagt er. Sie sagten: ‚Okay, jetzt kaufen wir es. Das ist es jetzt – du hast gewonnen.“

Akademiker, die an Computer Vision arbeiten, gaben ihre alten Methoden schnell auf, und Deep Learning wurde plötzlich zu einem der Hauptstränge der künstlichen Intelligenz. Google kaufte ein Unternehmen, das von Hinton und den beiden anderen hinter dem Ergebnis von 2012 gegründet wurde, und Hinton begann dort Teilzeit in einem Forschungsteam namens Google Brain zu arbeiten. Microsoft und andere Unternehmen haben neue Projekte entwickelt, um Deep Learning zu untersuchen. Im Dezember 2013 verblüffte Facebook-CEO Mark Zuckerberg Akademiker, indem er auf der größten Forschungskonferenz für neuronale Netze auftauchte und eine Party veranstaltete, auf der er ankündigte, dass LeCun FAIR gründen würde (obwohl er immer noch einen Tag in der Woche an der NYU arbeitet).

LeCun hegt immer noch gemischte Gefühle in Bezug auf die Forschung von 2012, die die Welt auf seinen Standpunkt gebracht hat. Das hätte zum Teil aus meinem Labor kommen sollen, sagt er. Hinton teilt diese Einschätzung. Es war ein bisschen unglücklich für Yann, dass er nicht derjenige war, der das bahnbrechende System tatsächlich gemacht hat, sagt er. LeCuns Gruppe hatte mehr Arbeit als alle anderen geleistet, um die Techniken zu beweisen, die zum Gewinnen der ImageNet-Herausforderung verwendet wurden. Der Sieg hätte sein können, wenn Studienabschlüsse und andere Verpflichtungen seine eigene Gruppe nicht daran gehindert hätten, es mit ImageNet aufzunehmen, sagt er. LeCuns Jagd nach dem nächsten Durchbruch von Deep Learning ist jetzt eine Chance, die Punktzahl auszugleichen.

LeCun bei Bell Labs im Jahr 1993 mit einem Computer, der die Handschrift auf Schecks lesen konnte.

Sprachen lernen

Das New Yorker Büro von Facebook ist drei Minuten zu Fuß den Broadway von LeCuns Büro an der NYU entfernt und befindet sich auf zwei Etagen eines Gebäudes, das im frühen 20. Jahrhundert als Kaufhaus erbaut wurde. Die Arbeiter sind dichter in den offenen Plan gepackt als in der Facebook-Zentrale in Menlo Park, Kalifornien, aber man kann sie immer noch auf gelenkigen Skateboards an den Aushängen für das wöchentliche Bierpong vorbeigleiten sehen. Fast die Hälfte von LeCuns Team aus führenden KI-Forschern arbeitet hier, der Rest auf dem kalifornischen Facebook-Campus oder in einem Büro in Paris. Viele von ihnen versuchen, neuronale Netze besser zum Verstehen von Sprache zu machen. Ich habe alle Leute eingestellt, die daran arbeiten konnten, sagt LeCun.

Ein neuronales Netzwerk kann Wörter lernen, indem es Text durchblättert und berechnet, wie jedes Wort, auf das es trifft, aus den Wörtern davor oder danach hätte vorhergesagt werden können. Auf diese Weise lernt die Software, jedes Wort als Vektor darzustellen, der seine Beziehung zu anderen Wörtern anzeigt – ein Prozess, der auf unheimliche Weise Konzepte in Sprache einfängt. Der Unterschied zwischen den Vektoren für König und Königin ist beispielsweise derselbe wie für Ehemann und Ehefrau. Die Vektoren für Papier und Pappe liegen dicht beieinander, die für groß und groß sogar noch näher.

Derselbe Ansatz funktioniert für ganze Sätze (Hinton sagt, dass er Gedankenvektoren generiert), und Google erwägt, ihn zu verwenden, um seinen automatischen Übersetzungsdienst zu stärken. Eine aktuelle Arbeit von Forschern einer chinesischen Universität und des Pekinger Labors von Microsoft verwendete eine Version der Vektortechnik, um Software zu entwickeln, die einige Menschen bei IQ-Testfragen schlägt, die ein Verständnis von Synonymen, Antonyme und Analogien erfordern.

LeCuns Gruppe arbeitet daran, weiter zu gehen. Sprache an sich sei gar nicht so kompliziert, sagt er. Was kompliziert ist, ist ein tiefes Verständnis der Sprache und der Welt, das einem einen gesunden Menschenverstand vermittelt. Das ist es, was wir wirklich daran interessiert sind, es in Maschinen einzubauen. LeCun bedeutet gesunder Menschenverstand, wie Aristoteles den Begriff verwendete: die Fähigkeit, die grundlegende physikalische Realität zu verstehen. Er möchte, dass ein Computer versteht, dass der Satz, Yann hob die Flasche auf und ging aus dem Raum, bedeutet, dass die Flasche bei ihm gelassen wurde. Die Forscher von Facebook haben ein Deep-Learning-System namens Gedächtnisnetzwerk erfunden, das zeigt, was die frühen Regungen des gesunden Menschenverstands sein könnten.

Ein Speichernetzwerk ist ein neuronales Netzwerk mit einer angebauten Speicherbank, um gelernte Fakten zu speichern, damit sie nicht jedes Mal weggespült werden, wenn es neue Daten aufnimmt. Das Facebook-KI-Labor hat Versionen erstellt, die einfache, vernünftige Fragen zu Texten beantworten können, die sie noch nie zuvor gesehen haben. Zum Beispiel, als Forscher einem Speichernetzwerk eine sehr vereinfachte Zusammenfassung des Plots gaben Herr der Ringe , könnte es Fragen beantworten wie Wo ist der Ring? und wo war Frodo vor dem Schicksalsberg? Es konnte die im Text beschriebene einfache Welt interpretieren, obwohl es vielen der Namen oder Objekte wie Frodo oder Ring noch nie zuvor begegnet war.

Die Software lernte ihren rudimentären gesunden Menschenverstand, indem ihr gezeigt wurde, wie man Fragen zu einem einfachen Text beantwortet, in dem Charaktere Dinge in einer Reihe von Räumen tun, z. B. Fred ging ins Schlafzimmer und Joe ging in die Küche. Aber LeCun möchte die Software Texten aussetzen, die die Komplexität des Lebens und die Dinge, die ein virtueller Assistent möglicherweise tun muss, viel besser erfassen können. Ein virtueller Concierge namens Moneypenny, den Facebook voraussichtlich veröffentlichen wird, könnte eine Quelle dieser Daten sein. Der Assistent soll von einem Team menschlicher Bediener angetrieben werden, die den Menschen helfen, Dinge wie Restaurantreservierungen zu erledigen. Das Team von LeCun könnte ein Gedächtnisnetzwerk haben, das über Moneypennys Schulter wacht, bevor es es schließlich lernen lässt, indem es selbst mit Menschen interagiert.

Mehrere Unternehmen haben Deep-Learning-Labs eröffnet. Ich habe alle Leute eingestellt, die daran arbeiten konnten, sagt LeCun.

Etwas zu bauen, das selbst eine einfache, eng fokussierte Konversation führen kann, erfordert immer noch erhebliche Arbeit. Zum Beispiel haben neuronale Netze nur sehr einfache Argumentation gezeigt, und Forscher haben nicht herausgefunden, wie ihnen beigebracht werden könnte, Pläne zu machen, sagt LeCun. Aber die Ergebnisse der bisherigen Arbeit mit der Technologie geben ihm Zuversicht, wohin sich die Dinge entwickeln. Die Revolution ist auf dem Weg, sagt er.

Manche Menschen sind sich weniger sicher. Deep-Learning-Software hat bisher nur die einfachsten Fähigkeiten gezeigt, die für das erforderlich sind, was wir als Konversation erkennen würden, sagt Oren Etzioni , CEO des Allen Institute for Artificial Intelligence in Seattle. Die noch benötigten Logik- und Planungsfähigkeiten, sagt er, unterscheiden sich stark von den Dingen, die neuronale Netze am besten können: Pixelsequenzen oder akustische Wellenformen zu verarbeiten, um zu entscheiden, welche Bildkategorie oder welches Wort sie darstellen. Die Probleme des Verständnisses natürlicher Sprache seien nicht auf die gleiche Weise reduzierbar, sagt er.

Gary Markus , ein Professor für Psychologie und Neurowissenschaften an der NYU, der untersucht hat, wie Menschen Sprache lernen, und kürzlich ein Unternehmen für künstliche Intelligenz namens Geometric Intelligence gegründet hat, glaubt, dass LeCun unterschätzt, wie schwer es für bestehende Software wäre, Sprache und gesunden Menschenverstand aufzugreifen. Das Training der Software mit großen Mengen sorgfältig kommentierter Daten ist in Ordnung, um sie dazu zu bringen, Bilder zu sortieren. Aber Marcus bezweifelt, dass es die schwierigeren Fähigkeiten erwerben kann, die für die Sprache erforderlich sind, bei denen sich die Bedeutung von Wörtern und komplexen Sätzen je nach Kontext ändern kann. Die Leute werden auf Deep Learning zurückblicken und sagen, dass dies eine wirklich leistungsstarke Technik ist – es ist das erste Mal, dass KI praktisch wird, sagt er. Sie werden auch sagen, dass diese Dinge viele Daten erforderten, und es gab Bereiche, in denen die Leute einfach nie genug hatten. Marcus glaubt, dass Sprache einer dieser Bereiche sein könnte. Damit Software die Konversation meistern kann, müsste sie mehr lernen wie ein Kleinkind, das es ohne ausdrückliche Anweisung aufnimmt, schlägt er vor.

Tiefer Glaube

In der Facebook-Zentrale in Kalifornien sitzen die Westküsten-Mitglieder von LeCuns Team in der Nähe von Mark Zuckerberg und Mike Schroepfer, dem CTO des Unternehmens. Die Verantwortlichen von Facebook wissen, dass LeCuns Gruppe noch weit davon entfernt ist, etwas aufzubauen, mit dem man sprechen kann, aber Schroepfer denkt bereits darüber nach, wie man es nutzen kann. Das zukünftige Facebook, das er beschreibt, ruft Informationen ab und koordiniert sie, wie ein Butler, mit dem man durch Tippen oder Sprechen kommuniziert, wie mit einem Menschen.

Sie können sich auf einem viel höheren Niveau mit einem System beschäftigen, das Konzepte und Sprache wirklich verstehen kann, sagt Schroepfer. Er stellt sich vor, er könnte zum Beispiel darum bitten, dass man die Babyschnappschüsse eines Freundes sieht, aber nicht seine Witze. Ich denke, kurzfristig ist eine Version davon sehr realisierbar, sagt er. Da LeCuns Systeme bessere Denk- und Planungsfähigkeiten erreichen, erwartet er, dass das Gespräch weniger einseitig wird. Facebook bietet möglicherweise Informationen an, von denen es glaubt, dass sie Ihnen gefallen, und fragt, was Sie davon halten. Schließlich ist es wie dieser superintelligente Helfer, der an alle Informationsströme der Welt angeschlossen ist, sagt Schroepfer.

Es ist nicht klar, wie sehr wir von intelligenteren virtuellen Assistenten profitieren würden, aber wir müssen vielleicht nicht lange warten, um es herauszufinden.

Die Algorithmen, die für solche Interaktionen erforderlich sind, würden auch die Systeme verbessern, die Facebook verwendet, um die Beiträge und Anzeigen zu filtern, die wir sehen. Und sie könnten von entscheidender Bedeutung für die Ambitionen von Facebook sein, viel mehr als nur ein Ort der Geselligkeit zu werden. Da Facebook zum Beispiel damit beginnt, Artikel und Videos im Auftrag von Medien- und Unterhaltungsunternehmen zu hosten, braucht es bessere Möglichkeiten für die Menschen, Informationen zu verwalten. Virtuelle Assistenten und andere Ableger von LeCuns Arbeit könnten auch Facebooks ehrgeizigeren Abweichungen von seinem ursprünglichen Geschäft helfen, wie z. B. der Oculus-Gruppe, die daran arbeitet, virtuelle Realität zu einer Massenmarkttechnologie zu machen.

Nichts davon wird passieren, wenn die jüngsten beeindruckenden Ergebnisse das Schicksal früherer großer Ideen in der künstlichen Intelligenz treffen. Die Aufregung um neuronale Netze ist bereits zweimal verblüht. Aber während sie sich darüber beschweren, dass andere Unternehmen oder Forscher ihre Arbeit übertreiben, ist sie eine von LeCuns Lieblingsbeschäftigungen , sagt er, dass es genügend Indizienbeweise gibt, um fest hinter seinen eigenen Vorhersagen zu stehen, dass Deep Learning beeindruckende Vorteile bringen wird. Die Technologie bietet immer noch mehr Genauigkeit und Leistung in allen Bereichen der KI, in denen sie angewendet wurde, sagt er. Es werden neue Ideen benötigt, wie man es auf die Sprachverarbeitung anwenden kann, aber das noch kleine Feld wächst schnell, da Unternehmen und Universitäten mehr Leute dafür einsetzen. Das wird den Fortschritt beschleunigen, sagt LeCun.

Noch ist nicht klar, ob Deep Learning so etwas liefern kann wie der Informationsbutler, den sich Facebook vorstellt. Und selbst wenn es möglich wäre, ist es schwer zu sagen, wie sehr die Welt wirklich davon profitieren würde. Aber vielleicht müssen wir nicht lange warten, um es herauszufinden. LeCun schätzt, dass virtuelle Helfer mit einer für Software beispiellosen Sprachbeherrschung in nur zwei bis fünf Jahren verfügbar sein werden. Er erwartet, dass jeder, der an der Sprachbeherrschung von Deep Learning zweifelt, noch früher eines Besseren belehrt wird. Es gibt dasselbe Phänomen, das wir kurz vor 2012 beobachtet haben, sagt er. Die Dinge beginnen zu funktionieren, aber die Leute, die klassischere Techniken anwenden, sind nicht überzeugt. In ein, zwei Jahren ist Schluss.

verbergen