KI, die mit mehreren Sinnen ausgestattet ist, könnte flexiblere Intelligenz erlangen

Menschliche Intelligenz entsteht aus unserer Kombination von Sinnen und Sprachfähigkeiten. Vielleicht gilt das auch für künstliche Intelligenz.





multimodale KI einzeln

Selman-Design

24. Februar 2021

  • Warum es wichtig ist:

    KI, die wahrnehmen und sprechen kann, wird viel besser darin sein, neue Herausforderungen zu meistern und mit Menschen zusammenzuarbeiten.


  • Schlüsselfiguren:

    • OpenAI



    • AI2

    • Facebook


  • Verfügbarkeit:

    Jetzt



Ende 2012 fanden KI-Wissenschaftler zum ersten Mal heraus, wie man hinkommt neuronale Netze zu sehen. Sie bewiesen, dass Software, die das menschliche Gehirn lose nachahmt, bestehende Computer-Vision-Systeme dramatisch verbessern kann. Seitdem hat das Fachgebiet gelernt, wie man neuronale Netze dazu bringt, unsere Art nachzuahmen denken, hören, sprechen und schreiben .

Aber obwohl die KI bei der Bewältigung einer bestimmten Aufgabe bemerkenswert menschenähnlich – sogar übermenschlich – geworden ist, erfasst sie immer noch nicht die Flexibilität des menschlichen Gehirns. Wir können Fähigkeiten in einem Kontext erlernen und sie auf einen anderen anwenden. Im Gegensatz dazu jedoch der Spielalgorithmus von DeepMind AlphaGo die weltbesten Go-Meister schlagen kann, kann es diese Strategie nicht über das Brett hinaus ausdehnen. Mit anderen Worten, Deep-Learning-Algorithmen sind Meister darin, Muster zu erkennen, aber sie können eine sich verändernde Welt nicht verstehen und sich an sie anpassen.

Das Fortschrittsproblem

Diese Geschichte war Teil unserer März-Ausgabe 2021



  • Siehe den Rest des Problems
  • Abonnieren

Forscher haben viele Hypothesen darüber, wie dieses Problem überwunden werden könnte, aber eine davon hat sich besonders durchgesetzt. Kinder lernen die Welt kennen, indem sie sie wahrnehmen und darüber sprechen. Die Kombination scheint Schlüssel. Wenn Kinder beginnen, Wörter mit Anblicken, Geräuschen und anderen sensorischen Informationen zu assoziieren, sind sie in der Lage, immer kompliziertere Phänomene und Dynamiken zu beschreiben, das Kausale von dem zu trennen, was nur Korrelationen widerspiegelt, und ein ausgeklügeltes Modell der Welt zu konstruieren. Dieses Modell hilft ihnen dann, sich in unbekannten Umgebungen zurechtzufinden und neues Wissen und Erfahrungen in einen Kontext zu stellen.

Die KI von DeepMind hat jetzt fast alle menschlichen Spieler bei StarCraft II übertroffen AlphaStar kooperierte mit sich selbst, um neue Strategien zur Eroberung des beliebten galaktischen Kriegsspiels zu erlernen.

KI-Systeme hingegen sind darauf ausgelegt, jeweils nur eines dieser Dinge zu tun. Computervisions- und Audioerkennungsalgorithmen können Dinge wahrnehmen, aber keine Sprache verwenden, um sie zu beschreiben. Ein natürlichsprachliches Modell kann Wörter manipulieren, aber die Wörter sind von jeder sensorischen Realität losgelöst. Wenn Sinne und Sprache kombiniert würden, um ein zu geben KI ist eine menschenähnlichere Art, neue Informationen zu sammeln und zu verarbeiten , könnte es endlich so etwas wie ein Weltverständnis entwickeln?

Die Hoffnung ist, dass diese multimodalen Systeme, die sowohl auf die sensorischen als auch auf die sprachlichen Modi der menschlichen Intelligenz zugreifen, zu einer robusteren Art von KI führen sollten, die sich leichter an neue Situationen oder Probleme anpassen kann. Solche Algorithmen könnten uns dann helfen, komplexere Probleme anzugehen, oder in Roboter portiert werden, die in unserem täglichen Leben mit uns kommunizieren und zusammenarbeiten können.



Neue Fortschritte bei Sprachverarbeitungsalgorithmen wie GPT-3 von OpenAI haben geholfen. Forscher wissen jetzt, wie man Sprachmanipulation gut genug repliziert, um die Kombination mit Wahrnehmungsfähigkeiten potenziell fruchtbarer zu machen. Zunächst verwenden sie die allererste Sensorfähigkeit, die das Feld erreicht hat: Computer Vision. Das Ergebnis sind einfache bimodale Modelle, bzw Bildsprachliche KI .

Im vergangenen Jahr gab es in diesem Bereich mehrere spannende Ergebnisse. Im September haben Forscher des Allen Institute for Artificial Intelligence, AI2, ein Modell entwickelt, das dies kann Generieren Sie ein Bild aus einer Textunterschrift , was die Fähigkeit des Algorithmus demonstriert, Wörter mit visuellen Informationen zu verknüpfen. Im November entwickelten Forscher der University of North Carolina, Chapel Hill, eine Methode, die integriert Bilder in bestehende Sprachmodelle , was das Leseverständnis der Modelle förderte.

2021

10 bahnbrechende Technologien

OpenAI nutzte diese Ideen dann, um GPT-3 zu erweitern. Anfang 2021 veröffentlichte das Labor zwei visuelle Sprachmodelle. Man verknüpft die Objekte in einem Bild mit den Wörtern, die sie in einer Bildunterschrift beschreiben. Der andere generiert Bilder basierend auf einer Kombination der erlernten Konzepte. Sie können es zum Beispiel veranlassen, ein Gemälde von einem Capybara zu erstellen, das bei Sonnenaufgang auf einem Feld sitzt. Obwohl es dies vielleicht noch nie zuvor gesehen hat, kann es alles, was es über Gemälde, Capybaras, Felder und Sonnenaufgänge weiß, mischen und anpassen, um sich Dutzende von Beispielen auszudenken.

Eine flexiblere Intelligenz würde nicht nur neue KI-Anwendungen erschließen, sondern sie auch sicherer machen.

Ausgefeiltere multimodale Systeme werden ebenfalls mehr ermöglichen fortschrittliche Roboterassistenten (Denken Sie an Roboter-Butler, nicht nur an Alexa). Die aktuelle Generation von KI-betriebenen Robotern verwendet hauptsächlich visuelle Daten, um in ihrer Umgebung zu navigieren und mit ihr zu interagieren. Das ist gut, um einfache Aufgaben in beengten Umgebungen zu erledigen, wie z. B. die Erfüllung von Bestellungen in einem Lagerhaus. Aber Labore wie AI2 arbeiten daran, Sprache hinzuzufügen und mehr sensorische Eingaben wie Audio- und Tastdaten zu integrieren, damit die Maschinen Befehle verstehen und komplexere Operationen ausführen können, wie z. B. das Öffnen einer Tür, wenn jemand klopft.

Langfristig könnten multimodale Durchbrüche dazu beitragen, einige der größten Einschränkungen der KI zu überwinden. Experten argumentieren zum Beispiel, dass seine Unfähigkeit, die Welt zu verstehen, auch der Grund dafür ist, dass es leicht scheitern oder ausgetrickst werden kann. (Ein Bild kann auf eine Weise verändert werden, die für den Menschen nicht wahrnehmbar ist, aber eine KI dazu bringt, es als etwas völlig anderes zu identifizieren.) Eine flexiblere Intelligenz würde nicht nur neue KI-Anwendungen erschließen, sondern sie auch sicherer machen. Algorithmen, die Lebensläufe durchsehen, würden irrelevante Merkmale wie Geschlecht und Rasse nicht als Zeichen von Fähigkeiten behandeln. Selbstfahrende Autos würden in ungewohnter Umgebung nicht die Orientierung verlieren und im Dunkeln oder bei Schneewetter abstürzen. Multimodale Systeme könnten die ersten KIs werden, denen wir unser Leben wirklich anvertrauen können.