Dieser Avocado-Sessel könnte die Zukunft der KI sein

KI öffnen





Mit GPT-3 , zeigte OpenAI, dass ein einziges Deep-Learning-Modell darauf trainiert werden kann, Sprache auf vielfältige Weise zu verwenden, indem man ihm einfach riesige Textmengen zuwirft. Das hat sich dann gezeigt indem Text gegen Pixel ausgetauscht wird , könnte der gleiche Ansatz verwendet werden, um eine KI zu trainieren, um halbfertige Bilder fertigzustellen. GPT-3 ahmt nach, wie Menschen Wörter verwenden; Image GPT-3 sagt voraus, was wir sehen.

Nun hat OpenAI diese Ideen zusammengeführt und zwei neue Modelle gebaut, genannt GIB IHR und CLIP , die Sprache und Bilder so kombinieren, dass KIs sowohl Wörter als auch das, worauf sie sich beziehen, besser verstehen können.

Wir leben in einer visuellen Welt, sagt Ilya Sutskever, Chief Scientist bei OpenAI. Langfristig werden Sie Modelle haben, die sowohl Text als auch Bilder verstehen. KI wird Sprache besser verstehen können, weil sie sehen kann, was Wörter und Sätze bedeuten.



OpenAIs neuer Sprachgenerator GPT-3 ist erschreckend gut – und völlig geistlos

Die KI ist das größte Sprachmodell, das jemals geschaffen wurde, und kann bei Bedarf erstaunliche menschenähnliche Texte generieren, bringt uns aber der wahren Intelligenz nicht näher.

Bei allem Flair von GPT-3 kann sich seine Ausgabe von der Realität losgelöst anfühlen, als ob sie nicht wüsste, wovon sie spricht. Das liegt daran, dass es nicht so ist. Durch die Begründung von Text in Bildern versuchen Forscher bei OpenAI und anderswo, Sprachmodellen eine besseres Verständnis der alltäglichen Konzepte die Menschen verwenden, um den Dingen einen Sinn zu geben.

DALL·E und CLIP gehen dieses Problem aus unterschiedlichen Richtungen an. CLIP (Contrastive Language-Image Pre-training) ist auf den ersten Blick ein weiteres Bilderkennungssystem. Abgesehen davon, dass es gelernt hat, Bilder nicht aus beschrifteten Beispielen in kuratierten Datensätzen zu erkennen, wie es die meisten bestehenden Modelle tun, sondern aus Bildern und ihren Bildunterschriften aus dem Internet. Was auf einem Bild zu sehen ist, erfährt es aus einer Beschreibung und nicht aus einer Ein-Wort-Bezeichnung wie Katze oder Banane.



CLIP wird trainiert, indem es vorhersagt, welche Bildunterschrift aus einer zufälligen Auswahl von 32.768 die richtige für ein bestimmtes Bild ist. Dazu lernt CLIP, verschiedenste Objekte mit ihren Namen und den sie beschreibenden Wörtern zu verknüpfen. Dadurch kann es dann Objekte in Bildern außerhalb seines Trainingssatzes identifizieren. Die meisten Bilderkennungssysteme sind darauf trainiert, bestimmte Arten von Objekten zu erkennen, etwa Gesichter in Überwachungsvideos oder Gebäude in Satellitenbildern. Wie GPT-3 kann CLIP ohne zusätzliches Training über Aufgaben hinweg verallgemeinern. Es ist auch weniger wahrscheinlich als andere hochmoderne Bilderkennungsmodelle, von gegensätzlichen Beispielen in die Irre geführt zu werden, die auf subtile Weise so verändert wurden, dass sie Algorithmen normalerweise verwirren, obwohl Menschen möglicherweise keinen Unterschied bemerken.

Anstatt Bilder zu erkennen, zeichnet DALL·E (was meiner Meinung nach ein WALL·E/Dali-Wortspiel ist) sie. Dieses Modell ist eine kleinere Version von GPT-3, die ebenfalls mit Text-Bild-Paaren aus dem Internet trainiert wurde. Ausgehend von einer kurzen Beschriftung in natürlicher Sprache, z. B. einem Gemälde eines Wasserschweins, das bei Sonnenaufgang auf einem Feld sitzt, oder einer Querschnittsansicht einer Walnuss, generiert DALL·E viele Bilder, die dazu passen: Dutzende von Wasserschweinen in allen Formen und Größen vor orangen und gelben Hintergründen; Reihe für Reihe Walnüsse (allerdings nicht alle im Querschnitt).

Werde surreal

Die Ergebnisse sind beeindruckend, wenn auch immer noch gemischt. Die Bildunterschrift „Buntglasfenster mit dem Bild einer blauen Erdbeere“ liefert viele korrekte Ergebnisse, aber auch einige mit blauen Fenstern und roten Erdbeeren. Andere enthalten nichts, was wie ein Fenster oder eine Erdbeere aussieht. Die Ergebnisse präsentiert vom OpenAI-Team in einem Blogbeitrag wurden nicht von Hand ausgewählt, sondern von CLIP geordnet, das die 32 DALL·E-Bilder für jede Bildunterschrift ausgewählt hat, die seiner Meinung nach am besten zur Beschreibung passen.



Text-to-Image ist eine Forschungsherausforderung, die es schon seit einiger Zeit gibt, sagt Mark Riedl, der am Georgia Institute of Technology in Atlanta an NLP und computergestützter Kreativität arbeitet. Aber das ist eine beeindruckende Reihe von Beispielen.

Von DALL·E gezeichnete Bilder für die Bildunterschrift Ein Rettichbaby in einem Tutu, das mit einem Hund spazieren geht

Um die Fähigkeit von DALL·E zu testen, mit neuartigen Konzepten zu arbeiten, gaben die Forscher ihm Bildunterschriften, die Objekte beschrieben, von denen sie dachten, dass es sie vorher nicht gesehen hätte, wie einen Avocado-Sessel und eine Illustration eines Baby-Rettichs in einem Tutu, der mit einem Hund spazieren geht. In beiden Fällen generierte die KI Bilder, die diese Konzepte auf plausible Weise kombinierten.



Besonders die Sessel sehen alle aus wie Stühle und Avocados. Was mich am meisten überrascht hat, ist, dass das Modell zwei voneinander unabhängige Konzepte auf eine Weise zusammenfügen kann, die zu etwas Funktionalem führt, sagt Aditya Ramesh, die an DALL·E gearbeitet hat. Das liegt wahrscheinlich daran, dass eine halbierte Avocado ein bisschen wie ein Sessel mit hoher Lehne aussieht, mit dem Kern als Kissen. Bei anderen Bildunterschriften, wie z. B. einer Schnecke aus Harfe, sind die Ergebnisse weniger gut, mit Bildern, die Schnecken und Harfen auf seltsame Weise kombinieren.

DALL·E ist die Art von System, die Riedl sich vorgestellt hat, sich dem zu unterwerfen Lovelace 2.0-Test , ein Gedankenexperiment, das er sich 2014 ausgedacht hat. Der Test soll den Turing-Test als Benchmark zur Messung künstlicher Intelligenz ersetzen. Es wird davon ausgegangen, dass ein Merkmal von Intelligenz die Fähigkeit ist, Konzepte auf kreative Weise miteinander zu verbinden. Riedl schlägt vor, dass einen Computer zu bitten, ein Bild von einem Mann zu zeichnen, der einen Pinguin hält, ein besserer Test der Klugheit ist, als einen Chatbot zu bitten, einen Menschen in einem Gespräch zu täuschen, weil es offener und weniger leicht zu betrügen ist.

Der eigentliche Test besteht darin, zu sehen, wie weit die KI aus ihrer Komfortzone herausgedrängt werden kann, sagt Riedl.

Von DALL·E gezeichnete Bilder für die Bildunterschrift Schnecke aus Harfe

Die Fähigkeit des Modells, synthetische Bilder aus ziemlich skurrilem Text zu generieren, erscheint mir sehr interessant, sagt Ani Kembhavi vom Allen Institute for Artificial Intelligence (AI2), der auch a entwickelt hat System, das Bilder aus Text generiert . Die Ergebnisse scheinen der gewünschten Semantik zu gehorchen, was ich ziemlich beeindruckend finde. Jaemin Cho, ein Kollege von Kembhavi, ist ebenfalls beeindruckt: Bestehende Text-zu-Bild-Generatoren haben dieses Maß an Kontrolle beim Zeichnen mehrerer Objekte oder die räumlichen Denkfähigkeiten von DALL·E nicht gezeigt, sagt er.

Doch DALL·E zeigt bereits Anzeichen von Anspannung. Das Einfügen zu vieler Objekte in eine Beschriftung dehnt ihre Fähigkeit aus, den Überblick darüber zu behalten, was gezeichnet werden soll. Und das Umformulieren einer Bildunterschrift mit Wörtern, die dasselbe bedeuten, führt manchmal zu unterschiedlichen Ergebnissen. Es gibt auch Anzeichen dafür, dass DALL·E Bilder nachahmt, auf die es online gestoßen ist, anstatt neue zu erzeugen.

Ich bin etwas misstrauisch gegenüber dem Daikon-Beispiel, das stilistisch darauf hindeutet, dass es sich möglicherweise an Kunst aus dem Internet erinnert hat, sagt Riedl. Er stellt fest, dass eine schnelle Suche viele Cartoon-Bilder von anthropomorphisierten Daikons hervorbringt. GPT-3, auf dem DALL·E basiert, ist berüchtigt für das Auswendiglernen, sagt er.

Dennoch sind sich die meisten KI-Forscher einig, dass die Verankerung von Sprache im visuellen Verständnis eine gute Möglichkeit ist, KIs intelligenter zu machen.

Die Zukunft wird aus solchen Systemen bestehen, sagt Sutskever. Und beide dieser Modelle sind ein Schritt in Richtung dieses Systems.

verbergen