Ein sich endlos verändernder Spielplatz bringt KIs das Multitasking bei

DeepMind





DeepMind hat eine entwickelt riesiger bonbonfarbener virtueller Spielplatz das KIs allgemeine Fähigkeiten beibringt, indem es die Aufgaben, die es ihnen stellt, endlos ändert. Anstatt nur die Fähigkeiten zu entwickeln, die zum Lösen einer bestimmten Aufgabe erforderlich sind, lernen die KIs zu experimentieren und zu erforschen, und eignen sich Fähigkeiten an, die sie dann verwenden, um Aufgaben zu bewältigen, die sie noch nie zuvor gesehen haben. Es ist ein kleiner Schritt in Richtung allgemeiner Intelligenz.

Was ist es? XLand ist eine Videospiel-ähnliche 3D-Welt, die die KI-Spieler in Farbe wahrnehmen. Der Spielplatz wird von einer zentralen KI verwaltet, die den Spielern Milliarden verschiedener Aufgaben stellt, indem sie die Umgebung, die Spielregeln und die Anzahl der Spieler ändert. Sowohl die Spieler als auch der Spielplatzmanager nutzen Reinforcement Learning, um sich durch Versuch und Irrtum zu verbessern.

Künstliche allgemeine Intelligenz: Sind wir nah dran und macht es überhaupt Sinn, es zu versuchen?

Eine Maschine, die wie ein Mensch denken könnte, war seit den frühesten Tagen die Leitvision der KI-Forschung – und bleibt ihre umstrittenste Idee.



Im Training stellen sich die Spieler zunächst einfachen Ein-Spieler-Spielen, etwa dem Finden eines lila Würfels oder dem Platzieren eines gelben Balls auf einem roten Boden. Sie steigen zu komplexeren Multiplayer-Spielen wie Verstecken oder Erobern der Flagge auf, bei denen Teams darum kämpfen, als Erste die Flagge ihres Gegners zu finden und zu ergreifen. Der Spielplatzmanager hat kein bestimmtes Ziel, sondern zielt darauf ab, die allgemeine Leistungsfähigkeit der Spieler im Laufe der Zeit zu verbessern.

Warum ist das cool? KIs wie DeepMinds AlphaZero haben die weltbesten menschlichen Spieler beim Schach und Go geschlagen. Aber sie können nur ein Spiel auf einmal lernen. Wie DeepMind-Mitbegründer Shane Legg es ausdrückte, als ich letztes Jahr mit ihm sprach, ist es so Sie müssen Ihr Schachgehirn gegen Ihr Go-Gehirn austauschen jedes Mal, wenn Sie Spiele wechseln möchten.

Forscher versuchen jetzt, KIs zu bauen, die mehrere Aufgaben gleichzeitig lernen können, was bedeutet, ihnen allgemeine Fähigkeiten beizubringen, die die Anpassung erleichtern.



Video von KI-Agenten, die in einer virtuellen Umgebung experimentieren

Nachdem sie gelernt hatten zu experimentieren, improvisierten diese Bots eine Rampe

TIEFENGEIST

Ein spannender Trend in diese Richtung ist ergebnisoffenes Lernen, bei dem KIs ohne konkretes Ziel auf viele verschiedene Aufgaben trainiert werden. In vielerlei Hinsicht scheinen Menschen und andere Tiere auf diese Weise durch zielloses Spielen zu lernen. Aber dafür braucht es eine Unmenge an Daten. XLand generiert diese Daten automatisch in Form eines endlosen Stroms von Herausforderungen. Es ist ähnlich wie DICHTER , ein KI-Trainings-Dojo, in dem zweibeinige Bots lernen, Hindernisse in einer 2D-Landschaft zu überwinden. Die Welt von XLand ist jedoch viel komplexer und detaillierter.

XLand ist auch ein Beispiel dafür KI lernt, sich selbst zu machen , oder was Jeff Clune, der an der Entwicklung von POET mitgewirkt hat und ein Team leitet an diesem Thema arbeiten nennt bei OpenAI KI-generierende Algorithmen (AI-GAs). Diese Arbeit erweitert die Grenzen von KI-GAs, sagt Clune. Es ist sehr spannend zu sehen.



KI lernt, sich selbst zu erschaffen

Menschen haben sich bemüht, wirklich intelligente Maschinen zu bauen. Vielleicht müssen wir sie selbst damit fortfahren lassen.

Was haben sie gelernt? Einige der XLand-KIs von DeepMind haben 700.000 verschiedene Spiele in 4.000 verschiedenen Welten gespielt und sich dabei insgesamt 3,4 Millionen einzigartigen Aufgaben gestellt. Anstatt zu lernen, was in jeder Situation am besten zu tun ist, was die meisten bestehenden Reinforcement-Learning-KIs tun, lernten die Spieler zu experimentieren – Objekte zu bewegen, um zu sehen, was passiert ist, oder ein Objekt als Werkzeug zu verwenden, um ein anderes Objekt zu erreichen oder sich zu verstecken hinterher – bis sie die jeweilige Aufgabe meistern.

In den Videos sieht man, wie die KIs Gegenstände herumschleudern, bis sie auf etwas Nützliches stoßen: Eine große Kachel zum Beispiel wird zu einer Rampe auf eine Plattform. Es ist schwer mit Sicherheit zu sagen, ob all diese Ergebnisse absichtlich oder glückliche Unfälle sind, sagen die Forscher. Aber sie passieren regelmäßig.



KIs, die lernten zu experimentieren, waren bei den meisten Aufgaben im Vorteil, sogar bei solchen, die sie noch nie zuvor gesehen hatten. Die Forscher fanden heraus, dass sich die XLand-KIs nach nur 30 Minuten Training für eine komplexe neue Aufgabe schnell daran gewöhnt hatten. Aber KIs, die keine Zeit in XLand verbracht hatten, konnten diese Aufgaben überhaupt nicht lernen.

verbergen