Warum Menschen schneller lernen als KI – vorerst

Im Jahr 2013 veröffentlichte DeepMind Technologies, damals ein wenig bekanntes Unternehmen, ein bahnbrechendes Papier, das zeigte, wie ein neuronales Netzwerk funktionieren könnte lernen, Videospiele der 1980er so zu spielen, wie Menschen es tun – indem Sie auf den Bildschirm schauen. Diese Netzwerke gingen dann weiter, um die besten menschlichen Spieler zu verprügeln.





Ein paar Monate später kaufte Google das Unternehmen für 400 Millionen Dollar. DeepMind hat seitdem Deep Learning in einer Reihe von Situationen angewendet, vor allem, um Menschen im alten Go-Spiel zu übertreffen.

Aber obwohl diese Arbeit beeindruckend ist, hebt sie eine der wesentlichen Einschränkungen des Deep Learning hervor. Im Vergleich zu Menschen benötigen Maschinen, die diese Technologie verwenden, viel Zeit zum Lernen. Was ist es am menschlichen Lernen, das es uns ermöglicht, mit relativ wenig Erfahrung so gute Leistungen zu erbringen?

Heute erhalten wir dank der Arbeit von Rachit Dubey und Kollegen an der University of California, Berkeley, eine Art Antwort. Sie haben untersucht, wie Menschen mit Videospielen interagieren, um herauszufinden, auf welche Art von Vorwissen wir uns verlassen, um sie zu verstehen.



Es stellt sich heraus, dass Menschen ein reichhaltiges Hintergrundwissen nutzen, wenn wir uns einem neuen Spiel zuwenden. Und das macht die Spiele deutlich einfacher zu spielen. Aber angesichts von Spielen, die dieses Wissen nicht nutzen, zappelt der Mensch, während Maschinen genau so dahintrotten.

Schauen Sie sich das oben links gezeigte Computerspiel an (das Originalspiel). Dieses Spiel basiert auf einem Klassiker namens Montezuma’s Revenge, der ursprünglich 1984 für den Atari 8-Bit-Computer veröffentlicht wurde.

Es gibt kein Handbuch und keine Anweisungen; Ihnen wird nicht einmal gesagt, welches Sprite Sie steuern. Und Sie erhalten nur dann Feedback, wenn Sie das Spiel erfolgreich beendet haben.



Würdest du dazu in der Lage sein? Wie lange würde es dauern? Sie können Probieren Sie es auf dieser Website aus (zusammen mit den anderen Spielen, die in der Zeitung erwähnt werden) .

Höchstwahrscheinlich dauert das Spiel etwa eine Minute, und dabei werden Sie wahrscheinlich etwa 3.000 Tastaturaktionen ausführen. Das fanden Dubey und Co. heraus, als sie das Spiel 40 Arbeitern von Amazons Crowdsourcing-Website Mechanical Turk gaben, denen 1 Dollar angeboten wurde, um es fertigzustellen.

Dies ist nicht allzu überraschend, da man leicht erraten könnte, dass das Ziel des Spiels darin besteht, den Roboter-Sprite in Richtung der Prinzessin zu bewegen, indem man auf die ziegelartigen Objekte tritt und Leitern verwendet, um die höheren Plattformen zu erreichen, während man den wütenden rosa und den Feuerobjekten ausweicht Forscher sagen.



Im Gegensatz dazu ist das Spiel hart für Maschinen: Viele Standard-Deep-Learning-Algorithmen könnten es überhaupt nicht lösen, weil es für einen Algorithmus keine Möglichkeit gibt, den Fortschritt innerhalb des Spiels zu bewerten, wenn Feedback nur vom Abschluss kommt.

Die beste Maschine war ein auf Neugier basierender Reinforcement-Learning-Algorithmus, der rund vier Millionen Tastatureingaben benötigte, um das Spiel zu beenden. Das entspricht ungefähr 37 Stunden ununterbrochenem Spielen.

Was also macht Menschen so viel besser? Es stellt sich heraus, dass wir dieses Spiel nicht mit einem unbeschriebenen Blatt angehen. Ein Mensch wird sehen, dass er oder sie die Kontrolle über den Roboter hat und dass der Roboter Feuer vermeiden, Leitern erklimmen, über Lücken springen und einem finsteren Feind ausweichen sollte, um die Prinzessin zu erreichen. All dies ist dem Vorwissen zu verdanken, dass bestimmte Objekte gut sind, während andere (mit Stirnrunzeln oder Flammen) schlecht sind, dass Plattformen Objekte stützen, während Leitern erklommen werden können, dass Dinge, die gleich aussehen, sich auf die gleiche Weise verhalten, dass die Schwerkraft Objekte nach unten zieht , und sogar was Objekte sind: Dinge, die von anderen Dingen getrennt sind und unterschiedliche Eigenschaften haben.



Im Gegensatz dazu weiß eine Maschine nichts davon.

Also haben Dubey und Co. das Spiel umgestaltet, um diese vorherigen Informationen irrelevant zu machen, und dann gemessen, wie lange es dauerte, bis menschliche Türken fertig waren. Das Team ging dann davon aus, dass jede Zunahme in dieser Zeit ein Indikator für die Bedeutung dieser Informationen ist.

Wir haben verschiedene Versionen des Videospiels erstellt, indem wir verschiedene Objekte wie Leitern, Feinde, Schlüssel, Plattformen usw. mit alternativen Texturen neu gerendert haben, erklären sie. Sie wählten diese Texturen, um verschiedene Formen des Vorwissens zu maskieren, und sie veränderten die physikalischen Eigenschaften des Spiels, wie z. B. die Wirkung der Schwerkraft und die Art und Weise, wie der Agent mit seiner Umgebung interagiert. In jeder Version war die zugrunde liegende Dynamik des Spiels gleich.

Die Ergebnisse sorgen für spannende Lektüre. Wir stellen fest, dass das Entfernen einiger Vorkenntnisse eine drastische Verschlechterung der Geschwindigkeit verursacht, mit der menschliche Spieler das Spiel lösen, sagen Dubey und Co. Tatsächlich erhöht sich die Zeit, die Menschen benötigen, um das Spiel zu lösen, von einer Minute auf über 20 Minuten, da verschiedene Arten von Vorinformationen entfernt werden.

Das Entfernen dieser Informationen ändert dagegen in der Regel nichts an der Lerngeschwindigkeit des Maschinenalgorithmus.

Das Team ist sogar in der Lage, verschiedene Arten von Informationen nach Wichtigkeit einzustufen, je nachdem, wie viel Zeit ihre Entfernung mit sich bringt. Das Entfernen von Objektsemantik, wie z. B. ein finsteres Gesicht oder ein Feuersymbol, erfordert, dass menschliche Spieler länger brauchen, bevor sie fertig sind. Aber das Maskieren des Objektbegriffs macht die Sache so viel schwieriger, dass viele Türken sich einfach weigerten zu spielen. Wir mussten die Bezahlung auf 2,25 $ erhöhen, um die Teilnehmer zu ermutigen, nicht aufzuhören, sagen Dubey und Co.

Dieses Ranking hat eine interessante Verbindung zur Art und Weise, wie Menschen lernen. Psychologen haben herausgefunden, dass Babys im Alter von zwei Monaten eine primitive Vorstellung von Objekten haben, von denen sie erwarten, dass sie sich als verbundene Ganzheiten bewegen. Aber in diesem Alter erkennen Babys keine Objektkategorien.

Im Alter von drei bis fünf Monaten lernen Säuglinge Objektkategorien zu erkennen; Mit 18 bis 24 Monaten lernen sie, einzelne Objekte zu erkennen. Ungefähr zu dieser Zeit lernen sie auch die Eigenschaften von Objekten kennen (Objektangebote, wie Psychologen sie nennen) und lernen so den Unterschied zwischen einem begehbaren Schritt auf ebenem Boden und einem nicht begehbaren Schritt von einer Klippe.

Es stellt sich heraus, dass die Experimente von Dubey und Co. diese Art von erlernten Informationen in genau der gleichen Reihenfolge einordnen, in der Babys sie lernen. Es ist ziemlich interessant festzustellen, dass die Reihenfolge, in der Säuglinge ihr Wissen erweitern, der Wichtigkeit verschiedener Objektprioritäten entspricht, sagen sie.

Unsere Arbeit macht erste Schritte, um die Bedeutung verschiedener Vorkenntnisse zu quantifizieren, die Menschen beim Lösen von Videospielen einsetzen, und um zu verstehen, wie Vorwissen Menschen bei solch komplexen Aufgaben gut macht, fügen sie hinzu.

Das deutet auf einen interessanten Weg für Informatiker hin, die an maschineller Intelligenz arbeiten – ihre Schützlinge mit dem gleichen Grundwissen zu programmieren, das Menschen in jungen Jahren erwerben. Auf diese Weise sollen Maschinen den Menschen in seiner Lerngeschwindigkeit einholen und vielleicht sogar überflügeln können.

Wir sind gespannt auf die Ergebnisse.

Ref: arxiv.org/abs/1802.10217 : Untersuchung menschlicher Priors für das Spielen von Videospielen

verbergen