Was Roboter von Babys lernen können

Kinder lernen schnell vorherzusagen, was passiert, wenn sie einen mit Saft gefüllten Becher auf den Kopf stellen. Roboter hingegen haben keine Ahnung.





Forscher an der Allen Institute for Artificial Intelligence (Ai2 ) in Seattle haben ein Computerprogramm entwickelt, das zeigt, wie Maschinen bestimmen, wie sich die von einer Kamera erfassten Objekte höchstwahrscheinlich verhalten werden. Dies könnte dazu beitragen, Roboter und andere Maschinen weniger fehleranfällig zu machen, und selbstfahrenden Autos helfen, sicherer durch unbekannte Szenen zu navigieren.

Das System, entwickelt von Roozbeh Mottaghi und Kollegen, zieht mit einer Kombination aus maschinellem Lernen und 3-D-Modellierung Rückschlüsse auf die physikalischen Eigenschaften einer Szene. Die Forscher wandelten mehr als 10.000 Bilder mithilfe einer 3-D-Physik-Engine in Szenen um, die in einem vereinfachten Format gerendert wurden. Die 3-D-Renderings wurden von Freiwilligen über Amazons Crowdsourcing-Plattform Mechanical Turk erstellt.

Die Forscher speisten die Bilder sowie ihre 3D-Darstellungen in einen Computer ein, auf dem ein großes neuronales Deep-Learning-Netzwerk lief, das nach und nach lernte, eine bestimmte Szene mit bestimmten einfachen Kräften und Bewegungen in Verbindung zu bringen. Wenn dem System dann unbekannte Bilder gezeigt wurden, konnte es die verschiedenen Kräfte andeuten, die im Spiel sein könnten.

Es funktioniert nicht einwandfrei, aber meistens zieht der Computer eine vernünftige Schlussfolgerung. Bei einem Bild eines Hefters, der auf einem Schreibtisch sitzt, kann das Programm beispielsweise erkennen, dass der Hefter über den Schreibtisch rutschen und dann abrupt zu Boden fallen würde. Für ein Bild von einem Couchtisch und einem Sofa weiß es, dass der Tisch über den Boden geschoben werden könnte, bis er das Sofa erreicht.

Ziel sei es, die Dynamik der Physik-Engine zu lernen, sagt Mottaghi. Sie müssen alles nur auf der Grundlage des Bildes ableiten, das Sie sehen.

Die Arbeit könnte besonders nützlich für Roboter sein, die eine Szene schnell interpretieren und dann darin agieren müssen. Selbst ein mit einem 3D-Scanner ausgestatteter Roboter müsste oft auf die Physik der Szene schließen, die er wahrnimmt. Und es wäre unpraktisch, einen Roboter alles durch Versuch und Irrtum lernen zu lassen. Die Datenerhebung dafür sei sehr schwierig, sagt Mottaghi. Wenn ich meinen Roboter in ein Geschäft bringe, kann er keine Gegenstände schieben und Daten sammeln; es wäre sehr kostspielig.

Dieses Programm ist Teil einer größeren Anstrengung namens Projekt Platon , das darauf abzielt, Maschinen mit visueller Intelligenz auszustatten, die über die einfache Objekterkennung und -kategorisierung hinausgeht. Ein verwandtes Projekt, das ebenfalls Teil von Project Plato ist, ermöglicht es einem Computer, eine bereits im Spiel befindliche physikalische Kraft zu erkennen: zum Beispiel, wie sich ein Skifahrer einen Berg hinunterbewegen würde oder wie ein getretener Fußball durch die Luft fliegen würde.

In den letzten Jahren sind Computer dank Fortschritten beim Deep Learning, leistungsfähigerer Hardware und großen beschrifteten Bilddatensätzen viel besser darin geworden, Bilder zu analysieren. Nachdem sie mit vielen Beispielen gefüttert wurden, können Computer nun Fragen zu einer Szene beschreiben oder beantworten (siehe Google’s Brain-Inspired Software Describes What It Sees in Complex Images und Facebook App Can Answer Basic Questions About What’s In Photos ). Aber das verrät ein sehr oberflächliches Verständnis dessen, was in einem Bild passiert. Für ein tieferes Verständnis muss ein Computer verstehen, wie die physische Welt funktioniert.

Brenden See , ein wissenschaftlicher Mitarbeiter an der New York University, der sich auf die Modellierung menschlicher kognitiver Fähigkeiten spezialisiert hat, sagt, die Arbeit von Ai2 sei ein wichtiger Schritt in diese Richtung.

Echtes Szenenverständnis erfordert viel mehr als nur das Erkennen von Objekten, sagt Lake. Wenn Menschen einen Schnappschuss einer Szene sehen, erzählen sie eine Geschichte: Was sind die Objekte, warum sind sie dort und was wird als nächstes passieren? Das Verständnis der Physik ist ein Schlüsselelement beim Erzählen dieser Geschichte.

Laut Lake ist jedoch viel mehr Argumentation an der menschlichen Wahrnehmung beteiligt, was den Fortschritt in der Robotik und im maschinellen Sehen noch eine Weile aufhalten könnte. Obwohl dies ein aufregender Fortschritt ist, kann er noch nicht mit unserer menschlichen Fähigkeit konkurrieren, Physik zu verstehen, sagt er. Menschen können ein viel breiteres Spektrum physikalischer Ereignisse verstehen und physikalische Ereignisse in völlig neuartigen Szenentypen genau vorhersagen.

verbergen