Die Deep-Learning-Maschine von Google lernt, Bilder aus der realen Welt zu synthetisieren

Google Street View bietet Panoramaansichten von mehr oder weniger jeder Straße in weiten Teilen der entwickelten Welt sowie Ansichten entlang unzähliger Fußwege, in Einkaufszentren und um Museen und Kunstgalerien herum. Es ist eine außergewöhnliche Leistung moderner Ingenieurskunst, die die Art und Weise verändert, wie wir über die Welt um uns herum denken.





Aber während Street View uns zeigen kann, wie entfernte Orte aussehen, zeigt es nicht, wie der Prozess des Reisens oder Erkundens aussehen würde. Es ist einfach, Abhilfe zu schaffen: Spielen Sie einfach eine Sequenz von Street View-Bildern nacheinander ab, um einen Film zu erstellen.

Aber das funktioniert nicht so gut, wie Sie sich das vielleicht vorstellen. Wenn Sie diese Bilder mit etwa 25 Bildern pro Sekunde laufen lassen, läuft die Szenerie lächerlich schnell. Das mag akzeptabel sein, wenn sich die Landschaft nicht ändert, etwa entlang von Autobahnen und Autobahnen oder durch unveränderliche Landschaften. Aber für belebte Straßenansichten oder in einer Kunstgalerie ist es völlig inakzeptabel.

Google hat sich also eine Lösung ausgedacht: Fügen Sie zusätzliche Frames zwischen den von den Street View-Kameras aufgezeichneten hinzu. Aber wie sollen diese Rahmen aussehen?



Heute enthüllen John Flynn und seine Freunde bei Google, wie sie das umfangreiche Know-how des Unternehmens im Bereich des maschinellen Lernens genutzt haben, um herauszufinden, wie diese fehlenden Frames aussehen sollten, indem sie einfach die Frames auf beiden Seiten studieren. Das Ergebnis ist eine computergestützte Filmmaschine, die mehr oder weniger jede Bildfolge in einen flüssig laufenden Film verwandeln kann, indem sie die fehlenden Frames interpoliert.

Die Herausforderung, der sich Flynn und Co stellen, ist unkompliziert. Ausgehend von einer Reihe von Bildern eines bestimmten Ortes besteht das Ziel darin, ein neues Bild desselben Bereichs aus einem anderen Blickwinkel zu synthetisieren.

Das ist nicht einfach. Eine exakte Lösung würde vollständige 3-D-Kenntnisse der gesamten sichtbaren Geometrie in der unsichtbaren Ansicht erfordern, die im Allgemeinen aufgrund von Okkludern nicht verfügbar ist, sagen Flynn und Co.



In der Tat ist es ein Problem, über das sich Informatiker seit Jahrzehnten den Kopf zerbrechen, und eines, das eng mit dem Problem der Schätzung der 3-D-Form einer Szene zusammenhängt, wenn man zwei oder mehr Bilder davon hat.

Informatiker haben verschiedene Wege zur Lösung dieses Problems entwickelt, aber alle leiden unter ähnlichen Problemen, insbesondere wenn Informationen fehlen, weil ein Objekt ein anderes verdeckt. Dies führt zu Rissen, wenn nicht genügend Informationen vorhanden sind, und zum Verschwinden feiner Details. Eine besondere Herausforderung sind Objekte, die feine Details enthalten und sich auch selbst verschließen, wie z. B. Bäume.

Der neue Ansatz von Flynn und Co besteht darin, einen Bildverarbeitungsalgorithmus zu trainieren, um herauszufinden, wie das neue Bild aussehen sollte, nachdem es auf einem riesigen Datensatz sequentieller Bilder trainiert wurde.



Die Aufgabe des Computers besteht darin, jedes Bild als eine Reihe von Pixeln zu behandeln und die Tiefe und Farbe jedes Pixels zu bestimmen, wenn die Tiefe und Farbe der entsprechenden Pixel in den Bildern, die davor und danach im Film erscheinen, gegeben sind.

Sie trainierten ihren Algorithmus namens DeepStereo mit Bildern von Straßenszenen, die von einem fahrenden Fahrzeug aufgenommen wurden. Tatsächlich verwenden sie 100.000 dieser Sequenzen als Trainingsdatensatz.

Sie testeten es dann, indem sie einen Frame aus einer Sequenz von Street View-Bildern entfernten und ihn aufforderten, ihn zu reproduzieren, indem sie nur die anderen Bilder in der Sequenz betrachteten. Schließlich vergleichen sie das synthetisierte Bild mit dem entfernten und erhalten so eine Art Goldstandard, mit dem sie es kontrastieren können.



Die Ergebnisse sind beeindruckend. Insgesamt erzeugt unser Modell plausible Ergebnisse, die schwer sofort von den ursprünglichen Bildern zu unterscheiden sind, sagen Flynn und Co.

Es reproduziert erfolgreich schwierige Motive wie Bäume und Gras. Und wenn es versagt, wie zum Beispiel bei spiegelnden Reflexionen, tut es dies eher elegant als durch Reißen.

Insbesondere kommt es gut mit bewegten Objekten zurecht. Sie erscheinen auf eine Weise verschwommen, die an Bewegungsunschärfe erinnert, sagen sie.

Die Methode ist jedoch nicht perfekt. Auffällige Artefakte in unseren Ergebnissen sind ein leichter Auflösungsverlust und das Verschwinden dünner Vordergrundstrukturen, so das Google-Team. Und teilweise verdeckte Motive neigen dazu, in der Ausgabe unscharf zu werden.

Es ist auch rechenintensiv. Flynn und Co sagen, dass es auf einer Multicore-Workstation 12 Minuten dauert, um ein einzelnes neu synthetisiertes Bild zu erzeugen. Diese Bilder können also nicht im laufenden Betrieb erstellt werden. Das Team erwartet jedoch, dies in Zukunft durch eine Optimierung des Bilderzeugungsprozesses zu verbessern.

Das ist eine beeindruckende Arbeit, die einmal mehr das Potenzial von Deep-Learning-Techniken zeigt. Das Team zeigt seine Ergebnisse in der Video hier gepostet , das Filme zeigt, die aus Street View-Daten erstellt wurden.

Aber es sollte auch andere Anwendungen bei der Generierung von Inhalten für Telekonferenzen, virtuelle Realität und Kinematografie haben. Es könnte sogar die Arbeitsbelastung für Stop-Frame-Animatoren verringern.

Erwarten Sie auf jeden Fall, dass Google Street View-Reisefilme in nicht allzu ferner Zukunft das Internet überschwemmen werden.

Ref: arxiv.org/abs/1506.06825 : DeepStereo: Lernen, neue Ansichten aus den Bildern der Welt vorherzusagen

verbergen