Die vom Gehirn inspirierte Software von Google beschreibt, was sie in komplexen Bildern sieht

Forscher bei Google haben erstellt Software das ganze Sätze verwenden kann, um auf Fotos gezeigte Szenen genau zu beschreiben – ein bedeutender Fortschritt auf dem Gebiet des Computersehens. Als beispielsweise ein Foto einer Partie Ultimate Frisbee gezeigt wurde, antwortete die Software mit der Beschreibung Eine Gruppe junger Leute, die eine Partie Frisbee spielen. Die Software kann sogar zählen und Antworten geben, wie z. B. Zwei Pizzen auf einem Herdofen.

Experimentelle Software von Google kann Szenen in Fotos genau beschreiben, wie die beiden auf der linken Seite. Aber es macht immer noch Fehler, wie auf den beiden Fotos rechts zu sehen ist.

Früher konzentrierten sich die meisten Bemühungen, Software zu entwickeln, die Bilder versteht, auf die einfachere Aufgabe, einzelne Objekte zu identifizieren.

Sehr spannend, sagt er Oriol-Vinyle , wissenschaftlicher Mitarbeiter bei Google. Ich bin mir sicher, dass sich daraus einige potenzielle Anwendungen ergeben werden.

Die neue Software ist das neueste Produkt von Googles Forschung zur Verwendung großer Sammlungen simulierter Neuronen zur Verarbeitung von Daten (siehe 10 Breakthrough Technologies 2013: Deep Learning ). Niemand bei Google hat die neue Software mit Regeln für die Interpretation von Szenen programmiert. Stattdessen lernten seine Netzwerke, indem sie Daten konsumierten. Obwohl es vorerst nur ein Forschungsprojekt ist, sagt Vinyals, haben er und andere bei Google bereits damit begonnen, darüber nachzudenken, wie es verwendet werden könnte, um die Bildersuche zu verbessern oder Sehbehinderten zu helfen, online oder in der realen Welt zu navigieren.

Die Google-Forscher haben die Software durch eine Art digitale Gehirnoperation erstellt, indem sie zwei neuronale Netze zusammengesteckt haben, die separat für unterschiedliche Aufgaben entwickelt wurden. Ein Netzwerk war darauf trainiert worden, Bilder in eine mathematische Darstellung ihres Inhalts zu verarbeiten, um sich auf die Identifizierung von Objekten vorzubereiten. Der andere war darauf trainiert worden, als Teil einer automatisierten Übersetzungssoftware vollständige englische Sätze zu generieren.

Wenn die Netzwerke kombiniert werden, kann das erste ein Bild betrachten und dann die mathematische Beschreibung dessen, was es sieht, in das zweite einspeisen, das diese Informationen verwendet, um einen für Menschen lesbaren Satz zu generieren. Das kombinierte Netzwerk wurde darauf trainiert, genauere Beschreibungen zu generieren, indem es ihm Zehntausende von Bildern mit von Menschen geschriebenen Beschreibungen zeigte. Wir sehen durch die Sprache, was sie für das Bild hielt, sagt Vinyals.

Nach diesem Schulungsprozess wurde die Software auf mehrere große Datensätze von Bildern aus Flickr und anderen Quellen losgelassen und gebeten, sie zu beschreiben. Die Genauigkeit seiner Beschreibungen wurde dann mit einem automatisierten Test beurteilt, der zum Benchmarking von Computer-Vision-Software verwendet wurde. Die Software von Google erzielte in den 60er Jahren Ergebnisse auf einer 100-Punkte-Skala. Menschen, die den Test durchführen, erzielen normalerweise 70 Punkte, sagt Vinyals.

Dieses Ergebnis deutet darauf hin, dass Google anderen Forschern, die an der Entwicklung von Szenenbeschreibungssoftware arbeiten, weit voraus ist. Stanford-Forscher kürzlich veröffentlichte Einzelheiten ihres eigenen Systems und berichteten, dass es beim gleichen Standardtest zwischen 40 und 50 Punkte erzielte.

Vinyals merkt jedoch an, dass Forscher bei Google und anderswo noch in den frühen Stadien des Verständnisses dafür stehen, wie man diese Art von Software erstellt und testet. Als Google Menschen aufforderte, die Bildbeschreibungen seiner Software auf einer Skala von 1 bis 4 zu bewerten, lag der Durchschnitt bei nur 2,5, was darauf hindeutet, dass es noch einen langen Weg vor sich hat.

Vinyals prognostiziert, dass die Forschung zum Verständnis und zur Beschreibung von Szenen nun intensiviert wird. Ein Problem, das die Dinge verlangsamen könnte: Obwohl große Datenbanken mit handbeschrifteten Bildern erstellt wurden, um Software zu trainieren, einzelne Objekte zu erkennen, gibt es weniger beschriftete Fotos von natürlicheren Szenen.

Microsoft startete in diesem Jahr eine Datenbank namens KOKOSNUSS zu versuchen, das zu beheben. Google hat COCO in seiner neuen Forschung verwendet, aber es ist immer noch relativ klein. Ich hoffe, andere Parteien werden sich einbringen und es besser machen, sagt Vinyals.

verbergen

211service.com

Die vom Gehirn inspirierte Software von Google beschreibt, was sie in komplexen Bildern sieht

Der Beste

Superplastik zieht Wasser an und weist es ab

Sich mit einer Fingerabnutzungsmaus mehr Amateur als Maestro fühlen

Babygenomsequenzierung zum Verkauf in China

Magengrippe mit Tabak bekämpfen

Litium-Ionen-Batterie

Kategorien

Populäre Artikel