Wird künstliche Intelligenz den Caption Contest gewinnen?

Wenn Social-Media-Nutzer Fotos hochladen und sie beschriften, kennzeichnen sie nicht nur ihre Inhalte. Sie erzählen eine Geschichte, die den Fotos Kontext und zusätzliche emotionale Bedeutung verleiht.





ZU Papier veröffentlicht von Microsoft Research beschreibt ein Bildbeschriftungssystem, das den einzigartigen Stil des visuellen Geschichtenerzählens von Menschen nachahmt. Unternehmen wie Microsoft, Google und Facebook haben Jahre damit verbracht, Computern beizubringen, den Inhalt von Bildern zu kennzeichnen, aber diese neue Forschung geht noch einen Schritt weiter, indem sie einem auf neuronalen Netzwerken basierenden System beibringt, eine Geschichte aus mehreren Bildern abzuleiten. Eines Tages könnte es verwendet werden, um automatisch Beschreibungen für Bildersätze zu generieren oder um eine menschenähnliche Sprache in andere Anwendungen für künstliche Intelligenz zu bringen.

Anstatt langweilige oder banale Beschreibungen dessen zu geben, was in den Bildern passiert, stellen wir diese in einen größeren erzählerischen Kontext, sagt Frank Ferraro, ein Doktorand der Johns Hopkins University, der das Papier mitverfasst hat. Sie können beginnen, wahrscheinliche Rückschlüsse darauf zu ziehen, was passieren könnte.

Stellen Sie sich ein Album mit Bildern vor, das eine Gruppe von Freunden zeigt, die in einer Bar Geburtstag feiern. Einige der frühen Bilder zeigen Menschen, die Bier bestellen und trinken, während ein späteres Foto jemanden zeigt, der auf einer Couch schläft.



Ein Untertitelsystem könnte einfach sagen: „Eine Person, die auf einer Couch liegt“, sagt Ferraro. Aber ein Storytelling-System könnte sagen: „Nun, wenn ich denke, dass diese Leute feiern oder essen und trinken, dann ist diese Person vielleicht betrunken.“

Ein in der Veröffentlichung aufgeführtes Beispiel enthält eine Serie von fünf Bildern. Sie zeigen eine um einen Tisch versammelte Familie, einen Teller mit Schalentieren, einen Hund und Bilder vom Strand. Das neuronale Netzwerk beschrieb sie mit einer Geschichte, die vorgelesen wurde. Die Familie traf sich zum Grillen. Sie hatten viel leckeres Essen. Der Hund war gerne dabei. Sie hatten eine tolle Zeit am Strand. Sie sind sogar im Wasser geschwommen.

Das Team, das von der Microsoft-Forscherin Margaret Mitchell geleitet wurde und Microsoft-Praktikanten wie Ferraro und einen Forscher von Facebook AI umfasste, verwandelte ein sogenanntes rekurrentes neuronales Netzwerk von Sequenz zu Sequenz in einen Geschichtenerzähler, indem es es mit Bildern aus Flickr trainierte. Sie ließen sich von Helfern Bildunterschriften zu einzelnen Bildern und zu Bildserien in bestimmten Abfolgen schreiben.



Ein Ansatz, der demjenigen ähnelte, der verwendet wurde, um den Inhalt einzelner Fotos zu kennzeichnen, führte zu zu allgemeinen Geschichten. Um dem entgegenzuwirken, entwickelte das Team eine Möglichkeit für das Netzwerk, Wörter auszuwählen, die wahrscheinlich visuell hervorstechen. Sie forderten auch, dass das System keine Wörter wiederholt.

Geschichtenerzählen ist ein wichtiger Teil des Menschseins, sagt Fei-Fei Li, Direktor des Stanford Vision Lab, der nicht zur Forschung beigetragen hat. Technologie, die menschliche Techniken zum Dokumentieren von Geschichten imitieren kann, muss in der Lage sein, auf Objekte und Charaktere, die in mehreren Bildern zu sehen sind, Querverweise zu finden und Beziehungen zwischen Personen, Objekten und Orten abzuleiten.

Das veröffentlichte Papier ist nur der Anfang in Richtung dieser Art von Technologie, sagt Li. Aber es ist ein guter Schritt nach vorne, ein so ehrgeiziges Projekt in Angriff zu nehmen. Ich freue mich auf weitere Folgearbeiten von diesen Autoren und anderen.



verbergen