KI hat Menschen beim Lippenlesen geschlagen

Lippenlesen ist notorisch schwierig, da es sowohl vom Kontext und der Sprachkenntnis als auch von visuellen Hinweisen abhängt. Forscher zeigen jedoch, dass maschinelles Lernen verwendet werden kann, um Sprache aus stummen Videoclips effektiver zu unterscheiden als professionelle Lippenleser.



In einem Projekt hat ein Team des Fachbereichs Informatik der Universität Oxford ein neues künstliches Intelligenzsystem namens LipNet entwickelt. Wie Quarz gemeldet , basierte sein System auf einem Datensatz namens GRID, der aus gut beleuchteten, mit dem Gesicht nach vorne gerichteten Clips von Personen besteht, die Drei-Sekunden-Sätze lesen. Jeder Satz basiert auf einer Reihe von Wörtern, die demselben Muster folgen.

Das Team verwendete diesen Datensatz, um ein neuronales Netzwerk zu trainieren, ähnlich der Art, die häufig zur Durchführung von Spracherkennung verwendet wird. In diesem Fall erkennt das neuronale Netzwerk jedoch Variationen der Mundform im Laufe der Zeit und lernt, diese Informationen mit einer Erklärung des Gesagten zu verknüpfen. Die KI analysiert das Filmmaterial nicht bruchstückhaft, sondern betrachtet das Ganze, um den Kontext des analysierten Satzes zu verstehen. Das ist wichtig, denn es gibt weniger Mundformen als Töne, die von der menschlichen Stimme erzeugt werden.



Wann geprüft konnte das System 93,4 Prozent der Wörter richtig erkennen. Probanden, die die Lippen lesen und dieselben Aufgaben ausführen sollten, identifizierten nur 52,3 Prozent der Wörter richtig.



Aber wie Neuer Wissenschaftler Berichte , ein weiteres Team des Oxford Department of Engineering Science, das mit Google DeepMind zusammengearbeitet hat, hat sich eine etwas schwierigere Aufgabe abgebissen. Anstatt einen sauberen und konsistenten Datensatz wie GRID zu verwenden, verwendet es eine Reihe von 100.000 Videoclips aus dem BBC-Fernsehen. Diese Videos haben ein viel breiteres Sprachspektrum, mit viel mehr Variationen in Beleuchtung und Kopfpositionen.

Verwenden ein ähnlicher Ansatz gelang es dem Team von Oxford und DeepMind, eine KI zu entwickeln, die 46,8 Prozent aller Wörter richtig erkennen konnte. Das ist auch weitaus besser als Menschen, die nur 12,4 Prozent der Wörter fehlerfrei aufgezeichnet haben. Es gibt eindeutig viele Gründe, warum die Genauigkeit geringer ist, von der Beleuchtung und Orientierung bis hin zur größeren Sprachkomplexität.

Abgesehen von den Unterschieden zeigen beide Experimente, dass die KI den Menschen beim Lippenlesen bei weitem übertrifft, und es ist nicht schwer, sich potenzielle Anwendungen für eine solche Software vorzustellen. In Zukunft könnte Skype die Lücken füllen, wenn sich ein Anrufer beispielsweise in einer lauten Umgebung befindet, oder Menschen mit Hörproblemen ihr Smartphone hochhalten, um zu hören, was jemand sagt.



(Weiterlesen: Quarz , Neuer Wissenschaftler , Oxford Machine Learning Reading Group , arXiv , Die Herausforderungen und Gefahren des automatisierten Lippenlesens )

verbergen