Die Herausforderungen und Bedrohungen des automatisierten Lippenlesens

Im 16. Jahrhundert war ein spanischer Benediktinermönch namens Pietro Ponce der Pionier der scheinbar magischen Kunst des Lippenlesens. Obwohl die Technik wahrscheinlich älter ist als er, war Ponce der erste erfolgreiche Lehrer für Lippenlesen.





Damals wie heute wurde die Technik vor allem eingesetzt, um Menschen mit Hörproblemen beim Interpretieren von Sprache zu helfen. Es wird aber auch von anderen verwendet, um Gespräche zu belauschen. Tatsächlich zeigen verschiedene Experimente, dass sich unsere Fähigkeit, Sprache zu interpretieren, verbessert, wenn wir die sich bewegenden Lippen des Sprechers sehen können. Mit anderen Worten, fast jeder nutzt das Lippenlesen bis zu einem gewissen Grad.

Das wirft eine interessante Frage auf. Kann der Prozess des Lippenlesens automatisiert und per Computer durchgeführt werden? Und wenn ja, wie erfolgreich kann dieser Ansatz sein und welche Art von Bedrohung stellt er für die Privatsphäre dar?

Heute erhalten wir dank der Arbeit von Ahmad Hassanat an der Mu’tah-Universität in Jordanien einige Antworten. Er skizziert die Herausforderungen, denen sich Forscher im Bereich des automatisierten Lippenlesens, auch bekannt als visuelle Spracherkennung, gegenübersehen. Aus seiner Analyse geht klar hervor, dass für eine erfolgreiche Automatisierung des Lippenlesens noch erhebliche Herausforderungen zu bewältigen sind.



Der grundlegende Prozess des Lippenlesens besteht darin, eine vom Mund gebildete Abfolge von Formen zu erkennen und sie dann einem bestimmten Wort oder einer bestimmten Wortfolge zuzuordnen.

Hier liegt eine erhebliche Herausforderung. Während des Sprechens bildet der Mund zwischen 10 und 14 verschiedene Formen, die als Mundbilder bekannt sind. Im Gegensatz dazu enthält Sprache etwa 50 Einzellaute, sogenannte Phoneme. Ein einzelnes Mundbild kann also mehrere verschiedene Phoneme darstellen.

Und darin liegt das Problem. Eine Folge von Mundbildern kann normalerweise nicht mit einem eindeutigen Wort oder einer Folge von Wörtern in Verbindung gebracht werden. Stattdessen kann eine Folge von Mundbildern mehrere verschiedene Lösungen haben. Die Herausforderung für den Lippenleser besteht darin, den zu wählen, den der Sprecher verwendet hat.



Das Problem wird durch die Tatsache verstärkt, dass die Lippen eines Sprechers oft verdeckt sind, sodass ein Lippenleser im Durchschnitt nur etwa 50 Prozent der gesprochenen Worte sieht. Das Ergebnis ist, dass das Lippenlesen selbst für die erfahrensten Praktizierenden keineswegs perfekt ist.

Experimente zeigen, wie schwierig es ist, selbst wenn der Wortschatz sehr begrenzt ist. Wenn Menschen gebeten werden, zu entscheiden, welche der Ziffern 1 bis 9 gesprochen wurden, liegt die Erfolgsquote lediglich durch Lippenlesen bei etwas über 50 Prozent. Überhaupt nicht gut.

Man kann sich also leicht vorstellen, dass die Aussichten für eine Automatisierung dieser Technik schlecht sind. Hassanat weist jedoch auf eine wachsende Zahl von Forschungsarbeiten hin, die sich mit diesem Problem befassen, unterstützt durch eine schnelle Verbesserung der maschinellen Bildverarbeitung in den letzten Jahren.



Das erste Problem beim automatisierten Lippenlesen ist die Gesichts- und Lippenerkennung. Das hat sich in den letzten Jahren sprunghaft verbessert. Eine schwierigere Herausforderung besteht darin, die geometrischen Merkmale der Lippen während des Sprechens zu erkennen, zu extrahieren und zu kategorisieren.

Dazu werden die Höhe und Breite der Lippen sowie andere Merkmale wie die Form der die Lippen begrenzenden Ellipse, die Anzahl der sichtbaren Zähne und die Rötung des Bildes gemessen, die die sichtbare Zungenmenge bestimmt .

Das Bestimmen der genauen Kontur der Lippen ist wegen des relativ kleinen Unterschieds zwischen Pixeln, die Gesicht und Lippen zeigen, schwierig. In der Tat sagt Hassanat, dass dies nicht notwendig ist, da die Begrenzungsellipse und die Höhe und Form des Mundes eine anständige Annäherung an die realen Konturen bieten. Wir argumentieren, dass es nicht notwendig ist, alle oder einige der Konturpunkte der Lippe zu verwenden, um die äußere Form der Lippen zu definieren, sagt er.



Die Experimente, die er und andere durchgeführt haben, haben jedoch andere Probleme ergeben. Einer ist, dass Bärte und Schnurrbärte visuelle Spracherkennungssysteme erheblich verwirren können. Folglich sind sie bei weiblichen Sprechern erfolgreicher als bei männlichen Sprechern.

Ein weiteres Problem ist, dass manche Menschen mit ihren Lippen ausdrucksstärker sind als andere, sodass es einfacher ist, das, was sie sagen, allein anhand der Lippenbewegungen zu interpretieren. Tatsächlich bewegen manche Menschen kaum ihre Lippen und diese sogenannten visuell-sprachlosen Personen sind fast unmöglich zu interpretieren.

Trotzdem ist Hassanats eigenes visuelles Spracherkennungssystem bemerkenswert gut. Seine Experimente erreichen eine durchschnittliche Erfolgsquote von 76 Prozent, allerdings unter sorgfältig kontrollierten Bedingungen. Bei Frauen ist die Erfolgsquote aufgrund des Fehlens von Bärten und Schnurrbärten sogar noch höher.

All dies deutet darauf hin, dass es in Zukunft ein erhebliches Potenzial für visuelle Spracherkennungssysteme gibt, insbesondere als Hilfsmittel für andere Formen der Spracherkennung.

Es bleiben jedoch wichtige Herausforderungen. Insbesondere weist Hassanat darauf hin, dass die besten menschlichen Lippenleser auf erhebliche Mengen zusätzlicher Informationen angewiesen sind, um Sprache zu interpretieren, wie z. B. den Kontext des Gesprächs, die Körperbewegungen des Sprechers und gute Kenntnisse der Grammatik, Redewendungen und der allgemeinen Sprache.

Dies sind Faktoren, mit denen Computer noch fertig werden müssen. Das automatisierte Lippenlesen mag noch in weiter Ferne liegen, aber die ersten Anzeichen deuten darauf hin, dass es keineswegs unmöglich ist.

Und das wirft eine ganze Reihe anderer datenschutzbezogener Probleme auf. Beispielsweise kann es sein, dass Videos von Gesprächen ohne Ton derzeit nicht zu interpretieren sind, in Zukunft jedoch möglicherweise problemlos interpretiert werden können. Wie könnten Politiker, Wirtschaftsführer und populäre Persönlichkeiten mit dieser Art von Zukunftsanalyse umgehen?

Woran Sie denken sollten, wenn Sie das nächste Mal eine Überwachungskamera sehen.

Ref: arxiv.org/abs/1409.1411 : Visuelle Spracherkennung

verbergen