Transkription der Stimme in Ihrem Kopf

Lorrie Lejeune / MIT





MIT-Forscher haben eine Computerschnittstelle entwickelt, die Wörter transkribieren kann, die der Benutzer intern verbalisiert, aber nicht wirklich laut spricht.

Elektroden im tragbaren Gerät nehmen neuromuskuläre Signale im Kiefer und im Gesicht auf, die durch das Sprechen von Wörtern in Ihrem Kopf ausgelöst werden, aber für das menschliche Auge nicht wahrnehmbar sind. Die Signale werden einem maschinell lernenden System zugeführt, das darauf trainiert wurde, bestimmte Signale mit bestimmten Wörtern zu korrelieren.

Das AlterEgo genannte Gerät enthält auch Knochenleitungskopfhörer, die Vibrationen durch Gesichtsknochen an das Innenohr übertragen. Da die Kopfhörer den Gehörgang nicht blockieren, kann das System Informationen übermitteln, ohne das Gespräch zu unterbrechen oder das Hörerlebnis zu beeinträchtigen.



AlterEgo bietet einen privaten und diskreten Kanal zum Übertragen und Empfangen von Informationen, der es Trägern ermöglicht, unauffällig zu posieren und Antworten auf schwierige Rechenprobleme zu erhalten oder stillschweigend die Züge von Gegnern in einem Schachspiel zu melden und ebenso lautlos vom Computer empfohlene Antworten zu erhalten.

Wir können ohne unsere Handys im Grunde nicht leben, sagt Pattie Maes, Professorin für Medienkunst und -wissenschaften und Diplomarbeitsberaterin von Arnav Kapur, dem Doktoranden des Media Lab, der die Entwicklung des Systems leitete. Aber im Moment ist die Verwendung dieser Geräte sehr störend. Wenn ich etwas nachschlagen möchte, das für ein Gespräch relevant ist, das ich führe, muss ich mein Telefon finden und den Passcode eingeben und eine App öffnen und ein Suchwort eingeben. Das Ziel von AlterEgo war es, ein nicht-invasives System zur Erweiterung der Intelligenz zu entwickeln, das vollständig vom Benutzer gesteuert wird.

Die Idee, dass interne Verbalisierungen physische Korrelate haben, gibt es seit dem 19. Jahrhundert und wurde in den 1950er Jahren ernsthaft untersucht. Ein Ziel der Speed-Reading-Bewegung der 1960er Jahre war es, diese sogenannte Subvokalisierung zu eliminieren.



Aber die Subvokalisation als Computerschnittstelle ist weitgehend unerforscht. Um festzustellen, welche Stellen im Gesicht die zuverlässigsten neuromuskulären Signale liefern, befestigten die Forscher 16 Elektroden an den Gesichtern der Versuchspersonen und ließen sie viermal dieselbe Wortfolge subvokalisieren.

Die Forscher schrieben einen Code, um die resultierenden Daten zu analysieren, und stellten fest, dass Signale von sieben Elektrodenpositionen durchweg in der Lage waren, subvokalisierte Wörter zu unterscheiden. In einem Papier, das sie auf der ACM Intelligent User Interface-Konferenz der Association for Computing Machinery präsentierten, beschrieben sie einen Prototyp einer tragbaren Silent-Speech-Schnittstelle, die sich wie ein Telefon-Headset um den Nacken legt und Tentakel-ähnliche gebogene Anhängsel hat, die sich berühren das Gesicht an sieben Stellen auf beiden Seiten des Mundes und entlang der Kiefer.

Aber in nachfolgenden Experimenten erzielten die Forscher vergleichbare Ergebnisse mit nur vier Elektroden entlang eines Kiefers, was zu einem weniger auffälligen Gerät führen könnte.



Nach der Auswahl der Elektrodenstandorte sammelten die Forscher Daten zu einigen Rechenaufgaben mit Vokabeln von jeweils etwa 20 Wörtern. Einer war Arithmetik, bei der der Benutzer große Additions- oder Multiplikationsprobleme subvokalisierte; Eine andere war die Schachanwendung, in der der Benutzer Züge mit dem Standard-Schachnummernsystem meldete.

Dann verwendeten sie für jede Anwendung a neurales Netzwerk Korrelationen zwischen bestimmten neuromuskulären Signalen und bestimmten Wörtern zu finden.

Unter Verwendung der Prototyp-Schnittstelle führten die Forscher eine Usability-Studie durch, in der 10 Probanden etwa 15 Minuten damit verbrachten, die arithmetische Anwendung an ihre eigene Neurophysiologie anzupassen, und weitere 90 Minuten damit, sie zur Ausführung von Berechnungen zu verwenden. In dieser Studie lag die Transkriptionsgenauigkeit im Durchschnitt bei etwa 92 Prozent. Aber, sagt Kapur, die Leistung sollte sich mit mehr Trainingsdaten verbessern, die während des normalen Gebrauchs gesammelt werden könnten.



In der laufenden Arbeit sammeln die Forscher Daten zu aufwändigeren Gesprächen, in der Hoffnung, Anwendungen mit viel umfangreicherem Vokabular zu erstellen. Sagt Kapur, ich denke, wir werden eines Tages eine vollständige Konversation erreichen.

verbergen