211service.com
Wie ein KI-Algorithmus lernte, politische Reden zu schreiben
Fragen Sie nicht, was Ihr Land für Sie tun kann; Fragen Sie, was Sie für Ihr Land tun können.
– John F. Kennedy, 1961
Wenn es um politische Reden geht, sind große rar gesät. Aber gewöhnliche politische Reden, wie sie zum Beispiel in den Sitzungsdebatten des US-Kongresses gehalten werden, sind zahlreich.
Sie sind sich auch bemerkenswert ähnlich. Diese Reden neigen dazu, einem Standardformat zu folgen, ähnliche Argumente zu wiederholen und sogar dieselben Sätze zu verwenden, um eine bestimmte politische Zugehörigkeit oder Meinung anzuzeigen. Es ist fast so, als gäbe es eine Art Algorithmus, der ihren Inhalt bestimmt.
Das wirft eine interessante Frage auf. Kann eine Maschine solche politischen Reden automatisch schreiben?
Heute erhalten wir eine Antwort dank der Arbeit von Valentin Kassarnig an der University of Massachusetts, Amherst, der eine Maschine mit künstlicher Intelligenz geschaffen hat, die gelernt hat, politische Reden zu schreiben, die echten Reden bemerkenswert ähnlich sind.
Der Ansatz ist im Prinzip einfach. Kassarnig verwendete eine Datenbank mit fast 4.000 politischen Redesegmenten aus 53 US-Kongressdebatten, um einen maschinellen Lernalgorithmus zu trainieren, um eigene Reden zu produzieren.
Diese Reden bestehen aus über 50.000 Sätzen mit jeweils durchschnittlich 23 Wörtern. Kassarnig kategorisierte die Reden auch nach politischen Parteien, ob Demokraten oder Republikanern, und danach, ob sie für oder gegen ein bestimmtes Thema waren.
Natürlich steckt der Teufel im Detail, wie man diese Datenbank analysiert. Nachdem er eine Reihe von Techniken ausprobiert hatte, entschied sich Kassarnig für einen Ansatz, der auf n-Grammen, Folgen von n Wörtern oder Phrasen basiert. Zuerst analysierte er den Text mit einem Part-of-Speech-Ansatz, der jedes Wort oder jeden Satz mit seiner grammatikalischen Rolle (ob Substantiv, Verb, Adjektiv usw.) markiert.
Dann betrachtete er 6 Gramm und die Wahrscheinlichkeit, dass ein Wort oder eine Phrase vorkommt, wenn man die fünf davor sieht. Dadurch können wir sehr schnell alle Wörter bestimmen, die nach den vorherigen fünf Wörtern vorkommen können, und wie wahrscheinlich jedes von ihnen ist, sagt er.
Daraus folgt automatisch der Prozess der Redengenerierung. Zunächst sagt Kassarnig dem Algorithmus, welche Art von Rede er schreiben soll – ob für Demokraten oder Republikaner. Der Algorithmus durchsucht dann die 6-Gramm-Datenbank nach dieser Kategorie, um den gesamten Satz von 5-Gramm zu finden, die verwendet wurden, um eine dieser Reden zu beginnen.
Der Algorithmus wählt dann zufällig eines dieser 5 Gramm aus, um seine Rede zu beginnen. Es wählt dann das nächste Wort aus allen, die diesem 5-Gramm folgen können. Dann fängt das System an, Wort für Wort vorherzusagen, bis es das Ende der Rede vorhersagt, sagt er.
Es gibt natürlich ein paar Tricks auf dem Weg. Der Algorithmus kennt zum Beispiel die Wahrscheinlichkeit, dass ein bestimmtes Thema in einer Rede vorkommt. Anschließend wählt es Themen aus, indem es herausarbeitet, welche anderen Themen die Rede bereits enthält, und bestimmt, wie gut diese behandelt werden.
Die Ergebnisse sind überraschend gut. Hier ist ein Beispiel für eine automatisch generierte Rede der Demokraten:
Mr. Speaker, seit Jahren haben ehrliche, aber unglückliche Verbraucher die Möglichkeit, ihren Fall geltend zu machen, um unter Insolvenzschutz zu kommen und ihre angemessenen und gültigen Schulden erlassen zu bekommen. So wie das System funktionieren soll, bewertet das Insolvenzgericht verschiedene Faktoren, darunter Einkommen, Vermögen und Schulden, um festzustellen, welche Schulden beglichen werden können und wie die Verbraucher wieder auf die Beine kommen können. Setzen Sie sich für Wachstum und Chancen ein. Verabschieden Sie dieses Gesetz.
Das ist beeindruckend, wenn man bedenkt, dass außer den ersten Wortarten-Tags, der 6-Gramm-Analyse der politischen Sprachdatenbank und ein bisschen Zaubersauce kein Training erforderlich ist. Kassarnig hat diese Reden anhand von Kriterien wie grammatikalische Korrektheit, Satzübergänge sowie Redestruktur und -inhalt bewertet und insgesamt für gut befunden. Besonders die grammatikalische Korrektheit und die Satzübergänge der meisten Reden seien sehr gut gewesen, sagt er.
Dennoch ist Kassarnig nicht optimistisch, was die Chancen seines Algorithmus angeht, die politische Bühne im Sturm zu erobern. Trotz der guten Ergebnisse sei es sehr unwahrscheinlich, dass diese Methoden tatsächlich verwendet werden, um Reden für Politiker zu generieren, sagt er, vermutlich, weil die Art von skrupellosen Politikern, die seinen Algorithmus ausnutzen könnten, so selten ist (hust).
Der Algorithmus könnte jedoch verwendet werden, um andere Arten von Texten zu generieren. Kassarnig schlägt vor, dass es angesichts anderer Geschichten über denselben Vorfall Nachrichtenartikel produzieren könnte. Eine andere Option könnte darin bestehen, Blogbeiträge über arXiv-Papiere zu erstellen, wenn man eine große Datenbank mit ähnlichen Geschichten hat (ähm).
Und er ermutigt jeden, es auszuprobieren, sagen, dass sein gesamter Quellcode auf GitHub verfügbar ist ( https://github.com/valentin012/conspeech ). Wir ermutigen andere ausdrücklich, es zu verwenden, zu modifizieren und zu erweitern, sagt er. Feedback und Verbesserungsvorschläge sind herzlich willkommen.
Ref:arxiv.org/abs/1601.03313: Politische Sprachgenerierung