211service.com
Wie das revolutionäre KI-System von Reuters globale Nachrichten sammelt
Das Aufkommen des Internets und die darauf folgende Informationsexplosion haben es für Journalisten immer schwieriger gemacht, Nachrichten genau und schnell zu produzieren. So beginnt das Forschungs- und Entwicklungsteam der globalen Nachrichtenagentur Reuters in dieser Woche mit einem Artikel zum arXiv.
Für Reuters hat sich das Problem durch das Auftauchen von Fake News als wichtigem Faktor bei der Verzerrung der Wahrnehmung von Ereignissen verschärft.
Dennoch haben Nachrichtenagenturen wie Associated Press mit automatisierten Nachrichtenschreibdiensten Fortschritte gemacht. Diese melden Standardankündigungen wie Finanznachrichten und bestimmte Sportergebnisse, indem sie die Daten in vorgefertigte Vorlagen einfügen: X meldete einen Gewinn von Y Millionen im dritten Quartal, mit Ergebnissen, die die Prognosen der Wall Street übertrafen ...
Es besteht also ein erheblicher Druck auf andere Nachrichtenagenturen, die Nachrichtenproduktion zu automatisieren. Und heute beschreibt Reuters, wie es die Identifizierung von Eilmeldungen fast vollständig automatisiert hat. Xiaomo Liu und seine Freunde bei Reuters Research and Development und Alibaba sagen, dass das neue System gut funktioniert. Tatsächlich hat es das Potenzial, das Nachrichtengeschäft zu revolutionieren. Aber es gibt auch Anlass zur Sorge, wie ein solches System von böswilligen Akteuren manipuliert werden könnte.
Das neue System heißt Reuters Tracer. Es verwendet Twitter als eine Art globalen Sensor, der Nachrichtenereignisse aufzeichnet, während sie passieren. Das System verwendet dann verschiedene Arten von Data Mining und maschinellem Lernen, um die relevantesten Ereignisse auszuwählen, ihr Thema zu bestimmen, ihre Priorität einzustufen und eine Überschrift und eine Zusammenfassung zu schreiben. Die Nachrichten werden dann über die globale Nachrichtenleitung des Unternehmens verbreitet.
Der erste Schritt in diesem Prozess besteht darin, den Twitter-Datenstrom abzuschöpfen. Tracer untersucht täglich etwa 12 Millionen Tweets, 2 Prozent der Gesamtzahl. Die Hälfte davon wird zufällig beprobt; die andere Hälfte stammt aus einer Liste von Twitter-Konten, die von den menschlichen Journalisten von Reuters zusammengestellt wurde. Dazu gehören die Berichte anderer Nachrichtenorganisationen, bedeutender Unternehmen, einflussreicher Personen und so weiter.
Die nächste Stufe besteht darin, festzustellen, wann ein Nachrichtenereignis aufgetreten ist. Tracer tut dies, indem er davon ausgeht, dass ein Ereignis eingetreten ist, wenn mehrere Personen gleichzeitig darüber sprechen. Es verwendet also einen Clustering-Algorithmus, um diese Konversationen zu finden.
Zu diesen Clustern gehören natürlich Spam, Werbung, normaler Chat und so weiter. Nur einige von ihnen beziehen sich auf berichtenswerte Ereignisse.
Der nächste Schritt besteht also darin, die Ereignisse zu klassifizieren und zu priorisieren. Tracer verwendet dazu eine Reihe von Algorithmen. Der erste identifiziert das Gesprächsthema. Anschließend vergleicht es diese mit einer Themendatenbank, die das Reuters-Team aus Tweets von 31 offiziellen Nachrichtenkonten wie @CNN, @BBCBreaking und @nytimes sowie Nachrichtenaggregatoren wie @BreakingNews gesammelt hat.
In dieser Phase bestimmt der Algorithmus auch den Veranstaltungsort anhand einer Datenbank mit Städten und ortsbezogenen Schlüsselwörtern.
Sobald eine Konversation oder ein Gerücht potenziell als Nachricht identifiziert wird, ist eine wichtige Überlegung ihre Wahrhaftigkeit. Um dies festzustellen, sucht Tracer nach der Quelle, indem er den frühesten Tweet in der Konversation identifiziert, in dem das Thema und alle Websites erwähnt werden, auf die es verweist. Anschließend konsultiert es eine Datenbank, in der bekannte Produzenten von Fake News wie der National Report oder satirische Nachrichtenseiten wie The Onion aufgeführt sind.
Schließlich schreibt das System eine Schlagzeile und eine Zusammenfassung und verteilt die Nachrichten in der gesamten Reuters-Organisation.
Während der Versuche, so das Reuters-Team, hat sich das System gut bewährt. Tracer ist in der Lage, wettbewerbsfähige Präzision, Erinnerung, Aktualität und Richtigkeit bei der Erkennung und Übermittlung von Nachrichten zu erreichen, heißt es.
Und sie haben Statistiken, die dies belegen. Das System verarbeitet täglich 12 Millionen Tweets und verwirft fast 80 Prozent davon als Rauschen. Der Rest fällt in etwa 6.000 Cluster, die das System als verschiedene Arten von Nachrichtenereignissen kategorisiert. Das alles wird von 13 Servern erledigt, auf denen 10 verschiedene Algorithmen laufen.
Im Vergleich dazu beschäftigt Reuters rund 2.500 Journalisten auf der ganzen Welt, die zusammen täglich etwa 3.000 Nachrichtenmeldungen generieren, die eine Vielzahl von Quellen, einschließlich Twitter, nutzen. Davon sind etwa 250 als Nachrichtenartikel aufgeschrieben.
Reuters verglich die Geschichten, die Tracer identifiziert, mit denen, die in den Newsfeeds von Organisationen wie BBC und CNN erscheinen. Die Ergebnisse zeigen, dass Tracer etwa 70 Prozent der Nachrichten mit 2 Prozent der Twitter-Daten abdecken kann, sagen Lui und Co.
Und das System funktioniert auf jeden Fall schnell. Das Team hebt das Beispiel der Schießerei in Las Vegas im Oktober 2017 hervor, bei der 58 Menschen ums Leben kamen. Ein Zeuge meldete den Vorfall um 1:22 Uhr, der einen Tracer-Cluster auslöste. Der Cluster erfüllte jedoch nicht die Kriterien des Systems für die Aufnahme eines Ereignisses in den Newsfeed bis 1:39 Uhr. Reuters meldete den Vorfall um 1:49 Uhr, sagen Lui und Co.
Das ist eine interessante Arbeit, die eine Reihe von Fragen aufwirft, insbesondere darüber, wie einfach das System zu manipulieren ist. Es ist nicht schwer vorstellbar, dass böswillige Akteure Twitter-Feeds mit der spezifischen Absicht entwerfen, Tracer zu täuschen.
Aber ob dieses System leichter zu spielen sein wird als das jetzige, bei dem Menschen regelmäßig ausgetrickst werden, ist schwer zu sagen.
Dann ist da noch die Rolle des Menschen im Nachrichtengeschäft. Die Zukunft der Nachrichten liegt eindeutig in der zunehmenden Automatisierung. Wie Menschen hineinpassen, muss noch bestimmt werden.
Ref: arxiv.org/abs/1711.04068 : Reuters Tracer: Auf dem Weg zur automatisierten Nachrichtenproduktion unter Verwendung umfangreicher Social-Media-Daten