Undercover-Forscher enthüllen chinesische Internet-Wasserarmee
In China sind bezahlte Plakate als Internet Water Army bekannt, weil sie bereit sind, das Internet für jeden zu „fluten“, der bereit ist zu zahlen. Die Flut kann aus Kommentaren, Klatsch und Informationen (oder Desinformationen) bestehen und es scheint eine große Nachfrage nach den Diensten dieser Armee zu bestehen.

Dies ist eine heimtückische Flut. Positive Empfehlungen können einen großen Unterschied im Verkauf eines Produkts ausmachen, aber auch einen Konkurrenten vom Markt verdrängen. Wenn Unternehmen Millionen für die Einführung neuer Waren und Dienstleistungen ausgeben, ist es leicht zu verstehen, warum sie möglicherweise jedes ihnen zur Verfügung stehende Werkzeug nutzen möchten, um erfolgreich zu sein. Verlierer bei all dem ist der Konsument, der dazu verleitet wird, eine Kaufentscheidung auf der Grundlage falscher Prämissen zu treffen. Und im Moment haben Verbraucher kaum Rechtsmittel oder Möglichkeiten, die Praxis zu erkennen. Heute beschreiben Cheng Chen von der University of Victoria in Kanada und einige Freunde, wie Cheng als bezahltes Poster auf chinesischen Websites verdeckt arbeitete, um zu verstehen, wie die Internet Water Army funktioniert. Er und seine Freunde nutzten dann das Gelernte, um eine Software zu entwickeln, die bezahlte Plakate automatisch erkennen kann. Bezahltes Posten ist eine gut verwaltete Aktivität, an der Tausende von Personen und Zehntausende verschiedener Online-IDs beteiligt sind. Die Poster erhalten in der Regel die Aufgabe, sich auf einer Website zu registrieren und dann mit der Generierung von Inhalten in Form von Beiträgen, Artikeln, Links zu Websites und Videos bis hin zur Durchführung von Q&A-Sitzungen zu beginnen. Oft sind diese Inhalte bereits vorbereitet oder die Poster erhalten detaillierte Anweisungen, was sie sagen können. Und es gibt sogar ein Qualitätskontrollteam, das überprüft, ob die Posten eine bestimmte „Qualitätsschwelle“ erfüllen. Ein Beitrag würde nicht validiert, wenn er beispielsweise vom Host gelöscht wird oder aus verstümmelten Wörtern besteht. Nachdem sie verdeckt gearbeitet hatten, um herauszufinden, wie das System funktionierte, untersuchten Cheng und Co. dann das Muster der Posts, die auf einigen großen chinesischen Websites erschienen: Sina.com und Sohu.com. Insbesondere untersuchten sie die Kommentare zu mehreren Nachrichtensendungen über zwei Unternehmen, von denen sie verdächtigten, dass sie Plakate bezahlten und die in einen öffentlichen Streit über die Dienste des anderen verwickelt waren. Der Sina-Datensatz bestand aus über 500 Benutzern, die mehr als 20.000 Kommentare abgegeben haben; der Sohu-Datensatz umfasste über 200 Benutzer und mehr als 1000 Kommentare. Cheng und Co. gingen alle Posts manuell durch, identifizierten diejenigen, von denen sie glaubten, dass sie von bezahlten Postern stammten, und machten sich dann daran, nach Verhaltensmustern zu suchen, die sie von legitimen Benutzern unterscheiden können. (Wie genau die ersten Eindrücke waren, ist ein potenzielles Problem, geben sie zu, aber das gleiche, mit dem sich auch Spamfilter auseinandersetzen müssen.) Sie stellten fest, dass bezahlte Poster tendenziell mehr neue Kommentare posten als auf andere Kommentare antworten. Sie posten auch häufiger, durchschnittlich 50 Prozent von ihnen posten alle 2,5 Minuten. Sie verlassen eine Diskussion auch schneller als legitime Benutzer, verwerfen ihre IDs und verwenden sie nie wieder. Darüber hinaus unterscheiden sich die von ihnen geposteten Inhalte messbar. Diese Arbeiter werden nach dem Volumen bezahlt und nehmen daher oft Abkürzungen, indem sie denselben Inhalt viele Male ausschneiden und einfügen. Dies würde normalerweise ihre Beiträge ungültig machen, aber nur, wenn es vom Qualitätskontrollteam entdeckt wird. Also haben Cheng und Co. eine Software entwickelt, um nach Wiederholungen und Ähnlichkeiten in Nachrichten sowie nach anderen Verhaltensweisen zu suchen, die sie identifiziert hatten. Sie testeten es dann mit dem Datensatz, den sie von Sina und Sohu heruntergeladen hatten, und fanden ihn bemerkenswert gut, mit einer Genauigkeit von 88 Prozent beim Erkennen bezahlter Poster. Unsere Testergebnisse mit realen Datensätzen zeigen eine sehr vielversprechende Leistung, heißt es. Das ist eine beeindruckende Arbeit und ein guter erster Schritt zur Bekämpfung dieses Problems, obwohl sie es an einer viel breiteren Palette von Datensätzen testen müssen. Nichtsdestotrotz haben diese Jungs die Basis eines Softwarepakets, das einen erheblichen Teil der bezahlten Plakate aussortieren wird, vorausgesetzt, diese Leute entsprechen dem Stereotyp, den Cheng und Co. gemessen haben. Und darin liegt der Haken. Sobald die erste Version der Software auf den Markt kommt, lernen bezahlte Poster, ihr Verhalten so zu ändern, dass es das System spielt. Was Cheng und Co. begonnen haben, ist ein Katz-und-Maus-Spiel, genau wie die Antiviren- und Spamfilter-Industrie. Und das bedeutet, dass der bevorstehende Kampf mit der Internet Water Army lang und hart sein wird. Ref:
arxiv.org/abs/1111.4297 : Kampf gegen die Internet-Wasserarmee: Erkennung versteckter bezahlter Poster
verbergen