211service.com
Supercomputer verdaut Twitter in Echtzeit
Die einflussreichsten Nutzer von Twitter zu bestimmen, ist wahrscheinlich nicht das, was die Macher des Cray XMT Supercomputer im Sinn hatten, als sie ihre Maschine entwickelten. Aber wenn Sie so viel Rechenwärme einpacken, gehen Sie dorthin, wo die harten Probleme liegen. Twitter, Facebook und der Rest des sozialen Webs sind zum modernen Äquivalent des Wasserkühlers geworden, wenn auch mit einem automatischen Transkriptionisten. Und die Verarbeitung aller Daten, die durch Konversationen generiert werden, stellt sich als sehr schwieriges Problem heraus.

Cray XMT Supercomputer mit freundlicher Genehmigung Cray
Im Februar 2010 umfasste Facebook beispielsweise 400 Millionen aktive Nutzer mit durchschnittlich 120 Freundschaftsverbindungen, die alle zusammen 5 Milliarden Informationen in einem einzigen Monat teilten.
Um herauszufinden, wer die Influencer in einem so riesigen sozialen Netzwerk sind, muss ein gigantischer sozialer Graph erstellt werden, bei dem jeder Benutzer ein Knotenpunkt ist und die Verbindungen zwischen ihnen Linien sind. Das Ranking von Benutzern innerhalb eines solchen Graphen erfordert eine Bestimmung ihrer Zentralität. Das heißt, wie viele andere Menschen sind mit ihnen verbunden und wie viele Menschen sind mit ihnen verbunden usw., bis Sie zum Stamm der Baumstruktur gelangen, die der Verbundenheit auf einem Dienst wie Twitter zugrunde liegt.
Es stellt sich heraus, dass dies nicht die Art von Problem ist, die selbst von den üblichen Go-to-Workstations der wissenschaftlichen Supercomputing-Welt leicht gelöst wird – den GPGPU-betriebenen Supercomputern, die die Grafikchips nutzen, die normalerweise zum Rendern üppiger 3D-Umgebungen in Videospielen verwendet werden. Diese GPGPU-Workstations erlauben einfach nicht genug Kontrolle darüber, wie viele Prozesse parallel laufen, um effizient durch soziale Graphen zu laufen, die so groß sind wie die von Twitter oder Facebook.
Deshalb hat David Ediger von Georgia Tech, mit Hilfe einer langen Liste von Mitarbeitern , wandte sich dem 128-CPU Cray XMT zu, der im Pacific Northwest National Laboratory untergebracht ist. Der XMT ist ein Liebling von Supercomputing-Hot-Rodern und Super-Geeks, die seine feinkörnige Massively-Multithread-Abstimmbarkeit zu schätzen wissen. Diese Maschine wird normalerweise zum Lösen von Problemen wie Hierarchical Bayesian Modeling for Text Analysis oder Analyse der Stabilität des amerikanischen Stromnetzes , aber Ediger dachte über jeden verirrten Gedanken eines einzigen Tages nach Twitter Feuerwehrhose .
The Cray machte kurzen Prozess mit Twitter und beseitigte die Verbindungen eines ganzen Tages in weniger als einer Stunde. Die Ergebnisse werden niemanden überraschen – auf Twitter wird ein winziger Bruchteil der Quellen weit verbreitet, hauptsächlich von Regierungen und Medien retweetet, während der Rest des Dienstes entweder aus Leuten besteht, die in kleinen Gruppen sprechen oder buchstäblich mit sich selbst sprechen.
Der Punkt ist jedoch, dass das Werfen eines fein abgestimmten Cray, auf dem Edigers benutzerdefinierter Software – GraphCT – auf Twitter läuft, es den Forschern ermöglichte, den Dienst in so etwas wie Echtzeit zu verarbeiten. Das ist genau die Art von Fähigkeit, die Geheimdienste, Vermarkter und vielleicht sogar Twitter selbst haben möchten.