Internetarchäologen rekonstruieren verlorene Webseiten

Das Internet verschwindet. Und damit geht ein wichtiger Teil unserer aufgezeichneten Geschichte. Zu diesem Ergebnis kam eine Studie, die sich dieser Blog letztes Jahr angesehen hat und in der gemessen wurde, wie schnell Links, die über Social-Media-Plattformen wie Twitter geteilt werden, verschwinden.





Die Schlussfolgerung war, dass diese Daten innerhalb eines Jahres zu 11 Prozent und innerhalb von zwei Jahren zu 27 Prozent verloren gehen.

Heute zeigen die Forscher hinter dieser Arbeit, dass noch nicht alles verloren ist. Hany SalahEldeen und Michael Nelson von der Old Dominion University in Norfolk, Virginia, haben einen Weg gefunden, gelöschtes Material zu rekonstruieren und sagen, dass es einigermaßen gut funktioniert.

Zuerst einige Hintergründe. Diese Jungs begannen ihre Arbeit mit dem Studium der Tausenden von Tweets, Blog-Posts und anderen Ressourcen, die während der 18 Tage des Aufstands in der ägyptischen Revolution im Jahr 2011 veröffentlicht wurden. Diese Ressourcen waren wichtig, sagen sie, weil sie eine wertvolle Aufzeichnung einer historischen Veranstaltung.



Sie stellten jedoch auch fest, dass einige dieser Beiträge und andere im Internet verschwanden, und begannen, die Geschwindigkeit ihres Verschwindens zu messen. Daher die oben angegebenen Zahlen.

Die neue Arbeit ist ihr Versuch, diese fehlenden Beiträge und Ressourcen zumindest teilweise aus den Spuren, die sie im Web hinterlassen, zu rekonstruieren.

SalahEldeen und Nelson begannen damit, die früheren Ergebnisse zu bestätigen, und das war eine Überraschung. Ein interessantes Phänomen trat auf, als mehrere der Ressourcen, die zuvor als vermisst erklärt wurden, wieder verfügbar wurden, heißt es.



Dies ist möglich, wenn das ursprüngliche Verschwinden das Ergebnis einer gestörten Domäne oder eines Archivs war, das später wiederhergestellt wurde, oder eines Benutzerkontos, das gesperrt und später wiederhergestellt wurde.

Also fragten sich SalahEldeen und Nelson, wie es möglich sein könnte, dieses wiederauferstandene Material zu finden, auch wenn es sich nicht mehr in seiner ursprünglichen Cyber-Nachbarschaft befindet. Sie weisen darauf hin, dass die meisten gemeinsam genutzten Ressourcen an anderen Stellen im Web Spuren hinterlassen, wie z. B. Retweets, Hashtags, Kommentare usw.

Die Idee von SalahEldeen und Nelson war der Versuch, eine fehlende Ressource zu rekonstruieren, indem sie nach den im Internet hinterlassenen Spuren suchen. Dazu nutzten sie die Twitter-Suchmaschine Topsy, die es ihnen ermöglicht, die Adresse einer fehlenden Ressource einzugeben und die darauf verweisenden Tweets zurückzugeben. Dies ist die Tweet-Signatur der Ressource.



Anschließend extrahieren sie die fünf häufigsten Begriffe aus dieser Signatur und verwenden sie als Suchanfrage in Google. Das Ergebnis ist eine Liste potenzieller Ersatz für die verlorene Ressource.

Eine wichtige Frage ist natürlich, wie genau die Ersatzkandidaten mit der ursprünglichen Ressource übereinstimmen. Um dies zu testen, führten SalahEldeen und Nelson den gleichen Prozess für nicht verschwundene Ressourcen durch und verglichen dann die Ersatzkandidaten mit den Originalen. Sie sagen, dass die Ersetzungen in etwa 40 % der Fälle eine textliche Ähnlichkeit von 70 % mit der ursprünglichen Ressource aufwiesen.

Natürlich nicht perfekt, aber besser als nichts. Und vielleicht wird es mit der Zeit möglich, es besser zu machen.



Interessant ist, dass dieser Prozess eine Art Internetarchäologie ist, die eine historische Webseite aus dem Kontext rekonstruiert, in dem sie aufgetreten ist. Das ist eine faszinierende neue Disziplin.

In der realen Welt sind Archäologen und Anthropologen hochqualifiziert darin, die Naturgeschichte auf diese Weise zu rekonstruieren. Die Schlussfolgerungen, die beispielsweise aus der Entdeckung und Analyse eines einzelnen Zahns gezogen werden können, sind wirklich erstaunlich.

Es gibt keinen Grund, warum Internet-Archäologen nicht ebenso kompetent werden könnten.

Ref: arxiv.org/abs/1309.2648 : Resurrecting My Revolution: Social Link Neighborhood nutzen, um Kontext in das verschwindende Web zu bringen

verbergen