Eine Webspinne für alle

Mit der immer größer werdenden Informationsmenge im Internet wächst auch die Frage, wie man alles aufbereiten und nutzbar machen kann. Ein Startup namens 80beine , mit Sitz in Houston, TX, hofft, dass ein kostengünstiger, verteilter Web-Crawling-Dienst Start-ups dabei helfen könnte, im Internet nach Informationen zu suchen, ohne die riesigen Serverfarmen aufbauen zu müssen, die von großen Suchmaschinen verwendet werden. Das Unternehmen startete diese Woche auf der DEMO, einer Konferenz in San Diego, auf der neue Unternehmen vorgestellt werden.





Webcrawler oder Spider sind Software, die automatisch Seiten im Internet besucht und verwendet werden kann, um sie zu indizieren und Informationen von verschiedenen Seiten zu sammeln. Crawler werden beispielsweise von Suchmaschinen verwendet, um den Ort von Informationen im Web zu überwachen. Die Größe des Webs bedeutet jedoch, dass umfassendes Crawling viel Rechenleistung verbraucht, was normalerweise den Bau riesiger Rechenzentren für die Software erfordert.

80legs hofft, diese Technologie für kleine Unternehmen und Einzelpersonen zugänglicher zu machen, indem es den Zugang per Leasing ermöglicht und Kunden nur für das bezahlen lässt, was sie durchsuchen.

Die Web-Crawling-Technologie ist auch für semantische Sites und Dienste von entscheidender Bedeutung, die für die Verarbeitung natürlicher Sprachanfragen entwickelt wurden. Während 80legs erwartet, dass Benutzer an Such- und semantischen Anwendungen interessiert sind, sagt CEO Shion Deysarkar, dass zu den Testern des Dienstes auch Kunden mit weniger technischen Interessen gehörten. Einige Marktforscher verwenden beispielsweise 80legs, um Erwähnungen bestimmter Unternehmen oder Themen im Web aufzudecken.



Ein Benutzer kann einen Webcrawl über die webbasierte Oberfläche von 80legs starten. Über das Formular auf der Website des Unternehmens können sie Parameter für das Projekt festlegen und benutzerdefinierten Code hochladen, der benötigt wird, um zu steuern, wie der Crawler seine Arbeit macht. Ein Benutzer möchte beispielsweise, dass der Crawler Bilder findet und sie mit einer Datenbank mit urheberrechtlich geschützten Bildern abgleicht. Deysarkar sagt, dass die Crawler seines Unternehmens bis zu zwei Milliarden Seiten pro Tag verarbeiten können. Das Unternehmen berechnet 2 US-Dollar für jede Million gecrawlter Seiten zuzüglich einer Gebühr von drei Cent pro in Anspruch genommener Verarbeitungsstunde.

Viele Start-ups haben Mühe, die für den Bau großer Rechenzentren erforderlichen Mittel zu finden, aber das ist nicht der Ansatz, den 80legs beim Aufbau seiner Web-Crawling-Infrastruktur verfolgt hat. Das Unternehmen führt seine Software stattdessen auf einem verteilten Netzwerk von PCs aus, ähnlich denen, die für Projekte wie zSETI @ home. Das verteilte Computernetzwerk wird von Plura Processing zusammengestellt, die es an 80legs vermietet. Plura bringt Computerbenutzer dazu, ungenutzte Rechenleistung im Austausch für den Zugang zu Spielen, Spenden an Wohltätigkeitsorganisationen und andere Belohnungen bereitzustellen.

Deysarkar sagt, dass der Ansatz die Kosten für 80legs erheblich senkt, sodass das Unternehmen seinen Service für weitaus weniger anbieten kann, als es mit einem Rechenzentrum oder sogar einem Cloud-Computing-Dienst wie Amazon Web Services möglich wäre.



Daniel Tunkelang, Mitbegründer des Suchunternehmens Endeca , mit Sitz in Cambridge, MA, sagt, dass ein guter Web-Crawling-Dienst für Start-ups nützlich sein könnte, die sich auf den Aufbau der Sucherfahrung statt auf das Sammeln von Daten konzentrieren möchten. Tunkelang sagt jedoch, dass der Erfolg von 80legs davon abhängen könnte, wie einfach es für die Benutzer ist, das Crawling anzupassen. Die große Frage ist, wie anpassungsfähig und programmierbar ist der Crawl? er sagt.

Tunkelang weist auch darauf hin, dass es für einen Webcrawler wichtig ist, so viele Informationen wie möglich zu erfassen. Der Weg, den ein Crawler genommen hat, um zu einer bestimmten Seite zu gelangen, kann beispielsweise einem Suchunternehmen nützliche Informationen über den Inhalt dieser Seite liefern.

Auch für Hochschulforscher könnte ein Service wie 80legs sinnvoll sein. Crawling im großen Maßstab ist in der Tat eine teure Hürde für experimentelle Suchprojekte in der Wissenschaft, denen es oft an einer groß angelegten Infrastruktur mangelt, sagt Kevin Chang , außerordentlicher Professor für Informatik an der University of Illinois in Urbana-Champaign.

Chang hält die verteilte Natur von 80legs für eine interessante Richtung und klingt vielversprechend [für die Senkung] der Crawling-Kosten. Gleichzeitig stimmt er zu, dass viel davon abhängt, wie effizient das System arbeitet und wie effektiv Benutzer die Daten, die sie verarbeiten möchten, anpassen können.

80legs plant, einen Markt zu eröffnen, auf dem nicht-technische Benutzer Anwendungen kaufen können, die die Funktionsweise eines Crawlers steuern können. Partnerunternehmen können auch den Zugriff auf Anwendungen verkaufen, die die Crawler von 80legs steuern.

verbergen