211service.com
Extrahieren von Bedeutung aus Millionen von Seiten
Forscher der University of Washington haben eine Software-Engine entwickelt, die Fakten zusammenführt, indem sie mehr als 500 Millionen Webseiten durchkämmt. Das Tool extrahiert Informationen aus Milliarden von Textzeilen, indem es grundlegende Beziehungen zwischen Wörtern analysiert.

Wortsuche : TextRunner durchkämmt automatisch 500 Millionen Webseiten, um die Bedeutung von Wortbeziehungen zu extrahieren.
Einige Experten sagen, dass diese Art der automatisierten Informationsextraktion wahrscheinlich die Grundlage für eine weitaus intelligentere Websuche der nächsten Generation bilden wird, bei der Informationen zuerst gesammelt und dann intelligent kombiniert werden.
Das Projekt der University of Washington stellt eine Hochskalierung einer dort entwickelten, dort entwickelten Technologie namens TextRunner dar, sowohl hinsichtlich der Seitenzahl als auch hinsichtlich des Umfangs der zu analysierenden Themen.
Die Bedeutung von TextRunner liegt darin, dass es skalierbar ist, weil es nicht überwacht wird, sagt Peter Norvig, Direktor für Forschung bei Google, das die Datenbank der von TextRunner analysierten Webseiten gespendet hat. Es kann Millionen von Beziehungen entdecken und lernen, nicht nur eine nach der anderen. Bei TextRunner ist kein Mensch in der Schleife: Es findet nur selbst Beziehungen.
Norvig erklärt, dass frühere Technologien mehr Anleitung vom Programmierer erforderten. Um beispielsweise die Namen von CEOs in Millionen von Dokumenten zu finden, müssen Sie die Software zunächst mit anderen Beispielen trainieren, z. B. Steve Jobs ist CEO von Apple, Sheryl Sandberg ist CEO von Facebook. Norvig fügt hinzu, dass Google dies tut ähnliche Arbeit und verwendet diese Technologie bereits in begrenzten Zusammenhängen.
TextRunner beseitigt diese manuelle Arbeit. Ein Benutzer kann beispielsweise eingeben, tötet Bakterien ab, und die Engine zeigt Seiten an, die Einblicke bieten, dass Chlor Bakterien abtötet oder ultraviolettes Licht Bakterien abtötet oder Hitze Bakterien abtötet – Ergebnisse, die als Tripel bezeichnet werden – und Möglichkeiten zur Vorschau des Textes bieten und Besuchen Sie dann die Webseite, von der es stammt.
Der Prototyp hat noch eine ziemlich einfache Schnittstelle und ist nicht für die öffentliche Suche gedacht, um die automatisierte Extraktion von Informationen aus 500 Millionen Webseiten zu demonstrieren, sagt Oren Etzioni , ein Informatiker der University of Washington, der das Projekt leitete. Was wir zeigen, ist die Fähigkeit von Software, ein rudimentäres Textverständnis in einem beispiellosen Umfang und Umfang zu erreichen, sagt er.
Etizioni sagt, dass TextRunners Fähigkeit, Bedeutungen schnell und in großem Umfang zu extrahieren, aus der Entdeckung eines allgemeinen Modells für den Ausdruck von Beziehungen auf Englisch durch seine Gruppe resultierte, das unabhängig vom Thema gilt. Das einfache Muster „entity1, verb, Entity2“ deckt beispielsweise die Beziehung „Edison hat die Glühbirne erfunden“ sowie „Microsoft hat Farecast übernommen“ und viele mehr ab, sagt er. TextRunner stützt sich auf dieses automatisch aus Text gelernte Modell, um Sätze zu analysieren und Tripel mit hoher Genauigkeit zu extrahieren.
TextRunner dient auch als Ausgangspunkt für die Erstellung von Rückschlüssen aus natürlichsprachlichen Abfragen, an denen die Gruppe derzeit arbeitet. Um ein einfaches Beispiel zu geben: Wenn TextRunner eine Webseite findet, die besagt, dass Säugetiere warmblütig sind, und eine andere Webseite, die besagt, dass Hunde Säugetiere sind, erzeugt eine Inferenz-Engine die Information, dass Hunde wahrscheinlich warmblütig sind.
Dies ist analog zu der von Powerset entwickelten Technologie, die letztes Jahr von Microsoft übernommen wurde. Kurz vor dieser Übernahme stellte Powerset ein Tool vor, das sich darauf beschränkte, Fakten aus nur etwa zwei Millionen . zu extrahieren Wikipedia Seiten. Die TextRunner-Technologie verarbeitet Wikipedia-Seiten sowie beliebigen Text auf jeder Seite, einschließlich Blog-Posts, Produktkatalogen, Zeitungsartikeln und mehr.
Diese Arbeitslinie hat wichtige Fortschritte in Bezug auf den Umfang gemacht, in dem diese Aufgaben angegangen werden können, sagt Jon Kleinberg, ein Informatiker an der Cornell University, der die Suchforschung der University of Washington verfolgt hat. Er fügte hinzu, dass diese Arbeit einen wachsenden Trend zum Design von Suchwerkzeugen widerspiegelt, die die Informationen, die sie im Web finden, aktiv zu einer größeren Synthese kombinieren.