Dieser Algorithmus durchsucht Wikipedia, um Lehrbücher automatisch zu generieren

Wikipedia





Maschinelles Lernen – Der vollständige Leitfaden ist ein gewichtiger Wälzer. Auf mehr als 6.000 Seiten ist dieses Buch eine umfassende Einführung in das maschinelle Lernen mit aktuellen Kapiteln zu künstlichen neuronalen Netzen, genetischen Algorithmen und maschinellem Sehen.

Aber dies ist keine gewöhnliche Veröffentlichung. Es ist ein Wikibook, ein Lehrbuch, auf das jeder zugreifen oder es bearbeiten kann, das aus Artikeln in Wikipedia, der riesigen Online-Enzyklopädie, besteht.

Das ist eine Stärke. Crowdsourcing-Informationen werden ständig mit den neuesten Fortschritten aktualisiert und konsequent bearbeitet, um Fehler und Mehrdeutigkeiten zu korrigieren.



Aber es ist auch eine Schwäche. Wikipedia ist riesig. Die Entscheidung, was in ein solches Lehrbuch aufgenommen werden soll, ist eine schwierige Aufgabe, weshalb das Buch vielleicht so umfangreich ist. Mit mehr als 550 Kapiteln ist es keine leichte Lektüre.

Das wirft eine interessante Frage auf. Gibt es angesichts der Fortschritte der künstlichen Intelligenz in den letzten Jahren eine Möglichkeit, Wikipedia-Inhalte automatisch zu bearbeiten, um ein zusammenhängendes Ganzes zu schaffen, das als Lehrbuch nützlich ist?

Geben Sie Shahar Admati und Kollegen an der Ben-Gurion-Universität des Negev in Israel ein. Diese Jungs haben eine Möglichkeit entwickelt, Wikibooks mithilfe von maschinellem Lernen automatisch zu generieren. Sie nennen ihre Maschine den Wikibook-Bot. Das Neue an unserer Technik ist, dass sie darauf abzielt, ein ganzes Wikibook ohne menschliche Beteiligung zu erstellen, sagen sie.



Der Ansatz ist relativ einfach. Die Forscher begannen mit der Identifizierung einer Reihe vorhandener Wikibooks, die als Trainingsdatensatz dienen können. Sie begannen mit 6.700 Wikibooks, die in einem Datensatz enthalten waren, der von Wikipedia für diese Art von akademischer Studie zur Verfügung gestellt wurde.

Da diese Wikibooks sowohl für das Training als auch für das Testen eine Art Goldstandard darstellen, brauchte das Team eine Möglichkeit, ihre Qualität sicherzustellen. Wir haben uns entschieden, uns auf Wikibooks zu konzentrieren, die mindestens 1000 Mal angesehen wurden, basierend auf der Annahme, dass beliebte Wikibooks von angemessener Qualität sind, sagen sie.

So blieben 490 Wikibooks übrig, die weiter gefiltert wurden, basierend auf Faktoren wie mehr als 10 Kapiteln. Übrig blieben 407 Wikibooks, mit denen das Team seine Maschinen trainierte.



Das Team teilte dann die Aufgabe, ein Wikibook zu erstellen, in mehrere Teile auf, von denen jeder eine andere Fähigkeit zum maschinellen Lernen erfordert. Die Aufgabe beginnt mit einem von einem Menschen generierten Titel, der ein bestimmtes Konzept beschreibt, z Maschinelles Lernen – Der vollständige Leitfaden .

Die erste Aufgabe besteht darin, den gesamten Satz von Wikipedia-Artikeln zu sortieren, um festzustellen, welche relevant genug sind, um aufgenommen zu werden. Diese Aufgabe ist aufgrund der schieren Menge an Artikeln, die es in Wikipedia gibt, und der Notwendigkeit, die relevantesten Artikel aus Millionen von verfügbaren Artikeln auszuwählen, eine Herausforderung, sagen Admati und Co.

Um bei dieser Aufgabe zu helfen, nutzte das Team die Netzwerkstruktur von Wikipedia – Artikel verweisen oft über Hyperlinks auf andere Artikel. Es ist vernünftig anzunehmen, dass der verlinkte Artikel wahrscheinlich relevant ist.



Also begannen sie mit einem kleinen Kern von Artikeln, die das Seed-Konzept im Titel erwähnen. Anschließend identifizierten sie alle Artikel, die bis zu drei Hops von diesen Samen im Netzwerk entfernt sind.

Aber wie viele dieser verlinkten Artikel sollen enthalten sein? Um das herauszufinden, begannen sie mit den Titeln der 407 von Menschen erstellten Wikibooks und führten die Drei-Hop-Analyse durch. Anschließend ermittelten sie, wie viel Inhalt in den von Menschen erstellten Büchern durch den automatisierten Ansatz enthalten war.

Es stellt sich heraus, dass der automatisierte Ansatz oft einen Großteil des ursprünglichen Wikibook-Inhalts enthielt, aber noch viel mehr darüber hinaus. Das Team brauchte also einen anderen Weg, um den Inhalt weiter zu beschneiden.

Auch hier kommt die Netzwerkwissenschaft ins Spiel. Jedes von Menschen erstellte Wikibook hat seine eigene Netzwerkstruktur, bestimmt durch die Anzahl der Links, die von anderen Artikeln verweisen, die Anzahl der Links, die darauf hinweisen, die Seitenrangliste der enthaltenen Artikel und so weiter.

Also erstellte das Team einen Algorithmus, der jeden automatisch ausgewählten Artikel zu einem bestimmten Thema betrachtete und dann feststellte, ob die Aufnahme in ein Wikibook die Netzwerkstruktur den von Menschen erstellten Büchern ähnlicher machen würde oder nicht. Wenn nicht, wird der Artikel ausgelassen.

Der nächste Schritt besteht darin, die Artikel in Kapitel zu organisieren. Dies ist im Wesentlichen eine Clustering-Aufgabe; um das Netzwerk zu betrachten, das durch den gesamten Satz von Artikeln gebildet wird, und herauszufinden, wie es in kohärente Cluster unterteilt werden kann. Für diese Aufgabe stehen verschiedene Clustering-Algorithmen zur Verfügung.

Der letzte Schritt besteht darin, die Reihenfolge festzulegen, in der die Artikel in jedem Kapitel erscheinen sollen. Dazu organisiert das Team die Artikel in Paaren und verwendet ein netzwerkbasiertes Modell, um zu bestimmen, welche zuerst erscheinen sollen. Indem dies für alle Kombinationen von Artikelpaaren wiederholt wird, ermittelt der Algorithmus eine bevorzugte Reihenfolge der Artikel und damit der Kapitel.

Auf diese Weise konnte das Team automatisierte Versionen von Wikibooks erstellen, die bereits von Menschen erstellt wurden. Wie gut diese automatisierten Bücher im Vergleich zu den von Menschen erstellten Büchern abschneiden, ist schwer zu beurteilen. Sie enthalten sicherlich viel vom gleichen Material, oft in ähnlicher Reihenfolge, was ein guter Anfang ist.

Aber Adamti und Co. haben einen Plan, um den Nutzen ihres Ansatzes zu bestimmen. Sie planen, eine Reihe von Wikibooks zu Themen zu produzieren, die noch nicht von von Menschen erstellten Büchern abgedeckt werden. Sie überwachen dann die Seitenaufrufe und Bearbeitungen dieser Bücher, um zu sehen, wie beliebt sie werden und wie stark sie im Vergleich zu von Menschen erstellten Büchern bearbeitet werden. Dies wird ein realer Test für unseren Ansatz sein, sagen sie.

Das ist eine interessante Arbeit, die das Potenzial hat, wertvolle Lehrbücher zu einer Vielzahl von Themen zu produzieren und sogar andere Texte wie Konferenzberichte zu erstellen. Wie wertvoll sie für menschliche Leser sein werden, muss noch bestimmt werden. Aber wir werden beobachten, um es herauszufinden.

Ref: arxiv.org/abs/1812.10937 : Wikibook-Bot – Automatische Generierung eines Wikipedia-Buches

verbergen