Die erste visuelle Suchmaschine für wissenschaftliche Diagramme

1973 entwarf der Statistiker Francis Anscombe eine faszinierende Demonstration, die zeigte, warum Daten immer grafisch dargestellt werden sollten, bevor sie analysiert werden. Die Demonstration bestand aus vier Datensätzen mit nahezu identischen statistischen Eigenschaften. Durch diese Maßnahme sind sie im Wesentlichen gleich.





Aber wenn sie aufgetragen werden, sehen die Datensätze völlig anders aus. Anscombes Quartett , wie es bekannt geworden ist, zeigt, wie gute Grafiken es Menschen ermöglichen, Daten anders zu analysieren, auf einer anderen Ebene darüber nachzudenken und zu sprechen.

Die meisten Wissenschaftler erkennen die Bedeutung guter Grafiken für die Vermittlung komplexer Ideen. Es ist zum Beispiel schwierig, die Struktur der DNA ohne ein Diagramm zu beschreiben.

Und doch gibt es wenig oder gar keine Beweise dafür, dass gute Grafiken ein wichtiger Teil des wissenschaftlichen Strebens sind. Die Bedeutung guter Grafiken mag selbstverständlich erscheinen, ist aber ohne Beweise nur eine Hypothese.



Heute ändert sich das dank der Arbeit von Po-shen Lee von seinen Freunden an der University of Washington in Seattle, die einen Bildverarbeitungsalgorithmus verwendet haben, um Grafiken in wissenschaftlichen Arbeiten zu suchen und sie dann zu analysieren und zu klassifizieren. Diese Arbeit zeigt erstmals, dass Grafiken eine wichtige Rolle im wissenschaftlichen Prozess spielen. Wir finden eine signifikante Korrelation zwischen wissenschaftlicher Wirkung und der Verwendung visueller Informationen, wobei wirkungsvollere Papiere tendenziell mehr Diagramme und in geringerem Maße mehr Diagramme und Fotos enthalten, heißt es.

Diese Jungs laden zunächst 4,8 Millionen Abbildungen aus 650.000 wissenschaftlichen Artikeln aus der Online-Datenbank PubMed Central herunter, die hauptsächlich Artikel aus den Biowissenschaften und der Biomedizin enthält. Lee und Co trainierten dann einen Bildverarbeitungsalgorithmus, um Multichart-Figuren in ihre Bestandteile zu zerlegen. Damit vergrößerte sich die Datenbasis auf rund 10 Millionen Zahlen zur Analyse, 67 Prozent davon stammen aus den Multichart-Zahlen.

Anschließend brachte das Team dem Algorithmus bei, fünf verschiedene Arten von Abbildungen zu erkennen: Diagramme, Fotos, Tabellen, Diagramme und Gleichungen. Am häufigsten stellen sich Datenplots heraus, die 35 Prozent der Gesamtmenge ausmachen, gefolgt von Fotos (22 Prozent), Diagrammen (20 Prozent) und Gleichungen (17 Prozent). Tabellen machen nur 5 Prozent der Datenbank aus.



Als nächstes analysierten die Forscher, wie sich diese Verteilung je nach Zeitschrift, Disziplin und im Laufe der Zeit veränderte. Wir stellen fest, dass die Verteilung von Figuren und Figurentypen in der Literatur im Laufe der Zeit relativ konstant geblieben ist, aber je nach Bereich und Thema stark variieren kann, heißt es.

Aber ihre bemerkenswerteste Entdeckung ist, dass die erfolgreichsten Zeitungen tendenziell mehr Zahlen haben. Indem es die Anzahl der Diagramme in einem Papier gegen seine Wirkung aufträgt, kommt das Team zu dem Schluss, dass wirkungsvolle Ideen in der Regel visuell vermittelt werden.

Lee und Co. sagen, dass es zwei mögliche Erklärungen dafür gibt: Dass visuelle Informationen die Klarheit des Artikels verbessern, was zu mehr Zitaten und einer höheren Wirkung führt, oder dass Artikel mit hoher Wirkung von Natur aus dazu neigen, neue, komplexe Ideen zu enthalten, die einer visuellen Erklärung bedürfen.



Davor steht natürlich Arbeit. Lee und Co. sind sich der Ausrichtung von PubMed Central auf die Biowissenschaften und die Biomedizin bewusst. Ein naheliegender nächster Schritt ist daher die Einbeziehung von Diagrammen aus den Naturwissenschaften. Das Physics arXiv ist eine offensichtliche Ressource, die es zu nutzen gilt.

Das Team möchte auch die Eigenschaften verschiedener Datendarstellungen untersuchen. Ihr Ziel ist es, zu untersuchen, wie erfolgreich verschiedene Arten von Diagrammen Informationen vermitteln, und Beweise zu liefern, die die schwarze Kunst des Diagrammdesigns in eine Wissenschaft verwandeln könnten.

Das ist eine interessante Arbeit, die die Grundlage für eine völlig neue Art von Wissenschaft bildet. Das Team nennt dies Viziometrie, die Wissenschaft der visuellen Information. Dies spiegelt die Bibliometrie wider, die die statistische Untersuchung von Veröffentlichungen ist, und die Szientometrie, die die Lehre von der Messung der Wissenschaft ist.



Das Werk hinterlässt ein wichtiges Vermächtnis. Lee und Co haben ihre Datenbank unter durchsuchbar und verfügbar gemacht www.viziometrics.org . Das Stöbern ist interessant – geben Sie einen wissenschaftlichen Begriff ein und die Suchmaschine gibt eine große Auswahl an Diagrammen, Fotos usw. zu diesem Thema zurück.

Das ermöglicht es Wissenschaftlern, wissenschaftliche Literatur auf einer anderen Abstraktionsebene zu durchsuchen. Mit anderen Worten, es ermöglicht ihnen, auf neue Weise über Wissenschaft und Daten nachzudenken. Dies ist sicherlich ein mächtiges neues Werkzeug, das tiefgreifende Auswirkungen auf die Art und Weise haben könnte, wie wir wissenschaftliche Informationen produzieren, suchen und darauf zugreifen. Anscombe würde sicher staunen.

Ref: arxiv.org/abs/1605.04951 : Viziometrie: Analyse visueller Informationen in der wissenschaftlichen Literatur

verbergen