Die 70 Online-Datenbanken, die unseren Planeten definieren

Bereits im April haben wir uns einen ehrgeizigen europäischen Plan zur Simulation des gesamten Planeten angeschaut. Die Idee ist, die riesigen Datenmengen, die von Finanzmärkten, Gesundheitsakten, sozialen Medien und Klimaüberwachung generiert werden, zu nutzen, um das Klima, die Gesellschaften und die Wirtschaft des Planeten zu modellieren. Die Vision ist, dass ein solches System helfen kann, Krisen zu verstehen und vorherzusagen, bevor sie eintreten, damit Regierungen im Vorfeld geeignete Maßnahmen ergreifen können.

Hier gibt es zahlreiche Herausforderungen. Noch hat niemand die nötige Rechenleistung für eine solche Aufgabe, noch gibt es Modelle, die auch viel kleinere Systeme exakt modellieren können. Aber bevor dies möglich ist, müssen die Forscher die wirtschaftlichen, sozialen und technologischen Daten sammeln, die für die Versorgung dieser Maschine erforderlich sind.

Heute bekommen wir von Dirk Helbing und Stefano Balietti von der Eidgenössischen Technischen Hochschule Zürich einen grossen Rundgang durch diese Herausforderung. Helbing ist die treibende Kraft hinter diesem Projekt und der Mann, der es leiten wird, wenn er die benötigte 1 Milliarde Euro von der Europäischen Kommission bekommt.

Es stellt sich heraus, dass es bereits zahlreiche Datenquellen gibt, die den nötigen Treibstoff liefern könnten, um Helbings Earth Simulator anzutreiben. In der Vergangenheit wurde das Sammeln von Daten über menschliche Aktivitäten weitgehend durch finanzielle, technologische und ethische Probleme behindert, sagen Helbing und Balietti. Das ist nicht mehr der Fall.

Während es in der Vergangenheit schwierig war, an gute Daten aus sozialwissenschaftlichen Experimenten zu kommen, werden Forscher derzeit dank einer neuen Generation von Laborexperimenten, Webexperimenten und dem Studium von massiven Online-Spielen mit mehreren Spielern davon überschwemmt.

Diese und andere Aktivitäten produzieren jetzt riesige Datenmengen, von denen viele im Internet frei verfügbar sind.

Natürlich besteht eine der Gefahren eines solchen Ansatzes darin, dass alle ethischen Fragen wahrscheinlich von dieser Flutwelle überschwemmt werden. Dies muss dringend angegangen werden. Während Helbing und Kollegen überzeugend über die potenziellen Vorteile eines Erdsimulators schreiben, ist es kaum zu glauben, dass sie sich die potenziellen Risiken genauso stark gemacht haben.

Um diese Debatte anzuregen, gebe ich hier Helbings Liste von Websites wieder, die potenzielle Datenquellen für einen Erdsimulator sind. Es sorgt für eine faszinierende, wenn auch nervenaufreibende Lektüre:

Internet und historische Schnappschüsse
Internetarchiv / Wayback-Maschine
Das Internetarchiv bietet Forschenden, Historikern, Wissenschaftlern, Menschen mit Behinderungen und der breiten Öffentlichkeit einen dauerhaften Zugang zu den in digitaler Form vorliegenden historischen Sammlungen. 1996 gegründet, umfasst das Internetarchiv heute Texte, Audio, Bewegtbild und Software sowie archivierte

Wikipedia
Wikipedia ist die bekannteste gemeinschaftlich herausgegebene Enzyklopädie. Da jede Änderung gespeichert wird, kann die Historie von Webseiten einen detaillierten thematischen Überblick über die wichtigsten Referenzen der Vergangenheit bieten.

Die Wissenszentren
Eine Sammlung von Links zu anderen Ressourcen zum Auffinden von Webseiten, wie sie in der Vergangenheit existierten.

Wannvor
Whenago bietet schnellen Zugriff auf historische Informationen darüber, was an einem bestimmten Tag in der Vergangenheit passiert ist.

Digitale Weltbibliothek
Die World Digital Library (WDL) stellt im Internet kostenlos und mehrsprachig bedeutende Primärmaterialien aus Ländern und Kulturen der ganzen Welt zur Verfügung.

Informationsabruf-Engines
Freebase
Freebase ist ein offenes, von Creative Commons lizenziertes Repository mit strukturierten Daten von mehr als 12 Millionen Entitäten. Es bietet kollaborative Tools, um Entitäten miteinander zu verknüpfen und auf dem neuesten Stand zu halten.

Wolfram Alpha Computational Knowledge Engine
Ein Versuch, alles zu berechnen, was über alles berechnet werden kann. Es zielt darauf ab, eine einzige Quelle bereitzustellen, auf die sich jeder verlassen kann, um endgültige Antworten auf sachliche Fragen zu erhalten.

Text-Mining im Web
Google-Trends
Google Trends zeigt visuelle Statistiken darüber, wie oft im Laufe der Zeit bei Google nach Keywords gesucht wurde. Google Trends zeigt auch, wie häufig Themen in Google News-Stories erschienen sind und in welchen geografischen Regionen am häufigsten danach gesucht wurde.

Google Grippe-Trends
Google Grippetrends verwendet aggregierte Google-Suchdaten, um die Grippeaktivität einzuschätzen. Daten auch zum Download verfügbar.

Das Observatorium
Das Observatorium-Projekt konzentriert sich auf die komplexe Netzwerkdynamik im Internet und schlägt vor, seine Entwicklung in Echtzeit zu überwachen, mit dem allgemeinen Ziel, die Prozesse der Wissensgenerierung und Meinungsdynamik besser zu verstehen.

Wir fühlen uns gut
Eine Datenbank mit mehreren Millionen menschlichen Gefühlen, gesammelt aus Blogs und sozialen Seiten im Web. Über eine Reihe spielerischer Schnittstellen können die Gefühle in einer Reihe von demografischen Schichten gesucht und sortiert werden. Web-API ebenfalls verfügbar.

CyberEmotionen
Das Projekt CyberEmotions konzentriert sich auf die Rolle kollektiver Emotionen bei der Schaffung, Bildung und Auflösung von Gemeinschaften. Es stellt drei Datensätze mit Nachrichten und Kommentaren aus dem BBC News Forum, Digg und MySpace nur für die akademische Forschung und nur nach Einreichung eines Antragsformulars zum Download bereit.

Soziale Datenfreigabe
Verknüpfte Daten
Bei Linked Data geht es darum, das Web zu verwenden, um verwandte Daten zu verbinden, die zuvor nicht verknüpft waren, oder das Web zu verwenden, um die Barrieren für die Verknüpfung von Daten, die derzeit mit anderen Methoden verknüpft sind, zu verringern.

Dataverse-Netzwerkprojekt
Das Dataverse Network ist eine Anwendung zum Veröffentlichen, Teilen, Referenzieren, Extrahieren und Analysieren von Forschungsdaten. Es erleichtert die Bereitstellung von Daten für andere und ermöglicht es, die Arbeit anderer zu replizieren. Forscher und Datenautoren erhalten Anerkennung, Herausgeber und Vertreiber erhalten Anerkennung, verbundene Institutionen erhalten Anerkennung.

Daten360
Data360 ist eine Open-Source-, kollaborative und kostenlose Website. Die Site beherbergt eine gemeinsame und gemeinsame Datenbank, die jede Person oder Organisation, die sich zu Neutralität und Unparteilichkeit verpflichtet (d. h. die Daten sprechen lassen), für Präsentationen und Visualisierungen verwenden kann.

Schwenken
Swivel ist eine Website, auf der Benutzer Berichte über Diagramme und Zahlen austauschen. Es ist kostenlos für öffentliche Daten und erhebt eine monatliche Gebühr für Personen, die es privat nutzen möchten.

Viele Augen
Eine IBM Initiative, die es Benutzern ermöglicht, ihre Datensätze hochzuladen und eine Sammlung von Tools zu verwenden, um aussagekräftige Visualisierungen von ihnen zu erhalten. Jede Visualisierung wird öffentlich auf einer eigenen Seite gespeichert, auf der Benutzer sie kommentieren, bewerten und markieren können. Die Wiederverwendung der Daten ist möglich und erwünscht.

Konfliktdaten
CSCW-Daten zu bewaffneten Konflikten
CSCW und das Uppsala Conflict Data Program (UCDP) am Department of Peace and Conflict Research der Universität Uppsala haben in der Zeit von 1946 bis heute an der Erstellung eines Datensatzes bewaffneter Konflikte interner und externer Art zusammengearbeitet. Derzeit wahrscheinlich das umfangreichste verfügbare Dataset-Repository, insbesondere für historische Daten.

WarViews
Ziel des WarViews-Projekts ist es, ein einfach zu bedienendes Frontend für die Exploration von GIS-Daten zu Konflikten zu schaffen. Es kann in einem Webbrowser ausgeführt oder mit Google Earth angezeigt werden.

Im Folgenden sind bürgerkriegsspezifische Datensätze mit zusätzlichen empirischen Informationen aufgeführt:
Standortdatensatz ethnischer Gruppen
Datensatz zu ethnischen Machtbilanzen
Sammlung aktualisierter Datensätze und Codebücher aus dem Uppsala Conflict Data Program (UCDP) .

ACLED
ACLED (Armed Conflict Location and Events Dataset) ist teilweise im PRIO-Datensatz enthalten und wurde für die disaggregierte Konfliktanalyse und Krisenkartierung entwickelt. Dieser Datensatz kodiert den Ort aller gemeldeten Konfliktereignisse in 50 Ländern der Entwicklungsländer. Die Daten werden derzeit von 1997 bis 2009 kodiert, und das Projekt führt weiterhin die Rückdatierung von Konfliktinformationen für afrikanische Staaten bis zum Jahr der Unabhängigkeit durch.

CERAC
Das Konfliktanalyse-Ressourcenzentrum beherbergt mehrere länderübergreifende Konfliktdatensätze und einige Datensätze bestimmter Länder. Repositorien enthalten auch Datensätze zu politischer Instabilität und Konflikten.

Das länderübergreifende Zeitreihen-Datenarchiv
Das Cross-National Time-Series Data Archive bietet jährliche Daten für eine Reihe von Ländern von 1815 bis heute. Er wird häufig zitiert und ist laut Robert Bates von der Harvard University einer der führenden Datensätze zu politischer Gewalt. Laut Henrik Urdal, International Peace Research Institute, Oslo (PRIO), ist dies möglicherweise der am weitesten verbreitete Ereignisdatensatz.

Länderspezifische Repositorys: Irak , Afghanistan
Sammlung von Datensätzen terroristischer Handlungen .

Daten in Wirtschaft und Finanzen
Bloomberg
Internationaler Echtzeit-Datenanbieter für Entscheidungsträger in Finanzen, Wirtschaft und Regierung.

Maddison-Daten
Historische Statistiken über BIP und Bevölkerungsdaten.

UNCTAD-Statistik
Das Online-Handbuch der UNCTAD-Statistik stellt Zeitreihen von Wirtschaftsdaten und Entwicklungsindikatoren bereit, die in einigen Fällen bis ins Jahr 1950 zurückreichen; die Online-Datenbank für Rohstoffpreisstatistiken; die UNCTAD-TRAINS im Internet (Trade Analysis and Information System) für Handelskontrollmaßnahmen sowie Importströme nach Herkunft für über 130 Länder; die Datenbank für ausländische Direktinvestitionen (FDI).

OECD-Statistikportal
Große Sammlung von Datensätzen zu Wirtschaft und Demografie. Extraktionen sind frei verfügbar, für den vollständigen Zugriff ist ein Abonnement erforderlich.

EUROSTAT
Ausführliche Statistiken über die EU und die Kandidatenländer sowie verschiedene statistische Veröffentlichungen zum Verkauf.

Wo ist Georg?
Räumliches Tracking-System für US- und kanadische Dollar.

Eurobilltracker
Räumliches Tracking-System für Euro-Banknoten.

Daten zur wissenschaftlichen Zusammenarbeit
ISI Web of Knowledge
Umfassende Informationsquelle in den Natur-, Sozial-, Kunst- und Geisteswissenschaften. Es umfasst mehrere Datensätze, von denen die folgenden vielleicht die bemerkenswertesten sind:
Zitationsberichte in Zeitschriften. Es ermöglicht die Bewertung und den Vergleich von Zeitschriften anhand von Zitationsdaten aus über 7.500 wissenschaftlichen und technischen Zeitschriften;
Wissenschaftsnetz. Es besteht aus sieben Datenbanken mit Informationen aus Tausenden von wissenschaftlichen Zeitschriften, Büchern, Buchreihen, Berichten, Konferenzen und mehr.

Google Scholar
Google Scholar ist eine auf wissenschaftliche Literatur spezialisierte Suchmaschine. Es indiziert verschiedene Quellen (Artikel, Bücher, Abstract, Dissertation etc.) aus mehreren Disziplinen und sortiert diese nach Zitationszahl, Autor und Journal Impact Factor.

Scholarometer
Scholarometer ist ein soziales Tool, um die Zitationsanalyse zu erleichtern und die Wirkung der Veröffentlichungen eines Autors zu bewerten. Es funktioniert als Software-Plug-In für den Firefox-Browser.

Skopus
Scopus ist eine sehr große Abstract- und Zitationsdatenbank für Forschungsliteratur. Es ist nur für registrierte Benutzer verfügbar.

Lebendige Wissenschaft
Living Science ist ein globales Echtzeit-Wissenschaftsobservatorium, das auf Veröffentlichungen basiert, die bei arXiv.org eingereicht wurden. Es umfasst (tägliche) Echtzeit-Einreichungen von Publikationen in so unterschiedlichen Bereichen wie Physik, Astronomie, Informatik, Mathematik und Quantitative Biologie. Derzeit werden die Inhalte täglich dynamisch aktualisiert. Living Science ist ein leistungsstarkes Analysewerkzeug, um das Ausmaß und die Auswirkungen wissenschaftlicher Arbeit weltweit zu ermitteln.

Sozialwissenschaften
ICPSR der University of Michigan
ICPSR bietet mehr als 500.000 digitale Dateien mit sozialwissenschaftlichen Forschungsdaten. Zu den vertretenen Disziplinen gehören Politikwissenschaft, Soziologie, Demografie, Wirtschaft, Geschichte, Gerontologie, Strafjustiz, öffentliche Gesundheit, Außenpolitik, Terrorismus, Gesundheit und medizinische Versorgung, Früherziehung, Bildung, rassische und ethnische Minderheiten, Psychologie, Recht, Drogenmissbrauch und psychische Gesundheit und mehr.

UK-Rechenzentrum der University of Essex
Großbritanniens größte Sammlung digitaler Forschungsdaten in den Sozial- und Geisteswissenschaften.

Berkeleys UC DATA Archiv
Die Datenbestände von UC DATA liegen hauptsächlich in den Bereichen Politik-, Sozial- und Gesundheitswissenschaften.

Der Wirtschafts- und Sozialdatendienst (ESDS)
Der Wirtschafts- und Sozialdatendienst (ESDS) ist ein nationaler Datendienst, der Zugang und Unterstützung zu einer umfangreichen Palette von quantitativen und qualitativen Schlüsseldaten zu Wirtschaft und Gesellschaft bietet, die viele Disziplinen und Themen umfassen. Es enthält eine Karte mit zusätzlichen Datensätzen aus mehreren europäischen Ländern.

CESSDA
Umfangreiche Datensammlungen, darunter soziologische Erhebungen, Wahlstudien, Längsschnittstudien, Meinungsumfragen und Volkszählungsdaten. Zu den Materialien gehören internationale und europäische Daten wie der European Social Survey, die Eurobarometer und das International Social Survey Programme.

Gapminder-Daten
Gapminder ist eine beliebte Technologie und Webanwendung zur Cross-Visualisierung von Trends in Zeitreihen von Daten. Es öffnet auch ein Archiv mit mehreren Datensätzen zu verschiedenen sozioökonomischen Indikatoren.

Weltwertumfrage
Der World Value Survey liefert Daten zu Werten und kulturellen Veränderungen in Gesellschaften auf der ganzen Welt.

Stadtdaten
Datenbank des Global Urban Observatory
Das Global Urban Observatory (GUO) bietet politikorientierte Stadtindikatoren, Statistiken und andere Stadtinformationen.

Städtisches Observatorium
US-basierte Datensätze zu Wohlstand, Innovation und Kriminalität in Städten.

Verkehrsdaten
Führerschein
Das Next Generation Simulation (NGSIM)-Programm wurde vom Verkehrsministerium der Vereinigten Staaten (US DOT) initiiert. Das Programm entwickelte einen Kern offener Verhaltensalgorithmen zur Unterstützung der Verkehrssimulation und sammelte hochwertige primäre Trassen- und Trajektoriendaten, die die Erforschung und das Testen der neuen Algorithmen unterstützen sollen.

Bundesamt für Strassen ASTRA
Das Bundesamt für Strassen bietet einen umfassenden Überblick über die Verkehrsströme in der Schweiz. Die Datenerfassung erfolgt durch permanente automatische Verkehrszählstationen und wird seit 1961 durch regelmäßige manuelle Kontrollen ergänzt.

Verkehrsdaten
Ziel des Projekts International Traffic Database (ITDb) ist es, verschiedenen Gruppen (Forscher, Praktiker, öffentliche Einrichtungen) Verkehrsdaten in einem Format zur Verfügung zu stellen, das ihren jeweiligen Bedürfnissen entspricht, von Rohmessdaten bis hin zu statistischen Analysen. ITDb fördert ein flexibles Verkehrsdaten-Bereitstellungsformat basierend auf Benutzerbedürfnissen und Standardgewohnheiten.

Clearingstelle für Transportdaten
Die Clearingstelle für Verkehrsdaten im Deutschen Zentrum für Luft- und Raumfahrt ist die erste Anlaufstelle für einen schnellen Überblick über die verfügbaren Daten. Es richtet sich sowohl an Organisationen, die verkehrsrelevante Daten erheben, als auch an diejenigen, die die Ergebnisse solcher Forschungen nutzen möchten. Das Informationsangebot umfasst die Aufbereitung detaillierter Metadaten zu den Datensätzen sowie Hinweise zu Verwendungsmöglichkeiten und Quellen.

Desweiteren das Regiolab Delft
Die Initiative regiolab-delft startete kurz nach 2000 als gemeinsames Projekt der TU Delft in Zusammenarbeit mit der Stadtverwaltung Delft, der TRAIL-Forschungsschule, der Provinz Südholland, dem Verkehrsministerium und mehreren Industriepartnern. Der archivierte Datensatz besteht aus über 6 Jahren gemittelten 1-Minuten-Geschwindigkeits- und aggregierten Strömungsdaten von dicht beabstandeten Induktionsschleifen auf dem Autobahnnetz in der Provinz Südholland und anderen Daten von Kreuzungssteuerungen, Nummernschilderkennungskameras und vielem mehr.

RITA
Die Research and Innovative Technology Administration (RITA) des U.S. Department of Transportation bietet mehrere Datensätze über Seeverkehrs-, Fracht-, Fluglinien-, Passagier- usw. Verkehrsstatistiken.

ETH-Reisedatenarchiv (ETHTDA)
Das ETH Travel Data Archive (ETHTDA) ist eine virtuelle Plattform, die es Endbenutzern ermöglicht, die archivierten Reisedaten über das Web zu durchsuchen und eine einfache statistische Analyse zu ermöglichen.

Archiv für Metropolitan Travel Survey
Das Metropolitan Travel Survey Archive zum Speichern, Aufbewahren und öffentlichen Zugänglichmachen über das Internet von Reiseumfragen, die von Ballungsräumen, Staaten und Ortschaften durchgeführt wurden.

Infoblu
Infoblu ist ein privates Unternehmen, das Echtzeit-Verkehrsüberwachungsdienste für Italien anbietet. Alle Dienstleistungen sind gegen Gebühr verfügbar.

Karten öffnen
Google Maps
Weltberühmter Kartendienst. Es bietet mehrere zusätzliche Dienste wie: Street View, von Benutzern hochgeladene Inhalte (Fotos, Kommentare und Bewertungen) und personalisierte Overlays über Service-APIs.

OpenStreetMap
OpenStreetMap (von UCL) ist eine frei editierbare Karte der ganzen Welt. OpenStreetMap ermöglicht es Ihnen, geografische Daten von überall auf der Erde kollaborativ anzuzeigen, zu bearbeiten und zu verwenden.

Tracksource Brasilien
Tracksource ist ein Gemeinschaftsprojekt, das darauf abzielt, kostenlose Karten von Brasilien zu erstellen und zu verteilen.

Logistikdaten
Nationale Reiseumfrage für Haushalte
Der National Household Travel Survey (NHTS) sammelt Daten über Fern- und Nahreisen der amerikanischen Öffentlichkeit. Die gemeinsame Erhebung erhebt reisebezogene Daten wie Verkehrsmittel, Dauer, Entfernung und Zweck der Reise. Es sammelt auch demografische, geografische und wirtschaftliche Daten zu Analysezwecken. Es ist Teil von RITA.

Warenflussumfrage
Der Commodity Flow Survey (CFS) ist die wichtigste Quelle für Daten auf nationaler und bundesstaatlicher Ebene über inländische Frachtsendungen durch amerikanische Unternehmen in den Bereichen Bergbau, verarbeitendes Gewerbe, Großhandel, Hilfsbetriebe und ausgewählte Einzelhandelsbranchen. Es werden Daten zu Art, Herkunft und Zielort, Wert, Gewicht, Transportart, Versandentfernung und Tonnenkilometern der versendeten Waren bereitgestellt. Sie ist Teil von RITA und wird alle fünf Jahre durchgeführt (letzte Probenahme 2007).

Klimadaten
Julich
Klimadaten des Jülich Forschungszentrums.

Google org
Google stellt seine datengesteuerten philanthropischen Projekte vor, darunter zwei Umweltsatellitenobservatorien:
die Earth Engine: zur Überwachung von Trends bei der weltweiten Entwaldung;
die Krisenreaktion: zur Überwachung der Ölkatastrophe von der Plattform Deep Horizon, die versenkt wurde.

Reality-Mining
Reality-Mining
Verhaltensdaten, die über 9 Monate von 100 Mobiltelefonen gesammelt wurden. Umfasst sowohl Näherungs- als auch Telefonnutzungsstatistiken. Zwei anonymisierte Datensätze verfügbar: Einzelbenutzer (MySQL) und global (Matlab).

Andere Open-Data-Initiativen
Daten.gov
Umfangreiche Sammlung öffentlicher US-Datensätze für die Forschung.

Data.gov.uk
Umfangreiche Sammlung öffentlicher britischer Datensätze für die Forschung.

In Daten eingraben
Es wurde von der National Science Foundation (NSF) ins Leben gerufen und bietet eine Sammlung verschiedener Datenquellen.

Wächterdaten-Blog
Datenjournalismus-Initiative, die Datensätze von öffentlichem Interesse (hauptsächlich für Großbritannien relevant) zusammen mit deren Analyse veröffentlicht. Einige Kooperationen mit Datenvisualisierungskünstlern sind ebenfalls vorhanden.

Öffentliche Google-Daten
Google bietet mehrere große Datensätze zu verschiedenen sozioökonomischen Indikatoren der Welt und bietet Tools zur einfachen Visualisierung.

Ref: arxiv.org/abs/1012.0178 : Vom Social Data Mining zur Prognose sozioökonomischer Krisen

verbergen

211service.com

Die 70 Online-Datenbanken, die unseren Planeten definieren

Der Beste

Großbritannien beginnt diese Woche mit dem Testen seiner Kontaktverfolgungs-App – aber wird sie funktionieren?

Wissenschaftler erschaffen Kaulquappen, die von ihren Schwänzen sehen

Wie eine Stadt hofft, dass Sprachüberwachung ihr helfen kann, Hass zu besiegen

Chu bei Wasserstoff-Brennstoffzellen herausfordern

Lydia Kennard

Kategorien

Populäre Artikel