Die aufkommenden Fallstricke des Nowcasting mit Big Data

Anfang dieses Jahres veranstaltete die Europäische Zentralbank einen zweitägigen Workshop zu Big Data und wie sie für Prognosen verwendet werden können. Der Schlagzeilensprecher war Hal Varian, Chefökonom bei Google und ein Zahlenjongleur mit Rockstar-Status.





Varian erläuterte die Leistungsfähigkeit von Google Trends und Google Correlate, den Big-Data-Tools des Unternehmens. Bei Google Trends geben Sie eine Suchanfrage ein und erhalten eine Datenreihe von Aktivitäten zurück. Bei Google Correlate gibt man eine Datenreihe ein und erhält eine Liste von Suchanfragen zurück, deren Datenreihen einem ähnlichen Muster folgen, sagt Google auf seiner Correlate-Website. Mit anderen Worten, Google Correlate ist wie umgekehrt Google Trends.

Varian zeigte alle möglichen interessanten Trends und Korrelationen. Beispielsweise steigen Suchanfragen nach dem Wort Kater an einem Samstag erheblich an, erreichen an einem Sonntag ihren Höhepunkt und fallen an einem Montag deutlich ab. Und das Muster ähnelt dem Muster der Suche nach dem Wort Wodka, wenn auch um einen Tag (oder wahrscheinlicher eine Nacht und einen Morgen danach) verzögert.

In einem anderen Beispiel zeigte er, wie die Eingabe der Daten zu Erstanträgen auf Arbeitslosenunterstützung in den USA eine Liste mit 100 Abfragen zurückgab, die einem ähnlichen Muster folgten, einschließlich des Ausdrucks „Anmeldung zur Arbeitslosigkeit“.



Natürlich gibt es Grenzen. Er zeigte zwischen 2004 und 2012 eine falsche Korrelation zwischen US-Autoverkäufen und der Suchanfrage „Indische Restaurants“. Warum diese beiden Datensätze ähnlichen Trends folgen, ist nicht klar, aber wie Ihnen jeder Statistiker sagen wird, bedeutet Korrelation nicht Kausalität.

Die Botschaft war klar. Suchanfragendaten sind enorm leistungsfähig, müssen aber mit einiger Sorgfalt und Vorsicht behandelt werden.

Heute sagen Paul Ormerod vom University College London und ein paar Freunde, dass es noch andere Gründe gibt, vorsichtig zu sein. Diese Leute haben die Daten von Google Flu Trends studiert, in denen Google die Anzahl der grippebezogenen Suchanfragen verwendet, um das Auftreten der Grippe in verschiedenen Teilen der Welt zu einem bestimmten Zeitpunkt zu ermitteln.



Laut Ormerod und Co gibt es mehrere beeindruckende Beispiele, bei denen Google die Zahl der Grippefälle genau geschätzt hat, beispielsweise in den USA 2011/12, in der Schweiz 2007/8, in Deutschland 2005/6 und in Belgien 2007/8. Diese Möglichkeit, die Grippe zu überwachen, hat in den Medien breite Aufmerksamkeit erregt.

Weniger bekannt sind die Fälle, in denen Google Trends die tatsächliche Zahl der Grippefälle deutlich überschätzt hat. Dies geschah in den USA im Winter 2012/13, in der Schweiz 2008/9, in Deutschland 2008/9 und in Belgien 2008/9.

Warum der Unterschied? Ormerod und Co gehen davon aus, dass Menschen, die grippebezogene Suchen durchführen, in zwei Kategorien fallen. Die ersten sind diejenigen, die unter Grippesymptomen leiden, und die zweite Gruppe sucht nur, weil andere Leute auch suchen, vielleicht zum Beispiel wegen des starken Medieninteresses an der Grippe.



Die nützlichen Daten stammen natürlich von der ersten Gruppe der Grippekranken. Ihr Suchgrund ist intern erzeugt und unabhängig von der Außenwelt – sie fühlen sich krank. Ihr Suchmuster sollte sich also von Menschen unterscheiden, die aufgrund äußerer Einflüsse wie Zeitungsberichte suchen. Dieser Prozess der sozialen Suche dient lediglich dazu, die Zahlen aufzublähen.

Wie kann man also diese beiden Gruppen voneinander unterscheiden? Ormerod und Kollegen gehen davon aus, dass sich das Muster unabhängiger Suchen im Laufe der Zeit erheblich von sozialen Suchen unterscheiden wird. Insbesondere sagen sie, dass unabhängige Suchen schnell zunehmen sollten, wenn die Grippe durch die Bevölkerung fegt, und langsam zurückgehen sollten, wenn die Krankheit ausstirbt. Im Gegensatz dazu sind soziale Suchen symmetrischer.

Die Symmetrie in den Daten ist also ein Maß für den Grad der sozialen Suche. Tatsächlich zeigen sie, dass diese Symmetrie in den Jahren, in denen Google Grippe-Trends die Fälle erheblich überschätzt hat, deutlicher ist als in Jahren, in denen es genauer war.



Das ist ein interessantes Beispiel für die Art von Fallstricken, die Statistiker bei der Analyse von Big Data überwinden müssen. Google Trends ist nur ein Beispiel – die Welt wird zunehmend von großen Datensätzen und Statistikern überschwemmt, die sich die Lippen lecken.

Keine Frage, mit den richtigen Tools lassen sich aus Big Data wichtige Informationen zu Wirtschaft, Gesundheit und Co. extrahieren. Aber wie genau dies genau und zuverlässig geschehen soll, ist noch Gegenstand erheblicher Debatten.

Das ist nicht ganz anders als bei aktuellen Wirtschaftsdaten, die der Realwirtschaft in der Regel mindestens einen Monat hinterherhinken und oft später revidiert werden, wenn die Zahlen klarer sind. Die Unzuverlässigkeit dieser Zahlen gibt den politischen Entscheidungsträgern Anlass zu erheblicher Sorge.

Es scheint klar, dass Behörden, Unternehmen und fast jeder, der bereit ist, mit den Zahlen zu spielen, in Zukunft in der Lage sein wird, einen erheblichen Wert aus den Daten der Suchanfragen zu ziehen.

Aber seien Sie gewarnt, es ist viel Sorgfalt erforderlich. Nicht nur Wodka hinterlässt am nächsten Morgen einen unangenehmen Geschmack im Mund. Viele wirtschaftliche Kater wurden durch übermäßigen Genuss unzuverlässiger Daten verursacht.

Ref: arxiv.org/abs/1408.0699 : Nowcasting von Wirtschafts- und Sozialdaten: Wann und warum Suchmaschinendaten ausfallen, eine Illustration anhand von Google Grippetrends

verbergen