Data Mining zeigt, wie Menschen sich gegenseitig bewerten

Die Art und Weise, wie wir die Leistung anderer Menschen bewerten, ist eines der größten Rätsel der kognitiven Psychologie. Dieser Prozess findet kontinuierlich statt, wenn wir die Fähigkeit von Einzelpersonen beurteilen, bestimmte Aufgaben zu erledigen, und alle bewerten, von Elektrikern und Busfahrern bis hin zu Buchhaltern und Politikern.





Das Problem ist, dass wir nur auf eine begrenzte Anzahl von Daten über die Leistung einer Person zugreifen können – einige davon sind direkt relevant, wie zum Beispiel die Fahrakte eines Taxifahrers, aber viele davon sind irrelevant, wie zum Beispiel das Geschlecht des Fahrers. Tatsächlich kann die Menge an Informationen so groß sein, dass wir gezwungen sind, uns für eine kleine Teilmenge davon zu entscheiden. Wie kommen diese Entscheidungen zustande?

Heute erhalten wir eine Art Antwort dank der Arbeit von Luca Pappalardo von der Universität Pisa in Italien und einigen Freunden, die dieses Problem im Sportbereich studiert haben, wo Fragen der Leistung stark erleichtert werden. Ihre Arbeit bietet einen einzigartigen Einblick in die Art und Weise, wie wir menschliche Leistung bewerten und wie dies mit objektiven Maßstäben zusammenhängt.

Die Faktoren, die menschliche Beobachter verwenden, um die Leistung zu bewerten, sind eine kleine Teilmenge objektiver Maße.



Die sportliche Leistung ist ein Bereich, in dem seit einigen Jahren detaillierte Aufzeichnungen der individuellen Leistung gesammelt werden. Pappalardo und Co konzentrieren sich auf Fußball, die beliebteste Sportart der Welt, und insbesondere auf die Leistung von Spielern, die in der italienischen Fußballliga Serie A an der Spitze des Sports antreten.

Seit vielen Jahren bewerten italienische Sportzeitungen die Leistung der Spieler in jedem Spiel auf einer Skala von 0 bis 10, wobei 0 unvergesslich schlecht und 10 unvergesslich großartig ist. Dieses System basiert auf dem italienischen System der Schulnoten, bei dem eine 6 anzeigt, dass ein Schüler angemessene Leistungen erbracht hat. Wie die Spieler bewertet werden, wird nicht veröffentlicht, aber vermutlich von einem erfahrenen Sportjournalisten.

In den letzten Jahren wurden dieselben Spieler auch von einem objektiven Messsystem bewertet, das die Anzahl der Pässe, Schüsse, Zweikämpfe, Paraden usw. jedes Spielers zählt. Diese technische Messgröße berücksichtigt 150 verschiedene Parameter und liefert ein umfassendes Bild der Leistung jedes Spielers auf dem Platz.



Die Frage, die Pappalardo und Co. stellen, ist, wie die Zeitungsbewertungen mit den technischen Bewertungen korrelieren und ob es möglich ist, die technischen Daten zu verwenden, um die Faktoren zu verstehen, die menschliche Bewertungen beeinflussen.

Die Forscher beginnen mit dem technischen Datensatz von 760 Spielen in der Serie A in den Spielzeiten 2015-16 und 2016-17. Diese besteht aus über einer Million Datenpunkten, die zeitgestempelte Ereignisse auf dem Spielfeld beschreiben. Sie verwenden die Daten, um einen technischen Leistungsvektor für jeden Spieler in jedem Spiel zu extrahieren; dies dient als objektives Maß für seine Leistung.

Die Forscher haben auch die Bewertungen für jeden Spieler in jedem Spiel von drei Sportzeitungen: Gazetta dello Sport , Corriere dello Sport , und Tuttosport .



Die Zeitungsbewertungen haben einige interessante statistische Eigenschaften. Nur 3 Prozent der Bewertungen sind niedriger als 5 und nur 2 Prozent höher als 7. Wenn die Bewertungen nach dem Schulnotensystem kategorisiert werden – als schlecht, wenn sie niedriger als 6 sind, und gut, wenn sie 7 und höher sind – schlecht Bewertungen sind dreimal so häufig wie gute.

In der Regel bewerten die Zeitungen eine Leistung ähnlich, wobei es vereinzelt zu Abweichungen von bis zu 6 Punkten kommen kann. Wir beobachten eine gute Übereinstimmung bei gepaarten Bewertungen zwischen den Zeitungen und stellen fest, dass die Bewertungen (i) identische Verteilungen aufweisen; (ii) stark miteinander korreliert sind; und (iii) unterscheiden sich typischerweise um eine Bewertungseinheit (0,5), sagen Pappalardo und Co.

Um die Beziehung zwischen den Zeitungsbewertungen und den technischen Bewertungen zu analysieren, verwenden Pappalardo und Co. maschinelles Lernen, um Korrelationen in den Datensätzen zu finden. Insbesondere schaffen sie einen künstlichen Richter, der versucht, die Zeitungsbewertungen aus einer Teilmenge der technischen Daten zu reproduzieren.



Dies führt zu einem merkwürdigen Ergebnis. Der künstliche Richter kann die Zeitungsbewertungen mit einem angemessenen Maß an Genauigkeit abgleichen, aber nicht so gut, wie die Zeitungen untereinander abgleichen. Die Meinungsverschiedenheiten deuten darauf hin, dass die technischen Merkmale allein den Bewertungsprozess [der Zeitung] nicht vollständig erklären können, sagen Pappalardo und Co.

Mit anderen Worten, die Zeitungsbewertungen müssen von externen Faktoren abhängen, die nicht durch die technischen Daten erfasst werden, wie z. B. die Erwartung eines bestimmten Ergebnisses, persönliche Voreingenommenheit usw.

Um diese Idee zu testen, sammelten Pappalardo und Co. einen weiteren Datensatz, der externe Faktoren erfasst. Dazu gehören das Alter, die Nationalität und der Verein des Spielers, das erwartete Spielergebnis, wie es von den Buchmachern geschätzt wird, das tatsächliche Spielergebnis und ob ein Spiel zu Hause oder auswärts gespielt wird.

Wenn diese Daten einbezogen werden, schneidet der künstliche Richter viel besser ab. Durch das Hinzufügen von Kontextinformationen erhöht sich die statistische Übereinstimmung zwischen dem künstlichen Richter und dem menschlichen Richter erheblich, so das Team.

Tatsächlich können sie deutliche Beispiele dafür sehen, wie externe Faktoren die Zeitungsbewertungen beeinflussen. Im gesamten Datensatz wurden nur zwei Spieler jemals mit einer perfekten 10 ausgezeichnet. Einer davon war der argentinische Stürmer Gonzalo Higuaín, der für Napoli spielte. Bei dieser Gelegenheit erzielte er drei Tore in einem Spiel und wurde damit der beste Torschütze aller Zeiten in einer Saison in der Serie A. Dieser Meilenstein war mit ziemlicher Sicherheit der Grund für die perfekte Bewertung, aber daraus kann man nichts ableiten Punktzahl aus dem technischen Datensatz.

Eine wichtige Frage ist, welche Faktoren der künstliche Richter verwendet, um die Zeitungsbewertungen abzugleichen. Wir beobachten, dass die meiste Aufmerksamkeit eines menschlichen Richters einer kleinen Anzahl von Merkmalen gewidmet ist und die überwiegende Mehrheit der technischen Merkmale während des Bewertungsprozesses schlecht berücksichtigt oder verworfen wird, sagen Pappalardo und Co.

Angreifende Stürmer werden daher von Zeitungen anhand leicht zu beobachtender Faktoren wie der Anzahl der erzielten Tore bewertet; Sie bewerten Torhüter nach der Anzahl der Gegentore. Mittelfeldspieler werden in der Regel nach allgemeineren Parametern wie der Tordifferenz bewertet.

Das macht Sinn – menschliche Beobachter haben eine begrenzte Bandbreite und sind wahrscheinlich nur in der Lage, nur einen kleinen Teil der Leistungsindikatoren zu beobachten. In der Tat sagt das Team, dass der künstliche Richter menschliche Bewertungen mit weniger als 20 der technischen und externen Faktoren abgleichen kann.

Das ist ein faszinierendes Ergebnis, das wichtige Auswirkungen darauf hat, wie wir über Leistungsbewertungen denken. Das Ziel ist natürlich, effektivere Wege zur Bewertung der Leistung in allen möglichen Situationen zu finden. Pappalardo und Co. glauben, dass ihre Arbeit einen wesentlichen Einfluss darauf hat. Dieses Papier kann verwendet werden, um menschliche Bewerter zu befähigen, ein Verständnis für die zugrunde liegende Logik ihrer Entscheidungen zu erlangen, schließen sie.

Ref: arxiv.org/abs/1712.02224 : Menschliche Wahrnehmung von Leistung

verbergen