211service.com
Twitter Data Scientist übernimmt das gesamte Menü von McDonald's und überlebt
Edwin Chen ist ein Datenwissenschaftler bei Twitter, der die arkanen Geheimnisse seiner dunklen Kunst teilt, was eine gute Sache ist, wenn man bedenkt, dass es wahrscheinlich ist das am schnellsten wachsende Feld in den USA

Mmmh, Datenwissenschaft. (cc Evan Blaser )
(Im Folgenden habe ich das gesamte E-Mail-Interview, das ich mit Chen geführt habe Daten, um zu sehen, ob Menschen Fast Food essen oder nicht, wenn sie traurig sind.)
Data Science ist so neu, dass es keine Lehrbücher zu diesem Thema und keine Universitätslehrpläne gibt, die darauf ausgelegt sind, Data Scientists auszubilden. Es ist jedoch ein wesentlicher Bestandteil von allem, vom quantitativen Handel an der Wall Street bis hin zum Anzeigen-Targeting im Web und der Optimierung realer Lieferketten.
Bevor er Terabytes an Tweets nach Erkenntnissen suchte, die in interaktive Visualisierungen umgewandelt werden konnten, verfeinerte Chen seine Fähigkeiten im Studium der Linguistik und reinen Mathematik am MIT. Das ist normalerweise untypisch für einen Datenwissenschaftler, der einen Hintergrund in mathematisch strengen Disziplinen hat, was auch immer sie sind. (Bei Twitter zum Beispiel alle Data Scientists müssen mindestens einen Master in einem verwandten Bereich haben .)
Hier ist eines der verrückteren Beispiele für die Vielseitigkeit der Datenwissenschaft aus Chens eigenem Blog. In einem Post mit dem mitreißenden Titel Unendliche Mischungsmodelle mit nichtparametrischen Bayes und dem Dirichlet-Prozess , Chen befasst sich mit dem Problem der Clusterbildung. Das heißt, wie nehmen Sie eine Menge Daten und sortieren sie in Gruppen zusammengehöriger Elemente? Es ist ein schwieriges Problem – wie viele Gruppen sollten es sein? nach welchen Kriterien werden sie sortiert? – und die Details, wie er damit umgeht, gehen über diejenigen hinaus, die keinen Hintergrund in dieser Art von Analyse haben.
Für den Rest von uns bietet Chen ein konkretes und zugängliches Beispiel: McDonald’s
Indem Chen beispielsweise die gesamte Speisekarte von McDonald's in seine mathematische Sortierbox kippt, entdeckt er, dass nicht alle Saucen von McDonald's gleich sind. Hot Mustard und Spicy Buffalo fallen nicht in die gleiche Gruppe wie Creamy Ranch, die mehr mit McDonald's Iced Coffee mit zuckerfreiem Vanillesirup gemeinsam hat als mit Newmans eigener fettarmer Balsamico-Vinaigrette.
Andere Cluster erscheinen, einschließlich aller Burger-Produkte, Frühstücksspeisen und Zuckergetränke. Soweit nicht überraschend, bis Sie zu dem einen Cluster auf der Speisekarte von McDonald's gelangen, der nur einen Artikel enthält.
Was ist das Besondere an McDonald's Fruit & Maple Oatmeal? Es ist wahrscheinlich der Ballaststoffgehalt, der relativ (ich betone relativ) hohe Nährstoffgehalt und der niedrigere Gehalt an Zucker, Transfetten und Cholesterin.
Mit anderen Worten, wenn einer der neuesten Datenwissenschaftler von Twitter sein Handwerk auf die Speisekarte von McDonalds anwendet, extrahiert sein Algorithmus automatisch das einzige Essen darauf, das jeder von uns wahrscheinlich überhaupt essen sollte. Haferflocken: Bei McDonald's ist es wirklich eine Klasse für sich.
Hier ist das vollständige Interview mit Chen:
1. Seit wann sind Sie Data Scientist bei Twitter?
Ich bin seit ungefähr vier Monaten bei Twitter.
2. Was macht ein Data Scientist bei Twitter?
Wir arbeiten an allem, von der Entwicklung von Modellen für maschinelles Lernen und der Verbesserung unserer umfangreichen Datenverarbeitungs-Frameworks bis hin zur Erstellung von Datenvisualisierungen, der Durchführung statistischer Analysen und der Suche nach besseren Möglichkeiten, unsere Benutzer und den Twitter-Graphen zu verstehen. Es gibt eine Menge Abwechslung, und es hängt wirklich von den Fähigkeiten und Interessen jedes Einzelnen ab.
Ich experimentiere zum Beispiel wahrscheinlich zu jeder Zeit mit neuen Algorithmen für die Anzeigenausrichtung, schreibe MapReduce-Jobs, um Terabyte an Tweets zu minen (mit Scalding, unserer internen MapReduce-Sprache), und erstelle interaktive Visualisierungen, um Einblicke in alle Daten, die wir sammeln, einen Bericht schreiben, um einige neue Erkenntnisse zu erklären, ein Experiment zu Mechanical Turk durchführen und vieles mehr.
3. Wurde Ihr letzter Beitrag (zum Clustering) von etwas inspiriert, an dem Sie bei Twitter arbeiten (über das Sie diskutieren können)?
Ich habe daran gearbeitet, unsere Nutzer und Werbetreibenden zu gruppieren, Themenkategorien in Texten automatisch abzuleiten und darüber nachzudenken, was wir von Essen auf Twitter lernen können (z. B. unterscheiden sich Männer und Frauen oder San Franziskaner und New Yorker in Gibt es einen Zusammenhang zwischen dem, was die Leute essen, und dem, was sie twittern, zB essen Leute eher Junkfood, wenn sie traurig sind?). Der Beitrag wurde zwar nicht direkt von dem inspiriert, woran ich bei Twitter arbeite, aber er hängt definitiv zusammen.
4. Data Science ist jetzt eine Sache, aber (mir wurde gesagt) das Gebiet ist so neu, dass es keine speziellen Lehrbücher oder Universitätskurse dafür gibt. Stimmst du zu / stimmst du nicht zu?
Ich stimme zu – aber es hängt von Ihrer Definition von Data Science ab (über die viele Leute nicht einverstanden sind!). Für mich ist Data Science eine Mischung aus drei Dingen: quantitative Analyse (für die erforderliche Genauigkeit, um Ihre Daten zu verstehen), Programmierung (damit Sie Ihre Daten verarbeiten und auf Ihre Erkenntnisse reagieren können) und Geschichtenerzählen (um anderen zu helfen, zu verstehen, was die Datenmittel). Zu den nützlichen Fähigkeiten, die ein Datenwissenschaftler haben sollte, gehören:
* Statistik, maschinelles Lernen (auf der Seite der quantitativen Analyse). Es ist beispielsweise unmöglich, Ihren Daten eine Bedeutung zu entnehmen, wenn Sie nicht wissen, wie Sie Ihre Signale von Rauschen unterscheiden können. (Ich möchte jedoch betonen, dass ich glaube, dass jede Art von starken quantitativen Fähigkeiten in Ordnung ist – mein eigener Hintergrund war ursprünglich in reiner Mathematik und Linguistik, und viele der anderen Leute hier kommen aus Bereichen wie Physik und Chemie. Sie können immer wählen die spezifischen Werkzeuge, die Sie benötigen.)
* Allgemeine Programmierkenntnisse sowie Kenntnisse in spezifischen Bereichen wie MapReduce/Hadoop und Datenbanken. Ein gängiges Muster für mich ist zum Beispiel, dass ich einen MapReduce-Job in Scala kodiere, die Ergebnisse einfach über die Befehlszeile manipuliere, die Daten zur weiteren Analyse an Python oder R übergebe, aus einer Datenbank ziehe, um zusätzliche Daten zu erhalten Felder und so weiter, wobei ich am Ende oft das, was ich finde, in einige Modelle des maschinellen Lernens integriere.
* Webprogrammierung, Datenvisualisierung (auf der Storytelling-Seite). Ich finde es zum Beispiel äußerst nützlich, eine schnelle Web-App oder ein Dashboard einzurichten, die es anderen (einschließlich mir selbst!) oft viel hilfreicher und aufschlussreicher als eine abstrakte Zahl.
Es gibt zwar nicht viele Lehrbücher oder Kurse, die alle drei Bereiche abdecken (eine Ausnahme kann der Kurs von Jeff Hammerbacher und Mike Franklin in Berkeley sein: http://datascience.es/ ), gibt es natürlich Ressourcen, die jede Fertigkeit allein abdecken. (Datenvisualisierung scheint jedoch weiterhin eine unterschätzte Fähigkeit zu sein, daher sind Klassen in diesem Bereich seltener.)