Das Big-Data-Rätsel: Wie definiert man es?

Eine der größten neuen Ideen im Computing ist Big Data. Es herrscht Einigkeit darüber, dass Big Data den Handel im 21. Jahrhundert revolutioniert. Wenn es um Unternehmen geht, bietet Big Data beispiellose Einblicke, verbesserte Entscheidungsfindung und ungenutzte Gewinnquellen.



Wenn Sie jedoch einen Chief Technology Officer bitten, Big Data zu definieren, wird er oder sie auf den Boden starren. Die Chancen stehen gut, dass Sie so viele Definitionen erhalten, wie Sie fragen. Und das ist ein Problem für jeden, der versucht, Big-Data-Dienste zu kaufen, zu verkaufen oder zu nutzen – was genau wird angeboten?

Heute, Jonathan Stuart Ward und Adam Barker an der University of St Andrews in Schottland nehmen das Thema in die Hand. Diese Jungs untersuchen die verschiedenen Definitionen, die von den größten und einflussreichsten High-Tech-Unternehmen der Welt angeboten werden. Sie versuchen dann, aus all diesem Lärm eine Definition zu destillieren, auf die sich alle einigen können.



Ward und Barker werfen ihr Netz weit und breit aus, aber die Ergebnisse sind gemischt. Formale Definitionen sind schwer zu finden, da viele Organisationen es vorziehen, anekdotische Beispiele zu geben.



Insbesondere der Begriff „groß“ ist schwer zu fassen, nicht zuletzt, weil ein Datensatz, der heute groß erscheint, in nicht allzu ferner Zukunft mit ziemlicher Sicherheit klein erscheinen wird. Wo eine Organisation harte Zahlen dafür angibt, was Big ausmacht, gibt eine andere eine relative Definition an, was bedeutet, dass Big Data immer mehr sein wird, als herkömmliche Techniken bewältigen können.

Einige Organisationen weisen darauf hin, dass große Datensätze nicht immer komplex und kleine Datensätze immer einfach sind. Ihr Punkt ist, dass die Komplexität eines Datensatzes ein wichtiger Faktor bei der Entscheidung ist, ob er groß ist.

Hier ist eine Zusammenfassung der Art von Beschreibungen, die Ward und Barker von verschiedenen einflussreichen Organisationen entdeckt haben:



eins. Gärtner . Im Jahr 2001 stellte ein Bericht von Meta (jetzt Gartner) die zunehmende Größe der Daten, die zunehmende Geschwindigkeit ihrer Produktion und die zunehmende Vielfalt der verwendeten Formate und Darstellungen fest. Dieser Bericht war älter als der Begriff Grabungsdaten, schlug jedoch eine dreifache Definition vor, die die drei Vs umfasst: Volumen, Geschwindigkeit und Vielfalt. Diese Idee ist seitdem populär geworden und enthält manchmal ein viertes V: Wahrhaftigkeit, um Fragen des Vertrauens und der Unsicherheit abzudecken.

zwei. Orakel . Big Data ist die Ableitung von Werten aus der traditionellen relationalen, datenbankgestützten Geschäftsentscheidungsfindung, ergänzt durch neue Quellen unstrukturierter Daten.

3. Intel . Big-Data-Möglichkeiten entstehen in Unternehmen, die pro Woche durchschnittlich 300 Terabyte an Daten generieren. Die am häufigsten auf diese Weise analysierten Daten sind Geschäftsvorgänge, die in relationalen Datenbanken gespeichert sind, gefolgt von Dokumenten, E-Mail, Sensordaten, Blogs und sozialen Medien.



Vier. Microsoft . Big Data ist der Begriff, der zunehmend verwendet wird, um den Prozess zu beschreiben, bei dem ernsthafte Rechenleistung – die neuesten Erkenntnisse aus maschinellem Lernen und künstlicher Intelligenz – auf sehr große und oft hochkomplexe Informationen angewendet wird.

5. Die Methode für eine integrierte Wissensumgebung Open-Source-Projekt. Das MIKE-Projekt argumentiert, dass Big Data nicht von der Größe eines Datensatzes abhängt, sondern von seiner Komplexität. Folglich ist es der hohe Grad an Permutationen und Interaktionen innerhalb eines Datensatzes, der Big Data definiert.

6. Die Nationales Institut für Standards und Technologie . NIST argumentiert, dass Big Data Daten sind, die die Kapazität oder Fähigkeit aktueller oder konventioneller Methoden und Systeme überschreiten. Mit anderen Worten, der Begriff „groß“ ist relativ zum aktuellen Berechnungsstandard.



Eine gemischte Tüte, wenn es jemals eine gab.

Neben der Suche nach Definitionen versuchten Ward und Barker, die Verwendung des Begriffs Big Data besser zu verstehen, indem sie Google Trends durchsuchten, um zu sehen, welche Wörter am häufigsten damit in Verbindung gebracht werden. Sie sagen, dass diese sind: Datenanalyse, Hadoop, NoSQL, Google, IBM und Oracle.

Diese Jungs beenden ihre Umfrage mutig mit einer eigenen Definition, in der sie versuchen, diese unterschiedlichen Ideen zusammenzubringen. Hier ist ihre Definition:

Big Data ist ein Begriff, der die Speicherung und Analyse großer und/oder komplexer Datensätze unter Verwendung einer Reihe von Techniken beschreibt, einschließlich, aber nicht beschränkt auf: NoSQL, MapReduce und maschinelles Lernen.

Ein Spielversuch, ein würdiges Ziel zu erreichen – eine Definition, auf die sich alle einigen können, ist sicherlich überfällig.

Aber wird das helfen? Antworten bitte in den Kommentaren unten.

Ref: arxiv.org/abs/1309.5821 : Undefiniert durch Daten: Eine Übersicht über Big-Data-Definitionen

verbergen