Technologien

Big Data gestern, heute und morgen oder Tom Cruise und die wandernden Wale

gepostet von am

Washington D.C. im Jahr 1850: Ein ehemaliger Marineoffizier wälzt tausende von Schiffslogbüchern und verändert damit die Schifffahrt für immer. Wir bleiben in Washington, spulen vor ins fiktive Jahr 2054: Drei in ständigem Wachkoma gehaltene Hellseher ermöglichen es, Mörder bereits vor der Tat dingfest zu machen. Beide Geschichten verbindet dieselbe Sache: Big Data.

Big Data: Von der Walwanderung bis zu Tom Cruise
Die Walwanderung und Big Data liegen nicht so weit auseinander, wie man auf den ersten Blick vermuten würde.

Big Data – unendliche Weiten im Hier und Jetzt der IT-Wirklichkeit. Zwar steht nirgendwo definitiv geschrieben, ab welcher absoluten Menge Daten denn jetzt “big” und zum Buzzword werden, eine Faustformel lässt sich aber festhalten. Big Data ist die Kombination von großen Datensets und der für ihre Generierung, Speicherung, Organisation und Transformation erforderlichen Technologien, “die in der richtigen Verarbeitungs-Geschwindigkeit und zur richtigen Zeit die richtigen Insights bringt” (Judith Hurwitz, Alan Nungent: “Big Data For Dummies”, 2013).

“Big Data” schreibt man mit 3 Vs

Die IT-Marktforscher von Gartner beschrieben 2001 mit ihrem heute weit verbreiteten 3V-Modell die Herausforderungen des Big Data Management wie folgt:

V1:
“Volume” ist das, worauf sich häufig bezogen wird, wenn in der Umgangssprache der Begriff “Big Data” fällt. Speicherplatz wird immer günstiger, Daten lassen sich immer leichter generieren. Aussagen wie “Heute generiert die Menschheit alle zwei Tage so viele Daten, wie insgesamt zuvor bis 2003” beschreiben die Situation rein rechnerisch durchaus passend.

V2:
“Velocity” steht für zwei Seiten einer Medaille: Einerseits gewinnt die Datenerfassung stetig an Geschwindigkeit (z.B. durch immer umfassendere Sensorik bei vernetzter Elektronik). Andererseits machen aktuellere Daten im Umkehrschluss eine immer schnellere Auswertung und Nutzgewinnung nicht nur möglich, sondern nötig. Je aktueller die gewonnenen Daten, desto schneller werden sie wieder irrelevant.

V3:
“Variety”, beschreibt die stetige Tendenz zur Strukturlosigkeit der gesammelten Daten. Vorstrukturierte Datenbanken werden zur Ausnahme, der Trend geht zu sogenannten "messy" datasets. Eins der vielen Beispiele dafür ist Googles Live-Navigation “Waze”. Aus Millionen von gleichzeitig einströmenden Smartphone-Daten (GPS, Empfangsdaten, Beschleunigungsmessung, Himmelsrichtung) wird nicht mehr länger nur die aktuelle Verkehrssituation abgebildet, sondern mit enorm hoher Trefferquote auch die zukünftige Lage vorhergesagt.

Matthew Fontaine Maury
Anfänge des Big Data-Thinking: Matthew F. Maury wertete tausende unabhängige Kapitäns-Logbücher aus, um die Seereise zu erleichtern. (Quelle: Wikimedia)

Schnee aus dem 19. Jahrhundert

Aber schon lange vor Google kam jemand auf die Idee, große separate Datensets einem (navigatorischen) Sekundärnutzen zuzuführen. Mitte des 19. Jahrhunderts schied Matthew Fontaine Maury, ehemaliger Marine-Offizier, nach einem Unfall aus dem aktiven Dienst aus und verbrachte seine Zeit im Büro des Nautischen Observatoriums. In seiner Einsatzzeit hatte er mitbekommen, wie alle Kapitäne Wetter- und Strömungsdaten in ihren Logbüchern festhielten, ohne diese jemals wieder zu nutzen. Jetzt hatte Maury Zeit – und wertete tausende dieser Kapitänslogbücher von Hand aus, um die Daten an zentraler Stelle zu sammeln und für jedermann verfügbar zu machen. Die Folge: Maury steigerte die Effizienz der Schifffahrt mit diesem frühen Big-Data-Ansatz spürbar – und kam ganz nebenbei der Walwanderung auf die Spur.

Big Data und BI

Innerhalb der heutigen Unternehmenslandschaft verschiedenster Branchen spielt Big Data eine immer wichtigere Rolle. "Klassische" Business Intelligence hat hier zwar durchaus auch Anknüpfpunkte, aber es gibt einige entscheidende Unterschiede. Die unternehmensintern generierten Datenströme, die in einem Data Warehouse an zentraler Stelle gesammelt werden, sollen für unternehmerische Insights sorgen und Optimierungsbedarf offenlegen. Die gerade bei größeren Unternehmen enormen Datenausmaße erfüllen so zwar das erste V der Big Data (Volume), hier endet die Schnittmenge aber häufig. Unternehmensinterne Datengewinnung läuft im Sinne der Auswertung meist streng geordnet, konsistent und relational – also nicht “messy” – ab, und hat zur Nutzengewinnung in der Regel keine Echtzeitauswertung nötig, was auch nur selten überhaupt möglich wäre.

An anderer Stelle ist Big Data aber aus der unternehmensinternen Prozessoptimierung nicht mehr wegzudenken. In der Logistik setzt zum Beispiel UPS auf die Auswertung von Telemetriedaten, um Ressourcenverbrauch und Lieferrouten zu optimieren. Aber auch in Bereichen wie Verbrechensbekämpfung findet Big Data Einsatz: 2013 führt im Fall eines Autobahn-Schützen eine Korellationsanalyse enormer Mengen an Verkehrskamera-Daten, Tatorten und -zeiten zur Ergreifung des Täters. Die Vorhersage von Einbruchszielen erreicht über die Analyse von Social Media Streams, Einbruchstatistiken und Street View-Daten eine so hohe Trefferquote, dass die Weiterführung des Gedankens zur umfassenden Verbrechensprognose nicht mehr so abwegig erscheint.

NoSQL verleiht Datenbanken Flügel

Eine Begleiterscheinung der immer rasanter wachsenden Datenmengen: Klassisch-relationale Datenbankarchitekturen stoßen schnell an ihre Grenzen. Je größer und schneller der Datenstrom, desto schwieriger und ressourcenintensiver ist es, sie in die relationale Ordnung einzufügen. Hier kommen die nicht-relationalen NoSQL-DBs (z.B. MongoDB) ins Spiel. Diese lagern die Datensätze in ungeordneten Dokumenten auf vielen Servern verteilt. Neue Sätze müssen nicht rechenintensiv an einer zentralen Stelle aufbereitet und homogenisiert werden, stattdessen kann man mit dem Hinzufügen neuer Hardware-Cluster allen Herausforderungen entgegentreten. Damit skalieren NoSQL-Datenbanken bei großen Datenmengen deutlich besser als relationale DBs. Die Größe wirkt sich hier nicht oder nur unwesentlich auf die Performance aus. Trotzdem sind wegen der speziellen Anwendungsszenarien von nicht-relationalen Lösungen die relationalen DBs aktuell noch deutlich dominant verbreitet, der flächendeckende Umbruch bleibt bisher aus. Einerseits haben die NoSQL DBs einen relativ schmalen spezifischen Nutzen und eignen sich oft besser für Datenablage als -analyse und andererseits ist ihre große Stärke, die OpenSource-Basis (z.B. bei MongoDB), auch Ihre größte Schwäche – ohne zentrale Kontrollinstanz gibt es keine verbindlichen Standards. Im schlimmsten Fall heißt das: Keine NoSQL DB sieht aus wie die andere. Last but not least sind für Unternehmen Migrationskosten und -aufwand relativ hoch. Dennoch setzt mit Google, Amazon, oder der CIA aber bereits das Who-is-who der Datensammler auf NoSQL-Lösungen.

Unterschied Business Intelligence Big Data
Links: Konzentrierte Analyse (etwa BI) auf einer HANA, rechts Big Data als per MapReduce verteilte Analyse ungeordneter Daten.

Distributed Computing und HANA

Unabhängig von der Architektur der zu wälzenden Datenbank gibt es nun zwei gängige Analyse-Methoden: Einerseits der Einsatz einer geschlossenen Brute Force Appliance wie der SAP HANA (High Performance Analytics Appliance). Dazu werden die vorhandenen Daten in ein einzelnes Rechner-Array mit RAM im Terabyte-Bereich eingespeist und auf die vorgegebenen Parameter hin analysiert. Petabytes an Daten müssen so, um in den RAM zu passen, natürlich komprimiert werden. Je nach Art der Daten sind verschiedene Kompressionsraten möglich. Je strukturierter, desto größer die mögliche Kompression. Reintext wie in Social Media-Feeds eignet sich so besonders gut für brute force Analyse.

Auf der anderen Seite steht mit dem in Java geschriebenen Framework Apache Hadoop das “Wunderkind” der Big Data. Der Leitsatz: “Teile und herrsche!”. Über das Hadoop Distributed File System wird das gesamte Datenset (dann oft in NoSQL-Architektur) in kleinere Teile zerlegt und auf zahlreichen Clustern gespeichert. Die Blocklänge und der Redundanzgrad der Pakete sind dabei frei bestimmbar. Schließlich werden mittels Googles MapReduce die Daten parallelisiert bearbeitet und ausgewertet. So können auch Datenmengen ausgewertet werden, die ohne die Aufteilung kein aktuell verfügbarer Rechner(-verband) stemmen könnte.

Was noch kommt

Mit dem enormen Gewinn, der sich aus der Daten-Analyse schlagen lässt, gehen naturgemäß aber auch Herausforderungen einher. So steigt die Verantwortung der Big Data-Größen im Bereich Datenschutz und der Gesetzgeber kommt nicht um die Notwendigkeit umhin, sich mit den neuen Chancen und Risiken auseinanderzusetzen. Wir dürfen jedenfalls gespannt sein, was das Jahr 2054 tatsächlich für uns bereit halten wird – welche ehemals gigantischen Herausforderungen von heute dann nur noch belächelt werden können, und an welche neuen Selbstverständlichkeiten wir uns gewöhnt haben werden.