Big Data | Das Öl des 21. Jahrhunderts

Quelle / Autor

Severin Renold

Viktor Mayer-Schönberger | Kenneth Cukier
“Big Data – Die Revolution, die unser Leben verändern wird”

Thema

Emerging Technologies

Big Data

Big Data, ein omnipräsenter Begriff

Nicht nur für Startups in Verbindung mit Emerging Technologies, auch auf Bundesebene wird sich vehement mit der Thematik auseinandergesetzt, wenn auch vor allem im Zuge von Sicherheitsfragen. Doch was steht eigentlich genau hinter dem Begriff und was nützen uns diese Daten? Die DIGIALOG AG gewährt Einblicke und versucht Licht ins Dunkle zu bringen.

Begriffserläuterung

Der Begriff „Big Data” steht für eine grosse Datenmenge aus vielfältigen Quellen, die mit hoher Verarbeitungsgeschwindigkeit erfasst, gespeichert und für unbestimmte Zwecke auf unbestimmte Zeit für Auswertungen und Analysen verfügbar gemacht werden. Auf Grund Ihrer Grösse und exponentiellen Wachstumsrate lassen sie sich nicht mehr in klassischer Form über eine Datenbank wie zum Beispiel SQL verarbeiten. Die intensiven Aufbereitungsmethoden sind möglich geworden, weil aufgrund der technologischen Entwicklung die Kosten und Zeitintensität für die Speicherung und Auswertung riesiger Datenmengen stark zurückgegangen sind. So können Daten ohne Probleme über eine lange Zeit aufbewahrt und für beliebige Zwecke erneut verwendet werden. Neu entwickelte Methoden und Technologien ermöglichen ohne Weiteres die Analyse und Verknüpfung dieser Datenmengen. Dabei werden Algorithmen auf den Datenbestand angewendet mit dem Ziel, neue Muster, Ähnlichkeiten, Zusammenhänge oder Diskrepanzen zu erkennen.

Big Data lässt sich im Wesentlichen durch vier Merkmale definieren, welche aufgrund ihrer englischen Bezeichnung als die vier „Vs” bezeichnet werden:

Big Data sind grosse Datenmengen (Volume), die mit hoher Geschwindigkeit (Velocity) verarbeitet werden. Ein drittes Merkmal ist die unterschiedliche Beschaffenheit oder Vielfalt (Variety) der Daten. So können beispielsweise Daten aus der internen Kundendatensammlung mit externen Daten aus sozialen Netzwerken, Suchmaschinen, Amtsblättern oder Datenbeständen aus behördlichen Open-Data-Portalen miteinander verknüpft werden. Das vierte Merkmal ist der Mehrwert (Value), welcher mit der Datenanalyse geschaffen werden soll.

Chancen und Risiken von Big Data

Big Data wird auch als „das neue Öl” oder „Goldmine” bezeichnet, weil es neue Chancen für soziale oder wissenschaftliche Erkenntnisse eröffnet und für kommerzielle Unternehmen eine veränderte Form der Wertschöpfung bietet, indem unstrukturierte und heterogene Informationen durch Verknüpfung und Auswertung genutzt werden können. Typische Anwendungsgebiete sind z.B. eine automatisierte und schnelle Marktforschung, die auf Veränderungen unmittelbar reagieren kann, Aufdecken von Missbrauchsfällen bei Finanztransaktionen, detaillierte Webanalysen zur Steigerung und Optimierung von Online-Marketing-Massnahmen, umfassende medizinische Diagnostik oder die Rasterfahndung oder Profilerstellung für Geheimdienste oder Polizei.

Big Data kann jedoch auch eine ausserordentliche Bedrohung für die Privatsphäre darstellen, wenn Informationen von Einzelpersonen aus verschiedenen Lebensbereichen systematisch und strukturiert gesammelt und ausgewertet werden. Eine Versicherung könnte zum Beispiel Leistungen verweigern, weil die Analyse der Gesundheitsdaten mit hoher Wahrscheinlichkeit eine zukünftige Krankheit vorhersagt. Oder Nachrichtendienste können Big-Data-Algorithmen brauchen, um mutmassliche sicherheitspolitische Gefahren vorherzusagen, und entsprechend dazu übergehen, private Personen permanent und über verschiedene Kanäle zu überwachen.

Fallbeispiel Google

Im Jahr 2009 wurde ein neues Grippevirus entdeckt. Diese neue, als H1N1 bezeichnete Vatiante kombinierte Elemente des Vogelgrippe- und Schweinegrippevirus und breitete sich rasch aus. Schon nach wenigen Wochen warnten die Gesundheitsbehörden weltweit vor einer möglichen Pandemie. Einige Stimmen befürchteten eine der Spanischen Grippe von 1918 vergleichbare Seuche; damals hatten sich eine halbe Milliarde Menschen angesteckt, von denen einige Dutzend Millionen gestorben waren. Schlimmer noch war, dass vorerst kein Impfstoff gegen das neue Virus zur Verfügung stand. Die Gesundheitsbehörden konnten nur darauf setzen, die Ausbreitung der Seuche möglichst zu verlangsamen. Dazu musste man allerdings zunächst einmal das Ausmass der Ausbreitung erfahren.

Die Centers for Disease Control and Prävention (CDC), die amerikanische Seuchenbekämpfungsbehörde, führte eine Meldepflicht der Ärzte für neue Grippefälle ein. Allerdings war das so gewonnene Bild des Fortschreitens der Epidemie immer um eine oder zwei Wochen veraltet, da die meisten Menschen nicht sofort zum Arzt gehen, wenn sie sich krank fühlen. Auch die Übermittlung der Meldungen an die Zentralstellen dauerte ihre Zeit, und die CDC fasste die Zahlen nur einmal wöchentlich zusammen. Bei einer sich rasch ausbreitenden Epidemie sind zwei Wochen Zeitverzug eine Ewigkeit. Diese Verspätung machte die Gesundheitsbehörden im entscheidenden Zeitraum praktisch blind.

Zufällig nur wenig Wochen davor hatten Software-Entwickler des Internetriesen Google in der Fachzeitschrift Nature einen interessanten Aufsatz veröffentlicht. Bei Gesundheitsbehörden und Computerexperten sorgte er durchaus für Aufsehen, blieb aber in der Öffentlichkeit ziemlich unbemerkt. Die Autoren erklärten darin, wie die Suchmaschine Google die Ausbreitung der jährlichen Grippeepidemie in den USA «voraussagen» könne, und zwar nicht nur landesweit, sondern auch regional und sogar für die einzelnen Bundesstaaten. Das Unternehmen wertete dazu die Suchanfragen seiner Kunden im Internet aus. Weil die Suchmaschine täglich über drei Milliarden solcher Anfragen erhält und sie alle speichert, stand genug Datenmaterial zur Verfügung.

Google verglich 50 Millionen am häufigsten von US-Bürgern eingegebenen Suchbegriffe mit den Daten der CDC zur Ausbreitung der jährlichen Grippeepidemien von 2003 bis 2008, um so eine Korrelation zwischen Suchanfragen und befallenen Gebieten zu ermitteln. Das hatten auch andere schon versucht, aber niemand verfügte über so viele Daten, so viel Rechnerleistung und so grosses statistisches Können wie Google.

Die Google Mitarbeitenden vermuteten dabei zwar durchaus, dass es sich bei diesen Suchanfragen um grippespezifische Begriffe handeln könne – etwa «Medikamente gegen Husten und Fieber», doch war weder der Inhalt der Begriffe tatsächlich von Bedeutung, noch beruhte das entwickelte System darauf. Das System suchte stattdessen nur nach Korrelationen zwischen der Häufigkeit bestimmter Suchbegriffe und der Ausbreitung der Grippewelle über Zeit und Raum. Google konnte damit die Ausbreitung der Grippe genauso gut wie die CDC feststellen, aber nicht mit ein oder zwei Wochen Verspätung, sondern praktisch unmittelbar.

Daten sprechen lassen

Die Auswirkungen der Informationsgesellschaft sind nicht zu übersehen, mittlerweile trägt fast jeder ein Mobiltelefon in der Tasche, einen Laptop im Rucksack und im Büro stehen Desktop-Computer. Die Information selbst ist allerdings weniger augenfällig. Und trotzdem: Ein halbes Jahrhundert nach dem Einzug des Computers in die Gesellschaft haben sich so viele Daten angesammelt, dass sich nun etwas Neues und Besonderes anbahnt. Die Welt ist so voll von Informationen wie nie zuvor und auch die Informationsmenge nimmt immer schneller zu. Diese quantitativen Veränderungen haben zu einer qualitativen Veränderung geführt.

Big Data ist das, was man in grossem, aber nicht in kleinem Massstab tun kann, um neue Erkenntnisse zu gewinnen oder neue Werte zu schaffen, sodass sich Märkte, Organisationen, die Beziehung zwischen Bürger und Staat und vieles mehr verändern.

Aber das ist nur der Anfang. Die Ära von Big Data wird sich auch auf unsere Lebensweise und unsere Weltsicht auswirken. Vor allem muss die Gesellschaft sich gewohnter Vorstellungen von Kausalitäten entledigen und stattdessen vermehrt auf Korrelationen verlassen: Man wird oft nicht mehr wissen warum, sondern nur noch was. Das ist das Ende jahrhundertlang eingeführter Prozesse und verändert tiefgreifend die Art, wie wir Entscheidungen treffen und die Wirklichkeit verstehen.

Wie viele Daten gibt es und welche?

Oft wurde versucht, eine konkrete Zahl für die uns umgebende Informationsmenge zu ermitteln und festzustellen, wie schnell wie wirklich wächst. Diese Projekte waren unterschiedlich erfolgreich, da sie sich verschiedener Messverfahren bedienten. Eine der umfassendsten Studien stammt von Martin Hilbert, der an der Annenberg School for Communication and Journalism der Universtiy of Southern California lehrt. Hilbert versucht wirklich alles zu erfassen, was erzeugt, gespeichert und übermittelt wird – nicht nur Bücher, Gemälde, E-Mails, Fotografien, Musikstücke und Videos (analoge und digitale), sondern auch Videospiele, Telefonanrufe und sogar Auto-Navigationssysteme und traditionelle Briefe. Ebenfalls inbegriffen sind Radio- und Fernsehsendungen, die je nach Zuhörer- und Zuschauerzahl eingeordnet werden. Hilbert kommt zu dem Ergebnis, dass 2007 über 300 Exabyte gespeicherter Daten existieren. Übertragen auf verständliche Massstäbe bedeutet das: Eine Milliarde Gigabyte. Im Jahre 2007 waren nur mehr etwa 7% der Daten in analoger Form gespeichert, der Rest digital. Im Jahre 2013 betrug die ermittelte Gesamtmenge bereits 1200 Exabyte mit weniger als 2% davon digital. Die Datenmenge verdoppelt sich seither alle 3 Jahre.

Big Data – ein Datenschutzproblem?

Datenschutzgesetze regeln den Umgang mit personenbezogenen Daten. Personendaten sind alle Angaben, die sich auf eine bestimmte oder bestimmbare Person beziehen. Im Zusammenhang mit Big Data wird häufig argumentiert, dass in den meisten Fällen reine Sachdaten oder anonymisierte Daten gesammelt werden und deshalb die Datenschutzbestimmungen nicht zur Anwendung gelangen.

Die Schwierigkeit bei Big Data mit „Sachdaten” oder „anonymisierten” Daten besteht darin, dass nicht ausgeschlossen werden kann, dass bei der Zusammenführung von mehreren Datenbeständen eine De-Anonymisierung erfolgt. Die Anonymisierung einzelner eindeutiger Identifikatoren reicht in vielen Fällen nicht aus, um Re-Identifizierungen auszuschliessen. Auch mit sogenannten Quasi-Identifikatoren – Kombinationen von Attributen wie Geburtsdatum, Geschlecht und Postleitzahl, muss vorsichtig umgegangen werden. So ermittelten US-Wissenschaftler, dass sich vier Fünftel der amerikanischen Bevölkerung allein anhand dieser drei Merkmale nachträglich identifizieren lassen. Deutlich schwieriger gestaltet sich eine nachträgliche Zuordnung hingegen, wenn Quasi-Identifikatoren in generalisierter Form verarbeitet werden, wenn also statt der genauen Angabe des Lebensalters (z. B. 44 Jahre) der Bereich „40-49 Jahre” gewählt wird. Werden mehrere Datenfelder generalisiert, spricht man von einer sogenannten „k-Anonymität”. Je höher der Zahlenwert „k”, desto mehr Datenzwillinge existieren, die dieselbe Kombination von Datenwerten aufweisen, die Anonymisierung wird somit stärker. Wird eine zu schwache Anonymisierung der Personendaten gewählt, hat dies zur Folge, dass die datenschutzrechtlichen Anforderungen an die Datenbearbeitung bestehen bleiben und der ursprüngliche Dateninhaber zur Rechenschaft gezogen werden kann.

Ein weiteres Problem ist die Voraussehbarkeit der technologischen Entwicklung: Was heute als „anonym” gilt, kann morgen eventuell aufgrund des rapiden technologischen Fortschritts und zusätzlicher Datenquellen ohne grossen Aufwand einer bestimmten Person zugeordnet werden und so möglicherweise eine grobe Persönlichkeitsverletzung darstellen. Daher ist es notwendig, dass Datenschutzfragen schon bei der Entwicklung neuer Technologien geprüft werden. Der Datenschutz muss von vornherein in die Gesamtkonzeption einbezogen werden („Privacy by Design”) anstatt Datenschutzprobleme im Nachhinein mühsam und mit viel Kosten und Zeitaufwand zu beheben.

Schlussfolgerung

Big Data bietet neue Chancen für soziale oder wissenschaftliche Erkenntnisse und eine veränderte Form der Wertschöpfung für Unternehmen. Big Data kann jedoch auch die Privatsphäre bedrohen, wenn etwa die bearbeiteten Daten nicht oder nur ungenügend anonymisiert wurden (der gläserne Mensch). Wenn es sich um personenbezogene Daten handelt, muss das Recht auf Privatsphäre und der Schutz von Personendaten gewahrt werden. Schwerpunkte müssen dabei bei einer datenschutzfreundlichen Ausgestaltung der Technik und Verfahren von Big Data liegen. Der Datenschutz muss schon in der konzeptionellen Phase berücksichtigt und die Datensicherheit gewährleistet werden. Zudem sind hohe Transparenz- und Verfahrensanforderungen an Big Data zu stellen. Personenbezogenes Big Data steht in einem Spannungsverhältnis mit den Grundprinzipien des Datenschutzgesetzes, namentlich der Zweckbindung und der Datensparsamkeit. Es ist deshalb offensichtlich, dass es die heutigen Datenschutzkonzeptionen vor grosse Herausforderungen stellt. Denn die Nutzung von Big Data hat begonnen, und dadurch werden grundlegende Bestimmungen des Datenschutzgesetzes (DSG) in Frage gestellt. Daher braucht es eine grundlegende Überprüfung des DSG, wie die zentralen Grundsätze der Zweckbindung, der Einwilligung und der Transparenz bei der die Nutzung von Big Data eingehalten werden können.