Das Unbehagen im Datenhaufen: Big Data und Datenschutz müssen kein Gegensatz sein

Große Datensätze sind toll für die Forschung, doch der Rückschluss auf Personen wird immer einfacher. Unser Umgang mit persönlichen Daten muss sich ändern.

Derzeit gibt es einen Hype um das Buzzword „Big Data“, letzte Woche sprach die taz vom „nächsten großen Ding.“ Tatsächlich sind große Datenmengen nur die logische Konsequenz der fortschreitenden Digitalisierung unserer Gesellschaft. Kaum ein Lebensbereich wird nicht durch vernetzte Computersysteme durchdrungen, und dabei fallen immer mehr Daten an, die natürlich auch verarbeitet werden.

Geheimdienste und Großkonzerne machen das schon länger. Banken wenden statistische Verfahren auf die Finanztransaktionen ihrer Kunden an, um Unregelmäßigkeiten zu entdecken. Die amerikanische Einzelhandels-Kette Walmart verarbeitete schon vor zwei Jahren eine Million Kunden-Transaktionen, pro Stunde. Facebook speichert mehr als 200 Milliarden Fotos seiner Nutzer, täglich kommen zehn Millionen neue dazu. Die scannt es nach Gesichtern – und trainiert damit seinen Algorithmus zur Gesichtserkennung. Und der amerikanische Geheimdienst NSA baut gerade im abgelegenen Utah das größte Spionage-Rechenzentrum der Welt, zum Sammeln und Rastern von Datenmengen in unvorstellbaren Ausmaßen.

Das neue ist nur, dass große Datensätze auch immer mehr Forschern und sogar Endanwendern zur Verfügung stehen. Teilweise lassen sich daraus tolle Erkenntnisse ziehen. Forscher der Elite-Uni Harvard haben die Handydaten von 15 Millionen Kenianern über den Zeitraum von einem Jahr ausgewertet und mit Karten über die Ausbreitung von Malaria verglichen. Damit konnten die den Ursprung der Tropenkrankheit sowie ihren Ausbreitungsweg nachvollziehen – und dass Menschen ebenso zur Verbreitung beitragen wie Moskitos.

Auch Polio soll mit Big Data bekämpft werden. Eine private Datenanalyse-Firma will mit Handydaten Impfpläne verbessern und bisher nicht verzeichnete Dörfer einbeziehen. In Großbritannien sollen die Krankenakten aller Einwohner zentral gesammelt und mit anderen Datenbanken verknüpft werden. Das wird als Revolution der medizinischen Forschung gefeiert.

Drei Daten, eine Identität

Dabei wird immer versprochen, dass die Datensätze natürlich anonymisiert sind. Doch die Kehrseite von Big Data ist auch, dass eine herkömmliche Anonymisierung, also das Entfernen von eindeutig identifizierbaren Informationen wie Name und Anschrift, nicht ausreichend ist und immer leichter rückgängig gemacht werden kann. Bereits in den Neunziger Jahren versicherte der Gouverneur von Massachusetts, dass die veröffentlichten Krankendaten seines Staates datenschutzrechtlich unbedenklich sind, weil personenbezogene Informationen entfernt wurden.

Die Forscherin Latanya Sweeney machte diese Anonymisierung rückgängig, in dem sie nicht anonymisierte, scheinbar harmlose Informationen des Datenbergs mit weiteren Datensätzen verknüpfte. So war sie in der Lage, die persönliche Krankenakte des Gouverneurs herauszufinden und ihm zuzuschicken.

Im Jahr 2000 fand Sweeney heraus, dass 87 Prozent aller Amerikaner mit nur drei kleinen Daten eindeutig identifiziert werden können: Geschlecht, Geburtsdatum und Postleitzahl. Seitdem haben immer mehr Studien gezeigt, dass man aus scheinbar anonymisierten Datensätzen Einzelpersonen “re-identifizieren” oder “de-anonymisieren” kann, oft mit erstaunlicher Leichtigkeit. Die Königliche Gesellschaft Großbritanniens kam kürzlich in einem Bericht zu dem Fazit, „dass die Sicherheit von persönlichen Daten in Datenbanken durch Anonymisierung nicht garantiert werden kann, wenn aktiv nach Identitäten gesucht wird.“

Der Chaos Computer Club erweiterte schon in den Achtziger Jahren die Hackerethik um den Grundsatz: „Öffentliche Daten nützen, private Daten schützen“. Auch bei diesem Thema stellt sich also erneut die Frage: Was ist privat, was ist öffentlich? Die Sozialforscherin Danah Boyd beschäftigte sich vor zwei Jahren mit der Frage nach Datenschutz im Zeitalter von Big Data. Eine ihrer fünf Überzeugungen ist: „Nur weil man Zugriff auf Daten hat, ist es noch nicht ethisch vertretbar, diese auch zu verwenden.“

Mobilfunk-Anbieter speichern Verbindungs- und Ortsdaten ihrer Kunden zu Abrechnungszwecken. Als der Telefónica-Konzern mit seiner deutschen Tochter O2 aus diesen Daten Bewegungsprofile erstellen zu Werbezwecken erstellen wollte, musste sich erst das Wirtschaftsministerium einmischen, bis der Konzern die Pläne für Deutschland zurückzog. Im deutschen Recht existiert das Konzept der Zweckbindung, nach der Daten nur für vor der Erhebung definierte Zwecke verwendet werden dürfen.

Datenbriefe sind dringender denn je

Ein großes Problem dabei ist jedoch, dass wir in der digitalen Gesellschaft gar nicht mehr überblicken können, wer welche Daten über uns erhebt, verarbeitet und weitergibt. Die Grundvoraussetzung für eine bewusste Entscheidung ist jedoch genau dieses Wissen. Verbraucher sollten regelmäßig von Firmen, Behörden und Institutionen informiert werden, welche personenbezogenen Daten über sie dort gespeichert sind. Dieses Konzept des so genannten Datenbriefs ist nicht neu – aber dringender denn je.

Zudem sollten Verbraucher frei und selbstbestimmt entscheiden dürfen, für welche Zwecke sie welche Daten zur Verfügung stellen. Die derzeit gängige Praxis, alle möglichen Verwendungszwecke in undurchsichtigen und ellenlangen Geschäftsbedingungen zu verstecken und absegnen zu lassen muss durch einfache und offene Fragen ersetzt werden. Dienste müssen auch nutzbar sein, wenn man der unbestimmten Verarbeitung und Weitergabe meiner Daten widerspricht. Das schafft einen fairen Ausgleich zwischen dem Erkenntnisinteresse der Datenforscher und dem Selbstbestimmungsrecht des Einzelnen.

Dieser Text erschien zunächst bei taz.de.

3 Ergänzungen

  1. Das Thema ist verharmlost.

    Angefangen mit großen Datenverknüpfern wie NSA und Banken kommen die ach so guten Krankheitsforscher dran, wohl die Einzigen, die aus den Daten was Gutes machen.
    Selbst in dem Beispiel sieht man schon dass die „Big Data“ meist Personendaten sind, dass es darum geht, die Beziehungen von Menschen im Computer abfragen zu können.

    „Big Data“ heisst übrigens nicht einfach „viele Daten“, sondern , dass es jetzt auch Mittel gibt, diese zu analysieren. Die Daten sind oft schon viel älter, aber jetzt erst werden sie analysiert. Was gibt es erst in Zukunft für Möglichkeiten?

    Am Anfang sind die Datensammler noch NSA und Banken, dazwischen die Werbung und zum Schluß nur noch „Datenforscher“, wogegen dann netteren Datenschutzbedingungen helfen können.

    Aber die TAZ ist ja Grünen-nah, da weiss man ja, dass deren Schwerpunkt „Verbraucherschutz“ ist. Bei harten Themen bleiben Grüne und TAZ still.

    TAZ und Grüne sollten sich mal überlegen, was man machen kann, wenn man alles über fast alle Menschen weiss, und auch weiss, wie sie vernetzt sind.

    Da helfen ein paar Gesetzchen nix.

  2. Es hat doch keinen Sinn irgendwelche Gesetze zu erlassen !

    Die Datenmengen werden ohnehin irgendwo in den USA verwaltet, in der cloud unterliegen somit eh nicht den deutschen Datenschutzbestimmungen. Zumindest bei den großen sozialen Netzwerken.

    1. Das liegt aber nur daran, dass die europäischen Gestzgeber diesen Firmen keine Handels/Zulassungs beschränkungen, oder was in diesem fall greift, auferlegen. Man kann ja zumindest die erhebung/den Transport beschränken. Vielleicht könnte man Firmen auch verpflichten europäische Server einzurichten, auf die die Amerikanischen behörden keinen Zugriff haben. Allen übrigen Zugriff, wie Werbung, könnte man auch speziell für europäische Kunden einführen. Wer sich nicht daran hält, bekommt keinen Zugang. Ich weiß, dass ist nicht so einfach durchzusetzen, aber theoretisch gibt es da schon möglichkeiten glaube ich.

Dieser Artikel ist älter als ein Jahr, daher sind die Ergänzungen geschlossen.