netzpolitik.org: Herr Kelber, die Öffentlichkeit wird regelmäßig von neuen Fällen erschüttert, bei denen in angeblich anonymisierten Datensätzen Individuen identifizierbar sind. Jüngst konnten Forscher verheiratete Kunden eines Seitensprungsdienstes ausmachen. Warum ist das so ein drängendes Thema?
Kelber: Anonymisierte Daten unterliegen nicht der Datenschutzgrundverordnung. Die Anonymisierung ist also ein Mittel, ursprünglich personenbezogene Daten zu nutzen, um zum Beispiel KI-Systeme zu trainieren. In der Praxis funktioniert die Anonymisierung aber oft nicht so, wie sie soll. Eine De-Anonymisierung wird dann aus verschiedenen Gründen wieder möglich. In solchen Fällen genügen oft erstaunlich wenige zusätzliche Informationen, um die vermeintliche Anonymisierung aufzuheben.
netzpolitik.org: In der öffentlichen Debatte gehen die Begriffe „Anonymisierung“ und „Pseudonymisierung“ häufig durcheinander. Wie und warum sind sie zu unterscheiden?
Kelber: Eine Anonymisierung setzt voraus, dass der Personenbezug der Daten aufgehoben wird. In den allermeisten Fällen ist es ausreichend, dass eine Re-Identifizierung praktisch nicht durchführbar ist. Das kann beispielsweise sein, weil der Personenbezug nur mit einem unverhältnismäßigen Aufwand an Zeit, Kosten und Arbeitskräften wiederhergestellt werden kann.
netzpolitik.org: Und Pseudonymisierung?
Kelber: Bei der Pseudonymisierung wird der Name oder ein anderes spezifisches Merkmal durch ein Pseudonym ersetzt. Ziel ist es hier, dass die Feststellung der Identität des Betroffenen für nicht Berechtigte ausgeschlossen oder zumindest wesentlich erschwert wird. Nur bei Zugriff auf eine mögliche Referenzliste gibt es wieder eine direkte Zuordnung zu einer Person. Anders als bei der Anonymisierung bleiben bei der Pseudonymisierung Bezüge verschiedener Datensätze erhalten, zum Beispiel damit man dem Datensatz neue Daten zuordnen kann. Solche Verfahren kommen oft bei wissenschaftlicher Forschung zum Einsatz.
Auswertung von Bewegungsdaten
netzpolitik.org: Ist denn eine zukunftssichere Anonymisierung von Daten Ihrer Meinung nach technisch überhaupt möglich?
Kelber: Eines ist klar: Der Status „anonym“ ist eine Momentaufnahme. Er zeigt an, dass eine Re-Identifizierung – jedenfalls aktuell – praktisch nicht durchführbar ist, weil der Personenbezug nur mit einem unverhältnismäßigen Aufwand an Zeit, Kosten und Arbeitskräften wiederhergestellt werden kann. Insbesondere wegen der technischen Entwicklung müssen Verantwortliche immer wieder prüfen, ob die Anonymisierung noch Bestand hat. Da gibt es Unterschiede, wenn zum Beispiel Daten nur für wenige Stunden verwendet werden, bevor man sie löscht oder biologische Daten für dreißig Jahre gespeichert werden. Unser gemeinsames Ziel sollten technische „best practices“ sein, die ein ausreichendes Maß an Sicherheit vor einer Re-Identifizierung gewährleisten.
netzpolitik.org: In der Konsultation soll es vor allem um rechtliche Fragen gehen. Wo liegt das Problem?
Kelber: Mit dem Inkrafttreten der Datenschutz-Grundverordnung (DSGVO) wurde das Datenschutzrecht in Europa und in Deutschland auf eine neue Grundlage gestellt.
Die Anonymisierung ist in der DSGVO nur rudimentär geregelt. Welche Anforderungen eine Anonymisierung erfüllen muss, darüber gibt die DSGVO keine Auskunft. Es ist umstritten, ob und wann die Anonymisierung eine Verarbeitung darstellt, die einer Rechtsgrundlage bedarf und welche das jeweils sein könnte.
netzpolitik.org: Einen besonderen Fokus wollen Sie auf die Anonymisierung von Daten im Bereich der Telekommunikation legen, über den Sie die Aufsicht haben. Ihre Vorgängerin hat die Anonymisierungssysteme zweier großer Telekommunikationsanbieter genehmigt. Was sind da die Anwendungsfälle?
Kelber: Schon in einem früheren Tätigkeitsbericht habe ich über die Nutzung von Telekommunikationsverkehrsdaten für Straßenverkehrsinformationen geschrieben, also zum Beispiel für Informationen über Staus. Mit anonymisierten Bewegungsdaten kann man auch Informationen über Verkehrsströme für Verkehrsplanungen, etwa neue Buslinien, oder für die Standortwahl eines Einkaufszentrums gewinnen. Hier ist natürlich darauf zu achten dass der Informationsgehalt der Daten nicht so hoch wird, dass eine Erkennbarkeit des einzelnen Nutzers möglich wird.
Stellungnahmen werden veröffentlicht
netzpolitik.org: Es ist die erste öffentliche Konsultation Ihrer Behörde. Warum dieser Schritt und an wen richtet sie sich?
Kelber: Die öffentliche Konsultation ist ein Teil unserer Bemühungen, die Öffentlichkeit für die geltende Rechtslage zu sensibilisieren und eine öffentliche Diskussion anzustoßen. Interessierte sollen ihre Sichtweise schildern können. Gleichzeitig soll damit die Botschaft verbunden sein, dass wir vorhandene Anonymisierungsverfahren auf ihre Vereinbarkeit mit dem geltenden Datenschutzrecht kontrollieren werden.
netzpolitik.org: Was genau passiert mit den Einsendungen bei dieser Konsultation, wie fließen Sie in die Positionierung Ihrer Behörde ein?
Kelber: Die eingehenden Stellungnahmen werden fachlich ausgewertet. Anhand der Ergebnisse der Auswertung wird die Position des BfDI einer „Qualitätskontrolle“ im weitesten Sinne unterzogen. Das finale Positionspapier wird auf unserer Website veröffentlicht.
netzpolitik.org: Sie sind auch Bundesbeauftragter für die Informationsfreiheit und haben einen transparenteren Kurs für Ihr Haus versprochen. Können wir damit rechnen, dass die Einreichungen der Konsultation veröffentlicht werden?
Kelber: Das Konsultationsverfahren selbst beruht auf dem Gedanken, unsere Überlegungen und Positionen zum Thema Anonymisierung öffentlich zur Diskussion zu stellen. Insofern werden wir die Einreichungen nach Abschluss des Verfahrens auf unserer Website veröffentlichen, wenn die Verfasser dem nicht ausdrücklich widersprochen haben, was ich mir aber nicht vorstellen kann.
…
Bis 9. März nimmt der Bundesdatenschutzbeauftragte im Rahmen der Konsultation Stellungnahmen entgegen. Details zum Verfahren gibt es auf seiner Webseite, ebenso ein begleitendes Positionspapier [PDF].
Man müsste bei Anonymisierung alle Daten des Universums mit einbeziehen, um überhaupt prüfen zu können, ob sie z.B. legal oder illegal deanonymisierbar sind.
Man guckt also typische andere legal „anonymisierte“ daten an, sowie illegale Datenbestände, wie sie wahrscheinlich entsprechend existierem a) für viele Menschen (z.B. Steuer-ID oder Wohnungsdaten, oder Emailadressen) und b) für wenige (Risiko für einzelne person of interest).
Vorschlag ist also Begriffe wie „k-L-deynonymisierbar“ (L-egal) und „k-I-deanonymisierbar“ (I-ll-egal) zu verwenden und zu quantifizieren (Achtung: insuffiziente Schriftsätze). Erst dann beginnt alles Sinn zu erheben.
Es muss „k-I-ll-egal“ heißen :).
https://www.heise.de/newsticker/meldung/Digitale-Souveraenitaet-EU-will-sich-zur-Datenmacht-aufschwingen-4661660.html
Mit Datenherausgabe kommt es unweigerlich zur Mischung von „allen“ Datensätzen. Kann eine Definition von „Anonymisierung“ das weiterhin unbeachtet lassen?
Anonymisierung „innerhalb“ eines Datensatzes hat ja keine Bedeutung (mehr und nie gehabt).
Wieso hält Ulrich Kelber auf dem Portrait seine Apple-Watch so stolz und selbstbewusst in die Kamera?
Welche Botschaft steckt dahinter?
Ja, sehr unauffällig ….
Wie ist den unverhältnismäßiger Aufwand (für De-Anonymisierung) genau definiert?
Was für den einen unverhältnismäßig erscheint ist für andere möglicherweise ein Geschäftsmodell (vgl. Browser-Fingerprinting).
Wie ist es um die ‚Haltbarkeit‘ von Pseudonymisierung (ein Verdummungsbegriff) bestellt? Was heute noch als pseudonym durchgeht ist morgen so etwas wie buggy Crypto.
Gibt es einen Mindeststandard für Pseudonymisierung (RFC)? Wer kontrolliert die Güte von Pseudonymisierung?
Ist Pseudonomisierung eine nette Methode um die DSGVO zu umgehen?
Ist Pseudonomisierung heute die Re-Identifizierung für morgen?
Es nennt sich Rechtssicherheit :).
Zitat
„… weil der Personenbezug nur mit einem unverhältnismäßigen Aufwand an Zeit, Kosten und Arbeitskräften wiederhergestellt werden kann.“
Dieser Satz sagt doch alles: Es findet KEINE Anonymisierung statt.
Zitat:
„… Anonymisierte Daten unterliegen nicht der Datenschutzgrundverordnung“
Gut, weil angeblich die „anonymen“ Daten keine personenbezogene Daten beinhalten ?
Das scheint ja dann doch der Fall zu sein, sonst könnten sie nicht reanonymisiert werden.
Vielleicht müssen wir uns damit auseinandersetzen und bestimmen, wann sind Daten anonym.
Und was dürfen wir aus den Daten lesen und was nicht.
Welche Statistiken sind noch rechtlich zulässig, wenn doch Daten z.B. über m/w , Region , Stadtviertel, Religion, Einkommen erstellt werden ?
Oder anders gesagt, wie genau darf eine Statistik sein ?
Wenn wir Anonymität herstellen wollen, müssen wir festlegen, wie weit die Anonymität gehen muss bzw. wie genau eine Auswertung (Statistik) aussagen darf.
… noch eine kleine Anmerkung:
https://www.heise.de/newsticker/meldung/Digitale-Souveraenitaet-EU-will-sich-zur-Datenmacht-aufschwingen-4661660.html
Zitat:
„…
Um die technologische Abhängigkeit von Anbietern aus Drittstaaten zu reduzieren und die europäische digitale Souveränität zu stärken, will die EU in Leuchtturmprojekte für europäische Rechenzentren und gemeinsame Cloud-Infrastrukturen investieren. Ein Vorbild könnte hier die von der Bundesregierung ins Leben gerufene Cloud-Allianz Gaia X darstellen. Gefordert werden sollen Infrastrukturen, technologische Architekturen und Regulierungsverfahren für Ökosysteme zum Teilen von Daten und KI. Bestehende „rechtliche und technische Barrieren“ in diesem Sektor müssten beseitigt werden.
…“
und
„…
Gesetz soll zur Datenherausgabe verpflichten.
…
Mit einem „Datengesetz“ soll unter anderem auch festgelegt werden, unter welchen Umständen Daten verpflichtend unter angemessenen, fairen und nicht-diskriminierenden Bedingungen herauszugeben sind. Für 2022 sind Regeln für einen gemeinsamen europäischen Marktplatz für Cloud-Dienste vorgesehen.
…“
… da wird mir doch leicht schwindelig
In dem gleichen Artikel steht auch das
-zitat-
In dem skizzierten Datenraum sollen persönliche und nicht-personenbezogene Informationen einschließlich sensibler Bits und Bytes aus Unternehmen zusammenfließen und sicher verwahrt werden. Für Firmen skizziert die Institution eine Art Schlaraffenland, in dem sie „einen einfach Zugang zu einer schier endlosen Menge an industriellen Daten von hoher Qualität haben“. Dies steigere das Wachstum und schaffe Wert, während zugleich „der menschliche CO2-Fußabdruck“ der Datennutzung minimiert werden soll.
-zitat-ende-
Und da wird mir Schlecht denn das lese ich als Konzentration von Daten eines Typs die dann aber Valide sein sollen auf wenige Hosts. Kann heißen: Bürgerdaten nur an einem Ort, Transaktionsdaten an einem anderen, Gesundheits-daten… jaaaa! WO und vor allem WIE wollen die denn das unknackbar und zugleich benutzbar lösen?
Da wedelt doch der Schwanz mal wieder mit dem Hunde denn diesen Zielkonflikt kann man m.E. nicht auflösen – außer durch den Verzicht der Speicherung oder Nicht-zugänglichmachung (Zweitschlechtes Option!) und dann wird noch vom Abbau von Barrieren gefaselt? Einladungskarten an Alle Illegal interessierten sind bereits fertig…
Zum Scheitern verurteilt. Die Rechts“wissenschaft“ hat es in über 40 Jahren nicht geschafft, einen hinreichend genauen Anonymisierungsbegriff zu entwickeln. Jedes mal werden die selben Phrasen wiederholt. Was für die Informatik unterspezifiziert ist, wird einfach durch eigene Konzepte ersetzt und dann den JuristInnen als „Anonymisierung“ verkauft, ohne dass diese überhaupt die Frage stellen, welches „privacy“-Modell zugrunde gelegt wurde.
Ist aber ohnehin egal, denn die Rechts“wissenschaft“ hat es bislang auch nicht geschafft, einen Beweis darüber zu führen, dass Anonymisierung irgendetwas mit dem Schutz der Rechte und Interessen der Betroffenen zu tun hat. Die Konzerne lachen sich derweil ins Fäustchen, da den wirkungslosen DSGVO-Papierkrieg am Ende nur diejenigen bewältigen, die über ausreichend organisationelle Ressourcen verfügen.
… und sehr schöne Einbindung des zZt. hippen CO2-Arguments „der menschliche CO2-Fußabdruck“ als Universalschlüssel. Ist ja alles nur für den Umweltschutz.