App zur Corona-KontaktverfolgungWie man die norwegische Premierministerin in einem angeblich anonymisierten Datensatz finden kann

Die norwegische Corona-App Smittestopp sammelte in einer ersten Version haufenweise personenbezogene Daten. Das Experiment wurde gestoppt, doch der Datensatz offenbar nicht gelöscht, sondern „anonymisiert“ und weiterverwendet. Ein Forscher zeigt nun, wie leicht die vermeintliche Anonymisierung zu knacken ist.

Eine Frau mit rundem Gesicht, blauen Augen und kurzen, blonden Haaren. Sie schaut in die Ferne und hebt eine Hand gestikulierend.
Die ehemalige norwegische Premierministerin Erna Solberg (Archivbild) CC-BY-SA 3.0 Kjetil Ree

Norwegens Regierung soll gegen Datenschutzauflagen bei der Nutzung von Daten aus der Corona-Kontaktverfolgungs-App Smittestopp verstoßen haben. Zu diesem Schluss kommt der Sicherheitsforscher Hagen Echzell in einer Untersuchung, die er am Dienstag auf der Norwegian Information Security Conference vorgestellt hat. Anders als von den Verantwortlichen behauptet, so Echzell in seinem Bericht, seien sensible Daten aus der Smittestopp-App mit hoher Wahrscheinlichkeit weder gelöscht noch anonymisiert worden.

Apps wie die deutsche Corona-Warn-App oder die norwegische Smittestopp sollten zu Hochzeiten der Corona-Pandemie dabei helfen, Mitmenschen über Begegnungen mit positiv getesteten Personen zu informieren. Norwegen ging dabei in Europa einen Sonderweg und brachte eine Warn-App auf den Markt, die viele Daten sammelte, um Forschung einfacher zu machen.

Der norwegische Sonderweg bei der Kontaktverfolgung dauerte nicht lange, doch die Zeit reichte aus, um einen beachtlichen Datenberg anzuhäufen. Vom 17. April bis 4. Juni 2020 zeichnete die Anwendung nicht nur Begegnungen mit anderen Menschen auf Basis von Bluetooth-Signalen auf, sondern auch vollständige Bewegungsmuster mittels GPS. Die norwegische Gesundheitsbehörde NIPH speicherte die Informationen in individuellen Profilen, die mit einer eindeutigen Kennung versehen wurden.

Gelöscht, anonymisiert oder weder noch?

Auf Druck der norwegischen Datenschutzbehörde stampfte die Regierung von Ministerpräsidentin Erna Solberg die erste Version der App bald ein und veröffentlichte eine datensparsame Variante. Die Gesundheitsbehörde versprach öffentlich, die Daten zu löschen.

Deshalb staunte Sicherheitsforscher Hagen Echzell nicht schlecht, als im Oktober 2021 Forscher:innen des staatlichen Simula Research Laboratory eine Studie zur Wirksamkeit der Smittestopp-App veröffentlichten, die auf den gesammelten Daten aus der Anfangsphase zu basieren schien.

Simula hatte die Smittestopp-App mit entwickelt und kam in der Studie zu dem Schluss, dass die Anwendung dabei geholfen habe, die Pandemie einzudämmen. Doch wie sollte das analysiert worden sein, wenn die Daten gelöscht worden wären?

Echzell forschte nach, unter anderem mit Anfragen nach dem norwegischen Informationsfreiheitsgesetz. Nach seinen Erkenntnissen erlaubte die Gesundheitsbehörde dem regierungseigenen Simula-Forschungsinstitut die Weiternutzung der Daten, sofern diese anonymisiert würden. Tatsächlich bietet Simula den Datensatz auch anderen Forscher:innen an, sofern diese Vertraulichkeit zusichern.

Verräterische Datenmuster

Echzell selbst hatte keinen Zugriff auf die Daten, leitete jedoch aus dem Simula-Forschungsbericht ab, wie der genutzte Datensatz ausgesehen haben muss. Vereinfacht gesagt bestand die Anonymisierung wohl in erster Linie darin, die GPS-Daten zu entfernen und bestimmte Informationen zusammenzufassen. In einer E-Mail des nationalen Forschungsdatenzentrums heißt es Echzell zufolge, dass eine Re-Identifizierung von Individuen somit „schwer vorstellbar“ sei.

Der Sicherheitsforscher sieht das anders. Durch Hinzunahme anderer Datenquellen – zum Beispiel elektronische Zeiterfassungssysteme von Arbeitgebern, die sozialen Medien oder das norwegische Bevölkerungsregister – sei es möglich, einzelne Personen in dem Datensatz wiederzuerkennen. Die Anonymisierung sei in Wirklichkeit lediglich eine Pseudonymisierung.

Echzell demonstriert das unter anderem am Beispiel der damaligen norwegischen Premierministerin Erna Solberg. Der Forscher betrachtet hierzu unter anderem öffentliche Auftritte der Premierministerin im fraglichen Zeitraum. So habe die Politikerin am 16. April 2020 ein Foto auf Facebook veröffentlicht, auf dem sie und Gesundheitsminister Bent Høie ihre Smartphones in die Kamera halten. Es war der Startschuss für die Smittestopp-App – und für potenzielle Angreifer mit Datenzugriff ein verräterisches Ereignis.

Denn es müsste an diesem Tag, einen Tag vor dem offiziellen Launch der App, eine sehr spezifische Kontaktaufzeichnung in der App geben. Später geben Solberg und ihr Gesundheitsminister regelmäßig Pressekonferenzen. Auch hier dürften die Telefone nah beieinanderliegen, sodass sich im Datensatz Begegnungen der gleichen IDs an den entsprechenden Tagen finden lassen.

Solberg lasse sich noch durch weitere Muster in ihren Daten wiederfinden, argumentiert Echzell. So gäbe es dokumentierte Auftritte von ihr mit Schulkindern oder bei einer Tanz-Einlage für TikTok mit Krankenschwestern. Auch diese ließen sich im Datensatz erkennen, weil hier ungewöhnlich viele Begegnungen zur gleichen Zeit dokumentiert seien.

Institut sollte Anonymisierung selbst prüfen

Auch für weniger prominente Menschen ließen sich Muster in den Datensätzen finden, die sie wiedererkennbar machen, wenn man noch eine andere Datenquelle hinzuziehen kann. Aus den Begegnungsdaten ließe sich beispielsweise auch herauslesen, ob jemand zur Arbeit gegangen ist. Krankentage oder Isolationstage würden individuelle Muster erzeugen, die Arbeitgeber mit etwas Mühe wiedererkennen könnten.

Echzell warnt, dass die potenzielle Re-Identifizierung für verschiedene Gruppen Risiken mit sich bringe. Mithilfe der Daten könnten beispielsweise romantische Beziehungen zwischen Menschen aufgedeckt und journalistische Quellen enttarnt werden. Unabhängig davon stelle unzureichende Anonymisierung einen Verstoß gegen die Datenschutzgrundverordnung dar.

Auch wenn der Forscher deutlich macht, dass es sich bei seiner Untersuchung um hypothetische Szenarios handelt, da er den Originaldatensatz nicht vorliegen hat, muss sich die norwegische Regierung nun unangenehme Fragen stellen lassen. Der norwegische öffentlich-rechtliche Rundfunk NRK, der als Erstes über Echzells Forschung berichtete, zitiert mehrere Expert:innen, die die Plausibilität seiner Annahmen bestätigen.

Die norwegische Gesundheitsbehörde bestätigte dem NRK, dass Simula mit anonymen Smittestopp-Daten habe arbeiten dürfen. Allerdings habe das Forschungsinstitut selbst die Verantwortung getragen, sicherzustellen, dass die Daten anonymisiert sind. Geprüft hat die Regierung das offenbar nicht. Simula selbst wollte sich gegenüber NRK nicht äußern.

No Tracking. No Paywall. No Bullshit.

Unterstütze auch Du unseren gemeinwohlorientierten, werbe- und trackingfreien Journalismus.

Die Arbeit von netzpolitik.org finanziert sich zu fast 100% aus den Spenden unserer Leser:innen. Werde Teil dieser einzigartigen Community und unterstütze jetzt unsere Arbeit mit einer Spende.

Jetzt spenden

7 Ergänzungen

  1. Hallo Ingo.

    Danke für den Artikel.

    Mich erinnert dieses an die Dubliner Studie
    „Mobile Handset Privacy: Measuring The Data iOS and Android Send to Apple And Google“
    Abrufbar unter
    https://www.scss.tcd.ie/doug.leith/apple_google.pdf
    Dort heißt es:
    „[…]
    In addition to the data listed in this table, iOS shares with Apple
    the handset Bluetooth UniqueChipID, the Secure Element ID
    (associated with the Secure Element used for Apple Pay and
    contactless payment) and the Wifi MAC addresses of nearby
    devices e.g. of other devices in a household of the home
    gateway.

    When the handset location setting is enabled these
    MAC addresses are also tagged with the GPS location.

    Note that it takes only one device to tag the home gateway MAC
    address with its GPS location and thereafter the location of all
    other devices reporting that MAC address to Apple is revealed.

    Also note that sharing of these Wifi MAC addresses allows
    linking of devices using the same network, e.g. in the same
    household, office, shop, cafe, and so the construction of a
    social graph over time and place.

    Both iOS and Google Android transmit telemetry, despite the
    user explicitly opting out of this.
    […]“

    Übersetzung – vielleicht mag jemand korrigieren:
    „[…]
    Zusätzlich zu den in dieser Tabelle aufgeführten Daten teilt iOS mit
    Apple die Bluetooth UniqueChipID des Mobiltelefons, die Secure
    Element ID (verbunden mit dem Secure Element, das für Apple Pay
    und kontaktloses Bezahlen) und die Wifi-MAC-Adressen von Ge-
    räten in der Nähe, z. B. von anderen Geräten in einem Haushalt oder
    dem Heim-Router.

    Wenn die Einstellung für den Standort des Mobilgeräts aktiviert ist,
    werden diese MAC-Adressen auch mit dem GPS-Standort
    verknüpft.

    Beachten Sie dass nur ein Gerät benötigt wird, um die
    MAC-Adresse des Home Gateways Adresse des Home Gateways
    mit seinem GPS-Standort zu versehen, woraufhin der Standort aller
    anderen Geräte, die diese MAC-Adresse an Apple melden, aufge-
    deckt wird.

    Beachten Sie auch, dass die gemeinsame Nutzung dieser Wifi-MAC-
    Adressen Folgendes ermöglicht die Verknüpfung von Geräten, die
    das gleiche Netzwerk nutzen, z. B. im gleichen Haushalt, Büro,
    Geschäft, Café, und damit den Aufbau eines sozialen Graphen über
    Zeit und Ort.

    Sowohl iOS als auch Google Android übertragen Telemetrie, obwohl
    der Nutzer dies ausdrücklich ablehnen.
    […]“

    Diese Studie von Prof. Leith machte mich bereits damals (im Frühjahr 2021) nachdenklich.

  2. Deswegen ist es auch so gut, dass man in DEU letztlich, wenn auch spät, auf die Fachwelt gehört hat. Also den Teil mit unabhängiger Expertise, und ohne Kohlen im Feuer, außer dem eigenen Hals.

    1. @Anonymus: Dem würde ich zustimmen wollen, wenn ich nicht wüßte, das es Dienstvorgesetze gibt, die es stillschweigend dulden, dass ihre Untergebenen ihre privaten Smartphones einsetzen.
      Und – bevor jemand nachfragt: Nein, ich gebe dazu keinen weiteren Beleg. Den hat Ingo bereits in Form einer Mail vorliegen. Er schweigt selbst dazu: Das finde ich sogar gut und richtig.

  3. Ich hatte auf etwas mehr Futter gehoft.
    So ist das ganze schon sehr abstrakt, wenn der gute Herr auch nur Annahmen stellen konnte und nicht auf die Daten selbst zugreifen konnte.

    Wenn ich Bekannten anhand dieses Beispiels erklären würde, wie wenig Anonymisierung bringt, würde die vermutlich schulterzuckend sagen: „Ja gut, das war die Präsidentin, die quasi die erste getrackte ID ausgegeben hat, mich findet man nicht so leicht.“

    Trotzdem bin ich froh, dass dieser Kelch an uns vorbei gegangen ist.

    1. Anonymisierung nach Gesetz, oder einfach ganz ohne Konzept, erlaubt nun mal oft Zuordnungen. Das Gesetz ist hinterher, unzureichend, oder „praxisorientiert“, und wenn man es einfach von sich aus falsch macht, geht da leider schnell mal was. Erklärung bleibt schwierig, vielleicht kann man vom einfachen Beispielen ausgehen:
      – Verknüpfung von Bewegungsschwerpunkten und Käufen.
      – Zu wenige Daten: nur wenige, die Bushaltestelle x nutzen.
      – Moderne Datenanalyse… Was kann alles eine Bushaltestelle sein, wenn Daten zum Verknüpfen da sind.
      – Immer davon ausgehen, dass der vermeintliche anonymisierte Planet verlassen werden kann. Bei Fehlern oder zu spezifischen Daten, aber vor allem auch durch illegale Vorhänge, bzw. Geschick bei der Auswahl der zuständigen Gerichtsbarkeit. Vgl KI und Datenwäsche durch Auswertung.

      1. „illegale Vorhänge“
        Äh, zur Präzisierung noch:
        – Daten illegal zusammenführen (Gesundheitsfirma macht mit?). Also Zusammenführen jew. vermutl. legaler Daten auf illegale Weise (?), wobei manche Daten eben real schlecht anonymisierbar sind, wenn man etwas damit anfangen will (bestenfalls pseudonymisierbar, wenn man nicht Atome zählt o.ä.).
        – Illegal erhaltene/erhobene/sonstwie Daten mit legalen anonymisierten zusammenführen.
        – (Verschiedene illegale Möglichkeiten, wobei einige irgendwo auf der Welt legale auch dabei sein können.)
        – („Da plötzlich“ hat man „Ergebnisse“, die man verkaufen kann, oder gemeiner: eine trainierte KI oder ein abfragbares System aus vordergründig sauber aussehenden, also „gewaschenen“ eigentlich irgendwie illegalen Analysedaten, mit dem du Geld machen kannst, und aus dem die ursprünglichen Daten nicht mehr ohne weiteres herausfischbar sind. Wer ein plakatives „vielleicht ein“-Beispiel will, sollte einfach mal an Google und Alphabet denken, nur was denkbare Möglichkeiten gegenüber der Wahrscheinlichkeit, nur mit dem Endprodukt aufzufliegen betrifft. Nun ist das nicht so trivial, wenn US-Behörden beginnen, nach US-Bürgern zu gucken, und dann noch Whistleblowing eine reale Gefahr für das Konzept darstellt.)

    2. >Trotzdem bin ich froh, dass dieser Kelch an uns vorbei gegangen ist.

      @Stephan:
      Dann schau dir mal die Studie von Prof. Leith an. Wenn die tatsächlich stimmen sollte…

Wir freuen uns auf Deine Anmerkungen, Fragen, Korrekturen und inhaltlichen Ergänzungen zum Artikel. Bitte keine reinen Meinungsbeiträge! Unsere Regeln zur Veröffentlichung von Ergänzungen findest Du unter netzpolitik.org/kommentare. Deine E-Mail-Adresse wird nicht veröffentlicht.