„What’s in Your Metadata?“ – Mehr als du ahnst

Verbundenheitsgraph der Teilnehmer über 2 Ecken,

Ende November haben wir über Metaphone berichtet, eine Android-App, die Forscher der Universität Stanford entwickelt haben, um experimentell die Aussagekraft von Metadaten zu erforschen. Freiwillige Nutzer haben den Wissenschaftlern mit der App Einblick in ihre Gerätelogs und Telefonhistorien gewährt.

Dass Metadaten eine Menge Informationen über einen Menschen preisgeben, ist uns eigentlich schon lange bewusst. Dennoch wollen uns vor allem die Freunde der Vorratsdatenspeicherung immer wieder glauben machen, es handle sich dabei doch höchstens um einen Einzelverbindungsnachweis, ganz so, wie wir es von Telefonrechnungen seit Jahren kennen. Deshalb ist jede Studie, die das Gegenteil beweist, nützlich, um derartige Behauptungen zu widerlegen.

 

Verbundenheitsgraph der Teilnehmer über 2 Ecken,
Verbundenheitsgraph der Teilnehmer über 2 Ecken

Eine der ersten Erkenntnisse der Forscher war, dass sie schon nach zwei Wochen relativ sicher ermitteln konnten, wer mit wem eine Beziehung führt. Kurz darauf gelang es auch, zu zeigen, dass 65% der Teilnehmer um vier oder weniger Ecken miteinander in Verbindung gebracht werden können. Das ist deshalb wichtig, da die NSA die Befugnis hat, die Telefonverbindungen einer begründet überwachten Zielperson und diejenigen ihrer Kontaktpersonen bis zum dritten Grad nachzuverfolgen.

Der Knackpunkt liegt in Diensten, die von einer großen Menge an Nutzern kontaktiert werden und auch in diese Definition fallen wie Mailboxabruf-Nummern oder die Nummer des eigenen Providers. Oder umgekehrt: Dienste die selbst Nutzer kontaktieren – Spam-SMS zum Beispiel. Das Märchen vom begrenzten Personenkreis wird da schnell entzaubert.

metaphone_2Ein weiterer Mythos: Es würden ja „nur Nummern“ gesammelt, die in großem Stil viel zu aufwändig zu identifizieren seien. Ein Feldversuch der Stanford-Gruppe beweist drastisch das Gegenteil. Sie nahmen einen Teil ihres Datensatzes und versuchten diese mit einfachsten Mitteln dem Namen ihres Trägers zuzuordnen: Durch automatische Suche auf den Plattformen Yelp, Google Places und Facebook nach 5000 Nummern ließen sich 27% zuordnen, bei einer kleineren Stichprobe und zusätzlicher manueller Google-Suche stieg die Erfolgquote drastisch auf 73% und bei Beauftragung eines kleinen, günstigen Datenaggregator-Dienstes letztlich auf 90%. Und all das mit den doch sehr begrenzten Mitteln der Forschergruppe.

In den jüngsten Ergebnissen wird gezeigt, welche sensiblen Informationen eine Anrufhistorie über einen Nutzer verrät. Beispielsweise riefen 57% einer Stichprobe einen Gesundheitssdienst an. Aber nicht nur, dass sie Interesse an gesundheitlicher Beratung hatten, ließ sich daraus ableiten. Bei einer Großzahl der Betroffenen konnte auch das genaue medizinische Feld ermittelt werden:

Kategorie Teilnehmer mit ≥ 1 Anruf
Zahngesundheit 18%
Geistige Gesundheit und Familie 8%
Augenheilkunde 6%
Sexual- und Reproduktionsmedizin 6%
Kinderärzte 5%
Orthopäden 4%

Weitere schnell ermittelte Verbindungen wurden zu den Anonymen Alkoholikern, Waffenläden, Gewerkschaftsverbänden, Scheidungsanwälten, Kliniken für Geschlechtskrankheiten, etc. ermittelt – hochgradisch kritische Informationen, die niemand in der Öffentlichkeit oder in einer Datenbank finden will, die irgendwann feststellt, ob er ein braver Bürger ist.

Die Ergebnisse all der Untersuchungen sind klar: Metadaten haben eine unwahrscheinliche Aussagekraft. Und für jemanden, der in kurzen Abständen bei einem Psychiater, einer Apotheke und einem Informationsdienst zu depressiven Störungen anruft, für denjenigen muss gar nicht mehr der Inhalt einer Konversation analysiert werden, um festzustellen, dass er Probleme mit Depressionen hat.

Und dabei sind bei den obigen Betrachtungen noch nicht einmal alle Informationen einbezogen. Es werden ja beispielsweise auch Standortdaten gesammelt. Die ermöglichen ein noch detailliertes Bild, gerade bei Kontakten, die eine Person nicht über Telefon, sondern persönlich pflegt. Wo wir gerade beim Thema sind: Gibt es eigentlich irgendwelche Studien, die „beweisen“, dass Metadaten harmlos sind?

9 Ergänzungen

  1. ja schön. trotzdem trommeln die überwachungsspastiker weiter nach VDS…natürlich NUR zur abwehr terroristischer (huch…werde wohl grad von der NSA gescannt) angriffen und schwerer straftaten……pruuust.

  2. Dem ist nichts hinzuzufügen. Ich machs trotzdem :)

    Was heißt VDS: Wer, wann, wo, mit wem, wie oft, wie lange, bzw. anlasslose zentrale staatliche Speicherung der Ortsdaten (auch in privaten Wohnungen), Bewegungsprofile, zwischenmenschlicher Kontakte und Verhaltensmuster aller Deutscher.

    „dass 65% der Teilnehmer um vier oder weniger Ecken miteinander in Verbindung gebracht werden können.“ Es gibt glaub Berechnungen, die nachweisen, dass spätestens nach der siebten Ableitung jeder Mensch auf der Welt über andere Menschen jeden kennt.

    Wenn man noch die E-Mail Kontakte dazu nimmt, erhöht sich die Wahrscheinlichkeit der Auswertungen, was nicht heißt, dass sie stimmen.

    „Und für jemanden, der in kurzen Abständen bei einem Psychiater, einer Apotheke und einem Informationsdienst zu depressiven Störungen anruft, für denjenigen muss gar nicht mehr der Inhalt einer Konversation analysiert werden, um festzustellen, dass er Probleme mit Depressionen hat.“ Vielleicht arbeitet aber auch nur die Freundin bei dem Arzt, und die ruft man halt öfters mal an. Das ist die eigentliche Gefahr: Fehler aus Unfähigkeit oder Fehler aus Vorsatz, bzw. Missbrauch, daraus folgende Vernichtung der Reputation oder Erpressung einer Person. Darauf weisen ja sogar die VDS Befürworter hin, dass man die Daten auf keinen Fall beim Staat speichern dürfe, damit der Staat diese nicht missbrauchen kann. Ist aber nur Augenwischerei, denn die Daten sind dank Glasfaser in kurzer Zeit auf die Staatsserver kopierbar. Das ist weder technisch noch rechtlich zu verhindern. Darauf, dass die Amis, Russen und Chinesen kein Problem haben werden, an diese Daten zu kommen, muss man nicht mehr gesondert hinweisen.

    Man muss der Industrie und den Politikern klar machen, dass eine VDS in erster Linie sie selber treffen würde.

    1. Noch was zu den Ableitungen.

      Folgendes Szenario: Demonstration mit 10000 Teilnehmern, dabei wird ein Polizeibeamter – warum auch immer – schwer verletzt (gebrochener Arm).

      Abruf der VDS Daten aller Demonstranten (lassen wir mal die Anwohner uns sonstige sich in der Nähe befindenden Personen weg).

      Jeder hatte in den letzten 3 Monaten Telefon bzw. E-Mail Kontakte zu 100 Personen.

      10t mal 100 macht eine Millionen.

      Jeder dieser eine Millionen hatte auch jeweils 100 Kontakte, macht 100 Millionen.

      Jeder dieser 100 Millionen hatte ebenfalls 100 Kontakte in den letzten 3 Monaten …

      1. 10000 personen? kann sich nur umeine demo gegen das PKK-verbot handeln. bei einer demo für grundrechte müsstest du 2 nullen streichen.

      2. Ich wollts halt verdeutlichen ;D

        Man kanns auch mit 100 rechnen.

        100 Demonstranten, mal 100 Kontakte, mal 100 Kontakte gibt schon 1 Million Verdächtige ;)

  3. „Und für jemanden, der in kurzen Abständen bei einem Psychiater, einer Apotheke und einem Informationsdienst zu depressiven Störungen anruft, für denjenigen muss gar nicht mehr der Inhalt einer Konversation analysiert werden, um festzustellen, dass er Probleme mit Depressionen hat.“

    Hier zeigt der Autor selbest wie gtefährlich es ist aus Metadaten Schlussfolgerungen zu ziehen.
    Vielleicht war es ein medizien Student, der eine Facharbeit zum Thema Depressionen schreiben muss.
    Vielleicht war es ein Kind oder ein Ehegatte einer an Depresion leidenden Person.

    1. Die Schlussfolgerung ist nicht richtig, das stimmt.

      Allerdings sind die Folgen davon ja womöglich noch schlimmer für den Betroffenen. Metadaten werden heute schon an vielen Stellen ausgewertet, mit entsprechend vielen Fehlern.
      Das ist doch nur ein Grund mehr, gegen die Datensammlerei selbst vorzugehen, anstatt nur den Zugriff auf diese Daten zu begrenzen.
      Leider ist das ein Kampf gegen Windmühlen ( Generation Facebook, geben ihre Daten gerne preis ) und bringt letztendlich eh nichts. Datenbanken werden sowohl von Wirtschaft als auch Politik gefordert, komme was wolle.

      Eine Idee wäre ja, einfach große Mengen an Bullshit-Metadaten zu produzieren ( automatisiert, versteht sich ), z.B. mit einem P2P-Netzwerk, in dem sich die Clients gegenseitig Daten/Mails/etc zuschicken. Erst wenn man den Wert der Metadaten weit genug senkt, wird es vielleicht ein Umdenken seitens der Datenbankbetreiber geben … oder sie suchen sich einfach nur andere Methoden.

Dieser Artikel ist älter als ein Jahr, daher sind die Ergänzungen geschlossen.