Ende November haben wir über Metaphone berichtet, eine Android-App, die Forscher der Universität Stanford entwickelt haben, um experimentell die Aussagekraft von Metadaten zu erforschen. Freiwillige Nutzer haben den Wissenschaftlern mit der App Einblick in ihre Gerätelogs und Telefonhistorien gewährt.
Dass Metadaten eine Menge Informationen über einen Menschen preisgeben, ist uns eigentlich schon lange bewusst. Dennoch wollen uns vor allem die Freunde der Vorratsdatenspeicherung immer wieder glauben machen, es handle sich dabei doch höchstens um einen Einzelverbindungsnachweis, ganz so, wie wir es von Telefonrechnungen seit Jahren kennen. Deshalb ist jede Studie, die das Gegenteil beweist, nützlich, um derartige Behauptungen zu widerlegen.

Eine der ersten Erkenntnisse der Forscher war, dass sie schon nach zwei Wochen relativ sicher ermitteln konnten, wer mit wem eine Beziehung führt. Kurz darauf gelang es auch, zu zeigen, dass 65% der Teilnehmer um vier oder weniger Ecken miteinander in Verbindung gebracht werden können. Das ist deshalb wichtig, da die NSA die Befugnis hat, die Telefonverbindungen einer begründet überwachten Zielperson und diejenigen ihrer Kontaktpersonen bis zum dritten Grad nachzuverfolgen.
Der Knackpunkt liegt in Diensten, die von einer großen Menge an Nutzern kontaktiert werden und auch in diese Definition fallen wie Mailboxabruf-Nummern oder die Nummer des eigenen Providers. Oder umgekehrt: Dienste die selbst Nutzer kontaktieren – Spam-SMS zum Beispiel. Das Märchen vom begrenzten Personenkreis wird da schnell entzaubert.
Ein weiterer Mythos: Es würden ja „nur Nummern“ gesammelt, die in großem Stil viel zu aufwändig zu identifizieren seien. Ein Feldversuch der Stanford-Gruppe beweist drastisch das Gegenteil. Sie nahmen einen Teil ihres Datensatzes und versuchten diese mit einfachsten Mitteln dem Namen ihres Trägers zuzuordnen: Durch automatische Suche auf den Plattformen Yelp, Google Places und Facebook nach 5000 Nummern ließen sich 27% zuordnen, bei einer kleineren Stichprobe und zusätzlicher manueller Google-Suche stieg die Erfolgquote drastisch auf 73% und bei Beauftragung eines kleinen, günstigen Datenaggregator-Dienstes letztlich auf 90%. Und all das mit den doch sehr begrenzten Mitteln der Forschergruppe.
In den jüngsten Ergebnissen wird gezeigt, welche sensiblen Informationen eine Anrufhistorie über einen Nutzer verrät. Beispielsweise riefen 57% einer Stichprobe einen Gesundheitssdienst an. Aber nicht nur, dass sie Interesse an gesundheitlicher Beratung hatten, ließ sich daraus ableiten. Bei einer Großzahl der Betroffenen konnte auch das genaue medizinische Feld ermittelt werden:
| Kategorie | Teilnehmer mit ≥ 1 Anruf |
| Zahngesundheit | 18% |
| Geistige Gesundheit und Familie | 8% |
| Augenheilkunde | 6% |
| Sexual- und Reproduktionsmedizin | 6% |
| Kinderärzte | 5% |
| Orthopäden | 4% |
| … | … |
Weitere schnell ermittelte Verbindungen wurden zu den Anonymen Alkoholikern, Waffenläden, Gewerkschaftsverbänden, Scheidungsanwälten, Kliniken für Geschlechtskrankheiten, etc. ermittelt – hochgradisch kritische Informationen, die niemand in der Öffentlichkeit oder in einer Datenbank finden will, die irgendwann feststellt, ob er ein braver Bürger ist.
Die Ergebnisse all der Untersuchungen sind klar: Metadaten haben eine unwahrscheinliche Aussagekraft. Und für jemanden, der in kurzen Abständen bei einem Psychiater, einer Apotheke und einem Informationsdienst zu depressiven Störungen anruft, für denjenigen muss gar nicht mehr der Inhalt einer Konversation analysiert werden, um festzustellen, dass er Probleme mit Depressionen hat.
Und dabei sind bei den obigen Betrachtungen noch nicht einmal alle Informationen einbezogen. Es werden ja beispielsweise auch Standortdaten gesammelt. Die ermöglichen ein noch detailliertes Bild, gerade bei Kontakten, die eine Person nicht über Telefon, sondern persönlich pflegt. Wo wir gerade beim Thema sind: Gibt es eigentlich irgendwelche Studien, die „beweisen“, dass Metadaten harmlos sind?