Hakuna Metadata – Warum Metadaten und Browserverläufe mehr über uns verraten als oft vermutet

Browserverlauf und Metadaten sagen mehr über Personen aus als häufig angenommen. Eine Untersuchung zeigt, wie diese Daten den gesamten Tagesablauf einer Person nachvollziehbar machen.

Sid verknüpft sich nichts ahnend mit dem Internet. CC-BY 3.0 Sid Rao

Zarja Protner ist Mitarbeiter der NGO EDRi, Siddharth Rao ist Fellow der Ford-Mozilla Open Web und bei EDRi. Dieser Artikel erschien zunächst auf Englisch unter dem Titel „Hakuna Metadata – Let’s have some fun with Sid’s browsing history!“ im zweiwöchentlichen Newsletter EDRi-gram. Übersetzung und Überarbeitung von Alex Hiller und Andre Meister.

„Ich bin doch viel zu uninteressant, als dass sich jemand meine Browserdaten ansieht“

Das häufigste Argument von Leuten die nicht besonders auf ihre Online-Privatheit achten ist, dass es niemanden interessiert. Oder zumindest nicht sehr. Trotzdem sind wir ab und an daran interessiert unsere Browserverläufe zu löschen – allein schon um das ungewollte Zurschaustellen von Suchanfragen zu verhindern. Vielleicht würden wir uns mehr darum kümmern, wenn wir wüssten, wie viele überraschende Erkenntnisse durch unsere Online-Aktivitäten ermöglicht werden.

Wir sind uns dessen bewusst, dass wir Informationen über all unsere Suchanfragen und besuchten Websites herausgeben. Desweiteren wird alles was wir tun – auf Buttons klicken, die Maus bewegen, Tippen, hoch oder runter Scrollen – durch kleine Monster namens »Cookies« verfolgt. Im Endeffekt bilden diese Informationen die »Browsing History«, also die Metadaten unserer Aktivitäten im Browser. Wie die  SHARE-Foundation durch eine Untersuchung des Browserverlaufs einer Person zeigen konnte, kann eine Person den gesamten Tag über verfolgt werden. Dadurch werden die Interessen, Vorlieben und Sorgen der Person für Fremde derart offen ersichtlich, als würde durch die Augen der Person selbst geblickt.

Untersuchung: Wir geben mehr preis als vermutet

Das klingt ziemlich erschreckend, vielleicht genug, um unser Online-Verhalten ein wenig zu verändern. Trotzdem wiegen wir uns in der falschen Vorstellung, mit unseren Computern die Kontrolle über unsere Browserverläufe zu besitzen. Ebenfalls vertrauen wir unserem Browser, die Informationen unserer Suchanfragen nicht zu missbrauchen. Es sind aber auch andere Stellen an den Informationen interessiert. Dein Internetanbieter (Provider), kann zum Beispiel auf deine Metadaten zugreifen und hat dadurch fast kompletten Zugriff auf deinen Browserverlauf.

Willst du wissen, was die Internetanbieter über dich erfahren können? EDRi’s Ford-Mozilla Open Web Fellow Sid Rao hat ein Open-Source Browserverlauf Visualisierungstool erstellt. Es zeigt Dir, welche Informationen Du über dich preis gibst und wie genau das geschieht.

Das Beispiel Sid

Stell dir vor, Sid ist über seinen Provider mit dem Internet verbunden – sagen wir die „Telekome“. Was weiß die Telekome nun durch die Metadaten oder allein schon die Suchverläufe von Sid, ohne auch nur ein einziges Mal um seine Zustimmung gefragt zu haben?

Wie die Allermeisten ist Sid ein Gewohnheitsmensch. Das heißt, es ist ziemlich einfach etwas über ihn und seine üblichen täglichen Routinen durch seine Browsing-Muster zu erfahren. Sid benutzt den selben Laptop für die Arbeit als auch für persönliche Aktivitäten, was heutzutage geläufige Praxis ist. Sein Nutzerverhalten während seiner Arbeits- und Freizeit differiert allerdings stark.

Visualisierung in der Heatmap

Eine einfache »Heatmap« seiner Browser-Aktivität ergibt einen Schnappschuss seines Lebensstils. In dieser Heatmap sind die Farben mit seinem Suchverlauf verknüpft: Die hellsten Farben beschreiben Zeiten in denen er die größte Zahl einzelner Websites besuchte, die dunkelsten zeigen die Stunden in denen er kaum etwas besucht und geschlafen hat. Seine Freizeit hat hell gefärbte Partien – was zeigt dass er während dieser Zeiten vermutlich online Videos sieht, aber nicht systematisch all seine Zeit online verbringt. Schließlich zeigt sich, dass der am stärksten überladene Teil der Heatmap mit einer Menge von hellen Partien innerhalb seiner Arbeitsstunden liegt, welche er in der Regel größtenteils online verbringt und dabei viele Websites besucht.

Eine Heatmap visualisiert Sids Online-Aktivitäten. - CC-BY 3.0 Sid Rao

Nimmt man noch andere Metadaten hinzu, wie das Suffix des Domain-Namens oder die besuchten Websites, welche generell mit bestimmten Ländern verknüpft sind, kann die Telekome ganz einfach herausfinden, dass er zwar in eine andere Zeitzone verreist ist, aber immer noch zu den selben Zeiten arbeitet wie gewohnt.

Anomalien in dem Muster (in diesem Fall seltsame Flecken verschiedener Farbabstufungen an unüblichen Stellen) könnten verschiedene Dinge bedeuten: Hat sich Sids Arbeitsaufwand vergrößert? Plant er eine Reise? Sucht er einen Job? In diesem Fall deuten die Browser-Aktivitäten auf Sids letzten Urlaub hin. Dass er eine Arbeitspause eingelegt hat, wird über seine Suchen nach Flügen, Bestätigungen von Hotelbuchungen und einigen anderen Dingen abgebildet. Zu dem Zeitpunkt, an dem ein plötzlicher Anstieg seiner Aktivitäten durch das Verfolgen von Arbeitstätigkeiten stattfindet, muss er zurückgekehrt sein. Zu guter letzt ist er wieder zu seinem alten Arbeitsmuster übergegangen.

Der Heatmap lässt sich einiges über Sids Verhalten entnehmen. - CC-BY 3.0 Sid Rao

Bis jetzt weiß die Telekome etwas über Sid’s Zeitplan, aber was ist mit seinen Interessen? Basierend auf Schlüsselwörtern können Metadaten ziemlich viel über Leute, Organisationen und Orte, die Sid interessieren, preisgeben. Sid forscht zu „Sicherheit“ und „Privatheit“, was sich aus dem Vokabular das er in seiner Arbeit benutzt zeigt. Aber auch andere Schlüsselwörter – sowohl aus seiner professionellen als auch persönlichen Browsersuche – sind mit seiner Identität verknüpft.

Schlagworte unserer Suchanfragen geben Auskunft über unsere Identität. - CC-BY 3.0 Sid Rao

Und wie gefährlich ist das nun?

Wir sehen dass die Telekome bereits einiges über Sid weiß. Sie wissen, ob er potentieller Kunde für Versicherungsunternehmen und Reiseagenturen, oder Kandidat für Jobs im Management ist, was sein nächstes Reiseziel sein könnte und wer die Leute sind, die ihn interessieren. Aber hey, irgendwie scheinen diese Informationen doch nicht sonderlich gefährlich zu sein! Warum sollte er sich also Sorgen machen?

Er sollte sich deshalb Gedanken machen, weil die Gesetzgebung keinen adäquaten Schutz von Nutzer-Metadaten bietet. Sie können sehr leicht durch Werbefirmen, Datenhändler oder politische Kampagnen genutzt werden. Sie können Sid durch diese Daten anvisieren und noch hinzufügen, was sie an weiteren Informationen bereits über ihn wissen. Dies könnte zu einer Veränderung seines Konsum-Verhaltens führen und Profit generieren, oder auch seine Entscheidung bei der nächsten Wahl beeinflussen!

Moment, da ist noch mehr! Sids Arbeit führt zur häufigeren Verwendung von verdächtigen Wörtern wie »Angriff« und »Sicherheit«. In Kombination mit der Tatsache dass er öfters an verschiedene Orte reist, und auch durch sämtliche anderen Informationen die über seine Metadaten abrufbar sind, ist nicht nur ein Rückschluss auf seine Herkunft möglich. Es ist nicht unwahrscheinlich, dass er über die gesammelten Informationen auf einer Watchlist einer Regierungseinrichtung landet. Wenn sich Sids Browsing-Muster auf einmal verändert, er in etwa mehr als üblicherweise sucht, kann es sein, dass er am Flughafen durch die Behörden am Einstieg ins Flugzeug gehindert wird. So kann der entspannte Urlaub, den Sid ursprünglich plante, zum Alptraum werden.

Metadaten können durch die Nutzung von Algorithmen, die unsere Verhaltensmuster extrahieren und Profile von uns erstellen, einfach verarbeitet werden. Trotzdem – Metadaten können nie die Gesamtheit dessen abbilden, was uns ausmacht. Um die fehlenden Teile des Puzzles zu kompensieren, müssen Mutmaßungen angestellt werden – und die können falsch sein.

Über uns gesammelte Daten können uns gefährlich werden. - CC-BY 3.0 Sid Rao

Deine Spende für digitale Freiheitsrechte

Wir berichten über aktuelle netzpolitische Entwicklungen, decken Skandale auf und stoßen Debatten an. Dabei sind wir vollkommen unabhängig. Denn unser Kampf für digitale Freiheitsrechte finanziert sich zu fast 100 Prozent aus den Spenden unserer Leser:innen.

9 Ergänzungen

  1. Das ließe sich mit dem privacy-handbuch.de einschränken. Außerdem noch DNS-crypt, wenn den Tor nicht benutzen möchte. Noch besser durch grundsätzliche Verwendung des Tor-Webbrowsers. Da kann man sogar die geringste Sicherheitsstufe nutzen, denn entscheidend ist die IP, sofern man auf IPv6 verzichtet. Damit hätten sich solche Nutzerprofile erledigt. Die modernen Rechner mit Apple-, Google- und Microsoft-Betriebssystemen, aber auch Smartphones von Apple, Google und fast allen anderen Anbietern, vermitteln den Eindruck direkte Feinde ihrer Nutzer zu sein.

    Zur Zeit scheinen direkte Angriffe auf Privatrechner von britischen und deutschen Internetprovidern auszugehen. Möglicherweise die Staatshacker? Die sollten eigendlich wissen, dass ein eventueller Gegenschlag einen kriminellen oder Staatshacker gleichermaßen treffen könnte, weil man die nicht unterscheiden kann. Außerdem kam Propaganda von russischen Providern, die klar westlichen Ursprunges war. Das Internet hat sich seit den Veröffentlichungen von Snowden, der Verbreitung der Software von Staatshackern und dem Treiben von Staatshackern nicht zum Guten entwickelt. Da scheinen die Schnüffeleien von Hardwareherstellern, Providern, Softwarebuden und weiteren Konsorten eher zweitrangig, obwohl sie das nicht sind.

    Letzten Endes bleibt im Internet nur die Nutzung eines Linux-Betriebssystems mit dem Tor-Webbrowser übrig, um vor Schnüffeleien und fast allen Arten von Angriffen relativ sicher zu sein.

    1. Vor der ISP-seitigen Erstellung eines Aktivitätsmusters (Heatmap wie oben) schützt Sie leider weder das eine noch das andere.

      DNSCrypt bewirkt nur, dass ein anderer ihre Webseitenbesuche loggen darf.

      Ferner wäre noch Android auf ihrer Liste zu ergänzen.

      Sie vertrauen Linux. Gut. Sie kommen aber nicht drumherum, proprietäre Firmware und closed-source Treiber zu nutzen.

      Irgendwann wird auch Tor der Hahn zugedreht und zwar ganz legal: durch die Notwendigkeit sich einzuloggen um Dienste in Anspruch zu nehmen. Exit Nodes werden „aus Sicherheitsgründen“ natürlich geblockt.

  2. Hierbei wäre es durchaus sinnvoll zu erwähnen, dass es den Internetprovidern (ISPs) in Deutschland eine solche Überwachung gesetzlich verboten ist. Sie dürfen nur Daten erheben, die für die Erfüllung iherer Aufgaben erforderlich sind (z.B. die deinem Anschluss zugewiesene IP-Adresse), und müssen diese auch löschen, sobald sie nicht mehr benötigt werden. Dies ist mit dem Fernmeldegeheimnis sogar im Grund Gesetzt verankert. Zwar müssen die Provider für die Vorratsdatenspeicherung bald Metadaten erheben. Doch diese dürfen sie nicht selbst nutzen. Ich bin auch gespannt wie das Verfassungsgericht dazu urteilen wird (besonders nach dem EuGH Urteil zu dem Thema).

    Worauf sich der Text wahrscheinlich bezieht, ist der Beschluss des Kongresses, eine ähnliche Regelung des FCC aufzuhenben. Jetzt dürfen ISPs in den USA ohne Zustimmung der Nutzer deren Daten auswerten und sogar verkaufen. Dies gilt aber natürlich nicht in Deutschland und eine solche Regelung wäre hier auch verfassungsrechtlich höst problematisch, da sie gegen das Recht auf informationelle Selbstbestimmung verstoßen würde.

    1. Hallo Samuel,

      du schreibst:
      „… eine solche Regelung wäre hier auch verfassungsrechtlich höst problematisch, …“
      Na und, dann erlässt sich der Staat eben ein entsprechendes Gesetz. Natürlich darfst du dann dagegen klagen. Aber bis die Klage entschieden ist, ist das Gesetz in Kraft. Und nu? Nu, speichert der Provider fleißig und der Staat liest mit.
      EuGH-Urteil, GG, BVerfG usw., das sind alles Beruhigungspillen. Trotz Klage läuft das Gesetz. Danach kommt dann noch die laaange Üübergaaangsfrist. Und dann verschiebt ein Komma und der Spass beginnt von vorne. „… da sie gegen das Recht auf informationelle Selbstbestimmung verstoßen würde.“ Na und?

      Sonniges Wochenende :-)

      Jonas

    2. Sie bringen die Datensparsamkeit zurück ins Spiel. Die Entwicklungen sind aber entgegen des Trends – Datenreichtum bestimmt nun das Handeln der Politik.

      Dem ISP kümmert das Gesetz aber eh nicht sonderlich. Bestes Beispiel ist T-Online mit der freiweilligen Vorratsdatenspeicherung von IPs + Timestamps für mehrere Monate zu Abrechungszwecken, trotz Flatrat – Tarif versteht sich. Die Abmahnindustrie hatte ihre Freude dran.

  3. Hallo Alex,

    ich hätte es gut gefunden, wenn Du die in Deutschland gültige Rechtslage (nach der die Provider vermutlich nicht so handeln dürfen wie beschrieben) sowie Möglichkeiten des Selbstschutzes (Nutzung des Torbrowsers) in Deinem Artikel erwähnt hättest.

    So wie der Artikel geschrieben ist erklärt er zwar gut was mit der Kenntnis der Metadaten möglich ist und kann dabei ein Gefühl der Relevanz für die eigene Person vermitteln.

    Andererseits jedoch lässt er die Benutzer allein im Regen stehen, da nicht erwähnt wird, was ihre Möglichkeiten des Selbstschutzes (z.B. TorBrowser) / der Beeinflussung (z.B. Beeinflussung der Gesetzgebung durch Petitionen) dem Nutzer zur Verfügung stehen.

  4. Inzwischen wird man bei Verwendung eines Browsers mit Schutz der Privatsphäre egal welchen „Agent“ man benutzt über recaptcha Links nach draussen befördert. Großes Kino. Zeit für digitale Entschlackung. Ganz getreu dem Motto „Um hier einzukaufen tragen Sie die falschen Schuhe“. Eine Perversion der digitalen Neuzeit.

Dieser Artikel ist älter als ein Jahr, daher sind die Ergänzungen geschlossen.