Tracking durch Drittanbieter auf einer Million Webseiten

Geldmaschine: 78 Prozent der Seiten leiten Informationen an Google weiter. (CC BY-NC-ND 2.0 by keso/flickr

Tim Libert hat auf dem 46. Netzpolitischen Abend seine Forschung zu Drittanbieter-Trackern auf einer Million Webseiten vorgestellt. Er hat untersucht, welche Drittanbieter-Dienste über HTTP-Anfragen („Third-Party HTTP Requests“) angefragt werden. Aus diesen Anfragen lassen sich neben der besuchten Adresse auch die IP-Adresse des Nutzers sowie System- und Browserinformationen gewinnen. Mit den Daten können die Drittanbieter die Nutzer analysieren oder sogar eindeutig identifizieren. Die Informationen sind für Werbetreibende, Geheimdienste und Kriminelle von Interesse. All das stelle eine Gefahr für unsere Privatsphäre dar, kritisiert Libert.

Vorgehen und erste Ergebnisse

Für die Analyse hat Libert die Python-Anwendung webXray geschrieben, das auf dem GUI-losen Browser PhantomJS aufbaut. Hiermit lassen sich auch selbst automatisiert Tracker auf Webseiten nachweisen (Anleitung). Libert hat bei der Untersuchung der Top-1-Million-Alexa-Seiten alle Anfragen an Server von Dritten in einer Datenbank gesammelt. Über Whois-Anfragen und „detektivische Arbeit“ hat er auch die Unternehmen hinter diesen Servern abgefragt und in der Datenbank aus über 35 Millionen Anfragen (600 MB, hier) ergänzt (wissenschaftliche Ausarbeitungen hier).

Google sei auf 78 Prozent der Seiten vertreten, Facebook (32 Prozent), Akamai (23 Prozent) und Twitter (18 Prozent) liegen abgeschlagen dahinter. Er sei nun noch auf der Suche nach Interessierten, die seine Ergebnisse visualisieren können und scherzt, dass die Kosten der Untersuchung selbst bisher gering waren:

The companies who are tracking you have a billion dollar to track you – I have 7.50 euro to track them.

Tim Libert
Tim Libert (via UPENN)

Der PhD Candidate an der UPENN und Fellow am Alexander von Humboldt Institut für Internet und Gesellschaft nennt die Google-Cookies, die viele der Top-1-Million-Alexa-Seiten hinterlassen (wollen), auch „Google/NSA Cookies“ und verweist auf die besondere Partnerschaft dahinter. Zudem merkt Libert kritisch an, dass vor allem Nachrichten-Seiten viele Informationen an Dritte herausgeben:

Access to information is surveilled at about five times the normal websites.

Beim Netzpolitischen Abend wünscht sich Libert eine staatliche Regulierung im Bereich Tracking. Technische Lösungen auf Nutzerseite seien nur temporär. Solange da jedoch nichts kommt und solange die Seitenbetreiber die Drittanbieter nicht aussperren, können wir zur Selbsthilfe nur VPN, Adblocker sowie NoScript empfehlen. Auch gibt es Cliqz, einen script-zähmenden Browser aus München.

Drittanbieter bei Gesundheitsthemen und auf chinesischen Webseiten

Libert hat weiterhin herausgefunden, dass 91 Prozent von den untersuchten 80.000 Gesundheitsseiten Informationen an Dritte ausleiten. Unter diesen Informationen sei bei 70 Prozent der Seiten auch die gesuchte Krankheit, die meist im Klartext in der URL enthalten und damit für Dritte sichtbar ist.

Auch sei er an der Frage interessiert, ob sich staatliche Akteure auf den Top-500 Webseiten in China tummeln. Jedoch finden sich nur auf vier Prozent der Seiten Anfragen, die direkt auf die chinesische Regierung zurückgeführt werden können. Allerdings bestehen dort durchaus staatliche Verträge mit Dienstleistern wie dem „Public-Opinion“-Unternehmen „Webterren“, dessen Tracker auf vielen Seiten lauern. Eigentlich sei es wie im Westen: Hauptsächlich leiten auch die chinesischen Webseiten Informationen an kommerzielle Drittanbieter weiter. Darunter sind dort vor allem Unternehmen wie Alibaba, Baidu, Tencent und Google – Analytics ist in China absichtlich nicht blockiert und unverschlüsselt, welch ein Glück. Es könnte durchaus sein, dass sich die chinesische Regierung Zugriff auf deren Datensammlungen verschafft. Ein solches Verfahren erinnert Libert an die NSA/Google Cookies – für weitere Details hoffe er auf einen „Snowden from China“.

Hier ist die Aufzeichnung des Vortrags vom Netzpolitischen Abend – „Web Scale Analysis of Third-Party Tracking with webXray: Techniques and Findings“.

[Update 18:00 Uhr: Wegen Hinweisen auf einen Tracker von doubleclick haben wir den Urheber, das eingebettete YouTube-Video, von unserer Seite entfernt. Doubleclick hat sich wohl auch nicht durch den „privacy-enhanced mode“ von YouTube beirren lassen.]

14 Ergänzungen

  1. Wie positiv, eine Datenbank zum Nachschauen. Inhaltlich ein wenig mit dem Rüchlein „weiß ich doch“. Aber doll, dass das mal jemand gesammelt hat.
    Das zeitliche Zusammenspiel mit der Presseveröffentlichung zu V1.0 des Browsers Cliqx, der Tracking unterbinden soll (?endlich ne funktionierende nicht völlig unbequeme Methode gegen Fingerprinting), lässt die nicht so super substantiell reiche Nachforschung ein bisschen in nem blöden Licht erscheinen. Heise schreibt dazu, dass der Browser von einem anderen, eher ordentlich rechts gerichteten, großen Medienverlag, Burda, finanziert wird/wurde.
    heise.de/newsticker/meldung/Webbrowser-Cliqz-mit-integriertem-Tracking-Schutz-3130844.html

  2. „Cookies auf Servern nachgewiesen“ – das ist nicht sein Ernst oder? Vielleicht sollte man die User einmal ausdrücklich darauf hinweisen, welche Cookies – ausschließlich – sie selbst durch die Gegend schicken!

    1. Die Ungenauigkeit geht auf meine Kappe. Ist im Artikel verbessert, danke: Die (Google-)Cookies liegen wenn schon beim User auf der Platte.

  3. Vielen Dank für diesen Artikel mit seinen Hinweisen. Es braucht mehr Aufklärung über diesen Bereich und über das hinterlistige Fingerprinting.
    Doch Wissen darüber allein reicht nicht. Als nächster Schritt ist Selbstverteidigung gegen diese Ausspähungen erforderlich.

    Gibt es eigentlich keine aktive Methoden, die Server der Informationssammler mit vergifteten Cookies vollzustopfen? Gefakte Cookies, und solche, an denen sich die Auswerter vielleicht verschlucken? Gibt es solche Kampf-Projekte?

    1. Beim Netzpolitischen Abend im Oktober hat Mushon Zer-Aviv das Tool AdNauseam vorgestellt. Wir berichteten: „AdNauseam soll gegen Verletzungen der Privatsphäre und ungewolltes Tracking durch Werbenetzwerke schützen, indem es deren Systeme mit Klicks überreizt.“

      1. Danke für den Hinweis. Ich dachte eher daran, Parser zu Fehlermeldungen zu bringen oder bufferoverflows auszulösen. Wäre doch auch denkbar, oder?

  4. Nach Installation des cliqz add-on für meinen Browser musste ich feststellen, dass cliqz bei jeder Mausbewegung auf der Platte herumkratzt: krrrr krrrr krrrr …
    Das habe ich mir gut eine Stunde lang angetan und dann das Tool wieder entfernt. Damit verschwand auch die Knatterei.
    Machen die ein Tracking über die Maus? Was soll der Festplattenzugriff bei Cursor-Bewegungen über weiße Flächen?

  5. Im übrigen hinterlässt cliqz nach „Entfernung“ folgendes (entfernt wird dort gar nichts)

    $ ls -al ~/.mozilla/firefox/XYZ.default/
    drwx—— 4 user users 4096 9. Mär 15:41 cliqz/
    -rw-r–r– 1 user users 458752 10. Mär 01:16 cliqz.db
    -rw-r–r– 1 user users 5701632 10. Mär 01:16 cliqz.dbattrack
    -rw-r–r– 1 user users 163840 10. Mär 01:16 cliqz.dbhumanweb
    drwxr-xr-x 2 user users 4096 9. Mär 15:21 cliqz_thumbnails/

  6. Das Problem ist hier, dass die Grenze fließend verläuft zwischen Tracking (das muss auch gar nicht bösartig gemeint sein) und dem Verlinken von Inhalten von anderen Servern.
    Ich warte ja nur darauf, dass jemand das Fass aufmacht und eine ADV-Vereinbarung verlangt, wenn ich ein z.B. Bild oder Video von einem fremden Server einbette. Genaugenommen müsste das nämlich so ein, so wie es bei Google Analytics der Fall ist. Das Ergebnis ist nämlich das gleiche.
    Schuld an der ganzen Misere tragen übrigens die Werbekunden, die alles exakt belegt haben möchten, wer welche Werbung wielange gesehen hat.

Dieser Artikel ist älter als ein Jahr, daher sind die Ergänzungen geschlossen.