Datenschutz

Diplomarbeit zu Browser-Fingerprinting: Studienteilnehmer gesucht

Henning Tillmann, Mitarbeiter des SPD-Bundestagsabgeordneten Oliver Kaczmarek, beschäftigt sich in seiner Informatik-Diplomarbeit mit dem Thema Browser-Fingerprinting. Dabei geht es darum, inwieweit Nutzer aus einer Kombination aus Browser- und anderen Einstellungen (installierte Schriftarten, Plugin-Versionen, Betriebssystem, …) identifizierbar sind bzw. bleiben, auch wenn z.B. Cookies verweigert oder gelöscht wurden. Wenn eine bestimmte Konfiguration erneut auftaucht, ist mit hoher Wahrscheinlichkeit davon auszugehen, dass es sich um die gleiche Person handelt. Daraus folgt ein Datenschutzproblem: Ein Browser-Fingerprint kann erstellt werden, ohne dass der Nutzer davon erfährt (es wird eben kein Cookie oder sonstige Datei auf dem Client-Computer abgelegt), weshalb sie auch von bestehenden Regulierungsbestrebungen der EU, z. B. in der „Cookie-Richtlinie„,  nicht adressiert werden.


netzpolitik.org - unabhängig & kritisch dank Euch.

Um die Wirkmächtigkeit von Browser-Fingerprints näher zu untersuchen, ist Henning auf der Suche nach Freiwilligen, die für einen beschränkten Zeitraum ihr Surfverhalten analysieren lassen. Konkret soll es in der Diplomarbeit um die Untersuchung folgender Forschungsfragen gehen:

Wie verlässlich ist die Identifizierung über Konfigurationsmerkmale? Wie eindeutig sind bestimmte Konfigurationsmerkmale (welche haben eine höhere/niedrigere Signifikanz)? Daraus folgt die Frage: benötigt der/die Anwender/in einen Schutz und wenn ja, wie kann dieser aussehen?

Die Ergebnisse mit anonymisierten Nutzerdaten sollen nach Abschluss der Diplomarbeit frei online zugänglich gemacht werden.

22 Kommentare
  1. Eine kurze Anmerkung:

    Um die Wirkmächtigkeit von Browser-Fingerprints näher zu untersuchen, ist Henning auf der Suche nach Freiwilligen, die für einen beschränkten Zeitraum ihr Surfverhalten analysieren lassen.

    Ich kann nicht das Surfverhalten analysieren (außer jeder würde das iFrame einbinden). Es geht um die Konfigurationseinstellungen, also Auflösung, Schriftarten, etc.
    Es wird NICHT gespeichert, welche Seiten aufgerufen wurden.

  2. Was diese Untersuchung komplett außer Acht läßt und damit zu falschen Ergebnissen kommen wird ist die Tatsache das Sie alle Benutzer außen vor läßt die Scripting aus Sicherheitsgründen abgeschaltet haben. Ja es ist nicht die Mehrheit der Nutzer, aber mehr und mehr Nutzer benutzen tools wie no-script oder ähnliches um sich zu schützen. Da die Untersuchung strikt Scripting erfordert kann Sie niemals zu sinnvollen Ergebnissen führen, da Sie einen Gutteil Benutzer die eine gewisse Sicherheitsstufe erreichen bereits ausschließt.
    Falls das das moderne wissentschaftliche Arbeiten an der Uni ist: Herzlichen Glückwunsch

      1. So schön das wäre, ganz stimmt es nicht. Mit den Header-Daten bleibt doch noch einiges an Information übrig und dann wären da noch der Cache und insbesondere ETags zur Wiedererkennung.

        Kurze Frage: Hilft es wenn ich JS nur für den Test kurz erlaube oder verfälscht das am Ende sogar das Ergebnis? Der Cookie wird den Browser-Neustart aber definitiv nicht überleben.

      2. Geralt, na klar, bleiben auch bei HTTP-Headern noch Infos über. Die besonders signifikanten Daten (Schriftarten, Plugins) lassen sich aber nur auf dem Client auslesen.

        Zur Frage: Wie du möchtest :-). Allerdings kannst du ohne JS nicht teilnehmen.

      3. @Henning: Das habe ich auch gemerkt, wobei ich tatsächlich mitmachen wollte, weil ich die Idee eigentlich ganz interessant finde. Aber meine persönliche Technik lässt einfach kein JS zu und ich könnte Dir nur Rechner zur Verfügung stellen an dem mehrere Leute hantieren. Davon könntest Du ganz viele haben, aber das wird eine Differenzierung sehr schwierig, wenn Du keine besuchten Webseiten und parallel Handy-Ortungsdaten aufzeichnen möchtest…denke ich. Dennoch viel Erfolg bei der Arbeit!

    1. Paradoxerweise sind ja gerade diejenigen Nutzer, die Sicherheitsmaßnahmen wie NoScript, Flashblock, Cookiesafe etc. benutzen, sehr einfach zu identifizieren, da 99,999% der normalen User keine solche Konfiguration benutzen.

      1. mit Javascript, Referrer und Co ist mein fingerabdruck unter 2’551’061 Browser einzigartig. ohne sind es nur noch 11’977

        ist ne sehr deutliche verbesserung, bei den milliarden internetnutzern weltweit ist das doch ne ganz gute quote.

    1. Richtig. Aber die EFF speichert manche Daten, z. B. die Systemfarben, nicht. Außerdem sind die Ergebnisse nicht für jeden nutzbar. Ich werde meine Daten, inkl. Sourcecode, Rohdaten & Co, nach Open-Science-Prinzipien online stellen.

      1. Folgendes hat die EFF auch untersucht:
        – Welche Konfigurationsmerkmale sind „wichtiger“ als andere? Hier ist aber zu erwähnen, dass die EFF weniger Merkmale betrachtet hat (z. B. keine Systemfarben)

        Dies hat die EFF nicht untersucht:
        – Durch die Speicherung eines Cookies kann ich, sollten die Cookies nicht gelöscht worden sein, feststellen, ob jemand die Seite tatsächlich erneut aufgerufen hat. Falls ja, interessiert mich das Delta, also die Veränderung am System. Funktioniert Fingerprinting somit genau, d.h. sind die Datensätze (abgesehen von dem Datum und der IP) identisch? Oder haben sich bestimmte Merkmale verändert. Wenn ja, welche ändern sich häufig? Kann man das Delta in seinen „Wiedererkennungs-Algorithmus“ einfließen lassen?
        – Ist ein „PNG-Cookie“ stabil und verlässlich?

        Außerdem werden alle Ergebnisse, Rohdaten, die Dipl-Arbeit an sich, der Quellcode, usw. veröffentlicht (unter CC-Lizenz bzw. für Quellcode ein Äquivalent).

        Hoffe, dass das alle Fragen beantwortet hat :-).

  3. Es kann nicht falsch sein, dem oft zu blauäugigen User einmal zusammenfassend zu zeigen, welche umfangreichen Informationen -vereinfacht Browser- Fingerprint- der konkrete Internetanschluss, der PC, sein Browser, die Methodik der Bedienung usw. verrät: Es gibt keine Anonymität.

    Die Diplomarbeit eines Einzelnen kann dabei aber nur der berühmte „Tropfen auf …“ sein.

    Sicher arbeiten weltweit bereits umfangreiche Forscherkollektive insbesondere für Marketing, für Sicherheits- und Geheimdienste bereits an dieser Aufgabe und verheimlichen die Ergebnisse jedoch ausdrücklich.

    Denn selbst Laien (Pinguin) sollten schnell erkennen, dass z.B. bei abgeschaltetem Flash eben die Mehrzahl der Videos, bei Abschaltung von Javascript die Mehrzahlt der Seiten nicht abzurufen sind. Bereits diese Voreinstellungen und Reaktionen (Unsicherheit, Angst, Unkenntnis, Reaktionsgeschwindigkeit, …) verraten aber den bestimmten Usertyp usw.

    Jeder Internet- Anbieter möchte seinen Anschluss und seine Dienst bezahlt haben. Er integriert deshalb zusätzliche einzigartige Informationen in jedes Datenpaket. Im konkreten Moment gibt es neben der IP immer die individuelle, auslesbare Zuordnung des Internet- Anbieters (und manchmal lässt sich die Verbindung zum einzelnen Gerät sogar anfassen ;-).

    Ein O2-Kunde wird mit seinem Mobilgerät kaum übers Vodafone- Netz kommen. Ein Merkmal? Selbst ohne Vertrag?

    Standortanalyse, Abstrahlcharakteristika, aber auch simpler IMEI, MAC-Adresse usw. usf. –

    Alles insgesamt eine lösbare, jedoch Ressourcen fordernde Aufgabe.

    1. Dem Satz „Es gibt keine Anonymität“ in einem vollständig vernetzten digitalen Umfeld ist uneingeschränkt zuzustimmen.
      Ich stimme allerdings einigen anderen Ihrer Schlüsse nicht zu:
      Es Bedarf doch gar keiner großartigen technischen Finesse zur User-Erkennung, 1 Milliarde Menschen geben via Facebook eh alle Daten von sich (meist ganz bewusst) Preis. Ob eine bewusste Abschaltung der Scripting Funktionalität auf ‚Ängstlich: Keine Ahnung deswegen vorsichtig‘ oder ‚Fachmann: Weiß weshalb es gefährlich ist‘ würde ich jetzt als extrem spekulatives Merkmal bezeichnen, zumindest ohne andere Kriterien heranzuziehen.

      Eine Diplomarbeit die eine bekannt unsichere Technik darauf untersucht ob Sie wirklich unsicher ist, ist meiner Meinung nach deswegen völlig Sinnfrei. Ihre Zusätze das noch darüber hinausgehende Möglichkeiten gibt, negiert diese Tatsache nicht, genauso wie ja bereits etliche Regierungen auf die Idee kommen per Gesetz vollständige Transparenz der User zu fordern(ACTA, INDECT, etc.). Dies allerdings einseitig vom Benutzer und nicht von der Provider oder Staatsseite. Unter Umständen sind wir ja dann irgendwann eh bei bitte loggen Sie sich mit Ihrem Fingerabdruck in den Rechner ein und dieser wird automatisch an jede Seite übermittelt, aber an dem Tag werde ich dann hoffentlich kein Benutzer eines Systems mehr sein.

      In dem Sinne wäre für mich persönlich als „Laie“ die Frage viel interessanter kann man dem Benutzer Kontrollmechanismen an die Hand geben selbst zu entscheiden wann und wem man welche Daten gibt und welche Inhalte man Nutzen will (was ich heute mit No-Script erreiche). Deshalb nutze ich heute Scriptblocker um selbst entscheiden zu können, ist der Nutzwert einer Seite für mich höher als meine Privacy und falls diese Abwägung negatuv ausfällt =>Ja, dann mag es sein das ich etwas verpasse!

      Aber aus dieser Diskussion heraus ergibt sich für mich lediglich die Konsequenz:
      1. Diese „Untersuchung/Diplomarbeit“ hat keinen wirklichen Nutzwert! Damit entfällt für mich die Beteiligung
      2. Der „unbedarfte“ Benutzer liest und versteht noch viel einfachere Dinge nicht und ist damit als Zielgruppe für das Ergebnis absolut irrelevant. Konsequenz: siehe 1.

      1. Es wäre mir neu, dass ACTA und INDECT vollkommene Transparenz der Nutzer befördern.

        Die Argumentation kenne ich aber wohl und halte sie für falsch, Es ist dieser alles oder nichts Ansatz. Entweder etwas ist perfekt oder eben „unsicher“. Wenn es sowieso „unsicher“ ist, dann kann man auch totale Transparenz schaffen. Soweit die Logik des Schwarz-Weiss Denkens.

        Es gibt kein überhaupt kein Schwarz, nur ein dunkleres Grau. Ich kann Personen nicht ernst nehmen, die aus der Nicht-Existenz von Schwarz folgern, dass man auf Abdunklung des Graus verzichten kann und gleich Weiss nehmen. Bei den Privacyparanoiden und Transparenzfreunden ist dieser Ansatz des Alles-oder-nichts sehr ausgeprägt.

  4. „Wenn eine bestimmte Konfiguration erneut auftaucht, ist mit hoher Wahrscheinlichkeit davon auszugehen, dass es sich um die gleiche Person handelt. “

    Es ist davon auszugehen, dass es sich vielleicht um das gleiche Gerät handelt, nicht um die gleiche Person. Wenn jeden Tag um die selbe Zeit ein Auto mit dem selben Kennzeichen vorbeifährt, dann ist es das selbe Auto nicht der der selbe Fahrer.

    Zu diesen weltfremden Schlüssen und Identität von Gerät=Person hatte ich schon einmal geblogt, weil solche technisch unsinnigen Fehlschlüsse bei Juristen ohne Sachkenntnisse beliebt sind:
    http://wk-blog.wolfgang-ksoll.de/2011/11/30/sind-ip-adressen-personenbezogen/:

    Noch einmal: ein KfZ mit selben Kennzeichen, selber Farbe, selbem Geruch, selben Geräusch ist kein Beweis für den selben Fahrer. Selbst wenn manche Fahrer mit ihrem Auto verheiratet scheinen.

    1. Aber über den Fahrstil wäre es möglich.

      Bei Computern…vielleicht über die Tastenanschlagsdauer, Lesegeschwindigkeit, verwendete Zusatzprogramme oder einfach bei Touchscreen durch Erfassung der Fingerabdrücke.

    1. Oh hab gerade erst gesehen, dass der Hinweis oben schon mal kam. Dann hat es sich erledigt.
      Ich bin der meinung, dass man sogar anhand des Anfrage Headers + IP Adressbereich, ziemlich genau jmd. identifizieren kann.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.