Du bist, was du magst: Aus Facebook Likes lassen sich Religion, Sexualität und Drogengebrauch vorhersagen

Aus digitalen Aufzeichnungen des menschlichen Verhaltens lassen sich individuelle Eigenschaften und Einstellungen ableiten. Das ist das Ergebnis einer Studie an der Cambridge University. Es reicht, die „Likes“ von Facebook-Profilen zu betrachten, um sehr persönliche Dinge mit hoher Wahrscheinlichkeit vorherzusagen.

Ein Forscher-Team um den Psychologen Michal Kosinski hat ein Paper in der wissenschaftlichen Fachzeitschrift PNAS veröffentlicht: Private traits and attributes are predictable from digital records of human behavior (PDF):

We show that easily accessible digital records of behavior, Facebook Likes, can be used to automatically and accurately predict a range of highly sensitive personal attributes including: sexual orientation, ethnicity, religious and political views, personality traits, intelligence, happiness, use of addictive substances, parental separation, age, and gender.

Dazu haben sie auf myPersonality.org Facebook Likes und demografische Daten von 58.000 Freiwilligen gesammelt. Mit dieser Datenbasis können die Forscher mit statistischen Analyseverfahren aus den öffentlichen Likes von beliebigen Facebook-Profilen individuelle psycho-demografische Eigenschaften vorhersagen. Und zwar mit einer Genauigkeit von bis zu 95 Prozent. Im Einzelnen:

fb-likes-accuracy-1

Das kann ganz automatisiert für Millionen von Menschen gemacht werden:

„What was traditionally laboriously assessed on an individual basis can be automatically inferred for millions of people without them even noticing,“ Kosinski says, „which is both amazing and a bit scary.“

Einen kleinen Selbst-Check für das eigene Facebook-Profil gibt es auf YouAreWhatYouLike.com. Bereits 2009 haben Studenten die sexuelle Orientierung anhand der Freunde von Facebook-Profilen herausgefunden.

Die Forscher glauben, dass diese Methode nicht auf Facebook Likes beschränkt ist, sondern aus vielen alltäglich anfallenden Daten detaillierte Persönlichkeits-Profile erstellt werden können:

We show that a wide variety of people’s personal attributes, ranging from sexual orientation to intelligence, can be automatically and accurately inferred using their Facebook Likes. Similarity between Facebook Likes and other widespread kinds of digital records, such as browsing histories, search queries, or purchase histories suggests that the potential to reveal users’ attributes is unlikely to be limited to Likes. Moreover, the wide variety of attributes predicted in this study indicates that, given appropriate training data, it may be possible to reveal other attributes as well.

Das könne dann zum Beispiel für personalisierte Werbung verwendet werden (wobei ich mich immer frage, wer ernsthaft Werbung sehen will). Oder missbraucht werden:

[…] The predictability of individual attributes from digital records of behavior may have considerable negative implications, because it can easily be applied to large numbers of people without obtaining their individual consent and without them noticing. Commercial companies, governmental institutions, or even one’s Facebook friends could use software to infer attributes such as intelligence, sexual orientation, or political views that an individual may not have intended to share. One can imagine situations in which such predictions, even if incorrect, could pose a threat to an individual’s well-being, freedom, or even life. Importantly, given the ever-increasing amount of digital traces people leave behind, it becomes difficult for individuals to control which of their attributes are being revealed. For example, merely avoiding explicitly homosexual content may be insufficient to prevent others from discovering one’s sexual orientation.

There is a risk that the growing awareness of digital exposure may negatively affect people’s experience of digital technologies, decrease their trust in online services, or even completely deter them from using digital technology. It is our hope, however, that the trust and goodwill among parties interacting in the digital environment can be maintained by providing users with transparency and control over their information, leading to an individually controlled balance between the promises and perils of the Digital Age.

Diese Forschung macht schön sichtbar, welche Macht in den Persönlichkeitsprofilen steckt, die alltäglich von uns erstellt werden. Das Problem bei diesen angeblich „pseudonymen“ Daten ist, das diese immer leichter einzelnen Personen zuordenbar und damit deanonymisierbar werden. Vor allem, je größer die Datenberge sind.

Als man Facebook diese Forschung präsentiert hat, war man dort nicht überrascht. Immerhin ist genau das deren Geschäftsmodell:

Science NOW contacted Facebook’s in-house social scientists about the work. The study’s results are „hardly surprising,“ the company contends in their official response. „On Facebook, people can share the things they like—like bands, brands, sports teams, public figures, etc. By using Login with Facebook on third party sites, people can take their Likes and interests with them around the web—to have more personalized experiences.“

„I am glad that Facebook is aware that likes allow predicting individual traits,“ Kosinski says. „I am afraid, however, that users [of Facebook and other online environments] do not realize that by ‚carrying around‘ their likes, songs they listen to, Web sites they visit, and other kinds of online behavior, they are exposed to a degree potentially well beyond what they expect or would find comfortable.“

Es braucht also ein Bewusstsein, wie aussagekräftig solche Daten wirklich sind.

Deine Spende für digitale Freiheitsrechte

Wir berichten über aktuelle netzpolitische Entwicklungen, decken Skandale auf und stoßen Debatten an. Dabei sind wir vollkommen unabhängig. Denn unser Kampf für digitale Freiheitsrechte finanziert sich zu fast 100 Prozent aus den Spenden unserer Leser:innen.

22 Ergänzungen

  1. Ich denke viel schockierender ist, was über gespeicherte Googlesuchen über einen herausgefunden werden kann. Das sind ja hier größtenteils Daten, die fast jeder bei einer Straßenbefragung rausgeben würde, bei Googlesuchen sieht das aber ganz anders aus. Da lassen sich ganze Lebensläufe, teilweise bis in individuelle Details rekonstruieren.

    1. Die Suchdaten bei Google sind natürlich noch einmal aufschlussreicher und brisanter, aber auch leichter zu verfälschen. Z.B. kann man sich angewöhnen nur zu googlen, wenn man nicht mit seinem Google-Konto eingeloggt ist und nach jedem Suchvorgang die entsprechenden Cookies löscht. Auch könnte man ein Programm laufen lassen, das ab und zu randomisierte Suchanfragen startet.

      Allerdings tun dies wohl nur die wenigsten Menschen.

      1. Und… einfach keine Seiten auf Facebook zu liken (welches obige Analyse essentiell aushebelt) ist kein abgewöhnbares Verhalten im Gegensatz zur bewussten Kontrolle des Ausgeloggtsein bei Google?

    2. Unschön finde ich gesammelte Daten, die nicht stimmen. Ich habe aufgehört mit der Anonymität online, weil ich denke, dass tatsächliches Handeln mich viel besser darstellt als das, was versehentlich oder unrichtig öffentlich wird.

      Die Daten
      sexual orientation, ethnicity, religious and political views, personality traits, intelligence, happiness, use of addictive substances, parental separation, age, and gender.
      wären nichts, was ich verbergen wollte. Problematisch an der Regressionsanalyse ist, dass Du aufgrund statistischer Vergleiche als ein X wahrgenommen wirst, auch wenn es nicht bist, und sich die Dienste auf Dich als X einfiltern.

      Der Witz bei so vielen Persönlichkeitsaspekten ist, dass wir auf eine so wunderbare Weise vielfältig sind. Ganz ordentlich hier, ganz unsortiert kreativ in anderen Feldern. Dann die Frage, wie benutzt Du Dienste wie Facebook. Für mich ist das momentan ein Dienst für Katzenbilder und Rockabilly-Videos. Andere posen mit Luxus-Lifestyle und machen es zu ihrem Baby-Blog mit Schwiegereltern.

      Mein letzter Like war für einen amerikanischen Rüstungselektronikverband, ich like auch den Sinn des Lebens und das OpenDocument Format, mich inspirieren Walther Rathenau und Pat Cox. Jetzt habe ich die Konklave geliked, ob ich ein verkappter Katholik bin?

      1. Ehrlich gesagt werde ich lieber als ein falsches X eingestuft. Mit Blick auf die Zukunft hast du vielleicht Recht, weil du dadurch schon vorbeugend Probleme mit einem totalitären Überwachungsstaat (sofern es denn dazu kommen sollte) vermeidest. Sonst sehe ich dadurch aber keine relevanten Probleme.

        Du schreibst „Die Daten sexual orientation, ethnicity, religious and political views, personality traits, intelligence, happiness, use of addictive substances, parental separation, age, and gender. wären nichts, was ich verbergen wollte“. Ich habe natürlich keine Einwände, wenn du das so siehst, aber viele sehen das anders.

        Facebook ist übrigens kein Dienst „für Katzenbilder und Rockabilly-Videos“, sondern ein Konzern, der sein Geld mit Benutzerprofilen verdient. Zu deinem letzen Absatz: Auch aus Falschinformationen kann man eine ganze menge richtiges ableiten.

      2. Zum Beispiel werden ich auf Linkedln für meine MySQL Kenntnisse „endorsed“. Klar, mit Datenbanken kenne ich mich „auch“ aus, aber jene Kollegen, die mich da „endorsen“ haben keinen Schimmer von meinen Fertigkeiten in diesem Bereich. Linkeln habe ich nicht gepflegt, darum steht da also weitgehend Schrott und die zwingen Dich quasi dazu Angaben zu korrigieren. Es ist aber in meinem Bereich nicht unbedingt so, dass man seine Projekte, Kanäle und Kontakte offenlegt.

        Bei Google findest Du ganz oben ein Profil vom Freitag.de, das ich mal angelegt habe, die sind wohl gut mit Social Media. Nicht jetzt unbedingt meine Lieblingslektüre. Ich habe auch Profile auf irgend welchen komischen Portalen, wo ich mal einen Kommentar gesetzt habe.

        religious views: evangelisch-lutherisch, ich like „Christusnews“ meiner Kirche
        use of addictive substances: trinke wie alle Friesen große Mengen Assam-Tee, und ich like Bünting und Bakker.
        politisch: centrist, mit ausgeprägten Spezialinteressen

  2. Ich glaube, ich verstehe die Werte falsch. Ich möchte das mal am Beispiel „Lesbian“ deutlich machen. Dabei gehe ich davon aus, dass (deutlich) weniger als 25% aller Frauen lesbisch sind. Wenn ich nun also einfach bei allen Frauen tippen würde, dass sie nicht lesbisch sind, komme ich auf ein deutlich besseres Ergebnis als die 0.75 aus der Grafik.
    Wo liegt mein Fehler?

    1. Es geht um die statische Genauigkeit der Aussage. Im Endeffekt heisst „75% Genauigkeit“: „Wir kennen einige Seiten, die wir finden, haben eine gewisse Aussagekraft, können das aber bei weiten nicht allgemeingültig definieren“. Zum Beispiel sagt Dein Datensatz, dass irgendeine Serie bestimmt nur von Lesben gemocht wird, aber dann gibt’s ’ne Hetero-Frau, die es auch mag, und das zerstört die Genauigkeit.

    2. der „fehler“ ist, dass du einfach ein anderes verfahrung zur vorhersage einsetzt, was logischerweise eine andere fehlerquote aufweist. dass das unter umständen bessere ergebnisse liefert, bestreitet niemand. darum ging es bei der studie oben aber nicht.

  3. @Peter. Ich denke die Angabe 0.75 bedeutet wie oft ein Tipp „Lesbian“ korrekt war. In deinem Fall würdest du ja gar nie das tippen. Und somit nie richtig liegen.

  4. Drogengebrauch ist etwas weit hergeholt: Das sind 65% Genauigkeit. Wenn ich einfach zufällig rate, dürfte ich auf 50% kommen.

    Geschlecht, Sexuelle Orientierung, Religion und Herkunft sind allerdings heftig: Das sind alles Dinge, wegen denen Leute diskriminiert werden und die Treffergenauigkeit liegt bei über 80% (also 30% über Zufall).

    Die Herkunft finde ich dabei besonders kritisch: Rassisten könnten einfach auf Facebook nach Opfern suchen.

    Fazit: Likes sollten dezentral und verschlüsselt ausgetauscht werden, so dass sie wirklich nur Freunden bekannt sind.

  5. Also ich denke, dass diese Studie nicht so alleinstehend gesehen werden sollte. Sie vermittelt nur einen kleinen Eindruck, was mit solchen Daten alles möglich ist. Die Auswertung bezieht sich ja nur auf die Facebook-Likes. Bei Facebook werden aber viel mehr Daten hinterlassen als nur Likes. Wenn man diese als Gesamtheit auswertet, kann man da sicher ganz andere Ergebnisse erzielen.

    Generell würde ich mal davon ausgehen, dass Facebook selber da viel mehr Zeit und Geld in die Forschung investiert, als die Studie da oben. Intern weiß man also bei Facebook möglicherweise schon viel mehr. Weiterhin kann ich mir gut vorstellen, dass im Rahmen der Forschung der nächsten Jahre noch viel genauere und weitreichendere Vorhersagen getroffen werden können.

  6. Mit Big Data ist einiges möglich. Zum Beispiel kann man anhand eines Backlinkprofils sehen welche Website in welchem politischen Lager am populärsten ist.

    Selbst der Ausgang von Wahlen lässt sich durch die analyse von Backlings prognostizieren: http://blog.majesticseo.com/research/predicting-elections/

    „Likes“ sind ja grundsätzlich nichts anderes als Links, also in dem Sinne das man wohl die gleichen Algorithmen zu deren Auswertung wird verwenden können.

    Und das ist erst der Anfang, wenn die AI erstmal soweit ist große Textmengen zuverlässig analysieren zu können dann sind noch ganz andere Sachen möglich als das. Dann haben diejenigen welche über die Datenbasis verfügen quasi ein „Psychoprofil“ der gesamten Bevölkerung. Damit liesen sich dann (Genügend Rechenkapazität) vorausgesetzt auch sehr zuverlässige Prognosen über zukünftige politische Entwicklungen erstellen. Die Psychohistoriker lassen grüßen.

  7. Mich regt was anderes auf: 1) Gravierende fehler in solchen Analyseverfahren, die nun mal meistens darin enthalten sind, führen zu total falschen profilen. Zum beispiel können keinerlei Anonymisierte profile Ausgewertet werden, nicht mal im Gerringsten. Sobald das Geschlecht, das Alter nicht angegeben sind, geht gar nix! Wenn diese falsch sind, ist der Fehler im Analysesystem zu suchen, da das System diese Fehler nicht mit einberechnet hat, OBWOHL es das MÜSSTE, da es ja die Richtlinien bei Facebook kennt… das bedeutet, die Ersteller der genannten Analyseverfahren haben DA SCHON in der Konzeption die Schräubchen falsch betätigt und geben daraufhin komplett falsche Auskunft, komplett falsche berechnungen ab!!! DAS zeigt aber wiederzum, dass die macher dieser Analyseverfahren diesen Punkt, nämlich der Punkt der Anonymen nutzung von Facebook, überhaupt nicht gesehen haben…..ÖHM……ja hallo??? Wie „DUMM“ muss man denn sein, DAS zu übersehen? Also das zeigt INKOMPETENZ, und das macht das Verfahren obsolet. ich würdfe es als Persönlichkeits-erraten-Maschine bezeichnen. ZUMAL…und das hat wohl auch jemand übersehen (Fehlerquelle 2) neinen viele Menschen dazu, sich eben NICHT so zu präsentieren, wie sie wirklich sind, sondern wie sie gerne sein WOLLEN… was quasi bedeutet, das diese Maschine ein Profil errät, welches sich auf den Wunsch mancher User bezieht, aber nicht auf ihr wirkliches SEIN… Wenn jemand ein bestimmtes Produkt mag, bedeutet das nicht, das er sich das a) leisten kann und b) wirklich tragen würde. Das bedeutet NUR, dass er das mag!!! UND HIER ist so ein grober Konzeptionsfehler im Verstehen des begriffs „MAG“(„LIKE“ bei Facebook) gemacht worden, dass gar ein bekennender transsexueller als Verheiratette Frau mmit 2 Kinder rauskommen könnte-.- Das ist einfach humbuk, man muss mal wirklich mehr die basis dieses „Bullshits“, den da die industrie als Funktional betitelt HINTERFRAGEN!!!

  8. Ach und noch etwas, was mich aufregt, also Punkt 3) Profesionelle persönlichkeitsprofile werden NIEMALS mit Statistiken angefertigt! DAS WEIß MAn EIGENTLICH, also wer auch immer auf die idee gekommen ist, das ganze konstrukt da Persönlichkeitsprofiling zu nennen, der hat auch schon einiges nicht verstanden. Es gibt ja die Einkaufsverhaltensprofile, die Bewegungsprofile, die Reaktionsverhaltensprofile… selbst diese kann man so einfach nicht anfertigen, aber Persönlichkeitsprofile… Das ist was ganz anderes, kann man mit Statistischer Auswertung überhaupt nicht machen! Das ist wirklich nur iene von der Industrie initiiertes Spielzeug zur Auswertung der „LIKES“ aber das alles hat nichts mit Persönlichkeit zu tun… ;-)

  9. Achja… da ist ja das Interpretationsproblem…hab ich ja ganz vergessen, vor lauter „Empörung“ über soviele Amihafte Dreistigkeit und Größenwahns…:
    4) IRGEND einer da in der USA sitzt also, und schreibt die BEDEUTUNGEN der Likes auf, quasi er macht folgendes: „Frau, 35 jahre, hat auf ein Kinderphoto mit „Like“ geklickt. Das KÖNNTE bedeuten a) „Ich mag Kinder“, b) „Ich möchte Kinder“, c) Ich würde gerne Kinder haben wollen kann aber keine haben“, d) ich mag sehr das Photo, aber kinder kann ich nicht ab“, e) Das sind die Kinder meiner Freundin, die sind wirklich süüs“, f) „Verdammt, bei dem Kinderphoto meiner Freundin muss ich auf LIKE klicken, sonst denkt sie ich bin böse“ g) Achjaa… ich war auch mal klein, blos gut dass ich keine Kinder habe, h) „Kinder? Warum hat der denn ein Kindefphoto gepostet…hmm…ich werd mich mal anfreunden, vielleicht kommt was bei raus, ich klicke mal auf ja, aber Kinder mag ich nicht, den Typ mag ich!“

    Die liste geht echt lange weiter. Soll heißen, wenn man dem Klick nur eine bedeutung zuerkennt, hat der dann nur diese. Aber er könnte auch ganz andere bedeutungen haben.. Das kann aber der eine Typ der da in Amiland sitzt und die Auswertung macht gar nicht WISSEN, was hier die Deutsche 35-jährige Ursula sich dabei DENKT, wenn sie „Like“ klickt!!! xD Also ziemliche SELBSTVERARSCHE, zu glauben, diese zahlen da die oben angegeben werden hätten irgendeine realistische Relevanz… ich würde die zahlen/Fahlerquoten um 2/3 erhöhen, dann könnte vielleicht bisschen diesbezüglich realität einkehren…aber auch nur bisschen, und damit wären die Interkulturellen Schwierigkeiten noch lange nicht abgekackt… ;-]

Dieser Artikel ist älter als ein Jahr, daher sind die Ergänzungen geschlossen.