Mit Facebook-Daten vorhersagen, wer Alkohol oder andere Drogen nimmt

Aktuelle Forschung zeigt, dass mit Hilfe maschinellen Lernens Vorhersagemethoden entwickelt werden können, um aus Facebook-Nachrichten, „Likes“ und „Status-Updates“ berechnen zu können, welche der Nutzer zu Drogen-, Tabak- oder Alkoholmissbrauch neigen. Dafür wurden elf Millionen Facebook-Accounts herangezogen und deren Verhaltensmuster analysiert.

Man muss kein Bild mehr von sich posten, um bei Facebook als Drogennutzer errechnet zu werden. CC-BY-NC 2.0 Miguel M. Almeida

Wer sich an Alkohol, Tabak oder Drogen vergnügt oder sie missbraucht, zeigt bestimmte Verhaltensmuster, die über das Facebook-Profil und die Nutzungsgewohnheiten der Plattform abgelesen werden können. Daraus können mit hoher Genauigkeit Vorhersagen für andere Facebook-Nutzer errechnet werden, die den Missbrauch von solchen Substanzen anzeigen. Das ist ein Ergebnis einer Untersuchung von Wissenschaftlern des Addiction Recovery Research Centers in Roanoke, Virginia. Dazu nutzten die Forscher Verfahren des maschinellen Lernens und werteten damit große Mengen textueller Daten aus und bezogen auch die „Likes“ und die „Status-Updates“ ein. Damit konnte ein Erkennungssystem entwickelt werden, um Menschen aus der Menge der Facebook-Nutzer zu fischen, die mit hoher Wahrscheinlichkeit Drogen zu sich nehmen und zum Missbrauch neigen.

Die neue Studie bestätigt Ergebnisse früherer Forschung aus dem Jahr 2012, die bereits zeigen konnte, dass der Konsum von Alkohol, Tabak und Drogen aus der Analyse von Facebook-„Likes“ vorhergesagt werden kann. Die Menge der von den Forschern aktuell hinzugezogenen Daten erlaubt statistisch aussagekräftige Ergebnisse, da die ausgewerteten Datenmengen früherer Studien übertroffen werden: Alle „Likes“ von insgesamt elf Millionen Facebook-Nutzern und zusätzlich 22 Millionen „Status-Updates“ von 150.000 Facebook-Nutzern wurden verwendet.

Verhaltensstörungen erkennen

Den Forschern ging es um Menschen, die zu einer substance use disorder (SUD, psychische oder Verhaltensstörung bei Drogennutzung) neigen. Solche Personen können bei Konsum von Alkohol, Sedativa, Hypnotika, Tabak und weiteren Substanzen nicht nur eine Drogenabhängigkeit entwickeln, sondern auch Verhaltensstörungen. Ziel war es vorrangig, im Wege des maschinellen Lernens eine Vorhersagemethode zu finden, um aus ihren Facebook-Nachrichten diejenigen berechnen zu können, die an einer solchen SUD leiden. Dabei konnten im Umkehrschluss aber auch Erkenntnisse gewonnen werden, wie sich Alkohol oder andere Drogen auf das Nutzungsverhalten bei Facebook auswirken.

alkohol am meer
Wer neigt dazu, Alkohol nicht nur zu genießen, sondern zu missbrauchen? (CC BY-NC 2.0, slide.fox via flickr.)

Vielversprechende Plattform für Drogenforschung?

Die wesentlichen ihrer Ziele erreichten die Wissenschaftler: Sie wollten algorithmische Lernmethoden finden, um den großen Datensatz der Facebook-Nutzer inklusive der „Likes“ und „Status-Updates“ zu analysieren, die aber nicht zeitgleich menschlich überwacht werden. Die Informationen, die der Software eingespeist wurden, sind dabei nicht gleichartig, müssen daher zum maschinellen Lernen kombiniert ausgewertet werden. Darauf basierend sollten SUD-Vorhersagemodelle entwickelt werden, deren Resultate für eine nachfolgende menschliche Analyse nutzbar sind.

Das war erfolgreich: Für alle untersuchten SUD-Arten konnten jeweils über achtzig Prozent Vorhersagegenauigkeit erreicht werden. Die besten der entwickelten maschinellen Lernmethoden konnten mit einer Genauigkeit von 86 Prozent Tabaknutzung vorhersagen. Für Drogenkonsum konnte eine Treffgenauigkeit von 84 Prozent erreicht werden, für Alkohol 81 Prozent. Gegenüber früheren Studien konnte damit die Erkennungsrate übertroffen werden.

Die Forscher ziehen daher das Fazit:

We believe social media is a promising platform for both studying SUD-related human behaviors as well as engaging the public for substance abuse prevention and screening.

(Soziale Medien sind unserer Auffassung nach eine vielversprechende Plattform, um menschliche Verhaltensweisen im Zusammenhang mit SUD [Anm. Redaktion = psychische oder Verhaltensstörung bei Drogennutzung] zu studieren sowie um die Öffentlichkeit über den Missbrauch von Substanzen zu informieren, diesen sichtbar zu machen und Prävention zu leisten.)

Wie findet die Software Betäubungsmittelnutzer?

Wenn man das Vorgehen inhaltlich betrachtet, bekommt man einen ganz guten Eindruck, wie ein Algorithmus Zusammenhänge rechnerisch konstruiert und über große Datenmengen hinweg zu Aussagen mit hoher Genauigkeit bringen kann. Die Forscher haben dafür Schlüsselbegriffe genutzt, die aus Vergleichsgruppen von Menschen mit Verhaltensstörungen aufgrund von Missbrauch von Drogen, Alkohol oder Tabak stammen und zu den jeweiligen Störungen mathematische Korrelationen aufweisen.

Dazu gehören eine Reihe von Schimpfwörtern wie „fuck“ und „shit“, Bezüge zum Körper- oder emotionalen Zustand wie „hate“, „kill“, „blood“ und „pain“ sowie Wörter mit sexuellem Bezug wie „horny“ und „sex“. Zusätzlich wurden kulturelle Präferenzen hinzugezogen, etwa Musik, Filme oder Unterhaltungsaktivitäten. Ein Film wie „V for Vendetta“ ist beispielsweise positiv korreliert zu Alkoholkonsum, wohingegen etwa eine Vorliebe zu Trickfilmen negativ korreliert ist, also die Wahrscheinlichkeit gering ist, dass der entsprechende Facebook-Nutzer zu der Substanz greift.

Die Forschung ist der Prävention von Drogen gewidmet, jedoch braucht man wenig Phantasie dazu, sich ganz andere Interessierte an diesen Vorhersagetechniken vorzustellen: Wenn etwa ein Werbetreibender aus der bloßen Beobachtung des Facebook-Verhaltens mit hoher Wahrscheinlichkeit weiß, einen starken Tabaknutzer vor der Flinte zu haben, kann er die angebotene Werbung entsprechend ändern. Und beispielsweise zu wissen, wem man billigen Fusel anbieten kann, weil er zu krankhaftem Alkoholmissbrauch neigt, könnte so manchen Anbieter auch interessieren – wenn er die ethischen Bedenken ignoriert. Angesichts der hohen Quote an Menschen, denen wegen Betäubungsmittelvergehen hinterhergestiegen wird, ist vielleicht auch die Identifizierung von potentiellen Straftätern ein Feld für staatliche Bedarfsträger oder für Geheimdienste und ihre Kompromatkoffer.

19 Ergänzungen

  1. „welche der Nutzer zu Drogen-, Tabak- oder Alkoholmissbrauch neigen.“

    Wäre ‚Drogenmissbrauch‘ alleine zu richtig gewesen oder warum muss da differenziert werden?

    1. Ja Darius. Tabakdrogen werden oft nicht als Drogen wahr genommen. Da fehlt ja der fühlbare Rausch. Der Raucher raucht um sich nicht schlecht zu fühlen, Rausch ist mit Tabakdrogenkonsum eher nicht verbunden.

      Drogen an sich – so alles ab Hasch – sind Rauschmittel, die ausschließlich mit dem Ziel des zumeist maßlosen Berauschens konsumiert werden können. Sonderformen wie „runter kommen“ oder „wach bleiben“, die im Kontext wohl immer mit Rausch zu tun haben, zähle ich dazu.

      Alkohol ist erstmal Nahrungsmittel und Genußmittel. Alkohol wird erst zur Droge wenn er mißbraucht wird – also vom Genußmittel zu einem Rauschmittel gemacht, dafür ist der übermäßige Konsum notwendig.
      Alkohol sollte eigentlich „Das Bonbon für den Erwachsenen“ sein, so wird es aber oft nicht verwendet. Der Alkohol wird oft nur mit dem Ziel der Berauschung getrunken, womit der Alkohol dann auch zu einer ordinären Droge verkommt.

      Hoffe das macht die Trennung der Begrifflichkeiten verständlicher!

      BTW:

      Das Thema ist doch lachhaft. Die großen Konsumprahlereien sind eh oft nicht für voll zu nehmen. Ich halte die Internetdaten für zu schrottig, zu wenig verifizierbar um damit ernsthafte folgenreiche Forschungsarbeiten aufzubauen.
      Beschiss gabs ja schon bei Daten von Meldeämtern (Rentenbetrug), Krankenkassen (Ärztebestechung für „schlimmere“ Diagnosen damit die Kassen mehr Geld abzocken vom Fond oder auch die durch vorurteile und mangelnde Einstufung von Übergewichtigen als Krebs oder Quasi-Todeskandidaten in den nächsten paar Jahren und verharmlosung von Rauchern, deren statistisches Gesundheits-Risiko etwa so hoch ist wie BMI 50+ Kandidaten)
      Was ich meine: Die Daten mögen halbwegs für irgndwelchen Reklamescheiß mißbraucht werden können. Die Daten sind auch gut genug um die Reklameindustrie an ihrer eigenen Nase durch die Manege zu führen, ihr Geld abzuzocken, aber für ernsthafte Forschung ist das unspezifizierter Datenmüll meiner Auffassung nach.

      Wird natürlich Interessengetriebene Verwendung der Daten nicht verhindern…

      Guten Tag

      1. Zum „BTW“: Ich sehe das gegenteilig – mit hinreichend großer Datengrundlage und Test-/Trainingsumfang lässt sich sehr wahrscheinlich jede Eingangsfrage mit vergleichbar guter Trefferquote richtig beantworten.

        1. lachen sie, meine damen und herren, lachen sie und genießen sie das befreite gefühl dabei.

          niemand hat die absicht, einen überwachungsstaat zu errichten.

          .~.

  2. Nicht lange und die MPU für alle Führerscheininhaber wird angeordnet, wenn Auffälligkeiten zu Drogen und Alkoholkonsum auch außerhalb von Verkehrskontrollen und Unfällen vorhanden sind. Bedeutet hier, dass 19 von 100 Führerscheininhabern fälschlicherweise zur MPU müssen.

    Sollte man deshalb die (oben mit „erfolgreich“ beschriebene) Forschung weiter treiben, damit es bei „exzellenten Ergebnissen“ nur noch 3 von 100 trifft???

    Da hilft schon das Tracking: Öfters Aufenthalt über 30 Minuten in Kneipennähe plus Durchschnittsgeschwindigkeit danach über 15km/h. Plus überdurchschnittliches Alkohol-Kaufverhalten (per Pay-Schreck-Punkte). Solche Korrelationen lassen sich auch schon ohne neuronale Netzwerke aufsetzen.

    … und die Versicherungen hätten da auch ein Interesse.

  3. Hallo,

    diese Nachricht wurde von der NSA genauer untersucht. Warum? Hallo und ok sind die sehr trivialen Merkmale, mit denen die NSA Junkies jeder Art filtert. Dazu braucht man nicht Millionen Fratzenbuch-Trottel untersuchen. Junkies zu filtern ist keine wissenschaftliche Aufgabe, das kann man Lehrlingen anvertrauen.

    ok

    :-)

  4. Diese Daten sind natuerlich extrem interessant fuer Versicherungen, Banken, Arbeitgeber, Vermieter, you name it. Letztlich eine weitere Art des scorings, und es wird entsprechenden Dienstleister und Anwendungen geben…

  5. Statistik liefert ein Maß für die Wahrscheinlichkeit, kann aber über den Einzelfall keine Aussage treffen. Ohne eine Überprüfung sind die genannten Zahlen (86%, 84%, 81%) irgendwie gewürfelt.

    Bei einer Weltbevölkerung von 7 Mrd. und 1,94 Mrd. monatlich aktive Nutzer (* lt. Wikipedia) dürften jeden Tag Tausende in FB unterwegs sein, die irgendeinen Müll eintippen, um in gewisse Kreise zu kommen, um irgendwo dazu zu gehören, oder um im Rahmen ihres Psychologiestudiums mit erfundenen Profilen, Daten und Geschichten andere anzulocken.

    Das Ganze errinnert mich ein bisschen an Partnerbörsen, die ihrer Kreativität freien Lauf lasssen, indem sie aus Eigennutz massenhaft erfundene Frauenprofile anlegen. Mit Statistik lässt sich da sicher auch viel mit Haarfaben, Alter und dergleichen machen.

    1. Ob es für den Einzelfall passt oder nicht, ist doch völlig uninteressant. Wenn sich eine halbwegs zutreffende Vorhersagequote ergibt, kann man damit kalkulieren und das ist das einzige, was die Datennutzer (=Wirtschaft) interessiert. Der Leidtragende ist immer der Einzelfall, der hat aber leider keine Stimme oder allgemein: Pech.

  6. bei der berechnung von vorhersagen über dauerhafte verhaltensweisen der probanden sind wir seit etwa fünf jahren bei einer ausreichenden genauigkeit angelangt. die indikatoren zum targeting sind eben andauernd und erlauben recht großzügige erhebungszeiträume. vergangenheitsbetrachtung.

    die daten werden dann auch bei eher „konservativen“ kunden bei fragestellungen verwendet. eben um ein versicherungs risiko einzuschätzen oder bei der personalauswahl. die konkreten anendungsfälle sind eher diskreter natur.

    derzeit entwickeln wir unsere software in eine richtung, impulsive bzw. interferente verhaltenmuster vorherzusehen. wir möchten herausfinden, wann eine handlungsbereitschaft soweit fortgeschritten ist so dass ein impuls möglichst häufig zur einer handlung führt. unsere programme laufen dabei tatsächlich mit routinen, die von einem zuvor beendetem prozess als ergebnis oder auch teilergebnis herrühren. es ist kompliziert. als vielversprechende einsatzfelder kristalisieren sich gerade heraus. zu nennen wären insbesondere die unterstützung der politischen meinunsbildung und im bereich konsum lagen die besten ergebnisse bei probanden, die wir als informiert, kritische konsumenten von markenprodukten verorten.

  7. ich bitte um verständnis für die eigentümliche sprachwahl. meiner einlassung.

    es ist mir wichtig nach aussen zu tragen, dass vorhersagen über besonders auffällig normabweichende verhaltensweisen wie den drogenkonsum mit aktueller forschung im grunde nichts zu tun hat. es sei denn man forscht weiter und gewinnt die erkenntnis dem richtigen süchtigen die passende droge zum richtigen zeitpunkt anzubieten.

  8. Und für ganz besondere Vertragspartner bietet FB dann das komplette Profil zum „Freundschaftspreis“ an. …

    <>

  9. Und für ganz besondere Vertragspartner bietet FB dann das komplette Profil zum „Freundschaftspreis“ an. …

    „Auf Grund unseres Deals mit ihrer Autofirma teilen wir ihrer Personalabteilung natürlich gerne mit, welcher potenzielle Angestellte in welchem Maße zu Arbeitnehmerrechten- und Drogenmissbrauch tendiert.“

  10. Datensparsamkeit,Datenverweigerung und den nimmersatten Datensammlern alternative Fakten zum Fraß werfen,ist oberstes Gebot.
    Facebookaccount kündigen,da Facebook synonym für Datensammelwut steht.

  11. Ich weiss gar nicht was es da lange zu lavern gibt.Entweder Du bist bei Facebook und nutzt diesen Mist und hältst es damit am Leben oder du verweigerst dich dem. Ist doch immer das gleiche Spiel. Der Mensch ist scheisse und um was zu ändern kann man nur den unbequemen Weg gehen und das Verhalten ändern.Und die schlauen Leute die sich damit brüsten sich gegenseitig zu beweisen das Sie schlauer sind als diese Forscher die Anlass für den Artikel waren ändern schon mal gar nichts mit ihren Aufsätzen hier.

Dieser Artikel ist älter als ein Jahr, daher sind die Ergänzungen geschlossen.