DiskriminierungAMS erntet Hohn mit neuem KI-Chatbot

Der österreichische Arbeitsmarktservice hat einen auf ChatGPT basierenden „Berufsinfomat“ eingeführt. Der Bot soll zu Berufsbildern informieren. Stattdessen erweist er sich als Lehrbuch-Beispiel dafür, welche Schwächen eine Behörde in Kauf nimmt, wenn sie solche Systeme einsetzt.

Mann mit Brille schaut zur Seite
Gerne innovativ auf Kosten von diskriminierten Gruppen: AMS-Chef Johannes Kopf – Alle Rechte vorbehalten Imago

Ein Chatbot, der die Fragen von jungen Erwachsenen und Jobsuchenden nach möglichen Karrierewegen beantwortet – damit wollte das Arbeitsmarktservice (AMS) innovativ erscheinen. Doch seit der Vorstellung des „Berufsinfomats“ am vergangenen Mittwoch hagelt es stattdessen vor allem Spott und Kritik. In Sozialen Netzwerken mokieren sich Fachleute über die schlechte Umsetzung des Chatbots.

Für besondere Empörung sorgt dabei, dass der Chatbot Geschlechterstereotype reproduziert. Nutzer:innen machten sich sofort daran, die Möglichkeiten des Systems auszutesten und bekamen dabei einiges geboten. Auf die Frage nach möglichen Berufen für einen Mann mit hervorragendem Schulabschluss empfiehlt er etwa IT-Berufe und Handel. Die gleiche Frage für eine Frau führt zu der Empfehlung, Gender Studies oder Philosophie zu studieren.

ChatGPT ist ein sogenanntes Large Language Model (LLM), das mit großen Mengen an historischen Daten gefüttert wurde, um menschliche Antworten simulieren zu können. Dass solche Sprachmodelle massive rassistische und geschlechtsbezogene Vorurteile aufweisen, ist ein bekanntes Problem. Meist sind dafür unter anderem die Trainingsdaten verantwortlich, die von solchen Vorurteilen strotzen. Eine solche unbeabsichtigte Verzerrung wird auch Bias genannt. Sie im Nachhinein aus den Modellen zu entfernen, kommt einer Mammutaufgabe gleich, die selbst mit hohem Aufwand nur teilweise gelingen kann. Die Macher von ChatGPT können ein Lied davon singen.

Eine Regel soll Probleme von ChatGPT aufheben

Im AMS hat man hingegen offenbar geglaubt, ein paar zusätzliche Anweisungen an ChatGPT würden ausreichen, um gegenzusteuern. Nutzer:innen hatten mit findigen Fragen schnell herausgefunden, welche Regeln der Chatbot befolgen sollte – seinen sogenannten System Prompt. Eine Regel lautet: Unterscheide nicht zwischen Männern und Frauen bei Berufsempfehlungen. Dass dies offenbar nicht funktioniert, zeigen die vielen Versuche, die auf Plattformen wie X und Mastodon dokumentiert sind.

AMS-Chef Johannes Kopf verteidigt den Chatbot dennoch vehement. Als direkte Reaktion einer Nutzerin auf X schreibt er: „Wir haben das System so trainiert, dass es möglichst keinen Unterschied zwischen vermeintlich weiblichen oder männlichen Berufen macht. Wir haben das System bisher nicht darauf trainiert, bewusst ‚Ich bin ein Mann/Frau‘ richtig beantworten zu können.“ Man arbeite weiter an dem Problem. Wie das jedoch mit einem Modell wie ChatGPT und dessen bekannten Begrenzungen gelingen soll, darauf geht Kopf nicht ein.

In diesem Fenster soll ein Twitter-Post wiedergeben werden. Hierbei fließen personenbezogene Daten von Dir an Twitter. Aus technischen Gründen muss zum Beispiel Deine IP-Adresse übermittelt werden. Twitter nutzt die Möglichkeit jedoch auch, um Dein Nutzungsverhalten mithilfe von Cookies oder anderen Tracking-Technologien zu Marktforschungs- und Marketingzwecken zu analysieren.

Wir verhindern mit dem WordPress-Plugin „Embed Privacy“ einen Abfluss deiner Daten an Twitter so lange, bis Du aktiv auf diesen Hinweis klickst. Technisch gesehen wird der Inhalt erst nach dem Klick eingebunden. Twitter betrachtet Deinen Klick als Einwilligung in die Nutzung deiner Daten. Weitere Informationen stellt Twitter hoffentlich in der Datenschutzerklärung bereit.

Zur Datenschutzerklärung von Twitter

Zur Datenschutzerklärung von netzpolitik.org

300.000 Euro für ein Fertigprodukt

Die Kosten für das System, laut AMS rund 300.000 Euro, sieht Kopf als gerechtfertigt an. Dabei hat das AMS den Chatbot offenbar von einem externen KI-Unternehmen zugekauft, das solche Bots als fertige Lösungen quasi „von der Stange“ anbietet. Unter anderem findet sich der gleiche Chatbot auf einer Tourismus-Webseite für Basel. Für den Einsatz als Berufsberater wurde der Chatbot unter anderem mit bereits existierenden Informationsseiten des AMS wie dem Berufslexikon verknüpft. Auf bestimmte Anfragen referiert der Bot dann auch fleißig Einträge daraus, ergänzt um entsprechende Links.

Auch ein weiteres bekanntes Problem von Sprachmodellen weist der Bot auf: Er präsentiert, wie auch ChatGPT oder Google Bard, voller Zuversicht Antworten, die schlichtweg erfunden sind. Im Fall des Berufsinfomats führt das zu unbeabsichtigten Lachern, etwa wenn er auf die Frage „Was brauche ich als professioneller Nasenbär“ eine Ausbildung im Bereich Zoologie oder Tiermedizin empfiehlt.

Hinzu kommt der Umgang mit persönlichen Daten. Denn Informationen, die Nutzer:innen in ChatGPT eingeben, werden zwangsläufig an das Unternehmen OpenAI weitergegeben. Es nutzt diesen Input, um ChatGPT fortlaufend zu optimieren. Im Fall des Berufsinfomats bedeutet das, dass potenziell persönliche Informationen, die Nutzer:innen eingeben, an OpenAI gehen. AMS erkennt auch hier kein großes Problem und sieht die Verantwortung bei den Nutzenden. Gegenüber dem Standard teilte die Behörde mit: „Wir weisen den Nutzer auch an mehreren Stellen in hervorgehobener Formatierung darauf hin, dass dieser keine derartigen Daten eingeben soll.“

ChatGPT als Blackbox mit eingebautem Bias

„ChatGPT ist bis zu einem gewissen Grad immer eine Black Box“, sagt Paola Lopez, die als Mathematikerin zu Künstlicher Intelligenz und Gerechtigkeit forscht. Über die Antworten eines solchen Systems habe man keine Kontrolle. Trotzdem sei das AMS als Institution dafür verantwortlich – eine schwierige Situation.

Lopez glaubt nicht, dass sich die Verzerrungen aus datenbasierten Modellen wie ChatGPT im Nachhinein noch entfernen ließen. Diese basierten nun einmal darauf, Muster zu erkennen und reproduzierten damit auch Stereotype. Den Versuch, solchen Modellen diese Stereotype abzugewöhnen, vergleicht Lopez mit einem Wasserkocher, dem man das Kochen von Wasser abgewöhnen wolle. „Sicherlich kann man im Nachhinein zu dem kochenden Wasser kaltes Wasser hinzugeben, um die Effekte zu minimieren, doch das beseitigt das grundlegende Problem nicht: Ein Wasserkocher kocht Wasser und ein datenbasiertes Modell reproduziert Muster und Stereotype.“

Die Mathematikerin kritisiert, dass das AMS den Chatbot vor der Veröffentlichung offenbar nicht einmal simpelsten Tests unterzogen hat. „Dass User*innen innerhalb von wenigen Minuten per Intuition diese Biases finden konnten, die gut bezahlten Expert*innen im Vorfeld aber nicht, ist erstaunlich.“

Effizienz um den Preis der Diskriminierung

Laut Kopf hatte das AMS das System vor dem Launch monatelang umfassend mit Berater:innen und Nutzer:innen getestet. Seine Ausführungen, die er nach wie vor auch in langen Threads auf X veröffentlicht, legen allerdings nahe, dass man die Vorurteile und anderen Schwächen des Systems bewusst in Kauf genommen hat. „Wir werden lernen, ihre Vorteile zu nützen und ihre Schwächen zu kennen“, postete Kopf heute auf X. „Das AMS hat sich bewusst dazu entschieden, als öffentliche Institution, die sich viel mit den Auswirkungen moderner Technologien auf den Arbeitsmarkt beschäftigt, hier voranzugehen.“

Lopez kritisiert, dass sich das AMS damit „gegen Qualität und für Quantität“ entschieden habe. „Das ist gerade in sensiblen Lebenssituationen wie der Jobsuche und der beruflichen Orientierung schade. Das sind Wertentscheidungen, die in naher Zukunft viele Institutionen treffen müssen: Was ist uns die vermeintliche Effizienz von KI wert? “ Effizienz habe oft einen hohen Preis, den benachteiligte Gruppen zahlen müssten. „In diesem Fall ist der Preis der Effizienz die Akzeptanz, dass systematische Biases sich durchziehen und Stereotype reproduziert werden.“

Wo es in dieser Wertefrage steht, hat das AMS bereits vor einigen Jahren klargestellt: Mit der Einführung eines Algorithmus zur Bewertung der Jobchancen von Arbeitslosen hatte die Behörde 2019 für Aufregung gesorgt. Der Algorithmus sollte den Berater:innen des AMS damals die Entscheidung erleichtern, welche Arbeitssuchenden Zugang zu Schulungen und Trainings erhalten. Frauen, Mütter oder Menschen mit Behinderungen wurden dabei schlechter bewertet. Bereits damals ging es also schon um Vorurteile eines Systems, das mit historischen Arbeitsmarktdaten trainiert wurde.

Die österreichische Datenschutzbehörde hat den Einsatz des Algorithmus im Sommer 2020 untersagt, der Testbetrieb des Algorithmus wurde daraufhin eingestellt. Inzwischen liegt der Fall beim übergeordneten Verwaltungsgerichtshof. Bis heute gibt es kein abschließendes Urteil.

5. Januar: Wir haben den Beitrag um einen Absatz zu den Datenschutzproblemen ergänzt.

Deine Spende für digitale Freiheitsrechte

Wir berichten über aktuelle netzpolitische Entwicklungen, decken Skandale auf und stoßen Debatten an. Dabei sind wir vollkommen unabhängig. Denn unser Kampf für digitale Freiheitsrechte finanziert sich zu fast 100 Prozent aus den Spenden unserer Leser:innen.

25 Ergänzungen

  1. Was ist denn das Problem mit Stereotypen? Vor allem wenn sie, wie in diesem Fall, vermutlich einfach die Realität abbilden.

    Zumal in dem Beispiel ja explizit nach Vorschlägen für eine Frau oder Mann gefragt werden. Der Bot anwortet auch ohne das man das tut. Ich kann diese Aufregung nicht nachvollziehen.

    1. Welche Realität? Den Umstand, dass sich in vielen IT-Studiengängen mehr Männer und dafür in gender studies mehr Frauen wiederfinden? Wenn das in hohem Maße mit der entsprechenden Eignung korrelieren würde, vielleicht, aber das ist eben nicht der Fall.

      Das man diese Verteilungen „in der Realität“ findet, heißt doch im Umkehrschluss nicht für die einzelne Frau oder den einzelnen Mann, die oder der das System zu Rate zieht, dass er oder sie eher geeignet für diese Studien- oder Berufsrichtung ist.

      1. Menschen sind aber oft nicht objektiv. Menschen die sich im Internet zu Themen äußern auch nicht. Und das sind offensichtlich die Trainingsdaten für die LLM. Von dem also eine Objektivität zu verlangen die seine Quellen auch nicht zeigten greift deutlich zu Kurz.

        Eigentlich müsste man die Stereotypen und Subjektivität aus der Menschheit heraus operieren, dann könnte nach einer Weile; wenn man das Internet von dem Müll gesäubert hätte; auch ein LLM besser „funktionieren“.

        Schlussfolgerung: Diese ganzen LLM sind nutzlose Nebelkerzen die Nachplappern was viele behaupten. Und wenn Millionen Fliegen sich nicht irren könnten würden wir heute nicht „Eine Nuß-Nougat-Creme“ essen sondern Eklige Ausscheidungs-Endprodukte die dem ähnlich sähen.

        Oder in Kurz: Wenn du Sche***e hineinfüllst, dann kommt auch nur Sche***e heraus!

        Welches Problem sollen die noch mal lösen? Es gibt mehr als genug Menschen. Personal sollte sich also finden lassen wenn es knapp ist. Ich denke man will nur deren Preis nicht bezahlen. Am Ende ist es wieder nur Geiz und Gier! Weg damit, so wie mit den LLM!

        Und auch dies ist nur meine Subjektive Meinung zu dem Thema! LLM: Don’t copy that!

  2. Wahrscheinlich immer noch sehr viel weniger diskriminierend als jeder menschliche Berufsberater. Aber 300.000 Euro ist natürlich viel zu viel dafür, aber ich habe auch noch nie erlebt, dass eine Behörde einen vernünftigen Preis für irgendein IT-System gezahlt hätte.

    1. 300000 Euro fand ich verdächtig billig.
      Die Corona App hat Deutschland inzwischen 200 Mio gekostet und war sicher weiter weniger aufwendig.

    2. Wie viele PC-Gestützte Berufsberater-Arbeitsplätze hätte das AMS für 300000€ einrichten können? Die könnten das sogar im Homeoffice und im Schichtbetrieb einrichten und bräuchten nicht mal Räumlichkeiten. Eine Schulung, 1 PC, einen VPN-Zugang und mit der richtigen „Algorithmisch-Objektiven“ Software könnte das jeder machen.

      Wie, die Software ist nicht objektiv und wäre teuer? Tja. Nest->Ei->Kuckuck! :)

    3. Ich bin mir nicht sicher, ob man das als Vorteil werten sollte. Eher im Gegenteil. Den Berufsberater kann man notfalls wechseln und damit einen neuen Bias „auswürfeln“. Von der KI wird es zu jedem Zeitpunkt nur eine Version geben.

      1. > Von der KI wird es zu jedem Zeitpunkt nur eine Version geben.

        Von der KI wird es zu jedem Zeitpunkt nur eine allgemeine Consumer-Version geben.

        Darüber hinaus wird es eine Vielfalt „KIs“ geben, die unterschiedliche Freiheitsgrade haben wird, also Versionen, die nicht zum Zweck der Sozialverträglichkeit entschärft wurden. Zugänge dafür wird es für Forschung, staatl. Akteure und jene geben, die sich das finanziell leisten können falls das nicht weg-reguliert wird.

  3. Berater*innen und Expert*innen…wenn ich das schon höre. Es hat sich ja in der Vergangenheit immer wieder ernüchternd gezeigt, wie kompetent jene dann wirklich waren.

  4. „Wie das jedoch mit einem Modell wie ChatGPT und dessen bekannten Begrenzungen gelingen soll, darauf geht Kopf nicht ein.“

    Ja, geht auch gar nicht. Die Modelle sind enzyklopädische Senken mit spezifischer statistisch doofer Potentialhügellandschaft. Um da etwas herauszumöppeln, muss man fast schon Gott sein. Man denke an Menschen, denen man die Regel auferlegt, nichts Diskriminierendes zu sagen. Viel Spass beim Selbstversuch (unter entsprechenden Bedingungen mit viel „Gelegenheiten“). Grobe Falle: bei Menschen ist das etwas völlig anderes!

    „Ist ja ein Toaster“ stimmt also nicht und gleichzeitig doch. Man kann nicht „wie bei einer Maschine“ eine Bewegungsrichtung ausschließen, schon weil alles so komplex ist, dass alles sich aus für sich nicht löschbaren Richtungsversatzstücken zusammensetzt. Andererseits ist die Maschine nicht über ihre Funktion erhaben. Sie ist nicht „super“.

    Der „User“, wie hier das AMS, nimmt immer gerne an, dass man all die Probleme schon gelöst hätte. Ein Gewissen eingebaut, Selbsterkenntnis, tiefgründige Einschätzung, Mathematik, usw. usf.

    1. > Gewissen eingebaut, Selbsterkenntnis, tiefgründige Einschätzung, Mathematik

      Das sind ja Denkfehler. Die können so was nicht leisten. Eine Starke KI soll das können – aber die gibt es noch nicht.

      Mit dem obigem haben sogar NI (Natürliche Intelligenzen) große Probleme. Und zwar fast alle derzeit lebenden 8 Milliarden – oder zumindest viele der Anführer derselben.

      Beweis: der Aktuelle Zustand von Planet und Zivilisation sowie die o.g. überzogenen Erwartungen derer die so was einsetzen.

      1. Da ist eigentlich ja auch die Rückseite des Witzes, dass vermutlich selbst eine GAI das alles mühsam lernen müsste, und nicht einfach so fertig aus dem Ei gebrochen kommt.

      2. „Beweis: der Aktuelle Zustand von Planet und Zivilisation sowie die o.g. überzogenen Erwartungen derer die so was einsetzen.“

        Naja, eigentlich kann man das mit Fear and Greed schon fast simulieren, wenn also Leute was für sich machen, oder andere nicht haben bzw. ranlassen wollen. Schon „gut gemeint“ kann für andere furchtbar sein, Unwissen kann töten. Mit diesem Modellierungsansatz gibt es bereits eine Menge Folgerungen, die unserer Welt ähneln dürften.

        Simuliert man den Untergang, z.B. auf Basis der Notwendigkeit zu X% zusammenzuarbeiten (und das Y% aller Menschen), und nimmt Zivilisationsgrößenminima für Sachen wie „funktionierende Forschung“ an, wird es wieder interessant. Vielleicht können wir uns dann keine „Führer“ mehr leisten (Achtung Demokratie: die Entgrenzung von Sinn und Verantwortung ist schnell mal äquivalent zum Führertum. Schon alternierende Regierungen wären vielleicht äquivalent.). Aber wer will das schon hören.

  5. Ich hatte bei Blackbox und Chatgpt-fertiglösung von der Stange erwartet das dies eine Räumlich begrenzte Software- und Daten-Sammlung ist.. Jede einzeln.

    Jetzt lese ich zum ersten mal das diese „Ableger“ eingabe-daten an die Mutterfirma senden. Ist das ein Fehler, bei allen so oder von was hängt das ab? Dazu bitte mehr Infos.

    Dieses Verhalten erinnert mich doch sehr an die Tracking-Manie bei der auch alles dessen man habhaft werden kann an $Konzern geschickt wird. Alte Sau, Neue Masche. Das scheinbar „Persönliche Gespräch“ zum locker machen von Informationen.

    Tip: Nimm keine Kekse von Fremden. Vertraue „Eliza“ keine Persönlichen Informationen an. Sprich nicht mit Chatgpt, Alexa, Siri, Google u.a. wenn du nicht aus gesaugt werden willst. :-)

    1. Das Potential sollte klar sein. Noch viel schlimmere „personenbezogene“ aber auch persönliche, strukturierte, strukturelle, was nicht alles für Daten.

      Meiner Erinnerung nach gab es bei irgendeinem Produkt zu ChatGPT die Möglichkeit, das „abzustellen“, was auch immer da in den AGB steht. Dann gab es noch on-premises, was auch immer daraus diesbezüglich geworden ist.

      DSGVO gilt ja auch bei KI-Interfaces.

  6. Warum wird nicht verstanden dass ChatGPT ein Sprach-Modell ist.
    Es kann nicht denken, es kann nur Wörter aneinanderreihen mit einem selbstrechten, selbstgefälligen Tonfall. Und die Benutzer glauben das was sie hören, weil das so souverän vorgetragen wird…
    Ich habe festgestellt, das ChatGPT oder Bard Ursache und Wirkung oft nicht auseinander halten/zu ordnen können.
    Selbst wenn man sie auf den Fehler hinweist bleibt die 2. Version falsch.
    Was dieses Language Modell mir manchmal gebracht hat war ein weiterer Sichtwinkel und die richtige Nomenklatur für ne richtige Suchmaschine, wenn ich in einem mir total neuen Gebiet unterwegs war.
    Auch beim Programmieren: Das Teil kennt natürlich alle Bibliotheken-Aufrufe jeder Sprache. Als Sprachmodell ja keine Kunst aber keine Intelligenz.

    Derzeit wird viel Geld damit gemacht, wie einst mit Blockchain

    1. „Warum wird nicht verstanden dass ChatGPT ein Sprach-Modell ist.“
      -> „Derzeit wird viel Geld damit gemacht, wie einst mit Blockchain“

      Man springt auf, hat keine Ahnung, und die Werbung verschleiert, woher tatsächliche Verbesserungen in bestimmten Bereichen herkommen. Niemand weiß, ob eine Verbesserung oder ein spezifisches Können von dem LLM (Kern) herkommt, also z.B. vom Frisieren der Trainingsdaten, ob vielleicht eine Art Baumsuche oder andere Methode verwandt wurde, ob ein Spezialmodell für diese Aufgabe zum Einsatz kam, ein Filter oder Modul den Prompt im Schatten verändert hat, oder ein nachgeschaltetes Filtermodul noch mal eine Veränderung oder Anpassung bewirkt hat. Vielleicht kommen sogar Menschen bei der Beantwortung zum Einsatz, z.B. bei der Auswahl möglcher Antworten, via Vereinfachungs- und Zusammenfassungs-KI. „Irgendwie Module“. Chatgpt ist jedenfalls nicht nur ein LLM.

      Der andere Punkt ist, dass das was ist, was durchaus von „Profis“ in einer Domände genutzt werden kann, um eben von den enzyklopädischen Eigenschaften des Systems zu profitieren (als bessere strukturiertere Websuche, also durchaus mit Webanbindungsfunktion).

      1. Zur Güte: Allgemein mit KI ist halt vieles doch denkbar bzw. möglich. Warum jetzt? Wir treffen den Sweet-spot zwischen Technologie, Forschung, Fortschritt in den ersteren, also letztlich von der Möglichkeit von Geschäftsmodellen. Nicht für ein paar Spezialisten, sondern jetzt schon mit Ausblick auf so ziemlich viele Spezialisten, zuzüglich eines Rattenschwanzes an Angewandtem, wo KI und geschickte Schnittstellen sehr effizientes Arbeiten ermöglichen. Das sind zwar nicht vor allem (alles) LLMs, aber diese profitieren auch davon, letztlich auch durch geschickte Unifizierung des Fortschrittes (Wir sind der Fortschritt, „die KI“ kann jetzt dies und das).

        Ein Beispiel wäre Inpainting mit Aufsbildmalen wo was hin soll. (Gepaart mit generativer KI auch „lecker“, aber ohne schon nicht uninteressant.) Sprachliche Schnittstellen werden kommen, denn bei aller Imperfektion der LLMs für sich, kann man in spezifischen anwendungen eben doch algorithmisch prüfen, ob alle Daten verwandt wurden, welche Operationen zum Einsatz kommen, und dieses effizient prüfen – als einfaches Beispiel für Tabellenkalkulation. Tatsächlich könnte man dort alles in Transformationen umsetzen, also irgendwie Algebra, so dass letztlich schnell ein schnell prüfbares Ergebnis herauskommt. Im günstigen Falle erhalten wir also eine (unterkapable) Version eines Nichtdeterministischen automaten für unsere Problem-chen.

        1. „Gepaart mit generativer KI“
          Immer diese Abkürzungen, das heißt: „Text zu Bild mit generativer KI“
          (Irgendwie Generativ ist schon länger dies und jenes.)

      2. „Man springt auf, hat keine Ahnung, und die Werbung verschleiert, woher tatsächliche Verbesserungen in bestimmten Bereichen herkommen.“

        Und unser Dichter im Kopf mag einfach diese Extrapolationen!
        So nehmen die Dinge ihren Lauf…

Wir freuen uns auf Deine Anmerkungen, Fragen, Korrekturen und inhaltlichen Ergänzungen zum Artikel. Bitte keine reinen Meinungsbeiträge! Unsere Regeln zur Veröffentlichung von Ergänzungen findest Du unter netzpolitik.org/kommentare. Deine E-Mail-Adresse wird nicht veröffentlicht.