Algorithmen für BewerbungenDas Bücherregal im Hintergrund hat Einfluss darauf, ob Du den Job bekommst

Der Computer soll entscheiden, welche Bewerberin einen Job bekommt. Dass solche Systeme noch nicht funktionieren, zeigt eine Recherche des Bayerischen Rundfunks.

Statt „zurückhaltend“ plötzlich als „lebhaft“ von der KI bewertet – wegen des Bücherregals. (Das Bild ist nicht aus der Recherche des Bayerischen Rundfunks.) CC-BY-SA 2.0 KOREA.net

Die Datenjournalist:innen des Bayerischen Rundfunk haben zusammen mit Report München eine algorithmenbasierte Bewerbungssoftware eines Münchener Startups getestet – und zeigen die Schwächen des Systems. Die Idee des Startups Retorio: Eine Software soll anhand eines kurzen Videos über die Job-Bewerbung urteilen und dabei besonders objektiv und fair sein. Laut der Firma sollen Stimme, Sprache, Gestik und Mimik analysiert und ein verhaltensbasiertes Persönlichkeitsprofil erstellt werden. Soweit die Theorie.

Die Datenanalyse des Bayerischen Rundfunks zeigte, dass man den Bewerbungserfolg in diesem System mit Veränderungen von Äußerlichkeiten beeinflussen konnte. Hierzu führten die Journalist:innen verschiedene Experimente mit der Software von Retorio durch.

Mehrere hundert Testvideos produziert

Für die Tests engagieren die Reporter:innen eine Schauspielerin. Mit ihr nehmen sie Videos auf, mit der sie die Versprechen des Herstellers überprüfen werden. Dabei wird immer der gleiche Text vorgetragen, in der gleichen Tonlage und Geschwindigkeit, doch mal trägt die Schauspielerin keine Brille, mal eine Brille und mal ein Kopftuch. Mit Brille schätzt das System sie weniger gewissenhaft ein, mit Kopftuch offener. Die Ergebnisse unterscheiden sich deutlich. Als Gegenprobe produzieren sie Videos, in denen die Schauspielerin im gleichbleibenden Outfit vorträgt, hierbei bleiben die Ergebnisse laut BR „weitgehend stabil“.

Das Unternehmen Retorio sagt dazu gegenüber dem BR:

„Wie in einem normalen Bewerbungsgespräch auch, fließen solche Faktoren ebenso in die Bewertung mit ein. Das alles erfolgt ohne Nachfrage, ohne irgendeinen Druck, wie er etwa in einer Gesprächssituation entstehen kann.“

Das Unternehmen hat die Software nach eigenen Angaben mit dem so genannten Big-5-Model trainiert. 2.500 Menschen haben demnach 12.000 Videos angeschaut und diese nach den Kriterien „Offenheit, Gewissenhaftigkeit, Extraversion, Verträglichkeit und Neurotizismus“ bewertet.

Äußeres und der Hintergrund beeinflussen die Ergebnisse

In einem weiteren Versuch mit zehn „Bewerbungskandidat:innen“ wird jeweils ein Faktor verändert. So wird zum Beispiel der Hintergrund ausgetauscht oder die Tonspur. Bei einem Video montieren die BR-Journalist:innen ein Bild im Bilderrahmen ins Video. Das verändert die Ergebnisse: Die Person wird unter anderem als offener und gewissenhafter beurteilt. Noch stärker wirkt ein hineinmontiertes Bücherregal auf diese Werte. Bei einem Bewerber mit einem Bücherregal im Hintergrund wurde dieser plötzlich nicht mehr als „zurückhaltend“ sondern als „lebhaft“ vom System eingestuft.

Bei einer Veränderung der Tonspur hingegen blieben die Werte nahezu unverändert. Veränderungen brachten auch eine simple Korrektur der Helligkeit eines Videos oder der Einsatz eines Sepia-Filters. Allerdings unterschieden sich die Ergebnisse von Bewerber zu Bewerber. Insgesamt produzierten die Journalist:innen mehrere hundert Videos, um die KI zu testen. Der Bayerische Rundfunk konnte die Ergebnisse allerdings nicht gezielt manipulieren:

Sich zum Beispiel absichtlich in ein helles Zimmer zu setzen und damit extrovertierter eingestuft zu werden, funktioniert nicht. Bei den Proband*innen haben wir jeweils mehrere Helligkeits- bzw. Sättigungs-Stufen ausprobiert. Ebenso wie beim Hintergrund sind auch bei den Helligkeitsveränderungen die Abweichungen nicht systematisch, sondern können sich bei den verschiedenen Testpersonen ganz unterschiedlich auswirken.

In jedem Fall lassen die Ergebnisse den Einsatz eines solchen Systems bei der Personalauswahl ungeeignet erscheinen.

2 Ergänzungen

  1. Derartige ML-Entscheider reproduzieren und idR verstärken die Vorurteile der Trainer & Trainingsdaten, und das gerne mal auf unerwartete Art und Weise. Das ist bestenfalls pseudoscience, schlimmstenfalls harter Rassismus, idR mindestens Klassismus.

    1. Damit ist uebrigens auch erklaert, warum ML-Entscheider trotz ihrer fundamentalen Fehler soviel Geld, PR und Lobbyunterstuetzung bekommen: sie verstaerken und sichern die Vorteile der bereits Bevorteilten, unter dem Deckmantel vermeintlicher datengetriebener Objektivitaet und unpersoenlicher Neutralitaet.

Dieser Artikel ist älter als ein Jahr, daher sind die Ergänzungen geschlossen.