NPP 175 mit Caroline Sinders: Wie trainiert man einen feministischen Algorithmus?

Welche Daten-Zutaten kommen in meinen Algorithmus? Kann man in Songtexten von Beyoncé und Büchern von Virginia Woolf feministische Muster erkennen? Mit Fragen wie diesen will die Forscherin Caroline Sinders die Debatte um maschinelles Lernen ankurbeln. Ihr Ziel: Auch ihr Vater soll Algorithmen verstehen können.

Cinderella mit Prinz
Achtung, Cinderella. Dieser Mann könnte deine „Discover Weekly“-Playlist gefährden. CC-BY-NC 2.0 Carlos

Caroline Sinders hat ein Problem. Vor vier Jahren brach ein schöner Mann mit dem Haar eines Disneyprinzen ihr Herz (ihre Worte). Sie kurierte den Schmerz mit Folk-Pop auf Spotify, „eine Band, die im Grunde jedem peinlich ist“. Seither bekommt sie wöchentlich neue seichte Folk-Songs in ihre automatisch generierte Playlist gespült.

Das ist in etwa so, als würde ein Algorithmus für die Einkaufsplanung jede Woche eine Familienpackung Eis vorschlagen, nur weil sie einmal damit ihren Kummer aufaß. Warum legt Spotify die Zutaten für den „Discover Weekly“-Algorithmus nicht einfach offen, fragt Caroline. Und erlaubt es seinen Nutzerinnen, einzelne Genre- oder Band-Fehltritte aus dem eigenen Datenset wieder zu löschen?

Über diesen Vorschlag, ihren Versuch ein „feministisches Datenset“ zu schaffen und die Frage, was das überhaupt ist, sprachen wir mit Caroline am Rand der re:publica in Berlin – was man im Hintergrund auch deutlich hört.

NPP 175: Wie trainiert man einen feministischen Algorithmus?


Hier ist der Link zum Download von NPP 175 als mp3-Datei.

Alternativ bieten wir NPP 175 auch als ogg-Datei zum Download.

Shownotes:

    Carolines Vortrag auf der re:publica 2019

2 Ergänzungen

  1. I like what she said about a general algorithm literacy and being able to have an informed opinion. However, I don’t understand how having insight into the data a Spotify algorithm uses, can be of any benefit. It would simply be too much and not reproducible. Her suggestions sound like an oversimplification of the underlying algorithm.

    I really don’t think transparency for the algorithm/source code and the data is a solution. At some point, we’ll have to accept the shortcomings and debate about in what areas to categorical not use them.

Dieser Artikel ist älter als ein Jahr, daher sind die Ergänzungen geschlossen.