TikTok: Clickworker in Brasilien bekamen weniger als Mindestlohn

TikTok lagert die Verschriftlichung von Videos in Brasilien an freie Clickworker aus. Sie sollten mehr als 300 Clips am Tag transkribieren – und bekamen dafür weniger als den dortigen Mindestlohn, berichtet The Intercept. Teils zahlten die Subunternehmen gar nicht.

Freie Arbeiter*innen für das Social-Media-Unternehmen TikTok in Brasilien verdienten weniger als 3,85 brasilianische Real pro Stunde, wie das Investigativmedium The Intercept aufdeckte. Das entspricht etwa 60 Cent, nur etwa drei Viertel des dortigen Mindestlohns.

Die Arbeiter*innen erhielten keinen Mindestlohn, weil sie als Freie von einem Subunternehmen angeheuert wurden, um stundenweise Audiomaterial aus TikTok-Videos zu verschriftlichen. Viele große Tech-Konzerne lagern anstrengende und besonders arbeitsintensive Aufgaben an Subunternehmen aus.

Im Falle der brasilianischen Arbeiter*innen, mit denen The Intercept sprach, handelte es sich um die untersten Glieder in einer ganzen Kette von Subunternehmen, die bis nach Pakistan zu einer Firma namens Transcribe Guru führte. Verträge hatten die Freien nicht, Bedingungen und Einarbeitung wurden über WhatsApp kommuniziert: Für jede Stunde transkribiertes Audiomaterial sollte es demnach 14 US-Dollar geben.

Die wahren Konditionen wurden allerdings erst nach Beginn der Arbeit klar: Weil TikTok-Videos meist nur wenige Sekunden lang sind, hätte es mehr als 20 Stunden kontinuierliche Arbeit erfordert, um auf den Lohn zu kommen, berichtet einer der Arbeiter The Intercept. Denn bezahlt wurde nicht nach Arbeitsstunden, sondern nach der Dauer des transkribierten Materials. Auch galt die Bezahlung von 14 Dollar nur, wenn man täglich mehr als 300 Clips transkribierte. In WhatsApp-Chats, die The Intercept einsehen konnte, beschwerten sich viele Arbeiter*innen über die Bedingungen. Einige klagten, dass Lohn für geleistete Arbeit nicht ausgezahlt worden sei.

Das brasilianische Büro von TikTok wollte die Recherche auf Nachfrage nicht kommentieren und verwies auf das Büro in den USA. Von dort hat The Intercept keine Antwort auf mehrfache Nachfragen bekommen.

Auto-Caption bereits auf Englisch und Japanisch

TikTok ist derzeit eine der erfolgreichsten Apps der Welt. ByteDance, der chinesische Mutterkonzern, hat seinen Umsatz im vergangenen Jahr mehr als verdoppelt, auf 34 Milliarden US-Dollar, und wird als wertvollstes Start-up der Welt gehandelt.

Die Sprachtranskription benötigt der Konzern, um seine automatisierte Spracherkennung zu trainieren und so die Untertitelung von Videos zu verbessern. Die Übersetzungsversuche des Systems werden von den zahllosen Gig-Arbeiter*innen so lange korrigiert, bis dieses schließlich ohne menschliches Zutun hinreichend gut erkennt, was in einem Video gesagt wird.

Dieses „Auto-Captions“ genannte Feature hatte TikTok bereits im April vorgestellt – allerdings zunächst nur für Videos auf Englisch und Japanisch. Nun trainiert TikTok das System offenbar auch für andere Sprachen. Neben Portugiesisch suchte das brasilianische Subunternehmen auch nach Menschen, die Videos auf Italienisch, Spanisch und Französisch transkribieren.

Barrierefreiheit und automatisierte Moderation

Der Konzern präsentiert die Initiative in erster Linie als Feature für die Barrierefreiheit: Über die Untertitel sollen auch Menschen mit Hörbehinderungen TikTok-Videos verstehen können. Die Investitionen in die Systeme dürften aber auch von TikToks eigenen Interessen getrieben sein: Denn um eine unüberschaubare Flut an Material moderieren zu können, das ständig neu hochgeladen wird, setzt TikTok inzwischen auch auf Automatisierung. Ob die Systeme neben der Bilderkennung auch mit Spracherkennung arbeiten, lässt TikTok dabei offen, es wäre aber die logische Konsequenz.

Die Plattform stand immer wieder dafür in der Kritik, dass sie Desinformation und extremistische Inhalte, selbstverletzendes Verhalten und Versuche von Wahlmanipulation nicht konsequent genug sperrt. Der Masse an Material allein mit menschlichen Moderator*innen zu begegnen, wäre für TikTok auf Dauer ineffizient und teuer. Menschliche Moderator*innen brauchen unterstützende Systeme, um auf potentiell bedenkliche Videos schnell zu reagieren.

2 Ergänzungen

Auf die Gefahr hin, mich als Laie zu outen, aber: bei reiner Audio-Auswertung ist es doch eigentlich egal, ob die Daten aus einem tiktik-Video, einem Alexa-Mitschnitt oder einer Magnetbandaufnahme kommen, solange die ausreichend hochwertig sind, oder?

Dass die Unternehmen das Spracherkennungsrad immer wieder neu erfinden, verwundert mich. Vielleicht wollen die ihre sensiblen Kundendaten aus Datenschutzgründen nicht an andere Unternehmen geben? Jaja, schon klar, war ein sehr schlechter Witz.

Dennoch: warum werden keine bestehenden Spracherkennungssysteme verwendet? Der Software kann es ja egal sein, ob sie gerade eine Fahrplananfrage am DB-Service-Telefon, eine Wahlkampfrede aus einem TikTok-Video oder einen Comedian auf Youtube verstehen soll…

Anonymous sagt:

5. Oktober 2021 um 21:44 Uhr

Wurden von den US-Unternehmen doch auch nicht. Erinnere gerade nicht, ob es Amazon oder Apple oder was war. Dort aber Englisch in Indien. Das wurde allerdings als KI vermarktet, wenn ich es korrekt erinnere.

Dieser Artikel ist älter als ein Jahr, daher sind die Ergänzungen geschlossen.