CallcenterAkzentfilter gegen Diskriminierungen

Das US-amerikanische Startup Sanas will Akzente umwandeln. Eine Software lässt einen indischen Callcenter-Mitarbeiter so zwar „westlicher“ klingen, legt damit aber nur einen Schönheitsfilter über zugrundeliegende Probleme.

Screenshot der Website von Sanas, der den offenen lachenden Mund eines Mannes und die Worte "Hear the Magic" zeigt
Das Startup Sanas verspricht, fremd klingende Akzente wegzuzaubern. – Alle Rechte vorbehalten Screenshot, www.sanas.ai

„Break the barriers“ lautet das Motto des US-amerikanischen Startups Sanas. Konkret will das Unternehmen Sprachbarrieren überwinden und so nach eigenen Angaben die Welt der Callcenter revolutionieren. In Echtzeit wandelt die gleichnamige Software in Kundengesprächen die Akzente der Mitarbeiter:innen um.

Auf der firmeneigenen Website lässt sich „die Magie“ des Produkts testen. Ein simuliertes Gespräch zwischen einem Callcenter-Mitarbeiter mit indischem Akzent kann dort per Schieberegler so modifiziert werden, dass dieser Akzent weitgehend verschwindet. Das Resultat klingt zwar etwas blechern, aus Sicht des Unternehmens aber auch typisch amerikanisch und „neutraler“.

Die Übersetzungs-Engine kann für jede beliebige Sprache verwendet werden. So ist Sanas auch bereits in Japan, China und Südkorea im Einsatz, um dort Akzente zu „glätten“. „Technologie wie diese ist weltweit anwendbar, von einem Akzent zum anderen“, sagt Maxim Serebryakov, Sanas-Geschäftsführer und Mitbegründer des Unternehmens. „Es wird einige Zeit dauern, aber unser Ziel ist es, dass die Menschen in jedem Akzent kommunizieren können.“

Mit dem Produkt will Sanas ein Problem von Callcentern und deren Mitarbeiter:innen lösen. Die Zentren sind vorrangig in den Vereinigten Staaten, aber auch in Lateinamerika, Indien, auf den Philippinen und in Pakistan angesiedelt. Viele Angestellte dort sind keine englischsprachigen Muttersprachler:innen und weisen einen deutlichen Akzent auf.

„Wir behaupten nicht, dass Akzente ein Problem sind, nur weil man einen hat“, sagt Sanas-Präsident Marty Sarim. „Sie sind nur ein Problem, weil sie zu Vorurteilen und Missverständnissen führen.“ Sanas implizites Produktversprechen lautet somit, dass sich Anrufer:innen höflicher verhalten und eher helfen lassen, wenn sie davon ausgehen, dass die Person am anderen Ende der Leitung ihnen gleicht. Die Software wird bereits bei rund 1.000 Callcenter-Beschäftigten in Indien und auf den Philippinen eingesetzt.

Schönheitsfilter für Callcenter

Callcenter-Mitarbeiter:innen werden in ihrem Arbeitsalltag häufig schikaniert und rassistisch beleidigt. Der Akzent spielt dabei vermutlich eine wichtige Rolle: Studien zufolge benötigen Menschen in der Regel weniger als 30 Sekunden, um ein „linguistisches Profil“ zu erstellen und damit ein Urteil über ethnische Herkunft, Klasse und sozialen Hintergrund der Gesprächspartner:innen zu fällen. Dabei sind Menschen eher voreingenommen gegenüber jenen Sprecher:innen, die einen anderen Akzent als sie selbst haben.

Doch ob Sanas daran etwas ändert, darf bezweifelt werden. Das Produkt erinnert vielmehr an den US-amerikanischen Spielfilm „Sorry to Bother You“ aus dem Jahr 2018. Der Film erzählt die Geschichte eines afroamerikanischen Callcenter-Angestellten, dessen Verkaufszahlen in die Höhe schnellen, nachdem er sich eine „weiße Stimme“ antrainiert hat.

Auf diese Strategie setzen Callcenter schon lange. Vor allem in Indien oder auf den Philippinen müssen sich die Mitarbeiter:innen fiktive amerikanische Namen zulegen und einen „neutralen“ Akzent aneignen.

Sanas strebt die technologische Automatisierung der „Akzentneutralisierung“ an. Der potenzielle Markt für ihr Produkt erstreckt sich über die ganze Welt und ist gigantisch: Das Volumen des sogenannten Contact-Center-Marktes umfasste im Jahr 2020 knapp 340 Milliarden US-Dollar, in den kommenden fünf Jahren soll es auf knapp 500 Milliarde US-Dollar anwachsen.

Doch so rosig die Wachstumsprognosen für den globalen Callcenter-Markt ausfallen, so düster sieht es in den Zentren selbst aus. Die Angestellten arbeiten meist unter miesen Arbeitsbedingungen und werden vielerorts lückenlos überwacht. Die gesundheitlichen Folgen sind dramatisch: Auffällig viele von ihnen erfahren ihre Tätigkeit als psychisch belastend und weisen Burn-Out-Symptome auf. Viele verlassen bereits nach wenigen Monaten die Callcenter wieder.

Dafür ist vermutlich auch ein Teufelskreis aus Stress und Schikanen verantwortlich: In der Regel rufen frustrierte Kund:innen in den Zentren an. Die Mitarbeitenden verfügen meist jedoch nicht über ausreichend Befugnisse, um deren Probleme zu lösen, sondern müssen sich eng an vorgegebene Redeskripte halten. Auch werden Callcenter-Mitarbeiter:innen kaum darin geschult, wie sie den Frust der Anrufenden reduzieren, was wiederum die Wahrscheinlichkeit von Beschimpfungen und weiterem Stress erhöht.

Wie Solutionism Rassismus zu befördern droht

All diese Probleme behebt Sanas Software nicht. Vielmehr bietet das Startup buchstäblich nur einen „Schönheitsfilter“ an, der die Wirklichkeit in den Zentren nach außen ausblenden soll. Damit steht Sanas geradezu exemplarisch für den im Silicon Valley weit verbreiteten Ansatz des „Solutionism“. Dieser verspricht, mithilfe vermeintlich smarter Technologien selbst komplexeste gesellschaftliche Probleme im Handumdrehen zu lösen. Meist geschieht dies jedoch nur auf der Oberfläche, die gesellschaftlichen Probleme und ihre Ursachen bleiben hingegen unangetastet und spitzen sich mitunter sogar noch zu.

Aus Sicht der US-amerikanischen Soziologieprofessorin Winifried Poster ist bereits die Grundannahme von Sanas falsch. Poster zufolge verursachen Akzente selbst keine Vorurteile, sondern aktivieren diese vielmehr. Nur auf den ersten Blick komme es in den Callcenter-Gesprächen zu Kommunikationsschwierigkeiten. Tatsächlich, sagt Poster, lege die Art und Weise, wie ein Akzent Rassismus auslöse, eine Vielzahl soziologischer-ökonomischer Probleme offen.

Statt aber diese Probleme anzugehen und beispielsweise die Arbeitsbedingungen in den Zentren nachhaltig zu verbessern, könnte Sanas die Schikanen durch die Kunden sogar noch verstärken, befürchtet die Arbeitsforscherin Kiran Mirchandani von der Universität Toronto: „Der Kundenrassismus wird wahrscheinlich noch zunehmen, wenn die Arbeitnehmer weiter entmenschlicht werden, wenn eine ‚App‘ zwischen Arbeitnehmer und Kunde geschaltet wird, zumal diese App zweifelsohne Fehler machen wird“.

Dessen ungeachtet verfolgt Sanas weiter überaus ehrgeizige Ziele. Erst im Juni hat das Startup weitere 32 Millionen US-Dollar an Risikokapital eingesammelt. Das Geld will es unter anderem dazu nutzen, um im pazifischen Raum zu expandieren. „Das wird Millionen von Arbeitsplätzen auf die Philippinen bringen, Millionen von Arbeitsplätzen nach Indien, Millionen von Arbeitsplätzen an Orte, die sonst nicht an diesem Gespräch teilnehmen dürften“, prophezeit Sanas-Präsident Sarim.

Deine Spende für digitale Freiheitsrechte

Wir berichten über aktuelle netzpolitische Entwicklungen, decken Skandale auf und stoßen Debatten an. Dabei sind wir vollkommen unabhängig. Denn unser Kampf für digitale Freiheitsrechte finanziert sich zu fast 100 Prozent aus den Spenden unserer Leser:innen.

13 Ergänzungen

  1. Im grunde ein weiterer Schritt hin zu einer „Fake“ Ökokonomie im Digitalen in der zunehmend das unwirkliche zu markte getragen wird. Genau wie Facefilter, Schönheitsfilter usw…. Die Menschen werden zunehmend in eine Hülle gesteckt welche mit ihrer wahren Identität rein gar nichts zu tun hat.

    Man kann sich wohl ausmahlen das dies auf Dauer zu kollektiven psychischen Schäden kommen wird. Wie soll denn schließlich eine Gesellschaft die vor lauter Fakes die Wahrheit nicht mehr sieht noch funktionsfähig sein ?

    Die Rassismus Problematik die so nicht gelöst wird ist dann ja dennoch nochmals eine komplett andere.

    1. So sehen sie es bei Sanas ebenfalls: „The goal of Sanas has always been to bring people closer together and allow people to have a choice when it comes to their communication style – something that was previously only possible through extensive speech language pathology,“ said Maxim Serebryakov, CEO of Sanas. „Similar to how social media platforms allow users to control the way they physically appear online, this technology enables anyone to have that same control in a digital setting – but for the way they sound.

  2. Ich sehe hier die Problematik hauptsächlich darin, dass man sich auf den unternehmerischen Nutzen in Geld konzentriert (billige Arbeitskraft im Ausland anheuern + das „Problem“ Akzent mit Software „glätten“ = meximaler Profit).
    Eine solche Technologie für Individuen wäre aber vielleicht doch wünschenswert: niemandem würde dann z.B. mehr der Besichtigungstermin für die Mietwohnung verwehrt, weil sie am Telefon einen hörbaren Akzent haben.

    1. Letzteres ist halt nur Zeitverschwendung: wenn jemand da Vorbehalte hat, wird’s mit dem Mietvertrag ohnehin nichts.

      Ansonsten ist das Service-Business: wenn der Kunde rote Krawatten honoriert, traegt man halt rote Krawatte. So gesehen ist so ein tool eine Entlastung und Diskriminierungsverminderung fuer Call Center Angestellte. Das Problem ist nicht das tool im Call Center, das Problem sind die Kunden. Uebrigens klingen first generation immigrants natuerlich oft genauso, auch wenn sie CEO eines US Konzerns sind.

      Alle anderen Probleme im Call Center haben mit dem Thema nichts zu tun.

      Uebrigens muss man eine Sprache schon ziemlich gut beherrschen, um nicht ueber Wortwahl, typische Formulierungen und Grammatikeigenheiten als fremdsprachlich erkannt zu werden.

  3. Eine weitere Stilblüte einer abkackenden Major Species.

    Speech-to-text-to-Speech wäre etwas Sinnvolles. Niemand muss die Callcentermitarbeiter kennen, bzw. idealerweise allgemein irgendwen, und einen Touringtest gibt es gratis noch dazu!

    1. Speech-to-Text und Text-to-Speech gibt es ohnehin, notwendigerweise schon fuer Barrierefreiheit.

      Ansonsten sind fehlender oder unbekannter Akzent uU auch der Verstaendlich nicht foerderlich, auch das kann durchaus Barrierefreiheit oder zumindest bessere erlebte Servicequalitaet bedeuten.

      Irgendwie eine Menge Empoerung basierend auf relativ wenig Reflektion der Gegebenheiten.

      1. Empören Sie sich ruhig so viel sie wollen.
        Warum also nicht S-T-S statt latent rassistischem und nutzlosem Akzentgequirle?

      2. „Speech-to-Text und Text-to-Speech gibt es ohnehin“

        Auch als System für Echtzeit für Callcenter? Benutzbarkeit und Feedback, bzw. das Generierte muss ja auch vom Callcenter aus sichtbar sein, um zu wissen, was man den Anrufenden da sagt. Hier gibt es vielleicht auch weniger „Geduld“. Zumindest hätte diese Variante konkreten weit fassbaren gesellschaftlichen Nutzen. Akzententfernung ist demgegenüber eine Form der Spezialisierung, letztlich ein ähnliches System, wenn z.B. Rhythmus und Melodie mit angepasst werden müssen, damit das Ergebnis überhaupt verständlich wird. Akzent besteht nicht immer nur aus Girlanden, die man einfach abnehmen kann.

        Akzentfilterung ist eine nette Spielerei, vielleicht sogar sehr nützlich, aber um es mit Worten wie „Reflektion“ aufzunehmen, eingedenk der Werbung „für weniger Diskriminierung“: haben wir wirklich tiefgehend drüber nachgedacht? Lösen wir die richtigen Probleme? Worüber regen wir uns auf? Haben wir alle Kausalitäten bzgl. aller angesprochenen Fragestellungen abschließend erforscht?

          1. Naja, wenn jede/r Post als besonders sinnvoll und begründet sieht, aber die Begründungen anderer übersieht, bleibt eben an mehreren Stellen Flappsigkeit übrig.

      3. Warum sollte man S-T-S machen? Ehrliche Frage, der Sinn des Vorschlags erschliesst sich mir nicht.

        1. Warum S-T-S?

          Plötzlich werden Begriffe hinterfragt? Im Grunde geht es um speech-to-speech, allerdings mit Anpassungsmöglichkeiten bzgl. der Originalsprache.

          Die Mächtigkeit betrifft Anonymisierung, Übersetzung, textuelle Hilfsfunktionen, bietet vor allem aber mehr als reines text-to-speech es kann, weil die Sprache-zu-Sprache-Brücke vorhanden ist – natürlich können Sie Metadaten und Konfigurationen draufgießen, aber das Endsystem ist eben nicht mehr nur noch trivial S-T und T-S aneinandergeflanscht, daher S-T-S.

          Warum der Umweg über „T“ gemacht wird, lässt sich also leicht beantworten. Übersetzung, Transparenz für Sprecher in Echtzeit (mehrfache Untertitel, Verzögerungsversion mit Auswahl für Sprecher, Einflicken von Standardantworten, Aufmerksam auf Fehler oder mögliche Probleme machen z.B.). Ob das schöner für Menschen wäre, ist dann doch wieder eine Frage, denn es gibt neue Fehlermöglichkeiten, und man fühlt sich bei der Akzentanpassungsvariante vielleicht näher am Sprecher, was man aber nicht unbedingt ist, je nach dem, wie genau die das dann bauen.

  4. Ich will bei Callcentern auswählen können:
    – Singen im Stile von Pavarotti.
    – Nachrichtensprecher.
    – Präsidentenberater aus dem Film über die Kubakrise.
    – Ernst Jandl.

    Sowas… das würde auch die Botgespräche in den Hotlines aufwerten.

Dieser Artikel ist älter als ein Jahr, daher sind die Ergänzungen geschlossen.