Dialektanalyse bei GeflüchtetenAutomatisiertes Misstrauen

Seit mehr als zwei Jahren analysiert das Bundesamt für Migration und Flüchtlinge mit einer Software den Dialekt von Geflüchteten. Das System setzte das BAMF trotz Zweifeln mittlerweile tausende Male ein.

Collage aus Wellen einer Tonaufnahme und Schattensilhouette
Vieles zur Sprachanalysesoftware des BAMF liegt noch im Dunkeln. Hintergrund: Ben Sweet | Collage: netzpolitik.org

In mehreren Ländern untersuchen Behörden die Sprache Geflüchteter, um Hinweise auf deren Herkunft zu bekommen. Meist analysieren dabei Wissenschaftler:innen oder spezialisierte Analyst:innen die Sprachproben von Asylsuchenden, in Deutschland wird diese Aufgabe seit mehr als zwei Jahren teilweise durch Computer übernommen, vor allem bei Antragsteller:innen aus arabischsprachigen Ländern.

Sie sprechen dabei für zwei Minuten in einen Hörer, beschreiben dabei ein Bild. Dann wirft ein Computer das Ergebnis aus. Zu 71,2 Prozent ägyptisches Arabisch oder zu 10,3 Prozent levantinisches Arabisch, steht dann beispielsweise auf einem Zettel. Ob diese Methode geeignet ist, um tatsächlich belastbare Hinweise auf die Herkunft zu ermitteln, bleibt umstritten. Trotzdem bleibt das Werkzeug im Praxiseinsatz, zudem verzögert das Bundesamt für Migration und Flüchtlinge (BAMF) seit Beginn des Projektes eine ursprünglich geplante wissenschaftliche Begleitung.

Zwei Drittel der Tests haben unbekannten Nutzen

Von Januar bis November 2019 setzte das BAMF die Dialekterkennungssoftware bei knapp 4.000 Personen ein. Mehr als ein Viertel davon (1.056) kam aus Syrien, gefolgt von Algerier:innen sowie Geflüchteten aus Marokko und dem Sudan. Das ergibt die Antwort des Bundesinnenministeriums (BMI) auf eine Frage der linken Bundestagsabgeordneten Ulla Jelpke.

Bei 64 Prozent der Tests liegen keine Angaben dazu vor, ob die Ergebnisse der Dialektanalyse die Aussagen der Betroffenen unterstützen, in 4,7 Prozent der Fälle ergaben sich laut BMI Widersprüche. Im Vorjahreszeitraum war die Software etwas häufiger genutzt worden: Von September 2017 bis Mitte November 2018 kam sie 6.284 Mal zum Einsatz, jedoch war in dieser Zeit auch die Anzahl der Asylanträge höher.

Ob das Verfahren geeignet ist, belastbare Hinweise auf die Herkunft Geflüchteter zu erhalten, steht in Zweifel. Zum einen merken Forschende an, dass Sprache nicht klar an Ländergrenzen festzumachen ist und sich je nach Lebensverlauf und Sozialisierung einer Person unterscheiden und wandeln kann. Zum anderen hat die Software derzeit laut Angaben des BAMF eine Fehlerquote von etwa 15 Prozent. In diesen Fällen liegt es an den Entscheider:innen, diese Fehler zu erkennen, um nicht ungerechtfertigte Zweifel an den Angaben der Antragsteller:innen in Asylentscheidungen einfließen zu lassen.

Ausdruck einer Misstrauenskultur

Jelpke kommentiert dazu gegenüber netzpolitik.org: „Der Einsatz technischer Assistenzsysteme wie der Spracherkennungssoftware ist Ausdruck einer Misstrauenskultur. Immer wieder wird Schutzsuchenden unterstellt, dass sie reihenweise falsche Angaben zu ihrer Identität und Herkunft machten. Dabei gibt es für diese Unterstellung gar keine Belege.“

Der Anteil der Asylverfahren, in welchen falsche Herkunftsangaben durch den Einsatz der Dialekterkennungssoftware aufgedeckt wurden, sei äußerst gering gewesen. Jelpkes Meinung nach sollte das BAMF besser seine Mitarbeiterinnen und Mitarbeiter ordentlich schulen, „anstatt auf fehleranfällige und teure technische Lösungen zu setzen“.

Es fehlt an Transparenz, um die Eignung des Verfahrens unabhängig einzuschätzen. Zu den Erfolgsquoten von durchschnittlich 85 Prozent sagte das BAMF: „Abhängig vom Dialekt können noch höhere Werte erreicht werden. Der aktuell im Sprachmodell am umfänglichsten ausgebaute und in der Praxis des Bundesamts besonders relevante arabische Dialekt, Arabisch-Levantinisch, erreicht etwa eine Erfolgsquote von über 90 Prozent.“ Für diesen Dialekt erwarb das Bundesamt etwa ein Sprachpaket von der University of Pennsylvania.

Wie viele Sprachproben pro Dialekt vorliegen und wie die genauen Fehlerquoten sich aufschlüsseln, bleibt jedoch geheim. Die Informationen seien dazu geeignet, „bewusste Täuschungshandlungen im Asylverfahren vorzubereiten und die Spracherkennung missbräuchlich zu manipulieren“.

Eigentlich wollte das BAMF den Einsatz seiner Sprachanalyse-Software schon 2018 wissenschaftlich begleiten lassen. Bis heute ist nichts passiert. Auf eine Presseanfrage antwortete das Bundesamt Ende 2019: „Die wissenschaftliche Begleitung findet aktuell nicht statt, ist aber künftig geplant.“ Von einem konkreten Zeitraum ist mittlerweile keine Rede mehr. Währenddessen läuft das Programm seit mehr als zwei Jahren und wurde in den Asylverfahren von über zehntausend Menschen eingesetzt.

3 Ergänzungen

  1. Hier wäre es mal notwendig das der SourceCode solcher Software offen gelegt wird damit man unabhängig überprüfen kann ob solche Software tatsächlich das leistet was Sie verspricht.

    1. Hier muss ich tatsächlich dem BAMF Recht geben: Wenn sie ihre Software veröffentlichen wird es dir sehr leicht gemacht, deinen Dialekt so zu verstellen, dass deine Aussage bestätigt wird. Finde ich auch nicht so einfach zu beantworten, ob man in solchen Fällen grundsätzlich vom Prinzip der freien Software (bzw von der staatlichen Transparenz) abweichen darf, oder ob man auf solche Methoden einfach prinzipiell verzichten muss (es gibt vielleicht auch Beispiele, wo die im Artikel diskutierten kulturellen Probleme weniger zutreffen).

      Im konkreten Fall aber können wir uns an die Angaben vom BAMF halten: 90% Erfolg wird keinen Statistiker vom Hocker hauen. Die wesentliche Frage ist, ob die Quote derer, die falsche Angaben machen, höher ist, als die Misserfolgsquote der Software.
      Zumal man die Angaben des BAMF wohl mit Vorischt genießen muss. Wenn Arabisch-Levantinisch die häufigste Sprache ist, wird dort auch die Erfolgsquote am höchsten sein. Wer mit sowas hausieren geht, der will wohl seine Zahlen schönreden.

      Hat irgendjemand belastbare Zahlen, wie viele Personen falsche Angaben machen?

      1. Der Source Code müsste ja nicht alles Daten und Initialisierungen Enthalten (also z.B. trainierte KI).

        Das erlaubt zwar immer noch Rückschluss, aber eben nicht mehr den direkten Test gegen das System. Ansonsten wären vielleicht Konstruktionsrichtlinien notwendig, wie z.B. was für Teile einer Software auch nur überblicksmäßig veröffentlicht werden dürfen, wobei man ja regelmäßig eine vertrauenswürdige Stelle, zudem wechselnde externe Reviewer, eben diese Teile konkret angucken lassen könnte. Dafür muss die Software am Besten so konstruiert sein, dass das ganze Sinn ergibt, daher Konstruktionsrichtlinie.

Dieser Artikel ist älter als ein Jahr, daher sind die Ergänzungen geschlossen.