„Spracherkennung muss jedem dienen, unabhängig von seiner Wirtschaftskraft!“

„Spracherkennungstechnologie revolutioniert die Art und Weise, wie wir mit Maschinen interagieren – und sie wird gerade allgegenwärtig. Allerdings kontrollieren nur eine handvoll Unternehmen den Zugang zu jeglicher Spracherkennung.“ Kelly Davis von Mozilla spricht im Interview über Deep Speech und Common Voice.

Nicht nur für „weiß, männlich, Mittelschicht“: Mozillas Deep Speech soll auch bisher unterrepräsentierten Gruppen Spracherkennung bieten. CC-BY-SA 2.0 Johnny Silvercloud

Alexa, wie wird das Wetter morgen? Siri, welche Restaurants gibt es in der Nähe? Ok Google, wie viel sind 100 tschechische Kronen in Euro? Spracherkennungsoftware begegnet uns mittlerweile überall im Alltag: Im privaten PKW, in Smart Watches, in Smartphones und nicht zuletzt in sogenannten Smart-Home-Geräten. Manchmal ist die Spracherkennung eine nette Spielerei, manchmal eine echte Hilfe und manchmal funktioniert sie schlichtweg nicht richtig.

Unabhängig von Einsatzzweck und Funktion haben die verschiedenen Programme hinter der Spracherkennung aber fast alle ein großes Problem: Sie sind proprietär und nicht quelloffen. Problematisch ist das bei Spracherkennungssoftware auch deshalb, weil für den Nutzer gar nicht nachvollziehbar ist, was genau mit den Aufnahmen passiert, die potentiell intimste Daten enthalten. Einen Hoffnungsschimmer bieten die Projekte Deep Speech und Common Voice von Mozilla.

„Eine Handvoll Unternehmen kontrolliert den Zugang“

Kelly Davis leitet die Machine Learning Group bei Mozilla und hat uns einige Fragen zu beiden Projekten beantwortet. Wir haben das Interview schriftlich auf Englisch geführt und geben es hier in eigener Übersetzung wieder.

netzpolitik.org: Wie würdest du Leuten, die sich nicht mit Spracherkennungssoftware auskennen, Common Voice und Deep Speech erklären? Was ist das Neue daran?

Kelly Davis: Die Stimme entwickelt sich zur bevorzugten Art, mit persönlichen Geräten wie Smartphones, Computern, Tablets und Fernsehgeräten zu interagieren. Zudem findet sie vermehrt Zugang zu multi-modalen Schnittstellen, wie Assistenzsystemen in Autos, Smartwatches, Lampen, Fahrrädern, Thermometern. Kurz gesagt: Spracherkennungstechnologie revolutioniert die Art und Weise, wie wir mit Maschinen interagieren – und sie wird gerade allgegenwärtig. Allerdings kontrolliert nur eine Handvoll Unternehmen den Zugang zu jeglicher Spracherkennung.

Deep Speech (geführt von Mozillas Emerging Technologies Team) und Common Voice (geführt von Mozillas Open Innovation Team) sind zwei komplementäre Projekte, mit denen Mozilla die Sachlage ändern will: Deep Speech bietet offene Spracherkennungssoftware für jeden und das, mit der richtigen Datengrundlage, in jeder Sprache. Mozilla benutzt Open Source Code, Algorithmen und das TensorFlow-Werkzeug für maschinelles Lernen, um eine Sprache-zu-Text-Engine aufzubauen. Mozillas Deep-Learning-Architektur wird für alle verfügbar sein, um als technische Grundlage für neue Sprachanwendungen zu dienen. Wir möchten Modelle schaffen und teilen, die die Genauigkeit von Spracherkennung verbessern und auch qualitative synthetisierte Sprache produzieren können.

Visualisierung der Spracherkennung – Deep Speech verarbeitet die Sprachdaten, die mit Common Voice gesammelt wurden. - Mozilla

Zusätzlich zu dieser Software-Komponente braucht es Stimmdaten, die in ihrer Bedeutung kaum zu überschätzen sind. Wenn man einer Maschine beibringen will, zu verstehen, was Menschen sagen, sind Daten der Schlüssel. Man kann sich das wie bei einem Baby vorstellen, das zur Welt kommt und die Fähigkeit hat, jede Sprache, jeden Akzent zu verstehen. Aber erst durch das geduldige Wiederholen von Wörtern, Phrasen und Sätzen durch die Eltern macht das Baby erste eigene Schritte und versteht die Wörter „Mutter“ und „Vater“. Ohne dieses geduldige Wiederholen, ohne die Stimmdaten, kann ein Kind eine Sprache schlichtweg nicht verstehen. Die gleichen Prozesse sind für maschinelles Lernen nötig.

Und obwohl diese Daten der Schlüsselfaktor für Sprachtechnologien sind, sind öffentlich verfügbare Stimmdaten sehr eingeschränkt und die Kosten kommerzieller Daten exorbitant. Deswegen konzentriert sich Mozilla darauf, Stimmdaten für die Welt zugänglich zu machen und es jedem zu erlauben, diese zu verändern. So soll die Nutzererfahrung für jeden verbessert werden, unabhängig von Geschlecht, Alter oder Akzent. Das ist das Ziel des Projektes Common Voice.

„Jeder kann helfen“

Und wirklich jeder kann helfen: Du benötigst kein technisches Hintergrundwissen, sondern musst nur auf die Common-Voice-Website gehen und Sätze ins Mikrofon lesen oder die Aufnahmen anderer anhören und auf Richtigkeit prüfen. Dieser Crowdsourcing-Ansatz lässt Größeres zu, als ein einzelner Akteur erreichen könnte. Und am Ende profitiert auch kein einzelner Akteur von dieser Ressource, sondern wir alle.

netzpolitik.org: Das Ziel von Common Voice ist es also, eine öffentliche, frei zugängliche Datenbank von Stimmen zu erschaffen, die jeder nutzen kann. Deep Speech als Spracherkennungssoftware wird anhand dieser Daten trainiert. So soll es am Ende möglich sein, Deep Speech zu nutzen, ohne sich überhaupt mit dem Internet zu verbinden, wenn man es einmal heruntergeladen hat.

Kelly Davis: Ja, letztlich wird Deep Speech es möglich machen, dass Spracherkennung „on device“ funktioniert, wofür keine Internetverbindung nötig ist.

Die große Mehrzahl gegenwärtiger Spracherkennungsengines benötigt eine Internetverbindung. Deine Stimme wird von deinem Smartphone, Computer, Tablet oder Fernseher zu Servern gesendet, die sie dann in Text umwandeln. Die eigene Stimme auf diese Art an Server zu senden, wirft einige Bedenken für Sicherheit und Privatsphäre auf, die im Allgemeinen einfach unter den Teppich gekehrt werden.

Kelly Davis im Videointerview mit Golem.de

Im Gegensatz dazu wird Deep Speech Spracherkennung auf dem Gerät erledigen, um diese Sicherheits- und Privacyprobleme zu umgehen.

netzpolitik.org: Ist Deep Speech denn bereits in einem Zustand, in dem die Software einfach auf dem eigenen Gerät installiert und benutzt werden kann? Wie technikaffin muss man sein, um schon jetzt einen Nutzen daraus zu ziehen? Und gibt es bereits interessante andere Projekte, die sich aus Deep Speechs Open-Source-Verfügbarkeit entwickelt haben?

Kelly Davis: Erst vor einigen Wochen haben wir eine Pre-Release-Version herausgegeben, die man sich herunterladen und auf dem Computer installieren kann. Allerdings ist diese bis jetzt eher an Programmierer als an Endnutzer gerichtet.

Da wir diese Version erst vor kurzer Zeit in Umlauf gebracht haben, hatten viele Projekte noch keine Zeit, Deep Speech zu nutzen. Trotzdem waren die Reaktionen schneller und vielfältiger als wir erwartet hätten. Wir wissen, dass es bereits in robotische Systeme integriert wurde und auch portiert wurde, um Mazedonisch, Urdu und Portugiesisch zu erkennen. Außerdem wird es bereits in verschiedene virtuelle Assistenten auf Open-Source-Basis integriert.

netzpolitik.org: Kritiker von Common Voice und Deep Speech sagen, die Projekte kämen zu spät, da auf jedem iPhone bereits Siri installiert ist und auch Amazons Alexa mittlerweile sehr populär ist. Wie sind eure Pläne zur Implementierung von Deep Speech? Welche Bereiche könnten noch von Spracherkennung profitieren?

Spracherkennung muss jedem dienen, unabhängig von seiner Wirtschaftskraft!

Kelly Davis: Es ist spät, aber nicht zu spät. So wie Sprachtechnologien sich jenseits von Nischen ausbreiten, glauben wir, dass diese Technologie eine Welle von innovativen Produkten und Dienstleistungen ermöglichen kann und wird – jenseits von dem, was heute bekannt ist. Sie sollte jedem zur Verfügung stehen. Wir glauben, dass sie jedem Benutzer gleich gut dienen sollte. Insbesondere muss die Technologie jeder Sprache und jedem Akzent dienen, unabhängig von der Wirtschaftskraft derjenigen, die diese Sprache sprechen. Bedauerlicherweise ist das im Moment nicht der Fall.

Mit der Öffnung von Deep Speech und Common Voice können zahlreiche Sprachen und Akzente durch die Gemeinschaften dahinter unterstützt werden, ohne dass ihre Wirtschaftskraft eine Rolle spielt. Wir stellen das Werkzeug zur Verfügung, alles was es sonst braucht, ist der Wille der Nutzer.

Mit Blick in die Zukunft könnten sprachaktivierte Systeme viel Gutes tun: Home Hubs könnten Sicherheit und Gesundheitskontrolle für kranke oder alte Menschen bieten, die Zuhause leben wollen. Stimmkontrolle in Autos könnte unsere Straßen sicherer machen, indem der Fahrer freihändig auf verschiedene Dienste wie Navigation oder Chats zugreifen kann, ohne den Blick von der Straße nehmen zu müssen. Stimmschnittstellen für das Internet können auch das Surfen für Leute verbessern, deren Sehfähigkeit begrenzt ist oder die andere körperliche Einschränkungen haben. Sie bekämen die Möglichkeit, mit Programmen zu sprechen und wären nicht gezwungen, zu lesen oder Tastatur und Maus zu benutzen.

Nüchterner betrachtet wollen wir in diesem Jahr Deep Speech in den Firefoxbrowser integrieren und den Nutzern so ermöglichen, mit ihrem Browser zu sprechen.

netzpolitik.org: Deep Speech soll also in den Firefox-Browser integriert werden. Ist es wahrscheinlich, dass wir beispielsweise eine Androidversion als Alternative zu Googles Software bekommen werden?

Kelly Davis: Nach unserem Plan soll Deep Speech auf zahlreichen Plattformen und Geräten laufen. Gleichwohl haben wir nicht unmittelbar vor, eine Androidversion zu entwickeln. Weil die Software aber offen ist, kann jeder, der sich motiviert fühlt, die Initiative ergreifen.

netzpolitik.org: Sean White, Vizepräsident für Emerging Technologies bei Mozilla, sagte The Verge gegenüber: „Die interessante Frage für uns ist, wie wir es schaffen, dass die Leute, die die Stimmdaten erstellen, auch davon profitieren.“ Eines seiner Beispiele war, dass man deren Akzente besser erkennen würde. Gibt es noch weitere Vorzüge?

Kelly Davis: Bisher werden die meisten Sprachdatenbanken mit einer Überrepräsentation einer bestimmten demographischen Gruppe trainiert, die in einer Neigung zu weiß, männlich und Mittelschicht resultiert. Akzente und Dialekte, die in den Trainingsdatensätzen eher unterrepräsentiert sind, sind typischerweise mit Gruppen assoziiert, die sowieso schon ausgegrenzt werden. Viele Maschinen haben auch Probleme damit, weibliche Stimmen oder ältere Menschen zu verstehen. Deswegen wollen wir mehr Vielfalt in unserer Sprachdatenbank, damit Computer jeden besser verstehen können.

Abgesehen davon, die heutige Spracherkennung für jeden zu verbessern, geht es uns auch darum, dass Spracherkennungstechnologie nicht nur für große Unternehmen zu Verfügung stehen sollte, damit jeder mit ihr Neues schaffen kann. In der freien Zugänglichkeit der Software und Daten liegt offensichtlich ein zusätzlicher Nutzen für Entwickler, Macher und Gründer auf der ganzen Welt. Es wird den Markt öffnen.

netzpolitik.org: Wie stellt ihr die Anonymität und Privatsphäre der Leute sicher, die ihre Stimme gespendet haben?

Kelly Davis: Sämtliche persönlichen Angaben werden separat von der Stimmspende selbst gespeichert. Selbst wir können nicht feststellen, welche Personendaten zu welcher Spende gehören.

Die Datenbank von Common Voice umfasst mittlerweile immerhin 12 GB an Sprachaufnahmen unter CC0-Lizenz. - Mozilla

netzpolitik.org: Eine Fehlerrate bei der Worterkennung von unter zehn Prozent war eines der ausgeschriebenen Ziele für die englische Sprache, das ihr erreicht habt. Wie schwierig ist es, diesen Erfolg auf andere Sprachen zu übertragen? Braucht ihr eine ebenso große Menge gesprochener Sätze für jede andere Sprache?

Kelly Davis: Wenn die Sprache „sehr anders“ als Amerikanisches Englisch ist, wie es beispielsweise bei Mandarin der Fall ist, leider ja, dann brauchen wir eine ähnliche Menge. Wenn die andere Sprache allerdings nicht „sehr anders“ als Amerikanisches Englisch ist, können wir das aus dem Amerikanischen Englisch gewonnene Wissen wiederverwenden, um die neue Sprache zu verstehen. Eine so große Sprachdatenbank wäre dann nicht nötig. Diese Wiederverwendung von Wissen bei maschinellem Lernen nennt man „Transfer Learning“.

Akzente sind ein einfaches Beispiel. Das gewonnene Wissen über Amerikanisches Englisch kann wiederverwendet werden, um Englisch mit australischem Akzent zu lernen. Mit einer großen Datenbank für Amerikanisches Englisch wäre also keine eben so große für Australisches Englisch nötig. Ähnlich ist es bei Sprachen, die nicht „sehr anders“ sind und so eine Wiederverwendung erlauben. Das gewonnene Wissen über Niederländisch kann beim Lernen von Afrikaans helfen. Mit einer Software, die bereits auf Niederländisch trainiert ist, bräuchte man also keine sehr große Datenbank, um Afrikaans zu lernen.

netzpolitik.org: Das Sammeln gesprochener Sätze für andere Sprachen als Englisch soll Anfang 2018 beginnen. Wann können wir mit brauchbaren Ergebnissen für Deutsch rechnen?

Kelly Davis: Wir können nichts versprechen, aber hoffentlich schon Ende dieses Jahres!

netzpolitik.org: Gibt es noch etwas, dass du gerne über Deep Spech und Common Voice sagen würdest?

Kelly Davis: I würde gerne allen noch einmal persönlich danken, die etwas zu Common Voice und Deep Speech beigetragen haben, sei es durch die Spende ihrer Stimme oder durch Hilfe beim Coden. Ohne eure Hilfe gäbe es weder Common Voice noch Deep Speech.

netzpolitik.org: Danke für das Gespräch.

Deine Spende für digitale Freiheitsrechte

Wir berichten über aktuelle netzpolitische Entwicklungen, decken Skandale auf und stoßen Debatten an. Dabei sind wir vollkommen unabhängig. Denn unser Kampf für digitale Freiheitsrechte finanziert sich zu fast 100 Prozent aus den Spenden unserer Leser:innen.

6 Ergänzungen

  1. Ich habe gerade einen interessanten juristischen Artikel über das „right to be let alone“ gelesen. Zu schnell gelesen. Jetzt sinniere ich etwas melancholisch über Erinnerungen, als ich als kleines Kind allein gelassen wurde (left alone). Meine Bemühungen, dem Ganzen etwas Tröstliches abzugewinnen, helfen.

    Das Recht, NICHT alleine gelassen zu werden, gefällt meinem „inneren Kind“ sehr gut. Wir diskutieren noch darüber, ab wann es gerne in den Kindergarten gehen möchte und für wie lange.

  2. „Kelly Davies: Sämtliche persönlichen Angaben werden separat von der Stimmspende selbst gespeichert. Selbst wir können nicht feststellen, welche Personendaten zu welcher Spende gehören. “

    Wieso speichern sie dafür überhaupt Personendaten?

    1. Zur besseren Einordnung der Daten können Stimmspender ein Profil erstellen, in dem sie Alter, Geschlecht, Sprache und Akzent angeben. Bei den Personendaten handelt es sich wohl nur um einen selbst gewählten Nickname und eine E-Mail-Adresse, die für Registrierung und Login verwendet werden und nicht mit dem Rest verknüpft sind.

  3. Grundsätzlich ist so eine Initiative zu begrüßen.
    Bisher habe ich persönlich noch keinen Anwendungsfall gehabt wo ich auf Spracherkennung angewiesen war.
    Der ganze Alexa und Co Kram ist doch im aktuellen Zustand Spielkram.
    Böswillig von Dritten genutzt, sogar ist das potenziell gefährlich.
    Läuft die Software lokal und funktioniert spricht nichts gegen eine Verwendung.

  4. Mir fällt da gerade der Film „Golden Eye“ ein, wo die kleine Programmiererin, nach dem EMP, aus dem Labor raus wollte und die Spracherkennung irgendwie nicht funktionierte!

    Spracheingabe mag zwar bequem sein, aber was würde passieren, würde der Toaster nicht mehr auf meine Stimme hören, mir meinen Toast verweigern?
    Die Kaffeemaschine, mein Rasenmäher oder meine Insulinpumpe die von mir verlangte Menge/Aufgabe nicht richtig erfasst?
    Was wenn ein Böser Mensch im Hintergrund das Spracherkennungssystem für seine perfiden Zwecke ausnutzt?
    Ein Josef Mengele hätte bestimmt seine Freude an solchen Fortschritten, kann er doch die menschliche Natur testen!
    Ein Müsli beim Discounter zusammenstellen lassen, das z.B. definitiv nicht gut für den Allergiker wäre!

    Studienobjekte für Verhaltensforschung der großen Unternehmen!
    Wie Spako schon schrieb, Lokal und Autonom, ja, in der Cloud?
    Nein!

  5. Toller Beitrag über die Sprachsuche. Ich suche verzweifelt nach diesen Informationen, jetzt kann ich sagen, dass die Sprachsuche in Zukunft definitiv hilfreich ist.

Dieser Artikel ist älter als ein Jahr, daher sind die Ergänzungen geschlossen.