Ob als Übersetzungssoftware oder Suchmaschinenalgorithmus: Sprachmodelle sind im Alltag beinahe allgegenwärtig geworden. Viele setzen enorme Hoffnungen in die Technologie, sei es in der Medizin, beim Klimaschutz oder in der Industrie.
Doch jüngst meldete sich eine Forschungsgruppe der Standford University zu Wort, die sich um die Forschungslandschaft zu diesem Thema sorgt. Zu abhängig sei man bei der Entwicklung neuer Anwendungen von den sogenannten Basismodellen der großen Technologiekonzerne wie Google.
Aus diesen Basismodellen entwickeln sich heute die meisten Anwendungen für automatisierte Spracherkennung, so die Forscher:innen. Sie werden an so großen Datensätzen trainiert, dass sie auch in Systemen angewandt werden können, für die sie nicht explizit geschaffen wurden. KI-Entwickler:innen arbeiten also oft mit dem selben Basismodell, das sie dann auf ihre unterschiedlichen Bedürfnisse anpassen.
KI schöpft aus reichem Erfahrungsschatz
Vereinfacht erklärt funktioniert maschinelles Lernen so: Das System wird mit Daten konfrontiert, in denen es Muster erkennen soll. Anhand dieser Muster soll das System danach in der Lage sein, Voraussagen über zukünftige, unbekannte Daten zu treffen. Eine Sprach-KI könnte also eine große Menge verschiedenster Texte analysieren und erkennen, welche Worte in einem Satz wie häufig aufeinander folgen. Soll die KI dann einen Lückentext vervollständigen, kann sie aus diesem Erfahrungsschatz das Wort auswählen, das mit der größten Wahrscheinlichkeit in den Kontext gehört – auch wenn sie den neuen Text noch nie gesehen hat.
Basismodelle sind Systeme, die die Fähigkeiten, die sie sich in einem Trainingsprozess angeeignet haben, auf einen anderen Bereich übertragen können – mit nur wenigen Anpassungen durch die Entwickler:innen. Die Software könnte also für Objekterkennung auf Bildern trainiert werden und mit kleinen Veränderungen auch für Videos zum Einsatz kommen.
Das erklärt auch ihren Erfolg. Das Basismodell BERT von Google ist den Forscher:innen zufolge mittlerweile der Standard für alle sprachverarbeitenden Systeme geworden. Das Team sieht darin durchaus auch Vorteile. Jede Verbesserung an BERT hat automatisch auch Verbesserungen an zahlreichen sprachverarbeitenden Anwendungen im Alltag zufolge. Ohne die gemeinsame Grundlage müssten alle Entwickler:innen ihr System einzeln verbessern.
Menschliche Vorurteile auf Software übertragen
Allerdings biete ein gemeinsamer Standard auch Gefahren. Künstliche Intelligenz steht häufig in der Kritik, sich diskriminierend gegenüber marginalisierten Menschen zu verhalten. Die Beispiele sind zahlreich: die automatisierte Bilder-Vorschau von Twitter, die sich eher für das weiße als für das Schwarze Gesicht entscheidet; die Bewerbungssoftware, die lieber Männer als Frauen einstellt; der Videokonferenzanbieter, der hohe Frequenzen beim Ton herausfiltert und Frauenstimmen so systematisch dünner und unsicherer wirken lässt.
Viele dieser diskriminierenden Verhaltensweisen sind nicht beabsichtigt. Sie basieren viel mehr auf den – oftmals unbewussten – Vorurteilen der Menschen, die sie entwickeln und in den Daten, mit deren Hilfe sie trainiert werden. Lernt eine KI zur Sprachverarbeitung also mithilfe von Texten, die rassistische Vorurteile enthalten, wird sie diese Vorurteile selbst reproduzieren.
In einer kürzlich im Fachmagazin Nature erschienenen Studie [€] stellten Wissenschaftler:innen etwa fest, dass große Basismodelle für Sprachverarbeitung Muslime häufig mit Gewalt in Verbindung bringen. Ein solches Modell könnte also einer Verzerrung des ursprünglichen Datensatzes auf den Leim gegangen sein. Enthält dieser überdurchschnittlich viele Texte, die sich mit den Themen Gewalt und Islam beschäftigen, wird die Software diese beiden Themen miteinander in Verbindung bringen.
Kultur der Offenheit geht verloren
Das in der Studie untersuchte Basismodell GPT-3 steckt in vielen KI-Anwendungen, die dadurch ebenfalls anfällig für rassistische Verzerrungen werden. Genau diese Vorherrschaft der großen Basismodelle bereitet dem Forschungsteam der Stanford University Sorgen. Die Modelle stellen ein Paradigmenwechsel in der KI-Forschung dar, so die Wissenschaftler:innen.
Denn meistens sind die einflussreichen Standards Eigentum einiger weniger Firmen, die damit ihre Vorherrschaft in der Technologiebranche ausweiten. Vor dem Siegeszug der Basismodelle habe es in der Forschungsszene zu maschinellem Lernen und künstlicher Intelligenz eine Kultur der Offenheit und des Austauschs gegeben. Unternehmen und universitäre Forschung haben voneinander profitieren können, Datensätze wurden veröffentlicht oder ausgetauscht.
Dieser Trend habe sich durch die Basismodelle der großen Konzerne umgekehrt. Einige Modelle, wie auch die Sprachsoftware GPT-3 seien gar nicht öffentlich zugänglich, andere stellen nicht einmal ihre Datensätze zur Verfügung. Selbst wenn die Modelle öffentlich zur Verfügung stünden, sei die Arbeit mit ihnen oftmals so kostenaufwendig und erfordere eine so hohe Computerleistung, dass ein Großteil der Forschungsgemeinschaft ausgeschlossen werde, weil ihnen die erforderlichen Ressourcen nicht zur Verfügung stünden.
Streit um Basismodelle entzweite Google mit führender KI-Forscherin
Für die Entwicklung eines konkurrenzfähigen Basismodells sind unterdessen so große Datensätze notwendig, wie sie oftmals nur Google und Co zur Verfügung haben. Denn die sind praktischerweise neben ihrer technologischen Forschung auch noch die größten Datenkonzerne der Welt.
Kritik an Basismodellen hatte schon Ende vergangenen Jahres Schlagzeilen gemacht, als der Konzern Google und eine seiner Spitzen-Forscherinnen im Streit auseinander gingen. Timnit Gebru wollte ein Paper veröffentlichen, das sich kritisch mit sprachverarbeitenden Systemen auseinandersetzt. Neben ihrer Kritik an potenziell diskriminierendem Verhalten derartiger Software ging sie auch um die Klimabilanz der Modelle und die wirtschaftlichen Interessen der Großkonzerne bei der Forschung.
Allen Kritiker:innen gemein ist die Befürchtung, dass die Entwicklung von Basismodellen einen Umbruch in der KI-Forschung darstellt, der einen enormen Einfluss auf die Gesellschaft haben kann, in der Künstliche Intelligenz eine immer größere Rolle spielen könnte. Sie hoffen, eine kritische Auseinandersetzung, eine Risiko-Nutzen-Abwägung und eine fundierte Technikfolgenabschätzung auszulösen.
‚dass große Basismodelle für Sprachverarbeitung Muslime häufig mit Gewalt in Verbindung bringen. ‚
Ist es verwunderlich? 20 Jahren Nachrichten aus dem Westen, der sich am ehesten mit dem Muslimen beschäftigt bei Krieg, ist ja das Material das OpenAI benutzt zum Training. Unsere Medien, wie jetzt so schön zu beobachten ist, beschäftigen sich mit Afghanistan (Gaza, Iraq, Syrien, etc, etc) nur beim Blut vergiessen. Und somit ist das Foundational Model ein Spiegel unserer Gesellschaft.
Diese sogennante Foundational Models sitzen ja auch nicht still und ‚fertig‘ da. Sie werden immer weiter entwickelt. Das viel groteskere Problem ist das wieder verwenden von unpassenden Daten zum Training. Gang und Gebe.
Das GPT-3 und/oder Bert (sic) ‚foundational‘ sind scheint mir auch fragwürdig zu sein. Der ganze Begriff, foundational, ist etwas verfrüht oder irreführend. Beeindruckend sind sie schon, aber es ist nur ein Linguistic generalist unter anderen. Und im zitierten Papier werden ja nur 2 General Linguists erwähnt. Vielleicht ist es richtig vor OpenAI zu warnen? Aber sicher ist, GPT-3 ist nicht das α und nicht das ω.
‚We chose the new term foundation models to identify the models and the emerging paradigm that are the subject of this report.‘ Caution, this is very early days research with a very thin foundation (Google / OpenAI) of Models/Algos.
> […] der Videokonferenzanbieter, der hohe Frequenzen beim Ton herausfiltert und Frauenstimmen so systematisch dünner und unsicherer wirken lässt.
Der verlinkte TAZ-Artikel verweist auf eine Metastudie, die maßgeblich auf eine bei Frontiers veröffentlichte Studie (https://doi.org/10.3389/fcomm.2019.00012) eines der beteiligten Autoren basiert. In der Studie geht es überhaupt nicht um Künstliche Intelligenz und auch nicht um spezifische Videokonferenzanbieter. Es wird untersucht, wie sich das „Charisma“ der Sprecher bei sehr starker Kompression durch unrealistisch niedrige Datenübertragungsraten bei verschiedenen Audio-Codecs verändert. Dabei wollen sie herausgefunden haben, dass das „Charisma“ von von Frauen bei starker Kompression im Vergleich zur unkomprimierten Datei stärker abnimmt als bei Männer.
Hmmm: Foundational == https://en.wikipedia.org/wiki/Transformer_(machine_learning_model) aka: https://de.wikipedia.org/wiki/Transformer_(Maschinelles_Lernen)
Und GPT-3 + Muslims, ohne Paywall: https://spectrum.ieee.org/ai-algorithms-bias-gpt-3-racist-content