KI-ForschungOpenAI ist jetzt ClosedAI

OpenAI hat sein neuestes Sprachmodell GPT-4 vorgestellt. Doch viele in der Forschung sind enttäuscht: Das Unternehmen, das einst als alternatives und offenes Forschungslabor gestartet ist, verschweigt nun aus Angst vor der Konkurrenz, wie die Technologie entstanden ist.

OpenAI Logo in weiß, darunter ein Blatt mit dem Titel GPT-4 Technical Report
Ein Bericht, der keiner ist: Forscher:innen bezeichnen OpenAIs Forschungsbericht als „Maskerade“. – Alle Rechte vorbehalten Logo: OpenAI, Montage: netzpolitik.org

Vorgestern hat Open AI „GPT-4“ vorgestellt, die nächste Stufe seines KI-getriebenen Sprachmodells. Auf sozialen Medien und in der Presse häufen sich seitdem die Berichte und das Staunen darüber, was das Modell alles kann: Aus einer Skizze eine funktionierende Webseite bauen oder in zwei Minuten ein Computerspiel erstellen. Doch während einige begeistert sind, äußern sich viele Forscher:innen derzeit vor allem enttäuscht. Denn die Veröffentlichung markiert einen Wendepunkt in der Strategie von OpenAI. Anders als der Name des Start-ups vermuten lässt, ist GPT-4 kein offenes Modell.

OpenAI zeigt zwar, was sein neuestes Werkzeug alles kann und prahlt auch mit den Ergebnissen, die es bei diversen Prüfungen erzielte, gibt aber zugleich so gut wie gar nichts dazu bekannt, wie es entstanden ist. Vor allem die Frage, welche Trainingsdaten zum Einsatz kamen, bleibt unter Verschluss – für viele aus der Wissenschaft ein No-Go.

Im 98-seitigen Forschungsdokument von OpenAI steht dazu nur: „Angesichts sowohl der Konkurrenzsituation und der sicherheitstechnischen Implikationen von großen Modellen wie GPT-4, enthält dieser Bericht keine weiteren Details über die Architektur, die Hardware, den Aufbau der Trainingsdaten, Datensatzkonstruktion, Trainingsmethode oder Ähnliches.“

Von der NGO zum Milliarden-Start-up

Der technische Leiter und Mitgründer von OpenAI, Ilya Sutskever wird im Interview mit The Verge noch deutlicher: „Der Wettbewerb da draußen ist halt groß.“ Man habe zu viel Arbeit in GPT-4 investiert, um nun der Konkurrenz das Rezept zu überreichen. Die Sicherheitsaspekte, die im Dokument auch genannt werden? Fallen laut Sutskever „nicht so stark ins Gewicht wie der Wettbewerbsaspekt“. Als die Nachfrage des Reporters, wie es zu dem Sinneswandel kommt, sagt Sutskever schlicht: „Wir lagen falsch“. Anders als bei der Gründung angenommen, sei es einfach keine gute Idee, potentiell mächtige KI-Modelle der Öffentlichkeit zur Verfügung zu stellen.

Der Transformation von OpenAI von einem gemeinnützigen Forschungslabor zu einem der wertvollsten Start-ups der Branche ist bereits länger im Gange. Dass jetzt aber ein Mitgründer sagt, der offene Grundsatz war ein Fehler, markiert eine neue Stufe. Gegründet wurde OpenAI 2015 als NGO von einer Handvoll Menschen, darunter der heutige CEO Sam Altman und Tesla- und Twitter-Eigentümer Elon Musk (der später ausstieg).

Die Idee damals: OpenAI sollte die gemeinnützige Alternative sein in einem Forschungsbereich, der von extrem reichen Tech-Konzernen beherrscht wurde. Inzwischen ist OpenAI zu einem „capped profit“-Unternehmen geworden und sammelt Millionen von Investoren ein – zuletzt von Microsoft, das 10 Milliarden investierte und im Rahmen des Deals Produkte von OpenAI exklusiv nutzen darf.

Forschungsbericht ist ein „Hohn“

Forscher:innen bereitet am Kurswechsel vor allem eins Sorge: Die Trainingsdaten sind entscheidend dafür, was ein Transformer-Sprachmodell wie GPT-4 später an Ergebnissen ausspuckt. Solche Modelle sagen vorher, mit welcher Wahrscheinlichkeit ein Wort in einem Satz auf andere Wörter oder Zeichen folgt. Die bisherige Forschung hat gezeigt, dass die Auswahl der Trainingsdaten und wie sie später sortiert und bereinigt werden, dabei entscheidend dafür ist, welche Ergebnisse das Modell ausgibt. Vor allem historische Diskriminierung in Form von Rassismus, Sexismus oder Antisemitismus hatten Vorgänger von GPT-4 oft übernommen.

Ben Schmidt von Nomic AI schreibt dazu auf Twitter: Ohne die Information, welche Vorurteile in GPT-4 eingeflossen seien, sei es kaum möglich einzuschätzen, wo man das Modell einsetzen kann – und wo es zu viele Risiken birgt. In der Vergangenheit hatte OpenAI für das Training von Vorgängermodelle etwa Texte aus Reddit-Foren genutzt.

Der CEO des Start-ups Lightning Ai, William Falcon, wird noch deutlicher: Der Forschungsbericht zu GPT-4 sei ein Hohn, sagte er im Interview mit Venture Beat. OpenAI versuche hier etwas als Forschung auszugeben, das keine Forschung ist.

Falcon weist auch auf ein weiteres Problem hin: Wie soll die Forschungsgemeinschaft Verbesserungen für ein Modell vorschlagen, das gar nicht offen zugänglich ist?

Nur noch handverlesener Zugang

OpenAI verweist im Bericht darauf, dass es plant ausgewählten Dritten Zugang zu technischen Details zu gewähren, damit diese „bei der Abwägung zwischen den oben genannten Wettbewerbs- und Sicherheitserwägungen und dem wissenschaftlichen Wert einer weiteren Transparenz beraten“ könnten. Statt alle in den Bauplan schauen zu lassen, soll offenbar handverlesen werden, wer Zugang bekommt.

Die Diskussion um Offenheit oder Geschlossenheit findet vor dem Hintergrund einer Branche statt, in der sich die Ereignisse überschlagen. Konzerne wie Google, Meta und Microsoft liefern sich derzeit ein Rennen, um Chatbots und andere KI-Technologien in ihre Produkte einzubauen. Ethische Bedenken, die in der Vergangenheit für Zurückhaltung bei der Veröffentlichung neuer Technologien gesorgt haben, scheinen dabei zweitrangig geworden zu sein. Microsoft hat erst vergangene Woche ein ganzes Team entlassen, das für die ethische Umsetzung von Technologien in den Produkten des Konzerns zuständig war.

Gleichzeitig macht die Technologie selbst derzeit offenbar enorme Fortschritte. Nach Jahren der Trippelschritte veröffentlichten Unternehmen im vergangenen Jahr Modelle, die Bilder, Texte oder Code erstellen. Und das in einer Qualität, die man bis vor Kurzem nur Menschen zugetraut hätte.

In dieser Landschaft ist OpenAI nun keine gemeinnützige Alternative mehr, sondern ein kompetitives Milliarden-Start-up in einem umkämpften Markt, das schneller, besser und profitabler sein will als die anderen.

Deine Spende für digitale Freiheitsrechte

Wir berichten über aktuelle netzpolitische Entwicklungen, decken Skandale auf und stoßen Debatten an. Dabei sind wir vollkommen unabhängig. Denn unser Kampf für digitale Freiheitsrechte finanziert sich zu fast 100 Prozent aus den Spenden unserer Leser:innen.

8 Ergänzungen

  1. Immerhin kommen Nutzer in Kommentarspalten auch hier auf die Frage, was eigentlich passiert, wenn diese Werkzeuge so durch die Decke gehen, dass das Netz quasivor generierten Inhalten überquillt. Einerseits kann eine Cloudmaschine alle Ausgaben tracken, andererseits werden selbst wissenschaftliche Arbeiten mit großem Erkenntnisgewinn mit Sicherheit mit Hilfe von KI geschrieben werden. Und wenn es mal Konkurrenz gibt, gibt es dann ein Trackinkartell? Konzeptionell untergegangen, schon vor dem Verlassen des Hafens.

    Alle Systeme, die menschliche Fähigkeiten zur Generierung von Trainingsdaten benötigen, und eben diesen Fähigkeiten das Wasser abgraben, sind da natürlich Kandidaten. In Feldern wo man nicht zuendelernen kann, oder wo Handlung durch Gegenhandlung dynamisch beantwortet werden könnte, ist das ein prinzipielles Problem. Das einzige Ausweichmodell ist eben die Relevanzprüfung, also die Supervision, dann aber in Richtung von 100% Anteil an neuen Trainingsdaten. Was das wohl für einen Markt bedeuten würde?

    1. Trackingkartell – siehe Adobe Ihnaltsauthorenschaftsinitiative im Kontext „FireFly“ u.ä.

      Der Vorschlag ist ja (Werbung), KI-generiertes werde mit Metadaten versehen, die dann [„ja“, „offenbar“] mit dem Bild verbleibend durch das Internet huschen. Das ganze läuft in der Realität natürlich nur mit einer Trackingdatenbank, und Einträgen von Gnaden „Initiative“.

  2. Darum ist die Idee, Copyright auszusetzen, weil es ja Forschung sei, eine Schlechte.

    Bei KI gibt es kein kommerzielles win-win. Ganz vielleicht ein militärisches, analog zu Atomwaffen. Wobei real auch das in Frage steht (eigene = besser).

  3. Die Leute von Open AI kennen wohl Openstreetmaps nicht. Oder andere Opensource-Projekte. Quellcode öffentlich einsehbar, kein böser Konkurrent in der Nähe und Google-Dienste wie Maps oder das Bing-Pendant sollte man sowieso nicht ernsthaft nutzen.

  4. Liebe Freunde der gepflegten Datenverarbeitung: „ist die offen, diese Datenverarbeitung?“ – „Nein!“.

  5. Ihr tut irgendwie so, als hätte OpenAI erst vor ein paar Wochen angefangen, seine/n Gewichte/Code/etc. nicht zu veröffentlichen. Aber das fing ja schon lange davor an. Zu GPT-3 gibt es ja auch fast nichts von OpenAI.

  6. Übergabe des Jahresgutachtens 2024

    Die Expertenkommission Forschung und Innovation übergab heute ihr neues Jahresgutachten an Bundeskanzler Olaf Scholz.

    https://www.e-fi.de/fileadmin/Assets/Gutachten/2024/EFI_Gutachten_2024_24124.pdf

    Experten zufolge hinkt Deutschland bei der Entwicklung und Anwendung von Künstlicher Intelligenz hinterher. Aufgebaut werden müssen mehr Rechenkapazitäten und KI-Kompetenzen. Ein entsprechendes Gutachten wurde an Kanzler Scholz übergeben.

    Aus Sicht der Expertenkommission Forschung und Innovation muss Deutschland bei der Entwicklung und Anwendung von Künstlicher Intelligenz mehr tun. Das geht aus einem Gutachten hervor, dass in Berlin an Bundeskanzler Olaf Scholz und Bundesbildungsministerin Bettina Stark-Watzinger übergeben wurde. „Deutschland und Europa stehen zurzeit nicht in der weltweit ersten Reihe der KI-Entwickler und es können hier Abhängigkeiten entstehen, die man nicht haben möchte“, sagte der Vorsitzende der Kommission, Uwe Cantner, in Berlin.
    https://www.tagesschau.de/inland/wirtschaft-informatik-kuenstliche-intelligenz-100.html

Dieser Artikel ist älter als ein Jahr, daher sind die Ergänzungen geschlossen.