SammelklageStreit um Bild-Generatoren soll vor Gericht landen

Die Debatte um KI-generierte Bilder nimmt Fahrt auf. Betroffene klagen In den USA und Großbritannien gegen das Start-up hinter Stable Diffusion. Bei den juristischen Manövern geht es auch um die Frage, was ein Werk eigentlich „neu“ macht. Eine Analyse.

Ein abstraktes Gemälde zeigt links einen Roboter an einem Pult, rechts drei menschliche Gestalten. Ich interpretiere den Roboter als eine Darstellung des Bild-Generators im Zeugenstand; die Menschen als Geschworene eine Jury.
Nach dem Training mit Abermillonen Bildern können Programme wie Stable Diffusion selbst Roboter malen. – Linker Teil des Bildes: StableDiffusion („robot at a witness stand, abstract painting“); rechter Teil des Bildes: DALL-E-2 („painting, jury trial“)

Seit Ende letzten Jahres sind Bild-Generatoren für alle im Netz frei verfügbar. Es genügt ein simpler Text-Befehl wie „Porträt eines Weltraum-Affen“, um handwerklich beeindruckende Bilder zu schaffen. Millionen solcher Bilder sind schon im Netz. In zahlreichen Artikeln, Threads, Essays und Podcasts diskutieren Nutzer*innen darüber, was die neue Technologie etwa für Illustrator*innen und Künstler*innen bedeutet, und ob all das überhaupt erlaubt sein sollte. Jetzt wollen einige Betroffene Antworten vor Gericht.

In den USA haben Künstler*innen rund um Anwalt Matthew Butterick eine Sammelklage eingereicht (PDF). Sie richtet sich unter anderem gegen Stability AI, das Start-up hinter dem populären Bild-Generator Stable Diffusion. Die Klagenden werfen dem Unternehmen vor, dass ihre Werke ohne Einverständnis zum Training der KI genutzt wurden. Sie verlangen Schadenersatz und Unterlassung. Das heißt: Die Firma soll ihnen Geld geben und ihre Werke nicht mehr in die Bild-Generierung einfließen lassen. Die Pressestelle von Stability AI schreibt auf Anfrage, hinter den Anschuldigungen der Sammelklage stehe ein Missverständnis der Technologie. Das Unternehmen habe die Absicht, sich dagegen zu verteidigen.

Auch die Bild-Agentur Getty Images will nach eigenen Angaben in London gegen Stability AI vorgehen. Der Vorwurf ist, dass der Bild-Generator ohne ausdrückliche Erlaubnis mit Getty-Bildern trainiert worden sei und das Unternehmen damit nun kommerzielle Interessen verfolge. Diese Angelegenheit nehme Stability AI sehr ernst, wie eine Sprecherin mitteilt. Allerdings habe man davon erst durch Medienberichte erfahren und noch keine Dokumente erhalten.

Die Fälle dürften nicht nur für Jurist*innen interessant werden. Zur Debatte steht nicht nur das Urheberrecht, sondern die Frage, was Kreativität eigentlich bedeutet – und wie Maschinen lernen dürfen.

Sammelklage hält Werke nicht für „neu“

Eine Übersicht zur Rechtslage in Deutschland und der EU haben wir vergangene Woche veröffentlicht. Hier steht das Urheberrecht nach Einschätzung von Fachleuten nicht im Weg, wenn es darum geht, Bild-Generatoren mit Werken aus dem Netz zu trainieren. Auch für die neu generierten Bilder lässt sich zunächst kein Urheberrecht beanspruchen.

Völlig anders argumentieren die Anwält*innen in der US-amerikanischen Sammelklage. Ihre Argumentation gegen Stable Diffusion basiert hauptsächlich darauf, dass sie die generierten Bilder nicht als neue Werke einstufen. Vielmehr würden die Generatoren Teile der Bilder aus dem Trainingsmaterial kopieren, ähnlich wie bei einer Collage. Entsprechend bezeichnen sie Stable Diffusion als „Collagen-Werkzeug“.

Die Strategie dahinter liegt auf der Hand: Die Sammelklage will sich auf das Urheberrecht berufen. Damit das möglich ist, stellen die Anwält*innen die Behauptung auf, dass die Ergebnisse von Bild-Generatoren bloß schnöde Kopien von urheberrechtlich geschütztem Material seien. Es braucht ein paar technische Erklärungen, um dieser Argumentation folgen zu können – und um sie zu durchschauen.

Was eine Orange ausmacht

StableDiffusion hat hier drei Darstellungen einer Orange generiert: einmal eine halbe Orange, aufgeschnitten; einmal eine ganze Orange ohne Blatt; einmal eine ganze Orange mit Blatt.
Antwort von Stable Diffusion auf den Befehl „an orange“ - StableDiffusion ("an orange")

Anwendungen wie Stable Diffusion kleben nicht etwa wie bei einer Collage Schnipsel aus mehreren Bildern aneinander. Stattdessen steckt dahinter eine Software, die mit Abermillionen Bildern trainiert wurde. Beim Training hat die Software in den verschiedenen Motiven nach Merkmalen gesucht und sich diese Merkmale gemerkt. Ein mögliches Merkmal wäre zum Beispiel: Orangen sind rund.

Das ist natürlich noch längst nicht alles, denn Orangen haben viele weitere Merkmale. Manche Merkmale gehören ziemlich fest zu einer Orange, zum Beispiel die Farbe Orange. Andere Merkmale gehören nur manchmal zu einer Orange, zum Beispiel ein Blatt. Und dann darf man nicht vergessen, dass es noch viele weitere runde oder orangefarbene Dinge gibt, die man nicht mit einer Orange verwechseln sollte. Die Datengrundlage eines Bild-Generators sind also unfassbar viele komplexe Bündel aus Merkmalen und Ähnlichkeiten. Es sind voneinander abhängige Variablen, mit deren Hilfe die Software neue Bilder berechnet.

Gibt man Stable Diffusion nun den Befehl, eine „Orange“ zu generieren, dann wendet die Software die gelernten Variablen an. Sie errechnet daraus ein Bild mit „orangigen“ Eigenschaften: höchstwahrscheinlich orangefarben und rund, vielleicht mit einem Blatt. Und wenn Orangen im Trainingsmaterial sehr häufig in einer Obstschale liegen, dann besteht die Wahrscheinlichkeit, dass auch das generierte Bild eine Obstschale zeigt.

Die Ergebnisse von Stable Diffusion werden sich dabei etwas voneinander unterscheiden, selbst wenn man der Software mehrfach den exakt selben Befehl gibt. Das liegt daran, dass die Software die Gewichtung der zahlreichen Merkmale bei jedem Durchlauf ein klein wenig ändern kann. (Um bei dieser rein technischen Erklärung nichts falsch zu machen, haben wir sie dem Computerwissenschaftler Robin Rombach vorgelegt. Er hat Stable Diffusion an der Ludwig-Maximilians-Universität München mit entwickelt und forscht heute für Stability AI.)

Inspiration für Maschinen

Stable Diffusion gelingt hier mithilfe von Software etwas, das sich entfernt mit menschlicher Erinnerung vergleichen lässt. Bittet man einen Menschen, eine Orange zu zeichnen, dann wird auch er dabei auf teils verschwommene Eindrücke von Orangen zurückgreifen. Solche Vergleiche mit dem Menschen können dabei helfen, die Technologie eingängig zu erklären, sie können aber auch sehr in die Irre führen. Letztlich geht es hier allein um Software, die Dinge berechnet. Vermenschlichende Begriffe wie  „Intelligenz“, „Training“, „Erinnerung“ und „Inspiration“ dienen nur als Vergleich und müssen kritisch hinterfragt werden.

Mit dem Begriff Inspiration hat auch Till Kreutzer seine Erklärung veranschaulicht. Im Gespräch mit netzpolitik.org sagte der auf Urheberrecht spezialisierte Anwalt: „Künstlerisches Schaffen funktioniert schon immer so, dass aus Eindrücken und Inspirationen etwas Neues geschaffen wird. Neu ist nur, dass diese Inspiration jetzt maschinell vorgenommen wird“.

Ganz anders argumentiert die von Matthew Butterick geführte Sammelklage. Sie stellt die Behauptung auf, die Werke von Bild-Generatoren seien nur dem Anschein nach „neu“. In Wahrheit, führt Butterick auf einer Erklärseite zur Klage aus, seien sie „offenkundige Kopien aus den Trainingsbildern“, da sie ausschließlich auf einer „Kombination“ von Daten aus dem Trainingsmaterial bestehen.

Die Argumentation irritiert, wenn man sich vor Augen führt, dass die Werke von Bild-Generatoren offensichtlich neu sind. Ein Werk wie etwa diesen Waschsalon im Stil von Edward Hopper hat es vorher schlicht nicht gegeben. Doch auch solche Widerreden versucht Butterick vorwegzunehmen: Er nennt es eine „Ebene der magischen Irreführung“, die es Nutzer*innen schwer mache, im generierten Bild die eigentliche Kopie zu erkennen.

Brachiale Umdeutung des Begriffs „neu“

Die Anwält*innen der Sammelklage möchten mit ihrer Argumentation eine Jury überzeugen: Sie verlangen einen Prozess mit Geschworenen, also Laien aus der Bevölkerung. Wenn es so weit kommt, dürften die Geschworenen ins Grübeln kommen, denn die Sammelklage betreibt eine brachiale Umdeutung des Begriffs „neu“.

Ob das in den USA juristisch funktionieren könnte, kann der Autor dieses Textes nicht bewerten. Der auf Urheberrecht spezialisierte deutsche Anwalt Till Kreutzer sieht die Begründung zumindest „auf tönernen Füßen“; sie sei ihm „technisch und aus eigener Anschauung nicht ersichtlich“. Selbst wenn die Ähnlichkeit eines generierten Bildes zu einem Werk im Einzelfall groß sei, würde das „keinesfalls zur generellen Rechtswidrigkeit der Technologie führen“. Kreutzer könne allerdings nicht einschätzen, ob die Klage nach US-Recht erfolgversprechend sei. Die Pressestelle von Stability AI schreibt über die Sammelklage: „Die Anschuldigungen stellen ein Missverständnis darüber dar, wie generative KI-Technologie funktioniert und wie das Urheberrecht aussieht.“

Aus geisteswissenschaftlicher Perspektive ist die Argumentation der Sammelklage ein Taschenspielertrick. Es ist möglich, jede Art von Werk als Kombination aus bereits bekannten Elementen zu deuten. Besonders in der geistes- und sozialwissenschaftlichen Strömung des Poststrukturalismus ist das seit Jahrzehnten ein alter Hut. In der Folge ließe sich auch jeder beliebige Text als Kopie oder Remix älterer Texte beschreiben. Das wiederum ist oft nur ein Zwischenschritt in der Argumentation: Eine daran anknüpfende poststrukturalistische Ansicht lautet, dass eigentlich bei jedem Lese-Vorgang ein komplett neues Werk erschaffen wird. Wer für strenges Urheberrecht argumentieren will, sollte daher vom Poststrukturalismus eher die Finger lassen.

Es geht auch weniger kompliziert: Das Gericht soll im Grunde zwischen Kunstfreiheit und dem Schutz des geistigen Eigentums abwägen. Dafür braucht es eine funktionierende Unterscheidung zwischen „neuen“ und kopierten Werken. Wenn Merkmale von zig Werken so ausführlich miteinander vermischt werden, dass Menschen darin ein neues Motiv und einen neuen Sinn erkennen, dann ist das treffendste Wort dafür wohl schlicht: neu.

Von fairen und unfairen Kopien

Andere Argumente der Sammelklage lassen sich mit weniger Worten erklären. Demnach hätten manche Nutzer*innen mithilfe von Stable Diffusion Werke im Stil bestimmter Künstler*innen generiert – und diese Werke dann als vermeintliche Originale dieser Künstler*innen zum Verkauf angeboten. Sie seien „Hochstapler“, heißt es in der Sammelklage. Durch Stability AI sei den betroffenen Künstler*innen ein wirtschaftlicher Schaden entstanden. Die Anwält*innen sehen darin außerdem unlauteren Wettbewerb.

Wenn es zum Prozess kommt, könnten sich grundlegende Fragen rund um Bild-Generatoren erstmals vor Gericht klären. Beim Urheberrecht in den USA spielt dabei auch ein Grundsatz namens „Fair Use“ eine Rolle. Der Grundsatz erlaubt es, sogar urheberrechtlich geschützte Werke zu nutzen, solange es „fair“ (gerecht) ist.

Sind Bild-Generatoren böse?

Dahinter steht eine Abwägung aus mehreren Faktoren, etwa, ob man mit der Nutzung Geld verdient, ob man die Urheber*innen damit vom Markt fegt; ob man sich ausgiebig an einem Werk bedient oder nur ein wenig – und welche Schaffenshöhe das genutzte Werk überhaupt hatte. Gerade weil diese Abwägung so viele Dimensionen hat, dürften US-amerikanische Prozesse bei diesem Thema interessant werden.

In einem Beitrag der Fachzeitschrift „Texas Law Review“ argumentieren die Juristen Mark Lemley und Bryan Casey, dass man das Training von KI-Systemen mit geschützten Werken als „fair“ betrachten sollte. Ihre Begründung: Beim Training greife die Software gerade nicht auf das kreative Erzeugnis zu, das vom Urheberrecht geschützt sei, sondern vielmehr auf die nicht vom Urheberrecht betroffenen Merkmale eines Werks: ihre zugrunde liegenden Muster.

Beim Grundsatz „Fair Use“ gehe es darum, neue Ideen zu schaffen, zu teilen und darauf aufzubauen, schreiben die Forschenden. „Es geht darum, die Fähigkeit zu lernen zu bewahren – unabhängig davon, ob es sich bei dem lernenden Wesen um einen Menschen oder einen Roboter handelt.“

Strategischer Move von Getty Images

Auch in Großbritannien kann sich Stability AI auf einen Rechtsstreit vorbereiten. Dort will die Bild-Agentur Getty Images gegen das Unternehmen vorgehen. Während noch wenige Details öffentlich bekannt sind, hat Getty-Images-Chef Craig Peters mit dem US-Magazin „The Verge“ gesprochen.

Demnach wolle Getty Images den Unternehmen hinter Bild-Generatoren keinen finanziellen Schaden zufügen oder ihre Entwicklung stoppen. Die Klage beziehe sich unter anderem darauf, dass Inhalte von Getty Images automatisiert zum Training des KI-Systems genutzt worden seien – was gegen die Nutzungsbedingungen verstoße. Peters wolle über faire Kompensation verhandeln, wie aus dem Gespräch mit „The Verge“ hervorgeht.

Der Fall in Großbritannien erscheint pragmatischer als der in den USA. Getty Images verfolgt offenbar das strategische Ziel, auch ein Stück vom Kuchen abzukriegen, nun da Bild-Generatoren den Markt umkrempeln. Und in einem Punkt sind sich wohl alle Konfliktparteien einig: Die Technologie kann vieles verändern, es geht um Geld und Macht. Die Unternehmen hinter generativer KI sammeln gerade hohe Summen von Investor*innen ein. Für Rechtsstreite sind sie damit sicher gut gewappnet.

Deine Spende für digitale Freiheitsrechte

Wir berichten über aktuelle netzpolitische Entwicklungen, decken Skandale auf und stoßen Debatten an. Dabei sind wir vollkommen unabhängig. Denn unser Kampf für digitale Freiheitsrechte finanziert sich zu fast 100 Prozent aus den Spenden unserer Leser:innen.

20 Ergänzungen

  1. Interessanter Artikel und spannend, wie sich das entwickeln wird.
    Eines ist aber sicher, die Mehrzahl von Streit lautet … tadaaaah: Streite! Nicht, wie im Artikel fälschlicherweise „Für Rechtsstreits sind sie damit sicher gut gewappnet.“
    *Klugscheißermodus aus*

  2. Die KI Generiert ja nur das was man ihr sagt das Sie generieren soll…. Im Grunde wie Photoshop oder Gimp. Nur das man bei der KI halt nicht selbst den „Pinsel“ führen muss….

    Es liegt also am Nutzer ob man damit etwas erstellt das gegebenenfalls das Urheberrecht verletzt oder eben nicht. Die Software ist da ja wie bei der Bildbearbeitung ja erstmal nur die Plattform die dem Nutzer die Freiheit gibt dem eigenen Willen freien Lauf zu lassen.

    1. Nein, so einfach ist das leider nicht. Die Treiber dahinter setzen auch darauf, dass die Menschen das nicht verstehen.

      Zum einen haben Sie recht: Der Mensch, der das Werkzeug benutzt ist z.B. bei Veröffentlichung dafür verantwortlich, inklusive Urheberrechtsverletzungen, die sich mehr oder weniger zufällig ergeben könnten.

      Die KI kann zum einen durchaus Teile von geschützten Werken fast 1:1 einbauen, darauf würde ich allerdings nicht so sehr fokussieren.

      Viel schlimmer ist der Ausnutzungsaspekt: Man erklärt also Lizenzen, Copyright, Intention für ungültig, um eine ḱommerzielle Cloudmaschine zu bauen, die wiederum solche Werke zum Training braucht, die ja nicht dazulernt, keinen Stil für sich im stillen Kämmerlein entwickelt o.ä., keinerlei Reflektion unterliegt, was nebenbei auch noch zufällig eben den Erstellern von Bildern wiederum das Wasser abgräbt.

      Und der ruinöse Aspekt: Letzlich gräbt die Maschine den „Kreativen“ (Arbeitsbegriff) das Wasser ab, ist aber selbst auf deren Machwerke angewiesen. Das ist bei de facto Liquidierung von Copyright und Lizenen natürlich noch viel bösartiger. Letztlich wird die Zahl der generierten Bilder alles andere übertreffen, und diese Bilder werden letztlich, denn das ist nicht zu verhindern, in den Trainingsdaten landen. Gerne mal die Theorie dazu ausrechnen, wo das dann hingeht. Wir haben also einen gesellschaftlich ruinösen Betrieb vor uns, der nichts weiter droht, als der Griff nach der schnellen Kohle zum Schaden der Gesellschaft zu werden.

      Insgesamt sieht das wie der Versuch von Krisengewinnlern aus, bei schlechter werdenden Prognosen möglichst viel abzufischen. Geopolitisch wäre also vielleicht geraten, die Märkte zu trennen, wenn das so durchgewunken wird. Hier entstehen bestenfalls noch dickere Fürstentümer.

      Sind diese Systeme inspirierbar o.ä.? Nein. Es sind im Grunde Enzyklopädieartige Konstrukte.

      (Die Klageargumentation ist nicht meine.)

      1. „Sind diese Systeme inspirierbar o.ä.? Nein. Es sind im Grunde Enzyklopädieartige Konstrukte.“

        Das ist auch das Problem mit dem „Vermenschlichen“, oder auch „Menscheln“. Denn eine Inspiration für ein Lebewesen kann für umfassende Unterschiede sorgen. Ein weiteres trainiertes Bild zwar in der Theorie auch, aber i.d.R. würde es nichts, bzw. nur dann etwas bewirken, wenn ziemlich genau danach gesucht wird. Ergo enzyklopädisch.
        Wobei auch die vermeintlichen Alleinstellungsmerkmale der Menschen zumindest vor Tieren, Vögeln, (Insekten… Pflanzen?) gerne mal umfallen, wenn man tatsächlich nachguckt. Nur KI dümpelt auf dem Niveau von Brettspielen herum, ergo Spielkram…

  3. „Definition von Neu“
    Naja, das Gesetz hat auch weniger Anspruch an „Künstler“ als manche anderen Menschen ;).
    ABER: GANs z.B. setzen eher auf neue Weise zusammen, was sie schon kennen. Sie bauen nicht ohne weiteres „wirklich neues“. Das ist eine konkrete Gefahr, wenn man da dann blind langläuft, und alles Bisherige über Bord schwappen lässt.

    Vielleicht erleben wir noch die „Neuerfindung“ der Kreativität in diesem Jahrhundert (d.h. nachdem wie sie gekillt haben). Gerade wegen dieses Potentials sollten wir den Badewannenjoke mit dem Copyright nicht machen.

    1. Naja, so ganz 100% kann man es nicht sagen, da man die Zukunft nun mal nicht kennt.

      Vermutlich…
      – Großteil des Umsatzes bricht weg. Bei vielen ist das ein Teil.
      – Im Fair-Use Falle, aber letztlich auch beim Fluten der Welt mit generierten Bildern, dürfte eine ruinöse Spirale einsetzen (Monetarisierung für irgendwen ist Plattformsache, Demonetarisierung auch originaler Werke ist auch Plattformsache, Ausweg über Filter hat weitreichende zersörerische Konsequenzen, letztlich kommen Trainingsdaten abhanden – dann noch mal ins Heute zurückreisen, und den Menschen ins Gesicht sagen, was man da mit ihnen Macht).
      – Eine Weile lang kann man vom Ruhm und von der Vorsicht der Kunden weiterleben.
      – Nach einer Weile bricht der Umsatz weg, und die Kunden nutzen die neuen Clickoschmieden, simply. Manch einer wird dann auch die Clickoschmieden nutzen, und bessere Ergebnisse erzielen, konkurriert allerdings mit ungefähr allem, von ungefähr jedem, über gute Postbearbeiter, bis zu „kein Copyright“. Noch ruinöser.

      Das ist eigentlich eine umfassende Transformation mit Eigenvernichtungspotential. Sowas wird auch andere Jobs und Fähigkeiten betreffen, wenn auch bei weitem nicht alle. Demgegemüber empfinde ich schon die Idee, das Gerichte entscheiden zu lassen, als vogelwild.

  4. Bin mal gespannt, ob die Kläger für jedes einzelne Werk und für jeden einzelnen Künstler den Nachweis führen können dass genau dieses Bild für das Training der KI genutzt wurde.
    Vermutlich weiß das ja noch nicht mal die KI-Firma selbst.

    Man kann der Firma sicherlich verbieten bestimmte Bilder zu nutzen – muss dann aber im Einzelenen nachweisen dass die Firma dagegen verstossen hat.

    Und das gilt hüben wie drüben.

    Das wäre ja ganz so, als ob ein Künstler die Kunsthochschulen verklagt weil deren Kunststudenten durch das blosse Studieren seines Bilds die Fähigkeit erworben haben selbst zu malen …

    1. Nein, so wie man sich das auf dem Fussballplatz vorstellt ist das eben nicht.
      Die Kunsthochschulen machen auch nicht Künstler arbeitslos, um dann rumzunölen, dass man weiterhin neue Trainingsdaten braucht, und man doch bitte alles zum Training öffnen solle, inklusive deines Desktops.

      Der Unterschied im Szenario ist, dass die Unternehmen da schon mal Fakten schaffen wollen, bevor die Gesetzgebung kapiert hat, was ihr Job gewesen wäre, und einfach mal unter der Annahme von „fair use“ losbolzen.

    2. „Bin mal gespannt, ob die Kläger für jedes einzelne Werk und für jeden einzelnen Künstler den Nachweis führen können dass genau dieses Bild für das Training der KI genutzt wurde.“

      Warum soll ein jemand das beweisen müssen? Spätestens wenn überhaupt soetwas gilt wie „nicht alles machen dürfen“, sollte die Nachweispflicht bei den Scrapern liegen, bzw. bei dem Unternehmen, dass dann Gebrauch von den Daten macht. Alles andere wäre Trickserei. Ist das Gesetz nicht reif dafür… macht eben neues. Die EU hat zumindest der Idee nach einen Ansatz angekündigt, bzw. sogar gestartet. Die USA … mal sehen was da gesellschaftlich noch so an Hirn drinnen ist…

  5. Auch wenn mir die Erklärung, wie die Modelle funktionieren, inhaltlich korrekt erscheint, sehe ich es als problematisch an, dies mit dem Verweis auf Robin Rombach zu belegen. Da er die, der Klage gegenständliche, Technologie erfunden hat und bis heute beim angeklagten Unternehmen arbeitet, hat er natürlich eine Motivation die Technologie so darzustellen, dass der Klagegrund negiert wird.
    Dennoch möchte ich hier explizit loben, dass ihr namentlich genannt habt wer das gecheckt hat und nicht nur „ein erfahrerens Forscher aus dem Bereich“ geschrieben habt.

  6. Übrigens hat Matthew Butterick auch eine Sammelklage gegen Github wegen der Verwendung offener Repos im Training von Copilot eingereicht.

    https://githubcopilotlitigation.com/

    Soweit ich das verstanden hab, ist die Argumentation hier, dass der Code einfach genutzt wird, aber die Lizenzen ignoriert werden. (Insbesondere die Namensnennung, wie bei einigen Lizenzen vorgeschrieben.) Des Weiteren kann Copilot demnach Lizenzverletzungen begehen (durch das Entfernen selbiger) und bürdet aber im Kleingedruckten dem Anwender auf, darauf zu achten, dass keine Lizenzverletzungen entstehen (was aber ohne Lizenzen nicht geht). Es gibt mehrere Beispiele, die in der Klage angeführt werden, bei denen Code 1:1 aus Quellen reproduziert wird, die das in ihrer Lizenz verbieten oder zumindest eine Namensnennung verlangen. Schlimmer wird die Sache wenn Code dann irgendwann nur noch von Copilot erzeugt wird wo aber der Ursprung völlig unklar ist, da Lizenz entfernt. Meine persönliche Meinung ist, dass das eigentlich ein massiver Angriff auf die Open-Source-Community ist, da diese durch die Lizenzen ja ausdrückt, wie man mit Code weiterzuverfahren hat, den man verwendet. (Zum Beispiel, dass er nicht closed-source gemacht werden darf.)

    1. Ich stecke nicht drinnen, aber neben „fair use“ ist die Frage, ob es ein „derivative work“ ist, lizenztechnisch theoretisch ein show-stopper für das „wir trainieren mit allen“-Prinzip, zudem gibt es mehr noch bei Programmcode einfach mal die x-fache Wahrscheinlichkeit, exakt ein Original zu reproduzieren, das nun mal unter einer Lizenz steht, einfach weil es so definierte klare regeln gibt. Da ist für ein funktionierendes Programm einfach mal nicht so viel Geflunker drinnen, wie mit Bildern oder wie es ChatGPT so gerne mal von sich gibt.

    2. Fair use würde die totale Ausnutzung von allem zu kommerziellen Interessen bedeuten, dabei ohne Rücksicht darauf, ob es später noch Trainingsdaten gibt. „Die Leute müssen ja“ ist dabei nicht klar, vielleicht entscheidet die EU da anderes. Manche Künstler (im Sinne von engl.: artists) wandern schon auf europäische Seiten ab.

      Positiv könnte passieren: bessere verfügbare Modelle mit offenen (legalen und ohne „fair use“, sondern expliziter Zustimmung sowie Prüfung auf Entfernung bereits bekannter Bilder) Traingsdatensätzen, bzw. wegen der Größe dann (non-profit) kuratierter Modelle für die Heimnutzung, dann bei hoher Qualität auf ungefähr leistbarer Hardware. Das wäre eine Art der Demokratisierung.

      Einige Grundprobleme könnten trotzdem bleiben, z.B. dass letztlich der Zufluss an neuen Trainingsdaten versiegen könnte. Das ist ja kein Witz, über den man später lachen will.

    3. Auf Basis der derzeitigen LLMs ist das völlig verrückt. Tatsachen zu schaffen ist der Versuch, maximaler Profit (PR, dann…).

      Schaden ist Lizenzumgehung. Da könnte man allgemein ansetzen, dass Lizenzen für Software eben nicht mehr existieren. Mit (dieser+-zukünftiger) KI spielt das defintiv den Kräften in die Hände, denen ihr nicht zuspielen wollt (zu dieser Zeit, Star Trek ist entfernt denkbar, wenn auch nicht „jetzt“, je nach dem ob man einen Großrechner braucht, oder jeder Laptop das kann, +- welches von wem, bzgl. Training vs. Runtime).

  7. Bei den denkbaren Folgen muss auch beachtet werden, in wessen Hände das dann Macht legt. Soll also die (dann oder jetzt schon) Big-Tech-Branche entscheiden, was Copyright ist, und was eine Lizenz? Wohin die Gesellschaft gehen darf, und wohin nicht?

    Der Witz ist, dass die Schutzziele von Konstrukten wie „fair use“ gerade durch Anwendung in Fällen wie diesen, drohen für die ganze Gesellschaft unterminiert zu werden. D.h. „fair use“ gibt es dann noch für große Plattformen und Suchmaschinen, nicht aber mehr für den Einzelnen, da die Filterung durch privat geführte Plattformen aufgrund der Menge ähnlichen Materials unter Garantie Priorität gegenüber irgendwelchen Gesetzen erhalten würde. Eine Alibidosis „fair use“ gibt es natürlich für jeden immer, ist dann nur sehr stark verdünnt. Es sei denn man schaltete die Plattformlogik insgesamt ab (oder man könnte sich anderweitig legal entziehen)…

  8. Google captchas..

    „Seeotter“
    Bilder: psychodelische Farben ;p, Kaninchen auf Wasser u.ä.

    Klarer Fall: Generative KI – DERZEIT LIVE :).

  9. Das ist insgesamt recht Komplex, und es gibt so einige „Gebiete“ wo noch Entscheidunen nötig wären bzw. werden. Von „Algorithmen können sowas prinzipiell nicht haben/dürfen“ bis zu beliebigen Einzelfallentscheidungen scheint alles drinnen zu sein. Eigentlich zählt auch das Ergebnis eher, der Prozess dafür nicht. Allerdings könnte man sich schon fragen, warum lizenzierten Programmcode klauen nicht gehen soll, Bilder innerhalb eines Verfahrens aber schon – Bei Programmen ist das Ergebnis der ausgabe ja auch vom „Prompt“ abhängig, und man sieht die Bestandteile nicht als Nutzer. Wer weiß wo das mal landet, bzgl. kommerzieller Nutzung.
    Das Gesetz beschäftigt sich allerdings kaum mit Nachhaltigkeit. So könnte es zu einer Zukunftswette werden, was wir dann alles tolles können (müssen) werden, ohne auf immer neue Trainingsdaten angewiesen zu sein, wenn wir zu früh das Zeitalter des freien Wildes einläuten. Naja „wir“… eine Vorlage aus den USA muss nicht bedeuten, dass alle weltweit mitmachen.

Dieser Artikel ist älter als ein Jahr, daher sind die Ergänzungen geschlossen.