Eigentlich wollte Mathias Schindler nur eine kleine Sache in der Wikipedia korrigieren. Doch dann baute der Wikipedianer versehentlich einen Detektor für bestimmte KI-generierte Inhalte in der Enzyklopädie. Auf dem 39C3 berichtet er, warum die halluzinierten Texte auch ein Problem für die Anbieter großer Sprachmodelle werden könnte und warum er den Autor:innen keine guten Absichten unterstellt.
Die kleine Sache, die Schindler korrigieren wollte, waren fehlerhafte ISBNs. Mit diesen 10 oder 13-stelligen Nummern werden Bücher identifiziert und finden sich oft in Quellenangaben von Wikipedia-Einträgen. Dabei sind die Zahlenkombinationen nicht vollkommen zufällig, erklärt Schindler im Talk. Die letzte Ziffer ist eine Prüfziffer, sie lässt sich aus den neun beziehungsweise zwölf vorherigen Ziffern berechnen. Ursprünglich wollte Schindler falsche ISBNs in der Wikipedia aufspüren und ausbessern, auch damit Nutzer:innen die richtigen Bücher finden, die als Referenzen in den Artikeln angegeben wurden.
Zufallsfund dank falscher ISBNs
„Referenzen auf Wikipedia sind nicht nur wichtig, sondern ein integraler Teil der Wikipedia“, sagt Schindler und verweist in seinem Vortrag auf den alten Spruch: „Wikimedia mag ein guter Ort sein, um eine Recherche zu starten, aber es ist ein schlechter Ort, um dort die Recherche zu beenden.“ (Alle Zitate aus dem Talk haben wir ins Deutsche übersetzt.) Schindler muss es wissen. Er ist Mitbegründer von Wikimedia Deutschland und Wikipedia-Autor seit 2003.
Um die inkorrekten ISBNs zu finden, schrieb Schindler ein Skript, lud die gesamte deutschsprachige Wikipedia herunter und durchsuchte sie nach ISBNs mit einer faulen Prüfziffer, erzählt er in seinem Vortrag. Doch er stieß nicht nur auf falsch eingegebene ISBNs oder von den Verlagen falsch ausgegebene ISBNs, sondern fand auch Artikel, bei denen zwei oder mehr Bücher fehlerhafte ISBNs hatten. Diese Bücher schienen zwar plausible Titel und Autor:innen zu haben, aber Schindler konnte sie nirgendwo sonst finden. Sie waren halluziniert.
Offenbar hatten sich Menschen ganze Artikel von einem Large Language Model (LLM) wie ChatGPT schreiben lassen, welches sich dann auch einen Abschnitt mit Einzelnachweisen ausdachte.
Noch ist es ein Nischenphänomen
Im Gespräch mit netzpolitik.org erzählt Schindler, dass er mit seiner Methode etwa 150 Artikel gefunden habe, bei denen man Sorge haben müsse, dass sie zumindest teilweise KI-generiert und frei erfunden seien. Allerdings seien die fehlerhaften Einträge nicht ausschließlich auf KI-Chatbots zurückzuführen, manchmal gebe es andere Gründe für mehrfach falsche ISBNs, sagt Schindler. Außerdem gibt es über drei Millionen deutschsprachige Wikipedia-Artikel, die 150 Auffälligen machen also nur ein äußerst geringen Anteil von 0,005 Prozent aus.
Alles netzpolitisch Relevante
Drei Mal pro Woche als Newsletter in deiner Inbox.
Andererseits erfasst Schindlers Methode auch nicht alle Halluzinationen, dafür war es schließlich nicht gedacht. „Dieses Werkzeug ist nicht das Universaltool zum Erkennen von ChatGPT-generierten Artikeln.“ Andere Möglichkeiten, solche Inhalte zu enttarnen, seien etwa systematische Abweichungen von der Syntax von „Media Wiki“ (der Software hinter Wikipedia). Oder wenn Autor:innen viele Adjektive verwenden: „Kein Wikipedianer, der was auf sich hält, wird den Fernsehturm als ‚großartig‘ oder ‚herausragend‘ bezeichnen.“
LLM generierter Text „Anti-These zu Wikipedia“
Doch auch wenn das Erstellen von Wikipedia-Artikeln mit LLMs noch nicht so verbreitet sein sollte, geht es für Wikipedia um Grundsätzliches: Die Kontamination mit Inhalten, die auf den ersten Blick wahr erscheinen könnten und sich als Fakten tarnen. Schindler sagt: „Man könnte es auch als Anti-These zu einem Enzyklopädie-Projekt wie Wikipedia beschreiben.“
Die Gefahren? Zum einen können sich falsche Infos verselbstständigen, wenn eine andere Veröffentlichung den vermeintlichen Fakt von Wikipedia abschreibt und die Wikipedia diese Veröffentlichungen hinterher als Beleg für genau diesen Fakt aufführen. Schindler weist in seinem Vortrag auf diesen Teufelskreis hin, der bereits vor LLMs ein Problem darstellte.
Glaubwürdigkeit in Gefahr – und die Qualität von LLMs
Zum anderen verschlingen LLM-generierte Quellen zunehmend die Ressourcen unterschiedlichster Einrichtungen. Nicht nur die der Online-Enzyklopädie: Irregeleitete Nutzer:innen fragen etwa Bibliothekar:innen nach ausgedachten Büchern, berichtete 404 Media im Herbst. Beim Internationalen Komitee des Roten Kreuzes (ICRC) wurde die Situation offenbar so schlimm, dass es sich mit einer „wichtigen Mitteilung“ an die Öffentlichkeit wandte.
„Wenn eine Referenz nicht gefunden werden kann, heißt das nicht, dass das ICRC Informationen zurückhält. Verschiedene Situationen können das erklären, wie etwa unvollständige Zitationen, Dokumente, die in andere Institutionen lagern, oder – zunehmend – KI-generierte Halluzinationen“, warnte das ICRC Anfang Dezember.
Auch für die Entwickler von Large Language Models hätten halluzinierte Wikipedia-Artikel Nachteile, argumentiert Schindler. Denn ihre Modelle werden oft mit Wikipedia-Artikeln trainiert. „Die KI-Firmen profitieren von hochwertigen Daten und leiden unter dem Verlust von Quellen, die frei von synthetischen Texten sind“, sagt im Schindler im Gespräch mit netzpolitik.org. Oder wie er es im Vortrag formuliert: „LLM-Provider vergiften damit auf eine Art den Fluss, aus dem sie selber trinken“, sagt Schindler.
Wir sind ein spendenfinanziertes Medium
Unterstütze auch Du unsere Arbeit mit einer Spende.
Wer macht sowas?
Doch wer stellt eigentlich LLM-generierte Inhalte in die Wikipedia? „Bunt gemischt“, erzählt Mathias Schindler im Gespräch mit netzpolitik.org. Von Wikipedia-Neulingen über langjährige Autor:innen bis zu einer Werbeagentur sei alles dabei gewesen. Er habe versucht, möglichst viele Autor:innen von verdächtigen Artikeln zu kontaktieren. Manche hätten ihn ignoriert, andere alles geleugnet oder den Einsatz einer LLM heruntergespielt.
„Eine Erklärung ist, dass Menschen LLMs tatsächlich als Recherchewerkzeug ansehen, das magischen Zugang zu wissenschaftlichen Datenbanken und Literatur hat und belastbare Belege liefert“, sagt Schindler zu netzpolitik.org. Bisher habe er aber noch keine solche Person unter den verdächtigen Autor:innen getroffen. Stattdessen vermutet Schindler eher persönlichen Geltungsdrang oder dass Personen eine Agenda verfolgen, die Enzyklopädie in ihrem Sinne umzuschreiben.
In seinem Vortrag erzählt Schindler, er habe alle verdächtigen Autor:innen, um den Prompt gebeten, mit dem diese den Artikel generiert hätten. „Das ist mein persönlicher ‚Litmus‘-Test, ob die Menschen ehrliche Absichten haben“, sagt Schindler. Nur eine einzige Person habe den Prompt nach vielen Nachfragen privat geteilt.
Die Herausforderung bleibt
Laut Schindler wurden alle gemeldeten Artikel gelöscht, bei denen die Autor:innen die Zweifel nicht ausräumen konnten, dass sie KI-generiert waren. In vielen Fällen wurden auch die Autor:innen gesperrt. In einem Richtlinien-Artikel der deutschsprachigen Wikipedia heißt es dazu: „Sprach-KI sind derzeit nicht in der Lage, korrekt belegte Beiträge zu erstellen. Beiträge, die damit erstellt werden, verstoßen daher unter anderem gegen WP:Keine Theoriefindung, WP:Belege, WP:Urheberrechtsverletzung, WP:Neutraler Standpunkt; ihre Verwendung ist daher derzeit generell unerwünscht.“
Für Schindler bleibt es eine Herausforderung für die Wikipedia-Community, halluzinierte Texte aufzudecken, zumal Chatbots künftig ISBNs mit einer korrekt berechneten letzten Stelle erfinden könnten. Er hofft auf einen konstruktiven Dialog mit den KI-Firmen. „Mein persönlicher Wunsch wäre, dass man durch Austausch und vielleicht Kompetenztransfer mit den KI-Firmen erreicht, dass man KI-generierte Texte leichter erkennt, wenn jemand versucht, sie in die Wikipedia zu stellen.“
Am Ende ist die Geschichte der KI-generierten ISBNs auch eine über falschen und vielleicht besseren KI-Einsatz. Denn den Code für seinen ISBN-Checker hat Schindler auch mithilfe von Large Language Models geschrieben.

Es müssen endlich ganz andere KI Systeme entwickelt werden die nicht wie LLMs funktionieren sondern ganz anders, also z.B. alle Informationen maschinell verifizieren etc. Müll KI die Mist produziert ist schließlich keine Bereicherung für die Gesellschaft.
Maschinelle Verifikation ist beispielsweise, dem LLM einen Taschenrechner zur Überprüfung oder Durchführung von Rechnungen zu geben. Teilweise nutzen „KIs“ heute schon Programmiersprachen wie Python und andere Systeme, um Aussagen zu verifizieren. Das wird also gemacht.
Die Simulation von Kompetenz wird dadurch ein wenig besser – bis man auf die Klappe fällt, wenn man sich darauf verläßt. Ohne Taschenrechner für die „KI“ würde man den Fehler sicher schneller erkennen. Sonst ändert sich aber nichts dadurch.
Ein Dummbart mit einem Taschenrechner bleibt ein Dummbart. Schraub deine von der Industrie induzierten Erwartungen ein wenig runter.
Ja, es wird so eine Art von Expertensystem. Auch das kann die Menschen blenden, bzgl. der Fähigkeiten, denn man muss unterscheiden, welche Teile spezialisierte Subsysteme behandelt haben, und ob das LLM überhaupt an der Interpretation der Eingabe beteiligt war, bzw. wie.
Denkt man etwas weiter, wird „jeder“ so ein System bauen. Es wird wichtiger zu wissen, was welche Sorte von System in welcher Reihenfolge beigesteuert hat, als sich auf „X% Ergebnisse, so allgemein“ zu verlassen. Die Blackbox ist konzeptionell tot (was diese Sorte System betrifft).
Der im Text genannte ‚Litmus‘-Test entspricht im Deutschen dem „Lackmus“-Test.
Es ist traurig, daß dieses Projekt so torpediert wird!
Da kann ich Schindler nur zustimmen. (Nicht nur) der „Teufelskreis“ stellt ein Problem der „large language models“ dar. Die Argumentation, es müsse eine Quelle von Informationen ohne KI geben ist (fast mathematisch) logisch. Selbstbezüglichkeit macht jede Aussage bedeutungsleer.
Anmerkung: Selbstbezüglichkeit ist, wenn die KI aus KI-generierten „Dokumenten“ lernt. Es entsteht wörtlich Chaos daraus…
Ich kenne Schindler nicht persönlich. Doch in diesen Punkten: gut, den bei Wikipedia zu haben!
Nur, Vorsicht mit „KI“-generiertem Programmcode! Cut here, wird zu theoretisch und OT. Nur, @“Piratenpartei Wähler“: ich stimme da so einfach nicht zu. Das löst das Problem nicht.
LLM-KI-Systeme sind sehr mächtige Werkzeuge.
Richtig eingesetzt – also die Eingaben richtig formuliert und die Ausgaben gegengeprüft – sind sie eine enorme Arbeitshilfe. Aber sie können auch großen Bockmist bewirken, wenn man sich nicht an diese beiden Grundregeln hält.
In privaten Diskussionen und Erklärungen vergleiche ich LLMs immer mit einer großen Kettensäge. Kannst du damit richtig umgehen, erledigt man die Aufgaben, für die dieses Werkzeug gedacht ist, in einem Bruchteil der Zeit. Bei Falschanwendungen ist eine Katastrophe aber schneller eingetreten, als man „AUA“ sagen kann.
Und wenn man sie für Aufgaben nutzt, für die sie nie gedacht waren, ist es bestenfalls Glückssache, wenn etwas Verwertbares herauskommt.
(Warum Gegenprüfen Pflicht ist, versteht sich wohl von selbst. Aber auch die richtige Formulierung der Eingaben ist enorm wichtig – sonst läuft man schnell Gefahr, dass diese falsch interpretiert werden oder man gibt direkt einen Bias mit und lenkt die Ausgabe so sogar direkt in eine bestimmte Richtung.)
„Richtig eingesetzt – also die Eingaben richtig formuliert und die Ausgaben gegengeprüft – sind sie eine enorme Arbeitshilfe.“
Das mag sein, wenn es um das Totschlagen einer Aufgabe geht. Bzgl. der Masse bin ich skeptisch, ob man den Nachweis immer im Voraus erbringen kann, ob das System in einem konkreten Fall überhaupt „richtig eingesetzt“ werden kann.
Abgesehen von Nachteilen, wie der Unmöglichkeit, gegenüber einem Cloudsystem relevante Fähigkeiten zu entwickeln, bedarf es doch der Quantifizierung seitens der Wissenschaft, wie Nutzen und Gefahren sich hier in der Realität ausspielen. Bei Cloudsystemen ist definitiv Alarm angesagt, machtspezifisch, geostrategisch, bzgl. Fähigkeiten, auch welche kaputtgemacht werden, auch wenn es die Betreiber „nur könnten“, u.a. Aus meiner Sicht sind das prinzipiell Showstopper, deren Klärung eine notwendige Bedingung auch nur für die Erlaubnis des Betriebs darstellen sollte, abgesehen von wissenschaftlichen bzw. nichtkommerziellen transparenten Plattformen.
Das Handeln der Menschen wird mit den Werkzeugen von der Wolke immer naiver. Das ist auch logisch, denn das Handeln von immer mehr Menschen wird immer präziser von immer weniger handelnden Entitäten beeinflusst und geformt. Unzulänglichkeit führt, gewissermaßen. Dies stellt eine Form der Singularität dar. Würde mich nicht wundern, wenn das bei fortgeschrittenen Zivilisationen ein Extinktionskriterium wäre.
Zustimmung, natürlich.
Doch wie werden Systeme „richtig“ eingesetzt, die Eingaben richtig formuliert und die Ausgaben gegengeprüft? Und ist es überhaupt möglich, einen Bias zu vermeiden? Schließlich will ich doch etwas von der KI.
Diese Systeme sind darauf ausgelegt, dich zufrieden zu stellen. Bin ich konservativ, so gibt mir die KI konservative Argumente, bin ich grün, dann Grüne oder rot dann Rote. Das ist nicht nur auf politische Meinungen beschränkt. Frage ich nach Python, C++, Lisp, gar Rust, so erhalte ich entsprechend gefärbte Antworten.
Kürzlich meinte das Teil glatt zu mir, ich hätte da etwas (mathematisches) „bewiesen“, was noch niemand geschafft hatte. „Hält“ mich die KI für so dämlich, wie sie selbst ist? Jede dritte Antwort ist eine Entschuldigung mit Wiederholung von Fehlern im Brustton der „Überzeugung“. Wir des kompliziert, braucht es echte „Intelligenz“, so verfällt eine KI in Schleifen.
Als Werkzeug okay, wenn du ™ zufrieden bist, alles gut. Doch glaub nicht alles, was du denkst! Und was die KI „denkt“ schon mal gar nicht. Ein Hammer ist super. Doch „wenn du einen Hammer hast, dann sieht alles wie ein Nagel aus“ ist doch recht beschränkt.
Regel 1: wenn du keine Ahnung hast, dann hilft dir die KI maximal, Pointer zu finden, mit denen du dir Ahnung erarbeiten kannst. Wenn du es nicht selbst könntest, dann kannst du die Antwort auch nicht beurteilen. Mach dir nichts vor!
Ich hatte bereits vor ca. 10 Jahren einmal Probleme, eine seriös belegte Änderung an der Aussprache eines bestimmten Wortes auf Wiktionary vorzunehmen. Der Wikipedia-Mitautor (laut den Infos, die eine Personensuche damals ergab, ein Informatiker und damit keiner vom Sprachenfach), der die vorhergehende, falsche Schreibung eingestellt hatte, hatte da nämlich einen Bot geschaltet, der automatisch tätig wurde, wenn an seinen Wiktionary-Eintragungen etwas verändert wurde. Der Bot stellte jedesmal automatisch seine eigene (alte) Version wieder her. Außerdem war damals sichtbar, dass der Typ an zahlreichen Einträgen mitschrieb, und dass ein paar andere Mitautor:innen sein Verhalten auf der Diskussionsseite scharf kritisierten. Jedoch ohne Konsequenzen, bis heute, wie ich gerade nochmal gesehen habe. Die falsche Aussprache des Wortes steht da immer noch, und diverse Mit-Autor:innen merken an, dass die Aussprache nicht korrekt angegeben sei. Ändern tut sich daran aber nichts. Wahrscheinlich korrigiert der Typ das noch immer maschinell … Es ist also kein so neues Problem, aber wenigstens erhält es jetzt etwasmehr Öffentlichkeit. Denn mich hat es damals abgeturnt, weiter bei solchen partizipativen digitalen Projekten mitzumachen, denn was ich fachlich beizutragen hatte wurde von einem fachlich schwächeren, aber technisch dominanten Typen dauernd gelöscht. Kam mir nicht sinnhaft vor, ließ auch tief blicken (Qualität von Wikis, Patriarchat etc.) und ich habe mich Anderem zugewandt, wo ich einen Unterschied machen kann.