Der kometenhafte Aufstieg von KI-basierten Chatbots wie ChatGPT oder Microsoft Copilot wäre wahrscheinlich nicht ohne die Online-Enzyklopädie Wikipedia möglich gewesen. Ihre mehr als 60 Millionen frei zugänglichen Artikel bilden mit die wichtigsten Trainingsdaten für die Large Language Models (LLMs), auf denen die Bots basieren. Eine Untersuchung der Cornell University in New York legt jedoch nahe, dass seit dem Release von ChatGTP im November 2022 circa fünf Prozent neuer englischsprachiger Wikipedia-Inhalte KI-generiert sind.
Da aktuelle LLMs immer noch zu sogenannten Halluzinationen tendieren, also Falschinformationen und nicht existierende Quellen ausgeben, stellt das die Entwickler dieser Modelle vor ein Problem: Fehleranfällige KI-generierte Inhalte als Trainingsdaten für eine vermeintliche KI zu verwenden, ist wie die Schlange, die in ihren eigenen Schwanz beißt – irgendwann verschlingt sie sich selbst. Doch nicht nur OpenAI und Co. stellt das vor existenzielle Herausforderungen. Auch die Wikipedia muss sich fragen, wie sie sich vor der durch generative KI drohenden Fehlerhäufung rettet.
Wiki-Projekt macht Kampfansage
In der englischsprachigen Wikipedia hat sich dazu das „WikiProject AI Cleanup“ gebildet, „ein Zusammenschluss zur Bekämpfung des zunehmenden Problems von schlecht geschriebenen KI-generierten Inhalten auf Wikipedia“. Das Ziel ist es, KI-generierte Inhalte ausfindig zu machen und zu prüfen, ob sie korrigiert oder gelöscht werden müssen. Die Projektseite liest sich wie eine Anleitung für einen kämpferischen Aufräumtrupp: Mit eher schlecht funktionierenden KI-Detektoren absolvieren sie ihren Dienst.
Wie die meisten Teile der Wikipedia ist auch dieses Projekt eine von der Wiki-Community ins Leben gerufene und koordinierte Initiative. Insgesamt 91 Wikipedianer:innen arbeiten hier ehrenamtlich daran, die englischsprachige Wikipedia von halluzinierten, also fehlerhaften KI-Inhalten sauber zu halten. Angesichts der knapp sieben Millionen englischen Artikel dürften sie gut beschäftigt sein.
Mit fast drei Millionen Artikeln ist die deutschsprachige Wikipedia die drittgrößte, gemessen an der aktiven Community sogar die zweitgrößte nach der englischsprachigen Wikipedia. Auch hier hat sich ein Projekt etabliert, das sich mit den Folgen von generativer KI auseinandersetzt. Im „WikiProjekt KI und Wikipedia“ gibt es noch keine konkreten Handlungsanweisungen, hier ist die Community damit beschäftigt, zu evaluieren, wie sich KI auf Wikipedia auswirkt und wie sie „Wissen bewahren und damit die Wikipedia selbst auf Kurs halten“. Wenn das englische Wiki-Projekt eine Kampfeinheit bildet, so wirkt das deutsche Pendant wie ein Forschungsteam.
Unklarheit bei deutscher Wikipedia
Doch wie gehen deutschsprachige Wikipedianer:innen aktuell vor, wenn sie auf KI-generierte Inhalte stoßen? Auch Mathias Schindler musste sich dieser Frage stellen, als er am vergangenen Wochenende in der Wikipedia editierte. Bereits seit über zwanzig Jahren ist er bei Wikipedia aktiv und war 2004 bei der Gründung von Wikimedia Deutschland dabei, dem Förderverein hinter Wikipedia. Beim Kontrollieren von Artikeln ist ihm eine KI-halluzinierte Quelle untergekommen, woraufhin er die Autorin des Artikels darauf aufmerksam machte. Nachdem sie nicht geantwortet hatte, berichtete er darüber im sogenannten „Maschinenraum“, den Diskussionsforen rund um Wikipedia. Andere Nutzer:innen bewirkten daraufhin eine Löschung, der Beitrag ist aktuell nicht mehr verfügbar.
In den Autor:innen-Richtlinien bezieht Wikipedia eine klare Position zur Verwendung von KI-generierten Inhalten: „Sprach-KI sind derzeit nicht in der Lage, korrekt belegte Beiträge zu erstellen, […] ihre Verwendung ist daher derzeit generell unerwünscht.” So klar die Ablehnung hier ausgedrückt ist, so unklar bleibt jedoch der konkrete Umgang mit KI-generierten Inhalten im Editor-Alltag. Denn auch wenn sie unerwünscht sind, machen sie einen nicht unerheblichen Teil der deutschen Wikipedia aus – die Cornell-Studie geht hier immerhin von zwei Prozent der Artikel aus. Einheitliche Regeln, wie Wikipedianer:innen damit umzugehen haben, gibt es aktuell nicht.
Diskussion in vollem Gange
„Es ist eben noch viel im Fluss“ antwortet Raimond Spekking von Wikimedia auf die Frage, warum es keine klaren Regeln gebe. Dafür sei die Diskussion in vollem Gange. Im Wikipedia-Kurier, einem internen Nachrichtenblatt, erscheinen regelmäßig Beiträge zu dem Thema. Auch die zugehörigen Diskussionsseiten erfreuen sich reger Beteiligung. Im Juli 2023 gab es in der deutschen Wiki-Community eine Umfrage dazu, wie mit KI-generierten Artikeln umgegangen werden soll. Von den 240 Teilnehmenden stimmte fast ein Drittel dafür, solche Beiträge zu behalten, solange sie keine Fehler aufweisen. Knapp die Hälfte war allerdings dafür, KI-generierte Artikel kategorisch zu löschen. Einen allgemeinen Konsens scheint es in der Wiki-Community nicht zu geben.
Diese Wahrnehmung teilt auch der langjährige Wikipedianer Mathias Schindler: „Ich sehe den gleichen Querschnitt an Reaktionen aus Faszination, Spieltrieb, Skepsis und Ablehnung, den ich auch im Rest der Gesellschaft sehe.“ Dabei sei zwischen KI-generierten Inhalten und KI im Allgemeinen zu unterscheiden. Auch wenn viele Wikipedianer:innen KI zur Generierung von Text ablehnen, nutzt Wikipedia KI-Werkzeuge in anderen Bereichen ganz bewusst. Zur automatischen Vandalismusbekämpfung dient beispielsweise der auf maschinellem Lernen basierende „Automoderator“.
Ohne die Community geht nichts
Seitdem die EU-Kommission Wikipedia als eine „Very Large Online Platform“ (VLOP) klassifiziert hat, gelten für sie strenge Regeln bezüglich Content-Moderation. So muss die hinter Wikipedia stehende Wikimedia-Stiftung klare Strukturen für Lösch- und Änderungsanträge schaffen. Außerdem muss sie der EU-Kommission regelmäßig über systemische Risiken berichten, die sich in Moderationsanfragen abzeichnen. Aus ihren halbjährlich erscheinenden Transparenzberichten geht jedoch hervor, dass Wikimedia kaum solche Anfragen erhält, da der größte Teil der Content-Moderation von der Wiki-Community selbst übernommen wird.
Wikipedia ist schlussendlich ein Community-basiertes Projekt, ohne sie werden kaum interne Regeln geändert oder durchgesetzt. Zum Austausch der Community findet jährlich die WikiCon statt. Bei der diesjährigen Konferenz in Wiesbaden moderierte die Vorsitzende des Präsidiums von Wikimedia, Alice Wiegand, eine Paneldiskussion zum Thema „KI im Wissenszeitalter“. Sie plädierte für eine reflektierte Haltung und betonte, dass die Community proaktiv überlegen müsse, wie sie ihre Inhalte im KI-Zeitalter so positioniert, dass die Integrität der Wikipedia gewahrt bleibt und sie dennoch die Vorteile neuer Technologien nutzen kann.
Da liegt die Lösung doch auf der Hand: OpenAI & Co unterstützen Wikipedia mit ein paar Millionen Euro und fest angestellten Autoren, die die Qualität sichern, im Gegenzug wird eine wichtige Trainingsquelle sauber gehalten… ;)
Die deutsche Wikipedia hat auch ohne KI Qualitätsprobleme. Den Richtlinien zufolge müssen Aussagen in den Wikipedia-Artikeln mit seriösen Quellen belegt werden. Und nicht der, der eine Aussage kritisiert, muss dafür einen Beleg bringen, sondern der, der die Aussage im Artikel haben will. Die Realität sieht leider anders aus, wie ich vor Jahren erfahren musste. Ich habe eine Aussage, die nicht belegt war und die ich für falsch hielt, auf der Diskussionsseite zur Entfernung vorgeschlagen. Was entfernt wurde, war allerdings mein Wortbeitrag auf der Diskussionsseite. Um die Einhaltung der eingangs erwähnten Wikipedia-Regeln kümmert sich offenbar keiner. Die von mir monierte Passage steht übrigens noch heute drin. Seitdem akzeptiere ich Aussagen in Wikipedia nur noch, wenn es dafür eine nachprüfbare Quelle gibt.
Mattias Schindler hat 2004 die Wikimedia-Stiftung (Foundation) mitbegründet? Das war wohl eher der Verein WMDE. Ist aber auch egal. Was die Haltung der Community betrifft, so kann sie als „gelassen“ beschrieben werden. Eine Handreichung im Umgang mit KI-basierten Texten ist in Arbeit, die Diskussion wird rational geführt und es zeichnet sich ab, dass KI keine Gefahr für Wikipedias Zuverlässigkeit darstellt. Vielleicht kann man sich das Vorgehen gegen missbräuchlich eingesetzte KI als sportlichen Wettkampf vorstellen, wie es ihn schon in den sogenannten „letzten Änderungen (recent changes)“ und der Vandalismusbekämpfung gibt. Also alles kein Grund für mediale Aufregung. Jeder Hype gibt sich mit der Zeit.
Danke für den Hinweis. Er war bei der Gründung von Wikimedia Deutschland dabei. Die betreffende Stelle habe ich nun geändert.
Ich kann Schlesinger nur zustimmen – finde es auch gut, dass darüber berichtet wird.
Aber erstens wird auch bei uns gelöscht nach den gültigen Regeln, wenn der Artikel durch KI erstellt wurde und Bedenken bleiben. Zweitens geht auch bei AI Clean Up nicht die grosse Jagd jetzt los. Das Projekt gibt es schon länger und wenn man genauer liest, differenzieren die auch zwischen KI als Hilfsmittel und KI als Artikel-Ersteller, wenn das dann ungeprüft eingestellt wird. Denn die KI „halluziniert“ manchmal und auch das klingt überzeugend.
Genau diese Differenzierung ist das Problem, dem sich das Projekt in der deutschen Wikipedia widmen will. Und das vor dem Hintergrund der rasanten Technologie Entwicklung.
Besprochen wurde der Beitrag auch im englischsprachigen Wikipedia-Kurier-Pendant Signpost: https://en.wikipedia.org/wiki/Wikipedia:Wikipedia_Signpost/2024-10-19/Recent_research . Dort wurde geschrieben, dass der Wert von 5 % für die untersuchten Artikel vom August 2024 festgestellt wurde. Laut einem anderen Untersuchungsprogramm war man eher an 3 % dran.
Insofern ist „dass seit dem Release von ChatGTP im November 2022 circa fünf Prozent neuer englischsprachiger Wikipedia-Inhalte KI-generiert sind“ etwas irreführend. Es ist eine Momentaufnahme von August 2024.