Können Maschinen denken? Den berühmten Mathematiker und Übervater der Künstlichen Intelligenz Alan Turing hat allein schon die Frage aufgeregt. Sie sei bedeutungslos. Es gehe doch in Wahrheit darum, ob wir in der Lage sind, eine maschinelle Täuschung als eine solche zu entlarven.
Diese Erkenntnis kam Turing vor mehr als sieben Jahrzehnten, weit bevor „denkende“ Maschinen oder auch nur funktionierende Computer entstanden. Doch die Frage der Entlarvung einer maschinellen Täuschung könnte aktueller nicht sein. Oder können Sie noch mit Sicherheit ausschließen, diese Woche schon einen generierten Text gelesen zu haben?
Turing verdeutlichte das Problem in einem Aufsatz von 1950 mit einem spielerischen Test: In der bekannten Version des von ihm beschriebenen Imitationsspiels befinden sich ein Mensch und eine Maschine hinter einem Sichtschutz, um von einer Person per Chat verhört zu werden. Die Antworten werden auf einem Bildschirm angezeigt. Kann der Mensch allein mit geschickten Fragen und den auf dem Computerbildschirm ausgegebenen Antworten entscheiden, ob sich ein Mensch oder eine Maschine hinter dem Absender verbirgt?
Heute nennen wir dieses Imitationsspiel in einer abgewandelten Variante nach seinem Schöpfer den Turing-Test. Und selbstverständlich schaffen es einige Maschinen heute, die sie verhörenden Menschen über ihre Maschinenhaftigkeit zu täuschen. Sie wurden schlicht so programmiert. Aber gewöhnliche Software, die nicht speziell für diesen Test erstellt wurde, scheitert oft schnell.
Seriosität simulieren
Der Brite Turing war nicht der einzige, den „denkende“ Maschinen beschäftigten. Ungefähr zur gleichen Zeit, allerdings auf der anderen Seite des Atlantiks, stellten sich John McCarthy, Marvin Minsky und einige Kollegen eine verwandte Frage: Wie können wir Denken simulieren, indem wir maschinelle Worte so transformieren, dass sie sich mit Hilfe von Mathematik ausdrücken lassen?
Inzwischen simulieren die heutigen Large Language Models (LLMs) recht eindrucksvoll zwar nicht das Denken, aber doch das formalisierte Schreiben und fachliche Sprechen hinreichend gut. Sie können uns durch KI-generierte Stimmen täuschen. Sie übertrumpfen vor allem aber locker die Bemühungen von McCarthy und Minsky um ganz weltliche Fragen nach der Finanzierung ihrer Forschung. Als Nebenprodukt ihrer wissenschaftlichen Überlegung fiel der Hauptantrieb der heutigen KI-Entwicklung ab: Allein die Verwendung des von ihnen erfundenen Schlagwortes Artificial Intelligence bringt nun bereits seit siebzig Jahren Fördergelder ins Haus.
Künstliche Intelligenz
Wir schrieben schon über maschinelles Lernen, bevor es ein Hype wurde. Unterstütze unsere Arbeit!
Die Summen sind gigantisch. Es ist daher nur logisch, dass von den KI-Anbietern nun auch der letzte Schritt des Turingschen Imitationsspiels vollzogen wurde: Wie können wir Seriosität so simulieren, dass wir mit Wagniskapital in Milliardenhöhe vollgepumpt werden?
Die wissenschaftliche Antwort
Wenn man sich die Frage stellt, ob die angebeteten neuen LLM-Werkzeuge seriös und zuverlässig genug für den produktiven Einsatz sind, sollte man nicht die Anbieter oder deren PR-Verbündete fragen, sondern unabhängige Forscher. Die wissenschaftliche Antwort auf diese Frage ist deutlich: nein. Eine Studie der Stanford-Universität wertete beispielsweise 200.000 Anfragen über rechtliche Fragen mit gängigen LLMs aus, die schlicht blamable Ergebnisse erbrachten.
Umso komplexer die Fragen wurden, desto schlechter schnitten die LLMs ab. Zuweilen war ihr Antwortverhalten nicht besser als „zufälliges Raten“, wie die Forscher nicht ohne Süffisanz feststellten. Insgesamt pendelten die Antworten von GPT 3.5, Llama 2 und PaLM 2 zwischen 58 Prozent und 82 Prozent Falschantworten bei den gestellten juristischen Fragen.
Dass die Systeme auch in neueren Versionen keine wahrheitsgemäßen Antworten generieren, sondern nur plausible Texte, stellen selbst die Anbieter generativer KI-Systeme klar. In einem Interview rückte kürzlich Microsofts CEO Satya Nadella auch von dem selbst gesteckten Anspruch ab, eine denkende KI zu erschaffen. Die gegenwärtigen Bezugspunkte rund um Artificial General Intelligence (AGI) seien „nonsense“ und leeres „benchmark hacking“.
Es gehe doch darum, dass mit Hilfe dieser KI ein Wirtschaftswachstum wie zu Beginn der Industriellen Revolution möglich sei, meint Nadella. Die viel geeignetere Richtgröße könnte daher sein, ob eine AGI in der Lage ist, hundert Milliarden US-Dollar Gewinn zu erwirtschaften. Dann sei das Ziel der Artificial General Intelligence erreicht, wie es in einer internen Absprache zwischen OpenAI und Microsoft heißt. In der Tat passen Lotterie und Börsenspekulation auch viel besser zur Funktionsweise dieser stochastisch arbeitenden Systeme.
In der Wirklichkeit ist Gewinn freilich noch weit entfernt. Bisher ist noch nicht einmal Rentabilität absehbar. Sam Altman, CEO von OpenAI, räumte kürzlich ein, dass sein Konzern selbst mit seinem teuersten Abonnement von derzeit 200 US-Dollar monatlich immer noch Geld verliert.
Geringe Güte, hohe Popularität
Was macht man also, wenn man ein unrentables Softwareprodukt geringer Güte, aber hoher Popularität hat, das quasi aus technischen Gründen immerfort auch Falsches und sogar Unfug in seine Antworten einfügt? Denn Semantik kann und wird ein LLM nicht beherrschen.
Natürlich gibt es darauf schon eine Antwort: Man bietet zum LLM auch ein passendes „Hallucination Prevention Toolkit“ an. Übersetzt ist das ein Halluzinationsverhinderungswerkzeugkasten, was die Komik der Idee viel besser unterstreicht als die englische Version.
Dieser Halluzinationsverhinderungswerkzeugkasten ist nicht etwa nur eine Idee, sondern kommt beispielsweise beim Sozialratgeber-Chatbot in Oberösterreich zum Einsatz, einem LLM namens KARLI. Der Chatbot wird als „KI-Assistent“ vermarktet, „mit sprachlichen Fähigkeiten, die denen von ‚ChatGPT‘ ähneln“. Dazu gehört eine „strenge Hallucination Prevention“, heißt es beim Anbieter für „halluzinationsfreie, sichere und vertrauensvolle LLM-Antworten“.
Das ist ein bisschen, als würde man eine tolle neue Softwarelösung anbieten und dann aber hintendran ein paar notwendige Erweiterungen ranpappen, damit sie keinen fiktionalen Unsinn auswirft. Übersetzt in Brückenbau wären das wohl Extra-Stützen neben den Brückenpfeilern.
Offenbar ist die Idee überkommen, ein Mensch mit Hirn und Kontextwissen könnte das Generierte tatsächlich lesen (wollen). Mit Hilfe eines Halluzinationsverhinderungswerkzeugkastens ließe sich die Quote sicher noch weiter senken.
Den Unsinn der LLMs aussieben
Eigentlich hatten die großen KI-Anbieter schon vor mehr als einem Jahr versprochen, dass grober Unfug, erfundene wissenschaftliche Quellen und falsche Referenzen der Vergangenheit angehören sollten. Das sei nur der Neuartigkeit der Technologie geschuldet, das merze man nun aus. Selbstverständlich gibt es noch immer peinliche aufgedeckte Fälle mit nicht existenten Belegen.
Deswegen muss eine andere Lösung her: Microsoft hat schon einen Weg gefunden, die „Halluzinationen“ zum Geschäftsmodell umzufunktionieren. Der Konzern bietet nämlich „Microsoft Correction“ an. Das ist auch eine Art Halluzinationsverhinderungswerkzeugkasten, wird aber als Halluzinationskorrektur vermarktet.
Die Nutzung kostet übrigens erstmals nichts, ist aber leider nur zusammen mit der „groundedness detection“ zu bekommen, um den Unsinn der LLMs auszusieben. Bis zu 5.000 Textbausteine pro Monat können kostenlos überprüft werden, danach sind 38 US-Cent pro 1.000 Bausteine zu löhnen, um LLM-Unfug zu eliminieren. Wer MS Correction also in Unternehmen zu verwenden plant, sollte sich auf einige Extrakosten einstellen. Wohlgemerkt für die notwendigen Korrekturen eines Diensts, der schlicht Fehler auswirft.
Eine geniale Geschäftsidee, das muss man Microsoft lassen. Selbstverständlich wird dadurch aber keine Fehlerfreiheit garantiert, wo kämen wir da auch hin? Aber der Anreiz der Anbieter, den erfundenen Quatsch bei den LLM-Antworten zu minimieren, dürfte damit wohl sinken.
Unterhaltung und Seelenfrieden
Wir müssen dringend kurz noch über diese „Halluzinationen“ sprechen. Es wird fälschlicherweise davon ausgegangen, dass die Maschine halluziniert. Es sind aber tatsächlich die Menschen, die Täuschungen unterliegen und die LLM-Ergebnisse schlicht überinterpretieren. Es ist ein bisschen so, wie wir Figuren in den Wolken zu erkennen glauben.
Wenn wir ein Buch lesen oder einen Film schauen, dann sehen wir mit Absicht über all die inhaltlichen Ungereimtheiten und sogar über Kommafehler und unstimmige Dialoge hinweg, damit wir das Narrativ und die Illusion genießen können. Das dient der Unterhaltung und dem Seelenfrieden.
Bei KI und speziell LLMs beobachten wir die gleichen Phänomene, nur dass diesmal schier unglaubliche Mengen an Wagniskapital fließen, wenn die Märchengeschichten nur ernsthaft genug behauptet werden. Und dieser Quatsch von einer die Menschheit unterjochenden General Artificial Intelligence mag ja in Buch oder Film ganz unterhaltsam sein, aber sollte nicht dazu verleiten, ein Schauspiel mit der Wirklichkeit zu verwechseln.
Stefan Ullrich ist promovierter Informatiker und Philosoph, der sich kritisch mit den Auswirkungen der allgegenwärtigen informationstechnischen Systeme auf die Gesellschaft beschäftigt. Er ist Referent für Digitale Bildung in der KI-Ideenwerkstatt für Umweltschutz.
Danke f[r diesen Betrag!
Angenommen, ein Spaßvogel würde eine 20GB große Textdatei hochladen, die ausschließlich die Aussage enthält, Donald Trump sei ein Blumenkohl… Ob das wohl in die Datenbasis der KIs mit einfließt? Ich würde zu gerne wissen, wie gut die Dompteure(?) das Futter vorsortieren.
Viele Spaßvögel mit kleinen unterschiedlichen Textschnipseln, die ernsthaft formuliert sind, hätten vielleicht eine geringe Wirkung.