Digitalminister Karsten Wildberger (CDU) lässt wenig Gelegenheiten aus, um über sogenannte Künstliche Intelligenz zu sprechen. Sein Plan: KI in die Workflows der öffentlichen Verwaltung bringen und die KI-Branche in Deutschland ankurbeln. Im Blick hat er dabei nicht mehr nur Chatbots wie BärGPT vom CityLab Berlin oder LLMoin des öffentlichen IT-Dienstleisters Dataport aus Hamburg. Der neue Hype ist sogenannte agentische KI.
Um diese flächendeckend in der öffentlichen Verwaltung einzuführen, hat das Bundesministerium für Digitales und Staatsmodernisierung (BMDS) im Februar den Agentic AI Hub gestartet. Die Idee des Hubs: KI-Start-ups entwickeln KI-Tools, zugeschnitten auf die Bedürfnisse von Behörden und Ämtern. Staatssekretär Thomas Jarzombek (CDU) sagt dazu: „Wir wollen Start-ups eine Rampe in die Verwaltung bauen.“
Mit KI-Agenten soll die öffentliche Verwaltung effizienter arbeiten und Verwaltungsverfahren sollen insgesamt schneller werden, teilt das BMDS auf Anfrage mit. Das könne man dadurch erreichen, dass agentische KI die Entscheidungsfindung von Sachbearbeiter:innen unterstützt.
„Kollege KI“
Personal in Behörden ist vielerorts überlastet. Unter anderem liegt das an Personalknappheit. Schon jetzt zeichnet sich ab, dass sich das Problem weiter verschärfen wird, wenn Mitarbeiter:innen aus der Boomer-Generation in den Ruhestand gehen.
Mit KI will das BMDS gegen diese Entwicklung ankommen. Die Idee dahinter ist ein „Kollege KI“. Den solle man in die Verwaltung bringen, sagte Heiko Geue im Kontext des KI-Marktplatzes beim Pressegespräch im November. Er ist Vorsitzender des IT-Planungsrats und Finanz- und Digitalminister des Landes Mecklenburg-Vorpommern. Agentische KI könne ähnlich wie ein:e Mitarbeiter:in damit beauftragt werden, bestimmte Aufgaben selbstständig zu erledigen, so das BMDS gegenüber netzpolitik.org. Generative KI könne eine Aufforderung wie „Schreibe einen Bescheid“ in Text umsetzen.
Agentische KI hingegen generiere keine Inhalte wie Texte, Code oder Bilder, sondern könne Aufgaben übernehmen, etwa Antragsunterlagen auf Vollständigkeit prüfen oder personenbezogene Daten in Dokumenten schwärzen. Die Entscheidung solle am Ende aber immer der Mensch treffen, so das Ministerium.
Kommunale KI-Piloten
Ob KI-Programme Mitarbeiter:innen wirklich entlasten und die Arbeit beschleunigen, hierfür legt das BMDS gegenüber netzpolitik.org keine Belege vor. Auf die Frage, welche KI-Projekte Verwaltungsarbeit übernehmen können sollen, verweist die Pressestelle auf den KI-Marktplatz und die H2KI-Plattform. Diese Plattform nutzt KI um Genehmigungsverfahren abzuwickeln. Laut BMDS sei sie „eine Blaupause für den KI-Einsatz bei der Genehmigung von Infrastrukturprojekten“.
Alles netzpolitisch Relevante
Drei Mal pro Woche als Newsletter in deiner Inbox.
Ähnliche Projekte aus Kommunen wählte das BMDS Anfang März aus. Davon gehen zunächst 18 in die Pilotphase und sollen langfristig Verwaltungen bundesweit zur Verfügung stehen. Das Programm Forml der Städte Frankfurt am Main und Düsseldorf richtet sich etwa an Sachbearbeiter:innen von Anträgen auf einen Wohnberechtigungsschein. Laut Produktbeschreibung ist Forml eine Cloud-Software, die „unstrukturierte Daten aus Dokumenten, Scans oder Bildern“ verarbeitet. Es soll eingehende Anträge „auf Vollständigkeit und Einkommen“ prüfen.
Formfix, entwickelt in Köln, Heinsberg und zwei Berliner Bezirken, soll Antragsprozesse auf Hilfe zur Pflege vereinfachen; sowohl für die Antragstellenden als auch für das Amt, das die eingereichten Unterlagen schneller bearbeiten können soll.
Aus dem Neckar-Odenwald-Kreis stammt Lector.ai. „Mittels Vision-LLMs“ verarbeitet die Software Behördenpost und soll „den hohen manuellen Sortieraufwand großer Dokumentenmengen“ reduzieren.
Mehr als Marketing?
Wie viel Zeit können die Werkzeuge in der Praxis einsparen; wie viel Arbeit machen sie langfristig durch Pflege und Fehler? Während solche Fragen noch unbeantwortet sind, rührt der Digitalminister die Werbetrommel. Im Januar warb er damit, dass die KI-Agenten Genehmigungsverfahren zu über 80 Prozent beschleunigen könnten.
Die Bundestagsabgeordnete Rebecca Lenhard von den Grünen fragte nach, wie er zu dieser Einschätzung komme. Weder Methodik noch Vergleichsmaßstäbe hat der Minister offengelegt. „Für eine so weitreichende Behauptung ist das zu wenig“, kommentiert Lenhard in einem Pressestatement.
Effekte der KI-Nutzung müssten „transparent, nachvollziehbar und belastbar evaluiert werden“. Da KI bereits in Genehmigungsverfahren eingesetzt werde, brauche es umso dringlicher „klare Standards für Qualitätssicherung, Nachvollziehbarkeit und Verantwortlichkeit“, fordert die Abgeordnete.
KI ist nicht neutral
Technisch beruhen agentische und generative KI auf denselben großen Sprachmodellen und teilen deren strukturelle Schwächen: KI ist eine Black Box und liefert Output, der nicht neutral ist, sondern „biased“, verzerrt. Black Box meint, es lässt sich nicht genau nachvollziehen, warum KI-Programme zu einem bestimmten Ergebnis kommen.
Wir sind communityfinanziert
Unterstütze auch Du unsere Arbeit mit einer Spende.
Das Bias-Problem besteht darin, dass KI-Systeme auf Trainingsdaten basieren, die ihrerseits von Vorurteilen und Ressentiments geprägt sein können. KI-Output kann daher je nach Kontext diskriminierend sein, rassistisch, ableistisch, sexistisch oder ageistisch.
Dieser Effekt kann sich durch kognitive Verzerrungen bei Menschen verstärken, die mit KI-Erzeugnissen arbeiten. Vorurteile und Ressentiments verbergen sich nicht nur in Trainingsdaten, sondern auch in der Interaktion zwischen Mensch und KI. Welche Fragen Menschen KI stellen, wie sie den Output interpretieren und wie sie darauf reagieren, kann beeinflussen, was diese Systeme tun. Zudem kann der sogenannte Automation Bias dazu führen, dass Menschen die Ergebnisse einer Maschine weniger kritisch hinterfragen als Ergebnisse von Kolleg:innen.
Weiter sind Ergebnisse von KI-Systemen sind nicht verlässlich reproduzierbar. Das macht das Arbeiten nach Grundsätzen wie Nachvollziehbarkeit und Verantwortlichkeit schwer.
Verwaltung muss neutral arbeiten
Wenn Unternehmen mit KI experimentieren, haben sie größere rechtliche Spielräume. Die Verwaltung wiederum muss laut Verfassung neutral, objektiv und gesetzestreu handeln. KI-Systeme sind durch ihre Funktionsweise allerdings nicht in der Lage, Normen anzuwenden oder ethische Verantwortung zu übernehmen – ihre Outputs basieren auf berechneten Wahrscheinlichkeiten. Wie lässt sich das mit der Arbeit der Verwaltung vereinbaren?
David Wagner von der Kanzlei Spirit Legal untersucht, wie die öffentliche Verwaltung KI dennoch in verfassungskonformer Weise nutzen kann. Der Rechtsanwalt beschäftigt sich mit Legal Requirement Engineering, er übersetzt also rechtliche Vorgaben methodisch in technische Anforderungen. Unternehmen können dann regulatorische Anforderungen effizient und rechtskonform in technische Lösungen überführen. Zwar schließe das Grundgesetz den KI-Einsatz nicht aus. Doch bedürfe es technischer und rechtlicher Leitplanken. Ein Baustein könne eine Protokollpflicht sein, die Sachbearbeiter:innen verpflichtet, Eingaben, Ausgaben und eigene Änderungen am Ergebnis zu dokumentieren. Das allein genüge aber nicht.
Das BMDS betont, am Ende treffe immer ein Mensch die Entscheidung. Wagner hält dagegen: Wenn KI-Systeme Anträge vorprüfen oder Bescheide vorbereiten, präge ihr Output die Entscheidung der Sachbearbeiter:innen. Das europäische Datenschutzrecht schränke solche Konstellationen ein. Demnach dürften Entscheidungen gegenüber Betroffenen nicht allein auf automatisierter Verarbeitung beruhen.
Der EuGH habe klargestellt, dass das Verbot auch greife, wenn die Verarbeitung eine menschliche Entscheidung maßgeblich beeinflusse, so Wagner. Menschliche Kontrolle sei ohnehin gefordert. Im Kontext der Verwaltung entbinde sie den Gesetzgeber aber nicht, den Einsatz von KI durch spezielle Rechtsgrundlagen einzuhegen.

ÄHM, the fuck, WAS?
KI Agenten in der Verwaltung? Zu diesem Zeitpunkt? Gibt es ein Land, das das nicht machen will?
Hyperscaling-Cloud-Blockchain-KI-Cyber-Agenten …
für die Verwaltung.
Nenne drei erfolgreiche Digitalisierungsprozesse, die in einer deutschen Verwaltung stattgefunden haben. Erster Ansatz: Ganz einfach, über alle Zeit gesehen, überall. Nicht nur Papier auf Bildschirm geklebt, allerdings.
Frage 12 Randoms ob die was nennen könne. Bereinige entsprechend.
Prinzipiell spricht nichts gegen Machinelearning irgendwo, aber für Checklisten und administrative Vorgaben Ausgebildete Spezialisten, bekommen jetzt eine LLM-basierte Truthtellerpute vorgesetzt? Schon die Idee, dass die Auswahl, die so ein System trifft, sinnvoll sein könnte, ist abstrus. Das kann immer den gleichen Auswahlbias haben, Sachen weglassen etc. Idee ist vielleicht eher eine Art Expertensystem. Die Preisfrage ist allerdings, warum einer KI sowas beizubringen einfacher sein soll, als die Regeln dafür zu erstellen, woraus man im Grunde genommen eine klassische Anwendung bauen könnte? Mit höchster Wahrscheinlichkeit…
Was ist KI?
In ihrem Buch „Hello World“ beschreibt die britische Hannah Frei Mathematikerin in mehreren schönen Beispielen, wie Machine Learning dazu führen kann, dass der menschliche (Unsicherheits-) Faktor bei Entscheidungen wegfällt. Etwa bei Richtern. Die urteilen mitunter, bei identischer Beweis- und Gesetzeslage, sehr unterschiedlich. Nach Präferenz, Hardliner oder nicht. Nach ihrer Einschätzung des Angeklagten (Braucht der eine zweite Chance, oder eine harte Lektion?). Nach Tageslaune. Computerrichter würden bei identischen Fällen identische Urteile fällen. Ist das gut, oder ist das schlecht?
Inzwischen wird KI oft als Synonym für LLM verwendet. Die wiederum arbeiten überhaupt nicht reproduzierbar. Ist das für eine Behörde akzeptabel oder nicht?
Wobei eine wie auch immer geartete KI natürlich bei Behörden, wie auch überall anders, viele Routineaufgaben schneller erledigen, oder besser, vorbereiten kann. Solange ein Mensch die endgültige Entscheidung trifft, wirklich trifft und nicht nur abnickt, spricht wenig dagegen, KI zu nutzen, um diese Entscheidung vor zu bereiten.
Wenn die Computerrichter auf LLMs basieren, würden sie bei identischen Fällen nicht identische Urteile fällen.
Zudem ein Spielraum intendiert ist. Ob wir da verlottert sind, oder ob es gute Gründe dafür gibt ist eine nachgelagerte Frage.
Systeme, die Wissen nicht aktiv konsolidieren, sind in solchen Szenarien womöglich eine unglaublich schlechte Idee (lebendiges Gesetz).
Das ist eine spekulative These. Grundsätzlich mag es insoweit richtig sein, dass auch der Vortrag des Sachverhalts und die entsprechende Argumentation in ansonsten identischen Fällen unterschiedliche Urteile fällen. Und auch, dass bei hinreichend komplexen Sachverhalten Selbiges unterschiedlich gewichtet würde. All das ist heute aber ohnehin Alltag, indes werde ich nicht für automatisiertes Urteilfällen argumentieren.
Mir geht es um einen grundlegenderen Aspekt: Aus der „indeterministischen Natur“ von LLMs, zumal deaktivierbar (Stichwort: Top-P-Sampling), folgt nicht, dass ihre Ausgaben in einem semantischen Sinne zufällig oder vollkommen divers sein könnten.
Varianz ist keine Willkür
Auch bei identischen Sachverhalten ist Varianz kein Systemfehler. Recht ist kein Mechanismus, sondern Diskurs.
Entscheidungen streuen nicht beliebig, sondern innerhalb eines Korridors der Vertretbarkeit – geprägt durch Gesetz, Dogmatik und Argumentationskultur. Diese Struktur sichert Stabilität, ohne Einzelfallgerechtigkeit zu opfern.
Begrenzte Varianz ist kein Mangel, sondern Qualität. Sie zeigt, dass das Recht differenziert, statt Regeln mechanisch zu vollziehen.
Maßstab ist nicht Identität, sondern Begründung. Willkür beginnt erst, wo der Begründungszusammenhang abreißt.
Begründungspflicht und Instanzenzug korrigieren nicht Varianz, sondern machen sie überprüfbar.
Entscheidend ist daher nicht gleich oder ungleich, sondern begründet oder unbegründet. Totale Reproduzierbarkeit hieße nicht Fortschritt, sondern Verlust juristischer Rationalität.
Recht setzt die Möglichkeit des Unrechts voraus. Es ist Sollensordnung, nicht Naturgesetz. Wo Abweichung unmöglich wird, verschwindet das Subjekt – übrig bleibt Verhalten.
Auch im Begriff „Machine Learning“ steckt Lernen. Das kann nur aus Daten der Vergangenheit bedient werden, also aus den Fällen der „harten“ und „weichen“ Verurteilung in Ihrem Beispiel.
Wie entscheidet die Software denn bei Auswahl von „6 Monaten“ und „6 Jahren“ Gefängnis (den Fall „unschuldig“ lasse ich hier zur Vereinfachung mal weg)? 3 Jahre Gefängnis kann ja wohl nicht richtig sein, sonst wäre in der Vergangenheit entsprechend geurteilt worden sein. Also lernt die Maschine, dass in Bayern die Strafen höher sind als in Berlin oder dass Angeklagte aus den „besseren“ Vierteln niedrigere Strafen bekommen also Leute aus den „schlechten“ Gegenden.
Ist das gut oder ist das schlecht?
Die einzig sinnvolle Verwendung von LLMs in dem Kontext wäre Archivkram. Dafür muss die Software aber 100% funktionieren, und darf keinen Auswahlbias haben. Das gilt im Grunde auch für nicht-LLM Software. KI-Agenten kann sinnvoll sein, wenn man z.B. Kommunikation mit anderen Behörden und anderen Ländern u.ä. vereinfachen könnte. Dafür braucht es aber eigentlich wieder Prozesse, und im Moment sehe ich nicht, welchen Vorteil derzeitige KI-Systeme in hochfehlerfreien Bereichen bieten, wenn das Grundproblem die technische Formulierung von digitalisierbaren Prozessen ist. Die Idee, derzeitige Technologie ohne technische Formulierung draufzuwerfen, weil KI schon so süss ist, ist Wahnsinn.
Lieber ein KI-Agent als Frau Braun die Ausländern dazu rät das Land zu verlassen, wenn sie die Sprache (noch) nicht drauf haben. Ja, hat meine Frau so erlebt :)
„personenbezogene Daten in Dokumenten schwärzen“
schöner Ablenkungsversuch. Gemeint ist natürlich das Gegentei: Daten sammeln und zusammenführen. Siehe die Idee mit Scan von Social-Media.
Daten auch über Sprachbarrieren hinweg zu sammeln und zusammenführen ergibt beinahe Sinn, für derzeitige KI-Agenten. Vor allem wenn man dann noch anhand der hier getätigten Interaktionen gesammeltes Material ausschließt. Das erfordert allerdings wiederum echte Designarbeit, und ist eher der Kontext Einwanderung. Ein Problem ist dabei allerdings immer die Auswahl und die Auswertung, sowie was das Ergebnis des Technologieeinsatzes ist. Ist man ohne extensive Social-Media-Historie automatisch verdächtig?
„personenbezogene Daten in Dokumenten schwärzen“ – Auswahlproblem, big fail. Vgl. Epstein Files. Man kann und sollte Hilfssysteme bauen, aber der Prozess des Einsatzes will wohl überlegt sein. Zu vermeiden ist die Wahrheitsmaschine, bei nicht gegebenem technologischen Stand. Um fast jeden Preis. (Vielleicht haben wir später mal etwas, was Sprache gut hinkriegt, aus Interpretationsfehlern lernt, und seine eigene Unsicherheit berücksichtigt und artikuliert bzw. vermerkt.)
FYI
https://www.lto.de/recht/justiz/j/warum-wir-mehr-richter-staatsanwaelte-brauchen-justiz-ueberlastung-ki-gerichte-arbeit
Millionen unerledigte Strafverfahren, langsame Zivilprozesse – und wir brauchen plötzlich nicht mehr Personal? Richter Leif Schubert warnt, auch KI wird für mehr Arbeit in der Justiz sorgen. Und jetzt ist die beste Zeit für Nachwuchsgewinnung.
Was ist los innerhalb der Justiz? Gegenwärtig sind mehr als eine Million Strafverfahren unerledigt und damit so viele wie noch nie. Medien berichten über 50 mutmaßliche „Schwerverbrecher“, die im Jahr 2025 wegen Überlastung und Fristüberschreitung aus der Untersuchungshaft freigelassen werden mussten. In der Ziviljustiz dauern die Verfahren heute deutlich länger als früher, obwohl die Eingangszahlen langfristig gesunken sind.
Um Berge abzuarbeiten, könnte vielleicht auch ein imperfektes System potentiall hilfreich sein. Aber das muss ganz klar eine Notlösung sein, beim Stand der Technik, und der Prozess muss so sein, dass die KI aussichtsreiche Ansätze liefert o.ä., die dann danach bewertet werden, ob man den Berg kleiner kriegt.
Ich schreibe jetzt KI-Agenteneinsatz runter, weil es aus meiner Sicht nicht die Qualität gibt, weder in der Gesetzgebung, noch auf Seiten der KI. Das soll nicht heißen, dass es nicht doch sinnvoll sein könnte, automatische Verfahren zu basteln, die durchaus von sprachfähigen KI-Teilen mitgestaltet würden. Hier ist äußerste Vorsicht geboten, und aus Meiner Sicht braucht man dafür einen neuen digitalen Prozess, Verfahrenssorten, aber vor allem auch eine Art Vorverfahren, in dem man ausprobieren kann (SIC), wie sich der Sachverhalt wahrscheinlich ausspielen würde. Dabei gäbe es eine Phase für allein, und eine mit Gegenpartei, die noch nicht juristisch bindend ist. Will man sich nicht abwimmeln lassen, braucht man einen Anwalt, oder schaltet das Verfahren heiß. D.h. aber auch, dass Beschwerden an Mensch möglich sein müssen, dass Verfahrensfehler und Beschwerden anders gehandhabt werden müssten. Man findet jetzt Ecken und Kanten, aber im Wesentlichen muss man was neues Bauen. Haben wir noch Architekten?
Womöglich wäre es auch sinnvoller, die Gesetzgebung zu reformieren, was Strafen und Fristen betrifft, wobei man bereits an Auswertung durch Maschinen denken sollte (nicht KI allgemein so). Das wäre aber so, wie plötzlich übergeordnete Qualitätsstandards für die Gesetzgebung einzuführen. Ob der politische Wille jetzt dafür wiederum hinreichen würde?
»KI-Systeme sind durch ihre Funktionsweise allerdings nicht in der Lage, Normen anzuwenden oder ethische Verantwortung zu übernehmen – ihre Outputs basieren auf berechneten Wahrscheinlichkeiten.«
Ethische Verantwortungsübernahme scheitert zwar am Subjektstatus, aber die Aussage ist bezüglich der Normanwendung falsch. Sie können das (auch).
Und man sollte beim Menschen ebenso wenig unterstellen, er entschiede, selbst wenn er es sich vornähme, allzu deterministisch im Sinne einer reproduzierbaren Entscheidung. Der Unterschied liegt hier nur darin, dass wir dem Menschen Verantwortung zuschreiben und ihn zu dieser ziehen können. Aber zu glauben, der Mensch entfalte eine Sonderstellung im Rahmen von „Agency“ halte ich für eine rechtliche Betrachtung infolge einer gesellschaftlichen Notwendigkeit, nicht für die Wahrheit.
Eigentlich, Fälle ohne Ermessensspielraum beiseite geschoben [und Menschen die Interpretation des Sachverhalts und Tatbestandszuschreibung überlassen], ist das doch der ideale Anspruch an Recht: Dogmatik als Algorithmus, im Sinne eines Subsumtionsautomaten.
Für Letzteres wäre eine saubere digitale Repräsentation von Gesetzen und Normen als ordentlich strukturierter Algorithmus (und damit über eingeschlafene Projekte wie openlegaldata.io, offenegesetze.de oder das BundesGit hinaus) viel eleganter als sich auf LLMs einzulassen. Nennt sich dann »Symbolische KI«.
Zum Thema scheint es übrigens ein recht spannendes Buch zu geben, habe aber selbst noch nicht über das Vorwort hinaus drin lesen können:
Rechtsmaschinen: von Subsumtionsautomaten, künstlicher Intelligenz und der Suche nach dem „richtigen“ Urteil / Stephan Meder E-Book ISBN: 9783412520182
Der alte Traum der Kybernetik, quasi Normanwendung auf Knopfdruck. Leider fehlt bei den LLMs aber die Semantik, weswegen sie einen Sachverhalt, ein Vorkommnis oder Tatverläufe nicht erkennen, verstehen, einordnen oder bewerten können. Natürlich können das manche Menschen je nach Einzelfall auch nicht, aber generell gesehen können sie es. Und sie fragen oft nach oder müssen sogar nachfragen, um eine fehlende oder unsichere Einordnung nachzuholen.
Wer Rechtsregeln für semantikfrei anwendbar hält, kann höchstens einen winzigen Anteil meinen. Denn Gesetze sind nicht für Software geschrieben, sondern für rechtsanwendende Menschen. LLMs können diese Normen nicht anwenden, gerade weil sie von Menschen für menschliche Anwender für Entscheidungen über zwischenmenschliche Vorkommnisse in den meisten nur denkbaren Facetten geschrieben wurden. Man müsste daher (sofern man das für ein sinnvolles Ziel halten würde) zuerst die Gesetze maschinenanwendbarer gestalten.
(Das Buch ist übrigens vor dem Bohei um LLMs entstanden, könnte also KI auch so definieren, dass Semantik nicht hinten runter fiele. Dann aber wär der Weg technologisch noch sehr weit und bliebe wohl dennoch ethikfrei.)
Wenn wir unter „Semantik“ ein phänomenales Erleben oder eine bewusste Intentionalität verstehen, dann fehlt diese den LLMs vollständig. In diesem metaphysischen Sinne „verstehen“ sie einen Sachverhalt freilich nicht. Zuweilen mag hier aber strittig sein, inwieweit das subjektive und tatsächliche Erleben von unabdingbarer Relevanz für Intentionalität als auch Rationalität sein muss. Stichwort: Epiphänomenalismus.
Doch auch sonst würde ich dagegenhalten: Funktional können sie es sehr wohl. Wir dürfen nicht den Fehler machen, ein menschliches, mit Absicht und damit Intentionalität aufgeladenes Bewusstsein als zwingende Voraussetzung für die funktionale Anwendung von Normen zu definieren.
Die Modelle operieren auf Basis einer funktional korrekten Repräsentation der Wirklichkeit. Allein schon durch die inhärente Struktur der „praktischen Sprache“, mit der sie trainiert wurden, können sie Sachverhalte sehr wohl erkennen, einordnen und bewerten. Das System „Sprache“ trägt unsere menschliche Semantik, unsere Beziehungsgeflechte und Logiken bereits qua Anwendung und damit im Trainingsmaterial in sich. Das Modell muss die Welt nicht physisch erleben, um aus den Vektoren und Kontexten unserer Sprache logisch korrekte Schlüsse zu ziehen. Die Semantik liegt im Corpus selbst. Vergleichend: Das chinesische Zimmer
Rechtsanwendung – also die Subsumtion eines Sachverhalts unter eine Norm – ist letztlich „bloß“ hochkomplexer Musterabgleich von Konzepten. Da ein LLM diese Konzepte internalisiert hat und die Themenfelder auch auf konzeptueller Ebene repräsentieren kann, wendet es sie zuweilen sehr sauber an. Es „löst“ diese Aufgabe, auch wenn ihm die menschliche Komponente der eigenen Verantwortungsübernahme fehlt. Es simuliert das Verstehen syntaktisch wie funktional semantisch so hinreichend präzise, dass das Ergebnis – die Einordnung und Bewertung – in der Praxis _rein funktional_ echtem „Verständnis“ entspricht.
Ich würde Semantik so verstehen, wie die meisten Menschen das Wort verstehen, nämlich auf der inhaltlichen Bedeutungsebene: was ist etwas, was mit einem bestimmten Begriff bezeichnet ist. Dann wär ein Satz wie „Die Sonne versteckt sich im Keller des Hauses.“ semantisch eben unsinnig, wie jeder weiß, aber grammatikalisch ein gültiger Satz. Er kann auch verwendet werden, vielleicht als Witz oder poetisch oder in Science-Fiction. Man kann einem LLM antrainieren, dass dieser Satz im Rahmen unserer Wirklichkeit keinen Sinn ergibt, da sehe ich keine großen Probleme.
Wenn das bereits „funktional“ verstehen ist, dann widersprechen wir uns nicht allzu sehr. Aus meiner Sicht operieren LLMs aber bisher nicht auf einer „funktional korrekten Repräsentation der Wirklichkeit“, das zeigen die semantischen Tests ja auch (nicht überraschend natürlich). Nur darauf trainiert zu sein, semantische und gewissermaßen auch logische Fehler zu vermeiden, reicht aus meiner Sicht bei weitem nicht aus.
Bei der Rechtsanwendung würde ich dir auch nicht zustimmen, ich verstehe sie auch anders. Nichts, absolut gar nichts kann ein LLM „internalisieren“, dann das hieße, es in die eigene Gedankenwelt aufzunehmen, sogar mit den eigenen Werten abzugleichen.
„Die Sonne versteckt sich im Keller des Hauses.“
Wäre zB in einer SciFi Erzählung mit dort befindlichem Fusionsreaktor eine valide Aussage.
Sag ich doch. :}
Es war auch keine Gegenrede 8)
Fair. Denke dann sind wir auf konzeptueller Ebene nicht anderer Meinung.
> Allein schon durch die inhärente Struktur der „praktischen Sprache“, mit der sie trainiert wurden, können sie Sachverhalte sehr wohl erkennen, einordnen und bewerten
Da will ich widersprechen. Gerade das kann ein LLM nicht ohne weiteres zuverlässig genug. Zuverlässig genug. Zudem ist Struktur eigentlich das Gegenteil davon, wie diese LLMs funktionieren. Vor allem sind die implizit enthaltenen sprachlichen Strukturen nicht mit konsolidierten spezialisierten Fähigkeiten von Juristen zu vergleichen. Wir reden nicht darüber, Umfragebögen von KI ausfüllen zu lassen, sondern Jobs zu ersetzen, bei denen es auf Korrektheit in einem sich wandelnden Feld ankommt. D.h. die Prozesse sind auf konsolidieren von Wissen, Fehlervermeidung und Fehlerkorrektur abgestimmt, die Hilfsmittel darauf ausgerichtet. Der Sprung scheint noch ziemlich weit, was das betrifft. Dazu kommt, dass konstruktionsbedingt eine Verbesserung eines Systems eine Art Würfelwurf bleibt, denn die Benchmarks deiner Kanzlei sind nicht die Benchmarks von „a Ring to rule them all“.
Wie Constanze anmerkt reicht das allein nicht aus, ich meine allerdings auch nicht die rein logische Ebene, und auch die kriegen LLMs nicht entsprechend hin, bzw. nur mit Tricks und Expertensystemallüren. Viele vergleichen diese enzyklopädischen Systeme mit einem einzelnen Menschen, aber Menschen bauen gemeinschaftliche Kontexte, um Fähigkeit und Zuverlässigkeit bereitzustellen. Man muss sich derzeit entscheiden, ob man einen Fortschritt für die Menschheit will, oder $ für LLM-Horst.
Ein Fehlverhalten in so einem System zu beenden, wäre unabdingbar sofort nötig. Es würde gnadenlos in der Fläche ausgenutzt, und das könnte einfach eine semantische Spielerei sein. Da sind wir auch nicht (vgl. Prompting Hell).
> Wir reden nicht darüber, Umfragebögen von KI ausfüllen zu lassen, sondern Jobs zu ersetzen, bei denen es auf Korrektheit in einem sich wandelnden Feld ankommt.
Ich glaube die Lösung für das wäre eine dual-use Praxis: Bessere Struktur, überall. Eben das schließt dann aber weiter die Gap zwischen dem, was ein LLM mit entsprechendem Tool-Harness und etwas Reinforcement Learning und ein Mensch tun können. Und das, da würde ich mitgehen, falls darauf der zweite Teil des Kommentars abzielt, weckt nur Begehrlichkeiten und Akteure, die vorrechnen, wie viel „effizienter“ man ohne den Menschen mit Arbeitsplatz und damit entsprechenden Kosten wäre. Die Einführung solcher Systeme wird dann selten als Werkzeug zum tatsächlichen Fortschritt der menschlichen Fehlerkultur diskutiert, sondern primär als Maßnahme zur Profitmaximierung.
> Dazu kommt, dass konstruktionsbedingt eine Verbesserung eines Systems eine Art Würfelwurf bleibt, denn die Benchmarks deiner Kanzlei sind nicht die Benchmarks von „a Ring to rule them all“.
Ich habe weder eine Kanzlei, noch bin ich Jurist. Aber die Quintessenz, dass man aus punktuellen, kleinen Benchmark-Erfolgen keine voreiligen Schlüsse auf die Zuverlässigkeit im produktiven Gesamtsystem ziehen sollte, teile ich vollständig.