KI in der BildungWenn der Computer Noten verteilt

Algorithmen können Bildungssysteme revolutionieren, aber auch Menschen diskriminieren. Wie sich die Technik ethisch vertretbar einsetzen lässt, diskutieren Experten auf EU-Ebene. Die EU-Kommission stuft den Bereich als „hochriskant“ ein.

Algorithmen können Rechenaufgaben lösen und auswerten.
Künstliche Intelligenz wird an Schulen und Universitäten schon eingesetzt. Die Software begründet ihre Einschätzungen nicht, kann aber Menschen diskriminieren. CC-BY 2.0 Mike MacKenzie

Nach dem Unterricht haben Lehrerinnen und Lehrer oft noch keinen Feierabend. Nachmittags müssen sie häufig Klausuren korrigieren oder den nächsten Tag vorbereiten. Das kann mitunter eintönig sein. Und es bleibt ihnen keine Zeit, einzelnen Kindern gezielt zu helfen, die mit dem Unterricht schlechter zurechtkommen als andere. Das könnte sich ändern, sobald ein Computer die Klassenarbeiten bewertet.

Dass sogenannte Künstliche Intelligenz (KI) in Deutschland Klassenarbeiten beurteilt, ist abgesehen von kleineren Übungen wie Multiple-Choice-Tests noch eine Zukunftsvision. In den USA werten Algorithmen dagegen schon Textaufgaben aus. Der KI-Experte Tobias Röhl glaubt, dass es auch in Deutschland so weit kommen kann. Dann hätten Lehrer auch mehr Zeit, einzelnen Kindern zu helfen. „Es ist aber wichtig, dass die Lehrer bei einer Bewertung das letzte Wort haben“, sagt der Professor für Digital Learning and Teaching an der Pädagogischen Hochschule Zürich. Weil jeder Algorithmus von Menschen programmiert werde, solle außerdem transparent gemacht werden, wie das Programm arbeitet und bewertet.

Röhl glaubt, dass KI-Anwendungen durchaus sinnvoll im Unterricht eingesetzt werden können. „Zum Beispiel als adaptive Lernsysteme: Die Schüler lösen Aufgaben am Computer, der dann passend zu ihrem Leistungsniveau neue Aufgaben stellt.“ Das System solle aber nur angewendet werden, wenn es die Kommunikation zwischen Schülerinnen und Schülern sowie die Beziehung zur Lehrperson nicht beeinträchtige.

Tobias Röhl ist Professor für Digital Learning and Teaching an der Pädagogischen Hochschule Zürich.
Tobias Röhl ist Professor für Digital Learning and Teaching an der Pädagogischen Hochschule Zürich. - Alle Rechte vorbehalten Tobias Röhl

KI-Forschung läuft

Solche Programme werden an deutschen Schulen noch nicht standardmäßig eingesetzt. Das Deutsche Forschungszentrum für Künstliche Intelligenz unterstützt aber etwa 60 KI-Projekte, darunter viele im Bildungsbereich. Beispielsweise wurde drei Jahre lang ein internationales Projekt gefördert, in dem personalisierte Lernsoftware in mehreren Sprachen programmiert wurde. Mehrere andere Projekte haben das Ziel, mithilfe künstlicher Intelligenz zu erkennen, in welchem psychischen Zustand die Nutzer sind und ihnen passende Aufgaben vorzuschlagen, die sie nicht überfordern. Außerdem gibt es Projekte, in denen Studierende und Berufstätige mit den Herausforderungen der künstlichen Intelligenz vertraut gemacht werden.

Bislang ist dieser Bereich, der ein hohes Potenzial für Diskriminierung birgt, jedoch zu weiten Teilen unreguliert. Zuletzt legte die EU-Kommission einen Gesetzesvorschlag zur Regulierung von automatisierten Entscheidungssystemen vor. In der Bildung eingesetzte KI-Systeme sollten als „hochriskant“ eingestuft und entsprechend streng geregelt werden, heißt es im Entwurf. Zugleich setzt sich seit Juni 2021 auf EU-Ebene eine Expertenkommission mit ethischen Fragen zur KI in der Bildung auseinander. Tobias Röhl zählt zu den 25 Mitgliedern. Er hofft, dass die ethischen Standards, die die Expertenkommission empfehlen wird, eine gute Grundlage für bildungspolitische Entscheidungen sein werden.

KI-Programme arbeiten oft intransparent

„Bisher ist KI-Software in der Regel intransparent. Sie erklärt nicht, warum sie etwas gut oder schlecht bewertet hat“, sagt Röhl. Algorithmen müssten nicht nur transparent arbeiten, ihre Nutzer sollten auch dafür sensibilisiert werden, dass sie verzerrte Daten bekommen. Für den Schulalltag sei es darüber hinaus wichtig, dass alle Lehrkräfte über die digitalen Anwendungen Bescheid wüssten.

„Daten sollten möglichst diskriminierungsfrei gestaltet werden, komplett ist das aber nicht möglich“, sagt Tobias Matzner, Professor für Medien, Algorithmen und Gesellschaft an der Universität Paderborn. Denn während Menschen eine Software programmierten, würden sie auch ihre Vorurteile an das Programm weitergeben. Es ist also theoretisch möglich, dass die Software einen Schüler schlechter bewertet als seine Klassenkameradin, weil er eine andere Hautfarbe hat.

Algorithmen mit Stolperfallen

Doch wie programmiert man einen Algorithmus, der möglichst wenige Menschen diskriminiert? Darüber zerbrechen sich derzeit weltweit Expertinnen und Experten ihre Köpfe. Ein Ansatzpunkt wäre etwa, die KI-Software bestimmte persönliche Merkmale nicht erkennen zu lassen, sagt Matzner: „Wenn zum Beispiel in einem Bewerbungsverfahren Männer und Frauen die gleichen Chancen haben sollen, darf die KI, die die Bewerbungen erfasst, das Geschlecht nicht bewerten.“ Alleine damit ist das Problem aber nicht aus der Welt geschafft. Denn die Software könne sich das Geschlecht mitunter über sogenannte Stellvertretermerkmale erschließen. „Das geht, weil Kombinationen anderer Merkmale wie zum Beispiel Alter, Wohnort oder Beruf oft mit dem Geschlecht korrelieren“, so Matzner.

Wie man es nicht machen sollte, hat jüngst Großbritannien demonstriert. Dort sollte tatsächlich ein Algorithmus über Schulabschluss-Noten entscheiden: Weil 2020 wegen der Corona-Pandemie viele Abschlussprüfungen ausfielen, wollte die britische Regierung ein Programm ausrechnen lassen, welche Noten Schüler am ehesten erreicht hätten. Der Mechanismus hätte jedoch gute Schüler aus öffentlichen Schulen in sozial benachteiligten Gegenden schlechter gestellt, während schlechtere Schüler aus Privatschulen vom tendenziell besseren Durchschnitt profitiert hätten – ein Musterbeispiel dafür, wie schlecht durchdachte Algorithmen Diskriminierung fortschreiben können. Es kam zu lautstarken Protesten. Die Regierung knickte schließlich ein, stattdessen mussten die Lehrer Bewertungen abgeben. Ganz altmodisch.

7 Ergänzungen

  1. Das Vorhaben ist, mit Verlaub gesagt, hirnrissig und vom zwanghaften Wahn diverser Politiker und leider auch Wissenschaftler beseelt, alles und jedes künftig einem Rechner oder einer Maschine überlassen zu wollen.

    Es ist ein Ammenmärchen, man hätte als Lehrer, würde der Computer Korrekturaufgaben übernehmen, mehr Zeit, um den Kindern „zu helfen“.

    Selbst wenn dies halbwegs gelänge, würde dies durch die jetzt schon gnadenlose Überfrachtung des Lehrberufes durch Bürokratie und gesellschaftlichem Anspruch („Lehrer als Familienersatz und Korrektor misslungener, familiärer Erziehung“) kompensiert werden und damit scheitern.

    Obwohl es durchaus sinnvoll ist, in Maßen (!) Software im Unterricht einzusetzen (z. B. zur Darstellung bestimmter Formeln, Graphen oder Abläufe in den Naturwissenschaften), wird ein Algorithmus niemals die Face-to-Face-Kommunikation zwischen Schüler(inne)n und Lehrer(inne)n ersetzen können. Denn genau das macht Pädagogik aus!

    Nicht umsonst freuen sich die Kinder/Jugendlichen nach der Corona-Zwangspause, endlich wieder im Unterricht sein zu dürfen.

    Und in diesem kann ich z. B. jederzeit auf menschlicher (!) Basis abwägen und begründen, ob ich bei einer mündlichen Abfrage oder Schulaufgabe bei „,5“ die bessere oder schlechtere Note gebe.

    Ein Algorithmus wird das niemals schaffen, da er die Motivation, die Psyche des einzelnen Schülers, die Lernumgebung, das Vorwissen usw. nicht kennt. Das ist auch nicht programmierbar.

    Unterricht lebt von Kommunikation, Interaktion, und vor allem der Einbeziehung menschlicher Komponenten auf allen Ebenen!

    Es wäre WEITAUS sinnvoller, wenn sich die sogenannten Bildungspolitiker und diversen Fachleute (?) dieser unumstößlichen Tatsachen bewusst würden und sich auf das Beheben gesellschaflicher Missstände, die durchaus auch auf die Schulen wirken, konzentrieren anstatt einen Algorithmus Lehrer/-in spielen lassen zu wollen.

    1. Die ganze tolle automatische Auswertung hilft bei der Errichtung eines Beschwerderegimes. D.h. das Regime stellt einen Djungel dar, in dem die meißten aus Verzweiflung oder Unwissen ihre Chancen nicht nutzen, um Entscheidungen in Frage zu stellen. Dadurch wird Zeit „gespart“. Natürlich nur auf dem Papier, oder wenn Lehrer entsprechend skrupellos agieren wollen.

      Deutlich sinnvoller wäre eine Texterkennungs- und Zusammenhangsfindungs-KI, die die Lehrer beim korrigieren von Arbeiten unterstützen können, und in der Lage ist, on-the spot zu lernen, z.B. spezielle Handschriften, ganz ohne Cloud und so weiter.

      Und bitte: erst an den UNIs einführen, dann reden wir über das Prinzip, welche Auswirkungen Fehler im Design an früher Stelle haben, und wie man eine Zivilisation baut, die sich nicht aufgrund eigener Dummheit weitestgehend selbst nivelliert oder sogar komplett auslöscht.

    2. Ich habe mir vor einigen Jahren mal Bewertungsbögen für Abiklausuren angesehen. Da stehen halt so Dinge drin wie „erwähnt mindestens 2 dieser Aspekte … : +1 Punkt“, etc. Und die Lehrer müssen sich afaik im Wesentlichen daran halten. Ob das bei der gegebenen Klausur sinnvoll ist, ist egal.
      In USA sind standardisierte Tests noch weiter etabliert, was Teilweise zu so Absurditäten führt, dass eine Aneinanderreihung von zufälligen Wörtern, die aber bestimmte Keywords enthält, mit der vollen Punktzahl bewertet werden muss.
      Solche bewertung von einer KI machen zu lassen machts jetzt am Ende auch nicht mehr aus.

      Was ich sagen will: Das Problem ist weniger die Art der Bewertung sondern viel mehr der ganze Ansatz von Unterricht und in Erweiterung die Zielsetzung, einen Abschluss zu bekommen, anstatt tatsächlich etwas zu lernen.

      1. Mündliche Prüfung in Vergangenheit und Zukunft: Welche Farbe hat das Kleid von Svetlana Yamahakowa auf seite 114 der zwölften Originalausgabe von "Bieg und Schieben" von Klaus Rotz? sagt:

        Das entspricht dem Ansatz, die Eigenbeteiligung der Lehrer auf das Lehren zu beschränken, bzw. gehässig formuliert: auszumerzen. So kann nämlich mehr durch den Rahmen festgelegt werden, Rahmen sind jetzt heilig.

        Dann wird sicherlich keine positive Anrechnung z.B. von Eigeninteresse oder Beteiligung oder gezeigtem Können erfolgen, sondern nur noch auswertungsfreundliches Multiple-Choice auf den Tisch geknallt.

        Damit das funktioniert, wird z.B. prüfungsrelevante Literatur dann auch nur noch mit Blick auf DEN Rahmen zweckgebunden KI-generiert.

  2. Also ich habe mal einen Physiklehrer für eine Klausur 12 Punkte o.ä. geben sehen, weil eine einzelne Aufgabe hochsystematisch bearbeitet worden war, während der Rest doch stark abfiel. Das würde eine KI wohl nicht bringen.

  3. Vielleicht sollte man die Idee der Bewertungen als solches hinterfragen, wenn das Ziel „lernen“ und nicht „sortieren“ ist?

    Ansonsten gibt’s vieles an „Handwerkszeug“, was Kinder hervorragend selbsttaetig und selbstbestimmt mit Programmen einueben und verinnerlichen koennen, und das raeumt Lehrern und Kindern dann durchaus mehr Zeit frei fuer sinnvolle Beschaeftigung miteinandern.

    Leider ist auch hier „Digitalisierung“ viel zu oft nur „das alte umgesetzt mit IT, bloss keine Anederungen“, und das liefert natuerlich bestenfalls fragwuerdige und schlimmstenfalls sehr negative Ergebnisse. Das profitorientierte und kaputtgesparte US-Bildungssystem ist fast immer nur als schlechtes Beispiel gut.

  4. Sehr geehrter Herr Wydra,

    vielen Dank für Ihren interessanten Artikel. Es ist ein hoch spannendes Thema, wie die technische Weiterentwicklung im Bildungssystem genutzt werden kann.
    Bei der Bewertung von Leistungen der Schüler gibt es verschiedene Gesichtspunkte, welche bei der Vergabe einer Note eine Rolle spielen.
    Ich bin jetzt schon gespannt, wie dieses Thema in der Zukunft Einzug erhält.

    Beste Grüße
    Winfried

Dieser Artikel ist älter als ein Jahr, daher sind die Ergänzungen geschlossen.