Korrekturen mit KI? Eine Bestandsaufnahme

Wenn ich in Gesprächen mit anderen Lehrkräften erwähne, dass ich ein kleines Korrekturtool für Klassenarbeiten und Klausuren programmiert habe, dann spüre ich ganz häufig aufkeimende Hoffnung:
„Ein digitales Korrekturtool? Korrigiert das dann meine ganzen Arbeiten von selbst?“ Mit leuchtenden Augen werde ich angeschaut, als ob ich den heiligen Gral gefunden hätte und all ihr Leiden und die mühseligen Korrekturstunden nun ein Ende hätte.

Es tut mir dann weh, sie enttäuschen zu müssen. Nein, KURT nimmt dir die Korrekturen nicht ab. Du musst schon noch die Texte und Aufgabenergebnisse selber lesen, Fehler anstreichen, Punkte verteilen und Feedback geben. KURT hilft dir nur, diese Dinge besser zu tun, z.B. durch das automatische Zusammenzählen der Punkte, das Berechnen der Note oder durch das systematisierte Vergeben von Feedback mit Hilfe von Textbausteinen („Fördertipps“).

Aber mit der Ankunft von ChatGPT Ende 2022 scheint die Erlösung greifbar nahe. Textbasierte KI ist mittlerweile in der Lage, jeden beliebigen Text auf Fehler hin zu überprüfen, Punkte auf Basis von vorher festgelegten Kriterien zu vergeben und ein zusammenfassendes Feedback zu geben. Mittlerweile gibt es eine Reihe von Tools, die sich auf das Korrigieren spezialisiert haben:

fiete.ai

Fiete.ai ist eine noch recht junge und spannende Entwicklung und meiner Einschätzung nach aktuell das beste KI-basierte Feedback-Tool auf dem deutschsprachigen Markt. Die Online-App ist sehr einfach und intuitiv zu bedienen: Ich erstelle eine „Aufgabe“, beschreibe, was ich von meinen Lernenden erwarte (auch mit Material, z.B. einem Textauszug) und lege bis zu 7 Bewertungskriterien fest.

Dann verteile ich einen Link, den meine Lernenden per Klick oder QR-Code-Scan öffnen, um dort in einer Eingabemaske ihre Ergebnisse einzutragen oder per Texterkennung. Sind die Ergebnisse abgegeben, erhält der Lernende ein recht detailliertes Feedback mit kriterienorientierten Verbesserungsvorschläge und einem Fortschrittsbalken.

Auch ich als Lehrkraft kann dann dann einen Einblick in fietes Bewertung erhalten, wobei hier noch zwischen 1. Abgabe und finaler Abgabe (also inkl. Revisionen) unterschieden werden kann:

fobizz

Der Fobizz-Korrekturassistent ist anders als Fiete rein „Lehrerbasiert“, d.h. Schülerinnen und Schüler können dieses Tool nicht für sich selbst nutzen. Als Lehrkraft kann ich Schülerlösungen in ein Textfeld reinkopieren. Eine Texterkennung gab es mal, diese wurde aus Datenschutzgründen aber deaktiviert. Es sind bis zu fünf Bewertungskriterien möglich, die unterschiedlich gewichtet werden können.

Am Ende gibt Fobizz eine Fehlerliste und einige Verbesserungstipps heraus, die man den Prüflingen zB als PDF mitgeben kann. Auch Kriterien und eine Endnote werden am Ende ausgegeben. Die Korrektur-KI basiert auf ChatGPT, welches fobizz als API nutzt.

PEER

PEER ist sowohl für Lehrende als auch für Lernende kostenlos und ohne Anmeldung nutzbar. Hier können Aufgabenstellung und die eigene Lösung per Text oder Anhang eingefügt werden.

Daraufhin zeigt PEER zwei verschiedene textbasierte Rückmeldungen an, jedoch keine Punkte.

Feedbackergebnis von PEER (vom Fiete-Blog)

PEER bietet auch eine Liste von Verbesserungsvorschlägen, die in Teilen relativ konkret sind (siehe Tipp 2):

ChatGPT & Co:

Auch mit den „klassischen KI-Tools“ wie ChatGPT oder perplexity können mit entsprechenden prompts Texte korrigiert werden. Nutzen Sie dafür Fragen wie:

„Aufgabe: [Aufgabenstellung]
Kriterien: [Kriterien mit Erwartungen (optional mit Gewichtung) eintippen]

Korrigiere den folgenden Text auf Basis der obigen Aufgabenstellung und der Kriterien. Mache eine Liste mit Sprachfehlern und schließe das Feedback mit einem Abschlusskommentar ab, das sowohl ermutigt als auch 2-3 Hauptbaustellen aufzeigt. Zeige zudem an, welche Note es in einer Arbeit geben würde.
[Schülerlösung]“

Use case & derzeitige Einschränkungen

So vielversprechend und durchaus beeindruckend diese Tools sind, sind sie dennoch nicht das „Allheilmittel“ für die Korrekturbelastungen von Lehrkräften. Wie schon aus den obigen Beschreibungen deutlich wird, geht es bei diesen Feedbacktools primär um „Prozessfeedback“ und nicht um eine vollständige Korrektur einer Klausur oder Klassenarbeit. Lernende können vor „der großen Prüfung“ wertvolle Resonanz erhalten, ohne dass die Lehrkraft 30 Texte lesen und korrigieren muss. Dies kann z.B. im Rahmen einer „Probeklausur“ oder einer Übungsstunde geschehen.

Der (verständliche) Wunsch, dass Lehrkräften die komplette Klausurkorrektur abgenommen wird – im Sinne einer Blackbox – Arbeiten rein, Korrektur raus – wird bisher noch nicht erfüllt. Dies liegt an folgenden Einschränkungen:

Technische & praktische Limitierungen

Limitierte Kriterien: Eine Klassenarbeit oder Klausur besteht meistens aus einer Vielzahl an Kriterien und Unterkriterien. Eine Oberstufenklausur in Englisch in NRW hat z.B. allein für die Darstellungsleistung 12 Kriterien, die drei Kategorien (Kommunikative Textgestaltung, Ausdrucksvermögen und Sprachrichtigkeit) zugewiesen sind. Fiete kann allerdings nur 7 Kriterien, Fobizz nur 5 Kriterien berücksichtigen. Unterkriterien sind bisher in keinem KI-Tool vorgesehen. Ebenso fehlt die Berechnung von Teilnoten.
Fehlender Mix aus geschlossenen und offenen Aufgaben: Einige Klassenarbeiten (besonders in der Sek 1) bestehen aus einer Mischung aus geschlossenen und offenen Aufgaben (z.B. Lückentexte fürs Leseverstehen und eine abschließende offen Textaufgabe). Die oben vorgestellten Korrekturtools sind jedoch nur darauf ausgelegt, Feedback für längere Texte zu geben. Natürlich gibt es auch die Möglichkeit, einfaches richtig/falsch-Feedback über diverse Abfrage-Tools (z.B. Microsoft Forms) oder auch über KI-Tools wie ChatGPT abzufragen, aber aktuell ist es noch nicht gut möglich, ein strukturiertes und kombiniertes Feedback aus komplexen und einfachen Aufgaben mit anschließendem Rückmeldebogen (zB als PDF) zu bekommen. Fiete, Fobizz und Peer beherrschen wie schon gesagt die Autokorrektur von Multiple-Choice-Aufgaben oder ähnlich geschlossenen Aufgabenformaten noch nicht.
Feedback teils noch recht unspezifisch und ungenau: Das derzeitige Feedback ist schon gut, teils aber auch recht generisch. Es werden z.B. relativ wenig Beispiele gegeben, an welcher Textstelle ein Schüler ungenau war oder wie genau die Zitationsweise verbessert werden kann. Die Bremer Lehrerin C. Potthoff, die die KI-Tools genau untersucht hat (vgl. Artikel auf fiete), macht in ihrem Fazit folgende Bemerkungen:

„Alle getesteten KI-Anwendungen […]

- - - sind tendenziell oberflächlich, d. h. verweisen nicht auf zu verbessernde oder besonders gelungene Passagen (Negativ-, Positivkorrektur),
    - sind unspezifisch, da sie keinerlei konkrete inhaltliche Verbesserungsvorschläge beinhalten, die sich auf den Ausgangstext (hier Szene I, 8 aus „Emilia Galotti“) beziehen
    - oder auf konkrete inhaltliche Vorzüge eingehen,
    - erkennen offensichtlichen Nonsens nicht.“ [Die Lehrerin fügte einer Schülerlösung einen Absatz mit unsinnigen und zusammenhangslosen Informationen ein, der von allen KI-Tools ignoriert wurde]
- Das konkrete Feedback variiert sogar, wenn ich es mehrfach ausprobiere – obwohl der Text identisch ist. Dies ist zumindest bei Peer und auch bei Fobizz der Fall.

Fehlende oder unpräzise Handschriftenerkennung: In der Regel werden Prüfungen in Deutschland handschriftlich geschrieben. Es gibt zwar gerade in naturwissenschaftlichen Fächern Ausnahmen (siehe dieser Fall aus Freiburg), aber Computer-gestützte Arbeiten sind aus einer Vielzahl von Gründen in Deutschland aktuell noch nicht flächendeckend denkbar. Zum Einen muss das Schulrecht dies erlauben, zum anderen muss die Infrastruktur bereitgestellt (PCs, Internet, Anti-Täuschungssoftware) und eine Gleichberechtigung (unterschiedliche Bedingungen, z.B. bei der Fertigkeit des 10-Finger-Tippens) sichergestellt werden. Sonderfälle wie das digitale Anfertigen von Gleichungen müssen bedacht werden. Handschriftliche Formate bereiten für die KI-basierte Korrektur einige Probleme: einige Tools unterstützen dies nicht bzw. nicht mehr (z.B. Fobizz), bei den anderen hängt die Schrifterkennung (OCR) stark von der Lesbarkeit des Schülers ab. Da eine fehlerhafte Erkennung nicht ausgeschlossen werden kann, ist die Lehrkraft gezwungen, Originaltext und digitalisierter Text genau durchzulesen und abzugleichen – wodurch die erhoffte Zeitersparnis wieder reduziert wird.
Unpraktische Arbeitsschritte: Selbst wenn ich als Lehrkraft das Glück haben sollte, die Texte in digitaler Fassung vor mir liegen zu haben, muss ich sie dennoch bei Fobizz und Peer einzeln kopieren, einfügen, bewerten lassen und dann jeweils die Rückmeldungen einzeln abspeichern, ggf. ausdrucken oder digital an die SuS weiterleiten und dann weiterverarbeiten (zB Noten aus Arbeit in Notenapp eintragen). Praktischer wäre es, alle Korrekturen gesammelt zu erfassen und in einer Art „Batch-Verfahren“ (in einem Schwung/Satz) korrigieren zu lassen und die generierten Noten in die eigene Notenapp kopieren zu können. In Fiete erhalte ich zwar eine Übersicht mit allen Ergebnissen, diese kann ich aber nur betrachten und nicht weiterverarbeiten (zB in Excel oder als PDF exportieren). Zudem arbeitet Fiete nicht mit Noten, wodurch eine schnelle Zusammenfassung der Schülerergebnisse erschwert wird. Selbst wenn die KI-Korrektur also perfekt und die Notenvorschläge vertrauenswürdig wären, müsste ich als Lehrkraft relativ viele Arbeitsschritte unternehmen, um einen Satz Korrekturen durchzuführen.
Fehlende Editierbarkeit: In Notenverwaltungstools wie TeacherTool kann ich vorgeschlagene Endnoten „überschreiben“, wenn ich das für pädagogisch sinnvoll halte. Bei den vorgestellten KI-Feedback-Tools erhalte ich ein fertiges Feedback, das so erstmal nicht bearbeitet werden kann. Natürlich kann ich den vorgeschlagenen Bewertungstext (Peer), die PDF-Rückmeldung (Fobizz) oder die dargestellten Fortschrittsbalken (Fiete) in ein anderes Programm (zB Word) kopieren und da manuell Änderungen vornehmen, dadurch geht der Reiz der Schnelligkeit jedoch verloren.
Monatliche Kosten & Abhängigkeit: PEER ist kostenlos, Fiete und Fobizz verlangen aber nach anfänglicher Nutzung monatliche Abogebühren, sofern der Arbeitgeber nicht für eine Schul- oder Landeslizenz sorgt. Sowohl Fobizz als auch Fiete kosten nach Ablauf der Probekorrekturen (bei Fobizz 100, bei Fiete 150 Feedbacks) etwa 10 Euro pro Monat. Das ist durchaus ein fairer Preis angesichts potentiellen Zeitersparnis, kann aber für Einsteiger oder für die Dauernutzung hemmend wirken. Das Abomodell zeigt auch, dass eine Abhängigkeit entsteht. Effiziente KI-Korrekturtools werden fast ausschließlich von kommerziellen Anbietern angeboten, von deren Erfolg, Preismodell (z.B. sind Erhöhungen nicht ausgeschlossen) und Produktpflege man sich abhängig macht. Eine „Standalone“-Software mit einmaliger Zahlung wäre zwar wünschenswert, wird es aber gerade im Bereich der KI kaum geben, da KI-Tools stark online-basiert sind.
Fehlende pädagogische Begleitung: Nun verlassen wir den reinen technischen Bereich und betrachten die pädagogisch-didaktische Perspektive. So anstrengend klassische Korrekturen manchmal sein können, so wertvoll sind sie doch dafür, die Leistungen von SuS individuell zu erfassen und zu begleiten. Wenn ich beispielsweise eine 6-seitige Klausur einer Schülerin lese, erfahre ich während der Korrektur, wie sie „denkt“, welche Art von Sprache sie verwendet und wie sie methodisch vorgeht. Diese Beobachtungen können mit der Unterrichtsbeteiligung abgeglichen und auch in Beziehung zu bisherigen Leistungen gesetzt werden. Eine KI-Korrektur kann mir zwar theoretisch dabei helfen, die Korrektur schneller zu erledigen (z.B. bei der Fehlererfassung), aber für eine persönliche und möglichst effektive Begleitung sollte ich als Lehrkraft schon noch den Schülertext tatsächlich lesen und auch für mich „verarbeiten“. Dieses „Mitdenken“ des korrigierenden Lehrers ist eine wichtige Basis für die weitere pädagogische und didaktische Begleitung.

Rechtliche Limitierungen

Abgesehen von den praktischen Erwägungen sind natürlich auch rechtliche Einschränkungen zu berücksichtigen. Was nützt mir das tollste Tool, wenn ich es nicht nutzen darf?

Alle KI-Tools benötigen eine Internetverbindung, da die Texte serverseitig analysiert und ausgewertet werden. Dadurch müssen die Schülernamen pseudonymisiert werden, damit nicht rückverfolgt werden kann, wer was geschrieben hat.
Eine Handschrifterkennung ist aus rechtlichen Gründen (Rückschlüsse auf Schüler möglich) im Schulkontext nicht erlaubt. Aus diesem Grund wurde diese z.B. bei Fobizz wieder entfernt. Damit werden einige Nutzungsszenarien wieder eingeschränkt.
Aktuell ist eine KI-basierte Prüfungskorrektur laut Schulrecht noch nicht vorgesehen. Selbst die Tools weisen auf ihre Limitiertheit hin, wie folgender Screenshot zeigt:

Zukunftsentwicklungen

Wie sich die Zukunft der KI-basierten Korrekturen entwickeln wird, ist nicht im Detail vorhersehbar wird. Trotzdem wage ich einige Prognosen:

KI wird besser, aber nicht „perfekt“: Durch die Trainingsdaten und die ständige Weiterentwicklung wird das Feedback und der Funktionsumfang von KI-Feedbacktools sicherlich besser. Ob es jedoch innerhalb der nächsten 20 Jahre einen Punkt erreicht, dass ich als Lehrkraft dem Feedback „blind vertrauen“ kann, ist anzuzweifeln. Der eigene Blick sowohl auf den Schülertext als auch auf das KI-Feedback wird auf absehbare Zeit nötig und auch wünschenswert bleiben. Die Lehrkraft wird auch bei Prüfungen weiterhin eine zentrale Rolle spielen.
Es wird mehr alternative Prüfungsformate geben, aber wann? Die KMK (Kultusministerkonferenz) hat 2021 ein Strategiepapier herausgebracht, in dem von offenen und kreativen sowie kollaborativen Prüfungsformaten (vgl. Seite 13) die Rede ist. Vielleicht wird es in einigen Jahren „open book“-Klausuren mit offenem Internetzugang und digitalen Textverarbeitungsprogrammen geben, die einerseits aus Schülersicht mit KI-Tools angefertigt, aber auch andererseits für Lehrkräfte schneller durch KI ausgewertet werden können. Ob aber tatsächlich ein großer shift von klassischen Handschriftsklausuren zu digitalen gestützten Prüfungen in Deutschland zeitnah passiert, ist fraglich. Die Mühlen der Kultusbürokratie mahlen recht langsam und schon die Vergangenheit – beispielsweise die Coronazeit – hat gezeigt, dass ein generelles Umlenken des großen und behäbigen „Bildungstankers“ Deutschland doch sehr lange dauert.
Der Traum von vollautomatisierte Prüfungskorrekturen wird es so schnell nicht geben: Allenfalls Fächer mit vielen richtig/falsch-Items können mit entsprechenden Tools (z.B. ClassMarker, Microsoft Forms) nahezu vollautomatisch ausgewertet werden, wobei in der Regel die Berücksichtigung des Rechen- oder Argumentationsweg fehlt. Bei textbasierten Korrekturen gibt es noch zu viele Einschränkungen und rechtliche Erwägungen (s.o.), dass ich mir trotz exponentiellen KI-Wachstums eine nahezu vollautomatisierten Prüfungen bis – um mal ein Jahr zu nennen – 2035 im deutschen Bildungssystem kaum vorstellen kann.
Ein Nebeneinander von KI & „Klassik“ scheint denkbar: Die aktuellen KI-Feedbacktools eignen sich wie schon angesprochen sehr gut fürs Prozessfeedback im Unterricht. Tatsächliche Prüfungskorrekturen können weiterhin „klassisch“ korrigiert werden, sei es per Hand oder gestützt durch Prüfungskorrekturhilfen wie Excel oder eben KURT, welches in der Version 4.3 nahezu alle Feinheiten einer komplexen und dezidierten Prüfungskorrektur berücksichtigt (vgl. Feature-Seite). Eine KI-Integration in KURT wird es aus technischen und zeitlichen Gründen nicht geben, aber ein Nebeneinander von KI-Tools (z.B. für eine Übersicht über alle Fehler im Text) und KURT (für die tatsächliche Bepunktung und eventuelle Kommentare & Fördertipps) sind durchaus sinnvoll und möglich.