inno.teach
BIKI und Literaturwissenschaft - Versuch einer KI-basierten Gedichtanalyse
Ein Beitrag von Maja Doil, Melike Kalinci, Merve Kalinci, Luca Ridder
Ein Leben ohne Künstliche Intelligenz (KI)? Obwohl die bekannten Chatbots wie ChatGPT erst seit wenigen Jahren auf dem Markt sind, ist dies für viele Menschen inzwischen schon unvorstellbar. KI hat mittlerweile einen festen Platz im Alltag vieler Menschen gefunden und unterstützt sie bei der Bewältigung alltäglicher Aufgaben und Herausforderungen. Auch im Bildungsbereich – etwa in der Schule oder in der Hochschule – ist der Einsatz von KI kaum mehr wegzudenken und bei der Bearbeitung von Aufgaben in vielerlei Hinsicht Freund und Helfer. Auch die Uni Bielefeld hat das erkannt und stellt mit BIKI eine entsprechende Plattform zur Verfügung. Das KI-Portal „BIKI“ dient den Nutzer*innen als anbieterunabhängige Lösung zur Verwendung von KI, basierend auf einem Large Language Model. Doch kann man KI wirklich bedenkenlos nutzen, beispielsweise für die Analyse eines Gedichtes im Rahmen des Germanistikstudiums? Und wie gehen wir als angehende Deutschlehrer*innen mit KI um?
Gedichtanalyse per Prompt? Unser Versuch mit BIKI
Im Seminar ‚Lesen, Analysieren, Interpretieren. KI in Literatur- und Sprachwissenschaft’, das von Prof. Dr. Berenike Herrmann und Prof. Dr. Sina Zarrieß geleitet wurde, bildeten wir Arbeitsgruppen, die kleinere Projekte selbstständig durchführten. Das Ziel unseres Projektes bestand darin, vergleichend zu untersuchen, wie verlässlich die unterschiedlichen BIKI-Sprachmodelle in der formalen Analyse von Gedichten sind, also im Hinblick auf das Erkennen der Anzahl von Strophen, Versen und der Reimschemata. Grundlage der Untersuchung waren das Gedicht Städter (1914) von Alfred Wolfenstein und ein Gedicht, das von einem Sprachmodell generiert wurde.
Für unseren Versuch haben wir vier Sprachmodelle der universitären KI-Plattform BIKI ausgewählt: ChatGPT 4o mini, Llama 3.1, Qwen2.5 und Mistral Large. Aus Nutzer*innenperspektive funktionieren sie alle ähnlich. Man formuliert einen textuellen Prompt, also eine Anweisung oder Aufgabe, und erhält daraufhin eine textbasierte Antwort. Uns interessierte dabei weniger die Technik im Hintergrund, sondern vielmehr die Frage, wie zuverlässig diese Modelle Gedichte formal analysieren können. Die Funktionsweise der Large Language Models als neuronale Netzwerke mit ihren hunderten Milliarden Parametern und dem ‚Instruktionstuning‘, mit dessen Hilfe sie „menschlich“ kommunizieren können, haben wir im Seminar auch diskutiert.
Als Textgrundlage haben wir zwei unterschiedliche Gedichte eingesetzt. Zum einen Wolfensteins expressionistisches Gedicht Städter (1914, Erstveröffentlichung in Wolfensteins Gedichtband Die Gottlosen Jahre), dessen Aufbau mit vier Strophen und einem systematischen Reimschema eine klare Überprüfung erlaubt, und zum anderen ein KI-generiertes Sonett, das wir über den Prompt „Erstelle mir ein Sonett.“ erzeugt haben. So konnten wir vergleichen, ob die Modelle bei einem kanonischen Gedicht, dessen Analyse auch im Netz einsehbar ist, andere Ergebnisse liefern als bei einem neu generierten Gedicht, zu dem für die Sprachmodelle keine Informationen im Netz abgreifbar sind.
Die Prompts waren für alle Modelle identisch, um die Antworten vergleichbar zu machen. In Abb. 1 sieht man den Prompt; Abb. 2 zeigt das Gedicht, das mit der KI generiert wurde.
Abb. 1: Prompt zur Analyse des Gedichts Städter (1914) von Alfred Wolfenstein
In stiller Nacht, wenn Ruhe sanft erwacht,
Die Sterne flüstern leis im Himmelszelt,
Ein Funkeln, das die Seele tief erhellt,
Und Hoffnung in das Herz voll Zuversicht.
Der Mond, er wacht, bewacht die Welt so sacht,
Sein Licht durchbricht die Schatten, sanft und mild,
Er zeigt uns Wege, still und unverhüllt,
Und trägt die Träume in der dunklen Nacht.
So lehrt uns Nacht, Geduld und stilles Sein,
Im Dunkel wächst die Kraft für neuen Tag,
Denn jeder Abschied birgt den Anfang, klein,
Und Hoffnung wächst, wenn keiner sie vermag.
Im Wechselspiel von Schatten und Licht,
Findet unser Herz sein wahres Ich.
Abb. 2: Generiertes Sonett
Nachdem die Modelle ihre erste Analyse geliefert hatten und uns Fehler auffielen, baten wir um eine Selbstkorrektur: „Nicht alle Aussagen sind korrekt. Bitte korrigiere dich selbst.“ Damit wollten wir herausfinden, ob die Modelle in der Lage sind, eigene Fehler zu erkennen und zu verbessern – oder ob sie lediglich die erste Antwort wiederholen. Unser Versuch folgte also einem klaren Ablauf. Zuerst erhielten alle vier Modelle denselben Prompt, anschließend stellten wir die Selbstkorrekturfrage und das Ganze wiederholten wir sowohl mit dem Wolfenstein-Gedicht als auch mit dem KI-Sonett. Den Abschluss unseres Projektes bildete ein kleiner Ausblick. Wir fragten uns, ob besseres Prompting, in dem wir mehr lyrikologischen Input gaben, nennenswerte Auswirkungen auf unsere Ergebnisse haben könnte. Dies testeten wir aus zeitlichen Gründen lediglich an einem Modell und einem Gedicht: Llama 3.1 (BIKI) und dem oben erwähnten Gedicht Städter (1914). Wir stellten den nachfolgenden Prompt (Abb. 3), in dem wir die verschieden Reimschemata erklärten, in der Hoffnung, dies würde der KI in ihrer Analyse helfen.
Abb. 3: Modifizierter Prompt zur Analyse des Gedichtes Städter (1914) von Alfred Wolfenstein mit Erläuterungen zu Reimschemata
Von Versen und Strophen – wo BIKI scheitert
Vorab – keines der untersuchten Sprachmodelle war bei der Analyse unserer Gedichte verlässlich. Die Ergebnisse des ersten Prompting-Durchlaufes zum Gedicht Städter (1914) waren allesamt falsch oder sehr ungenau. Die einzelnen Sprachmodelle unterschieden sich daher nicht wirklich in der Qualität ihrer Ergebnisse. Mistral Large und Llama 3.1 konnten die Strophenanzahl (vier) erkennen, aber vielleicht war auch das eher zufällig. Auffällig war vor allem, dass sich die Sprachmodelle durchweg einig darin waren, unsere Gedichte hätten vier Verse pro Strophe. Dies scheint also eine sehr übliche und daher für die Sprachmodelle wahrscheinliche Versanzahl zu sein. Dieser Fehler war überraschend, da wir davon ausgingen, der typische Sonett-Aufbau (4-4-3-3) müsste „bekannt“ sein.
Die Sprachmodelle hatten außerdem Schwierigkeiten damit, das Reimschema so zu bestimmen, wie wir es von einer menschlichen Analyse gewohnt sind und die Verse anhand von fortlaufenden Buchstaben zu markieren (z.B. stehn, fassen, Straßen, stehn = abba). Lediglich ChatGPT 4o mini verwendete diese Notation, allerdings auch nicht in korrekter Art und Weise.
Auch die Aufforderung zur Selbstkorrektur half hier nicht. Hier muss jedoch angemerkt werden, dass wir keine spezifischen Fehler erwähnten oder klare Anforderungen an eine Verbesserung stellten. Interessant an diesen Korrekturen war, dass sich die Sprachmodelle meist inhaltlich nicht verbesserten – oder aus falschen Antworten andere falsche Antworten machten. Stattdessen gaben die korrigierten Antworten in gekürzter oder komprimierter Form inhaltlich die ersten Versionen wieder.
Da bereits dieser erste Teil unseres Projektes keine zuversichtlichen Ergebnisse lieferte, war es nicht verwunderlich, dass auch die Analysen zu unserem generierten Gedicht scheiterten. Interessanterweise versuchten in diesem Durchlauf mehr Modelle, das Reimschema anhand der oben benannten Notation zu bestimmen. Eigentlich wollten wir die Ergebnisse mit denen des existierenden Gedichtes noch en détail vergleichen, da wir in den Ergebnissen des zweiten Durchlaufs – im Gegensatz zum ersten Durchlauf – ,Vorwissen‘ der KIs zum formalen Aufbau in ihren Trainingsdaten ausschließen konnten. Aufgrund der durchweg falschen Analysen erübrigte sich dieser Schritt jedoch.
Es folgte noch der kleine Versuch mit erweitertem Prompting anhand des Modells Llama 3.1 als Ausblick. Die Antworten (s. Abb. 7) unterschieden sich hier deutlich von denen der ersten Analyse, in der wir mit einem ungenaueren Prompt arbeiteten. So nutzte die KI beispielsweise den Tipp der Buchstabenzählung für Verse und gab Wörter an, die sich reimen sollten. Insgesamt war die Analyse jedoch in vielerlei Hinsicht ebenfalls nicht korrekt.
Einige Ergebnisse
Das Ergebnis nach dem ersten Prompt zu Städter (Abb.1) zeigen wir in Abb. 4:
Abb. 4: Ergebnis der Gedichtanalyse auf der Basis vom ersten Prompt (siehe Abb. 1)
Nach dem ersten Prompt zum generierten Gedicht erhielten wir den nachfolgenden Output (Abb. 5):
Abb. 5: Ergebnis der Gedichtanalyse eines zuvor generierten Sonetts
Nach der Selbstkorrektur zum generierten Gedicht erhielten wir wiederum ein anderes Ergebnis (Abb. 6):
Abb. 6: Ergebnis der Gedichtanalyse eines zuvor generierten Sonetts nach einem Prompt zur Selbstkorrektur der Analyse
Im Vergleich der Ergebnisse des lyrikologischen Prompts (Abb. 3) und des Ursprungsprompts (Abb. 1). zeigen sich ebenfalls unterschiedliche Analysevorschläge für dasselbe Gedicht von Alfred Wolfenstein.
Abb. 7: Vergleich der Ergebnisse für den lyrikologischen Prompt (Abb. 3) und des Ursprungsprompts (Abb. 1)
Lernen aus Grenzen: Kritischer Umgang mit BIKI ist entscheidend
Letztlich stellt sich die Frage: Warum hat die KI hier so schwach abgeschnitten? Unsere Versuche zeigen, dass die BIKI-Modelle selbst bei einer vermeintlich klaren und regelbasierten Aufgabe – dem Zählen von Strophen und Versen sowie der Bestimmung des Reimschemas – durchgehend fehlerhafte Ergebnisse geliefert haben. Ein Grund dafür könnte in den Lücken der Trainingsdaten liegen. Die Modelle sind in der Regel nicht speziell auf literarische oder gar lyrische Textanalyse trainiert, sondern auf breite Sprachverwendung, also nicht auf Verse, Strophen und Reime. Hinzu kommt ein mangelndes Kontextverständnis. Die KI scheint zwar ein basales ‚Verständnis‘ von formalen Strukturen zu haben, kann diese aber nicht zuverlässig auf Gedichte übertragen, in denen unter anderem Zeilenumbrüche, Enjambements oder typografische Feinheiten eine Rolle spielen. Auch die Selbstkorrektur zeigt, dass die Modelle eher ihre ursprünglichen Fehler in anderem Wortlaut wiederholten, anstatt sie kritisch zu überarbeiten. Keines der Modelle zeigt also ein echtes, dem Menschen vergleichbares Verständnis von Reimen, Versen und Strophen. Stattdessen simulierten sie diskursiv ein solches, indem sie scheinbar ernsthafte Analysen produzierten.
Unsere Ergebnisse machen deutlich, dass KI im literaturwissenschaftlichen Kontext zwar als Hilfsmittel Potenzial hat, aber ihre Grenzen klar (und fortlaufend) benannt werden müssen. Sie kann derzeit als Impulsgabe oder als erste Strukturierungshilfe dienen, ersetzt jedoch keinesfalls die genaue menschliche Analyse und Interpretation. Zwar können sie, wie im generierten Gedicht deutlich wird, abstraktere und für Menschen eher schwierigere Aufgaben lösen, beispielsweise indem sie oftmals recht treffend allgemeine Aspekte der ‚Bedeutung‘ von Gedichten nennen. Jedoch scheitern sie (derzeit) sichtbar an der formalen Analyse. Unser kleines Projekt zeigt deutlich, dass die LLMs Sprache und Kognition simulieren – sie arbeiten probabilistisch, also nach dem Wahrscheinlichkeitsprinzip, sie denken und analysieren aber nicht selbst. Manchmal fällt das nicht auf – bei der Art der formalen Analyse, die wir in Auftrag gaben, aber eben schon. Gerade im Unterricht könnte die Auseinandersetzung mit fehlerhaften KI-Ergebnissen produktiv sein: Schüler*innen lernen dadurch, kritisch mit maschinellen Antworten umzugehen und die eigenen analytischen Fähigkeiten zu schärfen.
Als Studierende haben wir gelernt, dass es wichtig ist, eine kritische Distanz gegenüber KI-Ergebnissen zu bewahren, uns aber auch damit auseinanderzusetzen, wie sie funktionieren (Generieren von wahrscheinlichen Antworten mittels zwei Arten von Modellen: den riesigen Sprachdaten und den Instruktionen, die dafür sorgen, dass sie so ‚menschlich‘ interagieren). Der Schein von Objektivität, Präzision und auch ‚Menschlichkeit‘, den Sprachmodelle erzeugen, darf nicht darüber hinwegtäuschen, dass die Ergebnisse trotz sprachlicher Richtigkeit oft unzuverlässig sind. Gleichzeitig wurde für uns klar, dass der methodische Umgang mit KI (z. B. präzisere Prompts, gezielte Aufgabenstellungen) entscheidend für die Qualität der Antworten ist.
Für weitere Versuche wäre es sinnvoll, mit noch spezifischeren Prompts zu arbeiten, die die Modelle stärker anleiten. Auch ein Vergleich mit spezialisierten literaturwissenschaftlichen Annotations-Tools könnte Aufschluss geben, wo generative KI an ihre Grenzen stößt.
Die Arbeit mit den BIKI-Modellen hat uns gezeigt, dass die KI in der Lage ist, neue Perspektiven anzubieten, doch so wie ihre formale Gedichtanalyse unzuverlässig bleibt, verrät sie, dass sie das ‚Denken‘ eben simuliert. Für Forschung und Unterricht bedeutet das: KI ja – aber nie ohne kritisches Gegenlesen auf der Grundlage von echter Beurteilungskompetenz. Gerade darin liegt die Chance. Denn wer sich mit den Fehlern der Maschine auseinandersetzt, schärft den eigenen Blick für Sprache und Literatur.