Frag BIKI
Neue Sprachmodelle in BIKI - Darunter DeepSeek R1!
Seit heute früh gibt es in BIKI zwei neue Sprachmodelle:
Llama 3.3: Schneller, aber nicht aktueller
Das kleinere Update betrifft dabei das große Llama (70B) Modell, welches nun in der 3.3 Version verfügbar ist. Meta verspricht hier ein schnelleres Antwortverhalten. Die dem Modell bekannten Trainingsdaten reichen aber weiterhin nur bei Dezember 2023.
DeepSeek R1 - Der 'Schrecken' von OpenAI
Das chinesische Startup DeepSeek hat vor einigen Tagen eine neue Familie von Sprachmodellen vorgestellt, die zu den sogn. reasoning models gehören. Diese Modelle haben kurz nach ihrer Veröffentlichung für eine große Medienresonanz gesorgt, etwa in der Tagesschau vom 28.01.2025.
DeepSeek hat Sprachmodelle entwickelt, welche bei offenbar deutlich geringeren Trainingskosten eine ähnliche Leistungsfähigkeit erreichen, wie die Modelle des bisherigen Marktführers OpenAI, dem Anbieter der ChatGPT Modelle. Auch der Betrieb der DeepSeek Modelle ist deutlich kostengünstiger und praktisch für jeden möglich, da die Modelle frei verfügbar gemacht wurden.
Die Trainingsdaten haben dabei einen Stand vom Juli 2024, sind damit heute die aktuellsten Trainingsdaten von allen in BIKI verfügbaren Modellen. Trotzdem kann auch dieses Modell unsere Standardtestfrage 'Wer ist die Rektorin der Universität Bielefeld?' nicht richtig beantworten.
Reasoning model - was heißt das?
Das DeepSeek Modell 'R1' ist ein sogenanntes reasoning model. Dafür gibt es noch keinen wirklich treffenden, deutschsprachigen Begriff. Aber wenn man das Modell in BIKI anwirft sieht man schnell, was damit gemeint ist:
Das Modell beginnt zunächst mit einer 'Nachdenkphase', in der es sich 'Gedanken' dazu macht, wie die Fragestellung gemeint sein könnte. Dies wirkt durchaus menschlich und ähnlich dem stillen Nachdenken über eine Aufgabe, welches man von sich selbst kennt. Erst wenn dieser Denkprozess abgeschlossen ist wird daraus die eigentliche Antwort generiert.
Die Antworten dieser Art von Sprachmodellen sind daher auch deutlich langsamer, als von den anderen in BIKI angebotenen Modellen. Gerade bei komplexen Aufgabenstellungen können sie aber deutlich bessere Ergebnisse erzielen. Das es in dem DeepSeek Modell möglich ist dem 'Gedankengang' zu folgen ist dabei im Vergleich zu den entsprechenden Modellen von OpenAI - die wir heute in BIKI noch nicht anbieten können - eine Besonderheit: Hier kann man recht transparent nachvollziehen, wie das Modell zu seinen Antworten kommt und ggf. auch Fehler besser nachvollziehen.
Ist das Modell zensiert?
Es gibt Beispiele, in denen das Modell auf bestimmte Fragen wie nach dem Tian’anmen-Massaker die Antwort verweigert oder ausweichend antwortet. Im 'Nachdenkprozess' lässt sich dabei teilweise nachvollziehen, dass das Modell offenbar Einschränkungen besitzt, die man als Zensur bezeichnen kann. Allerdings ist das Verhalten nicht immer gleich.
Generell ist aber das DeekSeek Modell von den heute in BIKI angebotenen Modellen wohl das Modell, dessen Antworten zu politischen und historischen Fragen mit der größten Vorsicht zu bewerten sind.
Im Gegensatz zur direkten Nutzung von DeepSeek über die Webseite des Herstellers ist die in BIKI angebotene Version, die von der GWDG in Deutschland betrieben wird, aber vor nachträglichen Interventionen durch den Hersteller oder chinesische Behörden geschützt.
Antworten in deutscher Sprache nicht garantiert
Auch wenn man BIKI in deutscher Sprache verwendet scheint der Nachdenkprozess des Modells immer in englisch generiert zu werden. Auch bei den Antworten gibt es manchmal ein Umspringen in die englische Sprache. Das kann u. U. durch explizite Prompts wie '...Antworte in deutscher Sprache.' korrigiert werden bzw. über eine entsprechende generelle Ergänzung des individuellen Systemprompts. Auf Systemseite haben wir keine Möglichkeit dieses Verhalten zu beeinflussen.
---
BIKI starten: https://biki.uni-bielefeld.de/
Einen Überblick über alle in BIKI angebotenen Sprachmodelle gibt es in dieser Wiki Seite.