BIS News
Warum das Login in viele Systeme der Universität heute so schwierig war
Das Sommersemester 2025 hatte in Hinblick auf die IT-Services der Universität keinen guten Start, ab dem späten Vormittag kam es zu Störungen beim Login. Dies zeigt den einzigen Nachteil der großen Integration der Loginsysteme, die wir Anfang Januar erfolgreich und sehr reibungslos durchgeführt haben: Wenn das neue Gesamtsystem gestört ist, dann betrifft das viel mehr Dienste, als in der Vergangenheit.
Warum kam es zu der Störung
Im Endeffekt hatte die Störung ebenfalls mit den Sicherheitsverbesserungen zu tun, an denen wir im Kontext der Loginsysteme seit Monaten arbeiten: Im Hintergrund werden seit einiger Zeit zusätzliche Informationen über sicherheitsrelevante Ereignisse gesammelt, die es den Systemen erlauben werden bessere Entscheidungen z. B. darüber zu fällen, ob gescheiterte Loginversuche eher harmlose Tippfehler bei der Passworteingabe sind, oder ob gerade ein Angriff auf unsere Nutzer*innen in einer der zahlreichen Spielarten (Credential Stuffing, Passwort Spraying, Brute Force, ...) ausgeführt wird, und Gegenmaßnahmen notwendig sind.
Diese Protokollierung hat leider zum Semesterstart zu einer Datenlawine geführt, die unsere Loginsysteme sich immer stärker mit sich selbst hat beschäftigen lassen. Die langen Wartezeiten beim Login erzeugten dann noch mehr Last, da natürlich jede und jeder es immer wieder neu versucht hat, während die Systeme noch die aufgestauten, früheren Anfragen bearbeiteten.
Warum hat die Fehlersuche so lange gedauert
Für die Fehlersuche in so einer Situation gibt es gewohnte Vorgehensweisen, die üblicherweise von den Punkten ausgehen, an denen sich die Systeme am stärksten belastet zeigen. Zum Beispiel bei der Prozessorlast. Oder dem Speicherverbrauch. Und der Nutzung der Datenbanken.
In diesem Fall war aber keiner dieser Indikatoren so eindeutig, dass er uns sofort in die richtige Richtung gewiesen hätte. Hier musste erst die Progammierung des Loginsystems so erweitert werden, dass wir durch die zusätzlichen Informationen dem Problem auf die Spur kommen und es dann sehr rasch lösen konnten.
Was tun wir, damit so etwas möglichst nicht wieder passiert
Für die Zukunft soll ein Umbau des Umgangs mit den sicherheitsrelevanten Ereignisse gewährleisten, dass nicht wieder eine Datenlawine entsteht, die die Server unter sich begräbt. Hier gibt es einen Zielkonflikt bei der Wahrung der Stabilität unserer Systeme: Um sie gegen Angriffe zu schützen sind eher umfangreiche Informationen wichtig, aber die Information darf auch nicht so umfangreich sein, dass sie die Systeme selbst schädigt, so wie heute.
Für den Fall, dass in Zukunft wieder einmal Probleme auftachen, müssen wir schneller in der Lage sein die Ursache einzukreisen. Durch die Integration der verschiedenen Systeme zu einem großen Ganzen ist ein Dienst entstanden, der Sicherheit und einfache Nutzbarkeit durch das Single Sign-on gebracht hat. Der aber auch durch die verschiedenen, beteiligten Komponenten seine eigene Komplexität mitbringt. Diese Kompleität im Griff zu behalten ist uns dieses Mal nicht gut gelungen, aber der Ausfall heute ist uns eine Lektion.
Update
Die weiteren Optimierungen im Verlauf der Woche haben wir in diesem Blogpost beschrieben.