Frag BIKI
Verbesserungen bei Dateien in BIKI: Bilderkennung per KI und Vorschaufunktion
Im letzten Dezember haben wir BIKI um die Option zur Verarbeitung von Dateien erweitert, inzwischen haben unseren Nutzer*innen mehrere tausend Dokumente hochgeladen. BIKI konnte von Beginn an mit einer Reihe von Dokumentenformaten umgehen, aber es gab bisher noch eine Lücke: PDFs, die eingescannte Inhalte an Stelle von Text haben, konnten nicht interpretiert werden, und auch reine Bilddateien waren für BIKI unverständlich.
Seit heute hat der Dateiupload eine neue Option, durch die OCR (Optical Character Recognition, optische Zeichenerkennung) bzw. die KI-basierte Generierung von Bildbeschreibungen aktiviert werden kann. Das im Hintergrund arbeitende Konvertierungssystem entscheidet dabei selbstständig, welches Auswertungsverfahren es nutzt. Wenn es entscheidet, dass eine KI für die Bildinterpretation verwendet werden soll, so wird die Datei heute mit einem Sprachmodell von OpenAI verarbeitet. Generelle Hinweise zu OpenAI finden Sie in unserer Seite mit den Sprachmodellbeschreibungen.
Ein Beispiel: Das Leitsystem der Uni
Die beiden unterschiedlichen Arten, wie Bilder verarbeitet werden, demonstrieren wir an diesem Foto aus dem Bauteil B des Hauptgebäudes:
Zuerst haben wir BIKI die Bilddatei im JPEG-Format gegeben. Und danach die gleiche Datei noch einmal als PDF. In dieser Konversation sieht man sehr schön die unterschiedliche Verarbeitung:
Nachdem in die Konversation die verarbeitete Bilddatei eingefügt wurde kann BIKI verstehen, was auf den Schildern steht. Hier hat also eine OCR stattgefunden, aber darüber hinaus hat BIKI keine Information über das Foto erhalten. Danach wurde die PDF Datei in die Konversation eingebunden und nun kann BIKI auch verstehen, dass es sich um Schilder an einer weißen Wand handelt:
'Die Beschreibung des Bildes bezieht sich auf ein weiteres Bild des Wegweisers. Es zeigt eine weiße Wand mit mehreren ovalen Wegweiserschildern. Die Texte der Schilder sind in deutscher Sprache verfasst und beinhalten folgende Einrichtungen:
- Halle (Main Hall)
- Studierendensekretariat (Student Office)
- Studierenden Service Center (Student Service Centre)
- Fachsprachenzentrum (Language Centre)
- AStA (Student Union)
- BITS Pool (Learning Space B02)
Jedes Schild zeigt einen schwarzen Pfeil, der nach rechts oder links weist, wobei die Pfeile ein gelbes Rechteck im unteren Bereich haben. Die Beschriftungen sind in Schwarz auf weißem Hintergrund gehalten, wobei die deutsche Bezeichnung fett gedruckt ist.'
Wenn man also eine vollständige Beschreibung eines Bildes per KI erhalten will, so funktioniert dies zuverlässiger, wenn man das Bild in ein PDF Dokument verwandelt.
Hinweis: Nicht jedes Dokument braucht OCR und Bildbeschreibungen per KI
Die neue Option sollte dabei nur eingesetzt werden, wenn der Dokumenteninhalt sich sonst nicht richtig erschließen lässt. Dafür gibt es diese Gründe:
- Geschwindigkeit: Der zusätzliche Verarbeitungsschritt kostet ggf. viel Zeit und verlangsamt die Konvertierung spürbar
- Kosten: Wenn das Dokument an OpenAI übertragen wird verursacht dies Kosten, die eingespart werden können
- Datenschutz: Wenn man in BIKI bewusst eines der Sprachmodelle verwendet, die bei der GWDG in Deutschland betrieben werden, könnte durch die Aktivierung dieser Konvertierungsoption doch eine Datenübertragung an OpenAI erfolgen
Anzeige der konvertierten Dateiinhalte direkt in BIKI und Verlinkung in den Chatverläufen
Für eine schnelle Kontrolle der Ergebnisse von Dateikonvertierungen gibt es in der Dokumentenübersicht nun den Link 'Markdown ansehen'. Hier lässt sich ohne Download der Markdown Datei direkt prüfen, was die Konvertierung erzeugt hat.
Diese Vorschau ist auch aus den Chatkonversationen direkt erreichbar, klicken Sie dazu das Download Symbol bei den Dateien an.