BASE Weblog
Automatische DDC-Kategorisierung in BASE ist produktiv
Schon seit einiger Zeit setzen wir ein automatisches Verfahren
zur Dokumentenklassifikation nach der Dewey-Dezimalklassifikation
(DDC) in BASE ein. Die Software dafür wurde während des DFG-geförderten
Projekts Automatische Anreicherung von OAI-Metadaten entwickelt
und basiert auf Methoden des Text Minings und des maschinellen Lernens.
Die DDC-kategorisierten Dokumente sind u.a. über das hierarchische
BASE-DDC-Browsing zugänglich. Hier kann die Anzahl der Ergebnisdokumente
schrittweise über die Klassenhierarchie eingeschränkt werden.
Auch in den BASE-Trefferlisten werden jetzt die DDC-Klassen zu den
Ergebnissen angezeigt. Automatisch vergebene Klassen erkennt man an dem
Zusatz "computed".
Über den DDC-Drilldown kann auch noch nach einer bereits durchgeführten
Suche die Trefferliste ganz einfach auf eine bestimmte Klasse eingegrenzt
werden.
Durch die automatische Klassifikation konnte die Anzahl der
DDC-erschlossenen Dokumente in BASE deutlich gesteigert werden –
von ursprünglich rund 450.000 auf aktuell rund 1,7 Mio Dokumente.
Die aktuelle Gesamtzahl der DDC-kategorisierten Dokumente können
Sie sich hier anzeigen lassen.
Es sei nicht verschwiegen, dass das automatische Klassifikationsverfahren
nicht perfekt ist, da es auf der statistischen Analyse der Dokumenttexte
basiert. Da die Wissenschaftssprache sehr komplex ist und sich
zudem ständig verändert, kann es auch zu Fehlklassifikationen kommen.
Wenn Sie eine entdecken, nutzen Sie bitte unsere DDC-Vorschlagsfunktion.
Dadurch helfen Sie uns, das Verfahren ständig zu verbessern.