BASE Weblog
Automatische DDC-Kategorisierung in BASE ist produktiv
                      
                      Schon seit einiger Zeit setzen wir ein automatisches Verfahren
zur Dokumentenklassifikation nach der Dewey-Dezimalklassifikation
(DDC) in BASE ein. Die Software dafür wurde während des DFG-geförderten 
Projekts Automatische Anreicherung von OAI-Metadaten entwickelt
und basiert auf Methoden des Text Minings und des maschinellen Lernens.
Die DDC-kategorisierten Dokumente sind u.a. über das hierarchische 
BASE-DDC-Browsing zugänglich. Hier kann die Anzahl der Ergebnisdokumente
schrittweise über die Klassenhierarchie eingeschränkt werden.

Auch in den BASE-Trefferlisten werden jetzt die DDC-Klassen zu den 
Ergebnissen angezeigt. Automatisch vergebene Klassen erkennt man an dem 
Zusatz "computed".

Über den DDC-Drilldown kann auch noch nach einer bereits durchgeführten 
Suche die Trefferliste ganz einfach auf eine bestimmte Klasse eingegrenzt
werden.

Durch die automatische Klassifikation konnte die Anzahl der
DDC-erschlossenen Dokumente in BASE deutlich gesteigert werden –
von ursprünglich rund 450.000 auf aktuell rund 1,7 Mio Dokumente.
Die aktuelle Gesamtzahl der DDC-kategorisierten Dokumente können
Sie sich hier anzeigen lassen.

Es sei nicht verschwiegen, dass das automatische Klassifikationsverfahren 
nicht perfekt ist, da es auf der statistischen Analyse der Dokumenttexte
basiert. Da die Wissenschaftssprache sehr komplex ist und sich
zudem ständig verändert, kann es auch zu Fehlklassifikationen kommen.
Wenn Sie eine entdecken, nutzen Sie bitte unsere DDC-Vorschlagsfunktion.
Dadurch helfen Sie uns, das Verfahren ständig zu verbessern.