© Universität Bielefeld

BASE Weblog

BASE Weblog - Kategorie BASE Lab

Open-Access-Dokumente "boosten"

Veröffentlicht am 29. Juli 2014

Schätzungsweise 70% aller in BASE indexierten Dokumente sind Open Access, also weltweit frei zugänglich. Etwa 1/3 dieser Dokumente können von uns zweifelsfrei als Open Access gekennzeichnet werden, da uns in diesem Fall entsprechende Zugangsinformation zur Verfügung stehen.

Um die Dokumente, die eindeutig als Open Access gekennzeichnet sind, stärker in den Vordergrund zu rücken, haben wir in unserem Testbereich – dem BASE Lab – eine Möglichkeit geschaffen, diese Dokumente stärker zu gewichten. Über die Checkbox "Open-Access-Dokumente bevorzugen" erhalten diese Dokumente ein "Boosting". Die Checkbox ist standardmäßig aktiviert, sie kann aber auch deaktiviert werden. Dann erscheinen die Treffer im Standard-Ranking.

Ein Beispiel zum Vergleich ist die Suche nach open access

Trefferliste mit Standard-Ranking
Trefferliste mit "OA-Boosting"

Die unterschiedlich gewichtete Trefferliste wird auch über den folgenden Screenshot anschaulich:

Das Ranking, also die Reihenfolge, in der die Treffer ausgegeben werden, richtet sich nach verschiedenen Kriterien, insbesondere nach der Position und Anzahl der gesuchten Wörter im Text. Kommt ein Wort im Titel vor, wird es entsprechend höher gewichtet, als wenn es z.B. nur im Abstract vorkommt. Auch die Länge von Titeln oder Abstracts hat Auswirkung auf das Ranking. Durch das Boosting werden nun mehr eindeutig gekennzeichnete Open-Access-Dokumente auf der ersten Trefferseite angezeigt. Es ist aber nicht so, dass zuerst nur Open-Access-Dokumente angezeigt werden und anschließend alle anderen Dokumente (dies wäre eine Sortierung) – passt ein Dokument besonders gut zu Ihrer Suchanfrage, wird es immer weit oben angezeigt, egal ob es als Open Access gekennzeichnet ist oder nicht.

Was halten Sie von der Möglichkeit, Open-Access-Dokumente höher zu gewichten? Schreiben Sie einen Kommentar hier im Blog oder auf Twitter an @BASEsearch (Hashtag #oaboost)!

Gesendet von Sebastian Wolf in BASE Lab

Neue BASE Version im BASE Lab

Veröffentlicht am 14. Februar 2011

In den letzten Monaten haben wir intensiv an der Migration von FAST nach Lucene/Solr gearbeitet. Wir geben heute eine erste Test-Version im BASE Lab frei und freuen uns auf Ihr Feedback in diesem Blog.

Wie unterscheidet sich die Lab-Version vom jetzigen System?

Inhalt:

Der BASE Index enthält rd. 25,5 Mio. Dokumenten aus 1.724 Quellen, der neue Index im BASE Lab enthält rd. 26,5 Mio.aus 1.693 Quellen. Der alte BASE Index wird nicht mehr aktualisiert, das Harvesten von Dokumentenservern über OAI-PMH geht natürlich weiter, was die höhere Dokumentenzahl im BASE Lab erklärt. Ein Teil der Quellen konnte aus technischen Gründen nicht in das BASE Lab übernommen werden, neue Quellen werden nur noch für den neuen Index aufbereitet. Die BASE API zeigt derzeit noch auf BASE und nicht auf BASE Lab.

Suche und Suchoberfläche:

Die Suchoberfläche im BASE Lab läuft unter VuFind. VuFind-Funktionalitäten, die ein Login erfordern, sind während des Tests im BASE Lab deaktiviert. Unter Lucene/Solr ist vorerst keine multilinguale Suche (Eurovoc Thesaurus) und keine automatische Schlagwortanreicherung für deutschsprachige Dokumente möglich. Ebenso können wir derzeit keine mehrsprachige Lemmatisierung (Wortformen-Suche), sondern nur ein einfaches Stemming für englischsprachige Suchbegriffe (Porter Stemmer) anbieten. Das bedeutet, dass die Suchergebnisse von BASE unter FAST und BASE unter Lucene/Solr - nicht nur aufgrund der unterschiedlichen Dokumentenzahl - wenig vergleichbar sind. Neue Funktionalitäten, wie das Abonnieren von RSS-Feeds oder Versenden von Ergebnissen als EMail sind im BASE Lab schon aktiv. Repository-Manager können den Stand ihrer Dokumentenserver über die BASE-Lab-Quellenliste abfragen.

Wie geht es weiter?

Die vollständige Ablösung des FAST-Systems ist für die nächsten Monate geplant, ebenso die Umlenkung der BASE API auf den neuen Index. Der Index unter Lucene/Solr wird vorerst in unregelmäßigen Abständen aktualisiert werden.

Gesendet von Dirk Pieper in BASE Lab

Kategorie Hinweis

Auf dieser Seite werden nur die der Kategorie BASE Lab zugeordneten Blogeinträge gezeigt.

Wenn Sie alle Blogeinträge sehen möchten klicken Sie auf: Startseite

Kalender

« April 2024
MoDiMiDoFrSaSo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
     
       
Heute