© Universität Bielefeld

BASE Weblog

BASE Weblog

Lob vom VuFind-Entwickler

Veröffentlicht am 25. Mai 2011

Andrew Nagy - VuFind-Entwickler und jetzt bei Serials Solutions tätig - schrieb mir gestern folgende Mail:

"Hi Dirk - Congratulations on your launch of VuFind with BASE. This is really exciting to see. As the original founder and developer of VuFind, it has been really exciting to see so many large collections adopting VuFind and adapting it to fit their needs so well. Your site is very fast and very nicely done - I really like the refine your search drop downs on the right.

...

All the best
Andrew"

Gesendet von Dirk Pieper in Indexierung

BASE Umstellung erfolgreich

Veröffentlicht am 16. Mai 2011

Nach drei Monaten Test im BASE Lab haben wir heute den neuen, aktuellen und wesentlich umfangreicheren BASE Index unter Lucene/Solr sowie die neue Benutzeroberfläche unter VuFind freigeschaltet. Die FAST-Version des BASE-Index wird noch für einige Zeit im Hintergrund für die Nutzer der BASE-Search-API laufen, in den nächsten Tagen wird eine Dokumentation der API für den neuen Index veröffentlicht, so dass der Umstieg für diesen Nutzerkreis ebenfalls in Ruhe vonstattengehen kann. Wir freuen uns, dass wir diesen wichtigen Meilenstein geschafft haben und bedanken uns für die Geduld und die Unterstützung während der Umstellung.

Gesendet von Dirk Pieper in Indexierung

Stifterverband für die Deutsche Wissenschaft zeichnet BASE aus

Veröffentlicht am 3. Mai 2011

Wir freuen uns über die Auszeichnung von BASE als Hochschulperle des Monats Mai 2011. Laut Presseerklärung des Stifterverbands für die Deutsche Wissenschaft trägt BASE maßgeblich zur Verbreitung des Open-Access-Gedankens bei.

Gesendet von Dirk Pieper in Indexierung

iBase: Die iPhone-App für BASE

Veröffentlicht am 2. Mai 2011

Marek Imialek hat ein iPhone-App für unsere Suchmaschine BASE geschrieben, das seit einigen Tagen im App-Store freigeschaltet ist. Das App zielt auf den neuen Index im BASE-Lab, der seit dem letzten Blog-Eintrag wieder um einige Quellen erweitert wurde und jetzt 27.834.516 Dokumente aus 1.753 Quellen umfasst.

Gesendet von Dirk Pieper in Indexierung

Neuer Index und neue Features im BASE Lab

Veröffentlicht am 14. April 2011

Der Base-Lab-Index enthält jetzt 27.483.695 Dokumente aus 1.738 Quellen. Die Behandlung von Sonderzeichen wurde verbessert, z.B. führen Suchanfragen mit oder mit aufgelösten Umlauten jetzt zu der gleichen Treffermenge.

Mit Hilfe von VuFind haben wir das DDC-Browsing überabeitet, auf Ebene der einzelnen Klassen werden jetzt auch die entsprechenden Dokumentzahlen aktuell angezeigt. Darüber hinaus sind erstmals 10 Quellen automatisch mit DDC-Informationen angereichert worden, weitere Details dazu finden Sie im Wiki zum laufenden DFG-Projekt "Automatische Anreicherung von OAI-Metadaten".

Des Weiteren beschäftigen wir uns jetzt intensiver mit der search-api des neuen Index. Um diese unter Praxisbedingungen zu testen, werden im Bielefelder Katalog die Suchanfragen per Ajax jetzt auf den neuen Index gelenkt. Wenn hier keine Probleme auftauchen, können wir unseren externen Nutzern die neue API zu Verfügung stellen.

Für die technisch Interessierten: BASE Lab wurde auf das offizielle Release Apache Solr 3.1.0 umgestellt.

Gesendet von Dirk Pieper in Indexierung

"Zum Potenzial der Suchtechniken Lucene und Solr"

Veröffentlicht am 1. April 2011

Ein interessanter Artikel zu Lucene/Solr bei heise:

http://heise.de/-1214998

Gesendet von Dirk Pieper in Indexierung

Neuer BASE Index

Veröffentlicht am 24. März 2011

Der BASE Index im BASE Lab wurde aktualisiert und umfasst nunmehr 26.920.383 Dokumente aus 1.725 Quellen. In der Standardsuche und in der Erweiterten Suche kann für das Feld "gesamtes Dokument" die Wortformensuche jetzt auch ausgeschaltet werden, d.h.in diesem Fall wird auf ein Indexfeld zugegriffen, in dem zuvor kein Stemming englischsprachiger Begriffe durchgeführt wurde. Des Weiteren wurde Lucene/Solr von unserem Entwickler Bernd Fehling jetzt voll Unicode-fähig gemacht.

Gesendet von Dirk Pieper in Indexierung

Neue Quellen im BASE Lab

Veröffentlicht am 10. März 2011

Ein wichtiger Teil der Migration von FAST nach Lucene/Solr ist die Anpassung der Workflows zum Management der OAI-Quellen. Deshalb freuen wir uns, dass wir in den letzten Tagen eine größere Anzahl neuer Dokumentenserver, die zum Teil schon länger bei uns in der Pipeline standen, in den BASE-Lab-Index aufnehmen konnten:

  • Univerzita Tomáše Bati ve Zlíně: DSpace UTB
  • Universidade Católica Portuguesa: Veritati - Repositório Institucional
  • Instituto Superior de Psicologia, Lisboa: Repositório do ISPA
  • Instituto Politécnico de Leiria: IC-onlineUniverzita Tomáše Bati ve Zlíně: DSpace UTB
  • Electronic Sumy State University Institutional Repository (eSSUIR)
  • CEEMaR (Central and Eastern European Marine Repository)
  • Universität des Saarlandes, Universitätsverlag universaar: Bücher Online
  • University of Central Florida Libraries: Digital Collections
  • San José State University: SJSU ScholarWorks
  • Repozytorium Cyfrowe Poloników / Digital Repository Polonica
  • Pedagogical Digital Library (dLibra) / Pedagogiczna Biblioteka Cyfrowa
  • OPUS - Hochschulschriftenserver der Hochschule Aalen
  • Olivet Nazarene University: Digital Commons @ Olivet
  • Linfield College: DigitalCommons@Linfield
  • Hertie School of Governance, Berlin: OPUS-Dokumentenserver
  • Georgetown University's Law School: Scholarship@Georgetown Law
  • Universität Siegen: OPUS Siegen
  • Universität des Saarlandes, Universitätsverlag universaar: Zeitschriften online
  • Universidade Federal de Uberlândia (UFU): Sistema Eletrônico de Editoração de Revistas
  • Universidade Federal da Paraíba: Portal de Periódicos Científicos Eletrônicos da UFPB
  • Universidade do Oeste Paulista (Unoeste): Sistema Eletrônico de Editoração de Revistas
  • Universida del Norte: Series y Revistas Científicas
  • Revista Iberoamericana (Host: University of Texas, Austin)
  • Revista Brasileira de Estudos de Segurança Pública (REBESP)
  • Review of Economics and Institutions / Economia, Società e Istituzioni
  • Community Literacy Journal (Host: DePaul University, Chicago)
  • Bergische Universität Wuppertal: Elektronische Publikationen
  • African Ethnomedicines Network: E-Journals (Host: Simon Fraser Univ. Vancouver)
  • InterDisciplines - Journal of History and Sociology (Bielefeld Graduate School in History and Sociology

Links und Dokumentenzahl können der Quellenliste entnommen werden.

Gesendet von Dirk Pieper in Indexierung

Fehler in der Trefferliste, oder: wie indexiert BASE?

Veröffentlicht am 8. März 2011

Von Nutzern und Repository-Betreibern werden wir hin und wieder auf scheinbar unvollständig indexierte Quellen oder fehlerhaft indexierte Dokumente aufmerksam gemacht.

Zu solchen Fehlern kommt es in aller Regel, wenn es Probleme mit der OAI-Schnittstelle des Repositories gibt. An der Weboberfläche des Repositories kann dabei durchaus alles korrekt sein, da wir aber nur die OAI-Metadaten indexieren ist die Anzeige der Weboberfläche für die Indexierung in BASE nicht relevant. Wir indexieren über OAI, da hier - anders als auf Webseiten - eine eindeutige und korrekte Indexierung von Metadaten (Autor, Titel, Abstract, Schlagwörter etc.) möglich ist. Die Indexierung geschieht zuerst mit einem Harvester, der sich um das Einsammeln (to harvest = ernten) der OAI-Daten kümmert. Die Daten werden anschließend mit unserer Suchmaschinensoftware indexiert und schließlich in einer Trefferliste angezeigt. Dazu ein Beispiel dem Dokumentenserver des BIB:

Anzeige im Dokumentenserver: http://ub.unibi.de/base04a
OAI-Datensatz: http://ub.unibi.de/base04b
Treffer in BASE: http://ub.unibi.de/base04c

Man sieht einen kleinen Unterschied zwischen der Anzeige im Dokumentenserver und der Anzeige in BASE; während nämlich die URL des Datensatzes http://www.opus-bayern.de/bib-info/frontdoor.php?source_opus=546 lautet, führt der Treffer in BASE auf die Zitat-URL http://www.opus-bayern.de/bib-info/volltexte/2008/546/. Dies liegt daran, dass im OAI-Datensatz im Feld <dc:identifier> diese Zitat-URL zu finden ist.

Die OAI-Metadaten können sich aber noch weitaus stärker von dem unterscheiden, was man an der Weboberfläche im Dokumentenserver sieht. Es kann auch sein, dass der Betreiber der Quelle im OAI-Datensatz einen Fehler behebt, diese Korrektur aber nicht ordnungsgemäß über die OAI-Schnittstelle mitteilt. So erfährt unser Harvester auch nicht, dass sich an dem Datensatz etwas geändert hat. Erst ein kompletter Neuabzug der Daten behebt dann den Fehler auch in den Metadaten, die bei uns angezeigt werden. Wegen der langen Ladezeiten können wir solche Komplettabzüge aber nur hin und wieder durchführen.

Neben unterschiedlichen Metadaten, kann es auch vorkommen, dass über OAI nur ein Teil der Daten geliefert werden, die im gesamten Dokumentenserver zu finden sind. Manchmal fehlt auch der "identifier" in den OAI-Metadaten. Dann wird der Datensatz nicht weiter verarbeitet, denn reine Zitatanagaben ohne einen Link zumindest auf eine Webseite mit den Metadaten nehmen wir (anders als z.B. Google Scholar) nicht in unseren Index auf.

Da es auch vorkommen kann, dass auf unserer Seite beim Harvesten oder Indexieren ein Fehler passiert, sind wir natürlich an Ihren Rückmeldungen interessiert. Wenn Ihnen also ein Fehler auffällt, schicken Sie einfach eine Nachricht über unser Kontaktformular.

Gesendet von Sebastian Wolf in Indexierung

Neue BASE Version im BASE Lab

Veröffentlicht am 14. Februar 2011

In den letzten Monaten haben wir intensiv an der Migration von FAST nach Lucene/Solr gearbeitet. Wir geben heute eine erste Test-Version im BASE Lab frei und freuen uns auf Ihr Feedback in diesem Blog.

Wie unterscheidet sich die Lab-Version vom jetzigen System?

Inhalt:

Der BASE Index enthält rd. 25,5 Mio. Dokumenten aus 1.724 Quellen, der neue Index im BASE Lab enthält rd. 26,5 Mio.aus 1.693 Quellen. Der alte BASE Index wird nicht mehr aktualisiert, das Harvesten von Dokumentenservern über OAI-PMH geht natürlich weiter, was die höhere Dokumentenzahl im BASE Lab erklärt. Ein Teil der Quellen konnte aus technischen Gründen nicht in das BASE Lab übernommen werden, neue Quellen werden nur noch für den neuen Index aufbereitet. Die BASE API zeigt derzeit noch auf BASE und nicht auf BASE Lab.

Suche und Suchoberfläche:

Die Suchoberfläche im BASE Lab läuft unter VuFind. VuFind-Funktionalitäten, die ein Login erfordern, sind während des Tests im BASE Lab deaktiviert. Unter Lucene/Solr ist vorerst keine multilinguale Suche (Eurovoc Thesaurus) und keine automatische Schlagwortanreicherung für deutschsprachige Dokumente möglich. Ebenso können wir derzeit keine mehrsprachige Lemmatisierung (Wortformen-Suche), sondern nur ein einfaches Stemming für englischsprachige Suchbegriffe (Porter Stemmer) anbieten. Das bedeutet, dass die Suchergebnisse von BASE unter FAST und BASE unter Lucene/Solr - nicht nur aufgrund der unterschiedlichen Dokumentenzahl - wenig vergleichbar sind. Neue Funktionalitäten, wie das Abonnieren von RSS-Feeds oder Versenden von Ergebnissen als EMail sind im BASE Lab schon aktiv. Repository-Manager können den Stand ihrer Dokumentenserver über die BASE-Lab-Quellenliste abfragen.

Wie geht es weiter?

Die vollständige Ablösung des FAST-Systems ist für die nächsten Monate geplant, ebenso die Umlenkung der BASE API auf den neuen Index. Der Index unter Lucene/Solr wird vorerst in unregelmäßigen Abständen aktualisiert werden.

Gesendet von Dirk Pieper in BASE Lab

Willkommen im BASE Weblog

Veröffentlicht am 10. Januar 2011
Dies ist das Weblog der wissenschaftlichen Suchmaschine BASE (Bielefeld Academic Search Engine, http://www.base-search.net). BASE ist eine der weltweit größten Suchmaschinen speziell für frei im Sinne des Open Access zugängliche wissenschaftliche Dokumente im Internet. Betreiber der Suchmaschine BASE ist die Universitätsbibliothek Bielefeld. Hier erfahren Sie neues rund um die Suchmaschine.
Gesendet von Sebastian Wolf in Allgemein
Tags: allgemein

Kalender

« Mai 2024
MoDiMiDoFrSaSo
  
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
  
       
Heute