BASE WeblogWeblog der Suchmaschine BASEhttps://blogs.uni-bielefeld.de/blog/base/feed/entries/atom2023-09-08T10:37:51+02:00Apache Roller (incubating)https://blogs.uni-bielefeld.de/blog/base/entry/nachrichten_zu_base_ab_sofortNachrichten zu BASE ab sofort im Weblog der Uni-BibliothekSebastian Wolf2023-09-08T10:37:31+02:002023-09-08T10:37:51+02:00https://blogs.uni-bielefeld.de/blog/baseBASE Weblogfalse
<p>Dieses Blog wird nicht weiter betrieben. Nachrichten zu BASE finden Sie ab sofort im Weblog der Universitätsbibliothek <a href="https://blog.ub.uni-bielefeld.de/">ub.aktuell</a><br /></p>
https://blogs.uni-bielefeld.de/blog/base/entry/%C3%BCber_200_millionen_nachweise_inÜber 200 Millionen Nachweise in BASESebastian Wolf2020-08-13T14:19:46+02:002020-08-13T14:24:24+02:00https://blogs.uni-bielefeld.de/blog/baseBASE Weblogfalse
<p><p>Die wissenschaftliche <a href="https://www.base-search.net/">Suchmaschine BASE</a> durchsucht das wissenschaftliche Web jetzt so umfangreich wie nie zuvor! </p><p>Seit kurzem enthält BASE über 200 Millionen Nachweise aus über 8.000 Quellen. Die Folgende Grafik zeigt den Zuwachs bei den indexierten Nachweisen und Quellen seit 2012.</p><p><img src="https://www.base-search.net/about/images/blog_base-statistik_201201-202008.png" vspace="0" hspace="0" border="1" /><br /></p><p>Einen großen Anteil an dieser Steigerung hat die Indexierung wissenschaftlicher Publikationen aus Verlagen über die <a href="https://www.crossref.org/">Crossref</a>-Plattform. In unserer <a href="https://www.base-search.net/about/de/about_sources_date.php">Quellenliste</a> sind diese Quellen durch den Zusatz "via Crossref" gekennzeichnet. Ein verbesserter Workflow ermöglicht uns die schnellere Integration größerer Datenmengen. Die Verwendung der API-Schnittstelle von <a href="https://unpaywall.org/">Unpaywall</a> erlaubt es uns zudem mehr Dokumente als bisher mit dem Open-Access-Status zu versehen.</p><p>Trotz der großen Anzahl der indexierten Dokumente werden wie bisher auch Quellen und Dokumente ausgefiltert, wenn diese auf Grund technischer Probleme nicht erreichbar sind. Eine quellenübergreifende Dublettenkontrolle findet in BASE nicht statt, wir arbeiten jedoch weiterhin an diesem Thema. Es stellt sich bei der extremen Heterogenität der Daten als äußerst komplexes Thema heraus. </p><p>Ein Aspekt, der weitestgehend hinter den Kulissen abläuft, soll an dieser Stelle nicht unerwähnt bleiben: Wir konnten bereits Hunderte von Quellenbetreibern auf Probleme in ihrer OAI-Schnittstelle hinweisen. Diese werden in den allermeisten Fällen von den Quellenbetreibern zeitnah behoben, so dass die OAI-Schnittstellen funktionieren und korrekte Metadaten ausliefern. Davon profitieren neben BASE auch zahlreiche andere Dienste, die Inhalte via OAI indexieren. </p><p>Deutlich ausgebaut haben wir daher auch unsere <a href="https://www.base-search.net/about/en/faq_oai.php">Goldenen Regeln für Quellenbetreiber</a>. Hier erklären wir detailliert, wie die Metadaten einer Quelle optimal bereit gestellt werden sollten, damit sie von BASE - aber natürlich auch von anderen Diensten, ohne Probleme indexiert werden können. </p><p>Wie bisher können die Inhalte über verschiedene Schnittstellen nachgenutzt werden. Hunderte Betreiber von Datenbanken, Suchmaschinen und Portalen aus aller Welt machen davon bereits Gebrauch.<br /></p></p>
https://blogs.uni-bielefeld.de/blog/base/entry/150_millionen_dokumente_und_neue150 Millionen Dokumente und neue FunktionenSebastian Wolf2020-01-24T13:28:26+01:002020-01-24T13:48:35+01:00https://blogs.uni-bielefeld.de/blog/baseBASE Weblogfalse
<p><p>Seit kurzem sind über unsere wissenschaftlichen Suchmaschine BASE mehr als 150 Millionen Dokumente aus über 7000 Quellen zu finden. BASE ist damit - hinter den wissenschaftlichen Suchdiensten von Google und Microsoft - die größte wissenschaftliche Suchmaschine weltweit und die größte nicht-kommerzielle Suchmaschinen ihrer Art. <br /></p><p>In letzter Zeit sind zudem einige Funktionen hinzugekommen.<br /></p><p>Mitte 2018 haben wir BASE auf ein neues, responsives Design umgestellt. Die Darstellung der Webseiten passt sich jetzt immer dem jeweiligen Endgerät an. Auf allen Endgeräten sind alle Funktionen von BASE voll nutzbar.<br /></p><p><a href="https://www.base-search.net/"><img style="border: 0px none;" src="https://www.base-search.net/about/images/blog_20200124_base_einfache_suche.png" title="Einfache Suchmaske im neuen responsiven Design" alt="Zur BASE-Suchmaske" /></a></p><p>Die mehrsprachige Suche wurde umgestellt und erweitert. Mit Hilfe dieser Funktionen werden Suchbegriffe in mehr als 25 übersetzt und so ganz einfach auch fremdsprachige Dokumente gefunden. Neu hinzugekommen ist neben dem Eurovoc-Thesaurus jetzt auch der Agrovoc Thesaurus. Aktivieren können Sie die mehrsprachige Suche über die gleichnamige Funktion in der <a href="https://www.base-search.net/Search/Advanced">erweiterten Suche</a> oder in der Suchmaske auf der Trefferliste. Die zusätzliche Suche nach (übersetzten) Synonymen wird nicht mehr angeboten, da diese häufig ungenaue Ergebnisse und zu große Treffermengen brachte.<br /></p><p>Verbessert wurde auch unser <a href="https://www.base-search.net/about/de/suggest.php">Formular zum Vorschlagen neuer Quellen</a>. Beim Absenden des Formulars wird nun geprüft, ob die Quelle bereits von uns indexiert oder zur Indexierung vorbereitet wurde. Ist dies der Fall erhalten Sie sofort eine Rückmeldung und können die indexierten Dokumente aus der vorgeschlagenen Quelle direkt aufrufen. </p><p>Erweitert und aktualisiert haben wir auch unsere Info- und Hilfeseiten - so die <a href="https://www.base-search.net/about/de/help.php">Suchhilfe</a>, die <a href="https://www.base-search.net/about/de/faq.php">FAQ</a> und die <a href="https://www.base-search.net/about/de/faq_oai.php">Goldenen Regeln für Quellenbetreiber</a>. Wenn Sie Fragen zur Suchmaschine haben finden Sie dort die passenden Antworten.<br /></p></p>
https://blogs.uni-bielefeld.de/blog/base/entry/claiming_von_publikationen_mit_orcidClaiming von Publikationen mit ORCID iDSebastian Wolf2017-06-01T11:51:03+02:002017-06-01T11:51:03+02:00https://blogs.uni-bielefeld.de/blog/baseBASE Weblogfalse
<p><p>In einer <a href="http://ub.unibi.de/base02">Trefferliste in BASE</a> finden Sie neben jedem Autorennamen jetzt den Link <b>claim</b>.</p><p>Wenn Sie selbst der Autor der Publikation sind, können Sie hier Ihre Autorenschaft bestätigen und z.B. die Publikation mit Ihrer ORCID iD verknüpfen und auch die Metadaten (Autor, Titel, Erscheinungsjahr etc.) in Ihre Publikationsliste bei <a href="https://orcid.org/">ORCID</a> übernehmen.</p></p>
<p><p>Hierfür müssen Sie sich einmalig in unserer Suchmaschine registrieren und eine ORCID iD besitzen. Sollten Sie noch kein persönliches Login / keine ORCID iD aben, können Sie nach Klick auf "claim" ein persönliches Login in BASE einrichten bzw. sich bei ORCID kostenlos registrieren. Nach der Registrierung erhalten Sie bei ORCID eine ID, die eine eindeutige Identifizierung Ihrer Publikationen ermöglicht (auch bei Namensgleichheit mit einer anderen Person, Varianten in der Schreibung Ihres Namens oder Namensänderungen). Sie können die Metadaten der Publikation (Autor, Titel, Erscheinungsjahr etc.) auch direkt in Ihre Publikationsliste bei ORCID übernehmen. Nach dem "claiming" erscheint in BASE hinter Ihrem Autorennamen ein Icon ("ID") mit einem Link auf Ihr Profil bei ORCID.</p></p>
<p><p>Die Anreicherung von Autoren-Informationen in BASE um ORCID-iDs wurde im Kontext des Projekts <a href="http://www.orcid-de.org/">ORCID DE</a> implementiert, an dem u.a. die Universitätsbibliothek Bielefeld als Betreiber der Suchmaschine BASE beteiligt ist. <a href="https://doi.org/10.5281/zenodo.163373">Präsentation BASE-ORCID-Claiming-Service</a>.</p></p>
<p><p>Die Vorgehensweise wird in den folgenden Screenshots verdeutlicht, die Sie per Klick vergrößern können.</p></p>
<p><p><a href="https://www.base-search.net/about/images/blog_base_claim_de_01_hit-and-login_labeled.png"><img style="width: 460px; border: 1px solid rgb(204, 204, 204);" src="https://www.base-search.net/about/images/blog_base_claim_de_01_hit-and-login_labeled.png" /></a></p></p>
<p><p><a href="https://www.base-search.net/about/images/blog_base_claim_de_02_hit-authenticate-authorize_labeled.png"><img style="width: 460px; border: 1px solid rgb(204, 204, 204);" src="https://www.base-search.net/about/images/blog_base_claim_de_02_hit-authenticate-authorize_labeled.png" /></a></p></p>
<p><p><a href="https://www.base-search.net/about/images/blog_base_claim_de_03_hit-and-claim_labeled.png"><img style="width: 460px; border: 1px solid rgb(204, 204, 204);" src="https://www.base-search.net/about/images/blog_base_claim_de_03_hit-and-claim_labeled.png" /></a></p></p>
<p><p><a href="https://www.base-search.net/about/images/blog_base_claim_de_04_hit-and-claimed_labeled.png"><img style="width: 460px; border: 1px solid rgb(204, 204, 204);" src="https://www.base-search.net/about/images/blog_base_claim_de_04_hit-and-claimed_labeled.png" /></a></p></p>
https://blogs.uni-bielefeld.de/blog/base/entry/100_millionen_nachweise_in_base100 Millionen Nachweise in BASESebastian Wolf2016-11-18T11:11:51+01:002016-11-18T11:11:51+01:00https://blogs.uni-bielefeld.de/blog/baseBASE Weblogfalse
<p><p>Unsere wissenschaftlichen <a href="https://www.base-search.net">Suchmaschine BASE</a> hat einen wichtigen <br/>
Meilenstein erreicht: Die Metadaten von über 100 Millionen <br/>
wissenschaftlichen Dokumenten können über BASE durchsucht werden. BASE <br/>
ist damit - nach Google Scholar - die größte wissenschaftliche <br/>
Suchmaschine weltweit. BASE ist zudem eine der größten europäischen <br/>
Suchmaschinen überhaupt.</p><p>Ausgebaut und verfeinert haben wir in letzter Zeit vor allem die <br/>
Erkennung von Open-Access-Dokumenten und die Zuordnung zu Dokumentarten. <br/>
Sie können nun z.B. in der <a href="https://www.base-search.net/Search/Advanced">erweiterten Suche</a> gezielt nur nach <br/>
Zeitschriftenaufsätzen, Buchkapiteln oder Vorträgen suchen. Hierbei <br/>
kommen von uns intellektuell erstellte Tabellen zum Einsatz, über die <br/>
die heterogenen Angaben aus den Originaldaten dem jeweiligen Oberbegriff <br/>
zuordnet werden. Als Vorlage hierfür diente uns das Vokabular, welches <br/>
im EU-Projekt <a href="https://www.openaire.eu/">OpenAIRE</a> verwendet wird, an dem die <br/>
Universitätsbibliothek Bielefeld beteiligt ist.</p><p><a href="http://blog.ub.uni-bielefeld.de/wp-content/uploads/2016/11/base-trefferliste_klimawandel_drilldown.png" title="Trefferliste aus BASE mit Möglichkeit auf eine Dokumentart einzuschränken"><img vspace="0" hspace="0" border="0" align="bottom" src="http://blog.ub.uni-bielefeld.de/wp-content/uploads/2016/11/base-trefferliste_klimawandel_drilldown-300x183.png" /></a></p><p>Knapp 40% der indexierten Nachweise konnten wir inzwischen eindeutig als <br/>
Open Access kennzeichnen. Darüber hinaus sind weitere Nachweise frei <br/>
zugänglich, die aber teilweise wegen unzureichender Metadaten (noch) <br/>
nicht in BASE als OA gekennzeichnet werden konnten. Etwa 60% der <br/>
indexierten Nachweise in BASE sind nach Stichproben weltweit frei <br/>
zugänglich.</p><p>Ein größeres Projekt, an dem wir derzeit arbeiten, ist die Anreicherung <br/>
der Autorennamen um ORCID-iDs im Rahmen des Projektes <a href="https://dini.de/projekte/orcid-de/">ORCID DE</a>. <br/>
Geplant ist auch die Einbindung eines ORCID-Claiming-Dienstes, so dass <br/>
Autoren selbst ihre Metadaten in BASE um ORCID-iDs ergänzen können und <br/>
in ihre ORCID-Publikationsliste exportieren können.</p><p>Für Repository-Betreiber haben wir <a href="https://www.base-search.net/about/de/faq_oai.php">Goldene Regeln</a> zusammengestellt, <br/>
die dabei helfen, die eigene OAI-Schnittstelle (nicht nur) für die <br/>
Indexierung in BASE zu optimieren.</p><p>Nachweise aus BASE sind über Schnittstellen inzwischen in zahlreichen <br/>
anderen Suchmaschinen und Portalen in aller Welt integriert. Die <br/>
HTTP-Schnittstelle und OAI-Schnittstelle können für nicht-kommerzielle <br/>
Projekte <a href="https://www.base-search.net/about/de/about_develop.php?menu=2">kostenlos nachgenutzt werden</a>. Über unsere Schnittstellen <br/>
und die BASE-Suchmaske erfolgen inzwischen mehrere Millionen Zugriffe im <br/>
Monat. Der von der Universitätsbibliothek Bielefeld aufgebaute Index <br/>
trägt so zu einer weltweiten Sichtbarmachung von Open-Access-Nachweisen bei.</p><p>Wichtige Fragen (und deren Antworten) zu BASE haben wir in unserer <a href="https://www.base-search.net/about/de/faq.php">FAQ</a> zusammengestellt.</p></p>
https://blogs.uni-bielefeld.de/blog/base/entry/base_index_%C3%BCber_eds_absuchbarEBSCO integriert BASE-Datenservices in EDSSebastian Wolf2015-12-10T13:31:05+01:002015-12-10T13:31:05+01:00https://blogs.uni-bielefeld.de/blog/baseBASE Weblogfalse
<p><p>Mehr als 80 Millionen Dokumente aus über 3.800 Quellen sind in unserer Suchmaschine BASE mittlerweile indexiert. Eine Vereinbarung <br/>
zwischen EBSCO und der Universität <br/>
Bielefeld erlaubt die Nutzung der BASE-Datenservices für den EBSCO Discovery Service (EDS). Damit haben mehrere hundert wissenschaftliche Bibliotheken die Möglichkeit, Metadaten der weltweiten Repository-Community in ihren EDS-Installationen sichtbar zu machen.</p><p>Wir freuen uns, dass diese Partnerschaft die Verbreitung und Nutzung insbesondere von Open-Access-Inhalten der Repositorien verstärkt. <br /></p><p>Zur Pressmitteilung:<br /></p><p><a href="https://www.ebsco.com/e/de-de/nachrichten-center/pressemitteilungen-in-deutscher-sprache/inhalte-aus-der-suchmaschine-base-von-der-universitaet-bielefeld-jetzt-such">https://www.ebsco.com/e/de-de/nachrichten-center/pressemitteilungen-in-deutscher-sprache/inhalte-aus-der-suchmaschine-base-von-der-universitaet-bielefeld-jetzt-such</a></p>
<p></p></p>
https://blogs.uni-bielefeld.de/blog/base/entry/mehr_als_3500_quellen_imMehr als 3500 Quellen im BASE-IndexSebastian Wolf2015-05-13T16:17:03+02:002015-05-18T10:33:10+02:00https://blogs.uni-bielefeld.de/blog/baseBASE Weblogfalse
<p><p>Der Index unserer wissenschaftlichen Suchmaschine BASE wächst weiterhin stark. Mittlerweile haben wir mehr als 73 Mio. Dokumente aus über 3500 Quellen indexiert. Innerhalb eines Jahres wurden von uns mehr als 600 neue Quellen und insgesamt über 10 Mio. neue Dokumente indexiert.<br />Unsere Statistik veranschaulicht den stetigen Zuwachs an Dokumenten und Quellen:</p><p><a title="Bild vergrößern" href="http://www.base-search.net/about/images/blog_base-statistik_201505.png"><img width="450" alt="BASE Statistik" src="http://www.base-search.net/about/images/blog_base-statistik_201505.png" /></a></p><p>Etwa 60% der Quellen, die innerhalb des letzten Jahres hinzugekommen sind, bieten ausschließlich Open-Access-Dokumente an. Als "Open Access" wird der weltweit freie Zugang zum Volltext (PDF) ohne Kosten, Login oder Registrierung bezeichnet. Die restlichen Quellen bieten zumindest teilweise Open-Access-Dokumente an, da dies eine Voraussetzung für die Aufnahme in den BASE-Index ist. Insgesamt sind 60-70% aller indexierten Dokumente in unserer Suchmaschine auf diese Weise frei zugänglich.</p><p>Als besonders umfangreiche Quellen sind im letzten Jahr hinzugekommen OpenEdition mit über 270.000 Open-Access-Dokumenten, die Publikationsserver der Aarhus Universitet (210.000 Dokumente), der State Library of Massachusetts (150.000), der RWTH Aachen (120.000), der Technical University of Denmark (120.000), des Karlsruher Institut für Technologie (100.000) oder die Images from the History of Medicine der U.S. National Library of Medicine (NLM) (70.000).</p><p>10 Quellen bietet mittlerweile über 1 Mio. Dokumente an, u.a. PubMed Central, CiteSeer, ArXiv.org, das Directory of Open Access Journals und DataCite.</p><p><a href="http://www.base-search.net/about/de/about_sources_date_dn.php?menu=2">Vollständige Liste der von BASE indexierten Quellen</a></p></p>
https://blogs.uni-bielefeld.de/blog/base/entry/open_access_dokumente_boostenOpen-Access-Dokumente "boosten"Sebastian Wolf2014-07-29T16:26:56+02:002014-07-30T14:43:45+02:00https://blogs.uni-bielefeld.de/blog/baseBASE Weblogfalse
<p><p>Schätzungsweise 70% aller in BASE indexierten Dokumente sind <i>Open Access</i>, also weltweit frei zugänglich. Etwa 1/3 dieser Dokumente können von uns zweifelsfrei als Open Access gekennzeichnet werden, da uns in diesem Fall entsprechende Zugangsinformation zur Verfügung stehen.<br /></p></p>
<p><p>Um die Dokumente, die eindeutig als Open Access gekennzeichnet sind, stärker in den Vordergrund zu rücken, haben wir in unserem Testbereich – dem <a href="http://lab.base-search.net/">BASE Lab</a> – eine Möglichkeit geschaffen, diese Dokumente stärker zu gewichten. Über die Checkbox "Open-Access-Dokumente bevorzugen" erhalten diese Dokumente ein "Boosting". Die Checkbox ist standardmäßig aktiviert, sie kann aber auch deaktiviert werden. Dann erscheinen die Treffer im Standard-Ranking.</p></p>
<p><p>Ein Beispiel zum Vergleich ist die Suche nach <i>open access</i></p></p>
<p><p><a href="http://www.base-search.net/Search/Results?lookfor=open+access&refid=blog">Trefferliste mit Standard-Ranking</a><br /><a href="http://lab.base-search.net/Search/Results?lookfor=open+access&oaboost=1&refid=blog">Trefferliste mit "OA-Boosting"</a></p></p>
<p><p>Die unterschiedlich gewichtete Trefferliste wird auch über den folgenden Screenshot anschaulich:</p></p>
<p><p><a href="http://www.base-search.net/about/images/blog_base_oaboost_de.png"><img style="width: 440px;" src="http://www.base-search.net/about/images/blog_base_oaboost_de_gr.png" /></a></p></p>
<p><p>Das Ranking, also die Reihenfolge, in der die Treffer ausgegeben werden, richtet sich nach verschiedenen Kriterien, insbesondere nach der Position und Anzahl der gesuchten Wörter im Text. Kommt ein Wort im Titel vor, wird es entsprechend höher gewichtet, als wenn es z.B. nur im Abstract vorkommt. Auch die Länge von Titeln oder Abstracts hat Auswirkung auf das Ranking. Durch das Boosting werden nun mehr eindeutig gekennzeichnete Open-Access-Dokumente auf der ersten Trefferseite angezeigt. Es ist aber nicht so, dass zuerst nur Open-Access-Dokumente angezeigt werden und anschließend alle anderen Dokumente (dies wäre eine Sortierung) – passt ein Dokument besonders gut zu Ihrer Suchanfrage, wird es immer weit oben angezeigt, egal ob es als Open Access gekennzeichnet ist oder nicht.</p><p>Was halten Sie von der Möglichkeit, Open-Access-Dokumente höher zu gewichten? Schreiben Sie einen Kommentar hier im Blog oder auf Twitter an @BASEsearch (Hashtag <a href="https://twitter.com/hashtag/oaboost?f=realtime&src=hash">#oaboost</a>)!<br /></p></p>
https://blogs.uni-bielefeld.de/blog/base/entry/10_jahre_suchmaschine_base10 Jahre BASESebastian Wolf2014-06-24T13:44:09+02:002014-06-24T15:25:05+02:00https://blogs.uni-bielefeld.de/blog/baseBASE Weblogfalse
<p><p>Vor genau 10 Jahren, am 24.6.2004, ging unsere wissenschaftliche <a href="http://www.base-search.net">Suchmaschine BASE</a> online.</p></p>
<p><p>BASE umfasst mittlerweile über 60 Mio. Dokumente aus über 3000 Quellen und ist eine der größten wissenschaftlichen Suchmaschinen weltweit. Etwa 70% der Dokumente sind frei im Sinne des <em>Open Access</em> zugänglich. Von den restlichen Dokumenten stehen die Metadaten zur Verfügung.</p></p>
<p><p><strong>Ein Rückblick</strong></p></p>
<p><p>Die Ursprünge unserer Suchmaschine BASE liegen im Jahr 2001. Eine viel beachtete wissenschaftlichen <a href="http://opus.bsz-bw.de/hdms/volltexte/2004/334/">Studie</a> zeigte bereits damals, dass Wissenschaftler und Studierende zur Informationsrecherche vorwiegend Internet-Suchmaschinen benutzten. Fachdatenbanken mit ihren oftmals komplizierten Suchmasken und Trefferlisten wurden deutlich seltener genutzt. Die Bibliothek entwickelte daraufhin im Januar 2002 ein erstes Konzept für eine "Universelle Wissenschaftssuchmaschine". Das Ziel war es von Anfang an die einfache Bedienung von Suchmaschinen in die wissenschaftliche Welt zu übertragen, um die Recherche nach qualitativ hochwertigen Dokumenten zu erleichtern.</p></p>
<p><p>Grundsätzlich gelangen die Inhalte dabei auf zwei verschiedenen Wegen in die Datenbank:</p><ul><li>Repository-Server, die ihre Inhalte (bibliographische Metadaten) in strukturierter Form über das "Open Archives Initiative Protocol for Metadata Harvesting" (OAI-PMH) bereitstellen werden geharvested, d.h. die über eine OAI-Schnittstelle bereitgestellten Daten werden eingesammelt, anschließend werden sie von uns normalisiert (z.B. Jahreszahlen vereinheitlicht), kleinere Fehler in den Metadaten werden mit Hilfe verschiedener Skripte bereinigt und die so "verbesserten" Daten anschließend indexiert.</li><br/>
<li>Außerdem werden ausgewählte Webquellen indexiert, wobei ähnliche Techniken wie bei Internetsuchmaschinen wie Google eingesetzt werden</li></ul></p>
<p><p>Darüber hinaus haben wir über 1.000 weitere Quellen mit über 30 Millionen Dokumenten geharvested. Die auf diese Weise gesammelten Metadaten sind jedoch aus verschiedenen Gründen nicht für die anschließende Indexierung geeignet (Server ist zugriffsgeschützt, Metadaten stark fehlerhaft oder unvollständig, Server häufig offline, die Quelle besitzt keine frei zugänglichen Volltexte oder alle Inhalte sind bereits über eine andere Quelle indexiert). Solche Quellen werden von uns nach individueller Prüfung nicht indexiert, die Betreiber jedoch ggf. über aufgetretene Probleme informiert (teilweise werden diese auch vom Betreiber behoben und die Quelle kann von uns dann indexiert werden).</p><p>Seit dem Start von BASE sind nicht nur zahlreiche weitere Quellen und Dokumente indexiert worden, sondern es kamen auch viele neue Funktionen, neue Suchmöglichkeiten und neue Schnittstellen hinzu, über die wir auch hier im Blog kontinuierlich berichtet haben. Etwa 10 Mio. Dokumente sind mit einer DDC versehen und können über das <a href="http://www.base-search.net/Browse/Dewey">Browsing</a> gefunden werden. Der größte Teil der Dokumente wird dabei automatisch mit einer DDC klassifiziert. Voraussetzung ist, dass ein ausreichend langes Abstract in deutscher oder englischer Sprache zur Verfügung steht. Außerdem gibt es ein Browsing nach Dokumentart.</p></p>
<p><p>BASE ist nicht nur unter der Originaloberfläche - <a href="http://www.base-search.net/">www.base-search.net</a> - absuchbar, sondern auch in zahlreichen Metasuchmaschinen, Datenbanken und Kataloge eingebunden. Spezielle "Fachausschnitte" aus BASE sind z.B. über <a href="https://www.econbiz.de/">EconBiz</a> (Virtuelle Fachbibliothek Wirtschaftswissenschaften) und den <a href="http://highnorth.uit.no/">High North Research Documents</a> (Universität Tromsö) suchbar.</p></p>
<p><p><strong>Ein Ausblick</strong></p></p>
<p><p>Neben dem kontinuierlichen Aufwand für die ständige Pflege und Kontrolle der bereits indexierten Inhalte stehen auf der Agenda einige Punkte für die zukünftige Entwicklung unserer Suchmaschine:</p><ul><li>Bisher beschränken wir uns bei der Indexierung strukturierte Metadaten auf OAI-PMH. Zwar bieten sehr viele Repositorien und E-Journals eine solche Schnittstelle an, es gibt jedoch auch weitere Schnittstellen, über die z.T. noch mehr bibliographischen Daten angeboten werden. Hier ermitteln wir derzeit eine Quelle für praktische Tests.</li><br/>
<li>Die Kennzeichnung von Open-Access-Dokumenten auf Dokumentebene soll ausgebaut werden. Die Auszeichnung wird von den Betreibern selbst allerdings nicht immer vorgenommen und auch das OAI-Protokoll bietet nur unzureichende Möglichkeiten, die Zugänglichkeit eines Volltextes eindeutig zu kennzeichnen. Momentan können daher nur gut 20% der indexieren Dokumente zweifelsfrei als Open Access von uns gekennzeichnet werden, auch wenn die tatsächliche Quote der frei zugänglichen Dokumente, die in BASE zu finden sind, bei ca. 70% liegt.</li><br/>
<li>Auch die Integration von Funktionen, wie man sie aus dem Umfeld von Google Scholar kennt, z.B. die Zusammenführung von Dubletten / mehreren Versionen eines Artikels oder die Anzeige von Zitaten, steht auf unserer Agenda. Beides ist allerdings nur mit großem Aufwand zu realisieren.</li></ul></p>
<p><p><strong>Ein paar Zahlen</strong></p></p>
<p><p>Die 10 größten Quellen:</p></p>
<p><ul><li>CiteSeerX 3.353.358 Dokumente<br /></li><li>DataCite Metadata Store (TIB Hannover) 3.160.121</li><li>PubMed Central (PMC) 3.113.557</li><li>HighWire Press (Stanford University) 2.342.511</li><li>Gallica - bibliothèque numérique de la Bibliothèque nationale de France (BnF) 2.172.104</li><li>Directory of Open Access Journals: DOAJ Articles 1.597.202</li><li>University of Michigan: Digital Library Production Service (DLPS) 1.208.765</li><li>RePEc: Research Papers in Economics 1.114.209</li><li>Hathi Trust Digital Library 964.755</li><li>ArXiv.org (Cornell University Library) 940.537</li></ul></p>
<p><p>Länder mit über 100 Quellen im Index:</p></p>
<p><ul><li>USA 629 Quellen</li><li>Deutschland 247</li><li>Großbritannien 186</li><li>Brasilien 167</li><li>Spanien 161</li><li>Japan 149</li><li>Italien 108</ul></p>
<p><p>Länder mit über 1 Mio. Dokumente im Index:</p></p>
<p><ul><li>USA 24.643.988 Dokumente<br /></li><li>Deutschland 6.228.448</li><li>Frankreich 3.973.813</li><li>Spanien 2.850.617</li><li>Großbritannien 2.632.363</li><li>Australien 1.912.267</li><li>Taiwan 1.384.966</li><li>Polen 1.338.866</li><li>Schweiz 1.272.013</li><li>Japan 1.205.641</li><li>Niederlande 1.055.150</li><li>Brasilien 1.047.417</li></ul></p>
<p><p><img src="http://www.base-search.net/about/images/statistic_index_de.png" style="width: 440px;" /></p></p>
<p><a href="http://www.base-search.net/about/de/about_statistics.php?menu=2">Weitere Zahlen und Statistiken</a><br /></p>
https://blogs.uni-bielefeld.de/blog/base/entry/60_millionen_dokumente_aus_300060 Millionen Dokumente aus 3000 Quellen im BASE-IndexSebastian Wolf2014-05-20T16:23:04+02:002014-05-20T16:30:54+02:00https://blogs.uni-bielefeld.de/blog/baseBASE Weblogfalse
<p><p>In Kürze feiert unsere <a href="http://www.base-search.net/">Suchmaschine BASE</a> ihr 10-jähriges Bestehen. Was im Juni 2004 mit der Indexierung einiger Hunderttausend Dokumente aus einem Dutzend Quellen begann, ist inzwischen auf über 60 Millionen Dokumente aus über 3000 Quellen angewachsen. Die Metadaten (Autor, Titel, Erscheinungsjahr usw.) der Dokumente können weltweit frei durchsucht werden, die Volltexte sind in ca. 70% der Fälle frei zugänglich.</p><p>Mittlerweile sind Quellen aus 94 Ländern im BASE-Index zu finden, ein Zeichen für den weltweiten Erfolg "Open-Archives"-Initiative und des dazu gehörigen OAI-PMH-Protokolls. BASE indexiert vorwiegend Dokumente aus Quellen, die über ein solches Protokoll verfügen und ihre Metadaten in strukturierte Form über OAI-PMH zur Verfügung stellen.</p><p>Alleine aus Deutschland können 246 Quellen mit über 6 Millionen Dokumenten über <a href="http://de.base-search.net/">BASE DE</a> durchsucht werden. Damit ist BASE eine der weltweit größten Suchmaschinen für wissenschaftliche Dokumente, insbesondere im deutschsprachigen Bereich. Neben dem umfangreichen Index bietet BASE auch zahlreiche Möglichkeiten gezielt zu suchen und das Ergebnis auch gezielt einzuschränken. Hier ein Beispiel aus einer Trefferliste (klicken zum vergrößern):<br /></p><p><a href="http://www.base-search.net/about/images/blog_base-hitlist.png" title="Klicken zum Vergrößern"><img width="451" vspace="0" border="1" align="bottom" hspace="0" height="333" alt="Trefferliste aus BASE" src="http://www.base-search.net/about/images/blog_base-hitlist.png" /></a></p><p>Weitere Informationen über unsere Suchmaschine BASE finden Sie auch im <a href="http://www.ub.uni-bielefeld.de/wiki/BASE%20">öffentlichen Wiki der Universitätsbibliothek Bielefeld</a> oder in unserer <a href="http://www.base-search.net/about/de/faq.php">BASE-FAQ</a>.<br /></p><p> </p><p><br /></p></p>