Aufsätze
Nur die ersten Drei zählen!
Optimierung der Rankingverfahren über Popularitätsfaktoren bei der Elektronischen Bibliothek Bremen (E-LIB)
Martin Blenkle, Staats- und Universitätsbibliothek Bremen
Rachel Ellis, Staats- und Universitätsbibliothek Bremen
Elmar Haake, Staats- und Universitätsbibliothek Bremen
Hartmut Zillmann, Osnabrück
Zusammenfassung:
Seit Einführung der neuen Discovery-Kataloge stehen unseren Nutzerinnen und Nutzern zusätzlich Millionen von Dokumenten neben dem lokalen Buchbestand zur Verfügung. Diese Zielgruppe muss in die Lage versetzt werden, die für sie relevanten Titel einfach und sicher zu finden. Die Qualität von Empfehlungsfunktionen und besonders der Relevanz-Ranking-Methoden sind daher für den Erfolg eines Discovery-Systems besonders wichtig. Das Ranking bibliothekarischer Suchmaschinentechnik ignoriert bisher das Feedback durch Nutzerinnen und Nutzer. Die Staats- und Universitätsbibliothek Bremen (SuUB) setzt mit dem in Bremen entwickelten Discovery-System „E-LIB“ seit Sommer 2011 zusätzlich auf eine Modifikation des Treffer-Rankings über Popularitätsfaktoren der Medien wie Klickstatistik, Auflagen- und Exemplarzahl. Die maßgeschneiderte Entwicklung eines eigenen Bibliothekskataloges, den die SuUB seit 2004 mit dem Discovery-System „E-LIB“ in Bremen betreibt, erlaubt die schnelle und flexible Anpassung von Retrievalfunktionen an die Bedürfnisse der Nutzerinnen und Nutzer vor Ort.
Summary:
Since the introduction of modern discovery catalogues, users have been able to access millions of electronic documents in addition to local print holdings. For a search to be successful, users must be able to find relevant titles easily and reliably. The quality of recommendation functionality and especially the relevance ranking methods are essential for the success of every discovery system. Up to now, ranking methods of library catalogues have largely ignored user feedback. However, since 2011, the State and University Library Bremen (SuUB) has developed modified ranking methods for its own discovery system E-LIB. These make use of popularity factors such as click statistics and information about the number of editions as well as the number of copies available for a given title. For the SuUB Bremen, the customized development of the discovery catalogue “E-LIB” since 2004 has allowed for a fast and flexible adaptation of new retrieval functions to the needs of local users.
Zitierfähiger Link (DOI): http://dx.doi.org/10.5282/o-bib/2015H2S33-42
Autorenidentifikation:
Haake, Elmar: GND 120398168, ORCID: http://orcid.org/0000-0002-8115-6044
Blenkle, Martin: GND 172847575, ORCID: http://orcid.org/0000-0003-0898-3753
Zillmann, Hartmut: GND 1051526876
Ellis, Rachel: ORCID: http://orcid.org/0000-0002-3517-8111
Save the time of the reader. (Ranganathan, 1931)
1. Ausgangslage
Seit Einführung neuer suchmaschinenbasierter Kataloge stehen Bibliotheksnutzerinnen und -nutzern Millionen von Online-Dokumenten neben dem lokalen Buchbestand zur Verfügung. Nutzerinnen und Nutzer dieser neuen Katalogsysteme müssen in die Lage versetzt werden, die für sie relevanten Titel einfach und sicher in diesen vergrößerten Suchräumen aufzufinden. Die Qualität von Empfehlungsfunktionen und besonders der Relevanz-Ranking-Methoden sind aus diesem Grund für den Erfolg eines Discovery-Systems von hoher Bedeutung.
In den umfangreichen Suchräumen moderner Discovery-Kataloge liefern auch aktuelle Rankingverfahren häufig immer noch keine wirklich nutzergerechte Differenzierung der Ergebnismenge. Es kommt dagegen − besonders im Fall einfacher Suchanfragen − zu enorm hohen Trefferzahlen mit vielen Titeln gleicher Rankingbewertung, die das präzise Auffinden wichtiger Titel weiterhin erschweren. In dieser Situation ist es notwendig, die Verfahren der Treffersortierung so zu modifizieren, dass eine bessere, nutzergerechte Feindifferenzierung der Anzeigereihenfolge möglich wird.
Im Gegensatz zu den Rankingmethoden aktueller Websuchmaschinen vernachlässigen bibliothekarische Kataloge und Discovery-Systeme bisher die Auswertung von Kriterien, die die Nachfrage bzw. die Medienpopularität berücksichtigen. In der Literatur sind bereits Ansätze für geeignete Rankingparameter beschrieben.1 Die Bremer Katalogsuchmaschine E-LIB nutzt seit 2011 die Analyse solcher Medieneigenschaften zur Feinjustierung des zuvor rein textstatistischen Rankings und verwendet dazu die Werte der internen Nutzerklickstatistik sowie der Auflagen- und Exemplarzahl der einzelnen Titel.
2. Relevanzranking im Bereich von Suchmaschinen und Bibliothekskatalogen
Im Bereich bibliothekarischer Kataloge vollzieht sich seit mehreren Jahren ein deutlicher Wandel von älteren Katalogsystemen (OPACs), deren Suchtechnik bereits aus den 1990er Jahren stammt, zu neuen sogenannten Discovery-Systemen. Diese neu entwickelten Kataloge unterscheiden sich nicht nur durch die meist erheblich vergrößerten Suchräume, sondern auch durch eine grundsätzlich andere Retrievalphilosophie. Klassische Bibliothekskataloge (OPACs) arbeiten zumeist noch nach der Methode des „Exact Match“, die nur solche Dokumente als Treffer ausliefert, die exakt den verwendeten Suchbegriff enthalten. Bei mehreren Suchbegriffen kann die Treffermenge dabei entweder explizit oder implizit nach den Regeln der Booleschen Algebra weiter modifiziert werden. Dokumente können bezogen auf eine Anfrage also nur als passend oder nicht passend bewertet werden. Ein Ranking bzw. eine differenziertere Bewertung der Treffereignung der Objekte in Bezug auf die Suchfragestellung ist in diesem Modell nicht vorgesehen. Als sinnvolle Ausgabereihenfolge für die auf diese Weise ermittelten Treffer hat sich die chronologische Sortierung als Standardverfahren etabliert.
Für ungeschulte Nutzerinnen und Nutzer solcher Bibliothekskataloge erschweren zahlreiche Faktoren eine erfolgreiche Recherche.2 Die sichere Anwendung der Booleschen Recherchelogik ist vielen Anwendern fremd und kann zu einer Überforderung führen.3 In sehr großen Indexdomänen ist es bei Nutzung dieses Retrievalmodells − besonders im Fall begrifflich allgemeinerer oder einfacher Sucheingaben − zunehmend schwierig, den gesuchten Datensatz genau aufzufinden. Die chronologische Sortierung wiederspricht dem heute gängigen Verfahren der Sortierung nach absteigender Relevanz4 und verhält sich daher für Nutzerinnen und Nutzer wenig erwartungskonform. Da alle Treffer einer „Exact Match“-Routine prinzipiell gleich valide in Bezug auf die Anfrage sind, ist es möglich, dass das gesuchte Dokument − insbesondere wenn es sich um Titel renommierter Zeitschriften handelt − erst auf der letzten Ergebnisseite zu finden ist. Demgegenüber werden jedoch hintere Ergebnisseiten einer Suchmaschine von ungeschulten Nutzerinnen und Nutzern heute weitgehend ignoriert, wie aktuelle Ergebnisse der Nutzerforschung beweisen.5 Die erfolgreiche Positionierung der von Nutzerinnen und Nutzern erwarteten Ergebnisse am Kopf einer Trefferliste ist daher heute ein zunehmend wichtiger Faktor für die Akzeptanz einer Katalogsuchmaschine.
Bibliotheksnutzerinnen und -nutzer verwenden heute intuitiv Suchdienste wie Google, die ihnen in der Regel gute Ergebnisse in einer nutzerkonformen Sortierung liefern. Aktuelle Discovery-Kataloge arbeiten analog dazu nach dem Modell des „Best Match“-Verfahrens. Das Matching und die Treffersortierung dieser Systeme erfolgt weitgehend anhand einer mathematisch berechneten Relevanzbewertung, die auf Basis der textstatistischen „Ähnlichkeit“ zwischen Anfragebegrifflichkeiten und Ergebnisobjekt erfolgt. Dokumente und Anfragen werden als Vektoren in einem mehrdimensionalen Raum dargestellt und anschließend in Bezug auf ihre Ähnlichkeit miteinander verglichen. Je ähnlicher sich der Anfrage- und der Dokumentvektor sind, desto höher wird die Relevanz des jeweiligen Dokuments bewertet.6 Gleichzeitig legt der berechnete Relevanzwert eines Dokumentes seine Position in der ausgegebenen Ergebnisliste fest. Die Regeln zur Ermittlung der textstatistischen Ähnlichkeit beruhen auf bekannten Verfahren wie z.B. etwa der Termgewichtung (Tf-idf-Maß),7 d.h. der Betrachtung der Häufigkeit der Begriffe im Dokument im Vergleich zur Gesamthäufigkeit in einer Indexdomäne.
Um den Recall weiter zu verbessern, kommen darüber hinaus bei diesen Systemen Verfahren der automatischen Analyse natürlichsprachlicher Eingaben mit Verfahren aus dem Bereich der Computerlinguistik zur Anwendung. Dabei können z.B. verschiedene morphologische Varianten eines Eingabebegriffes auf einen gemeinsamen Wortstamm reduziert werden (Stemming).
Die Ausgabe der Ergebnisse erfolgt anschließend in der Reihenfolge der berechneten Ähnlichkeit zwischen Anfrage und Trefferbeschreibungen, um ein Ergebnis abfallender kalkulierter Relevanz zu präsentieren, die idealerweise in Übereinstimmung mit der von Nutzerinnen und Nutzern erwarteten Relevanz steht. Diese Verfahren können daher im Gegensatz zum „Exact Match“-Prozess auch im Fall von weniger treffend formulierten oder fehlerhaften Anfragen häufig dennoch die gesuchten Ergebnisse liefern. Im Fall thematischer Anfragen kann der Übergang von hoch, über mittel bis wenig relevanten Antworten durch das „Best Match“-Verfahren viel differenzierter dargestellt werden, als dies bei der „Exact Match“-Methode möglich ist. Durch die Positionierung der besten Treffer am Kopf der Ergebnisliste verhalten sich diese Kataloge deutlich konformer in Bezug auf aktuelle Nutzererwartungen.
3. Probleme der aktuellen Rankingverfahren in Bibliothekskatalogen: die Nadel im Heuhaufen
Die bisher beschriebenen Grundtechniken, die modifiziert in aktuellen Implementierungen von „Best Match“-basierten Katalogsystemen zur Anwendung kommen,8 können die Bibliotheksrecherche für ungeschulte Anwender sehr vereinfachen und sind in der Lage, auch in deutlich vergrößerten Suchdomänen nutzergerechte Ergebnisausgaben zu liefern.9 Allerdings bietet der derzeitige Entwicklungsstand der Technik im Bibliotheksumfeld durchaus noch Potenzial zur weiteren Optimierung.
Die Algorithmen der Trefferauswahl und die Sortierung der Ergebnisse des „Best Match“-Verfahrens beruhen auf genau definierten Regeln, die jedoch wesentlich komplexer sind als die einfache Ja/Nein-Logik des „Exact Match“-Verfahrens. Daher erscheinen die Antworten bzw. die Interpretation der Ergebnismengen für Nutzerinnen und Nutzer sowie Bibliothekarinnen und Bibliothekare zunächst mitunter weniger leicht nachvollziehbar zu sein. Zudem werden die genauen Regelsätze durch die einzelnen Anbieter häufig nicht im Detail veröffentlicht und sind für die einzelnen Bibliotheken als Anwender entweder kaum oder nur in einem engen Rahmen selbst modifizierbar.
Ein weiteres Problem resultiert aus den vergleichsweise geringen Textmengen bibliothekarischer Metadaten. Die Textstatistik des vektorraumbasierten Retrievals ist gut geeignet, bei der Analyse von großen Textmengen wie Volltexten von Webseiten oder elektronischen Volltextdokumenten differenzierte Ergebnisse zu liefern. Bibliographische Metadaten weisen demgegenüber bezüglich ihrer Texteigenschaften grundsätzlich eine andere Charakteristik auf: So ist z.B. die auswertbare Textmenge sehr viel geringer. Daher kann eine textstatistische Auswertung von reinen Metadatenpools zu einer weniger starken Ausdifferenzierung der Rankingresultate führen.10
Ein am Standort Bremen sehr signifikant wahrnehmbares Problem der zunächst eingesetzten Rankingverfahren ergab sich im Zusammenhang mit dem immer stärker wachsenden Angebot an Medien im Nachweis und damit mit der Größe des indexierten Gesamtmetadatenpools: Wichtige Titel waren in den tendenziell immer umfangreicheren Treffermengen einer Recherche immer schwerer aufzufinden.
Bei der Formulierung von begrifflich gering differenzierten (einfachen) Anfragen an sehr große Metadatenindizes aktueller Discovery-Systeme kommt es zur Ausgabe sehr vieler Treffer (oft mehrerer hundert) mit nahezu identischer Relevanzbewertung. Zur Anzeige dieser Ergebnisse wird dann in zweiter Priorität eine chronologische Sortierung der Treffer gleicher Relevanzbewertung eingesetzt. Das eigentliche Ziel des Rankings, die Präsentation einer differenzierten, nutzergerechten Trefferabfolge, kann in einer solchen Teilmenge kaum mehr erreicht werden. Die gesuchten Titel sind in diesem Fall trotz des Einsatzes fortgeschrittener Suchalgorithmen und Rankingverfahren in der Vielzahl gleich bewerteter Treffer kaum auffindbar. Besonders im Fall gängiger, immer wieder nachgefragter Standardliteratur und Grundlagenwerke führt dieser Umstand zu einem kritischen Problem für die Nutzerinnen und Nutzer und damit zu fehlender Akzeptanz der neuen Kataloge. Aus diesem Grund wurden die Rankingverfahren der E-LIB Bremen im Jahr 2011 modifiziert, um auch in diesen Fällen eine an den Standort angepasste, nutzungsabhängige Feindifferenzierung der Trefferlisten zu erreichen.
4. Retrievalmethodik und Indexierung der Elektronischen Bibliothek Bremen (E-LIB)
Die E-LIB Bremen weist im Sinne moderner Discovery-Systeme bereits seit 2004 E-Medien und Printmedien in einem lokalen Index nach und präsentiert die Titel gemeinsam in einer integrierten Trefferliste. Seit 2010 ersetzt das System den bisherigen klassischen Bibliotheks-OPAC als Zugangssystem nahezu komplett und wickelt derzeit etwa 13.000 bis 18.000 Suchanfragen täglich ab.11
Durch die Entwicklung des eigenen Discovery-Systems besteht für die Staats- und Universitätsbibliothek Bremen die Möglichkeit, viele Anpassungen und Einstellungen genau auf den Bedarf des Campus Bremen auszurichten. Dies bezieht sich sowohl auf eine komplette Kontrolle des Suchraumes und des Layouts, wie z.B. der Trefferpräsentation, als auch auf die Feineinstellungen des Relevanzrankings.
Die grundsätzlichen Indexierungstechniken und Suchverfahren der E-LIB beruhen auf dem ab 1993 an der UB und Universität Osnabrück und später durch die Firma IDM Osnabrück entwickelten OSIRIS-System. Ab 1999 wurde OSIRIS, und später das Nachfolgesystem CiXbase, u.a. von der SuUB Bremen eingesetzt und anteilig mit weiterentwickelt. Zum Aufbau der lokalen Nachweisbasis werden unterschiedliche Typen und Formate von bibliographischen Metadaten importiert und nach ressourcenspezifischen Anpassungen zu einem einheitlichen XML-flat-file homogenisiert. Der vereinheitlichte Metadatenpool wird dann unter Verwendung eigener Algorithmen indexiert (statistical balanced B*-Trees) und dient anschließend als Basis für die Suchmaschine. Neben konventionellen Verfahren der Verarbeitung natürlichsprachlicher Eingaben verfügt das System über zahlreiche eigene Methoden zur Erkennung von semantischen und linguistischen Einheiten einer jeweiligen Suchanfrage.12
5. Wie kann die Sortierung bei der Ergebnisanzeige von Discovery-Systemen nutzergerecht weiter verbessert werden?
Um die wirklich häufig nachgefragten Titel auch unter den geschilderten Bedingungen prominenter in einer Trefferliste positionieren zu können, wurden zusätzliche Parameter für das Ranking eingeführt, um so eine nutzergerechtere Feinjustierung der Ergebnisreihenfolge zu ermöglichen. Die aus den klassischen Parametern der Textstatistik berechnete Systemrelevanz ist dafür nicht hinreichend geeignet.
Aktuelle Internetsuchmaschinen außerhalb der Bibliothekswelt demonstrieren eindrucksvoll, dass eine Suche in riesigen Textdomänen sehr erfolgreich gestaltet werden kann, wenn neben der Ähnlichkeitsanalyse von Eingabe- und Trefferbegrifflichkeiten auch die Popularität der indexierten Objekte als weiterer Relevanzparameter berücksichtigt wird.
Die Suchmaschine Google erweiterte die bekannten textstatistischen Regelsätze zur Trefferbewertung um weitere, auf dem Nutzerfeedback beruhende Parameter. Danach wird die Relevanz der Treffer nicht nur durch rein begriffliche Eigenschaften gewichtet, sondern auch durch ihre Popularität bei Nutzerinnen und Nutzern. Zur Messung der Linkpopularität dient dabei das von Google 1997 patentierte Verfahren „PageRank“.13 Dabei werden Treffer besonders hoch bewertet, wenn sehr viele andere Webseiten auf dieses Angebot verweisen (linktopologische Analyse).
Der Lösungsansatz im Rahmen der E-LIB Bremen beruht auf der Annahme, dass durch die Berücksichtigung von weiteren Medieneigenschaften das Relevanzranking großer Treffermengen auch in Bibliothekskatalogen sehr viel nutzergerechter beeinflusst werden kann. Analog zu den großen Suchdiensten im Internet werden dazu Parameter genutzt, die als Maß für die Popularität einzelner Titel ausgewertet werden können. Ziel ist es, die stark nachgefragten Titel in einer Treffermenge weitgehend gleicher Relevanzbewertung mit einem geringen Aufschlag zu bevorzugen. Da die Algorithmen zur Relevanzbewertung bereits recht kompliziert sind, wurde ein möglichst wenig komplexes Regelset entwickelt. Gleichzeitig soll die Modifikation des Rankings nicht zu einer kontinuierlichen dynamischen Selbstverstärkung des Effektes bei populären Titeln führen.14
Als geeignete Parameter zur Beschreibung der Titelpopularität nutzt die E-LIB Bremen deshalb seit 2011 dazu folgende Angaben:
- Exemplarzahl der vor Ort vorhandenen Medien eines Titels:
Das Beschaffungsverhalten der Bibliothek reflektiert die Nachfragesituation am Standort. - Erreichte Auflagenzahl der Titel:
Diese Eigenschaft spiegelt direkt die allgemeine, standortunabhängige Nutzernachfrage wieder. - Interne Klickstatistik der Nutzerinteraktionen in der E-LIB:
Stark nachgefragte Titel werden häufiger im System ausgewählt. Durch eine interne, titelbezogene Transaction Log Analysis (TLA) können diese Medien identifiziert werden.
In jeder dieser drei Kategorien erfahren alle im Gesamtindex vorhandenen Metadaten ab dem Erreichen eines definierten, signifikant erhöhten Niveaus einen entsprechenden geringen prozentualen Aufschlag auf ihre Relevanz. Diese Titel werden dann in der Trefferliste entsprechend prominenter platziert. Die genaue Parametrisierung wird dabei empirisch ermittelt. Wichtig ist, dass die neu definierten Relevanzaufschläge so fein eingestellt werden, dass die textstatistischen Rankingfaktoren nicht überkompensiert werden.
Derzeit nutzt die E-LIB Bremen das folgende einfache Regelset:
Popularitätsparameter | Relevanzaufschlag in % (einmalig pro Titel) |
---|---|
1. Beschaffungsverhalten (Exemplarzahl) | 3 |
2. Medieneigenschaften (Auflagenzahl) | 3 |
3. Nutzerverhalten (Userklicks) | 5 |
Der Relevanzaufschlag wird bei der Anwendung jeweils nur einmal in jeder Kategorie pro Titel vergeben, um dynamische Selbstverstärkungseffekte auszuschließen. Medien, die in Bezug auf eine Anfrage aufgrund des textstatistischen Rankings bereits eine 100 %ige Relevanz erreicht haben, werden so weiter bevorzugt. Titel, die (1.) in Bremen in hoher Exemplarzahl beschafft wurden, die (2.) eine hohe Auflagenzahl erreicht haben und die (3.) sehr häufig in der Suchmaschine angewählt werden, erhalten so einmalig in allen drei Kategorien einen Aufschlag und damit maximal eine Relevanz von 111 %.
6. E-LIB Title Rank: Lessons Learned und Zusammenfassung
Das beschriebene Verfahren wurde bei der E-LIB Bremen eingeführt und mit verschiedenen Einstellungen der zusätzlichen Relevanzparameter getestet. Die Anfragen der Nutzerinnen und Nutzer an die Suchmaschine können dazu in anonymisierter Form nachvollzogen werden. Auf diese Weise ist es möglich, das Ranking typischer Nutzeranfragen laufend zu analysieren, in Bezug auf die neuen Verfahren zu bewerten und mit den bisherigen Standardverfahren zu vergleichen.
Die Aufschläge von 5 % für Klickaktivitäten, 3 % für Auflagen und 3 % für Staffelexemplare liefern für den Standort Bremen die besten Resultate:
- Wie erwartet werden wichtige Medien, deren Sachtitel aus einfachen und hochfrequenten Begriffen besteht, in niedrigerer Position in der Trefferliste gezeigt und damit besser gefunden.
- Aktuelle Klassiker werden prominenter positioniert. Am Campus nachgefragte, gängige Lehrbücher werden schneller gefunden.
- Hochspezielle Zeitschriftenaufsätze, die in der Regel über keine Popularitätsverstärkung verfügen, werden bei allgemeinen oder einfachen thematischen Anfragen auf späteren Seiten und somit weniger prominent angezeigt.
- Eine Evaluation der Rankingparameter durch kontinuierliche Beobachtung anhand von Auswertungen aktueller Nutzersuchen ist sinnvoll.
- Ein vergleichsweise einfaches Regelset führt bereits zu deutlicher Verbesserung des Rankingverhaltens in Bezug auf die Zieldefinition.
- Aktuelle Neuerscheinungen können kurzfristig durch fehlende Klickaktivitäten im Verfahren benachteiligt werden. Dieser Effekt wird nach Erfahrungen aus dem Projekt jedoch bereits nach kurzer Zeit nutzergesteuert kompensiert.
An der Staats- und Universitätsbibliothek Bremen ist das hier beschriebene Verfahren der modifizierten Rankingalgorithmen nach einer Laufzeit von vier Jahren längst in den Routinebetrieb der Suchmaschine E-LIB übergegangen. Dennoch gibt es viel Potenzial für die Weiterentwicklung des Grundprinzips der Einbeziehung von Popularitätsfaktoren in das Ranking in Bibliothekskatalogen15 und für seine Evaluation durch systematische Nutzerforschung.
Literaturverzeichnis
- – Bar‐Ilan, Judit; Levene, Mark; Mat‐Hassan, Mazlita: Methods for evaluating dynamic changes in search engine rankings: a case study. In: Journal of Documentation 62 (2006), H. 6, S. 708-729. http://dx.doi.org/10.1108/00220410610714930.
- – Blenkle, Martin; Ellis, Rachel; Haake, Elmar: Next-generation library catalogues: review of E-LIB Bremen. In: Serials: The Journal for the Serials Community 22 (2009), H. 2, S. 178-181. http://uksg.metapress.com/content/040q4504p2565519/?id=040q4504p2565519(06.02.2015).
- – Hochstotter, Nadine; Koch, Martina: Standard parameters for searching behaviour in search engines and their empirical evaluation. In: Journal of information science 35 (2009), H. 1, S. 45-65 (first published on July 3, 2008 DOI: 10.1177/0165551508091311). http://jis.sagepub.com/content/35/1/45 (06.02.2015).
- – Holman, Lucy: Millennial students’ mental models of search: implications for academic librarians and database developers. In: The Journal of Academic Librarianship 37 (2011), H. 1, S. 19-27. http://dx.doi.org/10.1016/j.acalib.2010.10.003.
- – Huang, Yu; Zhang, Mu; Ge, Xuekui: A user behavior based study on search engine ranking. In: Computer Engineering and Intelligent Systems 5 (2014) H. 12, S. 94-105. http://www.iiste.org/Journals/index.php/CEIS/article/viewFile/18139/18526(06.02.2015).
- – Langenstein, Annette; Maylein, Leonhard: Relevanz-Ranking im OPAC der Universitätsbibliothek Heidelberg. In: B.I.T.online 12 (2009), H. 4, S. 408-413. http://nbn-resolving.de/urn/resolver.pl?urn=urn:nbn:de:bsz:16-heidok-103430 (06.02.2015).
- – Lewandowski, Dirk: Ranking library materials. In: Library Hi Tech 27 (2009), H. 4, S. 584-593. http://dx.doi.org/10.1108/07378830911007682.
- – Lewandowski, Dirk: Der OPAC als Suchmaschine. In: Bergmann, Julia; Danowski, Patrick (Hg.): Handbuch Bibliothek 2.0, Berlin: De Gruyter Saur, 2010, S. 87-107.
- – Mi, Jia; Weng, Cathy: Revitalizing the library OPAC: interface, searching, and display challenges. In: Information Technology and Libraries 27 (2008), H. 1, S. 5-22. http://dx.doi.org/10.6017/ital.v27i1.3259.
- – Ostermann, Thomas, u.a: Linguistic processing and classification of semi structured bibliographic data on complementary medicine. In: Cancer Informatics 7 (2009), S. 159–169. http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2730176/ (06.02.2015).
- – Page, Lawrence, u.a.: The PageRank citation ranking: bringing order to the web. In: Technical Report. Stanford InfoLab (1999). http://ilpubs.stanford.edu:8090/422/ (06.02.2015).
- – Schneider, K.G.: Relevance ranking and OPAC records. In: Free Range Librarian. K.G. Schneider’s Blog on Librarianship, Writing, and Everything Else, 2007.
http://freerangelibrarian.com/2007/07/25/relevance-ranking-and-opac-records/(06.02.2015). - – Stock, Wolfgang G: Information Retrieval: Informationen suchen und finden. München: Oldenbourg Wissenschaftsverlag, 2007, S. 68–81 und S. 334-353.
- – Wiesenmüller, Heidrun: Informationskompetenz und Bibliothekskataloge. In: Sühl-Strohmenger, Wilfried (Hg.): Handbuch Informationskompetenz, Berlin: de Gruyter Saur, 2012, S. 93-100.
- – Wiesenmüller, Heidrun: Zwischen Wunsch und Wirklichkeit: Bibliotheksdaten und Bibliothekskataloge: Fünf Thesen. In: VDB-Mitteilungen (2012), H. 1, S. 20-24. http://eprints.rclis.org/17187/(06.02.2015).
- – Zhai, Chengxiang: A Brief Review of Information Retrieval Models, 2007. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.94.5325(06.02.2015).
Fußnoten
1 Vgl. Mi, Jia; Weng, Cathy: Revitalizing the library OPAC: interface, searching, and display challenges. In: Information Technology and Libraries 27 (2008), H. 1, S. 5-22. http://dx.doi.org/10.6017/ital.v27i1.3259 und Lewandowski, Dirk: Ranking library materials. In: Library Hi Tech 27 (2009), H. 4, S. 584-593. http://dx.doi.org/10.1108/07378830911007682.
2 Wiesenmüller, Heidrun: Informationskompetenz und Bibliothekskataloge. In: Sühl-Strohmenger, Wilfried (Hg.): Handbuch Informationskompetenz, Berlin: de Gruyter Saur, 2012, S. 93-100.
3 Holman, Lucy: Millennial students’ mental models of search: implications for academic librarians and database developers. In: The Journal of Academic Librarianship 37 (2011), H. 1, S. 19-27. http://dx.doi.org/10.1016/j.acalib.2010.10.003.
4 Beim Begriff Relevanzranking ist hier zunächst die auf Grund von Algorithmen berechnete Systemrelevanz gemeint. Die von einzelnen Nutzerinnen und Nutzern zugeordnete subjektive Relevanz (Pertinenz) kann davon abweichen. Anzustreben ist, dass die vom System berechnete Relevanz zunehmend mit der sog. objektiven Relevanz einer größeren Nutzergruppe an einem bestimmten Universitätsstandort in Übereinstimmung gebracht wird. Vgl. Stock, Wolfgang G: Information Retrieval: Informationen suchen und finden. München: Oldenbourg Wissenschaftsverlag, 2007, S. 68–81. „Ziel des Rankings ist es, mit objektiven Kriterien möglichst nahe an die subjektive Relevanz-Bewertung des Nutzers zu gelangen“ (Langenstein, Annette; Maylein, Leonhard: Relevanz-Ranking im OPAC der Universitätsbibliothek Heidelberg. In: B.I.T.online 12 (2009), H. 4, S. 408-413.
http://nbn-resolving.de/urn/resolver.pl?urn=urn:nbn:de:bsz:16-heidok-103430(06.02.2015), hier: S. 408).
5 Eigene Heatmap-Analysen der Suchmaschine E-LIB zeigen dies eindeutig (unveröffentlicht). Weiterhin konnte dies für die Nutzung von Websuchmaschinen nachgewiesen werden. Vgl. Huang, Yu; Zhang, Mu; Ge, Xuekui: A user behavior based study on search engine ranking. In: Computer Engineering and Intelligent Systems 5 (2014) H. 12, S. 94-105. http://www.iiste.org/Journals/index.php/CEIS/article/viewFile/18139/18526 (06.02.2015); Hochstotter, Nadine; Koch, Martina: Standard parameters for searching behaviour in search engines and their empirical evaluation. In: Journal of information science 35 (2009), H. 1, S. 45-65 (first published on July 3, 2008 DOI: 10.1177/0165551508091311).
http://jis.sagepub.com/content/35/1/45 (06.02.2015); Bar‐Ilan, Judit; Levene, Mark; Mat‐Hassan, Mazlita: Methods for evaluating dynamic changes in search engine rankings: a case study. In: Journal of Documentation 62 (2006), H. 6, S. 708-729. http://dx.doi.org/10.1108/00220410610714930.
6 Stock (wie Anm. 4), S. 334-353.
7 Zhai, Chengxiang: A Brief Review of Information Retrieval Models, 2007.
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.94.5325 (06.02.2015).
8 Dazu zählen sowohl die in Deutschland kommerziell erhältlichen Discovery-Systeme, wie auch alle Kataloge, die auf der Open-Source-Indextechnik Lucene bzw. SOLR/VuFind oder Elasticsearch beruhen.
9 Holman (wie Anm. 3); Lewandowski, Dirk: Der OPAC als Suchmaschine. In: Bergmann, Julia; Danowski, Patrick (Hg.): Handbuch Bibliothek 2.0, Berlin: De Gruyter Saur, 2010, S. 87-107; Wiesenmüller, Heidrun: Zwischen Wunsch und Wirklichkeit – Bibliotheksdaten und Bibliothekskataloge: fünf Thesen. In: VDB-Mitteilungen (2012), H. 1, S. 20-24.
http://eprints.rclis.org/17187/ (06.02.2015).
10 Schneider, K.G.: Relevance ranking and OPAC records. In: Free Range Librarian. K.G. Schneider’s Blog on Librarianship, Writing, and Everything Else, 2007. http://freerangelibrarian.com/2007/07/25/relevance-ranking-and-opac-records/ (06.02.2015); Lewandowski (wie Anm. 9).
11 Blenkle, Martin; Ellis, Rachel; Haake, Elmar: Next-generation library catalogues: review of E-LIB Bremen. In: Serials: The Journal for the Serials Community 22 (2009), H. 2, S. 178-181. http://uksg.metapress.com/content/040q4504p2565519/?id=040q4504p2565519 (06.02.2015). Die Bibliothekssuchmaschine E-LIB ist in die Webpräsenz der SuUB Bremen vollständig integriert und verfügbar via
http://www.suub.uni-bremen.de/ (06.02.2015).
12 Ostermann, Thomas, u.a: Linguistic processing and classification of semi structured bibliographic data on complementary medicine. In: Cancer Informatics 7 (2009), S. 159–169. http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2730176/ (06.02.2015).
13 Page, Lawrence, u.a.: The PageRank citation ranking: bringing order to the web. In: Technical Report. Stanford InfoLab (1999). http://ilpubs.stanford.edu:8090/422/ (06.02.2015).
14 Es bestünde ansonsten die Gefahr, dass Titel, die auf der ersten Seite einer Trefferliste präsentiert werden, durch einen kontinuierlichen Popularitätsbonuseffekt immer populärer gewichtet würden und dadurch immer öfter prominent präsentiert würden. Dies würde wiederum zu einem erneuten Bonus führen und damit eine realistische Analyse behindern.
15 Das seit 2014 laufende Forschungsprojekt LibRank widmet sich derzeit der Untersuchung neuer Formen der Relevanz-Sortierung in bibliothekarischen Informationssystemen. LibRank ist ein gemeinsames Projekt der Hochschule für Angewandte Wissenschaften Hamburg (HAW) und der ZBW Kiel.
http://www.searchstudies.org/de/librank.html (06.02.2015).