Aufbau eines produktiven Dienstes für die automatisierte Inhaltserschließung an der ZBW
Ein Status- und Erfahrungsbericht
DOI:
https://doi.org/10.5282/o-bib/5903Schlagwörter:
Inhaltserschließung, Automatisierung, Machine Learning, Metadaten, IT-Infrastruktur, Personalressourcen, human in the loopAbstract
Die ZBW – Leibniz-Informationszentrum Wirtschaft betreibt seit 2016 eigene angewandte Forschung im Bereich Machine Learning mit dem Zweck, praktikable Lösungen für eine automatisierte oder maschinell unterstützte Inhaltserschließung zu entwickeln. 2020 begann ein Team an der ZBW die Konzeption und Implementierung einer Softwarearchitektur, die es ermöglichte, diese prototypischen Lösungen in einen produktiven Dienst zu überführen und mit den bestehenden Nachweis- und Informationssystemen zu verzahnen. Sowohl die angewandte Forschung als auch die für dieses Vorhaben („AutoSE“) notwendige Softwareentwicklung sind direkt im Bibliotheksbereich der ZBW angesiedelt, werden kontinuierlich anhand des State of the Art vorangetrieben und profitieren von einem engen Austausch mit den Verantwortlichen für die intellektuelle Inhaltserschließung. Dieser Beitrag zeigt die Meilensteine auf, die das AutoSE-Team in zwei Jahren in Bezug auf den Aufbau und die Integration der Software erreicht hat, und skizziert, welche bis zum Ende der Pilotphase (2024) noch ausstehen. Die Architektur basiert auf Open-Source-Software und die eingesetzten Machine-Learning-Komponenten werden im Rahmen einer internationalen Zusammenarbeit im engen Austausch mit der Finnischen Nationalbibliothek (NLF) weiterentwickelt und zur Nachnutzung in dem von der NLF entwickelten Open-Source-Werkzeugkasten Annif aufbereitet. Das Betriebsmodell des AutoSE-Dienstes sieht regelmäßige Überprüfungen sowohl einzelner Komponenten als auch des Produktionsworkflows als Ganzes vor und erlaubt eine fortlaufende Weiterentwicklung der Architektur. Eines der Ergebnisse, das bis zum Ende der Pilotphase vorliegen soll, ist die Dokumentation der Anforderungen an einen dauerhaften produktiven Betrieb des Dienstes, damit die Ressourcen dafür im Rahmen eines tragfähigen Modells langfristig gesichert werden können. Aus diesem Praxisbeispiel lässt sich ableiten, welche Bedingungen gegeben sein müssen, um Machine-Learning-Lösungen wie die in Annif enthaltenen erfolgreich an einer Institution für die Inhaltserschließung einsetzen zu können.
Literaturhinweise
Bartz, Christopher: Software Architecture for the Automatization of Subject Indexing. Vortrag bei der ELAG am 08.06.2022 in Riga, Litauen. Online: https://elag2022.lnb.lv/programme/schedule/, Stand: 30.09.2022.
Beckmann, Regine; Hinrichs, Imma; Janßen, Melanie u.a.: Der Digitale Assistent DA-3 – eine Plattform für die Inhaltserschließung, in: o-bib – das offene Bibliotheksjournal 6 (3), 2019, S. 1–20. Online: https://doi.org/10.5282/o-bib/2019H3S1-20.
Busse, Frank; Grote, Claudia; Jacobs, Jan-Helge u.a.: Erschließungsmaschine gestartet, 04.05.2022, https://blog.dnb.de/erschliessungsmaschine-gestartet/, Stand: 30.09.2022.
Monarch, Robert M.; Manning, Christopher D.: Human-in-the-loop machine learning – active learning and annotation for human-centered AI. (E-Book), Manning Publications, 2021. Online: https://livebook.manning.com/book/human-in-the-loop-machine-learning/, Stand: 30.09.2022.
Kasprzik, Anna: Get everybody on board and get going – the automation of subject indexing at ZBW [Artikel], in: 87th IFLA World Library and Information Congress (WLIC), Satellite Meeting: Information Technology – New Horizons in Artificial Intelligence in Libraries, 2022. Online: https://repository.ifla.org/handle/123456789/2047.
Kasprzik, Anna: Get everybody on board and get going – the automation of subject indexing at ZBW [Folien]. Vortrag beim 87th IFLA World Library and Information Congress(WLIC), Satellite Meeting: Information Technology – New Horizons in Artificial Intelligence in Libraries am 22. Juli 2022 in Galway, Irland. Online: https://repository.ifla.org/handle/123456789/2047.
Seeliger, Frank; Puppe, Frank; Ewerth, Ralph u.a.: Zum erfolgversprechenden Einsatz von KI in Bibliotheken – Diskussionsstand eines White Papers in progress, in: b.i.t.online 24 (2 und 3), 2022, S. 173–178 (Teil 1) und S. 290–299 (Teil 2). Online: http://hdl.handle.net/11108/488 und http://hdl.handle.net/11108/490.
Toepfer, Martin; Seifert, Christin: Fusion architectures for automatic subject indexing under concept drift, in: International Journal on Digital Libraries 21, 2018, S. 169–189. Online: https://doi.org/10.1007/s00799-018-0240-3.
Toepfer, Martin; Seifert, Christin: Content-Based Quality Estimation for Automatic Subject Indexing of Short Texts Under Precision and Recall Constraints, in: Méndez, Eva; Crestani, Fabio; Ribeiro, Cristina u.a. (Hg.): Digital Libraries for Open Knowledge. TPDL 2018, Cham, 2018 (LNCS 11057). Online: https://doi.org/10.1007/978-3-030-00066-0_1.
Tochtermann, Klaus; Kasprzik, Anna: Auf Augenhöhe mit Forschungspartnern aus der Wissenschaft – Anwendung von Künstlicher Intelligenz in der ZBW, in: BuB – Forum Bibliothek und Information 74 (6), 2022, S. 306–311. Online: https://pub.zbw.eu/dspace/bitstream/11108/526/2/2022-Kasprzik-Tochtermann-Augenh%c3%b6he.pdf.
Winkler, Christian: Wer, wie, was. Textanalyse über Natural Language Processing mit BERT, heise online, 12.08.2020, https://www.heise.de/hintergrund/Wer-wie-was-Textanalyse-mit-BERT-4864558.html, Stand: 30.09.2022.
ZBW Mediatalk: KI in wissenschaftlichen Bibliotheken, Teil 1: Handlungsfelder, große Player und die Automatisierung der Erschließung, 17.08.2022, https://www.zbw-mediatalk.eu/de/2022/08/ki-in-wissenschaftlichen-bibliotheken-teil-1-handlungsfelder-grosse-player-und-die-automatisierung-der-erschliessung/, Stand: 30.09.2022.
ZBW Mediatalk: KI in wissenschaftlichen Bibliotheken, Teil 3: Voraussetzungen und Bedingungen für den erfolgreichen Einsatz, 31.08.2022, https://www.zbw-mediatalk.eu/de/2022/08/ki-in-wissenschaftlichen-bibliotheken-teil-3-voraussetzungen-und-bedingungen-fuer-den-erfolgreichen-einsatz/, Stand: 30.09.2022.
Veröffentlicht
Ausgabe
Rubrik
Lizenz
Copyright (c) 2023 Anna Kasprzik
Dieses Werk steht unter der Lizenz Creative Commons Namensnennung 4.0 International.