Volltexte für die Forschung: OCR partizipativ, iterativ und on Demand

Autor*innen

DOI:

https://doi.org/10.5282/o-bib/5832

Schlagwörter:

Digitalisierung, Volltext, OCR, Optische Zeichenerkennung

Abstract

Für die Forschungsarbeit mit digitalisierten Quellen stellt die Leistung der Volltexterkennung, also die Genauigkeit der Optical Character Recognition (OCR), eine wesentliche Grundlage dar. Die Volltexterkennung avanciert damit zu einem Qualitätskriterium von digitalen Sammlungen und Bibliotheken müssen als zentrale Digitalisierungsakteure ihrer Verantwortung im Hinblick auf die Evidenz von auf Volltexten basierenden wissenschaftlichen Ergebnissen gerecht werden. Ausgehend von einer Digitalisierung, die explizit an der Zielgruppe der digitalen Forschung ausgerichtet ist, greift der folgende Beitrag Formate und Workflows zur Organisation der Volltexterkennung als partizipativen und iterativen Prozess in Zusammenarbeit mit der Forschung auf. Vor dem Hintergrund der aktuellen OCR-D-Förderphase wird ein on-Demand-Ansatz, bei dem OCR-Prozesse nach spezifischen Bedarfen durchgeführt werden, vorgestellt.

Autorenbiografie

  • Anke Hertling, Leibniz-Institut für Bildungsmedien | Georg-Eckert-Institut

    Leiterin der Forschungsbibliothek

Literaturhinweise

DFG: Praxisregeln „Digitalisierung“. DFG Vordruck 12.151 – 12/16, https://www.dfg.de/formulare/12_151/12_151_de.pdf, Stand: 26.04.2022.

DFG: Merkblatt und ergänzender Leitfaden – Digitalisierung und Erschließung, DFG Vordruck 12.15 – 09/21, https://www.dfg.de/foerderung/programme/infrastruktur/lis/lis_foerderangebote/digitalisierung_erschliessung/formulare_merkblaetter/index.jsp, Stand: 26.04.2022.

DFG: Implementierung der OCR-D-Software zur Volltextdigitalisierung. Information für die Wissenschaft Nr. 15 | 27. Februar 2020, https://www.dfg.de/foerderung/info_wissenschaft/2020/info_wissenschaft_20_15/index.html, Stand: 26.04.2022.

DHd (Digital Humanities im deutschsprachigen Raum): AG OCR – Punkt 2: Arbeitsschwerpunkte, https://dig-hum.de/ag-ocr, Stand: 26.04.2022.

Engl, Elisabeth: OCR-D kompakt. Ergebnisse und Stand der Forschung in der Förderinitiative, in: Bibliothek – Forschung und Praxis 44 (2), 2020, S. 218–230. Online: https://doi.org/10.1515/bfp-2020-0024.

Fühles-Ubach, Simone: Vom „embedded“ zum „liaison librarian“ – Was versprechen die neuen Konzepte?, in: Mittermaier, Bernhard (Hg.): Vernetztes Wissen – Daten, Menschen, Systeme. 6. Konferenz der Zentralbibliothek Forschungszentrum Jülich. 5.-7. November 2012, Proceedingsband. (Schriften des Forschungszentrums Jülich Reihe Bibliothek / Library Band / Volume 21). Jülich 2012, S. 337-350. Online: https://juser.fz-juelich.de/record/126960/files/FZJ-2012-00028.pdf, Stand: 26.04.2022.

Gasser, Sonja: Das Digitalisat als Objekt der Begierde. Anforderungen an digitale Sammlungen für Forschung in der Digitalen Kunstgeschichte, in: Andraschke, Udo; Wagner, Sarah (Hg.): Objekte im Netz. Wissenschaftliche Sammlungen im digitalen Wandel, Bielefeld 2020, S. 261–276. Online: https://doi.org/10.14361/9783839455715.

Hertling, Anke; Klaes, Sebastian: Historische Schulbücher als digitales Korpus für die Forschung. Auswahl und Aufbau einer digitalen Schulbuchbibliothek, in: Nieländer, Maret; De Luca, Ernesto William (Hg.): Digital Humanities in der internationalen Schulbuchforschung. (Eckert. Expertise 9). Göttingen 2018, S. 22-44. Online: https://repository.gei.de/handle/11428/296 (DOI 10.14220/9783737009539), Stand: 26.04.2022.

Jacobmeyer, Wolfgang: Das deutsche Schulgeschichtsbuch 1700-1945. Die erste Epoche seiner Gattungsgeschichte im Spiegel der Vorworte, Bd. 1, Berlin 2011.

Jäger, Georg: Der Schulbuchverlag, in: Ders. et al. (Hg.): Geschichte des deutschen Buchhandels im 19. und 20. Jahrhundert, Bd. 1: Das Kaiserreich 1870-1918, Teil 2, Frankfurt am Main 2003.

Nieländer, Maret; Weiß, Andreas: »Schönere Daten« – Nachnutzung und Aufbereitung für die Verwendung in Digital-Humanities-Projekten, in: Nieländer, Maret; De Luca, Ernesto William (Hg.): Digital Humanities in der internationalen Schulbuchforschung.

(Eckert. Expertise 9), Göttingen 2018, S. 91–116. Online: https://repository.gei.de/handle/11428/296 (DOI 10.14220/9783737009539), Stand: 26.04.2022.

Reul, Christian; Springmann, Uwe; Wick, Christoph; Puppe, Frank: State of the Art Optical Character Recognition of 19th Century Fraktur Scripts using Open Source Engines, in: DHd 2019 Digital Humanities: multimedial & multimodal. Konferenzabstracts (1.0, p. 366), S. 212–216, https://doi.org/10.5281/zenodo.2596095.

Weil, Stefan: Neue Frakturmodelle für Tesseract. Präsentation auf dem Kitodo Anwendertreffen 18.–19. November 2019, S. 3. Online: https://madoc.bib.uni-mannheim.de/53748/1/2019-11-18.pdf, Stand: 26.04.2022.

Weil, Stefan: tesseract-ocr / tesstrain, https://github.com/tesseract-ocr/tesstrain/wiki, Stand: 26.04.2022.

Wick, Christoph; Reul, Christian; Puppe, Frank: Calamari – A High-Performance Tensorflow-based Deep Learning Package for Optical Character Recognition, in: Digital Humanities Quarterly 14 (2), 2020. Online: https://doi.org/10.48550/arXiv.1807.02004.

Downloads

Veröffentlicht

30.08.2022

Ausgabe

Rubrik

Aufsätze

Zitationsvorschlag

Volltexte für die Forschung: OCR partizipativ, iterativ und on Demand. (2022). O-Bib. Das Offene Bibliotheksjournal Herausgeber VDB, 9(3), 1-11. https://doi.org/10.5282/o-bib/5832