Volltexte für die Forschung: OCR partizipativ, iterativ und on Demand

Authors

DOI:

https://doi.org/10.5282/o-bib/5832

Keywords:

Digitization, Full text, democracy, Optical character recognition

Abstract

For working with digitized sources in research, the quality of full-text recognition, i.e. the accuracy of Optical Character Recognition (OCR), is essential. Full-text recognition is thus advancing to become a quality criterion of digital collections, and libraries – as central actors in digitization – must live up to their responsibility regarding the evidence of scientific results based on full text. Starting from a digitization process that is explicitly oriented towards digital research, the paper discusses formats and workflows for organizing full-text recognition as an iterative and  participatory process in collaboration with researchers. Against the background of the current OCR-D funding  phase, the paper also presents an on-demand approach for OCR processes according to specific requirements.

Author Biography

  • Anke Hertling, Leibniz-Institut für Bildungsmedien | Georg-Eckert-Institut

    Leiterin der Forschungsbibliothek

References

DFG: Praxisregeln „Digitalisierung“. DFG Vordruck 12.151 – 12/16, https://www.dfg.de/formulare/12_151/12_151_de.pdf, Stand: 26.04.2022.

DFG: Merkblatt und ergänzender Leitfaden – Digitalisierung und Erschließung, DFG Vordruck 12.15 – 09/21, https://www.dfg.de/foerderung/programme/infrastruktur/lis/lis_foerderangebote/digitalisierung_erschliessung/formulare_merkblaetter/index.jsp, Stand: 26.04.2022.

DFG: Implementierung der OCR-D-Software zur Volltextdigitalisierung. Information für die Wissenschaft Nr. 15 | 27. Februar 2020, https://www.dfg.de/foerderung/info_wissenschaft/2020/info_wissenschaft_20_15/index.html, Stand: 26.04.2022.

DHd (Digital Humanities im deutschsprachigen Raum): AG OCR – Punkt 2: Arbeitsschwerpunkte, https://dig-hum.de/ag-ocr, Stand: 26.04.2022.

Engl, Elisabeth: OCR-D kompakt. Ergebnisse und Stand der Forschung in der Förderinitiative, in: Bibliothek – Forschung und Praxis 44 (2), 2020, S. 218–230. Online: https://doi.org/10.1515/bfp-2020-0024.

Fühles-Ubach, Simone: Vom „embedded“ zum „liaison librarian“ – Was versprechen die neuen Konzepte?, in: Mittermaier, Bernhard (Hg.): Vernetztes Wissen – Daten, Menschen, Systeme. 6. Konferenz der Zentralbibliothek Forschungszentrum Jülich. 5.-7. November 2012, Proceedingsband. (Schriften des Forschungszentrums Jülich Reihe Bibliothek / Library Band / Volume 21). Jülich 2012, S. 337-350. Online: https://juser.fz-juelich.de/record/126960/files/FZJ-2012-00028.pdf, Stand: 26.04.2022.

Gasser, Sonja: Das Digitalisat als Objekt der Begierde. Anforderungen an digitale Sammlungen für Forschung in der Digitalen Kunstgeschichte, in: Andraschke, Udo; Wagner, Sarah (Hg.): Objekte im Netz. Wissenschaftliche Sammlungen im digitalen Wandel, Bielefeld 2020, S. 261–276. Online: https://doi.org/10.14361/9783839455715.

Hertling, Anke; Klaes, Sebastian: Historische Schulbücher als digitales Korpus für die Forschung. Auswahl und Aufbau einer digitalen Schulbuchbibliothek, in: Nieländer, Maret; De Luca, Ernesto William (Hg.): Digital Humanities in der internationalen Schulbuchforschung. (Eckert. Expertise 9). Göttingen 2018, S. 22-44. Online: https://repository.gei.de/handle/11428/296 (DOI 10.14220/9783737009539), Stand: 26.04.2022.

Jacobmeyer, Wolfgang: Das deutsche Schulgeschichtsbuch 1700-1945. Die erste Epoche seiner Gattungsgeschichte im Spiegel der Vorworte, Bd. 1, Berlin 2011.

Jäger, Georg: Der Schulbuchverlag, in: Ders. et al. (Hg.): Geschichte des deutschen Buchhandels im 19. und 20. Jahrhundert, Bd. 1: Das Kaiserreich 1870-1918, Teil 2, Frankfurt am Main 2003.

Nieländer, Maret; Weiß, Andreas: »Schönere Daten« – Nachnutzung und Aufbereitung für die Verwendung in Digital-Humanities-Projekten, in: Nieländer, Maret; De Luca, Ernesto William (Hg.): Digital Humanities in der internationalen Schulbuchforschung.

(Eckert. Expertise 9), Göttingen 2018, S. 91–116. Online: https://repository.gei.de/handle/11428/296 (DOI 10.14220/9783737009539), Stand: 26.04.2022.

Reul, Christian; Springmann, Uwe; Wick, Christoph; Puppe, Frank: State of the Art Optical Character Recognition of 19th Century Fraktur Scripts using Open Source Engines, in: DHd 2019 Digital Humanities: multimedial & multimodal. Konferenzabstracts (1.0, p. 366), S. 212–216, https://doi.org/10.5281/zenodo.2596095.

Weil, Stefan: Neue Frakturmodelle für Tesseract. Präsentation auf dem Kitodo Anwendertreffen 18.–19. November 2019, S. 3. Online: https://madoc.bib.uni-mannheim.de/53748/1/2019-11-18.pdf, Stand: 26.04.2022.

Weil, Stefan: tesseract-ocr / tesstrain, https://github.com/tesseract-ocr/tesstrain/wiki, Stand: 26.04.2022.

Wick, Christoph; Reul, Christian; Puppe, Frank: Calamari – A High-Performance Tensorflow-based Deep Learning Package for Optical Character Recognition, in: Digital Humanities Quarterly 14 (2), 2020. Online: https://doi.org/10.48550/arXiv.1807.02004.

Published

2022-08-30

Issue

Section

Full papers

How to Cite

Volltexte für die Forschung: OCR partizipativ, iterativ und on Demand. (2022). O-Bib. Das Offene Bibliotheksjournal Herausgeber VDB, 9(3), 1-11. https://doi.org/10.5282/o-bib/5832