Volltexte für die Forschung: OCR partizipativ, iterativ und on Demand
DOI:
https://doi.org/10.5282/o-bib/5832Keywords:
Digitization, Full text, democracy, Optical character recognitionAbstract
For working with digitized sources in research, the quality of full-text recognition, i.e. the accuracy of Optical Character Recognition (OCR), is essential. Full-text recognition is thus advancing to become a quality criterion of digital collections, and libraries – as central actors in digitization – must live up to their responsibility regarding the evidence of scientific results based on full text. Starting from a digitization process that is explicitly oriented towards digital research, the paper discusses formats and workflows for organizing full-text recognition as an iterative and participatory process in collaboration with researchers. Against the background of the current OCR-D funding phase, the paper also presents an on-demand approach for OCR processes according to specific requirements.
References
DFG: Praxisregeln „Digitalisierung“. DFG Vordruck 12.151 – 12/16, https://www.dfg.de/formulare/12_151/12_151_de.pdf, Stand: 26.04.2022.
DFG: Merkblatt und ergänzender Leitfaden – Digitalisierung und Erschließung, DFG Vordruck 12.15 – 09/21, https://www.dfg.de/foerderung/programme/infrastruktur/lis/lis_foerderangebote/digitalisierung_erschliessung/formulare_merkblaetter/index.jsp, Stand: 26.04.2022.
DFG: Implementierung der OCR-D-Software zur Volltextdigitalisierung. Information für die Wissenschaft Nr. 15 | 27. Februar 2020, https://www.dfg.de/foerderung/info_wissenschaft/2020/info_wissenschaft_20_15/index.html, Stand: 26.04.2022.
DHd (Digital Humanities im deutschsprachigen Raum): AG OCR – Punkt 2: Arbeitsschwerpunkte, https://dig-hum.de/ag-ocr, Stand: 26.04.2022.
Engl, Elisabeth: OCR-D kompakt. Ergebnisse und Stand der Forschung in der Förderinitiative, in: Bibliothek – Forschung und Praxis 44 (2), 2020, S. 218–230. Online: https://doi.org/10.1515/bfp-2020-0024.
Fühles-Ubach, Simone: Vom „embedded“ zum „liaison librarian“ – Was versprechen die neuen Konzepte?, in: Mittermaier, Bernhard (Hg.): Vernetztes Wissen – Daten, Menschen, Systeme. 6. Konferenz der Zentralbibliothek Forschungszentrum Jülich. 5.-7. November 2012, Proceedingsband. (Schriften des Forschungszentrums Jülich Reihe Bibliothek / Library Band / Volume 21). Jülich 2012, S. 337-350. Online: https://juser.fz-juelich.de/record/126960/files/FZJ-2012-00028.pdf, Stand: 26.04.2022.
Gasser, Sonja: Das Digitalisat als Objekt der Begierde. Anforderungen an digitale Sammlungen für Forschung in der Digitalen Kunstgeschichte, in: Andraschke, Udo; Wagner, Sarah (Hg.): Objekte im Netz. Wissenschaftliche Sammlungen im digitalen Wandel, Bielefeld 2020, S. 261–276. Online: https://doi.org/10.14361/9783839455715.
Hertling, Anke; Klaes, Sebastian: Historische Schulbücher als digitales Korpus für die Forschung. Auswahl und Aufbau einer digitalen Schulbuchbibliothek, in: Nieländer, Maret; De Luca, Ernesto William (Hg.): Digital Humanities in der internationalen Schulbuchforschung. (Eckert. Expertise 9). Göttingen 2018, S. 22-44. Online: https://repository.gei.de/handle/11428/296 (DOI 10.14220/9783737009539), Stand: 26.04.2022.
Jacobmeyer, Wolfgang: Das deutsche Schulgeschichtsbuch 1700-1945. Die erste Epoche seiner Gattungsgeschichte im Spiegel der Vorworte, Bd. 1, Berlin 2011.
Jäger, Georg: Der Schulbuchverlag, in: Ders. et al. (Hg.): Geschichte des deutschen Buchhandels im 19. und 20. Jahrhundert, Bd. 1: Das Kaiserreich 1870-1918, Teil 2, Frankfurt am Main 2003.
Nieländer, Maret; Weiß, Andreas: »Schönere Daten« – Nachnutzung und Aufbereitung für die Verwendung in Digital-Humanities-Projekten, in: Nieländer, Maret; De Luca, Ernesto William (Hg.): Digital Humanities in der internationalen Schulbuchforschung.
(Eckert. Expertise 9), Göttingen 2018, S. 91–116. Online: https://repository.gei.de/handle/11428/296 (DOI 10.14220/9783737009539), Stand: 26.04.2022.
Reul, Christian; Springmann, Uwe; Wick, Christoph; Puppe, Frank: State of the Art Optical Character Recognition of 19th Century Fraktur Scripts using Open Source Engines, in: DHd 2019 Digital Humanities: multimedial & multimodal. Konferenzabstracts (1.0, p. 366), S. 212–216, https://doi.org/10.5281/zenodo.2596095.
Weil, Stefan: Neue Frakturmodelle für Tesseract. Präsentation auf dem Kitodo Anwendertreffen 18.–19. November 2019, S. 3. Online: https://madoc.bib.uni-mannheim.de/53748/1/2019-11-18.pdf, Stand: 26.04.2022.
Weil, Stefan: tesseract-ocr / tesstrain, https://github.com/tesseract-ocr/tesstrain/wiki, Stand: 26.04.2022.
Wick, Christoph; Reul, Christian; Puppe, Frank: Calamari – A High-Performance Tensorflow-based Deep Learning Package for Optical Character Recognition, in: Digital Humanities Quarterly 14 (2), 2020. Online: https://doi.org/10.48550/arXiv.1807.02004.
Downloads
Published
Issue
Section
License
Copyright (c) 2022 Anke Hertling, Sebastian Klaes
This work is licensed under a Creative Commons Attribution 4.0 International License.