Automatische Qualitätsverbesserung von Fraktur-Volltexten aus der Retrodigitalisierung am Beispiel der Zeitschrift Die Grenzboten
DOI:
https://doi.org/10.5282/o-bib/2016H1S32-55Keywords:
Digitalisierung, Retrodigitalisierung, OCRAbstract
Den Geisteswissenschaften stehen nach und nach mehr computerbasierte Werkzeuge und Infrastrukturen der Digital Humanities zur Verfügung, für die die Existenz und weitere Erstellung von Volltext mit guter Qualität eine unabdingbare Voraussetzung ist. Der Bedarf nach qualitativ hochwertigem Volltext aus Retrodigitalisierungsprojekten steigt daher ständig an. Der zu Frakturschrift berechnete OCR-Volltext hat eine deutlich schlechtere Qualität als von Antiqua-Schrift berechneter.
Daher ist für das wissenschaftliche Arbeiten unkorrigierter und unstrukturierter OCR-Volltext von Frakturschrift häufig wertlos. Da eine bedarfsgerechte Erzeugung von Volltext in der Größenordnung
von mehreren Millionen Seiten in Bezug auf Aufwand und Kosten effizient sein sollte, wird hier eine möglichst weitgehende Automatisierung der Nachbearbeitung von OCR-Volltext vorgestellt. An der Staats- und Universitätsbibliothek Bremen (SuUB) wurde dazu ein Ansatz entwickelt, der sich durch Einfachheit auszeichnet: Eine Liste historischer bzw. dialekt- oder fachspezifischer Wortformen – eine der Voraussetzungen dieses Ansatzes – ist verhältnismäßig leicht erstellbar. Ein
effizienter Algorithmus leistet den Abgleich von hier ca. 1,7 Millionen Wortformen gegen bei der Zeitschrift Die Grenzboten knapp 80 Millionen enthaltenen Wörtern und lässt sich auf verständliche und nachvollziehbare Art und Weise parametrisieren, d.h. auf die spezifischen Eigenschaften des jeweiligen Volltextprojektes einstellen. Die erreichbaren Ergebnisse sind stark abhängig von der Ausgangsqualität des Volltextes sowie von dem Umfang und der Qualität der Liste der historischen Wortformen und dem verwendeten Fehlermodell. So können beispielsweise bestimmte Fehler nur mit einem den Kontext berücksichtigenden Ansatz korrigiert werden. Weiterhin wurde zusammen mit der Firma ProjectComputing mit Sitz in Canberra, Australien, der cloud service overProof1 um
die Funktionalität der Nachkorrektur deutschsprachiger Frakturschrift erweitert. In einem Ausblick werden Bedarfe und Möglichkeiten für die Zukunft aufgezeigt.
Gradually, the humanities are provided with a number of computer based tools and scientific infrastructures of the digital humanities. As digital full text is strongly needed for these tools and infrastructures, the demand for high-quality full texts is constantly rising. OCRed full text from Gothic typeface texts is of considerably worse quality than OCRed full text from Antiqua. The value of uncorrected and unstructured OCR full text is fairly low. As multiple millions of pages need to be processed, the method should be efficient with respect to expenditure and costs. Therefore, we introduce an almost fully automated approach for the post correction of OCR full text. The approach developed at the Staats- und Universitätsbibliothek Bremen (SuUB) is a straightforward one. One of the requirements, a list of historical word forms, was easily generated. An efficient algorithm carries out the matching of 1,7 million word forms against almost 80 million words taken from the historical journal Die Grenzboten. The parametrization of the algorithm, i.e. the adaption to the specific requirements of the full text project, is comprehensible and easy to understand. The results which can be achieved strongly depend on the initial quality of the full text, the dimension and quality of the list of historical word forms and the error model applied. For example, specific types of errors can only be corrected by taking context information into account. Furthermore, the cloud service overProof was enhanced by the ability to correct German Gothic typeset. This was done in a cooperation with the Australian company ProjectComputing. In the discussion, requirements and options for the future are presented.
References
Evershed, John, Kent Fitch. "Correcting noisy OCR: context beats confusion". Proceedings of the First International Conference on Digital Access to Textual Cultural Heritage (2014) 45-51. doi:10.1145/2595188.2595200
DFG-Praxisregeln Digitalisierung. http://www.dfg.de/formulare/12_151/12_151_de.pdf
Federbusch, Maria, Christian Polzin: "Volltext via OCR – Möglichkeiten und Grenzen". Beitra¨ge aus der Staatsbibliothek zu Berlin - Preußischer Kulturbesitz (2013). http://staatsbibliothek-berlin.de/fileadmin/user_upload/zentrale_Seiten/historische_drucke/pdf/SBB_OCR_STUDIE_WEBVERSION_Final.pdf
Furrer, Lenz, Martin Volk. "Reducing OCR Errors in Gothic-Scrip Documents". ERCIM News, 86 (2011): 29-30 doi: 10.5167/uzh-49203
Kann, Bettina, Michael Hintersonnleitner. "Volltextsuche in historischen Texten - Erfahrungen aus den Projekten der Österreichischen Nationalbibliothek" BIBLIOTHEK – Forschung und Praxis 39, no. 1 (2015): 73-79 doi: 10.1515/bfp-2015-0004
Kilner, Kerry, Kent Fitch. "Discovering and Rediscovering Full Text: Unearthing and Refactoring". http://dh2015.org/abstracts/xml/KILNER_Kerry_Discovering_and_Rediscovering_Full_T/KILNER_Kerry_Discovering_and_Rediscovering_Full_Text__U.html
Mühlberger, Günter. "Digitalisierung historischer Zeitungen aus dem Blickwinkel der automatisierten Text- und Strukturerkennung (OCR)" Zeitschrift für Bibliothekswesen und Bibliographie, no. 1 (2011): doi: 10.3196/186429501158135
Sommer, Dorothea, Kay Heiligenhaus, Carola Wippermann, Manfred Pankratz. "Zeitungsdigitalisierung: eine neue Herausforderung für die ULB Halle". ABI Technik 34, no 2 (July 2014): 75–85 doi: 10.1515/abitech-2014-0013
Stäcker, Thomas. "Konversion des kulturellen Erbes für die Forschung: Volltextbeschaffung und -bereitstellung als Aufgabe der Bibliotheken" o-bib 1, no. 1 (2014): doi: 10.5282/o-bib/2014H1S220-237
Wawra, Steffen, Silke Wu¨ndrich. "OCR fu¨r Frakturschriften?". Bibliotheksdienst 33 (1999): 2110-2117
Wernersson, Maria. "Evaluation von automatisch erzeugten OCR-Daten am Beispiel der Allgemeinen Zeitung". ABI Technik 35, no. 1 (2015): 23–35 doi: 10.1515/abitech-2015-0014
Downloads
Published
Issue
Section
License
Copyright (c) 2016 Manfred Karsten Nölte, Jan Paul Bultmann, Maik Schünemann, Martin Blenkle
This work is licensed under a Creative Commons Attribution 4.0 International License.