Volltextdigitalisierung: Methoden und Werkzeuge
(Autorin: Ursula Schultze, 30.09.2015)
Bevor man ein Wörterbuch digitalisiert, muss man sich darüber im Klaren sein, wie genau das Digitalisat im Anschluss aussehen soll, welche Anforderungen an die Darstellung gestellt werden und für welche Zwecke das Wörterbuch später verwendet werden soll bzw. welche Ziele mit der Digitalisierung verfolgt werden: Möchte man zum Beispiel ein Wörterbuch nur digital nachbilden oder soll man zudem die Lemmaliste oder sogar ganze Volltexte durchsuchen können? Zuerst muss eine genaue linguistische Analyse der Artikel vorgenommen werden. Hierbei werden die Struktur und der Inhalt detailliert untersucht. Sobald man dies gemacht hat, kann man entscheiden, welche Verfahren für das Digitalisierungsvorhaben die besten Ergebnisse liefern. Nachdem die gewünschten Anforderungen definiert worden sind, wird das Wörterbuch eingescannt, so dass alle Seiten in Bilddateien vorliegen. Nun stellt sich die Frage: Wie werden diese Bilder in Texte umgewandelt, um sie weiter bearbeiten und mit Informationen anreichern zu können? Dafür gibt es verschiedenen Methoden und Werkzeuge. Im Folgenden werden drei Möglichkeiten vorgestellt:
OCR
OCR steht für Optical Character Recognition. Mit OCR ist es möglich, Text in Bildern automatisiert zu erkennen. Für diese Methode der Texterkennung gibt es verschiedene Programme:
- ABBYY FineReader: ABBYY ist ein russischer Softwarehersteller, der Anwendungen des maschinellen Sehens entwickelt. Der FineReader ist eine Software zur Texterkennung, welche die Konvertierung von Scans in durchsuchbare PDFs ermöglicht.
- Omnipage: Ominpage ist eine Software, die Textvorlagen in Textdokumente umsetzt. Ominpage erkennt 56 Sprachen, darüber hinaus verfügt die Software über eigene Wörterbücher für die 19 häufigsten Sprachen.
- Tesseract: Tesseract ist eine Software zur Texterkennung. Es ist ein reines Zeichenerkennungsprogramm, das ohne statistische Modelle arbeitet und keine graphische Benutzeroberfläche bietet. Tesseract ist eine quelloffene Software, was bedeutet, dass jeder die Software nutzen, kopieren und verändern darf.
- OCRopus: OCRopus ist eine Software zur Dokumentanalyse und Texterkennung. Sie nutzt statistische Sprachmodelle und ist genauso wie Tesseract quelloffen.
Damit ein Programm den Text in einem Bild erkennen kann, ist es wichtig, dass die Qualität der Scans den Anforderungen der Software und den Gegebenheiten der Vorlage angepasst wird. Je besser die Qualität eines Scans ist, umso zuverlässiger funktioniert auch die Texterkennung des Programms. Hinter OCR-Programmen stehen komplexe technische Prozesse, den Arbeitsablauf kann man sich aber recht einfach vorstellen. Zuerst erfolgt die Bildverarbeitung. Hierbei werden die Bildkontraste verstärkt und es folgt die sogenannte Binarisierung. Mit der Binarisierung regelt man die Helligkeit des Bildes, d.h. ab welchem Grauwert eine Stelle schwarz oder weiß dargestellt werden soll. Nachdem das Bild bearbeitet wurde, erfolgt die Layout-Analyse, das Bild wird erst in Textblöcke eingeteilt, dann wird nach Linien segmentiert. Dies kann man sich so vorstellen, dass unter jeder Textzeile eine Linie gezogen wird, wodurch das Programm den Zeilenverlauf erkennt. Nachdem der Textverlauf mit Linien versehen worden ist, wird nach Wörtern segmentiert. Das Programm berechnet hierbei, wo ein Wort anfängt und endet. Dann werden die Wörter in einzelne Buchstaben segmentiert und im Anschluss wird der Buchstabe selbst rekonstruiert, dies wird als Charakterklassifikation bezeichnet. Viele OCR-Programme arbeiten zudem mit statistischen Sprachmodellen, zum Beispiel mit N-Grammen, die eine Wahrscheinlichkeitsberechung von Buchstabenfolgen ermöglichen. Aber man sollte nicht vergessen, dass man mit einem Programm arbeitet. Programme arbeiten zwar oft genauer und effizienter als Menschen, dennoch machen sie auch Fehler, da sie mit Ausnahmen, sofern diese nicht implementiert wurden, nicht umgehen können. Daher ist nach dem Durchlauf der OCR-Software eine Nachkorrektur unerlässlich. Diese kann automatisch oder händisch erfolgen. Auch sollte bei großen Texterkennungsaufgaben in jedem Fall eine Ergebnisevaluation zu Anfang erfolgen, damit man im Falle zu vieler Fehler andere Einstellungen des Programms oder eine Änderung der Scanqualität vornehmen kann, um damit die Fehlerrate zu senken. Dies erspart später wiederum Arbeit und Zeit und vor allem Forschungsgelder. Der Output einer OCR-Software kann in verschiedenen Formaten erfolgen: PDF, DOCX, RTF oder HTML oder als XML. OCR eignet sich besonders für moderne und im besten Fall maschinengeschriebene Textdokumente, da hier ein deutliches Druckbild und ein guter Kontrast gegeben sind.
Hier soll an einem Beispiel gezeigt werden, wie eine OCR-Software arbeitet und vor welchen Herausforderungen man stehen kann:
Diese Ansicht erhält man, wenn man ein PDF- Dokument als Scanergebnis einlesen lässt. Das Programm geht Seite für Seite durch. Im Hintergrund wird zudem die Sprache des Dokuments geprüft.In unserem Fall ist dies Deutsch, da wir einen Scan aus dem Duden Universalwörterbuch von 2006 eingelesen haben. ABBYY FineReader 10 ist hier die verwendete OCR-Software. Als vorteilhaft erweist sich, dass man die Dokumentsprache auch selbst einstellen kann. So kann ABBYY FineReader zum Beispiel auch einen Text erkennen, der in asiatischen Schriftzeichen abgefasst ist.
Nach dem Einlesen findet man diese Ansicht auf dem Bildschirm wieder. Auf der linken Seite sehen wir das Original, dessen Text in Kästen eingeteilt wurde, in denen das Programm die Seite in Schriftblöcke untergliedert. Innerhalb dieser Blöcke befindet sich der Text, der erkannt wurde. Auf der rechten Seite befindet sich das Ergebnis der OCR-Software. Das Programm hat alle Buchstaben erkannt, lediglich die Formatierung wurde zum Teil nicht beibehalten. Die blau markierten Buchstaben und Ziffern stellen Zweifelsfälle dar, bei denen die Software nicht sicher entscheiden konnte, ob diese Zeichen richtig erkannt wurden und den deutschen Rechtschreibregeln entsprechen.
Ball, Rafael, Volltextdigitalisierung, online: http://www.digitalisierung.ethz.ch/volltextdigitalisierung.html [16.07.2015].
Ball, Rafael, Best Practices Digitalisierung, online: http://www.digitalisierung.ethz.ch/index.html [16.07.2015].
Burch, Thomas; Gärtner, Kurt, Standards der Volltextdigitalisierung am Beispiel der Mittelhochdeutschen Wörterbücher auf CD-ROM und im Internet, 2000, online: http://www.muenchener-digitalisierungszentrum.de/content/veranstaltung/2000-11-28/burch.html [16.07.2015].
Cash, Glenn; Hatamian, Mehdi, Optical Character Recognition by the Method of Moments, in: Computer Vision, Graphics, and Image Processing, Jg. 39, Bd. 3/ 1987, S. 291-310, online: http://www.sciencedirect.com/science/article/pii/S0734189X87801834 [16.07.2015].
Cox, Anna; Oladimeji, Patrick; Thimbleby, Harold, Number Entry Interfaces and Their Effects on Error Detection, in: Human Computer Interaction - INTERACT 2011, 13th IFIP TC 13 International Conference, Lisbon, Portugal, September 5-9, 2011, Proceedings, Part IV, online: http://www.cs.swansea.ac.uk/~csharold/cv/files/interact2011.pdf [16.07.2015].
Deutsche Forschungsgemeinschaft, DFG-Praxisregeln »Digitaliserung (02/2013)«, online: http://www.dfg.de/formulare/12_151/12_151_de.pdf [15.07.2015].
Eikvil, Line, OCR - Optical Character Recognition, Oslo 1993, online: https://www.nr.no/~eikvil/OCR.pdf [16.07.2015].
Geyken, Alexander; Haaf, Susanne; Wiegand, Frank, Measuring the Correctness of Double-Keying. Error Classification and Quality Control in a Large Corpus of TEI-Annotated Historical Text, Journal of the Text Encoding Initiative, Nr. 4, März 2013, online: https://jtei.revues.org/739 [16.07.2015].
Kompetenzzentrum für elektronische Erschließungs- und Publikationsverfahren in den Geisteswissenschaften
Universität Trier, Volltextdigitalisierung, online: http://kompetenzzentrum.uni-trier.de/de/schwerpunkte/volltextdigitalisierung/ [15.07.2015].
Kompetenzzentrum für elektronische Erschließungs- und Publikationsverfahren in den Geisteswissenschaften
Universität Trier, DWB Volltextdigitalisierung, online: http://dwb.uni-trier.de/de/die-digitale-version/volltextdigitalisierung/ [16.07.2015].
Max-Planck-Gesellschaft zur Förderung der Wissenschaften e.V., Volltexte, online: https://dlcproject.wordpress.com/tag/texterfassung/ [16.07.2015].
Thaller, Manfred, Was heißt und zu welchem Ende betreiben wir Volltextdigitaliserung?, Vortragsfolien 2011 [16.07.2015].
Unterausschuss für Kulturelle Überlieferungen im Bibliotheksausschuss der Deutschen Forschungsgemeinschaft, Die Erschließung und Bereitstellung digitalisierter Drucke, online: http://forge.fh-potsdam.de/~ABD/wa/Digitale_Edition/Dokumente/DFG_Konzept_digitale_drucke.pdf [15.07.2015].
Wegstein, Werner; Blümm, Mirjam; Seipel Dietmar; Schneiker, Christian, Digitalisierung von Primärquellen für die TextGrid-Umgebung: Modellfall Campe-WB, online: http://www.textgrid.de/fileadmin/berichte-1/report-4-1.pdf [15.07.2015].