Bachelorarbeit: Vorverarbeitung von Bildern für automatische Texterkennung (OMR)

Die Bachelorarbeit wird gemeinsam von Prof. Rainer Gemulla (Lehrstuhl für Praktische Informatik I) und Dr. Philipp Zumstein (UB Mannheim) unterstützt.

Die UB Mannheim besitzt Bilddaten von über 700000 Seiten der Zeitung Deutscher Reichsanzeiger und Preussischer Staatsanzeiger. Um dieses Archiv für weitere Forschung zugänglich zu machen, sollen die in den Seiten enthaltenen Texte erkannt und maschinell lesbar gemacht werden (OCR, optical character recognition).

In dieser Arbeit soll untersucht werden, ob und inwieweit die Qualität gängiger OCR-Software durch geeignete Vorverarbeitung der Bilder verbessert werden kann. Dazu gehören beispielsweise Techniken zum Aufteilen in Seiten, De-Warping [1], Erkennung von Nicht-Textbereichen [2] oder Binarisierung [3]. Sowohl kommerzielle OCR-Programme wie ABBYY Finereader als auch freie OCR-Software wie etwa Tesseract mit Leptonica oder Ocropus führen eine gewisse Vorverarbeitung bereits durch. Diese ist aber nur bedingt effektiv und kann ggf. weiter verbessert werden (u.a. durch den Einsatz von speziell auf diesen Datensatz entwickelten Vorverarbeitungsschritte). Dazu sollen verschiedene Vorverarbeitungschritte vorgeschlagen und bezüglich ihrer Effektivität evaluiert werden.

Bei Interesse oder Rückfragen melden Sie sich bei Rainer Gemulla oder Philipp Zumstein.

[1] Le, Thoma, Wechsler (1994): Automated page orientation and skew angle detection for binary document images. http://doi.org/10.1016/0031-3203(94)90068-X

[2] Bukhari, Al Azawi, Shafait, Breuel (2010): Document Image Segmentation using Discriminative Learning over Connected Components. http://doi.org/10.1145/1815330.1815354

[3] Gatos, Pratikakis, Perantonis (2008): Efficient Binarization of Historical and Degraded Document Images. http://doi.org/10.1109/DAS.2008.66