Bachelorarbeit: Verteilte Texterkennung einer historischen Zeitung

Die Bachelorarbeit wird gemeinsam von Prof. Rainer Gemulla (Lehrstuhl für Praktische Informatik I) und Stefan Weil (UB Mannheim) unterstützt.

Die UB Mannheim besitzt Bilddaten von über 700000 Seiten der Zeitung Deutscher Reichsanzeiger und Preussischer Staatsanzeiger, die zwischen 1819 und 1945 unter verschiedenen Bezeichnungen erschienen ist. Um dieses Archiv für weitere Forschung zugänglich zu machen, sollen die in den Seiten enthaltenen Texte erkannt und maschinell lesbar gemacht werden (OCR, optical character recognition).

Dazu müssen über 350000 TIFF-Bilddateien (>20TB an Daten) verarbeitet werden. Ein einzelner Rechner benötigt für die Texterkennung in einer Bilddatei mit gängiger OCR-Software ca. 10 Minuten; die Verarbeitung aller Bilddateien würde so knapp 7 Jahre in Anspruch nehmen.

Ziel der Bachelorarbeit ist es, einen Cluster aus PCs ähnlich zu SETI@Home zu realisieren. Dazu könnten beispielsweise die öffentlichen PCs aller Bibliotheksbereiche, die Arbeitsplätze von Bibliotheksmitarbeitern (insofern einverstanden) sowie von anderen Freiwilligen verwendet werden. Die Clusterknoten haben somit eine gewisse Heterogenität, z.B. unterschiedliche Geräteausstattung und –leistung sowie unterschiedliche Betriebssysteme.

Als Basis zur Realisierung des Clusters könnte beispielsweise freie Software wie BOINC [2,3] oder Docker Swarm [3,4] zum Einsatz kommen. Die OCR wird ebenfalls freie Software (Tesseract [5], eventuell OCRopus [6] sowie Software zur Bildvorverarbeitung) verwenden. Neben den rein technischen Herausforderungen sind auch Themen wie Sicherheit und Akzeptanz zu berücksichtigen.

Bei Interesse oder Rückfragen melden Sie sich bitte bei Rainer Gemulla oder Stefan Weil.

 

[1] https://de.wikipedia.org/wiki/Berkeley_Open_Infrastructure_for_Network_Computing

[2] https://boinc.berkeley.edu/

[3] https://de.wikipedia.org/wiki/Docker_%28Software%29

[4] https://docs.docker.com/swarm/

[5] https://de.wikipedia.org/wiki/Tesseract_%28Software%29

[6] https://de.wikipedia.org/wiki/OCRopus