Ziel der Entwicklung

Logo: Separierung von Stempel, Artikelüberschrift, Textblöcken
Separierung von Stempel, Artikelüberschrift, Textblöcken

Erstes Ziel war es, ein Verfahren zu entwickeln, das die reinen Texte von den Elementen, die die Schrifterkennung stören, separiert. Beispiele für solche Elemente sind Abbildungen und zusätzlich aufgebrachte Informationen wie Stempel oder handschriftliche Bemerkungen. Weiterhin sollten Verfahren für eine nachträgliche Verbesserung von OCR-Ergebnissen erforscht werden. Für unvollständig erkannte Wörter sollten verschiedene Methoden der kontextabhängigen Korrektur untersucht und das erfolgreichste Modell in ein Erkennungssystem integriert werden.

Vorteile und Lösungen

Im Rahmen des Projektes wurde das Erfassungssystem DaCaPo geschaffen. Es ermöglicht die strukturierte Erfassung von Dokumenten, insbesondere von Zeitungsartikeln. Durch eigens entwickelte Verfahren werden Stempel mit Zeitungsnamen und Erscheinungsdatum, Artikelüberschriften, Abbildungen, Bildunterschriften und Textblöcke automatisch identifiziert und separiert. Textbereiche werden einer kommerziellen OCR-Lösung zugeführt und die Ergebnisse getrennt in einer MySQL-Datenbank abgelegt. Durch eine nutzerfreundliche Oberfläche können Textkorrekturen und Ergänzungen ausgeführt werden. Die in der Datenbank abgelegten Texte lassen sich dann, auch kombiniert, durchsuchen und die Suchergebnisse in übersichtlicher Form ausgeben. Untersuchungen anhand von Testmaterial des Herder-Instituts Marburg zeigen, dass man damit die Aufwände für eine strukturierte Erfassung von Zeitungstexten sehr weit senken kann. Die Kosten, die bei einer Texterfassung im Ausland anfallen, werden nahezu erreicht, so dass diese Dienstleistung auch im Inland durchgeführt werden kann. Potentielle Nutznießer des Systems sind damit Museen, Archive, Bibliotheken und Texterfassungsdienstleister.

Zielgruppe und Zielmarkt

Zielgruppe sind Museen, Archive, Bibliotheken und Texterfassungsdienstleister. Eine weitere Vervollkommnung des Erfassungssystems ist sinnvoll, wenn sich die Zielgruppe bei der Entwicklung und der Überführung zur Marktreife engagiert. Bei Abschluss des Projektes stand der erste Schritt, nämlich die Durchführung der Digitalisierung von Zeitungssammlungen im Mittelpunkt. Durch die in OSKAR entwickelten Verfahren könnte begleitend mit dem Folgeschritt, nämlich die inhaltliche Verwertung der Archivbestände, begonnen werden. Der Ausbau der in OSKAR entwickelten Verfahren könnte für weitere Effizienzsteigerungen bei der Nutzbarmachung alter Texte sorgen.