OLA-HD – Ein OCR-D-Langzeitarchiv für historische Drucke - Projektdetails (OLA-HD)

Koordinierungsprojekt zur Weiterentwicklung von Verfahren der Optical Character Recognition (OCR)

ocr-d.de

OLA-HD ist ein Kooperationsprojekt der Niedersächsischen Staats- und Universitätsbibliothek Göttingen und der Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen, welches als Modul dem Dachprojekt Koordinierungsprojekt zur Weiterentwicklung von Verfahren der Optical Character Recognition (OCR) – der Deutschen Forschungsgemeinschaft zugeordnet ist.

Um im Bereich der historisch arbeitenden Wissenschaften hochwertige und umfangreiche Forschung leisten zu können, ist ein möglichst uneingeschränkter Zugriff auf historische Quellen unerlässlich. Durch mehrere Erschließungs- und Digitalisierungsprojekte stehen mittlerweile zahlreiche Digitalisate von historischen Drucken aus dem 16. bis zum 19. Jahrhundert zur Verfügung. Insbesondere im Rahmen der „Verzeichnisse Deutscher Drucke” wurde nicht nur die serielle Erschließung, sondern auch die massenhafte Digitalisierung von Titeln vorangetrieben. Diese Werke sind nach nationalbibliographischen Standards katalogisiert worden und zu großen Teilen bereits digitalisiert worden. Der bibliographische Metadatenstandard dieser Digitalisate wird den wissenschaftlichen Anforderungen bereits gerecht. Es ist nun entscheidend, auch die Volltexte der digitalisierten Werke gezielt durchsuchen und weiter verwenden zu können.

Die Techniken der Optical-Character-Recognition (OCR) ermöglichen hier das massenhafte Erstellen von Volltexten. Für die unmittelbare Nutzung in Bibliotheken, Archiven und anderen Einrichtungen waren die bisher angewandten Methoden jedoch nicht geeignet, da die Texte zu große orthographische Unterschiede aufweisen. Es wird intensiv an leicht übertragbaren Anwendungen gearbeitet, die eine qualitativ hochwertige Massenvolltexterschließung aller historischen Drucke aus dem o. g. Zeitraum zu ermöglichen. Dies erhöht die Anzahl der OCR-Texte rasant. Für die weitere Nutzung ist eine nachhaltige Archivierung und Identifizierung der Digitalisate, der bibliographischen Metadaten sowie der erschlossenen Volltexte und deren Versionen notwendig. Um dies gewährleisten zu können, muss ein standardisiertes Konzept erstellt werden. Darüber hinaus ist die Verfügbarkeit und die Zitierfähigkeit der OCR-Texte eine wichtige Voraussetzung für die Überprüfbarkeit wissenschaftlicher Ergebnisse. Dies bedeutet, dass die bestehende Archivierung eines Objektes mit seinen Struktur- und Metadaten sowie Images um OCR-Texte ergänzt werden muss.

Durch die intellektuelle Erschließung, durch Nachbesserungen, durch die Verbesserungen im OCR-Verfahren oder den Einsatz verschiedener OCR-Techniken entstehen verschiedene Versionen des gleichen Ausgangsmaterials, welche eine neue Herausforderung für die persistente Identifizierung und die Langzeitarchivierung darstellen. Diese Problemstellung enthält Aspekte im Zusammenhang mit dem Forschungsdatenmanagement und erfordert auch die Prüfung von Methoden und Strategien für den Umgang mit Forschungsdaten.

Die oben genannten Anforderungen müssen konzeptionell aufbereitet, in einen erweiterten Kontext integriert und als technische Lösung implementiert werden, um die Anforderungen der Datenhalter als auch die der Nutzer realisieren zu können. Basierend auf dieser Ausgangslage definiert dieses Vorhaben die notwendigen Schritte zur Realisierung einer Lösung für die Langzeitarchivierung und eine persistente Identifizierung von OCR-Texten.

Leitung / Koordination

Partnerinstitutionen

Projektleitung in der SUB Göttingen

Projektmitarbeiterinnen und -mitarbeiter in der SUB Göttingen

Am Projekt beteiligte Abteilungen bzw. Gruppen in der SUB Göttingen