Textanalysen von hochspezialisierten Fachexperten und deren individuelle Anmerkungen (Annotationen) bilden als digitale Lexikographie die Grundlage hierfür. Mithilfe eigens entwickelter Verfahren der KI soll nun dieses oft punktuelle Expertenwissen auf eine große Menge historischer Dokumente der gleichen Art angewendet werden, und dabei auch neue „selbstlernende“ Erweiterungen ermöglichen.
Der Forschungsverbund unter Leitung von Prof. Dr. Anja Lobenstein-Reichmann an der Niedersächsischen Akademie der Wissenschaften arbeitet dabei eng mit der Georg-August-Universität und der Niedersächsischen Staats- und Universitätsbibliothek (SUB) unter der Leitung von Prof. Dr. Thomas Kaufmann und Prof. Dr. Bela Gipp zusammen. Gefördert wird das Projekt vom Niedersächsischen Ministerium für Wissenschaft und Kultur (MWK) mit rund 4,5 Millionen Euro über vier Jahre.
„EDIKILEX verbindet historische Lexikographie und Textedition mit hochmodernen KI-Sprachmodellen“, erklärt Prof. Dr. Bela Gipp, wissenschaftlicher Direktor an der SUB Göttingen und Lehrstuhlinhaber für Scientific Information Analytics. Jan Philip Wahle, Projektleiter in seiner Forschungsgruppe, ergänzt: „Unser Ziel ist ein KI-System, welches frühneuhochdeutsche Texte so erschließt, dass sie für Forschung und Lehre wesentlich zugänglicher und vergleichbarer werden.“
Die entwickelte Plattform ermöglicht, dass frühneuhochdeutsche Texte künftig automatisch in ihre sprachhistorische Bedeutung und Verwendung eingeordnet werden können. Forscher können dann z. B. schneller erkennen, wie ein Begriff im Laufe der Zeit variierte, in welchen Diskursen er auftauchte oder welche sozialgeschichtlichen Nuancen er trug.
So hatte etwa das Wort „Abenteuer“ eine Historie im Frühneuhochdeutschen: In manchen Texten begegnet es als „Abentheür“ oder “Abenteür”, was häufig eine ritterliche Bewährungsprobe oder ein Turnier meinte, oft verbunden mit der Idee eines risikoreichen Unternehmens. An anderen Stellen findet sich die Schreibweise „Abenthewer“, die eher eine Unrechtmäßigkeit oder Unsittlichkeit meint. Solche Schreibweisen- und Bedeutungsunterschiede zu erkennen und zuzuordnen, ist bislang nur durch händische Detailarbeit von Spezialisten möglich.
„Analysen über große Textmengen waren bislang kaum möglich, weil sie die Arbeit von hunderten Fachexperten erfordert hätten, um jede Wortbedeutung präzise zu erfassen und zu annotieren“, so Gipp und Wahle. Die in Göttingen entwickelte KI soll die Arbeit der Fachexperten bei der Erschließung frühneuhochdeutscher Texte erheblich beschleunigen und so historisches Wissen zugänglich machen, das andernfalls vermutlich verloren gegangen wäre.
