Laufzeit 01.01.2023-31.12.2023

Das Projekt "Modellierung von Texteditionen als Linked Data (edition2LD)" ist ein Kooperationsprojekt der NDFI Text+ (externer Link).
Editionen als Linked Data
Wissenschaftliche Texteditionen stellen aufgrund vielfältiger Faktoren in Hinblick auf die sekundäre, übergreifende Auswertung und ihre Nachnutzbarkeit eine große Herausforderung dar. Auf inhaltlicher Ebene umfassen sie zumeist unterschiedliche inhaltliche, zeitliche und geographische Ausrichtungen oder unterschiedliche Sprachen, darüber hinaus nicht selten historische Sprachstufen ohne Schreibnorm und schließlich unterschiedliche Schriftsysteme. Die Präsentation dieser bereits vielfältigen Forschung erfolgt zudem in unterschiedlichen Kombinationen von Editionstext, Kommentar, Übersetzung, Faksimiles u.a. Hinzu kommt die technische Datenerhebung und -verarbeitung. Die Daten liegen oftmals in unterschiedlichen Systemarchitekturen und Datenmodellen vor - beispielweise in Insellösungen / Datensilos mit Zugänglichkeit im WWW.
Während der Projektlaufzeit sind die erarbeiteten Daten überdies veränderlich (“hot data”). Daten-Updates und Versionierungen müssen bei der (Multi-Channel-)Publikation berücksichtigt werden. Erst die Langzeitarchivierung der Daten nach Projektabschluss (“cold data”) garantiert die Unveränderlichkeit der Daten.
Eine langfristige Zugänglichmachung von Forschungsdaten bleibt dennoch ein wichtiges Element wissenschaflticher Forschung und fordert dazu auf, Lösungsansätze für diese vielschichtigen Probleme der Datensicherung zu entwicklen. Dabei muss nicht zuletzt darauf geachtet werden, Workflows zu erarbeiten, die zugleich Abläufe und Zeitplanung der inhaltlichen Arbeiten in den Forschungsprojekten nicht beeinträchtigt.
Das Projekt
Das Projekt "edition2LD" arbeitet an einer Lösung für eine Datenkuratierung, die die heterogenen Daten über Ressourcen, Sprachen und Sprachstufen, Datentypen und -formate hinweg interoperabel und zugreifbar macht. Diese muss zugleich stabil genug für eine langfristige Perspektive und zugleich flexibel genug für die Heterogenität der Daten sein. Darüber hinaus muss sie die Daten der eigenen Institution nahtlos in internationale Forschungskontexte und Zugriffsmöglichkeiten integrieren können. Für die Lösung folgen die Forschenden dem Paradigma von Linked Data und der Integration der Daten ins Semantic Web.
Die Idee von edition2LD ist es, anhand bestehender Projektdaten aus der Forschungsstelle „Religions- und rechtsgeschichtliche Quellen des vormodernen Nepal“ (interner Link) der Heidelberger Akademie der Wissenschaften einen Workflow zu erarbeiten, der mit maximal automatisierten Prozessen Editionen in Form von RDF-Tripeln abbildet. Dieser Workflow soll generisch genug sein, um die zukünftige Übertragbarkeit auf weitere Projekte vorzubereiten. Zugleich soll er in der Lage sein, um – wiederholt angestoßen – Daten chargenweise in RDF zu überführen und damit auf die große Herausforderung der veränderlichen “hot data” zu reagieren. Bei der Erarbeitung der automatisierten Abbildungsprozesse ist es daher immens wichtig, den Schritt einer sicherlich in der einen oder anderen Weise nötigen, händischen Nachbearbeitung zu minimieren, im besten Fall soweit, dass er nur einmal, nämlich wenn die Daten keiner Veränderung mehr unterliegen, durchgeführt werden muss.
Einen durchgehend bereits auf Linked Data aufbauenden Ansatz verfolgt das Projekt „Sprachdatenbasierte Modellierung von Wissensnetzen in der mittelalterlichen Romania – ALMA“ (interner Link), das als interakademisches Projekt der HAdW, BAdW und der AdW Mainz am 1. August 2022 im Akademienprogramm gestartet ist. Da ALMA Texteditionen (hier von mittelalterlichen Rechts- und Medizintexten) erarbeitet, lässt sich auch dieser Datenbestand gut für einen edition2LD-Ansatz einsetzen.