Technische Infrastruktur und Workflow


'Narragonien digital' entstand im Rahmen des Würzburger "Kallimachos"-Projekts in enger Zusammenarbeit von Kolleginnen und Kollegen der Germanistik, Romanistik, Informatik und Digital Humanities (siehe Projektgruppe). Die Webpräsentation wurde von Dominika Heublein, Yannik Herbst und Joachim Hamm erarbeitet und wird vom Zentrum für Digitalität und Philologie an der Universität Würzburg gehostet und technisch betreut (Ansprechpartner: Sina Bock, M.A.). Die digitalen Narrenschiffe sind Ergebnis eines mehrstufigen Workflows, der in weiten Teilen projektspezifisch konzipiert und durchgeführt werden musste. Denn die große Anzahl von 'Narrenschiff'-Texten und die Vielfalt des Buchlayouts und der zu bearbeitenden Sprachen ließen es nicht zu, ein Standardkonzept für digitale Editionen umzusetzen. Die vorliegende Dokumentation soll einen Einblick in die technische Umsetzung der Edition geben.





In einem ersten Schritt wurden zu den frühneuzeitlichen Druckausgaben, die das Textkorpus von 'Narragonien digital' bilden, Digitalisate beschafft. Zu fast allen Ausgaben bieten die großen Bibliotheken Europas in ihren Onlinekatalogen gute digitale Scans an, die für wissenschaftliche Zwecke frei verwendet werden können (siehe die Übersicht im Textkorpus). Da für die geplante Texterkennung eine sehr gute Scan-Qualität notwendig war, stellten uns darüber hinaus mehrere große europäischen Bibliotheken - an erster Stelle die UB Basel und die UB Würzburg - hervorragende Digitalisate ihrer 'Narrenschiff'-Exemplare zur Verfügung (siehe unsere Danksagung).
Der zweite Arbeitsschritt bestand in der halb-automatisierten Texterkennung (OCR) der Digitalisate. In der ersten Projektphase wurden mit Hilfe des Digitalisierungszentrums der UB Würzburg (Dr. Hans-Günter Schmidt) im Rahmen von "Kallimachos" große OCR-Fortschritte mit dem Programm "Tesseract" erzielt. Die Erkennungsgenauigkeit ließ sich durch die Umstellung auf OCR-Programme, die neuronale Netze verwenden, noch erheblich steigern. Das Programm OCR4all, das von Dr. Christian Reul (Zentrum für Philologie und Digitalität, Univ. Würzburg) in Zusammenarbeit u.a. mit "Narragonien digital" entwickelt wurde, bildet einen kompletten OCR-Workflow ab, von der Vorverarbeitung der zur bearbeitenden Bilddateien über die Segmentierung der Zeilen und Layoutzonen und die eigentliche Texterkennung bis hin zur Korrektur der erkannten Texte und der Erstellung werkspezifischer OCR-Modelle. Mit Hilfe von OCR4All konnte die Erkennungsgenauigkeit für die 'Narrenschiff'-Ausgaben auf bis zu 99,8% gesteigert werden, was die mühsame Texterfassung erheblich beschleunigte. OCR4all ist auf Github frei verfügbar und eignet sich als integrierter Workflow auch für nicht-Informatiker, die eine OCR durchführen wollen.
Die nunmehr als XML-Plaintext vorliegenden OCR-Texte wurden in ein Semantic MediaWiki gespeist, das von Martin Gruner, Maximilian Nöth und Jonathan Gaede konzipiert und betreut wurde (siehe Projektgruppe). Das Wiki diente als graphische, intuitiv benutzbare Oberfläche zur basalen kollaborativen Auszeichnung der OCR-Texte. Ohne direkt im Code zu arbeiten, zeichnete das Projektteam für alle 'Narrenschiffe' des Textkorpus (ins. über 4000 Druckseiten) die Kapitelstruktur und die Layoutzonen aus, fügte Registerverweise ein und verknüpfte die marginalen Quellenhinweise mit den jeweiligen Volltexten. Die frühneuhochdeutschen Sonderzeichen wurden nach dem MUFI-Standard in Unicode codiert. Zu ihrer Darstellung im Browser wird die Schriftart Junicode verwendet (ohne dass deren lokale Installation nötig wäre).
Die im Semantic MediaWiki erarbeiteten Textfassungen wurden im nächsten Arbeitsschritt in das Zielformat XML/TEI-P5 konvertiert. Hierzu wurde von Dr. Herbert Baier (Zentrum für Philologie und Digitalität, Univ. Würzburg) das Tool "Narragonien SMW analytics" programmiert, das die Wiki-Kodierungen auf Inkonsistenzen überprüft und in das TEI-Basisformat des 'Deutschen Textarchivs' konvertiert, das von CLARIN-D und der DFG als TEI-Format für historische Texte empfohlen wird. Ergebnis des automatisierten Exports sind wohlgeformte TEI-P5-Texte in einem Standard-TEI-Subset. Für das Projekt musste das Basisformat-Schema leicht abgewandelt und ergänzt werden. Sowohl die Transkription als auch der normalisierte Lesetext der 'Narrenschiffe' sind in einer einzelnen XML-Datei enthalten und werden mit den Elementen <reg> (normalisiert) und <orig> (Transkription) kodiert, welche sich in einem <choice>-Element befinden. Dieses hat in der Syntax des deutschen Textarchivs andere Funktionen. Da <choice> den TEI-Guidelines zufolge nicht innerhalb eines <div> stehen darf, wurde stattdessen der nahezu bedeutungsgleiche <ab> (anonymous block) verwendet. Auch dieser ist nicht Teil des deutschen Textarchivs. Dem Seitennummerierungsschema des deutschen Textarchivs wurde nicht gefolgt, da die 'Narrenschiff'-Inkunabeln die Lagenzählung verwenden. Durch den Export aus dem Wiki wurden hier zudem innerhalb eines Attributs @rend äußerliche Merkmale einer Seite vermerkt, jedoch nicht weiter in der Online-Präsentation verwendet.
Die TEI-Dateien wurden im Anschluss in eine XML-Datenbank "eXist-db" eingespeist. Eine vom Projektteam (Dominika Heublein, Yannik Herbst) entwickelte Applikation bündelt alle Komponenten, die für eine Webpräsentation der Daten notwendig sind (XQuery, Bootstrap, CSS, Javascript usw.). Die Webpräsentation auf http://www.narragonien-digital.de wurde in allen Teilen eigenständig vom Projektteam 'Narragonien digital' entwickelt und von Dominika Heublein, Yannik Herbst und Joachim Hamm programmiert. Die eXist-db wird auf den Servern des 'Zentrums für Philologie und Digitalität' an der Univ. Würzburg gehostet und verfügbar gehalten (Ansprechpartner: Sina Bock M.A.). Die TEI-Dateien stehen zum Download zur Verfügung, eine CC-Lizenz ermöglicht die freie wissenschaftliche Weiterverwendung unter Nennung der Urheber.