Arbeitsablauf

Die Herstellung kritischer digitaler Editionen unterliegt einem stetem Wandel, der mit häufiger Anpassung der Arbeitsmittel einhergeht. Da wir die meiste Zeit nur zu zweit an der Edition arbeiten, ist auch der informelle Austauch beständig da und es wird immer wieder eine kleinere Änderung vorgenommen, ohne dass diese anders als durch die Verwendung selbst dokumentiert würde. Eine Darstellung des Arbeitsablaufs kann somit nur eine Momentaufnahme sein, obgleich wir uns bemühen, sie aktuell zu halten und auch Änderungen im Zeitablauf zu dokumentieren. Der hier geschilderte Stand deckt die zweite Projektlaufzeit (2021–2024) ab; Adaptionen zur ersten Laufzeit werden weiter unten beschrieben.

Recherche

Die Recherche, welche Korrespondenzen aufgenommen werden, steht am Anfang der Arbeit und wird im Projektantrag festgehalten. Danach folgt die Abklärung der Rechte. Die Regelschutzfrist in Österreich beträgt 70 Jahre nach dem Tod, am 1. 1. des Folgejahres werden die Rechte an den Texten frei. In wenigen Fällen besitzen Nachkommen noch Rechte, die sie freundlicherweise zur Verfügung stellen. An Korrespondenzen, deren Rechte offen sind, beginnen wir nicht zu arbeiten.

Im Anschluss suchen wir einerseits im Nachlass Schnitzlers nach Briefen, andererseits in verschiedenen anderen internationalen Archiven, Bibliothekskatalogen, Antiquariatsangeboten und Verzeichnissen. Besonders hilfreich ist der Kalliope Verbundkatalog.

Im nächsten Schritt beziehen wir die Faksimiles, wobei wir uns mit zwei Nachlässigkeiten abfinden: Wir lassen uns die Bilder so liefern, wie die Institutionen das herkömmlich tun und geben keine eigenen Vorgaben bezüglich Farbprofil, Farbkarte, Dateiformat etc. Bislang sind uns keine erkennbaren Nachteile daraus erwachsen. Und wir bitten um eine Gesamtaufnahme des Blattes, leere Rückseiten sind aber wegzulassen. Letzteres hat ausschließlich pekuniäre Gründe.

Sofern sich auf einem Faksimile zwei Seiten auf einem Blatt finden, teilen wir das Faksimile mit einem ImageMagick-Skript in zwei Teile mit einer Überlappung von 5%. Das garantiert, dass die Schnittkante gut zu erkennen ist.

Transkribus

Es folgt der Import der Faksimiles in Transkribus, was mit jedem FTP-Programm (beispielsweise Forklift) schnell und einfach geschieht. Transkribus ist eine in Innsbruck entwickelte Plattform zur automatischen Texterkennung nicht nur von gedruckten Texten, sondern auch von Handschriften. Die App ist kostenlos und kommt mit einem bestimmten Freikontingent. Bei der Menge, mit der wir es zu tun haben, sind aber (keine sehr hohen) Kosten einzukalkulieren. In Transkribus erstellen wir für jeden Verfasser, jede Verfasserin eine Collection. Üblicherweise sind dann mehrere Briefe eines Schreibers, einer Schreiberin in einer Collection in einem Dokument, beispielsweise alle Objekte von Schnitzler aus dem Jahr 1899. Noch verwenden wir den Desktop-Client von Transkribus, sind uns aber bewusst, dass der Umstieg auf die Web-App schon begonnen hat. Wann wir nachziehen, ist vor allem eine Frage der Verfügbarkeit von Features bzw. wenn die lokale App nicht mehr unterstützt wird. Momentan kann beides parallel benützt werden.

In Transkribus lassen wir eine automatische Zeilenerkennung laufen, die wir händisch nachkorrigieren. Das ist eine etwas mühselige Arbeit, die aber für die folgenden Schritte relevant ist. Im Normalfall wenden wir nämlich eine automatische Texterkennung an, zuerst mit einem der angebotenen Standardmodelle von Transkribus. Den erkannten Text korrigieren wir händisch, indem wir Zeile für Zeile durchgehen. Haben wir zumindest 30 Seiten einer Handschrift entziffert, trainieren wir ein eigenes Handschriftenmodell. Damit lassen wir die nächsten Seiten erkennen. In unregelmäßigen Intervallen trainieren wir so fortlaufend das HTR-Modell neu. Wenn es verlässlich funktioniert, stellen wir das Modell frei zur Verfügung, wie hier: HTR Paul Goldmann und HTR Felix Salten.

In Transkribus benutzen wir außerdem bestimmte Tags, die teilweise bereits von Haus aus vorhanden sind, teilweise aber auch erst von uns unter dem Namen der TEI-Elemente angelegt wurden. Die Tags nutzen wir, um bestimmte Textphänomene (z. B. Streichungen) und zu indizierende Stellen (z. B. Personennamen) zu markieren. Die Möglichkeit, bereits in Transkribus Normdaten einzugeben, benützen wir nicht. Neben den Tags verwenden wir das Symbol der Absatzmarke in der Symbolleiste, um zu markieren, wo ein neuer Absatz beginnt. Davon abgeleitet haben wir ein Element, <letter-begin/>, das wir in die erste Zeile eines neuen Briefes setzen, um einen Marker zu haben, wo jeweils eine neue Datei angelegt werden muss (jeder Brief wird in einer eigenen XML-Datei gespeichert).

Mit dem einmaligen Durcharbeiten eines Briefes und einem einmaligen Korrekturlesen steht üblicherweise die erste Abschrift.

Oxygen

Es folgt der Export. Um von Transkribus zu XML/TEI zu gelangen, ist eine Kaskade von XSL-Transformationen notwendig. Diese kann über eine GitHub-Action ausgeführt werden. In split-files-neu.xsl können davor bestimmte Parameter, die für alle zu exportierenden Briefe gelten (z. B. die Archivsignatur), gesetzt werden. Es ist aber meistens einfacher, die Transformationen lokal laufen zu lassen, da sich häufig noch ›&‹ oder ähnliche Sonderzeichen im Text finden, die bei der Umwandlung Probleme machen. Jedenfalls wird die exportierte METS-Datei zuerst mit dem im Oxygen-Projekt angelegten Transformationsszenario page2tei-1, das Ergebnis dann mit page2tei-2 umgewandelt. Nun stehen die Einzeldateien mit korrekten Dateinamen und IDs im Verzeichnis »editions«. Diese neuen Dateien werden dann mit page2tei-3 und back-element-hinzufuegen_facs-normalisieren weiter transformiert.

Das Ergebnis sind einzelne Briefdateien im Format XML, bei denen der <teiHeader/> schon weitgehend ausgefüllt ist. Die Dateien validieren noch nicht gegen das Schema und es gibt mehrere Probleme, die mit händischer Nacharbeit behoben werden müssen.

Wichtig ist im ersten Schritt, dass das Datum des Briefs (auch im Format ISO) im Element <correspAction type="sent"/> vermerkt wird. Schnitzlers Aufenthaltsorte können mit der Liste für schnitzler-orte durch eine Transformation automatisch bezogen werden. Das Empfangsdatum (<correspAction type="received"/>) wird, wenn nicht vorhanden, auf einen bestimmten Zeitraum geschätzt und ebenfalls automatisch ausgefüllt. Auch die Anpassung der Objektbeschreibung (Brief, Postkarte, Schreibmaterial, Stempel…) kann nun erfolgen. Ausführliche Kodierungsrichtlinien sind hier zu finden.

In einem weiteren Schritt werden die PMB-IDs der markierten Entitäten eingefügt – durchaus auch in mehreren Dateien gleichzeitig, indem beispielsweise folgender XPath alle Personen im Projekt auflistet, die noch keine Nummer aus der PMB haben: //rs[@type='person' and @ref='' or not(@ref)]. Jederzeit kann das Transformationsszenario back-element-hinzufuegen_facs-normalisieren erneut durchgeführt werden. Es zieht aus der PMB die erwähnten Entitäten und schreibt sie in ein <back/>-Element. Hier finden auch schon Überprüfungen statt, etwa ob eine Personennummer für ein Werk verwendet wurde: <rs type="work" ref="#pmb2121"/> würde einen Fehler zeigen, weil die ID für Arthur Schnitzler für ein Werk verwendet wurde.

Nun können die Korrespondenzstücke bereits auf die Webseite geladen werden, ihr Entwurfszustand ist aber noch deutlich erkennbar. Zuerst werden die Briefe automatisch aus dem Arbeitsrepositorium in das Repositorium für die Webseite, schnitzler-briefe-data, kopiert. Das geschieht über eine GitHub-Action. Dieser Import bearbeitet den ›whitespace‹, indem alles, was mehr als ein einzelnes Leerzeichen ist, auf ein Leerzeichen reduziert wird. Und aus den in den ursprünglich angelegten Dateien expliziten Lang-s-Vorkommen (z. B. »Muſe«) werden Elemente (z. B. »Mu<c rendition="#langeS">s</c>e«), um sicherzustellen, dass die Suche auch mit ›s‹ funktioniert. Danach holt eine weitere GitHub-Action die neuen Dateien auf die Webseite.

Die Website basiert auf dem DSE-Static-Cookiecutter, die unter der Leitung von Peter Andorfer entwickelte Vorlage für statische Editionen. XSLTs transformieren die TEI-Dateien in HTML-Darstellungen um. Dadurch kann auf eine eigene Datenbank verzichtet werden. Für die Suche kommt Typesense zum Einsatz.

Es folgen mehrere Sichtungen den Korrespondenzstücke. Dafür rechnen wir mit den beiden Transformationen einzel-1-remove-namespaces.xsl und einzel-6-korrektur-nach-TeX.xsl PDFs der Briefe in kritischer Ansicht. Die TeX-Dateien finden sich in einem eigenen Repositorium, schnitzler-briefe-tex, und liefern eine Korrekturansicht als PDF, in dem auch die vorkommenden Entitäten ausgewiesen sind. (Eine mehr oder weniger analog erstellte Variante ist die Leseansicht, bei der die PDFs ohne farblich hervorgehobene Entitäten erstellt werden.)

Die Sichtungen erfolgen in Schritten, ein Minimalfall besteht aus vier Schritten:

  • Transkription des Textes in Transkribus
  • Händische Nachbearbeitung der exportierten XML-Datei, Blick auf das Faksimile notwendig
  • Kollationierung (Abgleich) von Korrektur-PDF und Faksimile auf der Webseite; die Indizierung muss separat als gesichtet erwähnt werden
  • Ein anderes Teammitglied nimmt eine abschließende Lektüre des Textes vor, nunmehr nur im Ausnahmefall mit Blick auf das Faksimile

Oft genug kommt es zu mehreren Sichtungsvorgängen.

Archivierung

Am Projektende landen alle Korrespondenzstücke geschlossen in der Langzeitarchivierung ARCHE der Österreichischen Akademie der Wissenschaften und sollten so noch auf Jahrzehnte hinaus verfügbar sein.

Adaption von Projekt 1 zu Projekt 2

In der ersten Laufzeit wurde Transkribus noch nicht verwendet. Stattdessen haben wir die Korrespondenzstücke direkt im Oxygen XML Editor mit Vorlagen angelegt. Die Webseite war auf eXist-db aufgebaut, was etwas mühsamer zu erstellen war und auch nicht nachhaltig, da nicht sichergestellt werden konnte, dass Server-Updates nicht zu einem Absturz der ganzen Seite führten. Die nunmehr praktizierte Lösung mit einer statischen HTML-Seite ist zwar deutlich ausführlicher (›verbose‹), sollte aber, vor allem weil nicht mehr auf eine Datenbank zurückgegriffen werden muss und die aktive Entwicklung abgeschlossen ist, deutlich länger halten.