Die Herstellung kritischer digitaler Editionen unterliegt einem stetem Wandel, der mit häufiger Anpassung der Arbeitsmittel einhergeht. Da wir die meiste Zeit nur zu zweit an der Edition arbeiten, ist auch der informelle Austauch beständig da und es wird immer wieder eine kleinere Änderung vorgenommen, ohne dass diese anders als durch die Verwendung selbst dokumentiert würde. Eine Darstellung des Arbeitsablaufs kann somit nur eine Momentaufnahme sein, obgleich wir uns bemühen, sie aktuell zu halten und auch Änderungen im Zeitablauf zu dokumentieren. Der hier geschilderte Stand deckt die zweite Projektlaufzeit (2021–2024) ab; Adaptionen zur ersten Laufzeit werden weiter unten beschrieben.
Die Recherche, welche Korrespondenzen aufgenommen werden, steht am Anfang der Arbeit und wird im Projektantrag festgehalten. Danach folgt die Abklärung der Rechte. Die Regelschutzfrist in Österreich beträgt 70 Jahre nach dem Tod, am 1. 1. des Folgejahres werden die Rechte an den Texten frei. In wenigen Fällen besitzen Nachkommen noch Rechte, die sie freundlicherweise zur Verfügung stellen. An Korrespondenzen, deren Rechte offen sind, beginnen wir nicht zu arbeiten.
Im Anschluss suchen wir einerseits im Nachlass Schnitzlers nach Briefen, andererseits in verschiedenen anderen internationalen Archiven, Bibliothekskatalogen, Antiquariatsangeboten und Verzeichnissen. Besonders hilfreich ist der Kalliope Verbundkatalog.
Im nächsten Schritt beziehen wir die Faksimiles, wobei wir uns mit zwei Nachlässigkeiten abfinden: Wir lassen uns die Bilder so liefern, wie die Institutionen das herkömmlich tun und geben keine eigenen Vorgaben bezüglich Farbprofil, Farbkarte, Dateiformat etc. Bislang sind uns keine erkennbaren Nachteile daraus erwachsen. Und wir bitten um eine Gesamtaufnahme des Blattes, leere Rückseiten sind aber wegzulassen. Letzteres hat ausschließlich pekuniäre Gründe.
Sofern sich auf einem Faksimile zwei Seiten auf einem Blatt finden, teilen wir das Faksimile mit einem ImageMagick-Skript in zwei Teile mit einer Überlappung von 5%. Das garantiert, dass die Schnittkante gut zu erkennen ist.
Es folgt der Import der Faksimiles in Transkribus, was mit jedem FTP-Programm (beispielsweise Forklift) schnell und einfach geschieht. Transkribus ist eine in Innsbruck entwickelte Plattform zur automatischen Texterkennung nicht nur von gedruckten Texten, sondern auch von Handschriften. Die App ist kostenlos und kommt mit einem bestimmten Freikontingent. Bei der Menge, mit der wir es zu tun haben, sind aber (keine sehr hohen) Kosten einzukalkulieren. In Transkribus erstellen wir für jeden Verfasser, jede Verfasserin eine Collection. Üblicherweise sind dann mehrere Briefe eines Schreibers, einer Schreiberin in einer Collection in einem Dokument, beispielsweise alle Objekte von Schnitzler aus dem Jahr 1899. Noch verwenden wir den Desktop-Client von Transkribus, sind uns aber bewusst, dass der Umstieg auf die Web-App schon begonnen hat. Wann wir nachziehen, ist vor allem eine Frage der Verfügbarkeit von Features bzw. wenn die lokale App nicht mehr unterstützt wird. Momentan kann beides parallel benützt werden.
In Transkribus lassen wir eine automatische Zeilenerkennung laufen, die wir händisch nachkorrigieren. Das ist eine etwas mühselige Arbeit, die aber für die folgenden Schritte relevant ist. Im Normalfall wenden wir nämlich eine automatische Texterkennung an, zuerst mit einem der angebotenen Standardmodelle von Transkribus. Den erkannten Text korrigieren wir händisch, indem wir Zeile für Zeile durchgehen. Haben wir zumindest 30 Seiten einer Handschrift entziffert, trainieren wir ein eigenes Handschriftenmodell. Damit lassen wir die nächsten Seiten erkennen. In unregelmäßigen Intervallen trainieren wir so fortlaufend das HTR-Modell neu. Wenn es verlässlich funktioniert, stellen wir das Modell frei zur Verfügung, wie hier: HTR Paul Goldmann und HTR Felix Salten.
In Transkribus benutzen wir außerdem bestimmte Tags, die teilweise bereits von
Haus aus vorhanden sind, teilweise aber auch erst von uns unter dem Namen der
TEI-Elemente angelegt wurden. Die Tags nutzen wir, um bestimmte Textphänomene
(z. B. Streichungen) und zu indizierende Stellen (z. B. Personennamen) zu
markieren. Die Möglichkeit, bereits in Transkribus Normdaten einzugeben,
benützen wir nicht. Neben den Tags verwenden wir das Symbol der Absatzmarke in
der Symbolleiste, um zu markieren, wo ein neuer Absatz beginnt. Davon abgeleitet
haben wir ein Element, <letter-begin/>
, das wir in die erste
Zeile eines neuen Briefes setzen, um einen Marker zu haben, wo jeweils eine neue
Datei angelegt werden muss (jeder Brief wird in einer eigenen XML-Datei
gespeichert).
Mit dem einmaligen Durcharbeiten eines Briefes und einem einmaligen Korrekturlesen steht üblicherweise die erste Abschrift.
Es folgt der Export. Um von Transkribus zu XML/TEI zu gelangen, ist eine Kaskade von XSL-Transformationen notwendig. Diese kann über eine GitHub-Action ausgeführt werden. In split-files-neu.xsl
können davor bestimmte Parameter, die für alle zu exportierenden Briefe gelten
(z. B. die Archivsignatur), gesetzt werden. Es ist aber meistens einfacher, die
Transformationen lokal laufen zu lassen, da sich häufig noch ›&‹ oder
ähnliche Sonderzeichen im Text finden, die bei der Umwandlung Probleme machen.
Jedenfalls wird die exportierte METS-Datei zuerst mit dem im Oxygen-Projekt angelegten Transformationsszenario
page2tei-1
, das Ergebnis dann mit page2tei-2
umgewandelt. Nun stehen die Einzeldateien mit korrekten Dateinamen und IDs im
Verzeichnis »editions«. Diese neuen Dateien werden dann mit
page2tei-3
und
back-element-hinzufuegen_facs-normalisieren
weiter
transformiert.
Das Ergebnis sind einzelne Briefdateien im Format XML, bei denen der
<teiHeader/>
schon weitgehend ausgefüllt ist. Die Dateien
validieren noch nicht gegen das Schema und es gibt mehrere Probleme, die mit händischer Nacharbeit
behoben werden müssen.
Wichtig ist im ersten Schritt, dass das Datum des Briefs (auch im Format ISO) im
Element <correspAction type="sent"/>
vermerkt wird.
Schnitzlers Aufenthaltsorte können mit der Liste für schnitzler-orte durch eine Transformation automatisch bezogen werden.
Das Empfangsdatum (<correspAction type="received"/>
) wird,
wenn nicht vorhanden, auf einen bestimmten Zeitraum geschätzt und ebenfalls
automatisch ausgefüllt. Auch die Anpassung der Objektbeschreibung (Brief,
Postkarte, Schreibmaterial, Stempel…) kann nun erfolgen. Ausführliche
Kodierungsrichtlinien sind hier
zu finden.
In einem weiteren Schritt werden die PMB-IDs der markierten Entitäten eingefügt – durchaus auch in
mehreren Dateien gleichzeitig, indem beispielsweise folgender XPath alle
Personen im Projekt auflistet, die noch keine Nummer aus der PMB haben:
//rs[@type='person' and @ref='' or not(@ref)]
. Jederzeit kann
das Transformationsszenario
back-element-hinzufuegen_facs-normalisieren
erneut durchgeführt
werden. Es zieht aus der PMB die erwähnten Entitäten und schreibt sie in ein
<back/>
-Element. Hier finden auch schon Überprüfungen
statt, etwa ob eine Personennummer für ein Werk verwendet wurde: <rs
type="work" ref="#pmb2121"/>
würde einen Fehler zeigen, weil die
ID für Arthur Schnitzler für ein Werk verwendet wurde.
Nun können die Korrespondenzstücke bereits auf die Webseite geladen werden, ihr
Entwurfszustand ist aber noch deutlich erkennbar. Zuerst werden die Briefe
automatisch aus dem Arbeitsrepositorium in das Repositorium für die Webseite, schnitzler-briefe-data, kopiert. Das geschieht über eine GitHub-Action. Dieser Import bearbeitet den ›whitespace‹, indem
alles, was mehr als ein einzelnes Leerzeichen ist, auf ein Leerzeichen reduziert
wird. Und aus den in den ursprünglich angelegten Dateien expliziten
Lang-s-Vorkommen (z. B. »Muſe«) werden Elemente (z. B. »Mu<c
rendition="#langeS">s</c>e
«), um sicherzustellen, dass die
Suche auch mit ›s‹ funktioniert. Danach holt eine weitere GitHub-Action die neuen Dateien auf die Webseite.
Die Website basiert auf dem DSE-Static-Cookiecutter, die unter der Leitung von Peter Andorfer entwickelte Vorlage für statische Editionen. XSLTs transformieren die TEI-Dateien in HTML-Darstellungen um. Dadurch kann auf eine eigene Datenbank verzichtet werden. Für die Suche kommt Typesense zum Einsatz.
Es folgen mehrere Sichtungen den Korrespondenzstücke. Dafür rechnen wir mit den beiden Transformationen einzel-1-remove-namespaces.xsl und einzel-6-korrektur-nach-TeX.xsl PDFs der Briefe in kritischer Ansicht. Die TeX-Dateien finden sich in einem eigenen Repositorium, schnitzler-briefe-tex, und liefern eine Korrekturansicht als PDF, in dem auch die vorkommenden Entitäten ausgewiesen sind. (Eine mehr oder weniger analog erstellte Variante ist die Leseansicht, bei der die PDFs ohne farblich hervorgehobene Entitäten erstellt werden.)
Die Sichtungen erfolgen in Schritten, ein Minimalfall besteht aus vier Schritten:
Oft genug kommt es zu mehreren Sichtungsvorgängen.
Am Projektende landen alle Korrespondenzstücke geschlossen in der Langzeitarchivierung ARCHE der Österreichischen Akademie der Wissenschaften und sollten so noch auf Jahrzehnte hinaus verfügbar sein.
In der ersten Laufzeit wurde Transkribus noch nicht verwendet. Stattdessen haben wir die Korrespondenzstücke direkt im Oxygen XML Editor mit Vorlagen angelegt. Die Webseite war auf eXist-db aufgebaut, was etwas mühsamer zu erstellen war und auch nicht nachhaltig, da nicht sichergestellt werden konnte, dass Server-Updates nicht zu einem Absturz der ganzen Seite führten. Die nunmehr praktizierte Lösung mit einer statischen HTML-Seite ist zwar deutlich ausführlicher (›verbose‹), sollte aber, vor allem weil nicht mehr auf eine Datenbank zurückgegriffen werden muss und die aktive Entwicklung abgeschlossen ist, deutlich länger halten.