Anleitung zum Gebrauch der Tags

Motivation

Die Texte werden zum Zweck der Wortlängenanalyse bearbeitet. Damit automatisiert Silben gezählt werden können, müssen diverse Ersetzungen durchgeführt werden. Damit die Änderungen nachvollziehbar bleiben, wurden am Anfang des Projekts nicht zu analysierende Textteile in eckige Klammern ([]) gestellt und gegebenenfalls ein Ersatztext eingefügt. Ersatzlos eingeklammert wurden zum Beispiel fremdsprachige Passagen, ersetzt wurden Abkürzungen und ähnliches.

Mit wenig zusätzlichem Aufwand kann erreicht werden, daß analysefertige Texte Informationen enthalten, warum eine bestimmte Passage ausgeklammert wurde und durch was sie ersetzt wurde. Damit können bei Bedarf bestimmte Ersetzungen und Auslassungen rückgängig gemacht werden, um Texte unter anderen Gesichtspunkten zu analysieren.

Der Tagging-Mechanismus wurde unter pragmatischen Gesichtspunkten entworfen.

Aus diesen Gründen wurde davon Abstand genommen, eines der vorhanden SGML- oder XML-Schemas wie TEI zu verwenden. Stattdessen wurde eine einfache Markup-Syntax und ein erweiterbarer Satz von Tags definiert.

Syntax

Alle Teile des Files, die nicht in die Analyse einfließen sollen, werden in eckige Klammern ([]) gesetzt.

Das erste Wort (der "Tag") nach der &ooml;ffnenden Klammer gibt den Grund der Klammerung an. Gültige Tags stehen in der nachfolgenden Liste. Der Rest bis zur schließenden Klammer ist der Originaltext, der nicht analysiert werden soll.

Wenn statt dem ausgeklammerten Textteil ein Ersatztext analysiert werden soll, wird dieser im Anschluß an die schließende Klammer geschrieben. Das Ende des substituierten Texts wird durch ein leeres Klammernpaar ([]) markiert. (Durch das Markieren des Endes des Ersatztextes kann der Originaltext wieder eingefügt werden)

Wenn nur ausgeklammert wird und kein Ersatztext eingefügt wurde, entfällt das leere Klammernpaar.

Im Original vorhandene öffnende eckige Klammern ([) bekommen einen umgekehrten Solidus (Backslash; \) vorangestellt.

Zweck der Klammerung ist, eine für die Analysen des Projekts verwendbare Textversion zu erstellen. Die Tags sind also nicht vollständig; es wird insbesondere innerhalb von ausgeklammerten Passagen teilweise nicht weiter getaggt, wenn die Passagen nicht zum Kerntext gehören.

Beispiele für Klammerungen:

Verzeichnis der Tags


Gruppe 1

eko Nicht vom Autor selbst geschriebener externer Kommentar (Vorwort, redaktionelle Bemerkung, Fußnote des Herausgebers) Siehe auch iad, welches vom Autor stammt.
tit Titelüberschriften, Kapitelüberschriften, Überschriften jeglicher Art und hierarchischer Ebene Nummerierungen der Überschriften werden getrennt mit num getaggt, nicht innerhalb des tit-Tags.
gln Gliederungsummerierungen wie Buchnummer, Kapitelnummer, Strophennummer, etc. (X., 3a, 10., Dritter Teil) Fußnotennummern werden mit tm getaggt.
epi Dem Text vor- oder nachgestellte Texteinheiten (Epilog, Prolog)
iad Interne Addenda (Motti, Fußnoten, Endnoten, Anreden in Briefen, Grußformeln in Briefen, Ortung und Datum in Briefen, Angabe von Autor, Gutachter und Betreuer von Diplomarbeiten, Jahreszahlen bei Gedichten, etc.) Innerhalb von Ortung und Datum in Briefen und Fußnoten braucht nicht weiter getaggt werden. Bei Briefen wird das Postscriptum nicht getaggt, da es Bestandteil des Textes ist.
tsf Textsortenfremde Passagen (z.B. Gedicht am Anfang, am Ende oder innerhalb eines Romans, Brief innerhalb eines Romankapitels) Nicht bei Epilogen, Würdigungen oder ähnlichem (warum? nicht erklärt in Originaldokument!)
tm Textmarkierungen (Fußnotenmarker, Endnotenmarker, Seitenzahlen, grafische Trennzeichen
att Autortexttyp vom Autor selbst vorgegebene Textklassifikation, zum Beispiel "Ballade" als Untertitel einer Ballade)

Gruppe 2

nam Eigennamen abgekürzte Namen nach Möglichkeit ersetzen, sonst ausklammern. Nur fremdsprachige Eigennamen werden getaggt.
yea Jahreszahlen (z.B. 1973) im laufenden Text In eko, iad wird nicht weiter getaggt – zum Beispiel Datumsangaben in Briefen werden also nicht weiter bearbeitet.

Gruppe 3

abk Abkürzungen (etc. usw.)
apo Ausgeklammerter Apostroph Apostrophen zur Markierung eines Vokalausfalls innerhalb von Worten würden eine künstliche Wortgrenze hervorrufen – ausgeklammert also aus technischen Gründen
dig Zahlen (23., 70%)
acr Akronym (LKW) flektierte Akronyme werden lautmalerisch umschrieben (EU-a → eua) – Achtung: Bindestriche, Apostrophen etc. sind Wortenden, müssen also aus dem Ersatztext entfernt werden.
ono Onomatopöien (Hmm, Hiii, ...) mit oder ohne Ersatztext Im Lexikon auffindbare Worte ("Hiiilfe!") werden mit Ersatztext getaggt, reine Lautmalereien ("Brrr!") bekommen keinen Ersatztext; nicht getaggt werden Interjektionen (Ach, Pfui)

Gruppe 4

fl_xx Fremdsprachiges Element mit Sprache xx Sprachenkürzel:
de Deutsch
fr Französisch
en Englisch
hu Ungarisch
it Italienisch
la Latein
ru Russisch
cro Kroatisch
ser Serbisch
slo Slowenisch
gr Griechisch
rut Russisch Transliteriert
es Spanisch
nl Niederländisch
cz Tschechisch
00 unbekannt
Fremdsprachige Passagen > 3 Wörter werden ohne Ersatztext eingeklammert.