Research
    Projects
    QuanTA-Server
Publications
    Grapheme/Phoneme
    Syllable/Morpheme
    Word
    Sentence
    Text
    History
    Methodology
    Poetics/Stylistics
Activities
    Conferences
    Presentations
Contacts/Links
Persons

HOME
quanta@uni-graz.at

[Seite drucken]
counter by CountIT.ch

   

Einflussfaktoren auf die Wortlänge 

und ihre Häufigkeitsverteilung in

Texten slawischer Sprachen

Projekt-Skizze 2002

 (Peter Grzybek)

   

1. Problemstellung / Stand der Forschung

1.1. Wort und Text

Das 'Wort' ist neben dem 'Satz' eines der zentralen Elemente jeglicher Textkonstitution. Ungeachtet dieser zentralen Stellung des Wortes ist 'Wortlänge' eine Eigenschaft, die in der Theoriebildung der Sprach-, Literatur- und Textwissenschaft bis vor wenigen Jahren keine besondere Rolle gespielt hat. Erst mit dem Aufkommen einer synergetischen Linguistik ist u.a. auch den quantitativen Charakteristika des Wortes und seinen Wechselbeziehungen zu anderen Elementen der Textkonstitution zunehmend Beachtung geschenkt worden.

Freilich hat es – insbesondere im Zuge der strukturalistischen und informations­theoretischen Euphorie vor allem der 50er und 60er Jahre – eine Reihe von Ansätzen gegeben, quantitative Eigenschaften des Wortes z.B. für die Untersuchung autor- oder textsorten­spezifischer Stilistik in Betracht zu ziehen. In der Regel ist es dabei die mittlere Wortlänge gewesen, die als spezifisches Stilkriterium untersucht wurde – eine Vorschlag, den übrigens der englische Mathematiker und Logiker Augustus de Morgan (1806-71) bereits 1851 gemacht hatte. Natürlich ist dabei auch bedacht worden, dass Mittelwerte aufgrund von unterschiedlichen Häufigkeitsdaten zustande kommen und in unterschiedlichem Maße variieren können; entsprechend wurde in den einschlägigen Arbeiten zur sog. quantitativen Stilistik nicht nur die mittlere Wortlänge, sondern auch deren Varianz (Streuung) als spezifische Texteigenschaft untersucht. Dennoch wäre diesen Arbeiten aus heutiger Sicht zweierlei kritisch entgegenzuhalten: 

1. Bei Mittelwert und Varianz handelt es sich um zwei spezifische Maße der zentralen Tendenz, die einen durchaus richtigen, aber eingeschränkten Blick auf das gesamte Datenmaterial erlauben. Außer acht bleibt hier nämlich die (detaillierter zu beantwortende) Frage, wie genau diese beiden Maße zustande kommen, d.h. aus welchen einzelnen Häufigkeiten sie sich in einer jeweils spezifischen Form zusammensetzen – dies führt zur Untersuchung der Häufigkeitsverteilung von Wortlängen (s.u.).

2. Häufig wurden nicht Eigenschaften (wie Mittelwert und Varianz) einzelner Texte, sondern mehrerer Texte bzw. Textgruppen oder sogar ganzer Text­korpora untersucht. In der (wie wir heute wissen) irrigen Annahme, durch die Akkumulation möglichster vieler Texte (sei es einer Sprache, eines Autors, einer Gattung, o.ä.) könne man sich einer bestimmten "Norm" annähern, wurde die Tatsache verdrängt, dass jeder Text ein jeweils spezifisches (individuelles) Resultat einer Textproduktion ist, die durch bestimmte sprach­liche und/oder sprachpsychologische Regularitäten gesteuert wird. Aus diesem Grund hat sich in der Quantitativen Linguistik in der letzten Zeit die Annahme durchgesetzt, dass es in der Sprache keine Textgesamtheit gibt, die homogen genug wäre, um konstante Parameter zu haben. In der Quantitativen Linguistik hat man deshalb in jüngerer Zeit die Untersuchung solcher Text-Mischungen (bzw. "Quasi-Texte") aufgegeben und die Ausrichtung auf eine Statistik der Sprache zugunsten einer Statistik der Rede aufgegeben (Orlov 1982). Insofern gilt auch für Wortlängenhäufigkeiten, dass diese von so vielen lokalen (d.h. Autor-, Stil-, Textsorten- u.a.) Faktoren beeinflusst sind, "dass es völlig illusorisch wäre, von einer Häufigkeit des Wortes in der Sprache zu sprechen“ Altmann (1992: 287).

Aus diesem Grunde ist in den vergangenen Jahren die Frage nach der Häufigkeitsverteilung von Wortlängen in einzelnen Texten (einer Sprache, einer Textsorte, usw.) in den Vorder­grund gerückt, und in diesem Zusammenhang ist erstmals auch eine eigentliche Theorie der Verteilung von Wortlängenhäufigkeiten in Texten entwickelt worden.

1.2. Methodologische Implikationen der Untersuchung von Wortlängenhäufigkeiten

 Am Anfang der Untersuchung von Wortlängenhäufigkeiten steht der russische Mediziner S.G. Čebanov. Er schlug in den 40er Jahren ein allgemeines Modell vor für die Verteilung der Häufigkeiten, mit denen Wörter verschiedener Längen in Texten indoeuropäischer Sprachen vorkommen; hierbei handelte es sich um die sog. Poisson-Verteilung. Zu derselben Annahme gelangte in den 50er Jahren auch der deutsche Physiker Wilhelm Fucks. In Anerkennung dieser Vorarbeiten sprach man in der Folge von der sog. Čebanov-Fucks'schen Verteilung; gleichzeitig aber wurde darauf hingewiesen, dass diese nicht als ein Universalgesetz zur Beschreibung von grundlegenden Eigenschaften des Bildungsprozesses sprachlicher Einheiten angesehen werden könne (Piotrovskij et al. 1977). So wurde das von Fucks noch als "allgemeines Gesetz der Bildung von Wörtern aus Silben" bezeichnete Modell 1982 von Grotjahn verallgemeinert; er wies nach, dass das von Fucks vorgeschlagene Modell nur ein Spezialfall der aus einem stochastischen Prozess abgeleiteten verschobenen Poisson-Verteilung ist. In den empirischen Untersuchungen von Grotjahn erwies sich diese Verteilung zumindest für deutsche Texte als inadäquat zur Modellierung der Wortlängenhäufigkeiten; als passend hingegen stellte sich eine andere Verteilung, nämlich die negative Binomial-Verteilung, heraus. 

Im Anschluss an eine grundlegende Erörterung methodologischer Probleme der Wortlängenmodellierung von Grotjahn/Altmann (1993) entwickelten Altmann, Grotjahn, Köhler und Wimmer (Wimmer et al. 1994; Wimmer/Altmann 1996; Wimmer et al. 1999) einen vollkommen neuen Ansatz zur Erforschung von Wortlängenhäufigkeiten. Hierbei handelt es sich um ein flexibles System von Verteilungen. Die Grundidee besteht darin, dass die jeweils benachbarten Wahrscheinlichkeitsklassen gemäss einer einfachen Proportionalitätsbeziehung miteinander verbunden sind: 

Px ~ Px-1

d.h. die Anzahl der zweisilbigen Wörter in einem Text steht in spezifischer Relation zur Anzahl der einsilbigen Wörter dieses Textes, die Anzahl der dreisilbigen in Relation zur Anzahl der zweisilbigen, usw. Das Verhältnis zwischen den Längenklassen erweist sich dabei nicht als konstant, sondern lässt sich als Funktion verstehen: 

Px = g(x)Px-1

In Abhängigkeit davon, welche konkrete Form g(x) annimmt, kommt man zu unterschiedlichen Verteilungsmodellen. Die Untersuchung dieser Verteilungsmodelle ist insofern von Bedeutung, als sie Einsichten in die Regularität sprachlicher Prozesse und in die gesetzmäßig organisierte Struktur von Texten (Textgruppen, Textsorten) erlaubt, wobei derzeit nur vermutet werden kann, dass auch nicht-sprachliche Texte (der Musik, der Malerei, u.a.) entsprechend organisiert sind (Grzybek 2001a). Jedenfalls stellt die Anwendung mathematisch-statistischer Modelle und Methoden im Bereich der Textwissenschaften eine Möglichkeit dar, die in allerjüngster Zeit erneut eingeklagte (de facto schon 1971 von C.F. von Weizsäcker geforderte) Bezugnahme auf sog. "Strukturwissenschaften" zu realisieren. Dies beinhaltet u.a. die Option, 

a. die immer wieder strategisch beschworene methodologische Eigenartigkeit von Geistes- und Naturwissenschaften in Frage zu stellen und so den Mythos der "zwei (bzw. drei) Kulturen" ad absurdum zu führen,

b. den Transformationsprozess von Geistes- zu Kulturwissenschaften voranzutreiben, welche "die Natur" nicht nur als Thema oder Konstrukt verstehen, sondern auch die Konvergenzen von 'Kultur' und 'Natur' zu ihrem Gegenstand machen und ent­sprechend methodologisch untersuchen (vgl. zu dieser Diskussion Grzybek 2000).

 

1.3. Das Forschungsvorhaben im Kontext des Forschungsstandes

Auf der Grundlage der dargelegten theoretischen Überlegungen zur Verteilung von Wortlängenhäufigkeiten sind in den vergangenen Jahren Untersuchungen an Texten mehrerer Dutzend Sprachen durchgeführt worden. Die Ergebnisse dieser Untersuchungen werden im sog. "Göttinger Projekt" zusammengeführt und dokumentiert; die entsprechenden bibliographischen Arbeiten werden laufend per Internet (http://www.gwdg.de/~kbest/projekt.htm) aktualisiert. In diesen Untersuchungen hat sich im wesentlichen die theoretische Annahme bestätigt, dass die Verteilung von Wortlängenhäufigkeiten in der Tat nicht zufällig, sondern gesetzmäßigen Charakters ist, wobei sich die zu beobachtenden Regularitäten aus dem oben beschriebenen stochastischen Ansatz ableiten lassen. Abgesehen von der Bestätigung dieser allgemeinen Tendenz hat sich allerdings in den bislang vorliegenden Arbeiten gezeigt, dass

  1. die zu beobachtenden Regularitäten nicht universal gültig sind, d.h. in verschiedenen Sprachen kommen verschiedene Modelle zur Anwendung;

  2. nicht nur verschiedene Modelle für Texte verschiedener Sprachen in Betracht zu ziehen sind; darüber hinaus reicht nur selten ein einziges Modell für eine einzige Sprache aus, insofern autorspezifische, texttypologische, sprach­historische o.a. Faktoren zu spezifischen Modifikationen führen (können). 

An diesen Stand der Forschung knüpft das Forschungsvorhaben an:

An drei slawischen Sprachen – dem Russischen, dem Slowenischen und dem Kroatischen – sollen systematisch mögliche Einflussfaktoren auf die Wortlänge und deren Häufigkeitsverteilungen in Texten untersucht, sowie auf dieser Grundlage Möglichkeiten der Textgruppierung bzw. Textzuordnung untersucht werden.

 

1.4. Zum Status slawischer Sprachen

Über die Verteilung von Wortlängenhäufigkeiten in slawischen Sprachen ist insgesamt bislang nur sehr wenig bekannt; so resümiert jüngst auch Best (2001: 22): "Die Untersuchung von Wortlängenverteilungen in Texten slawischer Sprachen verdient es, auf eine breitere Basis gestellt zu werden". Deutlich wird dies am Russischen, bei dem es sich – relativ gesehen – noch um die am besten untersuchte slawische Sprache handelt (zum Slowenischen und Kroatischen gibt es außer einigen vorbereitenden Arbeiten des Projektwerbers überhaupt keine Untersuchungen). Denn zum Russischen gibt es gerade einmal fünf Untersuchungen, zum großen Teil in Form von studentischen Seminar- oder Staatsexamensarbeiten, in denen insgesamt ca. 160 Texte untersucht wurden; bei dieser Anzahl von Texten handelt es sich um nicht weniger als drei verschiedene Textsorten (Briefe, Gedichte, Erzählungen), von drei verschiedenen Autoren – mitsamt Schriftsteller (Puškin, Majakovskij, Tvardovskij) – aus drei verschiedenen literaturhistorischen Epochen (Anfang 19. bis Mitte 20. Jhd.). Es liegt auf der Hand, dass bei dieser Anzahl von Texten und Variablen keine zuverlässigen Aussagen getroffen werden können. 

Autor

Textsorte 

Verfasser

Puškin

53 Briefe

Stitz 1994

Majakovskij

30 Briefe

Culp 1994

31 Gedichte und 7 literarische Erzählungen versch. Autoren

Girzig 1997

Tvardovskij

20 Briefe

Best/Zinenko 1998

Tvardovskij

20 Gedichte

Best/Zinenko 2001

 Ungeachtet dessen sind als Ergebnis der bisherigen Untersuchungen zwei das Russisch vermeintlich charakterisierende Verteilungsmodelle diskutiert worden (die sog. Hyperpoisson-Verteilung und die erweiterte positive Binomialverteilung), abhängig davon, ob die null­silbigen Wörter des Russischen (в доме, к нему) als eigenständige Wortklasse oder aber als Proklitika behandelt wurden (was in den genannten Arbeiten nicht einheitlich gehandhabt wurde!). 

Inwiefern autorspezifische, textsortenspezifische oder sprachhistorische Faktoren einen Einfluss auf die Wortlänge und ihre Verteilung in Texten haben, ist in diesen Arbeiten nicht untersucht worden. Insofern trifft die Einschätzung von Best/Zinenko (1998: 8) vollauf zu: "Es besteht also ein großer Bedarf nach weiteren solchen Untersuchungen zum Russischen, da damit zu rechnen ist, dass je nach Verfasser, Textsorte und Epoche unterschiedliche Verteilungen von Wortlängenhäufigkeiten vorkommen."

1.5. Zur Untersuchung möglicher Einflussfaktoren

An diesem Punkt setzt die zweite zentrale Fragestellung des Forschungsvorhabens an. Denn die Frage, um welche Faktoren es sich handelt, die auf die Verteilung von Wortlängenhäufigkeiten einwirken (und wie diese aufeinander einwirken), ist bislang an noch keiner Sprache einer systematischen Forschung unterzogen worden. Insofern ist auch die Frage nach einer möglichen "Hierarchie" der Einflussfaktoren derzeit nicht zu beantworten, so etwa die Frage, wie groß die Möglichkeit der individuellen Variation innerhalb einer Textsorte ist, u.a.m.

Die Erwägung, dass der Einfluss autorspezifischer, textsortenspezifischer und/oder sprachhistorischer Faktoren zu unterschiedlichen Verteilungsmodellen in den Texten einer Sprache führt, ist theoretisch plausibel. Sollte sich diese Annahme bestätigen, wäre in der Folge zu überlegen, inwiefern sich die gegebenenfalls als relevant erweisenden Modelle für die gegebene Sprache auf ein gemeinsames, übergeordnetes Modell zurückführen und als dessen spezifische Modifikationen interpretieren lassen. 

Allerdings ist die Annahme, dass die genannten Faktoren zu jeweils unterschiedlichen Verteilungsmodellen führen, nicht die einzig mögliche: Ebenso möglich ist es, dass sich Faktoren wie die genannten nicht auf das Verteilungsmodell auswirken, sondern lediglich eine Modifikation von dessen spezifischen Parametern bewirken. In diesem Fall würde die "simple" Untersuchung der Frage, wie sich die Häufigkeitsverteilungen von Wortlängen in Texten darstellen, insgesamt viel zu kurz greifen. Zur Anwendung kommen müssten dann komplexere statistische Verfahren, mit deren Hilfe sich die Auswirkung der genannten Faktoren isolieren bzw. in ihrer komplexen Wechselwirkung erfassen lassen. 

Anhaltspunkte dafür, dass in der Textrealität beide Möglichkeiten realisiert sein könnten (verschiedene Modelle für verschiedene Textsorten vs. Modifikation eines Ausgangsmodells), finden sich in einschlägigen Vor-Untersuchungen des Projektwerbers zu tschechischen und slowenischen Texten, die aufgrund der geringen Datenbasis freilich keinen Anspruch auf statistische Solidität erheben können. Eine detailliertere Darstellung findet sich unter Punkt 2 (Projektziele).

 

2. Projektziele

1. Im Projekt soll systematisch untersucht werden, welche Häufigkeitsverteilung(en) von Wortlängen Texte aus drei verschiedenen slawischen Sprachen (Russisch, Slowenisch, Kroatisch) charakterisieren. Die Berücksichtigung von drei Sprachen zielt auf die Möglichkeit, sprachspezifische von sprachübergreifenden Faktoren zu trennen. Die Wahl des Kroatischen, Russischen, und Slowenischen als Untersuchungsobjekt ist – abgesehen vom allgemeinen Wissensdefizit im Hinblick auf Wortlängenhäufigkeiten in diesen Sprachen – mehrfach motiviert:

  1.  sprachtypologisch: es handelt sich um zwei südslawische und eine ost­slawische Sprache, die entsprechend auf sprachtypologische Ähnlichkeiten und Divergenzen untersucht werden können;

  2. individuell: der Projektleiter verfügt über gute aktive und/oder passive Kenntnisse dieser drei Sprachen; 

  3. institutionell: es handelt sich um die drei Studienrichtungssprachen am Institut für Slawistik der Universität Graz, so dass davon auszugehen ist, dass Studierende dieser Fächer in die Projektarbeit einzubeziehen sind, und dass Bereiche der Projektarbeit in die universitäre Lehre eingehen können.

2. Von der genannten Fragestellung ausgehend, soll es vor allem um die Frage gehen, ob und wie sich autorspezifische, texttypologische u.a. Faktoren als mögliche Einflussgrößen auf die Wortlänge und deren Häufigkeitsverteilung(en) in Texten nachweisen lassen. Das Interesse dabei wird es einerseits sein, formalisierbare Faktoren zu isolieren und in ihrer Wirksamkeit zu dokumentieren; andererseits wird es um die wechselseitigen Zusammenhänge zwischen diesen Faktoren gehen. Eine solide Beantwortung dieser Fragen ist an eine umfangreiche Daten- und Textbasis gebunden, die als solche nicht a priori zur Verfügung steht, sondern im Projekt erarbeitet werden muss.

3. In einem weiteren Schritt soll – die positive Beantwortung der ersten Frage(n) vorausgesetzt – die Richtung der Fragestellung umgedreht und im Hinblick auf Textidentifikation und Textzuordnung formuliert werden: Lassen sich Texte unter Kenntnis von relevanten Kenngrößen, um deren Untersuchung es im ersten Schritt geht, mit einer gegebenen Wahrscheinlichkeit bestimmten Texttypen, Autor(inn)en o.ä. zuordnen? 

Es liegt auf der Hand, dass die Relevanz der zu erwartenden Ergebnisse über den engen Rahmen slawistischer Fragestellungen und auch über den Interessensbereich des Projekts hinausgeht: Denn eine profunde Kenntnis darüber, ob und wie sich die genannten Einflussfaktoren auf die Wortlänge und deren Häufigkeitsverteilungen auswirken, und wie diese sich nachweisen lassen, wird nicht ohne methodologische Auswirkungen auf jegliche zukünftige Forschung in dieser Richtung bleiben. Dabei impliziert die Beantwortung der zuletzt genannten Frage (3) auch eine mögliche praktische Verwertbarkeit, insofern hier gegebenenfalls wichtige Text-Filter-Mechanismen auf formaler Ebene erhoben werden können, die in anderweitigen Forschungen derzeit eher auf inhaltlicher Ebene gesucht werden. Der Anspruch auf Erkenntnisgewinn wäre dabei so zu verstehen, dass der Anteil, den quantitativ-relationale Textuntersuchungen an der Lösung umfassender Fragestellungen haben (können), erforscht wird.

 

3. Gewählte Methodik

Innerhalb des auf drei Jahre angelegten (und in drei Phasen untergliederten) Forschungsvorhabens ist nicht von einer über die Gesamtdauer einheitlichen Methodik auszugehen; vielmehr kommen in den verschiedenen Phasen unter­schiedliche Methoden zur Anwendung. Phasenübergreifendes Anliegen ist dabei die Komplementarität quantitativer und qualitativer Analysen und Auswertungen.

Die Anwendung statistischer Verfahren zielt dabei auf eine Überwindung der in 1.1. erwähnten kritischen Punkte, insofern sich das Vorgehen weder auf den Vergleich einzelner Texte beschränken noch auf Vergleich zusammengefasster Textgruppen bzw. -korpora kaprizieren soll: Vielmehr zielt die Analyse in einem ersten Schritt zunächst auf individuelle Texte, damit in einem zweiten Schritt (a posteriori) Gruppenbildungen bzw. Gruppenzuordnungen geleistet werden können. Mit dieser Ausrichtung wird die gesamte Fragestellung aus dem Bereich der Sprachwissenschaft verstärkt in den der Text- und Literaturwissenschaft überführt.

In den drei Phasen des geplanten Projektverlaufs müssen verschiedene methodische Schritte bzw. Verfahren zur Anwendung gelangen; insofern wirft die Darstellung der Methodik einen Blick auf den geplanten Projektverlauf (s.u., Punkt 4) voraus:

Phase I

Textrecherchen und Anlage einer Text-Datenbank; Erstellung spezieller Analyse­Software für die Phase II

Phase II

Technische Aufbereitung der Texte für die Textberechnungen; Durchführung der Berechnungen und Aufbereitung der Ergebnisse für die quantitativen Analysen der Phase III

Phase III

Durchführung der quantitativen und qualitativen Analysen

 

3.1.Phase I: Text-Datenbank und Entwicklung eines Analyseprogramms

3.1.1. Elektronische Text-Datenbank und Elektronische Text-Analyse

In der bisherigen Wortlängenforschung sind Texte fast ausschließlich nicht-automatisiert ausgezählt und ausgewertet worden; auch dieser Umstand erklärt die geringe Anzahl verfügbarer Analysen bzw. den niedrigen Kenntnisstand über Einflussfaktoren. Im geplanten Vorhaben soll die Analyse ausschließlich auf elektronischer Basis vorgenommen werden. Dazu ist zum einen der Aufbau einer umfangreichen Datenbank mit Texten in den drei genannten Sprachen (unter Berücksichtigung der o.a. Einflussfaktoren) notwendig (3.1.2.); zum anderen die Entwicklung eines für die Berechnungen und Analysen geeigneten Computerprogramms (3.1.3.), da – zumal im Hinblick auf Texte mit slawischen Zeichensätzen – keine Software für die Untersuchung der genannten Fragen verfügbar ist. 

 

3.1.2. Text-Archivierung und Dokumentation

Um zu statistisch soliden Aussagen zu kommen, ist für jede der drei Sprachen eine Text-Datenbank mit jeweils ca. 1000 Texten in vorgegebenen Kategorien notwendig; diese Zahl basiert auf der Anzahl der notwendigerweise zu unterscheidenden Einflussvariablen und einer minimalen Gruppengröße von n = 30 pro Variable. Insofern in den genannten Sprachen Texte in elektronischer Form im Internet bzw. auf CD verfügbar sind, dürfte sich der Ankauf spezifischer Korpora vermutlich als nicht notwendig erweisen. Allerdings wird im Hinblick auf autor- und textsortenspezifische Fragestellungen eine große Anzahl von Texten zusätzlich elektronisch zu erfassen sein, insbesondere in solchen Textsorten wie Brief oder wissenschaftlicher Diskurs (verschiedener Disziplinen). Für das Einscannen der Texte ist für die slawischen Sprachen geeignete Scanner-Software mit Lizenzen vorhanden, doch erweist sich erfahrungsgemäß die Nachbereitung mit den jeweils notwendigen Korrekturarbeiten als äußerst arbeitsintensiv.

Eine zeitaufwendige Arbeitserschwernis dieser Phase ist darin zu sehen, dass den im Internet verfügbaren Texten jeweils unterschiedliche Zeichenkodierungen zugrunde liegen: bei den diakritischen Zeichen des Slowenischen und Kroatischen beschränkt sich dies in der Regel auf CP 852 und CP1250 bzw. ISO 8859-2, bei den kyrillischen Zeichen im Russischen kommen zumindest die Formate KOI-8, CP866, CP1251 bzw. ISO 8859-5 vor. Die Vereinheitlichung der verschiedenen Codeformate nach dem Unicode-Standard (3.0) wäre erstrebenswert, sofern sich dies als kompatibel mit dem Analyseprogramm erweist.

Die Recherche nach geeigneten Texten, deren Archivierung und sachgemäße Verwaltung in Form einer geeigneten Datenbankstruktur muss parallel und laufend begleitet werden von statistischen Analysen zur jeweiligen Anzahl und Beschaffenheit der verschiedenen Texte, damit in den späteren Analyseschritten statistisch zuverlässige (und zulässige) Verfahren zur Anwendung kommen können.

 

3.1.3. Entwicklung spezieller Analyse-Software

Die zu erstellende Analysesoftware muss durch linguistische und statistische Erfordernisse begleitet werden; das Programm soll von vornherein im Hinblick auf eine Erweiterung auf alle slawischen Sprachen geplant werden (ohne dass diese sogleich implementiert werden); sofern spätere Adaptionen an nicht-slawische Sprachen denkbar sind, soll dies berück­sichtigt werden. Die Software selbst hat die folgenden Anforderungen zu erfüllen:

  • Verarbeitung und Speicherung von Texten in verschiedenen Codierungen, Konvertierung in einheitliches Format (CP1251 bzw. Unicode)

  • Speicherung von Metadaten zu den Texten (z.B. Autor, Sprache, Codierung, Bearbeitungsstatus, berechnete statistische Merkmale und Kenngrößen, usw.)

  • Einfaches Hinzufügen weiterer statistischer Merkmale und Kenngrößen in Berechnung und Datenbank

  • Unterstützung von sprach- oder textspezifischen Merkmalen (z.B.: textspezifische Sonderzeichen, textübergreifende Verwaltung der Abkürzung, u.a.m.)

  • Unterstützung der Bediener während der Textaufbereitung: Anzeige und Korrektur von unbekannten Zeichen im Datenmaterial, etc.

  • Automatische Durchführung von Analysen der gespeicherten Texte (Berechnung neuer Parametern für alle in der Datenbank gespeicherten Texte)

  • Optionale Erweiterung zur Web-Anbindung, d.h. Einrichtung externer Nutzungsmöglichkeiten über Server-Implementierung.

Die sich im Laufe des Projekts für den/die Informatiker(in) ergebenden Arbeitsbereiche sind demzufolge: Anforderungsanalyse; Auswahl von Betriebssystem, Datenbanksystem und Programmiersprache; Datenbank-Design; Software-Design und Implementierung; Ein­schulung und Betreuung des Personals; Erweiterungen und Anpassungen des Systems während des Projektes.

 

3.2.Phase II: Text-Aufbereitung und Text-Berechnungen

3.2.1. Text-Aufbereitung

Die im ersten Schritt recherchierten, archivierten und code-unifizierten Texte müssen in einem nächsten Arbeitsabschnitt für die spezifischen Analysen jeweils einzeln vorbereitet werden; dies ist nicht automatisiert möglich, da es um die Lösung inhaltlicher Sachfragen geht. Dieser Arbeitsschritt beinhaltet vor allem textspezifische Bearbeitungen in Form von arbeitsaufwendigen Vereinheitlichungen der Texte, wie z.B. 

  • die Behandlung von Überschriften, Unterschriften, Kapitelbezeichnungen usw.

  • die Behandlung von Abkürzungen, Zahlen (insbes. Jahreszahlen), u.a.

  • die Behandlung von Fremdwörtern, fremdsprachlichen Textpassagen, u.a.

  • die nur inhaltlich zu lösende Behandlung und Kennzeichnung von Satzgrenzen, insbesondere im Zusammenhang mit direkter/indirekter Rede, Zitaten, usw.

 

3.2.2. Textberechnungen / Erstellung der statistischen Files / Erhebung der Häufigkeiten

Erster Schritt der Analysen sind die Berechnungen der Wortlängenhäufigkeiten für jeden einzelnen Text. Die Ergebnisse dieser Berechnungen müssen für jeden Text einzeln in DAT-Files abgespeichert werden, damit sie von der entsprechenden Spezial-Software (Altmann-Fitter) bearbeitet werden können.

Erhebung der Faktoren

In Ergänzung zur Erhebung der bloßen Häufigkeiten muss im Hinblick auf die späteren Analysen gleichzeitig die Berechnung der verschiedenen Kenngrößen (wie Mittelwerte, Standardabweichungen, Anfangs- und Zentralmomente als Kennwerte der Verteilung, Variationskoeffizienten, mittlere Textlänge, mittlere Satzlänge in Worten, Parameter der Verteilung, u.a.m.) geleistet werden, da diese später die Grundlage der quantitativen Analysen darstellen (s.u.). Die Ergebnisse dieser Berechnungen müssen in entsprechende Files übertragen werden, damit sie von der statistischen Software (SPSS, S-Plus) verarbeitet werden können.– In dieser Projektphase ist insofern die engste Zusammenarbeit zwischen dem wissenschaftlichen Personal in seiner Gesamtheit – Informatiker(in), Statistiker(in) und Slawist(in) – notwendig.

 

3.3.Phase III: Quantitative und Qualitative Analysen und Auswertungen

3.3.1. Anpassung der Verteilungsmodelle

Von den Häufigkeitsberechnungen ausgehend muss für jeden einzelnen Text ein geeignetes Verteilungsmodell gefunden werden (vgl. Beilage II.2); hierfür ist Spezialsoftware verfügbar (s.o.). Damit wird erstmals die Gesetzmäßigkeit der Verteilung von Wortlängen in Texten der genannten slawischen Sprachen systematisch untersucht, und zwar unter differenzierender Berücksichtigung der genannten Einflussfaktoren wie Autorschaft, Textsorte, usw.– In der Regel erweist sich für den einzelnen Text mehr als nur ein Modell als geeignet; deshalb ist in zahlreichen Einzelanalysen nach geeigneten Modellen zu suchen, die eine bestimmte Textgruppe (nicht nur die Texte einer Sprache, sondern auch die Texte eines Autors, eine bestimmte Textsorte eines Autors, o.ä.) einheitlich zu beschreiben geeignet ist.

 

3.3.2. Erarbeitung von Ord-Schemata

Ausgehend von der konkreten Häufigkeitsverteilung eines jeden Textes, lassen sich über Anfangs- und Zentralmomente der Verteilungen sog. Ord-Schemata zeichnen, wie sich dies in der Quantitativen Linguistik in den letzten Jahren zunehmend etabliert (hat). Hierbei handelt es sich um graphische Darstellungen, die auf den Anfangs- und Zentralmomenten von Verteilungen basieren, welche in statistischer Interpretation Hinweise auf die zugrundeliegenden Verteilungsmodelle bieten, die aber unabhängig davon auch Rückschlüsse über die mögliche Gruppierung von Texten bieten.

3.3.3. Entwicklung diskriminierender ModelleBeilage II enthält eine Graphik auf der Basis tschechischer Textanalysen, die der Projektleiter in anderem Zusammenhang durchgeführt hat (Grzybek 2001c). Dieses Beispiel soll verdeutlichen, warum komplexere Verfahren als die bisher zur Anwendung gekommenen herangezogen oder entwickelt werden müssen, wenn die o.a. Frage nach autor- und/oder text­sortenspezifischen Verteilungsmodellen umfassend gelöst werden soll. Die Daten beruhen auf der Wortlängenhäufigkeit von drei Texten verschiedenen Typs: ein literarischer und ein journalistischer Prosatext von Karel Čapek ("Modrá Chryzantéma" von 1928 bzw. "Noviny a věda" von 1917) sowie das Gedicht "Lilie" (1861) von Karel Erben. Wie zu sehen ist, folgen alle drei Texte ein und demselben Modell; es handelt sich um die sog. erweiterte positive Binomialverteilung, wie sie von Uhlířová (1996, 1997) wiederholt für tschechische Texte als charakteristisch dargestellt wurde:

1)

  

 

 

Die beobachteten und theoretisch erwarteten Werte sind in Tab. 1a-c und Abb. 1a-c dargestellt. 

Karel Čapek: "Modrá Chryzantéma" (1928)

Tab. 1a

Abb. 1a

X[i] 

F[i] 

NP[i]

0

50

50

1

660

664,43

2

635

618,78

3

288

307,34

4

98

85,87

5

9

13,59

 

n

6

 

p

0,271

 

á

0,971

 

χ²

4,94

 

FG

2

 

P

0,0848**

 

C

0,0028**

 

  

 Karel Čapek : "Noviny a věda" (1917)

Tab. 1b

Abb. 1b

X[i] 

F[i] 

NP[i] 

0

35

35

1

287

289,89

2

275

277,59

3

177

163,58

4

62

66,27

5

15

19,53

6

4

4,31

7

2

0,83

 

n

14

 

p

0,128

 

á

0,959

 

χ²

2,62

 

FG

3

 

P

0,0454**

 

C

0,0031**

 

Karel Erben: "Lilie" (1861)

Tab. 1c

Abb. 1c

X[i] 

F[i] 

NP[I] 

0

15

15,00

1

209

208,16

2

182

184,97

3

77

73,05

4

9

10,82

 

n

4

 

p

0,372

 

á

0,970

 

χ²

0,57

 

FG

1

 

P

0,4501**

 

C

0,0012**

 

 Abb. 2 enthält die Ord-Werte dieser drei Texte. Wie zu sehen ist, fallen die Punkte der drei Texte einerseits an durchaus unterschiedliche Stellen des Ord-Schemas; andererseits liegen sie auf einer einheitlichen Regressionsgeraden, wie dies mitunter für Texte einer Sprache oder eines Autors dargestellt wurde (Altmann et al. 1997): Die Lokalisierung in einem Ord-Schema ist ein akzeptiertes Verfahren, Texte in einem zweidimensionalen Schema zu lokalisieren; diese Werte beruhen auf dem Anfangsmoment (dem arithmetischen Mittel) sowie dem zweiten (Varianz) und dritten Zentralmoment der Verteilung:

Anfangsmoment (@ x )M1

2. Zentralmoment (@ s²) M2 =   

3. Zentralmoment  M3 =

Aus diesen Werten berechnen sich I = M2 / M1 sowie S = M3 / M2. Im gegebenen Fall zeigt sich, dass die drei Texte, deren Wortlängenhäufigkeiten alle ein und demselben Verteilungsmodell zuzuordnen sind, aufgrund der unterschiedlichen Parameter der Verteilung in diesem Schema an drei unterschiedlichen Punkten zu lokalisieren sind. Zudem scheint eine positive Korrelation zwischen I und S vorzuliegen, was sich darin äußert, dass die Punkte sich entlang einer Regressionsgeraden (hier: y = 2.08 – 0.44x) orientieren.

     Abb. 2:  

 

 

Dass Ord-Schemata jedoch offenbar nur zur ersten Orientierung dienen können und nicht zu exakten Typisierungen geeignet sind, zeigt sich deutlich, sobald jeweils mehr Texte der drei Texttypen hinzukommen (Abb. 3):  

Abb. 3:  

 

1.Die Berechnung von Regressionsgeraden erweist sich als unergiebig, es bieten sich statt dessen Verfahren wie z.B. die Berechnung von Konzentrationsellipsen o.a. an (vgl. Abb. 4). 

Abb. 4: 

 

2. Abgesehen von der Überlegenheit von Konzentrationsellipsen im Vergleich zu Regressionsgeraden zeigt sich deutlich die Überlappung der verschiedenen Bereiche. 

An dieser Stelle setzt das Forschungsvorhaben in der Phase III an: Zur Anwendung müssen neben Standardverfahren auch komplexe(re) statistische Verfahren aus der multivariaten Statistik kommen. Die multivariate Varianzanalyse kann dazu dienen, mittlere Unterschiede zwischen gegebenen Texttypen herauszufinden, d.h. festzustellen, ob sich Texttypen bezüglich bestimmter Merkmale wie Textlänge, Wortlänge im Mittel u.a.m. unterscheiden oder nicht. Eine individuelle Entscheidung für einen ganz bestimmten Text ist damit nicht verbunden. Mit Hilfe der Diskriminanzanalyse kann hingegen für jeden Text unter Angabe von zugehörigen Wahrscheinlichkeiten eine individuelle Zuordnung zu einem der betreffenden Texttypen erfolgen. Eine wichtige Problemstellung in diesem Zusammenhang ist natürlich das Aufspüren jener Merkmale oder Variable(n), die den wesentlichen Beitrag zur Diskriminierung der gegebenen Texttypen liefern.

Als ein Beispiel einer solchen Analyse sei in Abb. 5 das Ergebnis einer Diskriminanzanalyse angegeben, mit der man auf ca. 85% korrekter Textzuordnungen kommt. Einschlägige Feinanalysen zeigen, dass die übrigen 15% auf Überschneidungen zwischen den journalistischen Texten und den frühen literarischen Texten Čapeks zurückzuführen sind (d.h., dass die literarische Prosa im Hinblick auf den Zeitfaktor inhomogen ist). Differenziert man diesen Punkt aus, kommt man auf einen Prozentsatz von ca. 95% richtiger Textzuordnungen aufgrund entsprechender Diskriminanzanalysen.  

  Abb. 5:  

 

Für das Projekt ist also einerseits zu erwarten, dass sich auf der größeren Datenbasis die Kenntnis über die Qualität von Diskriminanzvariablen erhöhen wird; andererseits ist mit Zunahme der Textbasis mit größerer Inhomogenität innerhalb der Textgruppen zu rechnen. Eine Antwort auf die Frage, welche konkreten Verfahren sich hier als produktiv erweisen werden, welche Einfluss­faktoren und Diskriminanzmerkmale sich als relevant erweisen werden, welche von ihnen sprach-, autor-, textsortenspezifisch usw. relevant sind, inwiefern hier Kenngrößen der Verteilungen mit anderen Parametern kombiniert werden müssen, um zu aussagekräftigen Modellen zu gelangen, wird erst im Laufe der konkreten Auswertungen und Analysen erarbeitet werden können, da einschlägige Vorarbeiten weitgehend fehlen.

Auf jeden Fall müssen die quantitativen Analysen in der Phase III intensiv parallel durch qualitative Analysen begleitet werden.

 

4. Geplanter Projektverlauf 

 Das Projekt ist auf drei Jahre ausgerichtet. Es sieht drei Phasen vor, die im wesentlichen bereits im Abschnitt 3 "Gewählte Methodik" in den Phasen I-III (3.1.-3.3) dargestellt wurden:

  1. Erarbeitung der Text-Datenbank und des Analyseprogramms

  2. Vorbereitung der Texte für die Analysen, Durchführung der Analysen und Aufbe­reitung der Ergebnisse für statistische Analysen

  3. Durchführung der quantitativen und qualitativen Analysen

Jede dieser Phasen ist auf ein Jahr ausgerichtet; die Phasen sind konsekutiv konzipiert, d.h. sie bauen aufeinander auf bzw. setzen die Ergebnisse der jeweils vorhergehenden Phase(n) als Ausgangsbasis voraus.

 

Literatur

I.1. Allgemeines

Altmann, Gabriel (1992): „Das Problem der Datenhomogenität.“ In: Rieger, B. (Hg.), Glottometrika 13. Bochum. (287-298).

Orlov, Jurij K. (1982): “Linguostatistik: Aufstellung von Sprachnormen oder Analyse des Redeprozesses? (Die Antinomie 'Sprache – Rede' in der statistischen Linguistik.” In: Orlov, Ju.K.; Boroda, M.G.; Nadarešvili, I.Š., Sprache, Text, Kunst. Quantitative Analysen. Bochum. (1-55).

Kempgen, Sebastian (1995): Russische Sprachstatistik. München.

Köhler, Reinhard (1995): Bibliography of quantitative linguistics. Amsterdam. 

 

I.2. Status und Theorie der Wortlängenforschung

Altmann, Gabriel; Best, Karl-Heinz; Wimmer, Gejza (1997): "Wortlänge in romanischen Sprachen." In: Gather, A.; Werner, H. (eds.), Semiotische Prozesse und natürliche Sprache. Stuttgart. (1-13).

Best, Karl-Heinz (1997): "Zum Stand der Untersuchungen zu Wort- und Satzlängen." Prepaper für QUALICO 3, Helsinki.

Best, Karl-Heinz (1997): "Warum nur: Wortlänge? Nicht nur ein Vorwort." In: Best, Karl-Heinz (Hg.), Glottometrika 16. The Distribution of Word and Sentence Length. Trier. (V-XII).

Best, Karl-Heinz; Zinenko, Svetlana (2001): "Wortlängenverteilungen in Briefen A.T. Twardowskis." In: Göttinger Beiträge zur Sprachwissenschaft, 1; 7-19.

Best, Karl-Heinz (Hrsg.) (2001): Häufigkeitsverteilungen in Texten. Göttingen.

Best, Karl-Heinz; Zinenko, Svetlana (2001): "Wortlängen in Gedichten A.T. Twardowskis." In: Uhlírová, L.; Wimmer, G.; Altmann, G., Köhler, R. (Hg.), Text as a Linguistic Paradigm: Levels, Constituents, Constructs. Trier. (10-28).

Best, Karl-Heinz (2001): "Wortlängen." In: Altmann, Gabriel; Köhler, Reinhard; Piotrowski, Raimund (Hrsg.), Quantitative Linguistik – Quantitative Linguistics. Ein internationales Handbuch. Berlin / New York. [Im Druck]

Čebanov, Sergej Grigor'evič (1947): "O podčinenii rečevych ukladov 'indoevropejskoj' gruppy zakonu Puassona." In: Doklady akademii Nauk SSSR, tom 55/2; 103-106.

Culp, Christine (1995): Untersuchung zur Häufigkeit von Wortlängen in ausgewählten Briefen Majakovskijs. Seminararbeit Universität Göttingen.

Fucks, Wilhelm (1955a): Mathematische Analyse von Sprachelementen, Sprachstil und Sprachen. Köln/Opladen. [= Arbeitsgemeinschaft für Forschung des Landes Nordrhein-Westfalen, Heft 34a]

Fucks, Wilhelm (1955b): "Theorie der Wortbildung." In: Mathematisch-Physikalische Semesterberichte, Bd. 4; 195-212.

Fucks, Wilhelm (1955c): "Unterschied des Prosastils von Dichtern und anderen Schriftstellern". In: Sprachforum, 1; 234-244.

Fucks, Wilhelm (1956): "Die mathematischen Gesetze der Bildung von Sprach­elementen aus ihren Bestandteilen." In: Nachrichtentechnische Forschungsberichte, Bd. 3; 7-21.

Fucks, Wilhelm (1965): "Mathematische Analyse des literarischen Stils." In: Kreuzer, H.; Gunzenhäuser, R. (Hg.), Mathematik und Dichtung. München. (107-122).

Gačečiladze, T.G.; Čilosani, T.P. (1971): "Ob odnom metode izučenija statističeskoj struktury teksta." In: Statistika reči i avtomatičeskij analiz teksta. Leningrad. (113-133).

Girzig, Patricia (1996): "Untersuchung zur Häufigkeit von Wortlängen in russischen Texten." In: Best, K.-H. (Hg.), Glottometrika 16. The Distribution of Word and Sentence Length. Trier. (152-162).

Grotjahn, Rüdiger; Altmann, Gabriel (1993): "Modelling the Distribution of Word Length: Some Methodological Problems." In: Köhler, Reinhard; Rieger, Burghard, B. (eds.), Contributions to quantitative linguistics. Dordrecht u.a. (141-153).

Kondratov, A.M. (1963): "Teorija informacii i poėtika. (Entropija ritma russkoj reči)." In: Problemy kibernetiki, 9; 279-286. [Engl.: "Information Theory and Poetics: The Entropy of Russian Speech Rhythm." In: Doležel, L.; Bailey, R.W. (eds.), Statistics and Style. New York, 1969. (113-121).

Mendenhall, T.C. (1887): "The characteristic curves of composition." In: Science, 214/9; 237-249.

Mendenhall, T.C. (1901): "A mechanical solution of a literary problem." The Popular Science Monthly, 70/7; 97-105.

Oettinger, Anthony G. (1954): "The Distribution of Word-Length in Technical Russian." In: Mechanical Translation, 1; 38-40.

Pieper, U. (1975): "Differenzierung von Texten nach numerischen Kriterien." In: Folia Linguistica, 7/1-2; 61-113.

Pieper, U. (1979): Über die Aussagekraft statistischer Methoden für die linguistische Stilanalyse. Tübingen.

Stitz, Katrin (1994): Untersuchungen zu den Wortlängen in deutschen und russischen Briefen des 19. Jahrhunderts. Hausarbeit im Rahmen der Ersten Staatsprüfung für das Lehramt an Gymnasien. Göttingen.

Uhlířová, Ludmila (1996): "How long are words in Czech?" In: Schmidt, P. (ed.), Glottometrika 15: Issues in General Linguistic Theory and The Theory of Word Length. Trier. (134-146).

Uhlířová, Ludmila (1997): "Word Length Distribution in Czech: On the Generality of Linguistic Laws and Individuality of Texts." In: Best, K.-H. (ed.), Glottometrika 16: The Distribution of Word and Sentence Length. Trier. (163-173).

Willimans, C.B. (1956): "Studies in the history of probability and statistics. IV: A note on an early statistical study of literary style." In: Biometrika, 43; 248-256.

Wimmer, Gejza; Altmann, Gabriel (1996): "The Theory of Word Length Distribution: Some Results and Generalizations." In: Schmidt, Peter (Hg.), Glottometrika 15. Trier. (112-133).

Wimmer, Gejza; Köhler, Reinhard; Grotjahn, Rüdiger; Altmann, Gabriel (1994): "Towards a Theory of Word Length Distribution." In: Journal of Quantitative Linguistics, 1; 98-106.

Wimmer, Gejza; Witkovský, Viktor; Altmann, Gabriel (1999): "Modification of Probability Distributions. Applied to Word Length Research." In: Journal of Quantitative Linguistics, 6/3; 257-268. 

 

1.3. Projektrelevante Vorarbeiten des Projektleiters

Ein vollständiges Publikationsverzeichnis des Projektwerbers ist im Internet unter der Adresse http://emile.kfunigraz.ac.at/vk?us=grzybek verfügbar.

 

 

Grzybek, Peter (1995): "Zur Frage der Satzlänge von Sprichwörtern (unter besonderer Berücksichtigung deutscher Sprichwörter)." In: Baur, R.S.; Chlosta, Ch. (Hrsg.), Von der Einwortmetapher zur Satzmetapher. Akten des Westfälischen Arbeitskreises »Phraseologie / Parömiologie« (1994/95). Bochum. (203-217).

 

Grzybek, Peter (1998): "Explorative Untersuchungen zur Wort- und Satzlänge kroatischer Sprichwörter." In: Polytropon. К 70-летию Владимира Николаевича Топорова. Moskva. (449-465).

 

Grzybek, Peter (1999): "Randbemerkungen zur Korrelation von Wort- und Silbenlänge im Kroatischen." In: Tošović, B. (ed.), Die grammatischen Korrelationen. Graz. (67-77).

 

Grzybek, Peter (2000a): "Slawistik und Kulturwissenschaft(en)." In: Eismann, W.; Deutsch­mann, P. (Hg.), kultur–wissenschaft–russland. Beiträge zum Verhältnis von Kultur und Wissenschaft aus slawistischer Sicht. Frankfurt/M. (93-133).

 

Grzybek, Peter (2000b): "Zum Status der Untersuchung von Satzlängen in der Sprich­wortforschung. Methodologische Vor-Bemerkungen." In: Слово во времени и пространстве. К 60-летию В.М. Мокиенко. Sankt Peterburg. (430-457).

 

Grzybek, Peter (2000c): "Remarks on the sentence length of proverbs." In: Baayen, R.H. (ed.), Proceedings of the fourth conference of the International Quantitative Linguistics Association. Prague, August 24-26, 2000. Prag. (89)

 

Grzybek, Peter (2000d): Wie lang sind slowenische Sprichwörter? Zur Häufig­keitsverteilung von (in Worten berechneten) Satzlängen slowenischer Sprichwörter. In: Anzeiger für slavische Philologie, (27) 1999 [2000]; 87-108.

Grzybek, Peter (2000e): "Pogostnostna analiza besed iz elektronskego korpusa slovenskih besedel. In: Slavistična Revija, 48(2) 2000 [2001]; 141-157. [Auf deutsch verfügbar unter dem Titel: "Worthäufigkeit, Worthäufigkeitsverteilung, Wort­länge, Wortlängenhäufigkeitsverteilung sowie die Abhängigkeit von Wort- und Silbenlänge im Slowenischen (Wortlistenanalysen)"]

Grzybek, Peter (2001a): "Kultur-Ökonomie". In: Weitlaner, W. (Hg.), Sprache–Kultur–Ökonomie. Wien. [Im Druck].

 Grzybek, Peter (2001b): "Zur Wortlänge und ihrer Häufigkeitsverteilung in Sprich­wörtern. In: Palm-Meister, Ch. (Hrsg.), Europhras 2000. Tübingen, 2001 [Im Druck]

Grzybek, Peter (2001c): "Zur Entwicklung der Prosa Karel Čapeks – Quantitative Analysen." [In Vorb.]

Grzybek, Peter (2001d): "Zur Satz- und Teilsatzlänge zweigliedriger formelhafter Sprichwörter." In: Uhlířová, L.; Wimmer, G.; Altmann, G.; Köhler, R. (eds.), Text as a Linguistic Paradigm: Levels, Constituents, Constructs. Trier. (64-76).

Grzybek, Peter; Stadlober, Ernst; Djuzelic, Mario (2001): Statistische Analysen slawischer Texte (Prosa und Poesie). Ms., 42 S.

 
| Institut für Slawistik | Fakultät | Universität Graz | aktualisiert am: 08.01.2012