Research
    Projects
    QuanTA-Server
Publications
    Grapheme/Phoneme
    Syllable/Morpheme
    Sentence
    Text
    History
    Methodology
    Poetics/Stylistics
Activities
    Conferences
    Presentations
Contacts/Links
Persons

HOME
quanta@uni-graz.at

[Seite drucken]
counter by CountIT.ch

 

Word

 

2007

Grzybek, Peter; Stadlober, Ernst 
Do We Have Problems With Arens' Law? A New Look at the Sentence-Word Relation.
In: Peter Grzybek; Reinhard Köhler (eds.): Exact Methods in the Study of Language and Text. Dedicated to Professor Gabriel Altmann on the Occasion of His 75th Birthday. Berlin / New York: Mouton de Gruyter. (205-218).

This contribution discusses a number of theoretical and methodological problems with regard to the sentence-word relation which usually is interpreted along Arens' Law as a special case of the Menzerath-Altmann Law. It is argued in favor of the notion that empirical problems in dealing with Arens's Law may be related to different factors:

  1. Attention must be paid to the distinction of intra-textual and inter-textual perspectives when dealing with Arens' Law; 

  2. It seems reasonable that Arens' Law is valid only within the framework of particular text sorts, or discourse types; 

  3. Arens's Law seems to express specific tendencies which can be submitted to observation only in case of large data material, or by way of specific pooling procedures; pooling, in turn, may lead to partly diverging results, depending on the concrete procedure chosen.

 

2007

Grzybek, Peter;   Stadlober, Ernst; Kelih, Emmerich
The Relation of Word Length and Sentence Length: The Inter-Textual Perspective.
In: Decker, Reinhold; Lenz, Hans-J. (eds.): Advances in Data Analysis. Berlin etc.: Springer. (611-618).

The present study concentrates on the relation between sentence length and word length as a possible factor in text classification. The dependence of sentence length and word length is discussed in terms of general system theory and synergetics; the results achieved thus are relevant not only for linguistic studies of text classification, but for the study of other complex systems, as well.

 

2006

Grzybek, Peter; Kelih, Emmerich
Häufigkeiten von Wortlängen und Wortlängenpaaren: Untersuchungen am Beispiel russischer Texte von Viktor Pelevin.
In: Binder, Evi; Stadler, Wolfgang; Weinberger, Helmut (Hrsg.), Zeit-Ort-Erinnerung. Slawistische Erkundungen aus sprach-, literatur- und kulturwissenschaftlicher Perspektive. Innsbruck. (395-407).

Im vorliegenden Text wird die Häufigkeit von Wortlängen auf der Basis von Prosatexten des russischen Gegenwartsschriftstellers Viktor Pelevin untersucht. Es stellt sich heraus, dass die Häufigkeit der Wortlängen einer allgemeinen Regularität folgt, die auch schon an Texten anderer russischer Autoren des 19. und 20. Jahrhunderts beobachtet wurde. Diese Regularität lässt sich mit der Hyperpoisson-Verteilung theoretisch bestens modellieren. Darüber hinaus wird im vorliegenden Text erstmals ein Versuch unternommen, über die Untersuchung von Wortlängen hinausgehend der Frage nachzugehen, ob auch die Häufigkeiten von benachbarten Wortlängen bestimmten Regularitäten unterliegen. Die erhaltenen Befunde sprechen eindeutig dafür: Die Häufigkeiten von Wortlängenpaaren folgen im Fall der untersuchten Texte der negativen Binomialverteilung, die im Text in ihrer 1-verschobenen und rechts-gestutzten Form diskutiert werden.

 

2006

Antić, Gordana; Stadlober, Ernst; Grzybek, Peter; Kelih, Emmerich
Word Length and Frequency Distributions.
In: Spiliopoulou, Myra; Kruse, Rudolf; Nürnberger, Andreas; Borgelt, C.; Gaul, Wolfgang (eds.): From Data and Information Analysis to Knowledge Engineering. Heidelberg/Berlin: Springer. (310-317)

In this paper we study word length frequency distributions of a systematic selection of 80 Slovenian texts (private letters, journalistic texts, poems and cooking recipes). The adequacy of four two-parametric Poisson models is analyzed according their goodness of fit properties, and the corresponding model parameter ranges are checked for their suitability to discriminate the text sorts given. As a result we obtain that the Singh-Poisson distribution seems to be the best choice for both problems: first, it is an appropriate model for three of the text sorts (private letters, journalistic texts and poems); and second, the parameter space of the model can be split into regions constituting all four text sorts.

 

2006

Grzybek, Peter (ed.)
Contributions to the Science of Language. Word Length Studies and Related Issues. Dordrecht, NL: Springer, 2006.
Table of Contents

 

2006

 

 

Grzybek, Peter
History and Methodology of Word Length  Studies. The State of the Art
In: Grzybek, Peter (ed.) (2006): Contributions to the Science of Text and Language. Word Length Studies and Related Issues. Dordrecht, NL: Springer; 15-90.

In dieser Publikation wird erstmals die historische Entwicklung von Wortlängenuntersuchungen ausführlich aufgearbeitet. Nachdem  Augustus de Morgan bereits um die Mitte des 19. Jahrhunderts die Möglichkeit in Erwägung gezogen hatte, die Wortlänge als autorenspezifisches Merkmal  zu betrachten, postulierte T.C. Mendenhall die Existenz sog. autorspezifischer “Normal-Kurven“ (relative Häufigkeit der Wortlängen). Erst gegen Mitte des 20. Jahrhunderts wurde die Frage nach einer theoretischen Modellierung der Wortlänge in der Form von Wahrscheinlichkeitsverteilungen aufgeworfen: der englische Statistiker W.P. Elderton diskutierte die geometrische Verteilung, und nahezu zeitgleich (ca. 1950) wurden Modifizierungen der Poissonverteilung ins Spiel gebracht, so von S.G. Čebanov oder W. Fucks, die lange als geeignete Modelle der Wortlängenverteilung angesehen wurden. 
Erst in den 80er Jahren wurde die Poisson-Verteilung als allgemeingültiges, sprachübergreifendes Modell in Frage gestellt - zuerst von Grotjahn, der die negative Binomialverteilung diskutiert wurde, später vor allem durch den Ansatz von Altmann/Grotjahn/Köhler/Wimmer. Seither geht man nicht mehr von nur einem einzigen, allgemein gültigen Modell aus, sondern von einem ganzen System von Verteilungsmodellen unter der Berücksichtigung von unterschiedlichen Einflussfaktoren. 

 

2006

Antić, Gordana; Kelih, Emmerich; Grzybek, Peter

Zero-syllable Words in Determining Word Length

In: Grzybek, Peter (ed.), Contributions to the Science of Text and Language. Word Length Studies and Related Issues. Dordrecht, NL: Springer; 117-156.

In der angegeben Arbeit geht es um theoretische Fragen der Operationalisierung von sprachlichen Einheiten bei (automatisierten) Wortlängenuntersuchungen. Neben der Diskussion von unterschiedlichen Ebenen zuzuordnenden Wortdefinitionen (graphematische, phonologische, semantische Ebene) wird vor allem der Status des Wortes im Slowenischen und die Maßeinheit 'Silbe' näher dargelegt. Besonderes Augenmerk wird aufgrund der spezifischen Struktur von slawischen Sprachen den so genannten 0-silbigen Wörtern beigemessen. Es handelt sich hierbei um eine Klasse, die Resultat einer orthographisch-graphematischen Wortdefinition sind und der Bestimmung der Wortlänge in der Anzahl der Silben pro Wort; nullsilbige Wörter weisen keine silbenbildenden Vokale auf (im Grunde handelt es sich hierbei um Präpositionen, die jedoch aus phonetischer Sicht als Klitika behandelt werden können). In einer umfangreichen empirischen Studie slowenischer Texte (Textkorpus mit drei  texttypologischen Untergruppen) wird gezeigt, dass diese Klasse einen relativ geringen Anteil an der Gesamtzahl der x-silbigen Wörter einnimmt; des weiteren sind signifikante statistische Auswirkungen auf die mittlere Wortlänge (bestimmt in den Texten mit und ohne die Klasse der 0-silbigen Wörter) nachweisbar. Ein weiteres Resultat dieser Untersuchung ist, dass aufgrund der Wahl von unterschiedlichen Wortdefinitionen eine systematische Verschiebung der statistischen Kenngrößen von Wortlängen nachzuweisen ist.

 

2006

Strauss, Udo; Grzybek, Peter; Altmann, Gabriel
Word Length and Word Frequency
In: Grzybek, Peter (ed.), Contributions to the Science of Text and Language. Word Length Studies and Related Issues. Dordrecht, NL: Springer; 277-294.

Seit den Arbeiten von Zipf (1932, 1935) gilt der Zusammenhang zwischen der Frequenz von Worten und Wortlänge als allgemein abgesicherte und bekannte linguistische Hypothese. Nichtsdestotrotz sind bei der Vielzahl von nachfolgenden Untersuchungen einige Unklarheiten festzustellen:

  1. Zipf untersuchte ausschließlich den Zusammenhang in einer Richtung, nämlich als die Abhängigkeit der Frequenz von der Länge; die umgekehrte Abhängigkeit ist nicht geklärt.

  2. Die Wortlänge in den Untersuchungen wird unterschiedlich bestimmt: einerseits in der Anzahl der Silben und andererseits in der Anzahl der Grapheme; unklar ist der Zusammenhang von diesen beiden Einheiten.

  3. In den Analysen zum Zipf’schen Gesetz wird von zwei unterschiedlichen Wortkonzeptionen ausgegangen: einerseits von der absoluten Anzahl von in Texten vorkommenden Wörtern und andererseits von der Anzahl der Wortformen.

  4. der allgemeinen Fragestellung der Datenhomogenität der Texte (syntagmatische versus paradigmatische Ebene, Textmischungen) wurde zu wenig Beachtung geschenkt.

  5. zu wenig beachtet werden die vier unterschiedlichen Aspekte der Zipf’schen Hypothesen (Textaspekt und die Problematik von Wortlänge, Wortfrequenz und Wortrang, Lexikonumfang und Phonemanzahl als Einflussfaktoren, Kürzung von Wörtern aufgrund der Gebräuchlichkeit, paradigmatische Aspekt).

In genereller Beachtung der oben genannten Problematik ist das ausschließliche Interesse der Untersuchung ausgerichtet auf die Textebene: analysiert werden ausschließlich einzelne Texte in ihrem gesamten Umfang auf interlingualer Ebene (Texte aus dem Russischen, Kroatischen, Ungarischen, Slowenischen, Slowakischen, Deutschen, Sudanesischen und Indonesischen), wobei davon ausgegangen wird, dass die Wortlänge als Variable von der Wortfrequenz abhängt. Es kann gezeigt werden, dass eine ungemein wichtige Rolle der Homogenität von Texten beigemessen werden muss, und nicht unbedingt davon ausgegangen werden muss, dass  Texte mit großem Umfang Inhomogenitäten aufheben, sondern im Gegenteil eher verstärken.

 

2006

Stadlober, Ernst; Djuzelic, Mario

Multivariate Statistic Methods of Quantitative Text Analysis

In: Grzybek, Peter (ed.), Contributions to the Science of Text and Language. Word Length Studies and Related Issues.Dordrecht, NL: Springer; 259-276.

 

2005

 Grzybek, P., Stadlober, E.Kelih, E. Antić, G.
Quantitative Text Typology: The Impact of Word Length
In: Weihs, Claus; Gaul, W.  (Eds.). Classification – The Ubiquitous Challenge. Heidelberg: Springer, 53-64.

The present study aims at the quantitative classification of texts and text types. By way of a case study, 398 Slovenian texts from different genres and authors are analyzed as to their word length. It is shown that word length is an important factor in the synergetic self-regulation of texts and text types, and that word length may significantly contribute to a new typology of discourse types.

 

2005

Kelih, E., Antić, G.,  Grzybek, P., Stadlober, E.
Classification of Author and/or Genre? The Impact of Word Length
In: Weihs, Claus; Gaul, W.  (Eds.). Classification – The Ubiquitous Challenge. Heidelberg: Springer, 498-505.

190 Russian texts - letters and poems by three different authors - are analyzed as to their word length. The basic question concerns the quantitative classification of these texts as to authorship or as to text sort. By way of multivariate analyses it is shown that word length is a characteristic of genre, rather than of authorship.

 

2004

Grzybek, Peter
Zur Wortlänge und ihrer Häufigkeitsverteilung in Sprichwörtern (Am Beispiel slowenischer Sprichwörter, mit einer Re-Analyse estnischer Sprichwörter)
In: Palm-Meister, Ch. (Hrsg.), Europhras 2000. Tübingen: Stauffenburg, 161-171.

In der vorliegenden Arbeit geht es um die Frage der sprachlichen Regularitäten in Sprichwörtern. Es soll danach gefragt werden, ob sich ein theoretisches Beschreibungsmodell dafür finden lässt, wie viele ein-, zwei-, drei-, usw. -silbige Wörter in einem Sprichwortkorpus (estnische und slowenische Sprichwörter vorkommen.

Der Untersuchung liegen folgende Annahmen zugrunde: 

  1. dass die Häufigkeit, mit der Wörter einer bestimmten Länge in einem Sprichwortkorpus ent­halten sind, nicht zufällig (chaotisch) ist, sondern einer bestimmten Regel- oder Gesetz­mäßigkeit folgt; 

  2. dass sich diese Regelmäßigkeit nicht nur beschreiben, sondern auch formalisieren lässt;

  3. dass sich diese Regelmäßigkeit so formalisieren lässt, dass sich Querverbindungen zu allgemeinen (nicht nur auf Sprichwörter bezogenen) Untersuchungen und theoretischen Annahmen zur Wortlängenverteilung herstellen lassen;

  4. dass diese Querverbindungen Aussagen über die Spezifik von Sprichwörtern und ihre sprachliche Konstituenten erlauben.

Es zeigt sich, dass die Wortlänge (gemessen in Silben) in einem estnischen Sprichwortkorpus adäquat durch die Hyperpascal-Verteilung beschrieben werden kann.  Für ein slowenisches Sprichwortkorpus ist die so genannte Hyberbinomial-Verteilung ein geeignetes Modell für die Verteilung der Wortlängenhäufigkeiten. Damit zeigt sich neben der gesetzmäßigen Organisation der Häufigkeitsverteilung von Wortlängen in einem Sprichwortkorpus, dass die sich in Sprichwortsammlungen manifestierende Häufigkeitsverteilung von Wortlängen weder mit denjenigen von Wortlisten noch mit derjenigen von Fließtexten vergleichbar ist.

 

2003

Kelih, E., Grzybek, P., Stadlober, E.
Das Grazer Projekt zu Wortlängen(häufigkeiten)
In: Glottometrika, 6, 94-102.
Es handelt sich um einen Überblick über Ziele und Vorgangsweise des Grazer Wortlängenprojekts (FWF #15485).

 

2002

Grzybek, P.; Altmann, G.
Oscillation in the frequency-length relationship
In: Glottometrics, 5; 97-107.

Seit den Arbeiten von Zipf (1932, 1935) gilt der Zusammenhang zwischen der Frequenz von Worten und dessen Länge als allgemein abgesicherte und bekannte linguistische Hypothese. In Anlehnung an diese Hypothese die besagt, dass die Wortlänge in einen umgekehrten Proportionalitätsverhältnis zur Frequenz steht, wurde eine Reihe von empirischen Überprüfungen auf der Grundlage von Texten, Textteilen und Textkorpora durchgeführt. 
In dieser Arbeit geht es vor allem um die Problematik der bei der empirischen Überprüfung des Zusammenhanges von Wortlänge und Wortfrequenz auftretenden Oszillation. Als plausible Erklärung für das Auftreten dieser Oszillation können mehrere Gründe angeführt werden: 

a.)     Inhomogenitäten innerhalb eines Textkorpus aufgrund von Datenmischungen;

b.)     das Anwachsen der Stichprobengröße;

c.)     Spezifizität der analysierten Daten.

Es kann jedoch durch die vergleichende Analysen gezeigt werden, dass durch das u.a. Zusammenfassen von Frequenzklassen (eine weite Methode ist die Einführung von gleitenden Durchschnitten) die  Ergebnisse der theoretischen Modellierungen verbessert werden können.

  

2002

Djuzelic, M.
Einflussfaktoren auf die Wortlänge und ihre Häufigkeitsverteilung am Beispiel von Texten slowenischer Sprache
Diplomarbeit, Technische Universität Graz (p. 100). 

The variable word length measured by the number of syllables, plays an important role in the statistical investigation of texts. Djuzelic carried out a case study based on 153 Slovene texts demonstrating the usefulness of discriminant analysis. The Slovene texts, which are from different epochs and different authors, are split into three different categories (literary prose, journalistic prose, poetry). The procedure starts with a pool of variables as text length, mean, standard deviation and functions of higher moments of word length. Only a few (3 to 4) variables responsible for the discrimination of the texts remain for inclusion in the final discrimant function. The results indicate that similar questions tackled with this approach may lead to suitable answers. This thesis was finished in 04/2002, and supervised by Ernst Stadlober (Institute for Statistics, TU Graz), in co-operation with Peter Grzybek (Institute for Slavic Studies (University of Graz).

 

2002

Grzybek, P., Stadlober, E.
The Graz Project on Word Length (Frequencies)
In: Journal of Quantitative Linguistics,  9(2); 187-192.

 

2002

Kelih E.; Grzybek, P.
Wortlängen in Texten. Internationales Symposium zur quantitativen Textanalyse
In: etc. Empirische Text- und Kulturforschung / Empirical Text and Culture Research, 2; 89-91.

 

2002

Antić, G.; Kelih, E.; Grzybek, P.
Word Length in Texts. An International Symposium on Quantitative Text Analysis.
In: Journal of Quantitative Linguistics, 2002; 9(3);  275-279.

 

1998

Grzybek, Peter
Explorative Untersuchungen zur Wort- und Satzlänge kroatischer Sprichwörter.
In: Polytropon. К 70-летию Владимира Николаевича Топорова. Moskva. (449-465).

In Vordergrund der Untersuchung steht die explorative und hypothesenbildende Anwendung von Ansätzen der quantitativen Linguistik bzw. Linguostatistik auf Fragen der sprachlichen Gesetzmäßigkeiten im Bereich der Sprichwortforschung. Folgende Hypothesen werden dabei auf Basis eines kroatischen Sprichwortkorpus einer empirischen Überprüfung unterzogen: 

a.)     Wie wirkt sich der Faktor der Bekanntheit auf die durchschnittliche Wortlänge aus? 

b.)     Wie wirkt sich der Faktor der Bekanntheit auf die durchschnittliche Satzlänge aus? 

c.)     In welchem Wechsel- und Abhängigkeitsverhältnis stehen Wort- und Satzlänge? 

d.)     In welcher Weise wirkt sich die Bekanntheit auf das Wechselverhältnis von Wort- und Satzlänge aus? 

Zusammenfassend wird gezeigt, dass der Faktor der Bekanntheit von Sprichwort bei allfälligen linguostatistischen Untersuchungen nicht vernachlässigt werden darf.  Auf theoretischer Ebene zeigt sich für Sprichwörter ein spezifisches Abhängigkeitsverhältnis  zwischen Wort- und Satzlänge.

 

In print

 In preparation

2004

Kelih, E., Grzybek, P.
Wortdefinitionen und Wortlängenforschung.
[In Arbeit]

Die vorliegenden Untersuchung steht im engen Zusammenhang der aktuellen Wortlängenforschung. Im Rahmen der Quantifizierung und damit einhergehenden Operationalisierung der Einheit 'Wort' wird auf die zentrale Frage der Wortdefinition und auf unterschiedliche theoretische Konzeption dieser Einheit eingegangen. 
In einem ersten Schritt werden drei unterschiedliche Definitionen der Einheit 'Wort' präsentiert, um dann in Anschluss die Wortlänge (gemessen in Silben) in russischen literarischen Texten zu bestimmen. Der grundlegende Ausgangspunkt ist dabei die zu prüfende Hypothese, ob und welche quantitative Unterschiede in Abhängigkeit der gewählten Wortdefinition nachgewiesen werden können. Die Modellierung der einzelnen Wortdefinitionen erfolgt auf der Basis von linearen Modellen, die einerseits eine Überprüfung der quantitativen Unterschiede auf Signifikanz und andererseits die Möglichkeit des Nachweises einer systematischen Verschiebung der Wortlänge aufgrund von unterschiedlichen Wortdefinitionen ermöglichen.

 

2004

Kelih, E.; Grzybek, P.
Wortlänge in Silben und Graphemen (am Beispiel des Russischen).
[In Arbeit]

Die vorliegenden Untersuchung steht im engen Zusammenhang der aktuellen Wortlängenforschung. Im Rahmen der Quantifizierung und damit einhergehenden Operationalisierung der Einheit 'Wort' wird neben der Frage der Wortdefinition auf zwei unterschiedliche Maßeinheiten, nämlich die Silbe und das Graphem eingegangen. 
In einer empirischen Überprüfung der Unterschiede in einem russischen Textkorpus kann folgendes festgestellt werden: Die Wortlänge, gemessen in Silben und Graphemen, zeigt ein gegenseitiges statistisch-systematisches Wechselverhältnis zwischen diesen beiden linguistischen Ebenen. Es zeigt sich jedoch auch, dass die Verteilung der  Wortlängen, gemessen in Graphemen einen hohen Grad an systeminterner Inhomogenität aufweist (bimodale Verteilungen) und somit mitunter davon auszugehen ist, dass die Silbe als adäquatere Maßeinheit gegenüber dem Graphem Betracht zu ziehen  ist.

 
| Institut für Slawistik | Fakultät | Universität Graz | aktualisiert am: 08.01.2012