Sentence

 

2008

Grzybek, Peter; Kelih, Emmerich; Stadlober, Ernst
The relation between word length and sentence length: an intra-systemtic perspective in the core data structure.
In: Glottometrics, 16; 111-121.

Word length and sentence length are systematically organized in texts and corpora. In recent attempts at the synergetic modeling of the relation between sentence length and word length, the importance of distinguishing intra-textual from inter-textual approaches has been emphasized. The present study focuses on the intra-textual level: with a particular emphasis on different text types, it is shown, under which conditions processes of inter-level self-regulation are operative, and when they fail to be efficient.

 

2007

Grzybek, Peter; Stadlober, Ernst 
Do We Have Problems With Arens' Law? A New Look at the Sentence-Word Relation.
In: Peter Grzybek; Reinhard Köhler (eds.): Exact Methods in the Study of Language and Text. Dedicated to Professor Gabriel Altmann on the Occasion of His 75th Birthday. Berlin / New York: Mouton de Gruyter. (205-218).

This contribution discusses a number of theoretical and methodological problems with regard to the sentence-word relation which usually is interpreted along Arens' Law as a special case of the Menzerath-Altmann Law. It is argued in favor of the notion that empirical problems in dealing with Arens's Law may be related to different factors:

  1. Attention must be paid to the distinction of intra-textual and inter-textual perspectives when dealing with Arens' Law; 

  2. It seems reasonable that Arens' Law is valid only within the framework of particular text sorts, or discourse types; 

  3. Arens's Law seems to express specific tendencies which can be submitted to observation only in case of large data material, or by way of specific pooling procedures; pooling, in turn, may lead to partly diverging results, depending on the concrete procedure chosen.

 

2007

Grzybek, Peter;   Stadlober, Ernst; Kelih, Emmerich
The Relation of Word Length and Sentence Length: The Inter-Textual Perspective.
In: Decker, Reinhold; Lenz, Hans-J. (eds.): Advances in Data Analysis. Berlin etc.: Springer. (611-618).

The present study concentrates on the relation between sentence length and word length as a possible factor in text classification. The dependence of sentence length and word length is discussed in terms of general system theory and synergetics; the results achieved thus are relevant not only for linguistic studies of text classification, but for the study of other complex systems, as well.

 

2006

Kelih, Emmerich; Grzybek, Peter; Antić, Gordana; Stadlober, Ernst 
Quantitative Text Typology. The Impact of Sentence Length.
In: Spiliopoulou, Myra; Kruse, Rudolf; Nürnberger, Andreas; Borgelt, C.; Gaul, Wolfgang (eds.): From Data and Information Analysis to Knowledge Engineering. Heidelberg/Berlin: Springer. (382-389)

This study focuses on the contribution of sentence length for a quantitative text typology. Therefore, 333 Slovenian texts are analyzed with regard to their sentence length. By way of multivariate discriminant analyses it is shown that indeed, a text typology is possible, based on sentence length, only; this typology, however, does not coincide with traditional text classifications, such as, e.g., text sorts or functional style. Rather, a new categorization into specific discourse types seems reasonable.

 

2005

Kelih, Emmerich; Grzybek, Peter  
Satzlängen: Definitionen, Häufigkeiten, Modelle
In: A. Mehler (Ed.), Quantitative Methoden in Computerlinguistik und Sprachtechnologie. [= Special Issue of: LDV-Forum. Zeitschrift für Computerlinguistik und Sprachtechnologie // Journal for Computational Linguistics and Language Technology]

Am Beispiel von ca. 30 slowenischen Prosatexten wird die Auswirkung von zwei unterschiedlichen in der gegenwärtigen Satzlängenforschung verwendeten Satzdefinitionen auf quantitative Unterschiede (Mittelwert, Schiefe, Kurtosis mit jeweiligen Vergleichstests) bei der Modellierung von Satzlängenhäufigkeiten geprüft. Unabhängig (a) von der Satzdefinition und (b) von der Analyseebene (einfache und komplexe Texte, Korpus) erweist sich hierbei die negative Binomialverteilung als geeignetes Modell. Im Zusammenhang mit der Anpassung dieser diskreten Häufigkeitsverteilung wird eine systematische Verschiebung der aus dem Modell hervorgehenden Parameter nachgewiesen.

 

2004

Kelih, Emmerich; Grzybek, Peter  
Häufigkeiten  von Satzlängen: Zum Faktor der Intervallgröße als Einflussvariable (am Beispiel slowenischer Texte).
In: Glottometrics, 8; 23-41.

In der gegenwärtigen Erforschung von Satzlängen und deren Häufigkeitsverteilungen werden aufgrund der hohen Streuung in der Regel die einzelnen Längenklassen zu Gruppen zusammengefasst. Am Beispiel von slowenischen Prosatexten wird in er vorliegenden Studie gezeigt, dass der Faktor der Intervallbildung einen wesentlichen Einfluss auf die entsprechenden theoretischen Modelle haben kann.

 

2002

Grzybek, Peter; Schlatte, Rudi
Zur Satzlänge deutscher Sprichwörter. Ein Neuansatz.
In: E. Piiirainen; I.T. Piirainen (Hrsg.), Phraseologieforschung in Raum und Zeit. Baltmannsweiler. (273-284).

Vor dem Hintergrund allgemeiner methodologischer Probleme (intra- und interlinguale Vergleiche der Satzlänge in Sprichwörtern und die damit verbundene Problematik) werden folgende Problemstellungen spezifiziert:

  • Wie oft kommen Sprichwörter mit einer bestimmten Satzlänge in einem gegebenen Sprichwortkorpus vor? 

  • Daraus leitet sich folgende Spezialfrage ab:

    • Folgt die Häufigkeitsverteilung von Satzlängen in Sprichwörtern einer bestimmten Gesetzmäßigkeit?

    • Lässt sich die spezifische Häufigkeitsverteilung von Satzlängen in Sprichwörtern formal beschreiben?

  • Wie steht ein solches Gesetz zu Satzlängen in anderen Texten?

  • Ist ein solches Gesetz sprachspezifisch oder sprachübergreifend?

  • Wie wirken sich spezifische Faktoren wie z.B. Bekanntheit der Sprichwörter auf das Modell der Häufigkeitsverteilung aus? 

Die empirische Überprüfung zeigt, dass die Hyperpascal-Verteilung ein geeignetes Modell für die Modellierung der Satzlängen in deutschen Sprichwörtern ist; problematisch hierbei scheint allerdings zu sein, dass bei Zusammenfassung der einzelnen Satzlängen zu Gruppen (2er, 3er, 4er usw. Intervalle) unter Umständen ein anderes Modelle (z.B. Hyperpoisson) in Betracht zu ziehen ist. 

 

2002

Kelih, Emmerich
Untersuchungen zur Satzlänge in russischen und slowenischen Prosatexten. Band 1 & Band 2
Diplomarbeit, Graz 2002. 

1. Zusammenfassung

Die Untersuchungen zur Satzlänge in russischen und slowenischen Prosatexten zeigen die Möglichkeiten einer quantitativen Beschreibung von Texten. Eine hypothetisch formulierte Gesetzmäßigkeit der Verteilung von Satzlängen (vgl. Altmann 1988) gemessen in Worten in der Form von theoretischen Modellen wurde an insgesamt 27 russischen und 27 slowenischen Texten überprüft. 
Die vorliegenden Ergebnisse lassen unter Berücksichtigung bisher durchgeführter Analysen zur Verteilung von Satzlänge in Texten die nachfolgende Interpretation zu. In den analysierten slowenischen und russischen Texten ist die Verteilung der Satzlängen (in Texten) nicht als „chaotisch” zu bezeichnen, sondern folgt sozusagen einem strengen „Bauplan”, beschreibbar durch theoretische Verteilungsmodelle. Durch die Quantifizierung von Texteinheiten ist es möglich Strukturebenen zu beschreiben, die in dieser Form nicht nur für einzelne Texte gelten, sondern Gültigkeit für ein ganzes Textkorpus haben. Neben der empirischen Überprüfung der postulierten gesetzmäßigen Verteilung von Satzlängen werden in dieser Arbeit systematisch Faktoren untersucht, die unter Umständen einen Einfluss auf die Modellierung haben.

1.1. Satzlängenmodellierung und Einflussfaktoren

Die erste zentrale Frage war, ob die Bestimmung der Maßeinheit Satz auf die Art der Modellierung der Satzlängenverteilung Einfluss zeigt. Ohne auf eine syntaktische Definition der Einheit ’Satz in Texten’ zurückgreifen zu müssen, ergeben sich für quantitative Untersuchung zumindest zwei unterschiedliche Satzdefinitionen, die dann sowohl in den slowenischen als auch russischen Texten angewandt werden können, sofern die Satzlänge dabei in der Anzahl der Wörter pro Satz gemessen wird. 
In Anbetracht der vorliegenden Ergebnisse kann davon ausgegangen werden, dass die gewählten Satzdefinitionen – unter Einschränkungen – keinen signifikanten Einfluss auf die Modellierung der Satzlängenverteilung haben. In einigen Fällen führt die Anwendung von unterschiedlichen Satzdefinitionen bei der Hyperpoisson-Verteilung dazu, dass keine adäquate Modellierung der Texte möglich ist. Derartiges gilt für das vorliegende Textkorpus jedoch nicht in Bezug auf die negative Binomialverteilung. So stellt diese Distribution in allen Fällen ein konstantes und somit geeignetes Modell für die Verteilung der Satzlängen dar. Hinsichtlich der Hyperpascal-Verteilung ist eine Interpretation der Ergebnisse unter Berücksichtigung der zwei gewählten Satzdefinitionen, nur schwer möglich. Bei dieser Verteilung spielt – und damit wird ein weiterer zentraler Aspekt dieser Arbeit angesprochen – die Art der Zusammenfassung von Satzlängenklassen eine entscheidende Rolle. 
Die Zusammenfassung von Satzlängen zu Intervallen ist aufgrund der Spannweite der Satzlängen ein übliches Verfahren. Wie jedoch gezeigt werden konnte, haben diese Zusammenfassungen bei der Modellierung der Satzlängenverteilung eine entscheidende Bedeutung. Für die Hyperpascal-Verteilung zeigen die Ergebnisse, dass ein unmittelbarer Zusammenhang zwischen der Art der Zusammenfassung der Satzlängen und der Güte der Anpassungen besteht. Diese Verteilung kann nur bei entsprechender Zusammenfassung der Satzlängenklassen in Intervalle von 1-3, 1-4 und 1-5 usw. Wörter als geeignetes Modell der Verteilung der Satzlängen in den vorliegenden russischen und slowenischen Texten angesehen werden. Einschränkend muss man jedoch anmerken, dass die absolute Anzahl der akzeptablen Anpassungsergebnisse bei der Hyperpascal-Verteilung unter denen der negativen Binomialverteilung und – mit einer Ausnahme – denen der Hyperpoisson-Verteilung blieben. 
Die im Rahmen dieser Arbeit bereits erwähnte Vermutung, dass für den Nachweis von statistischen Gesetzmäßigkeiten eine „ideale“ Länge von circa 200 Sätzen anzusetzen ist (vgl. Niehaus 1997, Hammerl 1989), kann in Rahmen der vorliegenden Untersuchung nicht bestätigt werden. Da die Maßeinheit Text nach dem Prinzip der Analyse von Gesamttext und Teiltext (Kapitel) vorgenommen wurde, ergab sich eine Spannweite von sehr kurzen und relativ langen Texten, wobei dies bei der Modellierung insgesamt keine nachweisbare Rolle spielt. Dass die Hyperpoisson-Verteilung für russische Texte ein geeignetes Modell darstellt (vgl. Roukk 2001b), ist demnach spekulativ auf die relative Kürze der Texte bzw. auf die unterschiedlichen Textgattungen in der Analyse von Roukk zurückzuführen. 
Insgesamt zeigt sich, dass die 1-verschobene negative Binomialverteilung das geeignete Modell für die Verteilung der Satzlängen, gemessen in Worten, in 27 russischen und 27 slowenischen Texten ist. Ungeachtet der Anwendung von zwei unterschiedlichen Satzdefinitionen und fünf unterschiedlichen Arten der Zusammenfassung ist eine konstante Übereinstimmung zwischen empirischer Beobachtung und Verteilungsmodell zu konstatieren. Damit stehen die Ergebnisse im Einklang mit theoretischen Modellierung der Satzlänge in deutschen Texten bei Best (2001) und (Niehaus 2001). Auch in diesen Untersuchungen wird die negative Binomialverteilung für die Modellierung der Satzlängen, gemessen in Worten, in 45 deutschen Texten als ein geeignetes Modell dargestellt. Ob damit in der Tat eine sprachübergreifende Konzeption der Verteilung von Satzlängen in Texten abzuleiten ist, bleibt dennoch fraglich. Solange keine verbindlichen Ergebnisse zu weiteren potentiellen Einflussfaktoren der Satzlängeverteilung wie Autorenschaft, Textgattung und Maßeinheit Satz (Satzlänge gemessen in Worten oder in Teilsätzen) vorliegen, wäre es eindeutig verfrüht, eine sprachübergreifende Konzeption der Modellierung von Satzlängenverteilungen festzustellen. 
Zumindest kann jedoch festgestellt werden, dass für die vorliegende Untersuchung die Autorenschaft keine entscheidende Rolle spielt. Dass sowohl in russischen und slowenischen Texten die negative Binomialverteilung ein geeignetes Modell darstellt, ist möglicherweise auf die Homogenität der gewählten Texte (nur literarische Prosa) zurückzuführen.

1.2. Perspektiven

Abschließend lässt die vorliegende Arbeit allgemeine Folgerungen in zwei unterschiedliche Richtungen zu: einerseits betrifft dies die Satzlänge als Parameter stilistischer Beschreibungen von Texten und andererseits die nicht gelösten Fragen der mathematischen Zusammenhänge der in der Untersuchung verwendeten theoretischen Verteilungsmodelle. 
Der Stilparameter Satzlänge lässt sich unter Umständen beispielsweise durch die Berechnung weiterer statistischer Kennwerte weitaus präziser und umfassender beschreiben, als dies in bisherigen Untersuchungen durchgeführt wurde. Zum anderen ist eine Ausweitung auf weitere quantitative Beschreibungsgrößen wie die Vorkommenshäufigkeit von Graphemen, der Vorkommenshäufigkeit von Wörter, der Silbenlänge und Wortlänge vorstellbar, womit möglicherweise die spezifische Struktur von Texten erschöpfend erfassbar wird. In Betracht zu ziehen wäre auch die gleichzeitige quantitative Betrachtung der Einheiten ‚Wort in Texten’ und ‚Satz in Texten’, was einen weiteren Schritt in Richtung quantitativer Texttheorie bedeuten würde. 
Aus statistisch-mathematischer Sicht wäre zu prüfen, inwiefern sich nun tatsächlich Zusammenhänge zwischen den in der Arbeit angesprochenen theoretischen Verteilungsmodellen nachweisen lassen. Notwendig erscheint es auch zu prüfen, inwieweit sich zum Beispiel „gemischte“ Verteilungen oder ähnliches ableiten lassen. Zu untersuchen wäre auch ob, und welche Zusammenhänge sich bei der Analyse der berechneten Parameter der theoretischen Verteilungsmodelle ergeben.

 

2001

Grzybek, Peter
Zur Satz- und Teilsatzlänge zweigliedriger formelhafter Sprichwörter.
In: Uhlířová, L.; Wimmer, G.; Altmann, G.; Köhler, R. (eds.), Text as a Linguistic Paradigm: Levels, Constituents, Constructs. Trier. (64-76).

Ungeachtet der Tatsache, dass in parömiologischen Studien immer wieder auf eine Tendenz zur Kürze verwiesen wird – ohne dass dabei freilich dargelegt würde, worin diese Kürze eigentlich besteht –, werden offenbar Parallelismus und Formelhaftigkeit in der Sprichwortforschung des öfteren diskutiert. Dringend notwendig erscheint vor diesem Hintergrund eine systematisch-quantitative Untersuchungen, die sich sowohl mit einzelnen Faktoren (Kürze von Sprichwörtern, Verwendung von Antonymen, Ausbildung von Parallelstrukturen) wie auch mit möglichen Wechselbeziehungen zwischen ihnen beschäftigen. 
In der vorliegenden Untersuchung wird ein Versuch der Quantifizierung gemacht, der auf die Untersuchung des Zusammenhanges von Formelhaftigkeit, Parallelismus und Satzlänge abzielt. Basis der Untersuchung ist die ’Sammlung Deutscher Sprichwörter’ von Karl Simrock aus dem Jahr 1846. Es werden jene 2114 Sprichwörter in Betracht gezogen, die sich durch klassische Formelanfänge (Je ...; Was ...; Wem ...; usw.) und durch eine syntaktische Zweiteilung (Je..., je /desto/ um so ...; u.a.) auszeichnen. 
Die quantitative Analyse der Satzlängen in diesen zweigliedrigen formelhaften Sprichwörtern zeigt insgesamt eine Tendenz, der zufolge das erste der beiden Kola sich im Vergleich zum zweiten Kolon als länger erweist. Diese Tendenz, die sich als Tendenz zur Anti-Klimax verstehen lässt, ist allerdings nicht von allgemeiner Gültigkeit. Bei Sprichwörtern mit formelhafter Einleitung im ersten und im zweiten Kolon stellt es sich heraus, dass ersten und zweites Kolon dazu tendieren, gleich lang zu sein, so dass die Formelhaftigkeit in der Tat in einer syntaktisch-lexikalischen Parallelstruktur resultiert. 

 

2000

Grzybek, Peter

Zum Status der Untersuchung von Satzlängen in der Sprichwortforschung. Methodologische Vor-Bemerkungen.

In: Слово во времени и пространстве. К 60-летию В.М. Мокиенко. Sankt Peterburg. (430-457).

In dieser Arbeit erfolgt die Diskussion folgender Problemstellungen: 

  1. eine Bestandsaufnahme, wo die im Rahmen der Parömiologie vorgenommenen Satzlängenforschungen stehen, d.h. welche Arbeiten es gibt, was ist in ihnen untersucht worden; mit welchen Mitteln ist die Fragestellung bearbeitet worden

  2. ein Hinweis darauf, welche methodischen und methodologischen Probleme mit den bisherigen Untersuchungen und den in ihnen verwendeten Verfahren verbunden sind; 

  3. die Durchführung kurzfristiger Reparaturmaßnahmen an den bisherigen Untersuchungen; 

  4. die programmatische Formulierung weiterführender Untersuchungen

Neben diesen allgemeinen Überlegungen wird eine Reihe von statistischen Basiswerten (Mittelwerte, Standardabweichungen, Varianzen) und statistischen Verfahren (Vergleich der mittleren Satzlängen in unterschiedlichen Sprichwortsammlungen usw.) als methodologisches Grundwerkzeug für die quantitative Sprichwortforschung vorgestellt.

 

2000

Grzybek, Peter
Remarks on the sentence length of proverbs.
In: Baayen, R.H. (ed.), Proceedings of the fourth conference of the International Quantitative Linguistics Association. Prague, August 24-26, 2000. Prag. (89)

This paper is related to a research project on quantitative aspects of proverbs. The issue discussed focuses primarily on the question of sentence length and sentence length distribution of proverbs. Proverbs are an interesting object for linguistic studies, since they represent a specific text type on the sentence level, which displays particular features due its stereotypical form. On the basis of more than a dozen of analyses from proverbs of different languages (including Croatian, Estonian, German, Hungarian, Russian, Slovenian, Turkish, and others) it is shown by way of empirical evidence that there is a common model which fits for proverbs from all these languages.

 

2000

Grzybek, Peter
Wie lang sind slowenische Sprichwörter? Zur Häufigkeitsverteilung von (in Worten berechneten) Satzlängen slowenischer Sprichwörter
In: Anzeiger für slavische Philologie, (27) 1999 [2000]; 87-108.

Im vorliegenden Text geht es um die Häufigkeitsverteilung von Satzlängen in slowenischen Sprichwörtern. Die Untersuchung dieser Fragestellung liegen eine Reihe von aufeinander aufbauenden Grundannahmen zugrunde, nämlich:

  1. dass die Häufigkeit, mit der Sprichwörter einer bestimmten Länge in einem solchen Sprichwortkorpus enthalten sind, nicht zufällig (chaotisch) ist, sondern einer bestimmten Regel- oder Gesetzmäßigkeit folgt; 

  2. dass sich diese Regelmäßigkeit nicht nur beschreiben, sondern auch formalisieren lässt; 

  3. dass sich diese Regelmäßigkeit so formulieren lässt, dass sich Querverbindungen zu allgemeinen (nicht nur Sprichwörtern bezogenen) Untersuchungen und theoretischen Annahmen zur Satzlängenverteilungen herstellen lassen; 

  4. dass diese Querverbindungen Aussagen über die Spezifik von Sprichwörtern bzw. von sprichwörtlichen Sätzen erlauben. 

Neben diesen allgemeinen theoretischen Überlegungen, einer knappen Darstellung der slowenischen Parömiographie, einer Darstellung zum Status der quantitativen Satzlängenforschung folgt der Versuch einer theoretischen Modellierung der Satzlänge in einem slowenischen Sprichwortkorpus. Besonderes Augenmerk wird dabei auf die Frage der in der Satzlängenforschung übliche Verfahren der Zusammenfassung von Satzlängen gelegt: bei der Bestimmung der Satzlängen, gemessen in der Anzahl pro Worte werden aufgrund der extremen Spannweite der Satzlänge verschiedene Klassenzusammenfassungen durchgeführt werden (Zweier-, Dreier-, Vierer und Fünfergruppen). Es zeigt sich, dass für slowenische Sprichwörter die Hyperpoisson-Verteilung in allen Klassen der Zusammenfassung ein adäquates Modell der Satzlängenverteilung darstellt.

  

1995

Grzybek, Peter
Zur Frage der Satzlänge von Sprichwörtern (unter besonderer Berücksichtigung deutscher Sprichwörter).
In: Baur, R.S.; Chlosta, Ch. (Hrsg.), Von der Einwortmetapher zur Satzmetapher. Akten des Westfälischen Arbeitskreises »Phraseologie / Parömiologie« (1994/95). Bochum. (203-217).

Diese Untersuchung ist auf den bislang in Phraseologie und Parömiologie vernachlässigten Bereich der quantitativen linguistischen Analyse von Sprichwörtern ausgerichtet. Im Vordergrund steht eine interdisziplinäre Herangehensweise, die ausgehend von psycholinguistischen  Annahmen den Faktor der Bekanntheit von Sprichwörtern mit den von der quantitativen Linguistik gemachten Annahme über die Existenz von sprachlichen Gesetzmäßigkeiten verknüpft. Auf der Grundlage von bekannten deutschen Sprichwörtern gelingt der Nachweis, dass die Satzlänge von Sprichwörtern mit dem Bekanntheitsgrad von Sprichwörter zusammenhängt.

 

In print

 

2007

Grzybek, Peter; Kelih, Emmerich; Stadlober, Ernst 
The Relation Between (Linguistic) Units of Different Levels: An Intra-Systemic Perspective.
In: Schmidt-Thieme, Lars; Burckhardt, Hans; Decker, Reinhold (eds.): Data Analysis, Machine Learning, and Applications. Heidelberg/Berlin: Springer.

As has been repeatedly shown in quantitative linguistics, word length (WL) and sentence length (SL) are very systematically organized in texts and corpora. As a consequence, WL and SL are efficient factors in the classification of particular discourse types. Recently, these studies have been extended to the relationship between these two linguistic levels, aiming at a theoretical modelling of the relation between units of different levels of a given system. In this context, the importance of distinguishing intra-textual from inter-textual approaches has been emphasized, and it has been shown that, from an inter-textual perspective, there seems to be only weak evidence in support of the theoretical assumptions. The present study focuses on the intra-textual level, analyzing the SL-WL relation, particularly focusing the distinction of discourse types.