Research
    Projects
    QuanTA-Server
Publications
    Syllable/Morpheme
    Word
    Sentence
    Text
    History
    Methodology
    Poetics/Stylistics
Activities
    Conferences
    Presentations
Contacts/Links
Persons

HOME
quanta@uni-graz.at

[Seite drucken]
counter by CountIT.ch

 

Grapheme / Phoneme

 

2007

 Grzybek, Peter 
What a Difference an «E» Makes: Die erleichterte Interpretation von Graphemhäufigkeiten unter erschwerten Bedingungen
In: Deutschmann, Peter unter Mitarbeit von Peter Grzybek, Ludwig Karničar, Heinrich Pfandl (Eds.), Kritik und Phrase. Festschrift für Wolfgang Eismann zum 65. Geburtstag. Wien: Praesens. (105-128).

Diese Analyse richtet sich auf die deutsche Übersetzung des 1969 erschienenen Romans La Disparition von George Perec: Dieser Text ist dadurch charakterisiert, dass der Buchstabe ‚E' im gesamten Text nicht ein einziges Mal vorkommt. Es wird die Auswirkung der eingeführten Restriktion auf die Organisation der Häufigkeitsstruktur analysiert; die Analyse zeitigt die folgenden wesentlichen Ergebnisse:

1. Das System der Buchstabenhäufigkeiten ändert sich durch die Einführung der Restriktion nachhaltig: Die Redundanz des gesamten Systems wird reduziert, einhergehend mit einer höheren funktionalen Auslastung der verbliebenen Systemelemente. 
2. Die Einführung der Restriktion führt keineswegs zu Chaos, sondern mündet in einen Prozess der Selbst-Organisation, der im Prinzip auch unter "normalen" Bedingungen stattfindet. Entsprechend lassen sich die Häufigkeiten deutscher Buchstaben unter beiden Bedingungen theoretisch durch ein und dasselbe Modell, die negative hypergeometrische Verteilung (NHG), beschreiben, das sich auch schon an anderen (slawischen) Sprachen wiederholt als geeignet erwiesen hat.

3. Interessanterweise gibt gerade die experimentelle Analyse der Auswirkung der eingeführten Restriktion Hinweise auf ein einfacheres Modell, das einen Spezialfall der ansonsten sehr komplexen NHG darstellt; dieses Modell ist die sog. Dacey-3-Verteilung. 

In der Zusammenschau zeichnet sich ein Bild ab, dem zufolge in Modelle für die theoretische Beschreibung von Buchstabenhäufigkeiten offenbar auf die eine oder andere Art und Weise drei Größen integriert sein müssen: die erste Häufigkeit, der Mittelwert und der jeweiligen Inventarumfang. 

 

2007

 Grzybek, Peter 
On the systematic and system-based study of grapheme frequencies: a re-analysis of German letter frequencies
In: Glottometrics, 15; 82-91.

This study concentrates on the theoretical modeling of letter frequencies. Based on recent findings proving the negative hypergeometric function to be an adequate model, a re-analysis of German data reported by Best (2005) is conducted, concentrating on a detailed examination of parameter behavior. It is shown that all parameters of this distribution behave regularly, if the analysis is based on the system’s inventory size, rather than on the class of items occurring in the given sample. Directions for future research are pointed out, particularly involving factors influencing parameter values. 

 

2007

 Kelih, Emmerich 
Grapheme und Laute des Russischen: Zwei Ebenen - ein Häufigkeitsmodell? Re-Analyse einer Untersuchung von A.M. Peškovskij
In: Grzybek, Peter; Köhler, Reinhard (Eds.), Exact Methods in the Study of Text and Language. Dedicated to Gabriel Altmann on the Occasion of his 75th Birthday. Berlin / New York: Mouton de Gruyter. (269-280).

Die vorliegende Untersuchung ist ein Beitrag zur statistischen Modellierung russischer Graphem- und Lauthäufigkeiten. Als Untersuchungsbasis werden Daten zur Lautfrequenz im Russischen von Peškovskij (1925) herangezogen und zu den entsprechenden Graphemhäufigkeiten in Bezug gesetzt. Damit sollen diese in dieser Form bislang nicht analysierten Daten in die aktuelle Erforschung von theoretischen Rangverteilungen für Graphem- und Lauthäufigkeiten integriert werden. 

 

2006

Grzybek, Peter; Kelih, Emmerich; Stadlober, Ernst 
Graphemhäufigkeiten des Slowenischen (und anderer slawischer Sprachen). Ein Beitrag zur theoretischen Begründung der sog. Schriftlinguistik. 
In: Anzeiger für Slavische Philologie, 34; 41-74.

Im vorliegenden Text geht es um die Untersuchung von Graphemhäufigkeiten in slawischen Sprachen. Ausgehend von allgemeinen theoretischen Erörterungen, welche die Untersuchung in einen synergetischen Kontext stellen, wird wesentlich das Spektrum der sog. Schriftlinguistik erweitert. Es wird ein in der jüngsten Vergangenheit an verschiedenen Sprachen mehrfach diskutiertes Verteilungsmodell geprüft und im Hinblick auf mögliche sprachvergleichende bzw. sprachübergreifende Implikationen reflektiert: auszumachende methodologische Probleme der Datenqualität führen zur Notwendigkeit einer grundlegenden Neu-Analyse slowenischer Daten, die erstmals in einen solchen Zusammenhang gestellt werden. Die Ergebnisse weisen auf sprachübergreifende Prinzipien einerseits, sprachspezifische Bedingungen andererseits hin.

 

2006

Grzybek, Peter; Kelih, Emmerich; Altmann, Gabriel 
Graphemhäufigkeiten im Slowakischen. (Teil II: Mit Digraphen). 
In: Kozmová, Ružena (Ed.), Sprache und Sprachen im mitteleuropäischen Raum. Trnava. (661-684).

The present text concentrates on the question in how far Slovak graphemes reperesent a system, if the digraphs are considered to be units in their own right. The major argument is that it should be possible to theoretically describe the rank frequency of Slovak graphemes by way of an adequate statistical model. It turns out that the negative hypergeometric distribution is such a model. This model is compared to the Slovak system without digraphs, on the one hand, and to other Slavic alphabet systems, on the other.

 

2006

Grzybek, Peter

A Very Early Slavic Letter Statistic in the Czech Journal Krok (1831): Jan Svatopluk Presl (1791-1849)

Glottometrics, 13; 88-91.

This article directs the readers' attention to an almost unknown letter and sound statistic, which seems to be one of the very first of its kind in general, not only in the Slavic area. It was published in 1831, in the first Czech scientific journal Krok, edited by Jan Svatopluk Presl (1791-1849).

 

2006

Grzybek, Peter

Tomo Maretić's First Croatian and/or Serbian Sound Statistics (1899)

Glottometrics, 13; 92-96.

This article directs the readers' attention to an early sound statistic, published by the renonwned linguist Tomo Maretić (1854-1938). It was published in 1899, in Maretić's Gramatika i stilistika hrvatskogo ili srpskoga književnog jezika. Some methodological drawbacks and perspectives are pointed out.

 

2005

Grzybek, P.; Kelih, E.
Towards a General Model of Grapheme Frequencies for Slavic Languages.
In: Garabík, Radovan (Ed.), Computer Treatment of Slavic and East European Languages. Bratislava: Veda. (73-87).

The present study discusses a possible theoretical model for grapheme frequencies of Slavic alphabets. Based on previous research on Slovene, Russian, and Slovak grapheme frequencies, the negative hypergeometric distribution is presented as a model, adequate for various Slavic languages. Additionally, arguments are provided in favor of the assumption that the parameters of this model can be interpreted with recourse to inventory size.

 

2005

Grzybek, P.
A Study on Russian Graphemes
In: Toporov, V.N. (red.), Язык - личность - текст. Сборник в честь Т.М. Никалоевой. Москва: Языки славянских культур. (237-263).

The present text concentrates on the question in how far Russian graphemes reperesent a system. The major argument is that it should be possible to theoretically describe the rank frequency of Russian graphemes by way of an adequate statistical model. It turns out that the negative hypergeometric distribution is such a model, which, has not been discussed before.

 

2005

Grzybek, P.; Kelih, E.; Altmann, G.
Graphemhäufigkeiten im Ukrainischen. Teil I: Ohne Apostroph.
In: Altmann, Gabriel; Levickij, Viktor; Perebejnis, Valentina (Hrsg.), Problemi kvantitativnoi lingvistiki – Problems of Quantitative Linguistics. Černivci: Ruta. (159-179).

Der vorliegende Aufsatz stellt eine Analyse ukrainischer Graphemhäufigkeiten dar. Dabei geht es vor allem um die systematisch-empirische Überprüfung von postulierten Hypothesen zur theoretischen Modellierung der Rang-Frequenz-Verteilung des ukrainischen Grapheminventars. Besondere Berücksichtigung findet das Problem des Apostroph ('), der kein Bestandteil des normativen Alphabets ist, doch in der schriftlichen Praxis eine wichtige Funktion ausübt. Es stellt sich heraus, dass die negative hypergeometrische Verteilung ein geeignetes Verteilungsmodell darstellt, dessen Parameter werte im Kontext weiterer Untersuchungen zu anderen slawischen Sprachen interpretiert werden.

 

2005

Grzybek, P.; Kelih, E.
Häufigkeiten von Buchstaben / Graphemen / Phonemen: Konvergenzen des Rangierungsverhaltens.
In: Glottometrics, 9; 62-73.

The present study raises the question in how far low-level linguistic units, such as letters, graphemes, sounds and phonemes, follow one and the same pattern as to their frequency distribution. Based on Altmann/Lehfeldt’s (1980) study on 63 samples from 38 different languages, a separate re-analysis of the letter/grapheme vs. sound/phoneme samples is made, concentrating on the empirical entropy and repeat rate, on the one hand, and their theoretical calculations derived from the geometric and Zipf-Mandelbrot distributions. As a result, there are no significant differences as to these two global measures. This finding is interpreted in terms of a strong argument in favor of an analogical behavior of these linguistic units.

 

2005

Grzybek, P.; Kelih, E.; Altmann, G.
Graphemhäufigkeiten (am Beispiel des Russischen). Teil III: Die Bedeutung des Inventarumfangs – eine Nebenbemerkung zur Diskussion um das ё.
In: Anzeiger für Slavische Philologie, 33; 117-140.

Die vorliegende Studie ist der dritte Teil und die Fortsetzung einer Serie von Untersuchungen zur Vorkommenshäufigkeit russischer Grapheme. Dabei wird vor allem der Frage der Auswirkung der Berücksichtung von [Ёё] auf das russiche Graphemsystem in dessen Häufigkeitsstruktur detaillierter nachgegangen. Bei der Verfolgung unserer Frage werden 30 als Stichproben bezeichnete Texte in zwei Realisationsformen untersucht, die als B-32 bzw. B-33 bezeichnet werden: zum einen in ihrer Originalform mit [Ёё] (B-33), zum anderen in einer „künstlich“ hergestellten Variante, in der alle [Ёё] durch [Ee] ersetzt sind (B-32).
Folgende Fragen sind dabei von vorrangigem Interesse:
1. Wie wirkt sich die unterschiedliche Handhabung des [Ёё] empirisch aus?
Zur Beantwortung dieser Frage werden wir globale Kenngrößen von Verteilungen berechnen und für die beiden Untersuchungsbedingungen B-32 und B-33 miteinander vergleichen:
a.) die Entropie
b.) die Wiederholungsrate (repeat rate)
2. Wie wirken sich die beiden Realisationen auf der Ebene des theoretischen Verteilungsmodells aus, und zwar
a. im Hinblick auf die Anpassungsgüte
b. die Parameterwerte der Verteilungsmodelle.
In einem letzten Schritt schließlich werden wir die erhaltenen Ergebnisse in Zusammenhang mit den oben bereits erwähnten Untersuchungen zu anderen slawischen Sprachen stellen, um so die Ergebnisse zum Russischen in ein übergreifendes systematisches Gesamtschema einzubauen, das weitreichende Untersuchungsperspektiven auch für andere Sprachen eröffnet.

 

2004

Grzybek, P.; Kelih, E.; Altmann, G.
Häufigkeit russischer Grapheme. Teil II: Modelle von Häufigkeitsverteilungen.
In: Anzeiger für Slavische Philologie, 32; 25-54.

In der vorliegenden Abhandlung wird die Frage eines einheitlichen theoretischen Verteilungsmodells für die Häufigkeitsverteilung von Graphemen im Russischen diskutiert. Um ein methodologisch einheitliches Vorgehen zu erreichen, wurden die Analysen nach folgenden Gesichtpunkten durchgeführt: 

a.)  Im Gegensatz zu anderen Untersuchungen wird streng zwischen der graphematischen und phonematischen Sprachebene unterschieden; d.h. es werden ausschließlich Graphemuntersuchungen durchgeführt

b.)  dem Postulat  der für die quantitative Erforschung notwendigen Datenhomogenität wird insofern Rechnung getragen, als dass systematisch Teiltexte, Texte, Textkumulationen und Textmischungen einander gegenüber gestellt werden.

Systematisch werden eine Reihe bislang in der Forschung diskutierter Verteilungsmodelle (Zipf-, Zipf-Mandelbrot, geometrisch, Good) getestet; im Lichte von synergetisch-theoretischen Verallgemeinerungen zeigt es sich, dass für russische Graphemhäufigkeiten die bislang nicht diskutierte Withworth-Verteilung ein geeignetes Modell darstellt, und dass insgesamt die negativ-hypergeometrische Verteilung das angemessenste Modell zu sein scheint.

 

2003

Grzybek, P.; Kelih, E.
Häufigkeit russischer Grapheme. Teil I: Zur Geschichte der Untersuchung russischer Graphemhäufigkeiten
In:  Anzeiger für Slavische Philologie, 31; 131-162.

Der vorliegende Aufsatz stellt den Auftakt einer Reihe von Untersuchungen dar, in denen am Beispiel der Analyse russischer Graphemhäufigkeiten die prinzipielle Vorgehensweise der Quantitativen Sprach- und Textanalyse veranschaulicht werden soll.  Die erste dieser Teilstudien ist eine systematische Aufarbeitung von Arbeiten, in denen es um die Untersuchung der Vorkommenshäufigkeit russischer Grapheme geht. Diese primär historisch ausgerichtete Darstellung bislang vorgelegter Untersuchungen ist zum einen als wissenschaftshistorisch zu verstehen, zeichnet sich durch zum anderen durch eine klar definierte Methodologie aus, wie sie quantitative Untersuchungen charakterisiert: Aufstellung linguistischer Hypothesen, Übersetzung von zuvor formulierten Hypothesen in die Sprache der Statistik, die empirische Überprüfung, statistische Interpretation der Ergebnisse und die linguistische (qualitative) Interpretation. 

 

In print

 

2005

Grzybek, P.; Kelih, E.; Altmann, G. 
Graphemhäufigkeiten im Slowakischen. (Teil I: Ohne Digraphen). 
Erscheint in: Nemcová, E. (Hrsg.), Philologia actualis slovaca.

The present text concentrates on the question in how far the 43 graphemes of Slovak represent a system. The major argument is that it should be possible to theoretically describe the rank frequency of Slovak graphemes by way of an adequate statistical model. It turns out that the negative hypergeometric distribution is such a model.

 

2007

Grzybek, P.  
Graphem- und Phonemstatistik.
Erscheint in: Tilman Berger, Karl Gutschmidt, Sebastian Kempgen, Peter Kosta (Eds.), Handbuch slawische Sprachen. Berlin / New York: Mouton de Gruyter.

 

 
| Institut für Slawistik | Fakultät | Universität Graz | aktualisiert am: 08.01.2012