M. W. Arapow
146
iiiułowanie, że struktura podlega prawu Zipfa. Problem ten jest technicznie trudny. Niezwykłe może wydawać się samo ujęcie zagadnienia, ponieważ językoznawcy nie dostrzegają tu w ogóle żadnego problemu. Sprawę tę wyjaśnimy dopiero w p. 2. Tym bardziej że zagadnienie może stać się jasne dopiero po wyjaśnieniu, na czym polega stosunek między wypowiadanym tu a tradycyjnym, prawdopodobieństwo-wym punktem widzenia na strukturę leksykalną tekstu (zob. 1.3.).
Aby przejść do badania realnych tekstów, nie wystarczy samo zbudowanie idealnego, z punktu widzenia struktury leksykalnej, modelu tekstu skończonego. Nie wystarczy wiedzieć, jak wygląda tekst spełniający prawo Zipfa. Trzeba choćby w przybliżeniu wyobrazić sobie, na czym polega alternatywa „prawidłowej organizacji”. W 3. przeanalizujemy strukturę tekstu skończonego w przeciwieństwie do struktury sumy tekstów skończonych.
Po dokonaniu powyższej analizy w rozdz. IV będziemy mogli przystąpić do przeglądu materiału eksperymentalnego i w rozdz. V sformułujemy wnioski.
1.2. W tekście będziemy wyróżniać zbiór X„ i = 1,2,... wszystkich użyć danego wyrazu x,. Będzie nas interesowała moc zbioru X„ którą będziemy nazywać częstością wyrazu x,-, F(xj) łub F,. Sumę wyrazów danego tekstu będziemy nazywać słownikiem danego tekstu V = {*,}, liczbę wyrazów w słowniku (lub długość słownika) będziemy oznaczali N. Liczbę wszystkich wyrazów słownika V występujących w tekście, czyli długość tekstu, oznaczymy L. Jest rzeczą oczywistą, że
XpV tmmj
Wprowadzimy jeszcze pojęcie grup wyrazów o danej częstości F. oznaczając liczbę wyrazów w takiej grupie mF.
W ten sposób właściwym przedmiotem naszych rozważań będzie nie tekst i nawet nie słownik tego tekstu, lecz zbiór parametrów liczbowych: ogólna liczba wyrazów w danym tekście L (długość tekstu), liczba różnych wyrazów N (długość słownika), zbiór częstości F„ liczba mF wyrazów o danej częstości F. Poddaliśmy tekst jak gdyby „sublimacji”, otrzymując w wyniku tego sumę liczb, którą będziemy nazy wali strukturą leksykalną tekstu. Będzie ona stanowiła tę rzeczywistość wyjściową — przedmiot naszych badań.
Należy pamiętać, że tekst nie określa jednoznacznie struktury' leksykalnej. Tak np. autorzy konkordancji tekstu staroangielskiego poematu Beowulf przy jednym rozumieniu terminu „wyraz” i jednym sposobie identyfikacji wyrazów stwierdzili, że długość poematu wynosi 17 306 wyrazów, a słownik składa się z 5512 różnych wyrazów. Przy innym określeniu terminu „wyraz” długość tego samego tekstu wynosi około 21 800 wyrazów, w tym 7265 różnych /3/. Jest to oczywiście przypadek szczególny, ponieważ w języku staroangielskim granica między grupą wyrazową a wyrazem jest trudna do uchwycenia. Okazuje się jednak, że nawet w dokładnie zbadanych językach współczesnych różnice przy określaniu długości tekstu i słownika mogą wynosić do kilku procent ich długości. Ch. Muller 4 przytacza wyniki trzech obliczeń odnoszących się do dramatu P. Corncille'a Polyeuete,
U