JERZY WORONCZAK (Wrocław)
O STATYSTYCZNYM OKREŚLENIU SPÓJNOŚCI TEKSTU
W opublikowanym w 1965 r. artykule pt. Metody obliczania wskaźników bogactwa słownikowego tekstów1 zająłem się szerzej dowodem, że wskaźniki określone formułą
(?)
Cm>0 " N(N— 1) ... (N-m+1) gdzie N oznacza długość próby liczoną w wyrazach, zaś/, frekwencje występujących w niej wyrazów różnych, są estymatorami nieobciążonymi miar różnorodności zaproponowanych przez I. J. Gooda.
i
gdzie p, oznaczają prawdopodobieństwa różnych wyrazów słownika. Innymi słowy,
0 ile tylko zostaną dotrzymane warunki losowego pobrania próby tekstu, którego ze względu na jego obszerność nie można przeanalizować w całości, długość próby będzie miała wpływ jedynie na dokładność oszacowania liczbowych właściwości całego tekstu, nie będzie natomiast niosła ze sobą żadnego systematycznego błędu oszacowania. Jeżeli próba będzie pochodzić z losowania niezależnego, to obliczone dla niej ze wzorów (1) wskaźniki będą estymatorami nieobciążonymi miar, które można by dla całego tekstu obliczyć ze wzorów (2), przy posłużeniu się zaś próbą uzyskaną z losowania bez zwracania będą one nieobciążonymi estymatorami wskaźników, jakie można obliczyć dla całego tekstu według wzorów (1). Ponieważ porównywanie cech liczbowych tekstów jest czystsze metodologicznie, jeśli również
1 całe teksty traktować jako próby, a obliczone dla nich wskaźniki jako estymatory, należy preferować pobieranie prób losowaniem bez zwracania, ze względu natomiast na szybko rosnące ze zwiększaniem m losowe wahania w oszacowaniu nie warto obliczać wskaźników dla m przekraczającego 3.
Wskaźniki, o których tu mowa, mają nader prostą interpretację: wyrażają one prawdopodobieństwo, że wyrazy wylosowane z tekstu czy też z jego próby w ni lo-
1 J- Woronczak, Metody obliczania wskaźników bogactwa słownikowego tekstów, [w zbiorze!: Poetyka > matematyka, Warszawa 1965, s. 145—163.