100
Jerzy Woronctak
sowaniach (dla wzoru (I) — bez zwracania, dla (2) — niezależnych) będą identyczne. Wynika z tego, że im tekst jest bardziej różnorodny słownikowo, tym wskaźniki te mają niższe wartości. Wyrażona przy ich pomocy różnorodność słownictwa tekstu nie pokrywa się ściśle z tym, co zwykle rozumiemy pod bogactwem słownikowym tekstu, nie tylko bowiem teksty o tej samej długości i tej samej liczbie wyrazów różnych będą zwykle charakteryzowane innymi wartościami wskaźników, ale może się nawet zdarzyć, że tekst o większej ilości wyrazów różnych będzie posiadał wskaźniki wyższe niż tekst o słownictwie uboższym. Przykład tej ostatniej sytuacji zostanie szerzej omówiony w dalszej części niniejszego artykułu, tu zaś warto chyba jeszcze dodać, że podobnie opisuje różnorodność słownictwa tekstu charakterystyka Yule’a, określona wzorem
(3) K-lvĘf{frV.
będącym w swej istotnej części jakby kontaminacją formuł dla c2_ 0 oraz ć2 0-We wspomnianym artykule przeprowadzono również dowód empiryczny, że próby pobrane z tekstu metodą wybierania pojedynczych wyrazów przy pomocy tablic liczb żelaznych odpowiadają warunkom losowości i charakteryzują się małą zmiennością obliczonych na ich podstawie wskaźników, natomiast próby kontekstowe, uzyskane przez pobieranie z tekstów ciągów przyległych wyrazów, wygodniejsze i częściej stosowane, nie tylko odznaczają się o wiele większą zmiennością wskaźników, ale dają dla nich wartości wyraźnie zależne od swej długości. Pokazywał to jasno wykres IV, na którym punkty o współrzędnych ć2 0 oraz iifi równych średnim wartościom wskaźników obliczonych dla poszczególnych długości prób układały się w podkowę, gdyż dla prób o małej długości wskaźniki te rosły wraz z jej wzrostem, aby po przekroczeniu pewnej krytycznej długości próby systematycznie wraz z jej dalszym wzrostem maleć, zbliżając się coraz bardziej do wartości wskaźników obliczonych dla całego tekstu. Wynika z tego, że wskaźniki obliczone na podstawie prób kontekstowych nie mogą być uważane za estymatory nieobciążone, ale tylko za stochastycznie zbieżne. Dla dużych prób, np. o długości kilku i więcej tysięcy wyrazów, nie ma to raczej większego znaczenia i bardziej ważkim argumentem na rzecz stosowania prób losowych jest mniejsza zmienność uzyskiwanych na ich podstawie wskaźników, a prób bardzo małych, kilkunasto- czy kilkudziesięcio-wyrazowych, nikt nie użyje, nawet orientacyjnie dla oszacowania miar różnorodności słownictwa, tak że wartość tego wywodu dla zasadniczego tematu artykułu polegała tylko na empirycznym określeniu stopnia obciążenia i zmienności wskaźników obliczonych dla długich odcinków. To jednak, że niejako ubocznie stwierdzono charakter zmian wskaźników w zależności od długości próby poczynając od N — 2, pozwoliło na postawienie hipotezy, że przyczyną ich jest występujące w małych kontekstach, a uwarunkowane tak składniowo jak i stylistycznie „odpychanie się” identycznych wyrazów oraz „przyciąganie się" ich w jednotematycznych kontekstach średniej długości, jak również na propozycję charakteryzowania wykresami w rodzaju omówionego stylistycznej właściwości tekstów, którą prowizorycznie nazwano stopniem ich spójności.