107
O statystycznym określeniu spójności tekstu
Rozwijając szerzej i uściślając tę ostatnią propozycję, musimy sobie na wstępie zdać sprawę z tego, że posługując się czysto ilościową metodą badań właściwości słownictwa tekstów, dla której cechy wyrazu wyczerpują się na tym, że jest on inny od wszystkich pozostałych i występuje w f, określonych miejscach tekstu, możemy patrzeć na złożony problem spójności tekstu tylko przez wąską szczelinę. Wydaje mi się .jednak, że nawet taki zubożony obraz może mieć dużą wartość poznawczą, pozwalając nam poprzez analizę średnich wskaźników różnorodności leksyki dla różnej długości prób kontekstowych scharakteryzować właściwości statystyczne słownictwa lokalnego, a poprzez ustalenie, dla jakiej długości prób czy też dla jakiej grupy długości wskaźniki te przyjmują wartości maksymalne i jaki jest ich stosunek do wskaźników obliczonych dla całego tekstu, określić tak ważną właściwość stylistyczną utworu jak głębokość wewnętrznej spoistości leksykalnej.
Przyznaję, że dwa teksty analizowane w artykule, do którego się odwołuję — duży fragment powieści S. Kisielewskiego Sprzysiężenie i bylina Sadko — nie były najlepszą ani wystarczającą ilustracją proponowanej metody. Mimo rażącej różnicy w bogactwie leksykalnym długość próbek o maksymalnie ubogim słownictwie była dla obu tekstów właściwie równa, tak że można by sądzić, iż mamy tu do czynienia z inwariantem. Dlatego też przed prezentacją właściwego nowego materiału pozwolę sobie przedstawić przykład dobrany specjalnie tak, aby z jednej strony pokazać, że obraz statystyczny tekstu uzyskany omawianą metodą może być zupełnie inny, z drugiej zaś udowodnić, iż wyrażone wskaźnikami minimum różnorodności słownictwa charakteryzuje rzeczywiście odcinki maksymalnie związane treściowo.
Przykładem tym będą Myśli nieuczesane S. J. Lecą2. Spośród 1850 „myśli”, będących najoczywiściej tylomaż nie powiązanymi ze sobą samodzielnymi tekstami, wybrano wszystkie 8-wyrazowe w liczbie 232 i traktując je jako tekst ciągły, obliczono wskaźniki różnorodności dla próbek o długości 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024 wyrazów oraz dla całości tekstu (1856 wyrazów), przy czym granice odcinków 8-wyrazowych i dłuższych pokrywały się z granicami „myśli”. Uzyskane wyniki średnie przedstawia poniższa tablica:
Długość |
Średnia ilość |
Średnie wskaźniki różnorodności | |
odcinka N |
wyrazów różnych W |
C|,0 |
Gooda Cs,o |
2 |
2,00 |
0 |
0 |
4 |
3,99 |
0,00180 |
0 |
8 |
7,82 |
0,00647 |
0 |
16 |
15,30 |
0,00611 |
0,000062 |
32 |
29,24 |
0,00636 |
0,000087 |
64 |
55,34 |
0,00606 |
0.000121 |
128 |
102,86 |
0,00600 |
0,000140 |
2S6 |
183,14 |
0,00597 |
0,000138 |
512 |
322,33 |
0,00585 |
0,000137 |
1024 |
555,00 |
0,00578 |
0,000132 |
1836 |
902,00 |
0,00593 |
0,000147 |
1 S. J. Lec, Myśli nieuczesane, Kraków 1974.