językowych. Cele tych badań są przede wszystkim poznawcze. Językoznawstwo typologiczne ukazuje podobieństwa i różnice między językami, dotyczące wszystkich części systemów językowych, a więc fonologii, gramatyki (tzn. różnic w kategoriach gramatycznych i sposobach ich wyrażania), składni, a także różnic w zakresie semantyki. Szerzej o kwestiach tych będzie mowa w wykładach następnych.
12.5. Badanie języka charakteryzujące się swoistością metody: językoznawstwo statystyczne
Pokażmy na koniec pewien typ badań językoznawczych, charakteryzujący się swoistością metody. Językoznawstwo statystyczne, rozwijające się od drugiej połowy XX wieku dość intensywnie (por. pionierskie prace Zipfa 1943, Guirauda 1960), bada strukturę ilościową tekstów i słownictwa, a więc częstość występowania w nich określonych elementów. Badania te ujawniają cały szereg prawidłowości, z których mówiący nie zdają sobie sprawy, używając języka. Tworząc tekst, autor wypowiedzi wybiera słownictwo zgodnie z własną wolą (zgodnie z przekazywanym sensem), a jednak okazuje się, że częstość użytych typów wyrazów w tekście, częstość fonemów jest stała: mówiący więc, nie mając świadomości, podlega pewnym określonym koniecznościom statystycznym. Na przykład w wytworzonym tekście wyrazy najczęstsze (i jednocześnie krótkie, proste, stare i wieloznaczne) stanowią grupę niewielką w słowniku tego tekstu, ale pokrywają ogromną część tekstu, natomiast wyrazy rzadkie w tekście, ale liczne w słowniku, pokrywają niewielką część tekstu. Podobnie częstość wystąpień określonych fonemów jest stała, np. w tekstach polskich częstsze są fonemy
0 prostszej realizacji (jak e> o), a rzadsze - „trudniejsze”, np. i, u.
Istnieją pewne prawa uniwersalne, właściwe wszystkim językom
1 typom tekstów, np. zależność między frekwencją elementu i jego rangą, tzn. pozycją frekwencyjną w słowniku (rangę 1 ma wyraz najczęstszy). W każdym tekście wyróżnić można zbiór leksemów użytych (słownik tego tekstu) i ilość wystąpień danego leksemu (jego frekwencję). Ze względu na frekwencję wyróżnia się strefę częstą, pośrednią i rzadką. Wyrazy rzadkie tworzą zbiór liczny, wyrazy częste - niewielki. Iloczyn rangi i frekwencji jest stały: wyrazowi o randze 1 odpowiada wysoka frekwencja, wyrazowi o randze np. 10 odpowiada frekwencja dziesięcio-
164 krotnie niższa, a iloczyn pozostaje niezmieniony.
Struktura statystyczna tekstu ma także charakterystyczne cechy indywidualne (składniowe, leksykalne i in.). Stąd statystyka wykorzystywana jest również w stylistyce, np. przy ustalaniu autorstwa tekstu lub jego chronologii. W historii literatury polskiej znany jest przypadek, gdy niejasność autorstwa tekstu została rozstrzygnięta za pomocą analiz statystycznych. Wspomina o nim Wierzbicka (1967). Chodzi o życiorys Mikołaja Reja, co do którego nie było pewne, czy autorem jest sam Rej, czy też Andrzej Trzecieski. Badania statystyczne tekstu, zestawione z analizą statystyczną utworów Reja, wykazały z dużym prawdopodobieństwem, że autorem życiorysu był sam Rej.
Badania statystyczne są również przydatne w semantyce, zwłaszcza przy ustalaniu hierarchii poszczególnych znaczeń wyrazu wieloznacznego. Charakterystyka ilościowa użyć poszczególnych znaczeń pozwala ustalić ich ważność i miejsce w funkcjonowaniu słownika. Prowadzone obecnie badania ilościowe nad gniazdami pojęciowymi (por. prace R. Hammerla i J. Sambor 1993) rzucają światło na strukturę pojęciową słownictwa.
Szerzej o badaniach statystycznych można przeczytać w pracy A. Wierzbickiej (1967), gdzie znajduje się znakomite popularne wprowadzenie w tę problematykę, oraz w opracowaniach podręcznikowych i monografiach J. Sambor (1972, 2001), a także w tomie Z zagadnień kwantytatywnej semantyki kognitywnej, pod redakcją J. Sambor (1997).