Sambfir, J<zyk polski »• świetle statystyki
506
Pojawienie się wśród najczęstszych liter)” i wynika z wielości jej funkcji (oznaczanie głoski h! oraz wskazywanie na miękkość poprzedzających spółgłosek), z kolei najczęstsze pary literowe wynikają ze struktury najczęstszej w badanym tekście sekwencji trójliterowej nie. Dane te wykorzystamy niżej przy omówieniu dwóch typów ważnych eksperymentów, dzięki którym można ujawnić różny stopień entropii i redundancji elementów języka.
Na prostym przykładzie można łatwo się przekonać, że w polskim tekście pisanym o wiele łatwiej dadzą się zrekonstruować opuszczone („zdeformowane”) liter)” samogłoskowe aniżeli spółgłoskowe (kreskami oddzielono poszczególne wyrazy):
(a) tekst bez spółgłosek: /.e... /.e. / .a.o..o.e. /..y.a.y /\a..o/
(b) tekst bez samogłosek: /t.kst/b.z/s.m.gf.s.k Ici.l.m. H.twJ.
Rekonstrukcja zdania, bardzo trudna w wypadku (a), a niemal natychmiastowa w wypadku (b), dowodzi, że samogłoski są w polskim tekście bardzo łatwo przewidywalne na podstawie kontekstu., mają więc dużą redundancję, a małą entropię. Przewidywalność spółgłosek jest o wiele mniejsza, a więc mniejsza jest ich redundancja, większa zaś entropia. Informacja w teorii informacji rozumiana jest jako miara niepewności co do zajścia danego sygnału (np. litery, fonemu). Entropia jest to przeciętna ilość informacji przypadająca na 1 sygnał, a jej jednostką jest 1 bit, czyli ilość informacji, jaką niesie jeden z dwu sygnałów jednakowo prawdopodobnych (bardziej wyczerpujące dane na temat zastosowań teorii informacji wr językoznawstwie w: Hammerl, Sambor, 1990, rozdz. 4).
Pojęcie entropii można wykorzystać także do wyznaczania granic elementów tekstu (np. wyrazów, morfemów, sylab), przeprowadzając znany eksperyment psycholingwistyczny, który polega na odgadywaniu przez respondenta kolejnych liter (lub fonemów-) tekstu. Miarą entropii jest liczba pytań typu „czy”, jakie potrzebne są do odgadnięcia kolejnej liter)”, a granice między elementami tekstu wyznacza styk minimalnej i maksymalnej entropii. Pytania mogą być chaotyczne bądź zadawane w sposób systemowy”. Ta-