fil] ____Struktura ifoSttowa tekstu skończonego 1,55
taka jest również idealna, ponieważ zakłada się, iż rozpatrywana suma zawiera nieskończony zbiór tekstów idealnych i relacje między dwoma dowolnymi tekstami z tej sumy podlegają jednemu prawu. W rzeczywistości relacje między tekstami wchodzącymi w bardziej obszerne jednostki („nadteksty”) mogą być bardzo różne. Dlatego też proponowany model zgodnego użycia leksyki w tekstach jednego języka może być rozpatrywany tylko jako przybliżenie do opisu użycia wyrazów w złożonych tekstach kontaminowanych.
Przeciwieństwem połączenia kilku tekstów idealnych jest tekst nie zakończony. Powiemy o nim bardzo niewiele (dokładniej zob. /I/).
Wreszcie szczególnym przypadkiem są teksty skończone, ale małe (liczba różnych wyrazów N < 1000). Mamy podstawy sądzić, że ich organizację leksykalną można analizować z zaproponowanych przez nas pozycji, lecz jako wzorzec „idealnej organizacji” służyć musi inne prawo, różniące się od prawa Zipfa, chociaż w pewien sposób z nim związane (dokładniej zob. /9/).
Dotychczas przedmiotem naszej analizy był zbiór liczb; zagadnienia, jakim właściwie wyrazom odpowiadają te lub inne wartości częstości, nie poruszaliśmy. Aby móc mówić o wspólnej częstości zebranej przez wyraz w różnych tekstach, trzeba zobaczyć, jak uzgodnione jest użycie wyrazów w różnych tekstach tworzących daną całość. Prawdopodobnie bez takiej zgodności nie można ich uważać za teksty jednego języka. Teoria klasyczna rozwiązuje ten problem (razem z wieloma innymi), zakładając, że prawdopodobieństwo użycia danego wyrazu we wszystkich tekstach danego języka jest jednakowe.
My zaś zakładamy mniej ostry mechanizm zgodności, twierdząc, że istnieje prawdopodobieństwo p(x, n) użycia wyrazu x o częstości/, (lub na miejscu o randze n) w tekście danej klasy. Wykorzystując prawo Zipfa (w postaci funkcji ciągłej), zawsze możemy wyliczyć częstość wyrazu przy założeniu, że w słowniku danego tekstu znajduje się on na miejscu o randze n. W ten sposób uporządkowany rangowo słownik danego tekstu jest traktowany niby swego rodzaju magazynek pistoletu, który- jest napełniany z „pojemnika” W wspólnego dla wszystkich tekstów danego języka. Częstość pojedynczego wyrazu określają dwa czynniki: wewnątrztekstowy — po wybraniu rangi n wyrazu w konkretnym tekście, i międzytekstowy — od którego zależy wybór rangi dla danego wyrazu.
Podstawowe założenie, wykorzystywane przy zadaniu rozkładu prawdopodobieństw p(x, n), jest następujące. Istnieje grupa wyrazów, które praktycznie w dowolnym tekście występują z dużą częstością. Byłoby rzeczą bardzo trudną lub nawet niemożliwą skonstruowanie tekstu, w którym wyrazy te byłyby uży te rzadko lub nie wystąpiłyby w ogóle. Jednakże nie ma takich wyrazów, których używano by wyłącznie z małą częstością. Zawsze można skonstruować specjalny tekst, w którym dowolny, raczej rzadko spotykany wyraz będzie jednym z najczęściej występujących.
Przeciwieństwem tej pierwszej grupy będą wyrazy, które nic muszą być rzadko używane, ale których częstość trudno przewidzieć. Są one jakby „rozmazane” na osi rang. Zakłada się, że przejście z jednej do drugiej grupy wyrazów jest stopniowe.