ICH
M. W. Afapow__L*«j
Można dowieść, że
L-X+d(N) 11 ' " (5)
rdt
Człon «/(łV) powstaje dlatego, że w ogólnym przypadku //', gdzie całkę
bierze się na odcinku /*„ na którym wartość funkcji zmienia się od P+t—1 do /i-K Tak więc zgodność funkcji / — ciągłego wariantu prawa Zipfa — i struktury leksykalnej jest ustalona z dokładnością do wyboru p. Wartość p można wybrać, żądając dodatkowo spełnienia dla jakiegokolwiek jednego i równości
//*- jAOdi - C6)
e
Jeżeli będziemy żądać spełnienia tej równości dla i *= I, to równanie (6) trzeba będzie zapisać w postaci:
-J"-PN(*
Mg hW
_j_ I pi
p
Pierwiastek tego równania: p «» 0,6508. Można pokazać, że przy tej wartości p wartość liczby d(N) w (5) jest znacznie mniejsza od N, tj. w przybliżeniu:
L M pN tn N (7)
Okazuje się więc, że wszystkie parametry tekstu idealnego można wyrazić jedną wielkością — długością słownika N, a w przypadku bardziej ogólnym (zob. 10/), gdy y# 1 — przez N oraz y6. Wszystkie inne parametry tekstu można znaleźć, jeżeli znane są wartości dwóch dowolnych: Ft i N, mt \ N, y \ N, L \ N itd.
Wynika z tego, że te trzy problemy, którymi oddzielnie od dawna zajmuje się statystyka językoznawcza: rozkład wyrazów o dużej częstości, rozkład wyrazów o małej częstości oraz stosunek między długością tekstu a długością słownika są dla tekstu idealnego jednym zagadnieniem, które rozwiązuje się za pomocą przytoczonych wyżej wzorów.
3. Tu rozpatrzymy naturalne alternatywy idealnej organizacji tekstu. Dokładnie zanalizujemy przypadek zestawiania słownika dla sumy tekstów idealnych. Sytuacja
# W Przypadku y * 1 równania (3), (4) i (7) będą zastąpione odpowiednio równaniami:
, PyNy . | |
J " l~y i\H+lr~v—H'-y] |
(30 |
—‘ 1 1 L (p+l—lply {p+lplr] |
(40 |
PyNy