Kiedy, czyli dla jakiego rozkładu prawdopodobieństwa niepewność będzie największa z możliwych? Będzie tak, gdy prawdopodobieństwa są jednakowe:
Pi = P2 = - Pn = 1/N
jV 1 1 11 /WM=-. I jj \og2jj =-Nm ± log2± =log2/V
w bitach na jedną literę (4)
Jeśli N jest potęgą naturalną2 (N = 2^, to -log2N każda literę da się przedstawić w postaci k-bitowej liczby w zapisie dwójkowym. Jeśli N#2k, to za "nowe" litery bierze się r literowe ciągi liter pierwotnych. Tych nowych liter jest teraz mr, zaś prawdopodobieństwo pojawienia się każdej z nich jest 1/Nr. Można pokazać, że można znaleźć takie naturalne ki i r, że zachodzi:
2k1'0<Nr<2k1 (5)
dla 8 < s , gdzie sjest dowolnie małą stałą dodatnią.
Przedstawiając każdą r-literową nową "literę" w postaci k1 bitowej liczby w zapisie dwójkowym uzyskuje się średnią liczby bitów przypadającą na literę pierwotną k-t/r.
Zaś z (5) wynika, że (6)
kL-e
r
< log2:V
<
r
Czyli, że możemy uzyskać średnią liczbę bitów na jedną literę dowolnie bliską podanej przez wzór (4).
Gdy prawdopodobieństwa są różne (vide wzór (3)), możemy analogicznie przypisać średnią liczbę bitów na jedną literę bliską dowolnie liczbie danej przez wzór (3). (Zatem przy kodowaniu możemy maksymalizować H).
Źródło podające litery (tekst jak wyżej), czyli jedną za skończonej liczby wiadomości nosi nazwę dyskretnego lub ziarnistego. Jeśli źródło podaje jedną z dwóch możliwych wiadomości (układ log. o stanach "tak" i "nie'), to jest to źródło binarne. Może być także źródło ciągłe np. termometr analogowy (rtęciowy; wyniki będące liczbami rzeczywistymi), podające wiadomości różniące się między sobą dowolnie małol
Teraz znając rzeczywistą niepewność występowania danej litery w tekście i porównując ją z Hmax(A) dla tej litery - można stwierdzić czy dany język jest oszczędny w przekazywaniu informacji czy też nie.
Zwróćmy uwagę, że ilość informacji związana z przekazem komunikat B o zdarzeniu A określonego według wzoru(1)
l<A B) = H(A) - H(A B)
można także zapisać:
l(A/B) = H(B) - H(B A)
gdzie H(B) to pierwotna niepewność komunikatu B, zaś H(B/A) to niepewność tego komunikatu, gdy zdarzenie A jest całkowicie zdeterminowane (określone).