29
Statystyka matematyczna
Co istotne w twierdzeniu 3.11, dwie trochę tylko inaczej skonstruowane statystyki X i $q są od siebie niezależne, mimo, że bazują na tej samej informacji - tej samej próbce X\, X%,...»Xn.
W przykładzie (3.9) warto się zastanowić, czym tak naprawdę jest statystyka K. Zauważmy, że statystyka ta zawiera tylko część informacji o całej naszej próbie, tzn. liczbę elementów wadliwych, ale już nie np. który z badanych elementów był wadliwy, a który nie, jaki był stan pierwszego elementu, itd. Wydaje się, że jest to istotna utrata informacji, na którą nie możemy sobie pozwolić. Z drugiej strony można sobie wyobrazić, że dla potrzeb kontroli jakości właśnie liczba elementów wadliwych będzie ważna, a nie kolejność ich wystąpienia. Tak rzeczywiście jest, o czym przekonamy się przy okazji omawiania zagadnienia estymacji (patrz rozdział 3.4).
Nasze rozważania dotyczące zasobu informacji zawartej w statystyce, a niezbędnej dla naszych potrzeb, dają przesłankę do następującej definicji.
Definicja 3.12. Statystyka T nazywa się statystyką dostateczną (dokładniej statystyką dostateczną dla parametru $), jeżeli dla każdej wartości t tej statystyki rozkład warunkoioy P# (A'i, X2,... ,Xn\T = t) nie zależy od 0.
Intuicyjnie rzecz biorąc, statystyka dostateczna zawiera całą, niezbędną informację w rozważanym przez nas przypadku. Z praktycznego punktu widzenia interesuje nas dobranie takiej statystyki dostatecznej, która byłaby „jak najmniejsza”, czyli zawierała ową niezbędną informację kosztem jak najmniejszej zajętej „przestrzeni”. Po co bowiem np. notować dokładnie, który element był wadliwy, jeśli wystarczy nam tylko wiedza o ich ogólnej liczbie?
Istnieje prosty sposób konstruowania statystyk dostatecznych. Mówi o nim następujące twierdzenie.
Twierdzenie 3.13 (Kryterium faktoryzacji). Statystyka T jest dostateczna wtedy i tylko wtedy, gdy gęstość rozkładu prawdopodobieństwa próby Xi, X%,..., Xn można przedstawić w postaci
••>**») = 99(T(xi,X2t... ,xn))h(xi,xzt.. , (3.25)
gdzie funkcja h nie zależy od 0, a funkcja g#, zależna od 0, zależy odxi, £2,..., £n tylko poprzez wartość statystyki T.
Jak łatwo zauważyć, dla rozważanego problemu istnieje wiele statystyk dostatecznych. Cała próba jest również tego typu statystyką. Powstaje pytanie, czy istnieje jakiś związek pomiędzy tymi statystykami? Jeśli w rozważanym problemie taka (funkcyjna) zależność istnieje, to prowadzi to do następującej definicji.
Definicja 3.14. Statystykę dostateczną S nazywamy minimalną statystyką dostateczną, jeżeli dla każdej statystyki dostatecznej T istnieje funkcja h taka, żeS — h(T).
Zgodnie z wprowadzoną wcześniej definicją modelu statystycznego, po wybraniu rodziny rozkładów prawdopodobieństwa P$ (gdzie# € ©) niezbędne jest wskazanie, przynajmniej w przybliżeniu, odpowiedniej wartości 0, która określa