Rozdział 12
12. WADY I ZALETY ESTYMATORÓW S2 I
PARAMETRU σ2.
Zakładamy, że zmienna losowa X ma w populacji generalnej rozkład normalny określony parametrami m oraz σ. Ciąg niezależnych zmiennych losowych X1, X2,..., Xn-1, Xn, stanowiący próbę prostą, jest ciągiem zmiennych o jednakowym rozkładzie, takim jak rozkład zmiennej losowej X w populacji generalnej. Każda ze zmiennych losowych Xi, i = 1,..., n, ma jednakowy rozkład i jednakowe parametry rozkładu. Estymowanym parametrem jest σ2. Parametr m rozkładu nie jest znany.
W pierwszej [A] części rozważań na temat własności najczęściej używanych estymatorów parametru σ2 pomijamy związek między metodą wyboru estymatorów a ich własnościami. Rozważania ograniczamy do porównania trzech podstawowych własności obu estymatorów: nieobciążoności, zgodności i efektywności.
W drugiej [B] części nawiązujemy do metody największej wiarogodności. Wiadomo, że estymator S2 jest estymatorem metody największej wiarogodności parametru σ2 (por. podręcznik: J. Jóźwiak, J. Podgórski..., op. cit., s. 215). W tej części rozważań postaramy się odpowiedzieć na pytanie, czy estymator
jest również estymatorem metody największej wiarogodności parametru σ2?
[A]
Dwie następujące statystyki z próby są powszechnie używane jako estymatory parametru σ2 :
(12.1) S2 =
(Xi -
)2,
(12.2)
=
(Xi -
)2,
gdzie:
=
Xi,
Związki obu wariancji z próby są następujące:
=
S2,
S2 =
,
oznaczmy: g1 =
, g2 =
.
Stąd
(12.3)
= g1 S2,
(12.4) S2 = g2
.
Wartości oczekiwane i wariancje obu statystyk wyznaczamy za pomocą zmiennej o rozkładzie chi-kwadrat (χ2). Powtórzenie tych rozwiązań, które można znaleźć w cytowanym podręczniku, jest tu niezbędne z punktu widzenia dalszych rozważań.
Statystyki z próby mające rozkład chi-kwadrat określony przez (n - 1) stopni swobody dane są wzorami:
χ2 =
,
χ2 =
,
Wartość oczekiwana i wariancja zmiennej o rozkładzie chi-kwadrat wynoszą:
E(χ2) = v = n - 1,
D2(χ2) = 2v = 2(n - 1).
A zatem:
E[S2] = n - 1,
stąd E[S2] =
σ2, czyli E[S2] ≠ σ2 co znaczy, że estymator S2 jest estymatorem obciążonym parametru σ2.
Obciążenie bn estymatora S2 parametru σ2 wynosi
i zmierza w granicy do zera, estymator S2 jest asymptotycznie nieobciążonym estymatorem parametru σ2.
Wariancja estymatora S2 jest następująca:
,
stąd D2 [S2] =
.
Jak widzimy, wariancja estymatora S2 jest zbieżna w granicy do zera (przy n zmierzającym do nieskończoności). Asymptotycznie nieobciążony estymator S2 parametru σ2, którego wariancja zmierza w granicy do zera, jest estymatorem zgodnym tego parametru.
Powyższe rozważania powtarzamy wobec estymatora
:
,
.
Estymator
jest nieobciążonym estymatorem parametru σ2.
Wyznaczamy wariancję estymatora
:
,
.
Jak widzimy, wariancja estymatora
jest zbieżna w granicy do zera (przy n zmierzającym do nieskończoności). Nieobciążony estymator
parametru σ2, którego wariancja zmierza w granicy do zera, jest estymatorem zgodnym tego parametru.
Porównanie efektywności obu estymatorów sprowadza się do odpowiedzi na pytanie, który z nich ma mniejszą wariancję. Łatwo wykazać, że
D2[S2] < D2 [
], bowiem
<
, gdyż (n - 1)2 < n2.
W podsumowaniu należy podkreślić, iż oba estymatory są zgodne, ale estymator S2, mimo iż jest tylko asymptotycznie nieobciążony, jest estymatorem efektywniejszym od nieobciążonego estymatora
. Preferowanie we wszystkich zastosowaniach estymatora
nie wydaje się słuszne, bowiem nie jest tak, iż ma on wszystkie pożądane własności najlepszego estymatora.
[B]
Jak wspominaliśmy we wstępie, statystyka z próby S2 jest estymatorem metody największej wiarogodności (MNW) parametru σ2. Do trzech omówionych wyżej własności tego estymatora dodajemy własności wynikające z tej właśnie metody wyboru: estymator ten ma asymptotyczny rozkład normalny o minimalnej wariancji, jest więc estymatorem najefektywniejszym. Ma też własność dającą się następująco opisać: jeżeli S2 jest estymatorem MNW parametru σ2, to funkcja estymatora g[S2] jest estymatorem MNW funkcji parametru g(σ2).
Statystyka
jako określona wzorem (12.3) funkcja statystyki S2 jest estymatorem metody największej wiarogodności parametru
jako funkcji parametru σ2.
Między parametrami
i σ2 musi zachodzić taka sama relacja jak między estymatorem
a estymatorem S2 metody największej wiarogodności parametru σ2, czyli
(12.5)
.
Estymator
jest estymatorem metody największej wiarogodności parametru σ2
, a estymator
jest estymatorem metody największej wiarogodności parametru
, czyli inaczej parametru
, co możemy zapisać następująco:
(12.6)
.
ZAKOŃCZENIE
Z przeprowadzonych rozważań wynika, że estymatory S2 oraz
parametru σ2 mają swoje wady i zalety, trudno zatem wskazać, który z nich jest estymatorem najlepszym. Dlatego nie wydaje się słuszne prowadzenie wszystkich rozważań i obliczeń w podręczniku i w programach komputerowych tylko i wyłącznie na podstawie estymatora
. Konsekwencje takiego podejścia są już widoczne w programie komputerowym Statgraphics, gdzie w procedurze badania zgodności rozkładu z normalnym do punktowej estymacji parametru σ2 stosuje się estymator
, gdy metoda wymaga, aby punktowo szacować parametr σ2, używając estymatora MNW, czyli S2.
Najprostszym przykładem kłopotów rachunkowych wynikających z posługiwania się tylko i wyłącznie estymatorem
i jego realizacją
w n-elementowej próbie, jest kłopot powstający przy obliczaniu, na podstawie wyników losowej próby, wariancji ważonej.
Wzory wariancji ważonej, gdzie wagami są liczebności lub wskaźniki struktury, są następujące:
(12.7)
, gdzie
ni = n
(12.8)
, gdzie wi =
oraz
wi = 1
oraz
(12.9)
, gdzie
ni … n - 1
(12.10)
, gdzie
oraz
… 1.
Wzór (12.10) nie jest poprawnie zbudowany i nie jest równoważny wzorowi (12.8). Nie może być stosowany w obliczeniach, ponieważ wskaźniki struktury nie sumują się do jedności.
Innym przykładem kłopotów wynikających ze stosowania tylko i wyłącznie estymatora
i jego realizacji
(oraz analogicznie estymatora
i jego realizacji
dla zmiennej Y) jest zapis wzoru współczynnika korelacji liniowej r.
Zamiast wzoru (12.11):
(12.11)
, gdzie:
,
,
,
,
,
należy wówczas stosować wzór (12.12):
(12.12)
, gdzie:
,
,
,
,
.
Wzory (12.11) i (12.12) współczynnika korelacji liniowej r oraz
muszą prowadzić do tych samych wyników liczbowych. Aby r =
należało kowariancję cxy ze wzoru (12.11) zastąpić we wzorze (12.12) kowariancją
, co wydaje się zabiegiem sztucznym, nie ma bowiem w literaturze przedmiotu dowodu na to, że kowariacja
ma lepsze własności niż kowariancja cxy.
Na zakończenie można stwierdzić, że liczne przykłady podawania dwóch wersji rozważań czy wzorów, uwzględniające oba estymatory wariancji, wydają się słusznym kierunkiem działania i ten kierunek należałoby popierać.