1
1
Metody probabilistyczne
Estymacja podstawowych parametrów populacji
Estymacja punktowa
2
Problemy teorii estymacji -
podstawowe pojęcia
W praktyce najczęściej brak informacji obejmujących wszystkie
jednostki zbiorowości – stąd konieczność prowadzenia badań
częściowych na podstawie próby spośród jednostek zbiorowości.
Dobór losowy prosty jest najprostszym sposobem doboru próby do
badań.
Polega na bezpośrednim doborze jednostek badania do próby
statystycznej wprost z populacji generalnej i bez ograniczeń.
Dobór losowy
prosty
Niezależny
ze zwracaniem
Zależny
bez zwracania
2
3
Dobór losowy prosty
Dobór losowy prosty niezależny
teoretycznie najprostszy schemat losowania, na którym opiera
się cała teoria prawdopodobieństwa i statystyka matematyczna.
dobór jednostek polega na bezpośrednim i nieograniczonym
wyborze jednostek z całej populacji generalnej do próby
i zwracaniu jednostki ponownie do populacji,
stąd jednostka może być wybrana wielokrotnie.
Dobór losowy prosty zależny
intuicyjnie bardziej naturalny i w praktyce częściej stosowany.
dobór jednostek polega na bezpośrednim i nieograniczonym
wyborze jednostek z całej populacji generalnej do próby, lecz
przy niezwracaniu jednostki ponownie do populacji.
każda jednostka wylosowana nie uczestniczy w dalszym
losowaniu.
4
Inne sposoby doboru próby:
losowanie za pomocą urny,
losowanie za pomocą tablic liczb losowych,
dobór losowy systematyczny,
interwał losowania,
dobór losowy warstwowy,
dobór warstwowy proporcjonalny,
dobór warstwowy nieproporcjonalny,
dobór warstwowy optymalny,
dobór losowy zespołowy,
dobór zespołowy z jednakowymi lub różnymi p-stwami wyboru,
dobór zespołowy wielostopniowy,
dobór zespołowy wielofazowy,
dobór kwotowy,
dobór jednostek typowych,
dobór przez eliminację,
dobór celowy,
dobór przypadkowy,
dobór wygodny,
dobór sieciowy,
metoda kuli śniegowej.
3
5
Próba statystyczna
Próba statystyczna prosta (losowa)
jest
prawidłowym odbiciem zbiorowości
wtedy, gdy struktura tej próby ze
względu na interesujące nas jest zbliżona do zbiorowości generalnej,
jest
wynikiem przeprowadzenia losowania
-
wyboru „n” elementów z
populacji o liczebności „N”
X
– zmienna losowa (cecha),
która w populacji ma określony rozkład.
Przykład:
X
– czas dojazdu pracowników, czas trwania rozmowy telefonicznej.
Ciąg { x
1
, x
2
, . . . , x
n
} nazywamy
próbą statystyczną
prostą
dokonaną na
zmiennych losowych X
1
, X
2
, . . . , X
n
.
6
Próba statystyczna
Przestrzeń prób losowych
-
zbiór wszystkich możliwych do wylosowania prób.
Zbiór ten jest równy kombinacji podzbiorów
n-elementowych ze zbioru N-elementowego, czyli:
Jeżeli losowanie z populacji generalnej będzie powtarzane, to za
każdym razem otrzymamy
inny zbiór wartości {x
1
, x
2
, … x
n
}.
W każdym tak wylosowanym zbiorze zmienna losowa X będzie
miała taki
sam rozkład prawdopodobieństwa
, charakterystyczny
dla danej populacji.
Przy wnioskowaniu o parametrach populacji generalnej na
podstawie próby losowej posługujemy się funkcjami zmiennych
losowych tworzących próbę: X
1
, X
2
, … X
n
.
Funkcje te noszą nazwę
statystyki.
n
N
4
7
Statystyka
Statystyką
nazywamy zmienną losową Z
n
, która jest funkcją
borelowskich zmiennych losowych X
1
, X
2
, … , X
n
Statystyka jako zmienna losowa
posiada pewien rozkład, który
nazywamy
rozkładem statystyki z próby
. Zależy on przede
wszystkim od rozkładu populacji, z której pochodzi próba oraz od
liczebności próby.
Ze względu na liczebność próby rozkłady statystyk dzielimy na:
dokładne
– rozkłady p-stwa wyznaczone dla dowolnej liczby
naturalnej n, będącej liczebnością próby. Są one wykorzystywane
dla małych prób,
graniczne
-
rozkład p-stwa statystyki, który otrzymuje się przy
założeniu nieograniczenie dużej próby, n→∞.
nie ma jednej określonej wartości n, od której uznajemy próbę
za dużą.
w niektórych przypadkach rozkład dokładny już dla n>30
niewiele różni się od rozkładu granicznego, w innych
przypadkach potrzebujemy n>100.
n
2
1
n
X
X
X
g
Z
,
,
,
8
Przykłady statystyk
Średnia z próby
Wariancja z próby
gdy n > 30
gdy n ≤ 30
Częstość (frakcja, odsetek) z próby
m
– liczba zdarzeń sprzyjających
n
– liczebność próby
n
i
i
X
n
X
1
1
n
i
i
X
X
n
S
1
2
2
1
n
i
i
X
X
n
S
1
2
2
*
1
1
n
m
w
5
9
Estymacja parametrów w populacji
na podstawie próby
Estymacja
– szacowanie (ocenianie) wartości nieznanych
parametrów rozkładu cechy statystycznej w populacji generalnej
(
estymacja parametryczna
) i postaci rozkładu badanych cech
(
estymacja nieparametryczna
) na podstawie próby losowej.
Rodzaje estymacji
parametrycznej
Estymacja punktowa
wyznaczana jest jedna
wartość
Estymacja przedziałowa
wyznaczany jest przedział wartości
tzw. przedział ufności
10
Estymator
Estymator
nieznanego parametru
Θ
jest określoną statystyką z
próby służącą oszacowaniu nieznanej wartości parametru populacji.
Rozkład prawdopodobieństw statystyki będącej estymatorem
parametru nosi nazwę
rozkładu estymatora
.
Mogą nim być rozkłady t-Studenta, chi-kwadrat, F-Snedecora i inne
zw. rozkładami z próby.
Konkretną wartość, jaką przyjmuje estymator, gdy podstawimy do
funkcji określony układ obserwacji (wylosowanej próby), będziemy
nazywać
oceną parametru
.
θ
–
wartość nieznanego parametru
Θ
w populacji,
Z
n
– estymator nieznanego parametru
Θ
w populacji
(wzory średniej, wariancji lub wzór na częstość),
z
n
– wartość liczbowa estymatora nieznanego parametru w populacji
(liczba)
– ocena nieznanego parametru
Θ,
6
Do oszacowania parametru
Θ
wykorzystuje się wyniki z próby losowej.
Zatem:
Istnieje możliwość popełnienia błędu,
Błędem szacunku nazywamy różnicę między estymatorem a
wartością parametru: Z
n
–
Θ
Miara błędu:
Standardowy błąd szacunku: D(Z
n
)
Współczynnik zmienności:
11
Estymator
n
n
n
Z
Z
D
Z
V
n
n
Z
D
Z
E
2
2
12
Własności estymatorów
Estymatory powinny spełniać kryteria określające
pożądane własności estymatora:
Zgodność
Nieobciążoność
Efektywność
Dostateczność
Odporność.
7
13
Zgodność estymatora
Estymator parametru
Θ nazywamy zgodnym,
je
żeli jest stochastycznie
(w sensie prawdopodobieństwa) zbieżny do szacowanego parametru
Interpretacja:
ze wzrostem liczności próby wzrasta dokładność oszacowania
parametru
Θ,
gdy używa się estymatora zgodnego parametru wówczas stosowanie
dużych prób losowych (n>30) zwiększa dokładność szacunku tego
parametru,
zgodność i nieobciążoność jest związana z prawem wielkich liczb.
0
1
Z
P
lim
n
n
14
Nieobciążoność estymatora
Estymator Z
n
jest nieobciążony, jeżeli
tzn. estymator szacuje parametr bez błędu systematycznego
Obciążenie estymatora:
Estymatorem Z
n
jest asymptotycznie nieobciążony
Interpretacja:
Własność nieobciążoności oznacza, że przy wielokrotnym losowaniu próby
średnia z wartości przyjmowanych przez estymator nieobciążony równa się
wartości szacowanego parametru.
Własność ta gwarantuje otrzymanie za jego pomocą ocen wolnych od błędu
systematycznego.
n
Z
E
dla każdego n
ˆ
ˆ
E
B
n
0
ˆ
lim
E
n
8
15
Zgodność i nieobciążoność estymatora
Współzależność pomiędzy własnościami zgodności i
nieobciążoności:
Jeżeli estymator Z
n
parametru
Θ jest zgodny, to równocześnie jest
asymptotycznie nieobciążony; twierdzenie odwrotne nie jest
prawdziwe.
Jeżeli estymator Z
n
parametru
Θ jest nieobciążony (lub
asymptotycznie
nieobciążony) oraz, jeżeli jego wariancja w miarę
wzrostu liczebności próby zmierza do zera, to estymator Z
n
jest
estymatorem zgodnym.
16
Efektywność estymatora
Efektywność
jest związana z wielkością rozrzutu wartości
estymatora dookoła wartości jego wartości oczekiwanej.
Stosowanie praktyce estymatora efektywnego oznacza
popełnienie (in plus lub in minus) małego błędu średniego
szacunku D
2
(Z
n
)
, który jest pierwiastkiem kwadratowym z
wariancji estymatora nieobciążonego. Jest to miara określająca
wielkość
błędu przypadkowego (losowego).
Najwyższa efektywność estymatora Z
n
występuje
wtedy, gdy
jego wariancja
jest najmniejsza spośród wariancji dla wszystkich innych
estymatorów parametru Θ.
Taki estymator nazywa się
estymatorem efektywnym
.
2
2
)
(
n
n
n
Z
E
Z
E
Z
D
9
17
Dostateczność estymatora
Estymator jest dostateczny (wystarczający),
jeżeli wykorzystuje
wszystkie informacje o parametrze zawarte w próbie i żaden inny
estymator nie może dać dodatkowych informacji o szacowanym
parametrze
Np.
ale nie
n
i
i
X
n
X
1
1
2
min
max
X
X
X
18
Odporność estymatora
Odporność estymatora –
ma znaczenie przy występowaniu
obserwacji nietypowych (wątpliwych, rzadkich, odstających), które
wpływają na wynik estymacji.
Wśród parametrów położenia estymatorami odpornymi są oparte
na charakterystykach pozycyjnych
–
moda i mediana
.
10
19
Metody wyznaczania estymatorów
Metoda momentów
-
estymatory zgodne, ale przeważnie obciążone i mało efektywne,
Metoda największej wiarygodności
-
estymatory zgodne, asymptotycznie nieobciążone i asymptotycznie
efektywne,
Metoda najmniejszych kwadratów
(estymacja parametrów wyrażających różne zależności między zmiennymi
losowymi)
-
estymatory zgodne, nieobciążone, najefektywniejsze w klasie estymatorów
liniowych.
ESTYMACJA PUNKTOWA
20
11
21
Estymacja punktowa
Estymacja punktowa
polega na szacowaniu wartości nieznanego
parametru
Θ
w populacji za pomocą estymatora Z
n
(wzoru).
Liczba z
n
uzyskana na podstawie próby za pomocą estymatora
(wzoru) jest
oceną nieznanego parametru Θ
w populacji i jest
efektem estymacji punktowej.
Aby uzyskać
mały błąd szacunku
należy zapewnić:
losowy dobór próby,
dostateczną jej liczebność,
dobór możliwie najlepszego estymatora.
22
Estymacja wartości średniej w populacji generalnej
Niech cecha X ma w populacji rozkład normalny, ze średnią μ
i odchyleniem standardowym σ
.
Z populacji pobierana jest n-
elementowa próba losowa prosta. Dowodzi
się, że przy podanych założeniach średnia z próby , będąca zmienną
losową, ma rozkład normalny ze średnią
i odchyleniem standardowym , czyli
Rozkład średniej z próby jest więc zależny od:
wartości parametrów μ i σ rozkładu cechy w populacji oraz
liczebności próby.
W rozważaniach można posługiwać się standaryzowaną zmienną
losową postaci:
Warto pamiętać, że E(U)=0 oraz D
2
(U)=1, czyli zmienna U ma rozkład
normalny U ~ N(0,1).
X
X
E
n
X
D
n
N
X
;
X
n
X
X
D
X
U
12
23
Estymacja wartości średniej – model 1
Model 1
Cecha X w populacji ma rozkład N(μ,σ),
σ – znane,
z populacji pobieramy próbę n-elementową (x
1
, x
2
, …, x
n
).
Statystyka
Estymator średniej w populacji:
Średni błąd szacunku:
Średnia z próby jest zmienną losową i ma rozkład
n
X
X
D
X
U
n
i
i
X
n
X
1
1
n
N
,
X
n
X
D
24
Estymacja wartości średniej – model 2
Model 2
Cecha X w populacji ma rozkład N(μ,σ),
σ – nieznane,
próba mała n ≤ 30,
Statystyka
gdzie:
Zmienna t ma rozkład t-Studenta z n-1 stopniami swobody
(n-1
to liczba niezależnych obserwacji)
Estymator
Nieobciążony, zgodny i najefektywniejszy parametru μ
n
S
X
T
*
1
n
S
X
T
n
i
i
X
n
X
1
1
n
i
i
X
X
n
S
1
2
1
1
n
i
i
X
X
n
S
1
2
*
1
13
25
Estymacja wartości średniej – model 3
Model 3
Cecha X w populacji ma rozkład dowolny,
σ – nieznane,
Próba duża n > 30.
Statystyka
ma rozkład
N(0,1)
Estymator
Nieobciążony, zgodny i najefektywniejszy parametru μ
n
S
X
U
n
i
i
X
n
X
1
1
n
i
i
X
X
n
S
1
2
1
26
Estymacja wariancji
Model 1
Cecha X w populacji ma rozkład N(μ,σ),
μ – znane, σ – nieznane,
z populacji pobieramy próbę n-elementową (X
1
, X
2
, …, X
n
).
Statystyka
ma
rozkład
χ
2
z n-1 stopniami swobody,
Rozkład χ
2
jest rozkładem jednoparametrycznym (parametrem – liczba
stopni swobody), prawostronnie asymetrycznym, z asymetrią malejącą
ze wzrostem liczby stopni swobody,
2
2
*
1
2
2
2
2
1
2
1
2
2
*
1
1
S
n
nS
X
X
U
n
i
i
n
i
i
i
n
i
i
14
27
Estymacja wariancji
– model 1
Model 1
Cecha X w populacji ma rozkład N(μ,σ),
μ i σ – nieznane,
z populacji pobieramy próbę n-elementową (X
1
, X
2
, …, X
n
).
próba mała n ≤ 30
Statystyka
Estymator wariancji
ma rozkład
χ
2
z n-1 stopniami swobody
zgodny,
obciążony, najbardziej
efektywny parametru σ
2
2
2
2
nS
n
i
i
X
X
n
S
1
2
2
1
2
2
*
2
*
1
S
n
n
i
i
X
X
n
S
1
2
2
*
1
1
ma rozkład
χ
2
z n-1 stopniami swobody
zgodny
, nieobciążony, asymptotycznie
najefektywniejszy parametru σ
2
,
28
Estymacja wariancji
– model 2
Model 2
Cecha X w populacji ma rozkład N(μ,σ),
μ i σ – nieznane,
Populacja generalna ma rozkład normalny N(μ,σ) lub zbliżony do
normalnego,
Próba duża n > 30.
Statystyka
Statystyka U ma rozkład asymptotycznie
N(0,1)
Estymator wariancji
σ
2
wariancja z próby
2n
/
,
N
S
gdzie
2
n
S
U
n
i
i
X
X
n
S
1
2
2
1
15
29
Estymacja wskaźnika struktury
Populacja badana ze wzgl. na cechę jakościową.
Często niezbędne jest oszacowanie prawdopodobieństwa p traktowanego
jako
wskaźnik struktury populacji.
Niech zbiorowość generalna ma rozkład zero-jedynkowy z parametrem p.
Na podstawie próby szacujemy wskaźnik struktury zgodnie ze wzorem:
jest estymatorem nieznanego wskaźnika struktury w populacji,
gdzie: m liczba sukcesów (wyróżnionych elementów), które wystąpiły
w n-
elementowej próbie,
p^ ma
rozkład asymptotycznie
normalny
Średni błąd szacunku:
n
m
p
ˆ
n
p
p
p
N
p
1
*
,
ˆ
n
p
p
p
D
ˆ
*
ˆ
ˆ
ˆ
ˆ
1
30
Estymacja wskaźnika struktury – model 1
Model 1
Cecha X w populacji ma rozkład zero-jedynkowy z parametrem p,
Próba duża n > 100.
Statystyka
Statystyka U ma rozkład N(0,1)
Estymator wskaźnika struktury
Zgodny, nieobciążony najbardziej efektywny parametru p
n
m
p
ˆ
n
p
p
p
n
m
n
p
p
p
p
U
ˆ
ˆ
ˆ
ˆ
ˆ
1
1
16
31
Estymacja wskaźnika struktury – model 2
Model 1
Cecha X w populacji ma rozkład zero-jedynkowy z parametrem p,
Próba mała n ≤ 100.
Statystyka
specjalne tablice dla przedziałów ufności