background image

Konspekt nr 5 z laboratoriów „Statystyka i rachunek prawdopodobieństwa” 

Estymacja parametrów 

rozkładów zmiennej losowej 

1.  Wprowadzenie 

oraz podstawowe pojęcia 

W statystyce matematycznej zakłada się, że populacja generalna nie jest dostępna, a jedy-

nym empirycznym (doświadczalnym) źródłem informacji o tej populacji jest próbka losowa. 

Próbkę uzyskuje się poprzez losowanie jej elementów z populacji generalnej, lub przeprowa-

dza się doświadczenia. Przeprowadzenie doświadczenia w celu uzyskania próbki losowej na-

leży rozumieć, że niekiedy zamiast losować elementy (np. jakieś wyprodukowane detale) z 
populacji, 

które trafiają do próbki, wykonuje się je w tych samych warunkach co pozostałe 

elementy. Tak uzyskane n 

elementów traktuje się jako n-elementową próbę losową. 

Jeśli interesuje nas jakaś cecha X populacji generalnej, to na podstawie dostępnych wyni-

ków, uzyskanych z próbki losowej 

ze względu na tą samą cechę X, będziemy starali się wy-

ciągnąć wnioski dotyczące badanej cechy w całej populacji. 

Do najważniejszych form wnioskowanie statystycznego zalicza się estymację (ocenę) nie-

znanych pa

rametrów  lub  ich  funkcji,  które  charakteryzują  rozkład  badanej  cechy  populacji 

oraz 

weryfikację  (badanie  prawdziwości)

I

Wyobraźmy sobie, że mamy populację generalną Z składającą się z N elementów. Przy-

kładowo niech N = 15 a Z =  {a

1

,  a

2

, ..., a

15

}. Elementy zbioru 

Z są tego samego typu (np. 

odlewy głowic silnikowych) i posiadają jakieś interesujące nas cechy mierzalne (masa, obję-

tość, gęstość itp.). Wybierzmy sobie jakąś cechę populacji np. masę i oznaczmy ją przez X
Wylosujmy  ze zbioru 

Z  dwie  n-elementowe próby proste

  postawionych hipotez statystycznych. 

Estymację 

dzieli się na punktową oraz przedziałową. Określenie „punktowa” oznacza, że efektem postę-

powania estymacyjnego jest jedna liczba, a więc jeden punkt na osi liczb rzeczywistych. W 

przypadku estymacji przedziałowej produktem szacowania jest pewien przedział na osi liczb 

rzeczywistych (tzw. przedział ufności), który z określonym prawdopodobieństwem pokrywa 

nieznaną wartość parametru. 

II

.  Niech  liczność  próbki  wynosi 

n = 3. 

Załóżmy,  że  wylosowaliśmy  próbki  zawierające  następujące  elementy:  {a

1

,  a

4

,  a

15

oraz { a

7

a

8

a

13

}, a 

oznaczając ich masy: {x

1

x

4

x

15

} oraz { x

7

x

8

x

13

}. W ogólnym przy-

padku obie próbki będą różnić się od siebie

III

Dowolną funkcję g(X

1

,...,  X

n

), której dziedziną będą wartości z próby losowej, nazywać 

będziemy statystyką. Nietrudno jest podać jakąś statystykę. Jest nią np. średnia arytmetyczna, 
mediana, wariancja, odchylenie standardowe itp. 

. Dlatego, w sposób bardziej ogólny, będziemy 

traktować ciąg liczbowy x

1

,...,x

n

 

jako realizację ciągu X

1

,..,X

n

, gdzie X

i

i = 1,...,n 

jest zmienną 

losową, której zbiorem możliwych wartości są wartości i-tego spośród n wylosowanych ele-
mentów.  W naszym przypadku próbka losowa 

będzie wyglądać {X

1

{x

1

  albo  x

7

},  X

2

{x

4

  albo 

x

8

}, X

3

{x

15

 albo x

13

}}. Każda ze zmiennych losowych X

i

 

może przyjąć którąś z wartości popu-

lacji generalnej, dlatego 

zapisywać będziemy to jako {X

1

,..., X

n

}. 

2.  Estymatory i ich podstawowe 

właściwości 

Oznaczmy sobie szacowany parametr symbolem Q

Może nim być np. parametr p w roz-

kładzie dwumianowym, wartość oczekiwana (μ) albo wariancja (σ

2

) zmiennej losowej o roz-

kładzie normalnym, parametr λ w rozkładzie Poissona itd. Estymator parametru Q oznaczać 
będziemy symbolem 

n

Qˆ

. Tym samym symbolem będziemy również oznaczać ocenę (osza-

                                                           

I

 Weryfikacja hipotez statystycznych będzie tematem następnego konspektu. 

II

 Losowanie dokonujemy ze zwrotem, tzn. po wylosowaniu pierwszego elementu a

i

 zwracamy go do zbioru Z

III

 Oczywiście może zdarzyć się, że wylosujemy dwie identyczne próbki. Jednak dla dużej zbiorowości generalnej 

i małej liczności próbki losowej, szansa takiego zdarzenia jest stosunkowo mała. 

background image

Konspekt nr 5 z laboratoriów „Statystyka i rachunek prawdopodobieństwa” 

cowanie) parametru Q.  Estymatorem 

n

Qˆ

 

może być każda charakterystyka z próby losowej, 

której rozkład zależy od parametru Q. Nie wszystkie statystyki spełniające ten warunek mają 

odpowiednie właściwości operacyjne. Dobry estymator powinien – przede wszystkim – speł-

niać trzy warunki: być nieobciążonymzgodnym i efektywnym

Mówimy,  że  estymator 

n

Qˆ

  jest 

nieobciążony,  jeśli  jego  wartość  oczekiwana  jest  równa 

szacowanemu parametrowi Q, czyli 

 

Q

Q

E

n

=

)

ˆ

(

 

(1). 

Estymatory, które nie mają własności (1), są estymatorami obciążonymi. Generują one ob-

ciążenie oszacowania. Wielkość tego obciążenia wynika z różnicy 

 

Q

Q

E

n

n

=

δ

)

ˆ

(

 

(2). 

Estymator  może  być  asymptotycznie  nieobciążonym  jeśli  wielkość  obciążenia  (δ

n

), przy 

wzroście liczności próby, dąży do zera 

 

0

lim

=

δ

n

n

 

(3). 

Zwiększając liczność (n) próby losowej można zmniejszyć błąd oszacowania (oceny) do 

wartości mniejszej od dowolnie małej dodatniej liczby rzeczywistej ε, co zapisuje się w na-

stępujący sposób 

 

(

)

1

|

ˆ

|

lim

=

ε

<

Q

Q

P

n

n

 

(4). 

Estymator posiadający własność (4) będziemy nazywać zgodnym
Miarą  efektywności  estymatora jest jego wariancja 

)

ˆ

(

2

n

Q

D

. Estymatorem najbardziej 

efektywnym jest estymator o najmniejszej wariancji. Do oceny efektywności estymatora wy-

korzystuje się następującą charakterystykę 

 

)

ˆ

(

)

ˆ

(

)

ˆ

(

2

*

2

n

n

n

Q

D

Q

D

Q

e

=

 

(5), 

gdzie 

n

Qˆ

 jest estymatorem ocenianym, natomiast 

*

ˆ

n

Q

 oznacza estymator najbardziej efektyw-

ny

IV

Estymator 

n

Qˆ

 

posiadający właściwość polegającą na tym, że 

 

1

)

ˆ

(

lim

=

n

n

Q

e

 

(6) 

jest estymatorem asymptotycznie najefektywniejszym

3. 

Przegląd podstawowych estymatorów punktowych 

Omówienie metod wyznaczania estymatorów będzie pominięte. Należy jedynie pamiętać, 

że istnieją trzy podstawowe metody: metoda momentów, metoda najmniejszych kwadratów 

oraz, najczęściej stosowana, metoda największej wiarygodności. 

W konspekcie nr 3 przedstawione zostały wybrane rozkłady zmiennych losowych, mia-

nowicie: r

ozkład  dwumianowy,  rozkład  Poissona  oraz  rozkład  normalny.  W  dalszej  części 

                                                           

IV

 Litera e występująca w równaniu (5) nie oznacza tam podstawy logarytmu naturalnego. 

background image

Konspekt nr 5 z laboratoriów „Statystyka i rachunek prawdopodobieństwa” 

zostaną przedstawione estymatory służące do szacowani parametrów występujących w tych 

rozkładach. 

Jeśli na podstawie próbki losowej (X

1

,..., X

n

o liczności n chcemy oszacować parametr p 

w rozkładzie dwumianowym to wykorzystuje się estymator 

n

pˆ

 dany równaniem 

 

=

=

n

i

i

n

X

n

p

1

1

ˆ

 

(7). 

Dla parametru 

λ 

z rozkładu Poissona stosujemy estymator 

n

λˆ

 

 

=

=

λ

n

i

i

n

X

n

1

1

ˆ

 

(8). 

W rozkładzie normalnym wartość oczekiwana μ szacowana jest przy pomocy następują-

cego estymatora 

n

µˆ

 

 

=

=

µ

n

i

i

n

X

n

1

1

ˆ

 

(9). 

Jak nietrudno zauważyć wszystkie estymatory (7)  (9) mają charakter średniej arytme-

tycznej (dalej oznacza

ć będziemy ją przez  ) z próby losowej. Są one również zgodne, nie-

obciążone oraz najefektywniejsze. Średnia arytmetyczna z próby losowej jest podstawowym 

estymatorem wartości oczekiwanej E(X), niezależnie od tego, jaki rozkład ma obserwowana 
zmienna losowa X

.  Można    też  używać  innych  estymatorów.  Przykładowo  dla  szacowania 

wartości  oczekiwanej  w  rozkładzie  normalnym  stosuje  się  niekiedy  medianę  z  próby  m

e

Efektywność takiego estymatora, przy spełnieniu pewnych warunków przez próbkę losową, 

wynosi około 64% efektywności średniej arytmetycznej (9). 

Dla oszacowania  wariancji  D

2

(X) zmiennej losowej 

dowolnego rozkładu, stosuje się trzy 

podstawowe statystyki (estymatory) oznaczane symbolami

V

2

0

S

 

S

2

S

*2

Jeśli zmienne losowe X

1

, ...,X

n

 

są niezależne, o jednakowym rozkładzie o znanej wartości 

średniej μ (wartości oczekiwanej) i nieznanej wariancji, to 

 

(

)

=

µ

=

n

i

i

X

n

S

1

2

2

0

1

 

(10) 

jest  zgodnym, 

nieobciążonym  i najefektywniejszym  estymatorem wariancji D

2

(X).  Zastoso-

wanie tego estymatora jest jednak ograniczone do tych – 

raczej nieczęstych – przypadków, 

gdy  znana  jest  wartość  średnia  (oczekiwana)  obserwowanej  zmiennej  losowej.  Zastępując 

wartość oczekiwaną jej oszacowaniem ( ) uzyskujemy estymatory 

 

(

)

=

=

n

i

i

X

X

n

S

1

2

2

1

 

(11) 

oraz 

 

(

)

=

=

n

i

i

X

X

n

S

1

2

2

*

1

1

 

(12). 

                                                           

V

 Trzymając się ściśle oznaczeń powinniśmy estymator wariancji oznaczyć jako 

( )

X

D

n

2

ˆ

. Pominiemy to i bę-

dziemy stosować oznaczenia, które najczęściej spotyka się w podręcznikach. 

background image

Konspekt nr 5 z laboratoriów „Statystyka i rachunek prawdopodobieństwa” 

Statystyka  S

2

 

jest  zgodnym  i  asymptotycznie  nieobciążonym  estymatorem  wariancji  w 

zbiorowości generalnej. Oznacza to, że systematyczny błąd oceny (oszacowania) parametru 
maleje ze wzrostem liczno

ści (n) próbki. W przypadku małych próbek zgodnym, nieobciążo-

nym i najefektywniejszym estymatorem wariancji jest statystyka S

*2

Odchylenie standardowe z próby jest dodatnim pierwiastkiem kwadratowym z wariancji. 

Istnieją więc trzy charakterystyki (estymatory) do szacowania odchylenia standardowego po-
pulacji na podstawie próby losowej. Cha

rakterystyki  te  oznaczać  będziemy  przez  S

0

,  S,  S

*

Wartość tych charakterystyk wyznacza się biorąc dodatni pierwiastek kwadratowy z wartości 

2

0

S

,  S

2

,  S

*2

, ob

liczonych według równań (10)–(12). Pomimo tego, że statystyki 

2

0

S

  i  S

*2

 

są 

nieobciążonymi estymatorami wariancji, to jednak zarówno S

0

 jak i S

*

 

są tylko asymptotycz-

nie ni

eobciążonymi  estymatorami  odchylenia  standardowego  w  populacji  generalnej.  W 

przypadku zmiennej losowej X

, która podlega rozkładowi normalnemu, obciążenie to można 

usunąć. Nieobciążonymi estymatorami odchylenia standardowego D(X) (σ) są statystyki 

0

 i 

*

S

 dane wzorami 

 

r

c

S

S

=

0

0

 

(13), 

 

r

c

S

S

=

*

*

 

(14), 

gdzie 

 

2

2

1

2

 +

Γ

Γ

=

r

r

r

c

r

 

(15). 

We wzorze (13) r = n, natomiast w (14) r = n – 1. 

Wartość funkcji gamma Γ wylicza się 

następująco 

 



π

 −

 −

 −

=

Γ

3

,

ą

nieparzyst

liczb

ą

jest

gdy

...

2

4

2

2

2

,

parzyst

ą

liczb

ą

jest

gdy

!

1

2

2

n

r

r

r

n

r

r

r

 

(16), 

 



+

π

 −

 −

=

 +

Γ

1

,

ą

nieparzyst

liczb

ą

jest

gdy

!

1

2

1

2

,

parzyst

ą

liczb

ą

jest

gdy

...

2

3

2

1

2

1

n

r

r

n

r

r

r

r

 

(17). 

Iloczyn 

 −

 −

...

2

4

2

2

r

r

 

występujący we wzorze (16) rozpisujemy na tyle czynników  

aby 

odejmując od wartości r, z krokiem 2, wartość licznika osiągnęła 1. W analogiczny spo-

sób postępuje się z iloczynem 

 −

 −

...

2

3

2

1

r

r

 

występującym w równaniu (17). Przykła-

background image

Konspekt nr 5 z laboratoriów „Statystyka i rachunek prawdopodobieństwa” 

dowo dla r = 9 wspomniany iloczyn w (16) 

wygląda 

 −

 −

 −

 −

2

8

9

2

6

9

2

4

9

2

2

9

, a dla 

r = 8 iloczyn z (17) 

ma postać 

 −

 −

⋅⋅

 −

 −

2

7

8

2

5

8

2

3

8

2

1

8

PRZYKŁAD 1. Z populacji generalnej o liczności N = 184 pobrano losową próbę prostą o n = 5 elementów. 

Próbka ta wygląda następująco {51.03; 48.68; 49.85; 48.79; 47.92}. Wiadomo, że badana cecha X w populacji 

podlega rozkładowi normalnemu. Oszacować następujące parametry w populacji generalnej: wartość oczekiwa-

ną, wariancję oraz odchylenie standardowe. 

Aby oszacować wartość oczekiwaną tego rozkładu, stosujemy estymator 

n

µˆ

 dany równaniem (9), który jest 

równy średniej arytmetycznej z próby losowej. Podstawiając do równania otrzymujemy 

 

25

.

49

5

1

ˆ

5

1

5

=

=

=

µ

=

i

i

X

X

Ponieważ nie znamy wartości oczekiwanej μ z całej populacji oraz próbka jest mała (n = 5), to w celu wyli-

czenia przybliżonej wartości wariancji należy zastosować wzór (12). Podstawiając do niego dane mamy 

 

 

(

)

46

.

1

25

.

49

1

5

1

5

1

2

2

*

=

=

=

i

i

X

S

 

Ten sam wynik można uzyskać korzystając z funkcji Excela o nazwie WARIANCJA
W celu oszacowania odchylenia standardowego 

postępujemy następująco. Wyliczamy najpierw wartość S

*

 

jako dodatni pierwiastek kwadratowy z wariancji 

 

21

.

1

46

.

1

2

*

*

=

=

S

S

 

Taki sam  wynik można uzyskać stosując funkcję Excela o nazwie ODCH.STANDARDOWE. Należy jednak 

pamiętać,  że  funkcja  ta  zwraca  wartość  estymatora  obciążonego,  który  jest  też  asymptotycznie  nieobciążony. 

Dlatego w dalszej kolejności estymator ten należy odciążyć, stosując równanie (14). 

Liczymy współczynnik c

r

. W równaniu (14) r = n – 

1, a więc r = 4. Podstawiając równania (16) i (17) do 

(15) oraz r = 4 otrzymujemy 

 

0638

.

1

2

2

3

4

2

1

4

4

!

1

2

4

2

2

1

4

4

2

4

4

π

 −

 −

 −

=

 +

Γ

Γ

=

c

 

Ostatecznie nieobciążony estymator odchylenia standardowego w populacji wynosi 

 

29

.

1

0638

.

1

21

.

1

*

*

=

=

r

c

S

S

4. 

Wybrane zagadnienia z estymacji przedziałowej 
Stosowanie estymacji punktowej 

nie daje odpowiedzi na pytanie z jaką dokładnością dany 

estymator został wyznaczony.  Innym sposobem  estymacji, pozwalającym ocenić tą dokład-

ność, jest estymacja przedziałowa. Polega ona na podaniu tzw. przedziałów ufności dla nie-
znanych parametrów danego 

rozkładu. 

background image

Konspekt nr 5 z laboratoriów „Statystyka i rachunek prawdopodobieństwa” 

Przedziałem  ufności  dla  parametru  Q  na  poziome  ufności  1  –  α  (0 < α < 1) nazywamy 

przedział (Z

d

Z

g

)spełniający następujące warunki 

− 

jego końce Z

d

 = g

1

(X

1

,..., X

n

), Z

g

 = g

2

(X

1

,..., X

n

) są funkcjami g

1

 i g

2

 próbki losowej i 

nie zależą od szacowanego parametru Q

− 

prawdopodobieństwo pokrycia przez ten przedział nieznanego parametru Q jest równe 
1 – 

α, tzn. 

 

(

)

α

=

<

<

1

P

g

d

Z

Q

Z

 

(18). 

Liczbę  α  nazywać  będziemy  poziomem  istotności.  Wartość  α  zazwyczaj  wybiera  się  w 

granicach (0, 0.1]. 

W dalszej części konspektu zostaną podane wzory na konstrukcje przedziałów ufności dla 

wartości oczekiwanej (wartości średniej μ) i wariancji zmiennej losowej o rozkładzie normal-
nym. 

Jeśli nie jest znane odchylenie standardowe D(X) z populacji, to przedział ufności dla war-

tości średniej konstruuje się w oparciu o rozkład Studenta. Zmienna losowa o rozkładzie stu-
denta dane jest w postaci 

 

n

S

X

T

*

µ

=

 

(19), 

ν = n – 1 stopniach swobody. Granice przedziału ufności dla tego przypadku wyglądają na-

stępująco 

 

n

S

t

X

Z

n

S

t

X

Z

g

d

*

2

,

*

2

,

oraz

α

ν

α

ν

+

=

=

 

(20), 

a prawdopodobieństwo tego, że pokryje on nieznaną wartość średnią, zgodnie z (18) wynosi 

 

α

=





+

<

µ

<

α

ν

α

ν

1

P

*

2

,

*

2

,

n

S

t

X

n

S

t

X

 

(21). 

Zmienna t

ν,α/2

 oznacza kwantyl

VI

PRZYKŁAD 1. Dokonano n = 7 pomiarów masy (kg) pewnych jednakowych detali odlewanych i obliczono 

średnią 

 

rzędu 1 – α/2 dla rozkładu Studenta z ν = n – 1 stopniami 

swobody. 

Kwantyl taki można odczytać z tablic statystycznych lub obliczyć  go za pomocą 

funkcji Excela o nazwie 

ROZKŁAD.T.ODW 

o następującej składni: Prawdopodobieństwo = α 

(nie trzeba dzielić α przez 2); stopnie_swobody = ν. 

21

.

10

=

X

  oraz 

obliczono  wariancję  S

2*

  = 0.56

.  Przyjmijmy,  że  zaobserwowane wyniki pomiarów 

możemy traktować jako próbę prostą z rozkładu normalnego o nieznanej wartości średniej oraz nieznanej wa-

riancji. Należy podać 95-procentowy przedział ufności dla wartości średniej μ. 

Granice przedziału obliczamy korzystając z równania (20), pamiętając, że 

2

*

*

S

S

=

. Korzystaj

ąc z funk-

cji Excela obliczmy war

tość  t

ν,α/2

 = 

ROZKŁAD.T.ODW(

α = 0.05; ν = 6) ≈ 2.4469. Ostatecznie dostajemy granice: 

Z

d

 = 9.52 oraz Z

g

 = 10.90. 

Podobnie  jak  dla  warto

ści średniej, możemy też skonstruować przedział ufności dla wa-

riancji (

σ

2

) rozk

ładu normalnego. Granice takiego przedziału wyglądają następująco  

                                                           

VI

 Kwantyl danego rozkładu jest to funkcja odwrotna do dystrybuanty tego samego rozkładu. 

background image

Konspekt nr 5 z laboratoriów „Statystyka i rachunek prawdopodobieństwa” 

 

2

2

,

2

*

2

2

1

,

2

*

oraz

α

ν

α

ν

χ

ν

=

χ

ν

=

S

Z

S

Z

g

d

 

(22), 

gdzie 

2

2

,

α

ν

χ

 i 

2

2

1

,

α

ν

χ

 jest odpowiednio kwantylem dolnym i górnym rozk

ładu chi-kwadrat 

ν = n – 1 stopniach swobody. Kwantyle te będziemy obliczać za pomocą Excela. 

PRZYKŁAD 2. Za pomocą funkcji Excela wyliczyć kwantyl dolny i górny zmiennej losowej chi-kwadrat o 

6 stopniach swobody i poziomie istotno

ści 0.1. 

Korzystamy  z  funkcji  o  nazwie 

ROZKŁAD.CHI.ODW,  której  sk

ładnia  wygląda  następująco:  Prawdopodo-

bieństwo = 

α albo 1 – α/2; Stopnie_swobody = ν. Dolny  kwantyl = ROZKŁAD.CHI.ODW(0.1/2; 6) ≈12.5916, 

górny kwantyl = 

ROZKŁAD.CHI.ODW(1 – 0.1/2; 6) 

≈ 1.6353. 

 

 

background image

Konspekt nr 5 z laboratoriów „Statystyka i rachunek prawdopodobieństwa” 

LITERATURA 
 
W. Krysicki, J. Bartos, W. Dysza, K. Królikowska, M. Wasilewska: Rachunek prawdopo-

dobieństwa i statystyka matematyczna w zadaniach. Wydawnictwo Naukowe PWN, Warsza-
wa 2005. 

 
A. Iwasiewicz, A. Paszek: Statystyka z elementami statystycznych metod monitorowania 

procesów. Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków 2004. 

 
W. Kordecki: 

Rachunek  prawdopodobieństwa  i  statystyka  matematyczny. Oficyna Wy-

dawnicza GiS, Wrocław 2003. 

 


Document Outline