Konspekt nr 5 na cw 6 id 245644 Nieznany

background image

Konspekt nr 5 z laboratoriów „Statystyka i rachunek prawdopodobieństwa”

1

Estymacja parametrów

rozkładów zmiennej losowej

1. Wprowadzenie

oraz podstawowe pojęcia

W statystyce matematycznej zakłada się, że populacja generalna nie jest dostępna, a jedy-

nym empirycznym (doświadczalnym) źródłem informacji o tej populacji jest próbka losowa.

Próbkę uzyskuje się poprzez losowanie jej elementów z populacji generalnej, lub przeprowa-

dza się doświadczenia. Przeprowadzenie doświadczenia w celu uzyskania próbki losowej na-

leży rozumieć, że niekiedy zamiast losować elementy (np. jakieś wyprodukowane detale) z
populacji,

które trafiają do próbki, wykonuje się je w tych samych warunkach co pozostałe

elementy. Tak uzyskane n

elementów traktuje się jako n-elementową próbę losową.

Jeśli interesuje nas jakaś cecha X populacji generalnej, to na podstawie dostępnych wyni-

ków, uzyskanych z próbki losowej

ze względu na tą samą cechę X, będziemy starali się wy-

ciągnąć wnioski dotyczące badanej cechy w całej populacji.

Do najważniejszych form wnioskowanie statystycznego zalicza się estymację (ocenę) nie-

znanych pa

rametrów lub ich funkcji, które charakteryzują rozkład badanej cechy populacji

oraz

weryfikację (badanie prawdziwości)

I

Wyobraźmy sobie, że mamy populację generalną Z składającą się z N elementów. Przy-

kładowo niech N = 15 a Z = {a

1

, a

2

, ..., a

15

}. Elementy zbioru

Z są tego samego typu (np.

odlewy głowic silnikowych) i posiadają jakieś interesujące nas cechy mierzalne (masa, obję-

tość, gęstość itp.). Wybierzmy sobie jakąś cechę populacji np. masę i oznaczmy ją przez X.
Wylosujmy ze zbioru

Z dwie n-elementowe próby proste

postawionych hipotez statystycznych.

Estymację

dzieli się na punktową oraz przedziałową. Określenie „punktowa” oznacza, że efektem postę-

powania estymacyjnego jest jedna liczba, a więc jeden punkt na osi liczb rzeczywistych. W

przypadku estymacji przedziałowej produktem szacowania jest pewien przedział na osi liczb

rzeczywistych (tzw. przedział ufności), który z określonym prawdopodobieństwem pokrywa

nieznaną wartość parametru.

II

. Niech liczność próbki wynosi

n = 3.

Załóżmy, że wylosowaliśmy próbki zawierające następujące elementy: {a

1

, a

4

, a

15

}

oraz { a

7

, a

8

, a

13

}, a

oznaczając ich masy: {x

1

, x

4

, x

15

} oraz { x

7

, x

8

, x

13

}. W ogólnym przy-

padku obie próbki będą różnić się od siebie

III

Dowolną funkcję g(X

1

,..., X

n

), której dziedziną będą wartości z próby losowej, nazywać

będziemy statystyką. Nietrudno jest podać jakąś statystykę. Jest nią np. średnia arytmetyczna,
mediana, wariancja, odchylenie standardowe itp.

. Dlatego, w sposób bardziej ogólny, będziemy

traktować ciąg liczbowy x

1

,...,x

n

jako realizację ciągu X

1

,..,X

n

, gdzie X

i

, i = 1,...,n

jest zmienną

losową, której zbiorem możliwych wartości są wartości i-tego spośród n wylosowanych ele-
mentów. W naszym przypadku próbka losowa

będzie wyglądać {X

1

{x

1

albo x

7

}, X

2

{x

4

albo

x

8

}, X

3

{x

15

albo x

13

}}. Każda ze zmiennych losowych X

i

może przyjąć którąś z wartości popu-

lacji generalnej, dlatego

zapisywać będziemy to jako {X

1

,..., X

n

}.

2. Estymatory i ich podstawowe

właściwości

Oznaczmy sobie szacowany parametr symbolem Q.

Może nim być np. parametr p w roz-

kładzie dwumianowym, wartość oczekiwana (μ) albo wariancja (σ

2

) zmiennej losowej o roz-

kładzie normalnym, parametr λ w rozkładzie Poissona itd. Estymator parametru Q oznaczać
będziemy symbolem

n

Qˆ

. Tym samym symbolem będziemy również oznaczać ocenę (osza-

I

Weryfikacja hipotez statystycznych będzie tematem następnego konspektu.

II

Losowanie dokonujemy ze zwrotem, tzn. po wylosowaniu pierwszego elementu a

i

zwracamy go do zbioru Z.

III

Oczywiście może zdarzyć się, że wylosujemy dwie identyczne próbki. Jednak dla dużej zbiorowości generalnej

i małej liczności próbki losowej, szansa takiego zdarzenia jest stosunkowo mała.

background image

Konspekt nr 5 z laboratoriów „Statystyka i rachunek prawdopodobieństwa”

2

cowanie) parametru Q. Estymatorem

n

Qˆ

może być każda charakterystyka z próby losowej,

której rozkład zależy od parametru Q. Nie wszystkie statystyki spełniające ten warunek mają

odpowiednie właściwości operacyjne. Dobry estymator powinien – przede wszystkim – speł-

niać trzy warunki: być nieobciążonym, zgodnym i efektywnym.

Mówimy, że estymator

n

Qˆ

jest

nieobciążony, jeśli jego wartość oczekiwana jest równa

szacowanemu parametrowi Q, czyli

Q

Q

E

n

=

)

ˆ

(

(1).

Estymatory, które nie mają własności (1), są estymatorami obciążonymi. Generują one ob-

ciążenie oszacowania. Wielkość tego obciążenia wynika z różnicy

Q

Q

E

n

n

=

δ

)

ˆ

(

(2).

Estymator może być asymptotycznie nieobciążonym jeśli wielkość obciążenia (δ

n

), przy

wzroście liczności próby, dąży do zera

0

lim

=

δ

n

n

(3).

Zwiększając liczność (n) próby losowej można zmniejszyć błąd oszacowania (oceny) do

wartości mniejszej od dowolnie małej dodatniej liczby rzeczywistej ε, co zapisuje się w na-

stępujący sposób

(

)

1

|

ˆ

|

lim

=

ε

<

Q

Q

P

n

n

(4).

Estymator posiadający własność (4) będziemy nazywać zgodnym.
Miarą efektywności estymatora jest jego wariancja

)

ˆ

(

2

n

Q

D

. Estymatorem najbardziej

efektywnym jest estymator o najmniejszej wariancji. Do oceny efektywności estymatora wy-

korzystuje się następującą charakterystykę

)

ˆ

(

)

ˆ

(

)

ˆ

(

2

*

2

n

n

n

Q

D

Q

D

Q

e

=

(5),

gdzie

n

Qˆ

jest estymatorem ocenianym, natomiast

*

ˆ

n

Q

oznacza estymator najbardziej efektyw-

ny

IV

Estymator

.

n

Qˆ

posiadający właściwość polegającą na tym, że

1

)

ˆ

(

lim

=

n

n

Q

e

(6)

jest estymatorem asymptotycznie najefektywniejszym.

3.

Przegląd podstawowych estymatorów punktowych

Omówienie metod wyznaczania estymatorów będzie pominięte. Należy jedynie pamiętać,

że istnieją trzy podstawowe metody: metoda momentów, metoda najmniejszych kwadratów

oraz, najczęściej stosowana, metoda największej wiarygodności.

W konspekcie nr 3 przedstawione zostały wybrane rozkłady zmiennych losowych, mia-

nowicie: r

ozkład dwumianowy, rozkład Poissona oraz rozkład normalny. W dalszej części

IV

Litera e występująca w równaniu (5) nie oznacza tam podstawy logarytmu naturalnego.

background image

Konspekt nr 5 z laboratoriów „Statystyka i rachunek prawdopodobieństwa”

3

zostaną przedstawione estymatory służące do szacowani parametrów występujących w tych

rozkładach.

Jeśli na podstawie próbki losowej (X

1

,..., X

n

)

o liczności n chcemy oszacować parametr p

w rozkładzie dwumianowym to wykorzystuje się estymator

n

pˆ

dany równaniem

=

=

n

i

i

n

X

n

p

1

1

ˆ

(7).

Dla parametru

λ

z rozkładu Poissona stosujemy estymator

n

λˆ

=

=

λ

n

i

i

n

X

n

1

1

ˆ

(8).

W rozkładzie normalnym wartość oczekiwana μ szacowana jest przy pomocy następują-

cego estymatora

n

µˆ

=

=

µ

n

i

i

n

X

n

1

1

ˆ

(9).

Jak nietrudno zauważyć wszystkie estymatory (7) (9) mają charakter średniej arytme-

tycznej (dalej oznacza

ć będziemy ją przez X ) z próby losowej. Są one również zgodne, nie-

obciążone oraz najefektywniejsze. Średnia arytmetyczna z próby losowej jest podstawowym

estymatorem wartości oczekiwanej E(X), niezależnie od tego, jaki rozkład ma obserwowana
zmienna losowa X

. Można też używać innych estymatorów. Przykładowo dla szacowania

wartości oczekiwanej w rozkładzie normalnym stosuje się niekiedy medianę z próby m

e

.

Efektywność takiego estymatora, przy spełnieniu pewnych warunków przez próbkę losową,

wynosi około 64% efektywności średniej arytmetycznej (9).

Dla oszacowania wariancji D

2

(X) zmiennej losowej

dowolnego rozkładu, stosuje się trzy

podstawowe statystyki (estymatory) oznaczane symbolami

V

2

0

S

, S

2

, S

*2

.

Jeśli zmienne losowe X

1

, ...,X

n

są niezależne, o jednakowym rozkładzie o znanej wartości

średniej μ (wartości oczekiwanej) i nieznanej wariancji, to

(

)

=

µ

=

n

i

i

X

n

S

1

2

2

0

1

(10)

jest zgodnym,

nieobciążonym i najefektywniejszym estymatorem wariancji D

2

(X). Zastoso-

wanie tego estymatora jest jednak ograniczone do tych –

raczej nieczęstych – przypadków,

gdy znana jest wartość średnia (oczekiwana) obserwowanej zmiennej losowej. Zastępując

wartość oczekiwaną jej oszacowaniem ( X ) uzyskujemy estymatory

(

)

=

=

n

i

i

X

X

n

S

1

2

2

1

(11)

oraz

(

)

=

=

n

i

i

X

X

n

S

1

2

2

*

1

1

(12).

V

Trzymając się ściśle oznaczeń powinniśmy estymator wariancji oznaczyć jako

( )

X

D

n

2

ˆ

. Pominiemy to i bę-

dziemy stosować oznaczenia, które najczęściej spotyka się w podręcznikach.

background image

Konspekt nr 5 z laboratoriów „Statystyka i rachunek prawdopodobieństwa”

4

Statystyka S

2

jest zgodnym i asymptotycznie nieobciążonym estymatorem wariancji w

zbiorowości generalnej. Oznacza to, że systematyczny błąd oceny (oszacowania) parametru
maleje ze wzrostem liczno

ści (n) próbki. W przypadku małych próbek zgodnym, nieobciążo-

nym i najefektywniejszym estymatorem wariancji jest statystyka S

*2

.

Odchylenie standardowe z próby jest dodatnim pierwiastkiem kwadratowym z wariancji.

Istnieją więc trzy charakterystyki (estymatory) do szacowania odchylenia standardowego po-
pulacji na podstawie próby losowej. Cha

rakterystyki te oznaczać będziemy przez S

0

, S, S

*

.

Wartość tych charakterystyk wyznacza się biorąc dodatni pierwiastek kwadratowy z wartości

2

0

S

, S

2

, S

*2

, ob

liczonych według równań (10)–(12). Pomimo tego, że statystyki

2

0

S

i S

*2

nieobciążonymi estymatorami wariancji, to jednak zarówno S

0

jak i S

*

są tylko asymptotycz-

nie ni

eobciążonymi estymatorami odchylenia standardowego w populacji generalnej. W

przypadku zmiennej losowej X

, która podlega rozkładowi normalnemu, obciążenie to można

usunąć. Nieobciążonymi estymatorami odchylenia standardowego D(X) (σ) są statystyki

0

S i

*

S

dane wzorami

r

c

S

S

=

0

0

(13),

r

c

S

S

=

*

*

(14),

gdzie

2

2

1

2

 +

Γ

Γ

=

r

r

r

c

r

(15).

We wzorze (13) r = n, natomiast w (14) r = n – 1.

Wartość funkcji gamma Γ wylicza się

następująco



π

 −

 −

 −

=

Γ

3

,

ą

nieparzyst

liczb

ą

jest

gdy

...

2

4

2

2

2

,

parzyst

ą

liczb

ą

jest

gdy

!

1

2

2

n

r

r

r

n

r

r

r

(16),



+

π

 −

 −

=

 +

Γ

1

,

ą

nieparzyst

liczb

ą

jest

gdy

!

1

2

1

2

,

parzyst

ą

liczb

ą

jest

gdy

...

2

3

2

1

2

1

n

r

r

n

r

r

r

r

(17).

Iloczyn

 −

 −

...

2

4

2

2

r

r

występujący we wzorze (16) rozpisujemy na tyle czynników

aby

odejmując od wartości r, z krokiem 2, wartość licznika osiągnęła 1. W analogiczny spo-

sób postępuje się z iloczynem

 −

 −

...

2

3

2

1

r

r

występującym w równaniu (17). Przykła-

background image

Konspekt nr 5 z laboratoriów „Statystyka i rachunek prawdopodobieństwa”

5

dowo dla r = 9 wspomniany iloczyn w (16)

wygląda

 −

 −

 −

 −

2

8

9

2

6

9

2

4

9

2

2

9

, a dla

r = 8 iloczyn z (17)

ma postać

 −

 −

⋅⋅

 −

 −

2

7

8

2

5

8

2

3

8

2

1

8

.

PRZYKŁAD 1. Z populacji generalnej o liczności N = 184 pobrano losową próbę prostą o n = 5 elementów.

Próbka ta wygląda następująco {51.03; 48.68; 49.85; 48.79; 47.92}. Wiadomo, że badana cecha X w populacji

podlega rozkładowi normalnemu. Oszacować następujące parametry w populacji generalnej: wartość oczekiwa-

ną, wariancję oraz odchylenie standardowe.

Aby oszacować wartość oczekiwaną tego rozkładu, stosujemy estymator

n

µˆ

dany równaniem (9), który jest

równy średniej arytmetycznej z próby losowej. Podstawiając do równania otrzymujemy

25

.

49

5

1

ˆ

5

1

5

=

=

=

µ

=

i

i

X

X

.

Ponieważ nie znamy wartości oczekiwanej μ z całej populacji oraz próbka jest mała (n = 5), to w celu wyli-

czenia przybliżonej wartości wariancji należy zastosować wzór (12). Podstawiając do niego dane mamy

(

)

46

.

1

25

.

49

1

5

1

5

1

2

2

*

=

=

=

i

i

X

S

.

Ten sam wynik można uzyskać korzystając z funkcji Excela o nazwie WARIANCJA.
W celu oszacowania odchylenia standardowego

postępujemy następująco. Wyliczamy najpierw wartość S

*

jako dodatni pierwiastek kwadratowy z wariancji

21

.

1

46

.

1

2

*

*

=

=

= S

S

.

Taki sam wynik można uzyskać stosując funkcję Excela o nazwie ODCH.STANDARDOWE. Należy jednak

pamiętać, że funkcja ta zwraca wartość estymatora obciążonego, który jest też asymptotycznie nieobciążony.

Dlatego w dalszej kolejności estymator ten należy odciążyć, stosując równanie (14).

Liczymy współczynnik c

r

. W równaniu (14) r = n

1, a więc r = 4. Podstawiając równania (16) i (17) do

(15) oraz r = 4 otrzymujemy

0638

.

1

2

2

3

4

2

1

4

4

!

1

2

4

2

2

1

4

4

2

4

4

π

 −

 −

 −

=

 +

Γ

Γ

=

c

.

Ostatecznie nieobciążony estymator odchylenia standardowego w populacji wynosi

29

.

1

0638

.

1

21

.

1

*

*

=

=

r

c

S

S

.

4.

Wybrane zagadnienia z estymacji przedziałowej
Stosowanie estymacji punktowej

nie daje odpowiedzi na pytanie z jaką dokładnością dany

estymator został wyznaczony. Innym sposobem estymacji, pozwalającym ocenić tą dokład-

ność, jest estymacja przedziałowa. Polega ona na podaniu tzw. przedziałów ufności dla nie-
znanych parametrów danego

rozkładu.

background image

Konspekt nr 5 z laboratoriów „Statystyka i rachunek prawdopodobieństwa”

6

Przedziałem ufności dla parametru Q na poziome ufności 1 – α (0 < α < 1) nazywamy

przedział (Z

d

, Z

g

)spełniający następujące warunki

jego końce Z

d

= g

1

(X

1

,..., X

n

), Z

g

= g

2

(X

1

,..., X

n

) są funkcjami g

1

i g

2

próbki losowej i

nie zależą od szacowanego parametru Q,

prawdopodobieństwo pokrycia przez ten przedział nieznanego parametru Q jest równe
1 –

α, tzn.

(

)

α

=

<

<

1

P

g

d

Z

Q

Z

(18).

Liczbę α nazywać będziemy poziomem istotności. Wartość α zazwyczaj wybiera się w

granicach (0, 0.1].

W dalszej części konspektu zostaną podane wzory na konstrukcje przedziałów ufności dla

wartości oczekiwanej (wartości średniej μ) i wariancji zmiennej losowej o rozkładzie normal-
nym.

Jeśli nie jest znane odchylenie standardowe D(X) z populacji, to przedział ufności dla war-

tości średniej konstruuje się w oparciu o rozkład Studenta. Zmienna losowa o rozkładzie stu-
denta dane jest w postaci

n

S

X

T

*

µ

=

(19),

o

ν = n – 1 stopniach swobody. Granice przedziału ufności dla tego przypadku wyglądają na-

stępująco

n

S

t

X

Z

n

S

t

X

Z

g

d

*

2

,

*

2

,

oraz

α

ν

α

ν

+

=

=

(20),

a prawdopodobieństwo tego, że pokryje on nieznaną wartość średnią, zgodnie z (18) wynosi

α

=





+

<

µ

<

α

ν

α

ν

1

P

*

2

,

*

2

,

n

S

t

X

n

S

t

X

(21).

Zmienna t

ν,α/2

oznacza kwantyl

VI

PRZYKŁAD 1. Dokonano n = 7 pomiarów masy (kg) pewnych jednakowych detali odlewanych i obliczono

średnią

rzędu 1 – α/2 dla rozkładu Studenta z ν = n – 1 stopniami

swobody.

Kwantyl taki można odczytać z tablic statystycznych lub obliczyć go za pomocą

funkcji Excela o nazwie

ROZKŁAD.T.ODW

o następującej składni: Prawdopodobieństwo = α

(nie trzeba dzielić α przez 2); stopnie_swobody = ν.

21

.

10

=

X

oraz

obliczono wariancję S

2*

= 0.56

. Przyjmijmy, że zaobserwowane wyniki pomiarów

możemy traktować jako próbę prostą z rozkładu normalnego o nieznanej wartości średniej oraz nieznanej wa-

riancji. Należy podać 95-procentowy przedział ufności dla wartości średniej μ.

Granice przedziału obliczamy korzystając z równania (20), pamiętając, że

2

*

*

S

S

=

. Korzystaj

ąc z funk-

cji Excela obliczmy war

tość t

ν,α/2

=

ROZKŁAD.T.ODW(

α = 0.05; ν = 6) ≈ 2.4469. Ostatecznie dostajemy granice:

Z

d

= 9.52 oraz Z

g

= 10.90.

Podobnie jak dla warto

ści średniej, możemy też skonstruować przedział ufności dla wa-

riancji (

σ

2

) rozk

ładu normalnego. Granice takiego przedziału wyglądają następująco

VI

Kwantyl danego rozkładu jest to funkcja odwrotna do dystrybuanty tego samego rozkładu.

background image

Konspekt nr 5 z laboratoriów „Statystyka i rachunek prawdopodobieństwa”

7

2

2

,

2

*

2

2

1

,

2

*

oraz

α

ν

α

ν

χ

ν

=

χ

ν

=

S

Z

S

Z

g

d

(22),

gdzie

2

2

,

α

ν

χ

i

2

2

1

,

α

ν

χ

jest odpowiednio kwantylem dolnym i górnym rozk

ładu chi-kwadrat

o

ν = n – 1 stopniach swobody. Kwantyle te będziemy obliczać za pomocą Excela.

PRZYKŁAD 2. Za pomocą funkcji Excela wyliczyć kwantyl dolny i górny zmiennej losowej chi-kwadrat o

6 stopniach swobody i poziomie istotno

ści 0.1.

Korzystamy z funkcji o nazwie

ROZKŁAD.CHI.ODW, której sk

ładnia wygląda następująco: Prawdopodo-

bieństwo =

α albo 1 – α/2; Stopnie_swobody = ν. Dolny kwantyl = ROZKŁAD.CHI.ODW(0.1/2; 6) ≈12.5916,

górny kwantyl =

ROZKŁAD.CHI.ODW(1 – 0.1/2; 6)

≈ 1.6353.

background image

Konspekt nr 5 z laboratoriów „Statystyka i rachunek prawdopodobieństwa”

8

LITERATURA

W. Krysicki, J. Bartos, W. Dysza, K. Królikowska, M. Wasilewska: Rachunek prawdopo-

dobieństwa i statystyka matematyczna w zadaniach. Wydawnictwo Naukowe PWN, Warsza-
wa 2005.


A. Iwasiewicz, A. Paszek: Statystyka z elementami statystycznych metod monitorowania

procesów. Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków 2004.


W. Kordecki:

Rachunek prawdopodobieństwa i statystyka matematyczny. Oficyna Wy-

dawnicza GiS, Wrocław 2003.


Document Outline


Wyszukiwarka

Podobne podstrony:
Konspekt nr 6 na cw 7 id 245645 Nieznany
Konspekt nr 3 na cw 4 id 245635 Nieznany
Konspekt nr 2 na cw 3 id 245634 Nieznany
konspekt nr 1 na cw 2 id 245631 Nieznany
Dok cw nr 12 RPiS id 139083 Nieznany
MD cw 1 id 290131 Nieznany
cw 9 id 122181 Nieznany
Cwiczenia nr 10 (z 14) id 98678 Nieznany
cw 5 id 121769 Nieznany
28 04 2013 cw id 31908 Nieznany
Cw 8 id 97501 Nieznany
Cwiczenia nr 13 RPiS id 124686 Nieznany

więcej podobnych podstron