Boratyńska A Wykłady ze statystyki matematycznej

background image

1

Agata Boratyńska

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)

Warszawa 2014

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

2

Literatura

W. Niemiro Rachunek prawdopodobieństwa i statystyka mate-
matyczna,
SNS 1999
J. Koronacki i J. Mielniczuk Statystyka WNT 2004
J. Jóźwiak i J. Podgórski, Statystyka od podstaw, PWE 1994
H. Kassyk-Rokicka, Statystyka, zbiór zadań, 2005 lub inne wyda-
nia
W. Krysicki Rachunek prawdopodobieństwa i statystyka mate-
matyczna w zadaniach,
cz. 2. PWN 1998
D. Silvey Wnioskowanie statystyczne, PWN
R. Zieliński Siedem wykładów wprowadzających do statystyki
matematycznej,
PWN www.impan.gov.pl/ rziel/7ALL.pdf
A. Boratyńska Zadania ze statystyki matematycznej,
akson.sgh.waw.pl/ aborata/ekonomia/Zadsek2.pdf
A. Boratyńska Wykłady ze statystyki matematycznej,
akson.sgh.waw.pl/ aborata/ekonomia/wykladSM.pdf
J. Ciecieląg i K. Marek Statystyka matematyczna, zbiór zadań,
WNE
A. Jokiel-Rokita i R. Magiera, Modele i metody statystyki mate-
matycznej w zadaniach,
Oficyna Wydawnicza GiS, Wrocław 2005
A.D. Aczel, Statystyka w zarządzaniu, PWN
W. Zieliński Tablice statystyczne.
C.R. Rao Statystyka i prawda, PWN 1994

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

3

Statystyka jest bardziej sposobem myślenia lub wnioskowania
niż pęczkiem recept na młócenie danych w celu odsłonięcia od-
powiedzi

C. R. Rao

... statystyka jest nauką o tym, jak wykorzystywać informacje
do analizy i wytyczania kierunków działania w warunkach nie-
pewności.

V. Barnett Comparative Statistical Inference

Nauka nie stara się wyjaśniać, a nawet niemal nie stara się
interpretować, zajmuje się ona głównie budową modeli. Mo-
del rozumiany jest jako matematyczny twór, który, po doda-
niu słownej interpretacji, opisuje badane zjawiska. Jedynym i
właściwym uzasadnieniem takiego tworu matematycznego jest
oczekiwanie, że sprawdzi się on w działaniu.

John von Neumann

Kłamstwo, wierutne kłamstwo, statystyka
Liczby nie kłamią ale kłamcy liczą

Ch. H. Grosvenor

Prawa naukowe nie są formułowane na mocy autorytetów ani
uzasadniane przez wiarę czy średniowieczną filozofię. Jedynym
sądem odwoławczym dla nowej wiedzy jest statystyka

P.C. Mahanalobis

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

4

STATYSTYKA - nauka poświęcona metodom badania i anali-
zowania zjawisk masowych; polega na systematyzowaniu obserwo-
wanych cech ilościowych i jakościowych oraz przedstawianiu wy-
ników w postaci zestawień tabelarycznych, wykresów, diagramów
itp. Zajmuje się zbieraniem, przetwarzanie, przedstawianiem da-
nych oraz wniskowaniem na ich podstawie.

STATYSTYKA MATEMATYCZNA - dział matematyki
stosowanej oparty na rachunku prawdopodobieństwa, zajmuje się
badaniem zbiorów i wnioskowaniem o pewnych charakterystykach
cech (zmiennych losowych) na podstawie znajomości podzbiorów i
obserwacji wartości zmiennej losowej w postaci próby losowej.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

5

STATYSTYKA OPISOWA, WSTĘPNA ANALIZA DANYCH.

populacja - zbiór obiektów z wyróżnioną cechą, zbiorowość pod-
dawana badaniu.

cecha - wielkość losowa charakteryzująca obiekty danej populacji
lub interesująca badacza zmienna losowa, cecha ilościowa (np waga,
ocena, wiek, zarobki) i jakościowa (kolor oczu, płeć, wykształcenie)

jednostka badania - element populacji poddany badaniu

próba - wybrana część populacji poddana badaniu, zbiór jedno-
stek badania

jednostka cecha X cecha Y

cecha Z . . .

1

x

1

y

1

z

1

. . .

2

x

2

y

2

z

2

. . .

3

x

3

y

3

z

3

. . .

. . .

. . .

. . .

. . .

. . .

badanie pełne - obejmuje całą populację (np. spis powszechny)

badanie reprezentacyjne - obejmuje część populacji

Wnioskowanie o całej populacji na podstawie próby losowej wy-
maga metod rachunku prawdopodobieństwa.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

6

PREZENTACJA DANYCH

Szereg rozdzielczy punktowy (tablica kontyngencji)

wartości cechy liczności (liczba jednostek)

x

1

n

1

x

2

n

2

. . .

. . .

x

k

n

k

PRZYKŁAD 1. W grupie 20 studentów oceny z egzaminu ze sta-
tystyki były następujące:

2

3

3.5

4

4.5

4

5

3

3

4

3.5

3

3

3.5

3

2

4

5

3.5

3.5

Dane w szeregu

ocena

liczba studentów

2

2

3

6

3.5

5

4

4

4.5

1

5

2

Razem

20

Przejrzystym sposobem prezentacji jest wykres słupkowy

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

7

Szereg rozdzielczy przedziałowy

przedział środek przedziału liczności częstości

(c

0

, c

1

]

¯

c

1

n

1

f

1

=

n

1

n

(c

1

, c

2

]

¯

c

2

n

2

f

2

=

n

2

n

. . .

. . .

. . .

. . .

(c

k−1

, c

k

]

¯

c

k

n

k

f

k

=

n

k

n

Uwagi:

¯

c

i

=

c

i−1

+c

i

2

Najczęściej klasy o jednakowej szerokości lub o zbliżonej liczności

Liczba klas k spełnia

3
4

n ¬ k ¬

n

liczbę klas można też dobierać ustalając szerokość, jedna z reguł
to

b ' 2, 64 · IQR · n

1
3

gdzie IQR - rozstęp międzykwartylowy

Jeżeli liczba klas jest równa k i klasy są jednakowej długości, to
długość b spełnia

b '

X

n:n

− X

1:n

k

gdzie
X

1:n

- najmniejsza obserwacja

X

n:n

- największa obserwacja

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

8

PRZYKŁAD 2. Powierzchnię mieszkań w pewnym osiedlu podaje
tabela

32,45 33,21 34,36 35,78 37,79 38,54

38,91

38,96

39,50

39,67

39,80 41,45 41,55 42,27 42,40 42,45

44,25

44,50

44,70

44,83

44,90 45,10 45,90 46,52 47,65 48,10

48,55

48,90

49,00

49,24

49,55 49,65 49,70 49,90 50,90 51,40

51,50

51,65

51,70

51,80

51,98 52,00 52,10 52,30 53,65 53,89

53,90

54,00

54,10

55,20

55,30 55,56 55,62 56,00 56,70 56,80

56,90

56,95

57,13

57,45

57,70 57,90 58,00 58,50 58,67 58,80

59,23

63,40

63,70

64,20

64,30 64,60 65,00 66,29 66,78 67,80

68,90

69,00

69,50

73,20

76,80 77,10 77,80 78,90 79,50 82,70

83,40

84,50

84,90

85,00

86,00 89,10 89,60 93,00 96,70 98,78 103,00 107,90 112,70 118,90

przedział środek liczba mieszkań częstości

30 40

35

11

0.11

40 50

45

23

0.23

50 60

55

33

0.33

60 70

65

12

0.12

70 80

75

6

0.06

80 90

85

8

0.08

90 100

95

3

0.03

100 110

105

2

0.02

110 120

115

2

0.02

razem

100

1

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

9

Histogram - jest to wykres słupkowy, którego podstawę stano-
wią przedziały klasowe, a wysokości słupków sa proporcjonalne do
liczności n

i

poszczególnych klas.

Jeżeli wysokości są równe licznościom klas to mamy histogram
liczności
, jeżeli są równe częstościom to histogram częstości.
W sytuacji, gdy klasy nie mają równej długości wysokość słupków
określa się wg wzoru

h

i

=

f

i

b

i

gdzie f

i

- to częstość, a b

i

- szerokość klasy.

(porównaj histogramy - przykład 1,2,3)

Łącząc punkty o współrzędnych (¯

c

i

, n

i

) otrzymujemy łamaną

liczności, a łącząc punkty o współrzędnych (¯

c

i

, f

i

) albo (¯

c

i

, h

i

)

łamaną częstości.

W szeregu rozdzielczym możemy również podawać liczności i czę-
stości skumulowane.

przedział

liczności

częstości

skumulowane cn

i

skumulowane cf

i

(c

0

, c

1

]

n

1

f

1

=

n

1

n

(c

1

, c

2

]

n

1

+ n

2

f

1

+ f

2

. . .

. . .

. . .

(c

k−1

, c

k

] n

1

+ n

2

+ . . . + n

k

= n f

1

+ f

2

+ . . . + f

k

= 1

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

10

Jeżeli wysokości słupków histogramu są równe licznościom (czę-
stościom) skumulowanym to otrzymujemy histogram liczności
(częstości) skumulowanych
. Łącząc punkty o współrzędnych
(c

i

, cn

i

) otrzymujemy łamaną liczności skumulowanych, a

łącząc punkty o współrzędnych (c

i

, cf

i

) otrzymujemy łamaną

częstości skumulowanych.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

11

CHARAKTERYSTYKI PRÓBKOWE

MIARY POŁOŻENIA

Średnia arytmetyczna ¯

X

z próby losowej X

1

, X

2

, . . . , X

n

(dane surowe)

¯

X =

X

1

+ X

2

+ . . . + X

n

n

dane z szeregu rozdzielczego punktowego

¯

X =

1

n

k

X

i=1

x

i

n

i

dane z szeregu rozdzielczego przedziałowego

¯

X '

1

n

k

X

i=1

¯

c

i

n

i

PRZYKŁAD 1 cd.

¯

X =

2 · 2 + 6 · 3 + 5 · 3.5 + 4 · 4 + 1 · 4.5 + 2 · 5

20

= 3.5

PRZYKŁAD 2 cd. dla danych z szeregu rozdzielczego

¯

X =

1

100

(11·35+23·45+33·55+12·65+6·75+8·85+3·95+2·105+2·115) = 58.70

Uwaga: jeżeli dostępne są dane surowe zaleca się korzystanie ze
wzoru pierwszego.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

12

Mediana M ed z próby losowej jest to liczba, taka że co najmniej
50% obserwacji przyjmuje wartość nie większą od niej i co najmniej
50% obserwacji wartość nie mniejszą od niej.

Wyliczamy ją w następujący sposób:

dane surowe: ustawiamy rosnąco,
i-tą obserwację w ciągu ustawionym rosnąco oznaczamy symbolem
X

i:n

i nazywamy i-tą statystyką pozycyjną

M ed =

X

n+1

2

:n

gdy n nieparzyste

1
2

(X

n

2

:n

+ X

n+2

2

:n

)

gdy n parzyste

dane z szeregu rozdzielczego przedziałowego

M ed ' c

L

+

b

n

M

n

2

M −1

X

i=1

n

i

gdzie
c

L

- dolna granica klasy mediany

b - szerokość klasy mediany
n

M

- liczność klasy mediany

M - numer klasy

PRZYKŁAD 1 cd. M ed =

X

10:20

+X

11:20

2

=

3,5+3,5

2

= 3, 5

PRZYKŁAD 2 cd. dla danych z szeregu rozdzielczego

M = 3,

n

3

= 33,

c

L

= 50,

b = 10

M ed ' 50 +

10

33

(50 34) = 54, 85

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

13

Moda (dominanta) M o - wartość najczęściej powtarzająca się
w próbie (często zakłada się, że nie może być to wartość największa
ani najmniejsza)

Przy danych z szeregu rozdzielczego

M o ' c

L

+

n

M o

− n

M o−1

(n

M o

− n

M o−1

) + (n

M o

− n

M o+1

)

· b

gdzie
n

M o

- liczność najliczniejszej klasy zwanej klasą mody,

c

L

- lewy koniec klasy mody

PRZYKŁAD 1 cd. M o = 3

PRZYKŁAD 2 cd.

M o ' 50 +

33 23

33 23 + 33 12

· 10 = 53, 2

PRZYKŁAD 3 cd.

M o ' 250+

0, 0006771 0, 0004583

2 · 0, 0006771 0, 0004583 0, 0004774

·200 = 354, 56

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

14

PRZYKŁAD 4. Miesięczne zarobki zasadnicze pracowników z wyż-
szym wykształceniem w pewnej firmie

zarobki liczba osób

2500

6

3000

8

3100

7

3500

4

4000

3

5000

2

12000

1

Razem

31

¯

X = 3506

M ed = X

16:31

= 3100

M o = 3000

Uwaga: średnia jest nieodporna na obserwacje odstające

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

15

Kwartyle

Pierwszy kwartyl (dolny kwartyl) Q

1

- to taka wartość ce-

chy, że co najmniej 25% obserwacji przyjmuje wartość nie większą
od niej i co najmniej 75% obserwacji wartość nie mniejszą od niej.

Drugi kwartyl = Mediana

Trzeci kwartyl (kwartyl górny) Q

3

- to taka wartość cechy,

że co najmniej 75% obserwacji przyjmuje wartość nie większą od
niej i co najmniej 25% obserwacji wartość nie mniejszą od niej.

W praktyce dolny kwartyl wyznacza się jako medianę podpróby
złożonej z obserwacji o wartościach mniejszych od mediany, a górny
kwartyl jako medianę z podpróby złożonej z obserwacji większych
od mediany.

PRZYKŁAD 1 cd.

Q

1

=

X

5:20

+ X

6:20

2

= 3

Q

3

=

X

15:20

+ X

16:20

2

= 4

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

16

Przy danych z szeregu rozdzielczego

Q

1

' c

L

+

b

n

M

1


n

4

M

1

1

X

i=1

n

i


gdzie
c

L

- dolna granica klasy kwartyla

b - szerokość klasy kwartyla
n

M

1

- liczność klasy kwartyla

M

1

- numer klasy

Q

3

' c

L

+

b

n

M

3


3n

4

M

3

1

X

i=1

n

i


gdzie
c

L

- dolna granica klasy kwartyla

b - szerokość klasy kwartyla
n

M

3

- liczność klasy kwartyla

M

3

- numer klasy

PRZYKŁAD 2 cd. Za Q

1

odpowiada obserwacja o numerze

n

4

= 25,

stąd klasa kwartyla jest klasa druga M = 2

Q

1

' 40 +

10

23

(25 11) = 46.09

Za Q

3

odpowiada obserwacja o numerze

3
4

n = 75, stąd klasą kwar-

tyla jest klasa czwarta M = 4

Q

3

' 60 +

10

12

(75 65) = 66.67

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

17

Kwartyle dzielą próbę na cztery równe części (ze względu na licz-
ność), w każdej jest w przybliżeniu 25% obserwacji.

Porównanie wskaźników dla danych surowych i szeregu rozdziel-
czego

miara

dane surowe szereg rozdzielczy

średnia

59,58

58,70

mediana

55,25

54,85

Q

1

47,88

46,09

Q

3

67,29

66,67

Kwantyl próbkowy rzędu p

Q

p

=

X

np:n

+X

np+1:n

2

gdy np ∈ Z

X

[np]+1:n

w pp

lub

Q

p

= X

[np]+1:n

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

18

MIARY ROZPROSZENIA

Rozstęp czyli odległość między największą i najmniejszą obser-
wacją

r = X

n:n

− X

1:n

Rozstęp międzykwartylowy

IQR = Q

3

− Q

1

podaje długość odcinka, na którym leży 50% środkowych wartości
w uporządkowanej niemalejąco próbie.

Uwaga:
rozstęp jest funkcją tylko krańcowych obserwacji, jest nieodporny
na obserwacje odstające, tej wady pozbawiony jest rozstęp między-
kwartylowy

Wariancją z próby losowej X

1

, X

2

, . . . , X

n

(dane surowe)

nazywamy liczbę

ˆ

S

2

=

1

n

n

X

i=1

(X

i

¯

X)

2

=

1

n

n

X

i=1

X

2

i

− n ¯

X

2

Dla danych pogrupowanych w szeregu rozdzielczym otrzymujemy

ˆ

S

2

'

1

n

k

X

i=1

n

i

c

i

¯

X)

2

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

19

Przy danych pogrupowanych w szeregu rozdzielczym stosuje się
jeszcze poprawkę związaną z założeniem rozkładu równomiernego
danych na poszczególnych przedziałach

¯

S

2

=

1

n

k

X

i=1

n

i

c

i

¯

X)

2

+

1

12n

k

X

i=1

n

i

(c

i

− c

i−1

)

2

Odchylenie standardowe ˆ

S =

ˆ

S

2

lub ¯

S =

¯

S

2

Odchylenie przeciętne d =

1

n

P

n

i=1

|X

i

¯

X|

W sytuacji gdy chcemy porównać rozrzut dwóch lub więcej prób
korzystamy ze współczynnika zmienności

V =

ˆ

S

¯

X

100%

PRZYKŁAD 1 cd.

r = 5 2 = 3

IQR = 4 3 = 1

ˆ

S

2

=

1

20



2(2 3, 5)

2

+ 6(3 3, 5)

2

+ 5(3, 5 3, 5)

2

+4(4 3, 5)

2

+ 1(4, 5 3, 5)

2

+ 2(5 3, 5)

2



= 0, 63

ˆ

S =

0, 658 = 0, 79

d =

1

20

{2|2 3, 5| + 6|3 3, 5| + 5|3, 5 3, 5|

+4|4 3, 5| + 1|4, 5 3, 5| + 2|5 3, 5|} = 0, 6

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

20

PRZYKŁAD 2 cd. Dla danych z szeregu rozdzielczego

r ' 120 30 = 90

IQR ' 66, 67 46, 09 = 20, 58

ˆ

S

2

' 331, 31

ˆ

S ' 18, 20

¯

S

2

= 339, 64

¯

S = 18, 43

d ' 13, 96

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

21

WYKRES RAMKOWY, PUDEŁKO Z WĄSAMI

Pozwala na jednym rysunku przedstawić wiadomości dotyczące po-
łożenia, rozproszenia i kształtu rozkładu empirycznego badanej ce-
chy. Na wykresie zaznacza się kwartyle, średnią, medianę, najwięk-
szą i najmniejszą obserwację, obserwacje odstające.

Obserwacje odstające są to obserwacje o wartościach

x < x

lub

x > x

gdzie

x

= min{X

i

: X

i

[Q

1

3

2

IQR, Q

1

]}

x

= max{X

i

: X

i

[Q

3

, Q

3

+

3

2

IQR]}

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

22

WSKAŹNIKI ASYMETRII

Współczynnik asymetrii (klasyczny)

A =

M

3

S

3

gdzie M

3

jest trzecim momentem centralnym równym dla danych

surowych

M

3

=

1

n

n

X

i=1

(X

i

¯

X)

3

,

dla danych pogrupowanych w szeregu rozdzielczym otrzymujemy

M

3

'

1

n

k

X

i=1

n

i

c

i

¯

X)

3

Pozycyjny miernik asymetrii

A

2

=

Q

3

2M ed + Q

1

Q

3

− Q

1

Współczynnik skośności

A

1

=

¯

X − M o

S

Asymetria dodatnia (prawostronna) - wskaźniki asymetrii dodatnie

Asymetria ujemna (lewostronna) - wskaźniki asymetrii ujemne

PRZYKŁAD 1 cd. A = 0, 08,

A

1

=

3,53,5

0,79

= 0

PRZYKŁAD 2cd. A = 1, 10

A

1

=

58,7050,10

18,20

= 0, 47

PRZYKŁAD 3cd. A

1

=

35063000

1671,57

= 0, 3

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

23

INDEKSY STATYSTYCZNE

Zbiór wartości danej cechy lub wartości określonego zjawiska za-
obserwowany w różnych (ale chronologicznych) momentach czasu
nazywamy szeregiem czasowym.

PRZYKŁAD. cena akcji w kolejnych dniach stycznia, zarobki w
pewnej gałęzi przemysłu w kolejnych latach, wielkość produkcji w
kolejnych miesiącach

Indeksy statystyczne służą do badania dynamiki zjawiska na
podstawie danych z kolejnych okresów czasowych (na podstawie
szeregu czasowego).

y

t

- poziom zjawiska (wartość cechy) w chwili (okresie) t, t ∈

{0, 1, 2, . . . , n}

t

= y

t

− y

t−1

- przyrost absolutny

δ

t

=

y

t

−y

t∗

y

t∗

- przyrost względny względem wartości w chwili t

.

INDEKSY PROSTE - mierniki tempa zmian zjawiska

Indeks łańcuchowy dynamiki i

t|t−1

=

y

t

y

t−1

Tempo zmian wartości zjawiska w okresie t w stosunku do okresu
t − 1 jest równe (i

t|t−1

1)100%

Indeks jednopodstawowy dynamiki i

t|t

=

y

t

y

t∗

, gdzie t

jest

ustaloną chwilą (ustalonym okresem) czasu.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

24

Tempo zmian wartości zjawiska w okresie t w stosunku do okresu
t

jest równe (i

t|t

1)100%

Związki między indeksami:

i

t|t−1

=

i

t|t

i

t−1|t

,

jeśli t

0

> t

to

i

t

0

|t

=

t

0

Y

t=t

+1

i

t|t−1

,

jeśli t

0

< t

to

i

t

0

|t

=

t

Y

t=t

0

+1

1

i

t|t−1

.

Średnie tempo zmian wartości zjawiska

r = ¯i

g

1 =

n

Y

t=1

i

t|t−1

1

n

1 =

y

n

y

0

1

n

1 =



i

n|0



1

n

1

Średnie tempo zmian wartości zjawiska określa tempo zmian zjawi-
ska jakie powinno występować przez cały okres (0, n), aby przyrost
z okresu (0, n) rozłożyć równomiernie w czasie.
Zatem y

n

= y

0

(r + 1)

n

.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

25

AGREGATOWE INDEKSY WARTOŚCI, ILOŚCI I CEN.

Indeksy agragatowe oceniają dynamikę zjawiska w niejedno-
rodnej zbiorowości (np. dynamika cen różnych artykułów, dyna-
mika spożycia różnych produktów, dynamika sprzedaży, produkcji
kilku dóbr).

Dane z dwóch okresów (momentów) czasowych: t = 0 - okres pod-
stawowy i t = 1 okres badany

produkt cena jednostki

ilość

wartość

t = 0

t = 1

t = 0 t = 1

t = 0

t = 1

1

p

10

p

11

q

10

q

11

w

10

= p

10

q

10

w

11

= p

11

q

11

2

p

20

p

21

q

20

q

21

w

20

= p

20

q

20

w

21

= p

21

q

21

. . .

. . .

. . .

. . .

. . .

. . .

. . .

j

p

j0

p

j1

q

j0

q

j1

w

j0

= p

j0

q

j0

w

j1

= p

j1

q

j1

. . .

. . .

. . .

. . .

. . .

. . .

. . .

k

p

k0

p

k1

q

k0

q

k1

w

k0

= p

k0

q

k0

w

k1

= p

k1

q

k1

Agregatowy indeks wartości

I

w

=

P

k

j=1

w

j1

P

k

j=1

w

j0

informuje o łącznej zmianie wartości wszystkich produktów w mo-
mencie badanym do momentu podstawowego

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

26

Agregatowy indeks cen określa wpływ zmian cen na dyna-
mikę wartości (gdyby ilości w obu momentach czasu były niezmie-
nione), mówi o przeciętnych zmianach cen wszystkich rozważanych
produktów
Agregatowy indeks cen Laspeyresa

L

I

p

=

P

k

j=1

p

j1

q

j0

P

k

j=1

p

j0

q

j0

=

P

k

j=1

p

j1

p

j0

p

j0

q

j0

P

k

j=1

p

j0

q

j0

Agregatowy indeks cen Paaschego

P

I

p

=

P

k

j=1

p

j1

q

j1

P

k

j=1

p

j0

q

j1

Agregatowy indeks cen Fishera

F

I

p

=

r

L

I

pP

I

p

Agregatowy indeks ilości określa wpływ zmian ilości na dyna-
mikę wartości (gdyby w obu momentach ceny były niezmienione),
informuje o przeciętnych zmianach ilości poszczególnych produk-
tów w obu porównywanych momentach czasu
Agregatowy indeks ilości Laspeyresa

L

I

q

=

P

k

j=1

p

j0

q

j1

P

k

j=1

p

j0

q

j0

=

P

k

j=1

q

j1

q

j0

p

j0

q

j0

P

k

j=1

p

j0

q

j0

Agregatowy indeks ilości Paaschego

P

I

q

=

P

k

j=1

p

j1

q

j1

P

k

j=1

p

j1

q

j0

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

27

Agregatowy indeks ilości Fishera

F

I

q

=

r

L

I

qP

I

q

Związki między indeksami

I

w

=

L

I

pP

I

q

=

L

I

qP

I

p

=

F

I

pF

I

q

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

28

MODEL STATYSTYCZNY, PODSTAWOWE ZADANIA
STATYSTYKI MATEMATYCZNEJ

ZADANIE z rachunku prawdopodobieństwa

Rzucamy niezależnie 100 razy symetryczną monetą.

Oblicz:

prawdopodobieństwo wyrzucenia 60 orłów

wartość oczekiwaną liczby wyrzuconych orłów

Rozwiązanie:

Model probabilistyczny:

X - liczba wyrzuconych orłów, zmienna losowa o rozkładzie dwu-
mianowym

P (X = 60) =


100

60


1

2

100

EX = = 50

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

29

ZADANIE ze statystyki matematycznej

Rzucono niezależnie 100 razy pewna monetą uzyskując 60 orłów.

Polecenia:

1. oszacuj prawdopodobieństwo uzyskania orła w pojedynczym
rzucie;

2. czy moneta jest symetryczna

Co znamy?

Model probabilistyczny z dokładnością do parametru

X - liczba wyrzuconych orłów, obserwowana zmienna losowa o
rozkładzie dwumianowym

P

θ

(X = x) =


100

x


(θ)

x

(1 − θ)

100−x

θ ∈ (0, 1) - nieznany parametr

Wynik obserwacji X = 60, na jego podstawie chcemy wnioskować
o nieznanym parametrze θ.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

30

Zagadnienie estymacji - szacowanie nieznanego parametru na
podstawie wyniku obserwacji;
estymacja punktowa - podanie oszacowania w postaci liczbowej;
estymacja przedziałowa - podanie oszacowania w postaci przedzia-
łu nazywanego przedziałem ufności

Testowanie hipotez statystycznych - weryfikacja hipotezy
dotyczącej nieznanej wielkości rozkładu obserwowanej zmiennej lo-
sowej na podstawie wyniku obserwacji

Polecenia:
wyznacz estymator lub przedział ufności parametru θ
zweryfikuj hipotezę H : θ =

1
2

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

31

MODEL STATYSTYCZNY

(X , F

X

, P)

X - przestrzeń wartości obserwowanej zmiennej losowej X

F

X

- σ-ciało podzbiorów

P - rodzina rozkładów prawdopodobieństwa indeksowanych pew-
nym parametrem θ

P = {P

θ

: θ ∈ Θ}

Statystyką nazywamy zmienną losową T będącą funkcją obser-
wowanej zmiennej losowej X. Rozkład statystyki zależy od rozkła-
du zmienne X

Wnioskowanie statystyczne:

estymacja nieznanych parametrów: punktowa i przedziałowa

testowanie hipotez statystycznych

predykcja (przewidywanie) - przewidywanie wartości zmiennej
losowej nieobserwowanej Y za pomocą obserwowanej zmiennej X,
rozkłady zmiennej Y i X zależą od tego samego parametru.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

32

PEWNE WAŻNE ROZKŁADY

Rozkład χ

2

Niech Z

i

∼ N (0, 1), i = 1 . . . k, Z

i

niezależne

Rozkładem χ

2

z k stopniami swobody nazywamy rozkład prawdo-

podobieństwa zmiennej losowej

Y =

k

X

i=1

Z

2

i

i oznaczamy

Y ∼ χ

2
k

gęstość

p

k

(x) =

1

2

k
2

Γ(

k

2

)

x

k
2

1

exp

1

2

x

1

(0,∞)

(x)

EY = k i V arY = 2k

kwantyl rzędu p - F

1

χ

2

k

(p) - jest to liczba taka, że P {Y ¬

F

1

χ

2

k

(p)} = p

wartość krytyczna rzędu α

χ

2

(α, k) = F

1

χ

2

k

(1 − α)

- jest to liczba, taka że prawdopodobieństwo zdarzenia Y > χ

2

(α, k)

jest równe α.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

33

Rozkład t-Studenta

Niech Z ∼ N (0, 1) i Y ∼ χ

2

k

oraz Z i Y niezależne, wtedy rozkład

zmiennej losowej

T =

Z

r

Y

k

nazywamy rozkładem t-Studenta z k stopniami swobody i ozna-
czamy

T ∼ t

k

gęstość

f

k

(x) =

1

·

Γ



k+1

2



Γ



k

2




1 +

x

2

2


k+1

2

ET = 0 gdy k > 1
V arT =

k

k−2

gdy k > 2

kwantyl rzędu p - F

1

t

k

(p) - jest to liczba taka, że P {T ¬

F

1

t

k

(p)} = p

wartość krytyczna dwustronna rzędu α

t(α, k) = F

1

t

k

1

α

2

!

- jest to liczba, taka że prawdopodobieństwo zdarzenia |T | >
t
(α, k) jest równe α.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

34

Rozkład F (Fishera-Snedecora)

Niech Y ∼ χ

2

k

i V ∼ χ

2

r

oraz zmienne Y i V są niezależne, wtedy

rozkład zmiennej losowej

F =

Y /k

V /r

nazywamy rozkładem F z k i r stopniami swobody i oznaczamy

F ∼ F

k,r

gęstość

p

k,r

(x) =

Γ



k+r

2



Γ



k

2



Γ



r
2



r

k

!

r
2

x

k
2

1



x +

r

k



k+r

2

1

(0,∞)

(x)

gdy x > 0

kwantyl rzędu p - F

1

F

k,r

(p)

wartość krytyczna rzędu α

F (α, k, r) = F

1

F

k,r

(1 − α)

- jest to liczba, taka że prawdopodobieństwo zdarzenia F > F (α, k, r)
jest równe α.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

35

Rozkłady pewnych statystyk w modelu normalnym

X

1

, X

2

, . . . , X

n

i.i.d. N (µ, σ

2

), µ ∈ R, σ > 0

¯

X =

1

n

X

n
i
=1

X

i

S

2

=

1

n − 1

X

n
i
=1

(X

i

¯

X)

2

Własności

¯

X i S

2

są niezależne;

¯

X ∼ N (µ,

σ

2

n

)

E ¯

X =

1

n

E

P

n

i=1

X

i

=

1

n

nEX

1

= µ

V ar ¯

X =

1

n

V ar

P

n

i=1

X

i

=

1

n

2

nV arX

1

=

σ

2

n

Zmienna

P

n

i=1

(X

i

−µ)

2

σ

2

ma rozkład χ

2

n

(n−1)S

2

σ

2

=

P

n

i=1

(X

i

¯

X)

2

σ

2

∼ χ

2

n−1

• E

(n−1)S

2

σ

2

= n − 1 i V ar

(n−1)S

2

σ

2

= 2(n − 1) stąd

ES

2

= σ

2

i

V arS

2

=

2σ

4

n − 1

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

36

¯

X−µ

σ

n ∼ N (0, 1) i

(n−1)S

2

σ

2

∼ χ

2

n−1

zatem

T =

¯

X−µ

σ

n

s

(n−1)S

2

σ

2

(n−1)

=

¯

X − µ

S

n ∼ t

n−1

Niech X

1

, X

2

, . . . , X

n

i.i.d. N (µ

1

, σ

2

) i Y

1

, Y

2

, . . . , Y

m

i.i.d. N (µ

2

, σ

2

)

Niech

S

2

X

=

1

n − 1

X

n
i
=1

(X

i

¯

X)

2

i

S

2

Y

=

1

m − 1

X

m
i
=1

(Y

i

¯

Y )

2

Wtedy

(n − 1)S

2

X

σ

2

∼ χ

2
n−1

(m − 1)S

2

Y

σ

2

∼ χ

2
m−1

i zmienne sa niezależne, stąd

(n−1)S

2

X

σ

2

(n−1)

(m−1)S

2

Y

σ

2

(m−1)

=

S

2

X

S

2

Y

∼ F

n−1,m−1

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

37

ZAGADNIENIE ESTYMACJI

Zagadnienie estymacji - szacowanie nieznanego parametru lub
funkcji na podstawie wyników obserwacji;

X

1

, X

2

, . . . , X

n

- niezależne zmienne losowe o tym samym rozkła-

dzie (i.i.d.) P

θ

- próba losowa

θ ∈ Θ - nieznany parametr, Θ ⊆ R(R

k

)

Estymatorem parametru θ nazywamy dowolną funkcję

ˆ

θ(X

1

, X

2

, . . . , X

n

), której wartości należą do przestrzeni Θ, i której

celem jest oszacowanie parametru θ.

CHARAKTERYSTYKI PRÓBKOWE - estymatory w oparciu o
dystrybuantę empiryczną

Model:

(R, F )

n

, gdzie F rodzina dystrybuant na prostej rzeczywistej

x = (x

1

, x

2

, ..., x

n

) - próbka losowa z rozkładu o dystrybuancie F

k-ta statystyka pozycyjna z próby losowej x

1

, x

2

, ..., x

n

jest

równa k-tej wartości, gdy obserwacje ustawimy w ciąg rosnący.
Oznaczenie: X

k:n

W szczególności

x

1:n

= min{x

1

, x

2

, ..., x

n

}

x

n:n

= max{x

1

, x

2

, ..., x

n

}

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

38

Dystrybuanta empiryczna

F

n

(x, t) = F

n

(t) =

liczba x

i

, takich że x

i

¬ t

n

F

n

(t) =

1

n

Σ1

(−∞,t]

(x

i

) =

1

n

Σ1

[x

i:n

,∞)

(t)

gdzie

1

(−∞,t]

(X

i

) =

1

gdy X

i

(−∞, t]

0

w przeciwnym przypadku

jest zmienną losową dwupunktową,

P

F

(1

(−∞,t]

(X

i

) = 1) = F (t)

Dystrybuanta empiryczna jest statystyką jako funkcja próby lo-
sowej i jest dystrybuantą rozkładu jednostajnego skupionego w
punktach x

1

, x

2

, ..., x

n

jako funkcja zmiennej t.

Własności F

n

jako statystyki:

1.

E

F

F

n

(t) = E

F

1

n

Σ1

(−∞,t]

(X

i

)

=

1

n

· nE

F

1

(−∞,t]

(X

i

) = F (t)

2. V arF

n

(t) =

1

n

F (t)(1 − F (t))

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

39

3. CTG

F

n

(t) − F (t)

r

F (t)(1 − F (t))

n −→ N (0, 1)

P

x :

F

n

(t) − F (t)

r

F (t)(1 − F (t))

n ¬ z

−→ Φ(z)

dla każdego z.

4. Twierdzenie Gliwenki Cantellego

Dla prawie wszystkich x

sup

t

|F

n

(t) − F (t)| −→ 0,

gdy n −→ ∞

Charakterystyki próbkowe:
średnia - estymator wartości oczekiwanej
mediana próbkowa - estymator mediany
kwantyl próbkowy - estymator kwantyla rozkładu
wariancja z próby - estymator wariancji
itd

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

40

Przykład 4: Dane - 40 strat spowodowanych wichurami:

wartość liczebność

2

12

3

4

4

3

5

4

6

4

8

2

9

1

15

1

17

1

22

1

23

1

24

2

25

1

27

1

32

1

43

1

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

41

METODY WYZNACZANIA ESTYMATORÓW

EMM (estymacja metodą momentów)

X

1

, X

2

, . . . , X

n

i.i.d z rozkładu P

θ

, θ- nieznany parametr

1. θ ∈ R (jednowymiarowa przestrzeń parametrów), rozwiąż (nie-
wiadomą jest θ):

E

θ

X = ¯

X

2. θ = (θ

1

, θ

2

) ∈ R

2

, rozwiąż układ (niewiadomą jest θ):

E

θ

X = ¯

X

V ar

θ

X = ˆ

S

2

3. θ = (θ

1

, θ

2

, . . . , θ

k

) (k-wymiarowa przestrzeń parametrów), roz-

wiąż układ (niewiadomą jest θ):

E

θ

X = ¯

X

V ar

θ

X = ˆ

S

2

E

θ

(X − µ)

3

=

1

n

P

(X

i

¯

X)

3

. . . . . .
E

θ

(X − µ)

k

=

1

n

P

(X

i

¯

X)

k

gdzie µ = E

θ

X.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

42

Przykład 1.

X = (X

1

, X

2

, . . . , X

n

), X

i

∼ Ex(θ) i są niezależne, θ > 0

EM M (θ) =?

E

θ

X

i

=

Z

+

0

xθe

−θx

dx =

1

θ

Rozwiązujemy równanie:

1

θ

= ¯

X

stąd

EM M (θ) = ˆ

θ =

1

¯

X

Przykład 2.

X = (X

1

, X

2

, . . . , X

n

), X

i

∼ Gamma(α, β) i są niezależne,

α, β > 0

EM M (α) =? i EM M (β) =?.

p

α,β

(x) =

β

α

Γ(α)

x

α−1

e

−βx

gdy x > 0

E

α,β

X

i

=

α

β

V ar

α,β

X

i

=

α

β

2

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

43

Otrzymujemy układ:

α
β

= ¯

X

α

β

2

= ˆ

S

2

Stąd:

ˆ

β =

¯

X

ˆ

S

2

i

ˆ

α =

¯

X

2

ˆ

S

2

Przykład 3.

Wyznaczyć EMM parametrów w rozkładzie P areto(θ, λ), θ > 2,
λ > 0.

Rozwiązanie:

X = (X

1

, X

2

, . . . , X

n

), X

i

∼ P areto(θ, λ) i są niezależne

p

θ,λ

(x) =

θλ

θ

(λ + x)

θ+1

,

x > 0

Otrzymujemy układ:

λ

θ − 1

= ¯

X

λ

2

θ

(θ − 1)

2

(θ − 2)

= S

2

Stąd:

ˆ

θ =

2S

2

S

2

¯

X

2

ˆ

λ = ¯

X( ˆ

θ − 1).

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

44

EMK (estymacja metodą kwantyli)

X

1

, X

2

, . . . , X

n

i.i.d z rozkładu P

θ

, θ- nieznany parametr

1. θ ∈ R (jednowymiarowa przestrzeń parametrów), rozwiąż (nie-
wiadomą jest θ):

q

1
2

(θ) = Q

1
2

⇐⇒ F

θ

(Q

1
2

) =

1

2

2. θ = (θ

1

, θ

2

), rozwiąż układ (niewiadomą jest θ):

q

1
4

(θ) = Q

1
4

i

q

3
4

(θ) = Q

3
4

lub układ równoważny:

F

θ

(Q

1
4

) =

1

4

i

F

θ

(Q

3
4

) =

3

4

3. θ = (θ

1

, θ

2

, θ

3

). Otrzymujemy układ:

F

θ

(Q

1
4

) =

1

4

i

F

θ

(Q

1
2

) =

1

2

i

F

θ

(Q

3
4

) =

3

4

4. θ = (θ

1

, θ

2

, θ

3

, θ

4

). Rozważamy kwantyle rzędu

1
8

,

3
8

,

5
8

i

7
8

.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

45

Przykład 1.

X

1

, X

2

, . . . , X

n

i.i.d, X

i

∼ Ex(θ), θ > 0

EM K(θ) =?

F

θ

q

1
2

!

= 1 exp

−θq

1
2

!

=

1

2

⇐⇒ q

1
2

=

1

θ

ln

1

2

Rozwiązujemy równanie:

1

θ

ln

1

2

= Q

1
2

stąd

EM K(θ) = ˆ

θ(X) =

1

Q

1
2

ln

1

2

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

46

Przykład 2.

Niech X

1

, X

2

, . . . , X

n

i.i.d z rozkładu W eibull(c, τ ),

EM K(c) =? i EM K(τ ) =?

Dystrybuanta w rozkładzie Weibulla ma postać:

F

c,τ

(x) = 1 exp (−cx

τ

)

x > 0

Otrzymujemy układ:

1 − e

−cQ

τ

1

4

=

1
4

1 − e

−cQ

τ

3

4

=

3
4

.

Stąd

ln 0.75 = cQ

τ

1
4

ln 0.25 = cQ

τ

3
4



Q

1
4

Q

3
4



τ

=

ln 0.75

ln 0.25

Estymatory mają postać:

ˆ

τ = log

Q 1

4

Q 3

4

ln 0.75

ln 0.25

ˆ

c =

ln 0.75

Q

ˆ

τ

1
4

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

47

ENW (estymacja metodą największej wiarogodności)

Niech X

1

, X

2

, . . . , X

n

i.i.d. z rozkładu o gęstości f

θ

(x), gdzie θ jest

nieznanym parametrem.

Funkcją wiarogodności nazywamy funkcję zmiennej θ równą

L(θ, x) = f

θ

(x

1

)f

θ

(x

2

) . . . f

θ

(x

n

)

gdzie x = (x

1

, x

2

, . . . , x

n

) jest próbką zaobserwowanych wartości

zmiennych X

1

, X

2

, . . . , X

n

Estymatorem największej wiarogodności parametru θ
(EN W (θ)) nazywamy argument maksimum funkcji L

EN W (θ) = arg max

θ

L(θ, x).

Zachodzi: arg max

θ

L(θ, x) = arg max

θ

ln L(θ, x).

EN W (g(θ)) = g(EN W (θ))

Jeżeli θ = (θ

1

, . . . , θ

k

) jest parametrem ciągłym i L jest funkcją

różniczkowalną, to ENW wyznaczamy rozwiązując układ równań:

∂L(θ, x)

∂θ

j

= 0,

j = 1, 2, . . . , k

lub równoważny układ:

ln L(θ, x)

∂θ

j

= 0,

j = 1, 2, . . . , k.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

48

PRZYKŁAD 1.

X ∼ bin(n, θ)

L(θ, x) =


n

x


θ

x

(1 − θ)

n−x

∂L(θ, x)

∂θ

=


n

x


θ

x−1

(1 − θ)

n−x−1

(x − nθ) = 0

EN W (θ) =

X

n

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

49

PRZYKŁAD 2.

X

1

, X

2

, . . . , X

n

i.i.d Ex(θ), θ > 0

Funkcja wiarogodności

L(θ, x) = θ

n

exp

−θ

n

X

i=1

x

i

ln L = n ln θ − θ

n

X

i=1

x

i

Pochodna

ln L(θ,x)

∂θ

=

n

θ

P

n

i=1

x

i

Rozwiązujemy równanie

n

θ

n

X

i=1

x

i

= 0

EN W (θ) =

1

¯

X

PRZYKŁAD 3.

X

1

, X

2

, . . . , X

n

i.i.d N (µ, σ), niech v = σ

2

L(µ, v) =

1

2πv

n

2

exp

1

2v

n

X

i=1

(x

i

− µ)

2

ln L =

n

2

ln(2π)

n

2

ln v −

1

2v

n

X

i=1

(x

i

− µ)

2

Po obliczeniu pochodnych cząstkowych otrzymujemy układ

2

1

2v

P

n

i=1

(x

i

− µ) = 0

n

2v

+

1

2v

2

P

n

i=1

(x

i

− µ)

2

= 0

EN W (µ) = ¯

X

EN W (σ

2

) = ˆ

S

2

=

1

n

n

X

i=1



X

i

¯

X



2

.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

50

WŁASNOŚCI ESTYMATORÓW,
PORÓWNYWANIE ESTYMATORÓW

X = (X

1

, X

2

, . . . , X

n

) - obserwowana zmienna losowa

P

θ

- rozkład zmiennej X, θ -nieznany parametr

ˆ

θ - estymator θ, ˆ

g - estymator funkcji g(θ)

1. Obciążenie estymatora

Obciążenie estymatora parametru θ:

B

θ

( ˆ

θ) = E

θ

ˆ

θ(X) − θ

Obciążenie estymatora funkcji g(θ):

B

θ

g) = E

θ

ˆ

g(X) − g(θ)

Estymator ˆ

θ ( ˆ

g) jest estymatorem nieobciążonym

⇐⇒

∀θ ∈ Θ

E

θ

ˆ

θ(X) = θ

(E

θ

ˆ

g(X) = g(θ))

PRZYKŁADY:

X

1

, X

2

, . . . , X

n

i.i.d z rozkładu o nieznanej dystrybuancie F i nie-

znanych EX

i

= µ i V arX

i

= σ

2

F

n

- dystrybuanta empiryczna (estymator F )

¯

X - estymator µ

S

2

, ˆ

S

2

- estymatory σ

2

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

51

EF

n

(t) = F (t)

=⇒ F

n

(t) estymator nieobciążony dystrybuanty F (t)

E ¯

X =

1

n

E

n

X

i=1

X

i

=

1

n

nEX

1

= µ

=¯

X - estymator nieobciążony wartości oczekiwanej

ES

2

=

1

n − 1

E

n

X

i=1

(X

i

¯

X)

2

=

1

n − 1

E

n

X

i=1

X

2

i

− n ¯

X

2

=

n

n − 1

EX

2

1

n

n − 1

E ¯

X

2

ES

2

=

n

n − 1


σ

2

+ µ

2


σ

2

n

+ µ

2



= σ

2

=⇒ S

2

jest estymatorem nieobciążonym wariancji

E ˆ

S

2

= E

n − 1

n

S

2

=

n − 1

n

σ

2

B( ˆ

S

2

) =

n − 1

n

σ

2

− σ

2

=

1

n

σ

2

ˆ

S

2

- estymator obciążony

B( ˆ

S

2

) =

1

n

σ

2

−→ 0

gdy n −→ +

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

52

Mówimy, że estymator jest asymptotycznie nieobciążony gdy

∀ θ ∈ Θ

lim

n→+

B

θ

( ˆ

θ) = 0

2. Ryzyko estymatora (błąd średniokwadratowy)

Funkcję

R(θ, ˆ

g) = E

θ

g(X) − g(θ))

2

nazywamy ryzykiem estymatora ˆ

g przy kwadratowej funkcji

straty lub błędem średniokwadratowym.

R(θ, ˆ

g) = E

θ

g(X) − g(θ))

2

= B

2

θ

g) + V ar

θ

g)

Mówimy, że estymator ˆ

g

1

jest lepszy niż ˆ

g

2

⇐⇒

∀θ

R(θ, ˆ

g

1

) ¬ R(θ, ˆ

g

2

)

i

∃θ

0

R(θ

0

, ˆ

g

1

) < R(θ

0

, ˆ

g

2

).

Jeżeli

ˆ

g jest estymatorem nieobciążonym funkcji g(θ), tzn.

E

θ

g) = g(θ) dla każdego θ ∈ Θ, to

R(θ, ˆ

g) = V ar

θ

g).

WNIOSEK: Przy estymatorach nieobciażonych miernikiem jakości
estymatora jest jego wariancja.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

53

PRZYKŁAD 1.

X

1

, X

2

, . . . , X

n

i.i.d P oiss(θ), θ > 0

EN W (θ) =?

L(θ, x) = e

−nθ

θ

P

x

i

Q

x

i

!

ln L(θ, x) = −nθ +

X

x

i

ln θ − ln

Y

x

i

!

ln L(θ, x)

∂θ

= −n +

P

x

i

θ

EN W (θ) = ˆ

θ =

P

X

i

n

= ¯

X

E

θ

¯

X = θ =ˆ

θ estymator nieobciążony

R(θ, ˆ

θ) = V ar

θ

ˆ

θ =

θ

n

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

54

PRZYKŁAD 2.

X

1

, X

2

, . . . , X

n

i.i.d N (µ, σ

2

), oba parametry nieznane

Porównamy ryzyka estymatorów wariancji S

2

i ˆ

S

2

R(µ, σ, S

2

) = V ar

µ,σ

S

2

=

σ

4

(n − 1)

2

V ar

µ,σ


P

n

i=1

(X

i

¯

X)

2

σ

2


=

σ

4

(n − 1)

2

2(n − 1) =

2σ

4

(n − 1)

R(µ, σ, ˆ

S

2

) = V ar

µ,σ

ˆ

S

2

+ B

2

µ,σ

( ˆ

S

2

)

= V ar

µ,σ

n − 1

n

S

2

+

1

n

σ

2

2

=

n − 1

n

2

2σ

4

(n − 1)

+

σ

4

n

2

=

2n − 1

n

2

σ

4

Zatem

∀ µ, σ

R(µ, σ, ˆ

S

2

) < R(µ, σ, S

2

)

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

55

X = (X

1

, X

2

, . . . , X

n

),

p

θ

(x) - gęstość rozkładu zmiennej X

Informacją Fishera nazywamy funkcję

I

n

(θ) = E

θ


ln p

θ

(X)

∂θ


2

I

n

(θ) =

R

X

∂pθ(x)

∂θ

p

θ

(x)

2

p

θ

(x)dx

dla zmiennej ciągłej

P

x

∂Pθ(x)

∂θ

P

θ

(x)

2

P

θ

(x)

dla zmiennej dyskretnej

Jeżeli p

θ

(x) jest dwukrotnie różniczkowalną funkcją zmiennej θ, to

I

n

(θ) = −E

θ


2

ln p

θ

(X)

∂θ

2


.

Jeżeli X

1

, X

2

, . . . , X

n

i.i.d. z rozkładu o gęstości f

θ

(x), to

I

n

(θ) = nI

1

(θ),

gdzie I

1

(θ) jest informacją Fishera w oparciu o zmienną X

1

.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

56

NIERÓWNOŚĆ INFORMACYJNA

Przy pewnych warunkach regularności, jeżeli ˆ

g jest estymato-

rem nieobciążonym funkcji różniczkowalnej g(θ), to

∀ θ ∈ Θ

V ar

θ

ˆ

g ­

(g

0

(θ))

2

I

n

(θ)

.

Efektywność estymatora niobciążonego

ˆ

g(X

1

, X

2

, . . . , X

n

) funkcji różniczkowalnej g(θ):

ef f

θ

g(X

1

, X

2

, . . . , X

n

) =

(g

0

(θ))

2

I

n

(θ)V ar

θ

g)

Wielkość

(

g

0

(θ)

)

2

I

n

(θ)

nazywamy dolnym ograniczeniem Cramera-Rao

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

57

PRZYKŁAD 1 cd.

X

1

, X

2

, . . . , X

n

i.i.d P oiss(θ), θ > 0

EN W (θ) = ¯

X i V ar

θ

¯

X =

θ

n

Wyznaczymy dolne ograniczenie Cramera Rao

P

θ

(x) = e

−θ θ

x

x!

ln P

θ

(x) = −θ + x ln θ − ln x!

I

n

(θ) = nI

1

(θ) = nE

θ



ln P

θ

(X)

∂θ



2

ln P

θ

(X)

∂θ

= 1 +

x

θ

I

n

(θ) = nE

θ

X − θ

θ

2

= n

1

θ

2

E

θ

(X − θ)

2

=

n

θ

Dolne ograniczenie Cramera Rao

(g

0

(θ))

2

I

n

(θ)

=

1

I

n

(θ)

=

θ

n

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

58

3. Zgodność estymatora ˆ

g(X

1

, X

2

, . . . , X

n

) = ˆ

g

n

funkcji g(θ)

dla każdego ε > 0 i θ ∈ Θ

lim

n→+

P

θ

(|ˆ

g

n

− g(θ)| > ε) = 0

4. Asymptotyczna normalność ˆ

g(X

1

, X

2

, . . . , X

n

)

istnieje σ(θ) > 0 takie, że dla każdego z

lim

n→+

P

θ


ˆ

g

n

− g(θ)

σ(θ)

n < z


= Φ(z)

gdzie Φ jest dystrybuantą rozkładu normalnego N (0, 1)

ˆ

g

n

∼ N


g(θ),

σ

2

(θ)

n


przy dużym

n

ˆ

g

n

− g(θ)

σ(θ)

n −→ N (0, 1)

przy

n −→ +

Wielkość σ

2

(θ) nazywamy wariancją asymptotyczną.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

59

PRZYKŁADY

X

1

, X

2

, . . . , X

n

i.i.d

z

rozkładu

dystrybuancie

F

i EX

i

= µ i V arX

i

= σ

2

1. Z praw wielkich liczb wynika

¯

X −→ µ

przy

n −→ +

S

2

−→ σ

2

przy

n −→ +

F

n

(t) −→ F (t)

przy

n −→ +

2. Z CTG wynika

¯

X − µ

σ

n −→ N (0, 1)

przy

n −→ +

F

n

(t) − F (t)

r

F (t)(1 − F (t))

n −→ N (0, 1)

przy

n −→ +

3. Niech ˆ

Q

p

= X

[np]:n

. Jeżeli funkcja gęstosci f

θ

jest ciągła i spełnia

f

θ

(q

p

) 6= 0, to

( ˆ

Q

p

− q

p

)

n −→ N


0,

p(1 − p)

f

2

θ

(q

p

)


przy

n −→ +

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

60

Lemat DELTA

Jeżeli ciąg Z

n

rzeczywistych zmiennych losowych spełnia

(Z

n

− θ)

n −→ N (0, σ

2

)

dla pewnego σ

2

i g(θ) jest różniczkowalną funkcją θ i g

0

(θ) 6= 0,

to

(g(Z

n

) − g(θ))

n −→ N (0, [g

0

(θ)]

2

σ

2

).

PRZYKŁAD 1.

X

1

, X

2

, . . . , X

n

i.i.d., EX

i

= µ i V arX

i

= σ

2

¯

X

2

- estymator parametru µ

2

Z CTG

( ¯

X − µ)

n −→ N (0, σ

2

)

przy

n −→ +

Niech

g(µ) = µ

2

Z lematu DELTA

( ¯

X

2

− µ

2

)

n −→ N



0, 4σ

2

µ

2



background image

Agata Boratyńska Wykłady ze statystyki matematycznej

61

PRZYKŁAD 2.

X

1

, X

2

, . . . , X

n

i.i.d. Ex(θ), θ > 0, E

θ

X =

1
θ

, V ar

θ

X =

1

θ

2

EN W (θ) =

1

¯

X

Z CTG

( ¯

X −

1

θ

)

n −→ N

0,

1

θ

2

przy

n −→ +

Niech

g(t) =

1

t

wtedy

g

0

(t) =

1

t

2

=⇒ g( ¯

X) =

1

¯

X

,

g(

1

θ

) = θ,

g

0

1

θ

= −θ

2

Z lematu DELTA

1

¯

X

− θ

n −→ N

0,

1

θ

2

· θ

4

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

62

ASYMPTOTYCZNA ZGODNOŚĆ I NORMALNOŚĆ ENW

1. Niech X

1

, X

2

, . . . , X

n

, . . . będą i.i.d z rozkładu o gęstości f

θ

,

gdzie θ jest nieznanym parametrem. Niech gęstości f

θ

mają

wspólny nośnik i przestrzeń Θ będzie przedziałem otwartym.
Jeżeli układ równań

Σ

n
i
=1

ln L(θ, X

i

)

∂θ

= 0

ma dokładnie jedno rozwiązanie, to jest ono EN W (θ) i jest to
estymator zgodny.

2. Jeżeli dodatkowo istnieje

3

ln L(θ,x

1

,...,x

n

)

∂θ

3

, i spełnione są zało-

żenia umożliwiające zamianę kolejności operacji różniczkowa-
nia po

∂θ

lub

2

∂θ

2

i całkowania

R

. . . dx i I(θ) > 0 jest określona,

to ˆ

θ

n

= ˆ

θ(X

1

, X

2

, . . . , X

n

) = EN W (θ) jest asymptotycznie

normalny i

( ˆ

θ

n

− θ)

n −→ N


0,

1

I

1

(θ)


przy

n −→ +∞.

3. (Z Lematu DELTA) Przy powyższych założeniach jeżeli g jest
różniczkowalna i g

0

(θ) 6= 0 i ˆ

θ

n

= EN W (θ), to

(g( ˆ

θ

n

) − g(θ))

n −→ N (0, [g

0

(θ)]

2

I

1

(θ)).

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

63

Mówimy, że estymator ˆ

g

n

jest estymatorem asymptotycznie

efektywnym parametru g(θ) jeżeli jest estymatorem asympto-
tycznie normalnym o wariancji asymptotycznej

σ

2

(θ) = [g

0

(θ)]

2

I

1

(θ)

Jeśli ˆ

g

1

i ˆ

g

2

są dwoma estymatorami asymptotycznie normalnymi

funkcji g(θ) o wariancjach asymptotycznych odpowiednio równych
σ

2

1

(θ) i σ

2

2

(θ), to asymptotyczną efektywnością względną

nazywamy stosunek

as.ef(ˆ

g

1

, ˆ

g

2

) =

σ

2

2

(θ)

σ

2

1

(θ)

.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

64

PRZYKŁAD.

X

1

, X

2

, . . . , X

n

i.i.d P oiss(θ), θ > 0

Znamy: EN W (θ) = ¯

X, V ar

θ

¯

X =

θ

n

, I

1

(θ) =

1
θ

( ¯

X − θ)

n −→ N (0, θ)

Chcemy estymować funkcję

g(θ) = e

−θ

= P

θ

(X

1

= 0)

Rozważamy dwa estymatory:

ˆ

g

1

= e

¯

X

ˆ

g

2

=

liczba X

i

, takich że X

i

= 0

n

=

1

n

n

X

i=1

1(X

i

= 0)

Rozkłady asymptotyczne

Niech h(t) = e

−t

, wtedy h

0

(t) = −e

−t

i z lematu DELTA



e

¯

X

− e

−θ



n −→ N



0, θe

2θ



Niech

Y

i

=

1

gdy X

i

= 0

0

w pp

Wtedy

E

θ

Y

i

= e

−θ

i

V ar

θ

Y

i

= e

−θ

(1 − e

−θ

)

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

65

oraz

ˆ

g

2

=

1

n

n

X

i=1

Y

i

Z CTG



ˆ

g

2

− e

−θ



n −→ N



0, e

−θ

(1 − e

−θ

)



Porównujemy wariancje asymptotyczne

∀ θ > 0

e

−θ

(1 − e

−θ

) > θe

2θ

=as.ef(ˆ

g

1

, ˆ

g

2

) > 1

Estymator ˆ

g

1

jest bardziej efektywny niż estymator ˆ

g

2

.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

66

ESTYMACJA PRZEDZIAŁOWA, PRZEDZIAŁY UFNOŚCI

X

1

, X

2

, . . . , X

n

- próbka losowa z rozkładu z nieznanym parame-

trem θ

Przedziałem ufności dla parametru θ na poziomie ufności 1−α
nazywamy przedział

[θ(X

1

, X

2

, . . . , X

n

), ¯

θ(X

1

, X

2

, . . . , X

n

)],

którego końce są statystykami (funkcjami obserwowanej zmiennej
losowej) i który spełnia warunek

∀θ

P

θ



θ(X

1

, X

2

, . . . , X

n

) ¬ θ ¬ ¯

θ(X

1

, X

2

, . . . , X

n

)



­ 1−α.

α - mała liczba np. 0,1, 0,05, 0,01.

Warunek P

θ

(θ ∈ [θ, ¯

θ]) = 1 − α należy rozumieć tak:

losowy przedział [θ, ¯

θ] pokrywa nieznaną liczbę θ z dużym

prawdopodobieństwem.

Pojęcie przedziału ufności precyzuje ideę estymacji z określoną do-
kładnością. Zamiast pojedynczego oszacowania nieznanego para-
metru, podajemy dolną i górną granicę oszacowania. Nie możemy
gwarantować, że parametr leży na pewno między tymi granicami,
ale możemy wymagać by tak było z odpowiednio dużym prawdo-
podobieństwem.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

67

Model I.

X

1

, X

2

, . . . , X

n

i.i.d. z rozkładu N (µ, σ

2

), µ ∈ R nieznane, σ > 0

znane.

EN W (µ) = EM M (µ) = ¯

X - estymator punktowy

¯

X ∼ N (µ,

σ

2

n

)

U =

¯

X−µ

σ

n ∼ N (0, 1), U - funkcja centralna

szukamy z, tak aby

P








¯

X − µ

σ

n







¬ z


= 1 − α

z = u

1

α

2

- kwantyl rzędu 1

α

2

w rozkładzie normalnym N (0, 1)

Rozwiążmy nierówność (wyznaczamy µ)







¯

X − µ

σ

n







¬ u

1

α

2

Otrzymujemy

¯

X − u

1

α

2

σ

n

¬ µ ¬ ¯

X + u

1

α

2

σ

n

Zatem

P


¯

X − u

1

α

2

σ

n

¬ µ ¬ ¯

X + u

1

α

2

σ

n


= 1 − α

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

68

Przedział


¯

X − u

1

α

2

σ

n

, ¯

X + u

1

α

2

σ

n


jest przedziałem ufności dla parametru µ na poziomie
ufności
1 − α.

2d - długość przedziału ufności

2d = 2u

1

α

2

σ

n

d nazywamy błędem oszacowania

1 − α

rośnie =2d

rośnie

n

rośnie =2d

maleje

Aby otrzymać przedział z maksymalnym błędem d

0

na zadanym

poziomie ufności 1 − α należy wziąć próbę losową o liczebności

n ­

u

1

α

2

σ

d

0

2

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

69

Model II.

X

1

, X

2

, . . . , X

n

i.i.d. z rozkładu N (µ, σ

2

), µ ∈ R nieznane, σ > 0

nieznane.

¯

X - estymator punktowy parametru µ

S

2

=

1

n−1

P

n

i=1

(X

i

¯

X)

2

- estymator punktowy parametru σ

2

¯

X ∼ N (µ,

σ

2

n

)

¯

X−µ

σ

n ∼ N (0, 1)

T =

¯

X−µ

S

n ∼ t

n−1

, T - funkcja centralna,

t

n−1

- rozkład t-Studenta z n − 1 stopniami swobody

Analogicznie, jak poprzednio szukamy liczby z tak aby

P








¯

X − µ

S

n







¬ z


= 1 − α

z = t(α, n − 1) - wartość krytyczna rzędu α, lub równoważnie
kwantyl rzędu 1

α

2

w rozkładzie t-Studenta z n − 1 stopniami

swobody

Rozwiązujemy nierówność (wyznaczamy µ)







¯

X − µ

S

n







¬ t(α, n − 1)

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

70

Przedział


¯

X − t(α, n − 1)

S

n

, ¯

X + t(α, n − 1)

S

n


jest przedziałem ufności dla parametru µ na poziomie
ufności
1 − α.

Aby wyznaczyć liczebność próbki potrzebną do uzyskania przedzia-
łu o danej długości postępujemy zgodnie z dwuetapową procedurą
Steina.

Przedział ufności dla wariancji

(n−1)S

2

σ

2

∼ χ

2

n−1

- funkcja centralna

χ

2

n−1

- rozkład chi kwadrat z n − 1 stopniami swobody

Szukamy liczb a, b tak, aby

P


a ¬

(n − 1)S

2

σ

2

¬ b


= 1 − α

a = χ

2

(1

α

2

, n − 1) - wartość krytyczna rzędu 1

α

2

lub równo-

ważnie kwantyl rzędu

α

2

w rozkładzie chi kwadrat z n−1 stopniami

swobody

b = χ

2

(

α

2

, n − 1) - wartość krytyczna rzędu

α

2

lub równoważnie

kwantyl rzędu 1

α

2

w rozkładzie chi kwadrat z n − 1 stopniami

swobody

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

71

Rozwiązujemy nierówności (wyznaczamy σ

2

)

χ

2

(1

α

2

, n − 1) ¬

(n − 1)S

2

σ

2

¬ χ

2

(

α

2

, n − 1)

Przedział


(n − 1)S

2

χ

2

(

α

2

, n − 1)

,

(n − 1)S

2

χ

2

(1

α

2

, n − 1)


jest przedziałem ufności dla parametru σ

2

na poziomie

ufności 1 − α.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

72

ASYMPTOTYCZNE PRZEDZIAŁY UFNOŚCI

Model III.

X

1

, X

2

, . . . , X

n

i.i.d. z dowolnego rozkładu o skończonej wartości

oczekiwanej i wariancji, zakładamy, że n duże (n > 50)

Cel: przedział ufności dla wartości oczekiwanej EX

i

= µ.

Korzystamy z Centralnego twierdzenia granicznego

przy n −→ +

¯

X − µ

S

n ∼ N (0, 1)

Postępujemy analogicznie jak w modelu I

Przedział


¯

X − u

1

α

2

S

n

, ¯

X + u

1

α

2

S

n


jest przybliżonym przedziałem ufności dla parametru
µ na poziomie ufności 1 − α.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

73

Niech X

1

, X

2

, . . . , X

n

i.i.d. z rozkładu o gęstości f

θ

(x), θ - nieznany

parametr

Niech ˆ

θ = EN W (θ) i ˆ

θ ma asymptotyczny rozkład normalny z

wariancją asymptotyczną I

1

(θ). Wtedy

ˆ

θ ∼ N (θ, (nI(θ))

1

)

dla dużych n.

Jeśli dodatkowo I( ˆ

θ) jest estymatorem zgodnym funkcji I(θ), to



ˆ

θ − θ



r

nI( ˆ

θ) −→ N (0, 1).

Otrzymujemy asymptotyczny przedział ufności dla θ na poziomie
ufności 1 − α postaci



ˆ

θ − u

1

α

2

1

r

nI( ˆ

θ)

, ˆ

θ + u

1

α

2

1

r

nI( ˆ

θ)



.

Model IV.

Wykonujemy n niezależnych doświadczeń typu sukces - porażka
(np. sondaż opinii publicznej - pytanie o preferowanie pewnej
wielkości lub nie, kontrola jakości - pojawienie się braku lub
nie
), n duże.

Obserwowana zmienna losowa Y ma rozkład dwupunktowy

P (Y = 1) = p

P (Y = 0) = 1 − p

p ∈ (0, 1) - prawdopodobieństwo sukcesu w pojedynczym doświad-
czeniu, nieznany parametr nazywany też wskaźnikiem struktury

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

74

Niech X oznacza liczbę sukcesów w n próbach

X ∼ bin(n, p)

ˆ

p = EN W (p) =

X

n

( ˆ

p − p)

n −→ N (0, p(1 − p))

przy n −→ +

ˆ

p − p

r

ˆ

p(1 ˆ

p)

n ∼ N (0, 1)

Zatem

P










ˆ

p − p

r

ˆ

p(1 ˆ

p)

n








¬ u

1

α

2



1 − α

Rozwiązujemy nierówność








ˆ

p − p

r

ˆ

p(1 ˆ

p)

n








¬ u

1

α

2

,

wyznaczamy p.

Przedział



ˆ

p − u

1

α

2

r

ˆ

p(1 ˆ

p)

n

, ˆ

p + u

1

α

2

r

ˆ

p(1 ˆ

p)

n



jest przybliżonym przedziałem ufności dla parametru
p na poziomie ufności 1 − α.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

75

2d = 2u

1

α

2

ˆ

p(1ˆ

p)

n

- długość przedziału ufności

Zauważmy, że dla każdego ˆ

p ∈ (0, 1) zachodzi

ˆ

p(1 ˆ

p) ¬

1

2

1

1

2

=

1

4

Zatem dla każdego ˆ

p

d ¬ u

1

α

2

1

2

n

Aby otrzymać przedział z maksymalnym błędem d

0

na zadanym

poziomie ufności 1 − α należy wziąć próbę losową o liczebności

n ­

u

1

α

2

1

2d

0

2

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

76

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Piękna teoria zniszczona przez złośliwy wstrętny fakcik

T. H. Huxley

Hipotezą statystyczną nazywamy dowolne przypuszczenie do-
tyczące rozkładu prawdopodobieństwa obserwowanej zmiennej lo-
sowej lub charakterystyki tegoż rozkładu, o prawdziwości którego
wnioskujemy na podstawie zaobserwowanych wartości tej zmiennej
losowej.

PRZYKŁADY:

1) Przypuśćmy, że czas życia pewnego elementu X jest zmienną
losowa o rozkładzie wykładniczym Ex(θ), θ > 0 - nieznane

Obserwujemy X

1

, X

2

, . . . , X

n

i.i.d. Ex(θ)

H

0

: EX =

1
θ

= 100

2) Pomiary i ich dokładność

obserwujemy X

1

, X

2

, . . . , X

n

i.i.d. N (µ, σ

2

), oba parametry nie-

znane

H

0

: σ ¬ 1

3) θ - prawdopodobieństwo spłaty kredytu przez klienta w pewnej
grupie ryzyka, nieznane

obserwujemy X

1

, X

2

, . . . , X

n

i.i.d. bin(1, θ)

H

0

: θ ­ 0.8

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

77

4) µ

1

- średni plon z ha przy I metodzie nawożenia

µ

2

- średni plon z ha przy II metodzie nawożenia

Obie wielkości nieznane

Obserwujemy:
X

1

, X

2

, . . . , X

n

i.i.d. z rozkładu o EX = µ

1

(plony przy I metodzie

nawożenia)
Y

1

, Y

2

, . . . , Y

m

i.i.d. z rozkładu o EX = µ

2

(plony przy II metodzie

nawożenia)

H

0

: µ

1

= µ

2

5) Interesuje nas wielkość roszczenia X w pewnej grupie klientów
towarzystwa ubezpieczeniowego

Obserwujemy: X

1

, X

2

, . . . , X

n

wielkości roszczeń dla losowo wy-

branych klientów

H

0

: X ∼ Wykładniczy

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

78

Hipoteza prosta - wyznacza dokładnie jeden rozkład (1)

Hipoteza złożona - wyznacza rodzinę rozkładów (2,3,4,5)

Hipoteza parametryczna - dotyczy parametrów rozkładu (1,2,3,4)

Hipoteza nieparametryczna - dotyczy postaci rozkładu (5)

Z hipotezą H

0

często wiążemy jeszcze drugą hipotezę nazywaną

hipotezą alternatywną (kontr hipotezą) H

1

, jest to hipo-

teza, którą jesteśmy skłonni akceptować po odrzuceniu hipotezy
H

0

. Hipotezę H

0

nazywamy też hipotezą zerową.

Testem statystycznym nazywamy metodę postępowania, któ-
ra każdej wartości obserwowanej zmiennej losowej przyporządko-
wuje jedna z dwóch decyzji:

odrzucić hipotezę H

0

(na korzyść H

1

),

nie ma podstaw do odrzucenia hipotezy H

0

.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

79

X ∼ P

θ

, θ ∈ Θ,

H

0

: θ ∈ Θ

0

H

1

: θ ∈ Θ

1

gdzie Θ

0

, Θ

1

Θ i Θ

0

Θ

1

=

X = K ∪ A

K - zbiór krytyczny, zbiór wyników obserwacji przy których od-
rzucamy H

0

;

A - zbiór afirmacji, zbiór wyników, przy których nie odrzucamy
H

0

.

Jeśli mamy podany zbiór K to mamy podany test statystyczny

Najczęściej test ma postać:

K = {T (x) > c}

co oznacza odrzuć H

0

, gdy obliczona wartość funkcji T (x) jest

większa niż c.

Funkcję T nazywamy statystyką testową, a stałą c wartością
krytyczną.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

80

PRZYKŁAD 1.

Chcemy sprawdzić, czy moneta jest symetryczna. W tym celu rzu-
camy monetą 400 razy. Niech X oznacza liczbę orłów,

X ∼ bin(400, p) p - nieznane

H

0

: p =

1

2

H

1

: p 6=

1

2

test:

K = {|X − 200| > 19, 6}

T = |X − 200| - statystyka testowa;

19,6 - wartość krytyczna

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

81

BŁĄD PIERWSZEGO I DRUGIEGO RODZAJU

decyzja

H

0

prawdziwa H

0

- fałszywa

odrzucić H

0

błąd

decyzja

I rodzaju

poprawna

nie odrzucać H

0

decyzja

błąd

poprawna

II rodzaju

P

θ

(K), θ ∈ Θ

0

- prawdopodobieństwo błędu I rodzaju

P

θ

(A) = 1 − P

θ

(K), θ ∈ Θ

1

- prawdopodobieństwo błędu II ro-

dzaju

Najlepszym testem byłby test, który minimalizuje prawdopodo-
bieństwa popełnienia obu błędów jednocześnie. Taki test nie istnie-
je, przy ustalonej liczebności próby losowej zmniejszanie prawdopo-
dobieństwa błędu I rodzaju powoduje wzrost prawdopodobieństwa
błędu II rodzaju i na odwrót.

Test jest na poziomie istotności α , jeśli

∀ θ ∈ Θ

0

P

θ

(K) ¬ α

Poziom istotności α ustala statystyk, zabezpiecza się przed zbyt
dużym prawdopodobieństwem błędu I rodzaju.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

82

PRZYKŁAD 1cd.

Przy prawdziwości hipotezy H

0

mamy Z CTG

X ∼ N

(200, 400 ·

1

4

P

p=

1
2

(|X − 200| > 19, 6)

= P

p=

1
2


|X − 200|

10

> 1, 96


= 2(1 Φ(1, 96)) = 0, 05

jest to test na poziomie istotności 0,05.

Wielkość P

θ

(K) nazywamy mocą testu przy alternatywie θ ∈

Θ

1

(testy buduje się tak aby moc była jak największa)

Funkcja mocy testu

β : Θ

1

−→ [0, 1]

β(θ) = P

θ

(K)

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

83

ALGORYTM TESTOWANIA HIPOTEZY STATYSTYCZNEJ

1) określić model statystyczny

(np. próba losowa X

1

, X

2

, . . . , X

n

pochodzi z rozkładu normalnego

o nieznanej wartości oczekiwanej µ i wariancji σ

2

= 4)

2) postawić hipotezę zerową H

0

i alternatywę H

1

(np. H

0

: µ = 0, H

1

: µ 6= 0);

3) przyjąć poziom istotności (np. α = 0, 05);

4) podać postać statystyki testowej T , obszaru krytycznego, wy-
znaczyć wartość krytyczną (postać statystyki T , zbioru K i war-
tości krytycznej zależy od obu hipotez i poziomu istotności α);

5) obliczyć wartość statystyki testowej dla danych wartości próby
losowej;

6) podjąć decyzję:

jeśli T (X

1

, X

2

, . . . , X

n

) ∈ K - odrzucić H

0

jeśli T (X

1

, X

2

, . . . , X

n

) /

∈ K - nie ma podstaw do odrzucenia H

0

,

czyli otrzymane dane nie dają wystarczających argumentów do
odrzucenia H

0

.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

84

p-wartość (p-value)

X ∼ P

θ

, θ ∈ Θ,

H

0

: θ = θ

0

,

α − poziom istotności

Test

K = {T (X) > c

α

}

x - obserwowana wartość zmiennej X

t = T (x)

p-wartość jest równa P

θ

0

(T (X) > t)

Wnioskowanie:

Jeśli p-wartość < α, to hipotezę H

0

odrzucamy.

Jeśli p-wartość > α, to nie ma podstaw do odrzucenia H

0

.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

85

PORÓWNYWANIE TESTÓW

X ∼ P

θ

, θ ∈ Θ,

H

0

: θ ∈ Θ

0

H

1

: θ ∈ Θ

1

gdzie Θ

0

, Θ

1

Θ i Θ

0

Θ

1

=

Mówimy, że test o obszarze krytycznym K

1

jest mocniejszy niż

test o obszarze krytycznym K

2

(oba testy na tym samym poziomie

istotności α) dla testowania hipotezy H

0

przy alternatywie H

1

⇐⇒

∀ θ ∈ Θ

0

P

θ

(K

1

) ¬ α

i

P

θ

(K

2

) ¬ α

i

∀ θ ∈ Θ

1

P

θ

(K

1

) ­ P

θ

(K

2

)

i

∃ θ

1

Θ

1

P

θ

1

(K

1

) > P

θ

1

(K

2

).

Test o obszarze krytycznym K

nazywamy testem jednostaj-

nie najmocniejszym dla testowania hipotezy H

0

przy alterna-

tywie H

1

na poziomie istotności α ⇐⇒ jest to test na poziomie

istotności α oraz

∀ K ⊆ X

speniajacego warunek

P

θ

(K) ¬ α

gdy

θ ∈ Θ

0

zachodzi

∀ θ ∈ Θ

1

P

θ

(K

) ­ P

θ

(K).

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

86

LEMAT NEYMANA-PEARSONA

Niech X będzie obserwowaną zmienną losowa i P

0

, P

1

dwo-

ma rozkładami prawdopodobieństwa o gęstościach odpowied-
nio równych f

0

i f

1

. Niech

K

=

x :

f

1

(x)

f

0

(x)

> c

i

P

0

(K

) = α.

Wtedy test o obszarze krytycznym K

jest testem najmocniej-

szym dla testowania hipotezy

H

0

: X ∼ P

0

przy alternatywie

H

1

: X ∼ P

1

na poziomie istotności α.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

87

TESTY OPARTE NA ILORAZIE WIAROGODNOŚCI

X ∼ P

θ

, θ ∈ Θ,

H

0

: θ ∈ Θ

0

H

1

: θ ∈ Θ

1

gdzie Θ

0

, Θ

1

Θ i Θ

0

Θ

1

= i Θ

0

Θ

1

= Θ

Λ

1

(X) =

sup

θ∈Θ

1

L(θ, X)

sup

θ∈Θ

0

L(θ, X)

lub

Λ(X) =

sup

θ∈Θ

L(θ, X)

sup

θ∈Θ

0

L(θ, X)

Test o obszarze krytycznym postaci

K

1

= {x : Λ

1

(x) > λ

1

}

lub

K = {x : Λ(x) > λ} ,

gdzie λ

1

, λ spełniają warunki

∀ θ ∈ Θ

0

P

θ

(K

1

) ¬ α,

∀ θ ∈ Θ

0

P

θ

(K) ¬ α

nazywamy testem opartym na ilorazie wiarogodności dla
testowania hipotezy H

0

przy alternatywie H

1

na poziomie istotno-

ści α.

Przy prostej hipotezie i prostej alternatywie test oparty na ilora-
zie wiarogodności o rozmiarze α pokrywa się z testem Neymana-
Pearsona o tym rozmiarze.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

88

TESTOWANIE HIPOTEZ - PORÓWNANIE Z NORMĄ

Model I.

X

1

, X

2

, . . . , X

n

próba losowa z rozkładu normalnego N (µ, σ

2

), σ

znane

Hipoteza zerowa H

0

: µ = µ

0

¯

X - estymator parametru µ

Statystyka testowa

U =

¯

X − µ

0

σ

n

Poziom istotności α

Alternatywa

Zbiór krytyczny

H

1

: µ 6= µ

0

K

1

= { |U | > u

1

α

2

}

H

2

: µ > µ

0

K

2

= { U > u

1−α

}

H

3

: µ < µ

0

K

3

= { U < −u

1−α

}

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

89

Model II.

X

1

, X

2

, . . . , X

n

próba losowa z rozkładu normalnego N (µ, σ

2

), µ,

σ nieznane

Hipoteza zerowa H

0

: µ = µ

0

¯

X - estymator parametru µ

S

2

=

1

n−1

P

n

i=1

(X

i

¯

X)

2

estymator parametru σ

2

Statystyka testowa

T =

¯

X − µ

0

S

n

Przy H

0

prawdziwej statystyka T ma rozkład t-Studenta z n − 1

stopniami swobody

Poziom istotności α

Alternatywa

Zbiór krytyczny

H

1

: µ 6= µ

0

K

1

= { |T | > t(α, n − 1) }

H

2

: µ > µ

0

K

2

= { T > t(2α, n − 1) }

H

3

: µ < µ

0

K

3

= { T < −t(2α, n − 1) }

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

90

Model II

Hipoteza zerowa: H

0

: σ

2

= σ

2

0

Statystyka testowa:

χ

2

=

(n − 1)S

2

σ

2

0

Przy H

0

prawdziwej statystyka χ

2

ma rozkład chi-kwadrat z n − 1

stopniami swobody

Alternatywa: H

1

: σ

2

6= σ

2

0

Zbiór krytyczny ma postać

K

1

=

(

χ

2

< χ

2

1

α

2

, n − 1

!

∨ χ

2

> χ

2

α

2

, n − 1

!)

czyli hipotezę H

0

odrzucamy gdy χ

2

< χ

2

(1

α

2

, n − 1) lub

χ

2

> χ

2

(

α

2

, n − 1)

Alternatywa: H

2

: σ

2

> σ

2

0

Zbiór krytyczny ma postać

K

2

=

2

> χ

2

(α, n − 1)}

Alternatywa: H

3

: σ

2

< σ

2

0

Zbiór krytyczny ma postać

K

3

=

2

< χ

2

(1 − α, n − 1)}

czyli hipotezę H

0

odrzucamy gdy χ

2

< χ

2

(1 − α, n − 1)

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

91

Model III.

X

1

, X

2

, . . . , X

n

próba losowa z rozkładu o nieznanej wartości ocze-

kiwanej EX

i

= µ i skończonej ale nieznanej wariancji. Zakładamy,

że n duże (n ­ 100)

Hipoteza zerowa H

0

: µ = µ

0

¯

X - estymator parametru µ

S

2

=

1

n−1

P

n

i=1

(X

i

¯

X)

2

estymator wariancji

Statystyka testowa

U =

¯

X − µ

0

S

n

Przy hipotezie H

0

prawdziwej statystyka U ma asymptotyczny

rozkład normalny, tzn

U −→ N (0, 1)

przy

n −→ +

Poziom istotności α

Alternatywa

Zbiór krytyczny

H

1

: µ 6= µ

0

K

1

= { |U | > u

1

α

2

}

H

2

: µ > µ

0

K

2

= { U > u

1−α

}

H

3

: µ < µ

0

K

3

= { U < −u

1−α

}

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

92

Model IV.

Wykonujemy n niezależnych doświadczeń typu sukces - porażka,
zakładamy że n duże.

Obserwowana zmienna losowa Y ma rozkład dwupunktowy

P (Y = 1) = p

P (Y = 0) = 1 − p

p ∈ (0, 1) - prawdopodobieństwo sukcesu w pojedynczym doświad-
czeniu, nieznany parametr nazywany też wskaźnikiem struktury
Niech X oznacza liczbę sukcesów w n doświadczeniach

X ∼ bin(n, p)

Hipoteza zerowa H

0

: p = p

0

ˆ

p =

X

n

- estymator punktowy parametru p

Statystyka testowa:

U

=

ˆ

p − p

0

r

p

0

(1 − p

0

)

n

Przy prawdziwości hipotezy H

0

z CTG wynika, że

U

=

ˆ

p − p

0

r

p

0

(1 − p

0

)

n ∼ N (0, 1)

gdy

n −→ +

Alternatywa

Zbiór krytyczny

H

1

: p 6= p

0

K

1

= { |U

| > u

1

α

2

}

H

2

: p > p

0

K

2

= { U

> u

1−α

}

H

3

: p < p

0

K

3

= { U

< −u

1−α

}

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

93

TESTOWANIE HIPOTEZ - PORÓWNANIE DWÓCH POPU-
LACJI

W praktyce istotną role odgrywają testy, za pomocą których można
porównywać cechę w dwóch populacjach ze względu na interesują-
cy parametr, najczęściej jest to
wartość oczekiwana
wariancja
wskaźnik struktury (procent populacji spełniajacy zadane warun-
ki)

PRZYKŁAD:

1) czy plon przeciętny przy dwóch sposobach nawożenia jest jed-
nakowy

2) czy przeciętna cena pewnego towaru w sklepach Warszawy jest
wyższa niż w sklepach Krakowa

3) czy czas wykonania pewnego detalu przy dwóch sposobach pro-
dukcji jest jednakowy

4) czy poparcie dla Pana A wzrosło w ciągu miesiąca

5) czy margaryna Rama i Flora są kupowane tak samo często

6) czy dwie metody pomiarowe są jednakowo dokładne

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

94

Model I.

X

1,1

, X

1,2

, . . . , X

1,n

1

- próba losowa z rozkładu normalnego N (µ

1

, σ

2

1

);

X

2,1

, X

2,2

, . . . , X

2,n

2

- próba losowa z rozkładu normalnego N (µ

2

, σ

2

2

);

Parametry µ

1

, µ

2

są nieznane, σ

1

, σ

2

są znane, wszystkie obserwo-

wane zmienne są niezależne.

Hipoteza zerowa: H

0

: µ

1

= µ

2

, Poziom istotności α

¯

X

1

=

1

n

1

P

n

1

i=1

X

1,i

- estymator parametru µ

1

¯

X

2

=

1

n

2

P

n

2

i=1

X

2,i

- estymator parametru µ

2

¯

X

1

∼ N (µ

1

,

σ

2

1

n

1

) i ¯

X

2

∼ N (µ

2

,

σ

2

2

n

2

), zatem ¯

X

1

¯

X

2

∼ N

µ

1

− µ

2

,

σ

2

1

n

1

+

σ

2

2

n

2

!

Statystyka testowa:

U

n

1

,n

2

=

¯

X

1

¯

X

2

s

σ

2

1

n

1

+

σ

2

2

n

2

Przy hipotezie H

0

prawdziwej U

n

1

,n

2

∼ N (0, 1)

Alternatywa

Zbiór krytyczny

H

1

: µ

1

6= µ

2

K

1

= { |U

n

1

,n

2

| > u

1

α

2

}

H

2

: µ

1

> µ

2

K

2

= { U

n

1

,n

2

> u

1−α

}

H

3

: µ

1

< µ

2

K

3

= { U

n

1

,n

2

< −u

1−α

}

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

95

Model II.

X

1,1

, X

1,2

, . . . , X

1,n

1

- próba losowa z rozkładu normalnego N (µ

1

, σ

2

1

);

X

2,1

, X

2,2

, . . . , X

2,n

2

- próba losowa z rozkładu normalnego N (µ

2

, σ

2

2

);

Parametry µ

1

, µ

2

, σ

1

, σ

2

są nieznane, ale σ

1

= σ

2

, wszystkie ob-

serwowane zmienne są niezależne.

Hipoteza zerowa: H

0

: µ

1

= µ

2

¯

X

1

=

1

n

1

P

n

1

i=1

X

1,i

- estymator parametru µ

1

¯

X

2

=

1

n

2

P

n

2

i=1

X

2,i

- estymator parametru µ

2

¯

X

1

∼ N (µ

1

,

σ

2

1

n

1

) i ¯

X

2

∼ N (µ

2

,

σ

2

2

n

2

), zatem

¯

X

1

¯

X

2

∼ N

µ

1

− µ

2

, σ

2

1

1

n

1

+

1

n

2

S

2

1

=

1

n

1

1

P

n

1

i=1

(X

1,i

¯

X

1

)

2

- estymator wariancji w oparciu o

próbę X

1,1

, X

1,2

, . . . , X

1,n

1

S

2

2

=

1

n

2

1

P

n

2

i=1

(X

2,i

¯

X

2

)

2

- estymator wariancji w oparciu o

próbę X

2,1

, X

2,2

, . . . , X

2,n

1

S

2

=

(n

1

1)S

2

1

+(n

2

1)S

2

2

n

1

+n

2

2

- estymator wariancji w oparciu o dwie

próby

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

96

Statystyka testowa:

T

n

1

,n

2

=

¯

X

1

¯

X

2

S

r

1

n

1

+

1

n

2

Przy hipotezie H

0

prawdziwej T ma rozkład t-Studenta z n

1

+n

2

2

stopniami swobody

Alternatywa

Zbiór krytyczny

H

1

: µ

1

6= µ

2

K

1

= { |T

n

1

,n

2

| > t(α, n

1

+ n

2

2) }

H

2

: µ

1

> µ

2

K

2

= { T

n

1

,n

2

> t(2α, n

1

+ n

2

2) }

H

3

: µ

1

< µ

2

K

3

= { T

n

1

,n

2

< −t(2α, n

1

+ n

2

2) }

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

97

Model III.

X

1,1

, X

1,2

, . . . , X

1,n

1

- i.i.d. z rozkładu o EX = µ

1

i V arX = σ

2

1

;

X

2,1

, X

2,2

, . . . , X

2,n

2

- i.i.d. z rozkładu o EX = µ

2

V arX = σ

2

2

;

Parametry µ

1

, µ

2

, σ

1

, σ

2

są nieznane, wszystkie obserwowane zmien-

ne są niezależne, n

1

, n

2

duże.

Hipoteza zerowa: H

0

: µ

1

= µ

2

¯

X

1

=

1

n

1

P

n

1

i=1

X

1,i

- estymator parametru µ

1

¯

X

2

=

1

n

2

P

n

2

i=1

X

2,i

- estymator parametru µ

2

ˆ

S

2

1

=

1

n

1

P

n

1

i=1

(X

1,i

¯

X

1

)

2

- estymator wariancji w oparciu o próbę

X

1,1

, X

1,2

, . . . , X

1,n

1

ˆ

S

2

2

=

1

n

2

P

n

2

i=1

(X

2,i

¯

X

2

)

2

- estymator wariancji w oparciu o próbę

X

2,1

, X

2,2

, . . . , X

2,n

1

Statystyka testowa:

U =

¯

X

1

¯

X

2

s

ˆ

S

2

1

n

1

+

ˆ

S

2

2

n

2

Przy hipotezie H

0

prawdziwej U ∼ N (0, 1) przy n

1

, n

2

−→ +

Alternatywa

Zbiór krytyczny

H

1

: µ

1

6= µ

2

K

1

= { |U | > u

1

α

2

}

H

2

: µ

1

> µ

2

K

2

= { U > u

1−α

}

H

3

: µ

1

< µ

2

K

3

= { U < −u

1−α

}

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

98

Hipoteza o równości wariancji w modelu normalnym

X

1,1

, X

1,2

, . . . , X

1,n

1

- próba losowa z rozkładu normalnego N (µ

1

, σ

2

1

);

X

2,1

, X

2,2

, . . . , X

2,n

2

- próba losowa z rozkładu normalnego N (µ

2

, σ

2

2

);

Parametry µ

1

, µ

2

, σ

1

, σ

2

są nieznane, wszystkie obserwowane zmien-

ne są niezależne.

Hipoteza zerowa: H

0

: σ

1

= σ

2

S

2

1

=

1

n

1

1

P

n

1

i=1

(X

1,i

¯

X

1

)

2

- estymator wariancji σ

2

1

S

2

2

=

1

n

2

1

P

n

2

i=1

(X

2,i

¯

X

2

)

2

- estymator wariancji σ

2

2

Statystyka testowa:

F =

S

2

1

S

2

2

Przy H

0

prawdziwej F ∼ F

n

1

1,n

2

1

Alternatywa: H

1

: σ

2

1

6= σ

2

2

Zbiór krytyczny ma postać

K

1

=

(

F < F

1

α

2

; n

1

1, n

2

1

!

∨ F > F

α

2

; n

1

1, n

2

1

!)

Alternatywa: H

2

: σ

2

1

> σ

2

2

Zbiór krytyczny ma postać K

2

= {F > F (α; n

1

1, n

2

1)}

Alternatywa: H

3

: σ

2

1

< σ

2

2

Zbiór krytyczny ma postać K

3

= {F < F (1 − α; n

1

1, n

2

1)}

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

99

Model IV.

Wykonujemy n

1

niezależnych doświadczeń typu sukces - porażka,

w których prawdopodobieństwo sukcesu jest równe p

1

, i n

2

nieza-

leżnych doświadczeń typu sukces - porażka, w których prawdopo-
dobieństwo sukcesu jest równe p

2

p

1

, p

2

(0, 1) nieznane, n

1

, n

2

duże

Niech X

1

oznacza liczbę sukcesów w n

1

próbach, X

2

oznacza liczbę

sukcesów w n

2

próbach

X

1

∼ bin(n

1

, p

1

), X

2

∼ bin(n

2

, p

2

)

Hipoteza zerowa H

0

: p

1

= p

2

ˆ

p

1

=

X

1

n

1

i ˆ

p

2

=

X

2

n

2

- estymatory parametrów p

1

i p

2

p

=

X

1

+X

2

n

1

+n

2

- estymator prawdopodobieństwa sukcesu przy założe-

niu, że H

0

prawdziwa

U

n

1

,n

2

=

ˆ

p

1

ˆ

p

2

s

p

(1−p

)



1

n1

+

1

n2



- statystyka testowa

Przy prawdziwości H

0

U

n

1

,n

2

∼ N (0, 1) przy n

1

, n

2

−→ +

Alternatywa

Zbiór krytyczny

H

1

: p

1

6= p

2

K

1

= { |U

n

1

,n

2

| > u

1

α

2

}

H

2

: p

1

> p

2

K

2

= { U

n

1

,n

2

> u

1−α

}

H

3

: p

1

< p

2

K

3

= { U

n

1

,n

2

< −u

1−α

}

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

100

Test analizy wariancji

Rozważamy k prób losowych

X

1,1

, X

1,2

, . . . , X

1,n

1

X

2,1

, X

2,2

, . . . , X

2,n

2

. . . . . . . . .

X

k,1

, X

k,2

, . . . , X

k,n

k

PRZYKŁAD: X

i,j

cena pewnego produktu w i-tym mieście, i roz-

ważamy k miast.

ZAŁOŻENIA:

• X

i,j

, i = 1, 2, . . . , k, j = 1, 2, . . . , n

i

są niezależne

• X

i,j

∼ N (m

i

, σ

2

),

• m

1

, m

2

, . . . , m

k

, σ są nieznane

Hipoteza zerowa:

H

0

: m

1

= m

2

= . . . = m

k

n = n

1

+ n

2

+ . . . + n

k

¯

X

i

=

1

n

i

n

i

X

j=1

X

i,j

¯

X =

1

n

p

X

i=1

n

i

X

j=1

X

i,j

=

1

n

p

X

i=1

n

i

¯

X

i

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

101

Test oparty na ilorazie wiarogodności odrzuca H

0

gdy

F =

P

k

i=1

n

i

( ¯

X

i

¯

X)

2

/(k − 1)

P

k

i=1

P

n

i

j=1

(X

i,j

¯

X

i

)

2

/(n − k)

> F (α, k − 1, n − k)

gdzie F (α, k − 1, n − k) wartość krytyczna w rozkładzie F

k−1,n−k

rzędu α.

1

k−1

P

k

i=1

n

i

( ¯

X

i

¯

X)

2

- estymator wariancji międzygrupowej

1

n−k

P

k

i=1

P

n

i

j=1

(X

i,j

¯

X

i

)

2

- estymator wariancji wewnątrz grup

k

X

i=1

n

i

X

j=1

(X

i,j

¯

X)

2

=

k

X

i=1

n

i

( ¯

X

i

¯

X)

2

+

k

X

i=1

n

i

X

j=1

(X

i,j

¯

X

i

)

2

Tabela testu analizy wariancji

Źródło

Sumy

Stopnie

wartość

zmienności

kwadratów

swobody statystyki F

między próbkami

P

k

i=1

n

i

( ¯

X

i

¯

X)

2

k − 1

wewnątrz próbek

P

k

i=1

P

n

i

j=1

(X

i,j

¯

X

i

)

2

n − k

Razem

P

k

i=1

P

n

i

j=1

(X

i,j

¯

X)

2

n − 1

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

102

PRZYKŁAD.

Porównano zyski ze sprzedaży pewnego towaru w czterech mia-
stach. Wylosowano po 10 sklepów i otrzymano wyniki:

miasto średni zysk

A

88

B

94

C

91

D

89

k

X

i=1

n

i

X

j=1

X

2

i,j

= 328135

Testem analizy wariancji zweryfikuj hipotezę o równości przecięt-
nego zysku w tych miastach

H

0

: m

1

= m

2

= m

3

= m

4

¯

X = 90, 5

4

X

i=1

10( ¯

X

i

¯

X)

2

= 210

4

X

i=1

10

X

j=1

(X

i,j

¯

X

i

)

2

=

4

X

i=1

10

X

j=1

X

2

i,j

4

X

i=1

10 ¯

X

2

i

= 315

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

103

Źródło

Sumy

Stopnie

wartość

zmienności

kwadratów swobody statystyki F

między próbkami

210

3

wewnątrz próbek

315

36

Razem

525

39

8

F (0, 05, 3, 36) = 2, 87

8 > 2, 87

Wniosek: odrzucamy hipotezę H

0

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

104

TESTOWANIE HIPOTEZ O ZGODNOŚCI

Niech X

1

, X

2

, . . . , X

n

i.i.d. z rozkładu o nieznanej dystrybuancie

F

H

0

: F = F

0

, F

0

ustalona

I. Test Kołmogorowa

Założenie: F

0

- ciągła, ściśle rosnąca dystrybuanta

Statystyka testowa:

D

n

= sup

t∈R

|F

n

(t) − F

0

(t)|,

gdzie F

n

(t) = F

n

(X

1

, X

2

, . . . , X

n

, t) jest dystrybuantą empirycz-

ną.

D

n

= max(D

+

n

, D

n

)

gdzie

D

+

n

= max

i=1...n






i

n

− z

i






D

n

= max

i=1...n






z

i

i − 1

n






z

i

= F

0

(x

i:n

)

w przypadku szeregu przedziałowego

D

+

n

= max

i=1...k

|F

n

(c

i

) − F

0

(c

i

)|

D

n

= max

i=1...k

|F

0

(c

i

) − F

n

(c

i−1

)|

TEST: Jeżeli D

n

> c(α, n), to hipotezę H

0

odrzucamy.

Wybór c(α, n):

Rozkład statystyki D

n

przy prawdziwości hipotezy H

0

nie zależy

od postaci F

0

.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

105

Zatem c(α, n) są stablicowane. Dla n dużych korzystamy z wartości
przybliżonych, kilka z nich podaje Tabela poniżej.

α

0.20

0.10

0.05

0.01

c 1.07/

n 1.22/

n 1.36/

n 1.63/

n

PRZYKŁAD.

Dane ze szkodami spowodowanymi przez wichury

H

0

: F jest dystrybuantą z rozkładu o gęstości

f

0

(x) =

0

gdy x ¬ 1.5

1

7.5

exp(

x−1.5

7.5

)

gdy x > 1.5

Dystrybuanta rozkładu z hipotezy

F

0

(x) =

0

gdy x ¬ 1.5

1 exp



x−1.5

7.5



gdy x > 1.5

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

106

Test Kołmogorowa - Lillieforsa

Niech X

1

, X

2

, . . . , X

n

i.i.d. z rozkładu o nieznanej dystrybuancie

F

H

0

: F jest dystrybuantą rozkładu normalnego

Niech

D

n

= max(D

+

n

, D

n

)

gdzie

D

+

n

= max

i=1...n

(

i

n

− z

i

)

D

n

= max

i=1...n

(z

i

i − 1

n

)

z

i

= F

0

(x

i:n

)

i

z

i

= Φ


X

i:n

¯

X

S


¯

X =

1

n

n

X

i=1

X

i

S

2

=

1

n − 1

n

X

i=1

(X

i

¯

X)

2

Obszar krytyczny testu:

K = {D

n

> D

n

(α)}

D

n

(α) =

D(α)

n − 0.01 +

0.85

n

α

0.1

0.05

0.01

D(α) 0.819 0.895 1.035

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

107

II. Test zgodności chi-kwadrat

Test zgodności chi-kwadrat służy do weryfikacji hipotezy o postaci
rozkładu obserwowanej zmiennej losowej X.

1. Cecha X ma rozkład dyskretny o k możliwych wartościach.

Powtarzamy n- krotnie doświadczenie losowe, które ma k możli-
wych wyników w

1

, w

2

, . . . , w

k

.

X

w

1

w

2

. . . w

k

P (X = w

i

) p

1

p

2

. . .

p

k

gdzie

P

p

i

= 1.

Hipoteza zerowa:

H

0

: p

1

= p

0
1

, p

2

= p

0
2

, . . . , p

k

= p

0
k

gdzie p

0

1

, p

0

2

, . . . , p

0

k

są znane.

X

1

, X

2

, . . . , X

n

- obserwacje cechy X.

N

i

=

n

X

j=1

1(X

j

= w

i

),

i = 1, 2, . . . , k.

- zliczamy ile razy w próbce X

1

, X

2

, . . . , X

n

pojawiła się wartość

w

i

.

Wyniki doświadczeń prezentuje tabela:

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

108

X

w

1

w

2

. . .

w

k

liczba

doświadczeń N

1

N

2

. . . N

k

Wektor (N

1

, N

2

, . . . , N

k

) ∼ M ult(n, p

1

, p

2

, . . . , p

k

).

Oczekiwana liczba pojawienia się wyniku w

i

w próbie n-elementowej

przy prawdziwej hipotezie H

0

EN

i

= np

0
i

Postać statystyki testu chi-kwadrat:

χ

2

=

X

(wielkość obserwowana - wielkość oczekiwana)

2

wielkość oczekiwana

Test:
odrzucamy
H

0

gdy

χ

2

=

k

X

i=1

(N

i

− np

0

i

)

2

np

0

i

> χ

2

(α, k − 1)

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

109

PRZYKŁAD:

Chcemy sprawdzić czy kostka do gry jest symetryczna. Rzucamy
kostką 300 razy. Wyniki podaje tabela

wynik w

i

1

2

3

4

5

6

liczba

rzutów N

i

45 55 60 40 48 52

H

0

: p

0

i

=

1
6

, i = 1, 2, 3, 4, 5, 6

np

0

i

= 300 ·

1
6

- wartość oczekiwana

Wartość statystyki testowej:

χ

2
emp

=

6

X

i=1

(N

i

− np

0

i

)

2

np

0

i

= 5, 16

χ

2
0,95,5

= 11, 07

χ

2
emp

< χ

2

(0, 05, 5)

Wniosek: nie ma podstaw do odrzucenia hipotezy H

0

,zatem moż-

na sądzić, że kostka jest symetryczna.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

110

2. Cecha X ma rozkład ciągły

Test zgodności chi-kwadrat może być stosowany w przypadku ce-
chy o rozkładzie ciągłym.

X

1

, X

2

, . . . , X

n

próba losowa z rozkładu ciągłego

Hipoteza zerowa:

H

0

: X

1

, X

2

, . . . , X

n

i.i.d. F

gdzie F jest znaną dystrybuantą rozkładu ciągłego.

Wybieramy liczby −∞ = a

0

< a

1

< a

2

< . . . < a

k

= i

definiujemy

N

i

=

n

X

j=1

1(a

i−1

< X

j

¬ a

i

),

i = 1, 2, . . . , k

Prawdopodobieństwo

P (a

i−1

< X

j

¬ a

i

) = F (a

i

) − F (a

i−1

) = p

0
i

jest znane. Następnie stosujemy test chi-kwadrat dla przypadku
rozkładu dyskretnego.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

111

UWAGI:

1) Test zgodności chi-kwadrat jest testem asymptotycznym, licz-
ność próby losowej n musi być duża, dla każdej klasy
np

0

i

> 5.

2) Podział na klasy (a

i−1

, a

i

) dokonuje się tak, aby p

0

i

1

k

.

3) Testu możemy używać do weryfikacji hipotezy, że rozkład ob-
serwowanej zmiennej należy do pewnej rodziny rozkładów indek-
sowanych skończenie wymiarowym parametrem. Parametry esty-
mujemy korzystając z danych. Jeśli używamy danych do estymacji
nieznanych parametrów rozkładu występującego w hipotezie zero-
wej, to dla każdego estymowanego parametru odejmujemy jeden
stopień swobody, zatem test odrzuca hipotezę zerową, gdy

χ

2

=

k

X

i=1

(N

i

− np

0

i

)

2

np

0

i

> χ

2

(α, k − d − 1)

gdzie d jest liczbą estymowanych parametrów.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

112

PRZYKŁAD. Poniższa tabela przedstawia liczby roszczeń zgłoszo-
nych w ciągu roku dla 500 niezależnych polis z pewnej grupy ryzyka
w towarzystwie ubezpieczeniowym:

liczba roszczeń liczba polis

0

420

1

60

2

20

> 2

0

X - obserwowana zmienna losowa - liczba roszczeń dla jednej polisy

H

0

: X ∼ P oiss(λ), λ > 0 jest nieznane.

ˆ

λ = EN W (λ) = ¯

X = 0.2

i

p

0
1

= P (X = 0) ≈ e

0.2

= 0, 82

500 · p

0
1

= 410

p

0
2

= P (X = 1) 0.2e

0.2

= 0, 16

500 · p

0
2

= 80

p

0
3

= P (X > 1) 1 0.2e

0.2

− e

0.2

= 0, 02

500 · p

0
3

= 10

Wartość statystyki testowej

χ

2

=

3

X

i=1

(N

i

− np

0

i

)

2

np

0

i

= 21, 73

Wartość krytyczna χ

2

(0, 05, 3 1 1) = 3, 84. Hipotezę H

0

od-

rzucamy

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

113

TEST CHI-KWADRAT NIEZALEŻNOŚCI

(X, Y ) - dwuwymiarowa zmienna losowa o rozkładzie dyskretnym,
tzn. (X, Y ) ∈ {1, 2, . . . , r} × {1, 2, . . . , s};

Niech

p

i,j

= P (X = i ∧ Y = j)

p

i•

= P (X = i) =

s

X

j=1

p

i,j

p

•j

= P (Y = j) =

r

X

i=1

p

i,j

.

(X

1

, Y

1

), (X

2

, Y

2

), . . . , (X

n

, Y

n

) próba losowa

N

i,j

=

n

X

l=1

1(X

l

= i ∧ Y

l

= j)

N

i•

=

s

X

j=1

N

i,j

and

N

•j

=

r

X

i=1

N

i,j

.

Dane przedstawiamy w tabeli zwanej tablicą kontyngencji.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

114

x|y

1

2

. . .

s

N

i,•

1

N

1,1

N

1,2

. . . N

1,s

N

1,•

2

N

2,1

N

2,2

. . . N

2,s

N

2,•

. . .

. . .

. . .

. . .

. . .

. . .

r

N

r,1

N

r,2

. . . N

r,s

N

r,•

N

•,j

N

•,1

N

•,2

. . . N

•,s

n

Hipoteza zerowa: H

0

: X i Y są niezależne

H

0

: p

i,j

= p

i•

· p

•j

,

i = 1, 2, . . . , r,

j = 1, 2, . . . , s.

Jest to hipoteza o zgodności z pewnym rozkładem, zastosujemy
test chi-kwadrat.

Nieznanymi parametrami są: p

i•

i p

•j

, i = 1, 2, . . . , r, j = 1, 2, . . . , s

Ich estymatory największej wiarogodności to:

ˆ

p

i•

=

N

i•

n

ˆ

p

•j

=

N

•j

n

Estymujemy zatem

r − 1 + s − 1

parametrów

Estymatory parametrów p

i,j

są postaci

ˆ

p

i,j

= ˆ

p

i•

· ˆ

p

•j

=

N

i•

n

·

N

•j

n

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

115

Statystyka testu chi-kwadrat ma postać

χ

2

=

r

X

i=1

s

X

j=1



N

i,j

N

i•

N

•j

n



2

N

i•

N

•j

n

.

Jeżeli n dąży do to rozkład statystyki χ

2

dąży do rozkładu

χ

2
(r−1)(s−1)

Hipotezę H

0

odrzucamy gdy χ

2

> χ

2

(α, (r − 1)(s − 1))

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

116

STATYSTYKA BAYESOWSKA

MODEL BAYESOWSKI

• X

1

, X

2

, . . . , X

n

- dane np. próba losowa z rozkładu P

θ

o gęstości

f

θ

(x) = f (x|θ)

• {P

θ

: θ ∈ Θ} - rodzina rozkładów, θ - nieznany parametr

dodatkowa wiedza- rozkład a priori Π na przestrzeni Θ, zatem
θ ∼ Π i oznaczmy przez π(θ) - gęstość rozkładu Π względem
pewnej miary na Θ

Wtedy f (x

1

, x

2

, . . . , x

n

) jest gęstością rozkładu warunkowego i

f (x

1

, x

2

, . . . , x

n

, θ) = f (x

1

, x

2

, . . . , x

n

)π(θ)

jest gęstością rozkładu łącznego obserwowanej zmiennej
X = (X

1

, X

2

, . . . , X

n

) i zmiennej θ.

Rozkład Π

x

zadany przez gęstość (względem miary na Θ)

π(θ|x) =

f (x

1

, x

2

, . . . , x

n

)π(θ)

m(x)

,

gdzie

m(x) =

Z

Θ

f (x

1

, x

2

, . . . , x

n

)π(θ)

oznacza gęstość rozkładu brzegowego zmiennej X w punkcie
x = (x

1

, x

2

, . . . , x

n

), nazywamy rozkładem a posteriori.

Rozkład a priori obrazuje naszą wiedzę o nieznanym parametrze
przed wykonaniem badania statystycznego

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

117

Rozkład a posteriori zawiera całą wiedzę o obserwowanym zjawi-
sku, zawiera wiedzę wstępną o parametrze θ i wiedzę płynącą z
obserwacji, jest podstawą wnioskowania bayesowskiego.

Zadania statystyki bayesowskiej:
estymacja parametru θ
przedział ufności
weryfikacja hipotez o parametrze.

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

118

ESTYMACJA

1. Bayesowski estymator największej wiarogodności pa-
rametru θ - moda rozkładu a posteriori parametru θ

BEN W (θ)(x) = arg sup π(θ|x)

2. Estymator bayesowski przy zadanej funkcji straty

Niech L(θ, a) będzie funkcją straty jaką ponosi statystyk wybiera-
jąc za wartość estymatora a, gdy prawdziwą wartością parametru
jest θ.

Przykłady: Niech g(θ) - wielkość estymowana
L(θ, a) = (g(θ) − a)

2

- kwadratowa funkcja straty;

L(θ, a) = w(θ)(g(θ)−a)

2

- uogólniona kwadratowa funkcja straty;

L(θ, a) = |g(θ) − a| - modułowa funkcja straty;
L(θ, a) = exp(c(g(θ) − a)) − c(g(θ) − a) 1 - funkcja straty linex
(liniowo-wykładnicza)

Miernik jakości estymatora ˆ

g - ryzyko a posteriori

R

x

, ˆ

g(x)) = E[L(θ, ˆ

g(X))|X = x] =

Z

Θ

L(θ, ˆ

g(x))π(θ|x)dθ,

E(h(θ)|x) - oznacza wartość oczekiwaną funkcji h(θ), gdy θ ma
rozkład a posteriori przy X = x i rozkładzie a priori Π.

Estymator ˆ

g

B

Π

nazywamy estymatorem bayesowskim ⇐⇒

∀x

R

x

, ˆ

g

B

Π

(x)) = inf

a

R

x

, a)

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

119

Przy kwadratowej funkcji straty

ˆ

g

B

Π

(x) = E(g(θ)|x)

(o ile ta wartość oczekiwana istnieje i jest skończona i ryzyko bay-
esowskie jest skończone).

Dowód:

R

x

, a) = E((g(θ) − a)

2

|x) = E(g

2

(θ)|x) 2aE(g(θ)|x) + a

2

Jest to kwadratowa funkcja zmiennej a i osiąga minimum dla a =
E(g(θ)|x).

Przy modułowej funkcji straty

ˆ

g

B

Π

(x) = med

x

)

PRZEDZIAŁY UFNOŚCI HPD

Bayesowskim przedziałem ufności HPD dla parametru
θ na poziomie ufności 1 − α nazywamy zbiór A ⊂ Θ, taki że

∀θ ∈ A

π(θ|x) > k

α

i

Π (A|x) ­ 1 − α

background image

Agata Boratyńska Wykłady ze statystyki matematycznej

120

PRZYKŁAD:

X

1

, X

2

, . . . , X

n

- i.i.d. N (θ, σ

2

), θ - nieznane, σ znane

θ ∼ N (µ, τ

2

) - rozkład a priori

Rozkład a posteriori N (µ

, τ

2

) gdzie

µ

=

n

σ

2

¯

x +

µ

τ

2

n

σ

2

+

1

τ

2

i

τ

2

=

n

σ

2

+

1

τ

2

1

Estymator bayesowski parametru θ przy kwadratowej funkcji sraty

ˆ

θ

B

Π

(x

1

, x

2

, . . . , x

n

) = µ

=

n

σ

2

¯

x +

µ

τ

2

n

σ

2

+

1

τ

2

Bayesowski przedział ufności dla θ na poziomie ufności 1 − α



µ

− u

1

α

2

τ

, µ

− u

1

α

2

τ




Wyszukiwarka

Podobne podstrony:
Wymagania odnośnie projektu na zaliczenie wykładu ze Statystyki matematycznej
Kucharski A Wykłady ze statystyki matematycznej
opracowanie pytań na wykład ze statystyki, STUDIA, SEMESTR IV, Statystyka matematyczna i planowanie
Wyniki sprawdzianu ze statystyki matematycznej i teorii estymacji z dn 23.01.13
WYKŁADY- DEFINICJE, Konspekt wykładów ze statystyki
Wyniki kolokwium ze statystyki matematycznej i teorii estymacji z dn 31.01.13
Zadania na zaliczenie wykładu ze statystyki
PROGRAM WYKŁADÓW ZE STATYSTYKI, statystyka
x2, wykłady i notatki, statystyka matematyczna
Rozklad statystyk z proby, wykłady i notatki, statystyka matematyczna
Wyniki sprawdzianu ze statystyki matematycznej i teorii estymacji z dn 31.01.13
Wyniki kolokwium ze statystyki matematycznej i teorii estymacji z dn 07.02.13
Wykłady ze statystyki opisowej dla psychologów
zagadnienia na egzamin ze statystyki matematycznej zima 2014, Statystyka matematyczna
248649, wykłady i notatki, statystyka matematyczna
Wykłady Trzpiot, statystyka matematyczna(1)
zadania ze statystyki matemat

więcej podobnych podstron