1
Agata Boratyńska
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ (II rok WNE)
Warszawa 2014
Agata Boratyńska Wykłady ze statystyki matematycznej
2
Literatura
W. Niemiro Rachunek prawdopodobieństwa i statystyka mate-
matyczna, SNS 1999
J. Koronacki i J. Mielniczuk Statystyka WNT 2004
J. Jóźwiak i J. Podgórski, Statystyka od podstaw, PWE 1994
H. Kassyk-Rokicka, Statystyka, zbiór zadań, 2005 lub inne wyda-
nia
W. Krysicki Rachunek prawdopodobieństwa i statystyka mate-
matyczna w zadaniach, cz. 2. PWN 1998
D. Silvey Wnioskowanie statystyczne, PWN
R. Zieliński Siedem wykładów wprowadzających do statystyki
matematycznej, PWN www.impan.gov.pl/ rziel/7ALL.pdf
A. Boratyńska Zadania ze statystyki matematycznej,
akson.sgh.waw.pl/ aborata/ekonomia/Zadsek2.pdf
A. Boratyńska Wykłady ze statystyki matematycznej,
akson.sgh.waw.pl/ aborata/ekonomia/wykladSM.pdf
J. Ciecieląg i K. Marek Statystyka matematyczna, zbiór zadań,
WNE
A. Jokiel-Rokita i R. Magiera, Modele i metody statystyki mate-
matycznej w zadaniach, Oficyna Wydawnicza GiS, Wrocław 2005
A.D. Aczel, Statystyka w zarządzaniu, PWN
W. Zieliński Tablice statystyczne.
C.R. Rao Statystyka i prawda, PWN 1994
Agata Boratyńska Wykłady ze statystyki matematycznej
3
Statystyka jest bardziej sposobem myślenia lub wnioskowania
niż pęczkiem recept na młócenie danych w celu odsłonięcia od-
powiedzi
C. R. Rao
... statystyka jest nauką o tym, jak wykorzystywać informacje
do analizy i wytyczania kierunków działania w warunkach nie-
pewności.
V. Barnett Comparative Statistical Inference
Nauka nie stara się wyjaśniać, a nawet niemal nie stara się
interpretować, zajmuje się ona głównie budową modeli. Mo-
del rozumiany jest jako matematyczny twór, który, po doda-
niu słownej interpretacji, opisuje badane zjawiska. Jedynym i
właściwym uzasadnieniem takiego tworu matematycznego jest
oczekiwanie, że sprawdzi się on w działaniu.
John von Neumann
Kłamstwo, wierutne kłamstwo, statystyka
Liczby nie kłamią ale kłamcy liczą
Ch. H. Grosvenor
Prawa naukowe nie są formułowane na mocy autorytetów ani
uzasadniane przez wiarę czy średniowieczną filozofię. Jedynym
sądem odwoławczym dla nowej wiedzy jest statystyka
P.C. Mahanalobis
Agata Boratyńska Wykłady ze statystyki matematycznej
4
STATYSTYKA - nauka poświęcona metodom badania i anali-
zowania zjawisk masowych; polega na systematyzowaniu obserwo-
wanych cech ilościowych i jakościowych oraz przedstawianiu wy-
ników w postaci zestawień tabelarycznych, wykresów, diagramów
itp. Zajmuje się zbieraniem, przetwarzanie, przedstawianiem da-
nych oraz wniskowaniem na ich podstawie.
STATYSTYKA MATEMATYCZNA - dział matematyki
stosowanej oparty na rachunku prawdopodobieństwa, zajmuje się
badaniem zbiorów i wnioskowaniem o pewnych charakterystykach
cech (zmiennych losowych) na podstawie znajomości podzbiorów i
obserwacji wartości zmiennej losowej w postaci próby losowej.
Agata Boratyńska Wykłady ze statystyki matematycznej
5
STATYSTYKA OPISOWA, WSTĘPNA ANALIZA DANYCH.
populacja - zbiór obiektów z wyróżnioną cechą, zbiorowość pod-
dawana badaniu.
cecha - wielkość losowa charakteryzująca obiekty danej populacji
lub interesująca badacza zmienna losowa, cecha ilościowa (np waga,
ocena, wiek, zarobki) i jakościowa (kolor oczu, płeć, wykształcenie)
jednostka badania - element populacji poddany badaniu
próba - wybrana część populacji poddana badaniu, zbiór jedno-
stek badania
jednostka cecha X cecha Y
cecha Z . . .
1
x
1
y
1
z
1
. . .
2
x
2
y
2
z
2
. . .
3
x
3
y
3
z
3
. . .
. . .
. . .
. . .
. . .
. . .
badanie pełne - obejmuje całą populację (np. spis powszechny)
badanie reprezentacyjne - obejmuje część populacji
Wnioskowanie o całej populacji na podstawie próby losowej wy-
maga metod rachunku prawdopodobieństwa.
Agata Boratyńska Wykłady ze statystyki matematycznej
6
PREZENTACJA DANYCH
Szereg rozdzielczy punktowy (tablica kontyngencji)
wartości cechy liczności (liczba jednostek)
x
1
n
1
x
2
n
2
. . .
. . .
x
k
n
k
PRZYKŁAD 1. W grupie 20 studentów oceny z egzaminu ze sta-
tystyki były następujące:
2
3
3.5
4
4.5
4
5
3
3
4
3.5
3
3
3.5
3
2
4
5
3.5
3.5
Dane w szeregu
ocena
liczba studentów
2
2
3
6
3.5
5
4
4
4.5
1
5
2
Razem
20
Przejrzystym sposobem prezentacji jest wykres słupkowy
Agata Boratyńska Wykłady ze statystyki matematycznej
7
Szereg rozdzielczy przedziałowy
przedział środek przedziału liczności częstości
(c
0
, c
1
]
¯
c
1
n
1
f
1
=
n
1
n
(c
1
, c
2
]
¯
c
2
n
2
f
2
=
n
2
n
. . .
. . .
. . .
. . .
(c
k−1
, c
k
]
¯
c
k
n
k
f
k
=
n
k
n
Uwagi:
• ¯
c
i
=
c
i−1
+c
i
2
• Najczęściej klasy o jednakowej szerokości lub o zbliżonej liczności
• Liczba klas k spełnia
3
4
√
n ¬ k ¬
√
n
• liczbę klas można też dobierać ustalając szerokość, jedna z reguł
to
b ' 2, 64 · IQR · n
−
1
3
gdzie IQR - rozstęp międzykwartylowy
• Jeżeli liczba klas jest równa k i klasy są jednakowej długości, to
długość b spełnia
b '
X
n:n
− X
1:n
k
gdzie
X
1:n
- najmniejsza obserwacja
X
n:n
- największa obserwacja
Agata Boratyńska Wykłady ze statystyki matematycznej
8
PRZYKŁAD 2. Powierzchnię mieszkań w pewnym osiedlu podaje
tabela
32,45 33,21 34,36 35,78 37,79 38,54
38,91
38,96
39,50
39,67
39,80 41,45 41,55 42,27 42,40 42,45
44,25
44,50
44,70
44,83
44,90 45,10 45,90 46,52 47,65 48,10
48,55
48,90
49,00
49,24
49,55 49,65 49,70 49,90 50,90 51,40
51,50
51,65
51,70
51,80
51,98 52,00 52,10 52,30 53,65 53,89
53,90
54,00
54,10
55,20
55,30 55,56 55,62 56,00 56,70 56,80
56,90
56,95
57,13
57,45
57,70 57,90 58,00 58,50 58,67 58,80
59,23
63,40
63,70
64,20
64,30 64,60 65,00 66,29 66,78 67,80
68,90
69,00
69,50
73,20
76,80 77,10 77,80 78,90 79,50 82,70
83,40
84,50
84,90
85,00
86,00 89,10 89,60 93,00 96,70 98,78 103,00 107,90 112,70 118,90
przedział środek liczba mieszkań częstości
30 − 40
35
11
0.11
40 − 50
45
23
0.23
50 − 60
55
33
0.33
60 − 70
65
12
0.12
70 − 80
75
6
0.06
80 − 90
85
8
0.08
90 − 100
95
3
0.03
100 − 110
105
2
0.02
110 − 120
115
2
0.02
razem
100
1
Agata Boratyńska Wykłady ze statystyki matematycznej
9
Histogram - jest to wykres słupkowy, którego podstawę stano-
wią przedziały klasowe, a wysokości słupków sa proporcjonalne do
liczności n
i
poszczególnych klas.
Jeżeli wysokości są równe licznościom klas to mamy histogram
liczności, jeżeli są równe częstościom to histogram częstości.
W sytuacji, gdy klasy nie mają równej długości wysokość słupków
określa się wg wzoru
h
i
=
f
i
b
i
gdzie f
i
- to częstość, a b
i
- szerokość klasy.
(porównaj histogramy - przykład 1,2,3)
Łącząc punkty o współrzędnych (¯
c
i
, n
i
) otrzymujemy łamaną
liczności, a łącząc punkty o współrzędnych (¯
c
i
, f
i
) albo (¯
c
i
, h
i
)
łamaną częstości.
W szeregu rozdzielczym możemy również podawać liczności i czę-
stości skumulowane.
przedział
liczności
częstości
skumulowane cn
i
skumulowane cf
i
(c
0
, c
1
]
n
1
f
1
=
n
1
n
(c
1
, c
2
]
n
1
+ n
2
f
1
+ f
2
. . .
. . .
. . .
(c
k−1
, c
k
] n
1
+ n
2
+ . . . + n
k
= n f
1
+ f
2
+ . . . + f
k
= 1
Agata Boratyńska Wykłady ze statystyki matematycznej
10
Jeżeli wysokości słupków histogramu są równe licznościom (czę-
stościom) skumulowanym to otrzymujemy histogram liczności
(częstości) skumulowanych. Łącząc punkty o współrzędnych
(c
i
, cn
i
) otrzymujemy łamaną liczności skumulowanych, a
łącząc punkty o współrzędnych (c
i
, cf
i
) otrzymujemy łamaną
częstości skumulowanych.
Agata Boratyńska Wykłady ze statystyki matematycznej
11
CHARAKTERYSTYKI PRÓBKOWE
MIARY POŁOŻENIA
Średnia arytmetyczna ¯
X
• z próby losowej X
1
, X
2
, . . . , X
n
(dane surowe)
¯
X =
X
1
+ X
2
+ . . . + X
n
n
• dane z szeregu rozdzielczego punktowego
¯
X =
1
n
k
X
i=1
x
i
n
i
• dane z szeregu rozdzielczego przedziałowego
¯
X '
1
n
k
X
i=1
¯
c
i
n
i
PRZYKŁAD 1 cd.
¯
X =
2 · 2 + 6 · 3 + 5 · 3.5 + 4 · 4 + 1 · 4.5 + 2 · 5
20
= 3.5
PRZYKŁAD 2 cd. dla danych z szeregu rozdzielczego
¯
X =
1
100
(11·35+23·45+33·55+12·65+6·75+8·85+3·95+2·105+2·115) = 58.70
Uwaga: jeżeli dostępne są dane surowe zaleca się korzystanie ze
wzoru pierwszego.
Agata Boratyńska Wykłady ze statystyki matematycznej
12
Mediana M ed z próby losowej jest to liczba, taka że co najmniej
50% obserwacji przyjmuje wartość nie większą od niej i co najmniej
50% obserwacji wartość nie mniejszą od niej.
Wyliczamy ją w następujący sposób:
• dane surowe: ustawiamy rosnąco,
i-tą obserwację w ciągu ustawionym rosnąco oznaczamy symbolem
X
i:n
i nazywamy i-tą statystyką pozycyjną
M ed =
X
n+1
2
:n
gdy n nieparzyste
1
2
(X
n
2
:n
+ X
n+2
2
:n
)
gdy n parzyste
• dane z szeregu rozdzielczego przedziałowego
M ed ' c
L
+
b
n
M
n
2
−
M −1
X
i=1
n
i
gdzie
c
L
- dolna granica klasy mediany
b - szerokość klasy mediany
n
M
- liczność klasy mediany
M - numer klasy
PRZYKŁAD 1 cd. M ed =
X
10:20
+X
11:20
2
=
3,5+3,5
2
= 3, 5
PRZYKŁAD 2 cd. dla danych z szeregu rozdzielczego
M = 3,
n
3
= 33,
c
L
= 50,
b = 10
M ed ' 50 +
10
33
(50 − 34) = 54, 85
Agata Boratyńska Wykłady ze statystyki matematycznej
13
Moda (dominanta) M o - wartość najczęściej powtarzająca się
w próbie (często zakłada się, że nie może być to wartość największa
ani najmniejsza)
Przy danych z szeregu rozdzielczego
M o ' c
L
+
n
M o
− n
M o−1
(n
M o
− n
M o−1
) + (n
M o
− n
M o+1
)
· b
gdzie
n
M o
- liczność najliczniejszej klasy zwanej klasą mody,
c
L
- lewy koniec klasy mody
PRZYKŁAD 1 cd. M o = 3
PRZYKŁAD 2 cd.
M o ' 50 +
33 − 23
33 − 23 + 33 − 12
· 10 = 53, 2
PRZYKŁAD 3 cd.
M o ' 250+
0, 0006771 − 0, 0004583
2 · 0, 0006771 − 0, 0004583 − 0, 0004774
·200 = 354, 56
Agata Boratyńska Wykłady ze statystyki matematycznej
14
PRZYKŁAD 4. Miesięczne zarobki zasadnicze pracowników z wyż-
szym wykształceniem w pewnej firmie
zarobki liczba osób
2500
6
3000
8
3100
7
3500
4
4000
3
5000
2
12000
1
Razem
31
¯
X = 3506
M ed = X
16:31
= 3100
M o = 3000
Uwaga: średnia jest nieodporna na obserwacje odstające
Agata Boratyńska Wykłady ze statystyki matematycznej
15
Kwartyle
Pierwszy kwartyl (dolny kwartyl) Q
1
- to taka wartość ce-
chy, że co najmniej 25% obserwacji przyjmuje wartość nie większą
od niej i co najmniej 75% obserwacji wartość nie mniejszą od niej.
Drugi kwartyl = Mediana
Trzeci kwartyl (kwartyl górny) Q
3
- to taka wartość cechy,
że co najmniej 75% obserwacji przyjmuje wartość nie większą od
niej i co najmniej 25% obserwacji wartość nie mniejszą od niej.
W praktyce dolny kwartyl wyznacza się jako medianę podpróby
złożonej z obserwacji o wartościach mniejszych od mediany, a górny
kwartyl jako medianę z podpróby złożonej z obserwacji większych
od mediany.
PRZYKŁAD 1 cd.
Q
1
=
X
5:20
+ X
6:20
2
= 3
Q
3
=
X
15:20
+ X
16:20
2
= 4
Agata Boratyńska Wykłady ze statystyki matematycznej
16
Przy danych z szeregu rozdzielczego
Q
1
' c
L
+
b
n
M
1
n
4
−
M
1
−1
X
i=1
n
i
gdzie
c
L
- dolna granica klasy kwartyla
b - szerokość klasy kwartyla
n
M
1
- liczność klasy kwartyla
M
1
- numer klasy
Q
3
' c
L
+
b
n
M
3
3n
4
−
M
3
−1
X
i=1
n
i
gdzie
c
L
- dolna granica klasy kwartyla
b - szerokość klasy kwartyla
n
M
3
- liczność klasy kwartyla
M
3
- numer klasy
PRZYKŁAD 2 cd. Za Q
1
odpowiada obserwacja o numerze
n
4
= 25,
stąd klasa kwartyla jest klasa druga M = 2
Q
1
' 40 +
10
23
(25 − 11) = 46.09
Za Q
3
odpowiada obserwacja o numerze
3
4
n = 75, stąd klasą kwar-
tyla jest klasa czwarta M = 4
Q
3
' 60 +
10
12
(75 − 65) = 66.67
Agata Boratyńska Wykłady ze statystyki matematycznej
17
Kwartyle dzielą próbę na cztery równe części (ze względu na licz-
ność), w każdej jest w przybliżeniu 25% obserwacji.
Porównanie wskaźników dla danych surowych i szeregu rozdziel-
czego
miara
dane surowe szereg rozdzielczy
średnia
59,58
58,70
mediana
55,25
54,85
Q
1
47,88
46,09
Q
3
67,29
66,67
Kwantyl próbkowy rzędu p
Q
p
=
X
np:n
+X
np+1:n
2
gdy np ∈ Z
X
[np]+1:n
w pp
lub
Q
p
= X
[np]+1:n
Agata Boratyńska Wykłady ze statystyki matematycznej
18
MIARY ROZPROSZENIA
Rozstęp czyli odległość między największą i najmniejszą obser-
wacją
r = X
n:n
− X
1:n
Rozstęp międzykwartylowy
IQR = Q
3
− Q
1
podaje długość odcinka, na którym leży 50% środkowych wartości
w uporządkowanej niemalejąco próbie.
Uwaga:
rozstęp jest funkcją tylko krańcowych obserwacji, jest nieodporny
na obserwacje odstające, tej wady pozbawiony jest rozstęp między-
kwartylowy
Wariancją z próby losowej X
1
, X
2
, . . . , X
n
(dane surowe)
nazywamy liczbę
ˆ
S
2
=
1
n
n
X
i=1
(X
i
− ¯
X)
2
=
1
n
n
X
i=1
X
2
i
− n ¯
X
2
Dla danych pogrupowanych w szeregu rozdzielczym otrzymujemy
ˆ
S
2
'
1
n
k
X
i=1
n
i
(¯
c
i
− ¯
X)
2
Agata Boratyńska Wykłady ze statystyki matematycznej
19
Przy danych pogrupowanych w szeregu rozdzielczym stosuje się
jeszcze poprawkę związaną z założeniem rozkładu równomiernego
danych na poszczególnych przedziałach
¯
S
2
=
1
n
k
X
i=1
n
i
(¯
c
i
− ¯
X)
2
+
1
12n
k
X
i=1
n
i
(c
i
− c
i−1
)
2
Odchylenie standardowe ˆ
S =
√
ˆ
S
2
lub ¯
S =
√
¯
S
2
Odchylenie przeciętne d =
1
n
P
n
i=1
|X
i
− ¯
X|
W sytuacji gdy chcemy porównać rozrzut dwóch lub więcej prób
korzystamy ze współczynnika zmienności
V =
ˆ
S
¯
X
100%
PRZYKŁAD 1 cd.
r = 5 − 2 = 3
IQR = 4 − 3 = 1
ˆ
S
2
=
1
20
2(2 − 3, 5)
2
+ 6(3 − 3, 5)
2
+ 5(3, 5 − 3, 5)
2
+4(4 − 3, 5)
2
+ 1(4, 5 − 3, 5)
2
+ 2(5 − 3, 5)
2
= 0, 63
ˆ
S =
√
0, 658 = 0, 79
d =
1
20
{2|2 − 3, 5| + 6|3 − 3, 5| + 5|3, 5 − 3, 5|
+4|4 − 3, 5| + 1|4, 5 − 3, 5| + 2|5 − 3, 5|} = 0, 6
Agata Boratyńska Wykłady ze statystyki matematycznej
20
PRZYKŁAD 2 cd. Dla danych z szeregu rozdzielczego
r ' 120 − 30 = 90
IQR ' 66, 67 − 46, 09 = 20, 58
ˆ
S
2
' 331, 31
ˆ
S ' 18, 20
¯
S
2
= 339, 64
¯
S = 18, 43
d ' 13, 96
Agata Boratyńska Wykłady ze statystyki matematycznej
21
WYKRES RAMKOWY, PUDEŁKO Z WĄSAMI
Pozwala na jednym rysunku przedstawić wiadomości dotyczące po-
łożenia, rozproszenia i kształtu rozkładu empirycznego badanej ce-
chy. Na wykresie zaznacza się kwartyle, średnią, medianę, najwięk-
szą i najmniejszą obserwację, obserwacje odstające.
Obserwacje odstające są to obserwacje o wartościach
x < x
∗
lub
x > x
∗
gdzie
x
∗
= min{X
i
: X
i
∈ [Q
1
−
3
2
IQR, Q
1
]}
x
∗
= max{X
i
: X
i
∈ [Q
3
, Q
3
+
3
2
IQR]}
Agata Boratyńska Wykłady ze statystyki matematycznej
22
WSKAŹNIKI ASYMETRII
Współczynnik asymetrii (klasyczny)
A =
M
3
S
3
gdzie M
3
jest trzecim momentem centralnym równym dla danych
surowych
M
3
=
1
n
n
X
i=1
(X
i
− ¯
X)
3
,
dla danych pogrupowanych w szeregu rozdzielczym otrzymujemy
M
3
'
1
n
k
X
i=1
n
i
(¯
c
i
− ¯
X)
3
Pozycyjny miernik asymetrii
A
2
=
Q
3
− 2M ed + Q
1
Q
3
− Q
1
Współczynnik skośności
A
1
=
¯
X − M o
S
Asymetria dodatnia (prawostronna) - wskaźniki asymetrii dodatnie
Asymetria ujemna (lewostronna) - wskaźniki asymetrii ujemne
PRZYKŁAD 1 cd. A = 0, 08,
A
1
=
3,5−3,5
0,79
= 0
PRZYKŁAD 2cd. A = 1, 10
A
1
=
58,70−50,10
18,20
= 0, 47
PRZYKŁAD 3cd. A
1
=
3506−3000
1671,57
= 0, 3
Agata Boratyńska Wykłady ze statystyki matematycznej
23
INDEKSY STATYSTYCZNE
Zbiór wartości danej cechy lub wartości określonego zjawiska za-
obserwowany w różnych (ale chronologicznych) momentach czasu
nazywamy szeregiem czasowym.
PRZYKŁAD. cena akcji w kolejnych dniach stycznia, zarobki w
pewnej gałęzi przemysłu w kolejnych latach, wielkość produkcji w
kolejnych miesiącach
Indeksy statystyczne służą do badania dynamiki zjawiska na
podstawie danych z kolejnych okresów czasowych (na podstawie
szeregu czasowego).
y
t
- poziom zjawiska (wartość cechy) w chwili (okresie) t, t ∈
{0, 1, 2, . . . , n}
∆
t
= y
t
− y
t−1
- przyrost absolutny
δ
t
=
y
t
−y
t∗
y
t∗
- przyrost względny względem wartości w chwili t
∗
.
INDEKSY PROSTE - mierniki tempa zmian zjawiska
Indeks łańcuchowy dynamiki i
t|t−1
=
y
t
y
t−1
Tempo zmian wartości zjawiska w okresie t w stosunku do okresu
t − 1 jest równe (i
t|t−1
− 1)100%
Indeks jednopodstawowy dynamiki i
t|t
∗
=
y
t
y
t∗
, gdzie t
∗
jest
ustaloną chwilą (ustalonym okresem) czasu.
Agata Boratyńska Wykłady ze statystyki matematycznej
24
Tempo zmian wartości zjawiska w okresie t w stosunku do okresu
t
∗
jest równe (i
t|t
∗
− 1)100%
Związki między indeksami:
i
t|t−1
=
i
t|t
∗
i
t−1|t
∗
,
jeśli t
0
> t
∗
to
i
t
0
|t
∗
=
t
0
Y
t=t
∗
+1
i
t|t−1
,
jeśli t
0
< t
∗
to
i
t
0
|t
∗
=
t
∗
Y
t=t
0
+1
1
i
t|t−1
.
Średnie tempo zmian wartości zjawiska
r = ¯i
g
− 1 =
n
Y
t=1
i
t|t−1
1
n
− 1 =
y
n
y
0
1
n
− 1 =
i
n|0
1
n
− 1
Średnie tempo zmian wartości zjawiska określa tempo zmian zjawi-
ska jakie powinno występować przez cały okres (0, n), aby przyrost
z okresu (0, n) rozłożyć równomiernie w czasie.
Zatem y
n
= y
0
(r + 1)
n
.
Agata Boratyńska Wykłady ze statystyki matematycznej
25
AGREGATOWE INDEKSY WARTOŚCI, ILOŚCI I CEN.
Indeksy agragatowe oceniają dynamikę zjawiska w niejedno-
rodnej zbiorowości (np. dynamika cen różnych artykułów, dyna-
mika spożycia różnych produktów, dynamika sprzedaży, produkcji
kilku dóbr).
Dane z dwóch okresów (momentów) czasowych: t = 0 - okres pod-
stawowy i t = 1 okres badany
produkt cena jednostki
ilość
wartość
t = 0
t = 1
t = 0 t = 1
t = 0
t = 1
1
p
10
p
11
q
10
q
11
w
10
= p
10
q
10
w
11
= p
11
q
11
2
p
20
p
21
q
20
q
21
w
20
= p
20
q
20
w
21
= p
21
q
21
. . .
. . .
. . .
. . .
. . .
. . .
. . .
j
p
j0
p
j1
q
j0
q
j1
w
j0
= p
j0
q
j0
w
j1
= p
j1
q
j1
. . .
. . .
. . .
. . .
. . .
. . .
. . .
k
p
k0
p
k1
q
k0
q
k1
w
k0
= p
k0
q
k0
w
k1
= p
k1
q
k1
Agregatowy indeks wartości
I
w
=
P
k
j=1
w
j1
P
k
j=1
w
j0
informuje o łącznej zmianie wartości wszystkich produktów w mo-
mencie badanym do momentu podstawowego
Agata Boratyńska Wykłady ze statystyki matematycznej
26
Agregatowy indeks cen określa wpływ zmian cen na dyna-
mikę wartości (gdyby ilości w obu momentach czasu były niezmie-
nione), mówi o przeciętnych zmianach cen wszystkich rozważanych
produktów
Agregatowy indeks cen Laspeyresa
L
I
p
=
P
k
j=1
p
j1
q
j0
P
k
j=1
p
j0
q
j0
=
P
k
j=1
p
j1
p
j0
p
j0
q
j0
P
k
j=1
p
j0
q
j0
Agregatowy indeks cen Paaschego
P
I
p
=
P
k
j=1
p
j1
q
j1
P
k
j=1
p
j0
q
j1
Agregatowy indeks cen Fishera
F
I
p
=
r
L
I
pP
I
p
Agregatowy indeks ilości określa wpływ zmian ilości na dyna-
mikę wartości (gdyby w obu momentach ceny były niezmienione),
informuje o przeciętnych zmianach ilości poszczególnych produk-
tów w obu porównywanych momentach czasu
Agregatowy indeks ilości Laspeyresa
L
I
q
=
P
k
j=1
p
j0
q
j1
P
k
j=1
p
j0
q
j0
=
P
k
j=1
q
j1
q
j0
p
j0
q
j0
P
k
j=1
p
j0
q
j0
Agregatowy indeks ilości Paaschego
P
I
q
=
P
k
j=1
p
j1
q
j1
P
k
j=1
p
j1
q
j0
Agata Boratyńska Wykłady ze statystyki matematycznej
27
Agregatowy indeks ilości Fishera
F
I
q
=
r
L
I
qP
I
q
Związki między indeksami
I
w
=
L
I
pP
I
q
=
L
I
qP
I
p
=
F
I
pF
I
q
Agata Boratyńska Wykłady ze statystyki matematycznej
28
MODEL STATYSTYCZNY, PODSTAWOWE ZADANIA
STATYSTYKI MATEMATYCZNEJ
ZADANIE z rachunku prawdopodobieństwa
Rzucamy niezależnie 100 razy symetryczną monetą.
Oblicz:
prawdopodobieństwo wyrzucenia 60 orłów
wartość oczekiwaną liczby wyrzuconych orłów
Rozwiązanie:
Model probabilistyczny:
X - liczba wyrzuconych orłów, zmienna losowa o rozkładzie dwu-
mianowym
P (X = 60) =
100
60
1
2
100
EX = nθ = 50
Agata Boratyńska Wykłady ze statystyki matematycznej
29
ZADANIE ze statystyki matematycznej
Rzucono niezależnie 100 razy pewna monetą uzyskując 60 orłów.
Polecenia:
1. oszacuj prawdopodobieństwo uzyskania orła w pojedynczym
rzucie;
2. czy moneta jest symetryczna
Co znamy?
Model probabilistyczny z dokładnością do parametru
X - liczba wyrzuconych orłów, obserwowana zmienna losowa o
rozkładzie dwumianowym
P
θ
(X = x) =
100
x
(θ)
x
(1 − θ)
100−x
θ ∈ (0, 1) - nieznany parametr
Wynik obserwacji X = 60, na jego podstawie chcemy wnioskować
o nieznanym parametrze θ.
Agata Boratyńska Wykłady ze statystyki matematycznej
30
Zagadnienie estymacji - szacowanie nieznanego parametru na
podstawie wyniku obserwacji;
estymacja punktowa - podanie oszacowania w postaci liczbowej;
estymacja przedziałowa - podanie oszacowania w postaci przedzia-
łu nazywanego przedziałem ufności
Testowanie hipotez statystycznych - weryfikacja hipotezy
dotyczącej nieznanej wielkości rozkładu obserwowanej zmiennej lo-
sowej na podstawie wyniku obserwacji
Polecenia:
wyznacz estymator lub przedział ufności parametru θ
zweryfikuj hipotezę H : θ =
1
2
Agata Boratyńska Wykłady ze statystyki matematycznej
31
MODEL STATYSTYCZNY
(X , F
X
, P)
X - przestrzeń wartości obserwowanej zmiennej losowej X
F
X
- σ-ciało podzbiorów
P - rodzina rozkładów prawdopodobieństwa indeksowanych pew-
nym parametrem θ
P = {P
θ
: θ ∈ Θ}
Statystyką nazywamy zmienną losową T będącą funkcją obser-
wowanej zmiennej losowej X. Rozkład statystyki zależy od rozkła-
du zmienne X
Wnioskowanie statystyczne:
• estymacja nieznanych parametrów: punktowa i przedziałowa
• testowanie hipotez statystycznych
• predykcja (przewidywanie) - przewidywanie wartości zmiennej
losowej nieobserwowanej Y za pomocą obserwowanej zmiennej X,
rozkłady zmiennej Y i X zależą od tego samego parametru.
Agata Boratyńska Wykłady ze statystyki matematycznej
32
PEWNE WAŻNE ROZKŁADY
Rozkład χ
2
Niech Z
i
∼ N (0, 1), i = 1 . . . k, Z
i
niezależne
Rozkładem χ
2
z k stopniami swobody nazywamy rozkład prawdo-
podobieństwa zmiennej losowej
Y =
k
X
i=1
Z
2
i
i oznaczamy
Y ∼ χ
2
k
gęstość
p
k
(x) =
1
2
k
2
Γ(
k
2
)
x
k
2
−1
exp
−
1
2
x
1
(0,∞)
(x)
EY = k i V arY = 2k
kwantyl rzędu p - F
−1
χ
2
k
(p) - jest to liczba taka, że P {Y ¬
F
−1
χ
2
k
(p)} = p
wartość krytyczna rzędu α
χ
2
(α, k) = F
−1
χ
2
k
(1 − α)
- jest to liczba, taka że prawdopodobieństwo zdarzenia Y > χ
2
(α, k)
jest równe α.
Agata Boratyńska Wykłady ze statystyki matematycznej
33
Rozkład t-Studenta
Niech Z ∼ N (0, 1) i Y ∼ χ
2
k
oraz Z i Y niezależne, wtedy rozkład
zmiennej losowej
T =
Z
r
Y
k
nazywamy rozkładem t-Studenta z k stopniami swobody i ozna-
czamy
T ∼ t
k
gęstość
f
k
(x) =
1
√
kπ
·
Γ
k+1
2
Γ
k
2
1 +
x
2
2
−
k+1
2
ET = 0 gdy k > 1
V arT =
k
k−2
gdy k > 2
kwantyl rzędu p - F
−1
t
k
(p) - jest to liczba taka, że P {T ¬
F
−1
t
k
(p)} = p
wartość krytyczna dwustronna rzędu α
t(α, k) = F
−1
t
k
1 −
α
2
!
- jest to liczba, taka że prawdopodobieństwo zdarzenia |T | >
t(α, k) jest równe α.
Agata Boratyńska Wykłady ze statystyki matematycznej
34
Rozkład F (Fishera-Snedecora)
Niech Y ∼ χ
2
k
i V ∼ χ
2
r
oraz zmienne Y i V są niezależne, wtedy
rozkład zmiennej losowej
F =
Y /k
V /r
nazywamy rozkładem F z k i r stopniami swobody i oznaczamy
F ∼ F
k,r
gęstość
p
k,r
(x) =
Γ
k+r
2
Γ
k
2
Γ
r
2
r
k
!
r
2
x
k
2
−1
x +
r
k
k+r
2
1
(0,∞)
(x)
gdy x > 0
kwantyl rzędu p - F
−1
F
k,r
(p)
wartość krytyczna rzędu α
F (α, k, r) = F
−1
F
k,r
(1 − α)
- jest to liczba, taka że prawdopodobieństwo zdarzenia F > F (α, k, r)
jest równe α.
Agata Boratyńska Wykłady ze statystyki matematycznej
35
Rozkłady pewnych statystyk w modelu normalnym
X
1
, X
2
, . . . , X
n
i.i.d. N (µ, σ
2
), µ ∈ R, σ > 0
¯
X =
1
n
X
n
i=1
X
i
S
2
=
1
n − 1
X
n
i=1
(X
i
− ¯
X)
2
Własności
• ¯
X i S
2
są niezależne;
• ¯
X ∼ N (µ,
σ
2
n
)
E ¯
X =
1
n
E
P
n
i=1
X
i
=
1
n
nEX
1
= µ
V ar ¯
X =
1
n
V ar
P
n
i=1
X
i
=
1
n
2
nV arX
1
=
σ
2
n
• Zmienna
P
n
i=1
(X
i
−µ)
2
σ
2
ma rozkład χ
2
n
•
(n−1)S
2
σ
2
=
P
n
i=1
(X
i
− ¯
X)
2
σ
2
∼ χ
2
n−1
• E
(n−1)S
2
σ
2
= n − 1 i V ar
(n−1)S
2
σ
2
= 2(n − 1) stąd
ES
2
= σ
2
i
V arS
2
=
2σ
4
n − 1
Agata Boratyńska Wykłady ze statystyki matematycznej
36
•
¯
X−µ
σ
√
n ∼ N (0, 1) i
(n−1)S
2
σ
2
∼ χ
2
n−1
zatem
T =
¯
X−µ
σ
√
n
s
(n−1)S
2
σ
2
(n−1)
=
¯
X − µ
S
√
n ∼ t
n−1
• Niech X
1
, X
2
, . . . , X
n
i.i.d. N (µ
1
, σ
2
) i Y
1
, Y
2
, . . . , Y
m
i.i.d. N (µ
2
, σ
2
)
Niech
S
2
X
=
1
n − 1
X
n
i=1
(X
i
− ¯
X)
2
i
S
2
Y
=
1
m − 1
X
m
i=1
(Y
i
− ¯
Y )
2
Wtedy
(n − 1)S
2
X
σ
2
∼ χ
2
n−1
(m − 1)S
2
Y
σ
2
∼ χ
2
m−1
i zmienne sa niezależne, stąd
(n−1)S
2
X
σ
2
(n−1)
(m−1)S
2
Y
σ
2
(m−1)
=
S
2
X
S
2
Y
∼ F
n−1,m−1
Agata Boratyńska Wykłady ze statystyki matematycznej
37
ZAGADNIENIE ESTYMACJI
Zagadnienie estymacji - szacowanie nieznanego parametru lub
funkcji na podstawie wyników obserwacji;
X
1
, X
2
, . . . , X
n
- niezależne zmienne losowe o tym samym rozkła-
dzie (i.i.d.) P
θ
- próba losowa
θ ∈ Θ - nieznany parametr, Θ ⊆ R(R
k
)
Estymatorem parametru θ nazywamy dowolną funkcję
ˆ
θ(X
1
, X
2
, . . . , X
n
), której wartości należą do przestrzeni Θ, i której
celem jest oszacowanie parametru θ.
CHARAKTERYSTYKI PRÓBKOWE - estymatory w oparciu o
dystrybuantę empiryczną
Model:
(R, F )
n
, gdzie F rodzina dystrybuant na prostej rzeczywistej
x = (x
1
, x
2
, ..., x
n
) - próbka losowa z rozkładu o dystrybuancie F
k-ta statystyka pozycyjna z próby losowej x
1
, x
2
, ..., x
n
jest
równa k-tej wartości, gdy obserwacje ustawimy w ciąg rosnący.
Oznaczenie: X
k:n
W szczególności
x
1:n
= min{x
1
, x
2
, ..., x
n
}
x
n:n
= max{x
1
, x
2
, ..., x
n
}
Agata Boratyńska Wykłady ze statystyki matematycznej
38
Dystrybuanta empiryczna
F
n
(x, t) = F
n
(t) =
liczba x
i
, takich że x
i
¬ t
n
F
n
(t) =
1
n
Σ1
(−∞,t]
(x
i
) =
1
n
Σ1
[x
i:n
,∞)
(t)
gdzie
1
(−∞,t]
(X
i
) =
1
gdy X
i
∈ (−∞, t]
0
w przeciwnym przypadku
jest zmienną losową dwupunktową,
P
F
(1
(−∞,t]
(X
i
) = 1) = F (t)
Dystrybuanta empiryczna jest statystyką jako funkcja próby lo-
sowej i jest dystrybuantą rozkładu jednostajnego skupionego w
punktach x
1
, x
2
, ..., x
n
jako funkcja zmiennej t.
Własności F
n
jako statystyki:
1.
E
F
F
n
(t) = E
F
1
n
Σ1
(−∞,t]
(X
i
)
=
1
n
· nE
F
1
(−∞,t]
(X
i
) = F (t)
2. V arF
n
(t) =
1
n
F (t)(1 − F (t))
Agata Boratyńska Wykłady ze statystyki matematycznej
39
3. CTG
F
n
(t) − F (t)
r
F (t)(1 − F (t))
√
n −→ N (0, 1)
P
x :
F
n
(t) − F (t)
r
F (t)(1 − F (t))
√
n ¬ z
−→ Φ(z)
dla każdego z.
4. Twierdzenie Gliwenki Cantellego
Dla prawie wszystkich x
sup
t
|F
n
(t) − F (t)| −→ 0,
gdy n −→ ∞
Charakterystyki próbkowe:
średnia - estymator wartości oczekiwanej
mediana próbkowa - estymator mediany
kwantyl próbkowy - estymator kwantyla rozkładu
wariancja z próby - estymator wariancji
itd
Agata Boratyńska Wykłady ze statystyki matematycznej
40
Przykład 4: Dane - 40 strat spowodowanych wichurami:
wartość liczebność
2
12
3
4
4
3
5
4
6
4
8
2
9
1
15
1
17
1
22
1
23
1
24
2
25
1
27
1
32
1
43
1
Agata Boratyńska Wykłady ze statystyki matematycznej
41
METODY WYZNACZANIA ESTYMATORÓW
EMM (estymacja metodą momentów)
X
1
, X
2
, . . . , X
n
i.i.d z rozkładu P
θ
, θ- nieznany parametr
1. θ ∈ R (jednowymiarowa przestrzeń parametrów), rozwiąż (nie-
wiadomą jest θ):
E
θ
X = ¯
X
2. θ = (θ
1
, θ
2
) ∈ R
2
, rozwiąż układ (niewiadomą jest θ):
E
θ
X = ¯
X
V ar
θ
X = ˆ
S
2
3. θ = (θ
1
, θ
2
, . . . , θ
k
) (k-wymiarowa przestrzeń parametrów), roz-
wiąż układ (niewiadomą jest θ):
E
θ
X = ¯
X
V ar
θ
X = ˆ
S
2
E
θ
(X − µ)
3
=
1
n
P
(X
i
− ¯
X)
3
. . . . . .
E
θ
(X − µ)
k
=
1
n
P
(X
i
− ¯
X)
k
gdzie µ = E
θ
X.
Agata Boratyńska Wykłady ze statystyki matematycznej
42
Przykład 1.
X = (X
1
, X
2
, . . . , X
n
), X
i
∼ Ex(θ) i są niezależne, θ > 0
EM M (θ) =?
E
θ
X
i
=
Z
+∞
0
xθe
−θx
dx =
1
θ
Rozwiązujemy równanie:
1
θ
= ¯
X
stąd
EM M (θ) = ˆ
θ =
1
¯
X
Przykład 2.
X = (X
1
, X
2
, . . . , X
n
), X
i
∼ Gamma(α, β) i są niezależne,
α, β > 0
EM M (α) =? i EM M (β) =?.
p
α,β
(x) =
β
α
Γ(α)
x
α−1
e
−βx
gdy x > 0
E
α,β
X
i
=
α
β
V ar
α,β
X
i
=
α
β
2
Agata Boratyńska Wykłady ze statystyki matematycznej
43
Otrzymujemy układ:
α
β
= ¯
X
α
β
2
= ˆ
S
2
Stąd:
ˆ
β =
¯
X
ˆ
S
2
i
ˆ
α =
¯
X
2
ˆ
S
2
Przykład 3.
Wyznaczyć EMM parametrów w rozkładzie P areto(θ, λ), θ > 2,
λ > 0.
Rozwiązanie:
X = (X
1
, X
2
, . . . , X
n
), X
i
∼ P areto(θ, λ) i są niezależne
p
θ,λ
(x) =
θλ
θ
(λ + x)
θ+1
,
x > 0
Otrzymujemy układ:
λ
θ − 1
= ¯
X
λ
2
θ
(θ − 1)
2
(θ − 2)
= S
2
Stąd:
ˆ
θ =
2S
2
S
2
− ¯
X
2
ˆ
λ = ¯
X( ˆ
θ − 1).
Agata Boratyńska Wykłady ze statystyki matematycznej
44
EMK (estymacja metodą kwantyli)
X
1
, X
2
, . . . , X
n
i.i.d z rozkładu P
θ
, θ- nieznany parametr
1. θ ∈ R (jednowymiarowa przestrzeń parametrów), rozwiąż (nie-
wiadomą jest θ):
q
1
2
(θ) = Q
1
2
⇐⇒ F
θ
(Q
1
2
) =
1
2
2. θ = (θ
1
, θ
2
), rozwiąż układ (niewiadomą jest θ):
q
1
4
(θ) = Q
1
4
i
q
3
4
(θ) = Q
3
4
lub układ równoważny:
F
θ
(Q
1
4
) =
1
4
i
F
θ
(Q
3
4
) =
3
4
3. θ = (θ
1
, θ
2
, θ
3
). Otrzymujemy układ:
F
θ
(Q
1
4
) =
1
4
i
F
θ
(Q
1
2
) =
1
2
i
F
θ
(Q
3
4
) =
3
4
4. θ = (θ
1
, θ
2
, θ
3
, θ
4
). Rozważamy kwantyle rzędu
1
8
,
3
8
,
5
8
i
7
8
.
Agata Boratyńska Wykłady ze statystyki matematycznej
45
Przykład 1.
X
1
, X
2
, . . . , X
n
i.i.d, X
i
∼ Ex(θ), θ > 0
EM K(θ) =?
F
θ
q
1
2
!
= 1 − exp
−θq
1
2
!
=
1
2
⇐⇒ q
1
2
= −
1
θ
ln
1
2
Rozwiązujemy równanie:
−
1
θ
ln
1
2
= Q
1
2
stąd
EM K(θ) = ˆ
θ(X) = −
1
Q
1
2
ln
1
2
Agata Boratyńska Wykłady ze statystyki matematycznej
46
Przykład 2.
Niech X
1
, X
2
, . . . , X
n
i.i.d z rozkładu W eibull(c, τ ),
EM K(c) =? i EM K(τ ) =?
Dystrybuanta w rozkładzie Weibulla ma postać:
F
c,τ
(x) = 1 − exp (−cx
τ
)
x > 0
Otrzymujemy układ:
1 − e
−cQ
τ
1
4
=
1
4
1 − e
−cQ
τ
3
4
=
3
4
.
Stąd
− ln 0.75 = cQ
τ
1
4
− ln 0.25 = cQ
τ
3
4
Q
1
4
Q
3
4
τ
=
ln 0.75
ln 0.25
Estymatory mają postać:
ˆ
τ = log
Q 1
4
Q 3
4
ln 0.75
ln 0.25
ˆ
c = −
ln 0.75
Q
ˆ
τ
1
4
Agata Boratyńska Wykłady ze statystyki matematycznej
47
ENW (estymacja metodą największej wiarogodności)
Niech X
1
, X
2
, . . . , X
n
i.i.d. z rozkładu o gęstości f
θ
(x), gdzie θ jest
nieznanym parametrem.
Funkcją wiarogodności nazywamy funkcję zmiennej θ równą
L(θ, x) = f
θ
(x
1
)f
θ
(x
2
) . . . f
θ
(x
n
)
gdzie x = (x
1
, x
2
, . . . , x
n
) jest próbką zaobserwowanych wartości
zmiennych X
1
, X
2
, . . . , X
n
Estymatorem największej wiarogodności parametru θ
(EN W (θ)) nazywamy argument maksimum funkcji L
EN W (θ) = arg max
θ
L(θ, x).
Zachodzi: arg max
θ
L(θ, x) = arg max
θ
ln L(θ, x).
EN W (g(θ)) = g(EN W (θ))
Jeżeli θ = (θ
1
, . . . , θ
k
) jest parametrem ciągłym i L jest funkcją
różniczkowalną, to ENW wyznaczamy rozwiązując układ równań:
∂L(θ, x)
∂θ
j
= 0,
j = 1, 2, . . . , k
lub równoważny układ:
∂ ln L(θ, x)
∂θ
j
= 0,
j = 1, 2, . . . , k.
Agata Boratyńska Wykłady ze statystyki matematycznej
48
PRZYKŁAD 1.
X ∼ bin(n, θ)
L(θ, x) =
n
x
θ
x
(1 − θ)
n−x
∂L(θ, x)
∂θ
=
n
x
θ
x−1
(1 − θ)
n−x−1
(x − nθ) = 0
EN W (θ) =
X
n
Agata Boratyńska Wykłady ze statystyki matematycznej
49
PRZYKŁAD 2.
X
1
, X
2
, . . . , X
n
i.i.d Ex(θ), θ > 0
Funkcja wiarogodności
L(θ, x) = θ
n
exp
−θ
n
X
i=1
x
i
ln L = n ln θ − θ
n
X
i=1
x
i
Pochodna
∂ ln L(θ,x)
∂θ
=
n
θ
−
P
n
i=1
x
i
Rozwiązujemy równanie
n
θ
−
n
X
i=1
x
i
= 0
EN W (θ) =
1
¯
X
PRZYKŁAD 3.
X
1
, X
2
, . . . , X
n
i.i.d N (µ, σ), niech v = σ
2
L(µ, v) =
1
2πv
n
2
exp
−
1
2v
n
X
i=1
(x
i
− µ)
2
ln L = −
n
2
ln(2π) −
n
2
ln v −
1
2v
n
X
i=1
(x
i
− µ)
2
Po obliczeniu pochodnych cząstkowych otrzymujemy układ
2
1
2v
P
n
i=1
(x
i
− µ) = 0
−
n
2v
+
1
2v
2
P
n
i=1
(x
i
− µ)
2
= 0
EN W (µ) = ¯
X
EN W (σ
2
) = ˆ
S
2
=
1
n
n
X
i=1
X
i
− ¯
X
2
.
Agata Boratyńska Wykłady ze statystyki matematycznej
50
WŁASNOŚCI ESTYMATORÓW,
PORÓWNYWANIE ESTYMATORÓW
X = (X
1
, X
2
, . . . , X
n
) - obserwowana zmienna losowa
P
θ
- rozkład zmiennej X, θ -nieznany parametr
ˆ
θ - estymator θ, ˆ
g - estymator funkcji g(θ)
1. Obciążenie estymatora
Obciążenie estymatora parametru θ:
B
θ
( ˆ
θ) = E
θ
ˆ
θ(X) − θ
Obciążenie estymatora funkcji g(θ):
B
θ
(ˆ
g) = E
θ
ˆ
g(X) − g(θ)
Estymator ˆ
θ ( ˆ
g) jest estymatorem nieobciążonym
⇐⇒
∀θ ∈ Θ
E
θ
ˆ
θ(X) = θ
(E
θ
ˆ
g(X) = g(θ))
PRZYKŁADY:
X
1
, X
2
, . . . , X
n
i.i.d z rozkładu o nieznanej dystrybuancie F i nie-
znanych EX
i
= µ i V arX
i
= σ
2
F
n
- dystrybuanta empiryczna (estymator F )
¯
X - estymator µ
S
2
, ˆ
S
2
- estymatory σ
2
Agata Boratyńska Wykłady ze statystyki matematycznej
51
EF
n
(t) = F (t)
=⇒ F
n
(t) estymator nieobciążony dystrybuanty F (t)
E ¯
X =
1
n
E
n
X
i=1
X
i
=
1
n
nEX
1
= µ
=⇒ ¯
X - estymator nieobciążony wartości oczekiwanej
ES
2
=
1
n − 1
E
n
X
i=1
(X
i
− ¯
X)
2
=
1
n − 1
E
n
X
i=1
X
2
i
− n ¯
X
2
=
n
n − 1
EX
2
1
−
n
n − 1
E ¯
X
2
ES
2
=
n
n − 1
σ
2
+ µ
2
−
σ
2
n
+ µ
2
= σ
2
=⇒ S
2
jest estymatorem nieobciążonym wariancji
E ˆ
S
2
= E
n − 1
n
S
2
=
n − 1
n
σ
2
B( ˆ
S
2
) =
n − 1
n
σ
2
− σ
2
= −
1
n
σ
2
ˆ
S
2
- estymator obciążony
B( ˆ
S
2
) = −
1
n
σ
2
−→ 0
gdy n −→ +∞
Agata Boratyńska Wykłady ze statystyki matematycznej
52
Mówimy, że estymator jest asymptotycznie nieobciążony gdy
∀ θ ∈ Θ
lim
n→+∞
B
θ
( ˆ
θ) = 0
2. Ryzyko estymatora (błąd średniokwadratowy)
Funkcję
R(θ, ˆ
g) = E
θ
(ˆ
g(X) − g(θ))
2
nazywamy ryzykiem estymatora ˆ
g przy kwadratowej funkcji
straty lub błędem średniokwadratowym.
R(θ, ˆ
g) = E
θ
(ˆ
g(X) − g(θ))
2
= B
2
θ
(ˆ
g) + V ar
θ
(ˆ
g)
Mówimy, że estymator ˆ
g
1
jest lepszy niż ˆ
g
2
⇐⇒
∀θ
R(θ, ˆ
g
1
) ¬ R(θ, ˆ
g
2
)
i
∃θ
0
R(θ
0
, ˆ
g
1
) < R(θ
0
, ˆ
g
2
).
Jeżeli
ˆ
g jest estymatorem nieobciążonym funkcji g(θ), tzn.
E
θ
(ˆ
g) = g(θ) dla każdego θ ∈ Θ, to
R(θ, ˆ
g) = V ar
θ
(ˆ
g).
WNIOSEK: Przy estymatorach nieobciażonych miernikiem jakości
estymatora jest jego wariancja.
Agata Boratyńska Wykłady ze statystyki matematycznej
53
PRZYKŁAD 1.
X
1
, X
2
, . . . , X
n
i.i.d P oiss(θ), θ > 0
EN W (θ) =?
L(θ, x) = e
−nθ
θ
P
x
i
Q
x
i
!
ln L(θ, x) = −nθ +
X
x
i
ln θ − ln
Y
x
i
!
∂ ln L(θ, x)
∂θ
= −n +
P
x
i
θ
EN W (θ) = ˆ
θ =
P
X
i
n
= ¯
X
E
θ
¯
X = θ =⇒ ˆ
θ estymator nieobciążony
R(θ, ˆ
θ) = V ar
θ
ˆ
θ =
θ
n
Agata Boratyńska Wykłady ze statystyki matematycznej
54
PRZYKŁAD 2.
X
1
, X
2
, . . . , X
n
i.i.d N (µ, σ
2
), oba parametry nieznane
Porównamy ryzyka estymatorów wariancji S
2
i ˆ
S
2
R(µ, σ, S
2
) = V ar
µ,σ
S
2
=
σ
4
(n − 1)
2
V ar
µ,σ
P
n
i=1
(X
i
− ¯
X)
2
σ
2
=
σ
4
(n − 1)
2
2(n − 1) =
2σ
4
(n − 1)
R(µ, σ, ˆ
S
2
) = V ar
µ,σ
ˆ
S
2
+ B
2
µ,σ
( ˆ
S
2
)
= V ar
µ,σ
n − 1
n
S
2
+
−1
n
σ
2
2
=
n − 1
n
2
2σ
4
(n − 1)
+
σ
4
n
2
=
2n − 1
n
2
σ
4
Zatem
∀ µ, σ
R(µ, σ, ˆ
S
2
) < R(µ, σ, S
2
)
Agata Boratyńska Wykłady ze statystyki matematycznej
55
X = (X
1
, X
2
, . . . , X
n
),
p
θ
(x) - gęstość rozkładu zmiennej X
Informacją Fishera nazywamy funkcję
I
n
(θ) = E
θ
∂ ln p
θ
(X)
∂θ
2
I
n
(θ) =
R
X
∂pθ(x)
∂θ
p
θ
(x)
2
p
θ
(x)dx
dla zmiennej ciągłej
P
x
∂Pθ(x)
∂θ
P
θ
(x)
2
P
θ
(x)
dla zmiennej dyskretnej
Jeżeli p
θ
(x) jest dwukrotnie różniczkowalną funkcją zmiennej θ, to
I
n
(θ) = −E
θ
∂
2
ln p
θ
(X)
∂θ
2
.
Jeżeli X
1
, X
2
, . . . , X
n
i.i.d. z rozkładu o gęstości f
θ
(x), to
I
n
(θ) = nI
1
(θ),
gdzie I
1
(θ) jest informacją Fishera w oparciu o zmienną X
1
.
Agata Boratyńska Wykłady ze statystyki matematycznej
56
NIERÓWNOŚĆ INFORMACYJNA
Przy pewnych warunkach regularności, jeżeli ˆ
g jest estymato-
rem nieobciążonym funkcji różniczkowalnej g(θ), to
∀ θ ∈ Θ
V ar
θ
ˆ
g
(g
0
(θ))
2
I
n
(θ)
.
Efektywność estymatora niobciążonego
ˆ
g(X
1
, X
2
, . . . , X
n
) funkcji różniczkowalnej g(θ):
ef f
θ
(ˆ
g(X
1
, X
2
, . . . , X
n
) =
(g
0
(θ))
2
I
n
(θ)V ar
θ
(ˆ
g)
Wielkość
(
g
0
(θ)
)
2
I
n
(θ)
nazywamy dolnym ograniczeniem Cramera-Rao
Agata Boratyńska Wykłady ze statystyki matematycznej
57
PRZYKŁAD 1 cd.
X
1
, X
2
, . . . , X
n
i.i.d P oiss(θ), θ > 0
EN W (θ) = ¯
X i V ar
θ
¯
X =
θ
n
Wyznaczymy dolne ograniczenie Cramera Rao
P
θ
(x) = e
−θ θ
x
x!
ln P
θ
(x) = −θ + x ln θ − ln x!
I
n
(θ) = nI
1
(θ) = nE
θ
∂ ln P
θ
(X)
∂θ
2
∂ ln P
θ
(X)
∂θ
= −1 +
x
θ
I
n
(θ) = nE
θ
X − θ
θ
2
= n
1
θ
2
E
θ
(X − θ)
2
=
n
θ
Dolne ograniczenie Cramera Rao
(g
0
(θ))
2
I
n
(θ)
=
1
I
n
(θ)
=
θ
n
Agata Boratyńska Wykłady ze statystyki matematycznej
58
3. Zgodność estymatora ˆ
g(X
1
, X
2
, . . . , X
n
) = ˆ
g
n
funkcji g(θ)
dla każdego ε > 0 i θ ∈ Θ
lim
n→+∞
P
θ
(|ˆ
g
n
− g(θ)| > ε) = 0
4. Asymptotyczna normalność ˆ
g(X
1
, X
2
, . . . , X
n
)
istnieje σ(θ) > 0 takie, że dla każdego z
lim
n→+∞
P
θ
ˆ
g
n
− g(θ)
σ(θ)
√
n < z
= Φ(z)
gdzie Φ jest dystrybuantą rozkładu normalnego N (0, 1)
ˆ
g
n
∼ N
g(θ),
σ
2
(θ)
n
przy dużym
n
ˆ
g
n
− g(θ)
σ(θ)
√
n −→ N (0, 1)
przy
n −→ +∞
Wielkość σ
2
(θ) nazywamy wariancją asymptotyczną.
Agata Boratyńska Wykłady ze statystyki matematycznej
59
PRZYKŁADY
X
1
, X
2
, . . . , X
n
i.i.d
z
rozkładu
dystrybuancie
F
i EX
i
= µ i V arX
i
= σ
2
1. Z praw wielkich liczb wynika
¯
X −→ µ
przy
n −→ +∞
S
2
−→ σ
2
przy
n −→ +∞
F
n
(t) −→ F (t)
przy
n −→ +∞
2. Z CTG wynika
¯
X − µ
σ
√
n −→ N (0, 1)
przy
n −→ +∞
F
n
(t) − F (t)
r
F (t)(1 − F (t))
√
n −→ N (0, 1)
przy
n −→ +∞
3. Niech ˆ
Q
p
= X
[np]:n
. Jeżeli funkcja gęstosci f
θ
jest ciągła i spełnia
f
θ
(q
p
) 6= 0, to
( ˆ
Q
p
− q
p
)
√
n −→ N
0,
p(1 − p)
f
2
θ
(q
p
)
przy
n −→ +∞
Agata Boratyńska Wykłady ze statystyki matematycznej
60
Lemat DELTA
Jeżeli ciąg Z
n
rzeczywistych zmiennych losowych spełnia
(Z
n
− θ)
√
n −→ N (0, σ
2
)
dla pewnego σ
2
i g(θ) jest różniczkowalną funkcją θ i g
0
(θ) 6= 0,
to
(g(Z
n
) − g(θ))
√
n −→ N (0, [g
0
(θ)]
2
σ
2
).
PRZYKŁAD 1.
X
1
, X
2
, . . . , X
n
i.i.d., EX
i
= µ i V arX
i
= σ
2
¯
X
2
- estymator parametru µ
2
Z CTG
( ¯
X − µ)
√
n −→ N (0, σ
2
)
przy
n −→ +∞
Niech
g(µ) = µ
2
Z lematu DELTA
( ¯
X
2
− µ
2
)
√
n −→ N
0, 4σ
2
µ
2
Agata Boratyńska Wykłady ze statystyki matematycznej
61
PRZYKŁAD 2.
X
1
, X
2
, . . . , X
n
i.i.d. Ex(θ), θ > 0, E
θ
X =
1
θ
, V ar
θ
X =
1
θ
2
EN W (θ) =
1
¯
X
Z CTG
( ¯
X −
1
θ
)
√
n −→ N
0,
1
θ
2
przy
n −→ +∞
Niech
g(t) =
1
t
wtedy
g
0
(t) = −
1
t
2
=⇒ g( ¯
X) =
1
¯
X
,
g(
1
θ
) = θ,
g
0
1
θ
= −θ
2
Z lematu DELTA
1
¯
X
− θ
√
n −→ N
0,
1
θ
2
· θ
4
Agata Boratyńska Wykłady ze statystyki matematycznej
62
ASYMPTOTYCZNA ZGODNOŚĆ I NORMALNOŚĆ ENW
1. Niech X
1
, X
2
, . . . , X
n
, . . . będą i.i.d z rozkładu o gęstości f
θ
,
gdzie θ jest nieznanym parametrem. Niech gęstości f
θ
mają
wspólny nośnik i przestrzeń Θ będzie przedziałem otwartym.
Jeżeli układ równań
Σ
n
i=1
∂ ln L(θ, X
i
)
∂θ
= 0
ma dokładnie jedno rozwiązanie, to jest ono EN W (θ) i jest to
estymator zgodny.
2. Jeżeli dodatkowo istnieje
∂
3
ln L(θ,x
1
,...,x
n
)
∂θ
3
, i spełnione są zało-
żenia umożliwiające zamianę kolejności operacji różniczkowa-
nia po
∂
∂θ
lub
∂
2
∂θ
2
i całkowania
R
. . . dx i I(θ) > 0 jest określona,
to ˆ
θ
n
= ˆ
θ(X
1
, X
2
, . . . , X
n
) = EN W (θ) jest asymptotycznie
normalny i
( ˆ
θ
n
− θ)
√
n −→ N
0,
1
I
1
(θ)
przy
n −→ +∞.
3. (Z Lematu DELTA) Przy powyższych założeniach jeżeli g jest
różniczkowalna i g
0
(θ) 6= 0 i ˆ
θ
n
= EN W (θ), to
(g( ˆ
θ
n
) − g(θ))
√
n −→ N (0, [g
0
(θ)]
2
I
−1
(θ)).
Agata Boratyńska Wykłady ze statystyki matematycznej
63
Mówimy, że estymator ˆ
g
n
jest estymatorem asymptotycznie
efektywnym parametru g(θ) jeżeli jest estymatorem asympto-
tycznie normalnym o wariancji asymptotycznej
σ
2
(θ) = [g
0
(θ)]
2
I
−1
(θ)
Jeśli ˆ
g
1
i ˆ
g
2
są dwoma estymatorami asymptotycznie normalnymi
funkcji g(θ) o wariancjach asymptotycznych odpowiednio równych
σ
2
1
(θ) i σ
2
2
(θ), to asymptotyczną efektywnością względną
nazywamy stosunek
as.ef(ˆ
g
1
, ˆ
g
2
) =
σ
2
2
(θ)
σ
2
1
(θ)
.
Agata Boratyńska Wykłady ze statystyki matematycznej
64
PRZYKŁAD.
X
1
, X
2
, . . . , X
n
i.i.d P oiss(θ), θ > 0
Znamy: EN W (θ) = ¯
X, V ar
θ
¯
X =
θ
n
, I
1
(θ) =
1
θ
( ¯
X − θ)
√
n −→ N (0, θ)
Chcemy estymować funkcję
g(θ) = e
−θ
= P
θ
(X
1
= 0)
Rozważamy dwa estymatory:
ˆ
g
1
= e
− ¯
X
ˆ
g
2
=
liczba X
i
, takich że X
i
= 0
n
=
1
n
n
X
i=1
1(X
i
= 0)
Rozkłady asymptotyczne
Niech h(t) = e
−t
, wtedy h
0
(t) = −e
−t
i z lematu DELTA
e
− ¯
X
− e
−θ
√
n −→ N
0, θe
−2θ
Niech
Y
i
=
1
gdy X
i
= 0
0
w pp
Wtedy
E
θ
Y
i
= e
−θ
i
V ar
θ
Y
i
= e
−θ
(1 − e
−θ
)
Agata Boratyńska Wykłady ze statystyki matematycznej
65
oraz
ˆ
g
2
=
1
n
n
X
i=1
Y
i
Z CTG
ˆ
g
2
− e
−θ
√
n −→ N
0, e
−θ
(1 − e
−θ
)
Porównujemy wariancje asymptotyczne
∀ θ > 0
e
−θ
(1 − e
−θ
) > θe
−2θ
=⇒ as.ef(ˆ
g
1
, ˆ
g
2
) > 1
Estymator ˆ
g
1
jest bardziej efektywny niż estymator ˆ
g
2
.
Agata Boratyńska Wykłady ze statystyki matematycznej
66
ESTYMACJA PRZEDZIAŁOWA, PRZEDZIAŁY UFNOŚCI
X
1
, X
2
, . . . , X
n
- próbka losowa z rozkładu z nieznanym parame-
trem θ
Przedziałem ufności dla parametru θ na poziomie ufności 1−α
nazywamy przedział
[θ(X
1
, X
2
, . . . , X
n
), ¯
θ(X
1
, X
2
, . . . , X
n
)],
którego końce są statystykami (funkcjami obserwowanej zmiennej
losowej) i który spełnia warunek
∀θ
P
θ
θ(X
1
, X
2
, . . . , X
n
) ¬ θ ¬ ¯
θ(X
1
, X
2
, . . . , X
n
)
1−α.
α - mała liczba np. 0,1, 0,05, 0,01.
Warunek P
θ
(θ ∈ [θ, ¯
θ]) = 1 − α należy rozumieć tak:
losowy przedział [θ, ¯
θ] pokrywa nieznaną liczbę θ z dużym
prawdopodobieństwem.
Pojęcie przedziału ufności precyzuje ideę estymacji z określoną do-
kładnością. Zamiast pojedynczego oszacowania nieznanego para-
metru, podajemy dolną i górną granicę oszacowania. Nie możemy
gwarantować, że parametr leży na pewno między tymi granicami,
ale możemy wymagać by tak było z odpowiednio dużym prawdo-
podobieństwem.
Agata Boratyńska Wykłady ze statystyki matematycznej
67
Model I.
X
1
, X
2
, . . . , X
n
i.i.d. z rozkładu N (µ, σ
2
), µ ∈ R nieznane, σ > 0
znane.
EN W (µ) = EM M (µ) = ¯
X - estymator punktowy
¯
X ∼ N (µ,
σ
2
n
)
U =
¯
X−µ
σ
√
n ∼ N (0, 1), U - funkcja centralna
szukamy z, tak aby
P
¯
X − µ
σ
√
n
¬ z
= 1 − α
z = u
1−
α
2
- kwantyl rzędu 1 −
α
2
w rozkładzie normalnym N (0, 1)
Rozwiążmy nierówność (wyznaczamy µ)
¯
X − µ
σ
√
n
¬ u
1−
α
2
Otrzymujemy
¯
X − u
1−
α
2
σ
√
n
¬ µ ¬ ¯
X + u
1−
α
2
σ
√
n
Zatem
P
¯
X − u
1−
α
2
σ
√
n
¬ µ ¬ ¯
X + u
1−
α
2
σ
√
n
= 1 − α
Agata Boratyńska Wykłady ze statystyki matematycznej
68
Przedział
¯
X − u
1−
α
2
σ
√
n
, ¯
X + u
1−
α
2
σ
√
n
jest przedziałem ufności dla parametru µ na poziomie
ufności 1 − α.
2d - długość przedziału ufności
2d = 2u
1−
α
2
σ
√
n
d nazywamy błędem oszacowania
1 − α
rośnie =⇒ 2d
rośnie
n
rośnie =⇒ 2d
maleje
Aby otrzymać przedział z maksymalnym błędem d
0
na zadanym
poziomie ufności 1 − α należy wziąć próbę losową o liczebności
n
u
1−
α
2
σ
d
0
2
Agata Boratyńska Wykłady ze statystyki matematycznej
69
Model II.
X
1
, X
2
, . . . , X
n
i.i.d. z rozkładu N (µ, σ
2
), µ ∈ R nieznane, σ > 0
nieznane.
¯
X - estymator punktowy parametru µ
S
2
=
1
n−1
P
n
i=1
(X
i
− ¯
X)
2
- estymator punktowy parametru σ
2
¯
X ∼ N (µ,
σ
2
n
)
¯
X−µ
σ
√
n ∼ N (0, 1)
T =
¯
X−µ
S
√
n ∼ t
n−1
, T - funkcja centralna,
t
n−1
- rozkład t-Studenta z n − 1 stopniami swobody
Analogicznie, jak poprzednio szukamy liczby z tak aby
P
¯
X − µ
S
√
n
¬ z
= 1 − α
z = t(α, n − 1) - wartość krytyczna rzędu α, lub równoważnie
kwantyl rzędu 1 −
α
2
w rozkładzie t-Studenta z n − 1 stopniami
swobody
Rozwiązujemy nierówność (wyznaczamy µ)
¯
X − µ
S
√
n
¬ t(α, n − 1)
Agata Boratyńska Wykłady ze statystyki matematycznej
70
Przedział
¯
X − t(α, n − 1)
S
√
n
, ¯
X + t(α, n − 1)
S
√
n
jest przedziałem ufności dla parametru µ na poziomie
ufności 1 − α.
Aby wyznaczyć liczebność próbki potrzebną do uzyskania przedzia-
łu o danej długości postępujemy zgodnie z dwuetapową procedurą
Steina.
Przedział ufności dla wariancji
(n−1)S
2
σ
2
∼ χ
2
n−1
- funkcja centralna
χ
2
n−1
- rozkład chi kwadrat z n − 1 stopniami swobody
Szukamy liczb a, b tak, aby
P
a ¬
(n − 1)S
2
σ
2
¬ b
= 1 − α
a = χ
2
(1 −
α
2
, n − 1) - wartość krytyczna rzędu 1 −
α
2
lub równo-
ważnie kwantyl rzędu
α
2
w rozkładzie chi kwadrat z n−1 stopniami
swobody
b = χ
2
(
α
2
, n − 1) - wartość krytyczna rzędu
α
2
lub równoważnie
kwantyl rzędu 1 −
α
2
w rozkładzie chi kwadrat z n − 1 stopniami
swobody
Agata Boratyńska Wykłady ze statystyki matematycznej
71
Rozwiązujemy nierówności (wyznaczamy σ
2
)
χ
2
(1 −
α
2
, n − 1) ¬
(n − 1)S
2
σ
2
¬ χ
2
(
α
2
, n − 1)
Przedział
(n − 1)S
2
χ
2
(
α
2
, n − 1)
,
(n − 1)S
2
χ
2
(1 −
α
2
, n − 1)
jest przedziałem ufności dla parametru σ
2
na poziomie
ufności 1 − α.
Agata Boratyńska Wykłady ze statystyki matematycznej
72
ASYMPTOTYCZNE PRZEDZIAŁY UFNOŚCI
Model III.
X
1
, X
2
, . . . , X
n
i.i.d. z dowolnego rozkładu o skończonej wartości
oczekiwanej i wariancji, zakładamy, że n duże (n > 50)
Cel: przedział ufności dla wartości oczekiwanej EX
i
= µ.
Korzystamy z Centralnego twierdzenia granicznego
przy n −→ +∞
¯
X − µ
S
√
n ∼ N (0, 1)
Postępujemy analogicznie jak w modelu I
Przedział
¯
X − u
1−
α
2
S
√
n
, ¯
X + u
1−
α
2
S
√
n
jest przybliżonym przedziałem ufności dla parametru
µ na poziomie ufności 1 − α.
Agata Boratyńska Wykłady ze statystyki matematycznej
73
Niech X
1
, X
2
, . . . , X
n
i.i.d. z rozkładu o gęstości f
θ
(x), θ - nieznany
parametr
Niech ˆ
θ = EN W (θ) i ˆ
θ ma asymptotyczny rozkład normalny z
wariancją asymptotyczną I
−1
(θ). Wtedy
ˆ
θ ∼ N (θ, (nI(θ))
−1
)
dla dużych n.
Jeśli dodatkowo I( ˆ
θ) jest estymatorem zgodnym funkcji I(θ), to
ˆ
θ − θ
r
nI( ˆ
θ) −→ N (0, 1).
Otrzymujemy asymptotyczny przedział ufności dla θ na poziomie
ufności 1 − α postaci
ˆ
θ − u
1−
α
2
1
r
nI( ˆ
θ)
, ˆ
θ + u
1−
α
2
1
r
nI( ˆ
θ)
.
Model IV.
Wykonujemy n niezależnych doświadczeń typu sukces - porażka
(np. sondaż opinii publicznej - pytanie o preferowanie pewnej
wielkości lub nie, kontrola jakości - pojawienie się braku lub
nie), n duże.
Obserwowana zmienna losowa Y ma rozkład dwupunktowy
P (Y = 1) = p
P (Y = 0) = 1 − p
p ∈ (0, 1) - prawdopodobieństwo sukcesu w pojedynczym doświad-
czeniu, nieznany parametr nazywany też wskaźnikiem struktury
Agata Boratyńska Wykłady ze statystyki matematycznej
74
Niech X oznacza liczbę sukcesów w n próbach
X ∼ bin(n, p)
ˆ
p = EN W (p) =
X
n
( ˆ
p − p)
√
n −→ N (0, p(1 − p))
przy n −→ +∞
ˆ
p − p
r
ˆ
p(1 − ˆ
p)
√
n ∼ N (0, 1)
Zatem
P
ˆ
p − p
r
ˆ
p(1 − ˆ
p)
√
n
¬ u
1−
α
2
≈ 1 − α
Rozwiązujemy nierówność
ˆ
p − p
r
ˆ
p(1 − ˆ
p)
√
n
¬ u
1−
α
2
,
wyznaczamy p.
Przedział
ˆ
p − u
1−
α
2
r
ˆ
p(1 − ˆ
p)
√
n
, ˆ
p + u
1−
α
2
r
ˆ
p(1 − ˆ
p)
√
n
jest przybliżonym przedziałem ufności dla parametru
p na poziomie ufności 1 − α.
Agata Boratyńska Wykłady ze statystyki matematycznej
75
2d = 2u
1−
α
2
√
ˆ
p(1−ˆ
p)
√
n
- długość przedziału ufności
Zauważmy, że dla każdego ˆ
p ∈ (0, 1) zachodzi
ˆ
p(1 − ˆ
p) ¬
1
2
1 −
1
2
=
1
4
Zatem dla każdego ˆ
p
d ¬ u
1−
α
2
1
2
√
n
Aby otrzymać przedział z maksymalnym błędem d
0
na zadanym
poziomie ufności 1 − α należy wziąć próbę losową o liczebności
n
u
1−
α
2
1
2d
0
2
Agata Boratyńska Wykłady ze statystyki matematycznej
76
TESTOWANIE HIPOTEZ STATYSTYCZNYCH
Piękna teoria zniszczona przez złośliwy wstrętny fakcik
T. H. Huxley
Hipotezą statystyczną nazywamy dowolne przypuszczenie do-
tyczące rozkładu prawdopodobieństwa obserwowanej zmiennej lo-
sowej lub charakterystyki tegoż rozkładu, o prawdziwości którego
wnioskujemy na podstawie zaobserwowanych wartości tej zmiennej
losowej.
PRZYKŁADY:
1) Przypuśćmy, że czas życia pewnego elementu X jest zmienną
losowa o rozkładzie wykładniczym Ex(θ), θ > 0 - nieznane
Obserwujemy X
1
, X
2
, . . . , X
n
i.i.d. Ex(θ)
H
0
: EX =
1
θ
= 100
2) Pomiary i ich dokładność
obserwujemy X
1
, X
2
, . . . , X
n
i.i.d. N (µ, σ
2
), oba parametry nie-
znane
H
0
: σ ¬ 1
3) θ - prawdopodobieństwo spłaty kredytu przez klienta w pewnej
grupie ryzyka, nieznane
obserwujemy X
1
, X
2
, . . . , X
n
i.i.d. bin(1, θ)
H
0
: θ 0.8
Agata Boratyńska Wykłady ze statystyki matematycznej
77
4) µ
1
- średni plon z ha przy I metodzie nawożenia
µ
2
- średni plon z ha przy II metodzie nawożenia
Obie wielkości nieznane
Obserwujemy:
X
1
, X
2
, . . . , X
n
i.i.d. z rozkładu o EX = µ
1
(plony przy I metodzie
nawożenia)
Y
1
, Y
2
, . . . , Y
m
i.i.d. z rozkładu o EX = µ
2
(plony przy II metodzie
nawożenia)
H
0
: µ
1
= µ
2
5) Interesuje nas wielkość roszczenia X w pewnej grupie klientów
towarzystwa ubezpieczeniowego
Obserwujemy: X
1
, X
2
, . . . , X
n
wielkości roszczeń dla losowo wy-
branych klientów
H
0
: X ∼ Wykładniczy
Agata Boratyńska Wykłady ze statystyki matematycznej
78
Hipoteza prosta - wyznacza dokładnie jeden rozkład (1)
Hipoteza złożona - wyznacza rodzinę rozkładów (2,3,4,5)
Hipoteza parametryczna - dotyczy parametrów rozkładu (1,2,3,4)
Hipoteza nieparametryczna - dotyczy postaci rozkładu (5)
Z hipotezą H
0
często wiążemy jeszcze drugą hipotezę nazywaną
hipotezą alternatywną (kontr hipotezą) H
1
, jest to hipo-
teza, którą jesteśmy skłonni akceptować po odrzuceniu hipotezy
H
0
. Hipotezę H
0
nazywamy też hipotezą zerową.
Testem statystycznym nazywamy metodę postępowania, któ-
ra każdej wartości obserwowanej zmiennej losowej przyporządko-
wuje jedna z dwóch decyzji:
odrzucić hipotezę H
0
(na korzyść H
1
),
nie ma podstaw do odrzucenia hipotezy H
0
.
Agata Boratyńska Wykłady ze statystyki matematycznej
79
X ∼ P
θ
, θ ∈ Θ,
H
0
: θ ∈ Θ
0
H
1
: θ ∈ Θ
1
gdzie Θ
0
, Θ
1
⊂ Θ i Θ
0
∩ Θ
1
= ∅
X = K ∪ A
K - zbiór krytyczny, zbiór wyników obserwacji przy których od-
rzucamy H
0
;
A - zbiór afirmacji, zbiór wyników, przy których nie odrzucamy
H
0
.
Jeśli mamy podany zbiór K to mamy podany test statystyczny
Najczęściej test ma postać:
K = {T (x) > c}
co oznacza odrzuć H
0
, gdy obliczona wartość funkcji T (x) jest
większa niż c.
Funkcję T nazywamy statystyką testową, a stałą c wartością
krytyczną.
Agata Boratyńska Wykłady ze statystyki matematycznej
80
PRZYKŁAD 1.
Chcemy sprawdzić, czy moneta jest symetryczna. W tym celu rzu-
camy monetą 400 razy. Niech X oznacza liczbę orłów,
X ∼ bin(400, p) p - nieznane
H
0
: p =
1
2
H
1
: p 6=
1
2
test:
K = {|X − 200| > 19, 6}
T = |X − 200| - statystyka testowa;
19,6 - wartość krytyczna
Agata Boratyńska Wykłady ze statystyki matematycznej
81
BŁĄD PIERWSZEGO I DRUGIEGO RODZAJU
decyzja
H
0
prawdziwa H
0
- fałszywa
odrzucić H
0
błąd
decyzja
I rodzaju
poprawna
nie odrzucać H
0
decyzja
błąd
poprawna
II rodzaju
P
θ
(K), θ ∈ Θ
0
- prawdopodobieństwo błędu I rodzaju
P
θ
(A) = 1 − P
θ
(K), θ ∈ Θ
1
- prawdopodobieństwo błędu II ro-
dzaju
Najlepszym testem byłby test, który minimalizuje prawdopodo-
bieństwa popełnienia obu błędów jednocześnie. Taki test nie istnie-
je, przy ustalonej liczebności próby losowej zmniejszanie prawdopo-
dobieństwa błędu I rodzaju powoduje wzrost prawdopodobieństwa
błędu II rodzaju i na odwrót.
Test jest na poziomie istotności α , jeśli
∀ θ ∈ Θ
0
P
θ
(K) ¬ α
Poziom istotności α ustala statystyk, zabezpiecza się przed zbyt
dużym prawdopodobieństwem błędu I rodzaju.
Agata Boratyńska Wykłady ze statystyki matematycznej
82
PRZYKŁAD 1cd.
Przy prawdziwości hipotezy H
0
mamy Z CTG
X ∼ N
(200, 400 ·
1
4
P
p=
1
2
(|X − 200| > 19, 6)
= P
p=
1
2
|X − 200|
10
> 1, 96
= 2(1 − Φ(1, 96)) = 0, 05
jest to test na poziomie istotności 0,05.
Wielkość P
θ
(K) nazywamy mocą testu przy alternatywie θ ∈
Θ
1
(testy buduje się tak aby moc była jak największa)
Funkcja mocy testu
β : Θ
1
−→ [0, 1]
β(θ) = P
θ
(K)
Agata Boratyńska Wykłady ze statystyki matematycznej
83
ALGORYTM TESTOWANIA HIPOTEZY STATYSTYCZNEJ
1) określić model statystyczny
(np. próba losowa X
1
, X
2
, . . . , X
n
pochodzi z rozkładu normalnego
o nieznanej wartości oczekiwanej µ i wariancji σ
2
= 4)
2) postawić hipotezę zerową H
0
i alternatywę H
1
(np. H
0
: µ = 0, H
1
: µ 6= 0);
3) przyjąć poziom istotności (np. α = 0, 05);
4) podać postać statystyki testowej T , obszaru krytycznego, wy-
znaczyć wartość krytyczną (postać statystyki T , zbioru K i war-
tości krytycznej zależy od obu hipotez i poziomu istotności α);
5) obliczyć wartość statystyki testowej dla danych wartości próby
losowej;
6) podjąć decyzję:
jeśli T (X
1
, X
2
, . . . , X
n
) ∈ K - odrzucić H
0
jeśli T (X
1
, X
2
, . . . , X
n
) /
∈ K - nie ma podstaw do odrzucenia H
0
,
czyli otrzymane dane nie dają wystarczających argumentów do
odrzucenia H
0
.
Agata Boratyńska Wykłady ze statystyki matematycznej
84
p-wartość (p-value)
X ∼ P
θ
, θ ∈ Θ,
H
0
: θ = θ
0
,
α − poziom istotności
Test
K = {T (X) > c
α
}
x - obserwowana wartość zmiennej X
t = T (x)
p-wartość jest równa P
θ
0
(T (X) > t)
Wnioskowanie:
Jeśli p-wartość < α, to hipotezę H
0
odrzucamy.
Jeśli p-wartość > α, to nie ma podstaw do odrzucenia H
0
.
Agata Boratyńska Wykłady ze statystyki matematycznej
85
PORÓWNYWANIE TESTÓW
X ∼ P
θ
, θ ∈ Θ,
H
0
: θ ∈ Θ
0
H
1
: θ ∈ Θ
1
gdzie Θ
0
, Θ
1
⊂ Θ i Θ
0
∩ Θ
1
= ∅
Mówimy, że test o obszarze krytycznym K
1
jest mocniejszy niż
test o obszarze krytycznym K
2
(oba testy na tym samym poziomie
istotności α) dla testowania hipotezy H
0
przy alternatywie H
1
⇐⇒
∀ θ ∈ Θ
0
P
θ
(K
1
) ¬ α
i
P
θ
(K
2
) ¬ α
i
∀ θ ∈ Θ
1
P
θ
(K
1
) P
θ
(K
2
)
i
∃ θ
1
∈ Θ
1
P
θ
1
(K
1
) > P
θ
1
(K
2
).
Test o obszarze krytycznym K
∗
nazywamy testem jednostaj-
nie najmocniejszym dla testowania hipotezy H
0
przy alterna-
tywie H
1
na poziomie istotności α ⇐⇒ jest to test na poziomie
istotności α oraz
∀ K ⊆ X
speniajacego warunek
P
θ
(K) ¬ α
gdy
θ ∈ Θ
0
zachodzi
∀ θ ∈ Θ
1
P
θ
(K
∗
) P
θ
(K).
Agata Boratyńska Wykłady ze statystyki matematycznej
86
LEMAT NEYMANA-PEARSONA
Niech X będzie obserwowaną zmienną losowa i P
0
, P
1
dwo-
ma rozkładami prawdopodobieństwa o gęstościach odpowied-
nio równych f
0
i f
1
. Niech
K
∗
=
x :
f
1
(x)
f
0
(x)
> c
i
P
0
(K
∗
) = α.
Wtedy test o obszarze krytycznym K
∗
jest testem najmocniej-
szym dla testowania hipotezy
H
0
: X ∼ P
0
przy alternatywie
H
1
: X ∼ P
1
na poziomie istotności α.
Agata Boratyńska Wykłady ze statystyki matematycznej
87
TESTY OPARTE NA ILORAZIE WIAROGODNOŚCI
X ∼ P
θ
, θ ∈ Θ,
H
0
: θ ∈ Θ
0
H
1
: θ ∈ Θ
1
gdzie Θ
0
, Θ
1
⊂ Θ i Θ
0
∩ Θ
1
= ∅ i Θ
0
∪ Θ
1
= Θ
Λ
1
(X) =
sup
θ∈Θ
1
L(θ, X)
sup
θ∈Θ
0
L(θ, X)
lub
Λ(X) =
sup
θ∈Θ
L(θ, X)
sup
θ∈Θ
0
L(θ, X)
Test o obszarze krytycznym postaci
K
1
= {x : Λ
1
(x) > λ
1
}
lub
K = {x : Λ(x) > λ} ,
gdzie λ
1
, λ spełniają warunki
∀ θ ∈ Θ
0
P
θ
(K
1
) ¬ α,
∀ θ ∈ Θ
0
P
θ
(K) ¬ α
nazywamy testem opartym na ilorazie wiarogodności dla
testowania hipotezy H
0
przy alternatywie H
1
na poziomie istotno-
ści α.
Przy prostej hipotezie i prostej alternatywie test oparty na ilora-
zie wiarogodności o rozmiarze α pokrywa się z testem Neymana-
Pearsona o tym rozmiarze.
Agata Boratyńska Wykłady ze statystyki matematycznej
88
TESTOWANIE HIPOTEZ - PORÓWNANIE Z NORMĄ
Model I.
X
1
, X
2
, . . . , X
n
próba losowa z rozkładu normalnego N (µ, σ
2
), σ
znane
Hipoteza zerowa H
0
: µ = µ
0
¯
X - estymator parametru µ
Statystyka testowa
U =
¯
X − µ
0
σ
√
n
Poziom istotności α
Alternatywa
Zbiór krytyczny
H
1
: µ 6= µ
0
K
1
= { |U | > u
1−
α
2
}
H
2
: µ > µ
0
K
2
= { U > u
1−α
}
H
3
: µ < µ
0
K
3
= { U < −u
1−α
}
Agata Boratyńska Wykłady ze statystyki matematycznej
89
Model II.
X
1
, X
2
, . . . , X
n
próba losowa z rozkładu normalnego N (µ, σ
2
), µ,
σ nieznane
Hipoteza zerowa H
0
: µ = µ
0
¯
X - estymator parametru µ
S
2
=
1
n−1
P
n
i=1
(X
i
− ¯
X)
2
estymator parametru σ
2
Statystyka testowa
T =
¯
X − µ
0
S
√
n
Przy H
0
prawdziwej statystyka T ma rozkład t-Studenta z n − 1
stopniami swobody
Poziom istotności α
Alternatywa
Zbiór krytyczny
H
1
: µ 6= µ
0
K
1
= { |T | > t(α, n − 1) }
H
2
: µ > µ
0
K
2
= { T > t(2α, n − 1) }
H
3
: µ < µ
0
K
3
= { T < −t(2α, n − 1) }
Agata Boratyńska Wykłady ze statystyki matematycznej
90
Model II
Hipoteza zerowa: H
0
: σ
2
= σ
2
0
Statystyka testowa:
χ
2
=
(n − 1)S
2
σ
2
0
Przy H
0
prawdziwej statystyka χ
2
ma rozkład chi-kwadrat z n − 1
stopniami swobody
• Alternatywa: H
1
: σ
2
6= σ
2
0
Zbiór krytyczny ma postać
K
1
=
(
χ
2
< χ
2
1 −
α
2
, n − 1
!
∨ χ
2
> χ
2
α
2
, n − 1
!)
czyli hipotezę H
0
odrzucamy gdy χ
2
< χ
2
(1 −
α
2
, n − 1) lub
χ
2
> χ
2
(
α
2
, n − 1)
• Alternatywa: H
2
: σ
2
> σ
2
0
Zbiór krytyczny ma postać
K
2
= {χ
2
> χ
2
(α, n − 1)}
• Alternatywa: H
3
: σ
2
< σ
2
0
Zbiór krytyczny ma postać
K
3
= {χ
2
< χ
2
(1 − α, n − 1)}
czyli hipotezę H
0
odrzucamy gdy χ
2
< χ
2
(1 − α, n − 1)
Agata Boratyńska Wykłady ze statystyki matematycznej
91
Model III.
X
1
, X
2
, . . . , X
n
próba losowa z rozkładu o nieznanej wartości ocze-
kiwanej EX
i
= µ i skończonej ale nieznanej wariancji. Zakładamy,
że n duże (n 100)
Hipoteza zerowa H
0
: µ = µ
0
¯
X - estymator parametru µ
S
2
=
1
n−1
P
n
i=1
(X
i
− ¯
X)
2
estymator wariancji
Statystyka testowa
U =
¯
X − µ
0
S
√
n
Przy hipotezie H
0
prawdziwej statystyka U ma asymptotyczny
rozkład normalny, tzn
U −→ N (0, 1)
przy
n −→ +∞
Poziom istotności α
Alternatywa
Zbiór krytyczny
H
1
: µ 6= µ
0
K
1
= { |U | > u
1−
α
2
}
H
2
: µ > µ
0
K
2
= { U > u
1−α
}
H
3
: µ < µ
0
K
3
= { U < −u
1−α
}
Agata Boratyńska Wykłady ze statystyki matematycznej
92
Model IV.
Wykonujemy n niezależnych doświadczeń typu sukces - porażka,
zakładamy że n duże.
Obserwowana zmienna losowa Y ma rozkład dwupunktowy
P (Y = 1) = p
P (Y = 0) = 1 − p
p ∈ (0, 1) - prawdopodobieństwo sukcesu w pojedynczym doświad-
czeniu, nieznany parametr nazywany też wskaźnikiem struktury
Niech X oznacza liczbę sukcesów w n doświadczeniach
X ∼ bin(n, p)
Hipoteza zerowa H
0
: p = p
0
ˆ
p =
X
n
- estymator punktowy parametru p
Statystyka testowa:
U
∗
=
ˆ
p − p
0
r
p
0
(1 − p
0
)
√
n
Przy prawdziwości hipotezy H
0
z CTG wynika, że
U
∗
=
ˆ
p − p
0
r
p
0
(1 − p
0
)
√
n ∼ N (0, 1)
gdy
n −→ +∞
Alternatywa
Zbiór krytyczny
H
1
: p 6= p
0
K
1
= { |U
∗
| > u
1−
α
2
}
H
2
: p > p
0
K
2
= { U
∗
> u
1−α
}
H
3
: p < p
0
K
3
= { U
∗
< −u
1−α
}
Agata Boratyńska Wykłady ze statystyki matematycznej
93
TESTOWANIE HIPOTEZ - PORÓWNANIE DWÓCH POPU-
LACJI
W praktyce istotną role odgrywają testy, za pomocą których można
porównywać cechę w dwóch populacjach ze względu na interesują-
cy parametr, najczęściej jest to
wartość oczekiwana
wariancja
wskaźnik struktury (procent populacji spełniajacy zadane warun-
ki)
PRZYKŁAD:
1) czy plon przeciętny przy dwóch sposobach nawożenia jest jed-
nakowy
2) czy przeciętna cena pewnego towaru w sklepach Warszawy jest
wyższa niż w sklepach Krakowa
3) czy czas wykonania pewnego detalu przy dwóch sposobach pro-
dukcji jest jednakowy
4) czy poparcie dla Pana A wzrosło w ciągu miesiąca
5) czy margaryna Rama i Flora są kupowane tak samo często
6) czy dwie metody pomiarowe są jednakowo dokładne
Agata Boratyńska Wykłady ze statystyki matematycznej
94
Model I.
X
1,1
, X
1,2
, . . . , X
1,n
1
- próba losowa z rozkładu normalnego N (µ
1
, σ
2
1
);
X
2,1
, X
2,2
, . . . , X
2,n
2
- próba losowa z rozkładu normalnego N (µ
2
, σ
2
2
);
Parametry µ
1
, µ
2
są nieznane, σ
1
, σ
2
są znane, wszystkie obserwo-
wane zmienne są niezależne.
Hipoteza zerowa: H
0
: µ
1
= µ
2
, Poziom istotności α
¯
X
1
=
1
n
1
P
n
1
i=1
X
1,i
- estymator parametru µ
1
¯
X
2
=
1
n
2
P
n
2
i=1
X
2,i
- estymator parametru µ
2
¯
X
1
∼ N (µ
1
,
σ
2
1
n
1
) i ¯
X
2
∼ N (µ
2
,
σ
2
2
n
2
), zatem ¯
X
1
− ¯
X
2
∼ N
µ
1
− µ
2
,
σ
2
1
n
1
+
σ
2
2
n
2
!
Statystyka testowa:
U
n
1
,n
2
=
¯
X
1
− ¯
X
2
s
σ
2
1
n
1
+
σ
2
2
n
2
Przy hipotezie H
0
prawdziwej U
n
1
,n
2
∼ N (0, 1)
Alternatywa
Zbiór krytyczny
H
1
: µ
1
6= µ
2
K
1
= { |U
n
1
,n
2
| > u
1−
α
2
}
H
2
: µ
1
> µ
2
K
2
= { U
n
1
,n
2
> u
1−α
}
H
3
: µ
1
< µ
2
K
3
= { U
n
1
,n
2
< −u
1−α
}
Agata Boratyńska Wykłady ze statystyki matematycznej
95
Model II.
X
1,1
, X
1,2
, . . . , X
1,n
1
- próba losowa z rozkładu normalnego N (µ
1
, σ
2
1
);
X
2,1
, X
2,2
, . . . , X
2,n
2
- próba losowa z rozkładu normalnego N (µ
2
, σ
2
2
);
Parametry µ
1
, µ
2
, σ
1
, σ
2
są nieznane, ale σ
1
= σ
2
, wszystkie ob-
serwowane zmienne są niezależne.
Hipoteza zerowa: H
0
: µ
1
= µ
2
¯
X
1
=
1
n
1
P
n
1
i=1
X
1,i
- estymator parametru µ
1
¯
X
2
=
1
n
2
P
n
2
i=1
X
2,i
- estymator parametru µ
2
¯
X
1
∼ N (µ
1
,
σ
2
1
n
1
) i ¯
X
2
∼ N (µ
2
,
σ
2
2
n
2
), zatem
¯
X
1
− ¯
X
2
∼ N
µ
1
− µ
2
, σ
2
1
1
n
1
+
1
n
2
S
2
1
=
1
n
1
−1
P
n
1
i=1
(X
1,i
− ¯
X
1
)
2
- estymator wariancji w oparciu o
próbę X
1,1
, X
1,2
, . . . , X
1,n
1
S
2
2
=
1
n
2
−1
P
n
2
i=1
(X
2,i
− ¯
X
2
)
2
- estymator wariancji w oparciu o
próbę X
2,1
, X
2,2
, . . . , X
2,n
1
S
2
∗
=
(n
1
−1)S
2
1
+(n
2
−1)S
2
2
n
1
+n
2
−2
- estymator wariancji w oparciu o dwie
próby
Agata Boratyńska Wykłady ze statystyki matematycznej
96
Statystyka testowa:
T
n
1
,n
2
=
¯
X
1
− ¯
X
2
S
∗
r
1
n
1
+
1
n
2
Przy hipotezie H
0
prawdziwej T ma rozkład t-Studenta z n
1
+n
2
−2
stopniami swobody
Alternatywa
Zbiór krytyczny
H
1
: µ
1
6= µ
2
K
1
= { |T
n
1
,n
2
| > t(α, n
1
+ n
2
− 2) }
H
2
: µ
1
> µ
2
K
2
= { T
n
1
,n
2
> t(2α, n
1
+ n
2
− 2) }
H
3
: µ
1
< µ
2
K
3
= { T
n
1
,n
2
< −t(2α, n
1
+ n
2
− 2) }
Agata Boratyńska Wykłady ze statystyki matematycznej
97
Model III.
X
1,1
, X
1,2
, . . . , X
1,n
1
- i.i.d. z rozkładu o EX = µ
1
i V arX = σ
2
1
;
X
2,1
, X
2,2
, . . . , X
2,n
2
- i.i.d. z rozkładu o EX = µ
2
V arX = σ
2
2
;
Parametry µ
1
, µ
2
, σ
1
, σ
2
są nieznane, wszystkie obserwowane zmien-
ne są niezależne, n
1
, n
2
duże.
Hipoteza zerowa: H
0
: µ
1
= µ
2
¯
X
1
=
1
n
1
P
n
1
i=1
X
1,i
- estymator parametru µ
1
¯
X
2
=
1
n
2
P
n
2
i=1
X
2,i
- estymator parametru µ
2
ˆ
S
2
1
=
1
n
1
P
n
1
i=1
(X
1,i
− ¯
X
1
)
2
- estymator wariancji w oparciu o próbę
X
1,1
, X
1,2
, . . . , X
1,n
1
ˆ
S
2
2
=
1
n
2
P
n
2
i=1
(X
2,i
− ¯
X
2
)
2
- estymator wariancji w oparciu o próbę
X
2,1
, X
2,2
, . . . , X
2,n
1
Statystyka testowa:
U =
¯
X
1
− ¯
X
2
s
ˆ
S
2
1
n
1
+
ˆ
S
2
2
n
2
Przy hipotezie H
0
prawdziwej U ∼ N (0, 1) przy n
1
, n
2
−→ +∞
Alternatywa
Zbiór krytyczny
H
1
: µ
1
6= µ
2
K
1
= { |U | > u
1−
α
2
}
H
2
: µ
1
> µ
2
K
2
= { U > u
1−α
}
H
3
: µ
1
< µ
2
K
3
= { U < −u
1−α
}
Agata Boratyńska Wykłady ze statystyki matematycznej
98
Hipoteza o równości wariancji w modelu normalnym
X
1,1
, X
1,2
, . . . , X
1,n
1
- próba losowa z rozkładu normalnego N (µ
1
, σ
2
1
);
X
2,1
, X
2,2
, . . . , X
2,n
2
- próba losowa z rozkładu normalnego N (µ
2
, σ
2
2
);
Parametry µ
1
, µ
2
, σ
1
, σ
2
są nieznane, wszystkie obserwowane zmien-
ne są niezależne.
Hipoteza zerowa: H
0
: σ
1
= σ
2
S
2
1
=
1
n
1
−1
P
n
1
i=1
(X
1,i
− ¯
X
1
)
2
- estymator wariancji σ
2
1
S
2
2
=
1
n
2
−1
P
n
2
i=1
(X
2,i
− ¯
X
2
)
2
- estymator wariancji σ
2
2
Statystyka testowa:
F =
S
2
1
S
2
2
Przy H
0
prawdziwej F ∼ F
n
1
−1,n
2
−1
• Alternatywa: H
1
: σ
2
1
6= σ
2
2
Zbiór krytyczny ma postać
K
1
=
(
F < F
1 −
α
2
; n
1
− 1, n
2
− 1
!
∨ F > F
α
2
; n
1
− 1, n
2
− 1
!)
• Alternatywa: H
2
: σ
2
1
> σ
2
2
Zbiór krytyczny ma postać K
2
= {F > F (α; n
1
− 1, n
2
− 1)}
• Alternatywa: H
3
: σ
2
1
< σ
2
2
Zbiór krytyczny ma postać K
3
= {F < F (1 − α; n
1
− 1, n
2
− 1)}
Agata Boratyńska Wykłady ze statystyki matematycznej
99
Model IV.
Wykonujemy n
1
niezależnych doświadczeń typu sukces - porażka,
w których prawdopodobieństwo sukcesu jest równe p
1
, i n
2
nieza-
leżnych doświadczeń typu sukces - porażka, w których prawdopo-
dobieństwo sukcesu jest równe p
2
p
1
, p
2
∈ (0, 1) nieznane, n
1
, n
2
duże
Niech X
1
oznacza liczbę sukcesów w n
1
próbach, X
2
oznacza liczbę
sukcesów w n
2
próbach
X
1
∼ bin(n
1
, p
1
), X
2
∼ bin(n
2
, p
2
)
Hipoteza zerowa H
0
: p
1
= p
2
ˆ
p
1
=
X
1
n
1
i ˆ
p
2
=
X
2
n
2
- estymatory parametrów p
1
i p
2
p
∗
=
X
1
+X
2
n
1
+n
2
- estymator prawdopodobieństwa sukcesu przy założe-
niu, że H
0
prawdziwa
U
∗
n
1
,n
2
=
ˆ
p
1
−ˆ
p
2
s
p
∗
(1−p
∗
)
1
n1
+
1
n2
- statystyka testowa
Przy prawdziwości H
0
U
∗
n
1
,n
2
∼ N (0, 1) przy n
1
, n
2
−→ +∞
Alternatywa
Zbiór krytyczny
H
1
: p
1
6= p
2
K
1
= { |U
∗
n
1
,n
2
| > u
1−
α
2
}
H
2
: p
1
> p
2
K
2
= { U
∗
n
1
,n
2
> u
1−α
}
H
3
: p
1
< p
2
K
3
= { U
∗
n
1
,n
2
< −u
1−α
}
Agata Boratyńska Wykłady ze statystyki matematycznej
100
Test analizy wariancji
Rozważamy k prób losowych
X
1,1
, X
1,2
, . . . , X
1,n
1
X
2,1
, X
2,2
, . . . , X
2,n
2
. . . . . . . . .
X
k,1
, X
k,2
, . . . , X
k,n
k
PRZYKŁAD: X
i,j
cena pewnego produktu w i-tym mieście, i roz-
ważamy k miast.
ZAŁOŻENIA:
• X
i,j
, i = 1, 2, . . . , k, j = 1, 2, . . . , n
i
są niezależne
• X
i,j
∼ N (m
i
, σ
2
),
• m
1
, m
2
, . . . , m
k
, σ są nieznane
Hipoteza zerowa:
H
0
: m
1
= m
2
= . . . = m
k
n = n
1
+ n
2
+ . . . + n
k
¯
X
i
=
1
n
i
n
i
X
j=1
X
i,j
¯
X =
1
n
p
X
i=1
n
i
X
j=1
X
i,j
=
1
n
p
X
i=1
n
i
¯
X
i
Agata Boratyńska Wykłady ze statystyki matematycznej
101
Test oparty na ilorazie wiarogodności odrzuca H
0
gdy
F =
P
k
i=1
n
i
( ¯
X
i
− ¯
X)
2
/(k − 1)
P
k
i=1
P
n
i
j=1
(X
i,j
− ¯
X
i
)
2
/(n − k)
> F (α, k − 1, n − k)
gdzie F (α, k − 1, n − k) wartość krytyczna w rozkładzie F
k−1,n−k
rzędu α.
1
k−1
P
k
i=1
n
i
( ¯
X
i
− ¯
X)
2
- estymator wariancji międzygrupowej
1
n−k
P
k
i=1
P
n
i
j=1
(X
i,j
− ¯
X
i
)
2
- estymator wariancji wewnątrz grup
k
X
i=1
n
i
X
j=1
(X
i,j
− ¯
X)
2
=
k
X
i=1
n
i
( ¯
X
i
− ¯
X)
2
+
k
X
i=1
n
i
X
j=1
(X
i,j
− ¯
X
i
)
2
Tabela testu analizy wariancji
Źródło
Sumy
Stopnie
wartość
zmienności
kwadratów
swobody statystyki F
między próbkami
P
k
i=1
n
i
( ¯
X
i
− ¯
X)
2
k − 1
wewnątrz próbek
P
k
i=1
P
n
i
j=1
(X
i,j
− ¯
X
i
)
2
n − k
Razem
P
k
i=1
P
n
i
j=1
(X
i,j
− ¯
X)
2
n − 1
Agata Boratyńska Wykłady ze statystyki matematycznej
102
PRZYKŁAD.
Porównano zyski ze sprzedaży pewnego towaru w czterech mia-
stach. Wylosowano po 10 sklepów i otrzymano wyniki:
miasto średni zysk
A
88
B
94
C
91
D
89
k
X
i=1
n
i
X
j=1
X
2
i,j
= 328135
Testem analizy wariancji zweryfikuj hipotezę o równości przecięt-
nego zysku w tych miastach
H
0
: m
1
= m
2
= m
3
= m
4
¯
X = 90, 5
4
X
i=1
10( ¯
X
i
− ¯
X)
2
= 210
4
X
i=1
10
X
j=1
(X
i,j
− ¯
X
i
)
2
=
4
X
i=1
10
X
j=1
X
2
i,j
−
4
X
i=1
10 ¯
X
2
i
= 315
Agata Boratyńska Wykłady ze statystyki matematycznej
103
Źródło
Sumy
Stopnie
wartość
zmienności
kwadratów swobody statystyki F
między próbkami
210
3
wewnątrz próbek
315
36
Razem
525
39
8
F (0, 05, 3, 36) = 2, 87
8 > 2, 87
Wniosek: odrzucamy hipotezę H
0
Agata Boratyńska Wykłady ze statystyki matematycznej
104
TESTOWANIE HIPOTEZ O ZGODNOŚCI
Niech X
1
, X
2
, . . . , X
n
i.i.d. z rozkładu o nieznanej dystrybuancie
F
H
0
: F = F
0
, F
0
ustalona
I. Test Kołmogorowa
Założenie: F
0
- ciągła, ściśle rosnąca dystrybuanta
Statystyka testowa:
D
n
= sup
t∈R
|F
n
(t) − F
0
(t)|,
gdzie F
n
(t) = F
n
(X
1
, X
2
, . . . , X
n
, t) jest dystrybuantą empirycz-
ną.
D
n
= max(D
+
n
, D
−
n
)
gdzie
D
+
n
= max
i=1...n
i
n
− z
i
D
−
n
= max
i=1...n
z
i
−
i − 1
n
z
i
= F
0
(x
i:n
)
w przypadku szeregu przedziałowego
D
+
n
= max
i=1...k
|F
n
(c
i
) − F
0
(c
i
)|
D
−
n
= max
i=1...k
|F
0
(c
i
) − F
n
(c
i−1
)|
TEST: Jeżeli D
n
> c(α, n), to hipotezę H
0
odrzucamy.
Wybór c(α, n):
Rozkład statystyki D
n
przy prawdziwości hipotezy H
0
nie zależy
od postaci F
0
.
Agata Boratyńska Wykłady ze statystyki matematycznej
105
Zatem c(α, n) są stablicowane. Dla n dużych korzystamy z wartości
przybliżonych, kilka z nich podaje Tabela poniżej.
α
0.20
0.10
0.05
0.01
c 1.07/
√
n 1.22/
√
n 1.36/
√
n 1.63/
√
n
PRZYKŁAD.
Dane ze szkodami spowodowanymi przez wichury
H
0
: F jest dystrybuantą z rozkładu o gęstości
f
0
(x) =
0
gdy x ¬ 1.5
1
7.5
exp(−
x−1.5
7.5
)
gdy x > 1.5
Dystrybuanta rozkładu z hipotezy
F
0
(x) =
0
gdy x ¬ 1.5
1 − exp
−
x−1.5
7.5
gdy x > 1.5
Agata Boratyńska Wykłady ze statystyki matematycznej
106
Test Kołmogorowa - Lillieforsa
Niech X
1
, X
2
, . . . , X
n
i.i.d. z rozkładu o nieznanej dystrybuancie
F
H
0
: F jest dystrybuantą rozkładu normalnego
Niech
D
n
= max(D
+
n
, D
−
n
)
gdzie
D
+
n
= max
i=1...n
(
i
n
− z
i
)
D
−
n
= max
i=1...n
(z
i
−
i − 1
n
)
z
i
= F
0
(x
i:n
)
i
z
i
= Φ
X
i:n
− ¯
X
S
¯
X =
1
n
n
X
i=1
X
i
S
2
=
1
n − 1
n
X
i=1
(X
i
− ¯
X)
2
Obszar krytyczny testu:
K = {D
n
> D
n
(α)}
D
n
(α) =
D(α)
√
n − 0.01 +
0.85
√
n
α
0.1
0.05
0.01
D(α) 0.819 0.895 1.035
Agata Boratyńska Wykłady ze statystyki matematycznej
107
II. Test zgodności chi-kwadrat
Test zgodności chi-kwadrat służy do weryfikacji hipotezy o postaci
rozkładu obserwowanej zmiennej losowej X.
1. Cecha X ma rozkład dyskretny o k możliwych wartościach.
Powtarzamy n- krotnie doświadczenie losowe, które ma k możli-
wych wyników w
1
, w
2
, . . . , w
k
.
X
w
1
w
2
. . . w
k
P (X = w
i
) p
1
p
2
. . .
p
k
gdzie
P
p
i
= 1.
Hipoteza zerowa:
H
0
: p
1
= p
0
1
, p
2
= p
0
2
, . . . , p
k
= p
0
k
gdzie p
0
1
, p
0
2
, . . . , p
0
k
są znane.
X
1
, X
2
, . . . , X
n
- obserwacje cechy X.
N
i
=
n
X
j=1
1(X
j
= w
i
),
i = 1, 2, . . . , k.
- zliczamy ile razy w próbce X
1
, X
2
, . . . , X
n
pojawiła się wartość
w
i
.
Wyniki doświadczeń prezentuje tabela:
Agata Boratyńska Wykłady ze statystyki matematycznej
108
X
w
1
w
2
. . .
w
k
liczba
doświadczeń N
1
N
2
. . . N
k
Wektor (N
1
, N
2
, . . . , N
k
) ∼ M ult(n, p
1
, p
2
, . . . , p
k
).
Oczekiwana liczba pojawienia się wyniku w
i
w próbie n-elementowej
przy prawdziwej hipotezie H
0
EN
i
= np
0
i
Postać statystyki testu chi-kwadrat:
χ
2
=
X
(wielkość obserwowana - wielkość oczekiwana)
2
wielkość oczekiwana
Test:
odrzucamy H
0
gdy
χ
2
=
k
X
i=1
(N
i
− np
0
i
)
2
np
0
i
> χ
2
(α, k − 1)
Agata Boratyńska Wykłady ze statystyki matematycznej
109
PRZYKŁAD:
Chcemy sprawdzić czy kostka do gry jest symetryczna. Rzucamy
kostką 300 razy. Wyniki podaje tabela
wynik w
i
1
2
3
4
5
6
liczba
rzutów N
i
45 55 60 40 48 52
H
0
: p
0
i
=
1
6
, i = 1, 2, 3, 4, 5, 6
np
0
i
= 300 ·
1
6
- wartość oczekiwana
Wartość statystyki testowej:
χ
2
emp
=
6
X
i=1
(N
i
− np
0
i
)
2
np
0
i
= 5, 16
χ
2
0,95,5
= 11, 07
χ
2
emp
< χ
2
(0, 05, 5)
Wniosek: nie ma podstaw do odrzucenia hipotezy H
0
,zatem moż-
na sądzić, że kostka jest symetryczna.
Agata Boratyńska Wykłady ze statystyki matematycznej
110
2. Cecha X ma rozkład ciągły
Test zgodności chi-kwadrat może być stosowany w przypadku ce-
chy o rozkładzie ciągłym.
X
1
, X
2
, . . . , X
n
próba losowa z rozkładu ciągłego
Hipoteza zerowa:
H
0
: X
1
, X
2
, . . . , X
n
i.i.d. F
gdzie F jest znaną dystrybuantą rozkładu ciągłego.
Wybieramy liczby −∞ = a
0
< a
1
< a
2
< . . . < a
k
= ∞ i
definiujemy
N
i
=
n
X
j=1
1(a
i−1
< X
j
¬ a
i
),
i = 1, 2, . . . , k
Prawdopodobieństwo
P (a
i−1
< X
j
¬ a
i
) = F (a
i
) − F (a
i−1
) = p
0
i
jest znane. Następnie stosujemy test chi-kwadrat dla przypadku
rozkładu dyskretnego.
Agata Boratyńska Wykłady ze statystyki matematycznej
111
UWAGI:
1) Test zgodności chi-kwadrat jest testem asymptotycznym, licz-
ność próby losowej n musi być duża, dla każdej klasy
np
0
i
> 5.
2) Podział na klasy (a
i−1
, a
i
) dokonuje się tak, aby p
0
i
≈
1
k
.
3) Testu możemy używać do weryfikacji hipotezy, że rozkład ob-
serwowanej zmiennej należy do pewnej rodziny rozkładów indek-
sowanych skończenie wymiarowym parametrem. Parametry esty-
mujemy korzystając z danych. Jeśli używamy danych do estymacji
nieznanych parametrów rozkładu występującego w hipotezie zero-
wej, to dla każdego estymowanego parametru odejmujemy jeden
stopień swobody, zatem test odrzuca hipotezę zerową, gdy
χ
2
=
k
X
i=1
(N
i
− np
0
i
)
2
np
0
i
> χ
2
(α, k − d − 1)
gdzie d jest liczbą estymowanych parametrów.
Agata Boratyńska Wykłady ze statystyki matematycznej
112
PRZYKŁAD. Poniższa tabela przedstawia liczby roszczeń zgłoszo-
nych w ciągu roku dla 500 niezależnych polis z pewnej grupy ryzyka
w towarzystwie ubezpieczeniowym:
liczba roszczeń liczba polis
0
420
1
60
2
20
> 2
0
X - obserwowana zmienna losowa - liczba roszczeń dla jednej polisy
H
0
: X ∼ P oiss(λ), λ > 0 jest nieznane.
ˆ
λ = EN W (λ) = ¯
X = 0.2
i
p
0
1
= P (X = 0) ≈ e
−0.2
= 0, 82
500 · p
0
1
= 410
p
0
2
= P (X = 1) ≈ 0.2e
−0.2
= 0, 16
500 · p
0
2
= 80
p
0
3
= P (X > 1) ≈ 1 − 0.2e
−0.2
− e
−0.2
= 0, 02
500 · p
0
3
= 10
Wartość statystyki testowej
χ
2
=
3
X
i=1
(N
i
− np
0
i
)
2
np
0
i
= 21, 73
Wartość krytyczna χ
2
(0, 05, 3 − 1 − 1) = 3, 84. Hipotezę H
0
od-
rzucamy
Agata Boratyńska Wykłady ze statystyki matematycznej
113
TEST CHI-KWADRAT NIEZALEŻNOŚCI
(X, Y ) - dwuwymiarowa zmienna losowa o rozkładzie dyskretnym,
tzn. (X, Y ) ∈ {1, 2, . . . , r} × {1, 2, . . . , s};
Niech
p
i,j
= P (X = i ∧ Y = j)
p
i•
= P (X = i) =
s
X
j=1
p
i,j
p
•j
= P (Y = j) =
r
X
i=1
p
i,j
.
(X
1
, Y
1
), (X
2
, Y
2
), . . . , (X
n
, Y
n
) próba losowa
N
i,j
=
n
X
l=1
1(X
l
= i ∧ Y
l
= j)
N
i•
=
s
X
j=1
N
i,j
and
N
•j
=
r
X
i=1
N
i,j
.
Dane przedstawiamy w tabeli zwanej tablicą kontyngencji.
Agata Boratyńska Wykłady ze statystyki matematycznej
114
x|y
1
2
. . .
s
N
i,•
1
N
1,1
N
1,2
. . . N
1,s
N
1,•
2
N
2,1
N
2,2
. . . N
2,s
N
2,•
. . .
. . .
. . .
. . .
. . .
. . .
r
N
r,1
N
r,2
. . . N
r,s
N
r,•
N
•,j
N
•,1
N
•,2
. . . N
•,s
n
Hipoteza zerowa: H
0
: X i Y są niezależne
H
0
: p
i,j
= p
i•
· p
•j
,
i = 1, 2, . . . , r,
j = 1, 2, . . . , s.
Jest to hipoteza o zgodności z pewnym rozkładem, zastosujemy
test chi-kwadrat.
Nieznanymi parametrami są: p
i•
i p
•j
, i = 1, 2, . . . , r, j = 1, 2, . . . , s
Ich estymatory największej wiarogodności to:
ˆ
p
i•
=
N
i•
n
ˆ
p
•j
=
N
•j
n
Estymujemy zatem
r − 1 + s − 1
parametrów
Estymatory parametrów p
i,j
są postaci
ˆ
p
i,j
= ˆ
p
i•
· ˆ
p
•j
=
N
i•
n
·
N
•j
n
Agata Boratyńska Wykłady ze statystyki matematycznej
115
Statystyka testu chi-kwadrat ma postać
χ
2
=
r
X
i=1
s
X
j=1
N
i,j
−
N
i•
N
•j
n
2
N
i•
N
•j
n
.
Jeżeli n dąży do ∞ to rozkład statystyki χ
2
dąży do rozkładu
χ
2
(r−1)(s−1)
Hipotezę H
0
odrzucamy gdy χ
2
> χ
2
(α, (r − 1)(s − 1))
Agata Boratyńska Wykłady ze statystyki matematycznej
116
STATYSTYKA BAYESOWSKA
MODEL BAYESOWSKI
• X
1
, X
2
, . . . , X
n
- dane np. próba losowa z rozkładu P
θ
o gęstości
f
θ
(x) = f (x|θ)
• {P
θ
: θ ∈ Θ} - rodzina rozkładów, θ - nieznany parametr
• dodatkowa wiedza- rozkład a priori Π na przestrzeni Θ, zatem
θ ∼ Π i oznaczmy przez π(θ) - gęstość rozkładu Π względem
pewnej miary na Θ
Wtedy f (x
1
, x
2
, . . . , x
n
|θ) jest gęstością rozkładu warunkowego i
f (x
1
, x
2
, . . . , x
n
, θ) = f (x
1
, x
2
, . . . , x
n
|θ)π(θ)
jest gęstością rozkładu łącznego obserwowanej zmiennej
X = (X
1
, X
2
, . . . , X
n
) i zmiennej θ.
Rozkład Π
x
zadany przez gęstość (względem miary na Θ)
π(θ|x) =
f (x
1
, x
2
, . . . , x
n
|θ)π(θ)
m(x)
,
gdzie
m(x) =
Z
Θ
f (x
1
, x
2
, . . . , x
n
|θ)π(θ)dθ
oznacza gęstość rozkładu brzegowego zmiennej X w punkcie
x = (x
1
, x
2
, . . . , x
n
), nazywamy rozkładem a posteriori.
Rozkład a priori obrazuje naszą wiedzę o nieznanym parametrze
przed wykonaniem badania statystycznego
Agata Boratyńska Wykłady ze statystyki matematycznej
117
Rozkład a posteriori zawiera całą wiedzę o obserwowanym zjawi-
sku, zawiera wiedzę wstępną o parametrze θ i wiedzę płynącą z
obserwacji, jest podstawą wnioskowania bayesowskiego.
Zadania statystyki bayesowskiej:
estymacja parametru θ
przedział ufności
weryfikacja hipotez o parametrze.
Agata Boratyńska Wykłady ze statystyki matematycznej
118
ESTYMACJA
1. Bayesowski estymator największej wiarogodności pa-
rametru θ - moda rozkładu a posteriori parametru θ
BEN W (θ)(x) = arg sup π(θ|x)
2. Estymator bayesowski przy zadanej funkcji straty
Niech L(θ, a) będzie funkcją straty jaką ponosi statystyk wybiera-
jąc za wartość estymatora a, gdy prawdziwą wartością parametru
jest θ.
Przykłady: Niech g(θ) - wielkość estymowana
L(θ, a) = (g(θ) − a)
2
- kwadratowa funkcja straty;
L(θ, a) = w(θ)(g(θ)−a)
2
- uogólniona kwadratowa funkcja straty;
L(θ, a) = |g(θ) − a| - modułowa funkcja straty;
L(θ, a) = exp(c(g(θ) − a)) − c(g(θ) − a) − 1 - funkcja straty linex
(liniowo-wykładnicza)
Miernik jakości estymatora ˆ
g - ryzyko a posteriori
R
x
(Π, ˆ
g(x)) = E[L(θ, ˆ
g(X))|X = x] =
Z
Θ
L(θ, ˆ
g(x))π(θ|x)dθ,
E(h(θ)|x) - oznacza wartość oczekiwaną funkcji h(θ), gdy θ ma
rozkład a posteriori przy X = x i rozkładzie a priori Π.
Estymator ˆ
g
B
Π
nazywamy estymatorem bayesowskim ⇐⇒
∀x
R
x
(Π, ˆ
g
B
Π
(x)) = inf
a
R
x
(Π, a)
Agata Boratyńska Wykłady ze statystyki matematycznej
119
Przy kwadratowej funkcji straty
ˆ
g
B
Π
(x) = E(g(θ)|x)
(o ile ta wartość oczekiwana istnieje i jest skończona i ryzyko bay-
esowskie jest skończone).
Dowód:
R
x
(Π, a) = E((g(θ) − a)
2
|x) = E(g
2
(θ)|x) − 2aE(g(θ)|x) + a
2
Jest to kwadratowa funkcja zmiennej a i osiąga minimum dla a =
E(g(θ)|x).
Przy modułowej funkcji straty
ˆ
g
B
Π
(x) = med(Π
x
)
PRZEDZIAŁY UFNOŚCI HPD
Bayesowskim przedziałem ufności HPD dla parametru
θ na poziomie ufności 1 − α nazywamy zbiór A ⊂ Θ, taki że
∀θ ∈ A
π(θ|x) > k
α
i
Π (A|x) 1 − α
Agata Boratyńska Wykłady ze statystyki matematycznej
120
PRZYKŁAD:
X
1
, X
2
, . . . , X
n
- i.i.d. N (θ, σ
2
), θ - nieznane, σ znane
θ ∼ N (µ, τ
2
) - rozkład a priori
Rozkład a posteriori N (µ
∗
, τ
2
∗
) gdzie
µ
∗
=
n
σ
2
¯
x +
µ
τ
2
n
σ
2
+
1
τ
2
i
τ
2
∗
=
n
σ
2
+
1
τ
2
−1
Estymator bayesowski parametru θ przy kwadratowej funkcji sraty
ˆ
θ
B
Π
(x
1
, x
2
, . . . , x
n
) = µ
∗
=
n
σ
2
¯
x +
µ
τ
2
n
σ
2
+
1
τ
2
Bayesowski przedział ufności dla θ na poziomie ufności 1 − α
µ
∗
− u
1−
α
2
τ
∗
, µ
∗
− u
1−
α
2
τ
∗