Data ostatniej aktualizacji: piątek, 2 grudnia 2011, godzina 16:39
Marek Cieciura, Janusz Zacharski
PODSTAWY PROBABILISTYKI
Z PRZYKŁADAMI ZASTOSOWAŃ
W INFORMATYCE
CZĘŚĆ IV
STATYSTYKA MATEMATYCZNA
Na prawach rękopisu
Warszawa, wrzesień 2011
2
Statystyka jest bardziej sposobem myślenia lub wnioskowania niż pęczkiem recept
na młócenie danych w celu odsłonięcia odpowiedzi - Calyampudi Radhakrishna Rao
Podręcznik:
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ
W INFORMATYCE
publikowany jest w częściach podanych poniżej
Nr
Tytuł
I.
Wprowadzenie
II.
Statystyka opisowa
III.
Rachunek prawdopodobieństwa
IV.
Statystyka matematyczna
V.
Przykłady zastosowań w informatyce
VI.
Dowody wybranych twierdzeń
VII.
Tablice statystyczne
Autorzy proszą o przesyłanie wszelkich uwagi i propozycji dotyczących zawartości
podręcznika z wykorzystaniem formularza kontaktowego zamieszczonego w portalu
http://cieciura.net/mp/
Publikowane części będą na bieżąco poprawiane, w każdej będzie podawana data ostatniej
aktualizacji.
Podręcznik udostępnia się na warunku licencji
Creative Commons (CC)
: Uznanie Autorstwa
– Użycie Niekomercyjne – Bez Utworów Zależnych (CC-BY-NC-ND),co oznacza:
•
Uznanie Autorstwa (ang. Attribution - BY): zezwala się na kopiowanie,
dystrybucję, wyświetlanie i użytkowanie dzieła i wszelkich jego pochodnych pod
warunkiem umieszczenia informacji o twórcy.
•
Użycie Niekomercyjne (ang. Noncommercial - NC): zezwala się na
kopiowanie, dystrybucję, wyświetlanie i użytkowanie dzieła i wszelkich jego
pochodnych tylko w celach niekomercyjnych..
•
Bez Utworów Zależnych (ang. No Derivative Works - ND): zezwala się na
kopiowanie, dystrybucję, wyświetlanie tylko dokładnych (dosłownych) kopii dzieła,
niedozwolone jest jego zmienianie i tworzenie na jego bazie pochodnych.
Podręcznik i skorelowany z nim portal, są w pełni i powszechnie dostępne, stanowią więc
Otwarte Zasoby Edukacyjne
- OZE (ang. Open Educational Resources – OER).
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
3
SPIS TREŚCI
14. STATYSTYKI I ICH ROZKŁADY....................................................................................... 5
14.1.
P
RÓBA JAKO ZMIENNA LOSOWA WIELOWYMIAROWA
............................................................ 5
14.2.
P
ODSTAWOWE STATYSTYKI I ICH ROZKŁADY
........................................................................ 6
14.2.1. Wykazy statystyk .......................................................................................................... 6
14.2.2. Rozkład średniej z próby .............................................................................................. 7
14.2.3. Rozkład statystyk związanych z wariancją z próby ....................................................... 8
15. ESTYMACJA PARAMETRÓW.......................................................................................... 12
15.1.
W
PROWADZENIE
............................................................................................................... 12
15.2.
E
STYMACJA PUNKTOWA
.................................................................................................... 12
15.2.1. Klasyfikacja estymatorów i nierówność Rao-Cramera ............................................... 13
15.2.2. Estymacja wartości oczekiwanej rozkładu normalnego .............................................. 14
15.2.3. Estymatory wariancji rozkładu normalnego ............................................................... 15
15.2.4. Metoda największej wiarygodności otrzymywania estymatorów ................................. 17
15.2.5. Zestawienie estymatorów parametrów rozkładu zmiennej losowej i ich własności...... 19
15.3.
E
STYMACJA PRZEDZIAŁOWA
.............................................................................................. 20
15.3.1. Uwagi wstępne........................................................................................................... 20
15.3.2. Wyznaczenie przedziału ufności dla wartości oczekiwanej rozkładu normalnego ....... 21
15.3.3. Tabela przedziałów ufności........................................................................................ 24
15.3.4. Wyznaczanie wielkości próby..................................................................................... 28
15.3.5. Wykorzystanie arkusza Excel ..................................................................................... 30
16. WERYFIKACJA HIPOTEZ ................................................................................................ 31
16.1
W
PROWADZENIE
................................................................................................................ 31
16.1.1. Uwagi wstępne........................................................................................................... 31
16.1.2. Pzykład konstrukcji testu parametrycznego do weryfikacji hipotezy o wartości
oczekiwanej........................................................................................................................... 34
16.1.3. Pzykład konstrukcji testu parametrycznego do weryfikacji hipotezy o równości wartości
oczekiwanych ........................................................................................................................ 35
16.1.4. Uwagi o weryfikacji hipotez parametrycznych ........................................................... 37
16.2.
T
ESTY PARAMETRYCZNE DLA JEDNEJ PRÓBY
...................................................................... 38
16.2.1. Testy do weryfikacji hipotezy o wartości oczekiwanej................................................. 38
16.2.2. Testy do weryfikacji hipotezy o wariancji i odchyleniu standardowym ....................... 43
16.2.3. Testy do weryfikacji hipotezy o wskaźniku struktury ................................................... 44
16.3.
T
ESTY PARAMETRYCZNE DLA DWÓCH PRÓB
........................................................................ 45
16.3.1. Testy do porównywania wartości oczekiwanych dla prób niezależnych ...................... 45
16.3.2. Testy do porównywania wartości oczekiwanych – próby zależne................................ 53
16.3.3. Testy do porównywania wariancji.............................................................................. 57
16.3.4. Testy do porównywania wskaźników struktury ........................................................... 59
16.4.
T
ESTY NIEPARAMETRYCZNE DLA JEDNEJ PRÓBY
................................................................. 61
16.4.1. Ocena losowości próby .............................................................................................. 61
16.4.2. Test zgodności chi kwadrat ........................................................................................ 62
16.4.3. Ocena normalności rozkładu ..................................................................................... 65
16.4.4. Test niezależności chi kwadrat ................................................................................... 68
16.5.
T
ESTY NIEPARAMETRYCZNE DLA DWÓCH PRÓB
................................................................... 73
16.5.1. Test zgodności rozkładów dla prób niepowiązanych (test Wilcoxona) ........................ 73
16.5.2. Test zgodności rozkładów dla prób powiązanych (test rangowanych znaków) ............ 75
16.6.
A
LGORYTMIZACJA OBLICZEŃ
............................................................................................. 77
16.6.1. Wykorzystanie arkusza Excel ..................................................................................... 77
16.6.2.Zasady wyboru testu przy dwóch próbach................................................................... 78
STATYSTYKA MATEMATYCZNA
4
17. ANALIZA KORELACJI I REGRESJI DWÓCH ZMIENNYCH...................................... 79
17.1.
W
PROWADZENIE
............................................................................................................... 79
17.2.
A
NALIZA KORELACJI
.......................................................................................................... 80
17.2.1. Uwagi wstępne........................................................................................................... 80
17.2.2. Estymacja współczynnika korelacji cech populacji..................................................... 80
17.2.3. Weryfikacja hipotez o współczynniku korelacji........................................................... 82
17.2.4. Współczynnik korelacji Spearmana ............................................................................ 84
17.2.5. Współczynnik korelacji Cramera................................................................................ 87
17.3.
A
NALIZA REGRESJI
............................................................................................................ 88
17.3.1. Uwagi wstępne........................................................................................................... 88
17.3.2. Estymatory współczynników regresji.......................................................................... 88
17.3.3. Rozkłady estymatorów współczynników regresji......................................................... 92
17.3.4. Estymacja przedziałowa współczynników regresji...................................................... 92
17.3.5. Weryfikacja hipotez o współczynnikach regresji......................................................... 94
18. WPROWADZENIE DO ZAAWANSOWANYCH METOD STATYSTYCZNYCH......... 96
18.1.
C
HARAKTERYSTYKA ZAAWANSOWANYCH METOD STATYSTYCZNYCH
................................. 96
18.2.
A
LGORYTMIZACJA WYBORU METOD STATYSTYCZNYCH
.................................................... 100
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
5
14. STATYSTYKI I ICH ROZKŁADY
Począwszy od tego rozdziału będziemy przedstawiali teorię i zastosowania statystyki
matematycznej. Rozważymy najpierw sytuacje, w których badana jest jedna cecha populacji lub
dwie cechy różnych populacji tak, że można je traktować jako zmienne losowe niezależne.
Wówczas o próbach pobranych z tych populacji mówimy, że są niepowiązane.
14.1. Próba jako zmienna losowa wielowymiarowa
W dalszych rozważaniach będzie potrzebna nowa definicja próby umożliwiająca korzystanie
w statystyce z rachunku prawdopodobieństwa.
Badana jest cecha X populacji. Niech X
1
, X
2
, ... X
n
będą zmiennymi losowymi niezależnymi
o jednakowym rozkładzie, takim jak rozkład cechy X. Próba losowa n-elementowa ze względu na
cechę X (próba n elementowa)
jest to zmienna losowa n-wymiarowa
(X
1
, X
2
, ..., X
n
) (14.1)
Interpretacja
Zmienna losowa X
1
jest modelem wartości cechy X pierwszego elementu wylosowanego
z populacji do próby, X
2
modelem drugiego elementu itd. Ponieważ do próby losujemy elementy
metodą ze zwracaniem, więc każdy element populacji ma te same szanse być
wylosowany, dlatego przyjmuje się, że zmienne losowe są niezależne.
Każdą wartość
(x
1
, x
2
, ..., x
n
)
(14.2)
próby (14.1) nazywamy realizacją próby lub także próbą.
Przykład 14.1
Rozważamy populację gospodarstw domowych na terenie Warszawy. Populację tę badamy ze
względu na cechę X – liczba osób w gospodarstwie. Z populacji pobieramy próbę
pięcioelementową. Losujemy ze zwracaniem pięć gospodarstw domowych. Przypuśćmy,
ż
e otrzymaliśmy wartości cechy X: 2, 3, 1, 3, 4. Zatem zmienna losowa X
1
oznaczająca liczbę osób
w wylosowanym pierwszym gospodarstwie przyjęła wartość 2, zmienna losowa X
2
oznaczająca
liczbę osób w wylosowanym drugim gospodarstwie przyjęła wartość 3 itd.
Próba
(X
1
, X
2
, X
3
, X
4
, X
5
)
(14.3)
przyjęła wartość
(2, 3, 1, 3, 4)
(14.4)
Przypuśćmy, że badanie powtórzono i otrzymano teraz następujące wartości cechy X: 3,1,1,2,2.
Otrzymaliśmy inną wartość próby (14.3), mianowicie
(3, 1 ,1, 2, 2) (14.5)
Ciągi (14.4) i (14.5) są realizacjami próby (14.3).
Statystyki
Aby można było przeprowadzić analizę statystyczną należy przekształcić próbę, czyli rozpatrywać
funkcje próby. Funkcje próby (14.1) nazywamy statystykami
U
n
= g(X
1
, X
2
, ..., X
n
) (14.6)
Przykład 14.2
Jeśli interesujemy się średnią liczbą osób w gospodarstwach domowych wybranych do próby,
to należy rozważyć zmienną losową
1
2
3
4
5
5
X +X +X +X +X
U =
5
ś
rednia arytmetyczna z próby
(14.7)
STATYSTYKA MATEMATYCZNA
6
Zmienna ta jest funkcją próby (14.3), jest zatem statystyką. Wartościami (realizacjami) tej
statystyki, dla realizacji próby (14.4) i (14.5) są liczby
5
2+3+1+3+4
u =
=2,6
5
i
5
3+1+1+2+2
u =
=1,8
5
14.2. Podstawowe statystyki i ich rozkłady
14.2.1. Wykazy statystyk
Przedstawimy teraz dwa wykazy najczęściej stosowanych statystyk.
•
Wykaz statystyk klasycznych, tj. statystyk, których wartości zależą od wszystkich zmiennych
losowych wchodzących w skład próby.
•
Wykaz statystyk pozycyjnych, tj. statystyk, których wartości zależą tylko od niektórych
zmiennych losowych wchodzących w skład próby, głównie od tych, które zajmują odpowiednią
pozycję w próbie.
Tabela 14.1 Wykaz statystyk klasycznych
Lp
Postać
Nazwa / Komentarz
1
n
n
i
i 1
1
X
X
n
=
=
∑
Ś
rednia z próby
2
n
2
2
n
i
n
i 1
1
S
(X
X )
n
=
=
−
∑
Wariancja z próby (obciążona
1
)
3
n
2
n
i
n
i 1
1
S
(X
X )
n
=
=
−
∑
Odchylenie standardowe z próby
4
n
2
2
n
i
n
i 1
1
ˆS
(X
X )
n 1
=
=
−
−
∑
Wariancja z próby (nieobciążona
2
)
5
n
o2
2
n
i
i 1
1
S
(X
m)
n
=
=
−
∑
m=EX
6
2
o2
n
n
i
n
2
i 1
nS
X
m
U
=
−
=
=
σ
σ
∑
m=EX, σ=DX
7
2
2
n
n
i
n
n
2
i 1
nS
X
X
U
=
−
=
=
σ
σ
∑
8
n
k
n
i
i 1
1
U
X
n
=
=
∑
Moment z próby rzędu k
9
n
k
n
i
n
i 1
1
U
(X
X )
n
=
=
−
∑
Moment centralny z próby rzędu k
10
n
n
n
X
m
U
n 1
S
−
=
−
11
n
Y
W( ) =
n
ω
Y
n
- liczba jedynek w próbie -
patrz poniższa uwaga
Wskaźnik struktury wariantu ω.
1
Wyjaśnienie nazwy w podpukcie 15.2.1.
2
Jak wyżej
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
7
Tabela 14.2. Wykaz statystyk pozycyjnych
Podobnie definiuje się inne statystyki pozycyjne np. decyle z próby i centyle z próby.
Uwaga: Każdemu elementowi próby przyporządkowujemy 1, gdy element ma wartość cechy X
równą wariantowi ω lub 0 w przeciwnym przypadku. Wtedy próba (X
1
, X
2
, ..., X
n
) jest ciągiem
zmiennych losowych o rozkładach zerojedynkowych, a każda realizacja próby jest ciągiem
n- elementowym zer lub jedynek.
14.2.2. Rozkład średniej z próby
Ś
rednia z próby n-elementowej jest to statystyka
n
n
i
i=1
1
X =
X
n
∑
Parametry średniej
Jeśli cecha X populacji ma wartość oczekiwaną m i wariancję
2
σ , to
n
EX =m ,
2
2
n
σ
D X =
n
,
n
σ
DX =
n
Rozkład średniej
Jeśli cecha X populacji ma rozkład normalny N(m, σ), to średnia arytmetyczna
n
X ma rozkład
normalny N
σ
m,
n
. Twierdzenie to wynika z własności rozkładu normalnego
3
.
Rozkład asymptotyczny średniej
Jeśli cecha X populacji ma wartość oczekiwaną m i wariancję
2
σ
>0 , to dla dużych n średnia
arytmetyczna
n
X
ma rozkład asymptotycznie normalny N
σ
m,
n
.
Twierdzenie to wynika z faktów:
a) na podstawie tw. Lindeberga-Levy’ego
4
suma
n
i
i=1
X
∑
ma rozkład asymptotycznie normalny,
b) funkcja liniowa zmiennej losowej o rozkładzie normalnym ma rozkład normalny.
Oba rozkłady średniej (dokładny i asymptotyczny) potwierdzają znany nam fakt, wynikający
z prawa wielkich liczb Chinczyna, że średnia arytmetyczna dużej liczby zmiennych losowych ma
rozkład skupiony przy wartości oczekiwanej. Teraz ten fakt został ujęty ilościowo.
3
Patrz podpunkt 21.1.1.
części VII Wybrane twierdzenia z dowodami
4
Patrz podpunkt 9.2.2 części III Rachunek prawdopodobieństwa
Nazwa statystyki
Symbol
Definicja statystyki
Mediana z próby
M
e
Statystyka przyjmująca dla każdej realizacji
próby medianę w tej realizacji
Kwantyl rzędu p z próby
K
p
Statystyka przyjmująca dla każdej realizacji
próby kwantyl rzędu p w tej realizacji
Kwartyl pierwszy, drugi i trzeci z próby
Q
1
, Q
2
, Q
3
Statystyka przyjmująca dla każdej realizacji
próby odpowiedni kwartyl w tej realizacji
Rozstęp z próby
R
o
Statystyka przyjmująca dla każdej realizacji
próby rozstęp w tej realizacji
STATYSTYKA MATEMATYCZNA
8
Przykład 14.1
Cecha X populacji ma rozkład normalny N(3,1). Obliczymy prawdopodobieństwa
16
400
P( X-3 <0,1), P( X -3 <0,1), P( X -3 <0,1) .
Rozwiązanie
(
)
(
)
P X-3 <0,1 =2Φ 0,1 -1=2 0,5398-1=0,08
⋅
Statystyka
16
X
ma rozkład
1
N 3,
16
, czyli rozkład
1
N 3,
4
. Zatem
16
16
1
1
P( X -3 <0,1)=P X -3 : <0,1:
=2Φ(0,4)-1= 2 0,4556-1=0,30
4
4
⋅
Statystyka
400
X
ma rozkład
1
N 3,
400
czyli rozkład
1
N 3,
.
20
Zatem
400
400
1
1
P( X -3 <0,1)=P X -3 :
<0,1:
=2Φ(2)-1=2 0,97725-1=0,955
20
20
⋅
Obliczyliśmy prawdopodobieństwa, że zmienne losowe X,
16
X
,
400
X
przyjmą wartości
z otoczenia o promieniu 0,1 swoich wartości oczekiwanych. Widać, że to prawdopodobieństwo dla
zmiennej losowej X jest małe, umiarkowanej wartości dla średniej
16
X i bardzo duże dla średniej
400
X
. Potwierdza to wcześniej sformułowaną właściwość średniej z próby, o przyjmowaniu przez
nią wartości z prawdopodobieństwem bliskim jedności mało różniących się od jej wartości
oczekiwanej (a także cechy populacji), gdy próba jest liczna. Wynika stąd, że wartości statystyki
n
X mogą służyć do oceny wartości oczekiwanej, gdy wartość ta nie jest znana, a próba ma dużo
elementów.
14.2.3. Rozkład statystyk związanych z wariancją z próby
Wariancja z próby n-elementowej jest to statystyka
n
2
2
n
i
n
i 1
1
S
(X
X )
n
=
=
−
∑
Odchylenie standardowe z próby n-elementowej jest to statystyka
n
2
n
i
n
i 1
1
S
(X
X )
n
=
=
−
∑
Interpretacja
Zauważmy, że dla realizacji próby, której elementy mało różnią się od siebie realizacja
2
n
s
statystyki
2
n
S jest liczbą bliską zeru, natomiast dla realizacji próby, której elementy różnią się
znacznie od siebie, ta realizacja jest dużą liczbą. Podobne uwagi dotyczą odchylenia standardowego
z próby. Zatem statystyki
2
n
S
i S
n
są miarami zróżnicowania elementów próby względem średniej
z próby.
Z wariancją z próby związane są statystyki
(
)
n
2
2
nn
i
n
i=1
1
ˆS =
X -X
n-1
∑
oraz
(
)
n
2
o2
n
i
i=1
1
S =
X -m
n
∑
gdzie m jest wartością oczekiwaną cechy X populacji.
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
9
Zauważmy, że między statystykami
2
o2
n
n
ˆS i S występują związki
2
2
n
n
n
ˆS =
S
n-1
oraz
2
n
nS =(n-1)
(
)
n
2
2
nn
i
n
i=1
ˆS =
X -X
∑
Rozkłady statystyk
2
o2
n
n
2
2
nS
nS
i
σ
σ
Zakładamy, że cecha X populacji ma rozkład normalny N(m, σ). Wtedy statystyka
2
o2
n
n
i
2
i=1
nS
X -m
=
σ
σ
∑
jest sumą kwadratów n niezależnych zmiennych losowych o rozkładzie normalnym N(0, 1), zatem
ma rozkład
2
χ z n stopniami swobody
5
.
Natomiast statystyka
2
2
n
n
i
n
2
i=1
nS
X -X
=
σ
σ
∑
różni się tym od statystyki
o2
n
2
nS
σ
, że zamiast różnicy X
i
- m występuje różnica
i
n
X - X . Można
udowodnić, że ma ona także rozkład
2
χ , tyle, że z n-1 stopniami swobody. Zatem prawdziwe jest
twierdzenie:.
Jeśli cecha X populacji ma rozkład normalny N(m, σ), to statystyka
o2
n
2
nS
σ
ma rozkład
2
χ
z n stopniami swobody. Statystyka
2
n
2
nS
σ
ma rozkład
2
χ
z n-1 stopniami swobody.
Zbieżność statystyk
2
2
o2
n
n
n
ˆ
S ,S ,S
Jeśli cecha populacji X ma wariancję
2
σ , to ciągi
( )
( )
( )
2
2
o2
n
n
n
ˆ
S , S , S
są zbieżne według
prawdopodobieństwa do wariancji
2
σ , natomiast ciągi
( )
( )
( )
o
n
n
n
ˆ
S , S , S są zbieżne według
prawdopodobieństwa do odchylenia standardowego
σ
.
Wynika stąd, że dla licznej próby wartości statystyk
2
2
o2
n
n
n
ˆ
S , S , S mogą służyć do oceny wariancji
2
σ
, natomiast wartości statystyk
o
n
n
n
ˆ
S ,S ,S do oceny odchylenia standardowego
σ
.
Wartość oczekiwana statystyk
2
2
o2
n
n
n
ˆ
S , S , S
2
2
2
2
o2
2
n
n
n
n-1
ˆ
ES =
σ
,
E S =σ ,
E S =σ .
n
5
Patrz ppkt 6.2.5 - definicja rozkładu chi kwadrat.
STATYSTYKA MATEMATYCZNA
10
W tabelach 14.2. i 14.3. podano zestawienie wybranych statystyk wraz z ich rozkładami
6
.
Tabela 14.2. Rozkłady statystyk dla jednej cechy populacji
Rozkład cechy populacji
Statystyka
Rozkład statystyki
n
X
Normalny
σ
N m,
n
2
n
2
nS
σ
2
χ z n-1 stopniami swobody
o2
n
2
nS
σ
2
χ z n stopniami swobody
Normalny N(m,
σ
)
n
n
X -m
n-1
S
Studenta z n-1 stopniami swobody
Dowolny z wartością
oczekiwaną m i wariancją
0
2
>
σ
n
X
Asymptotycznie normalny
σ
N(m,
)
n
dla dużych n
Zerojedynkowy
p
1
)
0
X
(
P
p
)
1
X
(
P
−
=
=
=
=
p- prawdopodobieństwo
sukcesu
Wskaźnik struktury
(częstość sukcesu)
n
Y
n
Y
n
- liczba jedynek w
próbie
Asymptotycznie normalny
p(1-p)
N p,
n
,
Dla przypadku, gdy X: N(m,
σ
), podane w tabeli 14.3. rozkłady statystyk można zilustrować
w sposób następujący.
Rys. 14.1. Rozkłady wybranych statystyk
6
Patrz punkt 21.1. części VII Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
11
Tabela 14.4. Rozkłady statystyk dla dwóch niezależnych cech populacji
Rozkład cechy X Rozkład cechy Y
Statystyka
Rozkład statystyki
Normalny
N(m,
σ
1
)
Normalny
N(m,
σ
2
)
1
2
n
n
2
2
1
2
1
2
X -Y
σ
σ
+
n
n
Normalny
N(0,1)
Normalny
N(m,
σ
)
Normalny
N(m,
σ
)
1
2
1
2
n
n
1 2
1
2
2
2
1
2
1 n
2 n
X -Y
nn
(n +n -2)
n +n
nS +n S
Studenta z n
1
+ n
2
-2
stopniami swobody
Normalny
N(m
1
, σ )
Normalny
N(m
2
, σ )
1
2
2
nn
2
n
ˆS
ˆS
Snedecora z parą
(n
1
-1, n
2
-1) stopni
swobody
Dowolny
z wartością
oczekiwaną m
1
i z wariacją
2
1
σ
Dowolny
z wartością
oczekiwaną m
2
i z wariacją
2
2
σ
1
2
1
2
n
n
2
2
n
n
1
2
X -Y
S
S
+
n
n
Asymptotycznie normalny
N(0,1)
STATYSTYKA MATEMATYCZNA
12
15. ESTYMACJA PARAMETRÓW
15.1. Wprowadzenie
W teorii estymacji wyróżnia się: estymację parametryczną i estymację nieparametryczną.
Estymacja parametryczna
dotyczy szacowania nieznanych parametrów rozkładu. Problem
estymacji parametrycznej, odnoszący się do jednej cechy jest następujący:
Populacja badana jest ze względu na cechę X o rozkładzie zależnym od parametru Q, tzn.
dystrybuanta tej cechy jest postaci F
Q
(x), przy czym dla każdego Q należącego do pewnego zbioru
Ω
– przestrzeni parametru Q, dystrybuanta ta jest znana. Przy tych założeniach wnioskowanie
o rozkładzie cechy X sprowadza się do oszacowania (estymacji) na podstawie próby wartości
parametru Q.
Wyróżnia się dwa sposoby szacowania parametru Q: oszacowanie punktowe i oszacowanie
przedziałowe.
Estymacja nieparametryczna
dotyczy szacowania postaci funkcyjnej rozkładu, np. w postaci
dystrybuanty. Można w tym celu stosować, analogicznie jak przy estymacji parametrycznej,
oszacowanie punktowe lub przedziałowe. Przy szacowaniu przedziałowym wyznacza się obszar
(pas) ufności
.
15.2. Estymacja punktowa
Estymacja punktowa parametru Q polega na:
Wybraniu pewnej statystyki U
n
o rozkładzie zależnym od parametru Q.
Obliczeniu na podstawie próby wartości u
n
statystyki U
n
Przyjęciu, że u
n
jest oszacowaniem parametru Q, co zapisujemy
n
ˆQ = u
i czytamy: oceną parametru Q jest u
n
.
Statystyka U
n
nazywa się wówczas estymatorem parametru Q.
Znanych jest szereg metod wyznaczania estymatorów. Najważniejsze z nich to: metoda momentów,
metoda największej wiarygodności, metoda najmniejszych kwadratów – autor Carl Gauss, metoda
estymacji bayesowskiej i metoda estymacji minimaksowej.
Poniżej podano istotę pierwszej z wymienionych metod, druga zostanie scharakteryzowana
w punkcie 15.2.4, a trzecia w punkcie 17.3.2.(łacznie z nawiązaniem do poprzednich)
Metoda momentów została opracowana pod koniec XIX wieku przez angielskiego statystyka
K. Pearsona. Zgodnie z tą metodą przyjmuje się, że estymatorem momentu cechy populacji jest
odpowiadający mu moment z próby, zaś estymatorem funkcji momentów populacji jest ta sama
funkcja momentów z próby.
Przykład 15.1
Badana jest cecha X populacji. Zgodnie z metodą momentów przyjmujemy, że estymatorem
wartości oczekiwanej m jest średnia z próby
n
n
i
i 1
1
X
X
n
=
=
∑
, natomiast estymatorem wariancji σ
2
jest wariancja z próby
(
)
n
2
2
n
i
n
i=1
1
S =
X -X
n
∑
.
Należy podkreślić, że charakterystyki liczbowe opisane w ramach statystyki opisowej pokrywają się
z estymatorami wyznaczonymi metodą momentów.
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
13
15.2.1. Klasyfikacja estymatorów i nierówność Rao-Cramera
Estymator zgodny
parametru Q jest to estymator U
n
zbieżny wg prawdopodobieństwa do Q, tzn.
n
n
lim P( U -Q <ε)=1
→∞
dla dowolnego ε >0
Estymator nieobciążony
parametru Q jest to estymator U
n
o wartości oczekiwanej równej
parametrowi Q
EU
n
= Q
Estymator najefektywniejszy
parametru Q jest to estymator nieobciążony tego parametru
o najmniejszej wariancji spośród wszystkich estymatorów nieobciążonych parametru Q.
Estymator obciążony
parametru Q jest to estymator U
n
taki, że
EU
n
≠ Q
Estymator asymptotycznie nieobciążony
parametru Q jest to estymator U
n
o granicy wartości
oczekiwanej równej parametrowi Q
n
n
lim EU =Q
→∞
Estymator asymptotycznie najefektywniejszy
parametru Q jest to estymator nieobciążony lub
asymptotycznie nieobciążony taki, że
2
n
2
n
n
D U
lim
=1
D U
→∞
(
gdzie
n
U
(
jest estymatorem najefektywniejszym parametru Q.
Interpretacja
Jeśli estymator jest estymatorem zgodnym parametru Q, to dla dużej próby
z prawdopodobieństwem bliskim 1 ocena parametru i parametr mało różnią się.
Jeśli estymator parametru Q jest nieobciążony, to otrzymujmy oceny bez błędu systematycznego.
Jeśli bowiem byłoby
n
EU <Q , to otrzymywalibyśmy oceny średnio zaniżone. Natomiast, gdyby
n
EU >Q , to otrzymywalibyśmy oceny średnio zawyżone.
Jeśli estymator jest estymatorem najefektywniejszym parametru Q, to jego rozkład jest najbardziej
skupiony przy parametrze Q, zatem otrzymujemy oceny bliższe parametrowi Q, niż przy innych
estymatorach.
Estymator asymptotycznie nieobciążony jest praktycznie estymatorem nieobciążonym, gdy próba
jest liczna, także estymator asymptotycznie najefektywniejszy jest praktycznie, dla dużej próby,
estymatorem najefektywniejszym.
Zgodność, a nieobciążoność estymatora
Poniższe twierdzenie jest użyteczne przy badaniu zgodności estymatora.
Jeśli U
n
jest estymatorem nieobciążonym lub asymptotycznie nieobciążonym parametru Q oraz
2
n
n
lim D U =0
→∞
to U
n
jest estymatorem zgodnym tego parametru.
Nierówność Rao-Cramera
Jeśli cecha populacji X jest zmienną losową skokową o funkcji prawdopodobieństwa zależnej od
parametru Q
k
k
P(X=x )=p (Q)
i U
n
jest estymatorem nieobciążonym parametru Q oraz spełnione są warunki regularności
7
, to
wariancja estymatora U
n
spełnia tzw. nierówność Rao-Cramera
7
Leitner Roman, Zacharski Janusz: Zarys matematyki wyższej dla studentów, część III, WNT, Warszawa 1998 - str. 298
STATYSTYKA MATEMATYCZNA
14
2
n
2
k
k
k
1
D U
d
n
lnp (Q) p (Q)
dQ
≥
∑
przy czym dla estymatora najefektywniejszego zachodzi równość w powyższej nierówności.
Jeśli cecha populacji X jest zmienną losową ciągłą o gęstości f
Q
(x) zależnej od parametru Q
i U
n
jest estymatorem nieobciążonym parametru Q oraz spełnione są warunki regularności
8
, to
wariancja estymatora U
n
spełnia nierówność Rao-Cramera w poniższej postaci
2
n
2
Q
Q
-
1
D U
n
ln f (x) f (x)dx
Q
∞
∞
≥
∂
∂
∫
przy czym dla estymatora najefektywniejszego zachodzi równość w powyższej nierówności.
Efektywność estymatora
Efektywność estymatora nieobciążonego U
n
parametru Q jest to liczba
2
n
n
2
n
D U
e =
D U
(
gdzie
2
n
D U
(
jest wariancją estymatora najefektywniejszego parametru Q.
Oczywiście
1
e
0
n
≤
<
Estymator U
n
jest estymatorem najefektywniejszym wtedy i tylko wtedy, gdy e
n
= 1.
15.2.2. Estymacja wartości oczekiwanej rozkładu normalnego
Cecha X populacji ma rozkład normalny N(m,
σ
), przy czym
σ
jest znane. Przyjmiemy,
ż
e
estymatorem warto
ś
ci oczekiwanej jest
ś
rednia z próby
n
n
i
i 1
1
X
X
n
=
=
∑
Zgodność
Cecha X ma rozkład z warto
ś
ci
ą
oczekiwana m.
Ś
rednia z próby
n
X
jest estymatorem zgodnym
warto
ś
ci oczekiwanej m, gdy
ż
na podstawie prawa wielkich liczb Chinczyna
9
n
n
lim P( X - m <
ε
)=1
→∞
dla dowolnego ε >0
Nieobciążoność
Poniewa
ż
n
n
n
n
k
k
k=1
k=1
k=1
1
1
1
1
EX =E
X =
EX =
m= nm=m
n
n
n
n
∑
∑
∑
wi
ę
c
ś
rednia z próby jest estymatorem nieobci
ąż
onym warto
ś
ci oczekiwanej.
Efektywność
Obliczymy najpierw wariancj
ę
estymatora najefektywniejszego warto
ś
ci oczekiwanej rozkładu
normalnego, a nast
ę
pnie wariancj
ę
ś
redniej z próby i porównamy otrzymane wielko
ś
ci.
8
Patrz jw
9
Patrz
ppkt 9.4.3. części III Rachunek prawdopodobieństwa
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
15
Je
ś
li
n
U%
jest estymatorem najefektywniejszym, to jego wariancja jest równa prawej stronie
nierówno
ś
ci Rao-Cramera
{
}
2
n
2
m
m
-
1
1
D U =
= ozn.
M
n
lnf (x) f (x)dx
m
∞
∞
=
∂
∂
∫
%
gdzie:
2
2
-(x-m) /(2σ )
m
1
f (x)=
e
σ
2
π
Zatem
2
m
2
1
(x-m)
lnf (x)=ln
-
2σ
σ
2π
i
m
2
(x-m)
lnf (x)=
m
σ
∂
∂
2
2
2
m
4
4
4
2
-
n
n
n
n
M=
(x-m) f (x)dx=
D X=
σ
=
σ
σ
σ
σ
∞
∞
∫
Czyli
2
2
n
2
1
σ
D U =
=
1
n
n
σ
(
wariancja estymatora najefektywniejszego wartości oczekiwanej rozkładu normalnego
2
n
n
n
2
2
2
2
2
n
k
k
2
2
2
k=1
k=1
k=1
1
1
1
1
σ
D X =D
X =
D X =
σ
=
n
σ
=
n
n
n
n
n
∑
∑
∑
Zatem
2
n
D X =
2
n
D U
(
, wi
ę
c
ś
rednia z próby jest estymatorem najefektywniejszym warto
ś
ci
oczekiwanej rozkładu normalnego.
Z powy
ż
szego wynika,
ż
e
ś
rednia z próby
n
X
jest estymatorem zgodnym, nieobci
ąż
onym
i najefektywniejszym warto
ś
ci oczekiwanej rozkładu normalnego.
15.2.3. Estymatory wariancji rozkładu normalnego
Estymatorami wariancji s
ą
statystyki
(
)
n
2
2
n
i
n
i=1
1
S =
X -X
n
∑
(
)
n
2
o2
n
i
i=1
1
S =
X -m
n
∑
(
)
n
2
2
n
i
n
i=1
1
ˆS =
X -X
n-1
∑
Zbadamy własno
ś
ci tych estymatorów przy zało
ż
eniu, i
ż
rozkład cechy jest normalny.
W ppkt 14.2.3. stwierdzili
ś
my,
ż
e statystyki
2
o2
n
n
2
2
nS
nS
i
σ
σ
maj
ą
rozkłady chi kwadrat z n-1
i n stopniami swobody oraz,
ż
e rozkład chi kwadrat z n stopniami swobody ma warto
ść
oczekiwan
ą
równ
ą
n i wariancj
ę
2n.
Nieobciążoność
10
2
n
2
nS
E
=n-1
σ
oraz
2
2
n
n
2
2
nS
n
E
=
ES
σ
σ
zatem
2
2
n
n-1
ES =
σ
n
o2
n
2
nS
E
=n
σ
oraz
o2
o2
n
n
2
2
nS
n
E
=
ES
σ
σ
zatem
o2
2
n
ES =
σ
2
2
2
2
2
n
n
n
n
n
n n-1
ˆ
ES =E
S =
ES =
σ
=σ
n-1
n-1
n-1 n
10
W 21.2 części VI Wybrane twierdzenia wraz z dowodami oceniono obciążoność wariancji bez założenia o
normalności rozkładu
STATYSTYKA MATEMATYCZNA
16
Wnioski
Statystyki
o2
n
S i
2
n
ˆS s
ą
estymatorami nieobci
ąż
onymi wariancji
2
σ .
Statystyka
2
n
S
jest estymatorem obci
ąż
onym wariancji
2
σ ale
2
2
2
n
n
n
n-1
lim ES = lim
σ
=
σ
n
→∞
→∞
czyli jest estymatorem asymptotycznie nieobci
ąż
onym wariancji
2
σ .
Zgodność
Przy badaniu zgodno
ś
ci estymatorów wariancji
2
σ wykorzystamy twierdzenie podane w punkcie
15.2.1. Poniewa
ż
rozwa
ż
ane estymatory wariancji s
ą
nieobci
ąż
one lub asymptotycznie
nieobci
ąż
one, to zgodnie z tym twierdzeniem b
ę
d
ą
estymatorami zgodnymi, gdy ich wariancje
zbie
ż
ne s
ą
do zera. Obliczymy te wariancje
2
2
n
2
nS
D
=2(n-1)
σ
oraz
2
2
2
2 2
n
n
2
4
nS
n
D
=
D S ,
σ
σ
zatem
(
)
2 2
4
n
2
2 n-1
D S =
σ
0
n
→
o2
2
n
2
nS
D
=2n
σ
oraz
o2
2
2
o2
n
n
2
4
nS
n
D
=
ES ,
σ
σ
zatem
4
2 o2
n
2σ
D S =
0
n
→
(
)
(
)
(
)
2
2
4
2 2
2
2
2 2
4
n
n
n
2
2
2
2 n-1
n
n
n
2σ
ˆ
D S =D
S =
D S =
σ
=
0
n-1
n
n-1
n-1
n-1
→
Wniosek. Statystyki
2
n
S ,
2
o
n
S ,
2
n
Sˆ są estymatorami zgodnymi wariancji
2
σ
Efektywność
Jeśli
n
U
(
jest estymatorem najefektywniejszym wariancji
2
σ , to jego wariancja jest równa prawej
stronie nierówności Rao-Cramera, czyli
{
}
2
2
2
n
2
2
σ
σ
-
1
1
D U =
= ozn.
M
n
lnf (x) f (x)dx
σ
∞
∞
=
∂
∂
∫
%
gdzie:
2
2
2
-(x-m) /(2σ )
σ
1
f (x)=
e
σ
2π
Zatem
2
2
2
2
σ
1
1
(x-m)
lnf (x)=- lnσ -ln
-
2
2σ
2π
2
2
2
2
2
2
4
4
σ
1
(x-m)
(x-m) -σ
lnf (x)=-
+
=
σ
2σ
2σ
2σ
∂
∂
2
2
2
2
σ
σ
-
M = n
lnf (x) f (x)dx
σ
∞
∞
∂
∂
∫
=
2
2
2
2
4
σ
-
(x-m) -σ
n
f (x)dx
2σ
∞
∞
∫
=
2
2
2
4
2
2
4
8
σ
σ
σ
-
-
-
4
4
4
4
4
4
4
8
8
8
4
n
=
(x-m) f (x)dx-2σ
(x-m) f (x)dx+σ
f (x)dx =
4σ
n
1
2σ
n
=
µ
-2σ +σ =
3σ -2σ +σ =
=
4σ
2σ
4σ
2σ
∞
∞
∞
∞
∞
∞
∫
∫
∫
4
2
n
4
1
2σ
D U =
=
1
n
n
2σ
(
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
17
Porównując otrzymany wynik z wcześniej obliczonymi wariancjami estymatorów stwierdzamy, że
4
2 o2
2
n
n
2σ
D S =D U =
n
(
n
2
4
4
n
n
2 2
D U
2σ 2σ
n-1
e =
=
:
=
ˆ
n
n-1
n
D S
(
n
2
4
4
n
2 2
2
D U
2σ 2(n-1)σ
n
=
:
=
D S
n
n
n-1
(
Wnioski z powyższych równości
Statystyka
(
)
n
2
o2
n
i
i=1
1
S =
X -m
n
∑
jest estymatorem najefektywniejszym wariancji σ
2
rozkładu
normalnego.
Statystyka
(
)
n
2
2
n
i
n
i=1
1
ˆS =
X -X
n-1
∑
nie jest estymatorem najefektywniejszym wariancji σ
2
rozkładu
normalnego, ma efektywność (n-1)/n, jest więc estymatorem asymptotycznie najefektywniejszym.
Statystyka
(
)
n
2
2
n
i
n
i=1
1
S =
X -X
n
∑
jest estymatorem asymptotycznie najefektywniejszym wariancji σ
2
rozkładu normalnego.
Ponieważ statystyka ta nie jest estymatorem nieobciążonym, więc nie może być estymatorem
najefektywniejszym i nie można mówić o efektywności tego estymatora.
Estymatory odchylenia standardowego
Estymatory odchylenia standardowego przedstawione są w tabeli 15.2.
Zauważmy, że pierwiastek kwadratowy estymatora nieobciążonego wariancji σ
2
nie musi być
estymatorem nieobciążonym odchylenia standardowego σ.
15.2.4. Metoda największej wiarygodności otrzymywania estymatorów
Cecha X populacji ma rozkład zależny od s parametrów Q
1
, ... , Q
s
(X
1
, ... , X
n
) – próba
(x
1
, ... , x
n
) – realizacja próby.
Funkcja wiarygodności jest to funkcja s zmiennych Q
1
, ... , Q
s
•
w przypadku cechy populacji X skokowej przyporządkowuje każdemu możliwemu punktowi
(Q
1
, ... , Q
s
) prawdopodobieństwo otrzymania realizacji próby (x
1
, ... , x
n
)
L(Q
1
, ... , Q
s
) = P(X
1
= x
1
, … , X
n
= x
n
) = P(X
1
= x
1
) … P(X
n
= x
n
)
•
w przypadku cechy populacji X ciągłej przyporządkowuje każdemu możliwemu punktowi
(Q
1
, ... , Q
m
) gęstość próby w punkcie będącym realizacją próby (x
1
, ... , x
n
)
L(Q
1
, ... , Q
s
) = f (x
1
, ... , x
n
) = f
1
(x
1
) … f
n
(x
n
)
Metoda największej wiarygodności (MNW) otrzymywania estymatorów polega na wyznaczeniu,
dla danej realizacji próby, takich ocen
1
s
ˆ
ˆ
Q , ...,Q , parametrów Q
1
, ... , Q
s
, by funkcja wiarygodności
w punkcie (
1
s
ˆ
ˆ
Q , ...,Q ) osiągała wartość największą.
Estymatory, których wartościami są oceny parametrów Q
1
, ... ,Q
s
uzyskiwanymi metodą
największej wiarygodności nazywamy estymatorami największej wiarygodności (ENW).
STATYSTYKA MATEMATYCZNA
18
Interpretacja
MNW opiera się na następującej intuicji: skoro otrzymano realizację próby (x
1
, ... , x
n
), to musiała
ona być bardziej wiarygodna od innych realizacji, tzn. w przypadku cechy skokowej
prawdopodobieństwo uzyskania takiej realizacji powinno być największe, natomiast
w przypadku cechy ciągłej gęstość próby dla otrzymanej realizacji powinna być największa.
ENW mają rozkłady asymptotycznie normalne i są estymatorami zgodnymi oraz asymptotycznie
nieobciążonymi i asymptotycznie najefektywniejszymi ( przy dość ogólnych założeniach).
Przykład 15.2
Wyznaczymy metodą największej wiarogodności na podstawie próby
1
2
n
(x , x ,..., x ) estymator
wartości oczekiwanej cechy X o rozkładzie N(m,σ)
Uwzględniając, że gęstość rozkładu normalnego ma postać
2
2
(x m)
2
1
f (x)
e
2
−
−
σ
=
σ
π
otrzymuje się funkcję wiarogodności w postaci
n
2
2
2
1
n
i
2
2
2
i 1
1
n
(x m)
(x
m)
(x m)
2
2
2
1
1
1
L(m)
e
...
e
e
2
2
2
=
−
−
−
−
−
−
σ
σ
σ
∑
=
=
σ
π
σ
π
σ
π
Przy poszukiwaniu maksimum funkcji L(m) wygodniej posługiwać się logarytmem tej funkcji,
gdyż łatwiej jest znaleźć maksimum lnL(m), aniżeli maksimum L(m), a obie funkcja L(m) i ln L(m)
przyjmują maksimum w tym samym punkcie, co funkcja, a na ogół.
Logarytm funkcji L(m) jest równy
n
2
i
2
i 1
1
1
1
ln L(m) n ln
n ln
(x
m)
2
2
=
=
+
−
−
σ
σ
π
∑
Po zróżniczkowaniu względem parametru m otrzymujemy
n
n
i
i
2
2
2
i 1
i 1
d ln L(m)
1
1
1
(x
m)
x
n m
dm
=
=
= −
−
=
−
⋅
σ
σ
σ
∑
∑
Po przyrównaniu pochodnej do zera otrzymujemy
n
i
2
2
i 1
1
1
ˆ
x
n m 0
=
−
⋅
=
σ
σ
∑
skąd
n
i
i 1
1
ˆ
m
x
n
=
=
∑
Zatem estymator wartości oczekiwanej cechy X o rozkładzie N(m,σ) jest równy średniej
arytmetycznej elementów próby.
Druga pochodna jest równa
2
n
i
2
2
2
2
i 1
d
d d ln L(m)
d
1
1
1
ln L(m)
x
n m
n 0
dm
dt
dm
dt
=
=
=
−
⋅
= −
<
σ
σ
σ
∑
czyli ˆm zapewnia maksimum funkcji L(m)
Kolejne przykłady wyznaczania estymatorów metoda największej wiarogogodności zamieszczono
w punkcie 21.3. części VI Wybrane twierdzenia wraz z dowodami:
•
Estymator parametru p rozkładu zero-jedynkowego.
•
Estymator parametru Θ rozkładu wykładniczego.
•
Estymator parametru λ rozkładu Poissona.
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
19
15.2.5. Zestawienie estymatorów parametrów rozkładu zmiennej losowej i ich własności
Tabela 15.2. Zestawienie estymatorów
Własności estymatora
Parametr
Estymator
Zgodny
Nieobciążony
Najefektywniejszy
Wartość
oczekiwana m
rozkładu
normalnego
n
n
k
k=1
1
X =
X
n
∑
TAK
TAK
TAK
(
)
n
2
2
n
i
n
i=1
1
S =
X -X
n
∑
TAK
Asymptotycznie
nieobciążony
Brak oceny
11
(
)
n
2
02
n
i
i=1
1
S =
X -m
n
∑
TAK
TAK
TAK
Wariancja σ
2
rozkładu
normalnego
(
)
n
2
2
n
i
n
i=1
1
ˆS =
X -X
n-1
∑
TAK
TAK
Asymptotycznie
najefektywniejszy
0
n
S
,
n
ˆS ,
n
S
TAK
Asymptotycznie
nieobciążone
Asymptotycznie
najefektywniejsze
(
)
n
max
min
n
U = X
-X
d
X
max
– największy
element w próbie
X
min
– najmniejszy
element w próbie
d
n
– współczynnik
liczbowy, tak
dobrany, by estymator
był nieobciążony
TAK
TAK
Duża efektywność
dla małych prób
Odchylenie
standardowe
n
n
k
k=1
1
U =
π
/2
X -m
n
∑
TAK
TAK
Efektywność
1/(π-2)
Parametr λ
rozkładu
Poissona
n
n
k
k=1
1
X =
X
n
∑
TAK
TAK
TAK
Parametr p
rozkładu zero-
jedynkowego
Y
n
/n, gdzie Y
n
oznacza liczbę
jedynek
w próbie
TAK
TAK
TAK
11
Statystyka jest estymatorem asymptotycznie najefektywniejszym wariancji rozkładu normalnego, ale ponieważ
statystyka ta nie jest estymatorem nieobciążonym, więc nie może być estymatorem najefektywniejszym i nie można
mówić o efektywności tego estymatora.
STATYSTYKA MATEMATYCZNA
20
15.3. Estymacja przedziałowa
15.3.1. Uwagi wstępne
Oszacowanie przedziałowe nieznanego parametru polega na wyznaczeniu przedziału ufności.
X – cecha populacji, Q – parametr rozkładu cechy X, 1 - α - poziom ufności ( 0< α <1).
Jeśli istnieją dwie statystyki
*
**
n
n
U , U takie, że
*
**
n
n
P(U
Q U )=1-
≤
≤
α to przedział losowy
*
**
n
n
<U ; U >
12
(15.1)
nazywamy przedziałem ufności parametru Q na poziomie ufności 1 - α.
Jeśli na podstawie próby obliczymy wartości
*
**
n
n
u , u statystyk
*
**
n
n
U , U
, to otrzymujemy liczbowy
przedział
*
**
n
n
u ; u
<
> (15.2)
będący wartością (realizacją) przedziału (15.1). Parametr Q może należeć do przedziału (15.2) lub
nie należeć. Jeśli jednak poziom ufności 1 - α jest bliski jedności, to bardzo rzadko będziemy
otrzymywać liczbowe przedziały ufności (15.2) do których parametr Q nie należy.
Granice przedziału ufności są zmiennymi losowymi. Zatem dla różnych realizacji próby
otrzymujemy na ogół różne realizacje przedziałów ufności. Gdybyśmy oszacowanie przedziałowe
powtórzyli wiele razy, to częstość realizacji, do których szacowany parametr należy byłaby bliska
poziomowi ufności i tak np. jeśli próbę powtórzono 100 razy i poziom ufności przyjęto 0,99, to
częstość tych realizacji, do których parametr należy byłaby bliska 0,99, a więc średnio tylko do
jednej ze 100 realizacji szacowany parametr nie będzie należał.
Błąd bezwzględny. Błąd względny
Jeśli realizacja (15.2) ma postać
n
n
<u - ε; u + ε> , to liczbę ε nazywamy błędem bezwzględnym, zaś
liczbę
n
ε
δ
=
u
błędem względnym oszacowania parametru na poziomie istotności 1 - α.
Na poniższym rysunku przedstawiono kilka z możliwych realizacji przedziałów ufności dla
wartości oczekiwanej.
Rys. 15.4. Ilustracja szacowania m za pomocą przedziałów ufności
Niektóre z nich pokrywają prawdziwą wartość parametru m, a niektóre nie. Sumarycznie, tzn.
odnosząc się do wszystkich realizacji przedziałów ufności otrzymywanych tą metodą należy
stwierdzić, że z częstością bliską 1-α pokrywają prawdziwą wartość parametru.
12
Rozważa się także jednostronne przedziały ufności postaci (-∞; U
n
> lub <U
n
;-∞).
m
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
21
15.3.2. Wyznaczenie przedziału ufności dla wartości oczekiwanej rozkładu normalnego
Dla zilustrowania sposobu postępowania przy określeniu przedziału ufności wyznaczymy go dla
wartości oczekiwanej rozkładu normalnego w dwóch przypadkach: przy znanej i nieznanej
wariancji.
Znana wariancja.
Cecha X ma rozkład normalny N(m,σ), σ jest znane.
Do budowy przedziału ufności na poziomie 1 – α wybieramy statystykę do oszacowania wartości
oczekiwanej w postaci średniej arytmetycznej próby
n
X
, która jak wiadomo (21-3.1) jest
estymatorem najefektywniejszym. Jak wiadomo
13
, średnia arytmetyczna ma rozkład
n
X : N(m,
)
n
σ
zależny od wartości oczekiwanej m.
Standaryzujemy
n
X , tzn. przekształcamy ją w statystykę
n
U
n
n
X
m
U
n
−
=
σ
Statystyka U
n
ma rozkład N(0,1)
14
.
Wyznaczamy przedział liczbowy
u , u
α
α
< −
> tak aby
n
X
m
P[ u
u ] 1
n
α
α
−
−
≤
≤
= − α
σ
(15-3.2)
gdzie u
α
zależy od poziomu ufności 1 - α.
Rozwiązujemy nierówność pod znakiem prawdopodobieństwa względem m
n
u
X
m u
n
n
α
α
σ
σ
−
≤
−
≤
n
n
X
u
m
X
u
n
n
α
α
σ
σ
−
−
≤ −
≤ −
+
n
n
X
u
m X
u
n
n
α
α
σ
σ
+
≥
≥
−
n
n
X
u
m X
u
n
n
α
α
σ
σ
−
≤
≤
+
(15-3.3)
Zależność (15-3.3 ) określa szukany przedział ufności, spełnia on warunek
n
n
P(X
u
m X
u
) 1
n
n
α
α
σ
σ
−
≤
≤
+
= − α (15-3.4)
Dla jego określenia należy jeszcze wyznaczyć u
α
. Uwzględniając (3.6-2) i rozkład normalny U
n
n
n
n
P( u
U
u ) P(U
u ) P(U
u )
(u )
( u )
α
α
α
α
α
α
−
≤
≤
=
≤
−
≤ −
= φ
− φ −
qdzie Φ jest dystrybuantą rozkładu normalnego N(0,1).
Ponieważ ( u ) 1
(u )
α
α
Φ −
= − Φ
- patrz poniższy rysunek
13
Podpunkt 19.1.1 części VI Wybrane twierdzenia z dowodami
14
Podpunkt 20.5.5 części VI Wybrane twierdzenia z dowodami
STATYSTYKA MATEMATYCZNA
22
Rysunek 15.14a. Wyznaczanie granicy przedziału ufności
to
n
P( u
U
u )
(u ) 1
(u ) 2 (u ) 1
α
α
α
α
α
−
≤
≤
= φ
− + φ
= φ
−
Uwzględniając (15-3.2) mamy równanie do wyznaczenia u
α
2 (u ) 1
α
φ
− =1-α
Zatem u
α
wyznacza się z zależności
(u ) 1
2
α
α
φ
= −
(15-3.5)
Uwagi dotyczące przedziału ufności (15.3)
1.
Położenie końców przedziału jest losowe (bo średnia z próby ma wartość zależną od realizacji
próby).
2.
Długość przedziału jest stała.
3.
Długość przedziału zależy od poziomu ufności 1–α (bo
α
u zależy od α), im większy poziom
ufności, tym dłuższy przedział ufności – patrz rys. 15.3.
4.
Długość przedziału jest odwrotnie proporcjonalna do pierwiastka liczebności próby, zatem ze
wzrostem liczebności próby zwiększa się dokładność oszacowania, jednak nadmierne
powiększanie próby nie jest korzystne, bowiem powoduje małe zwiększanie się dokładności.
5.
Długość przedziału ufności zależy od odchylenia standardowego σ cechy X. Jeśli X oznacza
wynik pomiaru, to σ oznacza dokładność pomiaru, a więc zwiększanie dokładności pomiarów
powoduje zmniejszenie błędu oszacowania.
Z powyższych uwag wynika, że potrzebny jest kompromis między zaufaniem do oszacowania
(poziomem ufności), a błędem oszacowania, bowiem zwiększenie ufności powoduje zwiększenie
błędu, zmniejszenie błędu powoduje zmniejszenie ufności oszacowania.
Stosowanie przedziału ufności (15.3) wymaga spełnienia założenia, że odchylenie standardowe σ
jest znane. Założenie to w zagadnieniach praktycznych jest niezmiernie rzadko spełnione.
Nieznana wariancja
Cecha X ma rozkład normalny N(m,σ), σ jest znane..
Konstrukcja przedziału ufności dla wartości oczekiwanej rozkładu normalnego, gdy σ nie jest
znane wymaga innego, niż poprzednio przekształcenia średniej z próby, mianowicie
wykorzystujemy twierdzenie, że statystyka
n
n
n
X -m
U =
n-1
S
ma rozkład Studenta z n-1 stopniami swobody
15
. Dalej postępujemy podobnie jak poprzednio.
15
Podpunkt 21.1.2 części VI Wybrane twierdzenia z dowodami
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
23
Wyznaczamy liczbę
α
u tak, by
α
n
α
P(-u
U
u )=1- α
≤
≤
co jest równoważne wyrażeniu
n
α
P( U
u )=α
≥
Liczbę
α
u spełniającą powyższy związek odczytujemy z tablic rozkładu Studenta z n-1 stopniami
swobody i poziomu prawdopodobieństwa α (pkt 6 części VII „Tablice statystyczne”) lub
znajdujemy ją przy pomocy programu komputerowego. Mamy
n
α
α
n
X -m
P(-u
n-1 u )=1-α
S
≤
≤
Rozwiązując względem m występującą w powyższym związku nierówność otrzymujemy przedział
ufności
α
n
α
n
n
n
u S
u S
<X -
;X +
n-1
n-1
>
przedział ufności dla wartości oczekiwanej rozkładu normalnego
α
n
u S
ε
=
n-1
błąd bezwzględny (połowa długości przedziału ufności)
Tym razem nie tylko końce przedziału ufności są losowe, także losowa jest długość przedziału
ufności.
Próba o dużej liczności
Rozważymy jeszcze jedną sytuację. Nie mamy informacji, że rozkład cechy jest normalny, za to
wiemy, że próba jest liczna. Wówczas statystyka
n
X
ma rozkład w przybliżeniu normalny,
σ
N m,
n
). Postępując, jak przy konstrukcji przedziału (15.3) i zastępując σ odchyleniem
standardowym z próby ( o ile σ nie jest znane) otrzymujemy przedział ufności
α
n
α
n
n
n
u S
u S
<X -
;X +
n
n
>
- przedział ufności dla wartości oczekiwanej dowolnego rozkładu.
Podsumowanie
Znalezione powyżej trzy przedziały ufności dla wartości oczekiwanej oraz przedziały ufności dla
innych parametrów są przedstawione w tabeli 15.3. Uogólniając powyższej przedstawione
postępowanie należy stwierdzić, że konstrukcja przedziału ufności dla parametru Q polega na:
1.
Wybraniu statystyki o rozkładzie zależnym od Q, najlepiej by statystyka ta była estymatorem
najefektywniejszym tego parametru lub estymatorem o wysokiej efektywności.
2.
Przekształceniu wybranej statystyki w statystykę
n
U wyrażoną wzorem, w którym występuje
Q. Rozkład
n
U powinien być znany i zależeć tylko od Q.
3.
Wyznaczeniu przedziału liczbowego
1
2
<u ;u > , tak by
1
n
2
P(u
U
u )=1-α
≤
≤
.
4.
Rozwiązaniu względem Q nierówności
1
n
2
u
U
u
≤
≤
.
STATYSTYKA MATEMATYCZNA
24
15.3.3. Tabela przedziałów ufności
Tabela 15.3. Zestawienie przedziałów ufności
Parametr
Rozkład cechy
Przedział ufności
Wyznaczanie liczby u
α
Nr
Wartość
oczekiwana
m
Normalny
N(m,σ),
σ - jest znane
u
u
X
; X
n
n
α
α
σ
σ
<
−
+
>
2
α
1
)
u
(
−
=
Φ
α
Φ -dystrybuanta rozkładu N(0,1)
PU-1
Wartość
oczekiwana
m
Normalny
N(m,σ),
σ - nie jest znane
Su
Su
X
; X
n 1
n 1
α
α
<
−
+
>
−
−
α
)
u
|
T
(|
P
1
n
=
≥
α
−
T
n-1
zmienna losowa o rozkładzie Studenta z n-1
stopniami swobody
PU-2
Wartość
oczekiwana
m
Dowolny
Liczna próba
n ≥ 100
Su
Su
X
; X
n
n
α
α
<
−
+
>
2
α
1
)
u
(
−
=
Φ
α
Φ -dystrybuanta N(0,1)
PU-3
Wariancja σ
2
Normalny N(m,σ)
2
2
1
2
nS nS
;
u
u
2
1
)
u
Y
(
P
2
)
u
Y
(
P
2
1
n
1
1
n
α
−
=
≥
α
=
≥
−
−
Y
n-1
ma rozkład χ
2
z n – 1 stopniami swobody
PU-4
Odchylenie
standardowe
σ
Normalny
N(m,σ),
2
2
1
2
nS
nS
;
u
u
2
1
)
u
Y
(
P
2
)
u
Y
(
P
2
1
n
1
1
n
α
−
=
≥
α
=
≥
−
−
Y
n-1
ma rozkład χ
2
z n – 1 stopniami swobody
PU-5
Wskaźnik
struktury p
Rozkład zero-
jedynkowy
p
1
)
0
X
(
P
,
p
)
1
X
(
P
−
=
=
=
=
liczna próba
n ≥ 100
W(1 W)
W(1 W)
W u
; W u
n
n
α
α
−
−
−
+
W - wskaźnik struktury w próbie
W=Y
n
/n Y
n
– licznba jedynek w próbie
2
α
1
)
u
(
−
=
Φ
α
Φ -dystrybuanta rozkładu normalnego N(0,1)
PU-6
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
25
Przykład 15.3
Badano ceny drukarek Canon BC250 w 40 wylosowanych punktach sprzedaży. Otrzymano, że
ś
rednia cena drukarki wynosi 358,37. Zakładając, że cena drukarki w całej populacji ma rozkład
normalny N(m, σ) na poziomie ufności 1-α = 0,95 wyznaczymy na podstawie 40 elementowej
próby przedział ufności dla średniej ceny drukarki przyjmując, że odchylenie standardowe populacji
jest równe 20.
Rozwiązanie.
Zastosujemy przedział ufności PU-1:
α
α
σ
u
σ
u
<X-
; X+
n
n
> . Ponieważ 1-α = 0,95, czyli α = 0.05
i
α
2
= 0.025. Równanie do wyznaczenia u
α
ma postać
α
α
Φ
(u )=1-
2
= 0,975, stąd u
α
=1,96, więc błąd
bezwzględny, czyli połowa długości przedziału ufności
α
σ
u
ε
=
n
20 1,96
40
⋅
=
= 6,198.
Ś
rednia arytmetyczna ceny jest równa x = 358,37.
Zatem szukanym przedziałem ufności jest przedział <358,37–6,2;358,37+6,2 = <352,17;364,57>
Błąd względny δ=
ε
6,2
100%=
100%
x
358,37
= 1,55%.
Długość połowy przedziału ufności równą
α
σ
u
n
ε =
zwraca funkcja UFNOŚĆ arkusza Excel na
podstawie odchylenia standardowego σ i liczebności próby.
Zwracamy uwagę, że otrzymany wynik jest identyczny jak obliczony powyżej.
STATYSTYKA MATEMATYCZNA
26
Przykład 15.4
Dla danych z przykładu 15.3 obliczymy błędy bezwzględny i względny oszacowania parametru m
na poziomie ufności 1 - α = 0,99.
Rozwiązanie
Mamy
α
α
Φ
(u )=1-
2
= 0,995, stąd
α
u =2,576 , więc błąd bezwzględny, czyli połowa długości
przedziału ufności
α
σ
u
ε
=
n
40
576
,
2
20 ⋅
=
=8,15, błąd względny δ =
ε
8,15
=
=2,27%
x 358,37
Widzimy, że powiększanie poziomu ufności (zaufania do otrzymanego oszacowania) powoduje
powiększenie obu błędów bezwzględnego i względnego. Dlatego w praktyce nie można
przyjmować zbyt dużych poziomów ufności, gdyż prowadzi to do dużych błędów oszacowania
(przedziały ufności mają wtedy dużą długość).
Niektórzy praktycy przyjmują, że oszacowanie jest:
•
Bardzo dobre, gdy błąd względny jest równy najwyżej 2%;
•
Dobre, gdy błąd względny jest zawarty między 2% i 5%;
•
Dostateczne, gdy błąd względny jest zawarty między 5% i 10%;
•
Niedostateczne, gdy błąd względny jest większy od 10%.
Przykład 15.5
Na poziomie 0,95 obliczmy przedział ufności dla średniej ceny monitorów 17 calowych na
podstawie 12 elementowej próby: 733, 685, 761, 812, 708, 735, 639, 730, 703, 694, 714, 664
zakładając, że cena ma rozkład normalny.
Rozwiązanie
Stosujemy przedział ufności PU-2
α
α
Su
Su
<X-
; X+
n-1
n-1
>
Obliczamy: x = 714,83 oraz s
10
2
i
i 1
1
(x
714,83)
12
=
−
∑
=43,19
Liczba
α
u spełnia związek
n-1
α
P(|T | u )=α
≥
, który dla danych zadania przybiera postać
11
α
P(|T | u ) = 0,01.
≥
Z tablicy rozkładu Studenta dla 11 stopni swobody i poziomu prawdopodo-
bieństwa 0,05 (pkt 6 części VII „Tablice statystyczne”) odczytujemy, że
α
u = 2,201, więc
α
Su
43,19 2,201 95,064
ε
=
=
=
=28,66
3,317
n-1
11
⋅
.
Zatem
przedział
ufności
jest
równy
8, 6 0, 23 ; 8, 6 0, 23 8,37 ; 8, 63
<
−
+
> = <
>
Długość połowy przedziału ufności równą
α
ˆs u
45,11 2, 201 99, 287
'
3, 464
n
12
⋅
ε =
=
=
= 28,66 zwraca
narzędzie Statystyka opisowa modułu Analiza danych pakietu Excel
Kolumna1
Ś
rednia
714,8333333
Błąd standardowy
13,02261048
Mediana
711
Tryb
#N/D!
Odchylenie standardowe
45,11164601
Wariancja próbki
2035,060606
Poziom ufności (95,0%)
28,6625724
Zwraca się uwagę, że otrzymany wynik jest identyczny jak obliczony powyżej.
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
27
Przykład 15.6
Jako miarę dokładności przyrządu przyjęto odchylenie standardowe pomiarów dokonanych tym
przyrządem. Zakładamy, że pomiary pochodzą z populacji normalnej N(m,σ). Dokonano 20
pomiarów i otrzymano wariancję z próby 6,5. Na poziomie ufności 0,9 oszacuj przedziałem ufności
wariancję i odchylenie standardowe wszystkich możliwych pomiarów.
Rozwiązanie
Dane n = 20, s
2
=6,5, 1- α = 0, 9, rozkład cechy populacji N(m, σ).
Stosujemy przedziały ufności PU-4 i PU-5
2
2
1
2
nS nS
;
u
u
,
2
2
1
2
nS
nS
;
u
u
Liczby u
1
i u
2
spełniają związki
n-1
1
n-1
2
α
P(Y
u )=
2
α
P(Y
u )=1-
2
≥
≥
w których Y
n-1
oznacza zmienną losową o rozkładzie χ
2
z n-1 stopniami swobody.
19
1
19
2
0,1
P(Y
u )=
=0,05
2
0,1
P(Y
u )=1-
=0,95
2
≥
≥
Z tablicy rozkładu χ
2
(pkt 5 części VII „Tablice statystyczne”) odczytujemy, że u
1
= 30,1 u
2
= 10,1
Przedział ufności dla wariancji
20 6,5 20 6,5
;
4,3;12,9
30,1
10,1
⋅
⋅
=<
>
Przedział ufności dla odchylenia standardowego
4,3 ; 12,9
2,1 ; 3,6
<
> = <
>
Przykład 15.7
Na 400 obrotów anteny radarowej obiekt znajdujący się w obszarze obserwacji radaru został
wykryty 350 razy. Literą p oznaczamy prawdopodobieństwo wykrycia obiektu przy jednym obrocie
anteny (niezawodność radaru). Znajdziemy przedział ufności dla p na poziomie ufności 0,95.
Rozwiązanie
Niech X będzie zmienną losową przyjmującą wartość 1, gdy w jednym obrocie anteny obiekt został
wykryty, zaś wartość 0, gdy nie został wykryty. Zmienna losowa X ma rozkład zerojedynkowy z
parametrem p. Prawdopodobieństwo p oszacujemy przedziałem ufności PU-6
α
α
W(1-W)
W(1-W)
W-u
; W+u
n
n
gdzie w jest wskaźnikiem struktury w próbie (oszacowaniem wskaźnika struktury p w populacji)
k
w =
n
, k - liczba jedynek w próbie.
Dla danych w zadaniu mamy
%
5
,
87
875
,
0
400
350
n
k
w
=
=
=
=
STATYSTYKA MATEMATYCZNA
28
α
α
α
0,05
Φ
(u )=1- =1-
=0,975
u =1,96
2
2
⇒
α
w(1-w)
0,875 0,125
ε
= u
=1,96
=3,2%
n
400
<87,5%-3,2% ; 87,5%+3,2%>= <84,2% ; 90,7%>
⋅
Odp. Niezawodność radaru z ufnością 0,95 jest zawarta między 84,2% a 90,7%.
15.3.4. Wyznaczanie wielkości próby
Zagadnienie
Wyznaczyć liczebność próby n tak by błąd bezwzględny oszacowania parametru przedziałem
ufności wynosił ε , przy poziomie ufności 1 - α .
Zasady wyznaczania wielkości próby podano w poniżej tabeli.
Tabela 15.4. Wyznaczanie liczebności próby n przy poziomie ufności 1 - α
Założenia
Etapy wyznaczania liczebności próby
Nr
Cecha X ma
rozkład
normalny
N(m, σ), σ jest
znana
16
1) Wyznaczamy liczbę u
α
:
α
α
Φ
(u )=1-
2
2) Obliczamy
2
u
n
α
σ
=
ε
LP-1
Cecha X ma
rozkład
normalny
N(m, σ), σ nie
jest znana
Rozkład cechy
X nie jest znany.
Próba jest liczna
1) Pobieramy próbę o małej liczebności n
0
(wstępną próbę) i szacujemy
odchylenie standardowe σ za pomocą odchylenia standardowego s
0
z tej próby
2) Obliczamy
2
0
α
s u
n =
1
ε
+
3) Jeśli n-n
0
> 0, to należy powiększyć próbę o n-n
0
elementów.
Jeśli
n – n
0
≤ 0, to poprzestajemy na pobraniu wstępnej próby.
LP-2
Cecha X ma
rozkład
zerojedynkowy.
Próba jest
liczna.
Dokładność
oszacowania
dokładnością ε
17
1) Wyznaczamy liczbę u
α
:
α
α
Φ
(u )=1-
2
2) Obliczamy
2
α
2
u
n =
k
ε
gdzie
w oszacowanie wskaźnika na podstawie wstępnej próby,
w(1 w)
w 0,5
k
0, 25
nie mamy żadnych informacji o w
0, 21
jesli wiemy, że wadliwość nie może przekroczyć30%
−
−
≤
=
LP-3
Uwaga: Przy obliczaniu n zawsze przyjmujemy zaokrąglenie w górę
16
Patrz przedział ufności PU-1
17
Patrz przedział ufności PU-6
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
29
Przykład 15.8
W doświadczeniu chemicznym bada się czas trwania reakcji chemicznej. Czas ten modelujemy
zmienną losową X o rozkładzie normalnym N(m, 5 sek).
Ile razy należy powtórzyć to doświadczenie, by oszacować przedziałem ufności średni czas m
trwania tej reakcji na poziomie ufności 0,95 tak, by błąd bezwzględny wynosił 2 s?
Rozwiązanie
Korzystamy z zasady LP-1 podanej w tabeli 15.3
2
α
σ
u
n =
ε
α
0, 05
(u ) 1
1
0,975
2
2
α
Φ
= −
= −
=
⇒ u
α
=1,96,
24
2
5
96
,
1
n
2
≈
⋅
=
Odp. Należy doświadczenie powtórzyć 24 razy.
Przykład 15.9
Cecha X populacji ma rozkład normalny o nieznanych parametrach. W celu oszacowania wartości
oczekiwanej przedziałem ufności o długości 1, na poziomie ufności 0,96, pobrano wstępną
5- elementową próbę i otrzymano odchylenie standardowe s
0
=0,8. Jak wielką próbę należy pobrać?
Rozwiązanie
Korzystamy z zasady LP-2 podanej w tabeli 15.3
0, 04
(u ) 1
1
0,98
u
2,05
2
2
α
α
α
Φ
= −
= −
=
⇒
=
2
0
s u
n
1
α
=
+
ε
=
2
0,8 2, 05
1 12
0,5
⋅
+ ≈
Odp. Należy pobrać próbę 12 elementową, czyli należy dobrać jeszcze 7 elementów.
Przykład 15.10
Cecha X populacji ma rozkład normalny N(m, σ), σ nie jest znana. Jak wielką próbę należy pobrać,
by na poziomie ufności 0, 98 oszacować wartość oczekiwaną m z błędem, co najwyżej równym 0,5,
gdy na podstawie wstępnej próby 50 elementowej otrzymano odchylenie standardowe 3,0?
Rozwiązanie
Korzystamy z zasady LP-2 podanej w tabeli 15.3
1 – α = 0, 98 ε = 0,5
0
n
50
=
0
s
3, 0
=
α
0, 04
(u ) 1
1
0,98
2
2
α
Φ
= −
= −
=
⇒ u
α
= 2,05
2
0
s u
n
1
α
=
+
ε
2
3, 0 2, 05
1 153
0,5
⋅
=
+ ≈
Odp. Należy wziąć próbę 153 elementową, należy więc jeszcze dobrać 103 elementy.
STATYSTYKA MATEMATYCZNA
30
Przykład 15.11
Mamy oszacować przedziałem ufności wadliwość p partii towaru na poziomie ufności
1- α = 0,96, z dokładnością ε = 0,05. Jak wielka powinna być próba?
Rozwiązanie
α
α
0,04
Φ
(u )=1- =1-
=0,98
2
2
⇒ u
α
= 2,05
2
α
2
w(1-w)
n = u
ε
Jeśli nie mamy żadnych informacji o wadliwości w, to w miejsce iloczynu w(1-w) podstawiamy ¼
(największą wartość iloczynu).
2
2
1/4
n = 2,05
421
0,05
≈
Jeśli natomiast wiemy, że wadliwość nie może przekroczyć 30%, to iloczyn w (1-w) nie może
przekroczyć liczby 0,3
⋅
0,7 = 0,21, zatem
2
2
0,21
n=2,05
353
0,05
≈
15.3.5. Wykorzystanie arkusza Excel
Lp Zakres analizy statystycznej
Funkcje
statystyczne
Narzędzia statystyczne
1.
Estymacja długości połowy przedziału
ufności dla wartości oczekiwanej przy
znanej wariancji
UFNOŚĆ
2.
Estymacja długości połowy przedziału
ufności dla wartości oczekiwanej przy
nieznanej wariancji
STATYSTYKA
OPISOWA
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
31
16. WERYFIKACJA HIPOTEZ
16.1 Wprowadzenie
16.1.1. Uwagi wstępne
Teoria weryfikacji hipotez zajmuje się metodami sprawdzania hipotez statystycznych.
Hipoteza statystyczna
to każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy
(cech). Hipoteza dotycząca jedynie wartości parametrów cechy nazywa się hipotezą parametryczną,
natomiast hipoteza precyzująca, do jakiego typu rozkładów należy rozkład cechy populacji, nosi
nazwę hipotezy nieparametrycznej.
Przykład 16.1
Wiemy, że cecha X populacji ma rozkład N(m, 3). Przypuszczenie, że „wartość oczekiwana cechy
X jest równa 5” jest hipotezą parametryczną.
Załóżmy teraz, że nie mamy żadnej informacji o rozkładzie cechy X populacji. Przypuszczenie
„rozkład cechy X jest normalny” jest hipotezą nieparametryczną.
Test statystyczny jest to metoda weryfikacji (sprawdzania) hipotez statystycznych, przy czym
•
Test parametryczny jest to test do weryfikacji hipotez parametrycznych.
•
Test nieparametryczny jest to test do weryfikacji hipotez nieparametrycznych.
Zajmiemy się najpierw hipotezami i testami parametrycznymi dla jednej i dwóch prób.
Rozpatrzmy cechę X populacji, o rozkładzie zależnym od parametru Q
∈
Ω
, gdzie
Ω
jest
podzbiorem zbioru liczb rzeczywistych, zwanym przestrzenią parametru.
O parametrze Q wysuwamy dwie hipotezy:
•
Hipotezę zerową, (główną, sprawdzaną), że parametr Q ma wartość równą Q
0
∈
Ω
, co
zapisujemy H
0
(Q = Q
0
) i czytamy: hipoteza H zero, że parametr Q jest równy Q zero.
•
Hipotezę alternatywną, że parametr Q przyjmuje dowolną wartość z przestrzeni parametru różną
od Q
0
, co zapisujemy H
1
( Q
∈
Ω- Q
0
)
W zagadnieniach tu rozważanych hipoteza alternatywna będzie miała jedną z czterech poniższych
postaci
H
1
(Q ≠ Q
0
), H
1
(Q > Q
0
), H
1
(Q < Q
0
), H
1
(Q = Q
1
). (16.1)
Przy weryfikacji hipotez podejmujemy jedną z dwu decyzji
•
Odrzucić hipotezę zerową i przyjąć alternatywną.
•
Przyjąć hipotezę zerową i odrzucić alternatywną.
Ponieważ decyzje przy weryfikacji hipotez podejmujemy na podstawie próby, więc decyzja może
być błędna mimo iż test został wykonany poprawnie.
Hipoteza zerowa odzwierciedla z reguły pytanie, na które należy uzyskać odpowiedź. Występują
również przypadki, że taką rolę spełnia hipoteza alternatywna, ale łatwiej jest weryfikować hipotezę
zerową. Hipotezę alternatywną ustala się na podstawie przesłanek, jakimi dysponuje się przed
pobraniem próby, tzn. postać hipotezy alternatywnej określona jest wiedzą o problemie badawczym
nie opierającą się o wnioski z analizy prób. Tak więc hipoteza alternatywna wyraża skrystalizowane
a priori przypuszczenie o treści różnej od treści hipotezy sprawdzanej.
Opis testu parametrycznego
X - cecha populacji, Q – parametr rozkładu cechy X.
Wysuwamy hipotezy: zerową H
0
(Q = Q
0
) i alternatywną H
1
, która ma jedną z postaci (16.1).
STATYSTYKA MATEMATYCZNA
32
Postępowanie przy weryfikacji powyższych hipotez jest następujące
1.
Wybieramy pewną statystykę
n
U o rozkładzie zależnym od parametru Q oraz pewną liczbę
α
z
przedziału (0,1) i wyznaczamy podzbiór K zbioru liczb rzeczywistych tak by spełniony był
warunek
n
0
P(U
K/Q=Q ) = α
∈
(16.2)
czyli by prawdopodobieństwo, iż statystyka U
n
przyjmie wartość ze zbioru K, przy założeniu, że
prawdziwa jest hipoteza zerowa było równe
α
.
2.
Pobieramy próbę
18
i obliczamy wartość u
n
statystyki U
n
3.
Podejmujemy decyzje
odrzucamy H
0
, gdy u
n
∈
K
(16.3)
przyjmujemy H
0
, gdy
K
u
n
∉
(16.4)
Wykorzystywaną statystykę Un nazywamy sprawdzianem, zbiór K – zbiorem krytycznym,
a liczbę
α
poziomem istotności.
Przy weryfikacji hipotez przyjmuje się mały poziom istotności (bliski 0, ale dodatni).
Uzasadnienie podejmowanych decyzji:
•
Decyzja (16.3): Jeśli hipoteza H
0
(Q = Q
0
) jest prawdziwa, to prawdopodobieństwo zdarzenia
U
n
∈
K jest zgodnie z (16.2) równe
α
, a więc tak małe, że uważamy, iż zajście tego zdarzenia jest
w praktyce niemożliwe. Ponieważ jednak to zdarzenie dla pobranej próby zaszło, więc
wnioskujmy, że założenie, przy którym prawdopodobieństwo tego zdarzenia zostało obliczone
jest nieprawdziwe. Stąd też odrzucamy H
0
.
•
Decyzja (16.4): Jeśli zdarzenie U
n
∈
K, przy założeniu, że hipoteza H
0
(Q = Q
0
) jest prawdziwa,
nie zaszło, to nie ma powodu, by twierdzić, że H
0
nie jest prawdziwa, bowiem nie ma nic
nadzwyczajnego w fakcie, że nie zaszło zdarzenie o małym prawdopodobieństwie. Dlatego
hipotezę H
0
przyjmujemy lub ostrożniej: mówimy, że nie ma podstaw do odrzucenia tej
hipotezy.
Przy podejmowaniu decyzji można zawsze popełnić jeden z dwu błędów
•
Błąd I rodzaju - błąd polegający na odrzuceniu hipotezy zerowej H
0
, gdy ta hipoteza jest
prawdziwa. Odrzucenie H
0
, gdy jest ona prawdziwa można jako zdarzenie losowe zapisać
U
n
∈
K/Q=Q
0
. Prawdopodobieństwo tego zdarzenia, zgodnie ze wzorem (16.2) jest równe
poziomowi istotności
α
, zatem prawdopodobieństwo błędu I rodzaju
n
0
P(U
K/Q = Q )=α
∈
.
•
Błąd II rodzaju - błąd polegający na przyjęciu hipotezy zerowej H
0
, gdy ta hipoteza jest
fałszywa. Przypuśćmy, że hipoteza alternatywna jest postaci H
1
(Q = Q
1
). Wtedy błąd II rodzaju:
przyjęcie H
0
, gdy ta hipoteza jest fałszywa, jako zdarzenie losowe można zapisać
n
1
U
K/Q=Q
∉
,
a prawdopodobieństwo tego zdarzenia oznaczmy β, zatem prawdopodobieństwo błędu II
rodzaju
n
1
P(U
K/Q=Q )=β
∉
.
Jak widzimy prawdopodobieństwo błędu I rodzaju jest równe poziomowi istotności α, a więc jest
znane na podstawie metody weryfikacji, natomiast prawdopodobieństwo błędu II rodzaju wymaga
obliczenia, co wcale nie musi być łatwe, dlatego często rezygnujemy z jego wyznaczania.
18
Wyróżnia się dwa rodzaje prób: niepowiązane i powiązane. Jeżeli wartości określonej cechy mierzone są u różnych
elementów to otrzymywane próby nazywamy niepowiązanymi. Z kolei jeżeli wartości cechy mierzone sa u tych
samych elementów np. w różnych momentach czasu to otrzymywane próby nazywamy powiązanymi.
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
33
W zależności od postaci hipotezy alternatywnej przyjmuje się różną postać zbioru krytycznego.
I tak:
Zbiór krytyczny prawostronny jest to
zbiór postaci
2
K
k ; )
=<
∞
. Wzór (16.2)
przybiera teraz postać
n
2
0
P(U
k /Q=Q )=α
≥
Rys. 16.1. Prawostronny zbiór krytyczny
Zbiór krytyczny lewostronny jest to
zbiór postaci
1
K (
;k
= −∞
> . Wzór
(16.2) przybiera teraz postać
n
1
0
P(U
k /Q=Q )=α
≤
Jeśli gęstość statystyki Un / Q=Q
0
ma
wykres symetryczny względem osi O
y
(rozkład normalny, rozkład Studenta), to
zbiór krytyczny lewostronny można
zapisać w postaci
>
−
−∞
=
k
;
(
K
. Wzór
(16.2) przybiera teraz postać
α
=
=
≥
)
Q
Q
|
k
U
(
P
0
n
identyczną jak
dla zbioru krytycznego prawostronnego.
Rys. 16.2. Lewostronny zbiór krytyczny
Zbiór krytyczny dwustronny jest to zbiór
postaci
1
2
K (
; k
k ; )
= −∞
> ∪ <
∞
. Zbiór
ten w przypadku symetrycznego
względem osi Oy rozkładu statystyki
U
n
/ Q=Q
0
przyjmuje postać
K=(- ;-k> <k; )
∞
∪
∞
W pierwszym przypadku liczby k
1
i k
2
wyznaczamy z relacji
n
1
0
P(U
k /Q=Q )=α/2
≤
n
2
0
P(U
k /Q = Q )=α/2
≥
W drugim przypadku liczba k spełnia
relację
n
P(|U | k)=α
≥
Rys. 16.3. Dwustronny zbiór krytyczny
Zbiór krytyczny należy wybrać tak, by przy ustalonym prawdopodobieństwie błędu I rodzaju
(poziomie istotności), prawdopodobieństwo błędu II rodzaju było najmniejsze.
•
Jeśli hipoteza alternatywna ma postać H
1
(Q > Q
0
), to przyjmujemy zbiór krytyczny
prawostronny.
•
Jeśli hipoteza alternatywna ma postać H
1
(Q < Q
0
), to przyjmujemy zbiór krytyczny
lewostronny.
•
Jeśli hipoteza alternatywna ma postać H
1
(Q ≠ Q
0
), to przyjmujemy zbiór krytyczny
dwustronny.
STATYSTYKA MATEMATYCZNA
34
16.1.2. Pzykład konstrukcji testu parametrycznego do weryfikacji hipotezy o wartości
oczekiwanej
Badana jest cecha X populacji generalnej ma rozkład normalny N(m,σ), przy czym σ jest znane.
O wartości oczekiwanej wysuwamy hipotezy:
•
zerową H
0
(m=m
0
)
•
alternatywną H
1
(m>m
0
)
a)
Załóżmy, że hipoteza zerowa jest prawdziwa i że przyjęto hipotezę alternatywną postaci
H
1
(m>m
0
). Hipotezy weryfikujemy na podstawie o próbę
1
1
2
n
(x , x ,..., x ) przy poziomie
istotności α. Wtedy różnica
0
n
m
X
−
obliczona na podstawie próby powinna przyjąć wartość
bliską zeru, bowiem statystyka
n
X jest estymatorem najefektywniejszym parametru m.
Natomiast, gdy różnica ta jest duża (ze względu na kształt hipotezy alternatywnej powinna być
dodatnia), to można sądzić, że hipoteza zerowa jest fałszywa.
Wygodniej jest posługiwać się postacią standaryzowaną statystyki
0
n
m
X −
, czyli statystyką
n
/
m
X
U
0
n
n
σ
−
=
Statystyka U
n
/m = m
0
ma rozkład normalny N(0,1). Mała wartość tej statystyki przemawia za
przyjęciem hipotezy zerowej, natomiast duża wartość za przyjęciem hipotezy alternatywnej.
Dlatego zbiór krytyczny przyjmujemy prawostronny (potwierdza się zasada wyboru zbioru
krytycznego K = <k ; ∞)) na danym poziomie istotności α. Liczba k spełnia związek
P(U
n
≥ k/m = m
0
). Stąd
α
=
Φ
−
)
k
(
1
, czyli Φ(k)=1-α . Liczba k jest liczbą graniczną w tym
sensie, że przyjmujemy, iż wartości u
n
statystyki U
n
, obliczone na podstawie próby są duże,
gdy u
n
≥ k, natomiast są małe w przeciwnym przypadku. Zatem
Jeśli u
n
≥ k, czyli
K
u
n
∈
, to H
0
odrzucamy i przyjmujemy H
1
Jeśli u
n
< k, czyli
K
u
n
∉
, to H
0
przyjmujmy i odrzucamy H
1
b)
Załóżmy teraz, że hipoteza alternatywna ma postać H
1
(m< m
0
). Także w tym przypadku mała
wartość statystyki U
n
przemawia za przyjęciem hipotezy zerowej, natomiast duża wartość
bezwzględna, ale ujemna za przyjęciem hipotezy alternatywnej. Dlatego zbiór krytyczny
przyjmujemy lewostronny K = (-∞ ; -k> na danym poziomie istotności α. Liczba k spełnia
związek
0
P(Un -k/m = m )=α
≤
. Stąd Φ(-k) = α
1-Φ(k) = α
⇒
, czyli Φ(k)=1-α .
c)
Załóżmy wreszcie, że hipoteza alternatywna ma postać H
1
(m≠m
0
). W tym jak
i w poprzednich przypadkach mała wartość statystyki U
n
przemawia za przyjęciem hipotezy
zerowej, natomiast wartości o dużym module (dodatnie lub ujemne) za przyjęciem hipotezy
alternatywnej. Dlatego zbiór krytyczny przyjmujemy dwustronny K=(- ; -k> < k; )
∞
∪
∞ na
danym poziomie istotności α. Liczba k spełnia związek
n
0
P( U
k/m=m ) = α
≥
. Stąd
[
]
2 1-Φ(k) = α , czyli
α
Φ
(k)=1-
2
Przykład 16.2
Czas wykonania detalu modelowany jest zmienną losową o rozkładzie normalnym
N(m, 2 min.). W celu weryfikacji hipotez: zerowej, że średni czas wykonania detalu wynosi
3 min i alternatywnej, że wynosi 4,6 min., pobrano próbę 9 elementową, której średnia wyniosła 3,4
min. Zweryfikujemy powyższe hipotezy na poziomie istotności 0,015.
Rozwiązanie
X - zmienna losowa oznaczająca czas wykonania detalu,
Rozkład zmiennej losowej X: N(m, 2 min.)
Hipotezy: H
0
(m =3), H
1
(m =4,6)
Poziom istotności: α = 0,015
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
35
Liczebność próby n = 9
Ś
rednia z próby
9
x = 3,4
Sprawdzian U
n
=
0
X-m
σ
/ n
. Wartość sprawdzianu
9
3, 4 3, 0
u
0, 6
2 / 9
−
=
=
Zbiór krytyczny prawostronny K = <k; ∞)
Liczba k spełnia związek Φ(k) =1- α = 1- 0,015 =0,985⇒ k = 2,17
(na podstawie tablicy – pkt 4 części VII „Tablice statystyczne”).
.
K = <2,17 ; ∞)
u
9
= 0,6
Ponieważ
K
u
9
∉
, więc hipotezę H
0
przyjmujemy.
Przy podjęciu tej decyzji można popełnić błąd drugiego rodzaju. Obliczymy prawdopodobieństwo
tego błędu.
9
n
1
9
9
X -3,0
β
=P(U
K/Q=Q )=P(U <2,17/m=4,6)=P
<2,17/m=4,6 =
2/ 9
X -4,6
1,6
=P
<2,17-
/m=4,6 =Φ(-0,23)=1-Φ(0,23)=0,4
2/ 9
2/ 9
∉
Odp. Hipotezę, że średni czas wykonania detalu wynosi 3 min. należy przyjąć. Prawdo-
podobieństwo, że powyższa decyzja jest błędna wynosi 0,4, a więc jest wysokie, dlatego można
polecić podjęcie ostrożniejszej decyzji: nie ma podstaw do odrzucenia powyższej hipotezy.
16.1.3. Pzykład konstrukcji testu parametrycznego do weryfikacji hipotezy o równości
wartości oczekiwanych
Zakładamy, że badane cechy X i Y populacji generalnej są niezależne i mają rozkłady normalne
1
1
X : N(m , )
σ
oraz
2
2
Y : N(m ,
)
σ
, przy czym
σ
1
i
σ
2
są znane.
O wartościach oczekiwanych wysuwamy hipotezy:
•
zerową H
0
(m
1
=m
y2
•
alternatywną H
1
(m
1≠
m
2
)
Hipotezy weryfikujemy na podstawie niezależnych prób
1
1
2
n
(x , x ,..., x ) i
2
1
2
n
(y , y ,..., y ) na
poziomie istotności α.
Do weryfikacji hipotezy wykorzystujemy średnie arytmetyczne z prób
1
1
n
n
i
i 1
1
1
X
X
n
=
=
∑
2
2
n
n
i
i 1
2
1
Y
Y
n
=
=
∑
(16.5)
które są estymatorami nieobciążonymi i najefektywniejszymi wartości oczekiwanych – patrz tabela
15.2.
Gdyby hipoteza H
0
była prawdziwa, wówczas różnica pomiędzy średnimi arytmetycznymi
1
n
X i
2
n
Y nie powinna być zbyt duża.
Jak wiadomo, średnie arytmetyczne
1
n
X i
2
n
Y mają rozkłady
1
1
n
1
1
X : N(m ,
)
n
σ
2
2
n
2
2
Y : N(m ,
)
n
σ
STATYSTYKA MATEMATYCZNA
36
Zatem zmienna losowa
1
2
n
n
X
Y
−
ma rozkład:
2
2
1
2
1
2
1
2
N(m
m ,
)
n
n
σ
σ
−
+
czyli zmienna
1
2
n
n
1
2
2
2
1
2
1
2
(X
Y ) (m
m )
n
n
−
−
−
σ
σ
+
ma rozkład N(0,1).
Jeżeli założymy, że hipoteza
o
1
2
H : m
m
=
jest prawdziwa, to
1
2
m
m
0
−
=
i wobec tego zmienna
1
2
1
2
n
n
n ,n
2
2
1
2
1
2
X
Y
U
n
n
−
=
σ
σ
+
będzie miała rozkład normalny N(0,1).
Znajdziemy taką liczbę k
α
, aby przy ustalonym α był spełniony warunek
(
)
1
2
n ,n
P U
k
α
>
= α (16-3.4)
Jest on równoważny warunkowi
{
}
1
2
n ,n
P
k
U
k
1
α
α
−
≤
≤
= − α (16-3.5)
Ale
{
}
1
2
1
2
1
2
n ,n
n ,n
n ,n
P
k
U
k
P(U
k ) P((U
k )
(k )
( k )
α
α
α
α
α
α
−
≤
≤
=
≤
−
≤ −
= φ
− φ −
qdzie Φ jest dystrybuantą rozkładu normalnego N(0,1).
Ponieważ ( u ) 1 u
α
α
Φ −
= −
to
{
}
1
2
n ,n
P
k
U
k
(k ) 1
(k ) 2 (k ) 1
α
α
α
α
α
−
≤
≤
= φ
− + φ
= φ
−
Równanie do wyznaczenia k
α
ma postać 2 (k ) 1
α
φ
−
=1-α
Zatem u
α
wyznacza się z zależności
(u ) 1
2
α
α
φ
= −
Na podstawie u
α
wyznacza się zbiór krytyczny (
; k ) (k ; )
α
α
−∞ −
∪
∞
.
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
37
16.1.4. Uwagi o weryfikacji hipotez parametrycznych
Uwaga 1.
O związku poziomu istotności z decyzjami
Jeżeli odrzuci się hipotezę zerową na danym poziomie istotności, to odrzuci się ją także na każdym
poziomie istotności większym od danego.
Jeżeli przyjmie się hipotezę zerową na danym poziomie istotności, to przyjmie się ją także na
każdym poziomie istotności mniejszym od danego.
Czytelnik jest proszony o wykonanie ilustracji graficznej powyższych twierdzeń.
Uwaga 2.
O granicznym poziomie istotności
Graniczny poziom istotności (oznaczenie ˆα ) to liczba taka, że
dla wszystkich poziomów istotności
ˆ
α
α
≥ hipotezę zerową odrzucamy
natomiast dla wszystkich poziomów istotności
ˆ
α
< α hipotezę zerową przyjmujemy.
ˆα wyznacza się na podstawie rozkładu sprawdzianu U
n
, przykładowo dla prawostronnego zbioru
krytycznego ˆα =
n
0
ˆ
P(U
k/Q=Q )
≥
, gdzie ˆk jest otrzymaną wartością sprawdzianu.
Uwaga 3.
O odrzucaniu hipotezy zerowej
Jeśli w wyniku testowania hipotez otrzymaliśmy decyzję o odrzuceniu hipotezy zerowej na danym
poziomie istotności i poziom graniczny jest mniejszy od danego, to można ją także odrzucić na
poziomie równym poziomowi granicznemu, więc można zmniejszyć prawdopodobieństwo
popełnienia błędu II rodzaju, zatem utwierdzić się bardziej w przekonaniu, że podjęliśmy właściwą
decyzję.
Przykład 16.3
Cecha X populacji ma rozkład normalny N(m,2). O parametrze m wysunięto hipotezy
H
0
(m = 3) i H
1
(m = 1), które postanowiono zweryfikować na poziomie istotności 0,025. W tym celu
pobrano próbę 16 elementową i otrzymano średnią z próby równą 1,5. Zweryfikujemy te hipotezy
i obliczymy poziom graniczny.
Rozwiązanie
Sprawdzian U
n
=
n
/
m
X
0
σ
−
. Wartość sprawdzianu u
16
=
1,5 3, 0
3
2 / 16
−
= −
Zbiór krytyczny prawostronny K =( -∞; -k>
Liczba k spełnia związek Φ(k) =1- α = 1- 0,025 =0,975
⇒
k =1,96. K = (- ∞; -1,96>
Ponieważ
K
u
16
∈
, więc hipotezę H
0
odrzucamy, na poziomie istotności 0,025.
Poziom graniczny ˆα spełnia zależność
ˆ
Φ
(-3)=1-α =0,99865 ˆ
α
≈ 0,00135
Wniosek. Hipotez
ę
H
0
nale
ż
y odrzuci
ć
na poziomie istotno
ś
ci równym 0,00135 (a wi
ę
c bardzo
małym), co utwierdza nas w podj
ę
tej wcze
ś
niej decyzji - decyzja na podstawie poziomu istotno
ś
ci
α
oraz poziomu granicznego ˆ
α
, poniewa
ż
ˆ
α
≈ 0,00135<.0,025=
α
.
Uwaga 4. O hipotezie alternatywnej
Nale
ż
y podkre
ś
li
ć
,
ż
e decyzja o wysuni
ę
ciu hipotezy alternatywnej w postaci H
1
(Q>Q
0
) lub
w postaci H
1
(Q<Q
0
) nie mo
ż
e by
ć
podj
ę
ta na podstawie wyników próby, powinna natomiast
wynika
ć
z analizy rozwa
ż
anego zjawiska i stosowanych testów. Je
ś
li wi
ę
c nie mamy dostatecznie
mocnych argumentów za przyj
ę
ciem hipotezy alternatywnej w jednej z dwu powy
ż
szych postaci, to
zaleca si
ę
przyj
ąć
posta
ć
H
1
(Q
≠
Q
0
). Konsekwencj
ą
tego faktu jest stosowanie zbioru krytycznego
dwustronnego, natomiast przy poprzednich hipotezach alternatywnych stosuje si
ę
zbiory krytyczne
jednostronne. Nale
ż
y jeszcze podkre
ś
li
ć
,
ż
e przy stosowaniu testów opartych na zbiorach
krytycznych dwustronnych (testów dwustronnych) otrzymuje si
ę
wi
ę
ksze prawdopodobie
ń
stwo
bł
ę
du II rodzaju, ni
ż
przy stosowaniu testów jednostronnych.
STATYSTYKA MATEMATYCZNA
38
Uwaga 5. O analogii przedziału ufności oraz zbioru krytycznego
W tym miejscu zwraca si
ę
uwag
ę
na analogi
ę
przedziału ufno
ś
ci budowanego w ramach estymacji
parametrycznej oraz zbioru krytycznego okre
ś
lanego przy konstrukcji testu parametrycznego do
weryfikacji hipotez o parametrach rozkładu. Poka
ż
emy to na przykładzie cechy X o nieznanej
warto
ś
ci oczekiwanej, która ma rozkład N(m, σ) ze znanym σ.
Rys. 16.4. Związek pomiędzy przedziałem ufności a zbiorem krytycznym
16.2. Testy parametryczne dla jednej próby
16.2.1. Testy do weryfikacji hipotezy o wartości oczekiwanej
Zało
ż
ymy,
ż
e badana cecha X populacji generalnej ma rozkład normalny N(m, σ), przy czym σ jest
znane. W podpunkcie 16.1.3. pokazali
ś
my w jaki sposób konstruuje si
ę
test do weryfikacji hipotez:
•
zerowej H
0
(m=m
0
)
•
alternatywnej H
1
(m>m
0
)
Tak samo post
ę
puje si
ę
przy konstrukcji testu dla innych hipotez alternatywnych: H
1
(m< m
0
) lub
H
1
(m
≠
m
0
).
W analogiczny sposób konstruuje si
ę
testy w dwóch innych przypadkach:
•
σ
nieznane
•
σ
nieznane, próba liczna
Zostały one przedstawione w tabeli 16.1.
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
39
Tabela 16.1. Zestawienie testów do weryfikacji hipotezy o wartości oczekiwanej na podstawie próby o liczności n
Nr testu
TP-1
TP-2
TP-3
Rozkład cechy
N(m,σ)
N(m,σ)
Dowolny
Warunki stosowania
σ
znane
σ
nieznane
σ
nieznane, próba
liczna
Hipoteza zerowa
0
0
H (m=m )
0
0
H (m=m )
0
0
H (m=m )
Sprawdzian
0
X m
/ n
−
σ
0
X m
S / n 1
−
−
0
X-m
S/ n
Rozkład sprawdzianu
pod warunkiem m=m
0
N(0,1)
Studenta z n-1
stopniami swobody
N(0,1)
Wariant testu
Hipoteza
alternatywna
Zbiór krytyczny
TP-1
TP-2
TP-3
A
1
0
H (m>m )
k ; )
<
∞
α
−
=
Φ
1
)
k
(
α
=
≥
−
2
)
k
|
T
(|
P
1
n
B
1
0
H (m<m )
(
; k
−∞ − >
α
−
=
Φ
1
)
k
(
α
=
≥
−
2
)
k
|
T
(|
P
1
n
α
−
=
Φ
1
)
k
(
C
1
0
H (m m )
≠
(
; k
k ; )
−∞ − > ∪ <
∞
(k) 1
2
α
Φ
= −
α
=
≥
−
)
k
|
T
(|
P
1
n
(k) 1
2
α
Φ
= −
STATYSTYKA MATEMATYCZNA
40
Przykład 16.4
Czasy wykonania pewnego zło
ż
onego zestawienia (w sekundach) w zale
ż
no
ś
ci od danych były
nast
ę
puj
ą
ce:
123 146 151 149 162 133 142 156 155 137
Zweryfikowa
ć
na poziomie
α
= 0,05 hipoez
ę
H
0
(m=140) wzgl
ę
dem H
1
(m>140) przy zało
ż
eniu,
ż
e rozpatrywany czas ma rozkład N(m,
σ
), w dwóch przypadkach: a)
σ
= 12 b)
σ
nieznane
Rozwiązanie
a)
σ
= 12
Wykorzystujemy test TP-1. Na podstawie próby obliczamy
ś
redni czas wykonania zestawienia
x =145,4.
Warto
ść
sprawdzianu
0
n
X m
U
/ 10
−
=
σ
jest równa
10
145, 4 140
5, 4
5, 4
u
1, 423
12 / 3,163 3, 794
12 / 10
−
=
=
=
=
Z tablic rozkładu normalnego wyznaczamy warto
ść
k dla której (k) 1
Φ
= − α = 0,95 otrzymuj
ą
c
k=1,64. Zatem zbiór krytyczny ma posta
ć
K=
)
;
64
,
1
∞
<
. Warto
ść
sprawdzianu nie nale
ż
y do zbioru
krytycznego, czyli hipotez
ę
zerow
ą
przyjmujemy.
Wysuni
ę
te hipotezy mo
ż
na zweryfikowa
ć
korzystaj
ą
c z funkcji statystycznej TEST.Z arkusza
kalkulacyjnego Excel, podaj
ą
c warto
ść
oczekiwan
ą
140 z H
0
w polu X oraz odchylenie
standardowe 12 w polu Sigma.
Wynik formuły to krytyczny poziom istotno
ś
ci ˆ
α ≈
0,0774 przy weryfikacji hipotezy dla
prawostronnego zbioru krytycznego. Poniewa
ż
ˆα
≈
0,0774 > 0.05 =
α
wi
ę
c H
0
przyjmujemy
19
.
Mo
ż
emy na zako
ń
czenie przekona
ć
si
ę
,
ż
e rzeczywi
ś
cie ˆ
α ≈
0,0774 jest krytycznym poziomem
istotno
ś
ci. Wstawiaj
ą
c warto
ść
sprawdzianu u
10
=1,423 do funkcji ROZKLAD.NORMALNY.S
otrzymujemy 0,9226 .
19
Patrz uwaga 2 w punkcie 16.1.4.
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
41
Otrzymany wynik 0,9226 = 1 - ˆα = 1 - 0,0774.
b)
σ
nieznane.
Zamiast testu TP-1 wykorzystamy test TP-2, a uwzgl
ę
dniaj
ą
c posta
ć
hipotezy alternatywnej jego
wersj
ę
TP-2C.
Na podstawie próby obliczamy:
•
ś
redni czas wykonania zestawienia x =145,4.
•
wariancj
ę
z próby
10
2
2
i
i 1
1
s
(x
x)
10
=
=
−
∑
= 126,24, czyli
2
s
s
126, 24 11, 24
=
=
=
Zatem warto
ść
sprawdzianu
0
n
X m
U
S / n 1
−
=
−
10
145, 4 140 145, 4 140
u
1, 44
3, 75
11, 24 / 9
−
−
=
=
=
Z tablic rozkładu Studenta
9
P(| T | k) 0,1
≥
=
otrzymujemy k=1,833. Uwzgl
ę
dniaj
ą
c posta
ć
H
1
zbiór
krytyczny jest nast
ę
puj
ą
cy K= k ; )
<
∞ =
)
;
833
,
1
∞
<
. Warto
ść
sprawdzianu nie nale
ż
y do zbioru
krytycznego, czyli nie ma podstaw do odrzucenia hipotezy zerowej.
Wysuni
ę
te hipotezy mo
ż
na zweryfikowa
ć
korzystaj
ą
c z funkcji statystycznej TEST.Z arkusza
kalkulacyjnego Excel, podaj
ą
c warto
ść
oczekiwan
ą
140 z H
0
w pole X oraz nie wypełniaj
ą
c pola
Sigma.
STATYSTYKA MATEMATYCZNA
42
Wynik formuły jest równy krytycznemu poziomowi istotno
ś
ci ˆ
α
= 0,0747 dla prawostronnego
zbioru krytycznego krytycznego. Poniewa
ż
ˆα
≈
0,0747 > 0.05 =
α
wi
ę
c H
0
przyjmujemy.
Mo
ż
emy na zako
ń
czenie sprawdzi
ć
, czy rzeczywi
ś
cie ˆ
α ≈
0,07467 jest krytycznym poziomem
istotno
ś
ci. Wstawiaj
ą
c warto
ść
sprawdzianu u
10
=1,44 do funkcji ROZKLAD.T otrzymujemy
0,0918.
Otrzymany wynik 0,0918 jest ró
ż
ny od ˆ
α
= 0,0747. Spowodowane jest to tym,
ż
e w arkuszu Excel
wykorzystano rozkład normalny, co oznacza,
ż
e zastosowany został test dla prób o du
ż
ych
liczno
ś
ciach, mimo
ż
e liczno
ść
próby wynosiła zaledwie 10.
Dowodem tego jest wstawienie warto
ś
ci sprawdzianu u
10
=1,44 do funkcji
ROZKLAD.NORMALNY.S
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
43
Otrzymany wynik 0,925 jest równy w przybli
ż
eniu 1 - ˆ
α
= 1 – 0,0747
16.2.2. Testy do weryfikacji hipotezy o wariancji i odchyleniu standardowym
Cecha X populacji ma rozkład normalny N(m,
σ
), parametr m mo
ż
e by
ć
znany lub nieznany.
Hipoteza zerowa H
0
(
σ
=
σ
0
)
Tabela 16.2. Testy do weryfikacji hipotezy o wariancji i odchyleniu standardowym
Hipoteza
alternatywna
Sprawdzian U
n
Rozkład sprawdzianu
Zbiór krytyczny K
Wyznaczanie
liczby k
Nr testu
1
0
H (
σ
>
σ
)
2
k ;
<
∞ )
n-1
2
P(Y
k )=
α
≥
TP-4A
1
0
H (
σ
<
σ
)
1
0 ; k
<
>
n-1
1
P(Y
k )=1-
α
≥
TP-4B
1
0
H (
σ
σ
)
≠
2
o
2
n
nS
σ
Rozkład
χ
2
z n-1 stopniami
swobody
1
2
<0 ; k >
k ; )
∪
∪ <
∞
n-1
1
P(Y
k )=
α
/2
≥
n-1
2
P(Y
k )=1-
α
/2
≥
TP-4C
Y
n-1
zmienna losowa o rozkładzie
χ
2
z n-1 stopniami swobody
Uwaga
Hipoteza H
0
(
σ
=
σ
0
), jest równowa
ż
na hipotezie H
0
(
σ
2
=
2
0
σ ), hipoteza
1
0
H (
σ
>
σ
) jest równowa
ż
na
hipotezie H
1
(
σ
2
>
2
0
σ ), itd., zatem hipoteza o odchyleniu standardowym jest równowa
ż
na
odpowiedniej hipotezie o wariancji, co wykorzystuje si
ę
przy weryfikacji hipotez o tym parametrze.
Przykład 16.4
Popyt na pewien towar modelujemy zmienn
ą
losow
ą
X o rozkładzie normalnym. W próbie 10
elementowej otrzymali
ś
my
ś
redni
ą
1250 kg i odchylenie standardowe 50 kg.
a)
Na poziomie istotno
ś
ci 0,02 sprawdzimy hipotezy H
0
(m = 1350 kg) i H
1
(m
≠
1350 kg)
b)
Na poziomie istotno
ś
ci 0,05 sprawdzimy hipotezy H
0
(
σ
=45) i H
1
(
σ
>45)
Rozwiązanie
Cecha populacji X - popyt na towar. Rozkład cechy X: normalny N(m,
σ
), parametry m i
σ
nie s
ą
znane.
Liczebno
ść
próby n = 10. Charakterystyki próby
10
10
x =1250 kg, s =50 kg
a) Stosujemy test TP – 2C. Sprawdzian
1
n
/
S
m
X
U
0
n
−
−
=
jego warto
ść
10
1250 1350
u
6
50 / 9
−
=
= −
Zbiór krytyczny K= (
; k
k ; )
−∞ − > ∪ <
∞
STATYSTYKA MATEMATYCZNA
44
Wyznaczanie liczby k
α
=
≥
−
)
k
|
T
(|
P
1
n
.
9
P(|T | k) 0,02
k 2,821
≥
=
⇒ =
(na podstawie
tablicy rozkładu Studenta – pkt 6 cz
ęś
ci VII „Tablice statystyczne”)
10
0
10
K (
; 2,821
2,821, ; )
u
K
H odrzucamy
u
6
= −∞ −
> ∪ <
∞
⇒
∈
⇒
= −
b) Stosujemy test TP – 4A. Sprawdzian
2
n
n
2
o
nS
U =
σ
, jego warto
ść
2
10
2
10 50
u
12,34
45
⋅
=
=
Zbiór krytyczny K = (k;
∞
). Wyznaczanie liczb
ę
k
n-1
P(Y
k)
≥
= α
9
P(Y
k) 0,05
k 16,919
≥
=
⇒
=
(na podstawie tablicy rozkładu χ
2
– pkt 5 cz
ęś
ci VII „Tablice
statystyczne”).
10
0
10
K (16,919; )
u
K
H przyjmujemy
u
12,34
=
∞
⇒
∉
⇒
=
Przykład 16.5
Dokonano 10 pomiarów nat
ęż
enia pr
ą
du. Otrzymano z tej próby wariancj
ę
2,3. Zakładamy,
ż
e nat
ęż
enie to jest zmienn
ą
losow
ą
o rozkładzie normalnym.
Na poziomie istotno
ś
ci 0,04 sprawd
ź
hipotezy: zerow
ą
,
ż
e nat
ęż
enie pr
ą
du ma wariancj
ę
równ
ą
2
i alternatywn
ą
,
ż
e nat
ęż
enie pr
ą
du ma wariancj
ę
ró
ż
n
ą
od 2.
Rozwiązanie
X – nat
ęż
enie pr
ą
du
Rozkład cechy X: normalny N(m,
σ
). Liczebno
ść
próby n =10. Wariancja z próby
2
10
s =2,3
Hipotezy H
0
(
σ
2
= 2,0) H
1
(
σ
2
≠
2,0) Poziom istotno
ś
ci
α
=0,04
Stosujemy test TP-4C. Sprawdzian U
n
=
2
n
2
o
nS
σ
,
jego warto
ść
u
10
=
10 2,3
11,5
2, 0
⋅
=
Zbiór krytyczny K=
1
2
0 ;k
k ; )
<
> ∪ <
∞
n-1
2
P(Y
k )
/ 2
≥
= α
⇒
9
2
P(Y
k ) 0,02
≥
=
⇒
k
2
= 19,679
n-1
1
P(Y
k ) 1
/ 2
≥
= − α
⇒
9
1
P(Y
k ) 0,98
≥
=
⇒
k
1
=2,532
K =
)
;
679
,
19
532
,
2
;
0
∞
<
∪
>
<
u
10
=11,5
Poniewa
ż
10
u
K,
∉
wi
ę
c hipotez
ę
H
0
przyjmujemy.
16.2.3. Testy do weryfikacji hipotezy o wskaźniku struktury
Cecha X populacji ma rozkład zerojedynkowy P(X=1)=p, P(X=0)=1-p,
p (0;1)
∈
Hipoteza zerowa
)
p
p
(
H
0
0
=
. Próba liczna n
≥
100
Tabela 16.3. Test do weryfikacji hipotezy o wskaźniku struktury
Hipoteza
alternatywna
Sprawdzian
n
U
Rozkład sprawdzianu
Zbiór krytyczny K
Wyznaczanie
liczby k
Nr
testu
1
0
H (p p )
>
k ; )
<
∞ )
α
−
=
Φ
1
)
k
(
TP-5A
1
0
H (p p )
<
(
;k
−∞
> (
; k)
−∞
α
−
=
Φ
1
)
k
(
TP-5B
1
0
H (p p )
≠
0
0
0
W-p
n
p (1-p )
Asymptotycznie
normalny N(0,1)
(
; k
k ; )
−∞ − > ∪ <
∞
(k) 1
2
α
Φ
= −
TP-5C
W – wskaźnik struktury w próbie, w= r/n, r – liczba jedynek w próbie.
Φ
– dystrybuanta rozkładu normalnego N(0,1)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
45
Przykład 16.6
W próbie 1000 osób uprawnionych do głosowania, 320 osób oświadczyło, że będzie głosować
w wyborach na pewną partię. Czy otrzymany wynik jest sprzeczny z przypuszczeniem, że na tą
partię może głosować 35% wyborców? Sprawdzimy odpowiednie hipotezy na poziomie istotności
0,02.
Rozwiązanie
X – zmienna losowa przyjmująca wartość 1, gdy wyborca będzie głosował na daną partię, wartość
0, gdy nie będzie głosował na tą partię.
Zmienna losowa X na rozkład zerojedynkowy
p
1
)
0
X
(
P
,
p
)
1
X
(
P
−
=
=
=
=
Liczebność próby n =1000. Liczba jedynek w próbie r = 320
Wskaźnik struktury w próbie
32
,
0
1000
320
n
r
w
=
=
=
Poziom istotności α = 0,02
Hipotezy
0
1
H (p=0,35), H (p 0,35)
<
Stosujemy test TP-5B
Sprawdzian Un =
n
)
p
1
(
p
p
W
0
0
0
−
−
. Wartość sprawdzianu
2
1000
65
,
0
35
,
0
35
,
0
32
,
0
u
n
−
=
⋅
−
=
Zbiór krytyczny K =
>
−
−∞
k
;
(
α
−
=
Φ
1
)
k
(
= 0,98
k 2,05
⇒ =
>
−
−∞
=
05
,
2
;
(
K
u
n
= -2
Ponieważ
,
K
u
10
∉
więc hipotezę H
0
przyjmujemy. Otrzymany wynik nie przeczy przypuszczeniu,
ż
e na partię może głosować 35% wyborców
.
16.3. Testy parametryczne dla dwóch prób
16.3.1. Testy do porównywania wartości oczekiwanych dla prób niezależnych
Założymy, że badana cecha X populacji generalnej ma rozkład normalny N(m,
σ
), przy czym
σ
jest
znane. W podpunkcie 16.1.3. pokazaliśmy w jaki sposób konstruuje się test do weryfikacji hipotez:
•
zerowej H
0
(m
1
=m
2
)
•
alternatywnej H
1
(m
1
≠
m
2
)
Tak samo postępuje się przy konstrukcji testu dla innych hipotez alternatywnych: H
1
(m
1
>m
2
) lub
H
1
(m
1
< m
2
)
W analogiczny sposób konstruuje się testy w trzech innych przypadkach:
•
σ
1
σ
2
są równe i nieznane
•
σ
1
σ
2
nie są równe i nieznane
•
próby są liczne, n
1
, n
2
≥
100
Wszystkie rozpatrzone dotąd testy zostały przedstawione w tabeli 16.4.
STATYSTYKA MATEMATYCZNA
46
Tabela 16.4 . Zestawienie testów do porównywania dwóch wartości oczekiwanych na podstawie niezależnych prób o licznościach n
1
, n
2
Nr testu
TP-6
TP-7
TP-8
TP-9
Nazwa testu
test Studenta
test Studenta dla
nieznanych wariancji
Rozkłady cech
1
1
2
2
N(m ,σ ), N(m ,σ )
N(m
1
,
σ
), N(m
2
,
σ
)
Dowolny
Dowolny
Warunki stosowania
1
σ
i
2
σ
są znane
σ
nieznane
σ
1
σ
2
są nieznane
próby są liczne
n
1
, n
2
≥
100
Hipoteza zerowa
)
m
m
(
H
2
1
0
=
)
m
m
(
H
2
1
0
=
)
m
m
(
H
2
1
0
=
)
m
m
(
H
2
1
0
=
Sprawdzian
2
2
1
2
1
2
X-Y
σ
σ
+
n
n
2
2
1 1
2 2
1
2
1
2
1 2
X-Y
n S +n S n +n
n +n -2
n n
⋅
2
2
1
2
1
2
X Y
S
S
n
1 n
1
−
+
−
−
2
2
1
2
1
2
X Y
S
S
n
n
−
+
Rozkład sprawdzianu
N(0,1)
Studenta z n
1
+n
2
-2
stopniami swobody
Studenta - patrz
poniżej
asymptotycznie
N(0,1)
Nr
testu
Hipoteza
alternatywna
Zbiór krytyczny
TP-6
TP-7
TP-8
TP-9
A
1
1
2
H (m >m )
k ; )
<
∞
B
1
1
2
H (m <m )
(
; k
−∞ − >
α
−
=
Φ
1
)
k
(
1
2
n n
2
P( T
k) 2
+
−
≥
= α
def
P( T
k) 2
≥
= α
2
2
2
1
2
(a b)
df
a
b
n
1 n
1
+
=
+
−
−
gdzie:
2
1
1
s
a
n
1
=
−
2
2
2
s
b
n
1
=
−
α
−
=
Φ
1
)
k
(
C
1
1
2
H (m
m )
≠
(
; k
k ; )
−∞ − > ∪ <
∞
(k) 1
2
α
Φ
= −
n n
2
1
2
P(| T
| k)
+
−
≥
= α
def
P( T
k)
≥
= α
def jak powyżej
(k) 1
2
α
Φ
= −
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
47
Przykład 16.7
W celu określenia struktury zatrudnienia w pewnej firmie obliczono liczbę zatrudnionych kobiet
i mężczyzn w kolejnych 8 miesiącach otrzymując następujące wyniki:
Mężczyźni
195
187
175
146
194
191
194
206
Kobiety
219
233
190
210
214
247
225
197
Chcemy sprawdzić hipotezę o równości wartości oczekiwanych ilości zatrudnionych kobiet
i mężczyzn, względem hipotezy alternatywnej bedącej jej zaprzeczeniem, przy założeniu, że liczby
zatrudnionych mają rozkłady normalny o takich samych wariancjach
20
oraz przyjmując poziom
istotności 0,05.
Rozwiązanie
Na podstawie prób obliczamy średnie i wariancje z próby
Mężczyżni
Kobiety
Ś
rednia z próby
n
i
i 1
1
x
x
n
=
=
∑
186, 0
216,875
Wariancja z próby
n
2
2
i
i 1
1
s
(x
x)
n
=
=
−
∑
294,5
301,3594
Zatem wartość sprawdzianu dla testu TP-7
1
2
n ,n
2
2
1 1
2 2
1
2
1
2
1 2
X-Y
U
n S +n S n +n
n +n -2 n n
=
jest równa
8,8
2
2
2
2
1
2
1
2
x-y
x-y
30,875
30,875
30,875
u
3,3464
9, 2262
294,5+301,36
85,1227
8s +8s
s +s
16
7
14
64
7
−
−
−
=
=
=
=
=
= −
Granice zbioru krytycznego wyznaczamy z zalezności
α
=
≥
−
+
)
|
(|
2
2
1
k
T
P
n
n
, która po uwzględnieniu
danych ma postać
05
,
0
)
|
(|
14
=
≥ k
T
P
,
zatem k=2,145.
Zbiór krytyczny jest więc równy K=
)
;
k
k
;
(
∞
<
∪
>
−
−∞
=
)
;
2,145
2,145
;
(
∞
<
∪
>
−
−∞
Wartość sprawdzianu należy więc do zbioru krytycznego, więc odrzucamy hipotezę H
0
na korzyść
statystyki H
1
. Oznacza to, że średnie liczby zatrudnionych kobiet i mężczyzn nie są równe.
Wysunięte hipotezy można zweryfikować korzystając z arkusza kalkulacyjnego Excel na dwa
sposoby, co zilustrowano poniżej.
1.
Wykorzystujemy funkcję statystyczną TEST.T
Po wpisaniu danych w komórki a1:p1 i a2:p2 oraz
ustalając parametry testu: Typ = 2 - test dla równych wariancji i Ślady = 2 - test dwustronny.
20
Równość wariancji w populacji należy sprawdzić testem do porównywania wariancji, otrzymany wynik potwierdzi lub
nie słuszność przyjętego założenia – test opisano w punkcie 16.3.3.
STATYSTYKA MATEMATYCZNA
48
Wynik formuły ≈ 0,0048 jest równy jest równy granicznemu poziomowi istotności
ˆα
, wyznaczonemu
na podstawie wartości wskaźnika obliczonego bez wykorzystania programu komputerowego, co
zilustrowano poniżej.
Ponieważ
ˆα
≈
0,0048 < 0,05 = α hipotezę zerową należy odrzucić
21
.
21
Patrz uwaga 2 w punkcie 16.1.4.
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
49
2.
Wykorzystujemy narzędzie pakietu Analiza danych:
Test t: z dwiema próbami zakładający równe
wariancje
wpisując wcześniej dane w komórki a1:p1 i a2:p2.
Test t: z dwiema próbami zakładający równe wariancje
Komentarz
Zmienna 1
Zmienna 2
Ś
rednia
186
216,875
Wariancja
336,571429 344,410714
Obserwacje
8
8
Wariancja sumaryczna
340,491071
Różnica średnich wg hipotezy
0
df
14
t Stat
-3,3464481
Sprawdzian
P(T<=t) jednostronny
0,00239888
Graniczny poziom
istotności
Test T jednostronny
1,76131012
Granica zbioru
krytycznego
P(T<=t) dwustronny
0,00479775
Graniczny poziom
istotności
Test t dwustronny
2,14478668
Granica zbioru
krytycznego
Za pomocą otrzymanej tabelki weryfikujemy wysunięte hipotezy na dwa sposoby, pamiętając, że
hipoteza alternatywna jest zaprzeczeniem hipotezy zerowej:
•
W oparciu o zbiór krytyczny.
Ponieważ t Stat=-3,3464481
∈
K =
)
;
2,145
2,145
;
(
∞
<
∪
>
−
−∞
więc odrzucamy hipotezę H
0
na
korzyść hipotezy H
1
.
•
W oparciu o graniczny poziom istotności
Ponieważ
ˆα =
0,00479775
<
0,05 = α hipotezę zerową należy odrzucić na korzyść hipotezy Ho.
Na zakończenie zwracamy uwagę, że otrzymaliśmy taką samą wartość sprawdzianu t Stat ≈ -3,346 i
granicę zbioru krytycznego ≈ 2,14 jakie otrzymano wcześniej bez programu komputerowego oraz taką
samą wartość krytycznego poziomu istotności P(T<=t) dwustronny ≈0,0048, jaką otrzymano z
wykorzystaniem funkcji statystycznej TEST.T.
STATYSTYKA MATEMATYCZNA
50
Przykład 16.8
Porównywano czas rozwiązywania pewnego testu przez członków dwóch zespołów analityków
(w minutach).
Z1
188
192
187
178
179
175
177
178
185
190
Z2
190
179
185
186
183
184
179
180
190
Chcemy sprawdzić hipotezę o równości średniego czasu rozwiązywaniu testu w obu zespołach,
względem hipotezy alternatywnej bedącej jej zaprzeczeniem, przy założeniu, że czasy rozwiązywania
testu mają rozkłady normalne z różnymi wariancjami
22
oraz przyjmując poziom istotności 0,05.
Rozwiązanie
Na podstawie prób obliczamy:
X
Y
Ś
rednia z próby
n
i
i 1
1
x
x
n
=
=
∑
x 182,9
=
y 184, 0
=
Wariancja z próby
n
2
2
i
i 1
1
s
(x
x)
n
=
=
−
∑
2
1
s
34, 09
=
2
2
s
16,0
=
Zgodnie z założeniem o nierówności wariancji stosujemy TP-8
Wartość sprawdzianu
n ,n
1 2
2
2
1
2
1
2
X Y
U
S
S
n
1 n
1
−
=
+
−
−
jest równa
n n
1 2
182,9 184, 0
1,1
1,1
1,1
u
0, 457
2, 406
34, 09 16
3.788 2
5,788
9
8
−
=
= −
= −
= −
= −
+
+
Sprawdzian ma rozkład Studenta z liczbą stopni swobody równą
2
2
2
1
2
(a b)
df
a
b
n
1 n
1
+
=
+
−
−
gdzie:
2
1
1
s
a
n
1
=
−
i
2
2
2
s
b
n
1
=
−
Dla danych z przykładu
2
1
1
s
34,09
a
3,79
n
1
9
=
=
=
−
i
2
2
2
s
16
b
2,0
n
1
8
=
=
=
−
Zatem liczba stopni swobody
2
2
2
2
(3,79 2, 0)
5, 79
33,52
df
15,96
1, 6 0,5
2,1
3, 79
2,0
9
8
+
=
=
=
=
+
+
czyli przyjmujemy liczbę stopni swobody równą 16.
Z tablic rozkładu Studenta wyznaczamy liczbę k dla której
df
P( T
k)
≥
= α
otrzymując k=2,12.
22
Co można sprawdzić testem do porównywania wariancji – patrz przykład 16.10
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
51
Czyli zbiór krytyczny ma postać: K=(-
∞
; -1,746>
∪
<1,746 ;
∞
).
Ponieważ
n n
1 2
u
∉
K
⇒
H
0
przyjmujemy.
Wysunięte hipotezy można zweryfikować korzystając z arkusza kalkulacyjnego Excel na dwa
sposoby, co ilustrują poniższe rysunki
1.
Wykorzystując funkcję statystyczną TEST.T po wpisaniu danych w komórki a1:p1 i a2:p2 oraz
ustalając parametry testu: Typ = 3 - test dla różnych wariancji i Ślady = 2 - test dwustronny.
Wynik formuły 0,653 jest równy jest równy granicznemu poziomowi istotności ˆα ,
wyznaczonemu na podstawie wartości wskaźnika obliczonego
bez wykorzystania programu
komputerowego
, co zilustrowano poniżej.
STATYSTYKA MATEMATYCZNA
52
Ponieważ
ˆα
=0,653 > 0,05 = α hipotezę zerową H
0
przyjmujemy
23
.
2.
Wykorzystując narzędzie pakietu Analiza danych:
Test t: z dwiema próbami zakładający
nierówne wariancje
wpisując wcześniej dane w komórki a1:a10 i g1:g9.
Otrzymane wyniki są następujące:
Test t: z dwiema próbami zakładający nierówne wariancje
Komentarz
Zmienna 1
Zmienna 2
Ś
rednia
182,9
184
Wariancja
37,87777778
18
Obserwacje
10
9
Różnica średnich wg hipotezy
0
df
16
t Stat
-0,457232151
Sprawdzian
P(T<=t) jednostronny
0,326825607
Graniczny
poziom istotności
Test T jednostronny
1,745883669
Granica zbioru
krytycznego
P(T<=t) dwustronny
0,653651213
Graniczny
poziom istotności
Test t dwustronny
2,119905285
Granica zbioru
krytycznego
Za pomocą otrzymanej tabelki weryfikujemy wysunięte na dwa sposoby, pamiętając, że hipoteza
alternatywna jest zaprzeczeniem hipotezy zerowej:
•
W oparciu o zbiór krytyczny.
Ponieważ t Stat=--0,457232151
∉ ∈
K =
)
;
2,12
2,12
;
(
∞
<
∪
>
−
−∞
więc hipotezę H
0
przyjmujemy.
•
W oparciu o graniczny poziom istotności
Ponieważ
ˆα =
0,653651213
>
0,05 = α hipotezę zerową Ho przyjmujemy.
Na zakończenie zwracamy uwagę, że otrzymaliśmy taką samą wartość sprawdzianu t Stat ≈ -0,457 i
granice zbioru krytycznego ≈ 2,12 jakie wcześniej bez programu komputerowego oraz taką samą
wartość krytycznego poziomu istotności P(T<=t) dwustronny ≈0,653, jaką otrzymano z wykorzystaniem
funkcji statystycznej TEST.T.
23
Patrz uwaga 2 w punkcie 16.1.4.
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
53
Przykład 16.9
Badano dwa typy samochodów ze względu na maksymalną prędkość. W 100 pomiarach maksymalnej
prędkości I typu otrzymano średnią maksymalną prędkość 205,4 km/h i odchylenie standardowe 4,5
km/h, natomiast w 144 pomiarach maksymalnej prędkości II typu samochodów otrzymano średnią
maksymalną prędkość 207,3 km/h i odchylenie standardowe 6,8 km/h.
Czy można twierdzić, że średnia maksymalna prędkość dla obu typów samochodów jest jednakowa,
czy też należy przyjąć, iż dla typu I jest mniejsza niż dla II typu? Sprawdź odpowiednie hipotezy na
poziomie istotności 0,01.
Rozwiązanie
X – maksymalna prędkość I typu samochodów.
Y - maksymalna prędkość II typu samochodów.
Rozkłady obu cech nie są znane.
X
Y
Liczebności prób
n
1
= 100
n
2
= 144
Ś
rednie z prób
4
,
205
x =
3
,
207
y =
Odchylenia standardowe z prób
s
1
= 4,5
s
2
= 6,8
Poziom istotności α = 0,01
Wartości oczekiwane m
1
= EX m
2
= EY
Hipotezy: H
0
(m
1
= m
2
), H
1
(m
1
< m
2
)
Z uwagi na dużą liczebność prób stosujemy test TP-9.
Sprawdzian U=
2
2
1
2
1
2
X Y
S
S
n
n
−
+
. Wartość sprawdzianu
63
,
2
144
8
,
6
100
5
,
4
3
,
207
4
,
205
u
2
2
−
=
+
−
=
Zbiór krytyczny K =
>
−
−∞
k
;
(
, gdzie
α
−
=
Φ
1
)
k
(
=0,99
⇒
k = 2,33
K =
>
−
−∞
33
,
2
;
(
u = -2,63
Ponieważ
K
u ∈
, więc hipotezę H
0
odrzucamy i przyjmujemy hipotezę alternatywną, że średnia
maksymalna prędkość jest mniejsza dla samochodów typu I. Przy podjęciu takiej decyzji zagraża
popełnienie błędu I rodzaju, którego prawdopodobieństwo α =0,01 jest jak widać małe. Graniczny
poziom istotności
α
ˆ =
(u)
( 2, 63) 1
(2, 63) 0, 004
Φ
= Φ −
= − Φ
=
i jest znacznie mniejszy od α, co
utwierdza nas jeszcze bardziej o słuszności podjętej decyzji.
16.3.2. Testy do porównywania wartości oczekiwanych – próby zależne
Z populacji losujmy n elementów i mierzymy wartości cechy X w dwóch momentach (np. wartość
ciśnienia tętniczego przed podaniem leku i w godzinę po podaniu leku). Otrzymujemy dwie próby n
elementowe dla dwóch cech: cechy X
1
– wartość badanej cechy w momencie początkowym i cechy
X
2
– wartość badanej cechy w momencie końcowym. Cechy te nie muszą być niezależne, zatem
próby są powiązane. Aby sprawdzić hipotezę, że wartości oczekiwane obu cech są równe, należy
sprawdzić hipotezę, że wartość oczekiwana zmiennej losowej Y = X
1
- X
2
jest równa zeru na
podstawie próby, której wartościami są różnice wartości prób dla obu cech.
Zakładamy, że cecha Y ma rozkład normalny, co można sprawdzić przy pomocy odpowiedniego testu
(patrz rozdział o testach nieparametrycznych). Wtedy rozważane poniżej testy są szczególnym
przypadkiem testów TP - 4, 5, 6
0
(dla m =0).
Hipoteza zerowa
)
m
m
(
H
2
1
0
=
.
STATYSTYKA MATEMATYCZNA
54
Tabela 16..6 Testy do porównywania wartości oczekiwanych prób powiązanych, rozkład normalny
Hipoteza
alternatywna
Sprawdzian U
n
Rozkład sprawdzianu
Zbiór krytyczny K Wyznaczanie liczby k
Nr
testu
1
1
2
H (m >m )
∞
;
(k
)
n 1
P( T
k) 2
−
≥
= α
TP-10A
1
1
2
H (m <m )
)
;
(
k
−
−∞
n 1
P( T
k) 2
−
≥
= α
TP-10B
1
1
2
H (m
m )
≠
Y
Y
n-1
S
.
Rozkład Studenta z
n – 1 stopniami swobody
)
;
(
)
;
(
∞
∪
∪
−
−∞
k
k
n 1
P(| T
| k)
−
≥
= α
TP-10C
T
n-1
- zmienna losowa o rozkładzie Studenta z n-1 stopniami swobody.
Opisany powyżej test nosi nazwę
test Studenta dla prób powiązanych
.
Przykład 16.10
W pewnej firmie informatycznej przed wprowadzeniem nowej technologii projektowania
oprogramowania sprawdzono jej skuteczność przez porównanie czasów projektowania różnorodnych
modułow z wykorzystaniem dotychczasowej i nowej technologii. Sprawdzenia tego dokonano na
podstawie próby 16-elementowej. Elementy tej próby określone w minutach podano poniżej. X1 –
czas projektowania modułu z wykorzystaniem dotychczasowej technologii, a X2 – czas
projektowania modułu z wykorzystaniem nowej tetechnologii.
X1
405
125
540
100
200
30
1200 265
90
206
18
489
590
310
995
75
X2
334
150
520
95
212
30
1055 200
85
129
14
440
610
208
880
25
Rozwiązanie
Przyjmując założenie, że czasy projektowania modułów podelgaja rozkładom normalnym będziemy
weryfikować hipotezę zerową, że nowa technologia nie zmienia czasu projektowania wobec hipotezy
alternatywnej, że go skraca.
Wysuwamy hipotezy H
0
(m
1
= m
2
), H
1
(m
1
> m
2
), które zweryfikujemy na poziomie istotności 0,05.
Zastosujemy test Studenta dla prób powiązanych TP-10B.
Sprawdzian:
n
Y
Y
U
n 1
S
=
−
, gdzie
Y
jest średnią Y = X
2
– X
1,
rozkład sprawdzianu
n
1
2
U / m
m
=
jest rozkładem Studenta z n-1 stopniami swobody
Na podstawie próby otrzymujemy, że
2
y
y= 40,69 s =2493,59
−
. Ponieważ n=16 zatem
16
2
y
y
40,6875
u
n 1
16 1
0,8147 3,87
3,15
49,94
s
−
=
− =
− = −
⋅
= −
Dla określenia zbioru krytycznego K=
>
−
−∞
k
;
(
wyznaczamy liczbę k:
n-1
P(| T | k) 2α
≥
=
15
P(| T | k) 0,1
k 1,753
≥
=
⇒ =
wykorzystano tablice rozkładu Studenta dla 15 stopni swobody i
prawdopodobieństwa 0.1 (funkcja dotyczy rozkładu dwustronnego, a nam potrzebny jest zbiór
jednostronny). Zatem zbiór krytyczny K=
>
−
−∞
753
,
1
;
(
Ponieważ
16
u
K
∈
, więc hipotezę zerową odrzucamy, co oznacza, że nowa technologia skraca czas
projektowania modułów.
Wysunięte hipotezy można zweryfikować korzystając z arkusza kalkulacyjnego Excel na dwa
sposoby.
1.
Wykorzystując funkcję statystyczną TEST.T po wpisaniu danych w komórki a1:p1 i a2:p2 oraz
ustalając parametry testu: Typ = 1 - test dla prób powiązanych (test sparowany) i Ślady = 1 - test
jednostronny.
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
55
Wynik formuły 0,0033 jest równy jest równy granicznemu poziomowi istotności ˆα ,
wyznaczonemu na podstawie wartości wskaźnika obliczonego bez wykorzystania programu
komputerowego, co zilustrowano poniżej.
Ponieważ ˆα =0,0033 < 0,05 = α hipotezę zerową H
0
odrzucamy
24
.
24
Patrz uwaga 2 w punkcie 16.1.4.
STATYSTYKA MATEMATYCZNA
56
2.
Wykorzystując narzędzie pakietu Analiza danych:
Test t: par skojarzonych z dwiema próbami
dla średniej
wpisując wcześniej dane w komórki a1:a16 i b1:b16.
Otrzymane wyniki były następujące:
Zmienna 1
Zmienna 2
Komentarz
Ś
rednia
352,375
311,6875
Wariancja
118367,7167
97734,3625
Obserwacje
16
16
Korelacja Pearsona
0,992224891
Różnica średnich wg hipotezy
0
df
15
t Stat
-3,155688486
Sprawdzian
P(T<=t) jednostronny
0,00326497
Graniczny poziom
istotności
Test T jednostronny
1,753050325
Granica zbioru
krytycznego
P(T<=t) dwustronny
0,006529939
Graniczny poziom
istotności
Test T dwustronny
2,131449536
Granica zbioru
krytycznego
Za pomocą otrzymanej tabelki weryfikujemy wysunięte hipotezy na dwa sposoby, pamiętając, że
hipoteza alternatywna jest jest jednostronna:
•
W oparciu o zbiór krytyczny.
Ponieważ t Stat=- 3,155688486
∉ ∈
K =
(
; 1,175>
−∞ −
więc hipotezę H
0
odrzucamy.
•
W oparciu o graniczny poziom istotności
Ponieważ
ˆα =
0,00326497
<
0,05 = α hipotezę zerową Ho odrzucamy.
Na zakończenie zwracamy uwagę, że otrzymaliśmy taką samą wartość sprawdzianu t Stat ≈ 3,15 i
granicę zbioru krytycznego ≈ 1,75 jakie otrzymano wcześniej bez programu komputerowego oraz taką
samą wartość krytycznego poziomu istotności P(T<=t) jednostronny ≈0,003, jaką otrzymano z
wykorzystaniem funkcji statystycznej TEST.T
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
57
16.3.3. Testy do porównywania wariancji
Badane są dwie populacje: pierwsza ze względu na cechę X, druga ze względu na cechę Y.
Zakładamy, że cechy te są niezależne o rozkładach normalnych odpowiednio N(m
1
,σ
1
), N(m
2
,σ
2
).
Hipoteza zerowa H
0
(
)
2
2
1
2
σ = σ
Tabela 16.7. Testy do porównywania wariancji, N(m
1
,σ
σ
σ
σ
1
) N(m
2
,σ
σ
σ
σ
2
)
Hipoteza
alternatywna
Sprawdzian
1 2
n n
U
Rozkład sprawdzianu
Zbiór krytyczny K
Wyznaczanie liczby
k
1
i k
2
Nr testu
2
2
1
1
2
H (σ >σ )
2
k ;
<
∞
)
2
P(F k )
≥
= α
TP-11A
2
2
1
1
2
H (σ <σ )
1
(0 ; k
>
1
P(F k ) 1
≥
= − α
TP-11B
2
2
1
1
2
H (σ
σ
)
≠
1
1
2
2
2
n
n ,n
2
n
ˆS
U
ˆS
=
Rozkład Snedecora z
parą (n
1
-1, n
2
–1) stopni
swobody.
1
2
(0 ; k
k ; )
> ∪ <
∞
2
P(F k )
/ 2
≥
= α
1
P(F k ) 1
/ 2
≥
= − α
TP-11C
F - zmienna losowa o rozkładzie Snedecora z parą (n
1
-1, n
2
–1) stopni swobody.
Przykład 16.11
Porównywano czas rozwiązywania pewnego testu przez członków dwóch zespołów analityków
(w minutach).
Z1
188
192
187
178
179
175
177
178
185
190
Z2
190
179
185
186
183
184
179
180
190
Chcemy sprawdzić hipotezę o równości wariancji przy założeniu, że czasy rozwiązywania testu mają
rozkłady normalne i przyjmując poziom istotności 0,05.
Rozwiązanie
Z1
Z2
Ś
rednie z prób
7
,
182
=
x
0
,
184
=
y
Wariancje z prób
2
1
s
34, 09
=
2
2
s
16, 0
=
Sprawdzimy hipotezy
a)
(
)
2
2
0
1
2
H σ = σ
(
)
2
2
1
1
2
H σ > σ
Do weryfikacji hipotez stosujemy test TP-11A., wartość sprawdzianu
11,10
34,09
u
2,1306
16,0
=
=
Zbiór krytyczny K =
2
k ; )
<
∞
, przy czym
2
P(F k )
≥
= α
, gdzie F to zmienna losowa o rozkładzie
Snedecora z parą (n
1
-1, n
2
-1) stopni swobody, w rozwiązywanym przykładzie z parą
(9, 8) stopni swobody. Zatem
2
2
P(F k ) 0,05
k
3,39
≥
=
⇒
=
, czyli
)
;
39
,
3
∞
=<
K
.
Ponieważ
),
;
13
,
3
1306
,
2
10
,
11
∞
=<
∉
=
K
u
więc hipotezę H
0
, że wariancje (a także odchylenia
standardowe) są sobie równe przyjmujemy.
Wysunięte hipotezy można zweryfikować korzystając z arkusza kalkulacyjnego Excel na dwa
sposoby, co ilustrują poniższe rysunki
1.
Wykorzystując funkcję statystyczną TEST.F po wpisaniu danych w komórki a22:j22 i a23:i23.
STATYSTYKA MATEMATYCZNA
58
Wynik formuły 0,30816 jest równy jest równy granicznemu poziomowi istotności ˆα ,
wyznaczonemu na podstawie wartości wskaźnika obliczonego bez wykorzystania programu
komputerowego, co zilustrowano poniżej.
Otrzymano dwa razy mniejszy wynik, ponieważ w funkcji TEST.F przyjęty jest dwustronny zbiór
krytyczny.
W przypadku testu jednostronnego
ˆα
=0,150 > 0,05 = α więc hipotezę zerową H
0
przyjmujemy.
2.
Wykorzystując narzędzie pakietu Analiza danych:
Test F: z dwiema próbami dla wariancji
wpisując wcześniej dane w komórki a1:p1 i a2:p2.
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
59
Otrzymane wyniki są następujące:
Test F: z dwiema próbami dla wariancji
Komentarz
Zmienna 1
Zmienna 2
Ś
rednia
182,9
184
Wariancja
37,877778
18
Obserwacje
10
9
df
9
8
F
2,104321
Sprawdzian
P(F<=f) jednostronny
0,154081
Graniczny poziom
istotności
Test F jednostronny
3,3881302
Granica zbioru
krytycznego
Za pomocą otrzymanej tabelki weryfikujemy wysunięte hipotezy na dwa sposoby, pamiętając, że
hipoteza alternatywna jest jest jednostronna:
•
W oparciu o zbiór krytyczny.
Ponieważ t Stat=
2,104321
∈
∉
K =
3,39; )
<
∞
więc hipotezę H
0
przyjmujemy.
•
W oparciu o graniczny poziom istotności
Ponieważ ˆα
=
0,154081
>
0,05 = α hipotezę zerową Ho przyjmujemy.
Na zakończenie zwraca się uwagę, że otrzymaliśmy taką samą wartość sprawdzianu F ≈ 2,1, taką samą
wartość krytycznego poziomu istotności P(T<=t) jednostronny ≈0,15 oraz granicę zbioru krytycznego
Test F jednostronny ≈ 3,39 jakie otrzymano wcześniej bez programu komputerowego.
16.3.4. Testy do porównywania wskaźników struktury
Badane są dwie cechy X i Y różnych populacji o rozkładach zerojedynkowych,
,
p
1
)
0
X
(
P
,
p
)
1
X
(
P
1
1
−
=
=
=
=
,
p
1
)
0
Y
(
P
,
p
)
1
Y
(
P
2
2
−
=
=
=
=
Cechy X i Y są zmiennymi losowymi niezależnymi.
Z populacji, której badana jest cecha X pobrano próbę
1
n elementową, natomiast
z drugiej populacji pobrano próbę
2
n elementową. Obie próby są liczne n
1
, n
2
≥
100.
Hipoteza zerowa:
)
p
p
(
H
2
1
0
=
STATYSTYKA MATEMATYCZNA
60
Tabela 16.8. Testy do porównywania wskaźników struktury, próby liczne
Hipoteza
alternatywna
Sprawdzian
n n
1 2
U
Rozkład sprawdzianu
Zbiór krytyczny K
Wyznaczanie
liczby k
Nr testu
1
1
2
H (p >p )
∞
<
;
k
)
α
−
=
Φ
1
)
k
(
TP-12A
1
1
2
H (p <p )
>
−
−∞
k
;
(
α
−
=
Φ
1
)
k
(
TP-12B
1
1
2
H (p
p )
≠
2
1
2
1
2
1
n
n
n
n
)
W
1
(
W
W
W
+
⋅
−
−
Rozkład asymptotycznie
normalny N(0,1)
(
; k
k; )
−∞ − > ∪
∪ <
∞
(k) 1
2
α
Φ
= −
TP-12C
W
1
, W
2
wskaźniki struktury z obu prób,
2
1
2
2
2
1
1
1
r
,
r
,
n
/
r
w
,
n
/
r
w
=
=
- liczby jedynek
w próbach o liczebnościach n
1
i n
2
2
1
2
1
n
n
r
r
w
+
+
=
Φ
– dystrybuanta rozkładu normalnego N(0,1).
Przykład 16.12
Porównywano wadliwość dwu partii towaru. Z pierwszej partii pobrano próbę 200 elementową i
zanotowano w niej 10 sztuk wadliwych. Z drugiej partii pobrano próbę 150 elementową. Było w niej
12 sztuk wadliwych. Czy wadliwości obu partii są takie same, czy też należy przyjąć, że wadliwość
pierwszej partii jest mniejsza niż drugiej? Sprawdź odpowiednie hipotezy na poziomie istotności 0,06.
Rozwiązanie
X – zmienna losowa przyjmująca wartość 1, gdy z pierwszej partii wybrano sztukę wadliwą lub
wartość 0, gdy wybrano sztukę dobrą.
Y – zmienna losowa przyjmująca wartość 1, gdy z drugiej partii wybrano sztukę wadliwą lub wartość
0, gdy wybrano sztukę dobrą.
Zmienne losowe X i Y są niezależne i mają rozkłady zerojedynkowe z parametrami odpowiednio
p
1
, p
2
Wskaźniki struktury p
1
i p
2
są wadliwościami partii pierwszej i drugiej.
,
p
1
)
0
X
(
P
,
p
)
1
X
(
P
1
1
−
=
=
=
=
2
2
P(Y=1)=p , P(Y=0)=1-p .
Liczebności prób n
1
=200 n
2
=150. Liczby sztuk wadliwych w próbach r
1
=10 r
2
=12.
Hipotezy H
0
(p
1
= p
2
), H
1
(p
1
< p
2
). Poziom istotności α = 0,06
Stosujmy test TP-35. Wadliwości w próbach (wskaźniki struktury)
05
,
0
200
10
n
r
w
1
1
1
=
=
=
,
08
,
0
150
12
n
r
w
2
2
2
=
=
=
063
,
0
350
22
150
200
12
10
n
n
r
r
w
2
1
2
1
=
=
+
+
=
+
+
=
Sprawdzian
2
1
2
1
2
1
n
n
n
n
)
W
1
(
W
W
W
U
+
⋅
−
−
=
Wartość sprawdzianu
14
,
1
150
200
150
200
932
,
0
063
,
0
08
,
0
05
,
0
n
n
n
n
)
w
1
(
w
w
w
u
2
1
2
1
2
1
−
=
⋅
+
⋅
⋅
−
=
+
⋅
−
−
=
Zbiór krytyczny K =
>
−
−∞
k
;
(
=
α
−
=
Φ
1
)
k
(
0,94
55
,
1
k =
⇒
K = (-
∞
; -1,55>
Ponieważ
,
K
u
10
∉
więc hipotezę H
0
przyjmujemy. Można twierdzić, że wadliwości obu partii są
sobie równe.
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
61
Uwagi
: W przypadku konieczności zweryfikowania hipotez dotyczących wskaźników struktury
•
przy próbach niepowiązanych o małych liczebnosciach należy zastosować test dokładny
Fishera
25
•
przy próbach powiązanych należy zastosować test Mc Nemary
26
.
16.4. Testy nieparametryczne dla jednej próby
16.4.1. Ocena losowości próby
Istotne znaczenie ma sprawdzenie, czy próba jest losowa, bowiem losowość jest podstawowym
założeniem zdecydowanej większości metod estymacji i testów statystycznych.
Wysuwamy hipotezy H
0
( Pobrana próba jest losowa)
H
1
(Pobrana próba nie jest losowa)
Hipotezy te weryfikujemy przy pomocy testu serii.
1. Wyznaczamy medianę z próby i transformujemy próbę wg zasady:
- jeśli element próby ma wartość mniejszą od mediany, to przyporządkowujemy mu liczbę 0,
- jeśli element próby ma wartość większą od mediany, to przyporządkowujemy mu liczbę 1,
- jeśli element próby ma wartość równą medianie, to odrzucamy go z próby.
2. Sprawdzian: statystyka U
n
oznaczająca liczbę serii w transformowanej próbie.
3. Rozkład sprawdzianu zależy od liczebności n
0
oraz n
1
zer lub jedynek w transformowanej
próbie i jest stablicowany (pkt 8 części VII „Tablice statystyczne”). Z tablic tych można odczytać
liczbę u
α
taką, że
P(Un ≤ u
α
) = α.
4. Zbiór krytyczny dwustronny K = (0; k
1
>
∪
(k
2
; ∞)
Liczby k
1
i k
2
wyznaczamy z tablicy rozkładu ilości serii
P(U
n
≤ k
1
) = α/2
P(U
n
> k
2
) = α/2
5. Obliczamy na podstawie próby wartość u
n
statystyki U
n
, czyli obliczamy liczbę serii
w próbie transformowanej.
6. Podejmujemy decyzje
- jeśli u
n
∈
K, to H
0
przyjmujemy,
- jeśli u
n
∉
K, to H
0
nie przyjmujemy.
Uzasadnienie
Jeśli hipoteza zerowa jest prawdziwa, to w transformowanej próbie powinna być umiarkowana liczba
serii. Gdyby bowiem serii było mało np. byłyby tylko dwie serie, to oznaczałoby, że w próbie
najpierw kolejno występują elementy o wartościach mniejszych od mediany, a następnie kolejno
elementy większe od mediany ( lub na odwrót). Próba taka z oczywistego powodu nie byłaby losowa.
Gdyby serii było dużo np. tyle ile jest elementów próby, to oznaczałoby, że na przemian w próbie
występują elementy większe i mniejsze od mediany. Taką próbę też byłoby trudno uznać za losową.
Zatem duża i mała liczba serii w próbie transformowanej przemawia za odrzuceniem hipotezy
zerowej, natomiast umiarkowana liczba serii przemawia za przyjęciem tej hipotezy. Dlatego zbiór
krytyczny przyjmujemy dwustronny.
Przykład 17.1
W celu zbadania struktury wieku pracowników dużej firmy pobrano próbę 16 pracowników
i zbadano ich wiek (liczbę lat ukończonych). Otrzymano następującą próbę.
38 34 30 42 27 38 41 20 21 23 18 42 28 40 31 43
Czy próba ta jest losowa?
25
Zostanie opisany w II części podręcznika
26
Zostanie opisany w II części podręcznika
STATYSTYKA MATEMATYCZNA
62
Rozwiązanie
1. Sortujemy dane niemalejąco
18 20 21 23 27 28 30 31 34 38 38 40 41 42 42 43
Mediana wieku jest równa
e
31 34
m
32,5
2
+
=
=
Poniżej przedstawiono poszczególne elementy próby przed i po transformacji
38 34 30 42 27 38 41 20 21 23 18 42 28 40 31 43
1 1 0 1 0 1 1 0 0 0 0 1 0 1 0 1
2. Sprawdzian: statystyka U
n
oznaczająca liczbę serii w transformowanej próbie.
3. Poziom istotności α = 0,05
4. Zbiór krytyczny dwustronny K = (0; k
1
>
∪
(k
2
; ∞)
Liczby k
1
i k
2
wyznaczmy z tablicy rozkładu ilości serii (pkt 8 części VII „Tablice statystyczne”)
n
1
n
2
P(U
k )=0,05/2 =0,025
P(U >k )=1-α/2 =0,975
≤
dla n
0
= n
1
= 8 (liczby zer i jedynek w próbie transponowanej) mamy k
1
= 4, k
2
=13
Zatem K = (0; 4>
∪
<13 ; ∞)
5. Liczba serii w próbie transponowanej u
n
=11
6. Ponieważ u
n
∉
K, to hipotezę zerową H
0
, że próba jest losowa przyjmujemy.
Uwaga
Jeśli próba jest liczna, to statystka U
n
– liczna serii w transponowanej próbie ma rozkład
asymptotycznie normalny o parametrach
0 1
0 1
0 1
2
2n n
2n n (2n n -n)
m=
+1, σ=
n
n (n-1)
16.4.2. Test zgodności chi kwadrat
Dana jest dystrybuanta F(x).
Hipoteza zerowa H
0
(Cecha X populacji ma rozkład określony dystrybuantą F(x))
Hipoteza alternatywna H
1
(Cecha X populacji nie ma rozkładu określonego dystrybuantą F(x)).
Weryfikacja powyższych hipotez za pomocą tzw. testu
χ
2
przebiega następująco:
1.
Pobieramy liczną próbę (n ≥80). Prezentujemy ją w szeregu rozdzielczym przedziałowym
w r klasach, przy czym:
•
Pierwsza i ostatnia klasa szeregu rozdzielczego powinny mieć postać A
1
= (-∞; a
1
),
A
r
= <a
r
; ∞) i do każdej z nich powinno należeć co najmniej 5 elementów próby.
•
Do pozostałych klas powinno należeć co najmniej 10 elementów próby.
•
Klas nie może być mniej niż 4.
2.
Obliczamy na podstawie próby oceny parametrów wchodzących w skład dystrybuanty F(x)
uzyskane metodą największej wiarygodności.
3.
Przyjmujemy, że hipoteza H
0
jest prawdziwa tzn., że rozkład cechy X jest określony dystrybuantą
F(x), przy czym parametry dystrybuanty są równe ocenom uzyskanym w punkcie 2.
4.
Dla każdego przedziału klasowego A
i
= <a
i
; a
i+1
) obliczamy prawdopodobieństwa
i
i
i
i+1
i+1
i
p =P(X A )=P(a
X<a )=F(a )-F(a )
∈
≤
dla i =1, ... , r
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
63
5. Obliczamy
2
r
i
i
n
i=1
i
(n -np )
u =
np
∑
gdzie n
i
jest liczebnością klasy A
i
.
6. Wyznaczamy zbiór krytyczny prawostronny K = <k; ∞), k wyznaczamy z tablicy rozkładu
χ
2
z r-s-1stopniami swobody i dla prawdopodobieństwa
α
równemu poziomowi istotności – pkt 5
części VII „Tablice statystyczne”, s jest liczbą parametrów szacowanych na podstawie próby
metodą największej wiarygodności.
7. Podejmujemy decyzję:
•
odrzucamy hipotezę H
0
, gdy u
n
∈
K
•
przyjmujemy hipotezę H
0
, gdy u
n
∉
K
Test
χ
2
opiera się na twierdzeniu:
Statystyka
2
r
i
i
n
i=1
i
(N -np )
U =
np
∑
gdzie: N
i
- zmienna losowa oznaczająca liczebność klasy A
i
, której wartością jest liczbą u
n
określona
w punkcie 5
ma dla licznej próby rozkład w przybliżeniu
χ
2
z r-s-1 stopniami swobody, gdzie s jest liczbą
parametrów szacowanych na podstawie próby metodą największej wiarygodności.
Uzasadnienie postępowania
n
i
- liczba elementów próby należących do klasy A
i
(liczebność empiryczna klasy A
i
)
np
i
- oczekiwana liczba elementów należących do klasy A
i
, przy założeniu prawdziwości hipotezy
zerowej (liczebność teoretyczna klasy A
i
).
Jeśli hipoteza H
0
jest prawdziwa, to różnica n
i
- np
i
powinna być mała dla i = 1, ... , r, zatem liczba u
n
powinna być także mała. Dlatego zbiór krytyczny przyjmujemy prawostronny K = <k; ∞). Jeśli u
n
∈
K tzn. u
n
≥ k, to uznajemy, że u
n
jest duże i H
0
odrzucamy, w przeciwnym przypadku H
0
przyjmujemy.
Przykład 17.3
Za pomocą arkusza kalkulacyjnego Exel wygenerowano 120 liczb losowych z rozkładu jednostajnego
z przedziału (0 ; 1). Otrzymano następujące liczby, po uporządkowaniu ich niemalejąco
(kolumnami).
0,002 0,090 0,188 0,297 0,385 0,472 0,587 0,702 0,829 0,922
0,003 0,090 0,189 0,301 0,387 0,473 0,600 0,721 0,830 0,927
0,006 0,095 0,217 0,317 0,393 0,480 0,605 0,724 0,851 0,927
0,017 0,115 0,227 0,323 0,395 0,483 0,610 0,726 0,855 0,944
0,022 0,136 0,236 0,332 0,403 0,489 0,610 0,747 0,864 0,946
0,036 0,141 0,251 0,333 0,407 0,490 0,611 0,759 0,867 0,962
0,046 0,148 0,253 0,341 0,411 0,496 0,633 0,770 0,870 0,967
0,053 0,154 0,254 0,349 0,422 0,511 0,638 0,776 0,885 0,983
0,055 0,157 0,256 0,356 0,425 0,516 0,655 0,807 0,899 0,989
0,061 0,163 0,261 0,360 0,426 0,537 0,661 0,810 0,910 0,996
0,064 0,166 0,265 0,369 0,459 0,540 0,663 0,825 0,918 0,998
0,079 0,176 0,286 0,381 0,472 0,542 0,667 0,827 0,921 0,998
Sprawdzimy, przy pomocy testu chi kwadrat, na poziomie istotności 0,05, czy rzeczywiście pochodzą
z tego rozkładu.
STATYSTYKA MATEMATYCZNA
64
Rozwiązanie
Cecha X – liczba losowa
Wysuwamy hipotezy
H
0
(Cecha X ma rozkład jednostajny w przedziale ( 0;1))
27
H
1
(Cecha X nie ma rozkładu jednostajnego)
1.
Prezentujemy dane w szeregu rozdzielczym przedziałowym w 10 klasach
A
i
n
i
(-∞ ; 0,1) 15
<0,1 ; 0,2) 11
<0,2 ; 0,3) 11
<0,3 ; 0,4) 15
<0,4 ; 0,5) 15
<0,5 ; 0,6)
6
<0,6 ; 0,7) 11
<0,7 ; 0,8)
8
<0,8 ; 0,9) 13
<0,9 ; ∞)
15
Razem
120
2.
Nie ma parametrów wchodzących w skład dystrybuanty rozkładu jednostajnego w przedziale (0;1)
(patrz gęstość (17.1)).
3.
Przyjmujemy, że hipoteza H
0
jest prawdziwa.
4.
Ponieważ gęstość jest stała więc
i
p
const 0,1
=
=
oraz np
i
= 12
5.
A
i
n
i
p
i
n p
i
i
i
i
(n
np )2
np
−
(-∞ ; 0,1) 15 0,1 12
0,75
<0,1 ; 0,2) 11 0,1 12
0,08
<0,2 ; 0,3) 11 0,1 12
0,08
<0,3 ; 0,4) 15 0,1 12
0,75
<0,4 ; 0,5) 15 0,1 12
0,75
<0,5 ; 0,6)
6
0,1 12
3,00
<0,6 ; 0,7) 11 0,1 12
0,08
<0,7 ; 0,8)
8
0,1 12
1,33
<0,8 ; 0,9) 13 0,1 12
0,08
<0,9 ; ∞)
15 0,1 12
0,75
Razem
120 1,0 120
u
n
=7,95
6. Wyznaczamy zbiór krytyczny prawostronny K = <k; ∞). Liczbę k wyznaczamy z tablicy rozkładu
chi kwadrat z r – s – 1 = 10 – 0 – 1 = 9 stopniami swobody i poziomu istotności 0,05.
Otrzymujemy k =16,916, zatem K =<16,016; ∞).
7.
n
0
u
K
H
∉
⇒
przyjmujemy.
27
t
zn. jej gęstość wyraża się wzorem
(
)
1
dla x (0,1)
f (x)
0 dla x
0,1
∈
=
∉
(17.1)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
65
16.4.3. Ocena normalności rozkładu
Posiadanie informacji, że rozkład cechy populacji jest normalny ma podstawowe znaczenie
w statystyce, bowiem przy tym założeniu prawdziwa jest przeważająca liczba twierdzeń, teoria
statystyki jest najprostsza i do zastosowań praktycznych nie potrzeba zwykle pobierać licznych prób.
Podamy wersję testu zgodności
χ
2
dostosowaną do sprawdzania hipotezy, że cecha populacji ma
rozkład normalny. Stosujemy go, gdy próba jest liczna (n ≥ 80)
28
,
Hipoteza zerowa H
0
(Cecha X populacji ma rozkład normalny).
Hipoteza alternatywna H
1
(Cecha X populacji nie ma rozkładu normalnego).
Weryfikacja powyższych hipotez za pomocą testu
χ
2
przebiega następująco:
1.
Pobieramy liczną próbę (n ≥80). Prezentujemy ją w szeregu rozdzielczym klasowym w r klasach.
2.
Obliczamy: x - średnią z próby i s - odchylenie standardowe z próby według wzorów
r
r
2
i i
i
i
i=1
i=1
1
1
x=
n x ,
s=
n (x -x)
n
n
∑
∑
%
%
i
x~
- środek klasy A
i
3.
Przyjmujemy, że cecha X ma rozkład normalny N( x , s).
4.
Dla każdego przedziału klasowego
i
i
i 1
A
a ;a )
+
=<
obliczamy prawdopodobieństwo
i
i+1
i+1
i
i
i
i
i+1
a -x
a -x
a -x
a -x
X-x
p =P(X A )=P(a
X<a )=P(
<
)=Φ(
)-Φ(
)
s
s
s
s
s
∈
≤
≤
5.
Obliczamy
2
r
i
i
n
i=1
i
(n -np )
u =
np
∑
, gdzie n
i
jest liczebnością klasy A
i
.
6.
Wyznaczamy zbiór krytyczny prawostronny
K
k; )
=<
∞
, gdzie k wyznaczamy z tablicy rozkładu
χ
2
dla r – 3 stopniami swobody i dla prawdopodobieństwa
α
(równemu poziomowi istotności) –
pkt 5 części VII „Tablice statystyczne”.
7.
Podejmujemy decyzję:
•
odrzucamy hipotezę H
0
, gdy u
n
∈
K
•
przyjmujemy hipotezę H
0
, gdy u
n
∉
K
Przykład 17.4
Badano wynagrodzenie (w zł) pracowników pewnego przedsiębiorstwa (cecha X populacji).
Z grupy pracowników pobrano próbę 200 elementową. Otrzymane wyniki prezentowane są
w poniższym szeregu rozdzielczym przedziałowym
Nr klasy
i
Wynagrodzenie
<a
i
, a
i+1
)
Liczebność
n
i
1
<600 ; 800)
2
2
<800 ; 1000)
10
3
<1000 ; 1200)
20
4
<1200 ; 1400)
30
5
<1400 ; 1600)
56
6
<1600 ; 1800)
42
7
<1800 ; 2000)
21
8
<2000 ; 2200)
13
9
<2200 ; 2400)
5
10
<2400 ;2600)
1
Suma
200
28
W przypadku konieczności zweryfikowania hipotez o podleganiu cechy rozkładowi normalnemu w oparciu o próbę
o małej liczebnosci należy zastosować test Shapiro-Wilka. Zostanie on opisany w drugiej części podręcznika
STATYSTYKA MATEMATYCZNA
66
Na poziomie istotności
α
= 0,05 sprawdzimy hipotezy: H
0
(Cecha X populacji ma rozkład normalny) i
H
1
(Cecha X populacji nie ma rozkładu normalnego).
Obliczenia
x
i s
Nr
klasy
i
Wynagrodzenie
<a
i
; a
i+1
)
Liczebność
ni
Ś
rodek
klasy
i
x~
i
i
n
x~
2
i
i
)
x
x~
(
n
−
1
<600 ; 800)
2
700
1400
1411200
2
<800 ; 1000)
10
900
9000
4096000
3
<1000 ; 1200)
20
1100
22000
3872000
4
<1200 ; 1400)
30
1300
39000
1728000
5
<1400 ; 1600)
56
1500
84000
89600
6
<1600 ; 1800)
42
1700
71400
1075200
7
<1800 ; 2000)
21
1900
39900
2721600
8
<2000 ; 2200)
13
2100
27300
4076800
9
<2200 ; 2400)
5
2300
11500
2888000
10
<2400 ;2600)
1
2500
2500
921600
Suma
200
308000
22880000
1540
200
308000
x
=
=
[zł],
2
22880000
s
114400
200
=
=
[zł], s
114400 338, 2
=
=
[zł]
Obliczenia u
200
Ponieważ do każdej ze skrajnych klas powinno należeć co najmniej 5 elementów łączymy w jedną
klasę klasy pierwszą i drugą danego szeregu rozdzielczego - otrzymujemy pierwszą klasę nowego
szeregu, którą ze względu na wymagania, jaką postać ma mieć ta klasa zapisujemy
(-∞;1000). Z tych samych powodów łączymy klasy 8, 9 i 10 w jedną klasę i zapisujmy ją w postaci
<2000; ∞ ).
i
<a
i
; a
i+1
)
n
i
a
i
a
i+1
i
a -x
s
i+1
a -x
s
Φ
i
a -x
s
Φ
i+1
a -x
s
p
i
np
i
2
i
1
i
(n -np )
np
1 (
∞
−
; 1000) 12
∞
−
1000
∞
−
-1,60
0
0,0552
0,05517 11,03
0,084659
2 <1000 ; 1200) 20 1000 1200 -1,60
-1,01
0,05517
0,1574
0,10220 20,44
0,009499
3 <1200 ; 1400) 30 1200 1400 -1,01
-0,41
0,15737
0,3395
0,18208 36,42
1,130557
4 <1400 ; 1600) 56 1400 1600 -0,41
0,18
0,33945
0,5704
0,23095 46,19
2,083142
5 <1600 ; 1800) 42 1600 1800 0,18
0,77
0,57041
0,779
0,20858 41,72
0,001933
6 <1800 ; 2000) 21 1800 2000 0,77
1,36
0,77899
0,9131
0,13412 26,82
1,264544
7 <2000 ;
∞
) 19 2000
∞
1,36
∞
0,91311
1
0,08689 17,38
0,151291
Suma
1,00000 200,00
4,73
u
200
= 4,73. Wyznaczamy zbiór krytyczny prawostronny K = <k; ∞). Liczbę k odczytujemy z tablicy
rozkładu
2
χ
dla r – 3 = 7 – 3 = 4 stopni swobody i prawdopodobieństwa
α
= 0,05. (pkt 5 części VII
„Tablice statystyczne”). Mamy k = 9,488, więc K = <9,488; ∞). Ponieważ u
200
= 4,73
∉
K , więc
hipotezę, że cecha ma rozkład normalny przyjmujemy.
Hipotezę tę można dopiero odrzucić na poziomie istotności 0,32, gdyż zbiór krytyczny
K = <4,73; ∞) otrzymujemy właśnie na tym poziomie.
W powyższym przykładzie dane statystyczne były pogrupowane w przedziałach o jednakowej
długości (z wyjątkiem pierwszego i ostatniego). Test chi kwadrat można stosować także przy innych
sposobach grupowania danych, na przykład przy grupowaniu w przedziały o jednakowych
prawdopodobieństwach teoretycznych p
i
przyjęcia wartości z tych przedziałów. Prawdopodobieństwa
te są obliczane, przy założeniu, iż prawdziwa jest hipoteza, że rozkład cechy jest normalny. Przy tej
metodzie grupowania liczebności np
i
są jednakowe dla każdego przedziału.
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
67
Przykład 17. 5
Padano zużycie surowca na jednostkę produkcji (Cecha X populacji). Pobrano próbę 100 elementową
i otrzymano wyniki:
35 72 91 23 49 12 69 52 41 23 32 74 91 12 58 68 34 16 50 38
43 96 35 67 73 28 38 62 17 30 81 46 51 63 43 54 50 24 18 34
25 51 40 63 89 45 66 25 63 84 15 34 82 49 60 74 29 34 45 67
65 48 76 84 21 38 49 60 48 32 69 54 38 68 41 32 55 41 63 47
28 80 80 20 31 90 57 40 77 56 51 49 53 48 63 51 69 31 40 24
Sprawdzimy hipotezy H
0
(X ma rozkład normalny), H
1
(X nie ma rozkładu normalnego), stosując test
chi-kwadrat, dla danych pogrupowanych w przedziały o równych liczebnościach teoretycznych.
Rozwiązanie
Pogrupujemy dane w r = 10 klasach, a więc teoretyczna liczebność klasy wynosi także 10, gdyż próba
liczy 100 elementów, prawdopodobieństwo przyjęcia wartości przez X z danej klasy wynosi p = 0,1.
Na podstawie próby wyznaczamy x = 50 i s =20,5. Zakładamy, że cecha X ma rozkład normalny
N(50;20,5), czyli zmienna losowa
5
,
20
50
X
Y
−
=
ma rozkład normalny N(0, 1).
Przedziały (klasy) wyznaczamy następująco:
A
i
= <a
i-1
;a
i
)
Prawy koniec a
i
klasy o numerze i spełnia związek P(X < a
i
) = ip = 0,1i, zatem
i
i
i
a -50
a -50
X-50
P(X<a )=P
<
=Φ
=0,1i
20,5
20,5
20,5
Z tablicy dystrybuanty rozkładu normalnego (pkt 4 części VII „Tablice statystyczne”) wyznaczamy
liczbę k
i
, taką, że
i
i
a -50
=k
20,5
a stąd
a
i
=50 + 20,5k
i
dla
i = 1, 2, ..., 9
Prawe końce klas zostały wyznaczone, a to wystarcza do wyznaczenia klas, gdyż lewy koniec klasy
jest równy prawemu poprzedniej klasy, zaś koniec lewy pierwszej klasy jest równy -∞.
Sortujemy próbę niemalejącą i wyznaczamy liczebności klas.
12 12 15 16 17 18 20 21 23 23 24 24 25 25 28 28 29 30 31 31
32 32 32 34 34 34 34 35 35 38 38 38 38 40 40 40 41 41 41 43
43 45 45 46 47 48 48 48 49 49 49 49 50 50 51 51 51 51 52 53
54 54 55 56 57 58 60 60 62 63 63 63 63 63 65 66 67 67 68 68
69 69 69 72 73 74 74 76 77 80 80 81 82 84 84 89 90 91 91 96
Dalej postępujemy jak w poprzednim przykładzie: obliczmy wartość sprawdzianu, który dla danych
w tym przykładzie przyjmuje postać
r
2
n
i
i=1
1
u =
(n -10)
10
∑
.
STATYSTYKA MATEMATYCZNA
68
Otrzymane wyniki przedstawia poniższa tabela.
i
0,1i
k
i
a
i
=20,5k
i
+50
KlasyA
i
Liczebności
n
i
(n
i
-10)
2
1
0, 1
-1,28
23,7
(- ∞ ; 23,7)
10
0
2
0,2
-0,84
32,7
<23,7 ; 32,7)
13
9
3
0,3
-0,52
39,2
<32,7 ; 39,2)
10
0
4
0,4
-0,25
44,8
<39,2 ; 44,8)
8
4
5
0,5
0,00
50,0
<44,8 ; 50,0)
11
1
6
0,6
0,25
55,2
<50,0 ; 55,2)
11
1
7
0,7
0,52
60,8
<55,2 ; 60,8)
5
25
8
0,8
0,84
67,5
<60,8 ; 67,5)
10
0
9
0,9
1,28
76,3
<67,5 ; 76,3)
10
0
10
1,0
∞
∞
<76,3 ; ∞)
12
4
Suma
100
44
Zatem wartość sprawdzianu
n
44
u
4, 4
10
=
=
. Zbiór krytyczny prawostronny K = <k ; ∞). Liczbę k
wyznaczmy z tablicy rozkładu chi kwadrat dla r-3 = 10 -3 = 7 stopni swobody
i poziomu istotności 0,05. Otrzymujemy k = 14,067, zatem K = <14,067 ; ∞). Ponieważ u
n
∉
K więc
przyjmujemy hipotezę, cecha X ma rozkład normalny. Wyznaczymy jeszcze graniczny poziom
istotności,
)
4
,
4
Y
(
P
ˆ
7
≥
=
α
, gdzie Y
7
ma rozkład chi kwadrat z 7 stopniami swobody. Na podstawie
programu komputerowego otrzymujemy
73
,
0
ˆ
=
α
(tablice są za mało dokładne), co świadczy o
bardzo dobrej zgodności rozkładu w próbie z rozkładem hipotetycznym.
16.4.4. Test niezależności chi kwadrat
Populację badamy ze względu na dwie cechy X i Y , czyli ze względu na zmienną losową
dwuwymiarową (X, Y). Ze względu na cechę X populację dzielimy na r grup, zaś ze względu na
cechę Y na s grup, zatem ze względu na obie cechy na r
⋅
s grup. Cechy X i Y wyrażone są więc
w skali nominalnej. Zmienna losowa dwuwymiarowa jest skokowa o funkcji prawdopodobieństwa
P(X = i, Y = j) = p
ij
dla i = 1, 2, … , r; j = 1, 2, … , s.
Podamy teraz test, oparty na teście chi kwadrat, do weryfikacji hipotez o niezależności cech X i Y
populacji.
Jak wiemy z rachunku prawdopodobieństwa zmienne losowe skokowe są niezależne wtedy
i tylko wtedy, gdy P(X = i, Y = j) = P(X = i) P(Y = j) lub w innym zapisie p
ij
= p
i.
p
.j
dla i = 1, 2, … , r; j = 1, 2, … , s.
Zatem hipoteza H
0
(Cechy X i Y są niezależne) może być zastąpiona hipotezą:
H
0
(Rozkład zmiennej losowej dwuwymiarowej (X, Y) jest skokowy o funkcji prawdopodobieństwa
P(X = i, Y = j) = p
i
. p.
j
dla i = 1, 2, … , r; j = 1, 2, … , s).
Pobieramy z populacji próbę i klasyfikujemy ją ze względu na obie cechy.
Oznaczenia:
n
ij
- liczba elementów próby należących do grupy o numerze i ze względu na cechę X oraz do grupy o
numerze j ze względu na cechę Y,
n
i.
– liczba elementów próby należących do grupy o numerze i ze względu na cechę X,
n
.j
- liczba elementów próby należących do grupy o numerze j ze względu na cechę Y,
n
i.
, n
.j
- liczebności brzegowe.
i.
i1
i2
is
n =n +n +…+n
′
.j
1j
2j
rj
n =n +n +…+n
′
s
.
2
.
1
.
.
r
.
2
.
1
n
n
n
n
n
n
n
+
+
+
=
+
+
+
=
K
K
.
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
69
Liczebności te można przedstawić w postaci podanej poniżej tabeli korelacyjnej
Y
X
1
2 … s n
i.
1
n
11
n
12
… n
1s
n
1.
2
n
21
n
22
n
2s
n
2.
.
… … … … …
r
n
r1
n
r2
… n
rs
n
r.
n
.j
n.
1
n.
2
… n.
s
n
.
Oszacowaniem metodą największej wiarygodności parametru p
i.
jest
n
n
i⋅
, zaś parametru p
.j
jest
n
.
n
j
.
Wzór na wartość sprawdzianu w teście chi kwadrat
2
r
i
i
n
i=1
i
(n -np )
u =
np
∑
przybiera teraz postać
2
r
s
ij
ij
n
i=1 j=1
ij
ˆ
(n -n )
u =
ˆn
∑∑
, gdzie
i. .j
ij
n n
ˆn =
n
.
Wielkość u
n
jest wartością statystyki U
n
o rozkładzie w przybliżeniu chi kwadrat z liczbą stopni
swobody równą liczbie wszystkich grup ze względu na obie cechy minus liczba parametrów
szacowanych metodą największej wiarygodności minus jeden.
Wszystkich grup jest r·s. Parametrów p
i
jest r, ale należy oszacować tylko r -1 parametrów, gdyż
r
i.
i-1
p =1
∑
i z tej równości wyznaczmy r-ty parametr, z tego samego powodu szacujemy tylko s-1
parametrów p
.j
. Zatem statystyka U
n
ma rozkład w przybliżeniu chi kwadrat o (r-1)(s-1) stopniach
swobody, gdyż
r s (r 1) (s 1) 1 rs r s 1 r(s 1) (s 1) (r 1)(s 1)
⋅ −
−
−
−
− =
− − − =
−
−
−
=
−
−
Przyjmujemy zbiór krytyczny prawostronny K = < k; ∞). Liczbę k odczytujemy z rozkładu chi
kwadrat dla (r-1)(s-1) stopni swobody. Jeśli wartość sprawdzianu u
n
∈
K, to odrzucamy hipotezę
zerową H
0
, że cechy są niezależne, w przeciwnym przypadku przyjmujemy H
0
.
Przykład 17. 7
W trzech grupach A, B i C pewnej uczelni przeprowadzono egzamin ze statystyki. Postanowiono
zbadać, czy istnieje zależność między przynależnością studenta do danego wydziału, a wynikiem
egzaminu?
Wprowadzamy zmienną losową X przyjmującą wartość 1, gdy student jest z grupy A, liczbę 2, gdy z
grupy B oraz liczbę 3, gdy jest z grupy C oraz zmienną losową Y przyjmującą wartość 1, gdy student
zdał egzamin lub wartość 0, gdy nie zdał egzaminu.
Wysuwamy hipotezy
H
0
(Cechy X i Y są niezależne)
H
1
(Cechy X i Y są zależne)
Wyniki badania przedstawione są w 6 klasach. Liczebności tych klas oraz liczebności brzegowe
zawiera poniższa tabela.
Y
X
1
0
n
i.
1
35
5
40
2
45
15
60
3
20
10
30
n
.j
100
30
130
STATYSTYKA MATEMATYCZNA
70
Obliczamy:
- tabelę wartości
ij
ˆn
j
i
1
0
1
30,77
9,23
2
46,15
13,85
3
23,08
6,92
- tabelę wartości
2
ij
ij
ij
ˆ
(n -n )
ˆn
j
i
1
0
1
0,58
1,94
2
0,03
0,10
3
0,41
1,37
Wartość sprawdzianu to suma zawartości komórek powyższej tabeli, jest ona równa u
n
= 4,43.
Przyjmujemy poziom istotności α = 0,01.
Zbiór krytyczny dla tego testu jest prawostronny K = < k ; ∞) . Liczbę k odczytujemy z tablicy
rozkładu chi kwadrat dla (r-1)(s-1) = (3-1)(2-1) = 2 i poziomu prawdopodobieństwa α = 0,01. Mamy
k = 9,210, zatem K = < 9,210 ; ∞). Ponieważ u
n
∉
K, więc brak jest podstaw do odrzucenia hipotezy
zerowej, co oznacza że wynik egzaminu nie zależy od grupy, do której student jest zapisany.
Hipotezy można zweryfikować bezpośrednio wykorzystując funkcję statystyczną TEST.CHI arkusza
Excel. Dane dotyczą liczebności klas n
ij
oraz wartości
ij
ˆn , które należy wcześniej obliczyć.
Wynik formuły 0,10937 jest równy jest równy granicznemu poziomowi istotności
ˆα
, wyznaczonemu
na podstawie wartości wskaźnika u
n
= 4,43 obliczonego bez wykorzystania programu
komputerowego, co zilustrowano poniżej.
Ponieważ ˆα =0,109 > 0,05 = α więc hipotezę zerową H
0
przyjmujemy.
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
71
Na zakończenie zweryfikujemy wysunięte hipotezy korzystając z pakietu IBM SPSS Statistics
wybierając po wpisaniu danych do 2 kolumn (do pierwszej oznaczenie wydziałow , a do drugiej
oznaczenie wyniku egzaminu – dane sa zapisane w 2 kolumnach i 130 wierszach) w kolejności:
Analiza → Opis statystyczny → Tabele krzyżowe i wybierając statystykę Chi-kwadrat:
STATYSTYKA MATEMATYCZNA
72
Otrzymane wyniki są następujące:
Otrzymaliśmy taką samą wartość statystyki chi-kwadrat = 4,424 jak obliczoną bez wykorzystania
programu komputerowego i taką samą graniczną wartość poziomu istotności 0,110 jaką obliczono z
wykorzystaniem arkusza Excel.
Uwaga
Każda teoretyczna liczebność
ij
ˆn
powinna wynosić co najmniej 5. Jeśli tak nie jest, to należy dodać
do siebie dwa sąsiednie wiersze lub kolumny.
Sprawdzian można łatwo obliczyć w przypadku r = s = 2. Wtedy dane zapisane są w tzw. tabeli
czteropolowej
Y
X
1
2
1
A
B
A+B
2
C
D
C+D
A+C
B+D
n
Wtedy sprawdzian przyjmuje postać
2
n
n(AD-BC)
U =
(A+B)(A+C)(B+D)(C+D)
i ma rozkład (przy założeniu prawdziwości hipotezy zerowej) asymptotycznie chi kwadrat
z jednym stopniem swobody.
Uwaga
W częśći II podręcznika opisano kolejny test do badania niezależności cech populacji oparty na teorii
serii.
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
73
Przykład 17.8
Badano wyniki egzaminu końcowego wśród absolwentów gimnazjów dużych miast (powyżej 100 tys.
mieszkańców) i małych miast (do 100 tys. mieszkańców). Wprowadzamy cechy X
i Y, X = 1, gdy absolwent zdawał egzamin w dużym mieście, X=0, gdy zdawał w małym mieście,
natomiast Y =1, gdy absolwent zdał egzamin, Y = 0, gdy nie zdał egzaminu.
Wysuwamy hipotezy H
0
(Cechy X i Y są niezależne), H
1
(Cechy X i Y są zależne).Wyniki próby
przedstawione są w tabeli
Y
X
1
0
n
i.
1
360
40
400
0
280
20
300
n
.j
640
60
700
Obliczamy wartość sprawdzianu
2
n
700 (360 20 40 260)
u
2, 43
400 640 60 300
⋅
⋅
−
⋅
=
=
⋅
⋅
⋅
Zbiór krytyczny K = <k ; ∞). Przyjmujemy poziom istotności 0,05. Liczbę k wyznaczamy
z tablicy rozkładu chi kwadrat dla jednego stopnia swobody i poziomu istotności 0,05, otrzymujemy k
= 3,841, zatem K = <3,841 ; ∞). Ponieważ u
n
∉
K, więc hipotezę zerową, że wynik egzaminu nie
zależy od tego, czy absolwent zdawał egzamin w dużym czy w małym mieście należy przyjąć.
16.5. Testy nieparametryczne dla dwóch prób
16.5.1. Test zgodności rozkładów dla prób niepowiązanych (test Wilcoxona)
Rozważamy cechy X i Y dwóch populacji. Z każdej populacji pobierany próbę o liczebności
odpowiednio równej n
1
i n
2
(liczebność mniejszej próby oznaczamy n
1
). Wysuwamy hipotezę zerową,
ż
e rozkłady obu cech są jednakowe. Ponieważ rozkład zmiennej losowej określa jej dystrybuanta więc
hipotezę zerową można zapisać w postaci
H
0
( F
X
= F
Y
)
29
gdzie: F
X
i F
Y
są dystrybuantami zmiennych losowych X oraz Y, F
X
(u) = P(X < u), F
Y
(u) = P(Y < u).
Równość F
X
=F
Y
oznacza, że dla każdej liczby rzeczywistej u mamy F
X
(u) = F
Y
(u).
Hipotezę alternatywną przyjmujemy w jednej z trzech postaci:
H
1
( F
X
>F
Y
) lub H
1
( F
X
<F
Y
) lub H
1
( F
X
≠F
Y
)
Nierówność F
X
>F
Y
oznacza, że dla każdej liczby rzeczywistej u mamy F
X
(u) > F
Y
(u), podobnie
rozumiemy nierówność F
X
<F
Y
. Natomiast wyrażenie F
X
≠ F
Y
oznacza, że istnieje liczba rzeczywista
u taka, że F
X
(u) ≠ F
Y
(u).
Aby sprawdzić hipotezy zerową i alternatywną łączymy obie próby w jedną próbę o liczebności
n = n
1
+ n
2
i porządkujemy ją niemalejąco. Następnie rangujemy elementy uporządkowanej próby,
tzn. numerujemy jej elementy kolejnymi liczbami naturalnymi, poczynając od liczby 1. Jeśli
w uporządkowanej próbie występują elementy jednakowe, to każdemu z nich przypisujemy tę samą
rangę, równą średniej arytmetycznej rang tych elementów, gdyby były one różne np. gdyby elementy
o numerach 10, 11 i 12 były sobie równe, to każdemu z nich przypisujemy rangę 11, gdyby elementy
15 i 16 były sobie równe, to każdemu z nich przypisujemy rangę 15,5.
29
Patrz pkt 28.1
STATYSTYKA MATEMATYCZNA
74
Sprawdzianem testu do weryfikacji wysuniętych hipotez (testu Wilcoxona) jest statystyka
U
n
= suma rang elementów próby o mniejszej liczebności.
Rozkład sprawdzianu, przy założeniu prawdziwości hipotezy zerowowej jest dla niewielkich
liczebności prób stablicowany (pkt 11 części VII „Tablice statystyczne”. Natomiast, gdy min(n
1
, n
2
) ≥
4 i n
1
+ n
2
≥
20, to rozkład sprawdzianu jest w przybliżeniu N(m, σ), gdzie
(
)
1
1
2
n n +n +1
m=
2
,
(
)
1 2
1
2
n n n +n +1
σ
=
12
.
Przykład 16.10
Analizujemy czas wykonania pewnego zadania przez dwie grupy pracowników.
Otrzymane wyniki były następujące:
Grupa 1 – cecha X
77,0
54,6
99,9
94,1
98,6
99,9
99,9
72,0
90,2
77,6
100,0 100,0
96,0
92,9
97,2
100,0
Grupa 2 – cecha Y
60,5
86,2
66,3
100,0
Wysunięto hipotezy
H
0
(Rozkłady cech X i Y mają jednakowe rozkłady), czyli H
0
(F
X
=F
Y
).
H
1
(Rozkłady cech X i Y nie mają jednakowych rozkładów), H
1
( F
X
≠
F
Y
).
Hipotezy te zweryfikujemy za pomocą testu Wilcoxona na poziomie istotności 0,05.
Wyniki obu prób oraz ich łączenie i rangowanie elementów próby połączonej przedstawione są w
poniższej tabeli.
Obliczamy rangi elementów obu prób.
I próba
II próba
Lp.
wynik Ranga wynik ranga
1
54,6
1
2
60,5
2
3
66,3
3
4
72,0
4
5
77,0
5
6
77,6
6
7
86,2
7
8
90,2
8
9
92,2
9
10
94,1
10
11
96,0
11
12
97,2
12
13
98,6
13
14
99,9
15
15
99,9
15
16
99,9
15
17
100,0
18,5
18
100,0
18,5
19
100,0
18,5
20
100,0
18,5
Uwzględniając, że n
1
= 4, n
2
=16 wyznaczamy wartość sprawdzianu u
n
= suma rang elementów próby
o mniejszej liczności u
n
=
5
.
30
5
.
18
7
3
2
=
+
+
+
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
75
Skorzystamy z asymptotycznej własności statystyki U
n
: U
n
ma rozkład w przybliżeniu normalny
N(m, σ), gdzie
(
)
1
1
2
n n +n +1
m=
=42
2
,
(
)
1 2
1
2
n n n +n +1
σ
=
=10,58
12
.
Czyli statystyka
*
n
n
U - 42
U =
10,58
ma rozkład w przybliżeniu normalny N(0,1), przy założeniu
prawdziwości hipotezy zerowej.
Przyjmujemy zbiór krytyczny dwustronny, na poziomie istotności 0,05
K = (-∞ ; -k>
∪
<k ; ∞). Liczba k spełnia związek Φ(k) = 1 –α/2 =0,975
⇒
k = 1,96
K= (-∞ ; -1,96>
∪
<1,96 ; ∞)
*
n
n
u -42 30,5-42
u =
=
=-1,09
10,58
10,58
Ponieważ u
n
∉
,K, więc nie ma podstaw, by twierdzić, że cechy X i Y mają różne rozkłady, co
oznacza, że .przyjmujemy hipotezę zerową.
Obliczymy jeszcze krytyczny poziom istotności
Spełnia on związek
ˆ
(1, 09) 1
2
α
Φ
= −
Stąd ˆ
2(1
(1,09)) 2(1 0,8621) 0, 2758
α =
− Φ
=
−
=
.
Na zakończenie zweryfikujemy wysunięte hipotezy korzystając z pakietu IBM SPSS Statistics
wybierając po wpisaniu danych do 2 kolumn (do pierwszej wyniki pomiarów , a do drugiej określenie
której grupy dotyczą) w kolejności: Analiza → Testy nieparametryczne → Próby niezależne
30
oraz
określając Testowane zmienne i Zmienną grupującą.
Otrzymany wynik Istotność = 0,275 jest taki sam jak wyznaczony bez wykorzystania programu
komputerowego graniczny poziom istotności.
16.5.2. Test zgodności rozkładów dla prób powiązanych (test rangowanych znaków)
Z populacji losujemy n elementów i badamy wartości cechy X w dwóch momentach początkowym
i końcowym. Niech X
1
będzie cechą oznaczającą wartości cechy X w momencie początkowym,
a X
2
cechą oznaczającą wartości cechy X w momencie końcowym. Otrzymujemy dwie próby
(powiązane) n elementowe, pierwsza próba (x
11
, x
12
, … , x
1n
), druga próba (x
21
, x
22
, … , x
2n
).
Obliczamy różnice x
1i
– x
2i
między elementami I i II próby, sortujemy je niemalejąco i rangujemy
(numerujemy) liczbami od 1 do n.
Przyjmujemy sprawdzian U
n
=
suma rang różnic dodatnich
Dla liczności
3 n 20
≤
≤
rozkład dokładny statystyki U
n
jest stablicowany (pkt 12 części VII „Tablice
statystyczne”). Dla n > 20 statystyka ta ma rozkład asymptotycznie normalny N(m, σ), gdzie
(
)
n n+1
m =
4
,
(
)(
)
n n+1 2n+1
σ
=
24
.
30
W pakiecie IBM SPSS Statistics test ten nosi nazwę Test U Manna-Whitney’a dla prób niezaleznych
STATYSTYKA MATEMATYCZNA
76
Przykład 16.11
Na poziomie istotności
α
=0,001 weryfikuje się hipotezę o równości stochastycznej czasu
wykonywania pewnego zadania przed i po szkoleniu.
Uwzględnia się, że dotychczasowe badania wykazały skrócenie czasu wykonywania zadania na
skutek szkolenia.
Zatem weryfikowane hipotezy mają postać:
(
)
1
2
0
X
X
H F = F
1
2
1
X
X
H (F > F )
X
1
– czas wykonania zadania przed szkoleniem,
X
2
- czas wykonania zadania po szkoleniu.
Przebieg wyznaczania rang przedstawiono w poniższej tabeli:
i
x
1i
x
2i
x
1i
-x
i2
Uporządkowane
różnice
Rangi
różnic
1
0,71
0,20
0,51
-0,24
1
2
2,2
0,11
2,09
0,38
2
3
2,12
0,17
1,95
0,51
3
4
1,40
0,12
1,28
0,63
4
5
3,24
0,36
2,88
1,02
5
6
2,79
0,21
2,58
1,09
6
7
3,59
0,53
3,06
1,28
7
8
1,90
0,13
1,77
1,71
8
9
0,81
0,18
0,63
1,77
9
10
2,54
0,19
2,35
1,95
10
11
0,60
0,22
0,38
2,09
11
12
1,31
0,29
1,02
2,35
12
13
1,28
0,19
1,09
2,58
13
14
1,93
0,22
1,71
2,88
14
15
3,84
0,49
3,35
3,06
15
16
0,08
0,32
-0,24
3,35
16
Z podanej tabeli otrzymuje się sumę rang dla różnic dodatnich U
n
= 135.
Przyjmujemy zbiór krytyczny prawostronny K = <k ; ∞). Z tablicy wyznaczamy k = 122, zatem
hipotezę zerową H
0
, że cechy mają jednakowy rozkład należy odrzucić.
Na zakończenie zweryfikujemy wysunięte hipotezy korzystając z pakietu IBM SPSS Statistics
wybierając po wpisaniu danych do 2 kolumn (do pierwszej wyniki pomiarów z I okresu , a do drugiej
z II okresu) w kolejności: Analiza → Testy nieparametryczne → Testy tradycyjne → Dwie próby
zależne → Test Wilcoxona
31
.
31
W pakiecie IBM SPSS Statistics test ten nosi nazwę Test znaków rangowanych Wilcoxona
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
77
Otrzymane wyniki są następujące:
Otrzymano taką samą wartość statystyki Suma rang dodatnich = 135
16.6. Algorytmizacja obliczeń
16.6.1. Wykorzystanie arkusza Excel
Lp
Zakres analizy statystycznej
Funkcje
statystyczne
Narzędzia statystyczne
1.
Weryfikacja hipotezy o wartości
oczekiwanej przy znanej i nieznanej
wariancji
TEST.Z
-
2.
Weryfikacja hipotezy o równości wartości
oczekiwanych przy równych wariancjach
TEST.T
Test t: z dwiema próbami
zakładający równe
wariancje
3.
Weryfikacja hipotezy o równości wartości
oczekiwanych przy różnych wariancjach
TEST.T
Test t: z dwiema próbami
zakładający nierówne
wariancje
4.
Weryfikacja hipotezy o równości wartości
oczekiwanych przy próbach powiązanych
TEST.T
Test t: par skojarzonych
z dwiema próbami dla
ś
redniej
5.
Weryfikacja hipotezy o równości wariancji
TEST.F
Test F: z dwiema próbami
dla wariancji
6.
Weryfikacja hipotezy o niezależności cech
TEST.CHI
-
STATYSTYKA MATEMATYCZNA
78
16.6.2.Zasady wyboru testu przy dwóch próbach
Na poniższym rysunku przedstawiono schemat blokowy wyboru testów do oceny istotności różnic
rozkładu określonej cechy w dwóch warunkach.
Rys. 18.1. Schemat blokowy wyboru testów statystycznych do oceny istotności różnic rozkładu cechy
w dwóch różnych warunkach
Wszystkie te testy zostały opisane lub wspomniane
32
w dotychczasowych rozważaniach.
32
W zależności od liczebności póby stosuje się test zgodności chi-kwadrat lub test Shapiro-Wilka.
Test McNemary i test dokładny Fishera, a także test Shapiro-Wilka umożliwiający ocenę normalności rozkładu na
podstawie prób o małych liczebnościach zostały opisane w części drugiej podręcznika.
Początek
Czy próby powiązane
NIE
TAK
Skala cechy
PRZEDZ.
PORZĄDK.
NOMINALNA
Skala cechy
NOMINALNA
PRZEDZ.
PORZĄDK.
Czy cecha ma rozkład
normalny
18
TAK
NIE
Małe liczności prób
NIE
TAK
Czy cecha ma rozkład
normalny
18
TAK
NIE
Czy wariancje cechy
przy 2 warunkach równe
TAK
NIE
Czy próby powiązane
TAK
NIE
Test
Studenta
dla prób
niepo-
wiąza-
nych
Test
Cochrana
- Coxa
Test
Wilco-
xona
Test
McNe-
mara
Test chi
kwadrat
Test
dokładny
Fishera
Test
Studenta
dla prób
powiąza-
nych
Test
rango-
wanych
znaków
Koniec
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
79
17. ANALIZA KORELACJI I REGRESJI DWÓCH ZMIENNYCH
17.1. Wprowadzenie
Badamy populację ze względu na dwie cechy, które modelujemy zmiennymi losowymi X i Y.
Mówimy wówczas, że populacja jest badana ze względu na zmienną losową dwuwymiarową
(X, Y), zaś populację nazywamy
populacją dwuwymiarową.
Próba z populacji dwuwymiarowej
jest to ciąg n wyrazowy zmiennych losowych dwuwymiarowych
1
1
2
2
n
n
(X ,Y ),(X ,Y ), ...,(X ,Y ) (17.1)
niezależnych (dwuwymiarowo)
33
o jednakowym rozkładzie takim jak rozkład zmiennej losowej
dwuwymiarowej (X, Y).
Każdy ciąg
1
1
2
2
n
n
(x ,y ),(x ,y ), ...,(x ,y )
(17.2)
będący wartością próby (17.1) nazywamy realizacją próby z populacji dwuwymiarowej.
Przedmiotem rozważań w tym rozdziale będą następujące zagadnienia oparte o próbę z populacji
dwuwymiarowej:
•
Analiza korelacji, tzn. wywnioskowanie o sile związku liniowego między cechami X i Y.
•
Analiza regresji (prowadzona, jeżeli siła związku liniowego jest duża) aproksymowanie związku
między cechami zależnością liniową.
Podstawą rozważań będą statystyki z próby dwuwymiarowej
1
1
2
2
n
n
(X ,Y ),(X ,Y ), ...,(X ,Y )
n
n
i
i
i=1
i=1
1
1
X=
X ,
Y=
Y
n
n
∑
∑
- średnie z próby odpowiednio cechy X i cechy Y
n
n
2
2
2
2
i
i
i=1
i=1
1
1
X =
X ,
Y =
Y
n
n
∑
∑
- momenty rzędu 2 z próby odpowiednio cechy X i cechy Y
n
n
2
2
2
2
X
i
Y
i
i=1
i=1
1
1
S =
(X -X) , S =
(Y -Y)
n
n
∑
∑
- wariancje z próby odpowiednio cechy X i Y
n
i
i
i=1
1
(XY) =
X Y
n
∑
- moment rzędu 2 z próby mieszany cech X i Y
n
n
2
2
2
2
X
i
Y
i
i=1
i=1
1
1
S =
(X -X) , S =
(Y -Y)
n
n
∑
∑
- odchylenia standardowe z próby cechy X i Y
n
XY
i
i
i=1
1
COV =
(X -X)(Y -Y)
n
∑
- kowariancja z próby cech X i Y
Y
X
XY
S
S
COV
R =
- współczynnik korelacji Pearsona z próby cech X i Y.
Związki między statystykami
2
2
2
2
2
2
X
Y
S =X -(X) ,
S =Y -(Y)
XY
COV =(XY)-XY
2
2
2
2
(XY)-XY
R=
X -(X)
Y -(Y)
33
Zmienne losowe dwuwymiarowe (X
1
,Y
1
) i (X
2
,Y
2
) są niezależne (dwuwymiarowo) jeśli dystrybuanta zmiennej losowej
czterowymiarowej (X
1
,Y
1
,X
2
,Y
2
) jest równa iloczynowi dystrybuant zmiennych losowych dwuwymiarowych (X
1
,Y
1
) i
(X
2
,Y
2
).
STATYSTYKA MATEMATYCZNA
80
17.2. Analiza korelacji
17.2.1. Uwagi wstępne
Jak ju
ż
było powiedziane, w dziale statystyki zwanym analiz
ą
korelacji bada si
ę
czy istnieje zale
ż
no
ść
mi
ę
dzy cechami populacji i jaka jest siła tej zale
ż
no
ś
ci. Ograniczymy si
ę
do badania istnienia i siły
zwi
ą
zku liniowego. Jak ju
ż
wiemy do tego celu słu
ż
y współczynnik korelacji ρ badanych cech
populacji. Rzecz jednak w tym,
ż
e w zagadnieniach praktycznych warto
ść
tego współczynnika nie jest
znana. Nale
ż
y zatem wnioskowa
ć
o ρ na podstawie próby. St
ą
d nazwa działu statystyki, który podaje
reguły wnioskowania o tym parametrze.
Analiza korelacji opiera si
ę
na poni
ż
szych twierdzeniach, które s
ą
prawdziwe przy zało
ż
eniu,
ż
e
zmienna losowa dwuwymiarowa (X, Y) ze wzgl
ę
du na któr
ą
badana jest populacja ma rozkład
normalny o współczynniku korelacji ρ .
Tw.17.1. Współczynnik korelacji z próby R ma rozkład asymptotycznie normalny
2
1-
ρ
N
ρ
,
n
.
(Zgodno
ść
rozkładu R z rozkładem normalnym jest dobra dopiero dla wielkich prób n
≥
500).
Tw.17.2. Statystyka
n
1 1+R
U = ln
2
1-R
ma rozkład asymptotycznie normalny
1 1+
ρ
1
N
ln
,
2
1-
ρ
n-3
.
(Zgodno
ść
rozkładu U
n
z rozkładem normalnym jest dobra nawet dla niewielkich prób
n
≥
20).
Tw.17.3. Je
ś
li cechy X i Y s
ą
nieskorelowane (
ρ
= 0), to statystyka
n
2
R
U =
n-2
1-R
ma rozkład
Studenta z n –2 stopniami swobody.
Uwaga: Poniewa
ż
zało
ż
ono,
ż
e (X,Y) ma rozkład normalny i
ρ
= 0, wi
ę
c cechy X i Y s
ą
niezale
ż
ne.
17.2.2. Estymacja współczynnika korelacji cech populacji
Przyjmujemy,
ż
e estymatorem współczynnika korelacji
ρ
cech X i Y populacji jest współczynnik
korelacji R z próby
34
. Jego warto
ść
wyznaczana na podstawie próby
1
1
n
n
(x , y ),...,(x , y ) wynosi
n
i
i
xy
i 1
n
n
2
2
2
2
x y
2
2
i
i
i 1
i 1
1
(x
x)(y
y)
cov
x y x y
n
r
s s
1
1
x
(x)
y
(y)
(x
x)
(y
y)
n
n
=
=
=
−
−
∑
⋅ − ⋅
=
=
=
−
−
−
−
∑
∑
Estymator R jest estymatorem zgodnym i asymptotycznie nieobci
ąż
onym współczynnika
ρ
.
Do wyznaczania oceny r estymatora R wygodnie jest korzysta
ć
ze wzoru
n
n
n
i i
i
i
i=1
i=1
i=1
2
2
n
n
n
n
2
2
i
i
i
i
i=1
i=1
i=1
i=1
n
x y -
x
y
r=
n
x -
x
n
y -
y
∑
∑
∑
∑
∑
∑
∑
34
Współczynnik ten nazywany jest często współczynnikiem korelacji Pearsona. Jest on estymatorem uzyskanym metodą
momentów oraz przy założeniu, że (X, Y) ma rozkład normalny - metodą największej wiarogodności.
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
81
A. Je
ś
li cechy X i Y populacji maj
ą
ł
ą
czny rozkład normalny o współczynniku korelacji ρ i liczebno
ść
próby n 20
≥
, to przedziałem ufno
ś
ci dla ρ , na poziomie ufno
ś
ci 1−
α
jest przedział
2A
2B
2A
2B
e
1
e
1
;
e
1
e
1
−
−
+
+
, gdzie
u
1
1 R
A
ln
2 1 R
n 3
α
+
=
−
−
−
,
u
1
1 R
B
ln
2 1 R
n 3
α
+
=
+
−
−
u
α
wyznaczamy z równo
ś
ci (u ) 1
2
α
α
Φ
= −
W konstrukcji tego przedziału ufno
ś
ci korzystamy z tw. 17.2.
Przykład 17.1
Przy badaniu zale
ż
no
ś
ci cech X i Y otrzymano na podstawie próby 25 elementowej współczynnik
korelacji 0,63. Na poziomie ufno
ś
ci 0,98 oszacujemy przedziałem ufno
ś
ci współczynnik korelacji
ρ
obu cech. Zakładamy,
ż
e cechy te maj
ą
ł
ą
czny rozkład normalny.
Rozwiązanie
(u ) 1
0,99
u
2,33
2
u
1
1 r
1
1 0, 63
2,33
a
ln
ln
0, 245
2 1 r
2 1 0, 63
n 3
25 3
u
1
1 r
1
1 0, 63
2,33
b
ln
ln
1, 238
2
1 r
2
1 0, 63
n 3
25 3
α
α
α
α
α
Φ
= −
=
⇒
=
+
+
=
−
=
−
=
−
−
−
−
+
+
=
+
=
+
=
−
−
−
−
2a
2a
2 0,245
21,238
2a
2a
2 0,245
2 1238
e
1
e
1
e
1 e
1
;
;
0, 24 ; 0,83
e
1
e
1
e
1
e
1
⋅
⋅
⋅
⋅
−
−
−
−
=
=<
>
+
+
+
+
Odp. <0,24 ; 0,83>
B. Je
ś
li cechy X i Y populacji maj
ą
ł
ą
czny rozkład normalny o współczynniku korelacji ρ , to
przedziałem ufno
ś
ci dla ρ , na poziomie ufno
ś
ci 1 –
α
jest przedział
n
R
1
u
R
;
n
R
1
u
R
2
2
−
+
−
−
α
α
, gdzie
α
(u ) 1
2
α
Φ
= −
, dla licznej próby n
≥
500
Przy konstrukcji tego przedziału ufno
ś
ci korzystamy z tw. 17.1.
Przykład 17.2
Badano zale
ż
no
ść
mi
ę
dzy pr
ę
dko
ś
ci
ą
samochodu (cecha X) a jego drog
ą
zatrzymania (cecha Y). Na
podstawie próby 900 elementowej otrzymano współczynnik korelacji 0,85. Zakładaj
ą
c,
ż
e (X, Y) ma
rozkład normalny, oszacuj współczynnik korelacji cech X i Y na poziomie ufno
ś
ci 0,96.
Rozwiązanie
n = 900 r = 0,85, 1 –
α
= 0,96
α
(u ) 1
2
α
Φ
= −
= 1 – 0,04/2= 0,98 ⇒ u
α
=2,05
r-
ε
: r+
ε
2
2
α
1-r
1-0,85
ε
= u
=2,05
=
n
900
0,019
<0,85 – 0,019; 0,85 + 0,019> = <0,831; 0,869>
Odp. <0,831; 0,869>
STATYSTYKA MATEMATYCZNA
82
17.2.3. Weryfikacja hipotez o współczynniku korelacji
Badana jest populacja ze wzgl
ę
du na zmienn
ą
losow
ą
dwuwymiarow
ą
(X, Y) o rozkładzie
normalnym i współczynniku korelacji
ρ
, którego warto
ść
nie jest znana. O współczynniku
ρ
wysuwamy hipotezy: zerow
ą
0
0
H (
ρ
=
ρ
) i alternatywn
ą
w postaci
1
1
H (
ρ
=
ρ
) lub
1
0
H (
ρ
>
ρ
) lub
1
0
H (
ρ
<
ρ
) lub
1
0
H (
ρ
ρ
)
≠
. Powy
ż
sze hipotezy zerow
ą
i alternatywn
ą
nale
ż
y zweryfikowa
ć
na
poziomie istotno
ś
ci
α
.
Przyjmujemy,
ż
e sprawdzianem jest statystyka
0
n
0
1+
ρ
1 1+R 1
U =
ln
- ln
n-3
2
1-R 2
1-
ρ
Rozkład statystyki
n
0
U /
ρ
dla n
≥
20 mało ró
ż
ni si
ę
od rozkładu normalnego N(0, 1) (tw. 17.2).
Powy
ż
sze informacje i sposób wyznaczenia zbioru krytycznego przedstawiamy w tabeli
Tabela 17.1. Testy do weryfikacji hipotezy o współczynniku korelacji
Przykład 17.3
Badano zale
ż
no
ść
mi
ę
dzy cen
ą
jednostkow
ą
towaru (cecha X) a popytem na ten towar (cecha Y). Na
podstawie próby 28 elementowej otrzymano współczynnik korelacji - 0,86. Na poziomie istotno
ś
ci
0,03 sprawdzimy hipotezy: zerow
ą
,
ż
e współczynnik korelacji w populacji jest równy -0,90
i alternatywn
ą
,
ż
e jest wi
ę
kszy od - 0,90.
Rozwiązanie
n = 28, r = -0,86,
α
= 0,03,
0
H (
ρ
= -0,90) ,
1
H (
ρ
> -0,90)
Stosujemy test nr KR-1. Obliczamy warto
ść
sprawdzianu
u
n
=
0
0
1+
ρ
1 1+r 1
ln
- ln
n-3
2
1-r 2
1-
ρ
=
1
1-0,86 1
1-0,90
ln
- ln
28-3=0,89
2 1+0,86 2 1+0,90
Wyznaczamy zbiór krytyczny
K = k ;
<
∞ ), (k) 1 α
Φ
= − = 1 – 0,03 = 0, 97 ⇒ k = 1,88 K =
∞
<
;
88
,
1
)
Podejmujemy decyzj
ę
: poniewa
ż
K
u
n
∉
, wi
ę
c hipotez
ę
zerow
ą
przyjmujemy.
Na zako
ń
czenie rozwa
ż
a
ń
zajmiemy si
ę
weryfikacj
ą
hipotez o istotno
ś
ci współczynnika korelacji.
Badana jest populacja ze wzgl
ę
du na zmienn
ą
losow
ą
dwuwymiarow
ą
(X, Y) o rozkładzie
normalnym, o współczynniku korelacji
ρ
, którego warto
ść
nie jest znana. O współczynniku
ρ
wysuwamy hipotez
ę
zerow
ą
0
H (
ρ
= 0)
tzn.,
ż
e warto
ść
współczynnika korelacji jest nieistotna i jedn
ą
z poni
ż
szych hipotez alternatywnych
•
)
(
H
1
1
ρ
=
ρ
- warto
ść
współczynnika korelacji jest istotna i równa
1
ρ
,
•
)
0
(
H
1
>
ρ
- warto
ść
współczynnika korelacji jest istotnie dodatnia,
•
)
0
(
H
1
<
ρ
- warto
ść
współczynnika korelacji jest istotnie ujemna,
•
)
0
(
H
1
≠
ρ
- warto
ść
współczynnika korelacji jest istotna.
Powy
ż
sze hipotezy zerow
ą
i alternatywn
ą
nale
ż
y zweryfikowa
ć
na poziomie istotno
ś
ci
α
.
Uwaga: Hipoteza zerowa
0
H (
ρ
= 0) oznacza,
ż
e zmienne losowe s
ą
nieskorelowane, a poniewa
ż
z zało
ż
enia maj
ą
dwuwymiarowy rozkład normalny, wi
ę
c s
ą
niezale
ż
ne.
H
1
Sprawdzian U
n
Rozkład sprawdzianu
Zbiór krytyczny K
Wyznaczanie
liczby k
Nr
testu
1
0
H (
ρ
>
ρ
)
k ;
<
∞ )
(k) 1
Φ
= − α
KR-1
1
0
H (
ρ
<
ρ
)
(
; k
−∞ − >
(k) 1
Φ
= − α
KR-2
1
0
H (
ρ
ρ
)
≠
0
0
1+
ρ
1 1+R 1
ln
- ln
n-3
2
1-R 2
1-
ρ
W przybli
ż
eniu N(0,1) dla
liczebno
ś
ci próby n > 20
(
; k
−∞ − > ∪
k ;
<
∞ )
(k) 1 α / 2
Φ
= −
KR-3
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
83
Przyjmujemy,
ż
e sprawdzianem jest statystyka
n
2
R
U =
n-2
1-R
Rozkład statystyki
0
/
U
n
=
ρ
ma rozkład Studenta z n-2 stopniami swobody (tw.17.3). Powy
ż
sze
informacje i sposób wyznaczenia zbioru krytycznego przedstawiamy w tabeli.
Tabela17.2. Testy do weryfikacji hipotezy o istotności współczynnika korelacji
T
n-2
- zmienna losowa o rozkładzie Studenta z n – 2 stopniami swobody.
Przykład 17.4.
Z populacji dwuwymiarowej o rozkładzie normalnym pobrano prób
ę
11 elementow
ą
i obliczono,
ż
e współczynnik korelacji z tej próby wynosi 0,2. Na poziomie istotno
ś
ci 0,01 sprawd
ź
czy współczynnik w populacji badanych cech jest istotny.
Rozwiązanie
n =11, r = 0,2,
α
= 0,01,
0
H (
ρ
= 0) ,
1
H (
0)
ρ ≠
Stosujemy test KR-6. Warto
ść
sprawdzianu na podstawie próby
n
2
2
r
0,2
u =
n-2=
11-2=0,61
1-r
1-0,2
Zbiór krytyczny K = (
; k
−∞ − > ∪
k ;
<
∞ )
Wyznaczanie k:
(
)
9
P T
k
0, 01
≥
=
⇒ k = 3,25, K =
∪
>
−
−∞
25
,
3
;
(
∞
<
;
25
,
3
)
Decyzja: poniewa
ż
K
u ∉
α
, wi
ę
c hipotez
ę
zerow
ą
0
H (
ρ
= 0) przyjmujemy.
Odp. Nie ma podstaw do twierdzenia,
ż
e współczynnik korelacji jest istotny.
1
H
Sprawdzian U
n
Rozkład sprawdzianu
Zbiór krytyczny K
Wyznaczanie
liczby k
Nr
testu
1
H (
ρ
> 0)
K =
∞
< ;
k
)
(
)
n-2
P T
k
2α
≥
=
KR-4
1
H (
ρ
< 0)
K =
>
−
−∞
k
;
(
(
)
n-2
P T
k
2α
≥
=
KR-5
1
H (
ρ
0)
≠
2
n
R
1
R
U
2
n
−
−
=
Studenta z n – 2 stopniami
swobody
K=
∪
>
−
−∞
k
;
(
∞
< ;
k
)
(
)
n-2
P T
k = α
≥
KR-6
STATYSTYKA MATEMATYCZNA
84
Przykład 17.4a
Na zako
ń
czenie obliczymy współczynnik korelacji dla danych z przykładu 2.24 podanego w cz
ęś
ci
„Statystyka opisowa” korzystaj
ą
c z pakietu IBM SPSS Statistics wybieraj
ą
c po wpisaniu danych do 2
kolumn (do pierwszej wyniki egzaminu z matematyki, a do drugiej wyniki egzaminu ze statystyki) w
kolejno
ś
ci: Analiza
→
Korelacje parami
→
Współczynnik korelacji Pearsona.
Otrzymane wyniki s
ą
nast
ę
puj
ą
ce:
Otrzymali
ś
my oczywi
ś
cie taki sam wynik z dodatkow
ą
ocen
ą
,
ż
e współczynnik korelacji jest istotnie
ró
ż
ny od zera na poziomie istotno
ś
ci 0,01.
17.2.4. Współczynnik korelacji Spearmana
Współczynnik korelacji Spearmana słu
ż
y do badania siły zwi
ą
zku liniowego mi
ę
dzy cechami
niemierzalnymi w skali porz
ą
dkowej. Losujemy z populacji n elementów. Porz
ą
dkujemy je wg
wariantów pierwszej cechy i rangujemy, nast
ę
pnie porz
ą
dkujemy wg wariantów drugiej cechy, tak
ż
e
rangujemy. W ten sposób otrzymujemy ci
ą
g n wyrazowy par liczb rzeczywistych, który jest prób
ą
z populacji dwuwymiarowej, badanej ze wzgl
ę
du na zmienn
ą
losow
ą
dwuwymiarow
ą
(X, Y), gdzie X
i Y s
ą
modelami cech.
Współczynnik korelacji Spearmana cech w skali porz
ą
dkowej jest to współczynnik korelacji Pearsona
rang tych cech i wyra
ż
a si
ę
wzorem
(
)
2
6su
r'=1-
n n -1
,
gdzie: su - suma kwadratów ró
ż
nic pomi
ę
dzy rangami elementów próby, tzn.
n
2
i
i
i=1
su=
[k -l ]
∑
, przy czym
i i
(k ,l ) - rangi elementu próby o numerze i.
Poniewa
ż
współczynnik Spearmana r’ jest szczególnym przypadkiem współczynnika korelacji
(Pearsona), wi
ę
c ma wszystkie jego własno
ś
ci i tak:
-1
≤
r’
≤
1
r
1
′ =
⇔ , gdy ka
ż
dy element próby ma rangi obu cech jednakowe
r
1
′ = −
⇔ , gdy suma rang obu cech populacji jest stała
Je
ś
li rangi k
i
i s
i
w ka
ż
dej parze rang
i i
(k ,l ) s
ą
warto
ś
ciami zmiennych losowych niezale
ż
nych, to
r
0
′ = .
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
85
W wypadku wyst
ę
powania takich samych elementów próby, czego konsekwencj
ą
jest
przyporz
ą
dkowanie im takich samych rang (równych
ś
redniej arytmetycznej rang przy ró
ż
nej
warto
ś
ci elementów) nie mo
ż
na oblicza
ć
współczynnika korelacji Spearmana, gdy
ż
wzór na ten
współczynnik został wyprowadzony przy zało
ż
eniu, i
ż
wszystkie rangi k
i
s
ą
ró
ż
ne i wszystkie rangi l
i
s
ą
ró
ż
ne. Mo
ż
na wprawdzie w tej sytuacji wprowadza
ć
pewne poprawki, w rezultacie czego wzór na
współczynnik ulega zmianie, wydaje si
ę
jednak,
ż
e pro
ś
ciej jest obliczy
ć
wówczas współczynnik
korelacji Pearsona.
Współczynnik korelacji Spearmana mo
ż
na tak
ż
e stosowa
ć
do badania siły korelacji liniowej cech
w skali przedziałowej, nale
ż
y jednak najpierw przetransformowa
ć
prób
ę
na skal
ę
porz
ą
dkow
ą
.
Przykład 17.5
Z populacji pracowników pewnej firmy pobrano prób
ę
16 elementow
ą
, w celu zbadania siły korelacji
liniowej mi
ę
dzy wiekiem - X, a wag
ą
- Y.
X 28 34
30
42
27
38
41
20 21
23
18
42
28
40
31
43
Y 77 54,6 99,9 94,1 98,6 99,9 99,9 72 90,2 77,6 100 100 96.0 92,9 97,2 100
Próby posortowane wg
wieku
Próby posortowane
wg wagi
Wiek
Waga
Rangi
wieku
Wiek
Waga
Rangi
wieku
Rangi wagi
Kwadrat
różnicy rang
18
100
1
34
54,6
10
1
81
20
72
2
20
72
2
2
0
21
90,2
3
28
77
6,5
3
12,25
23
77,6
4
23
77,6
4
4
0
27
98,6
5
21
90,2
3
5
4
28
77
6,5
40
92,9
12
6
36
28
96.0
6,5
42
94,1
14,5
7
56,25
30
99,9
8
28
96
6,5
8
2,25
31
97,2
9
31
97,2
9
9
0
34
54,6
10
27
98,6
5
10
25
38
99,9
11
30
99,9
8
12
16
40
92,9
12
38
99,9
11
12
1
41
99,9
13
41
99,9
13
12
1
42
94,1
14,5
18
100
1
15
196
42
100
14,5
42
100
14,5
15
0,25
43
100
16
43
100
16
15
1
Suma
432
Zatem su = 432, czyli współczynnik korelacji Spearmana
(
)
2
6su
6 432
r'=1-
1
0,364706
26 255
n n -1
⋅
= −
=
⋅
Współczynnik korelacji rang r
1
= 0,360004, współczynnik korelacji w próbie r = 0,30568.
Na zako
ń
czenie zweryfikujemy wysuni
ę
te hipotezy korzystaj
ą
c z pakietu IBM SPSS Statistics
wybieraj
ą
c po wpisaniu danych do 2 kolumn (do pierwszej wyniki pomiarów wagi , a do drugiej
wyniki pomiarów wzrostu) w kolejno
ś
ci: Analiza
→
Korelacje parami
→
Współczynnik korelacji
Spearman.
STATYSTYKA MATEMATYCZNA
86
Otrzymane wyniki s
ą
nast
ę
puj
ą
ce:
Otrzymany warto
ść
współczynnika = 0,36 jest taka sama jak wyznaczona wyznaczony. Dodatkowo
został wyznaczony graniczny poziom istotno
ś
ci.
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
87
17.2.5. Współczynnik korelacji Cramera
Badamy sił
ę
zale
ż
no
ś
ci stochastycznej dwóch cech populacji X i Y. Cech
ę
X dzielimy na r grup, za
ś
Y na s grup, zatem wszystkich grup otrzymujemy rs. Stosuj
ą
c oznaczenia z punktu 17.6 obliczamy
warto
ść
sprawdzianu z testu chi kwadrat zastosowanego do badania niezale
ż
no
ś
ci cech
2
r
s
ij
ij
n
i=1 j=1
ij
ˆ
(n -n )
u =
ˆn
∑∑
(17.3)
gdzie:
i.
ij
n n.j
ˆn =
n
Współczynnik korelacji Cramera
jest to parametr v okre
ś
lony wzorem
n
u
v =
w
gdzie: u
n
- jest okre
ś
lone wzorem (17.3), a w = n min (r-1,s-1)
⋅
,
Współczynnik Cramera przyjmuje warto
ś
ci z przedziału <0,1>.
Interpretacja
Z rozwa
ż
a
ń
przeprowadzonych w punkcie
17.6
wynika,
ż
e gdy u
n
jest równe zeru, to cechy s
ą
niezale
ż
ne, natomiast, gdy ma warto
ść
maksymaln
ą
, to mo
ż
na wykaza
ć
i
ż
zale
ż
no
ść
mi
ę
dzy cechami
jest funkcyjna. Zatem współczynnik Cramera im bli
ż
szy jest zeru, tym bardziej zale
ż
no
ść
stochastyczna cech słabnie, im bli
ż
szy jest 1, tym zale
ż
no
ść
ta staje si
ę
mocniejsza, aby w przypadku
v =1 sta
ć
si
ę
zale
ż
no
ś
ci
ą
funkcyjn
ą
. Zatem: współczynnik Cramera cech X i Y jest miarą siły
zależności stochastycznej cech X i Y populacji.
Przykład 17.6
Obliczymy współczynnik Cramera cechy X - skuteczno
ść
leczenia i cechy Y - płe
ć
pacjenta, na
podstawie danych przedstawionych w tabeli kontygencyjnej
Skuteczno
ść
leczenia
Płe
ć
1
2
3
Razem
1
4
2
2
8
2
12
2
1
15
Razem
16
4
3
23
Obliczenia
ij
ˆn
5,6
1,4
1,0
10,4
2,6
2,0
Poniewa
ż
kolumny druga i trzecia s
ą
mało liczne, ł
ą
czymy je w jedn
ą
kolumn
ę
j
i
1
2
n
i.
1
4
4
8
2
12
3
15
n
.j
16
7
23
Poniewa
ż
dane zgrupowane s
ą
w 4 klasach, wi
ę
c stosujemy wzór ( patrz punkt 17.6)
2
2
n
n(ad-bc)
23 (4 3 4 12)
u =
2, 22
(a+b)(a+c)(b+d)(c+d)
8 16 15 7
⋅
⋅ − ⋅
=
=
⋅
⋅
⋅
2, 22
v
0,32
23 1
=
=
⋅
STATYSTYKA MATEMATYCZNA
88
17.3. Analiza regresji
17.3.1. Uwagi wstępne
Je
ś
li w analizie korelacji stwierdzono,
ż
e siła zale
ż
no
ś
ci liniowej cech populacji jest du
ż
a
(współczynnik korelacji
ρ
ma moduł bliski jedno
ś
ci), to zale
ż
no
ść
stochastyczn
ą
cech mo
ż
na
aproksymowa
ć
zale
ż
no
ś
ci
ą
liniow
ą
, czyli wyznaczy
ć
regresj
ę
linow
ą
cechy Y wzgl
ę
dem cechy X (lub
odwrotnie) i prost
ą
regresji. Jak ju
ż
wiemy regresja liniowa wyra
ż
a si
ę
wzorem
Y
Y
X
Y
β
+
α
=
)
regresja liniowa (teoretyczna) cechy Y względem cechy
X
Y
Y
x
y
β
+
α
=
)
równanie prostej regresji cechy Y względem cechy X
Współczynniki regresji
Y
Y
i β
α
s
ą
wyznaczone zgodnie z zasad
ą
najmniejszych kwadratów, tzn. tak,
by funkcja g(
α
,
β
) = E[Y – (
α
X +
β
)]
2
miała w punkcie (
α
Y
,
β
Y
) warto
ść
najmniejsz
ą
.
Na podstawie tej zasady obliczamy,
ż
e
10
Y
01
Y
X
Y
Y
m
m
,
α
−
=
β
ρ
σ
σ
=
α
(pkt 4.5)
Jednak w zagadnieniach praktycznych nie s
ą
znane warto
ś
ci
Y
Y
i β
α
współczynników regresji.
Dlatego musz
ą
by
ć
one oszacowane na postawie próby.
17.3.2. Estymatory współczynników regresji
Wyznaczymy estymatory A
Y
oraz B
Y
współczynników regresji
Y
Y
i β
α
.
Metoda m om entów
Jak ju
ż
wiemy metoda momentów estymacji parametrów polega na przyj
ę
ciu,
ż
e estymatorem
momentu populacji jest b
ę
d
ą
cy jego odpowiednikiem moment z próby, natomiast estymatorem
funkcji momentów w populacji jest ta sama funkcja momentów z próby. Stosuj
ą
c t
ą
metod
ę
stwierdzamy,
ż
e estymatorem parametru
Y
α jest statystyka
Y
Y
X
S
A
R
S
=
, za
ś
estymatorem
współczynnika
Y
β jest statystyka
Y
Y
B
Y A X
=
−
.
Metoda największej wiarygod ności
Zakładamy dodatkowo,
ż
e cecha Y ma rozkład normalny N(
Y
Y
x
, )
α
+ β
σ ), dla ka
ż
dego x. Mo
ż
na
wykaza
ć
,
ż
e estymatory współczynników regresji maj
ą
posta
ć
:
Y
Y
Y
Y
Y
s
r,
y
x
s
α
=
β = − α
.
Zatem s
ą
one s
ą
identyczne z estymatorami otrzymanymi metod
ą
momentów.
Metoda najm niejszych kwadratów
Metoda najmniejszych kwadratów znajdowania estymatorów współczynników regresji
Y
Y
i
α
β
polega na wyznaczeniu takich ocen tych parametrów, by funkcja
n
2
Y
Y
i
Y i
Y
i 1
K(
,
)
(y
x
)
=
α
β
=
− α
− β
∑
dla tych ocen miała warto
ść
najmniejsz
ą
. Porównuj
ą
c t
ę
funkcj
ę
z funkcj
ą
Y
Y
S(
,
)
α
β
stwierdzamy,
ż
e
funkcja K ma warto
ść
najmniejsz
ą
w tym punkcie, w którym funkcja S ma warto
ść
najwi
ę
ksz
ą
,
a wi
ę
c oceny i estymatory współczynników regresji uzyskane metod
ą
najmniejszych kwadratów s
ą
identyczne, jak w metodzie najwi
ę
kszej wiarygodno
ś
ci.
Podsumowanie
Estymatorami współczynników regresji s
ą
współczynnika
Y
α
statystyka
Y
Y
X
S
A
R
S
=
(17.4)
współczynnika
Y
β statystyka
Y
Y
B
Y A X
=
−
(17.5)
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
89
Regresja lini owa z próby
Zmienn
ą
losow
ą
Y
Y
b
X
a
Y
+
=
)
nazywamy regresj
ą
liniow
ą
z próby (empiryczn
ą
) cechy Y wzgl
ę
dem cechy X, za
ś
równanie
Y
Y
b
x
a
y
+
=
)
równaniem prostej regresji z próby cechy Y wzgl
ę
dem cechy X,
gdzie a
Y
i
b
Y
s
ą
warto
ś
ciami (obliczonymi na podstawie próby) statystyk (17.4) i (17.5).
W poni
ż
szej tabeli w pierwszej kolumnie podane s
ą
wzory na współczynniki regresji liniowej oraz na
niektóre parametry zwi
ą
zane z t
ą
regresj
ą
, druga kolumna zawiera estymatory parametrów
z pierwszej kolumny, natomiast trzecia kolumna zawiera oceny tych parametrów.
Tabela 17.3. Podstawowe wzory w analizie regresji liniowej
Nazwa parametru z populacji
Wzór na parametr
Nazwa parametru z próby
Wzór na parametr
Wzór na realizację parametru
Współczynnik regresji
Y
α
cechy Y
względem cechy X
Y
Y
X
σ
α =
ρ
σ
Współczynnik regresji
Y
A
z próby cechy Y względem
cechy X
Y
A
=
Y
X
S
R
S
Y
XY
Y
2
X
X
n
n
n
i i
i
i
i 1
i 1
i 1
2
n
n
2
i
i
i 1
i 1
s
cov
a
r
s
s
n
x y
x
y
n
x
x
=
=
=
=
=
=
=
=
−
⋅
∑
∑
∑
=
−
∑
∑
Współczynnik regresji
Y
β
cechy Y względem cechy X
Y
01
Y 10
m
m
β =
− α
Współczynnik regresji
Y
B
z próby cechy Y względem
cechy X
Y
Y
B
Y A X
=
−
Y
Y
b
y a x
= −
Wariancja resztowa cechy
Y względem cechy X
2
2
2
r
2
2
Y
D (Y Y) E(Y Y)
(1
)
σ =
−
=
−
=
= σ
− ρ
)
)
Wariancja resztowa z próby
cechy Y względem cechy X
n
2
2
r
i
i
i 1
1
S
(Y Y )
n 2
=
=
−
∑
−
)
35
n
2
2
r
i
i
i 1
1
s
(y
y )
n 2
=
=
−
∑
−
)
=
=
2
2
2
2
Y
Y
n
(1 r )s
(1 r )s
n 2
−
≈
−
−
Odchylenie standardowe resztowe
cechyY względem cechy X
2
r
Y
D(Y Y)
1
σ =
−
= σ
− ρ
)
Odchylenie standardowe
resztowe z próby cechy Y
względem cechy X
n
2
r
i
i
i 1
1
S
(Y Y )
n 2
=
=
−
∑
−
)
∑
=
−
−
=
n
i
i
i
r
y
y
n
s
1
2
)
(
2
1
)
=
=
2
2
Y
Y
n
(1 r )s
1 r s
n 2
−
≈
−
−
Współczynnik determinacji
2
ν
cechy
Y względem cechy X
2
2
Y
2
Y
σ
υ =
σ
)
=
2
r
2
Y
1
σ
−
σ
2
r
=
Współczynnik
2
V
determinacji z próby
cechy Y względem cechy X
n
2
i
2
2
i 1
n
2
i
i 1
ˆ
(y
y)
v
r
(y
y)
=
=
−
∑
=
=
−
∑
n
n
2
2
i
i
i
2
2
i 1
i 1
n
n
2
2
i
i
i 1
i 1
ˆ
(y
y)
(y
y )
v
1
r
(y
y)
(y
y)
=
=
=
=
−
−
∑
∑
=
= −
=
−
−
∑
∑
)
35
Podzielenie sumy
n
2
i
i
i 1
(Y
Y )
=
−
∑
)
przez n-2, a nie przez n powoduje, że statystyka
2
r
S
jest estymatorem
nieobciążonym
wariancji resztowej
2
r
σ
w populacji
STATYSTYKA MATEMATYCZNA
90
Przykład 17.7
Chcemy zbada
ć
, czy zysk pewnej firmy zalezy od wielko
ś
ci produkcji na podstawie danych
przedstawionych w poni
ż
szej tabeli.
Produkcja x
i
19,2 19,0 19,5
21,4
19,6
21,6
23,7
24,2
26,5
28,3
Zysk y
i
73,1 86,2 104,7 121,2 161,5 142,5 172,2 196,0 207,1 227,5
Rozwiązanie
Z wykorzystaniem arkusza Excel wykonujemy obliczenia pomocnicze
Lp
i
x
i
y
2
i
(x )
2
i
(y )
i
i
x y
⋅
1
19,2
73,1
368,64
5343,61
1403,52
2
19
86,2
361
7430,44
1637,8
3
19,5
104,7
380,25
10962,09
2041,65
4
21,4
121,2
457,96
14689,44
2593,68
5
19,6
161,5
384,16
26082,25
3165,4
6
21,6
142,5
466,56
20306,25
3078
7
23,7
172,2
561,69
29652,84
4081,14
8
24,2
196
585,64
38416
4743,2
9
26,5
207,1
702,25
42890,41
5488,15
10
28,3
227,5
800,89
51756,25
6438,25
Suma
223
1492
5069,04 247529,6 34670,79
Parametry próby wynosza wi
ę
c
Produkcja
Zysk
Ś
rednia
10
i
i 1
x
223
x
22,3
10
10
=
∑
=
=
=
10
i
i 1
y
1492
y
149, 2
10
10
=
∑
=
=
=
Wariancja
10
2
2
2
x
i
i 1
1
s
(x )
(x)
10
=
=
−
=
∑
2
506,904 (22,3)
506,904 497, 29 9,614
=
−
=
−
=
10
2
2
2
y
i
i 1
1
s
(y )
(y)
10
=
=
−
=
∑
2
24752,96 (149, 2)
24752,96 22260,64 2492,32
=
−
=
=
−
=
Kowariancja
XY
1
cov =x
x y=
34670,79 22,3 149, 2 3467,079 3327,16 139,919
10
⋅
− ⋅
−
⋅
=
−
=
y
Współczynniki regresji
XY
Y
2
X
cov
139,919
a
14,554
9, 614
s
=
=
=
Y
Y
b
y a x 149, 2 14,554 22,3 149, 2 324,55
175,35
= −
=
−
⋅
=
−
= −
Współczynnik korelacji
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
91
XY
2
2
x
y
cov
139,919
139,919
139,919
r
0,904
3,1 49,931
154, 76
9, 614 2492,32
s
s
=
=
=
=
=
⋅
Wariancja resztowa cechy Y wzgl
ę
dem cechy X
2
2
2
2
r
Y
n
10
10
s
(1 r )s
(1 0,904 ) 2492,32
0,183 2492,32 570,12
n 2
8
8
=
−
=
−
⋅
=
⋅
⋅
=
−
Odchylenie standardowe resztowe cechyY wzgl
ę
dem cechy X
2
r
Y
n
s
(1 r )s
23,88
n 2
=
−
=
−
Współczynnik determinacji
2
ν cechy Y wzgl
ę
dem cechy X
2
2
2
v
r
0,904
0,817
=
=
=
Powy
ż
sze wynki mo
ż
na otrzyma
ć
z wykorzystaniem narz
ę
dzia Regresja pakietu Analiza danych
arkusza Excel.
Wyniki składaj
ą
si
ę
z kilku cz
ęś
ci. Poni
ż
ej zamieszczono cz
ęść
zawieraj
ą
c
ą
wyniki obliczone
w niniejszym przykładzie.
Współczynniki
Przecięcie
-175,3468796
Zmienna X1
14,55367173
Statystyki regresji
Wielokrotność R
0,903905245
R kwadrat
0,817044693
Dopasowany R kwadrat
0,794175279
Błąd standardowy
23,87422264
Obserwacje
10
Narz
ę
dzie oblicza tak
ż
e warto
ś
ci funkcji regresji oraz róznice pomi
ę
dzy uzyskanymi i obliczonymi
warto
ś
ciami zmiennej zale
ż
nej. Podano je poni
ż
ej uzupełniaj
ą
c o warto
ś
ci uzyskane oraz o sumy w/w
ró
ż
nic – patrz uzupełnienie podane na ko
ń
cu cz
ęś
ci „Statystyka opisowa”.
.
STATYSTYKA MATEMATYCZNA
92
i
y
i
ˆy
i
y
-
i
ˆy
i
y
-
i
ˆy
>0
i
y
-
i
ˆy
<0
73,1
104,08
-30,98
0
-30,98
86,2
101,17
-14,97
0
-14,97
104,7
108,45
-3,75
0
-3,75
121,2
136,10
-14,90
0
-14,90
161,5
109,91
51,59
51,59
0
142,5
139,01
3,49
3,49
0
172,2
169,58
2,62
2,62
0
196
176,85
19,15
19,15
0
207,1
210,33
-3,23
0
-3,23
227,5
236,52
-9,02
0
-9,02
Razem
0,0
76,85
-76,85
17.3.3. Rozkłady estymatorów współczynników regresji
Analiza regresji opiera si
ę
na poni
ż
szych twierdzeniach, które s
ą
prawdziwe przy zało
ż
eniu,
ż
e
zmienna losowa dwuwymiarowa (X,Y) ze wzgl
ę
du na któr
ą
badana jest populacja ma rozkład
normalny o współczynniku korelacji
ρ
.
Tw. 17.4. Estymatory
Y
Y
A i B współczynników regresji liniowej
Y
Y
i
α
β maj
ą
rozkłady normalne
Y
Y
1
A : N(
,
)
α
σ oraz
Y
Y
2
B : N(
,
)
β
σ
, s
ą
wi
ę
c estymatorami nieobci
ąż
onymi tych
parametrów. (Mo
ż
na wykaza
ć
,
ż
e s
ą
tak
ż
e estymatorami zgodnymi tych parametrów)
Tw. 17.5. Estymatorem odchylenia standardowego
1
σ estymatora
Y
A jest statystyka
r
1
n
2
2
i
i 1
S
S
X
nX
=
=
−
∑
(tzw. bł
ą
d standardowy oceny
Y
α ), za
ś
estymatorem odchylenia standardowego
2
σ estymatora
Y
B jest statystyka
n
2
r
i
i 1
2
n
2
2
i
i 1
S
X
S
n
X
nX
=
=
∑
=
−
∑
(tzw. bł
ą
d standardowy oceny
Y
β ).
Tw. 17.6. Statystyki
Y
Y
n
1
A
U
S
− α
=
oraz
Y
Y
n
2
B
U
S
− β
=
maj
ą
rozkłady Studenta z n – 2 stopniami
swobody.
17.3.4. Estymacja przedziałowa współczynników regresji
Zajmiemy si
ę
teraz wyznaczeniem przedziałów ufno
ś
ci dla współczynników regresji. Mamy:
y
Y
β
α
ˆ
+
=
x
y
- prosta regresji z populacji cechy Y wzgl
ę
dem cechy X
Y
Y
b
x
a
yˆ
+
=
- prosta regresji z próby,
Y
a
- jest ocen
ą
na podstawie próby
Y
α
Y
b
- jest ocen
ą
na podstawie próby współczynnika
Y
β
Y
Y
ˆy a x b
=
+
- prosta regresji z próby jest ocen
ą
prostej regresji populacji
Y
Y
ˆy a x
=
+ β .
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
93
Przedział ufności dla współczynnika
Y
α
na poziomie ufno
ś
ci 1− α
1
Y
1
Y
S
u
A
;
S
u
A
α
α
+
−
Przedział ufności dla współczynnika
Y
β na poziomie ufno
ś
ci 1− α
2
Y
2
Y
S
u
B
;
S
u
B
α
α
+
−
Liczba u
α
spełnia w obu przypadkach zwi
ą
zek
n 2
P( T
u )
−
α
≥
= α
gdzie:
n 2
T
−
- zmienna losowa o rozkładzie Studenta z n –2 stopniami swobody.
Powy
ż
sze przedziały konstruujemy w typowy sposób na podstawie twierdzenia 17.4 – 17.6.
Przykład 17.8
Na poziomie ufno
ś
ci 1− α wyznaczymy przedziały ufno
ś
ci dla współczynników regresji obliczonych
w przykładzie 17.7.
Korzystaj
ą
c z wyników obliczonych w przykładzie otrzymujemy warto
ś
ci statystyk S
1
i S
2
r
1
n
2
2
2
i
i 1
s
23,88
23,88
23,88
23,88
s
2, 44
9,8
5069, 04 4972,9
96,14
5069, 04 10 22,3
x
nx
=
=
=
=
=
=
=
−
−
⋅
−
∑
n
2
r
i
i 1
2
n
2
2
i
i 1
s
x
23,88 5069,04
23,88 71,197 1700,19
s
54,83
31,01
10 96,14
961, 4
n
x
nx
=
=
∑
⋅
=
=
=
=
=
⋅
−
∑
Wyznaczamy liczbe
0,05
u
z warunku
8
0,05
P( T
u
) 0,05
≥
=
otrzymuj
ą
c
0,05
u
=2,306
Zatem połowy przedziałow ufno
ś
ci s
ą
równe
1
u s
2,306 2, 44 5,62
α
=
⋅
=
2
u s
2,306 54,83 126, 43
α
=
⋅
=
Wykorzystuj
ą
c powy
ż
sze wyniki cz
ęś
ciowe otrzymujemy przedziały ufno
ś
ci w postaci:
Współczynnik
Y
α
1
1
;
s
u
a
s
u
a
Y
Y
α
α
+
−
= 14,55 5,62;14,55 5, 62
8,83; 20,17
<
−
+
>=<
>
Współczynnik
Y
β
2
2
;
s
u
b
s
u
b
Y
Y
α
α
+
−
=
175,35 126, 43; 175,35 126, 43
301, 78; 48,92
< −
−
−
+
>=< −
−
>
Korzystaj
ą
c z narz
ę
dzia Regresja pakietu Analiza danych arkusza Excel – patrz przykład 5.17,
otrzymujemy bezpo
ś
rednio granice przedziałów ufno
ś
ci:
Dolne 95%
Górne 95%
Przecięcie
-301,76232
-48,931439
Zmienna X 1
8,93883332
20,1685101
STATYSTYKA MATEMATYCZNA
94
17.3.5. Weryfikacja hipotez o współczynnikach regresji
Wysuwamy hipotezy o współczynniku regresji
Y
α
z populacji. Hipoteza zerowa:
0
Y
0
H (
)
α = α
i hipoteza alternatywna w jednej z trzech postaci przedstawionej w poni
ż
szej tabeli.
Tabela 17.4. Testy do weryfikacji hipotezy o współczynniku regresji α
α
α
α
Y
n 2
T
−
oznacza zmienn
ą
losow
ą
o rozkładzie Studenta z n-2 stopniami swobody.
Uwaga. Hipoteza
0
Y
H (
0)
α =
jest równowa
ż
na hipotezie
0
H (
0)
ρ =
, bo
Y
Y
Y
σ
α =
ρ
σ
Wysuwamy hipotezy o współczynniku regresji
Y
β z populacji. Hipoteza zerowa:
0
Y
0
H (
)
β = β
i hipoteza alternatywna w jednej z trzech postaci przedstawionej w poni
ż
szej tabeli.
Tabela 17.5. Testy do weryfikacji hipotezy o współczynniku regresji β
β
β
β
Y
n 2
T
−
oznacza zmienn
ą
losow
ą
o rozkładzie Studenta z n-2 stopniami swobody.
Informacje zawarte w powy
ż
szych dwóch tabelach wynikaj
ą
z ogólnej zasady weryfikacji hipotez
i z tw. 17.6.
Przykład 17.9
Na poziomie istotno
ś
ci
α
=0,05 zweryfikujemy hipotezy dotycz
ą
ce zerowej warto
ś
ci współczynników
regresji obliczonych w przykładzie 17.7., wzgl
ę
dem hipotez alternatywnych bed
ą
cych zaprzeczeniem
hipotezy zerowej.
Współczynnik regresji
Y
α
Hipotezy
Sprawdzian
Zbiór krytyczny
0
Y
H (
0)
α =
1
Y
H (
0)
α ≠
Y
10
1
a
u
s
=
K= = (
; k
−∞ − > ∪
∞
< ;
k
)
(
)
8
P T
k
0, 05
≥
=
Wykorzystuj
ą
c wyniki z przykładów 17.7 i 17.8 otrzymujemy
Warto
ść
sprawdzianu
Y
10
1
a
14,554
u
5,96
s
2, 44
=
=
=
Zbiór krytyczny K= = (
; k
−∞ − > ∪
∞
< ;
k
) = <-
∞
;-2,306> ∪ <2,306; ,306>
Poniewa
ż
10
u
K
∈
hipotez
ę
zerow
ą
nale
ż
y odrzuci
ć
co dowodzi istotno
ś
ci współczynnika regresji
Y
α
1
H
Sprawdzian
n
U
Rozkład sprawdzianu
Zbiór krytyczny K
Wyznaczanie
liczby k
Nr
testu
1
Y
0
H (
)
α > α
K = k ;
<
∞ )
(
)
n 2
P T
k
2
−
≥
= α
KR-7
1
Y
0
H (
)
α < α
K =
(
; k
−∞ − >
(
)
n 2
P T
k
2
−
≥
= α
KR-8
1
Y
0
H (
)
α ≠ α
Y
0
n
1
A
U
S
− α
=
Studenta z
n
-2 stopniami
swobody
K=
=
(
; k
−∞ − > ∪
k ;
<
∞
)
(
)
n 2
P T
k
−
≥
= α
KR-9
1
H
Sprawdzian
n
U
Rozkład sprawdzianu
Zbiór krytyczny K
Wyznaczanie
liczby k
Nr
testu
1
Y
0
H (
)
β > β
K =
k ;
<
∞
)
(
)
n 2
P T
k
2
−
≥
= α
KR-10
1
Y
0
H (
)
β < β
K =
(
; k
−∞ − >
(
)
n 2
P T
k
2
−
≥
= α
KR-11
1
Y
0
H (
)
β ≠ β
Y
0
n
2
B
U
S
− β
=
Studenta z
n
-2 stopniami
swobody
K=
=
(
; k
−∞ − > ∪
∞
< ;
k
)
(
)
n 2
P T
k
−
≥
= α
KR-12
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
95
Współczynnik regresji
Y
β
Hipotezy
Sprawdzian
Zbiór krytyczny
0
Y
H (
0)
α =
1
Y
H (
0)
α ≠
Y
10
2
b
u
s
=
K= =
(
; k
−∞ − > ∪
∞
< ;
k
)
(
)
8
P T
k
0, 05
≥
=
Wykorzystując wyniki z przykładów 17.7 i 17.8 otrzymujemy
Wartość sprawdzianu
Y
10
10
2
b
175,35
u
u
3,198
s
54,83
−
=
=
=
= −
Zbiór krytyczny K= =
(
; k
−∞ − > ∪
∞
< ;
k
) = <-∞;-2,306>
∪
<2,306; ,306>
Ponieważ
10
u
K
∉
brak jest podstaw do odrzucenia hipotezy zerowej.
Korzystając z narzędzia Regresja pakietu Analiza danych arkusza Excel – patrz przykład 5.17,
otrzymujemy bezpośrednio wartości sprawdzianów:
t Stat
Przecięcie
-3,198585777
Zmienna X 1
5,977167056
STATYSTYKA MATEMATYCZNA
96
18. WPROWADZENIE DO ZAAWANSOWANYCH METOD
STATYSTYCZNYCH
18.1. Charakterystyka zaawansowanych metod statystycznych
Zaawansowane metody statystyczne są metodami wielowymiarowymi, tzn. analizują próby
wielowymiarowe, składające się z wyników pomiaru określonej liczby zmiennych.
Pojęcie próby wielowymiarowej jest uogólnieniem pojęcia próby dwuwymiarowej.
Model I
Populacja jest badana ze względu na k cech X
1
, X
2
, …,X
k
, czyli ze względu na zmienną losową
k-wymiarową (X
1
, X
2
, …,X
k
). Taką populację nazywamy
populacją k-wymiarową
.
Próba z populacji k-wymiarowej jest to macierz
11
12
1k
21
22
2k
n1
n2
nk
X
X
.
.
.
X
X
X
.
.
. X
.
.
.
.
.
.
.
.
.
X
X
.
.
. X
=
X
(20.1)
gdzie zmienne losowe k-wymiarowe wyst
ę
puj
ą
ce w poszczególnych wierszach s
ą
k-wymiarowo
niezale
ż
ne.
36
Ka
ż
d
ą
macierz
11
12
1k
21
22
2k
n1
n2
nk
x
x
.
.
.
x
x
x
.
.
. x
.
.
.
.
.
.
.
.
.
x
x
.
.
. x
=
x
(20.2)
b
ę
d
ą
c
ą
warto
ś
ci
ą
próby (20.1) nazywa si
ę
realizacją próby z populacji k-wymiarowej albo macierzą
danych (wyników)
.
Wiersze macierzy (20.2) s
ą
warto
ś
ci
ą
cechy (X
1
, X
2
, …,X
k
) kolejnych elementów populacji
wybranych do próby, natomiast kolumny s
ą
realizacjami prób jednowymiarowych ze wzgl
ę
du na
kolejne zmienne X
j
, j=1,2,…,k. Element x
ij
oznacza warto
ść
cechy X
j
elementu próby o numerze i.
Przyjmujemy oznaczenia:
1j
2j
.j
n j
j
x
x
.
.
.
x
x
=
-
realizacja próby jednowymiarowej ze względu na cechę Xj
(20.3)
[
]
i.
i1
i2
ik
x , x , , x
=
x
K
-
realizacja próby wielowymiarowej dla elementu próby o numerze i,
(20.4)
36
Pojęcie to jest prostym uogólnieniem pojęcia niezależności dwuwymiarowej – patrz odnośnik 12 z punktu 18.1.
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
97
Wektor x
.j
okre
ś
lony wzorem (20.3) jest realizacj
ą
próby jednowymiarowej ze wzgl
ę
du na cech
ę
X
j
.
Wektor x
i.
okre
ś
lony wzorem (20.4)
nazywamy obserwacją.
Wprowadzone poj
ę
cia obrazuje rysunek 20.1.
Cechy
X
1
X
2
… X
j
… X
k
1
Obserwacja
2
…
i
x
ij
…
Numery
elementu
próby
n
P
r
ó
b
a
Rys. 18.1. Ilustracja macierzy danych
Macierz danych mo
ż
na przedstawi
ć
jako tabel
ę
z liczb
ą
wierszy równ
ą
liczbie elementów oraz liczb
ą
kolumn równ
ą
liczbie cech.
W ramach obserwacji mog
ą
wyst
ę
powa
ć
wszystkie badane cechy lub okre
ś
lony ich podzbiór. Mog
ą
by
ć
tak
ż
e utworzone nowe cechy jako zadane funkcje cech mierzonych.
Macierz danych mo
ż
e zosta
ć
okre
ś
lona przez podanie jej obiektów składowych lub okre
ś
lona
warunkami nało
ż
onymi na wybrane cechy obserwacji. W tym wypadku liczba obiektów w grupie
danych nie jest ustalona a priori.
Macierz danych mo
ż
e by
ć
przedstawiona w postaci:
1.
2.
.1
.2
.
n.
[ ,
,...,
]
k
x
x
x
x x
x
x
=
=
M
(20.5)
Przedstawiony model mo
ż
e dotyczy
ć
tak
ż
e jednej cechy X rozpatrywanej w k momentach
lub w k warunkach, czyli analogicznie jak poprzednio zmiennej losowej k-wymiarowej
(X
1
, X
2
, …,X
k
). Analizie podlegaj
ą
warto
ś
ci tej zmiennej uzyskane u uzyskane kolejnych elementów
populacji wybranych do próby.
Mo
ż
e wyst
ę
powa
ć
tak
ż
e przypadek mieszany w którym wyst
ę
puj
ą
zarówno cechy rozpatrywane tylko
w jednym momencie lub w jednym warunku, jak i te same cechy rozpatrywane w ró
ż
nych
momentach, jak i w ró
ż
nych warunkach.
W ka
ż
dym z opisanych przypadków analizowane próby nazywane s
ą
próbami powiązanymi.
STATYSTYKA MATEMATYCZNA
98
Model II
Model II jest rozszerzeniem modelu I. Badanych jest J populacji ze wzgl
ę
du na k cech
X
1
, X
2
, …,X
k
, czyli ze wzgl
ę
du na zmienn
ą
losow
ą
k-wymiarow
ą
(X
1
, X
2
, …,X
k
). Przedmiotem
analizy jest J macierzy danych, ka
ż
d
ą
z których tworz
ą
próby n
j
elementowe. Przykładowo przy
dwóch populacjach macierze te maj
ą
posta
ć
:
11
12
1k
21
22
2k
n 1
n 2
n k
1
1
1
a
a
.
.
.
a
a
a
.
.
.
a
.
.
.
.
.
.
.
.
.
a
a
.
.
. a
a
=
11
12
1k
21
22
2k
n 1
n 2
n k
2
2
2
b
b
.
.
.
b
b
b
.
.
.
b
.
.
.
.
.
.
.
.
.
b
b
.
.
. b
b
=
Przykładowo a
11
to warto
ść
cechy X
1
uzyskana u 1 elementu pierwszej populacji, b
11
to warto
ść
tej
samej cechy X
1
uzyskana u pierwszego elementu drugiej populacji.
W tym przypadku mo
ż
na wprowadzi
ć
wszystkie analogiczne poj
ę
cia jak w modelu I.
W modelu II analizowane próby dotycz
ą
ce tej samej zmiennej losowej, pochodz
ą
ce z ró
ż
nych
populacji, nazywane s
ą
próbami niepowi
ą
zanymi. Tylko przypadkowo próby te maj
ą
takie same
liczebno
ś
ci.
Poni
ż
ej krótko scharakteryzowano opisane w niniejszej cz
ęś
ci podr
ę
cznika zaawansowane
metody statystyczne.
Ocena istotności różnic rozkładu w więcej niż dwóch warunkach. Dla rozwi
ą
zania tego problemu
przeznaczonych jest szereg metod. Jedn
ą
z nich jest analiza wariancji, stanowi
ą
ca rozszerzenie testu
Studenta.
Analiza regresji wykorzystywana jest do szukania zwi
ą
zku funkcyjnego pomi
ę
dzy tzw. zmienn
ą
zale
ż
n
ą
i okre
ś
lon
ą
liczb
ą
tzw. zmiennych niezale
ż
nych. Najcz
ęś
ciej przyjmuje si
ę
zwi
ą
zek liniowy.
W przypadku małej liczby zmiennych niezale
ż
nych szuka si
ę
te
ż
zwi
ą
zku w postaci wielomianu.
Mo
ż
liwe
jest
ustalenie
a
priori
zmiennych
niezale
ż
nych,
które
ujmowane
s
ą
w równaniu regresji lub te
ż
okre
ś
lenie tylko ich zbioru. W tym przypadku do równania wprowadzane
s
ą
tylko te zmienne, które charakteryzuje okre
ś
lony współczynnik korelacji cz
ą
stkowej ze zmienn
ą
zale
ż
n
ą
.
Analiza czynnikowa pozwala na podział analizowanych zmiennych na okre
ś
lon
ą
liczb
ę
grup,
z których ka
ż
da kształtowana jest samoistnie przez oddzielny czynnik.
Analiza korelacji kanonicznej wykorzystywana jest do wyznaczania zwi
ą
zku liniowego pomi
ę
dzy
dwoma grupami zmiennych. Mo
ż
na traktowa
ć
j
ą
wi
ę
c jako uogólnienie analizy regresji.
Analiza skupień wykorzystywana jest do podziału zbioru okre
ś
lonych elementów na grupy, których
obiekty s
ą
podobne do siebie w okre
ś
lonym sensie. Obiektami mog
ą
by
ć
zarówno dowolne elementy
materialne, opisane wybranymi cechami, jak i cechy opisuj
ą
ce rozpatrywane elementy materialne.
Wielowymiarowa analiza wariancji (MANOVA) wykorzystywana jest do weryfikacji hipotez
o równo
ś
ci kilku wektorów warto
ś
ci oczekiwanych. Jest ona rozszerzeniem analizy wariancji
(ANOVA) albowiem rozpatruje ona powy
ż
sz
ą
hipotez
ę
dla kilku warto
ś
ci oczekiwanych. MANOVA
stosowana jest w powi
ą
zaniu z analizą dyskryminacji, której wa
ż
nym krokiem jest zast
ą
pienie wielu
cech naturalnych mał
ą
liczb
ą
zmiennych abstrakcyjnych bez zmniejszenia zró
ż
nicowania grup.
Mo
ż
liwe jest te
ż
wybranie cech najbardziej ró
ż
nicuj
ą
cych. W ramach tej analizy prowadzona jest
klasyfikacja na podstawie cech abstrakcyjnych. Stopie
ń
jej zgodno
ś
ci z podziałem a priori
ś
wiadczy
pogl
ą
dowo o wyst
ę
puj
ą
cym zró
ż
nicowaniu grup.
Nale
ż
y podkre
ś
li
ć
wyj
ą
tkowo du
ż
e znaczenie analiz wielowymiarowych, wykorzystuj
ą
cych naturalne
powi
ą
zania pomi
ę
dzy poszczególnymi cechami. Wła
ś
nie to stanowi o ich bardzo istotnym znaczeniu.
Mo
ż
na zilustrowa
ć
ten fakt nast
ę
puj
ą
cymi przykładami:
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
99
−
Warto
ś
ci współczynników korelacji cz
ą
stkowej ró
ż
ni
ą
si
ę
na ogół w znacznym stopniu od
warto
ś
ci współczynników korelacji Pearsona;
−
Cechy ró
ż
ni
ą
ce dwie populacje wielowymiarowe nie musz
ą
podlega
ć
istotnie zró
ż
nicowanym
rozkładom przy ocenie wyizolowanej;
−
Posta
ć
zwi
ą
zku pomi
ę
dzy dwoma zbiorami cech w wielu przypadkach jest sprzeczna
z warto
ś
ciami współczynników korelacji pomi
ę
dzy parami cech uwzgl
ę
dnianych zbiorów.
W ramach tych analiz mo
ż
na dokonywa
ć
porównania rozkładów cech, ocenia
ć
korelacje oraz
budowa
ć
i weryfikowa
ć
modele matematyczne analizowanych zjawisk.
Poszczególne metody umo
ż
liwiaj
ą
przeprowadzenie analiz z ró
ż
nych punktów widzenia.
W wielu przypadkach dopiero ł
ą
czne ich zastosowanie powoduje otrzymanie warto
ś
ciowych
wniosków. Przykładowo:
−
Ł
ą
czne zastosowanie analizy regresji i analizy korelacji kanonicznej pozwala na identyfikacj
ę
nieznanych zale
ż
no
ś
ci pomi
ę
dzy rozpatrywanymi cechami;
−
W analizie dyskryminacji przedmiotem oblicze
ń
s
ą
zbiory danych dotycz
ą
ce grup okre
ś
lonych
elementów wyró
ż
nionych a priori. Analiza skupie
ń
prowadzona dla tych elementów mo
ż
e by
ć
wykorzystana do zweryfikowania takiego podziału;
−
W analizie czynnikowej uzyskuje si
ę
podział rozpatrywanych cech na podzbiory kształtowane
oddzielnie przez poszczególne czynniki. Analiza skupie
ń
prowadzona dla tych cech mo
ż
e by
ć
wykorzystana do weryfikacji otrzymanego podziału.
Dwuwymiarowe i wielowymiarowe analizy statystyczne umo
ż
liwiaj
ą
rozwi
ą
zywanie 3 rodzajów
problemów:
1.
Ocena istotno
ś
ci zale
ż
no
ś
ci statystycznej pomi
ę
dzy cechami;
2.
Skupianie elementów (obiektów lub cech);
3.
Ocena istotno
ś
ci ró
ż
nic rozkładu cechy.
W pierwszej z poni
ż
szych tabel podano metody statystyczne i klasy testów statystycznych
umo
ż
liwiaj
ą
ce rozwi
ą
zywanie powy
ż
szych problemów.
Podane w tabeli metody oznaczone numerami 1, 9 i 10 dotycz
ą
klas testów statystycznych.
Tabela 18.1.Metody statystyczne i klasy testów statystycznych
Ocena istotności zależności
statystycznej pomiędzy cechami
Skupianie elementów
(obiektów i cech)
Ocena istotności różnic
rozkładu cechy
1.
Ocena istotności korelacji
dwóch cech
6.
Analiza skupień dla obiektów 9. Ocena istotności różnic
rozkładu cechy w dwóch
warunkach
2.
Regresja wielomianowa jednej
cechy
7.
Analiza czynnikowa
10.
Ocena istotności różnic
rozkładu cechy w wielu
warunkach
3.
Regresja liniowa kilku cech
8.
Analiza skupień dla cech
11.
Wielowymiarowa analiza
wariancji i analiza
dyskryminacji
4.
Regresja wielomianowa kilku
cech
5.
Korelacja kanoniczna
Wszystkie wska
ź
niki i metody statystyczne przedstawiono w kolejnej tabeli.
STATYSTYKA MATEMATYCZNA
100
Tabela 18.2. Wskaźniki i metody statystyczne
Liczba cech
Liczba
macierzy
danych
1
2
≥
≥
≥
≥ 2
1
ANALIZA
JEDNOWYMIAROWA
Błędy grube
Centyle
Estymacja parametrów
rozkładu
Ocena normalności
Ocena losowości
ANALIZA
DWYWYMIAROWA
Test niezależności
Współczynnik Pearsona
Współczynnik Spearmana
Współczynnik Cramera
ANALIZA
WIELOWYMIAROWA
Regresja liniowa,
wielomianowa i potęgowa
Analiza czynnikowa
Analiza skupień dla cech i
obiektów
Korelacja kanoniczna
2
ANALIZA
DWUWYMIAROWA
Testy Studenta
Test Cochrana-Coxa
Test rangowanych znaków
Test Wilcoxona
Test dokładny Fishera
Test McNemara
Test chi kwadrat
≥
≥
≥
≥ 2
ANALIZA
WIELOWYMIAROWA
Analiza wariancji
Test q
x
Test Kruskala-Wallisa
Test Friedmana
Test Góralskiego
Test Cochrana
ANALIZA WIELOWYMIAROWA
Wielowymiarowa analiza wariancji
i analiza dyskryminacji
18.2. Algorytmizacja wyboru metod statystycznych
Na poni
ż
szym rysunku przedstawiono algorytm wyboru metod statystycznych z zakresu okre
ś
lanego
na podstawie charakterystyk analizowanych danych.
PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE
101
POCZĄTEK
A
B
C
D
G
I
K
L
M
N
CZY OBLICZAĆ CENTYLE
TAK
NIE
LICZBA MACIERZY
DANYCH K=1
TAK
NIE
LICZBA CECH
M=1
TAK
NIE
LICZBA CECH
M=1
TAK
NIE
LICZBA MACIERZY
DANYCH
K=2
NIE
TAK
PODAJ PRZEDMIOT
ANALIZY
L1 - liczba macierzy danych
L2 - liczba cech
LICZBA MACIERZY
DANYCH
DO ANALIZY L1=2
NIE
TAK
LICZBA MACIERZY
DANYCH
DO ANALIZY L1=2
TAK
NIE
LICZBA CECH DANYCH
DO ANALIZY L2=1
TAK
NIE
LICZBA CECH DANYCH
DO ANALIZY L2=1
NIE
TAK
M
C
M
KONIEC OCENY
ISTOTNOŚCI
TAK
NIE
PODAJ ZAKRES ANALIZY
1 - ocena zależności
2 - skupianie elementów
1
2
PODAJ PRZEDMIOT
ANALIZY
L1 - liczba grup danych
LICZBA CECH
M=2
TAK
NIE
PODAJ PRZEDMIOT
ANALIZY
L1 - liczba cech I zbioru
L2 - liczba cech II zbioru
LICZBA CECH I ZBIORU
L1=1
TAK
NIE
LICZBA CECH II ZBIORU
L2=1
TAK
NIE
LICZBA CECH II ZBIORU
L2=1
TAK
NIE
PODAJ RODZAJ ANALIZY
1 - korelacje
2 - regresja potęgowa
3 - koniec analizy
PODAJ RODZAJ ANALIZY
1 - regresja liniowa dla poanych cech
2 - regresja liniowa z wyborem cech
3 - regresja wielomianowa
0 - koniec analizy regresji
1
2
0
0
1
2
3
E
F
H
J
KONIEC OCENY
ZALEśNOŚCI
NIE
TAK
LICZBA CECH
M 3
NIE
TAK
≥
LICZEBNOŚĆ PRÓB
N 3
NIE
TAK
≥
LICZEBNOŚĆ PRÓB
N 3
TAK
NIE
≥
PODAJ PRZEDMIOT
ANALIZY
1 - obiekty
2 - cechy
1
2
PODAJ RODZAJ ANALIZY
1 - analiza skupień
2 - analiza czynnikowa
1
2
KONIEC SKUPIANIA
CECH
TAK
NIE
KONIEC SKUPIANIA
ELEMENTÓW
TAK
NIE
KONIEC ANALIZY
STATYSTYCZNEJ
NIE
TAK
KONIEC
ZAUTOMATYZOWANY WYBÓR ZAKRESU, PRZEDMIOTU I RODZAJU ANALIZY STATYSTYCZNEJ
OZNACZENIA:
Metody statystyczne, oznaczone zgodnie
z poniższym wykazem:
A - Wyznaczanie parametrów rozkładu
B - Wyznaczanie centyli
C - Ocena istotności różnic rozkładu w 2 warunkach
D - Ocena istotoności korelacji dwóch cech
E - Regresja liniowa dla podanych cech
A
F - Regresja liniowa z wyborem cech
G - Regresja potęgowa
H - Regresja wielomianowa
I - Analiza czynnikowa
J - Analiza korelacji kanonicznej
K - Analiza skupień dla cech
L - Analiza skupień dla obiektów
M - Ocena istotności różnic rozkładu w wielu warunkach
N - Manova i analiza dyskryminacji
Rysunek 20.2. Algorytm wyboru zakresu, przedmiotu i rodzaju analizy statystycznej