rafajłowicz,Inżynierskie zastosowania statystyki, testy nieparametryczne, testy zgodności


5. Testy nieparametryczne. Testy zgodności.
Je\eli hipoteza jaką stawiamy na temat danego rozkładu nie dotyczy wartości jednego z jego parametrów,
a jedynie postaci tego rozkładu, to wówczas procedurę sprawdzenia tego rodzaju hipotezy nazywamy
statystycznym testem nieparametrycznym albo testem zgodności.
Najprostszą metodą prowadzącą do uzyskania wstępnych informacji o postaci rozkładu interesującej nas
cechy elementów populacji jest narysowanie histogramu rozkładu zaobserwowanego w próbie. Uzyskane
z rysunku informacje są jednak niepełne i tylko  wzrokowe . Histogram pozwala nam jednak zorientować
się, jakie ewentualnie rozkłady mogą być brane pod uwagę.
O ile na podstawie rysunku drugiego skłonni bylibyśmy dopuścić mo\liwość występowania rozkładu
normalnego w populacji generalnej, o tyle w przypadku rys. pierwszego trudno o decyzjÄ™.
Oczywiście spostrze\enia oparte na kształtach histogramów nie mogą słu\yć za podstawę ogólniejszych
rozwa\ań. Niezbędna jest bardziej precyzyjna miara zgodności między rozkładem w próbce a
hipotetycznym rozkładem cechy elementów w populacji generalnej.
Pierwszym krokiem jest ustalenie zbioru mo\liwych w danym zagadnieniu hipotez, tzn. zbioru mo\liwych
rozkładów, które mogą być brane pod uwagę, a następnie wyró\nienie z tego zbioru hipotezy zerowej.
Kolejnym krokiem jest przyjęcie odpowiedniej statystyki, która mo\e słu\yć za test do weryfikacji
hipotezy zerowej.
Sposób postępowania przy testowaniu zgodności:
1. Ustalenie zbioru mo\liwych rozkładów.
2. Wyró\nienie z tego zbioru rozkładu  hipotezy zerowej.
3. Przyjęcie odpowiedniej statystyki słu\ącej do weryfikacji hipotezy zerowej.
Istnieje kilka testów nieparametrycznych.
Test Ç2 Pearsona.
Populacja generalna ma dowolny rozkład o dystrybuancie nale\ącej do zbioru rozkładów o określonym
typie postaci funkcyjnej dystrybuanty. Mogą to być dystrybuanty typu ciągłego i skokowego.
Z populacji tej losujemy niezale\nie du\ą próbę , a wyniki losowania dzielimy na r rozłącznych klas. Dla
ka\dej wyró\nionej klasy zostaje przyporządkowana liczność ni zwana licznością z próby losowej. Ka\da
kolejna klasa jest określona przez 2 sąsiednie wartości {gi}, czyli pary liczb:
(g0, g1), ... , (gi-1, gi ) ,..., (gr-1, gr).
r
Dla liczności zachodzi: = n .
"ni
i=1
W przypadku gdy weryfikowana hipoteza ma dotyczyć dystrybuanty dla zmiennej losowej o rozkładzie
równomiernym to prawdopodobieństwo, \e zmienna losowa X przyjmie wartość w zakresie liczbowym i 
tej klasy ( i = 1,2,..., r), wyra\a siÄ™ wzorem:
1
pi =
r
Gdy weryfikowana hipoteza będzie się odnosiła się do dystrybuanty F(x) dla zmiennej losowej o
rozkÅ‚adzie normalnym N(m;à ) to prawdopodobieÅ„stwo, \e zmienna losowa X przyjmie wartość
w zakresie liczbowym i  tej klasy (gi-1, gi ) , mo\na wyrazić następującym wzorem:
gi - x gi-1 - x
pi = F( ) - F( ),
S S
gdzie:
x - wartość oczekiwana wyliczona na podstawie środków poszczególnych klas i ich liczności,
S  wartość odchylenia standardowego wyliczona na podstawie środków poszczególnych klas i ich
liczności,
F  wartości dystrybuanty rozkładu normalnego standaryzowanego N(0 ; 1) odczytane z tablic.
Na podstawie ustalonych prawdopodobieństw pi mo\na określić wartość przeciętną ilości wyników próby,
spośród n niezale\nych doświadczeń, które będą zawierały się w i  tej klasie. Wartość przeciętna ilości
wyników próby, dla i  tej klasy (i=1, 2, ..., r), jest wyznaczana według zale\ności n*pi i nosi nazwę
liczności teoretycznej.
Podział na klasy tworzy rozkład empiryczny . Na podstawie wyników próby stawiamy hipotezę:
dystrybuanta populacji nale\y do klasy określonych dystrybuant, którą będziemy oznaczać przez
&! , tzn. stawiamy hipotezę, \e na poziomie istotności ą:
H0 : F(x) " &! ,
gdzie F ( x ) jest dystrybuantą rozkładu populacji.
Porównanie dystrybuanty F ( x) z dystrybuantą empiryczną daje mo\liwość weryfikacji postawionej
hipotezy.
Test zgodności dla tej hipotezy jest następujący :
z hipotetycznego rozkładu nale\ącego do poszczególnych klas wartości badanej cechy X
prawdopodobieństwa pi, \e zmienna losowa X o rozkładzie &! przyjmie wartości nale\ące do klasy o
numerze i ( i=1,2,3,...,r ) . Z kolei mno\ąc pi przez liczebność całej próby , otrzymujemy liczności
ni" = npi
teoretyczne , które wystąpią w poszczególnych klasach , je\eli postawiona hipoteza H0 jest
prawdziwa.
2
StatystykÄ… weryfikujÄ…cÄ… H0 jest statystyka Ç :
r
(ni - npi )2
2
Ç =
"
npi
i=1
2
która ma, przy sÅ‚usznoÅ›ci zaÅ‚o\enia H0, rozkÅ‚ad asymptotyczny Ç o r-1 stopniach swobody , lub r-1-k
stopniach swobody ( r  jest liczbą klas , k  liczbą parametrów , które wyznaczamy dla funkcji nale\ącej
do &! ).
Do weryfikacji hipotezy H0 na poziomie istotności ą, wykorzystujemy obliczoną statystykę testową i
kwantyle rozkładu chi  kwadrat.
Obszarem krytycznym testu jest przedział prawostronny:
2
[Ç (1-Ä…,r - k -1);+ ")
,
z którego mo\na wyciągnąć następujące wnioski:
2
Çemp "{Ç (1-Ä…,r - k -1);+ ")
- je\eli , to pobrana próba nie przeczy hipotezie
weryfikowanej,
2
Çemp "{Ç (1-Ä…,r - k -1);+ ")
- je\eli , to hipotezÄ™ o postaci funkcji dystrybuanty powinno
się odrzucić.
Przykład 5.1.
Sprawdzić, czy mo\na na poziomie istotności 0,05 uwa\ać, \e rozkład odchyleń losowych pewnego
zjawiska od normy jest rozkładem normalnym.
Xid - Xig ni
-10 - -8 2
-8 - -6 0
-6 - -4 11
-4 - -2 18
-2 - 0 34
0 - 2 29
2 - 4 19
4 - 6 11
6 - 8 1
8 - 10 1
126
Aby porównać rozkład z próby z rozkładem normalnym trzeba określić parametry tego ostatniego.
W tym przypadku oszacujemy wartość oczekiwaną przez średnią z próby, odchylenie standardowe przez
odchylenie standardowe z próby:
Xid Xig ni
& &
xi xini & - x)2 ni
(xi
-10 -8 -9 2 -18 160,86
-8 -6 -7 0 0 0
-6 -4 -5 11 -55 271,52
-4 -2 -3 18 -54 158,59
-2 0 -1 34 -34 31,88
0 2 1 29 29 30,87
2 4 3 19 57 174,64
4 6 5 11 55 278,50
6 8 7 1 7 49,45
8 10 9 1 9 81,57
n=126 -4 1237,87
r
1 - 4
x = xini = = -0,032
&
Ilość klas: r = 10,
"
n 126
i=1
1 1237,87
S = (xi - x)2 = = 3,13
&
n 126
zatem stawiamy hipotezy:
H0: rozkład odchyleń jest zgodny z rozkładem N(-0,032;3,13),
H1: rozkład odchyleń nie jest zgodny z rozkładem N(-0,032;3,13).
Kolejnym krokiem jest wyznaczenie prawdopodobieństw pi, z którymi zmienna o rozkładzie zało\onym w
hipotezie zerowej nale\y do poszczególnych przedziałów klasowych.
Przykład wyznaczania:
x - (-0,032) - 8 - (-0,032)
P(X < -8) = P( < ) = P(u < -2,5422) =
3,13 3,13
Åš(-2,5422) = 1- Åš(2,5422) = 1- 0,9945 = 0,0055
- 8 - (-0,032) x - (-0,032) - 6 - (-0,032)
P(-8 < X < -6) = P( < < ) =
3,13 3,13 3,13
Åš(-1,9041) = 1- Åš(2,5422) = 0,0284  0,0055 = 0,0229
Do zamieszczenia pozostałych obliczeń wykorzystamy tabelę pomocniczą:
Åš(xig )
xid - x xig - x Åš(xid ) pi = Åš(xig ) - Åš(xid )
Xid Xig
S
S
-10 -8 -2,5422 0 0,0055 0,0055
-8 -6 -2,5422 -1,9041 0,0055 0,0284 0,0229
-6 -4 -1,9041 -1,2660 0,0284 0,1027 0,0743
-4 -2 -1,2660 -0,6280 0,1027 0,2650 0,1623
-2 0 -0,6280 0,0101 0,2650 0,5040 0,2390
0 2 0,0101 0,6482 0,5040 0,7416 0,2375
2 4 0,6482 1,2863 0,7416 0,9008 0,1593
4 6 1,2863 1,9244 0,9008 0,9728 0,0720
6 8 1,9244 2,5625 0,9728 0,9948 0,0220
8 10 2,5625 0,9948 1 0,0052
Teraz ju\ mo\na przejść do wyznaczenia wartości sprawdzianu testu:
Xid - Xig ni
pi - npi - npi
(ni )2 (ni )2
npi
-10 - -8 2 0,0055 1,306015 2,457799
-8 - -6 0 0,0229 -2,89036 2,890356
-6 - -4 11 0,0743 1,637862 0,286536
-4 - -2 18 0,1623 -2,44563 0,292537
-2 - 0 34 0,2390 3,882997 0,500636
0 - 2 29 0,2375 -0,92946 0,028864
2 - 4 19 0,1593 -1,06598 0,056629
4 - 6 11 0,0720 1,925902 0,408756
6 - 8 1 0,0220 -1,76657 1,128025
8 - 10 1 0,0052 0,345216 0,182006
8,232146
2
Ç = 8,232146
Sprawdzian testu
2
Ç0,05 7 = 14,0671
Ä… = 0,05
, liczba stopni swobody 10-2-1=7, wartość krytyczna
2
Obszar odrzucenia: W =[14,0671;+ ") , czyli: Ç "W .
Zatem na poziomie istotności 0,05 nie ma podstaw, by twierdzić, \e rozkład wyników z próby nie
pochodzi z populacji o rozkładzie normalnym (rozkład nie ró\ni się istotnie od normalnego).
Test zgodności - Kołmogorowa
2
Test zgodnoÅ›ci KoÅ‚mogorowa jest mniej pracochÅ‚onny ni\ test Ç , ale te\ mniej wszechstronny. Stosuje
się go jedynie do weryfikacji hipotez , \e populacja ma rozkład ciągły .W teście tym porównuje się
dystrybuantę empiryczną z hipotetyczną. Na podstawie analizy ró\nic między wymienionymi
dystrybuantami buduje siÄ™ statystykÄ™ :
 = D n
,
D = sup Fn (x) - F(x)
gdzie: ,
x
gdzie: Fn (x) - dystrybuanta teoretyczna (weryfikowanej hipotezy) dla prawostronnych granic
poszczególnych klas,
F(x) - dystrybuanta empiryczna ( z wyników próby) dla prawostronnych granic poszczególnych
klas.
Z tablic  - Kołmogorowa , dla odpowiednich ą, odczytujemy wartości , które wykorzystujemy do
konstrukcji obszaru krytycznego .
Test  - Kołmogorowa słu\y do weryfikacji następujących hipotez :
1. pewna wylosowana próba zmiennej losowej ma rozkład ciągły o dystrybuancie F0 (x) ; na
podstawie wyników tej próby nale\y zweryfikować hipotezę H0 : F(x) = F0 (x) , gdzie F0 (x) jest
hipotetyczną i ciągłą dystrybuantą ,
2. na podstawie dwu losowo pobranych prób sprawdzić hipotezę , \e obie próby pochodzą z tej samej
populacji , tzn. hipotezÄ™ H0 : F1(x) = F2 (x)
Test istotności dla hipotezy H0 : F(x) = F0 (x) jest następujący :
1. Wyniki próby porządkujemy według rosnącej kolejności zmiennej xi z odpowiadającymi jej
liczebnościami ni
"ni
i2. Wyznaczamy dla ka\dego xi wartość empirycznej dystrybuanty Fn (x) , gdzie Fn (x) =
n
3. Z rozkładu hipotetycznego wyznaczamy dla ka\dej wartości xi wartość hipotetycznej
dystrybuanty F (x)
4. Obliczamy bezwzględną wartość ró\nicy - F(x) , tzn. ró\nicę między dystrybuantą
Fn (x)
empirycznÄ… a hipotetycznÄ…
5. Obliczamy wartość statystyki :
D = sup Fn (x) - F(x)
x
oraz wartość statystyki :
 = D n
6. Dla ustalonego poziomu istotności ą budujemy obszar krytyczny statystyki  i weryfikujemy
hipotezÄ™ .
Je\eli liczność próby jest w przybli\eniu n e" 100 , wówczas do weryfikacji hipotezy mo\na wykorzystać
D n
graniczny rozkład statystyki D, czyli: , dla której kwantyl definiuje się wzorem:
P( n * D e" (1-Ä…)) = Ä… .
Wartość kwantyli (1-ą) , dla 3 ustalonych poziomów ufności ą zawarto w tabeli:
1-Ä… 0.90 0.95 0.99
1.224 1.354 1.628
(1-Ä…)
Na podstawie wyników próby losowej, dla ka\dej klasy, obliczamy wartości statystyki di, a następnie
| di |max = dmax
wybieramy jej największą wartość bezwzględną, czyli: .
D n [(1-Ä…);+ ")
Obszarem krytycznym testu dla zmiennej losowej jest przedział: , z którego
mo\na wyciągnąć następujące wnioski:
dmax n "[(1-Ä…);+ ")
- je\eli , to pobrana próba nie przeczy weryfikowanej hipotezie,
dmax n "[(1-Ä…);+ ")
- je\eli , to hipotezÄ™ o postaci funkcji dystrybuanty powinno siÄ™
odrzucić.
Przykład 5.2.
Zbadano grupę losowo wybranych studentów ze względu na wysokość wydatków przeznaczonych na
sport i turystykę w skali rocznej i otrzymano następujące wyniki ( w setkach zł )
Wydatki Liczba studentów
29,5  30 ,5 12
30,5  31,5 23
31,5  32,5 35
32,5  33,5 62
33,5  34,5 44
34,5  35,5 18
35,5  36,5 6
Na poziomie istotności ą=0,05 zweryfikować hipotezę , \e rozkład wydatków na sport i turystykę w
grupie studentów jest rozkładem normalnym.
RozwiÄ…zanie:
Weryfikujemy hipotezÄ™:
H0 : F(x) = F0 (x)
gdzie F0 (x) jest dystrybuantÄ… rozkÅ‚adu normalnego N(µ,à ) .
Z próby obliczamy oszacowania obu parametrów rozkładu normalnego , otrzymując x = 32,9 oraz
s = 1,4. Poniewa\ próba jest du\a , wartoÅ›ci te przyjmujemy jako estymatory µ i ´ . Obliczenia
konieczne do znalezienia wartości empirycznej i teoretycznej dystrybuanty zostały zamieszczone w
poni\szej tablicy:
xj uj F(uj ) = F(x) nj Fn(x)
Fn (x) - F(x)
"n j
j 30 ,5 -1,71 0,044 12 12 0,060 0,016
31,5 -1,00 0,159 23 35 0,175 0,016
32,5 -0,29 0,386 35 70 0,350 0,036
33,5 0,43 0,666 62 132 0,660 0,006
34,5 1,14 0,873 44 176 0,880 0,007
35,5 1,86 0,969 18 194 0,970 0,001
36,5 2,57 0,005 6 200 1,00 0,005
Otrzymaliśmy zatem D=0,036 . Poniewa\ n = 14,14 wartość empiryczna statystyki  - Kołmogorowa
wynosi 0,509. Z tablicy rozkładu - Kołmogorowa ( granicznego ) odczytujemy dla przyjętego poziomu
istotności 0,05 krytyczną wartość , która wynosi 1,358.
Nie ma podstaw do odrzucenia hipotezy zerowej , \e rozkład wydatków jest rozkładem normalnym .
ZADANIA.
Zadanie 5.3.
Studenci 1 roku pewnego kierunku zdają egzamin z matematyki u jednego z 5 egzaminatorów, do których
trafiajÄ… losowo. Liczby ocen niedostatecznych uzyskanych na egzaminie przez jednakowo liczne grupy
tego roku były następujące:
Nr egzaminatora 1 2 3 4 5
Liczba ocen niedostatecznych 7 9 14 6 14
Czy mo\na twierdzić, \e rozkład ocen niedostatecznych wśród ró\nych egzaminatorów jest równomierny?
Przyjąć poziom istotności 0,1.
RozwiÄ…zanie:
H0: rozkład ocen niedostatecznych jest równomierny.
nr egzaminatora liczba ocen niedost. Prawdopodobieństwo npi
(ni - npi )2 (ni - npi )2
ni teoret. pi
npi
1 7 10 9 0,9
1
5
2 9 10 1 0,1
1
5
3 14 10 16 1,6
1
5
4 6 10 16 1,6
1
5
5 14 10 16 1,6
1
5
Suma 50 5,8
2
Ç
= 5,8
2
Ç0,1 4 = 7,7794
Liczba stopni swobody 5-0-1=4, , W = 7,7794;+ "),
2
Ç "W
, co oznacza, \e nie ma podstaw, \eby uwa\ać, \e egzaminatorzy stawiają oceny
niedostateczne w sposób nierównomierny.
Zadanie 5.4.
Losowa próba n=200 niezale\nych obserwacji miesięcznych wydatków na \ywność rodzin
trzyosobowych dała następujący rozkład tych wydatków ( w tys. zł)
Wydatki Liczba rodzin
1,0 - 1,4 15
1,4 - 1,8 45
1,8  2,2 70
2,2  2,6 50
2,6  3,0 20
Na poziomie istotności ą=0,05 nale\y zweryfikować hipotezę ,\e rozkład wydatków jest normalny.
RozwiÄ…zanie:
Stawiamy hipotezÄ™ H0 : F(x) " &! , gdzie &! jest klasÄ… wszystkich dystrybuant normalnych. Dwa
parametry rozkładu tej dystrybuanty , średnią i odchylenie standardowe, szacujemy z próby (obliczamy z
tabeli) za pomocą estymatorów x = 2,0 tys. zł . , s=0,43 tys. zł  są one potrzebne do standaryzacji .
Stawiamy hipotezÄ™:
H0 : wydatki mają rozkład normalny N( 2.0 ; 043 ),
H1 :. wydatki nie mają rozkładu normalnego.
Pozostałe obliczenia znajdują się w tablicy:
xi ni ui F(ui) pi npi (ni-npi)2 (ni-npi)2/npi
1-1,4 15 -1,39 0,082 0,082 16,4 1,96 0,12
1,4-1,8 45 -1,46 0,323 0,241 48,2 10,24 0,21
1,8-2,2 70 0,46 0,677 0,354 70,8 0,64 0,01
2,2-2,6 50 1,39 0,918 0,241 48,2 3,24 0,07
2,6-3,0 20 2,32 1,00 0,082 16,4 12,96 0,79
200 1,000 200 1,20
2
Odpowiednia liczba stopni swobody wynosi 5-1-2=2. Z tablic rozkÅ‚adu Ç dla dwóch stopni swobody i
2
dla przyjÄ™tego poziomu istotnoÅ›ci Ä…=0,05 odczytujemy wartość krytycznÄ… Ç0,05;2 = 5,991. Mamy
2 2
Çemp = 1,20 < 5,991 = Ç0,05;2 , nie ma podstaw do odrzucenia hipotezy , \e rozkÅ‚ad miesiÄ™cznych
wydatków w populacji rodzin trzyosobowych jest normalny.
Kowariancja i współczynnik korelacji.
Korelacja jest jednym z najczęściej spotykanych terminów w statystycznym opisie zjawisk. Aby ją
sprecyzować, trzeba najpierw wprowadzić pojęcie kowariancji zmiennych losowych.
Definicja
Je\eli X i Y sa zmiennymi losowymi, to ich kowariancjÄ… nazywamy:
Cov(X ,Y ) = E((X - EX )(Y - EY) =
= E(XY) - (EX )(EY)
Wniosek
Jeśli zmienne losowe X i Y są niezale\ne, to: Cov(X ,Y ) = 0
Wniosek odwrotny nie jest prawdziwy. Istnieją bowiem zmienne losowe, które nie są niezale\ne, a
których kowariancja jest równa zeru.
Wniosek
D2 X = Cov(X , X )
Definicja
r
Macierz kowariancji n  wymiarowego wektora losowego X = {X1,..., X } wyra\a siÄ™ wzorem:
n
îÅ‚ Å‚Å‚
D2 X1 Cov(X1, X ) ... Cov(X1, X )
2 n
ïÅ‚ śł
... Cov(X , X )śł
ïÅ‚Cov(X , X1) D2 X 2 2 n
2
R =
ïÅ‚....................................................................... śł
ïÅ‚ śł
ïÅ‚ śł
, X1) Cov(X , X ) D2 X
ðÅ‚Cov(X n n 2 n ûÅ‚
Definicja
Współczynnik korelacji Á zmiennych losowych X i Y jest okreÅ›lony wzorem:
Cov(X ,Y )
Á = Á(X ,Y ) =
D2 X D2Y
Własności współczynnika korelacji:
Twierdzenie:
1. | Á | d" 1.
2. je\eli zmienne losowe X i Y sÄ… niezale\ne, to Á(X ,Y ) =0.
3. | Á | = 1 wtedy i tylko wtedy, gdy istniejÄ… staÅ‚e a `" 0 i b `" 0 takie, \e:
P(Y = aX + b) = 1
Własność te mo\na sformułować następująco:
Zmienne losowe mają współczynnik korelacji równy 1 wtedy i tylko wtedy, gdy jedna z nich jest
liniowÄ… funkcjÄ… drugiej.
Je\eli współczynnik korelacji zmiennych losowych X i Y jest równy zeru, to mówimy, \e są one
nieskorelowane.
Twierdzenie:
Je\eli istniejÄ… wariancje zmiennych losowych X1, X ,..., X , to zachodzi:
2 n
n n
2
D2 (X1 + X + ...+ X ) =
2 n "D X +2 "Cov(X X )
i i j
i=1 (i`" j)=1
Wniosek
Je\eli zmienne losowe X1, X ,..., X mają skończone wariancje i są nieskorelowane, to zachodzi:
2 n
D2 (X1 + X +...+ X ) = D2 X1 + D2 X + ...+ D2 X
2 n 2 n
Estymacja współczynnika korelacji.
Zajmiemy się szacowaniem na podstawie próby współczynnika korelacji.
Załó\my, \e elementy populacji badamy ze względu na 2 cechy: X oraz Y, i interesuje nas wartość
współczynnika korelacji między tymi zmiennymi. Zakładamy, \e zmienne losowe X oraz Y mają momenty
rzędu drugiego.
W celu oszacowania współczynnika korelacji Á pobieramy z populacji n  elementowÄ… próbÄ™ i
otrzymujemy n par wyników obserwacji:
(x1, y1),(x2 , y2 ),...,(xn , yn ) .
Estymator parametru Á mo\emy znalezć dwoma metodami: metodÄ… momentów i metodÄ… najwiÄ™kszej
wiarygodnoÅ›ci. Poniewa\ współczynnik korelacji Á jest funkcjÄ… momentów, wiÄ™c korzystajÄ…c z metody
momentów, za wartość estymatora R parametru Á mo\emy przyjąć wyra\enie:
n
- X )(yi - Y )
"(xi
i=1
R = (5.1)
n n
( - X )2 - Y )2
"(xi "(yi
i=1 i=1
Estymator ten na konstrukcję podobną do wzoru na teoretyczny współczynnik korelacji :
E((X - mX )(Y - mY )) cov(X ,Y )
Á = = dla à > 0,à > 0 , (5.2)
X ,Y X Y
à à à Ã
X Y X Y
z tym, \e momenty teoretyczne zostały zastąpione momentami empirycznymi. W liczniku wzoru (5.1)
występuje więc kowariancja empiryczna, a pod pierwiastkiem w mianowniku iloczyn wariancji
empirycznych.
Estymator r nazywamy empirycznym współczynnikiem korelacji.
Przedział ufności dla współczynnika korelacji podamy tylko przy zało\eniach, \e rozkład łączny wektora
(X,Y) jest normalny lub zbli\ony do normalnego oraz próba jest du\a ( n> 30). Przedział ufności dany jest
wówczas wzorem:
1- R2 1- R2
P(R - uÄ… < Á < R + uÄ… ) = 1-Ä… (5.3)
n n
gdzie: P(| U |< uÄ… ) = 1-Ä… dla U ~ N(0 ; 1).
Testowanie hipotez dla współczynnika korelacji.
Model 1.
Zakładamy, \e zmienne losowe mają rozkład normalny. Próba jest mała.
Estymator R występujący w statystyce testowej wyznacza się ze wzoru (5.1).
Stawiamy hipotezÄ™:
H0 :Á = 0 , która dla rozkÅ‚adu normalnego jest równowa\na hipotezie, \e zmienne
losowe X i Y sÄ… niezale\ne.
HipotezÄ… alternatywnÄ… jest hipoteza:
H1 :Á `" 0 .
Statystyka testowa w tym modelu ma postać:
r
t = n - 2 . (5.4)
2
1- r
Statystyka ta, ma przy zało\eniu prawdziwości hipotezy H0 , rozkład t  Studenta o n-2 stopniach
swobody. Obszar krytyczny jest dwustronny przy tak przyjętej hipotezie alternatywnej.
Je\eli przyjmiemy hipotezÄ™ alternatywnÄ… w postaci:
H1 :Á < 0 lub H1 :Á > 0 ,
to obszar krytyczny będzie odpowiednio prawostronny lub lewostronny.
Model 2.
Zakładamy, \e zmienne losowe mają rozkład normalny. Próba jest du\a.
Stawiamy hipotezÄ™:
H0 :Á = Á0 , przeciwko jednej z hipotez alternatywnych:
H1 :Á `" Á0 ,
H1 :Á < Á0 ,
H1 :Á > Á0 .
Zgodnie z przyjętą postacią hipotezy alternatywnej określamy obszar krytyczny, natomiast odpowiednia
do tego statystyka jest określona następująco:
1+ R 1+ Á0 Á
U = (1.1513(log - log - ) n - 3 (5.5)
1- R 1- Á0 2(n -1)
Przy zało\eniu prawdziwości hipotezy zerowej statystyka (5.5) ma rozkład asymptotycznie normalny
N(0;1), przy n " .
Przykład 5.5.
Wiadomo, \e rozkład łączny wektora (X,Y) jest normalny. Dla 400 elementowej próby obliczono
estymator współczynnika korelacji r = 0.12.
a) Określić przedział ufności dla współczynnika korelacji na poziomie ufności 0.95.
b) Sprawdzić hipotezę o niezale\ności zmiennych losowych X i Y.
c) Sprawdzić hipotezę, \e współczynnik korelacji wynosi 0.1.
Regresja liniowa.
Definicja.
Regresjami pierwszego rodzaju nazywamy funkcje:
m1(y) = E(X | Y = y) m2 (x) = E(Y | X = x)
, .
+"
E(X | Y = y) = xdF(x | y)
gdzie: ,
+"
-"
+"
E(Y | X = x) = ydF(y | x)
- warunkowe wartości oczekiwane.
+"
-"
Postawmy teraz następujące pytanie:
Jak w najlepszy sposób przybli\yć zmienną losową Y przez zmienną losową X ?
Inaczej mówiąc, jak wybrać funkcję f , aby wyra\enie:
E(Y - f (X ))2
osiągnęło najmniejszą wartość?
Odpowiedz na to pytanie daje następujące twierdzenie:
Twierdzenie:
Je\eli zmienne losowe X i Y majÄ… drugie momenty, to:
min E(Y - f (X ))2 = E(Y - m2 (X ))2
(5.6)
f
Regresja drugiego rodzaju.
Je\eli w wzorze (5.6) ograniczymy się wyłącznie do funkcji liniowych, tzn. przyjmiemy, \e:
m2(X ) =Ä… X + ²
,
to wówczas mówimy o regresji drugiego rodzaju, i bÄ™dziemy poszukiwać współczynników Ä… i ² takich,
aby wyra\enie:
E((Y - (Ä… X + ²))2)
było najmniejsze, czyli będziemy poszukiwać najlepszego przybli\enia zmiennej losowej Y liniową
funkcjÄ… zmiennej losowej X.
Twierdzenie:
E((Y - (Ä… X + ²))2)
Wyra\enie: osiąga najmniejszą wartość, tylko gdy współczynniki
regresji Ä… i ² sÄ… okreÅ›lone wzorami:
à Ã
2 2
Ä… = Á ² = m01 - Á m10 ,
, (5.7)
Ã1 Ã1
Ã1 = D2 X Ã = D2Y m10 = EX m01 = EY
gdzie: , , , .
2
Prostą o równaniu:
Ã
2
y - m01 = Á (x - m10)
(5.8)
Ã1
nazywa siÄ™ prostÄ… regresji lub regresjÄ… drugiego rodzaju.
Estymatory współczynników regresji liniowej
Jednym z często spotykanych w praktyce zadań jest ustalenie zale\ności między dwoma zmiennymi.
Przykład:
Mamy ustalić zale\ność między wytrzymałością betonu a zawartością cementu. Aby ją wyznaczyć,
musimy przeprowadzić odpowiedni eksperyment;
- przygotować próbki betonu z ró\ną zawartością cementu,
- zmierzyć ich wytrzymałość. Otrzymane wyniki przedstawia się na ogół w postaci wykresu jak na
rysunku:
Ka\dy punkt na tym wykresie przedstawia wytrzymałość betonu o określonej zawartości cementu. W tego
typu eksperymencie, na wyniki wpływa bardzo wiele czynników, które nie mogą być kontrolowane, jak
np. zanieczyszczenia. Powtarzając eksperyment, otrzymamy oczywiście inne wyniki. Aby takie dane
analizować musimy przyjąć pewne zało\enia. Załó\my, \e ka\dej zawartości cementu X wytrzymałość
betonu Y ma rozkÅ‚ad normalny z jednakowÄ…, nieznanÄ… wariancjÄ… Ã2, natomiast wartość Å›rednia
wytrzymaÅ‚oÅ›ci betonu µ zale\y od zawartoÅ›ci cementu x, tzn. \e µ = µ(x).
Przypuśćmy, \e przygotowujemy beton z zawartością cementu: x1 < x2 < ... < xn .
Oznaczmy przez Yi i=1,2,..,n wytrzymałość betonu z zawartością cementu xi.
Wielkości Y1,...,Yn potraktujmy jako niezale\ne zmienne losowe odpowiednio z wartościami średnimi:
µ(x1),...µ(xn ) i z jednakowÄ… wariancjÄ… Ã2.
Załó\my, \e µ(x) jest funkcjÄ… liniowÄ… x, tzn. \e:
µ(x) = ²0 + ²1x
(5.9)
gdzie: ²0 , ²1 - nieznane, szukane parametry.
Oznacza to, \e dla ka\dego ustalonego x zmienna losowa Y ma rozkład normalny z wartością średnią
²0 + ²1x
i wariancjÄ… Ã2. Tak okreÅ›lony model nazywamy modelem regresji liniowej,
parametry ²0 , ²1 - współczynnikami regresji, a prostÄ… przedstawionÄ… na rysunku prostÄ… regresji.
W tak sformuÅ‚owanym modelu mamy 3 nieznane parametry: ²0 , ²1 oraz Ã2, które nale\y oszacować na
podstawie danych otrzymanych z eksperymentu: (x1, y1),...(xn , yn ) .
Wyznaczymy estymatory tych parametrów korzystając z metody największej wiarygodności.
Poniewa\ gęstość zmiennej losowej Yi ma postać:
1 1
2
f (Yi , ²0 , ²1,Ã ) = ( )1/ 2 exp(- (Yi - ²0 - ²1xi )2 ) ,
2 2
2Ä„Ã 2Ã
wiec łączna gęstość prawdopodobieństwa zmiennych losowych Y1,...,Yn będzie iloczynem ich gęstości
(wynika z niezale\ności zm. los. Yi ):
n
1 1
2
f ( y1,...yn , ²0 , ²1,Ã ) = ( )1/ 2 exp(- (Yi - ²0 - ²1xi )2 )
"
2 2
2Ä„Ã 2Ã
i=1
Niech
2 2
L(²0 , ²1Ã , y1,..., yn ) = ln( f ( y1,..., yn , ²0 , ²1,Ã ) =
n
n 1
2
- ln(2Ä„Ã ) -
"( yi - ²0 - ²1xi )2
2
2 2Ã
i=1
2
Po obliczeniu pochodnych czÄ…stkowych wzglÄ™dem ²0, ²1,à i przyrównaniu ich do zera, powstanie
układ równań:
n
- ²0 - ²1xi ) = 0
"(yi
i=1
n
- ²0 - ²1xi )xi = 0
"(yi
i=1
n
n 1 1
- + - ²0 - ²1xi )2 = 0
"(yi
2 4
2 Ã 2Ã
i=1
Jeśli rozwią\emy te równania, to otrzymamy szukane nieobcią\one estymatory największej wiarygodności
współczynników regresji:
n
- x)(Yi - Y )
"(xi
i=1
Ć
²1 = (5.10)
n
- x)2
"(xi
i=1
Ć Ć
²0 = Y - ²1x (5.11)
oraz wariancji:
n
1
2
Ć Ć
S = - ²0 - ²1xi )2 (5.12)
"(Yi
n - 2
i=1
Równanie linii prostej:
Ć Ć
Ć
µ(x) = ²0 + ²1x = Y + ²1(x - x)
noszącej nazwę prostej regresji (z próby), jest oszacowaniem równania (5.9).
Przedziały ufności dla współczynników regresji liniowej.
Niech Y1,...,Yn  niezale\ne zmienne losowe. Załó\my, \e dla i =1,2,...,n , zachodzi:
2
Yi ~ N(²0 + ²1xi ;Ã )
gdzie: x1,...,xn sÄ… pewnymi znanymi liczbami. Jest to model regresji liniowej. NieobciÄ…\one estymatory
2
współczynników regresji liniowej ²0, ²1,Ã wyra\ajÄ… siÄ™ wzorami (5.10), (5.11) i (5.12).
Estymatory te mają rozkłady normalne:
2 2
Ć Ć
²0 ~ N(²0;Ã ) , ²1 ~ N(²1;Ã1 ) gdzie:
0
n
2
"xi
1
i=1
à = à , Ã1 = à (5.13)
0
n n
n - x)2 - x)2
"(xi "(xi
i=1 i=1
oraz zachodzi:
2
(n - 2)S
2
~ Çn-2 .
2
Ã
Stad wynika, \e obie zmienne losowe:
Ć Ć
²0 - ²0 ²1 - ²1
oraz
à Ã1
0
mają rozkłady normalne N( 0 ; 1 ).
JeÅ›li we wzorach (5.13) zamiast à wstawimy S i otrzymane wielkoÅ›ci oznaczymy przez à i Ã1, to
Ć0 Ć
zmienne losowe:
Ć Ć
²0 - ²0 ²1 - ²1
oraz
à Ã1
Ć0 Ć
mają rozkłady t  Studenta o n-2 stopniach swobody.
Podobnie jak poprzednio, otrzymujemy przedziaÅ‚ ufnoÅ›ci dla ²0 :
Ć
[²0 - tn-2;Ä… / 2Ã , ²0 + tn-2;Ä… / 2Ã ]
Ć0 Ć Ć0
oraz dla ²1:
Ć Ć
[²1 - tn-2;Ä… / 2Ã1, ²1 + tn-2;Ä… / 2Ã1]
Ć Ć
tn-2;ą / 2 - odczytujemy z tablic rozkładu t  Studenta.
gdzie:
EY = EYx = ²0 + ²1x
Je\eli chcemy ocenić wartość średnią: w punkcie x mo\emy wykorzystać
wzory, które podają nieobcią\one estymatory dla współczynników regresji.
Ć Ć
WstawiajÄ…c ²0 zamiast ²0 oraz ²1 zamiast ²1, otrzymujemy nieobciÄ…\ony estymator wartoÅ›ci Å›redniej
EYx
:
Ć Ć
Evx = ²0 + ²1x
.
EYx
Punktem wyjścia przy konstrukcji przedziału ufności dla wartości średniej jest spostrze\enie, \e:
2
vx ~ N(²0 + ²1x,Ä )
x
1 (x - X )2 2
2
Ä = [ + ]Ã
x
gdzie: n
n
- X )2
"(xi
i=1
Korzystając z tego mo\na, jak poprzednio, wyznaczyć przedział ufności:
[EYx - tn-2;Ä… / 2Ä , EYx + tn-2;Ä… / 2Ä ]
Ćx Ćx
EYx
dla wartości średniej na poziomie ufności 1  ą.
x = X
Z otrzymanego wzoru widać, \e najkrótszy przedział ufności otrzymujemy wtedy, gdy . Im dalej
X
oddalamy się od punktu , zarówno w lewo jak i w prawo, tym przedział ufności staje się dłu\szy, co
X EYx
oznacza, \e im dalej jest x od , tym gorsza jest ocena przedziałowa .
Przykład.
W celu zbadania zale\ności między wytrzymałością pewnego betonu a stosunkiem ilości cementu do
wody, wykonano 8 niezale\nych pomiarów i otrzymano następujące wyniki:
1.2 1.4 1.6 1.7 1.9 2.0 2.2 2.3
x
i
130 160 200 220 240 290 300 320
yi
gdzie:
x
- stosunek ilości u\ytego cementu do ilości wody,
i
yi 105 N / m2 .
- wytrzymałość w
PrzyjmujÄ…c model regresji liniowej i stosujÄ…c podane wzory znajdujemy najpierw oceny punktowe
2
Ć Ć
²0 ²1 Ã
współczynników regresji liniowej: = -82.43, = 176.18 oraz wariancji: Ć = 102.75.
Równanie regresji liniowej ma więc postać:
Evx = -82.43+176.18x
.
²0 ²1
Aby wyznaczyć np. 95 % przedział ufności dla i , odczytujemy z tablicy rozkładu t  Studenta
2 2
tn-2;Ä… / 2 = t6;0.025 Ã Ã1
wartość: = 2.447 i obliczamy Ć0 = 331.98 oraz = 99.88.
Ć
Korzystając z podanych wzorów, znajdujemy, \e:
²0
95% przedziałem ufności dla jest: [ -127.03 , -37.83 ],
²1
95% przedziałem ufności dla jest: [ 151.72 , 200.65 ],
EYx
95% przedziałem ufności dla wartości średniej w punkcie w punkcie x jest:
[-82.43+176.18x - 2.45Ä , -82.43+176.18x + 2.45Ä ]
Ćx Ćx ,
gdzie:
1 (x -1.79)2
2
Ä = [ + ]102.75 .
Ćx
8 1.0287
(xi , yi )
Na rysunku punkty oznaczajÄ… pary liczb , i=1,2, ...,8, podane w tablicy.
Wykreślona prosta jest prostą regresji z próby o równaniu:
Evx = -82.43+176.18x
,
EYx
a wykreślone krzywe określają górną i dolną granicę przedziału ufności dla wartości średniej w
punkcie x. Krzywe te są hiperbolami. Najkrótszy przedział ufności mamy dla x = X =1.79 .
Przykład:
Dane dotyczące inflacji w Polsce w pierwszych dziewięciu miesiącach 2002 roku przedstawiały się
następująco:
1 2 3 4 5 6 7 8 9
MiesiÄ…c
Inflacja (w %) y 1,8 2,7 3,6 4,0 4,7 5,5 6,2 5,9 6,9
Wyznaczyć prostą regresji z próby.
RozwiÄ…zanie:
AnalizÄ™ rozpoczniemy od wykonania wykresu rozrzutu. Wykresem rozrzutu nazywamy wykres
danych statystycznych w prostokątnym układzie współrzędnych.
Narysowanie wykresu rozrzutu jest wa\nym wstępnym krokiem przed rozpoczęciem formalnej
statystycznej analizy związku pomiędzy dwiema zmiennymi. Mo\na wstępnie ocenić czy model regresji
liniowej jest odpowiedni.
Na rysunku przedstawiony jest wykres rozrzutu dla danych z przykładu.
Obliczenia wykonamy korzystając z następującej tabeli:
1 1,8 1 3,24 1,8
2 2,7 4 7,29 5,4
3 3,6 9 12,96 10,8
4 4 16 16 16
5 4,7 25 22,09 23,5
6 5,5 36 30,25 33
7 6,2 49 38,44 43,4
8 5,9 64 34,81 47,2
9 6,9 81 47,61 62,1
45 41,3 285 212,69 243,2
Mamy:
Następnie wyznaczamy:
Estymator parametru
:
.
Estymator parametru
:
Prosta regresji z próby:
czyli:
Na rysunku przedstawiony jest wykres wyznaczonej prostej regresji:


Wyszukiwarka

Podobne podstrony:
rafajłowicz,Inżynierskie zastosowania statystyki, testowanie hipotez statystycznych
rafajłowicz,Inżynierskie zastosowania statystyki, estymacja podziałowa
Testy zgodnosci?
statys testy
2009 10 STATYSTYKA TESTY PARAMETRYCZNEid&682
Wyklad 7 Nieparametryczne metody statystyczne PL [tryb zgodności]
TESTY STATYSTYCZNE
Najczęściej wykorzystywane testy statystyczne II(6)
zadanie testy nieparametryczne
Testy nieparametryczne
nieparametryczne testy istotnosci
15 testy nieparametryczne
Wykład MSZ 2 Testy statystyczne
Przykładowe testy ze statystyki
wyklad 5 Testy parametryczne PL [tryb zgodności]
testy nieparametryczne

więcej podobnych podstron