Wykład 13


Wykład XIII
Badanie zależności pomiędzy
Badanie zależności pomiędzy
dwiema cechami
dwiema cechami
1
1. Badanie zależności dwóch cech
1. Badanie zależności dwóch cech
skategoryzowanych
skategoryzowanych
Załóżmy, że w populacji badamy dwie cechy X i Y, które
mają charakter jakościowy.
Przyjmijmy, że cecha X występuje w a kategoriach:
X1, X2, & , Xa ,
zaÅ› cecha Y w b kategoriach:
Y1, Y2, & , Yb .
2
Aączny rozkład cech
Y
X
Y1 Y2 ... Yj ... Yb Suma
X1 p11 p12 ... p1j ... p1b p1"
b
X2 p21 p22 ... p2j ... p2b p2"
pi" = pij
"
j=1
... ... ... ... ... ... ... ...
Xi pi1 pi2 ... pij ... Pib pi"
a
... ... ... ... ... ... ... p" j = pij
"
X pa1 pa2 ... paj ... pab pa"
i=1
a
Suma p" 1 p" 2 ... p" j ... p" b p" " =1
pij  prawdopodobieństwo, że cecha X należy do i-tej kategorii zaś cecha Y do j-tej
pi"  prawdopodobieństwo, że cecha X należy do i-tej kategorii (bez względu na
kategoriÄ™ cechy Y)
p" j  prawdopodobieństwo, że cecha Y należy do j-tej kategorii (bez względu na
kategoriÄ™ cechy X).
3
Niezależność cech
Przypomnijmy, że zdarzenia A i B są niezależne jeśli:
Prawdopodobieństwo
P(A )" B)= P(A)Å" P(B)
zdarzenia B
Prawdopodobieństwo
Prawdopodobieństwo
wspólnej części A i B
zdarzenia A
Cechy X i Y są niezależne jeśli:
dla wszystkich (i, j)
pij = pi" Å" p" j
P(Y=Yj)
P(X=Xi)
P(X=Xi;Y=Yj)
4
Tablica kontyngencji
Załóżmy, że z populacji wylosowano n elementów i dane
zebrano w następującej tablicy kontyngencji:
X Y
Y1 Y2 ... Yj ... Yb Suma
b
X1 f11 f12 ... f1j ... f1b f1"
fi" = fij
"
j=1
X2 f21 f22 ... f2j ... f2b f2"
a
... ... ... ... ... ... ... ...
f" j = fij
"
Xi fi1 fi2 ... fij ... fib fi"
i=1
... ... ... ... ... ... ...
a b
X fa1 fa2 ... faj ... fab fa"
a
n = f" " = fi" = f" j
" "
Suma f" 1 f" 2 ... f" j ... f" b n
i=1 j=1
5
Liczebności teoretyczne
Oceny prawdopodobieństw:
f" j
fij fi"
Ć
pi" =
Ć
p" j =
Ć
pij =
n
n
n
Liczebności teoretyczne:
Fij = n Å" pij
Przy niezależności cech X i Y mamy:
Fij = n Å" pij = nÅ" pi" Å" p" j
Zastępując prawdopodobieństwa ich ocenami mamy:
fi" f" j fi" Å" f" j
Fij = n Å" Å" =
n n n
6
Hipoteza zerowa i alternatywna
Hipoteza zerowa:
H0: Cechy X i Y są niezależne.
Hipoteza alternatywna:
H1: Cechy X i Y są zależne.
7
Funkcja testowa
Jeśli cechy X i Y są niezależne wówczas
Fij H" fij
Liczebności
Liczebności
empiryczne
teoretyczne
Jeśli n > 100 i wszystkie liczebności w tablicy kontyngencji
fij e" 5, wówczas do weryfikacji hipotezy zerowej służy
statystyka:
2
a b
(fij - Fij)
2
Ç0 = .
""
Fij
i=1 j=1
8
2
Ç0
Przy prawdziwości hipotezy zerowej, funkcja testowa
ma w przybliżeniu rozkład chi-kwadrat z v=(a-1)(b-1)
stopniami swobody.
Rozkład jest tym dokładniejszy, im większy jest rozmiar
próby n.
2
Ç0 obliczonÄ… na podstawie próby porównujemy z
Wartość
wartością krytyczną odczytaną z tablic rozkładu chi-kwadrat
dla zadanego poziomu istotności ą i v=(a-1)(b-1) stopni
swobody
9
Przykład: Badano czy istnieje zależność wystąpienia alergii w
zależności od rodzaju trzymanych w domu zwierząt. Zbadano
270 rodzin i uzyskano wyniki przedstawione w tabeli. Na
poziomie istotności ą=0,05 zweryfikować hipotezę o
niezależności wystąpienia alergii w zależności od rodzaju
trzymanych w domu zwierzÄ…t.
Rodzaj zwierzÄ…t
Alergia Suma
Koty Psy Inne
Nie 40 80 60 180
Tak 10 60 20 90
Suma 50 140 80 270
H0: Wystąpienie alergii nie zależy od rodzaju trzymanych zwierząt
10
H1: Wystąpienie alergii zależy od rodzaju trzymanych zwierząt
Liczymy teraz oczekiwane liczebności Fij :
50 Å"180 140Å"180 80Å"180
F11 = = 33,33 F12 = = 93,33 F13 = = 53,33
270 270 270
80Å"90
140Å"90
50 Å"90
F23 = = 26,67
F22 = = 46,67
F21 = = 16,67
270
270
270
Obliczone wartości możemy wpisać do powyższej tabeli:
Rodzaj zwierzÄ…t
Alergia Suma
Koty Psy Inne
Nie 40 80 60 180
33,33 93,33 53,33
Tak 10 60 20 90
16,67 46,67 26,67
Suma 50 140 80 270
2
ëÅ‚
fij - Fij öÅ‚
2 2 2
ìÅ‚ ÷Å‚
2 3
(40 - 33,33) (80 - 93,33) (60 - 53,33)
2 Å‚Å‚
Ç0 = = + +
""íÅ‚
Fij 33,33 93,33 93,33
i=1 j=1
2 2 2
(10 -16,67) (60 - 46,67) (20 - 26,67)
+ + + =12,21
11
16,67 46,67 26,67
Wartość krytyczna dla v=(a-1)(b-1)=2 stopni
swobody i dla poziomu istotności ą=0,05
Ç2 = 5,991
wynosi
2;0,05
Obszar krytyczny
Ä… = 0,05
2
2
Ç0 = 12,21
Ç0,05;2 = 5,991
Wniosek.
Wartość funkcji testowej znalazła się w obszarze krytycznym,
zatem hipotezę zerową należy odrzucić. Wystąpienie alergii
zależy od rodzaju zwierząt trzymanych w domu. 12
2. Analiza zależności dwóch cech ciągłych
Załóżmy, że na tych samych obiektach badamy dwie cechy
mierzalne X i Y.
Cel: Określenie zależności pomiędzy cechami X i Y
X Y
W wyniku przeprowadzonego
eksperymentu otrzymujemy próbę
x1 y1
składającą się z n par liczb :
x2 y2
(x1, y1) , (x2, y2), ... , (xn, yn).
& &
Zaobserwowane wyniki możemy xn yn
zapisać w tabelce:
13
Charakterystyki próby dwuwymiarowej:
Charakterystyki cechy X:
n
"x
i
i=1
średnia
x =
n
n n
ëÅ‚ öÅ‚
1 1
2
ìÅ‚
Sx = = xi2 - nx2 ÷Å‚
wariancja
"(x - x)2 "
i
÷Å‚
n -1 n -1ìÅ‚
i=1 íÅ‚ i=1 Å‚Å‚
Charakterystyki cechy Y:
n
yi
"
średnia
i=1
y =
n
n n
ëÅ‚ öÅ‚
1 1
2
ìÅ‚
Sy = = yi2 - ny2 ÷Å‚
wariancja
"(y - y)2 "
i
÷Å‚
n -1 n -1ìÅ‚
i=1 íÅ‚ i=1 Å‚Å‚
14
Charakterystyki dla dwóch cech X i Y
współczynnik kowariancji:
n n
ëÅ‚ öÅ‚
1
÷Å‚
Sxy = xi yi - nxy
"(x - x)(yi - y)= 1 ìÅ‚"
i
÷Å‚
n -1 n -1ìÅ‚
i=1 íÅ‚ i=1 Å‚Å‚
Interpretacja współczynnika kowariancji:
Wzrost jednej cechy powoduje
Sxy > 0 Ô! x Ä™! '" y Ä™! (" x “! '"y “!
wzrost drugiej cechy
Wzrost jednej cechy powoduje
Sxy < 0 Ô! x Ä™! '" y “! (" x “! '" y Ä™!
spadek drugiej cechy
Sxy = 0 Ô!
brak zależności pomiędzy cechami X i Y
Uwaga: Współczynnik kowariancji informuje nas jaki jest
rodzaj zależności pomiędzy cechami (dodatni czy ujemny) ale
nie znamy stopnia zależności pomiędzy cechami, tzn. nie
15
wiemy czy zależność jest silna czy słaba !
Współczynnik korelacji Pearsona
Sxy
(-1d" rxy d"1 )
rxy =
Wzór:
2 2
Sx Sy
Interpretacja współczynnika korelacji:
rxy > 0 Ô! x Ä™! '" y Ä™! (" x “! '"y “!
rxy < 0 Ô! x Ä™! '" y “! (" x “! '" y Ä™!
rxy E" 0 Ô!
brak zależności pomiędzy cechami X i Y
występuje silna zależność pomiędzy cechami
rxy E" 1 Ô!
Pamiętajmy, że:
2 2
-1 d" rxy d"1
Sx e" 0 Sy e" 0
16
Współczynnik regresji
1 n
n
(" xi yi - n Å" x Å" y)
xi yi - n Å" x Å" y
Sxy n -1 i=1
"
i=1
byx = = =
n
2
1 n
Sx
xi2 - n Å" x2
"
(" xi2 - n Å" x2)
i=1
i=1
n -1
Interpretacja współczynnika regresji:
byx > 0 Ô! x Ä™! '" y Ä™! (" x “! '" y “!
byx < 0 Ô! x Ä™! '" y “! (" x “! '" y Ä™!
byx = 0 Ô! Sxy = 0 Ô!
brak zależności pomiędzy cechami
byx ( )
byx < 0
informuje nas o ile wzrośnie ( )lub zmaleje
byx > 0
cecha Y jeżeli X wzrośnie o jedną jednostkę.
Uwaga: Współczynnik regresji porównuje cechy w sposób
ilościowy, informuje nas o ile zmieni się cecha Y jeżeli X
17
zmieni siÄ™ o jednÄ… jednostkÄ™ !
Równanie prostej regresji
Jeśli współczynnik korelacji jest wysoki (|rxy|@1) oraz
wiemy, że cecha x wpływa na cechę y, wówczas możemy
cechę y opisać cechą x za pomocą funkcji liniowej.
y = byxx + a
Równanie prostej regresji ma postać:
Sxy
byx = a = y - byxx
gdzie
2
Sx
Prostą regresji można też zapisać jako:
y - y = byx(x - x).
18
Przykład liczbowy:
Badano zależność zawartości cynku od głębokości.
Przeprowadzić analizę zależności w oparciu o następujące
wyniki:
Głębokość Cynk
(cm) (mg/kg) x2 y2 xy
4 29584 344
2 172
100 7744 880
10 88
1681 5184 2952
41 72
4900 5184 5040
70 72
4 18496 272
2 136
225 18496 2040
15 136
2704 6400 4160
52 80
10000 4096 6400
100 64
292 740
19618 95184 22088
19
Obliczenia
820
292
y = = 102,5
x = = 36,5
średnie:
8
8
n
ëÅ‚ öÅ‚
1 1
2
ìÅ‚
Sx = - n Å" x2 ÷Å‚ = (19618 -8Å"36,52)= 1280
"x2
÷Å‚
wariancje:
n -1ìÅ‚ i 7
íÅ‚ i=1 Å‚Å‚
n
ëÅ‚ öÅ‚
1 1
2
ìÅ‚
Sy = yi2 - n Å" y2 ÷Å‚ = (951844 - 8Å"102,52)E" 1590,57
"
÷Å‚
n -1ìÅ‚ 7
íÅ‚ i=1 Å‚Å‚
n
ëÅ‚ öÅ‚
1 1
ìÅ‚ ÷Å‚
Sxy = xi yi - n x y = (22088 -8Å"36,5Å"102,5)= -1120,29
kowariancja:
"
÷Å‚
n -1ìÅ‚ 7
íÅ‚ i=1 Å‚Å‚
współczynnik korelacji:
Sxy
-1120,29
rxy = = E" -0,79
2 2
1280Å"1590,57
Sx Å" Sy
współczynnik regresji:
Sxy -1120,29
byx = = E" -0,88
2
20
1280
Sx
Interpretacja uzyskanych wyników:
Ze wzrostem głębokości zawartość
Sxy = -1120,29 < 0
cynku maleje.
Interpretacja jest jak powyżej. Dodatkowo
rxy E" -0,79 < 0
współczynnik korelacji jest wysoki.
Wnioskujemy, że występuje silna zależność
liniowa pomiędzy głębokością a
zawartością cynku w glebie.
Ze wzrostem głębokości gleby o 1 cm,
byx E" -0,88
zawartość cynku maleje o 0,88 mg/kg
21
Wykres prostej regresji
200
180
160
140
y = -0,8752x + 134,45
120
100
80
60
40
20
0
0 20 40 60 80 100 120
22


Wyszukiwarka

Podobne podstrony:
Budownictwo Ogolne II zaoczne wyklad 13 ppoz
wykład 13 24 1 13
Wyklad 13 Elektryczność i magnetyzm Prąd elektryczny
WDP Wykład 13
wykład 13 i 14 stacjonarne
Wykład 13
Wykład 13
wykład 13 Równania Różniczkowe
Wyklad 13
PWiK Wykład 13
Chemia organiczna wykład 13
KPC Wykład (7) 13 11 2012
BHP Wyklad 13
Mechanika nieba wykład 13

więcej podobnych podstron