Wykład XIII
Badanie zależności pomiędzy
Badanie zależności pomiędzy
dwiema cechami
dwiema cechami
1
1. Badanie zależności dwóch cech
1. Badanie zależności dwóch cech
skategoryzowanych
skategoryzowanych
Załóżmy, że w populacji badamy dwie cechy X i Y, które
mają charakter jakościowy.
Przyjmijmy, że cecha X występuje w a kategoriach:
X1, X2, & , Xa ,
zaÅ› cecha Y w b kategoriach:
Y1, Y2, & , Yb .
2
Aączny rozkład cech
Y
X
Y1 Y2 ... Yj ... Yb Suma
X1 p11 p12 ... p1j ... p1b p1"
b
X2 p21 p22 ... p2j ... p2b p2"
pi" = pij
"
j=1
... ... ... ... ... ... ... ...
Xi pi1 pi2 ... pij ... Pib pi"
a
... ... ... ... ... ... ... p" j = pij
"
X pa1 pa2 ... paj ... pab pa"
i=1
a
Suma p" 1 p" 2 ... p" j ... p" b p" " =1
pij prawdopodobieństwo, że cecha X należy do i-tej kategorii zaś cecha Y do j-tej
pi" prawdopodobieństwo, że cecha X należy do i-tej kategorii (bez względu na
kategoriÄ™ cechy Y)
p" j prawdopodobieństwo, że cecha Y należy do j-tej kategorii (bez względu na
kategoriÄ™ cechy X).
3
Niezależność cech
Przypomnijmy, że zdarzenia A i B są niezależne jeśli:
Prawdopodobieństwo
P(A )" B)= P(A)Å" P(B)
zdarzenia B
Prawdopodobieństwo
Prawdopodobieństwo
wspólnej części A i B
zdarzenia A
Cechy X i Y są niezależne jeśli:
dla wszystkich (i, j)
pij = pi" Å" p" j
P(Y=Yj)
P(X=Xi)
P(X=Xi;Y=Yj)
4
Tablica kontyngencji
Załóżmy, że z populacji wylosowano n elementów i dane
zebrano w następującej tablicy kontyngencji:
X Y
Y1 Y2 ... Yj ... Yb Suma
b
X1 f11 f12 ... f1j ... f1b f1"
fi" = fij
"
j=1
X2 f21 f22 ... f2j ... f2b f2"
a
... ... ... ... ... ... ... ...
f" j = fij
"
Xi fi1 fi2 ... fij ... fib fi"
i=1
... ... ... ... ... ... ...
a b
X fa1 fa2 ... faj ... fab fa"
a
n = f" " = fi" = f" j
" "
Suma f" 1 f" 2 ... f" j ... f" b n
i=1 j=1
5
Liczebności teoretyczne
Oceny prawdopodobieństw:
f" j
fij fi"
Ć
pi" =
Ć
p" j =
Ć
pij =
n
n
n
Liczebności teoretyczne:
Fij = n Å" pij
Przy niezależności cech X i Y mamy:
Fij = n Å" pij = nÅ" pi" Å" p" j
Zastępując prawdopodobieństwa ich ocenami mamy:
fi" f" j fi" Å" f" j
Fij = n Å" Å" =
n n n
6
Hipoteza zerowa i alternatywna
Hipoteza zerowa:
H0: Cechy X i Y są niezależne.
Hipoteza alternatywna:
H1: Cechy X i Y są zależne.
7
Funkcja testowa
Jeśli cechy X i Y są niezależne wówczas
Fij H" fij
Liczebności
Liczebności
empiryczne
teoretyczne
Jeśli n > 100 i wszystkie liczebności w tablicy kontyngencji
fij e" 5, wówczas do weryfikacji hipotezy zerowej służy
statystyka:
2
a b
(fij - Fij)
2
Ç0 = .
""
Fij
i=1 j=1
8
2
Ç0
Przy prawdziwości hipotezy zerowej, funkcja testowa
ma w przybliżeniu rozkład chi-kwadrat z v=(a-1)(b-1)
stopniami swobody.
Rozkład jest tym dokładniejszy, im większy jest rozmiar
próby n.
2
Ç0 obliczonÄ… na podstawie próby porównujemy z
Wartość
wartością krytyczną odczytaną z tablic rozkładu chi-kwadrat
dla zadanego poziomu istotności ą i v=(a-1)(b-1) stopni
swobody
9
Przykład: Badano czy istnieje zależność wystąpienia alergii w
zależności od rodzaju trzymanych w domu zwierząt. Zbadano
270 rodzin i uzyskano wyniki przedstawione w tabeli. Na
poziomie istotności ą=0,05 zweryfikować hipotezę o
niezależności wystąpienia alergii w zależności od rodzaju
trzymanych w domu zwierzÄ…t.
Rodzaj zwierzÄ…t
Alergia Suma
Koty Psy Inne
Nie 40 80 60 180
Tak 10 60 20 90
Suma 50 140 80 270
H0: Wystąpienie alergii nie zależy od rodzaju trzymanych zwierząt
10
H1: Wystąpienie alergii zależy od rodzaju trzymanych zwierząt
Liczymy teraz oczekiwane liczebności Fij :
50 Å"180 140Å"180 80Å"180
F11 = = 33,33 F12 = = 93,33 F13 = = 53,33
270 270 270
80Å"90
140Å"90
50 Å"90
F23 = = 26,67
F22 = = 46,67
F21 = = 16,67
270
270
270
Obliczone wartości możemy wpisać do powyższej tabeli:
Rodzaj zwierzÄ…t
Alergia Suma
Koty Psy Inne
Nie 40 80 60 180
33,33 93,33 53,33
Tak 10 60 20 90
16,67 46,67 26,67
Suma 50 140 80 270
2
ëÅ‚
fij - Fij öÅ‚
2 2 2
ìÅ‚ ÷Å‚
2 3
(40 - 33,33) (80 - 93,33) (60 - 53,33)
2 Å‚Å‚
Ç0 = = + +
""íÅ‚
Fij 33,33 93,33 93,33
i=1 j=1
2 2 2
(10 -16,67) (60 - 46,67) (20 - 26,67)
+ + + =12,21
11
16,67 46,67 26,67
Wartość krytyczna dla v=(a-1)(b-1)=2 stopni
swobody i dla poziomu istotności ą=0,05
Ç2 = 5,991
wynosi
2;0,05
Obszar krytyczny
Ä… = 0,05
2
2
Ç0 = 12,21
Ç0,05;2 = 5,991
Wniosek.
Wartość funkcji testowej znalazła się w obszarze krytycznym,
zatem hipotezę zerową należy odrzucić. Wystąpienie alergii
zależy od rodzaju zwierząt trzymanych w domu. 12
2. Analiza zależności dwóch cech ciągłych
Załóżmy, że na tych samych obiektach badamy dwie cechy
mierzalne X i Y.
Cel: Określenie zależności pomiędzy cechami X i Y
X Y
W wyniku przeprowadzonego
eksperymentu otrzymujemy próbę
x1 y1
składającą się z n par liczb :
x2 y2
(x1, y1) , (x2, y2), ... , (xn, yn).
& &
Zaobserwowane wyniki możemy xn yn
zapisać w tabelce:
13
Charakterystyki próby dwuwymiarowej:
Charakterystyki cechy X:
n
"x
i
i=1
średnia
x =
n
n n
ëÅ‚ öÅ‚
1 1
2
ìÅ‚
Sx = = xi2 - nx2 ÷Å‚
wariancja
"(x - x)2 "
i
÷Å‚
n -1 n -1ìÅ‚
i=1 íÅ‚ i=1 Å‚Å‚
Charakterystyki cechy Y:
n
yi
"
średnia
i=1
y =
n
n n
ëÅ‚ öÅ‚
1 1
2
ìÅ‚
Sy = = yi2 - ny2 ÷Å‚
wariancja
"(y - y)2 "
i
÷Å‚
n -1 n -1ìÅ‚
i=1 íÅ‚ i=1 Å‚Å‚
14
Charakterystyki dla dwóch cech X i Y
współczynnik kowariancji:
n n
ëÅ‚ öÅ‚
1
÷Å‚
Sxy = xi yi - nxy
"(x - x)(yi - y)= 1 ìÅ‚"
i
÷Å‚
n -1 n -1ìÅ‚
i=1 íÅ‚ i=1 Å‚Å‚
Interpretacja współczynnika kowariancji:
Wzrost jednej cechy powoduje
Sxy > 0 Ô! x Ä™! '" y Ä™! (" x “! '"y “!
wzrost drugiej cechy
Wzrost jednej cechy powoduje
Sxy < 0 Ô! x Ä™! '" y “! (" x “! '" y Ä™!
spadek drugiej cechy
Sxy = 0 Ô!
brak zależności pomiędzy cechami X i Y
Uwaga: Współczynnik kowariancji informuje nas jaki jest
rodzaj zależności pomiędzy cechami (dodatni czy ujemny) ale
nie znamy stopnia zależności pomiędzy cechami, tzn. nie
15
wiemy czy zależność jest silna czy słaba !
Współczynnik korelacji Pearsona
Sxy
(-1d" rxy d"1 )
rxy =
Wzór:
2 2
Sx Sy
Interpretacja współczynnika korelacji:
rxy > 0 Ô! x Ä™! '" y Ä™! (" x “! '"y “!
rxy < 0 Ô! x Ä™! '" y “! (" x “! '" y Ä™!
rxy E" 0 Ô!
brak zależności pomiędzy cechami X i Y
występuje silna zależność pomiędzy cechami
rxy E" 1 Ô!
Pamiętajmy, że:
2 2
-1 d" rxy d"1
Sx e" 0 Sy e" 0
16
Współczynnik regresji
1 n
n
(" xi yi - n Å" x Å" y)
xi yi - n Å" x Å" y
Sxy n -1 i=1
"
i=1
byx = = =
n
2
1 n
Sx
xi2 - n Å" x2
"
(" xi2 - n Å" x2)
i=1
i=1
n -1
Interpretacja współczynnika regresji:
byx > 0 Ô! x Ä™! '" y Ä™! (" x “! '" y “!
byx < 0 Ô! x Ä™! '" y “! (" x “! '" y Ä™!
byx = 0 Ô! Sxy = 0 Ô!
brak zależności pomiędzy cechami
byx ( )
byx < 0
informuje nas o ile wzrośnie ( )lub zmaleje
byx > 0
cecha Y jeżeli X wzrośnie o jedną jednostkę.
Uwaga: Współczynnik regresji porównuje cechy w sposób
ilościowy, informuje nas o ile zmieni się cecha Y jeżeli X
17
zmieni siÄ™ o jednÄ… jednostkÄ™ !
Równanie prostej regresji
Jeśli współczynnik korelacji jest wysoki (|rxy|@1) oraz
wiemy, że cecha x wpływa na cechę y, wówczas możemy
cechę y opisać cechą x za pomocą funkcji liniowej.
y = byxx + a
Równanie prostej regresji ma postać:
Sxy
byx = a = y - byxx
gdzie
2
Sx
Prostą regresji można też zapisać jako:
y - y = byx(x - x).
18
Przykład liczbowy:
Badano zależność zawartości cynku od głębokości.
Przeprowadzić analizę zależności w oparciu o następujące
wyniki:
Głębokość Cynk
(cm) (mg/kg) x2 y2 xy
4 29584 344
2 172
100 7744 880
10 88
1681 5184 2952
41 72
4900 5184 5040
70 72
4 18496 272
2 136
225 18496 2040
15 136
2704 6400 4160
52 80
10000 4096 6400
100 64
292 740
19618 95184 22088
19
Obliczenia
820
292
y = = 102,5
x = = 36,5
średnie:
8
8
n
ëÅ‚ öÅ‚
1 1
2
ìÅ‚
Sx = - n Å" x2 ÷Å‚ = (19618 -8Å"36,52)= 1280
"x2
÷Å‚
wariancje:
n -1ìÅ‚ i 7
íÅ‚ i=1 Å‚Å‚
n
ëÅ‚ öÅ‚
1 1
2
ìÅ‚
Sy = yi2 - n Å" y2 ÷Å‚ = (951844 - 8Å"102,52)E" 1590,57
"
÷Å‚
n -1ìÅ‚ 7
íÅ‚ i=1 Å‚Å‚
n
ëÅ‚ öÅ‚
1 1
ìÅ‚ ÷Å‚
Sxy = xi yi - n x y = (22088 -8Å"36,5Å"102,5)= -1120,29
kowariancja:
"
÷Å‚
n -1ìÅ‚ 7
íÅ‚ i=1 Å‚Å‚
współczynnik korelacji:
Sxy
-1120,29
rxy = = E" -0,79
2 2
1280Å"1590,57
Sx Å" Sy
współczynnik regresji:
Sxy -1120,29
byx = = E" -0,88
2
20
1280
Sx
Interpretacja uzyskanych wyników:
Ze wzrostem głębokości zawartość
Sxy = -1120,29 < 0
cynku maleje.
Interpretacja jest jak powyżej. Dodatkowo
rxy E" -0,79 < 0
współczynnik korelacji jest wysoki.
Wnioskujemy, że występuje silna zależność
liniowa pomiędzy głębokością a
zawartością cynku w glebie.
Ze wzrostem głębokości gleby o 1 cm,
byx E" -0,88
zawartość cynku maleje o 0,88 mg/kg
21
Wykres prostej regresji
200
180
160
140
y = -0,8752x + 134,45
120
100
80
60
40
20
0
0 20 40 60 80 100 120
22
Wyszukiwarka
Podobne podstrony:
Budownictwo Ogolne II zaoczne wyklad 13 ppozwykład 13 24 1 13Wyklad 13 Elektryczność i magnetyzm Prąd elektrycznyWDP Wykład 13wykład 13 i 14 stacjonarneWykład 13Wykład 13wykład 13 Równania RóżniczkoweWyklad 13PWiK Wykład 13Chemia organiczna wykład 13KPC Wykład (7) 13 11 2012BHP Wyklad 13Mechanika nieba wykład 13więcej podobnych podstron