ANALIZA WSPÓAZALEśNOŚCI
ZJAWISK
Współautorką poni\szych
slajdów jest
dr Katarzyna Kocot-Górecka
ANALIZA WSPÓAZALEśNOŚCI ZJAWISK
" Zale\ność statystyczna między zmiennymi X oraz Y jest
to pewna relacja między tymi zmiennymi określona na
podstawie ich rozkładu łącznego.
" Badanie zale\ności statystycznych między zmiennymi X
i Y dostarcza odpowiedzi na pytania:
- czy występuje zale\ność (bądz
- czy występuje zale\ność (bądz
niezale\ność)
- jaka jest siła zale\ności
- jaki jest kierunek zale\ności (dodatni
ujemny)
- jaki jest kształt zale\ności?
Rodzaje zale\ności
Współzale\ność między zmiennymi mo\e być: - funkcyjna oraz
- stochastyczna.
" Zale\ność funkcyjna polega na tym, \e zmiana wartości jednej zmiennej
powoduje ściśle określoną zmianę wartości drugiej zmiennej (np. pole
kwadratu jest funkcją jego boku).
" Zale\ność stochastyczna występuje wtedy, gdy wraz ze zmianą jednej
zmiennej zmienia się rozkład warunkowy drugiej zmiennej. Innymi słowy
zmiennej zmienia się rozkład warunkowy drugiej zmiennej. Innymi słowy
wartościom jednej zmiennej przyporządkowane są ró\ne (niejednakowe)
wartości drugiej zmiennej.
" Szczególnym przypadkiem zale\ności stochastycznej jest zale\ność
korelacyjna, która polega na tym, \e wartościom jednej zmiennej
przyporządkowane są ró\ne średnie wartości drugiej zmiennej
Przykład
yródło: dane umowne
Szereg szczegółowy dwuwymiarowy
Lp
Xi Yi Parametry
1
X1 Y1
n n
1 1
y = y
x = xi
"
"
j
n
2
n
X2 Y2 j=1
i=1
3
X3 Y3
n n
2
1
s2 (x) = x2 - x )
s2 (x) = xi2 - x )
"(x - x)2 = -1("
"(x - x)2 = n 1 ("
i
n -1
&
& & i=1 i=1
&
& & n n
2
1
s2 (y) = y2 - y )
"(y - y)2 = n1 (" j
j
n -1 -1
n
j=1 j=1
Xn Yn
n
n
xi " j
" y
j=1
i=1
Dane pogrupowane w tablicy korelacyjnej
Liczba osób (yj)
1 2 3 4 5 Razem
Pow. u\.(xi)
30-50 3 4 3 2 - 12
30-50 3 4 3 2 - 12
50-70 - 1 3 2 3 9
70-90 - 1 1 1 2 5
90-110 - - - 3 1 4
Razem 3 6 7 8 6 30
DWUWYMIAROWY ROZKAAD EMPIRYCZNY
Odpowiednikiem szeregu rozdzielczego dla cechy jednowymiarowej
jest tablica korelacyjna o wymiarach k x l
dla cechy dwuwymiarowej
yj
l
"n = ni.
ij
y1 y2 . . . yl
j =1
xi
x1 n11 n12 . . . n1l n1.
x2 n21 n22 . . . n2l n2.
. . . . .
. . . . .
. . . . .
. . . . .
xk nk1 nk2 . . . nkl nk.
k
n.1 n.2 . . . n.l n
"n = n.
ij j
i=1
Rozkład brzegowy cechy Y
Rozkład brzegowy cechy X
Rozkład brzegowy cechy X
Rozkłady tablicy korelacyjnej
Tablica korelacyjna o wymiarach k x l zawiera:
" dwa rozkłady brzegowe (cechy X i cechy Y)
" k rozkładów warunkowych cechy Y (czyli rozkładów warunkowych cechy Y jest
tyle ile wariantów przyjęła cecha X)
" l rozkładów warunkowych cechy X (czyli rozkładów warunkowych cechy X jest
tyle ile wariantów przyjęła cecha Y)
" rozkład łączny cechy X i Y
" Rozkład brzegowy prezentuje wartości jednej zmiennej bez
względu na kształtowanie się wartości drugiej zmiennej
" Rozkład warunkowy prezentuje wartości jednej zmiennej pod
warunkiem, \e druga zmienna przyjęła określoną wartość
Parametry rozkładów brzegowych oraz warunkowych
Parametry rozkładów brzegowych
l
k
1
1
x = xi ni. y = y n. j
"
" j
n
n
i=1
j=1
l
k
1
1
2
s2 (y) =
s (x) = (xi - x)2 ni.
"(y - y)2 n. j
j
"
"
n -1
n -1
j=1
j=1
n - 1
n - 1
i=1
i=1
Parametry rozkładów warunkowych
k
l
1
1
x = xinij yi = y nij
j " "
j
ni .
n.
j=1
j i=1
k
l
1
1
2
s (x) =
j si 2 (y) =
j "(x - x )2 nij
i
"(y - y )2 nij
j j
n. -1
ni. -1
i=1
j=1
j
WARUNKI NIEZALEśNOŚCI KORELACYJNEJ
Cecha X jest niezależna korelacyjnie od cechy Y, jeżeli:
x = x = ... = x
1 2 l
Cecha Y jest niezależna korelacyjnie od cechy X, jeżeli :
y = y = ... = y
y = y = ... = y
1 2 k
Niezale\ność korelacyjna nie ma własności symetryczności
WARUNKI NIEZALEśNOŚCI STOCHASTYCZNEJ
Cecha X jest niezależna stochastycznie od cechy Y, jeżeli:
2 2 2
x = x = ... = x
s (x) = s (x) = ... = s (x)
1 2 l
1 2 l
Cecha Y jest niezależna stochastycznie od cechy X, jeżeli :
2 2 2
2 2 2
y = y = ... = y
y = y = ... = y
s (y) = s (y) = ... = s (y)
s (y) = s (y) = ... = s (y)
1 2 k
1 2 k
Niezale\ność korelacyjna nie ma własności symetryczności
Niezale\ność stochastyczna ma własność symetryczności
Je\eli między badanymi zmiennymi nie ma związku stochastycznego to i nie ma
równie\ związku korelacyjnego. Twierdzenie odwrotne nie jest prawdziwe.
Empiryczne krzywe regresji
Y Y
a) b)
X X
a) niezale\ność korelacyjna zmiennej X od Y b) niezale\ność korelacyjna zmiennej Y od X
Y Y
c) d)
X X
c) zale\ność korelacyjna dodatnia d) zale\ność korelacyjna ujemna
Parametr rozkładu dwuwymiarowego
KOWARIANCJA
" dla danych indywidualnych: C(xy)=15
" dla danych pogrupowanych w tablicy korelacyjnej: C(xy)=14,8
" Kowariancja to absolutna miara związku korelacyjnego.
" W oparciu o kowariancję mo\emy ju\ oceniać czy występuje
zale\ność korelacyjna (jej znak wskazuje na kierunek zale\ności)
" C(xy) = 0 brak związku korelacyjnego
" C(xy) > 1 związek istnieje (korelacja dodatnia)
" C(xy) < 1 związek istnieje (korelacja ujemna)
KOWARIANCJA
" dla danych indywidualnych
n n n n
1
C(XY) =
""(x - x)(yj - y) = n1 (""x yj - nxy)
i i
n -1 -1
i=1 j=1 i=1 j=1
" dla danych pogrupowanych w tablicy korelacyjnej
k l k l
1
C(XY) =
""(x - x)(yj - y)nij = n1 (""x yjnij -nxy)
i i
n -1 -1
i=1 j=1 i=1 j=1
KOWARIANCJA
Cxy = 0 brak związku korelacyjnego
Cxy > 1 związek istnieje (korelacja dodatnia)
Cxy < 1 związek istnieje (korelacja ujemna)
Cxy < 1 związek istnieje (korelacja ujemna)
-sx sy d" cxy d" sxsy
Współczynnik korelacji liniowej Pearsona
To miara stosunkowa będąca ilorazem kowariancji i
iloczynu odchyleń standardowych rozkładów
brzegowych
KARL PEARSON
(1857-1936)
C ( xy )
rxy = ryx =
S ( x ) S ( y )
n
(x - x)(y - y)
( - )( - )
( - )( - )
( - )( - )
i i
"
"
"
"
i=1
=
=
=
r =
=
=
=
n n
2 2
(x - x) " (y - y)
( - ) " ( - )
( - ) " ( - )
( - ) " ( - )
i i
" "
" "
" "
" "
i=1 i=1
= =
= =
= =
WSPÓACZYNNIK KORELACJI LINIOWEJ r
C(xy)
r =
S(x)S(y)
-1d" r d"1
Y Y Y
X X X
Korelacja dodatnia Korelacja Brak
negatywna korelacji
r < 0
r > 0 r = 0
Właściwości współczynnika korelacji liniowej
Pearsona
-1 d" r d" 1 przedział zmienności współczynnika korelacji liniowej
d" d"
d" d"
d" d"
KARL PEARSON
(1857-1936)
Ocenia SIA I KIERUNEK zale\ności
cxy = 0 r = 0 brak związku
cxy > 0 r > 0 związek istnieje (korelacja dodatnia)
cxy > 0 r > 0 związek istnieje (korelacja dodatnia)
cxy < 0 r < 0 związek istnieje (korelacja ujemna)
0-0,3 słaba korelacja
Siła |r| 0,3-0,6 umiarkowana korelacja
0,6-1 silna korelacja
Przykład: dane indywidualne: r=0,8
Współczynnik korelacji liniowej Pearsona
Jest symetryczny, czyli nie jest istotne, która cecha jest zmienną
zale\ną, a która zmienną niezale\ną (miara współzale\ności) rxy = ryx
Jest to dobra miara dla zale\ności liniowych
Mo\e być wyznaczony zarówno w oparciu o dane indywidualne (szereg
szczegółowy dwuwymiarowy) jak i w oparciu o dane pogrupowane
(tablica korelacyjna)
Stosowana tylko wtedy gdy obie cechy są cechami mierzalnymi !!!!!!
Często wykorzystywanym sposobem stwierdzenia czy istnieje zale\ność między
zmiennymi jest przedstawienie wartości zmiennych w układzie współrzędnym.
r = 1 r = 0.99 r = 0.80
r = -0.98 r = 0.16 brak liniowej
zale\ności
Wspólna zmienność wyjaśniona przez współczynnik korelacji
Podnosząc współczynnik korelacji do kwadratu, mo\emy dostać oszacowania wspólnej
wariancji (zmienności) obu zmiennych
r=0
r=0.5 >> r2=0,25 >> 25%
64% zmienności jednej
zmiennej
mo\e być wyjaśnione przez
zmienność wartości drugiej
r=-0.8 >> r2=0,64 >> 64%
zmiennej
Porównanie współczynników korelacji
" Czy korelacja r=0,4 jest dwa razy silniejsza od korelacji r=0,2?
r=0,4 >> r= 0,4 x 0,4 = 0,16; 16% wspólnej wariancji
r=0,2 >> r= 0,2 x 0,2 = 0,04; 4% wspólnej wariancji
" Korelacja 0,4 jest w rzeczywistości 4 razy silniejszym
związkiem
WERYFIKACJA HIPOTEZY O ZALEśNOŚCI KORELACYJNEJ LINIOWEJ W
POPULACJI GENERALNEJ
Zało\enie: rozkład zmiennej losowej X i Y w populacji generalnej jest normalny
Między zmiennymi X i Y w populacji generalnej NIE MA
H0: = 0
zale\ności korelacyjnej (związku liniowego)
& & . JEST zale\ność korelacyjna (związek liniowy)
H1: `" 0
H1: `" 0
Je\eli H0 jest prawdziwa, to statystyka o postaci:
r
t = n- 2,
1- r2
gdzie r jest współczynnikiem korelacji z próby, ma rozkład t-
Studenta o s=n-2 stopniach swobody.
Przy danym poziomie istotności ą ustalamy wartość krytyczną tą ,
której nie powinna przekraczać bezwzględna wartość statystyki t,
określając ją w taki sposób w rozkładzie t-Studenta, aby
zachodziła relacja:
P(t e" tą )= ą
Wartości zmiennej t spełniającej nierówność t e" tą są obszarem
krytycznym testu, tzn.:
= (- ";-tą ,s *" tą,s;+")
(
Je\eli próby uzyskamy taką wartość statystyki t, \e:
" t " to hipotezę zerową odrzucamy na rzecz hipotezy
alternatywnej,
" t " to stwierdzamy, \e nie ma podstaw do odrzucenia
H0.
KARL PEARSON
(1857-1936)
WERYFIKACJA HIPOTEZY O
NIEZALEśNOŚCI STOCHASTYCZNEJ CECH
X i Y W POPULACJI GENERALNEJ
X i Y W POPULACJI GENERALNEJ
TEST NIEZALEśNOŚCI
TEST NIEZALEśNOŚCI 2
Rodzaj programu (Y)
Wykształcenie
Ogółem
(X)
programy programy
film teatr
rozrywkowe publicystyczne
Podstawowe 105 10 75 10 200
Średnie 120 60 80 40 300
Wy\sze 35 30 15 20 100
Ogółem 260 100 170 70 600
TEST NIEZALEśNOŚCI
TEST NIEZALEśNOŚCI 2
stawiamy hipotezę zerową, \e zmienne losowe X i Y są (w populacji
generalnej) stochastycznie niezale\ne:
'"
H0 : ij pij = pi" p" j
wobec hipotezy alternatywnej, \e są stochastycznie zale\ne:
("
H : ij p `" p p
H : ij p `" p p
1 ij i " " j
1 ij i " " j
test
2
'"
'"
'"
'"
ł ł
ł ł
ł ł
ł ł
n - n
-
-
-
ij
ł ij ł
ł ł
ł ł
ł ł
k l
'"
'"
'"
'"
n " n
"
"
"
ł ł
łn = ł
ł ł
ł ł
i" " j
" "
" "
" "
2
ł łł
łł
ł łł
łł
=
=
=
ij
= ł ł
= ł ł
= ł ł
= ł ł
""
""ł
""
""ł
'"
'"
'"
'"
n
ł łł
ł łł
ł łł
ł łł
i=1 j=1
= =
= =
= =
n
ij
która przy zało\eniu prawdziwości hipotezy zerowej ma asymptotyczny
2
rozkład o (k-1) (l-1) stopniach swobody
2 2
ustalamy wartość krytyczną , której nie powinna przekraczać statystyka
ą
ą
ą
ą
określając ją w taki sposób w rozkładzie Chi-kwadrat, aby dla ustalonego poziomu
2 2
zachodziła relacja:
( e" )= ą
P( e" )= ą
( e" )= ą
( e" )= ą
ą
ą
ą
ą
2 2
wartości zmiennej spełniające nierówność są obszarem
wartości zmiennej spełniające nierówność są obszarem
e"
e"
e"
e"
e"
e"
e"
e"
ą
ą
ą
ą
ą
ą
ą
ą
krytycznym testu, tzn.:
2
= )# ;+ " )
= )# + " )
= )# + " )
= )# + " )
ą
ą
ą
ą
2
je\eli uzyskamy taką wartość statystyki , \e
2
" to hipotezę zerową odrzucamy na rzecz hipotezy alternatywnej,
2
" to stwierdzamy, \e nie ma podstaw do odrzucenia hipotezy zerowej.
TEST NIEZALEśNOŚCI
Przykład
Rodzaj programu (Y)
Wykształcenie
Ogółem
(X)
programy programy
film teatr
rozrywkowe publicystyczne
Podstawowe 105 10 75 10 200
104 12 74 10
Średnie 120 60 80 40 300
120 60 80 40
Wy\sze 35 30 15 20 100
34 30 14 22
Ogółem 260 100 170 70 600
258 102 168 72
yródło: dane umowne
TEST NIEZALEśNOŚCI
Wartości teoretyczne
'"
'"
'"
'"
n n
Rodzaj programu (Y)
ł ł
łn = ł
ł ł
ł ł
i" " j
" "
" "
" "
=
=
=
ij
ł ł
ł ł
ł ł
ł ł
Wykształcenie
Ogółem
n
ł łł
ł łł
ł łł
ł łł
(X)
programy programy
film teatr
rozrywkowe publicystyczne
Podstawowe 105 10 75 10 200
86=(200*258):600
Średnie 120 60 80 40 300
Wy\sze 35 30 15 20 100
Ogółem 260 100 170 70 600
258 102 168 72
TEST NIEZALEśNOŚCI
Wartości teoretyczne
'"
'"
'"
'"
n n
Rodzaj programu (Y)
ł ł
łn = ł
ł ł
ł ł
i" " j
" "
" "
" "
=
=
=
ij
ł ł
ł ł
ł ł
ł ł
Wykształcenie
Ogółem
n
ł łł
ł łł
ł łł
ł łł
(X)
programy programy
film teatr
rozrywkowe publicystyczne
86 34 56
Podstawowe 105 10 75 24 200
10
Średnie 120 60 80 40 300
84
129 51 36
Wy\sze 35 30 15 20 100
28
43 17 12
Ogółem 260 100 170 70 600
258 102 168 72
2
n
ij
'"
'"
'"
'"
ł ł
łn - n ł
ł ł
ł ł
-
-
-
ij
ł ij ł
ł ł
ł ł
ł ł
k l
2
ł łł
łł
ł łł
łł
Test:
=
=
=
=
""
""ł
""
""ł
'"
'"
'"
'"
i=1 j=1
= =
= =
= =
'"
'"
'"
'"
n
n n ij
ł ł
ł ł
ł ł
ł ł
i" " j
" "
" "
" "
n =
=
=
=
ij
ł ł
ł ł
ł ł
ł ł
n
ł łł
ł łł
ł łł
ł łł
= 62
2
'"
'"
'"
'"
łn - nij ł
ł ł
ł ł
ł ł
-
-
-
ł ij ł
ł ł
ł ł
ł ł
(104 - 86)2
-
-
-
ł łł
ł łł
ł łł
ł łł
3,77 =
=
=
=
'"
'"
'"
'"
86
n
ij
3,77 8,17 (10 - 24)2
-
-
-
8,17 =
=
=
=
24
2
n
ij
'"
'"
'"
'"
ł ł
łn - n ł
ł ł
ł ł
-
-
-
ij
ł ij ł
ł ł
ł ł
ł ł
k l
2
ł łł
łł
ł łł
łł
Test:
=
=
=
=
""
""ł
""
""ł
'"
'"
'"
'"
i=1 j=1
= =
= =
= =
'"
'"
'"
'"
n
n n ij
ł ł
ł ł
ł ł
ł ł
i" " j
" "
" "
" "
n =
=
=
=
ij
ł ł
ł ł
ł ł
ł ł
n
ł łł
ł łł
ł łł
ł łł
= 62
2
'"
'"
'"
'"
ł ł
ł ł
ł ł
ł ł
n - n
-
- ij
-
ł ij ł
ł ł
ł ł
ł ł
(104 - 86)2
-
-
-
ł łł
ł łł
ł łł
ł łł
3,77 =
=
=
=
'"
'"
'"
'"
86
n
ij
3,77 14,24 5,79 8,17 (10 - 24)2
-
-
-
8,17 =
=
=
=
0,63 1,59 0,19 0,44
24
1,88 9,94 7,00 8,33
Razem = 62
f()
2
P 2 e" ą = ą
( )
obl. = 62
2
2
0 12,592
0 12,592
2
2
ą
=0,05
v=(k-1) (l-1) =(3-1)(4-1)=6
2
= <12,592,+")
2 e" ą
Obl.
Istnieją statystyczne podstawy do odrzucenia H0 i przyjęcia H1.
Decyzję podjęto przy = 0,05
WSPÓACZYNNIK ZBIEśNOŚCI V-CRAMERA
2
gdzie: m = min (k, l)
V = ,
n(m -1)
Własności:
" jest symetryczny, tzn.:
Vxy = Vyx
" przyjmuje wartości z przedziału <0;1>,
- 0 - w przypadku stochastycznej niezale\ności dwóch cech ,
- 0 - w przypadku stochastycznej niezale\ności dwóch cech ,
- 1 - natomiast, w przypadku związku funkcyjnego ,
" nie wskazuje kierunku korelacji dwóch cech,
" mo\e być stosowany zarówno w przypadku cech mierzalnych, jak i niemierzalnych.
" liczony tylko dla tablicy korelacyjnej
Przykład:
Współczynnik zbie\ności V-Cramera = 0,23
Wojna o pilota
W pewnym mieście przeprowadzono badania dotyczące oglądalności
ulubionych programów telewizyjnych. W poni\szej tabeli zamieszczono
wyniki dla losowo wybranego mał\eństwa.
Rangi nadane Rangi nadane
przez mę\a r1i przez \onę r2i
yródło: dane umowne
Charles E.
Współczynnik korelacji rang Spearmana
Spearman
1863-1945
" uszeregowanie badanych jednostek według kryterium porządkującego,
" nadanie rang wszystkim badanym jednostkom, tzn. numerów miejsc
zajmowanych przez badane jednostki w ciągu uporządkowanych ze względu na
badane cechy
" obliczenie ró\nic pomiędzy rangami przyporządkowanymi poszczególnym
badanym jednostkom w obu ciągach
badanym jednostkom w obu ciągach
" obliczenie współczynnika korelacji rang:
n
2
6
i
"d
"
"
"
i=1
=
=
=
r = 1 -
= -
= -
= -
d
( - )
n(n2 - 1)
( - )
( - )
gdzie: ai , bi rangi nadane i-tej badanej jednostce w poszczególnych,
uporządkowanych ciągach: ! di = ai bi
Charles E.
Spearman
Współczynnik korelacji rang Spearmana
1863-1945
n
2
6
i
"d
"
"
"
i=1
=
=
=
r = 1 -
= -
= -
= -
d
( - )
n(n2 - 1)
( - )
( - )
Własności:
" umo\liwia ocenę zarówno siły jak i kierunku zale\ności pomiędzy
cechami niemierzalnymi
" przyjmuje wartości z przedziału <-1,1>
" jest miarą symetryczną
Wojna o pilota
yródło: dane umowne
6 "108
r = 1- = -0,93
7(72 -1)
Wyszukiwarka
Podobne podstrony:
WYKLAD 6 stud 13wyklad 3 STUDwyklad 4 STUDWykład 4 studwyklad 7 STUDwyklad 1 STUDwyklad 2 STUDWyklad 1 CIAGI 12 wer studWyklad 8?LKA OZNACZONA Biol wer studochr srod wyklad 1 biologia dla studBiomedyka Pedagog 1 Wykład 04 studWYKŁAD 3 el aut3 studJBZ Wyklad2 dla studPsychopatologia UW Wykład III RS cz II dla studWyklad ZMIENNA LOSOWA Biol 2012 wer studArchKomp CISC RISC Wyklad Gotowy PKos SKoz StudWyklad 6?LKA NIEOZNACZONA Biol wer studwięcej podobnych podstron