wyklad 9 STUD


ANALIZA WSPÓAZALEśNOŚCI
ZJAWISK
Współautorką poni\szych
slajdów jest
dr Katarzyna Kocot-Górecka
ANALIZA WSPÓAZALEśNOŚCI ZJAWISK
" Zale\ność statystyczna między zmiennymi X oraz Y jest
to pewna relacja między tymi zmiennymi określona na
podstawie ich rozkładu łącznego.
" Badanie zale\ności statystycznych między zmiennymi X
i Y dostarcza odpowiedzi na pytania:
- czy występuje zale\ność (bądz
- czy występuje zale\ność (bądz
niezale\ność)
- jaka jest siła zale\ności
- jaki jest kierunek zale\ności (dodatni 
ujemny)
- jaki jest kształt zale\ności?
Rodzaje zale\ności
Współzale\ność między zmiennymi mo\e być: - funkcyjna oraz
- stochastyczna.
" Zale\ność funkcyjna polega na tym, \e zmiana wartości jednej zmiennej
powoduje ściśle określoną zmianę wartości drugiej zmiennej (np. pole
kwadratu jest funkcją jego boku).
" Zale\ność stochastyczna występuje wtedy, gdy wraz ze zmianą jednej
zmiennej zmienia się rozkład warunkowy drugiej zmiennej. Innymi słowy
zmiennej zmienia się rozkład warunkowy drugiej zmiennej. Innymi słowy
wartościom jednej zmiennej przyporządkowane są ró\ne (niejednakowe)
wartości drugiej zmiennej.
" Szczególnym przypadkiem zale\ności stochastycznej jest zale\ność
korelacyjna, która polega na tym, \e wartościom jednej zmiennej
przyporządkowane są ró\ne średnie wartości drugiej zmiennej
Przykład
yródło: dane umowne
Szereg szczegółowy dwuwymiarowy
Lp
Xi Yi Parametry
1
X1 Y1
n n
1 1
y = y
x = xi
"
"
j
n
2
n
X2 Y2 j=1
i=1
3
X3 Y3
n n
2
1
s2 (x) = x2 - x )
s2 (x) = xi2 - x )
"(x - x)2 = -1("
"(x - x)2 = n 1 ("
i
n -1
&
& & i=1 i=1
&
& & n n
2
1
s2 (y) = y2 - y )
"(y - y)2 = n1 (" j
j
n -1 -1
n
j=1 j=1
Xn Yn
n
n
xi " j
" y
j=1
i=1
Dane pogrupowane w tablicy korelacyjnej
Liczba osób (yj)
1 2 3 4 5 Razem
Pow. u\.(xi)
30-50 3 4 3 2 - 12
30-50 3 4 3 2 - 12
50-70 - 1 3 2 3 9
70-90 - 1 1 1 2 5
90-110 - - - 3 1 4
Razem 3 6 7 8 6 30
DWUWYMIAROWY ROZKAAD EMPIRYCZNY
Odpowiednikiem szeregu rozdzielczego dla cechy jednowymiarowej
jest tablica korelacyjna o wymiarach k x l
dla cechy dwuwymiarowej
yj
l
"n = ni.
ij
y1 y2 . . . yl
j =1
xi
x1 n11 n12 . . . n1l n1.
x2 n21 n22 . . . n2l n2.
. . . . .
. . . . .
. . . . .
. . . . .
xk nk1 nk2 . . . nkl nk.
k
n.1 n.2 . . . n.l n
"n = n.
ij j
i=1
Rozkład brzegowy cechy Y
Rozkład brzegowy cechy X
Rozkład brzegowy cechy X
Rozkłady tablicy korelacyjnej
Tablica korelacyjna o wymiarach k x l zawiera:
" dwa rozkłady brzegowe (cechy X i cechy Y)
" k rozkładów warunkowych cechy Y (czyli rozkładów warunkowych cechy Y jest
tyle ile wariantów przyjęła cecha X)
" l rozkładów warunkowych cechy X (czyli rozkładów warunkowych cechy X jest
tyle ile wariantów przyjęła cecha Y)
" rozkład łączny cechy X i Y
" Rozkład brzegowy prezentuje wartości jednej zmiennej bez
względu na kształtowanie się wartości drugiej zmiennej
" Rozkład warunkowy prezentuje wartości jednej zmiennej pod
warunkiem, \e druga zmienna przyjęła określoną wartość
Parametry rozkładów brzegowych oraz warunkowych
Parametry rozkładów brzegowych
l
k
1
1
x = xi ni. y = y n. j
"
" j
n
n
i=1
j=1
l
k
1
1
2
s2 (y) =
s (x) = (xi - x)2 ni.
"(y - y)2 n. j
j
"
"
n -1
n -1
j=1
j=1
n - 1
n - 1
i=1
i=1
Parametry rozkładów warunkowych
k
l
1
1
x = xinij yi = y nij
j " "
j
ni .
n.
j=1
j i=1
k
l
1
1
2
s (x) =
j si 2 (y) =
j "(x - x )2 nij
i
"(y - y )2 nij
j j
n. -1
ni. -1
i=1
j=1
j
WARUNKI NIEZALEśNOŚCI KORELACYJNEJ
Cecha X jest niezależna korelacyjnie od cechy Y, jeżeli:
x = x = ... = x
1 2 l
Cecha Y jest niezależna korelacyjnie od cechy X, jeżeli :
y = y = ... = y
y = y = ... = y
1 2 k
Niezale\ność korelacyjna nie ma własności symetryczności
WARUNKI NIEZALEśNOŚCI STOCHASTYCZNEJ
Cecha X jest niezależna stochastycznie od cechy Y, jeżeli:
2 2 2
x = x = ... = x
s (x) = s (x) = ... = s (x)
1 2 l
1 2 l
Cecha Y jest niezależna stochastycznie od cechy X, jeżeli :
2 2 2
2 2 2
y = y = ... = y
y = y = ... = y
s (y) = s (y) = ... = s (y)
s (y) = s (y) = ... = s (y)
1 2 k
1 2 k
Niezale\ność korelacyjna nie ma własności symetryczności
Niezale\ność stochastyczna ma własność symetryczności
Je\eli między badanymi zmiennymi nie ma związku stochastycznego to i nie ma
równie\ związku korelacyjnego. Twierdzenie odwrotne nie jest prawdziwe.
Empiryczne krzywe regresji
Y Y
a) b)
X X
a) niezale\ność korelacyjna zmiennej X od Y b) niezale\ność korelacyjna zmiennej Y od X
Y Y
c) d)
X X
c) zale\ność korelacyjna dodatnia d) zale\ność korelacyjna ujemna
Parametr rozkładu dwuwymiarowego 
KOWARIANCJA
" dla danych indywidualnych: C(xy)=15
" dla danych pogrupowanych w tablicy korelacyjnej: C(xy)=14,8
" Kowariancja to absolutna miara związku korelacyjnego.
" W oparciu o kowariancję mo\emy ju\ oceniać czy występuje
zale\ność korelacyjna (jej znak wskazuje na kierunek zale\ności)
" C(xy) = 0 brak związku korelacyjnego
" C(xy) > 1 związek istnieje (korelacja dodatnia)
" C(xy) < 1 związek istnieje (korelacja ujemna)
KOWARIANCJA
" dla danych indywidualnych
n n n n
1
C(XY) =
""(x - x)(yj - y) = n1 (""x yj - nxy)
i i
n -1 -1
i=1 j=1 i=1 j=1
" dla danych pogrupowanych w tablicy korelacyjnej
k l k l
1
C(XY) =
""(x - x)(yj - y)nij = n1 (""x yjnij -nxy)
i i
n -1 -1
i=1 j=1 i=1 j=1
KOWARIANCJA
Cxy = 0 brak związku korelacyjnego
Cxy > 1 związek istnieje (korelacja dodatnia)
Cxy < 1 związek istnieje (korelacja ujemna)
Cxy < 1 związek istnieje (korelacja ujemna)
-sx sy d" cxy d" sxsy
Współczynnik korelacji liniowej Pearsona
To miara stosunkowa będąca ilorazem kowariancji i
iloczynu odchyleń standardowych rozkładów
brzegowych
KARL PEARSON
(1857-1936)
C ( xy )
rxy = ryx =
S ( x ) S ( y )
n
(x - x)(y - y)
( - )( - )
( - )( - )
( - )( - )
i i
"
"
"
"
i=1
=
=
=
r =
=
=
=
n n
2 2
(x - x) " (y - y)
( - ) " ( - )
( - ) " ( - )
( - ) " ( - )
i i
" "
" "
" "
" "
i=1 i=1
= =
= =
= =
WSPÓACZYNNIK KORELACJI LINIOWEJ r
C(xy)
r =
S(x)S(y)
-1d" r d"1
Y Y Y
X X X
Korelacja dodatnia Korelacja Brak
negatywna korelacji
r < 0
r > 0 r = 0
Właściwości współczynnika korelacji liniowej
Pearsona
-1 d" r d" 1 przedział zmienności współczynnika korelacji liniowej
d" d"
d" d"
d" d"
KARL PEARSON
(1857-1936)
Ocenia SIA I KIERUNEK zale\ności
cxy = 0 r = 0 brak związku
cxy > 0 r > 0 związek istnieje (korelacja dodatnia)
cxy > 0 r > 0 związek istnieje (korelacja dodatnia)
cxy < 0 r < 0 związek istnieje (korelacja ujemna)
0-0,3 słaba korelacja
Siła |r| 0,3-0,6 umiarkowana korelacja
0,6-1 silna korelacja
Przykład: dane indywidualne: r=0,8
Współczynnik korelacji liniowej Pearsona
Jest symetryczny, czyli nie jest istotne, która cecha jest zmienną
zale\ną, a która zmienną niezale\ną (miara współzale\ności) rxy = ryx
Jest to dobra miara dla zale\ności liniowych
Mo\e być wyznaczony zarówno w oparciu o dane indywidualne (szereg
szczegółowy dwuwymiarowy) jak i w oparciu o dane pogrupowane
(tablica korelacyjna)
Stosowana tylko wtedy gdy obie cechy są cechami mierzalnymi !!!!!!
Często wykorzystywanym sposobem stwierdzenia czy istnieje zale\ność między
zmiennymi jest przedstawienie wartości zmiennych w układzie współrzędnym.
r = 1 r = 0.99 r = 0.80
r = -0.98 r = 0.16 brak liniowej
zale\ności
Wspólna zmienność wyjaśniona przez współczynnik korelacji
Podnosząc współczynnik korelacji do kwadratu, mo\emy dostać oszacowania wspólnej
wariancji (zmienności) obu zmiennych
r=0
r=0.5 >> r2=0,25 >> 25%
64% zmienności jednej
zmiennej
mo\e być wyjaśnione przez
zmienność wartości drugiej
r=-0.8 >> r2=0,64 >> 64%
zmiennej
Porównanie współczynników korelacji
" Czy korelacja r=0,4 jest dwa razy silniejsza od korelacji r=0,2?
r=0,4 >> r= 0,4 x 0,4 = 0,16; 16% wspólnej wariancji
r=0,2 >> r= 0,2 x 0,2 = 0,04; 4% wspólnej wariancji
" Korelacja 0,4 jest w rzeczywistości 4 razy silniejszym
związkiem
WERYFIKACJA HIPOTEZY O ZALEśNOŚCI KORELACYJNEJ LINIOWEJ W
POPULACJI GENERALNEJ
Zało\enie: rozkład zmiennej losowej X i Y w populacji generalnej jest normalny
Między zmiennymi X i Y w populacji generalnej NIE MA
H0: = 0
zale\ności korelacyjnej (związku liniowego)
& & . JEST zale\ność korelacyjna (związek liniowy)
H1: `" 0
H1: `" 0
Je\eli H0 jest prawdziwa, to statystyka o postaci:
r
t = n- 2,
1- r2
gdzie r jest współczynnikiem korelacji z próby, ma rozkład t-
Studenta o s=n-2 stopniach swobody.
Przy danym poziomie istotności ą ustalamy wartość krytyczną tą ,
której nie powinna przekraczać bezwzględna wartość statystyki t,
określając ją w taki sposób w rozkładzie t-Studenta, aby
zachodziła relacja:
P(t e" tą )= ą
Wartości zmiennej t spełniającej nierówność t e" tą są obszarem
krytycznym testu, tzn.:
 = (- ";-tą ,s *" tą,s;+")
(
Je\eli próby uzyskamy taką wartość statystyki t, \e:
" t "  to hipotezę zerową odrzucamy na rzecz hipotezy
alternatywnej,
" t " to stwierdzamy, \e nie ma podstaw do odrzucenia
H0.
KARL PEARSON
(1857-1936)
WERYFIKACJA HIPOTEZY O
NIEZALEśNOŚCI STOCHASTYCZNEJ CECH
X i Y W POPULACJI GENERALNEJ
X i Y W POPULACJI GENERALNEJ
TEST NIEZALEśNOŚCI 
TEST NIEZALEśNOŚCI 2
Rodzaj programu (Y)
Wykształcenie
Ogółem
(X)
programy programy
film teatr
rozrywkowe publicystyczne
Podstawowe 105 10 75 10 200
Średnie 120 60 80 40 300
Wy\sze 35 30 15 20 100
Ogółem 260 100 170 70 600
TEST NIEZALEśNOŚCI 
TEST NIEZALEśNOŚCI 2
stawiamy hipotezę zerową, \e zmienne losowe X i Y są (w populacji
generalnej) stochastycznie niezale\ne:
'"
H0 : ij pij = pi" p" j
wobec hipotezy alternatywnej, \e są stochastycznie zale\ne:
("
H : ij p `" p p
H : ij p `" p p
1 ij i " " j
1 ij i " " j
test
2
'"
'"
'"
'"
ł ł
ł ł
ł ł
ł ł
n - n
-
-
-
ij
ł ij ł
ł ł
ł ł
ł ł
k l
'"
'"
'"
'"
n " n
"
"
"
ł ł
łn = ł
ł ł
ł ł
i" " j
" "
" "
" "
2
ł łł
łł
ł łł
łł
=
=
=
ij
 = ł ł
 = ł ł
 = ł ł
 = ł ł
""
""ł
""
""ł
'"
'"
'"
'"
n
ł łł
ł łł
ł łł
ł łł
i=1 j=1
= =
= =
= =
n
ij
która przy zało\eniu prawdziwości hipotezy zerowej ma asymptotyczny
2
rozkład o (k-1) (l-1) stopniach swobody

2 2
ustalamy wartość krytyczną , której nie powinna przekraczać statystyka
ą 
ą


ą
ą
określając ją w taki sposób w rozkładzie Chi-kwadrat, aby dla ustalonego poziomu
2 2
zachodziła relacja:
( e"  )= ą
P( e"  )= ą
( e"  )= ą
( e"  )= ą
ą
ą
ą
ą
2 2
wartości zmiennej  spełniające nierówność są obszarem
wartości zmiennej  spełniające nierówność są obszarem
 e" 
 e" 
 e" 
 e" 
 e" 
 e" 
 e" 
 e" 
ą
ą
ą
ą
ą
ą
ą
ą
krytycznym testu, tzn.:
2
 = )#  ;+ " )
 = )#  + " )
 = )#  + " )
 = )#  + " )
ą
ą
ą
ą
2
je\eli uzyskamy taką wartość statystyki , \e

2

"  to hipotezę zerową odrzucamy na rzecz hipotezy alternatywnej,
2

"  to stwierdzamy, \e nie ma podstaw do odrzucenia hipotezy zerowej.
TEST NIEZALEśNOŚCI 
Przykład
Rodzaj programu (Y)
Wykształcenie
Ogółem
(X)
programy programy
film teatr
rozrywkowe publicystyczne
Podstawowe 105 10 75 10 200
104 12 74 10
Średnie 120 60 80 40 300
120 60 80 40
Wy\sze 35 30 15 20 100
34 30 14 22
Ogółem 260 100 170 70 600
258 102 168 72
yródło: dane umowne
TEST NIEZALEśNOŚCI 
Wartości teoretyczne
'"
'"
'"
'"
n n
Rodzaj programu (Y)
ł ł
łn = ł
ł ł
ł ł
i" " j
" "
" "
" "
=
=
=
ij
ł ł
ł ł
ł ł
ł ł
Wykształcenie
Ogółem
n
ł łł
ł łł
ł łł
ł łł
(X)
programy programy
film teatr
rozrywkowe publicystyczne
Podstawowe 105 10 75 10 200
86=(200*258):600
Średnie 120 60 80 40 300
Wy\sze 35 30 15 20 100
Ogółem 260 100 170 70 600
258 102 168 72
TEST NIEZALEśNOŚCI 
Wartości teoretyczne
'"
'"
'"
'"
n n
Rodzaj programu (Y)
ł ł
łn = ł
ł ł
ł ł
i" " j
" "
" "
" "
=
=
=
ij
ł ł
ł ł
ł ł
ł ł
Wykształcenie
Ogółem
n
ł łł
ł łł
ł łł
ł łł
(X)
programy programy
film teatr
rozrywkowe publicystyczne
86 34 56
Podstawowe 105 10 75 24 200
10
Średnie 120 60 80 40 300
84
129 51 36
Wy\sze 35 30 15 20 100
28
43 17 12
Ogółem 260 100 170 70 600
258 102 168 72
2
n
ij
'"
'"
'"
'"
ł ł
łn - n ł
ł ł
ł ł
-
-
-
ij
ł ij ł
ł ł
ł ł
ł ł
k l
2
ł łł
łł
ł łł
łł
Test:
 =
 =
 =
 =
""
""ł
""
""ł
'"
'"
'"
'"
i=1 j=1
= =
= =
= =
'"
'"
'"
'"
n
n n ij
ł ł
ł ł
ł ł
ł ł
i" " j
" "
" "
" "
n =
=
=
=
ij
ł ł
ł ł
ł ł
ł ł
n
ł łł
ł łł
ł łł
ł łł
 = 62
2
'"
'"
'"
'"
łn - nij ł
ł ł
ł ł
ł ł
-
-
-
ł ij ł
ł ł
ł ł
ł ł
(104 - 86)2
-
-
-
ł łł
ł łł
ł łł
ł łł
3,77 =
=
=
=
'"
'"
'"
'"
86
n
ij
3,77 8,17 (10 - 24)2
-
-
-
8,17 =
=
=
=
24
2
n
ij
'"
'"
'"
'"
ł ł
łn - n ł
ł ł
ł ł
-
-
-
ij
ł ij ł
ł ł
ł ł
ł ł
k l
2
ł łł
łł
ł łł
łł
Test:
 =
 =
 =
 =
""
""ł
""
""ł
'"
'"
'"
'"
i=1 j=1
= =
= =
= =
'"
'"
'"
'"
n
n n ij
ł ł
ł ł
ł ł
ł ł
i" " j
" "
" "
" "
n =
=
=
=
ij
ł ł
ł ł
ł ł
ł ł
n
ł łł
ł łł
ł łł
ł łł
 = 62
2
'"
'"
'"
'"
ł ł
ł ł
ł ł
ł ł
n - n
-
- ij
-
ł ij ł
ł ł
ł ł
ł ł
(104 - 86)2
-
-
-
ł łł
ł łł
ł łł
ł łł
3,77 =
=
=
=
'"
'"
'"
'"
86
n
ij
3,77 14,24 5,79 8,17 (10 - 24)2
-
-
-
8,17 =
=
=
=
0,63 1,59 0,19 0,44
24
1,88 9,94 7,00 8,33
Razem = 62
f()
2
P 2 e" ą = ą
( )
obl. = 62
2
2
0 12,592
0 12,592
2
2
ą
=0,05
v=(k-1) (l-1) =(3-1)(4-1)=6
2
 = <12,592,+")
2 e" ą
Obl.
Istnieją statystyczne podstawy do odrzucenia H0 i przyjęcia H1.
Decyzję podjęto przy = 0,05
WSPÓACZYNNIK ZBIEśNOŚCI V-CRAMERA
2

gdzie: m = min (k, l)
V = ,
n(m -1)
Własności:
" jest symetryczny, tzn.:
Vxy = Vyx
" przyjmuje wartości z przedziału <0;1>,
- 0 - w przypadku stochastycznej niezale\ności dwóch cech ,
- 0 - w przypadku stochastycznej niezale\ności dwóch cech ,
- 1 - natomiast, w przypadku związku funkcyjnego ,
" nie wskazuje kierunku korelacji dwóch cech,
" mo\e być stosowany zarówno w przypadku cech mierzalnych, jak i niemierzalnych.
" liczony tylko dla tablicy korelacyjnej
Przykład:
Współczynnik zbie\ności V-Cramera = 0,23
Wojna o  pilota
W pewnym mieście przeprowadzono badania dotyczące oglądalności
ulubionych programów telewizyjnych. W poni\szej tabeli zamieszczono
wyniki dla losowo wybranego mał\eństwa.
Rangi nadane Rangi nadane
przez mę\a r1i przez \onę r2i
yródło: dane umowne
Charles E.
Współczynnik korelacji rang Spearmana
Spearman
1863-1945
" uszeregowanie badanych jednostek według kryterium porządkującego,
" nadanie rang wszystkim badanym jednostkom, tzn. numerów miejsc
zajmowanych przez badane jednostki w ciągu uporządkowanych ze względu na
badane cechy
" obliczenie ró\nic pomiędzy rangami przyporządkowanymi poszczególnym
badanym jednostkom w obu ciągach
badanym jednostkom w obu ciągach
" obliczenie współczynnika korelacji rang:
n
2
6
i
"d
"
"
"
i=1
=
=
=
r = 1 -
= -
= -
= -
d
( - )
n(n2 - 1)
( - )
( - )
gdzie: ai , bi  rangi nadane i-tej badanej jednostce w poszczególnych,
uporządkowanych ciągach: ! di = ai  bi
Charles E.
Spearman
Współczynnik korelacji rang Spearmana
1863-1945
n
2
6
i
"d
"
"
"
i=1
=
=
=
r = 1 -
= -
= -
= -
d
( - )
n(n2 - 1)
( - )
( - )
Własności:
" umo\liwia ocenę zarówno siły jak i kierunku zale\ności pomiędzy
cechami niemierzalnymi
" przyjmuje wartości z przedziału <-1,1>
" jest miarą symetryczną
Wojna o  pilota
yródło: dane umowne
6 "108
r = 1- = -0,93
7(72 -1)


Wyszukiwarka

Podobne podstrony:
WYKLAD 6 stud 13
wyklad 3 STUD
wyklad 4 STUD
Wykład 4 stud
wyklad 7 STUD
wyklad 1 STUD
wyklad 2 STUD
Wyklad 1 CIAGI 12 wer stud
Wyklad 8?LKA OZNACZONA Biol wer stud
ochr srod wyklad 1 biologia dla stud
Biomedyka Pedagog 1 Wykład 04 stud
WYKŁAD 3 el aut3 stud
JBZ Wyklad2 dla stud
Psychopatologia UW Wykład III RS cz II dla stud
Wyklad ZMIENNA LOSOWA Biol 2012 wer stud
ArchKomp CISC RISC Wyklad Gotowy PKos SKoz Stud
Wyklad 6?LKA NIEOZNACZONA Biol wer stud

więcej podobnych podstron