Analiza współzależności dwóch zmiennych
Analiza współzależności polega na badaniu zbiorowości z punktu widzenia wielu cech,
które często pozostają w pewnym związku. Przypadek dwóch zmiennych X i Y
Rodzaje zależności:
- Funkcyjna polega na tym, że zmiana wartości jednej zmiennej (X=x) powoduje ściśle
określoną zmianę wartości drugiej zmiennej (Y=y).
- Stochastyczna zależność między dwoma zmiennymi losowymi, polegająca na tym, że
wraz ze zmiana wartości jednej zmiennej (X=x) zmienia się rozkład
prawdopodobieństwa drugiej zmiennej P(Y=y) lub f(Y). Oznacza to, że wpływ jednej
zmiennej na drugą jest zależny od czynników przypadkowych wspólnie działających na
obie zmienne, a ponadto na każdą zmienna działają jeszcze inne, różne zespoły
czynników. Podstawą wnioskowania o zależności stochastycznej nie mogą być
pojedyncze fakty.
- Korelacyjna szczególny przypadek zależności stochastycznej; dotyczy cech z
których przynajmniej jedna jest mierzalna. Polega na tym, że zmianom wartości jednej
zmiennej (X=x) odpowiada zmiana wartości oczekiwanej rozkładu drugiej zmiennej
E(Y).
Interpretacja przyczynowa a zależności pozorne
1
Statystyka w7 M. Osińska
Pytanie: czy dwie zmienne losowe są zależne i w jakim stopniu?
Tablica korelacyjna cech X i Y
yj
y1 y2 yl ni"
...
xi
...
x1 n11 n12 n1l n1"
...
x2 n21 n22 n2l n2"
M M M M M M
...
xk nk1 nk 2 nkl nk "
n" j
... n
n" 1 n" 2 n" l
l k
"n = ni" (i = 1,2,...,k) ( j = 1,2,...,l)
"n = n" j
ij ij
j=1 i=1
k l k l
" "n = "n = "n = n
ij i" " j
i=1 j=1 i=1 j=1
Rozkłady brzegowe i warunkowe
2
Statystyka w7 M. Osińska
Test niezależności chi-kwadrat
Test niezależności chi-kwadrat umożliwia ocenę niezależności stochastycznej cech
niemierzalnych i mierzalnych.
Założenia modelu:
- przedmiotem badania jest populacja generalna scharakteryzowana za pomocą dwóch
cech (niekoniecznie mierzalnych),
- z populacji tej wylosowano dużą próbę o liczebności n elementów,
- wyniki sklasyfikowano w tablicę korelacyjną o k wierszach i l kolumnach, a jej wnętrze
stanowią liczebności nij tych elementów próby, dla których wartości badanych cech
należą do kombinacji i-tego wiersza i j-tej kolumny.
H0 : F(X,Y) = F(X) " F(Y) - cechy X i Y są niezależne,
H1 : F(X,Y) `" F(X) " F(Y) - cechy X i Y nie są niezależne.
Do weryfikacji hipotez wykorzystuje się statystykę:
2
^
# ś#
ś# nij - n ź#
ij
k l
2 #
=
""#
^
i=1 j =1
nij
3
Statystyka w7 M. Osińska
gdzie:
k liczba wierszy tablicy korelacyjnej;
l liczba kolumn tablicy korelacyjnej;
nij liczebności empiryczne rozkładów warunkowych;
^
n liczebności teoretyczne, które powinny wystąpić wtedy, gdyby badane cechy
ij
były niezależne:
^
n n
i " " j
n =
ij
n
Statystyka 2 ma rozkład 2 .
ą,(k-1)(l-1)
Warunki weryfikacji hipotez:
2 e" 2 odrzucamy hipotezę zerową H0 na rzecz alternatywnej H1, mówiącą o tym, że
ą
cechy X i Y nie są niezależne;
2 < 2 nie ma podstaw do odrzucenia hipotezy zerowej H0, mówiącej, że cechy X i Y są
ą
niezależne.
4
Statystyka w7 M. Osińska
Wartość statystyki 2 zależy od trzech czynników:
1) od natężenia (siły) związku badanych cech; im większe są różnice między
^
liczebnościami empirycznymi (nij) i teoretycznymi ( ), tym większa jest wartość
n
ij
statystyki chi-kwadrat, a tym samym większa siła zależności;
2) od wielkości próby, która zgodnie z wymogami tego testu powinna być duża;
3) od stopnia szczegółowości grupowania danych; żąda się, by liczebności empirycznych
w każdej kratce tablicy niezależności było co najmniej 8, a w każdym razie nie poniżej
5, stąd też zachodzi czasem konieczność łączenia niektórych wariantów kategorii
danej cechy w jedną.
Dla tablicy 2x2 zawierającej dane jakościowe (tablica asocjacji, kontyngencji):
Y Razem
tak nie
n(ad - bc)2
X
2 =
(a + b)(a + c)(b + d)(c + d)
tak a b a + b
nie c d c + d
Razem a + c b + d n
5
Statystyka w7 M. Osińska
Współczynnik zbieżności Czuprowa
Współczynnik zbieżności Czuprowa jest jedną z miar siły korelacji zmiennych losowych X i
Y. Jest określony wzorem:
2
Txy =Tyx =+
n (r -1)(k -1)
Własności współczynnika Czuprowa:
- przyjmuje wartości z przedziału [0, 1];
- gdy T = 0 zmienne są stochastycznie niezależne;
- gdy T = 1 występuje zależność funkcyjna;
- jest symetryczny nie jest istotne, która cecha jest zależna, a która niezależna;
- może być stosowany do mierzenia współzależności cech mierzalnych i niemierzalnych,
- nie wykazuje kierunku korelacji.
6
Statystyka w7 M. Osińska
2
Inne mierniki oparte na :
2
Współczynnik Yule a: = ,
n
ad - bc
dla tablicy 2x2: =
(a + b)(a + c)(b + d)(c + d)
2 2
Współczynnik kontyngencji C Pearsona: C = =
2 2
+ n +1
7
Statystyka w7 M. Osińska
Przykład
Badanie dotyczy 474 pacjentów, których przyjęcie w oddział chirurgii nastąpiło w okresie od 01 stycznia do 30
marca 2004 roku.
Czy liczba dni pobytu pacjenta w szpitalu (Y) zależy od wieku pacjenta (X)?
Wartości empiryczne i teoretyczne liczebności badanej grupy
LICZBA DNI
POBYTU
PONIŻEJ 8 8 I WICEJ OGÓAEM
WIEK
14 2
Poniżej 20 16
(8,1) (7,9)
53 16
Od 20 do39 69
(34,94) (34,06)
77 89
Od 40 do 59 166
(84,05) (81,95)
81 111
Od 60 do 79 192
(97,22) (94,78)
15 16
80 i więcej 31
(15,70) (15,30)
OGÓAEM 240 234 474
Hipoteza zerowa i alternatywna mają postać:
H0 : F(X,Y) = F(X) " F(Y),
H1 : F(X,Y) `" F(X) " F(Y).
8
Statystyka w7 M. Osińska
Do weryfikacji hipotez wykorzystuje się statystykę 2, której wyliczona wartość wynosi 2 = 34,357.
Z tablic rozkładu 2 dla poziomu istotności ą = 0,05 oraz (2 1)(5 1) = 4 stopni swobody odczytano wartość
krytyczną 2 = 9,4877.
ą
Ponieważ 2 = 34,357 > 2 = 9,4877, należy odrzucić hipotezę zerową H0 mówiącą o niezależności zmiennych
ą
X i Y. Oznacza to, że pomiędzy długością pobytu w szpitalu, a wiekiem pacjentów zachodzi zależność
stochastyczna.
Wartość współczynnika Czuprowa jest równa:
Txy = Tyx = 0,19
Oznacza to, że zależność korelacyjna pomiędzy wiekiem pacjenta, a ilością dni pobytu nie jest zbyt silna.
9
Statystyka w7 M. Osińska
Współczynnik korelacji liniowej Pearsona
n
r
"(x - x)(yi - y)
i
cov(xy)
i =1
rxy = =
n n
S(x)S(y)
r
"(x - x)2"(y - y)2
i i
i =1 i =1
gdzie:
n
r
"(x - x)(yi - y)
i
i=1
cov(xy) =
n
S(x), S(y) - odpowiednie odchylenia standardowe zmiennych X i Y.
Własności współczynnika korelacji Pearsona:
- przyjmuje wartości z przedziału [-1, 1];
- gdy rxy = 0 zmienne są stochastycznie niezależne;
- gdy rxy = 1 występuje zależność funkcyjna dodatnia, gdy rxy = -1 zależność funkcyjna
ujemna;
- jest symetryczny nie jest istotne, która cecha jest zależna, a która niezależna;
- może być stosowany do mierzenia współzależności cech mierzalnych,
- wykazuje kierunek korelacji.
10
Statystyka w7 M. Osińska
W analizie statystycznej zwykle przyjmuje się następującą, umowną skalę:
rXY = 0 lub bliskie zera - zmienne nie są skorelowane
0 <|rXY|<0,2 korelacja nikła
0,2 =<|rXY|<0,5 korelacja słaba
0,5 =<|rXY|<0,7 korelacja wysoka
0,7 =<|rXY|<0,9 korelacja bardzo wysoka
0,9 =<|rXY|<1 korelacja prawie pełna.
Współczynnik korelacji Pearsona wyliczamy wówczas, gdy obie zmienne są mierzalne i
mają rozkład zbliżony do normalnego, a zależność jest prostoliniowa.
Testowanie istotności współczynnika korelacji liniowej Pearsona
H0 : xy = 0
H1 : xy `" 0
11
Statystyka w7 M. Osińska
Test istotności
Duża próba:
rxy
z = n
2
1- rxy
Mała próba
rxy
t = n -1
2
1- rxy
12
Statystyka w7 M. Osińska
Przykład
Wyznaczyć współczynnik korelacji między dochodami (X) a wydatkami na żywność (Y), korzystając z
funkcji Excela: Pearson
Zależność wydatków od dochodów
200
180
160
140
120
100
80
60
40
20
0
0 100 200 300 400 500 600 700 800
13
Statystyka w7 M. Osińska
dochód
Żywność
pracowników
(y)
(x)
56,3 23,48
97,9 36,98
142,83 48,11
176,61 65,63
234,69 81,58
301,26 102,71
383,43 116,78
486,41 145,64
546,35 147,46
592,33 148,59
657,27 161,61
683,07 164,87
698,09 159,95
729,87 158,11
rxy = 0,97 - oznacza silną dodatnią zależność korelacyjną.
14
Statystyka w7 M. Osińska
Współczynnik korelacji rang Spearmana
(współczynnik korelacji kolejnościowej)
Służy do badania siły i kierunku liniowej zależności korelacyjnej dwóch zmiennych, jeżeli
- cechy są mierzalne, a próba mała,
- cechy są mierzalne ale ich rozkład odbiega od normalnego,
- cechy są jakościowe, ale istnieje możliwość ich uporządkowania
1. Obserwacje należy uporządkować według rosnącej lub malejącej kolejności jednej z
cech
2. Należy nadać rangi (czyli numery kolejne) poszczególnym obserwacjom
Współczynnik korelacji rang ma postać:
n
2
6
"d
i
i=1
rS = 1 -
n3 - n
X
di Yi
gdzie: oznaczają różnice między rangami odpowiadających sobie wartości cechy i
i
rS "[-1;1]
15
Statystyka w7 M. Osińska
Analiza regresji liniowej dwóch zmiennych
Analiza regresji
Pytanie: w jakim stopniu jedna zmienna (niezależna, objaśniająca) wpływa na kształtowanie
się drugiej zmiennej (zależnej, objaśnianej)?
Klasyczny model regresji liniowej
Y = E(Y | X )+
lub
Y = ą0 + ą1X +
gdzie:
E(Y | X ) = ą0 + ą1X = v składnik systematyczny
składnik losowy
Y zmienna objaśniana,
X zmienna objaśniająca,
ą0,ą1 - parametry funkcji regresji.
16
Statystyka w7 M. Osińska
Warunki
1. Zależność między Y a X jest funkcją liniową.
2. Wartości zmiennej X są nielosowe.
3. Składnik losowy jest zmienna losowa o wartości średniej równej 0 i stałej wariancji.
Brak zależności między wartościami składnika losowego dla poszczególnych
obserwacji.
Szacowanie parametrów funkcji regresji metoda najmniejszych kwadratów
n
n
)
min(a0,a1) = mina0 ,a1
"(y - (a0 + a1xi ))2
"(y - yi)2 mina0,a1
i
i
=
i=1 i=1
Zależność wydatków od dochodów
200
180
160
140
120
100
80
60
40
20
0
0 100 200 300 400 500 600 700 800
17
Statystyka w7 M. Osińska
Parametr estymator - ocena parametru
n
r r
"(x - x)(yi - y)
i
i=1
a1 =
n
"(x - x)2
i
i=1
a0 = y - a1x
Wykorzystując współczynnik korelacji liniowej Pearsona można także obliczyć
współczynnik regresji
S(y)
a1 = rxy
S(x)
18
Statystyka w7 M. Osińska
Błędy estymacji
1. reszty ei = yi - wi
2. standardowy błąd reszt
n
"e2
i
i=1
Se =
n - k
3. Błędy średnie ocen parametrów
Se2
S(a1) =
n
r
"(x - x)2
i
i =1
n
Se2 i
"x2
i =1
S(a0 )=
n
r
n
"(x - x)2
i
i =1
19
Statystyka w7 M. Osińska
Dopasowanie modelu regresji do danych empirycznych
1. współczynnik zmienności losowej
Se
Ve = 100
y
2. współczynniki determinacji i zbieżności
2
Współczynnik determinacji R2 oraz współczynnik zbieżności obliczane są z tzw.
równości wariancyjnej. Równość wariancyjna wyraża całkowitą zmienność zmiennej
objaśnianej, podzieloną na: zmienność wynikającą z oszacowanego modelu
2 2
ekonometrycznego S ( wi )oraz zmienność resztową S (ei ).
Równość wariancyjną można zapisać wzorem:
2 2 2
S (yi ) = S ( wi ) + S (ei ),
gdzie:
2
S ( yi )- estymator wariancji zmiennej objaśnianej,
2
S ( wi )- estymator wariancji wartości teoretycznych zmiennej objaśnianej,
2
S (ei )- estymator wariancji resztowej modelu.
20
Statystyka w7 M. Osińska
2
Dzieląc równanie obustronnie przez S (yi ) otrzymuje się następującą postać równości
wariancyjnej:
2 2
S (wi ) S (ei )
+ ,
1 =
2 2
S (yi ) S (yi )
2
stąd współczynnik determinacji R2 i współczynnik zbieżności wyznacza się według
wzorów:
2
S ( wi )
R2 = ,
2
S ( yi )
2
S (ei )
2
= .
2
S (yi )
Zachodzi zależność:
2
1 = R2 + .
21
Statystyka w7 M. Osińska
2
Podstawiając wzory na wariancje do wzorów na współczynniki R2 i otrzymujemy
odpowiednio:
N N
"(w - y)2 "(y - wi )2
i i
2
i=1 i=1
R2 = , = ,
N N
"(y - y)2 "(y - y)2
i i
i=1 i=1
2
R2, "[0,1],
2
ponadto w modelu z jedną zmienną objaśniającą zachodzi R2 = rxy .
Współczynnik zbieżności Ć2 oznacza, jaka część zmienności Y nie jest objaśniana przez
regresję liniową.
Współczynnik determinacji R2 oznacza, jaką część zmienności Y wyjaśnia regresja.
22
Statystyka w7 M. Osińska
Badanie istotności parametrów strukturalnych za pomocą testu t-Studenta
Badanie istotności parametrów strukturalnych modelu polega na weryfikacji hipotez
postaci:
H0 :ąk = 0 (parametr ąk nieistotnie różni się od zera, tj. zmienna objaśniająca X
k
statystycznie nieistotnie wpływa na zmienną objaśnianą Y)
H1 :ąk `" 0 (parametr ąk istotnie różni się od zera, tj. zmienna objaśniająca X istotnie
k
wpływa na zmienną objaśnianą Y )
gdzie: ąk - parametr strukturalny stojący przy badanej zmiennej X .
k
Weryfikacja powyższych hipotez przebiega w oparciu o statystykę t posiadającą, przy
założeniu prawdziwości hipotezy zerowej, rozkład t-Studenta (test dwustronny). Wartość
krytyczną testu tą ,n-k odczytuje się z tablic rozkładu przy ustalonym poziomie istotności ą
oraz n - k liczbie stopni swobody (gdzie k oznacza liczbę parametrów funkcji regresji).
Wartość statystyki z próby tai wyznacza się na podstawie wzoru:
ak
tak = ,
S(ak )
23
Statystyka w7 M. Osińska
gdzie:
ak - ocena parametruąk ,
S(ak ) - średni błąd oceny parametru ąk .
Jeżeli | tąk |< tą ,n-k nie ma podstaw do odrzucenia hipotezy zerowej, jeżeli natomiast
| tąk |e" tą ,n-k odrzucamy H0 na rzecz H1.
Przykład
Model zależności wydatków na żywność (Y) od dochodu (X) w gospodarstwach domowych pracowników z
wykorzystaniem funkcji Excela Narzędzia -Analiza danych - Regresja
Ogólna postać modelu:
yt = ą0 +ą1xt + t
w = 26,63 + 0,20 x
(15,4)
R2 = 0,95
Se = 11,69
95% całkowitej zmienności wielkości wydatków na żywność powodowana jest przez wahania wielkości
dochodów. Teoretyczne wielkości wydatków na żywność różnią się od jej zaobserwowanej wielkości o 11,69 zł.
Wzrost dochodu o 1 zł. powoduje wzrost wydatków na żywność o 20 groszy.
24
Statystyka w7 M. Osińska
Wydruk z arkusza Excel
PODSUMOWANIE - WYJŚCIE
Statystyki regresji
Wielokrotność R 0,975647
R kwadrat 0,951888
Dopasowany R kwadrat 0,947878
Błąd standardowy 11,69906
Obserwacje 14
ANALIZA WARIANCJI
df SS MS F Istotność F
Regresja 1 32494,61 32494,61 237,4155 2,86E-09
Resztkowy 12 1642,417 136,8681
Razem 13 34137,02
Współczynniki Błąd standardowy t Stat Wartość-p Dolne 95% Górne 95%
Przecięcie 26,63834 6,335199 4,204815 0,001221 12,83513 40,44155
Zmienna X 1 0,205406 0,013331 15,40829 2,86E-09 0,176361 0,234451
25
Statystyka w7 M. Osińska
Wyszukiwarka
Podobne podstrony:
Statystyka wyklad 4Statystyka wyklad4nowysdz statystyka wyklad 4Statystyka wykładyStatystyka wyklad5Statystyka wyklad 8Statystyka wyklad 3Statystyka wyklad 9Statystyka1st Wyklad2Statystyka wyklad 6Statystyka WykładyStatystyka1st Wyklad6 Regresja20151012 MichalTrzesiok Statystyka wyklad2 miary statystyczne handoutsdz statystyka wyklad 3Statystyka wykladyStatystyka wykładyStatystyka1st Wyklad1więcej podobnych podstron