STATYSTYKA
Statystyczne metody analizy współzależności
a) Zależność funkcyjna
np. pole kwadratu S=a2
b) Zależność stochastyczna
Symbolem Y oznaczamy zmienną zależną (objaśnianą), zaś symbolem X zmienną niezależną (objaśniającą). Zależność stochastyczna występuje wtedy gdy wraz ze zmianą wartości jednej zmiennej zmienia się rozkład prawdopodobieństwa drugiej zmiennej.
Szczególnym przypadkiem zależności stochastycznej jest zależność korelacyjna (statystyczna). Polega ona na tym, że określonym wartościom jednej zmiennej odpowiadają ściśle określone wartości oczekiwane (średnie) drugiej zmiennej.
Badanie zależności korelacyjnej ma sens jedynie wtedy, gdy między zmiennymi istnieje więź przyczynowo-skutkowa, dająca się logicznie wytłumaczyć.
Wykres korelacyjny
Badanie niezależności zmiennych losowych
Tablica korelacyjna dwu zmiennych
xi\yj |
y1 |
y2 |
... |
yj |
... |
yr |
|
x1 |
n11 |
n12 |
... |
n1j |
... |
n1r |
n1. |
x2 |
n21 |
n22 |
... |
n2j |
... |
n2r |
n2. |
. |
. |
. |
... |
. |
... |
. |
. |
. |
. |
. |
... |
. |
... |
. |
. |
xi |
ni1 |
ni2 |
... |
nij |
... |
nir |
ni. |
. |
. |
. |
... |
. |
... |
. |
. |
. |
. |
. |
... |
. |
... |
. |
. |
xk |
nk1 |
nk2 |
... |
nkj |
... |
nkr |
nk. |
|
n.1 |
n.2 |
... |
n.j |
... |
n.r |
n |
Test niezależności chi-kwadrat
- „liczebność teoretyczna” (przy niezależności)
Jeżeli
- n jest duże,
- min(nij)>5,
to c2 ma asymptotycznie rozkład chi-kwadrat o (r-1)(k-1) stopniach swobody.
Hipotezę o niezależności zmiennych losowych odrzucamy gdy , gdzie jest kwantylem rzędu 1-a w rozkładzie chi-kwadrat o (r-1)(k-1) stopniach swobody (Tablice!).
Przykład
W 600-osobowej losowo dobranej grupie ludzi przeprowadzono badanie mające na celu odpowiedź na pytanie:
„Czy istnieje zależność między wykształceniem telewidzów a rodzajem programu, który najchętniej oglądają?”
Wyniki:
Wykształcenie |
Rodzaj programu |
|
|||
|
film |
teatr |
program rozrywkowy |
program publicystyczny |
Ogółem |
podstawowe |
105 |
10 |
75 |
10 |
200 |
średnie |
120 |
60 |
80 |
40 |
300 |
wyższe |
35 |
30 |
15 |
20 |
100 |
Ogółem |
260 |
100 |
170 |
70 |
600 |
Częstości teoretyczne
Wykształcenie |
Rodzaj programu |
|
|||
|
film |
teatr |
program rozrywkowy |
program publicystyczny |
Ogółem |
podstawowe |
86.7 |
33.3 |
56.7 |
23.3 |
200 |
średnie |
130 |
50 |
85 |
35 |
300 |
wyższe |
43.3 |
16.7 |
28.3 |
11.7 |
100 |
Ogółem |
260 |
100 |
170 |
70 |
600 |
Ponieważ mamy k=3 oraz r=4, to dla a=0.05 i hipotezę o niezależności odrzucamy.
Gdy spełniony jest dodatkowo warunek (r-1)(k-1)>30, to wyznaczamy wartość statystyki
Hipotezę o niezależności odrzucamy gdy , gdzie jest kwantylem rzędu 1-a/2 w standaryzowanym rozkładzie normalnym.
Tablica o wymiarze 2x2
X\Y |
1 |
2 |
ni. |
1 |
a |
b |
a+b |
2 |
c |
d |
c+d |
n.j |
a+c |
b+d |
a+b+c+d |
n=a+b+c+d
Jeżeli przynajmniej jedna z liczb a,b,c,d jest mniejsza od 10, to stosujemy wzór z tzw. poprawką Yatesa
Dla dużych n hipotezę o niezależności odrzucamy gdy .
Przykład
Przebadano wyposażenie 200 firm w sprzęt umożliwiający dostęp do Internetu. Firmy klasyfikowano wg miejsca ich siedziby. Uzyskano następujące wyniki:
|
Jest dostęp |
Nie ma dostępu |
Duże miasta |
90 |
60 |
Pozostałe |
25 |
25 |
Czy można uważać, że miejsce siedziby firmy ma wpływ na możliwość jej dostępu do Internetu? {kwantyl c1;0,95 = 3,84}
a=90, b=60, c=25, d=25, n=200
Tak więc nie ma podstaw do kwestionowania hipotezy o zależności dostępu do Internetu od miejsca siedziby firmy.
Miary zależności
a) Współczynnik zbieżności Czuprowa T
T=0 - niezależność, T=1 - zależność funkcyjna
100* - współczynnik determinacji Czuprowa, mówiący w ilu procentach zmienność zmiennej zależnej Y jest określona zmiennością zmiennej niezależnej X.
b) Współczynnik korelacji liniowej Pearsona
Obserwujemy n par liczb (xi,yi), i=1,2...,n.
Wyznaczamy oszacowanie kowariancji zmiennych losowych X i Y:
Wyznaczamy empiryczne odchylenia standardowe s(x) oraz s(y)
Interpretacja: r=0 - brak zależności liniowej; - dodatnia zależność liniowa; - ujemna zależność liniowa.
UWAGA
Zerowa wartość współczynnika korelacji liniowej Pearsona nie oznacza braku zależności pomiędzy zmiennymi losowymi. Mówimy w takim przypadku o braku korelacji pomiędzy badanymi zmiennymi losowymi.
Wnioskowanie statystyczne o współczynniku korelacji liniowej Pearsona
Zaobserwowana w próbce wartość r jest realizacją zmiennej losowej (statystyki) r. Dla dużych próbek (n>120) dwustronny przedział ufności na poziomie ufności b dla statystyki r dany jest zależnością:
gdzie y(1+b)/2 jest kwantylem rzędu (1+b)/2 w standaryzowanym rozkładzie normalnym.
Jeżeli zmienne losowe X oraz Y mają brzegowe rozkłady normalne to przedział ufności dla r możemy wyznaczyć już dla niewielkich liczności próbki i wynosi on
gdzie
Korzystając ze wzorów na przedziały ufności możemy weryfikować hipotezy statystyczne o współczynniku korelacji liniowej Pearsona.
Przykład: Obliczyć współczynniki korelacji dla danych giełdowych
WIG20 |
FORTE |
BRE |
1448.6 |
12.6 |
89 |
1451.8 |
13.2 |
91.5 |
1449.6 |
13 |
90 |
1451.8 |
13.4 |
91 |
1449.6 |
14.1 |
92 |
1489.3 |
14.2 |
92 |
1489.3 |
14.2 |
93 |
1537.9 |
14 |
95 |
1551.9 |
13.7 |
97 |
1554.4 |
13.3 |
97 |
X - WIG20 s(X)=42.54945
Y - FORTE s(Y)=0.52735
Z - BRE s(Z)=2.61964
Cov(XY)=7.2776 r(XY)=0.324
Cov(XZ)=105.615 r(XZ)=0.948
Wartości akcji spółki BRE są silnie liniowo skorelowane z wartościami indeksu WIG20. Wartości akcji spółki FORTE są słabo liniowo skorelowane z wartościami indeksu WIG20.
Test niezależności r-Spearmana
Mamy uporządkowane n wartości zmiennej losowej X
Numer kolejnej wartości elementu próby w ciągu uporządkowanym (powyżej: liczba w nawiasie) nazywamy rangą tego elementu.
Niech próba losowa ma postać: (X1,Y1), (X2,Y2),.......,(Xn,Yn)
Uporządkujmy wartości obu składowych (X oraz Y) uzyskując
ciągi rang: (R1,R2,.....,Rn) dla składowej X oraz (S1,S2,.....,Sn) dla składowej Y.
Statystykę:
nazywamy współczynnikiem korelacji rang Spearmana.
Inny zapis:
gdzie
Gdy zgodność rang jest idealna, r=1 i świadczy to o dodatniej korelacji pomiędzy dwiema cechami. Jeśli uporządkowania obu cech są dokładnie przeciwne mamy r=-1 i świadczy to o ujemnej korelacji pomiędzy dwiema cechami.
Gdy badane cechy są są nieskorelowane (również niezależne) rozkład statystyki r-Spearmana ma wartość oczekiwaną zero oraz odchylenie standardowe
Dla 8Łn<30 to rozkład statystyki
można aproksymować rozkładem t-Studenta o n-2 stopniach swobody. Dla nł30 rozkład statystyki r-Spearmana można aproksymować rozkładem normalnym .
Powyższe własności możemy wykorzystać do weryfikacji hipotezy o niezależności badanych cech X oraz Y.
Nie ma podstaw do kwestionowania hipotezy o niezależności gdy (dla 8Łn<30)
gdzie tn-2,1-a/2 jest kwantylem rzędu 1-a/2 w rozkładzie t-Studenta o n-2 stopniach swobody (Tablice)
lub gdy (dla nł30)
gdzie y1-a/2 jest kwantylem rzędu 1-a/2 w standaryzowanym rozkładzie normalnym. W przeciwnym przypadku hipotezę o niezależności odrzucamy.
Przykład
Określić współczynnik korelacji rangowej r-Spearmana pomiędzy notowaniami spółki FORTE oraz indeksem giełdowym WIG20. Na poziomie istotności a=0.05 sprawdzić hipotezę o wzajemnym nieskorelowaniu tych dwu wskaźników.
Dane:
WIG20 |
Ranga WIG |
FORTE |
Ranga FORTE |
1448.60 |
1 |
12.60 |
1 |
1451.85 |
5 |
13.20 |
3 |
1449.60 |
2 |
13.00 |
2 |
1451.80 |
4 |
13.40 |
5 |
1449.65 |
3 |
14.10 |
8 |
1489.30 |
6 |
14.25 |
10 |
1489.35 |
7 |
14.20 |
9 |
1537.90 |
8 |
14.00 |
7 |
1551.90 |
9 |
13.70 |
6 |
1554.40 |
10 |
13.30 |
4 |
Tak więc na poziomie istotności a=0.05 nie ma podstaw (!) do kwestionowania hipotezy o wzajemnym nieskorelowaniu tych dwu wskaźników.