Statystyka dzienne wyklad12, STATYSTYKA


STATYSTYKA

Statystyczne metody analizy współzależności

a) Zależność funkcyjna

np. pole kwadratu S=a2

b) Zależność stochastyczna

Symbolem Y oznaczamy zmienną zależną (objaśnianą), zaś symbolem X zmienną niezależną (objaśniającą). Zależność stochastyczna występuje wtedy gdy wraz ze zmianą wartości jednej zmiennej zmienia się rozkład prawdopodobieństwa drugiej zmiennej.

Szczególnym przypadkiem zależności stochastycznej jest zależność korelacyjna (statystyczna). Polega ona na tym, że określonym wartościom jednej zmiennej odpowiadają ściśle określone wartości oczekiwane (średnie) drugiej zmiennej.

Badanie zależności korelacyjnej ma sens jedynie wtedy, gdy między zmiennymi istnieje więź przyczynowo-skutkowa, dająca się logicznie wytłumaczyć.

Wykres korelacyjny

0x01 graphic

Badanie niezależności zmiennych losowych

Tablica korelacyjna dwu zmiennych

xi\yj

y1

y2

...

yj

...

yr

x1

n11

n12

...

n1j

...

n1r

n1.

x2

n21

n22

...

n2j

...

n2r

n2.

.

.

.

...

.

...

.

.

.

.

.

...

.

...

.

.

xi

ni1

ni2

...

nij

...

nir

ni.

.

.

.

...

.

...

.

.

.

.

.

...

.

...

.

.

xk

nk1

nk2

...

nkj

...

nkr

nk.

n.1

n.2

...

n.j

...

n.r

n

Test niezależności chi-kwadrat

- „liczebność teoretyczna” (przy niezależności)

Jeżeli

- n jest duże,

- min(nij)>5,

to c2 ma asymptotycznie rozkład chi-kwadrat o (r-1)(k-1) stopniach swobody.

Hipotezę o niezależności zmiennych losowych odrzucamy gdy , gdzie jest kwantylem rzędu 1-a w rozkładzie chi-kwadrat o (r-1)(k-1) stopniach swobody (Tablice!).

Przykład

W 600-osobowej losowo dobranej grupie ludzi przeprowadzono badanie mające na celu odpowiedź na pytanie:

„Czy istnieje zależność między wykształceniem telewidzów a rodzajem programu, który najchętniej oglądają?”

Wyniki:

Wykształcenie

Rodzaj programu

film

teatr

program rozrywkowy

program

publicystyczny

Ogółem

podstawowe

105

10

75

10

200

średnie

120

60

80

40

300

wyższe

35

30

15

20

100

Ogółem

260

100

170

70

600

Częstości teoretyczne

Wykształcenie

Rodzaj programu

film

teatr

program rozrywkowy

program

publicystyczny

Ogółem

podstawowe

86.7

33.3

56.7

23.3

200

średnie

130

50

85

35

300

wyższe

43.3

16.7

28.3

11.7

100

Ogółem

260

100

170

70

600

Ponieważ mamy k=3 oraz r=4, to dla a=0.05 i hipotezę o niezależności odrzucamy.

Gdy spełniony jest dodatkowo warunek (r-1)(k-1)>30, to wyznaczamy wartość statystyki

Hipotezę o niezależności odrzucamy gdy , gdzie jest kwantylem rzędu 1-a/2 w standaryzowanym rozkładzie normalnym.

Tablica o wymiarze 2x2

X\Y

1

2

ni.

1

a

b

a+b

2

c

d

c+d

n.j

a+c

b+d

a+b+c+d

n=a+b+c+d

Jeżeli przynajmniej jedna z liczb a,b,c,d jest mniejsza od 10, to stosujemy wzór z tzw. poprawką Yatesa

Dla dużych n hipotezę o niezależności odrzucamy gdy .

Przykład

Przebadano wyposażenie 200 firm w sprzęt umożliwiający dostęp do Internetu. Firmy klasyfikowano wg miejsca ich siedziby. Uzyskano następujące wyniki:

Jest dostęp

Nie ma dostępu

Duże miasta

90

60

Pozostałe

25

25

Czy można uważać, że miejsce siedziby firmy ma wpływ na możliwość jej dostępu do Internetu? {kwantyl c1;0,95 = 3,84}

a=90, b=60, c=25, d=25, n=200

Tak więc nie ma podstaw do kwestionowania hipotezy o zależności dostępu do Internetu od miejsca siedziby firmy.

Miary zależności

a) Współczynnik zbieżności Czuprowa T

T=0 - niezależność, T=1 - zależność funkcyjna

100* - współczynnik determinacji Czuprowa, mówiący w ilu procentach zmienność zmiennej zależnej Y jest określona zmiennością zmiennej niezależnej X.

b) Współczynnik korelacji liniowej Pearsona

Obserwujemy n par liczb (xi,yi), i=1,2...,n.

Wyznaczamy oszacowanie kowariancji zmiennych losowych X i Y:

Wyznaczamy empiryczne odchylenia standardowe s(x) oraz s(y)

Interpretacja: r=0 - brak zależności liniowej; - dodatnia zależność liniowa; - ujemna zależność liniowa.

UWAGA

Zerowa wartość współczynnika korelacji liniowej Pearsona nie oznacza braku zależności pomiędzy zmiennymi losowymi. Mówimy w takim przypadku o braku korelacji pomiędzy badanymi zmiennymi losowymi.

Wnioskowanie statystyczne o współczynniku korelacji liniowej Pearsona

Zaobserwowana w próbce wartość r jest realizacją zmiennej losowej (statystyki) r. Dla dużych próbek (n>120) dwustronny przedział ufności na poziomie ufności b dla statystyki r dany jest zależnością:

gdzie y(1+b)/2 jest kwantylem rzędu (1+b)/2 w standaryzowanym rozkładzie normalnym.

Jeżeli zmienne losowe X oraz Y mają brzegowe rozkłady normalne to przedział ufności dla r możemy wyznaczyć już dla niewielkich liczności próbki i wynosi on

gdzie

Korzystając ze wzorów na przedziały ufności możemy weryfikować hipotezy statystyczne o współczynniku korelacji liniowej Pearsona.

Przykład: Obliczyć współczynniki korelacji dla danych giełdowych

WIG20

FORTE

BRE

1448.6

12.6

89

1451.8

13.2

91.5

1449.6

13

90

1451.8

13.4

91

1449.6

14.1

92

1489.3

14.2

92

1489.3

14.2

93

1537.9

14

95

1551.9

13.7

97

1554.4

13.3

97

X - WIG20 s(X)=42.54945

Y - FORTE s(Y)=0.52735

Z - BRE s(Z)=2.61964

Cov(XY)=7.2776 r(XY)=0.324

Cov(XZ)=105.615 r(XZ)=0.948

Wartości akcji spółki BRE są silnie liniowo skorelowane z wartościami indeksu WIG20. Wartości akcji spółki FORTE są słabo liniowo skorelowane z wartościami indeksu WIG20.

Test niezależności r-Spearmana

Mamy uporządkowane n wartości zmiennej losowej X

Numer kolejnej wartości elementu próby w ciągu uporządkowanym (powyżej: liczba w nawiasie) nazywamy rangą tego elementu.

Niech próba losowa ma postać: (X1,Y1), (X2,Y2),.......,(Xn,Yn)

Uporządkujmy wartości obu składowych (X oraz Y) uzyskując

ciągi rang: (R1,R2,.....,Rn) dla składowej X oraz (S1,S2,.....,Sn) dla składowej Y.

Statystykę:

nazywamy współczynnikiem korelacji rang Spearmana.

Inny zapis:

gdzie

Gdy zgodność rang jest idealna, r=1 i świadczy to o dodatniej korelacji pomiędzy dwiema cechami. Jeśli uporządkowania obu cech są dokładnie przeciwne mamy r=-1 i świadczy to o ujemnej korelacji pomiędzy dwiema cechami.

Gdy badane cechy są są nieskorelowane (również niezależne) rozkład statystyki r-Spearmana ma wartość oczekiwaną zero oraz odchylenie standardowe

Dla 8Łn<30 to rozkład statystyki

można aproksymować rozkładem t-Studenta o n-2 stopniach swobody. Dla nł30 rozkład statystyki r-Spearmana można aproksymować rozkładem normalnym .

Powyższe własności możemy wykorzystać do weryfikacji hipotezy o niezależności badanych cech X oraz Y.

Nie ma podstaw do kwestionowania hipotezy o niezależności gdy (dla 8Łn<30)

gdzie tn-2,1-a/2 jest kwantylem rzędu 1-a/2 w rozkładzie t-Studenta o n-2 stopniach swobody (Tablice)

lub gdy (dla nł30)

gdzie y1-a/2 jest kwantylem rzędu 1-a/2 w standaryzowanym rozkładzie normalnym. W przeciwnym przypadku hipotezę o niezależności odrzucamy.

Przykład

Określić współczynnik korelacji rangowej r-Spearmana pomiędzy notowaniami spółki FORTE oraz indeksem giełdowym WIG20. Na poziomie istotności a=0.05 sprawdzić hipotezę o wzajemnym nieskorelowaniu tych dwu wskaźników.

Dane:

WIG20

Ranga WIG

FORTE

Ranga

FORTE

1448.60

1

12.60

1

1451.85

5

13.20

3

1449.60

2

13.00

2

1451.80

4

13.40

5

1449.65

3

14.10

8

1489.30

6

14.25

10

1489.35

7

14.20

9

1537.90

8

14.00

7

1551.90

9

13.70

6

1554.40

10

13.30

4

Tak więc na poziomie istotności a=0.05 nie ma podstaw (!) do kwestionowania hipotezy o wzajemnym nieskorelowaniu tych dwu wskaźników.



Wyszukiwarka