cw 5 d, CZĘŚĆ 2


CZĘŚĆ 2

WEDŁUG NIEKTÓRYCH

PROSTE SPOSOBY STWIERDZENIA
ZALEŻNOŚCI KORELACYJNEJ - cz. 2

W przypadku obserwacji statystycznej dotyczącej dużej ilości zmiennych, operowanie wartościami szczegółowymi jest uciążliwe. W celu stwierdzenia istnienia lub braku związku korelacyjnego konstruuje się tablicę korelacyjną. Na skrzyżowaniu kolumn z wierszami wpisuje się liczebności jednostek zbiorowości statystycznej, u których zaobserwowano jednoczesne występowanie określonej wartości xi i yi.

Tablica korelacyjna dwu zmiennych

xi yj

y1

y2

...

yj

...

yr

0x01 graphic

x1

x2

.

.

.

xj

.

.

xk

n 11

n 21

.

.

.

n i1

.

.

n k1

n 12

n 22

.

.

.

n i2

.

.

n k2

n 1j

n 2j

.

.

.

n ij

.

.

n kj

n 1r

n 2r

.

.

.

n ir

.

.

n kr

n 1.

n 2.

.

.

.

n j.

.

.

n k.

0x01 graphic

n .1

n .2

n .j

n .r

n

Jak wynika z tablicy zmienna losowa x przyjmuje k wariantów (i=1,2,...,k), zaś zmienna losowa y przyjmuje r wariantów (j=1,2,...,r).

Symbol „n .j” oznacza liczbę jednostek, które mają wariant yj zmiennej Y, natomiast symbol ni. - liczbę jednostek, które mają wariant xi zmiennej X. Symbole nij oznaczają liczbę jednostek, które posiadają jednocześnie wariant xi cechy X i warianty yj cechy Y. Symbol n oznacza liczebność próby, przy czym:

0x01 graphic

Zamiast liczebności absolutnych nij można w tablicy korelacyjnej podawać częstości względne: 0x01 graphic
. Jeżeli zmienne X i Y są zmiennymi ciągłymi, to wartości xi i yj w tablicy korelacyjnej są środkami przedziałów klasowych.

W tablicy korelacyjnej zawarte są dwa rodzaje rozkładów: brzegowe i warunkowe. Rozkład brzegowy prezentuje strukturę wartości jednej zmiennej (x lub y) bez względu na kształtowanie się wartości drugiej zmiennej. Z tego wynika, że w tablicy korelacyjnej są dwa rozkłady brzegowe. Rozkład brzegowy zmiennej X tworzy pierwsza i ostatnia kolumna tablicy, natomiast rozkład brzegowy zmiennej Y - pierwszy i ostatni wiersz.

Rozkład warunkowy prezentuje strukturę wartości jednej zmiennej (x lub y) pod warunkiem, że druga zmienna przyjęła określoną wartość.

Rozkład warunkowy zmiennej x zapisujemy następująco: x/y = yj ;

Rozkład warunkowy zmiennej y zapisujemy następująco: y/x = xi .

Rozkładów warunkowych zmiennej x jest więc w tablicy tyle, ile wariantów zmiennej Y i na odwrót.

Rozkłady brzegowe i warunkowe mogą być scharakteryzowane pewnymi sumarycznymi wielkościami. Szczególnie użytecznymi miarami są średnia arytmetyczna i wariancja (lub odchylenie standardowe).

Średnie arytmetyczne z rozkładów brzegowych oblicza się następująco:

0x01 graphic
; 0x01 graphic

Średnie arytmetyczne rozkładów warunkowych oblicza się następująco:

0x01 graphic
; 0x01 graphic

Jeżeli ze wzrostem (spadkiem) konkretnych wartości jednej zmiennej obserwuje się wzrost (spadek) warunkowych średnich drugiej zmiennej, to fakt ten świadczy o istnieniu korelacji dodatniej między zmiennymi. Przeciwny kierunek tych zmian informuje o istnieniu korelacji ujemnej.

Na podstawie tablicy korelacyjnej można również stwierdzić, czy związek między zmiennymi X i Y jest liniowy.

Liniowość związku stwierdza się na podstawie różnicy między średnimi wariantami danej zmiennej, obliczonymi dla konkretnych wariantów drugiej zmiennej. Związek jest liniowy, jeżeli różnice między średnimi są takie same, tzn.:

0x01 graphic

Wariancje poszczególnych rozkładów cechy x oblicza się następująco:

0x01 graphic
(j = 1,2,…, r)

a wariancję ogólną:

0x01 graphic

Wariancje warunkowych rozkładów cechy Y przyjmują postać:

0x01 graphic
(i = 1,2, ..., k);

a wariancja ogólna:

0x01 graphic

Cecha X jest stochastycznie niezależna od cechy Y, jeżeli spełnione są jednocześnie następujące warunki:

0x01 graphic
i 0x01 graphic

Cecha Y jest stochastycznie niezależna od cechy X, jeżeli:

0x01 graphic
i 0x01 graphic

Niezależność korelacyjna - szczególny przypadek niezależności stochastycznej - definiuje się następująco:

Zmienna X jest korelacyjnie niezależna od zmiennej Y, jeżeli średnie warunkowe zmiennej X są równe 0x01 graphic
;

Zmienna Y jest korelacyjnie niezależna od zmiennej X, jeżeli średnie warunkowe zmiennej Y są równe 0x01 graphic
.

Analiza warunków niezależności cech - stochastycznej i korelacyjnej - potwierdza to, że cechy stochastycznie niezależne są równie niezależne korelacyjnie, ale nie na odwrót. Niezależność korelacyjna jest spełniona już wówczas, kiedy średnie warunkowe przyjmują jednakowe wartości. Przy czym należy pamiętać, że niezależność korelacyjna zmiennej X od Y nie oznacza, że jednocześnie występuje niezależność korelacyjna zmiennej Y od X.

Siłę, kierunek i kształt związku korelacyjnego można również stwierdzić wstępnie na podstawie oceny stopnia skupienia lub rozproszenia liczebności nij w tablicy korelacyjnej. Gdy warianty zmiennych X i Y są ułożone w tablicy korelującej rosnąco, to skupianie się liczebności wzdłuż przekątnej biegnącej od lewego górnego do prawego dolnego rogu tablicy świadczy o istnieniu korelacji dodatniej i prostoliniowej. Odwrotny układ liczebności (od prawego górnego do lewego dolnego rogu tablicy) sugeruje istnienie ujemnej korelacji prostoliniowej między badanymi zmiennymi. Skupianie się liczebności w inny sposób może świadczyć o istnieniu korelacji krzywoliniowej. Jeżeli zaś liczebności są rozrzucone chaotycznie po całym polu tablicy, to między zmiennymi nie zachodzi zależność korelacyjna.

TEST NIEZALEŻNOŚCI CHI - KWADRAT

Badanie współzależności ma sens jedynie wówczas, gdy pomiędzy zmiennymi występują powiązania typu stochastycznego lub co najmniej korelacyjnego. Badanie niezależności stochastycznej oparte na równości średnich warunkowych i wariancji warunkowych jest możliwe tylko w przypadku cech mierzalnych. W praktyce spotykamy się również z koniecznością oceny niezależności stochastycznej cech niemierzalnych - w takich przypadkach weryfikację hipotezy o niezależności zmiennych umożliwia test niezależności chi - kwadrat.

Załóżmy, że przedmiotem badania jest populacja generalna scharakteryzowana za pomocą dwóch jednakowych cech jakościowych. Z populacji tej wylosowano niezależnie dużą próbę o liczebności n elementów, a wyniki sklasyfikowano w tzw. tablicę niezależności o r wierszach i k kolumnach. Wnętrze tablicy niezależności stanowią liczebności nij tych elementów próby, dla których wartości obu badanych cech należą do kombinacji (i, j) i - tego wiersza i j-tej kolumny. Tablica taka jest podstawą do weryfikacji nieparametryczne hipotezy zerowej (H0) głoszącej, że n - elementowa próba losowa pochodzi z takiej zbiorowości generalnej, w której występuje niezależność stochastyczna zmiennych losowych x i y.

Do weryfikacji H0 o niezależności stochastycznej zmiennych wykorzystuje się wzór:

0x01 graphic

Statystyka ta ma - przy założeniu prawdziwości H0 - dla dużych prób asymptomatycznych rozkład 0x01 graphic
z (r-1)(k-1) stopniami swobody.

Liczebności teoretyczne 0x01 graphic
oblicza się ze wzoru 0x01 graphic
= (suma liczebności empirycznych i-tego wiersza x suma wartości empirycznych j-tej kolumny) : liczebność próby.

Obszar krytyczny (prawostronny) w rozważanym teście określa nierówność: 0x01 graphic
gdzie 0x01 graphic
jest wartością krytyczną odczytaną z tablicy rozkładu 0x01 graphic
dla ustalonego z góry poziomu istotności α (0,05 lub 0,01) i dla (k-1)(r-1) stopni swobody w taki sposób, aby zachodziła relacja: 0x01 graphic
.

W przypadku, gdy 0x01 graphic
, hipotezę zerową o stochastycznej niezależności zmiennych losowych odrzucamy. Natomiast jeżeli 0x01 graphic
, to nie ma podstaw do odrzucenia hipotezy zerowej o stochastycznej niezależności zmiennych losowych X i Y.

Jeżeli liczba stopni swobody przekracza 30, to w celu weryfikacji hipotezy zerowej o stochastycznej niezależności zmiennych losowych X i Y wykorzystujemy test:

0x01 graphic

Statystyka ta ma rozkład normalny, wartość krytyczną odczytujemy z tablicy dystrybuanty rozkładu normalnego N(0,1) dla dwustronnego obszaru krytycznego.

W przypadku tablicy o wymiarach 2x2 (tablica czteropolowa) do wyznaczania statystyki 0x01 graphic
można zastosować wzór:

0x01 graphic

Tablica czteropolowa

X Y

1

2

ni

1

2

A

C

B

D

A+B

C+D

n.j

A+C

B+D

n

Jeżeli w tablicy takiej przynajmniej jedna liczebność jest mniejsza niż 10, to do powyższego wzoru wprowadza się poprawkę Yatesa otrzymując:

0x01 graphic

Ćwiczenie 1.

Za Sobczyk str. 199 (wyd. z 1991 roku)

W 600 osobowej losowo dobranej grupie ludzi przeprowadzono badanie ankietowe mające na celu uzyskać odpowiedź na pytanie: „Czy istnieje zależność między wykształceniem telewidzów a rodzajem programu, który oglądają najchętniej?”. Wyniki przedstawiono w tablicy.

Wykształcenie

(X)

Rodzaj programu (Y)

Ogółem

Film

Teatr

Programy rozrywkowe

Programy publicystyczne

Podstawowe

Średnie

Wyższe

105

120

35

10

60

30

75

80

15

10

40

20

200

300

100

Ogółem

260

100

170

70

600

Za pomocą testu niezależności 0x01 graphic
zweryfikuj hipotezę o niezależności stochastycznej zmiennych X i Y. Przyjąć poziom istotności 0x01 graphic
.

Step 1.

Teoretyczne liczebności 0x01 graphic
otrzymujemy mnożąc sumę liczebności i-tego wiersza przez sumę liczebności j-tej kolumny i dzieląc iloczyn przez ogólną liczebność próby.

Obliczone liczebności 0x01 graphic
wynoszą:

0x01 graphic

Step 2.

Wykorzystując do obliczenia wartości0x01 graphic
otrzymujemy:

0x01 graphic

Step 3.

Dla poziomu istotności α = 0,05 i 6 stopni swobody [wszak (4-1)(3-1) = 6] wartość krytyczna 0x01 graphic
= 12,592.

Step 4.

0x01 graphic
co powoduje niechybnie, że:

tak jest drogie dzieci, hipotezę zerową - o niezależności zmiennych odrzucamy.

Morał z tego w tym sposobie: poziom wykształcenia ma związek z rodzajem oglądanych programów telewizyjnych. Jest to truizm, ale jak widać powyżej naukowo i matematycznie udowodniony.



Wyszukiwarka