SPOSOBY STWIERDZENIA ZALEŻNOŚCI KORELACYJNEJ
W przypadku obserwacji statystycznej dotyczącej dużej ilości zmiennych, operowanie wartościami szczegółowymi jest uciążliwe. W celu stwierdzenia istnienia lub braku związku korelacyjnego konstruuje się tablicę korelacyjną. Na skrzyżowaniu kolumn z wierszami wpisuje się liczebności jednostek zbiorowości statystycznej, u których zaobserwowano jednoczesne występowanie określonej wartości xi i yi.
Tablica korelacyjna dwu zmiennych
xi yj |
y1 |
y2 |
... |
yj |
... |
yr |
|
x1 x2 . . . xj . . xk |
n 11 n 21 . . . n i1 . . n k1 |
n 12 n 22 . . . n i2 . . n k2 |
… … … … … … … … … |
n 1j n 2j . . . n ij . . n kj |
… … … … … … … … … |
n 1r n 2r . . . n ir . . n kr |
n 1. n 2. . . . n j. . . n k. |
|
n .1 |
n .2 |
… |
n .j |
… |
n .r |
n |
Jak wynika z tablicy zmienna losowa x przyjmuje k wariantów (i=1,2,...,k), zaś zmienna losowa y przyjmuje r wariantów (j=1,2,...,r).
Symbol „n .j” oznacza liczbę jednostek, które mają wariant yj zmiennej Y, natomiast symbol ni. - liczbę jednostek, które mają wariant xi zmiennej X. Symbole nij oznaczają liczbę jednostek, które posiadają jednocześnie wariant xi cechy X i warianty yj cechy Y. Symbol n oznacza liczebność próby, przy czym:
Zamiast liczebności absolutnych nij można w tablicy korelacyjnej podawać częstości względne:
. Jeżeli zmienne X i Y są zmiennymi ciągłymi, to wartości xi i yj w tablicy korelacyjnej są środkami przedziałów klasowych.
W tablicy korelacyjnej zawarte są dwa rodzaje rozkładów: brzegowe i warunkowe. Rozkład brzegowy prezentuje strukturę wartości jednej zmiennej (x lub y) bez względu na kształtowanie się wartości drugiej zmiennej. Z tego wynika, że w tablicy korelacyjnej są dwa rozkłady brzegowe. Rozkład brzegowy zmiennej X tworzy pierwsza i ostatnia kolumna tablicy, natomiast rozkład brzegowy zmiennej Y - pierwszy i ostatni wiersz.
Rozkład warunkowy prezentuje strukturę wartości jednej zmiennej (x lub y) pod warunkiem, że druga zmienna przyjęła określoną wartość.
Rozkład warunkowy zmiennej x zapisujemy następująco: x/y = yj ;
Rozkład warunkowy zmiennej y zapisujemy następująco: y/x = xi .
Rozkładów warunkowych zmiennej x jest więc w tablicy tyle, ile wariantów zmiennej Y i na odwrót.
Rozkłady brzegowe i warunkowe mogą być scharakteryzowane pewnymi sumarycznymi wielkościami. Szczególnie użytecznymi miarami są średnia arytmetyczna i wariancja (lub odchylenie standardowe).
Średnie arytmetyczne z rozkładów brzegowych oblicza się następująco:
;
Średnie arytmetyczne rozkładów warunkowych oblicza się następująco:
;
Jeżeli ze wzrostem (spadkiem) konkretnych wartości jednej zmiennej obserwuje się wzrost (spadek) warunkowych średnich drugiej zmiennej, to fakt ten świadczy o istnieniu korelacji dodatniej między zmiennymi. Przeciwny kierunek tych zmian informuje o istnieniu korelacji ujemnej.
Na podstawie tablicy korelacyjnej można również stwierdzić, czy związek między zmiennymi X i Y jest liniowy.
Liniowość związku stwierdza się na podstawie różnicy między średnimi wariantami danej zmiennej, obliczonymi dla konkretnych wariantów drugiej zmiennej. Związek jest liniowy, jeżeli różnice między średnimi są takie same, tzn.:
Wariancje poszczególnych rozkładów cechy x oblicza się następująco:
(j = 1,2,…, r)
a wariancję ogólną:
Wariancje warunkowych rozkładów cechy Y przyjmują postać:
(i = 1,2, ..., k);
a wariancja ogólna:
Cecha X jest stochastycznie niezależna od cechy Y, jeżeli spełnione są jednocześnie następujące warunki:
i
Cecha Y jest stochastycznie niezależna od cechy X, jeżeli:
i
Niezależność korelacyjna - szczególny przypadek niezależności stochastycznej - definiuje się następująco:
Zmienna X jest korelacyjnie niezależna od zmiennej Y, jeżeli średnie warunkowe zmiennej X są równe
;
Zmienna Y jest korelacyjnie niezależna od zmiennej X, jeżeli średnie warunkowe zmiennej Y są równe
.
Analiza warunków niezależności cech - stochastycznej i korelacyjnej - potwierdza to, że cechy stochastycznie niezależne są równie niezależne korelacyjnie, ale nie na odwrót. Niezależność korelacyjna jest spełniona już wówczas, kiedy średnie warunkowe przyjmują jednakowe wartości. Przy czym należy pamiętać, że niezależność korelacyjna zmiennej X od Y nie oznacza, że jednocześnie występuje niezależność korelacyjna zmiennej Y od X.
Siłę, kierunek i kształt związku korelacyjnego można również stwierdzić wstępnie na podstawie oceny stopnia skupienia lub rozproszenia liczebności nij w tablicy korelacyjnej. Gdy warianty zmiennych X i Y są ułożone w tablicy korelującej rosnąco, to skupianie się liczebności wzdłuż przekątnej biegnącej od lewego górnego do prawego dolnego rogu tablicy świadczy o istnieniu korelacji dodatniej i prostoliniowej. Odwrotny układ liczebności (od prawego górnego do lewego dolnego rogu tablicy) sugeruje istnienie ujemnej korelacji prostoliniowej między badanymi zmiennymi. Skupianie się liczebności w inny sposób może świadczyć o istnieniu korelacji krzywoliniowej. Jeżeli zaś liczebności są rozrzucone chaotycznie po całym polu tablicy, to między zmiennymi nie zachodzi zależność korelacyjna.
TEST NIEZALEŻNOŚCI CHI - KWADRAT
Badanie współzależności ma sens jedynie wówczas, gdy pomiędzy zmiennymi występują powiązania typu stochastycznego lub co najmniej korelacyjnego. Badanie niezależności stochastycznej oparte na równości średnich warunkowych i wariancji warunkowych jest możliwe tylko w przypadku cech mierzalnych. W praktyce spotykamy się również z koniecznością oceny niezależności stochastycznej cech niemierzalnych - w takich przypadkach weryfikację hipotezy o niezależności zmiennych umożliwia test niezależności chi - kwadrat.
Załóżmy, że przedmiotem badania jest populacja generalna scharakteryzowana za pomocą dwóch jednakowych cech jakościowych. Z populacji tej wylosowano niezależnie dużą próbę o liczebności n elementów, a wyniki sklasyfikowano w tzw. tablicę niezależności o r wierszach i k kolumnach. Wnętrze tablicy niezależności stanowią liczebności nij tych elementów próby, dla których wartości obu badanych cech należą do kombinacji (i, j) i - tego wiersza i j-tej kolumny. Tablica taka jest podstawą do weryfikacji nieparametryczne hipotezy zerowej (H0) głoszącej, że n - elementowa próba losowa pochodzi z takiej zbiorowości generalnej, w której występuje niezależność stochastyczna zmiennych losowych x i y.
Do weryfikacji H0 o niezależności stochastycznej zmiennych wykorzystuje się wzór:
Statystyka ta ma - przy założeniu prawdziwości H0 - dla dużych prób asymptomatycznych rozkład
z (r-1)(k-1) stopniami swobody.
Liczebności teoretyczne
oblicza się ze wzoru
= (suma liczebności empirycznych i-tego wiersza x suma wartości empirycznych j-tej kolumny) : liczebność próby.
Obszar krytyczny (prawostronny) w rozważanym teście określa nierówność:
gdzie
jest wartością krytyczną odczytaną z tablicy rozkładu
dla ustalonego z góry poziomu istotności α (0,05 lub 0,01) i dla (k-1)(r-1) stopni swobody w taki sposób, aby zachodziła relacja:
.
W przypadku, gdy
, hipotezę zerową o stochastycznej niezależności zmiennych losowych odrzucamy. Natomiast jeżeli
, to nie ma podstaw do odrzucenia hipotezy zerowej o stochastycznej niezależności zmiennych losowych X i Y.
Jeżeli liczba stopni swobody przekracza 30, to w celu weryfikacji hipotezy zerowej o stochastycznej niezależności zmiennych losowych X i Y wykorzystujemy test:
Statystyka ta ma rozkład normalny, wartość krytyczną odczytujemy z tablicy dystrybuanty rozkładu normalnego N(0,1) dla dwustronnego obszaru krytycznego.
W przypadku tablicy o wymiarach 2x2 (tablica czteropolowa) do wyznaczania statystyki
można zastosować wzór:
Tablica czteropolowa
X Y |
1 |
2 |
ni |
1 2 |
A C |
B D |
A+B C+D |
n.j |
A+C |
B+D |
n |
Jeżeli w tablicy takiej przynajmniej jedna liczebność jest mniejsza niż 10, to do powyższego wzoru wprowadza się poprawkę Yatesa otrzymując:
Ćwiczenie 1.
Za Sobczyk str. 199 (wyd. z 1991 roku)
W 600 osobowej losowo dobranej grupie ludzi przeprowadzono badanie ankietowe mające na celu uzyskać odpowiedź na pytanie: „Czy istnieje zależność między wykształceniem telewidzów a rodzajem programu, który oglądają najchętniej?”. Wyniki przedstawiono w tablicy.
Wykształcenie (X) |
Rodzaj programu (Y) |
Ogółem |
|||
|
Film |
Teatr |
Programy rozrywkowe |
Programy publicystyczne |
|
Podstawowe Średnie Wyższe |
105 120 35 |
10 60 30 |
75 80 15 |
10 40 20 |
200 300 100 |
Ogółem |
260 |
100 |
170 |
70 |
600 |
Za pomocą testu niezależności
zweryfikuj hipotezę o niezależności stochastycznej zmiennych X i Y. Przyjąć poziom istotności
.
Step 1.
Teoretyczne liczebności
otrzymujemy mnożąc sumę liczebności i-tego wiersza przez sumę liczebności j-tej kolumny i dzieląc iloczyn przez ogólną liczebność próby.
Obliczone liczebności
wynoszą:
Step 2.
Wykorzystując do obliczenia wartości
otrzymujemy:
Step 3.
Dla poziomu istotności α = 0,05 i 6 stopni swobody [wszak (4-1)(3-1) = 6] wartość krytyczna
= 12,592.
Step 4.
co powoduje niechybnie, że:
tak jest drogie dzieci, hipotezę zerową - o niezależności zmiennych odrzucamy.
Morał z tego w tym sposobie: poziom wykształcenia ma związek z rodzajem oglądanych programów telewizyjnych. Jest to truizm, ale jak widać powyżej naukowo i matematycznie udowodniony.
Korelacja
1