Laboratorium
Metod Statystycznych
ĆWICZENIE 3
ANALIZA WSPÓŁZALEŻNOŚCI
ZJAWISK MASOWYCH
ANALIZA WSPÓŁZALEŻNOŚCI
Jednostki tworzące zbiorowość charakteryzowane są zazwyczaj za pomocą wielu cech, które wzajemnie się warunkują. Celem analizy współzależności jest stwierdzenie czy między badanymi cechami zachodzą jakieś zależności, jaka jest ich siła, kierunek oraz kształt.
Zakładamy, że przedmiotem badania jest populacja generalna scharakteryzowana za pomocą 2 cech X i Y. Z populacji tej wylosowano niezależnie dużą próbę o liczebności n elementów.
Diagram korelacyjny
Na osi odciętych zaznaczamy wartości zmiennej X, na osi rzędnych wartości zmiennej Y dla każdego punktu empirycznego (xi,yi) dla i=1, ..., n.
Szereg korelacyjny (dane indywidualne):
y1 |
...... |
yj |
..... |
yn |
x1 |
...... |
xj |
..... |
xn |
Rys. 1 Szereg korelacyjny
Tablica korelacyjna
Wyniki próby można sklasyfikować w tzw. tablicę korelacyjną o r wierszach i k kolumnach. Wnętrze tablicy stanowią liczebności nij tych elementów próby, dla których wartości obu badanych cech należą do kombinacji (i,j) i-tego wiersza i j-tej kolumny .
|
y1 |
...... |
yj |
..... |
yr |
|
x1 |
n11 |
...... |
n1j |
..... |
n1r |
n1. |
...... |
..... |
...... |
...... |
..... |
..... |
....... |
xi |
ni1 |
...... |
nij |
..... |
nir |
ni. |
.... |
...... |
...... |
....... |
..... |
.... |
...... |
xk |
nk1 |
...... |
nkj |
..... |
nkr |
nk. |
|
n.1 |
...... |
n.j |
..... |
n.r |
n |
Rys. 2 Tablica korelacyjna
Rozkłady brzegowe:
Średnie arytmetyczne rozkładów brzegowych:
Wariancje rozkładów brzegowych (wariancje ogólne zmiennych Y i X):
Rozkłady warunkowe:
Średnie arytmetyczne rozkładów warunkowych:
Wariancje rozkładów warunkowych:
i=1, ..., k
j=1, ..., r
Kowariancja
Dla szeregu korelacyjnego:
Dla tablicy korelacyjnej:
Test niezależności chi-kwadrat Pearsona
Cel: weryfikacja hipotezy o stochastycznej niezależności zmiennych X i Y:
H0: pij = pi. p.j dla wszystkich (i,j) (brak związku między zmiennymi X,Y)
H1: pij
pi. p.j dla niektórych (i,j) (zmienne X i Y są stochastycznie zależne)
α poziom istotności testu (we wszystkich testach)
Statystyka testowa:
=
liczebności teoretyczne (oczekiwane)
Zbiór krytyczny:
kwantyl rzędu (1-α) rozkładu chi-kwadrat o (r-1)(k-1) stopniach swobody
Opisowe miary siły i kierunku korelacji dwóch zmiennych
2.1 Wskaźniki (stosunki) korelacyjne Pearsona
Równość wariancyjna (dla zmiennej Y):
wariancja ogólna zmiennej Y
wariancja średnich warunkowych zmiennej Y (wariancja międzygrupowa, zróżnicowanie wyjaśnione regresją)
średnia z wariancji warunkowych zmiennej Y (wariancja wewnątrzgrupowa)
Stosunek korelacyjny zmiennej Y względem zmiennej X:
Analogicznie definiuje się stosunek korelacyjny zmiennej X względem zmiennej Y:
wariancja ogólna zmiennej X
wariancja średnich warunkowych zmiennej X (wariancja międzygrupowa, zróżnicowanie wyjaśnione regresją)
średnia z wariancji warunkowych zmiennej X (wariancja wewnątrzgrupowa)
Informuje jaka część całkowitej zmienności cechy zależnej może być przypisana wpływowi drugiej cechy.
2.2 Współczynnik korelacji liniowej Pearsona
s(x), s(y) odchylenia standardowe zmiennych X i Y (rozkładów brzegowych)
cov(x,y) kowariancja zmiennych X i Y
Dla danych indywidualnych:
Dla danych w postaci tablicy korelacyjnej:
Współczynnik ten jako jedyny informuje o kierunku korelacji (liniowej). Stopień krzywoliniowości regresji Y względem X określa:
2.3 Współczynnik korelacji kolejnościowej (rang) Spearmana
di = xi - yi różnica między rangami cechy X i Y
n liczba elementów w próbie
Jeżeli występują jednakowe wartości cechy dla różnych jednostek, to przypisuje się tym jednostkom wartości równe średniej arytmetycznej z kolejnych rang.
2.4 Współczynnik Yule'a
χ2 wartość statystyki chi-kwadrat
n liczność próby
Jest miarą siły związku między dwoma cechami wyrażonymi na skalach nominalnych (niemierzalnych).
3. Funkcja regresji
Oszacowanie funkcji regresji liniowej
Oszacowaniem liniowej funkcji regresji Y względem X w populacji generalnej jest funkcja regresji y względem x w próbie losowej:
i=1,...n
n liczba par obserwacji (xi,yi)
reszty regresji (składnik losowy)
wartości teoretyczne zmiennej objaśnianej Y
Oszacowania metodą najmniejszych kwadratów (MNK) współczynników regresji liniowej:
3.2 Ocena oszacowanej funkcji regresji liniowej
Wariancja resztowa (ocena wariancji składnika losowego e):
Odchylenie standardowe składnika resztowego
Współczynnik zmienności resztowej
Współczynnik zbieżności
Informuje więc jaka część zmian wartości zmiennej objaśnianej nie została wyjaśniona zmianami zmiennej objaśniającej przyjętej w funkcji regresji.
Kwadrat współczynnika korelacji wielorakiej R2
Korelacja i regresja wielu zmiennych
Uwzględniając wzajemny związek wielu zmiennych : Y, X1, ..., Xk gdzie Y jest zmienną zależną (ojaśnianą) a X1, ..., Xk - zmiennymi niezależnymi (objaśniającymi), problem korelacji i regresji można badać dwojako:
wielorako - jeśli uwzględniamy oddziaływanie na zmienną zależną Y wszystkich zmiennych niezależnych X1, ..., Xk.
cząstkowo - jeśli badamy współzależności tylko niektórych zmiennych, eliminując wpływ pozostałych.
4.1 Korelacja cząstkowa i wieloraka
Współczynnik korelacji cząstkowej dowolnego rzędu można wyrazić dwojako:
Pierwsze 2 subskrypty przed kropką oznaczają cechy między którymi poszukujemy korelacji, natomiast subskrypty po kropce oznaczają cechy, które chcemy wyeliminować. Przy przyjęciu tylko jednej zmiennej za stałą mówimy o korelacji cząstkowej rzędu pierwszego, dwóch - rzędu drugiego itd.
Pij , Cij dopełnienia algebraiczne macierzy korelacji P, oraz macierzy kowariancji C:
0 w subskrypcie oznacza zmienną Y, pozostałe 1, ..., k - zmienne objaśniające X1, ..., Xk
rij współczynnik korelacji liniowej odpowiednich zmiennych i oraz j
cij kowariancja odpowiednich zmiennych dla i<>j
cii wariancja zmiennej i
Jeżeli chcemy zbadać korelację między wartością jednej cechy (zmienna objaśniana) a kompleksem innych cech (zmienne objaśniające) to właściwą miarą jest współczynnik korelacji wielorakiej oznaczany Rw lub R0.12...k
Pierwszy subskrypt (0) oznacza zmienną objaśnianą a pozostałe subskrypty zmienne objaśniające (1,2, ...k) których łączny wpływ na zmienną objaśnianą chcemy zbadać.
R macierz współczynników korelacji pomiędzy zmiennymi objaśniającymi
D macierz kowariancji pomiędzy zmiennymi objaśniającymi
wariancja zmiennej objaśnianej Y.
Dla 3 zmiennych Y, X1, X2 macierze P, R, C, D przedstawiają się następująco:
=
Współczynniki korelacji cząstkowej między odpowiednimi zmiennymi obliczone na podstawie macierzy korelacji P:
a wzór na współczynnik korelacji wielorakiej:
4.2 Liniowa regresja wieloraka
Równanie liniowej regresji wielorakiej w postaci wektorowej:
Y = Xβ + u
y wektor zaobserwowanych wartości zmiennej zależnej Y
X macierz, której pierwszą kolumnę tworzą jedynki, zaś pozostałe kolumny to wartości zmiennych objaśniających X1, ..., Xk
β wektor nieznanych parametrów regresji β0, ..., βk
u wektor składników losowych
k liczba zmiennych objaśniających
Wektor b ocen parametrów β0, ..., βk regresji oszacowany MNK
Ostatecznie więc uzyskujemy następującą postać przyjętej funkcji regresji:
Y = Xb + e
gdzie e oznacza wektor reszt:
wektor wartości teoretycznych
Wzory na wartości ocen parametrów można również wyrazić wykorzystując macierz kowariancji C:
C00, C01, ..., C0k dopełnienia algebraiczne odpowiednich elementów macierzy kowariancji C
średnie arytmetyczne zmiennych Y, X1, ..., Xk
W przypadku 3 zmiennych Y, X1, X2 parametry równania regresji można oszacować także następująco:
rij elementy macierzy korelacji P
4.3 Oszacowanie równania regresji wielorakiej
1. Wariancja składnika resztowego
2. Odchylenie standardowe składnika resztowego
3. Współczynnik zmienności resztowej
4. Współczynnik zbieżności
5. Współczynnik korelacji wielorakiej
Charakterystyki te można obliczyć korzystając ze wzorów na oszacowania liniowej funkcji regresji 1 zmiennej, przy czym obliczając wariancję składnika resztowego i współczynnik zbieżności można także korzystać z następujących wzorów:
e - wektor reszt:
y wektor zaobserwowanych wartości zmiennej zależnej Y
1 macierz jednostkowa
n liczba obserwacji
k+1 liczba szacowanych parametrów funkcji regresji
Wnioskowanie statystyczne w analizie korelacji i regresji
4.1. Przedziały ufności
Przedział ufności dla współczynnika kierunkowego a regresji liniowej
1-* poziom ufności
t 1-*/2, n-2 kwantyl rozkładu t-Studenta
4.2. Testy istotności
Test istotności dla współczynnika korelacji liniowej
Cechy (X,Y) populacji generalnej mają dwuwymiarowy rozkład normalny o nieznanym współczynniku korelacji liniowej
. Próba o liczności n>2.
brak korelacji liniowej między badanymi cechami
a)
b)
c)
Statystyka testowa:
r współczynnik korelacji liniowej z próby
Zbiór krytyczny:
t kwantyl odpowiedniego rzędu rozkładu Studenta z n-2 stopniami swobody.
Test istotności współczynnika a regresji liniowej
H0: a=a0:
a)
b)
c)
Statystyka testowa:
Zbiór krytyczny:
t kwantyl odpowiedniego rzędu rozkładu Studenta z n-2 stopniami swobody.
Test istotności dla stosunku korelacyjnego
Badane cechy (X,Y) populacji generalnej mają dwuwymiarowy rozkład normalny o nieznanych stosunkach korelacyjnych
,
H0:
= 0
H1:
Statystyka testowa
eyx stosunek korelacyjny z próby
Zbiór krytyczny:
kwantyl rzędu 1-α rozkładu F z v1 i v2 stopniami swobody.
Test istotności współczynnika korelacji rang
Badane cechy (X,Y) populacji generalnej mają dwuwymiarowy rozkład normalny o nieznanym współczynniku korelacji rang
. Próba o liczności n<10.
H0: ρs = 0
a)
b)
c)
Statystyka testowa
rs współczynnik korelacji rang z próby
Zbiór krytyczny:
t kwantyl odpowiedniego rzędu rozkładu Studenta z n-2 stopniami swobody.
Test liniowości regresji
Badane cechy (X,Y) populacji generalnej mają dwuwymiarowy rozkład normalny o nieznanych stosunkach korelacyjnych
,
oraz współczynniku korelacji liniowej ρ.
H0:
- ρ2 = 0 (regresja Y względem X prostoliniowa)
H1:
Statystyka testowa :
Zbiór krytyczny:
kwantyl rzędu 1-α rozkładu F z v1 i v2 stopniami swobody.
Dopełnieniem algebraicznym elementu
macierzy P nazywamy wyrażenie postaci:
gdzie
jest minorem dla elementu
w macierzy P, przy czym minorem
nazywamy wyznacznik podmacierzy otrzymanej przez wykreślenie z macierzy P i-tego wiersza i j-tej kolumny
1
12