Tytus Sosnowski
Kurs 004 (2008 / 2009)
METODOLOGIA BADAŃ PSYCHOLOGICZNYCH
Wykład obligatoryjny dla I roku studiów wieczorowych
Wydziału Psychologii UW
PLANOWANIE I ANALIZA BADAŃ EMPIRYCZNYCH
Część F:
badania ex post facto:
Korelacja i regresja
Analiza korelacji i regresji jest bardzo uniwersalną metoda analizy. Dla przykładu, wszystko co można policzyć analizą wariancji można też policzyć analizą regresji ale nie na odwrót. Istnieje też wiele metod analizy danych
pochodnych od analizy korelacyjnej, w szczególności:
analiza regresji prostej - jedna zmienna niezależna (zwana tez predyktorem) i jedna zmienna zależna
analiza regresji wielokrotnej - wiele zmiennych niezależnych (predyktorów);
analiza ścieżkowa;
analiza dyskryminacyjna;
analiza czynnikowa;
model równań strukturalnych (LISREL).
KORELACJA
Istnieje wiele metod korelacji. Największe możliwości interpretacyjnych daje współczynnik korelacji według momentu iloczynowego (współczynnik r Pearsona). Wymaga on pomiaru zmiennych na skali co najmniej interwałowej oraz tzw. dwuwymiarowego rozkładu normalnego.
U każdego obiektu (np. osoby) pochodzącego z danej (jednej!) próby mierzymy co najmniej dwie zmienne. Korelacja oznacza związek (zależność statystyczną) między zmiennymi. Nie przesądza jednak o istnieniu zależności przyczynowej.
KORELACJA I REGRESJA PROSTA
Współczynnik korelacji stanowi miarę współzmienności dwu zmiennych (powiedzmy: X i Y). Współczynnik korelacji może przybierać wartości od r= -1 (perfekcyjna zależność ujemna), poprzez r=0 (doskonałą niezależność zmiennych), do r= 1 (perfekcyjny związek dodatni).
Wyrażenie r2 , nazywane jest współczynnikiem DETERMINACJI. Oznacza ono procent sumy kwadratów jednej zmiennej, który można przewidzieć na podstawie drugiej zmiennej.
Przykład 1a. Silny związek między zmiennymi
Przykład 1b: Silny związek między zmiennymi -
linia regresji.
Przykład 2: Słaba korelacja dodatnia
Przykład 3: Silna korelacja ujemna
Przykład 4: Korelacja zerowa (brak związku między
zmiennymi): dla wszystkich X taka sama
przewidywana wartość Y
Przykład 5: Korelacja zerowa (brak związku między
zmiennymi): nie można wykreślić linii (regresji)
najlepiej dopasowanej do danych (każda linia
jest równie (nie)dobra
Regresja i przewidywanie
Równanie regresji pozwala przewidywać wartość zmiennej zależnej Y na podstawie znajomości zmiennej niezależnej X.
Rysunek 5f-1. Linia regresji prostej
Równanie regresji prostej: Y = a + bX + e
lub:
Y' = a + b X;
Y - wartość rzeczywista zmiennej zależnej;
Y' - wartość przewidywana zmiennej zależnej;
- wartość średnia zmiennej zależnej
e - błąd przewidywania;
b - współczynnik nachylenia (slope) - wyznacza kąt
nachylenia linii regresji;
a - stała równania regresji (constant, intercept) - wyznacza
wysokości linii regresji. Jeśli X = 0, to Y = a; czyli a to
wysokość linii regresji (wartość Y) w punkcie X = 0.
Analizowane dane (zmienna zależną niezależną) możemy przedstawić w postaci standaryzowanej (jako odchylenia poszczególnych wyników od średniej całkowitej):
Dane w postaci standaryzowanej mają, z założenia, średnią:
= 0 i wariancję: σ2 = 1.
Dla danych standaryzowanych równanie regresji ma postać:
Y' = β X
(opuszczamy w równaniu a, gdyż wynosi ono zero).
Równanie regresji w postaci standaryzowanej jest bardzo wygodne gdyż eliminuje wpływ jednostek pomiaru na wartość zmiennych. Wszystkie zmienne wyrażone są w tych samych jednostkach: jednostkach odchylenia standardowego.
Analiza regresji umożliwia (analogicznie jak w wypadku ANOVA) rozłożenie sumy kwadratów (SS) zmiennej zależnej Y (Σy2) na dwie składowe:
SS przewidywaną na podstawie równania regresji -
SS nie przewidywalną przez równanie regresji - SS błędu (SSerror) lub SS resztową (residual --
).
(porównaj rysunek na poprzedniej stronie)
Ponieważ dwa wyrażenia po prawej stronie równania
(w nawiasach) są nieskorelowane ze sobą, zachodzi równość:
Σy2 = SSreg + SSres
r2 =
Jak widać z ostatniego wzoru, r2 informuje o tym, jaką proporcję całkowitej sumy kwadratów zmiennej zależnej można przewidzieć na podstawie zmiennej niezależnej (i równania regresji). Z wzoru tego widać też, że im większe jest SSreg (tzn. im bliżej linii regresji położone są punkty na wykresie, por. strony 4 i 5) tym wyższa jest korelacja (r i r2).
Istotność współczynnika regresji dana jest wzorem:
F =
=
k= liczba zmiennych niezależnych, N = wielkość próby (dla jednej zm. niezależnej: df1 = 1, df2 = N - 2). Jeśli istotne jest r to istotne jest też r2 (przy identycznym alfa).
Istnieją metody analizy regresji krzywoliniowej, analizujące rozrzut punktów względem jakieś krzywej.
KORELACJA I REGRESJA WIELOKROTNA
(multiple correlation and regression)
Analiza regresji wielokrotnej pozwala przewidywać wartość zmiennej zależnej Y na podstawie wielu zmiennych niezależnych (predyktorów): X1, X2, ... Xn. Predyktory te:
mogą być wzajemnie skorelowane ze sobą;
mogą być zmiennymi ciągłymi jak i dyskretnymi (skokowymi). Poza przypadkiem, kiedy predyktory dyskretne przybierają wartości: 0 i 1, muszą być one, przed włączenie do analizy, zakodowane w specjalny sposób. Najczęściej jednak analizowana jest zależność między zmiennymi ciągłymi.
Równanie regresji wielokrotnej ma postać (czasem zamiast a pisze się b0):
Y' = a + b1X1, + b2X2, + ... + bn Xn
Jeśli równanie regresji przedstawione jest w postaci standaryzowanej (patrz niżej), współczynniki beta (β) mogą być traktowane jako wagi zmiennych niezależnych. Informują one jak duży wpływ ma dana zmienna niezależna na zmienną zależną. Wielkości współczynników b są nieporównywalne, bo zależą od skali pomiarowej (zmiana jednostki pomiaru powoduje zmianę współczynnika b).
Y' = β1 X1, + β2 X2, + ... + βn Xn
Analiza regresji pozwala
Wybrać zbiór predyktorów (zmiennych niezależnych), spośród wszystkich predykatorów poddanych analizie, który zapewnia najlepsze przewidywanie zmiennej Y; przy doborze predyktorów brane jest pod uwagę ich wzajemne skorelowanie.
Ocenić wagi poszczególnych predyktorów.
Oszacować jaki procent całkowitej sumy kwadratów zmiennej zależnej można przewidzieć na podstawie wszystkich zmiennych niezależnych uwzględnionych w równaniu regresji. Miarą tego efektu jest współczynnik determinacji (r2 lub R2).
Dla odróżnienia od korelacji prostej (r) współczynnik korelacji wielokrotnej oznacza się symbolem R. Współczynnik R jest miarą siły związku miedzy zmienną zależną a wszystkimi predyktorami uwzględnionymi w modelu analizy.
Warto pamiętać, że analiza regresji jest przede wszystkim narzędziem predykcji. Niekiedy mówi się, że zmienne niezależne, analizowane za pomocą analizy regresji, wyjaśniają określony procent zmienności zmiennej zależnej. Interpretacja taka nie zawsze jest uzasadniona a zawsze wymaga dodatkowych przesłanek statystycznych i merytorycznych.
Przykład
Szukamy czynników pozwalających najlepiej przewidywać ryzyko zachorowania na chorobę wieńcową. Analizujemy (za pomocą regresji wielokrotnej) następujące predyktory (czynniki ryzyka):
Palenie papierosów;
Picie alkoholu;
Dieta (zawartość tłuszczów i cukru);
Aktywność ruchowa;
Płeć;
Czynnik genetyczny (występowanie choroby w rodzinie)
Wiek (liczba lat życia);
Rok urodzenia.
Można oczekiwać (na podstawie dostępnej dotąd wiedzy), że trafność przewidywania ryzyka zachorowania będzie się zwiększała w miarę jak będziemy uwzględniali kolejne predyktory: 1, 2, ..., 7. Natomiast dołączenie zmiennej 8 nie polepszy trafności przewidywań ponieważ nie dostarcza ona żadnej nowej informacji o badanym (informuje o tym, co już wiemy na podstawie zmiennej 7). Fakt, że zmienna 8 jest bardzo wysoko (tu: perfekcyjnie) skorelowana ze zmienną 7 sprawia, że jest ona z bezużyteczna (redundantna) dla prognozy zmiennej zależnej.
Najlepszymi predyktorami zmiennej zależnej są takie zmienne niezależne, które wysoko korelują ze zmienną zależną (kryterium) i jednocześnie nisko korelują wzajemnie ze sobą.
Analiza regresji wielokrotnej - przykład liczbowy (SPSS)
regression descriptives=corr
/statistics=defaults, cha
/var=y, x1, x2, x3
/read corr N
/dependent=y
/method=stepwise.
N of Cases = 100
Korelacje między zmiennymi
Y X1 X2 X3
Y 1.000 .400 .400 .300
X1 .400 1.000 .900 .200
X2 .400 .900 1.000 .200
X3 .300 .200 .200 1.000
* * * * M U L T I P L E R E G R E S S I O N * * *
Variable(s) Entered on Step Number 1.. X1
Multiple R .40000
R Square .16000 R Square Change .16000
Adjusted R Square .15143 F Change 18.66667
Standard Error .92118 Signif F Change .0000
Variable(s) Entered on Step Number 2.. X3
Multiple R .45871
R Square .21042 R Square Change .05042
Adjusted R Square .19414 F Change 6.19367
Standard Error .89770 Signif F Change .0145
Analysis of Variance
DF Sum of Squares Mean Square
Regression 2 20.83125 10.41563
Residual 97 78.16875 .80586
F = 12.92480 Signif F = .0000
------------------ Variables in the Equation ------------------
Variable B SE B Beta T Sig T
X1 .35417 .09208 .35417 3.846 .0002
X3 .22917 .09208 .22917 2.489 .0145
(Constant) .00000 .08977 .000 1.0000
------------- Variables not in the Equation -------------
Variable Beta In Partial Min Toler T Sig T
X2 .18681 .09154 .18958 .901 .3700
ANALIZA DYSKRYMINACYJNA
O ile celem analizy regresji jest znalezienie układu predyktorów pozwalających najlepiej przewidywać WARTOŚĆ zmiennej zależnej Y, to celem analizy dyskryminacyjnej jest znalezienie zbioru predyktorów pozwalających najlepiej przewidywać przynależność badanych do jednej z GRUP kryterialnych.
Najlepiej jeśli grupy kryterialne tworzone są w oparciu o „mocne” kryteria (np. kobiety / mężczyźni, chorzy / zdrowi).
Przykład zastosowania analizy dyskryminacyjnej
Analizujemy dwie grupy badanych: zdrowych i chorych
(np. na choroby krążenia). Interesuje nas które zmienne (spośród dużego zbioru analizowanych zmiennych, takich jak np.: wiek, płeć, waga ciała, palenie papierosów, itp.) pozwalają najlepiej przewidywać ryzyko zachorowania na chorobę układu krążenia, czyli to, czy dana osoba znajdzie się (np. po pięciu latach) w grupie osób zdrowych czy też w grupie osób chorych.
PROBLEM ZALEŻNOŚCI PRZYCZYNOWYCH
W BADANIACH NIEEKSPERYMENTALNYCH
--- ANALIZA ŚCIEŻKOWA (Path analysis) ---
Budujemy MODEL teoretyczny wyjaśniający zależności przyczynowe w pewnym zbiorze zmiennych a następnie sprawdzamy w jakim stopniu dane empiryczne (uzyskane w badaniach korelacyjnych) potwierdzają ten model (podejście konfirmacyjne). Do analizy takiej można wykorzystać analizę regresji wielokrotnej.
Charakterystyka analizy ścieżkowej
Zakłada się, że zależności między zmiennymi są jednokierunkowe.
Zmienne egzogenne—zmienne nie wyjaśniane przez pozostałe zmienne uwzględnione w modelu;
Zmienne endogenne - zmienne wyjaśniane przez inne zmienne uwzględnione w modelu.
Współczynnik ścieżkowy (path coefficient - p) - miara bezpośredniego wpływu danej zmiennej (endogennej lub egzogennej) na zmienną endogenną. Wartość współczynnika ścieżkowego równa się współczynnikowi beta równania regresji.
Wariancja resztowa (residual - e) -- wariancja zmiennej endogennej nie wyjaśniana przez inne zmienne uwzględnione w modelu (e równa się
).
Do podobnych, lecz bardziej zaawansowanych analiz wykorzystuje się programy LISREL (J
reskog) i AMOS
Przykład diagramu ścieżkowego
na rysunku górnym zaznaczono nazwy ścieżek, na rysunku dolnym - wartości współczynników ścieżkowych oraz
(w nawiasach) korelacje między zmiennymi.
ANALIZA CZYNNIKOWA
Analiza czynnikowa ma na celu poszukiwanie zmiennych ukrytych (czynników) mogących wyjaśnić zależności między pewną (zazwyczaj dużą) liczbą skorelowanych zmiennych mierzonych.
Aby wyjaśnić całą wariancję n zmiennych mierzonych potrzeba zawsze n czynników. Zazwyczaj jednak potrafimy wyjaśnić bardzo znaczny procent wariancji zmiennych mierzonych za pomocą stosunkowo niewielkiej liczby czynników (por. podany niżej przykład liczbowy).
Wiele etapów analizy czynnikowej (np. decyzja co do liczby czynników) oraz interpretacja psychologiczna otrzymanych czynników mają charakter mniej lub bardziej arbitralny.
Analiza czynnikowa KONFIRMACYJNA ma na celu testowanie hipotez wyjaśniających zależności między mierzonymi zmiennymi. Hipotezy te mogą dotyczyć liczby czynników, korelacji między czynnikami, ładunków czynnikowych, itp. (ładunek czynnikowy to korelacja między czynnikiem a zmiennymi mierzonymi).
Analiza czynnikowa EKSPLORACYJNA -- nastawiona na poszukiwanie zmiennych ukrytych (czynników) mogących wyjaśnić zależności między zmiennymi mierzonymi. Jeśli takie czynniki zostaną wykryte powinny być traktowane jako hipotezy do sprawdzenia w kolejnych badaniach.
Analiza czynnikowa stosowana w sposób ateoretyczny określana jest jako podejście „garbage in -- garbage out”, tzn. „śmiecie wkładamy - śmiecie otrzymujemy”.
FACTOR ANALYSIS (PRINCIPAL COMPONENTS)
przykład liczbowy (SPSS)
Correlations: Z1 Z2 Z3 Z4 Z5 Z6
Z1 1.0000 .9036 .7582 -.7680 -.2443 .1076
Z2 .9036 1.0000 .8930 -.6718 -.0340 .3049
Z3 .7582 .8930 1.0000 -.4752 .2263 .5655
Z4 -.7680 - .6718 -.4752 1.0000 .6644 .3817
Z5 -.2443 -.0340 .2263 .6644 1.0000 .7450
Z6 .1076 .3049 .5655 .3817 .7450 1.0000
- - - - F A C T O R A N A L Y S I S - - - -
Initial Statistics:
Variable Communality Factor Eigenvalue Pct of Var Cum Pct
*
Z1 1.00000 * 1 3.32266 55.4 55.4
Z2 1.00000 * 2 2.27418 37.9 93.3
Z3 1.00000 * 3 .18677 3.1 96.4
Z4 1.00000 * 4 .13377 2.2 98.6
Z5 1.00000 * 5 .05483 .9 99.5
Z6 1.00000 * 6 .02780 .5 100.0
PC Extracted 2 factors.
- - - - F A C T O R A N A L Y S I S - - - -
Factor Matrix:
FACTOR 1 FACTOR 2
------------------------------------
Z1 .95496 -.07252
Z2 .96632 .15373
Z3 .87360 .43391
Z4 -.79938 .56529
Z5 -.19747 .92858
Z6 .18907 .93551
Final Statistics:
Variable Communality Factor Eigenvalue Pct of Var Cum Pct
*
Z1 .91722 * 1 3.32266 55.4 55.4
Z2 .95741 * 2 2.27418 37.9 93.3
Z3 .95145 *
Z4 .95856 *
Z5 .90126 *
Z6 .91093 *
---------------------------------------------------------------------------------------
- - - - F A C T O R A N A L Y S I S - - - -
Varimax Rotation 1, Extraction 1, Analysis 1 - Kaiser Normalization.
Varimax converged in 3 iterations.
Rotated Factor Matrix:
FACTOR 1 FACTOR 2
Z1 .94566 -.15146
Z2 .97574 .07307
Z3 .90657 .35997
Z4 -.74975 .62963
Z5 -.11978 .94176
Z6 .26600 .91661
-------------------------------------------------------------------------------
FACTOR 1 FACTOR 2
FACTOR 1 .99656 -.08293
FACTOR 2 .08293 .99656
Model eksperymentalny a korelacyjny
Kryteria |
Model eksperymentalny
|
Model korelacyjny |
Przedmiot analizy |
Różnice między warunkami |
Współzmienność zmiennych (siła związku między zmiennymi) |
Wymagania |
Możliwie jednorodna próba, podzielona losowo na grupy badane w różnych warunkach (różnice między osobami = błąd eksperymentalny) |
Możliwie duża i zróżnicowana próba, badana w identycznych warunkach
|
zalety |
Łatwość kontroli zmiennych ubocznych (randomizacja)
Łatwiejsze wnioskowanie
|
Łatwość zbierania danych (łatwość pomiaru dużej liczby zmiennych)
|
ograniczenia |
Zbytnie zwiększanie liczby zmiennych niezależnych (np. liczby grup) jest zwykle bardzo kosztowne Ograniczona trafność ekologiczna (zwłaszcza badań laboratoryjnych) |
Trudność kontroli zmiennych ubocznych
Trudność wnioskowania |
mtd5F (2008 / 2009) - 1
1
p41
p31
r12
p43
3
4
p32
p42
2
e3
e4
1
.009 (.33)
.398 (.41)
(.30)
.416 (.50)
3
4
.041 (.16)
.501 (.57)
2
.710
.911