Mtd5f, UW, Metodologia badań psychologicznych, prof. Sosnowski


Tytus Sosnowski

Kurs 004 (2008 / 2009)

METODOLOGIA BADAŃ PSYCHOLOGICZNYCH

Wykład obligatoryjny dla I roku studiów wieczorowych

Wydziału Psychologii UW

PLANOWANIE I ANALIZA BADAŃ EMPIRYCZNYCH

Część F:

badania ex post facto:

Korelacja i regresja

Analiza korelacji i regresji jest bardzo uniwersalną metoda analizy. Dla przykładu, wszystko co można policzyć analizą wariancji można też policzyć analizą regresji ale nie na odwrót. Istnieje też wiele metod analizy danych

pochodnych od analizy korelacyjnej, w szczególności:

KORELACJA

Istnieje wiele metod korelacji. Największe możliwości interpretacyjnych daje współczynnik korelacji według momentu iloczynowego (współczynnik r Pearsona). Wymaga on pomiaru zmiennych na skali co najmniej interwałowej oraz tzw. dwuwymiarowego rozkładu normalnego.

U każdego obiektu (np. osoby) pochodzącego z danej (jednej!) próby mierzymy co najmniej dwie zmienne. Korelacja oznacza związek (zależność statystyczną) między zmiennymi. Nie przesądza jednak o istnieniu zależności przyczynowej.

KORELACJA I REGRESJA PROSTA

Współczynnik korelacji stanowi miarę współzmienności dwu zmiennych (powiedzmy: X i Y). Współczynnik korelacji może przybierać wartości od r= -1 (perfekcyjna zależność ujemna), poprzez r=0 (doskonałą niezależność zmiennych), do r= 1 (perfekcyjny związek dodatni).

Wyrażenie r2 , nazywane jest współczynnikiem DETERMINACJI. Oznacza ono procent sumy kwadratów jednej zmiennej, który można przewidzieć na podstawie drugiej zmiennej.

Przykład 1a. Silny związek między zmiennymi

0x01 graphic

Przykład 1b: Silny związek między zmiennymi -
linia regresji.

0x01 graphic

Przykład 2: Słaba korelacja dodatnia

0x01 graphic

Przykład 3: Silna korelacja ujemna

0x01 graphic

Przykład 4: Korelacja zerowa (brak związku między
zmiennymi): dla wszystkich X taka sama
przewidywana wartość Y

0x01 graphic

Przykład 5: Korelacja zerowa (brak związku między
zmiennymi): nie można wykreślić linii (regresji)
najlepiej dopasowanej do danych (każda linia
jest równie (nie)dobra

0x01 graphic

Regresja i przewidywanie

Równanie regresji pozwala przewidywać wartość zmiennej zależnej Y na podstawie znajomości zmiennej niezależnej X.

0x08 graphic
0x01 graphic

Rysunek 5f-1. Linia regresji prostej

Równanie regresji prostej: Y = a + bX + e

lub:

Y' = a + b X;

Y - wartość rzeczywista zmiennej zależnej;
Y' - wartość przewidywana zmiennej zależnej;

0x01 graphic
- wartość średnia zmiennej zależnej

e - błąd przewidywania;

b - współczynnik nachylenia (slope) - wyznacza kąt
nachylenia linii regresji;

a - stała równania regresji (constant, intercept) - wyznacza
wysokości linii regresji. Jeśli X = 0, to Y = a; czyli a to
wysokość linii regresji (wartość Y) w punkcie X = 0.

Analizowane dane (zmienna zależną niezależną) możemy przedstawić w postaci standaryzowanej (jako odchylenia poszczególnych wyników od średniej całkowitej):


0x01 graphic

Dane w postaci standaryzowanej mają, z założenia, średnią:
0x01 graphic
= 0 i wariancję: σ2 = 1.

Dla danych standaryzowanych równanie regresji ma postać:

Y' = β X

(opuszczamy w równaniu a, gdyż wynosi ono zero).

Równanie regresji w postaci standaryzowanej jest bardzo wygodne gdyż eliminuje wpływ jednostek pomiaru na wartość zmiennych. Wszystkie zmienne wyrażone są w tych samych jednostkach: jednostkach odchylenia standardowego.

Analiza regresji umożliwia (analogicznie jak w wypadku ANOVA) rozłożenie sumy kwadratów (SS) zmiennej zależnej Y (Σy2) na dwie składowe:

(porównaj rysunek na poprzedniej stronie)0x01 graphic

Ponieważ dwa wyrażenia po prawej stronie równania
(w nawiasach) są nieskorelowane ze sobą, zachodzi równość:

0x01 graphic

Σy2 = SSreg + SSres

0x01 graphic

r2 = 0x01 graphic

Jak widać z ostatniego wzoru, r2 informuje o tym, jaką proporcję całkowitej sumy kwadratów zmiennej zależnej można przewidzieć na podstawie zmiennej niezależnej (i równania regresji). Z wzoru tego widać też, że im większe jest SSreg (tzn. im bliżej linii regresji położone są punkty na wykresie, por. strony 4 i 5) tym wyższa jest korelacja (r i r2).

Istotność współczynnika regresji dana jest wzorem:

F = 0x01 graphic
= 0x01 graphic

k= liczba zmiennych niezależnych, N = wielkość próby (dla jednej zm. niezależnej: df1 = 1, df2 = N - 2). Jeśli istotne jest r to istotne jest też r2 (przy identycznym alfa).

Istnieją metody analizy regresji krzywoliniowej, analizujące rozrzut punktów względem jakieś krzywej.

KORELACJA I REGRESJA WIELOKROTNA

(multiple correlation and regression)

Analiza regresji wielokrotnej pozwala przewidywać wartość zmiennej zależnej Y na podstawie wielu zmiennych niezależnych (predyktorów): X1, X2, ... Xn. Predyktory te:

Równanie regresji wielokrotnej ma postać (czasem zamiast a pisze się b0):

Y' = a + b1X1, + b2X2, + ... + bn Xn

Jeśli równanie regresji przedstawione jest w postaci standaryzowanej (patrz niżej), współczynniki beta (β) mogą być traktowane jako wagi zmiennych niezależnych. Informują one jak duży wpływ ma dana zmienna niezależna na zmienną zależną. Wielkości współczynników b są nieporównywalne, bo zależą od skali pomiarowej (zmiana jednostki pomiaru powoduje zmianę współczynnika b).

Y' = β1 X1, + β2 X2, + ... + βn Xn

Analiza regresji pozwala

Dla odróżnienia od korelacji prostej (r) współczynnik korelacji wielokrotnej oznacza się symbolem R. Współczynnik R jest miarą siły związku miedzy zmienną zależną a wszystkimi predyktorami uwzględnionymi w modelu analizy.

Warto pamiętać, że analiza regresji jest przede wszystkim narzędziem predykcji. Niekiedy mówi się, że zmienne niezależne, analizowane za pomocą analizy regresji, wyjaśniają określony procent zmienności zmiennej zależnej. Interpretacja taka nie zawsze jest uzasadniona a zawsze wymaga dodatkowych przesłanek statystycznych i merytorycznych.

Przykład

Szukamy czynników pozwalających najlepiej przewidywać ryzyko zachorowania na chorobę wieńcową. Analizujemy (za pomocą regresji wielokrotnej) następujące predyktory (czynniki ryzyka):

  1. Palenie papierosów;

  2. Picie alkoholu;

  3. Dieta (zawartość tłuszczów i cukru);

  4. Aktywność ruchowa;

  5. Płeć;

  6. Czynnik genetyczny (występowanie choroby w rodzinie)

  7. Wiek (liczba lat życia);

  8. Rok urodzenia.

Można oczekiwać (na podstawie dostępnej dotąd wiedzy), że trafność przewidywania ryzyka zachorowania będzie się zwiększała w miarę jak będziemy uwzględniali kolejne predyktory: 1, 2, ..., 7. Natomiast dołączenie zmiennej 8 nie polepszy trafności przewidywań ponieważ nie dostarcza ona żadnej nowej informacji o badanym (informuje o tym, co już wiemy na podstawie zmiennej 7). Fakt, że zmienna 8 jest bardzo wysoko (tu: perfekcyjnie) skorelowana ze zmienną 7 sprawia, że jest ona z bezużyteczna (redundantna) dla prognozy zmiennej zależnej.

Najlepszymi predyktorami zmiennej zależnej są takie zmienne niezależne, które wysoko korelują ze zmienną zależną (kryterium) i jednocześnie nisko korelują wzajemnie ze sobą.

Analiza regresji wielokrotnej - przykład liczbowy (SPSS)

regression descriptives=corr

/statistics=defaults, cha

/var=y, x1, x2, x3

/read corr N

/dependent=y

/method=stepwise.

N of Cases = 100

Korelacje między zmiennymi

Y X1 X2 X3

Y 1.000 .400 .400 .300

X1 .400 1.000 .900 .200

X2 .400 .900 1.000 .200

X3 .300 .200 .200 1.000

* * * * M U L T I P L E R E G R E S S I O N * * *

Variable(s) Entered on Step Number 1.. X1

Multiple R .40000

R Square .16000 R Square Change .16000

Adjusted R Square .15143 F Change 18.66667

Standard Error .92118 Signif F Change .0000

Variable(s) Entered on Step Number 2.. X3

Multiple R .45871

R Square .21042 R Square Change .05042

Adjusted R Square .19414 F Change 6.19367

Standard Error .89770 Signif F Change .0145

Analysis of Variance

DF Sum of Squares Mean Square

Regression 2 20.83125 10.41563

Residual 97 78.16875 .80586

F = 12.92480 Signif F = .0000

------------------ Variables in the Equation ------------------

Variable B SE B Beta T Sig T

X1 .35417 .09208 .35417 3.846 .0002

X3 .22917 .09208 .22917 2.489 .0145

(Constant) .00000 .08977 .000 1.0000

------------- Variables not in the Equation -------------

Variable Beta In Partial Min Toler T Sig T

X2 .18681 .09154 .18958 .901 .3700

ANALIZA DYSKRYMINACYJNA

O ile celem analizy regresji jest znalezienie układu predyktorów pozwalających najlepiej przewidywać WARTOŚĆ zmiennej zależnej Y, to celem analizy dyskryminacyjnej jest znalezienie zbioru predyktorów pozwalających najlepiej przewidywać przynależność badanych do jednej z GRUP kryterialnych.

Przykład zastosowania analizy dyskryminacyjnej

Analizujemy dwie grupy badanych: zdrowych i chorych
(np. na choroby krążenia). Interesuje nas które zmienne (spośród dużego zbioru analizowanych zmiennych, takich jak np.: wiek, płeć, waga ciała, palenie papierosów, itp.) pozwalają najlepiej przewidywać ryzyko zachorowania na chorobę układu krążenia, czyli to, czy dana osoba znajdzie się (np. po pięciu latach) w grupie osób zdrowych czy też w grupie osób chorych.

PROBLEM ZALEŻNOŚCI PRZYCZYNOWYCH
W BADANIACH NIEEKSPERYMENTALNYCH

--- ANALIZA ŚCIEŻKOWA (Path analysis) ---

Budujemy MODEL teoretyczny wyjaśniający zależności przyczynowe w pewnym zbiorze zmiennych a następnie sprawdzamy w jakim stopniu dane empiryczne (uzyskane w badaniach korelacyjnych) potwierdzają ten model (podejście konfirmacyjne). Do analizy takiej można wykorzystać analizę regresji wielokrotnej.

Charakterystyka analizy ścieżkowej

Do podobnych, lecz bardziej zaawansowanych analiz wykorzystuje się programy LISREL (J0x01 graphic
reskog) i AMOS

Przykład diagramu ścieżkowego

na rysunku górnym zaznaczono nazwy ścieżek, na rysunku dolnym - wartości współczynników ścieżkowych oraz
(w nawiasach) korelacje między zmiennymi.

0x08 graphic

0x08 graphic
0x08 graphic

0x08 graphic
0x08 graphic
0x08 graphic

0x08 graphic

0x08 graphic
0x08 graphic

0x08 graphic

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic

0x08 graphic
0x08 graphic

0x08 graphic
0x08 graphic

0x08 graphic
0x08 graphic

0x08 graphic

0x08 graphic

0x08 graphic

0x08 graphic
0x08 graphic
0x08 graphic

0x08 graphic

0x08 graphic
0x08 graphic

0x08 graphic

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic

0x08 graphic
0x08 graphic

0x08 graphic
0x08 graphic

0x08 graphic
0x08 graphic

ANALIZA CZYNNIKOWA

Analiza czynnikowa ma na celu poszukiwanie zmiennych ukrytych (czynników) mogących wyjaśnić zależności między pewną (zazwyczaj dużą) liczbą skorelowanych zmiennych mierzonych.

Aby wyjaśnić całą wariancję n zmiennych mierzonych potrzeba zawsze n czynników. Zazwyczaj jednak potrafimy wyjaśnić bardzo znaczny procent wariancji zmiennych mierzonych za pomocą stosunkowo niewielkiej liczby czynników (por. podany niżej przykład liczbowy).

Wiele etapów analizy czynnikowej (np. decyzja co do liczby czynników) oraz interpretacja psychologiczna otrzymanych czynników mają charakter mniej lub bardziej arbitralny.

Analiza czynnikowa KONFIRMACYJNA ma na celu testowanie hipotez wyjaśniających zależności między mierzonymi zmiennymi. Hipotezy te mogą dotyczyć liczby czynników, korelacji między czynnikami, ładunków czynnikowych, itp. (ładunek czynnikowy to korelacja między czynnikiem a zmiennymi mierzonymi).

Analiza czynnikowa EKSPLORACYJNA -- nastawiona na poszukiwanie zmiennych ukrytych (czynników) mogących wyjaśnić zależności między zmiennymi mierzonymi. Jeśli takie czynniki zostaną wykryte powinny być traktowane jako hipotezy do sprawdzenia w kolejnych badaniach.

Analiza czynnikowa stosowana w sposób ateoretyczny określana jest jako podejście „garbage in -- garbage out”, tzn. „śmiecie wkładamy - śmiecie otrzymujemy”.

FACTOR ANALYSIS (PRINCIPAL COMPONENTS)

przykład liczbowy (SPSS)

Correlations: Z1 Z2 Z3 Z4 Z5 Z6

Z1 1.0000 .9036 .7582 -.7680 -.2443 .1076

Z2 .9036 1.0000 .8930 -.6718 -.0340 .3049

Z3 .7582 .8930 1.0000 -.4752 .2263 .5655

Z4 -.7680 - .6718 -.4752 1.0000 .6644 .3817

Z5 -.2443 -.0340 .2263 .6644 1.0000 .7450

Z6 .1076 .3049 .5655 .3817 .7450 1.0000

- - - - F A C T O R A N A L Y S I S - - - -

Initial Statistics:

Variable Communality Factor Eigenvalue Pct of Var Cum Pct

*

Z1 1.00000 * 1 3.32266 55.4 55.4

Z2 1.00000 * 2 2.27418 37.9 93.3

Z3 1.00000 * 3 .18677 3.1 96.4

Z4 1.00000 * 4 .13377 2.2 98.6

Z5 1.00000 * 5 .05483 .9 99.5

Z6 1.00000 * 6 .02780 .5 100.0

PC Extracted 2 factors.

- - - - F A C T O R A N A L Y S I S - - - -

Factor Matrix:

FACTOR 1 FACTOR 2

------------------------------------

Z1 .95496 -.07252

Z2 .96632 .15373

Z3 .87360 .43391

Z4 -.79938 .56529

Z5 -.19747 .92858

Z6 .18907 .93551

Final Statistics:

Variable Communality Factor Eigenvalue Pct of Var Cum Pct

*

Z1 .91722 * 1 3.32266 55.4 55.4

Z2 .95741 * 2 2.27418 37.9 93.3

Z3 .95145 *

Z4 .95856 *

Z5 .90126 *

Z6 .91093 *

---------------------------------------------------------------------------------------

- - - - F A C T O R A N A L Y S I S - - - -

Varimax Rotation 1, Extraction 1, Analysis 1 - Kaiser Normalization.

Varimax converged in 3 iterations.

Rotated Factor Matrix:

FACTOR 1 FACTOR 2

Z1 .94566 -.15146

Z2 .97574 .07307

Z3 .90657 .35997

Z4 -.74975 .62963

Z5 -.11978 .94176

Z6 .26600 .91661

-------------------------------------------------------------------------------

FACTOR 1 FACTOR 2

FACTOR 1 .99656 -.08293

FACTOR 2 .08293 .99656

Model eksperymentalny a korelacyjny

Kryteria

Model

eksperymentalny

Model

korelacyjny

Przedmiot analizy

Różnice między warunkami

Współzmienność zmiennych (siła związku między zmiennymi)

Wymagania

Możliwie jednorodna próba, podzielona losowo na grupy badane w różnych warunkach

(różnice między osobami = błąd eksperymentalny)

Możliwie duża i zróżnicowana próba, badana w identycznych warunkach

zalety

Łatwość kontroli zmiennych ubocznych (randomizacja)

Łatwiejsze wnioskowanie
o zależnościach przyczynowych

Łatwość zbierania danych (łatwość pomiaru dużej liczby zmiennych)

ograniczenia

Zbytnie zwiększanie liczby zmiennych niezależnych (np. liczby grup) jest zwykle bardzo kosztowne

Ograniczona trafność ekologiczna (zwłaszcza badań laboratoryjnych)

Trudność kontroli zmiennych ubocznych

Trudność wnioskowania
o zależnościach przyczynowych. Analiza zależności przyczynowych (
causal analysis) wymaga zwykle bardzo zaawansowanej statystyki

mtd5F (2008 / 2009) - 1

1

p41

p31

r12

p43

3

4

p32

p42

2

e3

e4

1

.009 (.33)

.398 (.41)

(.30)

.416 (.50)

3

4

.041 (.16)

.501 (.57)

2

.710

.911



Wyszukiwarka

Podobne podstrony:
Mtd5e, UW, Metodologia badań psychologicznych, prof. Sosnowski
Mtd2, UW, Metodologia badań psychologicznych, prof. Sosnowski
Mtd5b, UW, Metodologia badań psychologicznych, prof. Sosnowski
Pytania zebrane, UW, Metodologia badań psychologicznych, prof. Sosnowski
Mtd3, UW, Metodologia badań psychologicznych, prof. Sosnowski
Mtd1, UW, Metodologia badań psychologicznych, prof. Sosnowski
Mtd5d, UW, Metodologia badań psychologicznych, prof. Sosnowski
Mtd4, UW, Metodologia badań psychologicznych, prof. Sosnowski
mtd5c, UW, Metodologia badań psychologicznych, prof. Sosnowski
Mtd1, Studia, Psychologia UW - materiały do zajęć, UWPsych - Metodologia badań psychologicznych
METO skrypt skryptu, Metodologia badań psychologicznych A.Tarnowski
falewska1, Metodologia badań psychologicznych - ćwiczenia - Turlejski
Metodologia badań psychologicznych i statystyka dr I. Sowińska Gługiewicz, Metodologia badań psychol
PROJEKT BADAWCZY, Metodologia badań psychologicznych - ćwiczenia - Turlejski
Statystyki nieparametryczne, PSYCHOLOGIA, I ROK, semestr II, podstawy metodologii badań psychologicz
Centralne Twierdzenie Graniczne, PSYCHOLOGIA, I ROK, semestr II, podstawy metodologii badań psycholo

więcej podobnych podstron