Model korelacyjno-
regresyjny
Wprowadzenie do analizy
ścieżek
Schematy badawcze
Korelacyjny
Korelacyjny
Różnicowy
Różnicowy
Eksperymentalny
Eksperymentalny
Pomiar
zmiennej 1
I.
I.
Niezależny pomiar kilku zmiennych
Niezależny pomiar kilku zmiennych
Badanie w schemacie
korelacyjnym
Pomiar
zmiennej 2
Pomiar
zmiennej i
• W badaniach psychologicznych zmienne
często są nierandomizowalne, w związku z
tym nie możemy zastosować schematu
eksperymentalnego badań.
• Schematy badawcze korelacyjny i
różnicowy nie wykluczają stawiania
hipotez przyczynowo-skutkowych.
– Nie można ich jednak w pełni zweryfikowąć
– Uzyskanie istotności statystycznych modelu
oznacza, że zależności między zmiennymi
mogą mieć charakter przyczynowy.
Model regresyjny
• W jaki sposób można przewidzieć
zmienność jednej zmiennej na
podstawie informacji o drugiej
zmiennej?
• Jak zmieniają się wartości jednej
zmiennej wraz ze zmianą wartości
drugiej zmiennej?
• Wnioskowanie w kategoriach
przyczyny i skutku
Nikotyna przyczyną
zwiększonego ryzyka
choroby wieńcowej
Według raportu Światowej
Organizacji Zdrowia,
• Choroba wieńcowa występuje prawie 2-krotnie
częściej u palaczy, niż u osób niepalących,
• Palenie tytoniu obok podwyższonego poziomu
cholesterolu we krwi i nadciśnienia tętniczego
oraz otyłości jest głównym czynnikiem ryzyka
choroby wieńcowej i zawału serca.
– wytwarzany w czasie palenia tlenek węgla zmniejsza
dotlenienie serca i mózgu oraz śródbłonka naczyń
tętniczych
– sama nikotyna wpływa również niekorzystnie na mięsień
serca, zwłaszcza u osób z już istniejącą chorobą
wieńcową
Styl życia
• Dorosłych Polaków charakteryzuje styl
życia sprzyjający występowaniu chorób
sercowo-naczyniowych.
• Świadomość czynników ryzyka w
badanych populacjach jest niska.
• Styl życia mężczyzn cechuje większa
częstość zachowań niekorzystnych.
• Do palenia tytoniu przyznawało się
– w 1997: 38% (K: 30%, M: 47%) i
– W 2000: 35% (K: 27,5%, M: 44,5%).
Problem
• Zależność między liczbą wypalanych
papierosów i chorobą wieńcową
• Chcielibyśmy przewidzieć
współczynnik umieralności
spowodowaną chorobą wieńcową dla
kraju w którym dorośli wypalają
średnio 6 papierosów dziennie
Palenie papierosów i umieralność na
chorobę wieńcową w 21 krajach
Dane w SPSS
• Dane wpisane w
schemacie
korelacyjnym
• Zmienna na podstawie
której będziemy
przewidywać to:
• Liczba papierosów
(zmienna
wyjaśniająca,
predyktor)
• Umieralność to
zmienna wyjaśniana,
zmienna zależna
Niezbędna wizualizacja
związku
• Zanim przeprowadzimy analizę
istotności statystycznej, niezbędne
jest przyjrzenie się wykresowi
rozrzutu dla predyktora i zmiennej
zależnej w celu wyśledzenia:
• Zależności nieliniowej
– Interesujemy się zależnością liniową –
będziemy robić analizę regresji liniowej
• Wyników skrajnych
(outlierów)
• Robimy prosty
wykres rozrzutu
• Według konwencji:
– Predyktor na osi X
– Zmienna zależna na
osi Y
Linia regresji
Co jest lepszym opisem
danych
Średni wskaźnik
umieralności wynosi 14,52
Czy przewidywanie w oparciu
o średnią,
czy też o linię regresji
jest lepszym opisem zależności
W którym przypadku byłby
większy błąd predykcji?
Linia regresji
– Ŷ= przewidywana wartość Y (wskaźnik
umieralności na chorobę wieńcową na 10000)
– X = liczba spalanych papierosów w danym
kraju na 1 dorosłego (predyktor – zmienna
niezależna)
– Współczynniki regresji szacują jak dokładnie
wyniki Y są przewidywane przez to równanie
liniowe
stala
nachylenia
ˆ
B
X
B
Y
Analiza> regresja> regresja
liniowa
W prostej regresji liniowej mamy tylko 1 predyktor
Testowanie współczynnika
nachylenia linii i stałej
• Jeśli wybrana przez nas zmienna istotnie przewiduje zmienną
zależną, wtedy współczynnik b powinien być istotnie rożny od zera
• Istotność współczynników regresji sprawdzamy za pomocą testu t,
czy są istotnie różne od zera
BS
B
t
Przewidywanie
– Chcieliśmy przewidzieć wielkość wskaźnika
umieralności na CW w kraju, w którym średnio
dorosły wypala 6 papierosów dziennie.
– Na podstawie modelu regresji
przewidywalibyśmy, iż około 15 osób na 10 tys.
w tym kraju umrze na chorobę wieńcową.
61
,
14
37
.
2
6
*
04
.
2
ˆ
37
.
2
04
.
2
ˆ
Y
X
B
X
B
Y
stala
nachylenia
Regresja wielozmiennowa
Przykład
• Badanie Kliewera i in. (1998) dotyczące
roli przemocy na internalizację
zachowania
– Definicja internalizacji zachowania
• Predyktory
– Poziom obserwowanej przemocy
– Miara stresu życiowego
– Miara wsparcia społecznego
Przemoc a internalizacja
• Badanymi były dzieci 8-12 lat
– Żyjące w okolicach o dużej
przestępczości
– Hipoteza: przemoc i stres prowadzą do
internalizacji agresywnego zachowania.
Macierz korelacji
Wstępne obserwacje
• Zauważmy, że oglądanie przemocy i
stres są istotnie skorelowane z
internalizacją.
• Zauważmy, że predyktory są
niepowiązane ze sobą.
Korelacja wielokrotna
• Rozumiana analogicznie do r
• Zawsze pisana dużymi literami (n.p.,
R)
• Zawsze pozytywna
– Korelacja predyktorów ze zmienną
zależną
– Często podaje się wartość R
2
zamiast R
(proporcjonalna redukcja błędu)
R
2
Model - Podsumowanie
,370
a
,135
,108
2,21000
Model
1
R
R-kwadrat
Skorygowane
R-kwadrat
Błąd
standardowy
oszacowania
Predyktory: (Stała), WSPARCIE, STRES, PRZEMOC
a.
Współczynniki regresji
• Współczynniki regresji i stała.
• Każdy predyktor uwzględnia wpływ
innych predyktorów.
• Dodatkowe współczynniki b i beta w
porównaniu do regresji z jednym
predyktorem
Statystyczna istotność
współczynników regresji
Współczynniki
a
,477
1,289
,370
,712
,038
,018
,201
2,111
,039
,273
,106
,247
2,575
,012
-,074
,043
-,166
-1,721
,087
(Stała)
PRZEMOC
STRES
WSPARCIE
Model
1
B
Błąd
standardowy
Współczynniki
niestandaryzowane
Beta
Współczynniki
standaryzowa
ne
t
Istotność
Zmienna zależna: INTERNAL
a.
Równanie regresji
• Osobne współczynniki dla każdego
predyktora
• Stała (tutaj b
o,
, często oznaczane
jako a)
477
.
0
*
074
.
0
*
273
.
0
Pr
*
038
.
0
ˆ
0
3
3
2
2
1
1
Wsparcie
Stres
zem
b
X
b
X
b
X
b
Y
Sprawdzamy założenia do
analizy regresji
• Zmienna zależna – mierzona na skali
ilościowej
• Predyktory – ilościowe lub kategorialne
(0,1)
• Liniowy związek między predyktorem a
zmienną zależną (wykresy rozrzutu)
• Brak silnych korelacji między predyktorami
– Silna korelacja między predyktorami – podobną
część wariancji będą wyjaśniać w zmiennej
zależnej - będą się znosić w modelu
Problem skorelowanych
predyktorów
Korelacja semicząstkowa i
cząstkowa
• Przy korelacji cząstkowej kontrolujemy wpływ
trzeciej zmiennej na obie zmienne
– Korelacje cząstkowe są bardziej użyteczne, gdy chcemy
przyjrzeć się unikalnemu związkowi dwóch zmiennych
• W semicząstkowej korelacji kontrolujemy wpływ
trzeciej zmiennej, który ma ona tylko na jedną ze
zmiennych branych do korelacji
– Semicząstkowe, kiedy interesuje nas wyjaśnienie
zmienności zmiennej zależnej na podstawie kilku
predyktorów.
Korelacja cząstkowa
A
B
C
• Kontrolujemy wpływ trzeciej zmiennej
• Odrzucamy jej wspólną wariancję z pierwszą i drugą zmienną
• Korelujemy ze sobą oczyszczone reszty zmienności pierwszej i
drugiej zmiennej ( po usunięciu wpływu trzeciej zmiennej)
Korelacja semicząstkowa
• Korelacja semicząstkowa między A i B przy
wyłączeniu wspólnej zmienności zmiennej C z
ze zmienną B
• Korelujemy resztę ze zmiennej B ze zmienną A
A
B
C
zależna
Analiza ścieżek
Analiza ścieżek
• Analiza ścieżek pozwala na zbadanie
zależności przyczynowych dla
zmiennych w schemacie
korelacyjnym.
Schemat korelacyjno-
regresyjny
• Podstawowe mankamenty:
– Zawężona do pojęcia współzmienności
interpretacja relacji między zmiennymi
– Uproszczona struktura relacji między
zmiennymi
– Arbitralna kolejność wprowadzania
zmiennych do modelu
Analiza ścieżek w porównaniu
do prostego modelu
regresyjnego
• Bogatsza, przyczynowa interpretacja
zależności między zmiennymi w przypadku
nieodrzucenia modelu
• Bardziej złożona struktura relacji między
zmiennymi – umożliwia to analizę efektów
pośrednich i bezpośrednich
• Nie prowadzi do arbitralnej hierarchii
istotności zmiennych
Przyczynowość
• Przyczynowość w ujęciu
analizy ścieżek
rozumiana jest jako
możliwość potencjalnej
manipulacji zmienną
niezależną, co zmieni
zmienną zależną.
• Jeżeli między zmiennymi
są liniowe, addytywne i
jednokierunkowe
możemy wyrazić ich
stosunek równaniem
liniowym:
1
1
X
b
Y
0
1
1
b
X
b
Y
• Dlatego współczynnik
regresji można uwżać
za równoważny
efektowi
przyczynowemu.
– W analizie ścieżek
określa się go jako
współczynnik ścieżki
lub
regresyjny
współczynnik ścieżki
w przypadku zmiennych
wystandaryzowanych.
1
1
Z
Z
j
Diagram ścieżek
• Trzy kategorie zmiennych:
– Egzogeniczne
– ich zmienność spowodowana
jest przyczynami leżącymi poza modelem
– Engogeniczne
– ich zmienność jest wyjaśniania
innymi zmiennymi modelu, zarówno endo- jak i
egzogenicznymi.
– Zmienne resztowe
– oznaczane są symbolem e
lub E. Określają wariancję spowodowaną
istnieniem zmiennych nie ujętych w modelu.
• Ścieżki
– oznaczane strzałkami
przedstawiającymi zakładane relacje
pryczynowo-skutkowe.
Diagram ścieżek
Błąd pomiaru
Zmienna
endogeniczna
Zmienne
egzogeniczn
e
Model ścieżkowy ze
skorelowanymi zmiennymi
wyjaśniającymi
• Przeprowadzana jest seria
oddzielnych lecz powiązanych ze
sobą regresji wielokrotnych.
Założenia analizy ścieżek
• Relacje między zmiennymi są:
– Przyczynowe
– Liniowe
– Addytywne
• Zmienne resztowe nie są skorelowane
– Ze sobą
– Ze zmiennymi poprzedzającymi je w
modelu
• Zmienne w modelu mierzone są na skali
ilościowej.
Współczynnik ścieżek
• Współczynnik ścieżek to
wystandaryzowany współczynnik
regresji (beta) pokazujący jaki wpływ
na zmienną zależną ma zmienna
niezależna przy założeniu istnienia
wszystkich zależeności w modelu.
Przykład 1
Cechy interakcji społ. w
internecie
(McKenna i Bargh, 2000)
1. Anonimowość
2. Brak widocznych cech fizycznych
3. Fizyczny dystans
4. Względność czasu
Efekt anonimowości
(McKenna i Bargh, 2000)
• Deindywiduacja
– mniejsza możliwość regulacji własnego zachowania: zmniejszona
zdolność planowania;
– zmniejszenie wpływu wewnętrznych standardów zachowania i
zwiększenie wpływu czynników zewnętrznych
– mniejsza uwaga przykładana do tego co inni myślą na mój temat
• Możliwość zabaw z własną tożsamością
– Możliwość konstruowania większej liczby ról i identyfikacji.
– Możliwość budowy własnej tożsamości, roli społecznej „od podstaw”
– Daje możliwość ekspresji własnych cech, które nie mogą być
wyrażone w rzeczywistości społecznej
– Niebezpieczeństwo utraty poczucia spójności wewnętrznej
• Brak społecznych konsekwencji zachowań oraz presji
społecznej
Brak cech fizycznych
• Autoprezentacja
– Jesteśmy bardziej skłonni do prezentacji cech własnego
idealnego Ja
– Zmniejszenie dystansu pomiędzy Ja realnym i Ja idealnym
• Bardziej lubimy osoby poznawane przez Internet
(McKenna i in., 1999; Bargh i in., 2002)
– Większa otwartość w Internecie
– Większa intymność początkowych relacji
– Brak pierwszego wrażenia spowodowanego wyglądem
Demarginalizacja mniejszościowych
identyfikacji seksualnych
(McKenna i in. 1998)
Uczestnictwo
w grupie
dyskusyjnej
Osobista
ważność
identyfikacji
z grupą
Samoakcepacja
Ujawnienie się
Alienacja
Izolacja
społeczna
.52
.51
.24
-.23
-.19
Demarginalizacja mniejszościowych
identyfikacji politycznych
(McKenna i in. 1998)
Uczestnictwo
w grupie
dyskusyjnej
Osobista
ważność
identyfikacji
z grupą
Samoakcepacja
Ujawnienie się
Alienacja
Izolacja
społeczna
.49
.47
.43
-.26