W5 zaawansowany
niedziela .
• 1. Ograniczenia współczynnika korelacji
• 2. Regresja wielozmiennowa
• - interpretacja współczynnika korelacji,
determinacji, standaryzowanych i
niestandaryzowanych współczynników
regresji
• Przeczytaj rozdział 8 bez strony 300 i stron 309-324
Wielkość współczynnika korelacji a wielkość próby
• Tabela 8.3. – strona 301
• Hipoteza zerowa – brak związku liniowego
w populacji
• Aby odrzucić H0
• |r| > ……. gdy n=22
• |r|> ……. gdy n=92
Dobroć dopasowania
modelu liniowego
• Związek zmiennych ilościowych możemy przedstawić na wykresie
rozrzutu/korelacyjnych.
• Do zbioru punktów na wykresie możemy zawsze dopasować NAJLEPSZĄ
linię prostą
• Najlepsza linia nie musi być dobra
O tym, na ile jest DOBRA informuje nas:
1.
współczynnik determinacji
2.
kwadrat współczynnika korelacji
3.
stosunek zróżnicowania wyjaśnionego przez regresję do całkowitego
1, 2, 3 to synonimy!
To może jednak nie wystarczyć - patrz rys. 8.5 s.296 – współczynnik korelacji
jest identyczny a dopasowanie prostej do rozkładu na diagramie b nie ma
sensu. WNIOSEK – trzeba starannie oglądać rozkłady.
Równanie linii prostej /regresji można zapisać w postaci
NIEstandaryzowanej ( współczynniki regresji b) lub
STANDARYZOWANEJ ( współczynniki β).
Na podstawie równania
NIEstandaryzowanego
możemy
powiedzieć, że
jeżeli X wzrośnie o JEDNĄ jednostkę,
to Y ====== o b jednostek.
• ( wzrośnie gdy b>0, zmaleje gdy b<0)
Na podstawie równania
standaryzowanego
możemy powiedzieć,
że jeżeli X wzrośnie o JEDNO ODCHYLENIE STANDARDOWE ,
to Y ====== o BETA odchyleń standardowych ( wzrośnie gdy β>0,
zmaleje gdy β <0)
Współczynniki (wagi) regresji
Standaryzowane i nie
współczynniki regresji
Zmiana X
Zmiana Y
niestandaryzowane
O jedną jednostkę X
O b jednostek Y
standaryzowane
O jedno odchylenie
standardowe X
O BETA
odchyleń
standardowych Y
Proste współczynniki korelacji
nie wystarczają aby….
• Porównaj korelację BMI z wiekiem/ wykształceniem
liczoną ( s.302)
• W całej próbie
• Tylko dla mężczyzn
• Tylko dla kobiet
Zależność między wiekiem a BMI dużo silniejsza
dla kobiet niż dla mężczyzn
• r=
0,41
vs r=
0,24
• Porównujemy współczynniki determinacji
• r
2
=(
0,41
)
2
=
0,1681
- prawie
17%
zróżnicowania
BMI
wyjaśnione przez wiek w grupie
kobiet
• r
2
=(
0,24
)
2
=
0,0576
- prawie
6%
zróżnicowania
BMI
wyjaśnione przez wiek w grupie
mężczyzn
Zależność między wiekiem a wykształceniem
dużo silniejsza u …….
• r=-0,55 vs r=- 0,25
• Porównujemy współczynniki determinacji
• r
2
=(
-0,55
)
2
=
0,3025
-
30%
zróżnicowania
wykształcenia wyjaśnione przez wiek w grupie
kobiet
• r
2
=(-0,25)
2
=0,0625
-
6%
zróżnicowania
wykształcenia wyjaśnione przez wiek w grupie
mężczyzn
Przewidywanie Y za pomocą
więcej niż jednego predyktora
• Przykład 8.2 s.304 Warto publikować? Warto się
starzeć?
• Wagi ( współczynniki) regresji zależą od „towarzystwa”
(jakie inne predyktory
zostały uwzględnione w równaniu)
• Porównaj współczynniki dla liczby publikacji w
równaniach
• Y’=$566X
2
+ ….
• Y’=$88X
2
+……
Modele wielozmiennowe
• Kontrolowanie zmiennych ubocznych – które nie są
wyspecyfikowane w modelu ( naszych głównych
hipotezach) ale mogą wpływać na wyniki
• Mówimy wtedy o zależności Y od X1 przy
kontrolowanym statystycznie (
ceteris paribus
) „wpływie”
zmiennych X2, X3……
Inne sposoby kontrolowania zmiennych
ubocznych:
• Losowy dobór do grup porównawczych
• Zamiana zmiennych w stałe ( analizy prób
homogenicznych )
• Kontrola statystyczna jeśli zostały zmierzone
Regresja wieloraka
• Łączny rozkład X i Y
• Najlepsza kombinacja liniowa Y=a +bX
• Najlepsza nie musi być dobra ( r
2
)
• Łączny rozkład X
1
, X
2
i Y
• Najlepsza kombinacja liniowa Y=a
+b
1
X
1
+b
2
X
2
• Najlepsza nie musi być dobra ( R
2
)
Przewidywanie Y
za pomocą 3 zmiennych
• Y=10
X
1
+200
X
2
-30
X
3
-800
Y
– zarobki
X
1
- wiek
X
2
- lata nauki
X
3
- liczba dzieci
Y=10
X
1
+200
X
2
-30
X
3
-800
Y
– zarobki
X
1
- wiek
X
2
- lata nauki
X
3
- liczba dzieci
Pani Kowalska ma po
40 lat
, średnie wykształcenie (
14 lat
nauki
) i
dwoje
dzieci.
X
1
=40 X
2
=14 X
3
=2
Przewidywane zarobki pani Kowalskiej
=
40
*10+
14
*200 +
2
*(-30)-800=400+2800-60-800=2340
Y=10
X
1
+200
X
2
-30
X
3
-800
Y
– zarobki
X
1
- wiek
X
2
- lata nauki
X
3
- liczba dzieci
Pani
Zielińska ma
30 lat
,
wyższe wykształcenie (
17 lat nauki
) i
jest
bezdzietna
Przewidywane zarobki pani
Zielińskiej
X
1
=30 X
2
=17 X
3
=0
=
30
*10+
17
*200 +
0
*(-30)-800=300+3400-0-800=2900
Przewidywanie zarobków
• PGSS s. 306
• Osobne analizy dla kobiet i meżczyzn
• Wprowadzanie interakcji predyktorów do
analizy regresji ( do tego tematu wrócimy
jeszcze
póżniej)
Analiza wariancji a analiza
regresji
ANOVA
• pozwala badać wpływ wielowartościowych
jakościowych/nominalnych zmiennych wyjaśniających (
czynniki)
np
.. Województwo, kraj, wykształcenie
• Wymaga aby zmienne niezależne nie przyjmowały zbyt
wielu wartości ( ograniczenia związane z wielkością
próby). Konieczna redukcja liczby wartości zmiennej (np.
wynik w teście IQ) oznacza utratę informacji
• Pozwala łatwo badać interakcyjny wpływ czynników
• Daje te same wyniki, co analiza regresji ( oparta na tym
samym modelu)