background image

W5 zaawansowany 

niedziela .  

• 1. Ograniczenia współczynnika korelacji 
• 2. Regresja wielozmiennowa 

 

• - interpretacja współczynnika korelacji, 

determinacji, standaryzowanych i 
niestandaryzowanych współczynników 
regresji 

• Przeczytaj rozdział 8 bez strony 300 i stron 309-324 

 

background image

Wielkość współczynnika korelacji a wielkość próby 

• Tabela 8.3. – strona 301 

 

• Hipoteza zerowa – brak związku liniowego 

w populacji 

• Aby odrzucić H0  
• |r| > ……. gdy n=22 
• |r|> ……. gdy n=92 

background image

 

Dobroć dopasowania  

modelu liniowego

 

• Związek zmiennych ilościowych możemy przedstawić na wykresie 

rozrzutu/korelacyjnych. 

• Do zbioru punktów na wykresie możemy zawsze dopasować NAJLEPSZĄ 

linię prostą  

• Najlepsza linia nie musi być dobra 
O tym, na ile jest DOBRA informuje nas:  

1.

współczynnik determinacji 

2.

kwadrat współczynnika korelacji 

3.

stosunek zróżnicowania wyjaśnionego przez regresję do całkowitego 

1, 2, 3 to synonimy! 

To może jednak nie wystarczyć -  patrz rys. 8.5 s.296 – współczynnik korelacji 
jest identyczny a dopasowanie prostej do rozkładu na diagramie b nie ma 
sensu. WNIOSEK – trzeba starannie oglądać rozkłady.  

 

background image

Równanie linii prostej /regresji można zapisać w postaci 

NIEstandaryzowanej ( współczynniki regresji b) lub 
STANDARYZOWANEJ ( współczynniki β). 

Na podstawie równania 

NIEstandaryzowanego

 możemy 

powiedzieć, że  

jeżeli X wzrośnie o JEDNĄ jednostkę,  
to Y ====== o b jednostek. 
• ( wzrośnie gdy b>0, zmaleje gdy b<0) 

Na podstawie równania 

standaryzowanego

 możemy powiedzieć,  

że jeżeli X wzrośnie o JEDNO ODCHYLENIE  STANDARDOWE ,  
to  Y ====== o BETA odchyleń standardowych ( wzrośnie gdy β>0, 

zmaleje gdy β <0) 

 

 

 

 

 

 

Współczynniki (wagi)  regresji 

background image

Standaryzowane i nie 

współczynniki regresji 

Zmiana X 

Zmiana Y 

niestandaryzowane 

O jedną jednostkę 

b jednostek Y  

standaryzowane 

O jedno odchylenie 
standardowe
 X 

BETA 

odchyleń 

standardowych Y  

background image

Proste współczynniki korelacji 

nie wystarczają aby…. 

• Porównaj korelację BMI z wiekiem/ wykształceniem 

liczoną ( s.302) 

• W całej próbie 
• Tylko dla mężczyzn 
• Tylko dla kobiet 

 

background image

Zależność między wiekiem  a  BMI dużo silniejsza 

dla kobiet niż dla mężczyzn 

 

• r=

0,41

 vs  r=

0,24 

• Porównujemy współczynniki determinacji 
• r

2

=(

0,41

)

2

=

0,1681

  - prawie 

17%

 

zróżnicowania 

BMI 

wyjaśnione przez wiek w grupie 

kobiet 

 

• r

2

=(

0,24

)

2

=

0,0576 

 - prawie 

6%

 

zróżnicowania 

BMI 

wyjaśnione przez wiek w grupie 

mężczyzn

  

  

background image

Zależność między wiekiem  a  wykształceniem 

dużo silniejsza u ……. 

 

• r=-0,55 vs  r=- 0,25 
• Porównujemy współczynniki determinacji 
• r

2

=(

-0,55

)

2

=

0,3025

  - 

30%

 

zróżnicowania 

wykształcenia wyjaśnione przez wiek w grupie 

kobiet 

• r

2

=(-0,25)

2

=0,0625  

-  

6%

 

zróżnicowania 

wykształcenia wyjaśnione przez wiek w grupie 

mężczyzn  

  

background image

Przewidywanie Y za pomocą 

więcej niż jednego predyktora 

• Przykład 8.2 s.304 Warto publikować? Warto się 

starzeć? 

• Wagi ( współczynniki) regresji zależą od „towarzystwa” 

(jakie inne predyktory 

zostały uwzględnione w równaniu) 

• Porównaj współczynniki dla liczby publikacji w 

równaniach 

• Y’=$566X

2

+ …. 

• Y’=$88X

2

+…… 

 

 

background image

Modele wielozmiennowe 

• Kontrolowanie zmiennych ubocznych – które nie są 

wyspecyfikowane w modelu ( naszych głównych 

hipotezach) ale mogą wpływać na wyniki 

• Mówimy wtedy o zależności Y od X1 przy 

kontrolowanym statystycznie ( 

ceteris paribus

) „wpływie” 

zmiennych X2, X3…… 
 
 

background image

Inne sposoby kontrolowania zmiennych 

ubocznych: 

 

 

• Losowy dobór do grup porównawczych 
• Zamiana zmiennych w stałe ( analizy prób 

homogenicznych ) 

• Kontrola statystyczna jeśli zostały zmierzone 

 
 

background image

Regresja wieloraka 

 

 

• Łączny rozkład X i Y 
• Najlepsza kombinacja liniowa Y=a +bX 
• Najlepsza nie  musi być dobra ( r

2

 

• Łączny rozkład X

1

, X

2

  i Y 

• Najlepsza kombinacja liniowa Y=a 

+b

1

X

1

+b

2

X

• Najlepsza nie  musi być dobra ( R

2

)

 

 

background image

Przewidywanie Y  

za pomocą 3 zmiennych 

• Y=10

X

1

+200

X

2

-30

X

3

-800 

 Y

– zarobki  

 

X

1

- wiek

  

X

2

- lata nauki

 

 X

3

- liczba dzieci 

background image

Y=10

X

1

+200

X

2

-30

X

3

-800 

 

– zarobki  

 

X

1

- wiek

  

X

2

- lata nauki

 

 X

3

- liczba dzieci 

 

 

 

 

Pani Kowalska ma po 

40 lat

, średnie wykształcenie (

14 lat

 

nauki

) i 

dwoje

 dzieci.   

X

1

=40  X

2

=14 X

3

=2 

 
 
Przewidywane zarobki pani Kowalskiej 
=

40

*10+

14

*200 +

2

*(-30)-800=400+2800-60-800=2340 

 

background image

Y=10

X

1

+200

X

2

-30

X

3

-800 

 

– zarobki  

 

X

1

- wiek

  

X

2

- lata nauki

 

 X

3

- liczba dzieci 

 

 

 

 

Pani 

Zielińska ma 

30 lat

wyższe wykształcenie (

17 lat nauki

) i 

jest 

bezdzietna 

Przewidywane zarobki pani 

Zielińskiej 

X

1

=30  X

2

=17 X

3

=0 

 
=

30

*10+

17

*200 +

0

*(-30)-800=300+3400-0-800=2900 

 

background image

Przewidywanie zarobków 

• PGSS s. 306 
• Osobne analizy dla kobiet i meżczyzn  
• Wprowadzanie interakcji predyktorów do 

analizy regresji ( do tego tematu wrócimy 
jeszcze 

póżniej) 

background image

Analiza wariancji a analiza 

regresji 

ANOVA  

• pozwala badać wpływ wielowartościowych 

jakościowych/nominalnych zmiennych wyjaśniających ( 
czynniki) 

np

.. Województwo, kraj, wykształcenie 

• Wymaga aby zmienne niezależne nie przyjmowały zbyt 

wielu wartości ( ograniczenia związane z wielkością 
próby). Konieczna redukcja liczby wartości zmiennej (np. 
wynik w teście IQ) oznacza utratę informacji 

• Pozwala łatwo badać interakcyjny wpływ czynników 
• Daje te same wyniki, co analiza regresji ( oparta na tym 

samym modelu)