background image

Wykład 9

background image

*

Dotychczas szukaliśmy różnic między 
pewnymi grupami (zmienna niezależna 
jakościowa)

background image
background image

*

Podsumowanie – poszukiwanie różnic

background image
background image

*

Oprócz różnic chcemy także poszukiwanie 
związku pomiędzy zmiennymi – metody 
regresyjne

*

Zaczniemy od najprostszej postaci – 
związek między dwiema zmiennymi 
ilościowymi

*

Przewidywanie

background image

*

Spojrzenie na średnie zarobki.

*

Dowiadujemy się, ile zarabiają przeciętnie Polacy i to jest wtedy przewidywana kwota jaką zarobimy.

*

Jeśli znamy predyktory zarobków np. poziom wykształcenia to możemy przewidzieć zarobki znając 
średnią grupową.

*

Skoro osoby z wykształceniem średnim zarabiają przeciętnie 4400 złotych brutto to my też 
powinniśmy

background image

*

Jeśli mamy dwie zmienne ilościowe to 
posługiwanie się średnią jest mało 
dokładne. 

*

Znacznie lepsze jest użycie do 
przewidywania modelu uzyskanego w 
wyniku analizy regresji

background image

*

Pozwala na przewidywanie poziomu 

jednej zmiennej na podstawie poziomu 

drugiej zmiennej.

*

Nie ma sensu przeprowadzać prostej 

analizy regresji, kiedy nie ma korelacji 

między zmiennymi 

*

Im silniejsza korelacja między zmiennymi, 

tym lepsza możliwość przewidywania

*

Analiza regresji prostoliniowej – 

posługujemy się do przewidywania 

matematycznym modelem linii prostej

background image

stala

nachylenia

ˆ

B

X

B

Y

stala

nachylenia

ˆ

A

X

B

Y

background image

X

12

11

10

9

8

7

6

5

4

3

2

1

0

Y

24

22

20

18

16

14

12

10

8

6

4

2
0

*

Jak wzrasta 
wartość X o 1, 
wartość Y 
wzrasta o 2

*

Idealna 
predykcja, w 
większości 
przypadków 
mamy do 
czynienia z 
błędem predykcji

background image

*

Pytanie badawcze: Czy wielkość 

stresu kierownika jest 

powiązana z liczbą podległych 

mu pracowników?

*

Obie zmienne ilościowe

*

Pytanie badawcze o związek 

między zmiennymi

*

Uznajemy, że zależność ta jest 

proporcjonalna więc linia prosta 

będzie dobrym modelem ją 

opisującym. 

background image

Aby opisać dane 
posługujemy się 
modelem linii prostej.

Szukamy takiej linii, 
której odległość od 
wszystkich wyników 
jest minimalna. 
Określamy to za 
pomocą Metody 
Najmniejszych 
Kwadratów 
odległości punktów 
od linii. 

2,00

4,00

6,00

8,00

10,00

12,00

os X - liczba pracowników

0,00

2,00

4,00

6,00

8,00

10,00

12,00

o

Y

 -

 p

o

zi

o

m

 s

tr

es

u

R kwadrat dla Liniowej 

= 0,766

background image

Porównanie 
kwadratów odległości 
punktów od

linii regresji

 oraz 

odległości punktu 
przewidywanego od 
średniej

2,00

4,00

6,00

8,00

10,00

12,00

os X - liczba pracowników

0,00

2,00

4,00

6,00

8,00

10,00

12,00

o

Y

 -

 p

o

zi

o

m

 s

tr

es

u

R kwadrat dla Liniowej 

= 0,766

.

Wyniki 

rzeczywisty

Wyniki 

przewidywan

y

background image

Kwadraty odległości 
punktów to………

Jaka statystyka?

2,00

4,00

6,00

8,00

10,00

12,00

os X - liczba pracowników

0,00

2,00

4,00

6,00

8,00

10,00

12,00

o

Y

 -

 p

o

zi

o

m

 s

tr

es

u

R kwadrat dla Liniowej 

= 0,766

Reszta regresji

Aby sprawdzić, czy 
linia regresji jest 
dobrym modelem 
wykonywana jest 

analiza wariancji

 

porównująca średni 
kwadrat regresji (to 
co regresja wyjaśnia) 
w stosunku do 
średniego kwadratu 
reszt (to czego 
regresja nie 
wyjaśnia)

background image
background image

*

Istotna analiza wariancji informuje nas, że 

odległości przewidywanych wyników są większe 
w porównaniu do reszt.

*

A tak po ludzku?

Analiza wariancji

b

26,036

1

26,036

9,807

,049

a

7,964

3

2,655

34,000

4

Regresja
Reszta
Ogółem

Model
1

Suma

kwadratów

df

Średni

kwadrat

F

Istotność

Predyktory: (Stała), pracow

a. 

Zmienna zależna: stres

b. 

background image

*

Wzór linii  (dla danych surowych): 

stres=0,964*liczba pracowników - 0,75
Na podstawie tego wzoru możemy przewidywać poziom stresu 

innych kierowników

Na przykład – jeśli kierownik ma 40 podwładnych to zgodnie ze 

wzorem 0,964*50-0,75=47,45

Oznacza to, że przewidywany poziom stresu powinien osiągnąć 

około 47 punktów w kwestionariuszu. Nie  musimy więc już go 

mierzyć 

Współczynniki

a

-,750

2,275

-,330

,763

,964

,308

,875

3,132

,049

(Stała)
pracow

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: stres

a. 

background image

*

Interpretacji zależności dokonujemy na podstawie 

współczynnika standaryzowanego beta. Jest to odpowiednik 

współczynnika korelacji R-Pearsona

*

Siła i kierunek zależności

*

Istotność testu t informuje nas o tym czy beta=0

*

Jeśli beta jest równa zero, to nie ma zależności prostoliniowej

*

Jeśli istotnie różni się od zera to znaczy, że mamy zależność – 

wtedy interpretujemy betę

Współczynniki

a

-,750

2,275

-,330

,763

,964

,308

,875

3,132

,049

(Stała)
pracow

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: stres

a. 

background image

*

Jaka jest zatem zależność między liczbą 

podległych pracowników a poziomem stresu?

*

silna ? słaba

*

dodatnia ? ujemna

Współczynniki

a

-,750

2,275

-,330

,763

,964

,308

,875

3,132

,049

(Stała)
pracow

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: stres

a. 

background image

*

Aby się dowiedzieć, czy predyktor jest 

dobrym predyktorem – wyjaśnia duży 
procent wariancji zmiennej 
przewidywanej patrzymy na wartość r 
kwadrat

Model - Podsumowanie

,875

a

,766

,688

1,62934

Model
1

R

R-kwadrat

Skorygowane

R-kwadrat

Błąd

standardowy

oszacowania

Predyktory: (Stała), pracow

a. 

background image

ogolem

regresja

SS

SS

2

Model - Podsumowanie

,875

a

,766

,688

1,62934

Model
1

R

R-kwadrat

Skorygowane

R-kwadrat

Błąd

standardowy

oszacowania

Predyktory: (Stała), pracow

a. 

Analiza wariancji

b

26,036

1

26,036

9,807

,049

a

7,964

3

2,655

34,000

4

Regresja
Reszta
Ogółem

Model
1

Suma

kwadratów

df

Średni

kwadrat

F

Istotność

Predyktory: (Stała), pracow

a. 

Zmienna zależna: stres

b. 

background image

Kolejne kroki analizy regresji:

1.

Sprawdzamy czy model linii regresji 

dobrze pasuje do danych (analiza 

wariancji)

2.

Sprawdzamy, czy istnieje zależność 

między predyktorem a zmienną zależną 

(istotność współczynnika beta)

3.

Interpretujemy współczynnik beta (siła i 

kierunek zależności)

4.

Zapisujemy wzór linii dla danych 

surowych

background image

Współczynniki

a

3,002

1,124

2,670

,026

,500

,118

,816

4,239

,002

(Stała)
x3

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: y3

a. 

Analiza wariancji

b

27,470

1

27,470

17,972

,002

a

13,756

9

1,528

41,226

10

Regresja
Reszta
Ogółem

Model
1

Suma

kwadratów

df

Średni

kwadrat

F

Istotność

Predyktory: (Stała), x3

a. 

Zmienna zależna: y3

b. 

background image

4,00

6,00

8,00

10,00

12,00

14,00

x3

6,00

8,00

10,00

12,00

y3

R kwadrat dla Liniowej 

= 0,666

background image
background image

Gdy 

większe 

niż jeden

background image

Statystyki opisowe

7,5009

2,03058

11

9,0000

3,31662

11

y4
x4

Średnia

Odchylenie

standardowe

N

Współczynniki

a

3,002

1,124

2,671

,026

,500

,118

,817

4,243

,002

(Stała)
x4

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: y4

a. 

background image

5,00

10,00

15,00

20,00

x4

6,00

8,00

10,00

12,00

y4

R kwadrat dla Liniowej 

= 0,667

background image

4,00

6,00

8,00

10,00

12,00

14,00

x2

3,00

4,00

5,00

6,00

7,00

8,00

9,00

10,00

y2

R kwadrat dla Liniowej 

= 0,666

background image

-2

-1

0

1

2

Regresja Standaryzowana wartość przewidywana

-2

-1

0

1

R

eg

re

sj

R

es

zt

st

an

d

ar

yz

o

w

an

a

Zmienna zależna: y2

Wykres rozrzutu

-2

-1

0

1

2

Regresja Standaryzowana wartość przewidywana

-2

-1

0

1

R

eg

re

sj

R

es

zt

st

an

d

ar

yz

o

w

an

a

Zmienna zależna: y1

Wykres rozrzutu

background image

*

Odpowiednia liczba osób badanych. Ale co 

to znaczy? Tabachnick i Fidel podają, że 

musi to być 50 osób plus 8 na każdy 

predyktor. Jeśli mamy jedną zmienną 

niezależną to powinniśmy mieć w zbiorze 

danych 58 osób badanych.

*

Zmienna zależna musi mieć rozkład 

normalny

*

Zmienne niezależne powinny być liniowo 

powiązane ze zmienną zależną

*

Przypadki odstające i ekstremalne powinny 

zostać znalezione i wyeliminowane

background image

*

Jak dobry rozmiar ramy?

*

Wysokość ramy musi zapewniać 
dostateczny dystans pomiędzy górną 
rurą ramy a kroczem. Ma on 
pozwolić na bezpieczne zeskoczenie 
z pedałów bez przykrych 
konsekwencji. W rowerze górskim 
rowerzysta, kiedy stoi okrakiem nad 
ramą, musi mieć możliwość 
uniesienia przedniego koła co 
najmniej 15 cm nad ziemię. 

background image

*

Wykres wygląda 

mało 
zachęcająco, ale 
nie widać 
żadnych 
dewiantów ani 
zależności 
krzywoliniowej

0

1

2

3

4

5

6

7

L.KSIAZEK W DOM BIBLIOTECE R (OBECNIE)

0

20

40

60

80

100

W

Y

N

IK

 W

 T

E

S

C

IE

 A

L

F

A

B

E

T

 F

U

N

K

C

/1

99

9/

0-

10

0

background image

Analiza wariancji

b

188548,096

1 188548,1

234,958

,000

a

768772,778

958

802,477

957320,874

959

Regresja
Reszta
Ogółem

Model
1

Suma

kwadratów

df

Średni

kwadrat

F

Istotność

Predyktory: (Stała), q163  L.KSIAZEK W DOM BIBLIOTECE R (OBECNIE)

a. 

Zmienna zależna: alfa  WYNIK W TESCIE ALFABET FUNKC/1999/0-100

b. 

Model jest dobrze dopasowany do danych F(1, 
958)=234,9; p<0,001

background image

*

Jeśli osoba badana ma zero książek to 

uzyskuje ….. punktów w teście.

*

Wraz z zakupem każdej kolejnej książki 

osoba badana zyskuje 7,8 punktu w teście

*

Zależność jest dość silna i dodatnia

Współczynniki

a

25,851

1,591

16,247

,000

7,847

,512

,444

15,328

,000

(Stała)
q163  L.KSIAZEK W
DOM BIBLIOTECE
R (OBECNIE)

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: alfa  WYNIK W TESCIE ALFABET FUNKC/1999/0-100

a. 

background image

*

Zmienna liczba książek pozwala wyjaśnić prawie 

20% zmienności zmiennej analfabetyzm funkcjonalny

Model - Podsumowanie

,444

a

,197

,196

28,328

Model
1

R

R-kwadrat

Skorygowane

R-kwadrat

Błąd

standardowy

oszacowania

Predyktory: (Stała), q163  L.KSIAZEK W DOM BIBLIOTECE R
(OBECNIE)

a. 

background image

*

Regresja dopasowuje linię prostą – 

metoda najmniejszych kwadratów – 

analiza wariancji

*

Dowiadujemy się jak silny jest związek i 

jaki jest jego kierunek (współczynnik 

beta)

*

Dzięki wzorowi linii możemy przewidywać 

wielkość zmiennej przewidywanej znając 

tylko wielkość predyktora. 

*

Uwaga na dewiantów i krzywoliniowość


Document Outline