Regresja liniowa

Część 1

Zadanie 1

• Badano związki między liczbą treningów pisania bezwzrokowego, a liczbą

popełnianych błędów.

• Otrzymano następujące wyniki:

Zadanie 1

Liczba treningów

Liczba błędów

1

8

2

7

3

6

4

5

5

6

6

5

7

4

Zadanie 1

trening

błędy

b2

t2

t x b

(t)

(b)

1

8

8

1

64

2

7

14

4

49

3

6

18

9

36

4

5

20

16

25

5

6

30

25

36

6

5

30

36

25

7

4

28

49

16

28

41

148

140

251

Zadanie 1

NΣ xy − (Σ x)(Σ y) r =

=

[

2

NΣ x − (Σ x)2 ][

2

NΣ y − (Σ y)2 ]

7 1

* 48 − 28* 41

r =

=

(7 1

* 40 − 282 )(7 * 251− 412 )

1036 −1148

−112

r =

=

= − 9

,

0 18

9

( 80 − 78 )

4 1

( 757 −168 )

1

196 * 76

Zadanie 1

• r = - 0,918 współczynnik Pearsona

• r2= 0,842

współczynnik determinacji

• Zmienne posiadają 84,2 % wspólnej wariancji

Zadanie 1

• Związek pomiędzy zmiennymi moŜemy zdefiniować jako :

• y = bx +a

• gdzie b – współczynnik kierunkowy,

• natomiast a to współczynnik przesunięcia

Zadanie 1

NΣ xy − (Σ x)(Σ y) b =

2

NΣ x − (Σ x)2

7 1

* 48 − 28* 41

1036 −1148

b =

=

7 1

* 40 − (2 )

8 2

980 − 784

−112

b =

= − 5

,

0 71

196

Zadanie 1

y = bx + a

y = x

b + a

a = y − x

b

Σ y 41

y =

=

= 8

,

5 6

N

7

28

x =

= ,

4 00

7

a = 8

,

5 6 − (− 5

,

0 7 )

1 * 4 = 1

,

8 44

Zadanie 1

• Wartość współczynnika b moŜna równieŜ

wyznaczyć ze wzoru:

s y

b = r yx s x

Zadanie 1

• Równanie regresji:

• y= -0,571 x + 8,144

Zadanie 1

8

7

6

5

4

3

2

1

0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

-1

Wykres rozrzutu 1

Zmienna zaleŜna: błędy

1,0

hcty 0,5

ięnus utaz 0,0se

Rjas

re -0,5

geR

-1,0

4,00

5,00

6,00

7,00

8,00

błędy

Zadanie 1

Model - Podsumowanie

b

Błąd

Statystyki zmiany

Skorygowane

standardowy

Zmiana

Istotność

Model

R

R-kwadrat

R-kwadrat

oszacowania

R-kwadrat

Zmiana F

df1

df2

zmiany F

1

,918a

,842

,811

,58554

,842

26,667

1

5

,004

a. P

redyktory: (Stała), trening

b. Z

mienna zaleŜna: błędy

Zadanie 1

Współczy

Współczynniki(a)

nniki

Współczynniki

standaryz

Korelacje

niestandaryzowane

owane

Błąd

Rzędu

Semicz

standardo

Beta

zeroweg

Cząstko

ąstkow

Mo

del

B

wy

t

Istotność

o

wa

a

1

(Stała)

8,143

,495

16,454

,000

trening

-,571

,111

-,918

-5,164

,004

-,918

-,918

-,918

Zadanie 2

• Do naszego modelu dochodzi kolejna zmienna niezaleŜna, poziom stresu.

• Wyniki prezentują się w następujący sposób:

Zadanie 2

Liczba

Liczba błędów

Poziom stresu

treningów

1

8

6,00

2

7

6,00

3

6

5,00

4

5

5,00

5

6

4,00

6

5

4,00

7

4

3,00

Zadanie 2

Model - Podsumowan

bie

Błąd

Statystyki zmiany

Skorygowane standardowy

Zmiana

Istotność

Model

R

R-kwadrat R-kwadrat

oszacowania R-kwadrat Zmiana F

df1

df2

zmiany F

1

,927a

,860

,852

,48418

,860

119,438

2

39

,000

a.P

redyktory: (Stała), stress, trening b.Z

mienna zaleŜna: błędy

Zadanie 2

Współczynnik

a i

Współczynniki

Współczynniki

standaryzowa

niestandaryzowane

ne

Korelacje

Błąd

Rzędu

Semicząs

Model

B

standardowy

Beta

t

Istotność zerowegoCząstkowa tkowa 1

(Stała) 12,619

2,034

6,203

,000

trening

-,905

,156

-1,453

-5,818

,000

-,918

-,682

-,349

stress

-,667

,302

-,551

-2,208

,033

,859

-,333

-,132

a.Z

mienna zaleŜna: błędy

Korelacja cząstkowa

• Korelacja między dwiema zmiennymi pozostająca po uwzględnieniu wpływu innej zmiennej (jednej lub większej ilości).

Przykładowo, Długość włosów moŜe być skorelowana ze Wzrostem(przy czym niŜsze osoby będą miały dłuŜsze włosy), jednak korelacja ta zmniejszy się lub całkowicie zniknie, jeŜeli usuniemy wpływ zmiennej Płeć, poniewaŜ

kobiety są zwykle nieco niŜsze i mają dłuŜsze włosy niŜ męŜczyźni.

Korelacja semicząstkowa

• Korelacja semicząstkowa stanowi ona miarę skorelowania dwóch zmiennych jaka pozostaje po uwzględnieniu (tzn. wyeliminowaniu) wpływów jednej lub wielu innych predyktorów .

Współczynnik korelacji semicząstkowej lub częściowej jest lepszym wskaźnikiem

"faktycznego oddziaływania" predyktora poniewaŜ zostaje wyskalowany (tzn. odniesiony do) całkowitej zmienności zmiennej zaleŜnej (odpowiedzi)

Korelacje, a r2

• Brak wspólnej wariancji, r2=0

Korelacje, a r2

• r=0,5 r2 = 0,25

Korelacje, a r2

• Zmienne 1 i 2

nie mają

wspólnej

wariancji,

r2=0,5

Korelacje, a r2

• Zmienne 1 i 2 są skorelowane, r2=0,33

Regresja warunkowa

• Dla kaŜdej wartości x istnieje i

rozkład moŜliwych wartości y.

• Rozkład zmiennej zaleŜnej jest rozkładem normalnym o średniej

leŜącej na linii regresji.

Regresja warunkowa

• Dla dowolnej wartości jednej

zmiennej rozkłady warunkowe drugiej zmiennej charakteryzują się

identycznym odchyleniem

standardowym określonym wzorem:

Regresja warunkowa 2

s

= s 1− r

y / x

y

yx

Regresja warunkowa

• Jak widać w sytuacji gdy r=1 , odchylenie s

równe jest 0 –

y/x

wszystkie punkty połoŜone są na

jednej linii

Regresja warunkowa

• Znajomość równania regresji

pozwala nam na przewidywanie

wyników uzyskanych na jednej

skali (y) na podstawie wyników

drugiej skali (x).

Regresja warunkowa

• Rozkład prawdopodobnych wartości y jest rozkładem normalnym o średniej leŜącej na linii regresji i odchyleniu: 2

s

= s 1− r

y / x

y

yx

Regresja warunkowa

• Wartości z rozkładu normalnego dla zmiennej zaleŜnej y obliczamy ze wzoru:

−µ

i

x

z = σ y/ x

Regresja warunkowa

• We wzorze tym występuje

odchylenie standardowe obliczane ze wzoru:

2

σ

= σ 1− r

y / x

y

Przykład 1

• Korelacja pomiędzy wynikami z testów z języka polskiego oraz historii jest równa r=0,8, a równanie regresji pomiędzy zmiennymi określone jest wzorem:

• y=x+3

• Odchylenie standardowe zmiennej y wynosi 5

Przykład 1

• Jaki procent osób, które uzyskały 10

pkt na egzaminie z języka polskiego uzyska więcej niŜ 15 pkt na

egzaminie z historii ?

Przykład 2

• Pomiędzy wynikami testów A i B istnieje związek liniowy określony wzorem:

• y=0,8x+2

• s =15

y

• s =12

x

Przykład 2

• Jakie jest prawdopodobieństwo, Ŝe osoba, która w teście A

uzyskała 50 pkt, w teście B

otrzyma mniej niŜ 40 pkt ?