WYKLAD 2001 6 ppt

background image

Korelacja i
regresja

background image

TYPY ZWIĄZKÓW MIĘDZY ZMIENNYMI

Związek funkcyjny

– każdej wartości jednej zmiennej

niezależnej odpowiada tylko jedna wartość zmiennej
zależnej

Wzór na obwód kwadratu

Wzór na objętość kuli

X

Y 4

0

10

20

30

40

50

0

2

4

6

8

10

12

[cm]

[cm]

0

1000

2000

3000

4000

5000

0

2

4

6

8

10 12

[cm]

[cm

3

]

3

3

4

X

Y

X - długość boku

X - promień kuli

background image

TYPY ZWIĄZKÓW MIĘDZY ZMIENNYMI

Związek statystyczny

– określonym wartościom

zmiennej niezależnej odpowiadają określone średnie
wartości zmiennej zależnej

72

,

87

15

,

4

wiek

wzrost

cm

wzrost

2

,

129

72

,

87

10

15

,

4

Wzrost w tej grupie dzieci zwiększa się średnio o 4,15 cm rocznie

Błąd standardowy estymacjiS

e

=12,72

Przewidywane wartości zmiennej WZROST różnią się od średnich

empirycznych przeciętnie o 12,72cm

Przewidywany wzrost 10-latka w tej grupie dzieci:

background image

STATYSTYCZNE METODY ANALIZY KIERUNKU I

KSZTAŁTU POWIĄZAŃ MIEDZY ZMIENNYMI

Regresja liniowa

– liniowa zależność miedzy dwoma zmiennymi ilościowymi

•Regresja wielokrotna

– oddziaływanie wielu zmiennych na jedną

zmienną zależną ilościową (relacje między zmiennymi liniowe)

Regresja krzywoliniowa

– nieliniowe relacje między zmiennymi

•Regresja logistyczna

– wpływ zmiennych ilościowych na

zmienną zależną dychotomiczną

Analiza kanoniczna

– powiązania miedzy zbiorami zmiennych

ilościowych

Analiza log-liniowa

– powiązania miedzy zbiorami zmiennych

jakościowych

background image

MIARY ZWIĄZKÓW MIĘDZY ZMIENNYMI

Siła związku

Współczynniki korelacji

Pearsona
Spearmana

Kształt związku

Równania regresji

Tau Kendalla
Gamma

background image

SIŁA ZWIĄZKU

4 0

5 0

6 0

7 0

8 0

9 0

1 0 0 1 1 0 1 2 0 1 3 0

[m m ]

4 0

5 0

6 0

7 0

8 0

9 0

1 0 0 1 1 0 1 2 0 1 3 0

[m m ]

[m m ]

[m m ]

Mała siła związku między
dwiema zmiennymi. Danej
wartości jednej zmiennej
odpowiada szeroki zakres
wartości drugiej zmiennej.

4 0

5 0

6 0

7 0

8 0

9 0

1 0 0 1 1 0 1 2 0 1 3 0

[m m ]

4 0

5 0

6 0

7 0

8 0

9 0

1 0 0 1 1 0 1 2 0 1 3 0

[m m ]

[m m ]

[m m ]

Duża siła związku między
dwiema zmiennymi. Danej
wartości jednej zmiennej
odpowiada niewielki zakres
wartości drugiej zmiennej.

background image

KSZTAŁT ZWIĄZKU

40

50

60

70

80

90 100 110 120 130 [dni]

[mm]

40

50

60

70

80

90 100110120130 [dni]

[mm]

40

50

60

70

80

90 100 110 120 130 [dni]

[mm]

40

50

60

70

80

90 100110120130 [dni]

[mm]

4 0

5 0

6 0

7 0

8 0

9 0

1 0 0 1 1 0 1 2 0 1 3 0

[d n i]

[m m ]

4 0

5 0

6 0

7 0

8 0

9 0

1 0 0 1 1 0 1 2 0 1 3 0

[d n i]

[m m ]

Związki prostoliniowe

Związki krzywoliniowe

Korelacja dodatnia

Korelacja ujemna

background image

ZWIĄZKI

PROSTOLINIOW

E

background image

SIŁA ZWIĄZKU MIĘDZY DWIEMA ZMIENNYMI

Współczynnik korelacji liniowej Pearsona

Jest współczynnikiem parametrycznym

Teoretycznie rozkłady wartości jednej obu zmiennych musza być
zgodne z rozkładem normalnym. Odstępstwa od tej zasady nie maja
jednak większego wpływu na wartość współczynnika korelacji.

Przyjmuje wartości od -1 do 1

Jego znak wskazuje na kierunek zależności

Oznacza się go literą

r

Ma zastosowanie wyłącznie do danych w skali interwałowej i
ilorazowej

Na jego wartość duży wpływ maja obserwacje odstające

Dotyczy wyłącznie liniowej zależności miedzy zmiennymi

Znaczne różnice w kształcie obu rozkładów mogą wpływać na jego
wartość.

background image

SIŁA ZWIĄZKU MIĘDZY DWIEMA ZMIENNYMI

Współczynnik korelacji liniowej Pearsona

Istotność współczynnika korelacji Pearsona bada się odpowiedni test, który
pozwala ocenić, czy korelacja stwierdzona na podstawie próby jest
przypadkowa, czy też odzwierciedla prawidłowości istniejące w populacji. H

0

zakłada, że współczynnik korelacji Pearsona nie różni się istotnie od zera.

Wartość wsp. korelacji

Siła związku

Poniżej 0,20

Korelacja bardzo słaba

Między 0,20 i 0,39

Korelacja słaba

Między 0,40 i 0,69

Korelacja
umiarkowana

Między 0,70 i 0,89

Korelacja silna

Powyżej 0,89

Korelacja bardzo silna

background image

WSPÓŁCZYNNIK KORELACJI LINIOWEJ PEARSONA

Przykład 21

Badano związek między różnymi pomiarami biometrycznymi u biegusów
płaskodziobych
Otrzymano następujące wartości współczynnika korelacji. Kolorem
czerwonym zaznaczono współczynniki istotnie różne od 0.

dzió

b

sko

k

skrzydł

o

cięża

r

dziób

1,00

skok

0,47

1,0

0

skrzydł
o

0,40 0,3

3

1,00

ciężar

0,31

0,1

7

0,28

1,00

Stwierdzono umiarkowane skorelowanie długości dzioba z długością skoku i
długością skrzydła oraz słabą korelację pomiędzy długością dzioba i ciężarem
ciała, długością skoku i długością skrzydła oraz długością skrzydła i ciężarem
ciała.
Nie stwierdzono zależności między długością skoku i ciężarem ciała (r=0,17;
t=1,32; p=0,19)

background image

PORÓWNANIE DWÓCH WSPÓŁCZYNNIKÓW KORELACJI LINIOWEJ

PEARSONA

Ma zastosowanie w sytuacji, gdy chcemy sprawdzić czy siła związku dwóch
zmiennych w dwóch różnych populacjach jest taka sama.

Przykład 22

Współczynniki korelacji między wysokością i pierśnicą sosen rosnących na
dwóch różnych siedliskach wynoszą odpowiednio: 0,83 (n=123) i 0,71
(n=94). Należy sprawdzić czy siła związku między pierśnicą i wysokością
sosen zależy od typu siedliska.

H

0

: siła związku jest taka sama

H

A

: siła związku nie jest taka sama

Do wykonania testu potrzebne są wartości współczynników korelacji i

liczebności prób

siedlisko 1 siedlisko

2

r

0,83

0,71

n

123

94

p = 0,0315

Siła związku między wysokością i
pierśnicą sosen rosnących na dwóch
siedliskach różni się istotnie (p<0,05).

Zależność między wysokością i
pierśnicą sosen zależy od typu siedliska
(p<0,05).

Istnieje także test porównujący
wiele współczynników korelacji.

background image

NIEPARAMETRYCZNE WSPÓŁCZYNNIKI KORELACJI

Współczynnik korelacji Spearmana

Jest nieparametrycznym odpowiednikiem współczynnika korelacji
Pearsona

Obliczany jest w nie w oparciu o wartości pomiarów, a o ich rangi

Współczynnik tau Kendalla

Jego wartość obliczana jest na podstawie różnicy między
prawdopodobieństwem tego, że dwie zmienne układają się w tym samym
porządku, a prawdopodobieństwem, że ich uporządkowanie się różni.

Przyjmuje wartości od -1 do 1. Jego znak wskazuje na kierunek zależności

Wskazuje na zgodność uporządkowania dwóch zbiorów

Przyjmuje wartości od -1 do 1. Jego znak wskazuje na kierunek zależności

Jego znak wskazuje na kierunek zależności

Mogą być stosowane do danych w skali porządkowej

Współczynnik Gamma

Odpowiednik współczynnika tau Kendalla dla danych z bardzo dużą liczbą par wiązanych

Zalecane do prób o małej liczebności

background image

NIEPARAMETRYCZNE WSPÓŁCZYNNIKI KORELACJI

Przykład 23

Badano związek między różnymi pomiarami biometrycznymi u 10 biegusów
zmiennych.
Otrzymano następujące wartości współczynnika korelacji Spearmana.
Kolorem czerwonym zaznaczono współczynniki istotnie różne od 0.

dzió
b

skrzydł
o

cięża
r

dziób

1,00

skrzydł

o

0,97

1,00

ciężar

0,35

0,39

1,00

Stwierdzono istotną statystycznie bardzo silną korelację między długością
dzioba i skrzydła (r

s

=0,97; p<0,05). Nie stwierdzono zależności między

długością skrzydła i ciężarem ciała (r

s

=0,39; p>0,05) oraz długością dzioba i

ciężarem ciała (r

s

=0,35; p>0,05).

background image

NIEPARAMETRYCZNE WSPÓŁCZYNNIKI KORELACJI

Przykład 24

Badano czy międzysezonowe zmiany liczebności u 3 gatunków siewkowców
przebiegają podobnie. Otrzymano następujące wartości współczynnika
korelacji tau Kendalla. Kolorem czerwonym zaznaczono współczynniki istotnie
różne od 0.

Biegus
krzywodziob
y

Biegus
rdzawy

Krwawodzió
b

Biegus
krzywodzioby

1,00

Biegus rdzawy

0,51

1,00

Krwawodziób

-0,45

-0,14

1,00

Stwierdzono istotną statystycznie umiarkowaną korelację między zmianami
liczebności biegusa rdzawego i krzywodziobego (tau Kendalla=0,51; p<0,05).
Nie stwierdzono zależności między zmianami liczebności krwawodzioba i obu
gatunków biegusów (tau Kendalla=-0,45; p>0,05 i tau Kendalla=-0,14;
p>0,05)).

background image

KORELACJA WIELOKROTNA

Do oceny siły związku między więcej niż dwoma zmiennymi służą
współczynniki korelacji wielokrotnej. Przyjmują one wartości od 0 (brak
związku) do 1 (związek doskonały).

Stosuje się go w przypadku analiz parametrycznych.

Oznacza się go literą

R

Jest on pierwiastkiem kwadratowym ze

współczynnika determinacji R

2

, który

wykorzystywany jest w analizie regresji do oceny dopasowania równania
regresji do danych empirycznych.

Stosuje się go w przypadku analiz nieparametrycznych.

Współczynnik ten wykorzystywany jest także jako ocena zgodności między
wieloma rankingami (tzw. ocena zgodności niezależnych sędziów).

Oznacza się go literą

W

Współczynnik korelacji wielokrotnej

Współczynnik zgodności Kendalla

background image

KORELACJA CZĄSTKOWA

Jest miarą korelacji między dwiema zmiennymi z wyłączeniem wpływu na ten
związek innych zmiennych.

Stosowany jest w analizach regresji opisujących wpływ wielu zmiennych na
wartość zmiennej badanej.

Współczynnik korelacji cząstkowej

Wysoka wartość współczynnika korelacji cząstkowej dwóch zmiennych przy
niskim współczynniku korelacji Pearsona świadczy o silnej zależności tych
zmiennych i o silnie zaburzającym tą zależność wpływie pozostałych
zmiennych.

Wysoka wartość współczynnika korelacji cząstkowej dwóch zmiennych przy
wysokim współczynniku korelacji Pearsona świadczy o silnej zależności tych
zmiennych i o braku wpływu na tą zależność pozostałych zmiennych.

background image

KORELACJA CZĄSTKOWA I WIELOKROTNA

Przykład 25

Badano związek między wzrostem pewnego gatunku rośliny a temperaturą i
ilością opadów. Eksperyment przeprowadzono w laboratorium na 30
osobnikach. Kolorem czerwonym oznaczono współczynniki istotne
statystycznie (p<0,05).

Współczynni

k korelacji

cząstkowej

Współczynnik

korelacji Pearsona

Temperatura

0,39

0,73

Opady

0,70

0,85

Wzrost badanego gatunku rośliny jest silniej uzależniony od ilości opadów
(oba współczynniki przyjmują wysoką wartość), niż od temperatury (niska
wartość współczynnika korelacji cząstkowej).

Współczynnik korelacji wielokrotnej

R=0,86

Ilość opadów i temperatura bardzo silnie korelują ze wzrostem badanego
gatunku rośliny (współczynnik korelacji wielokrotnej R=0,86).

background image

KSZTAŁT ZWIĄZKU

REGRESJA

PROSTOLINIOWA

background image

KORELACJA

i

REGRESJA

Związki jednostronne

– wartość jednej zmiennej (tzw. zmiennej niezależnej)

wpływa na wartość drugiej zmiennej (tzw. zmiennej zależnej). Odwrotna
zależność nie istnieje. Np. wiek drzewa (zmienna niezależna) i wysokość
drzewa (zmienna zależna).

Związki dwustronne

– wzajemne oddziaływanie na siebie dwóch zmiennych.

Nie można wskazać zmiennej zależnej i zmiennej niezależnej, np. związek
wysokości i pierśnicy drzewa.

Do oceny siły obu tych związków stosuje się współczynniki korelacji

Do przedstawienia przebiegu tych zależności stosuje się:
• związki jednostronne –

linia regresji

• związki dwustronne –

oś główna zredukowana

background image

b

ax

y

Y

X

0

10

20

30

40

0

5

10

15

20

[dni]

[mm]

Zmiany długości liścia pewnego gatunku rośliny w kolejnych dniach

Regresja prostoliniowa

długość liścia

=

a

*

dzień

+

b

y

– zmienna zależna

x

– zmienna niezależna

a

– współczynnik regresji (współczynnik

kierunkowy)

o ile zmieni się wartość zmiennej zależnej, gdy
wartość zmiennej niezależnej zwiększy się o 1

b

– wyraz wolny (punkt przecięcia prostej regresji z osią Y)

background image

METODA NAJMNIEJSZYCH KWADRATÓW

0

10

20

30

40

0

5

10

15

20

[dni]

[mm]

b

ax

y

Parametry równania prostej regresji wyznaczane są w taki sposób, by suma
kwadratów odchyleń przyjmowała minimalną wartość.

background image

Regresja prostoliniowa

Przykład 26

Na podstawie próby 35 mężczyzn w tym samym wieku zbadano zależność
ciężaru ciała od wzrostu.

c ię ż a r = 1 , 4 0 * w z r o s t - 1 7 6 , 5

1 5 5

1 6 0

1 6 5

1 7 0

1 7 5

1 8 0

1 8 5

1 9 0

1 9 5

w z r o s t

4 5

5 0

5 5

6 0

6 5

7 0

7 5

8 0

8 5

9 0

ci

ęż

ar

[c m ]

[k g ]

r = 0 , 9 9

Jaka część obserwowanej zmienności ciężaru ciała jest wyjaśniona przez
wzrost?

R

2

=0,99

R

2

- współczynnik determinacji

Współczynnik regresji istotnie
różni się od zera (związek
regresyjny jest istotny)

(t=50,3; p<0,001)

background image

Regresja prostoliniowa

Przykład 26 cd.

Jaki jest przewidywany ciężar mężczyzny z tej grupy o wzroście 187 cm?

c ię ż a r = 1 , 4 0 * w z r o s t - 1 7 6 , 5

ciężar = 1,40 * 187 cm -176,5

ciężar = 85 kg

155

160

165

170

175

180

185

190

195

wzrost

45

50

55

60

65

70

75

80

85

90

ci

ęż

ar

[cm]

[kg]

Jaki dokładne jest nasze
oszacowanie?

Błąd standardowy szacunku

(estymacji)

: 1,04 kg

(odchylenie standardowe z reszt –

mówi o ile przeciętnie różnią się wartości empiryczne od wartości teoretycznych
reprezentowanych przez prostą regresji

background image

Regresja

wielokrotna

background image

b

x

a

x

a

x

a

x

a

y

n

n

......

3

3

2

2

1

1

b

ax

y

Równanie regresji prostoliniowej z jedna zmienną niezależną

Regresja wielokrotna

Równanie regresji prostoliniowej z wieloma zmiennymi niezależnymi

zmienne niezależne = zmienne objaśniające

Regresja wielokrotna jest jedną z

najpowszechniej stosowanych metod w bardziej

zaawansowanych analizach statystycznych

Wartość każdego ze współczynników regresji informuje o ile zmieni się
wartość zmiennej zależnej, gdy wartość danej zmiennej niezależnej zwiększy
się o 1, a pozostałe zmienne niezależne pozostaną bez zmian.

background image

Regresja wielokrotna

Przykład 27

Pomierzono i zważono 435 biegusów krzywodziobych. Należało znaleźć
równanie regresji szacujące ciężar ciała na podstawie wymiarów liniowych.

B

Błąd st.

t

poziom p

wyraz wolny

-28,16

14,28

-1,97

0,049

dł. głowy

-0,07

0,15

-0,47

0,635

dł. nogi

0,48

0,21

2,32

0,021

dł. skrzydła

0,45

0,12

3,71

0,000

Uzyskano następujące wyniki

R

2

= 0,07

Błąd standardowy
szacunku = 6,55

Ciężar ciała = 0,54*dł. nogi + 0,23*dł. skrzydła – 8,06

B

Błąd st.

t

poziom p

wyraz wolny

-8,06

11,39

-0,71

0,479

dł. nogi

0,54

0,14

3,90

0,000

dł. skrzydła

0,23

0,09

2,48

0,013

R

2

= 0,05

Błąd standardowy
szacunku = 6,25

Uzyskano model (równanie, który objaśnia zaledwie 5% zaobserwowanej
zmienności ciężaru ciała tego gatunku. Jego wartość prognostyczna jest
bardzo niska. Na ciężar ciała biegusów zmiennych silnie wpływają inne
zmienne niż analizowane pomiary liniowe

Ciężar ciała = -0,07*dł. głowy + 0,48*dł. nogi + 0,45*dł. skrzydła – 28,16

background image

Założenia analizy regresji

Liniowość modelu

Liczebność próby większa od liczby szacowanych
parametrów
Rozkład reszt musi być normalny

Brak autokorelacji reszt

Homoscedastyczność

background image

LINIOWOŚĆ MODELU

40

50

60

70

80

90 100 110 120 130 [dni]

[mm]

40

50

60

70

80

90 100 110 120 130 [dni]

[mm]

40

50

60

70

80

90 100 110 120 130 [dni]

[mm]

40

50

60

70

80

90 100 110 120 130 [dni]

[mm]

background image

LICZEBNOŚĆ PRÓBY WIĘKSZA OD LICZBY

SZACOWANYCH PARAMETRÓW

b

x

a

Y

 *

b

x

a

x

a

Y

2

2

1

1

*

*

N>2

N>3

b

x

a

x

a

x

a

Y

3

3

2

2

1

1

*

*

*

N>4

W praktyce zawsze dysponujemy większa liczebnością prób

background image

DEFINICJA RESZT

5

,

3

4

5

4

3

2

X

5

,

3

5

5

,

3

4

5

,

3

3

5

,

3

2

-1,5

-0,5

0,5

1,5

-1,5

2

=2,25

-0,5

2

=0,25

0,5

2

=0,25

1,5

2

=2,25

5,00

29

,

1

1

5

n

s

3

,

1

5

,

3 

x

ROZKŁAD RESZT MUSI BYĆ NORMALNY

background image

i

i

i

y

y

e

ˆ

DEFINICJA RESZT

40

50

60

70

80

90

100

110

120

130

[dni]

[mm]

background image

ROZKŁAD RESZT MUSI BYĆ NORMALNY

test Shapiro-Wilka; W=0,95;
p>0,05

-2,5

-1,5

-0,5

0,5

1,5

2,5

-6

-4

-2

0

2

4

Reszty

W

a

rt

o

śc

i

o

cz

e

k

iw

a

n

e

-6 -5

-4

-3

-2

-1

0

1

2

3

0

2

4

6

8

N

background image

Sprawdzenie założeń, których spełnienie jest

warunkiem wyznaczania równania regresji
metodą najmniejszych kwadratów

Odnalezienie punktów odstających i

ekstremalnych

Wykrycie niejednorodności danych zebranych w

wyniku badań, co może wskazywać na istnienie
czynników nieuwzględnionych w modelu, lub
może być pierwszym krokiem wiodącym do
odkrycia nowego zjawiska

Analiza reszt w regresji liniowej umożliwia:

Analiza reszt powinna być wykonywana

obligatoryjnie po wstępnym ustaleniu

parametrów równania regresji

background image

BRAK AUTOKORELACJI RESZT

t

t

t

e

e

 1

współczynnik autokorelacji

0

:

0

:

0

A

H

H

Autokorelacja występuje, jeżeli

współczynnik autokorelacji istotnie różni się

od zera

Autokorelację spotyka się najczęściej w tzw. szeregach czasowych – gdy
zmienną niezależną jest czas. Autokorelacja występuje gdy wartość
zmiennej zależnej w danym punkcie zależy od jej wartości w punkcie
poprzednim.

Autokorelacja reszt równania regresji występuje gdy składnik resztowy w
danym punkcie zależy od składnika resztowego w punkcie poprzednim.

background image

WNIOSKOWANIE ZA POMOCĄ TESTU DURBINA-

WATSONA

0

2

4

d

L

4-d

L

d

U

4-d

U

a

u

to

k

o

re

la

c

ja

d

o

d

a

tn

ia

a

u

to

k

o

re

la

c

ja

u

je

m

n

a

brak

autokorelacji

reszt

o

b

s

z

a

r

n

ie

k

o

n

k

lu

zy

w

n

o

ś

c

i

o

b

s

z

a

r

n

ie

k

o

n

k

lu

zy

w

n

o

ś

c

i

wartość testu - d <0;4>

dwie wartości krytyczne - d

L

i d

U

równanie regresji musi mieć wyraz wolny

N>15

Jeśli wartość testu Durbina-Watsona nie rozstrzyga o istnieniu autokorelacji,
stosuje się

test mnożników Lagrange’a

background image

POSTĘPOWANIE PRZY AUTOKORELACJI

•Ponownie przeanalizować zastosowany model.

Autokorelację może powodować wadliwa postać
funkcyjna modelu

•Zastosować inna metodę estymacji równania regresji niż

metoda najmniejszych kwadratów

•Nie robić nic - ale wtedy nasze estymatory (czyli

parametry równania) nie będą efektywne

40

50

60

70

80

0

10 20

30

40

DNI

N

background image

HOMOSCEDASTYCZNOŚĆ

Wariancja reszt jest taka sama dla wszystkich wartości

zmiennej zależnej

-20

-10

0

10

20

90

100 110 120 130

[dni]

[mm]

Wartości przewidywane

re

sz

ty

homoscedastyczność

-20

-10

0

10

20

90

100 110 120 130

[dni]

[mm]

Wartości przewidywane

re

sz

ty

heteroscedastyczność

background image

WYKRYWANIE HETEROSCEDASTYCZNOŚCI

-20

-10

0

10

20

90

100

110

120

130

[dni]

[mm]

Wartości przewidywane

re

sz

ty

test Lagrange’a

F=16,5; p<0,001

background image

POSTĘPOWANIE PRZY HETEROSCEDASTYCZNOŚCI

•Zastosować inna metodę estymacji równania regresji niż

metoda najmniejszych kwadratów

•Zastosować transformację danych:

 

Y

Y

log

gdy wariancja wzrasta

gdy wariancja maleje

2

Y

Y

•Nie robić nic - ale wtedy nasze estymatory (czyli

parametry równania) nie będą efektywne

background image

WSPÓŁLINIOWOŚĆ ZMIENNYCH NIEZALEŻNYCH

Tylko w przypadku regresji wielokrotnej

Po stronie zmiennych niezależnych nie powinny występować

pomiary silnie ze sobą skorelowane

80

,

10

BL

28

,

0

BM

48

,

0

F

12

,

10

THL

51

,

0

BL

24

,

0

BM

45

,

0

F

zmienna

B

t

p

BM

0,45 3,51

0,003

BL

0,24 1,72 0,104

THL

0,51 0,39 0,701

w.wolny

10,12 3,27

0,005

zmienna

B

t

p

BM

0,48 3,58

0,002

BL

0,28 2,55

0,020

w.wolny

10,80 3,38

0,004

931

,

0

R

2

933

,

0

2

R

background image

OBSERWACJE NIETYPOWE

40

50

60

70

80

90

100 110 120 130

[dni]

[mm]

40

50

60

70

80

90

100 110 120 130

[dni]

[mm]

•Mogą być następstwem błędu pomiaru

•Mogą wskazywać na złą postać modelu

Statystyczną weryfikację przypadków

nietypowych musi poprzedzić analiza

merytoryczna

odstająca
wpływowa

background image

WYKRYWANIE OBSERWACJI NIETYPOWYCH

•Wykresy rozrzutu:

•Wartości przewidywanych względem otrzymanych
•Wartości przewidywanych względem reszt

•Porównanie uzyskanych pomiarów z teoretycznym

zakresem wartości danej zmiennej

•Analiza statystyk związanych z resztami:

•Odległość Cooka
•Odległość Mahalanobisa

Po usunięciu pomiaru nietypowego należy

ponownie wykonać analizę regresji

background image

Regresja prostoliniowa

Przykład 26 cd.

c ię ż a r = 1 , 4 0 * w z r o s t - 1 7 6 , 5

Liniowość modelu

– punkty układają się wzdłuż linii prostej

Liczebność próby większa od liczby szacowanych parametrów

N = 35, liczba szacowanych parametrów równania = 2 (a, b)

c ię ż a r = 1 , 4 0 * w z r o s t - 1 7 6 , 5

1 5 5

1 6 0

1 6 5

1 7 0

1 7 5

1 8 0

1 8 5

1 9 0

1 9 5

w z r o s t

4 5

5 0

5 5

6 0

6 5

7 0

7 5

8 0

8 5

9 0

ci

ęż

ar

[c m ]

[k g ]

r = 0 , 9 9

background image

Regresja prostoliniowa

Przykład 26 cd.

c ię ż a r = 1 , 4 0 * w z r o s t - 1 7 6 , 5

Rozkład reszt musi być normalny

- 3

- 2

- 1

0

1

2

3

R e s z ty

- 3

- 2

- 1

0

1

2

3

O

cz

ek

iw

an

a

w

ar

to

ść

n

or

m

al

na

r

es

zt

Wykres normalności reszt

background image

Brak autokorelacji reszt

Regresja prostoliniowa

Przykład 26 cd.

c ię ż a r = 1 , 4 0 * w z r o s t - 1 7 6 , 5

Wynik testu Durbina-Watsona d = 2,10

Wartości krytyczne dla α=0,05, n=35,
k=1 (liczba zmiennych niezależnych)

d

L

= 1,402; d

U

= 1,519

0

2

4

d

L

4-d

L

d

U

4-d

U

a

u

to

k

o

re

la

c

ja

d

o

d

a

tn

ia

a

u

to

k

o

re

la

c

ja

u

je

m

n

a

brak

autokorelacji

reszt

o

b

s

za

r

n

ie

k

o

n

k

lu

zy

w

n

o

ś

c

i

o

b

s

za

r

n

ie

k

o

n

k

lu

z

y

w

n

o

ś

c

i

1,402

1,519

2,598

2,481

2

,1

0

Nie ma podstaw do odrzucenia H

0

o braku autokorelacji reszt

background image

Regresja prostoliniowa

Przykład 26 cd.

c ię ż a r = 1 , 4 0 * w z r o s t - 1 7 6 , 5

Homoscedastyczność

45

50

55

60

65

70

75

80

85

90

Wartości przewidywane

-3

-2

-1

0

1

2

3

R

es

zt

y

Brak hereroscedastyczności. Rozrzut reszt względem wartości
przewidywanych nie wykazuje wyraźnej tendencji rosnącej lub malejącej.

background image

40

50

60

70

80

90 100 110 120 130 [dni]

[mm]

40

50

60

70

80

90 100 110 120 130 [dni]

[mm]

40

50

60

70

80

90 100 110 120 130 [dni]

[mm]

40

50

60

70

80

90 100 110 120 130 [dni]

[mm]

Regresja krzywoliniowa

background image

Związki pozorne

Analiza siły i przebiegu związku między zmiennymi MUSI

być poprzedzona wnikliwą analizą merytoryczną

badanego zjawiska.

Istotny związek między liczbą urodzin i liczbą bocianów w
Polsce

Istotny związek między liczbą urodzin i spożyciem alkoholu w Kanadzie

Przykłady związków pozornych

Istotny związek liczbą strażaków biorących udział w gaszeniu pożaru i
wielkością strat materialnych.

background image


Document Outline


Wyszukiwarka

Podobne podstrony:
WYKLAD 2001 5 ppt
WYKLAD 2001 3 ppt
WYKLAD 2001 2 ppt
WYKLAD 2001 4 ppt
WYKLAD 2001 7 ppt
(7631) ck wyklad6id 1165 ppt
Wyklad 12 ppt
LOGISTYKA W17., Wykład 2001-03-05
02 wyklad3id 3850 ppt
Wyklad 6 elearning ppt
wyklad3id 19403 ppt
wyklad5id 19405 ppt
1 finanse wykladid 9239 ppt
0 Podstawy WT Organizacja wykładuid 1852 ppt

więcej podobnych podstron