Korelacja i
regresja
TYPY ZWIĄZKÓW MIĘDZY ZMIENNYMI
• Związek funkcyjny
– każdej wartości jednej zmiennej
niezależnej odpowiada tylko jedna wartość zmiennej
zależnej
Wzór na obwód kwadratu
Wzór na objętość kuli
X
Y 4
0
10
20
30
40
50
0
2
4
6
8
10
12
[cm]
[cm]
0
1000
2000
3000
4000
5000
0
2
4
6
8
10 12
[cm]
[cm
3
]
3
3
4
X
Y
X - długość boku
X - promień kuli
TYPY ZWIĄZKÓW MIĘDZY ZMIENNYMI
• Związek statystyczny
– określonym wartościom
zmiennej niezależnej odpowiadają określone średnie
wartości zmiennej zależnej
72
,
87
15
,
4
wiek
wzrost
cm
wzrost
2
,
129
72
,
87
10
15
,
4
Wzrost w tej grupie dzieci zwiększa się średnio o 4,15 cm rocznie
Błąd standardowy estymacjiS
e
=12,72
Przewidywane wartości zmiennej WZROST różnią się od średnich
empirycznych przeciętnie o 12,72cm
Przewidywany wzrost 10-latka w tej grupie dzieci:
STATYSTYCZNE METODY ANALIZY KIERUNKU I
KSZTAŁTU POWIĄZAŃ MIEDZY ZMIENNYMI
• Regresja liniowa
– liniowa zależność miedzy dwoma zmiennymi ilościowymi
•Regresja wielokrotna
– oddziaływanie wielu zmiennych na jedną
zmienną zależną ilościową (relacje między zmiennymi liniowe)
• Regresja krzywoliniowa
– nieliniowe relacje między zmiennymi
•Regresja logistyczna
– wpływ zmiennych ilościowych na
zmienną zależną dychotomiczną
• Analiza kanoniczna
– powiązania miedzy zbiorami zmiennych
ilościowych
• Analiza log-liniowa
– powiązania miedzy zbiorami zmiennych
jakościowych
MIARY ZWIĄZKÓW MIĘDZY ZMIENNYMI
•Siła związku
• Współczynniki korelacji
• Pearsona
• Spearmana
•Kształt związku
• Równania regresji
• Tau Kendalla
• Gamma
SIŁA ZWIĄZKU
4 0
5 0
6 0
7 0
8 0
9 0
1 0 0 1 1 0 1 2 0 1 3 0
[m m ]
4 0
5 0
6 0
7 0
8 0
9 0
1 0 0 1 1 0 1 2 0 1 3 0
[m m ]
[m m ]
[m m ]
Mała siła związku między
dwiema zmiennymi. Danej
wartości jednej zmiennej
odpowiada szeroki zakres
wartości drugiej zmiennej.
4 0
5 0
6 0
7 0
8 0
9 0
1 0 0 1 1 0 1 2 0 1 3 0
[m m ]
4 0
5 0
6 0
7 0
8 0
9 0
1 0 0 1 1 0 1 2 0 1 3 0
[m m ]
[m m ]
[m m ]
Duża siła związku między
dwiema zmiennymi. Danej
wartości jednej zmiennej
odpowiada niewielki zakres
wartości drugiej zmiennej.
KSZTAŁT ZWIĄZKU
40
50
60
70
80
90 100 110 120 130 [dni]
[mm]
40
50
60
70
80
90 100110120130 [dni]
[mm]
40
50
60
70
80
90 100 110 120 130 [dni]
[mm]
40
50
60
70
80
90 100110120130 [dni]
[mm]
4 0
5 0
6 0
7 0
8 0
9 0
1 0 0 1 1 0 1 2 0 1 3 0
[d n i]
[m m ]
4 0
5 0
6 0
7 0
8 0
9 0
1 0 0 1 1 0 1 2 0 1 3 0
[d n i]
[m m ]
Związki prostoliniowe
Związki krzywoliniowe
Korelacja dodatnia
Korelacja ujemna
ZWIĄZKI
PROSTOLINIOW
E
SIŁA ZWIĄZKU MIĘDZY DWIEMA ZMIENNYMI
Współczynnik korelacji liniowej Pearsona
Jest współczynnikiem parametrycznym
Teoretycznie rozkłady wartości jednej obu zmiennych musza być
zgodne z rozkładem normalnym. Odstępstwa od tej zasady nie maja
jednak większego wpływu na wartość współczynnika korelacji.
Przyjmuje wartości od -1 do 1
Jego znak wskazuje na kierunek zależności
Oznacza się go literą
r
Ma zastosowanie wyłącznie do danych w skali interwałowej i
ilorazowej
Na jego wartość duży wpływ maja obserwacje odstające
Dotyczy wyłącznie liniowej zależności miedzy zmiennymi
Znaczne różnice w kształcie obu rozkładów mogą wpływać na jego
wartość.
SIŁA ZWIĄZKU MIĘDZY DWIEMA ZMIENNYMI
Współczynnik korelacji liniowej Pearsona
Istotność współczynnika korelacji Pearsona bada się odpowiedni test, który
pozwala ocenić, czy korelacja stwierdzona na podstawie próby jest
przypadkowa, czy też odzwierciedla prawidłowości istniejące w populacji. H
0
zakłada, że współczynnik korelacji Pearsona nie różni się istotnie od zera.
Wartość wsp. korelacji
Siła związku
Poniżej 0,20
Korelacja bardzo słaba
Między 0,20 i 0,39
Korelacja słaba
Między 0,40 i 0,69
Korelacja
umiarkowana
Między 0,70 i 0,89
Korelacja silna
Powyżej 0,89
Korelacja bardzo silna
WSPÓŁCZYNNIK KORELACJI LINIOWEJ PEARSONA
Przykład 21
Badano związek między różnymi pomiarami biometrycznymi u biegusów
płaskodziobych
Otrzymano następujące wartości współczynnika korelacji. Kolorem
czerwonym zaznaczono współczynniki istotnie różne od 0.
dzió
b
sko
k
skrzydł
o
cięża
r
dziób
1,00
skok
0,47
1,0
0
skrzydł
o
0,40 0,3
3
1,00
ciężar
0,31
0,1
7
0,28
1,00
Stwierdzono umiarkowane skorelowanie długości dzioba z długością skoku i
długością skrzydła oraz słabą korelację pomiędzy długością dzioba i ciężarem
ciała, długością skoku i długością skrzydła oraz długością skrzydła i ciężarem
ciała.
Nie stwierdzono zależności między długością skoku i ciężarem ciała (r=0,17;
t=1,32; p=0,19)
PORÓWNANIE DWÓCH WSPÓŁCZYNNIKÓW KORELACJI LINIOWEJ
PEARSONA
Ma zastosowanie w sytuacji, gdy chcemy sprawdzić czy siła związku dwóch
zmiennych w dwóch różnych populacjach jest taka sama.
Przykład 22
Współczynniki korelacji między wysokością i pierśnicą sosen rosnących na
dwóch różnych siedliskach wynoszą odpowiednio: 0,83 (n=123) i 0,71
(n=94). Należy sprawdzić czy siła związku między pierśnicą i wysokością
sosen zależy od typu siedliska.
H
0
: siła związku jest taka sama
H
A
: siła związku nie jest taka sama
Do wykonania testu potrzebne są wartości współczynników korelacji i
liczebności prób
siedlisko 1 siedlisko
2
r
0,83
0,71
n
123
94
p = 0,0315
Siła związku między wysokością i
pierśnicą sosen rosnących na dwóch
siedliskach różni się istotnie (p<0,05).
Zależność między wysokością i
pierśnicą sosen zależy od typu siedliska
(p<0,05).
Istnieje także test porównujący
wiele współczynników korelacji.
NIEPARAMETRYCZNE WSPÓŁCZYNNIKI KORELACJI
Współczynnik korelacji Spearmana
Jest nieparametrycznym odpowiednikiem współczynnika korelacji
Pearsona
Obliczany jest w nie w oparciu o wartości pomiarów, a o ich rangi
Współczynnik tau Kendalla
Jego wartość obliczana jest na podstawie różnicy między
prawdopodobieństwem tego, że dwie zmienne układają się w tym samym
porządku, a prawdopodobieństwem, że ich uporządkowanie się różni.
Przyjmuje wartości od -1 do 1. Jego znak wskazuje na kierunek zależności
Wskazuje na zgodność uporządkowania dwóch zbiorów
Przyjmuje wartości od -1 do 1. Jego znak wskazuje na kierunek zależności
Jego znak wskazuje na kierunek zależności
Mogą być stosowane do danych w skali porządkowej
Współczynnik Gamma
Odpowiednik współczynnika tau Kendalla dla danych z bardzo dużą liczbą par wiązanych
Zalecane do prób o małej liczebności
NIEPARAMETRYCZNE WSPÓŁCZYNNIKI KORELACJI
Przykład 23
Badano związek między różnymi pomiarami biometrycznymi u 10 biegusów
zmiennych.
Otrzymano następujące wartości współczynnika korelacji Spearmana.
Kolorem czerwonym zaznaczono współczynniki istotnie różne od 0.
dzió
b
skrzydł
o
cięża
r
dziób
1,00
skrzydł
o
0,97
1,00
ciężar
0,35
0,39
1,00
Stwierdzono istotną statystycznie bardzo silną korelację między długością
dzioba i skrzydła (r
s
=0,97; p<0,05). Nie stwierdzono zależności między
długością skrzydła i ciężarem ciała (r
s
=0,39; p>0,05) oraz długością dzioba i
ciężarem ciała (r
s
=0,35; p>0,05).
NIEPARAMETRYCZNE WSPÓŁCZYNNIKI KORELACJI
Przykład 24
Badano czy międzysezonowe zmiany liczebności u 3 gatunków siewkowców
przebiegają podobnie. Otrzymano następujące wartości współczynnika
korelacji tau Kendalla. Kolorem czerwonym zaznaczono współczynniki istotnie
różne od 0.
Biegus
krzywodziob
y
Biegus
rdzawy
Krwawodzió
b
Biegus
krzywodzioby
1,00
Biegus rdzawy
0,51
1,00
Krwawodziób
-0,45
-0,14
1,00
Stwierdzono istotną statystycznie umiarkowaną korelację między zmianami
liczebności biegusa rdzawego i krzywodziobego (tau Kendalla=0,51; p<0,05).
Nie stwierdzono zależności między zmianami liczebności krwawodzioba i obu
gatunków biegusów (tau Kendalla=-0,45; p>0,05 i tau Kendalla=-0,14;
p>0,05)).
KORELACJA WIELOKROTNA
Do oceny siły związku między więcej niż dwoma zmiennymi służą
współczynniki korelacji wielokrotnej. Przyjmują one wartości od 0 (brak
związku) do 1 (związek doskonały).
Stosuje się go w przypadku analiz parametrycznych.
Oznacza się go literą
R
Jest on pierwiastkiem kwadratowym ze
współczynnika determinacji R
2
, który
wykorzystywany jest w analizie regresji do oceny dopasowania równania
regresji do danych empirycznych.
Stosuje się go w przypadku analiz nieparametrycznych.
Współczynnik ten wykorzystywany jest także jako ocena zgodności między
wieloma rankingami (tzw. ocena zgodności niezależnych sędziów).
Oznacza się go literą
W
Współczynnik korelacji wielokrotnej
Współczynnik zgodności Kendalla
KORELACJA CZĄSTKOWA
Jest miarą korelacji między dwiema zmiennymi z wyłączeniem wpływu na ten
związek innych zmiennych.
Stosowany jest w analizach regresji opisujących wpływ wielu zmiennych na
wartość zmiennej badanej.
Współczynnik korelacji cząstkowej
Wysoka wartość współczynnika korelacji cząstkowej dwóch zmiennych przy
niskim współczynniku korelacji Pearsona świadczy o silnej zależności tych
zmiennych i o silnie zaburzającym tą zależność wpływie pozostałych
zmiennych.
Wysoka wartość współczynnika korelacji cząstkowej dwóch zmiennych przy
wysokim współczynniku korelacji Pearsona świadczy o silnej zależności tych
zmiennych i o braku wpływu na tą zależność pozostałych zmiennych.
KORELACJA CZĄSTKOWA I WIELOKROTNA
Przykład 25
Badano związek między wzrostem pewnego gatunku rośliny a temperaturą i
ilością opadów. Eksperyment przeprowadzono w laboratorium na 30
osobnikach. Kolorem czerwonym oznaczono współczynniki istotne
statystycznie (p<0,05).
Współczynni
k korelacji
cząstkowej
Współczynnik
korelacji Pearsona
Temperatura
0,39
0,73
Opady
0,70
0,85
Wzrost badanego gatunku rośliny jest silniej uzależniony od ilości opadów
(oba współczynniki przyjmują wysoką wartość), niż od temperatury (niska
wartość współczynnika korelacji cząstkowej).
Współczynnik korelacji wielokrotnej
R=0,86
Ilość opadów i temperatura bardzo silnie korelują ze wzrostem badanego
gatunku rośliny (współczynnik korelacji wielokrotnej R=0,86).
KSZTAŁT ZWIĄZKU
REGRESJA
PROSTOLINIOWA
KORELACJA
i
REGRESJA
Związki jednostronne
– wartość jednej zmiennej (tzw. zmiennej niezależnej)
wpływa na wartość drugiej zmiennej (tzw. zmiennej zależnej). Odwrotna
zależność nie istnieje. Np. wiek drzewa (zmienna niezależna) i wysokość
drzewa (zmienna zależna).
Związki dwustronne
– wzajemne oddziaływanie na siebie dwóch zmiennych.
Nie można wskazać zmiennej zależnej i zmiennej niezależnej, np. związek
wysokości i pierśnicy drzewa.
Do oceny siły obu tych związków stosuje się współczynniki korelacji
Do przedstawienia przebiegu tych zależności stosuje się:
• związki jednostronne –
linia regresji
• związki dwustronne –
oś główna zredukowana
b
ax
y
Y
X
0
10
20
30
40
0
5
10
15
20
[dni]
[mm]
Zmiany długości liścia pewnego gatunku rośliny w kolejnych dniach
Regresja prostoliniowa
długość liścia
=
a
*
dzień
+
b
y
– zmienna zależna
x
– zmienna niezależna
a
– współczynnik regresji (współczynnik
kierunkowy)
o ile zmieni się wartość zmiennej zależnej, gdy
wartość zmiennej niezależnej zwiększy się o 1
b
– wyraz wolny (punkt przecięcia prostej regresji z osią Y)
METODA NAJMNIEJSZYCH KWADRATÓW
0
10
20
30
40
0
5
10
15
20
[dni]
[mm]
b
ax
y
Parametry równania prostej regresji wyznaczane są w taki sposób, by suma
kwadratów odchyleń przyjmowała minimalną wartość.
Regresja prostoliniowa
Przykład 26
Na podstawie próby 35 mężczyzn w tym samym wieku zbadano zależność
ciężaru ciała od wzrostu.
c ię ż a r = 1 , 4 0 * w z r o s t - 1 7 6 , 5
1 5 5
1 6 0
1 6 5
1 7 0
1 7 5
1 8 0
1 8 5
1 9 0
1 9 5
w z r o s t
4 5
5 0
5 5
6 0
6 5
7 0
7 5
8 0
8 5
9 0
ci
ęż
ar
[c m ]
[k g ]
r = 0 , 9 9
Jaka część obserwowanej zmienności ciężaru ciała jest wyjaśniona przez
wzrost?
R
2
=0,99
R
2
- współczynnik determinacji
Współczynnik regresji istotnie
różni się od zera (związek
regresyjny jest istotny)
(t=50,3; p<0,001)
Regresja prostoliniowa
Przykład 26 cd.
Jaki jest przewidywany ciężar mężczyzny z tej grupy o wzroście 187 cm?
c ię ż a r = 1 , 4 0 * w z r o s t - 1 7 6 , 5
ciężar = 1,40 * 187 cm -176,5
ciężar = 85 kg
155
160
165
170
175
180
185
190
195
wzrost
45
50
55
60
65
70
75
80
85
90
ci
ęż
ar
[cm]
[kg]
Jaki dokładne jest nasze
oszacowanie?
Błąd standardowy szacunku
(estymacji)
: 1,04 kg
(odchylenie standardowe z reszt –
mówi o ile przeciętnie różnią się wartości empiryczne od wartości teoretycznych
reprezentowanych przez prostą regresji
Regresja
wielokrotna
b
x
a
x
a
x
a
x
a
y
n
n
......
3
3
2
2
1
1
b
ax
y
Równanie regresji prostoliniowej z jedna zmienną niezależną
Regresja wielokrotna
Równanie regresji prostoliniowej z wieloma zmiennymi niezależnymi
zmienne niezależne = zmienne objaśniające
Regresja wielokrotna jest jedną z
najpowszechniej stosowanych metod w bardziej
zaawansowanych analizach statystycznych
Wartość każdego ze współczynników regresji informuje o ile zmieni się
wartość zmiennej zależnej, gdy wartość danej zmiennej niezależnej zwiększy
się o 1, a pozostałe zmienne niezależne pozostaną bez zmian.
Regresja wielokrotna
Przykład 27
Pomierzono i zważono 435 biegusów krzywodziobych. Należało znaleźć
równanie regresji szacujące ciężar ciała na podstawie wymiarów liniowych.
B
Błąd st.
t
poziom p
wyraz wolny
-28,16
14,28
-1,97
0,049
dł. głowy
-0,07
0,15
-0,47
0,635
dł. nogi
0,48
0,21
2,32
0,021
dł. skrzydła
0,45
0,12
3,71
0,000
Uzyskano następujące wyniki
R
2
= 0,07
Błąd standardowy
szacunku = 6,55
Ciężar ciała = 0,54*dł. nogi + 0,23*dł. skrzydła – 8,06
B
Błąd st.
t
poziom p
wyraz wolny
-8,06
11,39
-0,71
0,479
dł. nogi
0,54
0,14
3,90
0,000
dł. skrzydła
0,23
0,09
2,48
0,013
R
2
= 0,05
Błąd standardowy
szacunku = 6,25
Uzyskano model (równanie, który objaśnia zaledwie 5% zaobserwowanej
zmienności ciężaru ciała tego gatunku. Jego wartość prognostyczna jest
bardzo niska. Na ciężar ciała biegusów zmiennych silnie wpływają inne
zmienne niż analizowane pomiary liniowe
Ciężar ciała = -0,07*dł. głowy + 0,48*dł. nogi + 0,45*dł. skrzydła – 28,16
Założenia analizy regresji
Liniowość modelu
Liczebność próby większa od liczby szacowanych
parametrów
Rozkład reszt musi być normalny
Brak autokorelacji reszt
Homoscedastyczność
LINIOWOŚĆ MODELU
40
50
60
70
80
90 100 110 120 130 [dni]
[mm]
40
50
60
70
80
90 100 110 120 130 [dni]
[mm]
40
50
60
70
80
90 100 110 120 130 [dni]
[mm]
40
50
60
70
80
90 100 110 120 130 [dni]
[mm]
LICZEBNOŚĆ PRÓBY WIĘKSZA OD LICZBY
SZACOWANYCH PARAMETRÓW
b
x
a
Y
*
b
x
a
x
a
Y
2
2
1
1
*
*
N>2
N>3
b
x
a
x
a
x
a
Y
3
3
2
2
1
1
*
*
*
N>4
W praktyce zawsze dysponujemy większa liczebnością prób
DEFINICJA RESZT
5
,
3
4
5
4
3
2
X
5
,
3
5
5
,
3
4
5
,
3
3
5
,
3
2
-1,5
-0,5
0,5
1,5
-1,5
2
=2,25
-0,5
2
=0,25
0,5
2
=0,25
1,5
2
=2,25
5,00
29
,
1
1
5
n
s
3
,
1
5
,
3
x
ROZKŁAD RESZT MUSI BYĆ NORMALNY
i
i
i
y
y
e
ˆ
DEFINICJA RESZT
40
50
60
70
80
90
100
110
120
130
[dni]
[mm]
ROZKŁAD RESZT MUSI BYĆ NORMALNY
test Shapiro-Wilka; W=0,95;
p>0,05
-2,5
-1,5
-0,5
0,5
1,5
2,5
-6
-4
-2
0
2
4
Reszty
W
a
rt
o
śc
i
o
cz
e
k
iw
a
n
e
-6 -5
-4
-3
-2
-1
0
1
2
3
0
2
4
6
8
N
• Sprawdzenie założeń, których spełnienie jest
warunkiem wyznaczania równania regresji
metodą najmniejszych kwadratów
• Odnalezienie punktów odstających i
ekstremalnych
• Wykrycie niejednorodności danych zebranych w
wyniku badań, co może wskazywać na istnienie
czynników nieuwzględnionych w modelu, lub
może być pierwszym krokiem wiodącym do
odkrycia nowego zjawiska
Analiza reszt w regresji liniowej umożliwia:
Analiza reszt powinna być wykonywana
obligatoryjnie po wstępnym ustaleniu
parametrów równania regresji
BRAK AUTOKORELACJI RESZT
t
t
t
e
e
1
współczynnik autokorelacji
0
:
0
:
0
A
H
H
Autokorelacja występuje, jeżeli
współczynnik autokorelacji istotnie różni się
od zera
Autokorelację spotyka się najczęściej w tzw. szeregach czasowych – gdy
zmienną niezależną jest czas. Autokorelacja występuje gdy wartość
zmiennej zależnej w danym punkcie zależy od jej wartości w punkcie
poprzednim.
Autokorelacja reszt równania regresji występuje gdy składnik resztowy w
danym punkcie zależy od składnika resztowego w punkcie poprzednim.
WNIOSKOWANIE ZA POMOCĄ TESTU DURBINA-
WATSONA
0
2
4
d
L
4-d
L
d
U
4-d
U
a
u
to
k
o
re
la
c
ja
d
o
d
a
tn
ia
a
u
to
k
o
re
la
c
ja
u
je
m
n
a
brak
autokorelacji
reszt
o
b
s
z
a
r
n
ie
k
o
n
k
lu
zy
w
n
o
ś
c
i
o
b
s
z
a
r
n
ie
k
o
n
k
lu
zy
w
n
o
ś
c
i
wartość testu - d <0;4>
dwie wartości krytyczne - d
L
i d
U
równanie regresji musi mieć wyraz wolny
N>15
Jeśli wartość testu Durbina-Watsona nie rozstrzyga o istnieniu autokorelacji,
stosuje się
test mnożników Lagrange’a
POSTĘPOWANIE PRZY AUTOKORELACJI
•Ponownie przeanalizować zastosowany model.
Autokorelację może powodować wadliwa postać
funkcyjna modelu
•Zastosować inna metodę estymacji równania regresji niż
metoda najmniejszych kwadratów
•Nie robić nic - ale wtedy nasze estymatory (czyli
parametry równania) nie będą efektywne
40
50
60
70
80
0
10 20
30
40
DNI
N
HOMOSCEDASTYCZNOŚĆ
Wariancja reszt jest taka sama dla wszystkich wartości
zmiennej zależnej
-20
-10
0
10
20
90
100 110 120 130
[dni]
[mm]
Wartości przewidywane
re
sz
ty
homoscedastyczność
-20
-10
0
10
20
90
100 110 120 130
[dni]
[mm]
Wartości przewidywane
re
sz
ty
heteroscedastyczność
WYKRYWANIE HETEROSCEDASTYCZNOŚCI
-20
-10
0
10
20
90
100
110
120
130
[dni]
[mm]
Wartości przewidywane
re
sz
ty
test Lagrange’a
F=16,5; p<0,001
POSTĘPOWANIE PRZY HETEROSCEDASTYCZNOŚCI
•Zastosować inna metodę estymacji równania regresji niż
metoda najmniejszych kwadratów
•Zastosować transformację danych:
Y
Y
log
gdy wariancja wzrasta
gdy wariancja maleje
2
Y
Y
•Nie robić nic - ale wtedy nasze estymatory (czyli
parametry równania) nie będą efektywne
WSPÓŁLINIOWOŚĆ ZMIENNYCH NIEZALEŻNYCH
Tylko w przypadku regresji wielokrotnej
Po stronie zmiennych niezależnych nie powinny występować
pomiary silnie ze sobą skorelowane
80
,
10
BL
28
,
0
BM
48
,
0
F
12
,
10
THL
51
,
0
BL
24
,
0
BM
45
,
0
F
zmienna
B
t
p
BM
0,45 3,51
0,003
BL
0,24 1,72 0,104
THL
0,51 0,39 0,701
w.wolny
10,12 3,27
0,005
zmienna
B
t
p
BM
0,48 3,58
0,002
BL
0,28 2,55
0,020
w.wolny
10,80 3,38
0,004
931
,
0
R
2
933
,
0
2
R
OBSERWACJE NIETYPOWE
40
50
60
70
80
90
100 110 120 130
[dni]
[mm]
40
50
60
70
80
90
100 110 120 130
[dni]
[mm]
•Mogą być następstwem błędu pomiaru
•Mogą wskazywać na złą postać modelu
Statystyczną weryfikację przypadków
nietypowych musi poprzedzić analiza
merytoryczna
odstająca
wpływowa
WYKRYWANIE OBSERWACJI NIETYPOWYCH
•Wykresy rozrzutu:
•Wartości przewidywanych względem otrzymanych
•Wartości przewidywanych względem reszt
•Porównanie uzyskanych pomiarów z teoretycznym
zakresem wartości danej zmiennej
•Analiza statystyk związanych z resztami:
•Odległość Cooka
•Odległość Mahalanobisa
Po usunięciu pomiaru nietypowego należy
ponownie wykonać analizę regresji
Regresja prostoliniowa
Przykład 26 cd.
c ię ż a r = 1 , 4 0 * w z r o s t - 1 7 6 , 5
Liniowość modelu
– punkty układają się wzdłuż linii prostej
Liczebność próby większa od liczby szacowanych parametrów
N = 35, liczba szacowanych parametrów równania = 2 (a, b)
c ię ż a r = 1 , 4 0 * w z r o s t - 1 7 6 , 5
1 5 5
1 6 0
1 6 5
1 7 0
1 7 5
1 8 0
1 8 5
1 9 0
1 9 5
w z r o s t
4 5
5 0
5 5
6 0
6 5
7 0
7 5
8 0
8 5
9 0
ci
ęż
ar
[c m ]
[k g ]
r = 0 , 9 9
Regresja prostoliniowa
Przykład 26 cd.
c ię ż a r = 1 , 4 0 * w z r o s t - 1 7 6 , 5
Rozkład reszt musi być normalny
- 3
- 2
- 1
0
1
2
3
R e s z ty
- 3
- 2
- 1
0
1
2
3
O
cz
ek
iw
an
a
w
ar
to
ść
n
or
m
al
na
r
es
zt
Wykres normalności reszt
Brak autokorelacji reszt
Regresja prostoliniowa
Przykład 26 cd.
c ię ż a r = 1 , 4 0 * w z r o s t - 1 7 6 , 5
Wynik testu Durbina-Watsona d = 2,10
Wartości krytyczne dla α=0,05, n=35,
k=1 (liczba zmiennych niezależnych)
d
L
= 1,402; d
U
= 1,519
0
2
4
d
L
4-d
L
d
U
4-d
U
a
u
to
k
o
re
la
c
ja
d
o
d
a
tn
ia
a
u
to
k
o
re
la
c
ja
u
je
m
n
a
brak
autokorelacji
reszt
o
b
s
za
r
n
ie
k
o
n
k
lu
zy
w
n
o
ś
c
i
o
b
s
za
r
n
ie
k
o
n
k
lu
z
y
w
n
o
ś
c
i
1,402
1,519
2,598
2,481
2
,1
0
Nie ma podstaw do odrzucenia H
0
o braku autokorelacji reszt
Regresja prostoliniowa
Przykład 26 cd.
c ię ż a r = 1 , 4 0 * w z r o s t - 1 7 6 , 5
Homoscedastyczność
45
50
55
60
65
70
75
80
85
90
Wartości przewidywane
-3
-2
-1
0
1
2
3
R
es
zt
y
Brak hereroscedastyczności. Rozrzut reszt względem wartości
przewidywanych nie wykazuje wyraźnej tendencji rosnącej lub malejącej.
40
50
60
70
80
90 100 110 120 130 [dni]
[mm]
40
50
60
70
80
90 100 110 120 130 [dni]
[mm]
40
50
60
70
80
90 100 110 120 130 [dni]
[mm]
40
50
60
70
80
90 100 110 120 130 [dni]
[mm]
Regresja krzywoliniowa
Związki pozorne
Analiza siły i przebiegu związku między zmiennymi MUSI
być poprzedzona wnikliwą analizą merytoryczną
badanego zjawiska.
Istotny związek między liczbą urodzin i liczbą bocianów w
Polsce
Istotny związek między liczbą urodzin i spożyciem alkoholu w Kanadzie
Przykłady związków pozornych
Istotny związek liczbą strażaków biorących udział w gaszeniu pożaru i
wielkością strat materialnych.