Korelacja i regresja liniowa


dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
5. Korelacja i regresja liniowa
5.1. Uwagi wstępne
" Dotychczasowe rozważania dotyczyły analizy struktury zbiorowości
i opierały się na obserwacjach jednej cechy (zmiennej).
" Bardzo często jednostki tworzące zbiorowość charakteryzowane są
za pomocą więcej niż jednej cechy i dlatego zachodzi potrzeba ich
Å‚Ä…cznego badania.
ć% Zazwyczaj cechy te pozostają ze sobą w pewnym związku.
ć% Np. zdanie  rak płuc powiązany jest z paleniem papierosów"
mówi, że im więcej papierosów się pali, tym jest bardziej prawdo-
podobne, że zachoruje się na raka płuc (czyli im więcej jednego,
tym więcej drugiego).
1
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
" Taka analiza ma na celu stwierdzenie, czy między badanymi zmien-
nymi zachodzą jakieś zależności, jaka jest ich siła, jaki jest ich
kształt i kierunek.
" Dział statystyki zajmujący się badaniem związków między kilkoma
cechami (zmiennymi) nosi nazwę teorii współzależności.
" Współzależność pomiędzy zmiennymi może być funkcyjna lub
stochastyczna (probabilistyczna).
" Zależność funkcyjna polega na tym, że zmiana wartości jednej
zmiennej powoduje ściśle określoną (wg pewnego wzoru) zmianie
drugiej zmiennej, czyli każdej wartości jednej zmiennej niezależnej
(X) odpowiada tylko jedna, jednoznacznie określona wartość zmien-
nej zależnej (Y).
ć% Np. obwód kwadratu jest funkcją (liniową) jego boku Ob=4a,
a pole P = a2.
2
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
" Zależność stochastyczna występuje wtedy, gdy wraz zmianą jednej
zmiennej zmienia się rozkład prawdopodobieństwa drugiej zmiennej.
" Szczególnym przypadkiem zależności stochastycznej jest zależność
korelacyjna (statystyczna).
" Zależność korelacyjna (statystyczna) polega na tym, że określo-
nym wartościom jednej zmiennej odpowiadają ściśle określone śred-
nie wartości drugiej zmiennej.
ć% Zależność ta mówi nam jak zmieni się (średnio) wartość zmiennej
zależnej (objaśnianej) Y w zależności od wartości zmiennej nieza-
leżnej (objaśniającej) X.
" Jeśli pomiędzy badanymi zmiennymi nie ma związku stochastyczne-
go, to oczywiście nie ma również związku korelacyjnego.
ć% Twierdzenie odwrotne nie jest prawdziwe.
3
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
" Na podstawie analizy merytorycznej należy oczywiście najpierw
uzasadnić logiczne występowanie związku, a dopiero potem przy-
stąpić do określenia siły i kierunku zależności.
ć% W literaturze znane są przykłady badania - nawet istotnej staty-
stycznie - zależności np. między liczbą zajętych gniazd bocianich a
liczbą urodzeń na danym obszarze, czy między liczbą zarejestro-
wanych odbiorników TV a liczbą chorych umysłowo.
" Liczbowe stwierdzenie występowania współzależności nie zawsze
oznacza występowanie związku przyczynowo-skutkowego między
badanymi zmiennymi.
" Współwystępowanie dwóch zjawisk może również wynikać z bezpo-
średniego oddziaływania na nie jeszcze innego, trzeciego zjawiska.
" Prostym sposobem wykrywania związku korelacyjnego między ba-
danymi cechami jest obserwacja szeregów statystycznych, które
zawierajÄ… informacje o tych cechach.
4
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
" Graficzny związek pomiędzy zmiennymi możemy zobaczyć na wy-
kresach rozrzutu.
" Analizę zależności powinno się rozpoczynać od sporządzenia wy-
kresów rozrzutu.
" Wzrokowa ocena umożliwia często określenie siły i rodzaju zależności.
" Ze względu na postać zależności możemy mówić o dwóch odmia-
nach:
ć% zależność liniowa (przypadek 1 i 2 na rysunku poniżej),
ć% zależność krzywoliniowa (przypadek 4).
5
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
Rysunek pochodzi z książki Andrzeja Stanisza  Przystępny kurs statystyki z zastosowaniem STATISTICA PL
na przykładach z medycyny. Tom 1. Statystyki podstawowe StatSoft, Kraków 2006
6
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
5.2. Współczynnik korelacji liniowej Pearsona
" Załóżmy, że zbiorowość jest badana ze względu na dwie zmienne
X i Y, a realizacje tych zmiennych w populacji lub próbie n-elemen-
towej zestawione są w postaci dwóch szeregów szczegółowych lub
rozdzielczych.
" Punkty, odpowiadające poszczególnym wartościom cech, tworzą ko-
relacyjny wykres rozrzutu.
ć% W prostokątnym układzie współrzędnych:
ª% na osi odciÄ™tych zaznaczamy pierwszÄ… zmiennÄ…,
ª% a na osi rzÄ™dnych wartoÅ›ci drugiej zmiennej.
" Bardzo rzadko zdarza się, aby zaznaczone punkty leżały dokładnie
na linii prostej (wówczas jest pełna korelacja).
" Częściej spotykana konfiguracja składa się z wielu zaznaczonych
punktów leżących mniej więcej wzdłuż konkretnej krzywej (najczę-
ściej linii prostej, przypadek 1 i 2 na wcześniejszym rysunku).
7
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
" Gdy korelacja staje się coraz mniej wyrazna, wówczas punkty za-
czynają się rozpraszać i przesuwać, aż do kolistego tworu (brak ko-
relacji, przypadek 3).
" Korelacja dodatnia występuje wtedy, gdy wzrostowi wartości jed-
nej cechy odpowiada wzrost średnich wartości drugiej cechy (przy-
padek 1).
" Korelacja ujemna występuje wtedy, gdy wzrostowi wartości jednej ce-
chy odpowiada spadek średnich wartości drugiej cechy (przypadek 2).
" Gdy obserwacje statystyczne dotyczÄ…ce badanych zmiennych sÄ… bar-
dzo liczne, wówczas konstruuje się tablicę korelacyjną.
ć% Na skrzyżowaniu kolumn z wierszami wpisywane są liczebności
jednostek zbiorowości statystycznej, u których zaobserwowano
xi
y
jednoczesne wystąpienie określonej wartości i (lub warto-
j
ści z odpowiednich przedziałów).
8
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
Przykładowa tablica korelacyjna
" Natężenie (siłę) współzależności dwóch zmiennych można wyra-
zić liczbowo za pomocą wielu mierników.
" Pierwszy syntetyczny opis zależności między zmiennymi to para-
metr zwany kowariancjÄ….
9
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
" Załóżmy, że rezultatem pewnego doświadczenia są pary liczb
śąxi , yiźą
i=1, 2,... , n.
, gdzie
" Określamy w ten sposób dwuwymiarową zmienną losową, którą
oznaczamy jako (X, Y).
" Wówczas kowariancja dla danych z naszej próby określana jest na-
stępującym wzorem:
n n
1 1
covśą x , yźą= śą xi-xźąśą yi- yźą= xi yi-x y
Ä… Ä… Ä… Ä…
" "
n n
i=1 i=1
x y
gdzie i oznaczają średnie obu zmiennych.
Ä… Ä…
" Dla danych pogrupowanych w tablicÄ™ korelacyjnÄ… (dwuwymiarowy
szereg rozdzielczy):
k l k l
1 1
covśą x , yźą= śą xi-xźąśą y - yźąnij= xi y nij-x y
Ä… Ä… Ä… Ä…
" " " "
j j
n n
i=1 j=1 i=1 j=1
10
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
" Kowariancja przekazuje następujące informacje o związku korela-
cyjnym:
ć% covśą x , yźą=0  brak zależności korelacyjnej;
ć% covśą x , yźą"ą0  ujemna zależność korelacyjna (inaczej nega-
tywna, przy wzroście X wartości Y na ogół maleją);
ć% covśą x , yźąą0  dodatnia zależność korelacyjna (inaczej pozy-
tywna; przy wzroście wartości X, wartości Y na ogół także rosną).
" Kowariancja charakteryzuje zatem we właściwy sposób powiązanie
pomiędzy zmiennymi X i Y.
" Wadą kowariancji jest to, że jej wartość zależy od jednostek pomiaru cech.
" Kowariancja nie może zatem określać siły zależności, ale może posłu-
żyć do budowy innego parametru oceniającego siłę powiązania X i Y,
czyli współczynnika korelacji liniowej Pearsona.
11
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
" Dla kowariancji zachodzi następująca nierówność:
-sx syąącovśą x , yźąąąsx sy
sx sy
gdzie i sÄ… odchyleniami standardowymi otrzymanymi dla
danych wartości cechy X i cechy Y odpowiednio.
" Jeżeli podzielimy kowariancję przez iloczyn odchyleń standardo-
wych, to otrzymamy bezwymiarową miarę intensywności powiąza-
ƒÄ…1  jest to najbardziej popu-
nia o wartościach pomiędzy -1 a
larny współczynnik korelacji, nazywany współczynnikiem korela-
cji liniowej Pearsona.
" Współczynnik korelacji (liniowej) Pearsona oznaczamy symbolem
n
śą xi-xźąśą yi- yźą
Ä… Ä…
"
covśą x , yźą=
i=1
rxy=
n n
sx sy
śą xi-xźą2 śą yi- yźą2
Ä… Ä…
" "
ćą
i=1 i=1
-1Ä…Ä…rxyÄ…Ä…1
" Oczywiście .
12
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
" Współczynnik korelacji (liniowej) Pearsona jest miernikiem siły
związku prostoliniowego między dwiema cechami mierzalnymi.
" Znak współczynnika korelacji informuje nas o kierunku korelacji,
natomiast jego bezwzględna wartość o sile związku.
rxy=r
" Mamy oczywiście równość .
yx
#"rxy#"=1
" Jeżeli , to zależność korelacyjna przechodzi w zależność
funkcyjnÄ… (funkcja liniowa).
rxy=0
" Jeżeli , to mamy zupełny brak związku korelacyjnego mię-
dzy badanymi zmiennymi X i Y.
" Założeniem stosowalności tego współczynnika jest liniowa zależ-
ność między analizowanymi zmiennymi.
13
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
Powiązanie między współczynnikiem korelacji a układem punktów
Rysunek pochodzi z książki Andrzeja Stanisza  Przystępny kurs statystyki z zastosowaniem STATISTICA PL
na przykładach z medycyny. Tom 1. Statystyki podstawowe StatSoft, Kraków 2006
śąr =0źą.
" W pierwszym przypadku nie występuje korelacja
Na wy-
xy
kresie widzimy bezkształtną chmurę punktów (coś w rodzaju koła).
" Na kolejnych dwóch wykresach wartości współczynników Pearsona
śąr =0,4 i rxy=0,8źą.
wzrastają Zmienia się również położenie
xy
punktów, które układają się coraz bliżej pewnej linii prostej.
" W ostatnim przypadku współczynnik korelacji przyjmuje wartość
śąr =-0,8źą.
ujemnÄ…
W takiej sytuacji punkty układają się wzdłuż
xy
pewnej prostej skierowanej w dół.
14
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
" Oglądając wykres rozrzutu, możemy sprawdzić założenie liniowości oraz
przewidzieć siłę korelacji pomiędzy zmiennymi. Im bliżej prostej położone
są punkty na wykresie tym większej korelacji możemy się spodziewać.
" Wartość współczynnika korelacji bliska 0 nie zawsze oznacza brak zależ-
ności, a jedynie brak zależności liniowej.
" Wielkość współczynnika korelacji podlega wpływom wartości skrajnych i odstających.
" Do opisu i interpretacji korelacji możemy przyjąć następującą skalę okre-
ślającą siłę związku (stopień zależności dwóch cech):
rxy=0
ć%  zmienne nie są skorelowane
0"Ä…#"rxy#""Ä…0,1
ć%  korelacja nikła
0,1Ä…Ä…#"r #""Ä…0,3
ć%  korelacja słaba
xy
0,3Ä…Ä…#"r #""Ä…0,5
ć%  korelacja przeciętna
xy
0,5Ä…Ä…#"r #""Ä…0,7
ć%  korelacja wysoka
xy
0,7Ä…Ä…#"rxy#""Ä…0,9
ć%  korelacja bardzo wysoka
0,9Ä…Ä…#"rxy#""Ä…1
ć%  korelacja prawie pełna
#"rxy#"=1
ć%  korelacja pełna.
15
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
rxy
" Kwadrat współczynnika korelacji nazywamy współczynnikiem
determinacji (określoności).
r2
" Współczynnik determinacji
informuje o tym, jaka część zmian
xy
zmiennej objaśnianej (skutek) jest wyjaśniona przez zmiany zmien-
nej objaśniającej (przyczyna).
" Np. jeśli zmienna X (zmienna objaśniająca) koreluje ze zmienną Y
rxy=0,5 ,
(zmienna objaśniana) na poziomie to współczynnik de-
r2 =0,25
terminacji
oznacza, że tylko 25% zmian wartości zmien-
xy
nej objaśnianej zostało wyjaśnione przez zmiany przyjętej zmiennej
objaśniającej. Można zatem stwierdzić, że na zmienną objaśnianą
oddziaływają jeszcze inne zmienne objaśniające (przyczyny).
16
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
Przykład 5.1.
Z populacji dzieci i młodzieży wybrano losowo próbę 15-osobową i okre-
xi yi
ślono następujące dane: - wiek w latach, - wzrost w centymetrach.
Otrzymano następujące dane:
xi
7 8 9 10 11 11,5 12 13 14 15 16 17 17,5 18 19
yi
120 122 135 131 135 140 142 145 150 154 159 162 164 168 170
Wyznaczyć współczynnik korelacji liniowej Pearsona oraz współczyn-
nik determinacji.
n
śą xi-xźąśą yi- yźą
Ä… Ä…
"
covśą x , yźą=
i=1
rxy=
n n
sx sy
śąxi-xźą2 śą yi- yźą2
Ä… Ä…
" "
ćą
i=1 i=1
n n
1 1
covśą x , yźą= śą xi-xźąśą yi- yźą= xi yi-x y
Ä… Ä… Ä… Ä…
" "
n n
i=1 i=1
17
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
Wykes rozrzutu: Wiek (w latach) vs Wzrost (w centymetrach)
180
19; 170
19; 170
170
18; 168
18; 168
17,5; 164
17,5; 164
17; 162
17; 162
16; 159
16; 159
160
15; 154
15; 154
14; 150
14; 150
150
13; 145
13; 145
12; 142
12; 142
11,5; 140
11,5; 140
140
11; 135
11; 135
10; 131
10; 131
130
9; 125
9; 125
8; 122
8; 122
7; 120
7; 120
120
110
6 8 10 12 14 16 18 20
Wiek (w latach)
18
Wzrost (w centymetrach)
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
xi
yi xi-x yi- y śą xi-xźąÅ"śą yi- yźą
śą xi-ąźą2 śą yi-ą
x yźą2
Ä… Ä… Ä… Ä…
7 120 -6,2 -25,8 38,44 665,64 159,96
8 122 -5,2 -23,8 27,04 566,44 123,76
9 125 -4,2 -20,8 17,64 432,64 87,36
10 131 -3,2 -14,8 10,24 219,04 47,36
11 135 -2,2 -10,8 4,84 116,64 23,76
11,5 140 -1,7 -5,8 2,89 33,64 9,86
12 142 -1,2 -3,8 1,44 14,44 4,56
13 145 -0,2 -0,8 0,04 0,64 0,16
14 150 0,8 4,2 0,64 17,64 3,36
15 154 1,8 8,2 3,24 67,24 14,76
16 159 2,8 13,2 7,84 174,24 36,96
17 162 3,8 16,2 14,44 262,44 61,56
17,5 164 4,3 18,2 18,49 331,24 78,26
18 168 4,8 22,2 23,04 492,84 106,56
19 170 5,8 24,2 33,64 585,64 140,36
198 2187 - - 203,90 3980,40 898,60
SUMA
19
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
198
2187
x= =13,2 y= =145,8
,
Ä… Ä…
15 15
203,90
s2= =13,59 s2=3980,40=265,36
x y
15 15
sx= 13,59=3,69 sy= 265,36=16,29
ćą ćą
n
1
covśą x , yźą= śą xi-xźąśą yi- yźą=898,60 =59,91
Ä… Ä…
"
n 15
i=1
covśą x , yźą=
59,91
rxy= =0,997
lub
sx sy 3,69Å"16,29
n
śą xi-xźąśą yi- yźą
Ä… Ä…
"
898,60
i=1
rxy= = =898,60 =0,997
n n
900,89
203,90Å"3980,40
ćą
śą xi-xźą2 śą yi- yźą2
Ä… Ä…
" "
ćą
i=1 i=1
r2 =0,994=99,4 %
xy
20
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
5.3. Korelacje czÄ…stkowe
" Jeśli na pewną zmienną oddziałuje więcej niż jedna zmienna, a nas
interesuje ścisły związek korelacyjny jedynie między dwoma zmien-
nymi, przy wyłączeniu wpływu pozostałych zmiennych, to powinni-
śmy wyliczyć współczynniki korelacji cząstkowej.
X X X
" Załóżmy, że mamy trzy zmienne , . Zdefiniujemy
oraz
1 2 3
współczynniki korelacji liniowej, mierzące siłę powiązania między
dwiema zmiennymi przy wyłączeniu oddziaływania trzeciej zmiennej.
" W przypadku trzech zmiennych współczynniki korelacji cząstkowej
r12.3 r13.2 r23.1
oznaczamy następująco: , oraz .
r12.3
X X
" Symbol oznacza korelację między zmiennymi a
1 2
X
przy wyłączeniu działania zmiennej .
3
21
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
r12.3
" Współczynnik korelacji cząstkowej wyraża się następującym
wzorem:
r12-r13r23
r12.3=
2
śą1-r13źąśą1-r2 źą
ćą
23
rij
X X
gdzie oznacza korelację między zmiennymi a .
i j
" Zdefiniowany współczynnik korelacji cząstkowej przyjmuje również
wartości z przedziału <-1,1 > . Interpretuje się go podobnie jak
współczynnik korelacji liniowej Pearsona.
" Podobnie:
r13-r12r23
r13.2=
2
śą1-r12źąśą1-r2 źą
ćą
23
r23-r12 r13
r23.1=
2
śą1-r2 źąśą1-r13źą
ćą
12
22
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
Przykład 5.2.
Załóżmy, że interesuje nas korelacja pomiędzy czasem pobytu
(w dniach) w szpitalu (X ) a poziomem fibrynogenu (X ) i cholesterolu
1 2
(X ) w dniu przyjęcia. Zebrane dane dla losowej próby 20 pacjentów za-
3
warte są w poniższej tabeli:
Nr pacjenta 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Dni 15 23 23 24 13 22 27 25 19 19 25 27 14 18 13 25 23 25 17 21
Cholesterol 5,8 4,8 4,6 4,2 5,6 4,8 3,9 4,4 5,3 5 4,5 3,7 6 5,6 6,3 4,4 4,8 4,2 5,8 5,1
Fibrynogen 3,9 5 5,9 6 3,5 5,1 6,3 5,6 4,4 5,1 6,2 6,1 4,3 4,2 2,9 6,1 5,5 6,2 4,4 5,1
Wyznaczyć wszystkie współczynniki korelacji cząstkowej (w pierw-
szym etapie należy wyliczyć macierz korelacji).
23
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
Odpowiednie korelacje Pearsona są następujące:
r12=-0,9579 r13=0,9474 r23=-0,9328
, , ,
1,0000 -0,9579 0,9474
M =
Macierz korelacji: -0,9579 1,0000 -0,9328
[ ]
0,9474 -0,9328 1,0000
r12-r13r23
r12.3= =-0,6430
2
śą1-r13źąśą1-r2 źą
ćą
23
r13-r12r23
r13.2= =0,5206
2
śą1-r12źąśą1-r2 źą
ćą
23
r23-r12 r13
r23.1= =-0,2752
2
śą1-r2 źąśą1-r13źą
ćą
12
24
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
5.4. Współczynnik korelacji rang Spearmana
" Poprzednie miary (kowariancja i współczynnik korelacji Pearsona)
mogą być stosowane tylko dla zmiennych mierzalnych (liczbowych)
między którymi związek jest liniowy.
" Nie można używać tych miar do analizy powiązań zmiennych mie-
rzonych na skali porządkowej  do tego służą inne miary, np. współ-
czynnik korelacji rang Spearmana lub nie omawiane tutaj inne kore-
lacje nieparametryczne, jak współczynniki Tau Kendalla i Gamma.
rs
" Współczynnik korelacji rang Spearmana
służy do opisu siły
korelacji dwóch cech, zwłaszcza wtedy, gdy mają one charakter ja-
kościowy i istnieje możliwość uporządkowania obserwacji empi-
rycznych w określonej kolejności.
ć%Miarę tę można stosować także do badania zależności między ce-
chami ilościowymi w przypadku niewielkich liczby obserwacji.
25
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
" Ponieważ zmienne są mierzalne na skali porządkowej, więc możliwe
jest uporządkowanie zarówno wartości zmiennej X, jak i Y w ciąg
rosnący, a następnie przyporządkowanie każdemu pomiarowi odpo-
wiedniego numeru (rangi).
" Najmniejszy pomiar otrzyma numer l, następny 2 itd.
" Mówimy wówczas, że otrzymane wyniki zostały uporządkowane
w kolejności rang.
" Numer każdego pomiaru nazywamy rangą.
" Taka zamiana konkretnych wartości na odpowiadające im rangi ni-
weluje negatywny wpływ punktów odstających.
" Mówiąc o powiązaniu zmiennych, myślimy teraz o korelacji rang.
" Spotykane w literaturze współczynniki korelacji rang są więc miara-
mi współzależności, w których wartość zmiennych X i Y zastąpiono
rangami od l do n, przyporządkowanymi każdej ze zmiennych.
26
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
" I tak jeśli we wzorze na współczynnik korelacji Pearsona zamiast
konkretnych wartości umieścimy rangi, to otrzymamy (po krótkim
przekształceniu) współczynnik korelacji rang, zwany właśnie współ-
czynnikiem korelacji rang Spearmana.
" Współczynnik korelacji rang Spearmana obliczamy według wzoru:
n
d2
"
i
i=1
rs=1-6
nśąn2-1źą
di
gdzie
oznacza różnice między rangami odpowiadających sobie
wartości cech.
" Współczynnik ten służy do opisu siły korelacji cech jakościowych,
które możemy uporządkować.
" Podobnie jak współczynnik korelacji liniowej Pearsona, współczynnik
rs"<-1, 1 >
korelacji rang Spearmana i ma podobnÄ… interpretacjÄ™.
27
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
Przykład 5.3.
Ustalić współzależność między opiniami wydanymi przez dwóch leka-
rzy wydanymi o zdrowiu 10 pacjentów. Opinie te zostały ujęte
w punktach:
Pacjenci A B C D E F G H I J
I lekarza
42 27 36 33 24 47 39 52 43 37
Punkty
uzyskane od
II lekarza
39 24 35 29 26 47 44 51 39 32
Nadajemy rangi (n=10) :
Pacjenci A B C D E F G H I J
I lekarza
4 9 7 8 10 2 5 1 3 6
Rangi
uzyskane od
II lekarza
4,5 10 6 8 9 2 3 1 4,5 7
28
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
Miejsce w rankingu I Miejsce w rankingu II
di
Pacjenci d2
i
lekarza lekarza
A 4 4,5 -0,5 0,25
B 9 10 -1 1
C 7 6 1 1
D 8 8 0 0
E 10 9 1 1
F 2 2 0 0
G 5 3 2 4
H 1 1 0 0
I 3 4,5 -1,5 2,25
J 6 7 -1 1
n
2
di
"
10,5 63
i=1
rs=1-6 =1-6 =1- =0,9363
990
nśąn2-1źą 10Å"śą102-1źą
29
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
5.5. Funkcja regresji
" Funkcja regresji służy do badania powiązań między zmiennymi.
" Funkcja regresji to analityczny wyraz przyporządkowania średnich
wartości zmiennej objaśnianej (zależnej) konkretnym wartościom
zmiennej objaśniającej (niezależnej).
" Funkcja regresji I rodzaju realizacjom zmiennej objaśniającej
przypisuje średnie warunkowe zmiennej objaśnianej.
" Funkcją regresji I rodzaju zmiennej losowej Y względem zmiennej
losowej X nazywamy:
E śąY | X =xiźą=g1śą xiźą ,i=1, 2,‹Ä…, k.
" Podobnie, funkcją regresji I rodzaju zmiennej losowej X względem
zmiennej losowej Y nazywamy:
E śą X |Y = y źą=g2śą y źą , j=1, 2,‹Ä…, l.
j j
30
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
g1śą xiźą g2śą y źą
" Analityczne postaci funkcji oraz sÄ… zwykle niezna-
j
ne i dlatego na podstawie zaobserwowanych wyników w próbie
przedstawia się je graficznie w prostokątnym układzie współrzęd-
nych w formie tzw. empirycznych linii regresji.
" Empiryczna linia regresji zmiennej Y względem zmiennej X jest linią
łamaną powstałą przez połączenie punktów o współrzędnych:
śą xi , y | xiźą
Ä… dla i=1, 2,‹Ä…, k.
" Natomiast empiryczna linia regresji zmiennej X względem zmiennej Y
jest linią łamaną powstałą przez połączenie punktów o współrzędnych:
śąą | y , y źą
x
dla j=1, 2,‹Ä…,l.
j j
31
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
Przykład 5.4.
W celu zbadania zależności między wiekiem kobiet a liczbą posiada-
nych dzieci wylosowano w sposób niezależny 100 kobiet. Wyniki badań
przedstawia tabela:
Wiek kobiety w latach (Y)
Liczba dzieci (X)
15  25 25  35 35  45 45  55
0 2 1  
1 10 12 15 
2 8 19 10 5
3   5 4
4    3
5    6
Na podstawie tych informacji sporządzić wykres empirycznych linii re-
gresji.
32
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
" W celu określenia empirycznych linii regresji należy obliczyć śred-
nie warunkowe obydwu zmiennych.
" Średnie warunkowe zmiennej X przy ustalonych wartościach zmien-
nej Y są równe:
0Å"2ƒÄ…1Å"10ƒÄ…2Å"8=1,3
x =
Ä…1 | ™=20
20
x =0Å"1ƒÄ…1Å"12ƒÄ…2Å"19 =1,6
Ä…2| ™=30
32
1Å"15ƒÄ…2Å"10ƒÄ…3Å"5
x = =1,7
Ä…3 | ™=40
30
2Å"5ƒÄ…3Å"4ƒÄ…4Å"3ƒÄ…5Å"6
x = =3,6
Ä…4 | ™=50
18
" Empiryczna linia regresji zmiennej X względem zmiennej Y jest linią
łamaną powstałą przez połączenie punktów o współrzędnych:
śą1,3 ;20źą ,śą1,6 ; 30źą ,śą1,7 ;40źą ,śą3,6 ;50źą.
33
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
" Średnie warunkowe zmiennej Y przy ustalonych wartościach zmien-
nej X są równe:
2Å"20ƒÄ…1Å"30
y = =23,3
Ä…1| x=0
3
y =10Å"20ƒÄ…12Å"30ƒÄ…15Å"40=31,4
Ä…2 | x=1
37
8Å"20ƒÄ…19Å"30ƒÄ…10Å"40ƒÄ…5Å"50
y = =32,9
Ä…3| x=2
42
5Å"40ƒÄ…4Å"50
y = =44,4
Ä…4 | x=3
9
3Å"50
y = =50,0 y =6Å"50=50,0
Ä…5| x=4 Ä…6 | x=5
3 6
" Empiryczna linia regresji zmiennej Y względem zmiennej X jest linią
łamaną powstałą przez połączenie punktów o współrzędnych:
śą0 ;23,3źą ,śą1 ;31,4źą ,śą2 ;32,9źą ,śą3 ;44,4źą ,śą4 ;50,0źą ,śą5, 50,0źą.
34
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
60
50
40
Empiryczna linia regresji zmiennej X
30
względem zmiennej Y
Empiryczna linia regresji zmiennej Y
względem zmiennej X
20
10
0
0 1 2 3 4 5 6
35
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
" Wykres empirycznych linii regresji pozwala na postawienie hipotezy
dotyczącej postaci funkcji matematycznej (może to być np. funkcja
liniowa, kwadratowa, wykładnicza) opisującej sposób powiązania
między rozpatrywanymi zmiennymi.
" Gdy określimy postać (typ) funkcji, to mówimy wówczas o funkcji
regresji II rodzaju.
" Funkcja regresji II rodzaju jest więc przybliżeniem funkcji regresji I
rodzaju, która jak wiemy opisuje zależność korelacyjną zmiennych
w próbie losowej.
" Wybór analitycznej postaci funkcji regresji II rodzaju (liniowa, nieli-
niowa) nie jest sprawÄ… Å‚atwÄ….
" Decyzje należy podejmować na podstawie wstępnej analizy materia-
łu statystycznego, wykresu rozrzutu oraz na podstawie zródeł poza-
statystycznych dotyczÄ…cych badanej dziedziny zjawiska.
36
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
5.6. Regresja liniowa
" Najprostsze i najczęściej spotykane zależności między zmiennymi to
te, które mają postać liniową.
" Krzywe regresji II rodzaju będące liniami prostymi nazywamy pro-
stymi regresji.
" Mają one następującą postać:
ęą
y=ay xƒÄ…by
ć%  prosta regresji zmiennej Y względem X
ęą
x=ax yƒÄ…bx
ć%  prosta regresji zmiennej X względem Y
" Parametry równania prostej regresji szacuje się z próby klasyczną
metodą najmniejszych kwadratów.
37
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
" Metoda najmniejszych kwadratów (MNK) polega na takim osza-
cowaniu parametrów powyższych funkcji, aby dla danych z próby
ęą
y=ay xƒÄ…by
spełniony był warunek (dla funkcji ):
ć%wyrażenie
n n
W śąay , byźą= śą yi- yiźą2= śą yi-ay xi-byźą2
ęą
" "
i=1 i=1
yi
ma osiągnąć minimum, gdzie
oznaczają wartości empiryczne
ęą
yi
zmiennej Y, a , wartości  teoretyczne wyznaczone na podsta-
ęą
y=ay xƒÄ…by ęą
śą yi=ay xiƒÄ…byźą.
wie równania
" Zatem mamy znalezć minimum funkcji kwadratowej dwóch zmien-
ay by.
nych i
" Warunkiem koniecznym istnienia ekstremum jest zerowanie siÄ™ po-
chodnych czÄ…stkowych.
38
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
n
W śąay , byźą= śą yi-ay xi-byźą2
" Pochodne czÄ…stkowe funkcji :
"
i=1
n
" W śąay ,byźą
= 2śą yi-ay xi-byźąśą-xiźą
ć%
"
"ay
i=1
n
" W śąay ,byźą
= 2śą yi-ay xi-byźąśą-1źą
ć%
"
"by
i=1
" Przyrównujemy te pochodne cząstkowe do zera i dokonujemy odpo-
wiednich elementarnych przekształceń i otrzymujemy równania:
n n n
2
ć% ay xi ƒÄ…by xi= xi yi
" " "
i=1 i=1 i=1
n n
ć% ay xiƒÄ…n b = yi
" "
y
i=1 i=1
39
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
" Rozwiązując powyższy układ równań otrzymujemy:
n n n n n n n
n xi yi- xi yi yi x2- xi xi yi
" " " " " " "
i
i=1 i=1 i=1 i=1 i=1 i=1 i=1
ay= by=
i
2 2
n n n n
2
n x2- xi n xi - xi
" "
i
śą" źą śą" źą
i=1 i=1
i=1 i=1
ay by
" Okazuje się dla tak wyznaczonych wartości zmiennych i
funkcja
n
W śąay , byźą= śą yi-ay xi-byźą2
"
i=1
przyjmuje wartość najmniejszą (spełniony jest również warunek do-
stateczny).
40
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
ay by
" Współczynniki i możemy przedstawić w prostszej postaci:
n
śą xi-xźąśą yi- yźą
Ä… Ä…
"
covśą X ,Y źą=r sy
i=1
by=Ä…-ay Ä…
y x
ay= =
i
xy
n
sx
s2
x
śą xi-ąźą2
x
"
i=1
ay by
" Parametry i noszą nazwę parametrów prostej regresji.
by
" Parametr to wyraz wolny równania prostej regresji.
ay
" Współczynnik
określa o ile jednostek przeciętnie wzrośnie (lub
ay"Ä…0
zmaleje, gdy ) wartość zmiennej zależnej, gdy wartość
zmiennej niezależnej wzrośnie o jedną jednostkę.
ay
" Ze względu na prostą i logiczną interpretację współczynnik ma
duże znaczenie praktyczne.
41
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
ax bx
" Podobnie parametry (współczynniki i ) równania prostej re-
gresji (zmiennej X względem Y)
ęą
x=ax yƒÄ…bx
oszacowane metodą najmniejszych kwadratów mają postać:
n
śą xi-xźąśą yi- yźą
Ä… Ä…
"
covśą X ,Y źą=r sx
i=1
ax= =
xy
n
sy
s2
y
y
"śą yi-ąźą2
i=1
bx=x-ax y
Ä… Ä…
ay ax
" Zauważmy, że iloczyn współczynników regresji
i jest kwa-
dratem współczynnika korelacji liniowej Pearsona:
ayÅ"ax=r2
xy
42
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
Przykład 5.5. (kontynuacja przykładu 5.1.)
Z populacji dzieci i młodzieży wybrano losowo próbę 15-osobową i okre-
xi yi
ślono następujące dane: - wiek w latach, - wzrost w centymetrach.
Otrzymano następujące dane:
xi
7 8 9 10 11 11,5 12 13 14 15 16 17 17,5 18 19
yi
120 122 135 131 135 140 142 145 150 154 159 162 164 168 170
Wyznaczyć odpowiednie proste regresji.
43
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
xi
yi xi-x yi- y śą xi-xźąÅ"śą yi- yźą
śą xi-ąźą2 śą yi-ą
x yźą2
Ä… Ä… Ä… Ä…
7 120 -6,2 -25,8 38,44 665,64 159,96
8 122 -5,2 -23,8 27,04 566,44 123,76
9 125 -4,2 -20,8 17,64 432,64 87,36
10 131 -3,2 -14,8 10,24 219,04 47,36
11 135 -2,2 -10,8 4,84 116,64 23,76
11,5 140 -1,7 -5,8 2,89 33,64 9,86
12 142 -1,2 -3,8 1,44 14,44 4,56
13 145 -0,2 -0,8 0,04 0,64 0,16
14 150 0,8 4,2 0,64 17,64 3,36
15 154 1,8 8,2 3,24 67,24 14,76
16 159 2,8 13,2 7,84 174,24 36,96
17 162 3,8 16,2 14,44 262,44 61,56
17,5 164 4,3 18,2 18,49 331,24 78,26
18 168 4,8 22,2 23,04 492,84 106,56
19 170 5,8 24,2 33,64 585,64 140,36
198 2187 - - 203,90 3980,40 898,60
SUMA
44
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
ęą
y=ay xƒÄ…by
198
2187
x= =13,2 y= =145,8
Ä… Ä…
15 15
n
śą xi-xźąśą yi- yźą
Ä… Ä…
"
i=1
ay= =898,60 =4,41
n
203,90
śą xi-ąźą2
x
"
i=1
by= y-a x=145,8-4,41Å"13,2=87,59
Ä… Ä…
y
ęą
y=4,41 xƒÄ…87,59
45
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
Wykres rozrzutu: Wiek (w latach) vs Wzrost (w centymetrach)
Wzrost (w centymetrach) = 87,63 + 4,41 * Wiek (w latach)
Korelacja: r = 0,997
180
170
160
150
140
130
120
110
6 8 10 12 14 16 18 20
Wiek (w latach)
0,95 Prz.Ufn.
46
Wzrost (w centymetrach)
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
Podobnie
ęą
x=ax yƒÄ…bx
n
śą xi-xźąśą yi- yźą
Ä… Ä…
"
898,60
i=1
ax= = =0,23
n
3980,40
śą yi-ą
yźą2
"
i=1
bx=x-ax y=13,2-0,23Å"145,8=-20,33
Ä… Ä…
ęą
x=0,23 y-20,33
47
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
Wykres rozrzutu: Wzrost (w centymetrach) vs Wiek (w latach)
Wiek (w latach) = -19,72 + 0,23 * Wzrost (w centymetrach)
Korelacja: r = 0,997
20
18
16
14
12
10
8
6
110 120 130 140 150 160 170 180
Wzrost (w centymetrach)
0,95 Prz.Ufn.
48
Wiek (w latach)
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
5.7. Ocena dopasowania prostej regresji
" Ocenimy teraz stopień zgodności przebiegu danych empirycznych
( yi xi )
ęą ęą
( yi xi )
i i i teoretycznych otrzymanych z oszacowa-
nia prostej regresji.
" Podstawą do określenia tego dopasowania są różnice (zwane reszta-
mi) między wartościami empirycznymi a teoretycznymi (wynikają-
cymi z oszacowanej prostej regresji).
" Dla prostej regresji Y względem X resztę definiujemy jako:
ui= yi- yi ,i=1,2,‹Ä…,n.
ęą
" Dla prostej regresji X względem Y resztę definiujemy jako:
ęą
vi=xi-xi ,i=1, 2,‹Ä…, n.
" Wartości reszt powinny być relatywnie niskie w stosunku do warto-
ści przeciętnej zmiennej zależnej i dostatecznie często zmieniać
znak.
49
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
" Wariancje resztowe dla obu równań prostej regresji wyznaczamy
w następujący sposób:
n n
1 1
2
ęą
ć% s2śąuźą= śą yi- yiźą2= ui
" "
n-2 n-2
i=1 i=1
n n
1 1
ęą
ć% s2śąvźą= śą xi-xiźą2= v2
" "
i
n-2 n-2
i=1 i=1
" Odchylenia standardowe reszt otrzymujemy pierwiastkujÄ…c warto-
ści wariancji resztowych:
ć% oraz
sśąuźą= s2śąuźą sśąvźą= s2śąvźą
ćą ćą
" W celu relatywnego spojrzenia na rolÄ™ reszt w obu prostych regresji
określamy wartość współczynnika zmienności losowej:
sśąuźąÅ"100 % sśąvźąÅ"100 %
V śąuźą= V śąvźą=
ć% oraz
y x
Ä… Ä…
50
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
" W celu oceny stopnia dopasowania prostej regresji do punktów empirycz-
śą xi , yiźą
nych
najczęściej stosuje się współczynnik zbieżności
ÔÄ…2:
n n
śą yi- yiźą2 śą xi-xiźą2
ęą ęą
" "
i=1 i=1
ÔÄ…2= ÔÄ…2=
i
y x
n n
śą yi-ąźą2 śą xi-ąźą2
y x
" "
i=1 i=1
ÔÄ…2=ÔÄ…2
" Przy poprawnie i dokładnie wykonanych obliczeniach i dlate-
y x
go też w praktyce używa się
ÔÄ…2.
r2
" Współczynnik determinacji
można otrzymać następująco:
xy
r2 =1-ÔÄ…2
xy
" Zauważmy, że całkowity obszar zmienności zmiennej zależnej jest sumą
r2
zmienności wyjaśnionej regresją
i zmienności resztowej (niewy-
śą źą
xy
jaśnionej regresją), czyli:
r2 ƒÄ…ÔÄ…2=1
xy
51
dr Tomasz Walczyński  Statystyka matematyczna (III Rok Matematyki z informatyką) - Wykład 5. (21.03.2012 r.)
[0,1].
" Oba współczynniki r2 i
przyjmują wartości z przedziału
ÔÄ…2
xy
" Im wartość współczynnika zbieżności
jest bliższa zeru, a tym sa-
ÔÄ…2
mym wartość współczynnika determinacji r2 jest bliższa jedności, tym
xy
dopasowanie prostych regresji do danych rzeczywistych jest lepsze.
" Interpretacja geometryczna:
Rysunek pochodzi ze strony: http://home.agh.edu.pl/~bartus/index_druk.php?druk=y&action=statystyka&subaction=regresja_i_korelacja
52


Wyszukiwarka

Podobne podstrony:
06 Wspolczynniki korelacji rangowej i liniowej
sokolski,statystyka inżynierska,regresja liniowa
L4 regresja liniowa klucz
korelacja i regresja
korelacja i regresja
Analiza regresji liniowej
Elementy analizy korelacji i regresji
Temat 4 I Klasyczny model regresji liniowej
Wzory korelacja i regresja
2 Model regresji liniowej
korelacja i regresja
Regresja liniowa
Regresja liniowa
L4 regresja liniowa (2)
Regresja liniowa
wzory (korelacja, regresja,czasowe)

więcej podobnych podstron