27/10/2014
ANALIZA KORELACJI I REGRESJI
Badanie populacji: jednostki charakteryzujemy zazwyczaj za
Metody statystyczne w
pomocą więcej niż jednej cechy i b. często interesują nas
powiązania, jakie zachodzą pomiędzy analizowanymi zmiennymi.
geologii W4
Korelacja zajmuje się siłą i kierunkiem zależności
Regresja zajmuje się kształtem zależności
Jeżeli ustalimy, że między zmiennymi istnieje jakaś korelacja
szukamy funkcji regresji, która opisuje tę zależność!
II rok Geologii i GZMiW: 2014/2015
ANALIZA KORELACJI I REGRESJI ANALIZA KORELACJI I REGRESJI
Współzależność między zmiennymi może być: Współzależność między zmiennymi może być:
1. funkcyjna 2. stochastyczna (probabilistyczna)
wraz ze zmianą wartości jednej zmiennej zmienia się rozkład
zmiana wartości zmiennej X powoduje ściśle określoną
prawdopodobieństwa drugiej zmiennej
zmianę wartości zmiennej Y
określonej wartości zmiennej X odpowiada jedna (!) i tylko
jedna wartość Y
Y
X zmienna niezależna
yi
(objaśniająca)
Y zmienna zależna
(objaśniana)
xi X xi X
ANALIZA KORELACJI I REGRESJI
ANALIZA KORELACJI I REGRESJI
Istotny związek między dwoma zmiennymi może być wyrazem
działania co najmniej czterech mechanizmów:
Współzależność między zmiennymi może być:
2. stochastyczna (probabilistyczna)
1. X i Y są zmiennymi, których zmienność uwarunkowana jest
wraz ze zmianą wartości jednej zmiennej zmienia się rozkład
czynnikiem A
prawdopodobieństwa drugiej zmiennej
2. X powoduje zmianę Y, ale również Y powoduje zmianę X;
szczególnym przypadkiem takiej zależności jest zależność
mamy więc dwustronne powiązanie
korelacyjna (statystyczna):
3. X i Y są powiązane za pośrednictwem jednej lub więcej
zmiennych Ai i tworzą łańcuch przyczynowy
wartości xi odpowiada ściśle określona
4. Występuje 1-kierunkowa zależność przyczynowa, taka jak
średnia rozkładu wi
zakładana w analizie regresji
y
w
i
można więc ustalić, jak średnio zmieni się
wartość zm. zależnej Y w zależności od
wartości zm. niezależnej X
xi x X
1
Y
Y
27/10/2014
ANALIZA KORELACJI I REGRESJI ANALIZA KORELACJI I REGRESJI
ANALIZA KORELACJI
W analizie korelacji obie zmienne (X i Y) traktowane są jednakowo
Związki pomiędzy zmiennymi mogą przyjmować postać:
nie wyróżniamy zmiennej zależnej i niezależnej!
związków liniowych
Korelacja między X i Y jest taka sama, jak między Y i X.
krzywych drugiego i wyższych stopni, etc.
Korelacja między zmiennymi X i Y jest miarą siły związku między
tymi zmiennymi.
Badanie zawsze rozpoczynamy od sporządzenia
ANALIZA REGRESJI
wykresu rozrzutu wartości zmiennych X i Y.
W analizie regresji ustalana / modelowana jest zależność między
dwiema zmiennymi: zależną Y i niezależną X!
ANALIZA KORELACJI I REGRESJI ANALIZA KORELACJI I REGRESJI
Przykład: Sumy rocznych opadów w mm (X) w dorzeczu rzeki STAT
Przykład: Sumy rocznych opadów (X) w dorzeczu rzeki STAT i odpływ &
oraz odpływ z tego dorzecza w mm (Y) w okresie 1937 1953.
opady i odpływ zmieniają się z roku na rok
(xi - ) (yi - )
zmiany nie zawsze idą w tym samym kierunku
+ -
X Y xi - yi -
X Y 73,32
50 46,4 31,9 -8,92 -8,22
63,0 46,8 +7,68 +6,68 51,30
46,4 31,9
38,60
63,0 46,8 40 48,8 34,2 -6,52 -5,92
35,28
60,1 47,5 +4,78 +7,38
48,8 34,2
1/n " (xi - )(yi - ) =
23,22
60,1 47,5 30 50,6 35,2 -4,72 -4,92
0,83
57,5 40,5 +2,18 +0,38
50,6 35,2 = 534,98 / 16 = 33,43
0,21
20 55,5 41,3 +0,18 +1,18
57,5 40,5
5,68
57,0 43,5 +1,68 +3,38
55,5 41,3
25,65
57,0 43,5 10 60,8 44,8 +5,48 +4,68
11,37
48,3 38,5 -7,02 -1,62
60,8 44,8
3,75
0 59,0 39,1 +3,68 -1,02
48,3 38,5
195,04
41,0 26,5 -14,32 -13,62
59,0 39,1 0 10 20 30 40 50 60 70 80
71,92
66,7 46,5 +11,38 +6,32
41,0 26,5
x - roczna suma opadów [mm]
3,54
56,4 43,4 +1,08 +3,28
66,7 46,5
2,32
58,3 40,9 +2,98 +0,78
56,4 43,4
0,45
55,7 41,3 +0,38 +1,18
58,3 40,9
55,7 41,3
538,73 3,75
=55,32 =40,12
=55,32 =40,12
534,98
ANALIZA KORELACJI I REGRESJI
WSPÓACZYNNIK KORELACJI LINIOWEJ
Przeciętna iloczynów odchyleń dwóch zbiorów danych od ich średnich
kowariancja Dlatego celem jest oszacowanie wielkości COV względem poziomu
zmienności X i Y standaryzacja kowariancji.
cov (X,Y) = 1/n " (xi - )(yi - )
Współczynnik korelacji liniowej Pearsona
(współczynnik korelacji wg momentu iloczynowego)
Wady - ograniczenia
1. Wartość kowariancji zależy od rozmiarów zmienności zmiennej. - x)(yi - y)
cov(X ,Y)
(xi
rXY = =
2. W konsekwencji trudno jest oszacować ważność kowariancji
SxSy
- x)2(yi - y)2
(xi
Oznaczenia: r współczynnik korelacji z populacji
r współczynnik korelacji z próby
-1 Ł r Ł +1
2
y - roczny odpływ [mm]
27/10/2014
WSPÓACZYNNIK KORELACJI LINIOWEJ
WSPÓACZYNNIK KORELACJI LINIOWEJ
Znak informuje o kierunku zależności
Współczynnik korelacji liniowej Pearsona
r > 0 r < 0
-1 Ł r Ł 1
r = ą1ścisła zależność w postaci
cov(X ,Y )
r = funkcji liniowej
0 Ł r Ł 1
SxSy r = 0zmienne nieskorelowane
Korelacja dodatnia Korelacja ujemna
IrI 1 to korelacja
-1 Ł r Ł +1
Moduł informuje o sile zależności
Przykład: Sumy rocznych opadów (X) w dorzeczu rzeki i odpływ &
r = +1
cov(X,Y) = 1/n " (xi - )(yi - ) = 534,98 / 16 = 33,43
Sx = 6,47 mm
r = 0,5 r = 0
Sy = 5,60 mm
r = 33,43 / (6,47*5,6) = 0,92 (wyrazna korelacja +)
WSPÓACZYNNIK KORELACJI LINIOWEJ WSPÓACZYNNIK KORELACJI LINIOWEJ
Korelacja `" zależność przyczynowo-skutkowej, tzn.:
Najczęściej przyjmuje się następujące oceny siły związku:
zmienne niezależne są zawsze nieskorelowane
zmienne nieskorelowane nie muszą być niezależne (może się
IrI siła związku korelacyjnego
okazać, że r H" 0, a mimo to pomiędzy zmiennymi istnieje współzależność,
tyle że nieliniowa)
0.0 - 0.2 brak
zmienne skorelowane nie muszą być zależne
0.2 - 0.4 słaba
0.4 - 0.7 średnia
Na podstawie prostej analizy korelacji nie powinno się wyciągać
wniosków przyczynowych, gdyż związek dwóch zmiennych może
0.7 - 0.9 silna
wystąpić z różnych powodów.
0.9 - 1.0 bardzo silna
WSPÓACZYNNIK KORELACJI WSPÓACZYNNIK KORELACJI
Współczynnik korelacji r z próby jest estymatorem współczynnika korelacji r w populacji
Rozkład t - Studenta z df=(n-2) stopniami swobody.
konieczność testowania istotności statystycznej współczynnika korelacji
Prawdopodobieństwo przypadkowego otrzymania konkretnej wartości r oceniamy za pomocą
statystyki testowej t Studenta:
funkcja gęstości
dystrybuanta
r f(x)
gdzie: df = n 2 liczba stopni swobody
F(x)
t = n - 2
n liczba korelowanych par
1- r2
r współczynnik korelacji Pearsona
(z próby)
Hipoteza zerowa: H0: = 0 współczynnik korelacji liniowej (w populacji) nie różni się istotnie od 0
Hipoteza alternatywna:
H1: `" 0 współczynnik korelacji liniowej jest istotny statystycznie (w populacji różni się istotnie od 0) lub
H1: > 0 współczynnik korelacji liniowej jest istotnie dodatni (w populacji jest istotnie większy od 0) lub
H1: < 0 współczynnik korelacji liniowej jest istotnie ujemny (w populacji jest istotnie mniejszy od 0)
3
27/10/2014
WSPÓACZYNNIK KORELACJI WSPÓACZYNNIK KORELACJI
Przykład: Sumy rocznych opadów (X) w dorzeczu rzeki i odpływ &
Hipoteza zerowa: H0: = 0 współczynnik korelacji liniowej
(w populacji) nie różni się istotnie od 0
cov(X,Y) = 1/n " (xi - )(yi - ) = 534,98 / 16 = 33,43
r = 0,92 (wyrazna korelacja +)
1. Ustalamy poziom istotności ą prawdopodobieństwo popełnienia
błędu przy przenoszeniu charakterystyki próby na populację. n = 16
r
t = n - 2
2. Liczymy statystykę t r
0,92
t = n - 2
1- r2
= 16 - 2 = 8,7838
1- r2
1- 0,922
3. Z tablic rozkładu t- Studenta odczytujemy wartość krytyczną tn-2,ą
Jeżeli -tn-2,ą < tobl < tn-2,ą a na przyjętym poziomie istotności ą brak podstaw do
odrzucenia hipotezy zerowej; współczynnik korelacji liniowej jest nieistotny t0,05;14 = z tablic = 2,145
statystycznie, czyli korelacja liniowa między zmiennymi nie występuje a H0 przyjęta
Jeżeli tobl (-", -tn-2,ą) v (tn-2,ą , +") a tobl znajduje się w dwustronnym obszarze -tn-2,ą < tobl < tn-2,ą a H0 przyjęta
krytycznym i H0 należy odrzucić na korzyść hipotezy alternatywnej.
tobl (-", -tn-2,ą) v (tn-2,ą , +") a H0 odrzucona
ANALIZA REGRESJI
ANALIZA REGRESJI PROSTEJ
Jak oszacować parametry liniowej funkcji regresji?
Regresja prostoliniowa (dla dwóch zmiennych):
Parametry równania szacuje się
metodą najmniejszych kwadratów
Y Linia regresji daje nam najlepszą
aproksymację istniejącej zależności
g
f(x) = ax + b + e
a suma kwadratów odchyleń
X
yi = axi + b + ei poszczególnych wartości yi od
linii min:
gdzie:
jeżeli IrI = 1 suma = 0
a - współczynnik regresji, informuje o tym, o ile zmienia się
wartość funkcji przy wzroście x o wartość jednostkową
jeżeli IrI < 1istnieje tylko
b - wyraz wolny, informuje o wartości funkcji gdy x = 0
jedno położenie linii, przy
którym suma jest min!
ei tzw. reszty (składnik losowy)
ANALIZA REGRESJI ANALIZA REGRESJI
Jak oszacować parametry liniowej funkcji regresji? Weryfikacja modelu regresji (tzw. ocena dobroci dopasowania)
Funkcja regresji wyliczona w oparciu o dane z losowej próby. Stanowi ona
Funkcja regresji Y względem X: y = f(x) y = ?
aproksymację funkcji regresji w całej populacji:
, - przeciętne zmiennej X i Y
Sy
f(x) = ax + b + e
Sx i Sy odchylenia standardowe X i Y
y - y = r (x - x)
r współczynnik korelacji
Sx
Problem oceny rozbieżności między wartościami zmiennej niezależnej yi w
Przykład: Sumy rocznych opadów (X) w dorzeczu rzeki i odpływ & populacji a wartościami wyliczonymi z modelu ANALIZA RESZT
Podsumowując założenia analizy regresji:
= 55,32 mm 5,60
y - 40,12 = 0,92 (x - 55,32)
= 40,12 mm 6,47
1. Zmienna objaśniająca X (niezależna) jest nielosowa
2. Składnik losowy (reszty( mają rozkład normalny N(m,s)
Sx = 2,73
y = 0,7962x 3,9308
3. Zakłócenia mają tendencję do wzajemnej redukcji, czyli wartość
Sy = 4,80
oczekiwana reszt = 0
4. Brak autokorelacji składnika losowego
r = 0,92
5. Składnik losowy jest o takiej samej wariancji
4
27/10/2014
ANALIZA REGRESJI ANALIZA REGRESJI
1. Błędy standardowe i przedziały ufności linii regresji 1. Błędy standardowe i granice ufności linii regresji?
Błąd standardowy oceny wartości niewiadomej y oznaczamy bSy:
Przykład: Sumy rocznych opadów (X) w dorzeczu rzeki i odpływ &
Sy odchylenia standardowe zmiennej Y
bSy = Sy 1- r2 = 55,32 mm
r współczynnik korelacji
bSy =1,88
= 40,12 mm
bSy ma własności rozkładu normalnego, czyli
Przykład: Sumy rocznych opadów (X) w dorzeczu rzeki i odpływ &
x = 2,73
prawdopodobieństwo tego, że prawdziwe wartości
będą różniły się od wartości wyznaczonej przez prostą
y = 4,80
= 55,32 mm
regresji nie więcej więcej niż o 2 błędy standardowe
bSy = 4,80 1- 0,922 =1,88
wynosi 95%
r = 0,92
= 40,12 mm
2 bSy = 3,76
Sx = 2,73
Sy = 4,80
r = 0,92
ANALIZA REGRESJI ANALIZA REGRESJI: weryfikacja modelu
1. Błędy standardowe i granice ufności linii regresji? 1. Błędy standardowe i przedziały ufności linii regresji
70 95% par mieści się w tym
zakresie
60
50
40 bSy =1,88
30
f(x)
20
10
0
2 bSy = 3,76
0 10 20 30 40 50 60 70 80 90
x - roczna suma opadów [mm]
x = 0 a y = 3,9308 ą 3,76
x = 1 a y = 0,7962 + 3,9308 ą 3,76 = 4,7270 ą 3,76
ANALIZA REGRESJI: weryfikacja modelu ANALIZA REGRESJI: weryfikacja modelu
2. Współczynnik determinacji r2 jest jedną z podstawowych 2. Współczynnik determinacji r2 jest jedną z podstawowych
miar jakości dopasowania miar jakości dopasowania
modelu modelu
5f5V - 5f = 5f5V - 5f + 5f5V - 5f5V
podnosząc równanie obustronnie
do kwadratu i przekształcając
5f5V - 5f = 5f5V - 5f + 5f5V - 5f5V
całkowita suma kwadratów odchylenia odchylenia nie wyjaśnione regresją (resztowa
odchyleń wyjaśnione regresją suma kwadratów)
5
y - roczny odpływ [mm]
27/10/2014
ANALIZA REGRESJI: weryfikacja modelu
2. Współczynnik determinacji r2 jest jedną z podstawowych miar
2. Współczynnik determinacji r2
jakości dopasowania modelu
Informuje o tym, jaka część zmienności zmiennej objaśnianej (Y) została wyjaśniona przez
model. Jest on więc miarą stopnia, w jakim model wyjaśnia kształtowania się zmiennej Y.
Wartości: r2 [0;1] Dopasowanie modelu jest tym lepsze, im r2 bliższe 1.
całkowita suma kwadratów odchylenia odchylenia nie wyjaśnione regresją (resztowa
3. Współczynnik zbieżności Ć2 (braku determinacji)
odchyleń wyjaśnione regresją suma kwadratów)
Ć2 = 1 r2
współczynnik
współczynnik
zbieżności
determinacji Określa, jaka część zmienności zmiennej Y nie została wyjaśniona przez model. Jest więc
miarą stopnia, w jakim model nie wyjaśnia kształtowania się zmiennej Y.
Wartości: Ć2 [0;1] Dopasowanie modelu jest tym lepsze, im Ć2 bliższe zeru.
w modelu regresji liniowej jest on równy
kwadratowi wsp. korelacji (r2)
WSPÓACZYNNIK DETERMINACJI I ZBIEŻNOŚCI
REGRESJA Y względem X a X względem Y
Przykład: Sumy rocznych opadów (X) w dorzeczu oraz odpływ&
Szacowanie y z funkcji regresji a szacowanie x?
Można wyznaczyć:
r = 0,92 r2 = 0,8464
funkcję regresji zmiennej zależnej Y przy danych wartościach
Ć2 = 1 0,8464 = 0,1536
zmiennej niezależnej X (regresja Y względem X):
y = f(x) = a0 + a1x
Nie można wnioskować, że 92% zmienności ilości wody deszczowej spływającej rzeką jest
zdeterminowane przez dane dotyczące opadów deszczu. Na podstawie f(x) możemy szacować y dla dowolnego x. Ale nie możemy wykonać
działania odwrotnego, tzn. oszacować x na podstawie y. Żeby to zrobić musimy
W rzeczywistości 84,64% zmienności ilości wody spływającej rzeką jest zdeterminowane wyznaczyć:
przez opady deszczu.
g(y)
prostą regresji X względem Y f(x)
Y
Czyli zmienność, której nie da się oszacować z danych opadów, nie wynosi 8%, ale 15,5%.
Wpływają na nią inne (niż opady) czynniki !! x = g(y) = c0 + c1y
X
ANALIZA REGRESJI ANALIZA REGRESJI
Szacowanie y z funkcji regresji a szacowanie x? Szacowanie y z funkcji regresji a szacowanie x?
Przykład: opady i odpływ = 55,32 mm i x = 6,47 mm
prosta regresji Y względem X: y = f(x) y = ? = 40,12 mm i y = 5,60 mm
r = 0,92
, - przeciętne zmiennej X i Y
Sy
Sx i Sy
y - y = r (x - x) odchylenia standardowe X i Y
funkcja regresji Y względem X: y = f(x) y = ?
r współczynnik korelacji
Sx
5,60
y = 0,7962x 3,9308
y - 40,12 = 0,92 (x - 55,32)
prosta regresji X względem Y: x = g(y) x = ?
6,47
Sx
x - x = r (y - y)
funkcję regresji X względem Y: x = g(y) x = ?
Sy
6,47
x - 55,32 = 0,92 (y - 40,12)
x = 1,0629y + 12,6753
5,60
6
27/10/2014
ANALIZA REGRESJI ANALIZA REGRESJI
Szacowanie y z funkcji regresji a szacowanie x? Szacowanie y z funkcji regresji a szacowanie x?
Przykład: opady i odpływ = 55,32 mm i x = 6,47 mm
= 40,12 mm i y = 5,60 mm
r = 1
r = 0,92
70
g(y) f(x) = y = 0,7962x 3,9308
Kąt, jaki tworzą ze sobą proste
60
regresji odzwierciedla względną
50
g(y) = x = 1,0629y + 12,6753
0 < r < 1
40 wielkość r !
30
f(x)
20
10 Kąt, jaki tworzą ze sobą proste
0
regresji odzwierciedla względną
0 10 20 30 40 50 60 70 80 90
wielkość r !
x - roczna suma opadów [mm]
r = 0
REGRESJA WIELORAKA
Regresja prostoliniowa (dla n zmiennych niezależnych):
f(x) = b0 + b1x + b2x + & + bkx + e
Założenia - te do regresji prostej plus:
1. liczba obserwacji n jest > od liczby oszacowanych parametrów (n >
k+1)
2. Żadna ze zmiennych niezależnych nie jest kombinacją liniową innych
zmiennych zależnych
3. Każdy ze składnik losowych ma rozkład normalny
4. Składnik losowy ma wartość oczekiwaną = 0 (E(ei)=0 dla i = 1, 2,& , n)
5. Wariancja składnika losowego jest taka sama dla wszystkich
obserwacji
6. Składniki losowe są nieskorelowane
7
y - roczny odpływ [mm]
Wyszukiwarka
Podobne podstrony:
sędzia Masznicz materiał do zajęć (z nieobowiązkowymi zadaniami) na dzień 18 10 2014Mikołaj Rybaczuk Materiały do ćwiczeń i wykładów ze statystyki Politechnika BIałostockamateriały do syst transportuGBS materialy do egzaminu VCAWyklad 7 Nieparametryczne metody statystyczne PL [tryb zgodności]materiały do napraw w instalacjizakres materiału do chromatografiiMetody statystyczne dla opornych cz 2Materiały do terminologii więźb dachowych podstawowe pojęcia, cz 1materiały do koloskaPrawo Jazdy w OSK3 Materiały do wykładów6Przykład do W4więcej podobnych podstron