 
27/10/2014
1
Metody statystyczne w
geologii – W4
II rok Geologii i GZMiW: 2014/2015
A
NALIZA
K
ORELACJI I
R
EGRESJI
Badanie populacji: jednostki charakteryzujemy zazwyczaj za 
pomocą więcej niż jednej cechy i b. często interesują nas 
powiązania, jakie zachodzą pomiędzy analizowanymi zmiennymi.
Korelacja – zajmuje się siłą i kierunkiem zależności
Regresja – zajmuje się kształtem zależności
Jeżeli ustalimy, że między zmiennymi istnieje jakaś korelacja 
szukamy funkcji regresji, która opisuje tę zależność! 
Współzależność między zmiennymi może być:
1.
funkcyjna
 zmiana wartości zmiennej X powoduje ściśle określoną
zmianę wartości zmiennej Y
 określonej wartości zmiennej X odpowiada jedna (!) i tylko
jedna wartość Y
X → zmienna niezależna
(objaśniająca)
Y → zmienna zależna
(objaśniana)
X
Y
x
i
y
i
A
NALIZA
K
ORELACJI I
R
EGRESJI
Współzależność między zmiennymi może być:
2.
stochastyczna (probabilistyczna)
 wraz ze zmianą wartości jednej zmiennej zmienia się rozkład
prawdopodobieństwa drugiej zmiennej
X
Y
x
i
A
NALIZA
K
ORELACJI I
R
EGRESJI
X
Y
Współzależność między zmiennymi może być:
2.
stochastyczna (probabilistyczna)
 wraz ze zmianą wartości jednej zmiennej zmienia się rozkład
prawdopodobieństwa drugiej zmiennej
 szczególnym przypadkiem takiej zależności jest
zależność
korelacyjna (statystyczna):
x
i
i
yˆ
x
y
wartości x
i
odpowiada ściśle określona
średnia rozkładu ŷ
i
można więc ustalić, jak „średnio” zmieni się 
wartość zm. zależnej Y w zależności od 
wartości zm. niezależnej X
A
NALIZA
K
ORELACJI I
R
EGRESJI
ANALIZA KORELACJI I REGRESJI
Istotny związek między dwoma zmiennymi może być wyrazem 
działania co najmniej czterech mechanizmów:
1. X
i Y są zmiennymi, których zmienność uwarunkowana jest
czynnikiem A
2. X
powoduje zmianę Y, ale również Y powoduje zmianę X;
mamy
więc dwustronne powiązanie
3.
X i Y są powiązane za pośrednictwem jednej lub więcej 
zmiennych A
i
i tworzą łańcuch przyczynowy
4.
Występuje 1-kierunkowa zależność przyczynowa, taka jak 
zakładana w analizie regresji
 
27/10/2014
2
W analizie korelacji obie zmienne (X i Y) traktowane są jednakowo –
nie wyróżniamy zmiennej zależnej i niezależnej!
Korelacja między X i Y jest taka sama, jak między Y i X.
Korelacja między zmiennymi X i Y jest miarą siły związku między 
tymi zmiennymi. 
ANALIZA KORELACJI
ANALIZA KORELACJI I REGRESJI
ANALIZA REGRESJI
W analizie regresji  ustalana / modelowana jest zależność między 
dwiema zmiennymi: zależną Y i niezależną X!
Związki pomiędzy zmiennymi mogą przyjmować postać:
 związków liniowych
 krzywych drugiego i wyższych stopni, etc.
Badanie zawsze rozpoczynamy od sporządzenia
wykresu rozrzutu wartości zmiennych X i Y.
ANALIZA KORELACJI I REGRESJI
 opady i odpływ zmieniają się z roku na rok
 zmiany nie zawsze „idą” w tym samym  kierunku
Przykład: Sumy rocznych opadów w mm (X) w dorzeczu rzeki STAT
oraz odpływ z tego dorzecza w mm (Y) w okresie 1937 – 1953.
X
Y
46,4
63,0
48,8
60,1
50,6
57,5
55,5
57,0
60,8
48,3
59,0
41,0
66,7
56,4
58,3
55,7
31,9
46,8
34,2
47,5
35,2
40,5
41,3
43,5
44,8
38,5
39,1
26,5
46,5
43,4
40,9
41,3
=55,32
=40,12
ANALIZA KORELACJI I REGRESJI
0
10
20
30
40
50
0
10
20
30
40
50
60
70
80
x - roczna suma opadów [mm]
y
-
ro
cz
n
y
o
d
p
ły
w
[
m
m
]
(x
i
- ) (y
i
- )
+
-
73,32
51,30
38,60
35,28
23,22
0,83
0,21
5,68
25,65
11,37
195,04
71,92
3,54
2,32
0,45
3,75
538,73
3,75
534,98
1/n ∑ (x
i
- )(y
i
- ) =
= 534,98 / 16 = 33,43
Przykład:
Sumy rocznych opadów (X) w dorzeczu rzeki STAT i odpływ …
x
i
-
y
i
-
-8,92
+7,68
-6,52
+4,78
-4,72
+2,18
+0,18
+1,68
+5,48
-7,02
+3,68
-14,32
+11,38
+1,08
+2,98
+0,38
-8,22
+6,68
-5,92
+7,38
-4,92
+0,38
+1,18
+3,38
+4,68
-1,62
-1,02
-13,62
+6,32
+3,28
+0,78
+1,18
X
Y
46,4
63,0
48,8
60,1
50,6
57,5
55,5
57,0
60,8
48,3
59,0
41,0
66,7
56,4
58,3
55,7
31,9
46,8
34,2
47,5
35,2
40,5
41,3
43,5
44,8
38,5
39,1
26,5
46,5
43,4
40,9
41,3
=55,32
=40,12
ANALIZA KORELACJI I REGRESJI
Przeciętna iloczynów odchyleń dwóch zbiorów danych od ich średnich 
kowariancja
cov (X,Y) = 1/n ∑ (x
i
- )(y
i
- )
Wady - ograniczenia
1. Wartość kowariancji zależy od rozmiarów zmienności zmiennej.
2. W konsekwencji trudno jest oszacować „ważność kowariancji”
ANALIZA KORELACJI I REGRESJI
W
SPÓŁCZYNNIK
K
ORELACJI
L
INIOWEJ
Współczynnik korelacji liniowej Pearsona
(współczynnik korelacji wg momentu iloczynowego)
-1
r
+1
Oznaczenia:
– współczynnik korelacji z populacji
r – współczynnik korelacji z próby
Dlatego celem jest oszacowanie wielkości COV względem poziomu 
zmienności X i Y  standaryzacja kowariancji.
2
2
)
(
)
(
)
)(
(
)
,
cov(
y
y
x
x
y
y
x
x
S
S
Y
X
r
i
i
i
i
y
x
XY
 
27/10/2014
3
W
SPÓŁCZYNNIK
K
ORELACJI
L
INIOWEJ
Współczynnik korelacji liniowej Pearsona
r =
1 
ścisła zależność w postaci
funkcji liniowej
r = 0
 zmienne nieskorelowane
I
rI → 1 to korelacja 
-1
r
+1
y
x
S
S
Y
X
r
)
,
cov(
Przykład:
Sumy rocznych opadów (X) w dorzeczu rzeki i odpływ …
cov(X,Y) = 1/n ∑ (x
i
- )(y
i
- ) = 534,98 / 16 = 33,43
S
x
= 6,47 mm
S
y
= 5,60 mm
r = 33,43 / (6,47*5,6) = 0,92 (wyraźna korelacja +)
r = +1
r = 0,5
r = 0
Znak informuje o kierunku zależności
r > 0
Korelacja dodatnia
r < 0
Korelacja ujemna
Moduł informuje o sile zależności
WSPÓŁCZYNNIK KORELACJI LINIOWEJ
1
0
1
1
r
r
Najczęściej przyjmuje się następujące oceny siły związku:
WSPÓŁCZYNNIK KORELACJI LINIOWEJ
IrI
siła związku korelacyjnego
0.0 - 0.2
brak
0.2 - 0.4
słaba
0.4 - 0.7
średnia
0.7 - 0.9
silna
0.9 - 1.0
bardzo silna
WSPÓŁCZYNNIK KORELACJI LINIOWEJ
Korelacja ≠ zależność przyczynowo-skutkowej
, tzn.:
 zmienne niezależne są zawsze nieskorelowane
 zmienne nieskorelowane nie muszą być niezależne 
(może się
okazać, że r ≈ 0, a mimo to pomiędzy zmiennymi istnieje współzależność, 
tyle że nieliniowa)
 zmienne skorelowane nie muszą być zależne
Na podstawie prostej analizy korelacji nie powinno się wyciągać 
wniosków przyczynowych, gdyż związek dwóch zmiennych może 
wystąpić z różnych powodów.
WSPÓŁCZYNNIK KORELACJI
Współczynnik korelacji r z próby jest estymatorem współczynnika korelacji
w populacji 
konieczność testowania istotności statystycznej współczynnika korelacji
Prawdopodobieństwo przypadkowego otrzymania konkretnej  wartości r oceniamy za pomocą 
statystyki testowej t Studenta:
gdzie: df = n – 2 liczba stopni swobody
n – liczba korelowanych par
r – współczynnik korelacji Pearsona 
(z próby)
2
2
1
r
t
n
r
Hipoteza zerowa: H
0
: ρ = 0 – współczynnik korelacji liniowej (w populacji) nie różni się istotnie od 0
Hipoteza alternatywna:
H
1
: ρ ≠ 0 – współczynnik korelacji liniowej jest istotny statystycznie (w populacji różni się istotnie od 0) lub
H
1
: ρ > 0 – współczynnik korelacji liniowej jest istotnie dodatni (w populacji jest istotnie większy od 0) lub
H
1
: ρ < 0 – współczynnik korelacji liniowej jest istotnie ujemny (w populacji jest istotnie mniejszy od 0)
WSPÓŁCZYNNIK KORELACJI
Rozkład t - Studenta z df=(n-2) stopniami swobody.
funkcja gęstości
f(x)
dystrybuanta 
F(x)
 
27/10/2014
4
WSPÓŁCZYNNIK KORELACJI
Hipoteza zerowa: H
0
: ρ = 0
– współczynnik korelacji liniowej
(w populacji) nie różni się istotnie od 0
1. Ustalamy poziom istotności α – prawdopodobieństwo popełnienia
błędu przy przenoszeniu charakterystyki próby na populację.
2. Liczymy statystykę t
3. Z tablic rozkładu t- Studenta odczytujemy wartość krytyczną t
n-2,α
Jeżeli -t
n-2,α
< t
obl
< t
n-2,α
 na przyjętym poziomie istotności α brak podstaw do
odrzucenia hipotezy zerowej; współczynnik korelacji liniowej jest nieistotny 
statystycznie, czyli korelacja liniowa między zmiennymi nie występuje  H
0
przyjęta
Jeżeli t
obl
(-∞, -t
n-2,α
) v (t
n-2,α
, +∞)  t
obl
znajduje się w dwustronnym obszarze
krytycznym i H
0
należy odrzucić na korzyść hipotezy alternatywnej.
2
2
1
r
t
n
r
WSPÓŁCZYNNIK KORELACJI
Przykład:
Sumy rocznych opadów (X) w dorzeczu rzeki i odpływ …
cov(X,Y) = 1/n ∑ (x
i
- )(y
i
- ) = 534,98 / 16 = 33,43
r
= 0,92 (wyraźna korelacja +)
n = 16
2
2
1
r
t
n
r
7838
,
8
2
16
92
,
0
1
92
,
0
2
t
0,05;14
= z tablic = 2,145
-t
n-2,α
< t
obl
< t
n-2,α
 H
0
przyjęta
t
obl
(-∞, -t
n-2,α
) v (t
n-2,α
, +∞)  H
0
odrzucona
Regresja prostoliniowa
(dla dwóch zmiennych):
A
NALIZA
R
EGRESJI PROSTEJ
Linia regresji – daje nam najlepszą 
aproksymację istniejącej zależności
f(x) = ax + b + e
y
i
= ax
i
+ b + e
i
X
a
Y
gdzie:
a - współczynnik regresji, informuje o tym, o ile zmienia się
wartość funkcji przy wzroście x o wartość jednostkową
b - wyraz wolny, informuje o wartości funkcji gdy x = 0
e
i
– tzw. reszty (składnik losowy)
Jak oszacować parametry liniowej funkcji regresji?
ANALIZA REGRESJI
Parametry równania szacuje się
metodą najmniejszych kwadratów
suma kwadratów odchyleń 
poszczególnych wartości y
i
od
linii
→ min
:
jeżeli
I
rI = 1
suma = 0
jeżeli
I
rI < 1
 istnieje tylko
jedno położenie linii, przy 
którym suma jest min!
Jak oszacować parametry liniowej funkcji regresji?
ANALIZA REGRESJI
Funkcja regresji Y względem X:
y = f(x)
→ y = ?
)
(
x
x
S
S
r
y
y
x
y
, - przeciętne zmiennej X i Y
S
x
i S
y
– odchylenia standardowe X i Y
r – współczynnik korelacji
= 55,32 mm
= 40,12 mm
S
x
= 2,73
S
y
= 4,80
r
=
0,92
Przykład:
Sumy rocznych opadów (X) w dorzeczu rzeki i odpływ …
)
32
,
55
(
47
,
6
60
,
5
92
,
0
12
,
40
x
y
 y = 0,7962x – 3,9308
Weryfikacja modelu regresji
(tzw. ocena dobroci dopasowania)
ANALIZA REGRESJI
Funkcja regresji – wyliczona w oparciu o dane z losowej próby. Stanowi ona 
aproksymację funkcji regresji w całej populacji:
f(x) =
x +
+
Problem oceny rozbieżności między wartościami zmiennej niezależnej y
i
w
populacji a wartościami wyliczonymi z modelu 
ANALIZA RESZT
Podsumowując – założenia analizy regresji:
1.
Zmienna objaśniająca X (niezależna) jest nielosowa
2.
Składnik losowy (reszty( mają rozkład normalny N(
,
)
3.
Zakłócenia mają tendencję do wzajemnej redukcji, czyli wartość 
oczekiwana reszt = 0
4.
Brak autokorelacji składnika losowego
5.
Składnik losowy jest o takiej samej wariancji
 
27/10/2014
5
1. Błędy standardowe i przedziały ufności linii regresji
ANALIZA REGRESJI
S
y
– odchylenia standardowe zmiennej Y
r – współczynnik korelacji
= 55,32 mm
= 40,12 mm
S
x
= 2,73
S
y
= 4,80
r
= 0,92
2
1 r
S
bSy
y
Błąd standardowy oceny wartości niewiadomej y oznaczamy bSy:
88
,
1
92
,
0
1
80
,
4
2
bSy
Przykład:
Sumy rocznych opadów (X) w dorzeczu rzeki i odpływ …
1. Błędy standardowe i granice ufności linii regresji?
ANALIZA REGRESJI
= 55,32 mm
= 40,12 mm
σ
x
= 2,73
σ
y
= 4,80
r
= 0,92
88
,
1
bSy
Przykład:
Sumy rocznych opadów (X) w dorzeczu rzeki i odpływ …
bSy ma własności rozkładu normalnego, czyli 
prawdopodobieństwo tego, że prawdziwe wartości 
będą różniły się od wartości wyznaczonej przez prostą 
regresji nie więcej  więcej niż o 2 błędy standardowe 
wynosi 95%
2 bSy = 3,76
1. Błędy standardowe i granice ufności linii regresji?
ANALIZA REGRESJI
88
,
1
bSy
2 bSy = 3,76
x = 0
y = 3,9308
3,76
x = 1
y = 0,7962 + 3,9308
3,76 = 4,7270
3,76
0
10
20
30
40
50
60
70
0
10
20
30
40
50
60
70
80
90
x - roczna suma opadów [mm]
y
-
r
o
c
z
n
y
o
d
p
ły
w
[
m
m
]
f(x)
95% par mieści się w tym 
zakresie
ANALIZA REGRESJI: weryfikacja modelu
1. Błędy standardowe i przedziały ufności linii regresji
2. Współczynnik determinacji r
2
–
jest jedną z podstawowych
miar jakości dopasowania 
modelu
ANALIZA REGRESJI: weryfikacja modelu
𝑦
𝑖
− 𝑦 = 𝑦
𝑖
− 𝑦 + 𝑦
𝑖
− 𝑦
𝑖
2. Współczynnik determinacji r
2
–
jest jedną z podstawowych
miar jakości dopasowania 
modelu
ANALIZA REGRESJI: weryfikacja modelu
𝑦
𝑖
− 𝑦 = 𝑦
𝑖
− 𝑦 + 𝑦
𝑖
− 𝑦
𝑖
odchylenia
wyjaśnione regresją
odchylenia nie wyjaśnione regresją (resztowa
suma kwadratów)
podnosząc równanie obustronnie 
do kwadratu i przekształcając
całkowita suma kwadratów
odchyleń
 
27/10/2014
6
2. Współczynnik determinacji r
2
współczynnik
determinacji
ANALIZA REGRESJI: weryfikacja modelu
odchylenia
wyjaśnione regresją
odchylenia nie wyjaśnione regresją (resztowa
suma kwadratów)
całkowita suma kwadratów
odchyleń
współczynnik
zbieżności
w modelu regresji liniowej jest on równy
kwadratowi wsp. korelacji (r
2
)
2. Współczynnik determinacji r
2
–
jest jedną z podstawowych miar
jakości dopasowania modelu
Informuje o tym, jaka część zmienności zmiennej objaśnianej (Y) została wyjaśniona przez 
model. Jest on więc miarą stopnia, w jakim model wyjaśnia kształtowania się zmiennej Y. 
Wartości: r
2
[0;1]
Dopasowanie modelu jest tym lepsze, im r
2
bliższe 1.
3. Współczynnik zbieżności φ
2
(braku determinacji)
Określa, jaka część zmienności zmiennej Y nie została wyjaśniona przez model. Jest więc 
miarą stopnia, w jakim model nie wyjaśnia kształtowania się zmiennej Y.
Wartości: φ
2
[0;1]
Dopasowanie modelu jest tym lepsze, im φ
2
bliższe zeru.
φ
2
= 1 – r
2
Nie można wnioskować, że 92% zmienności ilości wody deszczowej spływającej rzeką jest 
zdeterminowane przez dane dotyczące opadów deszczu. 
W rzeczywistości 84,64% zmienności ilości wody spływającej rzeką jest zdeterminowane 
przez opady deszczu.
Czyli zmienność, której nie da się oszacować z danych opadów, nie wynosi 8%, ale 15,5%. 
Wpływają na nią inne (niż opady) czynniki !!
WSPÓŁCZYNNIK DETERMINACJI I ZBIEŻNOŚCI
Przykład:
Sumy rocznych opadów (X) w dorzeczu oraz odpływ…
r = 0,92 
r
2
= 0,8464
φ
2
= 1 – 0,8464 = 0,1536
Szacowanie y z funkcji regresji a szacowanie x?
Można wyznaczyć:
 funkcję regresji zmiennej zależnej Y przy danych wartościach
zmiennej niezależnej X (regresja Y względem X):
y = f(x) = a
0
+ a
1
x
Na podstawie f(x) możemy szacować y dla dowolnego x. Ale nie możemy wykonać 
działania  odwrotnego, tzn. oszacować x na podstawie y. Żeby to zrobić musimy 
wyznaczyć:
 prostą regresji X względem Y
x = g(y) = c
0
+ c
1
y
X
Y
f(x)
g(y)
REGRESJA „Y względem X” a „X względem Y”
ANALIZA REGRESJI
 prosta regresji Y względem X:
y = f(x)
→ y = ?
 prosta regresji X względem Y:
x = g(y)
→ x = ?
)
(
x
x
S
S
r
y
y
x
y
)
(
y
y
S
S
r
x
x
y
x
, - przeciętne zmiennej X i Y
S
x
i S
y
– odchylenia standardowe X i Y
r – współczynnik korelacji
Szacowanie y z funkcji regresji a szacowanie x?
ANALIZA REGRESJI
Przykład:
opady i odpływ 
= 55,32 mm i σ
x
= 6,47 mm
= 40,12 mm i σ
y
= 5,60 mm
r = 0,92
 funkcja regresji Y względem X:
y = f(x)
→ y = ?
 funkcję regresji X względem Y:
x = g(y)
→ x = ?
)
32
,
55
(
47
,
6
60
,
5
92
,
0
12
,
40
x
y
)
12
,
40
(
60
,
5
47
,
6
92
,
0
32
,
55
y
x
 y = 0,7962x – 3,9308
 x = 1,0629y + 12,6753
Szacowanie y z funkcji regresji a szacowanie x?
 
27/10/2014
7
ANALIZA REGRESJI
Przykład:
opady i odpływ 
= 55,32 mm i σ
x
= 6,47 mm
= 40,12 mm i σ
y
= 5,60 mm
r = 0,92
f(x) = y = 0,7962x – 3,9308
g(y) = x = 1,0629y + 12,6753
0
10
20
30
40
50
60
70
0
10
20
30
40
50
60
70
80
90
x - roczna suma opadów [mm]
y
-
r
o
c
z
n
y
o
d
p
ły
w
[
m
m
]
f(x)
g(y)
Kąt, jaki tworzą ze sobą proste 
regresji odzwierciedla względną 
wielkość 
r
!
Szacowanie y z funkcji regresji a szacowanie x?
ANALIZA REGRESJI
Kąt, jaki tworzą ze sobą proste 
regresji odzwierciedla względną 
wielkość 
r
!
r = 1
r = 0
0 < r < 1
Szacowanie y z funkcji regresji a szacowanie x?
Regresja prostoliniowa
(dla n zmiennych niezależnych):
R
EGRESJA
W
IELORAKA
f(x) = b
0
+ b
1
x + b
2
x + … + b
k
x + e
Założenia - te do regresji prostej plus:
1. liczba obserwacji n jest > od liczby oszacowanych parametrów (n > 
k+1)
2.
Ż
adna ze zmiennych niezależnych nie jest kombinacją liniową innych
zmiennych zależnych
3. Każdy ze składnik losowych ma rozkład normalny
4. Składnik losowy ma wartość oczekiwaną = 0 
(E(e
i
)=0 dla i = 1, 2,…, n)
5. Wariancja składnika losowego jest taka sama dla wszystkich
obserwacji
6. Składniki losowe są nieskorelowane