Wyklad3(korelacja1)


2014-03-31
Wykład 3.
Wykład 3.
Analiza korelacji
Analiza korelacji
(część 1)
(część 1)
A. STRUKTURY - 1 zmienna (cecha): xi
A. STRUKTURY - 1 zmienna (cecha):xi
A. KORELACJI - 2 zmienne (cechy): xioraz yi
A. KORELACJI - 2 zmienne (cechy): xioraz yi
Zależność funkcyjna  zmiana wartości 1 zmiennej
funkcyjna
powoduje ściśle określoną zmianę wartości 2 zmiennej
Zależność stochastyczna  zmiana wartości 1 zmiennej
stochastyczna
powoduje zmianę rozkładu prawdopodobieństwa
2 zmiennej
Zależność korelacyjna  zmiana wartości 1 zmiennej
korelacyjna
powoduje zmianę wartości 2 zmiennej, ale średnio
rzecz biorąc
1
2014-03-31
Analiza jakościowa  czy istnieje merytoryczny (logiczny)
jakościowa
związek (zależność) między zmiennymi ???
np. wiek a wynagrodzenie - TAK
znak zodiaku a wynagrodzenie  NIE (ew. tzw. korelacja pozorna)
Analiza ilościowa  opisanie związku matematycznie 
ilościowa
określenie jego kierunku i siły
KIERUNEK: SIAA:
KIERUNEK: SIAA:
" brak zależności " brak zależności
" dodatni " mała
" ujemny " umiarkowana
" duża
" idealna (zal. funkc.)
KIERUNEK ODDZIAAYWANIA:
KIERUNEK ODDZIAAYWANIA:
" jednostronny
jednostronny
" dwustronny
dwustronny
np. wiek wpływa na zarobki,
np. zarobki wpływają na
a nie odwrotnie
& & & ., a & & & . wpływają na
zarobki
Jak oceniamy kierunek i siłę zależności?
Jak oceniamy kierunek i siłę zależności?
1) na podstawie wykresu  tzw. korelacyjny diagram rozrzutu
wykresu
2) na podstawie współczynników korelacji (np. Pearsona, Spearmana)
współczynników korelacji
3) na podstawie analizy regresji
analizy regresji
2
2014-03-31
WSPÓACZYNNIK KORELACJI LINIOWEJ PEARSONA
PEARSONA
n
n
- x)(yi- y)
yi)- N x y
"(xi
"(xi
i=1
i=1
rxy = rxy =
N " sxsy
N " sxsy
r = 0 brak zależności
r = 0
r > 0 korelacja dodatnia
r > 0
r < 0 korelacja ujemna
r < 0
0 < ćłrćłd"0,3
0 <ćłrćłd"0,3 zależność słaba
0,3 <ćłrćłd"0,6
0,3 < ćłrćłd"0,6 zal. umiarkowana
Stosowany tylko do
Stosowany tylko do
0,6 <ćłrćł< 1
0,6 < ćłrćł< 1 zal. silna
cech mierzalnych
cech mierzalnych
ćłrćł= 1 zal. idealna
ćłrćł= 1
3
2014-03-31
WSPÓACZYNNIK KORELACJI RANG SPEARMANA
RANG SPEARMANA
n
2
6
"d
i=1
d=Rx-Ry
rs=1-
N(N2-1)
Może być stosowany do cech niemierzalnych,
Może być stosowany do cech niemierzalnych,
których warianty da się uporządkować
których warianty da się uporządkować
(np. wykształcenie)
(np. wykształcenie)
Współczynnik spearmana to współczynnik Pearmana ale zamieniony na rangi. Pearman to uproszczony Spearman.
Zadanie 1.
Zadanie 1. Długość cyklu produkcyjnego oraz koszty wytworzenia
automatów do gier wyprodukowanych w 2012 roku przez pewną firmę
były następujące:
Długość Koszty
(w godz.) (w tys. zł)
135 30
130 29
125 29
110 25
140 28
180 31
120 27
150 31
165 powyżej 40
Oceń kierunek i siłę zależności
pomiędzy wyróżnionymi zmiennymi
4
2014-03-31
Rangowanie jest mniej miarodajne, ponieważ licząc to tracimy pewne dane.
Zadanie 1.
Zadanie 1.
? ? ?
? ? ?
50
45
40
35
30
25
20
100 120 140 160 180 200
Długość (w godz.)
Zadanie 1.
Zadanie 1.
Długość Koszty Rx Ry d = Rx - Ry d2
(w godz.) (w tys. zł)
135 30 5 6 5-6 = -1 (-1)2= 1
130 29 4 4,5 4-4,5 = -0,5 (-0,5)2= 0,25
125 29 3 4,5 3-4,5 = -1,5 (-1,5)2= 2,25
110 25 1 1 1-1 = 0 (0)2= 0
140 28 6 3 6-3 = 3 (3)2= 9
180 31 9 7,5 9-7,5 = 1,5 (1,5)2= 2,25
120 27 2 2 2-2 = 0 (0)2= 0
150 31 7 7,5 7-7,5 = -0,5 (-0,5)2= 0,25
powyżej 40
165 8 9 8-9 = -1 (-1)2= 1
Ł= 16
Ł= 16
n
2
6
"d
i=1
rs=1-
N(N2-1)
5
Koszty (w tys. zł)
2014-03-31
Zadanie 2.
Zadanie 2. Zebrano dane na temat odsetka osób w wieku produkcyjnym
oraz PKB na 1 mieszkańca dla Polski oraz jej sąsiadów:
Ludność w wieku PKB
Państwo produkcyjnym na 1 mieszkańca
(w %) (w USD)
Polska 71,1 17,5
Niemcy 66,3 35,4
Czechy 71,0 25,4
Słowacja 71,7 22,0
Rosja 71,3 15,9
Litwa 69,1 18,9
Białoruś 70,4 12,3
Ukraina 70,0 ok. 7
Oceń kierunek i siłę zależności
pomiędzy wyróżnionymi zmiennymi
x - ludność
y - pkb
Zadanie 2.
Zadanie 2.
Ludność PKB Rx Ry d = Rx - Ry d2
71,1 17,5 6 4 6 - 4 = 2 (2)2= 4
66,3 35,4 1 8 1 - 8 = -7 (-7)2= 49
71,0 25,4 5 7 5 - 7 = -2 (-2)2= 4
71,7 22,0 8 6 8 - 6 = 2 (2)2= 4
71,3 15,9 7 3 7 - 3 = 4 (4)2= 16
69,1 18,9 2 5 2 - 5 = -3 (-3)2= 9
70,4 12,3 4 2 4 - 2 = 2 (2)2= 4
70,0 ok. 7 3 1 3 - 1 = 2 (2)2= 4
Ł= 94
Ł= 94
n
2
6
"d
N = 8 r = - 0,12
i=1
rs=1-
N(N2-1)
Pomiędzy odsetkiem ludności w wieku produkcyjnym a PKB jest korelacja ujemna, ale jest ona bardzo słaba. A więc ten odsetek nie wpływa
za bardzo na PKB.
6
2014-03-31
Zadanie 3.
Zadanie 3. Roczne spożycie czekolady oraz dochód w przeliczeniu na 1 osobę
dla 10 gospodarstw domowych w Poznaniu w 2012 roku przedstawiono
w tabeli:
Spożycie
Dochód
czekolady
(w tys. zł)
(w kg)
19 9
24 12
25 12
27 15
29 17
29 18
31 23
32 27
28 21
26 16
Oceń kierunek i siłę zależności
pomiędzy wyróżnionymi zmiennymi
Zadanie 3.
Zadanie 3.
35
30
25
20
15
5 10 15 20 25 30
Dochody (w tys. zł)
7
Spożycie czekolady (w kg)
2014-03-31
n
Zadanie 3.
Zadanie 3.
- x)(yi- y)
"(xi
i=1
rxy =
N " sxsy
35
(xi-x)=
+
30
(yi y)=
+
y
25 k
"xi
x=i=1
N
20
k
2
( -x)
"xi
i=1
sx=
N
15
5 10 15 20 25 30
x
Dochody (w tys. zł)
Zadanie 3.
Zadanie 3.
Spożycie
Dochód
czekolady (xi xśr)2 (yi yśr)2 (xi xśr)(yi yśr)
(w tys. zł)
(w kg)
19 9 (9-17)2=64 (19-27)2=64 (9-17)"(19-27)=64
24 12 (12-17)2=25 (24-27)2=25 (12-17)"(24-27)=15
25 12 (12-17)2=25 (25-27)2=4 (12-17)"(25-27)=10
27 15 (15-17)2=4 (27-27)2=0 (15-17)"(27-27)=0
29 17 (17-17)2=0 (29-27)2=4 (17-17)"(29-27)=0
29 18 (18-17)2=1 (29-27)2=4 (18-17)"(29-27)=2
31 23 (23-17)2=36 (31-27)2=16 (23-17)"(31-27)=24
32 27 (27-17)2=100 (32-27)2=25 (27-17)"(32-27)=50
28 21 (21-17)2=16 (28-27)2=1 (21-17)"(28-27)=4
26 16 (16-17)2=1 (26-27)2=1 (16-17)"(26-27)=1
Ł= 270 Ł= 170 Ł= 272 Ł= 128 Ł= 170
Ł= 270 Ł= 170 Ł= 272 Ł= 128 Ł= 170
8
Spożycie czekolady (w kg)
2014-03-31
Zadanie 4.
Zadanie 4. Dane na temat liczby ludności (w milionach) oraz zużycia energii
(w bilionach kWh) w wybranych krajach Europy prezentuje tabela:
Państwo Liczba ludności Zużycie energii
(w mln) (w bkWh)
Polska 38 120
Niemcy 82 550
Czechy 10 60
Słowacja 5 25
Rosja 140 990
Litwa 4 10
Białoruś 10 30
Ukraina 46 180
Dania 6 35
Norwegia 5 115
Szwecja 9 135
Finlandia 5 90
Oceń kierunek i siłę zależności
pomiędzy wyróżnionymi zmiennymi
Zadanie 4.
Zadanie 4.
1200
1000
800
600
400
200
0
0 20 40 60 80 100 120 140 160
Liczba ludności (w mln)
9
Zużycie energii (w bkWh)
2014-03-31
Zadanie 4.
Zadanie 4.
Liczba Zużycie
(xi xśr)2 (yi yśr)2 (xi xśr)(yi yśr)
ludności energii
38 120 (38-30)2=64 (120-195)2=5 625 (38-30)"(120-195)=-600
82 550 (82-30)2=2 704 (550-195)2=126 025 (82-30)"(550-195)=18 460
10 60 (10-30)2=400 (60-195)2=18 225 (10-30)"(60-195)=2 700
5 25 (5-30)2=625 (25-195)2=28 900 (5-30)"(25-195)=4 250
140 990 (140-30)2=12 100 (990-195)2=632 025 (140-30)"(990-195)=87 450
4 10 (4-30)2=676 (10-195)2=34 225 (4-30)"(10-195)=4 810
10 30 (10-30)2=400 (30-195)2=27 225 (10-30)"(30-195)=3 300
46 180 (46-30)2=256 (180-195)2=225 (46-30)"(180-195)=-240
6 35 (6-30)2=576 (35-195)2=25 600 (6-30)"(35-195)=3 840
5 115 (5-30)2=625 (115-195)2=6 400 (5-30)"(115-195)=2 000
9 135
(9-30)2=441 (135-195)2=3 600 (9-30)"(135-195)=1 260
5 90
(5-30)2=625 (90-195)2=11 025 (5-30)"(90-195)=1 625
Ł=360 Ł=2340 Ł= 19 492 Ł= 919 100 Ł= 129 855
Ł=360 Ł=2340 Ł= 19 492 Ł= 919 100 Ł= 129 855
ANALIZA REGRESJI
ANALIZA REGRESJI
Funkcja regresji opisująca wpływ zmiennej X na zmienną Y ma postać:
Funkcja regresji opisująca wpływ zmiennej X na zmienną Y ma postać:
)
y = a + byx
y
,<-- jak wpływa x na y
Y ---> hipotetycznie
Parametr byinformuje o ile średnio zmieni się zmienna Y,
Parametr byinformuje o ile średnio zmieni się zmienna Y,
gdy zmienna X wzrośnie o jednostkę
gdy zmienna X wzrośnie o jednostkę
10
2014-03-31
Etapy wyznaczania funkcji regresji:
Etapy wyznaczania funkcji regresji:
1) Specyfikacja modelu
2) Estymacja parametrów modelu
3) Weryfikacja modelu
4) Użycie modelu do prognozowania
1) Specyfikacja modelu
a) model liniowy
b) wielomian d) f. logarytmiczna
c) hiperbola e) f. wykładnicza
11
2014-03-31
2) Estymacja parametrów modelu
METODA NAJMNIEJSZYCH KWADRATÓW (MNK)
METODA NAJMNIEJSZYCH KWADRATÓW (MNK)
n
po wyliczeniu dwóch pochodnych cząstkowych
2
otrzymujemy:
"(y-w) =min
i i
i=1
ńł = nay + by
"yi "xi
ł
ł
2
)
ł
"y xi = ay"x + by"x y = a + b x
i i i
ół y y
z którego liczymy parametry f. regresji
Metoda pośrednia (uproszczona) wyznaczenia parametrów funkcji regresji:
s
b = rxy y
ay=y-byx
y
s
x
2) Estymacja parametrów modelu
35
30
25
20
15
5 10 15 20 25 30
Dochody (w tys. zł)
X- ma najmniejsze odchylenie przy czarnej
12
Spożycie czekolady (w kg)
2014-03-31
2) Estymacja parametrów modelu
35
30
25
20
15
5 10 15 20 25 30
Dochody (w tys. zł)
2) Estymacja parametrów modelu
Zadanie 3.
Zadanie 3.
)
y = ay + byx
35
30
25
20
15
5 10 15 20 25 30
Dochody (w tys. zł)
ńł = nay + by
s
"yi "xi
ł
y
ł b = r
ay=y-byx
y xy
xi = ay + by 2
ł
"yi "xi "xi s
ół
x
13
Spożycie czekolady (w kg)
Spożycie czekolady (w kg)
2014-03-31
2) Estymacja parametrów modelu
Zadanie 4.
Zadanie 4.
1200
1000
)
800
y = ay + byx
600
400
200
0
0 20 40 60 80 100 120 140 160
Liczba ludności (w mln)
ńł = nay + by
s
"yi "xi
ł
y
ł b = r
ay=y-byx
y xy
xi = ay + by 2
ł
"yi "xi "xi s
ół
x
3) Weryfikacja modelu
OCENA STOPNIA DOPASOWANIA FUNKCJI REGRESJI
OCENA STOPNIA DOPASOWANIA FUNKCJI REGRESJI
1. Odchylenie standardowe reszt (składnika resztowego) 
Odchylenie standardowe reszt
o ile średnio na +/- odchylają się wartości empiryczne od teoretycznych
k
2
)
( -y)
"yi
-y)2
"(yi 2
i=1
S(y)= S(y)=s* 1-rxy
gdzie
lub s*=
y y
N-k N-2
n - 2
2
d=rxy "100
2. Współczynnik determinacji 
Współczynnik determinacji
2=100%-d
w jakim stopniu model (f. regr.) wyjaśnia wpływ X na Y
SKR
)
3. Współczynnik indeterminacji 
Współczynnik indeterminacji
-y)2
"(yi
2 = "100
jaka część wpływu X na Y nie została objaśniona
-y)2
za pomocą modelu "(yi
OSK
4. Współczynnik zmienności resztowej 
Współczynnik zmienności resztowej
S(y)
Wy = "100
jaką część średniego Y stanowi odchylenie S(y) 
y
model jest dopuszczalny gdy Wyd" 20%
14
Zużycie energii (w bkWh)
2014-03-31
3) Weryfikacja modelu
n n n
2 2 2
"(y-y) ="(w-y) +"(y-w)
i=1 i=1 i=1
OSK WSK SKR
n
ogólna suma wyjaśniona suma kwadratów reszt
2
kwadratów suma kwadratów
"ei
18
Ć
y i=1
(ei) - składnik losowy
16
y
powinien mieć średnią zero
14 OSK SKR
12
WSK
y
10
8
6
4
2
1 2 3 4 5 6 7 8
3) Weryfikacja modelu
n n n
2 2 2
"(y-y) ="(w-y) +"(y-w)
i=1 i=1 i=1
OSK WSK SKR
n
ogólna suma wyjaśniona suma kwadratów reszt
2
kwadratów suma kwadratów
"ei
18
Ć
y i=1
(ei) - składnik losowy
16
y
powinien mieć średnią zero
14
12
y
10
8
6
4
2
1 2 3 4 5 6 7 8
15
2014-03-31
4) Użycie modelu do prognozowania
dla x = 30
Zadanie 3.
Zadanie 3.
ą S(y)
Ć ą S(y)
y
35
30
FUNKCJA
DOPUSZ-
CZALNA
PROGNOZA
25
W MIAR
WARTO-
ŚCIOWA
20
15
5 10 15 20 25 30
Dochody (w tys. zł)
4) Użycie modelu do prognozowania
dla x = 30
Zadanie 3*.
Zadanie 3*.
35 ą S(y)
ą S(y)
Ć
y
30
TA
FUNKCJA
25
JEST
NIEDOPUSZ-
CZALNA
PROGNOZA
20
MAAO
WARTO-
ŚCIOWA
15
5 10 15 20 25 30
Dochody (w tys. zł)
16
Spożycie czekolady (w kg)
Spożycie czekolady (w kg)
2014-03-31
4) Użycie modelu do prognozowania
dla x = 100
Zadanie 4.
Zadanie 4.
1200
1000
800
ALE TA
FUNKCJA
ą S(y)
Ć ą S(y)
y
JEST
600
NIEDOPUSZ-
CZALNA
400
PROGNOZA
MAAO
WARTO-
200 ŚCIOWA
0
0 20 40 60 80 100 120 140 160
Liczba ludności (w mln)
17
Zużycie energii (w bkWh)


Wyszukiwarka