2014-03-31 Wykład 3. Wykład 3. Analiza korelacji Analiza korelacji (część 1) (część 1) A. STRUKTURY - 1 zmienna (cecha): xi A. STRUKTURY - 1 zmienna (cecha):xi A. KORELACJI - 2 zmienne (cechy): xioraz yi A. KORELACJI - 2 zmienne (cechy): xioraz yi Zależność funkcyjna zmiana wartości 1 zmiennej funkcyjna powoduje ściśle określoną zmianę wartości 2 zmiennej Zależność stochastyczna zmiana wartości 1 zmiennej stochastyczna powoduje zmianę rozkładu prawdopodobieństwa 2 zmiennej Zależność korelacyjna zmiana wartości 1 zmiennej korelacyjna powoduje zmianę wartości 2 zmiennej, ale średnio rzecz biorąc 1 2014-03-31 Analiza jakościowa czy istnieje merytoryczny (logiczny) jakościowa związek (zależność) między zmiennymi ??? np. wiek a wynagrodzenie - TAK znak zodiaku a wynagrodzenie NIE (ew. tzw. korelacja pozorna) Analiza ilościowa opisanie związku matematycznie ilościowa określenie jego kierunku i siły KIERUNEK: SIAA: KIERUNEK: SIAA: " brak zależności " brak zależności " dodatni " mała " ujemny " umiarkowana " duża " idealna (zal. funkc.) KIERUNEK ODDZIAAYWANIA: KIERUNEK ODDZIAAYWANIA: " jednostronny jednostronny " dwustronny dwustronny np. wiek wpływa na zarobki, np. zarobki wpływają na a nie odwrotnie & & & ., a & & & . wpływają na zarobki Jak oceniamy kierunek i siłę zależności? Jak oceniamy kierunek i siłę zależności? 1) na podstawie wykresu tzw. korelacyjny diagram rozrzutu wykresu 2) na podstawie współczynników korelacji (np. Pearsona, Spearmana) współczynników korelacji 3) na podstawie analizy regresji analizy regresji 2 2014-03-31 WSPÓACZYNNIK KORELACJI LINIOWEJ PEARSONA PEARSONA n n - x)(yi- y) yi)- N x y "(xi "(xi i=1 i=1 rxy = rxy = N " sxsy N " sxsy r = 0 brak zależności r = 0 r > 0 korelacja dodatnia r > 0 r < 0 korelacja ujemna r < 0 0 < ćłrćłd"0,3 0 <ćłrćłd"0,3 zależność słaba 0,3 <ćłrćłd"0,6 0,3 < ćłrćłd"0,6 zal. umiarkowana Stosowany tylko do Stosowany tylko do 0,6 <ćłrćł< 1 0,6 < ćłrćł< 1 zal. silna cech mierzalnych cech mierzalnych ćłrćł= 1 zal. idealna ćłrćł= 1 3 2014-03-31 WSPÓACZYNNIK KORELACJI RANG SPEARMANA RANG SPEARMANA n 2 6 "d i=1 d=Rx-Ry rs=1- N(N2-1) Może być stosowany do cech niemierzalnych, Może być stosowany do cech niemierzalnych, których warianty da się uporządkować których warianty da się uporządkować (np. wykształcenie) (np. wykształcenie) Współczynnik spearmana to współczynnik Pearmana ale zamieniony na rangi. Pearman to uproszczony Spearman. Zadanie 1. Zadanie 1. Długość cyklu produkcyjnego oraz koszty wytworzenia automatów do gier wyprodukowanych w 2012 roku przez pewną firmę były następujące: Długość Koszty (w godz.) (w tys. zł) 135 30 130 29 125 29 110 25 140 28 180 31 120 27 150 31 165 powyżej 40 Oceń kierunek i siłę zależności pomiędzy wyróżnionymi zmiennymi 4 2014-03-31 Rangowanie jest mniej miarodajne, ponieważ licząc to tracimy pewne dane. Zadanie 1. Zadanie 1. ? ? ? ? ? ? 50 45 40 35 30 25 20 100 120 140 160 180 200 Długość (w godz.) Zadanie 1. Zadanie 1. Długość Koszty Rx Ry d = Rx - Ry d2 (w godz.) (w tys. zł) 135 30 5 6 5-6 = -1 (-1)2= 1 130 29 4 4,5 4-4,5 = -0,5 (-0,5)2= 0,25 125 29 3 4,5 3-4,5 = -1,5 (-1,5)2= 2,25 110 25 1 1 1-1 = 0 (0)2= 0 140 28 6 3 6-3 = 3 (3)2= 9 180 31 9 7,5 9-7,5 = 1,5 (1,5)2= 2,25 120 27 2 2 2-2 = 0 (0)2= 0 150 31 7 7,5 7-7,5 = -0,5 (-0,5)2= 0,25 powyżej 40 165 8 9 8-9 = -1 (-1)2= 1 Ł= 16 Ł= 16 n 2 6 "d i=1 rs=1- N(N2-1) 5 Koszty (w tys. zł) 2014-03-31 Zadanie 2. Zadanie 2. Zebrano dane na temat odsetka osób w wieku produkcyjnym oraz PKB na 1 mieszkańca dla Polski oraz jej sąsiadów: Ludność w wieku PKB Państwo produkcyjnym na 1 mieszkańca (w %) (w USD) Polska 71,1 17,5 Niemcy 66,3 35,4 Czechy 71,0 25,4 Słowacja 71,7 22,0 Rosja 71,3 15,9 Litwa 69,1 18,9 Białoruś 70,4 12,3 Ukraina 70,0 ok. 7 Oceń kierunek i siłę zależności pomiędzy wyróżnionymi zmiennymi x - ludność y - pkb Zadanie 2. Zadanie 2. Ludność PKB Rx Ry d = Rx - Ry d2 71,1 17,5 6 4 6 - 4 = 2 (2)2= 4 66,3 35,4 1 8 1 - 8 = -7 (-7)2= 49 71,0 25,4 5 7 5 - 7 = -2 (-2)2= 4 71,7 22,0 8 6 8 - 6 = 2 (2)2= 4 71,3 15,9 7 3 7 - 3 = 4 (4)2= 16 69,1 18,9 2 5 2 - 5 = -3 (-3)2= 9 70,4 12,3 4 2 4 - 2 = 2 (2)2= 4 70,0 ok. 7 3 1 3 - 1 = 2 (2)2= 4 Ł= 94 Ł= 94 n 2 6 "d N = 8 r = - 0,12 i=1 rs=1- N(N2-1) Pomiędzy odsetkiem ludności w wieku produkcyjnym a PKB jest korelacja ujemna, ale jest ona bardzo słaba. A więc ten odsetek nie wpływa za bardzo na PKB. 6 2014-03-31 Zadanie 3. Zadanie 3. Roczne spożycie czekolady oraz dochód w przeliczeniu na 1 osobę dla 10 gospodarstw domowych w Poznaniu w 2012 roku przedstawiono w tabeli: Spożycie Dochód czekolady (w tys. zł) (w kg) 19 9 24 12 25 12 27 15 29 17 29 18 31 23 32 27 28 21 26 16 Oceń kierunek i siłę zależności pomiędzy wyróżnionymi zmiennymi Zadanie 3. Zadanie 3. 35 30 25 20 15 5 10 15 20 25 30 Dochody (w tys. zł) 7 Spożycie czekolady (w kg) 2014-03-31 n Zadanie 3. Zadanie 3. - x)(yi- y) "(xi i=1 rxy = N " sxsy 35 (xi-x)= + 30 (yi y)= + y 25 k "xi x=i=1 N 20 k 2 ( -x) "xi i=1 sx= N 15 5 10 15 20 25 30 x Dochody (w tys. zł) Zadanie 3. Zadanie 3. Spożycie Dochód czekolady (xi xśr)2 (yi yśr)2 (xi xśr)(yi yśr) (w tys. zł) (w kg) 19 9 (9-17)2=64 (19-27)2=64 (9-17)"(19-27)=64 24 12 (12-17)2=25 (24-27)2=25 (12-17)"(24-27)=15 25 12 (12-17)2=25 (25-27)2=4 (12-17)"(25-27)=10 27 15 (15-17)2=4 (27-27)2=0 (15-17)"(27-27)=0 29 17 (17-17)2=0 (29-27)2=4 (17-17)"(29-27)=0 29 18 (18-17)2=1 (29-27)2=4 (18-17)"(29-27)=2 31 23 (23-17)2=36 (31-27)2=16 (23-17)"(31-27)=24 32 27 (27-17)2=100 (32-27)2=25 (27-17)"(32-27)=50 28 21 (21-17)2=16 (28-27)2=1 (21-17)"(28-27)=4 26 16 (16-17)2=1 (26-27)2=1 (16-17)"(26-27)=1 Ł= 270 Ł= 170 Ł= 272 Ł= 128 Ł= 170 Ł= 270 Ł= 170 Ł= 272 Ł= 128 Ł= 170 8 Spożycie czekolady (w kg) 2014-03-31 Zadanie 4. Zadanie 4. Dane na temat liczby ludności (w milionach) oraz zużycia energii (w bilionach kWh) w wybranych krajach Europy prezentuje tabela: Państwo Liczba ludności Zużycie energii (w mln) (w bkWh) Polska 38 120 Niemcy 82 550 Czechy 10 60 Słowacja 5 25 Rosja 140 990 Litwa 4 10 Białoruś 10 30 Ukraina 46 180 Dania 6 35 Norwegia 5 115 Szwecja 9 135 Finlandia 5 90 Oceń kierunek i siłę zależności pomiędzy wyróżnionymi zmiennymi Zadanie 4. Zadanie 4. 1200 1000 800 600 400 200 0 0 20 40 60 80 100 120 140 160 Liczba ludności (w mln) 9 Zużycie energii (w bkWh) 2014-03-31 Zadanie 4. Zadanie 4. Liczba Zużycie (xi xśr)2 (yi yśr)2 (xi xśr)(yi yśr) ludności energii 38 120 (38-30)2=64 (120-195)2=5 625 (38-30)"(120-195)=-600 82 550 (82-30)2=2 704 (550-195)2=126 025 (82-30)"(550-195)=18 460 10 60 (10-30)2=400 (60-195)2=18 225 (10-30)"(60-195)=2 700 5 25 (5-30)2=625 (25-195)2=28 900 (5-30)"(25-195)=4 250 140 990 (140-30)2=12 100 (990-195)2=632 025 (140-30)"(990-195)=87 450 4 10 (4-30)2=676 (10-195)2=34 225 (4-30)"(10-195)=4 810 10 30 (10-30)2=400 (30-195)2=27 225 (10-30)"(30-195)=3 300 46 180 (46-30)2=256 (180-195)2=225 (46-30)"(180-195)=-240 6 35 (6-30)2=576 (35-195)2=25 600 (6-30)"(35-195)=3 840 5 115 (5-30)2=625 (115-195)2=6 400 (5-30)"(115-195)=2 000 9 135 (9-30)2=441 (135-195)2=3 600 (9-30)"(135-195)=1 260 5 90 (5-30)2=625 (90-195)2=11 025 (5-30)"(90-195)=1 625 Ł=360 Ł=2340 Ł= 19 492 Ł= 919 100 Ł= 129 855 Ł=360 Ł=2340 Ł= 19 492 Ł= 919 100 Ł= 129 855 ANALIZA REGRESJI ANALIZA REGRESJI Funkcja regresji opisująca wpływ zmiennej X na zmienną Y ma postać: Funkcja regresji opisująca wpływ zmiennej X na zmienną Y ma postać: ) y = a + byx y ,<-- jak wpływa x na y Y ---> hipotetycznie Parametr byinformuje o ile średnio zmieni się zmienna Y, Parametr byinformuje o ile średnio zmieni się zmienna Y, gdy zmienna X wzrośnie o jednostkę gdy zmienna X wzrośnie o jednostkę 10 2014-03-31 Etapy wyznaczania funkcji regresji: Etapy wyznaczania funkcji regresji: 1) Specyfikacja modelu 2) Estymacja parametrów modelu 3) Weryfikacja modelu 4) Użycie modelu do prognozowania 1) Specyfikacja modelu a) model liniowy b) wielomian d) f. logarytmiczna c) hiperbola e) f. wykładnicza 11 2014-03-31 2) Estymacja parametrów modelu METODA NAJMNIEJSZYCH KWADRATÓW (MNK) METODA NAJMNIEJSZYCH KWADRATÓW (MNK) n po wyliczeniu dwóch pochodnych cząstkowych 2 otrzymujemy: "(y-w) =min i i i=1 ńł = nay + by "yi "xi ł ł 2 ) ł "y xi = ay"x + by"x y = a + b x i i i ół y y z którego liczymy parametry f. regresji Metoda pośrednia (uproszczona) wyznaczenia parametrów funkcji regresji: s b = rxy y ay=y-byx y s x 2) Estymacja parametrów modelu 35 30 25 20 15 5 10 15 20 25 30 Dochody (w tys. zł) X- ma najmniejsze odchylenie przy czarnej 12 Spożycie czekolady (w kg) 2014-03-31 2) Estymacja parametrów modelu 35 30 25 20 15 5 10 15 20 25 30 Dochody (w tys. zł) 2) Estymacja parametrów modelu Zadanie 3. Zadanie 3. ) y = ay + byx 35 30 25 20 15 5 10 15 20 25 30 Dochody (w tys. zł) ńł = nay + by s "yi "xi ł y ł b = r ay=y-byx y xy xi = ay + by 2 ł "yi "xi "xi s ół x 13 Spożycie czekolady (w kg) Spożycie czekolady (w kg) 2014-03-31 2) Estymacja parametrów modelu Zadanie 4. Zadanie 4. 1200 1000 ) 800 y = ay + byx 600 400 200 0 0 20 40 60 80 100 120 140 160 Liczba ludności (w mln) ńł = nay + by s "yi "xi ł y ł b = r ay=y-byx y xy xi = ay + by 2 ł "yi "xi "xi s ół x 3) Weryfikacja modelu OCENA STOPNIA DOPASOWANIA FUNKCJI REGRESJI OCENA STOPNIA DOPASOWANIA FUNKCJI REGRESJI 1. Odchylenie standardowe reszt (składnika resztowego) Odchylenie standardowe reszt o ile średnio na +/- odchylają się wartości empiryczne od teoretycznych k 2 ) ( -y) "yi -y)2 "(yi 2 i=1 S(y)= S(y)=s* 1-rxy gdzie lub s*= y y N-k N-2 n - 2 2 d=rxy "100 2. Współczynnik determinacji Współczynnik determinacji 2=100%-d w jakim stopniu model (f. regr.) wyjaśnia wpływ X na Y SKR ) 3. Współczynnik indeterminacji Współczynnik indeterminacji -y)2 "(yi 2 = "100 jaka część wpływu X na Y nie została objaśniona -y)2 za pomocą modelu "(yi OSK 4. Współczynnik zmienności resztowej Współczynnik zmienności resztowej S(y) Wy = "100 jaką część średniego Y stanowi odchylenie S(y) y model jest dopuszczalny gdy Wyd" 20% 14 Zużycie energii (w bkWh) 2014-03-31 3) Weryfikacja modelu n n n 2 2 2 "(y-y) ="(w-y) +"(y-w) i=1 i=1 i=1 OSK WSK SKR n ogólna suma wyjaśniona suma kwadratów reszt 2 kwadratów suma kwadratów "ei 18 Ć y i=1 (ei) - składnik losowy 16 y powinien mieć średnią zero 14 OSK SKR 12 WSK y 10 8 6 4 2 1 2 3 4 5 6 7 8 3) Weryfikacja modelu n n n 2 2 2 "(y-y) ="(w-y) +"(y-w) i=1 i=1 i=1 OSK WSK SKR n ogólna suma wyjaśniona suma kwadratów reszt 2 kwadratów suma kwadratów "ei 18 Ć y i=1 (ei) - składnik losowy 16 y powinien mieć średnią zero 14 12 y 10 8 6 4 2 1 2 3 4 5 6 7 8 15 2014-03-31 4) Użycie modelu do prognozowania dla x = 30 Zadanie 3. Zadanie 3. ą S(y) Ć ą S(y) y 35 30 FUNKCJA DOPUSZ- CZALNA PROGNOZA 25 W MIAR WARTO- ŚCIOWA 20 15 5 10 15 20 25 30 Dochody (w tys. zł) 4) Użycie modelu do prognozowania dla x = 30 Zadanie 3*. Zadanie 3*. 35 ą S(y) ą S(y) Ć y 30 TA FUNKCJA 25 JEST NIEDOPUSZ- CZALNA PROGNOZA 20 MAAO WARTO- ŚCIOWA 15 5 10 15 20 25 30 Dochody (w tys. zł) 16 Spożycie czekolady (w kg) Spożycie czekolady (w kg) 2014-03-31 4) Użycie modelu do prognozowania dla x = 100 Zadanie 4. Zadanie 4. 1200 1000 800 ALE TA FUNKCJA ą S(y) Ć ą S(y) y JEST 600 NIEDOPUSZ- CZALNA 400 PROGNOZA MAAO WARTO- 200 ŚCIOWA 0 0 20 40 60 80 100 120 140 160 Liczba ludności (w mln) 17 Zużycie energii (w bkWh)