statystyka regresja


Overview

Analiza struktury
Korelacja Pearsona
Korelacja Spearmana
Korelacja Spearmana 2
Korelacja wieloraka
Analiza Dynamiki
Zmiany indeksów
Badanie tendencji rozwojowych
Metoda analityczna


Sheet 1: Analiza struktury


STATYSTYKA EGZAMIN - WYKŁAD II - ANALIZA STRUKTURY - ZADANIE + INTERPRETACJE






















Odchylenie standardowe Odchylenie przeciętne Koncentracja

czas studiowania w godzinach xi Liczba studentów ni xi' xi'*ni ni* xi'-xśr (xi'-xśr)2 (xi'-xśr)2*ni |xi'-xśr| |xi'-xśr|*ni (xi'-xśr)4 (xi'-xśr)4*ni


(0-2> 8 1 8 8 -4,26 18,15 145,18 4,26 34,08 329,33538576 2634,68308608

(2-4> 25 3 75 33 -2,26 5,11 127,69 2,26 56,5 26,08757776 652,189444

(4-6> 35 5 175 68 -0,26 0,07 2,37 0,26 9,1 0,00456976 0,159941599999999

(6-8> 15 7 105 83 1,74 3,03 45,41 1,74 26,1 9,16636176000001 137,4954264

(8-10> 12 9 108 95 3,74 13,99 167,85 3,74 44,88 195,65295376 2347,83544512

(10-12> 5 11 55 100 5,74 32,95 164,74 5,74 28,7 1085,54434576 5427,7217288


100
526


653,24
199,36
11200,09




















xk=100/2 xk=50 pozMe=50
















xśr= 5,26 Przeciętny czas studiowania w bibliotece wśród badanych studentów wynosił 5,26 h.



D= 4,67 Najwięcej studentów spedzało w bibliotece 4,67 h. tygodniowo.










Me= 4,97 Połowa studentów spędzała w bibliotece 4,97 h tygodniowo lub mniej, a połowa 4,97 h tygodniowo lub więcej.

sx= 2,56 Czas studiowania w bibliotece spędzany przez studentów odchylał się średnio o 7,21h tyg.










Q1= 3,36 1/4 badanych studentów spedzała w bibliotece tygodniowo 3,36 godz lub mniej, a 3/4 studentów 3,36 godz lub więcej.










Q3= 6,93 3/4 badanych studentów spedzała w bibliotece tygodniowo 6,93 godz lub mniej, a 1/4 studentów 6,93 godz lub więcej.










Vx= 48,59 Dyspersja umiarkowana. Badani studenci charakteryzowali się umiarkowanym zróżnicowaniem ze względu na tygodniowy czas spędzany w bibliotece










Vx(me)= 35,94 Dyspersja umiarkowana. Badani studenci charakteryzowali się umiarkowanym zróżnicowaniem ze względu na tygodniowy czas spędzany w bibliotece










Q= 1,79 Tygodniowy czas spędzany w bibliotece odchylał się przeciętnie od mediany o 1,79 godz.



xtyp 2,70 7,82 Około 2/3 studentów spędzało w bibliotece od 2,70 godz do 7,82 godz tygodniowo.









dp= 1,9936 ?










R= 12 ?










As= 0,23 Rozkład czasu spędzanego przez studentów w bibliotece charakteryzuje się asymetrią prawostronną, co oznacza że większość studentów spędzało w bibliotece mniej czasu niż wartość średniej.



k= 2,62 Rozkład czasu w bibliotece jest spłaszczony, co oznacza małą koncentrację wartości cechy wokół średniej.

Sheet 2: Korelacja Pearsona


STATYSTYKA EGZAMIN - WYKŁAD III - REGRESJA I KORELACJA - ZADANIE + 8 INTERPRETACJI
























czas nieprzerwanej pracy xi wydajność pracy w szt. yi xi-xśr yi-yśr (xi-xśr)2 (yi-yśr)2 (xi-xśr)*(yi-yśr)






































1 18 -4,5 3,1 20,25 9,61 -13,95












2 20 -3,5 5,1 12,25 26,01 -17,85












3 18 -2,5 3,1 6,25 9,61 -7,75












4 17 -1,5 2,1 2,25 4,41 -3,15












5 15 -0,5 0,1 0,25 0,01 -0,05












6 15 0,5 0,1 0,25 0,01 0,05












7 14 1,5 -0,9 2,25 0,810000000000001 -1,35












8 12 2,5 -2,9 6,25 8,41 -7,25












9 10 3,5 -4,9 12,25 24,01 -17,15












10 10 4,5 -4,9 20,25 24,01 -22,05
















82,5 106,9 -90,5
































xśr= 5,5

















yśr= 14,9
by= -1,10
y'(x)= 20,93-1,10x jeżeli czas nieprzerwanej (X) pracy wzrośnie o 1h to wydajność pracy zmniejszy się średnio o 1,1 szt.













bx= -0,85
x'(y)= 18,11-0,85y jeżeli wydajność pracy (y) wzrośnie o 1 szt to czas nieprzerwanej pracy zmniejszy się średnio o 0,85h.










Sx= 2,87

















Sy= 3,27
ay= 20,93
d= 92,87 % przez oszacowane równanie regresji zostało wyjaśnione 92,87% zmienności wartości wydajności pracy












ax= 18,11
sigma2= 7,13 % przez oszacowane równanie regresji nie zostało wyjaśnione 7,13% zmienności wartości wydajności pracy









rxy= -0,96



Vr= 5,86 % odchylenia przypadkowe stanowiły średnio 5,86% zmienności wartości wydajności pracy









Między czasem nieprzerwanej pracy a wydajnością zachodzi bardzo silna zależność. Wraz ze wzrostem czasu nieprzerwanej pracy maleje wydajność pracy. Sy= 0,87 szacując wydajność pracy na podstawie wyznaczonego równania regresji można się przeciętnie pomylić o +/- 0,87 szt.










Sx= 0,77 szacując czas nieprzerwanej pracy na podstawie wyznaczonego równania regresjii można się przeciętnie pomylić o +/- 0,77 h.

















Sheet 3: Korelacja Spearmana

STATYSTYKA EGZAMIN - WYKŁAD IV - KORELACJA SPEARMANA - ZADANIA + INTERPRETACJE










Ćwiczenie 1.







W Polskim Badaniu Przestępczości (PBP) w latach 2007 i 2009 otrzymano







następujące wyniki dotyczące oceny zagrożenia w swoim miejscu zamieszkania.







PBP przeprowadzono na próbach losowych 17 tys. Polaków.







Proszę porangować zagrożenia, obliczyć R i zinterpretować wyniki.

























L.p. Zagrożenie Wyniki 2007 Wyniki 2009 Ranga 07 Ranga 09 di di2

1 Napadów, rozbojów 23,9 20,1 12 10 2 4

2 Wymuszeń, okupów 4,3 4,2 2 2 0 0

3 Bójek i pobić 20,4 18,1 7 6 1 1

4 Włamań 22,6 19,8 10 9 1 1

5 Kradzieży 14,7 12,5 6 5 1 1

6 Brawurowo jeżdżących kierowców 35,9 36,8 13 13 0 0

7 Agresji ze strony osób pijanych lub narkomanów 20,7 20,5 8 11 -3 9

8 Handlu narkotykami 6,2 5,9 4 3 1 1

9 Niszczenia mienia przez wandali 21,6 21,6 9 12 -3 9

10 Zaczepiania przez grupy agresywnej młodzieży 23,6 19,7 11 8 3 9

11 Hałaśliwych, niekulturalnie zachowujących się sąsiadów 5,8 6,6 3 4 -1 1

12 Innych zagrożeń 1,3 1,1 1 1 0 0

13 Żadnych, niczego nie obawiam się 14 18,2 5 7 -2 4







SUMA 40




















rs= 0,11 bardzo słaba zależność.




Sheet 4: Korelacja Spearmana 2

STATYSTYKA EGZAMIN - WYKŁAD IV - KORELACJA SPEARMANA - ZADANIA + INTERPRETACJE











Ćwiczenie 2.








Poniższa tabela przedstawia wyniki egzaminu z prawa i statystyki 10 studentów








kierunku Ekonomia. Za pomocą współczynnika korelacji rang Spearmana ustal








kierunek i siłę korelacji pomiędzy wynikami obu egzaminów i zinterpretuj wynik.



























L.p. Student Liczba punktów z prawa Liczba punktów ze statystyki Ranga prawo Ranga statystyka di di2



1 A 2 81 1 7,5 -6,5 42,25
1,33636363636364
2 B 8 60 4 4 0 0

3 C 18 81 10 7,5 2,5 6,25

4 D 12 30 5,5 1 4,5 20,25

5 E 12 57 5,5 3 2,5 6,25
?
6 F 15 72 9 6 3 9

7 G 7 82 3 9 -6 36

8 H 5 98 2 10 -8 64

9 I 14 65 7,5 5 2,5 6,25

10 J 14 47 7,5 2 5,5 30,25








220,5


Sheet 5: Korelacja wieloraka

STATYSTYKA EGZAMIN - WYKŁAD IV - KORELACJA WIELORAKA - ZADANIA














Przykład 3











Zbadano dla 10 studentów pewnego kierunku studiów ich przeciętne oceny uzyskane na świadectwie











maturalnym, na egzaminie wstępnym na uczelnię oraz na IV roku studiów. Czy średnia ocen uzyskanych na IV











roku jest zależna od średniej arytmetycznej ocen na maturze i na egzaminie wstępnym?





































Oceny na IV roku Oceny na maturze Oceny na egz. wstępnym



















yi x1 x2 y-yśr (y-yśr)2 x1-x1śr (x1-x1śr)2 x2-x2śr (x2-x2śr)2 (y-yśr)(x1-x1śr) (y-yśr)(x2-x2śr) (x1-x1śr)(x2-x2śr)
1 3,9 3,8 3,5 -0,03 0,00 0,100000000000001 0,01 -0,17 0,03 0,00 0,01 -0,02
2 3,8 4 3,6 -0,13 0,02 0,300000000000001 0,090000000000001 -0,069999999999999 0,00 -0,04 0,01 -0,02
3 4,1 4,2 4 0,17 0,03 0,500000000000001 0,250000000000001 0,330000000000001 0,11 0,09 0,06 0,17
4 4 3,5 4 0,07 0,00 -0,199999999999999 0,04 0,330000000000001 0,11 -0,01 0,02 -0,07
5 3,6 3 3,3 -0,33 0,11 -0,699999999999999 0,489999999999999 -0,37 0,14 0,23 0,12 0,26
6 3,7 3,2 3,5 -0,23 0,05 -0,499999999999999 0,249999999999999 -0,17 0,03 0,12 0,04 0,08
7 3,5 3 3,2 -0,43 0,18 -0,699999999999999 0,489999999999999 -0,469999999999999 0,22 0,30 0,20 0,33
8 4,5 4,4 4,2 0,57 0,32 0,700000000000001 0,490000000000001 0,530000000000001 0,28 0,40 0,30 0,37
9 4 3,9 3,5 0,07 0,00 0,200000000000001 0,04 -0,17 0,03 0,01 -0,01 -0,03
10 4,2 4 3,9 0,27 0,07 0,300000000000001 0,090000000000001 0,23 0,05 0,08 0,06 0,07





0,8
2,2
1,0 1,2 0,8 1,1
yśr= 3,93
ryx1= 0,9
Ry.x1x2= 0,95




x1śr= 3,7
ryx2= 0,9 Oceny na maturze i na egzaminie wstępnym mają bardzo




Ocena dobroci dopasowania
x2śr= 3,67
rx1x2= 0,76 duży wpływ na oceny na IV roku




Sy= 0,09









y=ao+a1x1+a2x2


sy= 0,28


y=1,17+0,3x1+0,45x2

ao= 1,17
% d= 89,82
sx1= 0,47
Jeżeli średnia ocen na maturze wzrosłaby o 1 to



a1= 0,30


sx2= 0,32
średnia ocen na IV roku zwiększyłaby się średnio



a2= 0,45
% sigma2= 10,18



0,3, przy założeniu, że średnia ocen na egzaminie











wstępnym pozostałaby bez zmian






Vr= 2,30



Jeżeli średnia ocen na egzaminie wstępnym wzrosłaby o 1 to średnia ocen na IV roku











zwiększyłaby się średnio 0,45, przy założeniu, że średnia ocen na maturze pozostałaby bez zmian









Sheet 6: Analiza Dynamiki

STATYSTYKA EGZAMIN - WYKŁAD V - ANALIZA DYNAMIKI - ZADANIA
















Zatrudnienie w Polsce w latach 1997-2004 (stan na dzień 30.09) w mln osób było następujące:













Oblicz wskaźniki dynamiki. Przy wskaźnikach jednopodstawowych za podstawę porównania













przyjąć rok 1997








INTERPRETACJE



Przyrosty absolutne Przyrosty wzgledne Indeksy indywidualne Pabs Interpretacja dla roku 2004:




Lata Zatrudnienie Pabs Pabr Pws Pwr is ir
Zatrudnienie w Polsce zmalało w roku 2004 w porównaniu



1 1997 10,8 0
0
100,00

z rokiem 1997 o 0,6 mln osób.



2 1998 9,9 -0,9 -0,9 -0,08 -0,08 91,67 91,67 Pabr Interpretacja dla roku 2004:



3 1999 9,4 -1,4 -0,5 -0,13 -0,05 87,04 94,95
Zatrudnienie w Polsce wzrosło w roku 2004 w porównaniu



4 2000 9,2 -1,6 -0,200000000000001 -0,15 -0,02 85,19 97,87
z rokiem poprzednim o 0,2 mln osób.



5 2001 9,7 -1,1 0,5 -0,10 0,05 89,81 105,43 Pws Interpretacja dla roku 2004:



6 2002 9,8 -1 0,100000000000001 -0,09 0,01 90,74 101,03
Zatrudnienie w Polsce zmalało w roku 2004



7 2003 10 -0,800000000000001 0,199999999999999 -0,07 0,02 92,59 102,04
w porównaniu z rokiem 1997 o 6%.



8 2004 10,2 -0,600000000000001 0,199999999999999 -0,06 0,02 94,44 102,00 Pwr Interpretacja dla roku 2004:



9








Zatrudnienie w Polsce wzrosło w roku 2004 w porównaniu



10








z rokiem poprzednim o 2%.




średniookresowe tempo zmian:






is Interpretacja dla roku 2004:










Zatrudnienie w Polsce zmalało w roku 2004 w porównaniu






lub

z rokiem 1997 o 5,56%.








ir Interpretacja dla roku 2004:













Zatrudnienie w Polsce wzrosło w roku 2004 w porównaniu.







iśr= 99,19



z rokiem poprzednim o 2%



















iśr= 99,19




Prognozowanie:
na rok 2006





99,19-100= -0,81










0,0081










Liczba osób zatrudnionych malała w badanym okresie










z roku na rok średnio o 0,81 %




yt*= nie można wykonać, raz liczba rośnie raz maleje












chyba, że poczynajac od roku 2001:













yt*= 10,10












Przypuszczamy, ze w roku 2006 będzie 10,1 mln osób zatrudnionych







Sheet 7: Zmiany indeksów

STATYSTYKA EGZAMIN - WYKŁAD V - ANALIZA DYNAMIKI - ZASADY ZMIANY PODSTAW INDEKSU - ZADANIE














Liczba studentów w Polsce w latach 2000-2008 kształtowała się następująco:


























zamiana stałych na stałe zamiana stałych na zmienne zamiana zmiennych na stałe




lata liczba studentów is 2000=100 is 2004=100 is 2000=100 ir ir is 2003=100



1 2000 428,2 100,00 53,89 100,00

62,77



2 2001 495,7 115,76 62,38 115,76 115,76 115,76 72,66 85,61/117,81*100


3 2002 584 136,38 73,50 136,38 117,81 117,81 85,61 100/116,82*100


4 2003 682,2 159,32 85,85 159,32 116,82 116,82 100,00 BAZA


5 2004 794,6 185,57 100,00 185,57 116,48 116,48 116,48 100*116,48/100


6 2005 927,5 216,60 116,73 216,60 116,73 116,73 135,96



7 2006 1091,8 254,97 137,40 254,97 117,71 117,71 160,04 135,96*117,71/100


8 2007 1274 297,52 160,33 297,52 116,69 116,69 186,75



9 2008 1431,9 334,40 180,20 334,40 112,39 112,39 209,89

















średniookresowe tempo zmian:





















lub





































Prognozowanie na rok 2010:







iśr= 116,29









116,29-100=16,29%





















0,1629

yt*= 1936,41






Sheet 8: Badanie tendencji rozwojowych

STATYSTYKA EGZAMIN - WYKŁAD V - ANALIZA DYNAMIKI - BADANIE TENDENCJI ROZWOJOWYCH - ZADANIE













METODA MECHANICZNA






















Produkcja papieru w Polsce w latach 1998-2007 przedstawiała się następująco:






















Lata Produkcja śr.r. 3 okres. śr.r. 5 okres. śr.r. 4 okres.






1998 909









1999 965 966,7








2000 1026 1011,0 1002,6 1005,8






2001 1042 1046,3 1040,8 1042,9






2002 1071 1071,0 1079,4 1076,3






2003 1100 1109,7 1118,2 1115,0






2004 1158 1159,3 1146,6 1151,4






2005 1220 1187,3 1178 1181,5






2006 1184 1210,7








2007 1228






















Produkcja 1/2







454,5






482,5






513






521






535,5






550






579






610






592






614





Sheet 9: Metoda analityczna

STATYSTYKA EGZAMIN - WYKŁAD V - ANALIZA DYNAMIKI - BADANIE TENDENCJI ROZWOJOWYCH - ZADANIE













METODA ANALITYCZNA




















Poniższa tabela zawiera dane dotyczące przeciętnego dalszego trwania życia dla









noworodków płci męskiej w Polsce w latach 1991-2007











żeby policzyć b





Rok Trwanie życia ti yi*ti ti2





1991 65,88 1 65,88 1





1992 66,47 2 132,94 4





1993 67,17 3 201,51 9





1994 67,5 4 270 16





1995 67,62 5 338,1 25





1996 68,12 6 408,72 36





1997 68,45 7 479,15 49





1998 68,87 8 550,96 64





1999 68,83 9 619,47 81





2000 69,74 10 697,4 100





2001 70,21 11 772,31 121





2002 70,42 12 845,04 144





2003 70,52 13 916,76 169





2004 70,67 14 989,38 196




y't= a+b*t



2005 70,81 15 1062,15 225










2006 70,93 16 1134,88 256










2007 70,96 17 1206,32 289




b= 0,32



SUMA 1173,17 153 10690,97 1785




a= 66,09


















y't= 66,09+0,32*t







Teoretycznie przeciętne dalsze








trwania życia noworodka płci








męskiej w roku 1990 wynosiło








66,13 roku


















Przeciętne dalsze trwanie życia








rosło w badanym okresie średnio








z roku na rok o 0,32 roku.


1

















Żeby policzyć jakąś prognozę, trzeba obliczyć odchylenie standardowe!!






y't= 66,09+0,32*t
Odchylenie standardowe


















żeby policzyć b do odchylenia standardowego do współ. indeterminacji

Rok Trwanie życia ti yi*ti ti2 y't yt-y't (yt-y't)2 (yt-ytśr) (yt-ytśr)2

1991 65,88 1 65,88 1 66,41 -0,530000000000001 0,28 -3,13000000000001 9,80

1992 66,47 2 132,94 4 66,73 -0,260000000000005 0,07 -2,54000000000001 6,45

1993 67,17 3 201,51 9 67,05 0,120000000000005 0,01 -1,84 3,39

1994 67,5 4 270 16 67,37 0,129999999999995 0,02 -1,51000000000001 2,28

1995 67,62 5 338,1 25 67,69 -0,069999999999993 0,00 -1,39 1,93





1996 68,12 6 408,72 36 68,01 0,109999999999999 0,01 -0,890000000000001 0,79
Sy'= 0,34


1997 68,45 7 479,15 49 68,33 0,120000000000005 0,01 -0,560000000000002 0,31





1998 68,87 8 550,96 64 68,65 0,219999999999999 0,05 -0,140000000000001 0,02
Szacując przeciętne dalsze



1999 68,83 9 619,47 81 68,97 -0,140000000000001 0,02 -0,180000000000007 0,03
trwanie życia na podstawie



2000 69,74 10 697,4 100 69,29 0,449999999999989 0,20 0,72999999999999 0,53
wyznaczonego równania trendu



2001 70,21 11 772,31 121 69,61 0,599999999999994 0,36 1,19999999999999 1,44
można się średnio pomylić o



2002 70,42 12 845,04 144 69,93 0,489999999999995 0,24 1,41 1,99
±0,34 roku.



2003 70,52 13 916,76 169 70,25 0,269999999999996 0,07 1,50999999999999 2,28





2004 70,67 14 989,38 196 70,57 0,099999999999994 0,01 1,66 2,76
Współczynnik indeterminacji



2005 70,81 15 1062,15 225 70,89 -0,079999999999998 0,01 1,8 3,24





2006 70,93 16 1134,88 256 71,21 -0,280000000000001 0,08 1,92 3,69





2007 70,96 17 1206,32 289 71,53 -0,570000000000007 0,32 1,94999999999999 3,80





SUMA 1173,17 153 10690,97 1785

1,77
44,73



















*100

ytśr= 69,01






















Przez oszacowane





Prognoza na rok 2010:







równanie trendu nie





t2010=20







zostało wyjaśnione














3,97% zmienności





y'2010= 66,09+0,32*20 +/- 0,34 (Sy')






przeciętnego dalszego
sigma2= 0,04 *100= 3,97

y'2010= 72,49 plus minus Sy'





trwania życia





Przypuszczamy, że przeciętne dalsze trwanie życia







noworodka płci męskiej





noworodka płci męskiej urodzonego w 2010 roku














wyniesie 72,53 ± 0,34 roku.












2

















METODA ANALITYCZNA - UPROSZCZONA

























Należy założyć, że:



Rok Trwanie życia ti' yi*ti' ti'2








1 1991 65,88 -8 -527,04 64







2 1992 66,47 -7 -465,29 49







3 1993 67,17 -6 -403,02 36







4 1994 67,5 -5 -337,5 25





Wówczas:


5 1995 67,62 -4 -270,48 16






6 1996 68,12 -3 -204,36 9





7 1997 68,45 -2 -136,9 4





8 1998 68,87 -1 -68,87 1





9 1999 68,83 0 0 0





10 2000 69,74 1 69,74 1





11 2001 70,21 2 140,42 4





12 2002 70,42 3 211,26 9





13 2003 70,52 4 282,08 16





14 2004 70,67 5 353,35 25





15 2005 70,81 6 424,86 36





16 2006 70,93 7 496,51 49





17 2007 70,96 8 567,68 64






SUMA 1173,17 0 132,44 408



















Prognozujemy tak samo,po prostu przeciągamy ti'




































a= 69,01













b= 0,32





























y't= 69,01+0,32*t'


Teoretycznie przeciętne dalsze trwanie życia noworodka płci męskiej w okresie zerowym wynosiło 69,01














lat. Jest to jednocześnie średnia wartość zjawiska z całego badanego okresu.














Przeciętne dalsze trwanie życia noworodka płci męskiej rosło w badanym okresie średnio z roku na rok o














0,32 roku












































3


Wyszukiwarka

Podobne podstrony:
Statystyka #9 Regresja i korelacja
STATYSTYKA-regresja, Statystyka, statystyka
6 STATYSTYKA regresja 2 id 4389 Nieznany (2)
Statystyka #9 Regresja i korelacja
statystyka regresja
6 STATYSTYKA regresja 2
download Statystyka regresja
6 STATYSTYKA regresja 2
zadanie 2- regresja liniowa, Statyst. zadania
06.regresja liniowa, STATYSTYKA
Badanie jakości związku regresyjnego, matematyka, Matematyka. Prawdopodobienstwo i Statystyka
Analiza regresji, Statystyka - ćwiczenia - Rumiana Górska
Statystyka matematyczna, 4-część, Analiza regresyjna
statystya wyznaczanie, WYZNACZANIE PROSTEJ REGRESJI I PROSTEJ TRENDU W ARKUSZU EXCEL
modele regresji SGH metody statystyczne 2008
Analiza regresji między dwiema zmiennymi, Płyta farmacja Bydgoszcz, statystyka, pozostałe

więcej podobnych podstron