Analiza zmiennych
Kraków, 4 czerwiec 2013r.
SPIS TREŚCI
1. Wprowadzenie
3. Charakterystyki opisowe zmiennych
3.1 Statystyki opisowe dla zmiennej „Ludność”
3.2 Statystyki opisowe dla zmiennej „uczniowie w szkołach podstawowych,”
3.3 Statystyki opisowe dla zmiennej „studenci szkół wyższych”
4.1 Analiza regresji pomiędzy zmiennymi: „Ludnością” – „uczniowie szkoł podstawowych” ,
4.2 Analiza regresji pomiędzy zmiennymi: „Ludnością” - „studenci szkoł wyższych” ,
5. Podsumowanie……………………………………………………………
Wprowadzenie
Celem pracy jest znalezienie zależności między wybranymi zmiennymi w 16 województwach z całej Polski, w oparciu o dane statystyczne, które pochodzą z rocznika statystycznego 2007 roku. Zawiera ona najważniejsze informacje dotyczące państwa m.in. informacje o mieszkańcach, środowisku, gospodarce, zjawiskach społecznych. Jest to wydawnictwo państwowe Głównego Urzędu Statystycznego. W ten pracy Analizuje dane na temat ludności wybranych miast, ilości uczniów w szkołach podstawowych oraz studentów szkół wyższych.
Dane statystyczne.
Przykładem mojej analizy są następujące zmienne:
Ludność w tysiącach,
Uczniowie w szkołach podstawowych w tysiącach,
Studenci szkół wyższych w tysiącach.
Według podanych danych z rocznika statystycznego z 2007 roku, poniższe zestawienie wynika iż najwięcej uczniów zarówno szkół podstawowych jak i studentów szkół wyższych znajduje się w województwie Mazowieckim. Co jest spowodowane największą powierzchnią miasta i zaludnienia, które wynosi 1706,6 tyś.
Województwa | Ludność | Uczniowie szkół podstawowych w tys. | Studenci szkół wyższych |
---|---|---|---|
Mazowieckie | 1706,6 | 75,70 | 285,3 |
Podlaskie | 249,1 | 16,3 | 45 |
Kujawsko – Pomorskie | 361,2 | 18,6 | 43,9 |
Pomorskie | 455,7 | 22,6 | 76,3 |
Lubuskie | 125,4 | 6,8 | 9,9 |
Śląskie | 312,2 | 15,1 | 73 |
Małopolskie | 756,6 | 36,7 | 181,4 |
Lubelskie | 351,2 | 18,8 | 85,4 |
Łódzkie | 753,2 | 33,1 | 122,7 |
Warmińsko - Mazurskie | 175,7 | 9,6 | 45,3 |
Opolskie | 126,7 | 6 | 32,8 |
Wielkopolskie | 560,9 | 27,7 | 141,6 |
Podkarpackie | 166,5 | 9,2 | 50 |
Zachodnio – Pomorskie | 407,8 | 21,1 | 61,3 |
Dolnośląski | 632,9 | 28 | 141,7 |
Świętokrzyskie | 205,9 | 10,2 | 47,4 |
Charakterystyka opisowych zmiennych.
3.1 Statystyki opisowe dla zmiennej Ludność w tysiacach
(nazwa w sg + ludność )
Zmienna ludność w tysiącach oznacza ilość mieszkańców w danym województwie.
W Analizowanych 16 województwach ludność wynosi od 117,5 do 1706,6 tys.
Liczebność badanej próby liczby ludności mieszkańców w 16 województwach jest największa w województwie Mazowieckim wynosi 1706,6 tyś. mieszkańców natomiast najmniejsza wynosi w województwie Lubuskim, która posiada 117,5 tyś. mieszkańców.
Wyróżnia się województwo Mazowieckie o największej liczbie ludności (1706,6 ty.)
WYMAGANE | |
---|---|
Liczebność | 16 |
Średnia | 428,706 |
Mediana | 331,7 |
Modalna | |
Odchylenie standardowe | 89,6654 |
Wartość max. | 1706,6 |
Wartość min. | 117,5 |
Współczynnik zmienności | 88,7365 % |
Suma | =7716,7 |
Srednia liczba ludności wynosi ok. 428 tyś, przy medianie 331.
Zmienna liczba ludności w tysiącach była badana w 16 województwach. Mediana dla tej zmiennej wynosi 331,7. Wyliczenia te są podane z błędem standardowym 89,6654.
Najmniejsza liczba ludności występuje województwie Lubuski oraz Podkarpackim.
Natomiast największą liczbę ludności posiadają takie województwa jak m.in. Mazowieckie, Małopolskie, Łódzkie, Dolnośląskie związane to jest z ogromnym rozwojem gospodarczym, przemysłowym a także duży rynek pracy który koncentruje się przede wszystkim w Polsce południowej i centralnej.
3.2 Statystyki opisowe dla zmiennej uczniowie w szkołach podstawowych
(nazwa w sg + uczń_podst)
Zmienna uczniów w szkołach podstawowych oznacza ilość uczęszczających uczniów do szkół podstawowych w analizowanych województwach.
W analizowanych 16 województwach liczba uczniów w szkołach podstawowych wynosi od 6 do 75,7 tyś.
Statystyka sumacyjna dla uczniów szkół podstawowych.
WYMAGANE | |
---|---|
Liczebność | 16 |
Średnia | 20,7167 |
Mediana | 17,45 |
Modalna | |
Odchylenie standardowe | 16,5832 |
Wartość max. | 75,7 |
Wartość min. | 6,0 |
Współczynnik zmienności | 80,0478 % |
Suma | =372,9 |
Statystyki opisowe dla zmiennej studenci szkół wyższych
(nazwa w sg+ uczn_wyzsz)
Zmienna studenci szkół wyższych oznacza ilość studentów uczęszczających do szkół wyższych.
W analizowanych 16 województwach liczba uczniów w szkołach wyższych wynosi od 9,9 do 285,3 tyś.
WYMAGANE | |
---|---|
Liczebność | 16 |
Średnia | 83,05 |
Mediana | 55,65 |
Modalna | 32,8 |
Odchylenie standardowe | 68,9853 |
Wartość max. | 285,3 |
Wartość min. | 9,9 |
Suma | =1494,9 |
Zmienna uczniów szkół wyższych w tysiącach badana była w 16 województwach. Mediana dla tej zmiennej wynosi 55,65 a modalna 32,8.
Największa ilość uczniów szkół wyższych przypada na województwo Mazowieckie, Małopolskie, Wielkopolskie, Łódzkie co jest spowodowane największym zaludnieniem i największym rozwojem akademickim. Jest to związane z ciągłą migracją młodzieży z miast mniejszych i wsi do miast większych, gdzie po zakończeniu edukacji często osiadają na stałe.
Historia dla zmiennej ludności.
Zmienna ludności w 14 miastach mieści się w przedziale od 0 do 600.
Zmienna ludności w 3 miastach mieści się w przedziale od 600 do 1200.
Zmienna ludności w 1 mieście mieści się w przedziale od 1200 do 1800.
Większość punktów leży na linii bądź w jej obrębie. Natomiast szczególnie wyróżnia się jeden punkt, który odbiega w prawą stronę co oznacza asymetrie prawostronną.
Przedziały ufności dla Ludności.
95,0% przedział ufności dla średniej: 428,706 +/- 189,178 [239,528;617,883]
95,0% przedział ufności dla odchylenia standardowego: [285,461;570,302]
Wykres zmienności ludności jest normalny, natomiast znacząco wyróżnia się jeden punkt. Którego wartość wynosi 1706,6 i jest nim ludność województwa Mazowieckiego.
Przedziały ufności dla uczniów szkół podstawowych,
95,0% przedział ufności dla średniej: 20,7167 +/- 8,24667 [12,47;28,9633].
95,0% przedział ufności dla odchylenia standardowego: [12,4439;24,8607].
Przedziały ufności dla uczniów szkół wyższych.
95,0% przedział ufności dla średniej: 83,05 +/- 34,3056 [48,7444;117,356].
95,0% przedział ufności dla odchylenia standardowego: [51,7657;103,419].
2.4 Analiza regresji zachodząca pomiędzy zmiennymi:
X Y |
Ludność | Ilość uczniów podstawówki |
Ilość uczniów szkół wyższych |
---|---|---|---|
Ludność | P = 0,0000 | P = 0,0000 | |
Ilość uczniów podstawówki |
P = 0,0000 | P = 0,0000 | |
Ilość uczniów szkół wyższych |
P = 0,0000 | P = 0,0000 |
Do analizy regresji przydatne będą następujące pojęcia:
a) Metoda najmniejszych kwadratów – standardowa metoda przybliżania rozwiązań układów nadokreślonych, tzn. zestawu równań, w którym jest ich więcej niż zmiennych. Nazwa „najmniejsze kwadraty” oznacza, że końcowe rozwiązanie tą metodą minimalizuje sumę kwadratów błędów przy rozwiązywaniu każdego z równań. W statystyce wykorzystuje się ją do estymacji i wyznaczania linii trendu na podstawie zbioru danych w postaci par liczb. Najczęściej jest stosowana przy regresji liniowej, ale może też być stosowana do statystycznego wyznaczania parametrów nieliniowych linii trendu.
b) Współczynnik determinacji - (R2 objaśnianej została wyjaśniona przez model. Jest on więc miarą stopnia, w jakim model wyjaśnia kształtowanie się zmiennej objaśnianej. Można również powiedzieć, że współczynnik determinacji opisuje tę część zmienności objaśnianej, która wynika z jej zależności od uwzględnionych w modelu zmiennych objaśniających. Współczynnik determinacji przyjmuje wartości z przedziału [0;1]. Jego wartości najczęściej są wyrażane w procentach. Dopasowanie modelu jest tym lepsze, im wartość R2) - informuje o tym, jaka część zmienności zmiennej jest bliższa jedności.
c) Współczynnik korelacji – liczba określająca w jakim stopniu zmienne są współzależne. Jest miarą korelacji dwu (lub więcej) zmiennych. Istnieje wiele różnych wzorów określanych jako współczynniki korelacji. Większość z nich jest normalizowana tak, żeby przybierała wartości od -1 (zupełna korelacja ujemna), przez 0 (brak korelacji) do +1 (zupełna korelacja dodatnia).
1.
Analiza regresji - Model liniowy: Y = a + b*X
-----------------------------------------------------------------------------
Zmienna zależna: Ludnosc
Zmienna niezależna: uczn_podst
-----------------------------------------------------------------------------
Ocena Błąd Statystyka
Parametr estymatora stnd. t p
-----------------------------------------------------------------------------
Wyraz wolny -45,3914 10,4279 -4,35289 0,0005
Wsp. kierunk. 22,8848 0,397297 57,6013 0,0000
-----------------------------------------------------------------------------
Analiza wariancji
-----------------------------------------------------------------------------
Źródło Suma kwadratów Df Śr. kwadrat F p
-----------------------------------------------------------------------------
Model 2,4484E6 1 2,4484E6 3317,91 0,0000
Reszta 11807,0 16 737,935
-----------------------------------------------------------------------------
Całkowita (popr.) 2,46021E6 17
Współczynnik korelacji = 0,997598
R-kwadrat = 99,5201 procent
Standardowy błąd predykcji = 27,165
Zmienna zależna LUDNOŚĆ
Zmienna niezależna LICZBA UCZNIÓW PODSTAWÓWKI
Model LINIOWY
Wzór Y= a + b*X
Wartość a= -45,3914 b= 22,8848
Współczynnik korelacji 0,997598
R-kwadrat 99,5201
Zależność między liczbą ludności a liczbą uczniów w podstawówce przedstawia wykres liniowy, który jest przedstawiony za pomocą wzoru :
Y= a + b*X.
Z wykresu można wyczytać iż wraz ze wzrostem ludności w danych województwach rośnie ilość uczniów, czyli im większe województwo tym większa ilość uczniów.
2. Analiza regresji - Model liniowy: Y = a + b*X
-----------------------------------------------------------------------------
Zmienna zależna: Ludnosc
Zmienna niezależna: uczn_wyzsz
-----------------------------------------------------------------------------
Ocena Błąd Statystyka
Parametr estymatora stnd. t p
-----------------------------------------------------------------------------
Wyraz wolny -9,52181 42,7456 -0,222755 0,8265
Wsp. kierunk. 5,27667 0,400492 13,1755 0,0000
-----------------------------------------------------------------------------
Analiza wariancji
-----------------------------------------------------------------------------
Źródło Suma kwadratów Df Śr. kwadrat F p
-----------------------------------------------------------------------------
Model 2,25259E6 1 2,25259E6 173,59 0,0000
Reszta 207620,0 16 12976,2
-----------------------------------------------------------------------------
Całkowita (popr.) 2,46021E6 17
Współczynnik korelacji = 0,956874
R-kwadrat = 91,5609 procent
Standardowy błąd predykcji = 113,913
Zmienna zależna LUDNOŚĆ
Zmienna niezależna LICZBA UCZNIÓW szkół wyższych
Model LINIOWY
Wzór Y= a + b*X
Wartość a= -9,52181 b= 5,27667
Współczynnik korelacji 0,956874
R-kwadrat 91,5609
Z powyższego wykresu liniowego który został przedstawiony na podstawie wzoru :
Y= a + b*X.
Można wywnioskować iż ilość uczniów szkół wyższych rośnie wraz z większym zaludnieniem województw.
3. Analiza regresji - Model liniowy: Y = a + b*X
-----------------------------------------------------------------------------
Zmienna zależna: uczn_podst
Zmienna niezależna: Ludnosc
-----------------------------------------------------------------------------
Ocena Błąd Statystyka
Parametr estymatora stnd. t p
-----------------------------------------------------------------------------
Wyraz wolny 2,07338 0,427388 4,85127 0,0002
Wsp. kierunk. 0,0434874 0,000754973 57,6013 0,0000
-----------------------------------------------------------------------------
Analiza wariancji
-----------------------------------------------------------------------------
Źródło Suma kwadratów Df Śr. kwadrat F p
-----------------------------------------------------------------------------
Model 4652,63 1 4652,63 3317,91 0,0000
Reszta 22,4365 16 1,40228
-----------------------------------------------------------------------------
Całkowita (popr.) 4675,06 17
Współczynnik korelacji = 0,997598
R-kwadrat = 99,5201 procent
Standardowy błąd predykcji = 1,18418
Zmienna zależna LICZBA UCZNIÓW PODSTAWÓWKI
Zmienna niezależna LUDNOŚĆ
Model LINIOWY
Wzór Y= a + b*X
Wartość a= 2,07338 b= 0,0434874
Współczynnik korelacji 0,997598
R-kwadrat 99,5201
4. Analiza regresji - Model liniowy: Y = a + b*X
-----------------------------------------------------------------------------
Zmienna zależna: uczn_podst
Zmienna niezależna: uczn_wyzsz
-----------------------------------------------------------------------------
Ocena Błąd Statystyka
Parametr estymatora stnd. t p
-----------------------------------------------------------------------------
Wyraz wolny 1,58139 1,82915 0,864548 0,4001
Wsp. kierunk. 0,230407 0,0171377 13,4444 0,0000
-----------------------------------------------------------------------------
Analiza wariancji
-----------------------------------------------------------------------------
Źródło Suma kwadratów Df Śr. kwadrat F p
-----------------------------------------------------------------------------
Model 4294,89 1 4294,89 180,75 0,0000
Reszta 380,177 16 23,7611
-----------------------------------------------------------------------------
Całkowita (popr.) 4675,06 17
Współczynnik korelacji = 0,958478
R-kwadrat = 91,868 procent
Standardowy błąd predykcji = 4,87453
Zmienna zależna LICZBA UCZNIÓW PODSTAWÓWKI
Zmienna niezależna LICZBA UCZNIÓW szkół wyższych
Model LINIOWY
Wzór Y= a + b*X
Wartość a= 1,58139 b= 0,230407
Współczynnik korelacji 0,958478
R-kwadrat 91,868
5. Analiza regresji - Model liniowy: Y = a + b*X
-----------------------------------------------------------------------------
Zmienna zależna: uczn_wyzsz
Zmienna niezależna: Ludnosc
-----------------------------------------------------------------------------
Ocena Błąd Statystyka
Parametr estymatora stnd. t p
-----------------------------------------------------------------------------
Wyraz wolny 8,66092 7,45547 1,16169 0,2624
Wsp. kierunk. 0,17352 0,0131699 13,1755 0,0000
-----------------------------------------------------------------------------
Analiza wariancji
-----------------------------------------------------------------------------
Źródło Suma kwadratów Df Śr. kwadrat F p
-----------------------------------------------------------------------------
Model 74075,0 1 74075,0 173,59 0,0000
Reszta 6827,46 16 426,716
-----------------------------------------------------------------------------
Całkowita (popr.) 80902,4 17
Współczynnik korelacji = 0,956874
R-kwadrat = 91,5609 procent
Standardowy błąd predykcji = 20,6571
Zmienna zależna LICZBA UCZNIÓW szkół wyższych
Zmienna niezależna LUDNOŚĆ
Model LINIOWY
Wzór Y= a + b*X
Wartość a= 8,66092 b= 0,17352
Współczynnik korelacji 0,956874
R-kwadrat 91,5609
6. Analiza regresji - Model liniowy: Y = a + b*X
-----------------------------------------------------------------------------
Zmienna zależna: uczn_wyzsz
Zmienna niezależna: uczn_podst
-----------------------------------------------------------------------------
Ocena Błąd Statystyka
Parametr estymatora stnd. t p
-----------------------------------------------------------------------------
Wyraz wolny 0,448304 7,78406 0,0575925 0,9548
Wsp. kierunk. 3,98721 0,296569 13,4444 0,0000
-----------------------------------------------------------------------------
Analiza wariancji
-----------------------------------------------------------------------------
Źródło Suma kwadratów Df Śr. kwadrat F p
-----------------------------------------------------------------------------
Model 74323,4 1 74323,4 180,75 0,0000
Reszta 6579,0 16 411,188
-----------------------------------------------------------------------------
Całkowita (popr.) 80902,4 17
Współczynnik korelacji = 0,958478
R-kwadrat = 91,868 procent
Standardowy błąd predykcji = 20,2778
Zmienna zależna LICZBA UCZNIÓW szkół wyższych
Zmienna niezależna LICZBA UCZNIÓW PODSTAWÓWKI
Model LINIOWY
Wzór Y= a + b*X
Wartość a= 0,448304 b= 3,98721
Współczynnik korelacji 0,958478
R-kwadrat 91,868
Podsumowanie.
Analiza statystyczna przeprowadzona przeze mnie przybliża tematykę życia społecznego w zakresie ludności, uczniów szkół podstawowych jak i szkół wyższych w Polsce oraz wzajemnych wpływów tych zmiennych na siebie. Są to ważne zależności z punktu widzenia społecznego ale także z punktu widzenia socjologii i demografii. Profesjonalne badanie tego typu zależności powinno być wskazówką dla polityki w Polsce.