Analiza zmiennych

Analiza zmiennych

Kraków, 4 czerwiec 2013r.

SPIS TREŚCI

1. Wprowadzenie

2. Dane statystyczne

3. Charakterystyki opisowe zmiennych

3.1 Statystyki opisowe dla zmiennej „Ludność”

3.2 Statystyki opisowe dla zmiennej „uczniowie w szkołach podstawowych,”

3.3 Statystyki opisowe dla zmiennej „studenci szkół wyższych”

4. Modele regresji

4.1 Analiza regresji pomiędzy zmiennymi: „Ludnością” – „uczniowie szkoł podstawowych” ,

4.2 Analiza regresji pomiędzy zmiennymi: „Ludnością” - „studenci szkoł wyższych” ,

5. Podsumowanie……………………………………………………………

  1. Wprowadzenie

Celem pracy jest znalezienie zależności między wybranymi zmiennymi w 16 województwach z całej Polski, w oparciu o dane statystyczne, które pochodzą z rocznika statystycznego 2007 roku. Zawiera ona najważniejsze informacje dotyczące państwa m.in. informacje o mieszkańcach, środowisku, gospodarce, zjawiskach społecznych. Jest to wydawnictwo państwowe Głównego Urzędu Statystycznego. W ten pracy Analizuje dane na temat ludności wybranych miast, ilości uczniów w szkołach podstawowych oraz studentów szkół wyższych.

  1. Dane statystyczne.

Przykładem mojej analizy są następujące zmienne:

Według podanych danych z rocznika statystycznego z 2007 roku, poniższe zestawienie wynika iż najwięcej uczniów zarówno szkół podstawowych jak i studentów szkół wyższych znajduje się w województwie Mazowieckim. Co jest spowodowane największą powierzchnią miasta i zaludnienia, które wynosi 1706,6 tyś.

Województwa Ludność Uczniowie szkół podstawowych w tys. Studenci szkół wyższych
Mazowieckie 1706,6 75,70 285,3
Podlaskie 249,1 16,3 45
Kujawsko – Pomorskie 361,2 18,6 43,9
Pomorskie 455,7 22,6 76,3
Lubuskie 125,4 6,8 9,9
Śląskie 312,2 15,1 73
Małopolskie 756,6 36,7 181,4
Lubelskie 351,2 18,8 85,4
Łódzkie 753,2 33,1 122,7
Warmińsko - Mazurskie 175,7 9,6 45,3
Opolskie 126,7 6 32,8
Wielkopolskie 560,9 27,7 141,6
Podkarpackie 166,5 9,2 50
Zachodnio – Pomorskie 407,8 21,1 61,3
Dolnośląski 632,9 28 141,7
Świętokrzyskie 205,9 10,2 47,4
  1. Charakterystyka opisowych zmiennych.

3.1 Statystyki opisowe dla zmiennej Ludność w tysiacach
(nazwa w sg + ludność )

Zmienna ludność w tysiącach oznacza ilość mieszkańców w danym województwie.

W Analizowanych 16 województwach ludność wynosi od 117,5 do 1706,6 tys.

Liczebność badanej próby liczby ludności mieszkańców w 16 województwach jest największa w województwie Mazowieckim wynosi 1706,6 tyś. mieszkańców natomiast najmniejsza wynosi w województwie Lubuskim, która posiada 117,5 tyś. mieszkańców.

Wyróżnia się województwo Mazowieckie o największej liczbie ludności (1706,6 ty.)

Statystyki sumacyjne dla Ludności

WYMAGANE
Liczebność 16
Średnia 428,706
Mediana 331,7
Modalna
Odchylenie standardowe 89,6654
Wartość max. 1706,6
Wartość min. 117,5
Współczynnik zmienności 88,7365 %
Suma =7716,7

Srednia liczba ludności wynosi ok. 428 tyś, przy medianie 331.

Zmienna liczba ludności w tysiącach była badana w 16 województwach. Mediana dla tej zmiennej wynosi 331,7. Wyliczenia te są podane z błędem standardowym 89,6654.
Najmniejsza liczba ludności występuje województwie Lubuski oraz Podkarpackim.
Natomiast największą liczbę ludności posiadają takie województwa jak m.in. Mazowieckie, Małopolskie, Łódzkie, Dolnośląskie związane to jest z ogromnym rozwojem gospodarczym, przemysłowym a także duży rynek pracy który koncentruje się przede wszystkim w Polsce południowej i centralnej.

3.2 Statystyki opisowe dla zmiennej uczniowie w szkołach podstawowych

(nazwa w sg + uczń_podst)

Zmienna uczniów w szkołach podstawowych oznacza ilość uczęszczających uczniów do szkół podstawowych w analizowanych województwach.

W analizowanych 16 województwach liczba uczniów w szkołach podstawowych wynosi od 6 do 75,7 tyś.

Statystyka sumacyjna dla uczniów szkół podstawowych.

WYMAGANE
Liczebność 16
Średnia 20,7167
Mediana 17,45
Modalna
Odchylenie standardowe 16,5832
Wartość max. 75,7
Wartość min. 6,0
Współczynnik zmienności 80,0478 %
Suma =372,9
  1. Statystyki opisowe dla zmiennej studenci szkół wyższych

(nazwa w sg+ uczn_wyzsz)

Zmienna studenci szkół wyższych oznacza ilość studentów uczęszczających do szkół wyższych.

W analizowanych 16 województwach liczba uczniów w szkołach wyższych wynosi od 9,9 do 285,3 tyś.

WYMAGANE
Liczebność 16
Średnia 83,05
Mediana 55,65
Modalna 32,8
Odchylenie standardowe 68,9853
Wartość max. 285,3
Wartość min. 9,9
Suma =1494,9

Zmienna uczniów szkół wyższych w tysiącach badana była w 16 województwach. Mediana dla tej zmiennej wynosi 55,65 a modalna 32,8.
Największa ilość uczniów szkół wyższych przypada na województwo Mazowieckie, Małopolskie, Wielkopolskie, Łódzkie co jest spowodowane największym zaludnieniem i największym rozwojem akademickim. Jest to związane z ciągłą migracją młodzieży z miast mniejszych i wsi do miast większych, gdzie po zakończeniu edukacji często osiadają na stałe.

  1. Historia dla zmiennej ludności.

Zmienna ludności w 14 miastach mieści się w przedziale od 0 do 600.
Zmienna ludności w 3 miastach mieści się w przedziale od 600 do 1200.

Zmienna ludności w 1 mieście mieści się w przedziale od 1200 do 1800.

Większość punktów leży na linii bądź w jej obrębie. Natomiast szczególnie wyróżnia się jeden punkt, który odbiega w prawą stronę co oznacza asymetrie prawostronną.

Przedziały ufności dla Ludności.

95,0% przedział ufności dla średniej: 428,706 +/- 189,178 [239,528;617,883]

95,0% przedział ufności dla odchylenia standardowego: [285,461;570,302]


Wykres zmienności ludności jest normalny, natomiast znacząco wyróżnia się jeden punkt. Którego wartość wynosi 1706,6 i jest nim ludność województwa Mazowieckiego.

Przedziały ufności dla uczniów szkół podstawowych,

95,0% przedział ufności dla średniej: 20,7167 +/- 8,24667 [12,47;28,9633].

95,0% przedział ufności dla odchylenia standardowego: [12,4439;24,8607].

Przedziały ufności dla uczniów szkół wyższych.

95,0% przedział ufności dla średniej: 83,05 +/- 34,3056 [48,7444;117,356].

95,0% przedział ufności dla odchylenia standardowego: [51,7657;103,419].

2.4 Analiza regresji zachodząca pomiędzy zmiennymi:

X

Y

Ludność Ilość uczniów
podstawówki
Ilość uczniów
szkół wyższych
Ludność P = 0,0000 P = 0,0000
Ilość uczniów
podstawówki
P = 0,0000 P = 0,0000
Ilość uczniów
szkół wyższych
P = 0,0000 P = 0,0000

Do analizy regresji przydatne będą następujące pojęcia:

a) Metoda najmniejszych kwadratów – standardowa metoda przybliżania rozwiązań układów nadokreślonych, tzn. zestawu równań, w którym jest ich więcej niż zmiennych. Nazwa „najmniejsze kwadraty” oznacza, że końcowe rozwiązanie tą metodą minimalizuje sumę kwadratów błędów przy rozwiązywaniu każdego z równań. W statystyce wykorzystuje się ją do estymacji i wyznaczania linii trendu na podstawie zbioru danych w postaci par liczb. Najczęściej jest stosowana przy regresji liniowej, ale może też być stosowana do statystycznego wyznaczania parametrów nieliniowych linii trendu.

b) Współczynnik determinacji - (R2 objaśnianej została wyjaśniona przez model. Jest on więc miarą stopnia, w jakim model wyjaśnia kształtowanie się zmiennej objaśnianej. Można również powiedzieć, że współczynnik determinacji opisuje tę część zmienności objaśnianej, która wynika z jej zależności od uwzględnionych w modelu zmiennych objaśniających. Współczynnik determinacji przyjmuje wartości z przedziału [0;1]. Jego wartości najczęściej są wyrażane w procentach. Dopasowanie modelu jest tym lepsze, im wartość R2) - informuje o tym, jaka część zmienności zmiennej jest bliższa jedności.

c) Współczynnik korelacji – liczba określająca w jakim stopniu zmienne są współzależne. Jest miarą korelacji dwu (lub więcej) zmiennych. Istnieje wiele różnych wzorów określanych jako współczynniki korelacji. Większość z nich jest normalizowana tak, żeby przybierała wartości od -1 (zupełna korelacja ujemna), przez 0 (brak korelacji) do +1 (zupełna korelacja dodatnia).

1.

Analiza regresji - Model liniowy: Y = a + b*X

-----------------------------------------------------------------------------

Zmienna zależna: Ludnosc

Zmienna niezależna: uczn_podst

-----------------------------------------------------------------------------

Ocena Błąd Statystyka

Parametr estymatora stnd. t p

-----------------------------------------------------------------------------

Wyraz wolny -45,3914 10,4279 -4,35289 0,0005

Wsp. kierunk. 22,8848 0,397297 57,6013 0,0000

-----------------------------------------------------------------------------

Analiza wariancji

-----------------------------------------------------------------------------

Źródło Suma kwadratów Df Śr. kwadrat F p

-----------------------------------------------------------------------------

Model 2,4484E6 1 2,4484E6 3317,91 0,0000

Reszta 11807,0 16 737,935

-----------------------------------------------------------------------------

Całkowita (popr.) 2,46021E6 17

Współczynnik korelacji = 0,997598

R-kwadrat = 99,5201 procent

Standardowy błąd predykcji = 27,165

Zmienna zależna LUDNOŚĆ

Zmienna niezależna LICZBA UCZNIÓW PODSTAWÓWKI
Model LINIOWY

Wzór Y= a + b*X

Wartość a= -45,3914 b= 22,8848

Współczynnik korelacji 0,997598

R-kwadrat 99,5201

Zależność między liczbą ludności a liczbą uczniów w podstawówce przedstawia wykres liniowy, który jest przedstawiony za pomocą wzoru :

Y= a + b*X.

Z wykresu można wyczytać iż wraz ze wzrostem ludności w danych województwach rośnie ilość uczniów, czyli im większe województwo tym większa ilość uczniów.

2. Analiza regresji - Model liniowy: Y = a + b*X

-----------------------------------------------------------------------------

Zmienna zależna: Ludnosc

Zmienna niezależna: uczn_wyzsz

-----------------------------------------------------------------------------

Ocena Błąd Statystyka

Parametr estymatora stnd. t p

-----------------------------------------------------------------------------

Wyraz wolny -9,52181 42,7456 -0,222755 0,8265

Wsp. kierunk. 5,27667 0,400492 13,1755 0,0000

-----------------------------------------------------------------------------

Analiza wariancji

-----------------------------------------------------------------------------

Źródło Suma kwadratów Df Śr. kwadrat F p

-----------------------------------------------------------------------------

Model 2,25259E6 1 2,25259E6 173,59 0,0000

Reszta 207620,0 16 12976,2

-----------------------------------------------------------------------------

Całkowita (popr.) 2,46021E6 17

Współczynnik korelacji = 0,956874

R-kwadrat = 91,5609 procent

Standardowy błąd predykcji = 113,913

Zmienna zależna LUDNOŚĆ

Zmienna niezależna LICZBA UCZNIÓW szkół wyższych
Model LINIOWY

Wzór Y= a + b*X

Wartość a= -9,52181 b= 5,27667

Współczynnik korelacji 0,956874

R-kwadrat 91,5609

Z powyższego wykresu liniowego który został przedstawiony na podstawie wzoru :

Y= a + b*X.

Można wywnioskować iż ilość uczniów szkół wyższych rośnie wraz z większym zaludnieniem województw.

3. Analiza regresji - Model liniowy: Y = a + b*X

-----------------------------------------------------------------------------

Zmienna zależna: uczn_podst

Zmienna niezależna: Ludnosc

-----------------------------------------------------------------------------

Ocena Błąd Statystyka

Parametr estymatora stnd. t p

-----------------------------------------------------------------------------

Wyraz wolny 2,07338 0,427388 4,85127 0,0002

Wsp. kierunk. 0,0434874 0,000754973 57,6013 0,0000

-----------------------------------------------------------------------------

Analiza wariancji

-----------------------------------------------------------------------------

Źródło Suma kwadratów Df Śr. kwadrat F p

-----------------------------------------------------------------------------

Model 4652,63 1 4652,63 3317,91 0,0000

Reszta 22,4365 16 1,40228

-----------------------------------------------------------------------------

Całkowita (popr.) 4675,06 17

Współczynnik korelacji = 0,997598

R-kwadrat = 99,5201 procent

Standardowy błąd predykcji = 1,18418

Zmienna zależna LICZBA UCZNIÓW PODSTAWÓWKI

Zmienna niezależna LUDNOŚĆ
Model LINIOWY

Wzór Y= a + b*X

Wartość a= 2,07338 b= 0,0434874

Współczynnik korelacji 0,997598

R-kwadrat 99,5201

4. Analiza regresji - Model liniowy: Y = a + b*X

-----------------------------------------------------------------------------

Zmienna zależna: uczn_podst

Zmienna niezależna: uczn_wyzsz

-----------------------------------------------------------------------------

Ocena Błąd Statystyka

Parametr estymatora stnd. t p

-----------------------------------------------------------------------------

Wyraz wolny 1,58139 1,82915 0,864548 0,4001

Wsp. kierunk. 0,230407 0,0171377 13,4444 0,0000

-----------------------------------------------------------------------------

Analiza wariancji

-----------------------------------------------------------------------------

Źródło Suma kwadratów Df Śr. kwadrat F p

-----------------------------------------------------------------------------

Model 4294,89 1 4294,89 180,75 0,0000

Reszta 380,177 16 23,7611

-----------------------------------------------------------------------------

Całkowita (popr.) 4675,06 17

Współczynnik korelacji = 0,958478

R-kwadrat = 91,868 procent

Standardowy błąd predykcji = 4,87453

Zmienna zależna LICZBA UCZNIÓW PODSTAWÓWKI

Zmienna niezależna LICZBA UCZNIÓW szkół wyższych
Model LINIOWY

Wzór Y= a + b*X

Wartość a= 1,58139 b= 0,230407

Współczynnik korelacji 0,958478

R-kwadrat 91,868

5. Analiza regresji - Model liniowy: Y = a + b*X

-----------------------------------------------------------------------------

Zmienna zależna: uczn_wyzsz

Zmienna niezależna: Ludnosc

-----------------------------------------------------------------------------

Ocena Błąd Statystyka

Parametr estymatora stnd. t p

-----------------------------------------------------------------------------

Wyraz wolny 8,66092 7,45547 1,16169 0,2624

Wsp. kierunk. 0,17352 0,0131699 13,1755 0,0000

-----------------------------------------------------------------------------

Analiza wariancji

-----------------------------------------------------------------------------

Źródło Suma kwadratów Df Śr. kwadrat F p

-----------------------------------------------------------------------------

Model 74075,0 1 74075,0 173,59 0,0000

Reszta 6827,46 16 426,716

-----------------------------------------------------------------------------

Całkowita (popr.) 80902,4 17

Współczynnik korelacji = 0,956874

R-kwadrat = 91,5609 procent

Standardowy błąd predykcji = 20,6571

Zmienna zależna LICZBA UCZNIÓW szkół wyższych

Zmienna niezależna LUDNOŚĆ
Model LINIOWY

Wzór Y= a + b*X

Wartość a= 8,66092 b= 0,17352

Współczynnik korelacji 0,956874

R-kwadrat 91,5609

6. Analiza regresji - Model liniowy: Y = a + b*X

-----------------------------------------------------------------------------

Zmienna zależna: uczn_wyzsz

Zmienna niezależna: uczn_podst

-----------------------------------------------------------------------------

Ocena Błąd Statystyka

Parametr estymatora stnd. t p

-----------------------------------------------------------------------------

Wyraz wolny 0,448304 7,78406 0,0575925 0,9548

Wsp. kierunk. 3,98721 0,296569 13,4444 0,0000

-----------------------------------------------------------------------------

Analiza wariancji

-----------------------------------------------------------------------------

Źródło Suma kwadratów Df Śr. kwadrat F p

-----------------------------------------------------------------------------

Model 74323,4 1 74323,4 180,75 0,0000

Reszta 6579,0 16 411,188

-----------------------------------------------------------------------------

Całkowita (popr.) 80902,4 17

Współczynnik korelacji = 0,958478

R-kwadrat = 91,868 procent

Standardowy błąd predykcji = 20,2778

Zmienna zależna LICZBA UCZNIÓW szkół wyższych

Zmienna niezależna LICZBA UCZNIÓW PODSTAWÓWKI
Model LINIOWY

Wzór Y= a + b*X

Wartość a= 0,448304 b= 3,98721

Współczynnik korelacji 0,958478

R-kwadrat 91,868

  1. Podsumowanie.

Analiza statystyczna przeprowadzona przeze mnie przybliża tematykę życia społecznego w zakresie ludności, uczniów szkół podstawowych jak i szkół wyższych w Polsce oraz wzajemnych wpływów tych zmiennych na siebie. Są to ważne zależności z punktu widzenia społecznego ale także z punktu widzenia socjologii i demografii. Profesjonalne badanie tego typu zależności powinno być wskazówką dla polityki w Polsce.


Wyszukiwarka

Podobne podstrony:
Analiza zmienności cech zbiornikowych osadów fluwialnych cze, geologia, AGH, SzM, GEOLOGIA
Analiza zmiennoprądowa
Analiza zmienności zawartości cynku w złożu rud Zn
PROJEKT Z UKŁADÓW ELEKTRONICZNYCH 2 Analiza zmiennoprądowa Szerokopasmowy wzmacniacz dwutranzystorow
Ja analiza zmienno ci parametrów złoża at
Maliszewski Jacek Ekonometryczna analiza zmienności oraz rozkłady prawdopodobieństwa rtf
Analiza zmiennych grupy
ćw 5 analiza współzależności zmiennych
Analiza wstepna branz, wybor spolek i miary zmiennosci
Analiza regresji między dwiema zmiennymi, Płyta farmacja Bydgoszcz, statystyka, pozostałe
,analiza matematyczna 1, rachunek różniczkowy funkcji jednej zmiennej
Analiza regresji między dwiema zmiennymi, Statystyka, statystyka(3)
Analiza współzależności zmiennych na różnych skalach pomiarowych
5 Analiza obwodów prądu zmiennego(1)
ZMIENNE ANALIZA WOJEWÓDZTW
Analiza regresji między dwiema zmiennymi, statystyka matematyczna(1)
Funkcje dwóch i trzech zmiennych, Analiza matematyczna
analiza matematyczna funkcje wielu zmiennych pwn
Folia Obena wypowiedzi wg Berelsona, W literaturze posługującej się metodami analizy treści pewne ty

więcej podobnych podstron