Politechnika Świętokrzyska w Kielcach
Wydział Zarządzania i Modelowania Komputerowego
Kierunek - Ekonomia
Model ekonometryczny:
Od czego zależy liczba działalności gospodarczych prowadzonych przez osoby fizyczne w gminie?
1. Wstęp
Celem niniejszego projektu jest zbadanie zależności liczby działalności gospodarczych prowadzonych przez osoby fizyczne [jedn. gosp.] od następujących czynników: liczby ludności ogółem [osoba], mieszkań ogółem [sztuka], ludności w wieku produkcyjnym [osoba], gestości zaludnienia [osoba/1km2], odległości od dużego miasta [km] oraz bezrobocia ogółem [ % ] . Dane zostały zaczerpnięte ze stron internetowych http://msi-doradca.pl i maps.google.com
W modelu można wyróżnić zjawisko wyjaśniane przez model, czyli zmienną objaśnianą, oraz zjawiska, które oddziałują na zmienną objaśnianą, czyli zmienne objaśniające. Zmienna Y jest nazywana również zmienną zależną, objaśnianą lub endogeniczną. Natomiast zmienna X zmienną niezależną, objaśniającą oraz egzogeniczną.
W celu identyfikacji obiektu modelowego należy przeprowadzić weryfikację modelu poprzez eliminacje zmiennych quasi-stałych i analizę współczynników korelacji, wybierając optymalny zbiór zmiennych objaśniających. Następnie za pomocą metody najmniejszych kwadratów polegającej na minimalizacji funkcji krytycznej, szacuje się parametry strukturalne liniowego modelu regresji. W następnym kroku dokonując weryfikacji modelu, która polega na sprawdzaniu jakości dopasowania uzyskanego modelu do danych empirycznych oraz wyznacza charakterystyki statystyczne modelu. Końcowym etapem weryfikacji będzie wnioskowanie statystyczne. W tym celu dokonano testowania hipotez o parametrach strukturalnych modelu, jak również określono przedziały ufności tych parametrów.
2. Dobór zmiennych do modelu
Model obrazujący zależność zmiennej objaśnianej y od zmiennych objaśniających x1, x2, x3, x4, x5, x6 ma postać analityczną modelu:
y = f(x1, x2, x3, x4, x5, x6)
Zmienną objaśnianą y jest liczba przedsiębiorstw w danych gminach. Natomiast zmiennymi objaśniającymi są:
x1 - liczba ludności ogółem[osoba]
x2 - mieszkania gółem [sztuka]
x3 - w wieku produkcyjnym [osoba]
x4 - gęstość zaludnienia [osoba/1km2]
x5 - odległość od (rynku) dużego miasta [km]
x6 - bezrobocie ogółem [ % ]
Tabela 1 przedstawia dane statystyczne do opisanego powyżej modelu.
nr | y | x1 | x2 | x3 | x4 | x5 | x6 |
---|---|---|---|---|---|---|---|
1 | 473 | 9 907 | 2 208 | 6 250 | 112 | 25,5 | 10,6 |
2 | 412 | 11 593 | 3 224,00 | 7 204 | 73 | 30,6 | 11,4 |
3 | 770 | 14 808 | 4 206 | 2 123 | 116 | 13,2 | 12,3 |
4 | 594 | 11 543 | 3 653 | 7 128,00 | 81 | 33,3 | 14,1 |
5 | 963 | 15 084 | 4 203,00 | 9 699,00 | 68 | 16,7 | 12,5 |
6 | 738 | 13 200 | 3 105,00 | 8 526,00 | 159 | 13,9 | 10,6 |
7 | 320 | 6 817 | 2 002,00 | 4 084,00 | 60 | 37,4 | 12,6 |
8 | 484 | 9 005 | 2 261,00 | 5 552,00 | 51 | 32,1 | 11,9 |
9 | 774 | 9 751 | 2 524,00 | 6 392,00 | 114 | 11 | 8 |
10 | 763 | 10 257 | 2 944,00 | 6 781,00 | 144 | 10,1 | 9,1 |
11 | 387 | 9 272 | 2 562,00 | 5 791,00 | 97 | 25,3 | 18,1 |
12 | 963 | 13 897 | 3 695,00 | 9 074,00 | 99 | 14,4 | 7,2 |
13 | 425 | 9 588 | 2 753,00 | 5 906,00 | 112 | 37,7 | 14,3 |
14 | 789 | 15 635 | 3 954,00 | 10 026,00 | 152 | 12,4 | 10,4 |
15 | 121 | 4556 | 2 702,00 | 2 702,00 | 45 | 15,5 | 7,7 |
16 | 783 | 11 725 | 3 414,00 | 7 463,00 | 80 | 20,4 | 8,2 |
17 | 204 | 5 254 | 1 756,00 | 3 100,00 | 45 | 17,5 | 8,4 |
18 | 216 | 4 876 | 1 511,00 | 2 912,00 | 54 | 23,2 | 6,5 |
19 | 721 | 12 994 | 4 509,00 | 8 430,00 | 89 | 22,5 | 8 |
20 | 354 | 7 517 | 2 701,00 | 4 466,00 | 42 | 18,2 | 6,8 |
21 | 439 | 7 769 | 2 793,00 | 4 715,00 | 66 | 10,2 | 11,8 |
22 | 140 | 3 933 | 1 223,00 | 2 341,00 | 37 | 16,6 | 10,3 |
23 | 397 | 9 977 | 3 152,00 | 6 204,00 | 88 | 9,2 | 12,2 |
24 | 110 | 4 879 | 1 549,00 | 2 984,00 | 45 | 16,6 | 5,9 |
25 | 669 | 11 889 | 3 661,00 | 8 245,00 | 158 | 19,4 | 7,4 |
26 | 157 | 4 404 | 1 298,00 | 2 567,00 | 55 | 20,1 | 5,9 |
27 | 176 | 5 524 | 2 144,00 | 3 170,00 | 52 | 26,8 | 7,5 |
28 | 154 | 4 597 | 1 607,00 | 2 725,00 | 46 | 13,8 | 6,6 |
29 | 163 | 4 832 | 1 558,00 | 2 807,00 | 43 | 6,3 | 6,6 |
30 | 155 | 4 762 | 1 517,00 | 2 869,00 | 58 | 23,3 | 4,1 |
Żródło: http://msi-doradca.pl
2.1. Eliminacja quasi – stałych
Eliminacji podlegają te zmienne objaśniające, które są najsilniej skorelowane z objaśniającą y.
Tabela 2. Przedstawia obliczone w programie Excel wartości średniej, odchylenia standardowego oraz współczynnika zmienności dla poszczególnych zmiennych objaśniających.
średnia | 460,46667 | 8 995 | 2 680 | 5 408 | 81,36667 | 19,77333 | 9,566667 |
---|---|---|---|---|---|---|---|
S | 273,49623 | 3692,947 | 953,4202 | 2468,164 | 37,38752 | 8,380599 | 3,123806 |
V | 0,5939545 | 0,410563 | 0,355802 | 0,456402 | 0,459494 | 0,423833 | 0,32653 |
Wzory, które posłużyły do obliczeń:
Średnia
Odchylenie standardowe
Współczynnik zmienności
W modelu nie eliminowano żadnej ze zmiennych, ponieważ współczynnik zmienności każdej zmiennej objaśniającej jest większy od 0,1.
2.2. Analiza współczynników korelacji
Analiza współczynników korelacji- pozwala ocenić siłę zależności pomiędzy zmiennymi. Wielkość ta określa współzależność liniową zmiennych. Przyjmuje wartość z przedziału od -1 do 1. Wartości wskaźnika bliskie 0 wskazują na słabą korelację, natomiast bliskie 1 lub -1 na silną.
Współczynnik korelacji wyraża się wzorem:
Należy dokonać wyboru zmiennych objaśniających, które są silnie skorelowane ze zmienną objaśnianą oraz odznaczają się słabą korelacją między sobą.
Jeżeli współczynnik korelacji dodatni to wraz ze wzrostem wartości pierwszej zmiennej rosną wartości drugiej zmiennej – są skorelowane dodatnio.
Jeżeli współczynnik korelacji ujemny to wraz ze wzrostem wartości jednej zmiennej maleją wartości drugiej – skorelowane ujemnie.
Tabela 3. Poniższa macierze ilustruje współczynniki korelacji zmiennych.
MACIERZE WSPÓŁCZYNNIKÓW KORELACJI
0,92951 | 1 | 0,917668 | 0,847059 | 0,732579 | -0,03879 | 0,427371 | ||
---|---|---|---|---|---|---|---|---|
0,8405 | 1 | 0,76075 | 0,592678 | -0,06454 | 0,362061 | |||
R0= | 0,83341 | 1 | 0,670892 | 0,017933 | 0,312288 | |||
0,70915 | R= | 1 | -0,13473 | 0,278914 | ||||
-0,1507 | 1 | 0,363597 | ||||||
0,2864 | 1 | |||||||
Wartość krytyczną współczynnika korelacji wyznaczono ze statystyki t – Studenta na poziomie istotności = 0,05:
gdzie:
t(1-α/2) - wartość statystyki t-Studenta dla zadanego poziomu istotności α
(N – 2) – stopnie swobody (30-2 = 28 )
r*=0,36
W naszym przypadku możemy powiedzieć, że silna korelacja jest w przedziałach .
Najsłabiej skorelowanymi zmiennymi ze zmienna objaśnianą są x5 i x6.
Do modelu wybrano zmienną x1 najsilniej skorelowaną ze zmienną objaśnianą y.
Eliminujemy zmienne x2, x3, x4 jako silnie skorelowane ze zmienną objaśniającą x1.
Model zawiera zatem zmienne x1.
Wykres 1. Zależność liczby przedsiębiorstw od liczby ludności ogółem.
Na wykresie nr 1 linia trendu pokazuje, że im więcej ludności ogółem tym więcej jest działalności gospodarczych. Wartość R2 wynosi 0,864, wskazuje na dobre dopasowanie modelu do danych empirycznych. Natomiast postać liniowa zależności pomiędzy danymi wynosi y=-158,73+0,0688x. Interpretujemy, że wzrost liczby ludności ogółem, powoduje wzrost zmiennej objaśnianej o 0,0688.
Wykres 2. Zależność liczby przedsiębiorstw od liczby mieszkań ogółem.
Wykres nr 2 przedstawia postać liniowa zależności pomiędzy danymi wynosi y=-185,61+0,2411x. Interpretujemy, że wzrost liczby mieszkań ogółem, powoduje wzrost liczby działalności gospodarczych prowadzonych przez osoby fizyczne o 0,2411. Wartość R2 wynosi 0,7064. Wskazuje to na dobre dopasowanie modelu do danych empirycznych.
Wykres 3. Zależność liczby przedsiębiorstw od liczby osób w wieku produkcyjnym.
Wykres nr 3 obrazuje postać liniową zależności pomiędzy liczbą osób w wieku produkcyjnym do liczby przedsiębiorstw prowadzonych przez osoby fizyczne y=-38,95+0,6946x. Interpretujemy, że wzrost zmiennej objaśniającej, powoduje wzrost zmiennej objaśnianej o 0,0688. Wartość R2 wynosi 0,6946. Jest to dobre dopasowanie modelu do danych empirycznych. Linia trendu pokazuje, że im więcej ludności w wieku produkcyjnym tym więcej jest przedsiębiorstw.
Wykres 4. Zależność liczby przedsiębiorstw od gęstości zaludnienia
Na wykresie nr 4, linia trendu pokazuje, że im większa gęstość zaludnienia tym więcej jest działalności gospodarczych. Wartość R2 jest na poziomie 0,5503, świadczy to o słabym dopasowaniu zmiennej objaśniającej do modelu. Postać liniowa zależności pomiędzy danymi wynosi y=38,37+5,1875x. Oznacza to, że im jest większa gęstość zaludnienia, tym więcej jest działalności gospodarczych o 5,1875.
Wykres 5. Zależność liczby przedsiębiorstw od odległości do dużego miasta.
Wykres nr 5, pokazuje linię trendu z której wynika, że im większa odległość do dużego miasta tym mniej jest działalności gospodarczych. Wartość R2 wynosi 0,0227, wskazuje na bardzo słabe dopasowanie modelu do danych empirycznych. Postać liniowa zależności pomiędzy danymi wynosi y=557,71-4,9177x. Interpretujemy, że wraz ze wzrostem zmiennej objaśniającej, spada zmienna objaśniana o 4,9177.
Wykres 6. Zależność liczby przedsiębiorstw od bezrobocia ogółem
Wykres nr 6, obrazuje postać liniową zależności pomiędzy bezrobociem ogółem, a liczbą działalności gospodarczych prowadzonych przez osoby fizyczne y=220,58+25,075x. Interpretujemy, że wzrost zmiennej objaśniającej, powoduje wzrost zmiennej objaśnianej o 25,075. Wartość R2 wynosi 0,082. Jest to bardzo słabe dopasowanie modelu do danych empirycznych. Linia trendu pokazuje, że im większe jest bezrobocie ogółem tym więcej jest działalności gospodarczych.
Wybór postaci funkcji
Do projektu modelowania ekonometrycznego wybrany został model liniowy funkcji.
Poszukujemy zależności w postaci:
gdzie:
Y- zmienna objaśniana
X1,X2,….,Xk – zmienne objaśniające
K – liczba zmiennych objaśnianych
e -składnik losowy
Rozpisując powyższą zależność dla poszczególnych obserwacji otrzymujemy:
…
gdzie:
- N-ta obserwacja zmiennej objaśnianej,
- N-ta obserwacja K-tej zmiennej objaśniającej,
- nieznane losowe składniki (zakłócenia) uwzględniające wpływ nie uwzględnionych w modelu czynników.
Przyjmiemy następujące oznaczenia macierzy:
Estymacja modelu – określenie parametrów funkcji
Zakładamy model postaci:
,
Obliczamy macierz :
Macierz odwrotna:
Obliczamy macierz :
Obliczamy macierz β:
Powyższe dane zostały obliczone za pomocą programu Excel.
Nasz model ma postać : Y= -158,7273+0,0688388*X1
Jednostkowy wzrost liczby ludności ogółem może spowodować wzrost osób fizycznych prowadzących działalność gospodarczą o około 0,069.
Weryfikacja modelu
Współczynnik determinacji oblicza się ze wzoru:
Wartość R2 jest liczbą należącą do przedziału [0:1]. Bliskie jedności R2 wskazują na dobre dopasowanie, natomiast bliskie zera na słabe dopasowanie modelu do danych empirycznych. W praktyce przyjmuje się że model jest dobrze dopasowany, gdy R2 > 0,6.
Współczynnik determinacji mówi, jaka część całkowitej zmienności zmiennej Y jest wyjaśniona przez model.
R2 = 0,86399
Oznacza to, że współczynnik determinacji jest większy od wartości 0,6. Stwierdzamy zatem, że model jest dobrze dopasowany do danych empirycznych. Wybrany przez nas model tłumaczy w 86% zmienność zmiennej Y.
Współczynnik zbieżności oblicza się ze wzoru: Φ 2= 1-R2 i wynosi Φ=0,136. Z obliczeń wnioskujemy, że 0,136 części całkowitej zmienności zmiennej objaśnianej nie została wyjaśniona przez model.
4.2 Weryfikacja statystyczna modelu
Estymator wariancji składnika losowego:
10536,64
Estymator odchylenia standardowego:
102,6481
Współczynnik zmienności losowej:
V = 0,2229 = 22,29%
Z obliczeń wynika, iż błędy sięgają 22,29 % średniego poziomu Y. Z związku z czym można stwierdzić, że są to małe błędy.
Macierz wariancji oraz kowariancji estymatorów parametrów:
Średnie błędy szacunku parametrów (błędy bezwzględne):
Błąd oszacowania parametru wynosi 50,067, błąd oszacowania parametru wynosi 0,0052.
Średni błąd względny szacunku k-tego parametru:
Dla$\left| \frac{0,336}{1,157} \right|$ $\left| \frac{S(\hat{\beta_{k}})}{\hat{\beta_{k}}} \right|$$\left| \frac{50,06698}{- 158,7273}\ \right|$$\frac{Y^{T}Y - \hat{\beta^{T}}X^{T}Y}{N - K - 1}$*100%= 31,54%
Dla $\left| \frac{0,00516}{0,06884} \right|$*100%= 7,5%
Model ma postać:
Parametry wyznaczone są z następującymi błędami:
z błędem 0,3154
z błędem 0,075
Najdokładniej wyznaczony jest parametr , ponieważ jego błąd względny jest najmniejszy i wynosi 7,5%. Błąd względny parametru wynosi 31,54%.
Stawianie hipotez dla parametrów
β0 β1
H0 : β0 = 0 H0 : β1 = 0
H1 : β00 H1 : β10
α =0,05
t1 − ∝ = t0, 95 = 1,701
Obszar krytyczny:
K=(-∞; -1,701) K=(1,701; +∞)
Wartość statystyki testowej oraz obszary krytyczne:
Wartość statystyki testowej oraz obszary krytyczne dla parametru β0:
T= $\frac{- 158,7273}{50,06698}$ =-3,1703
Wartość statystyki testowej oraz obszary krytyczne dla parametru :
T=$\frac{0,06884}{0,00516}$ = 13,3369
Dla parametrów β0 i β1 wartość statystyki testowej należy do obszaru krytycznego, dlatego w obu przypadkach odrzucamy hipotezy zerowe, uznając za prawdziwe hipotezy alternatywne. Interpretujemy, że liczba ludności ogółem wpływa pozytywnie na osoby fizyczne prowadzące działalność gospodarczą.
Przedziały ufności dla parametrów modelu
Przedziały ufności :
t1-α/2= t0,975=2,048
Dla parametru β0:
[-158,727-2,048*50,067; -158,727+2,048*50,067] = [-261,264; -56,1901]
Dla parametru β1:
[0,0688-2,048*0,0052; 0,0688+2,048*0,0052] = [0,0583; 0,0794]
Z prawdopodobieństwem 95% , . Na podstawie 30-elementowej próby uzyskane przedziały obejmują nieznane wartości β0 i β1 w populacji. W szczególności przedział dla β1 interpretujemy w ten sposób, że jednostkowy wzrost liczby ludności ogółem może spowodować wzrost osób fizycznych prowadzących działalność gospodarczą w granicach 0,06 do 0,08.
Prognozowanie
Celem modelowania jest budowanie prognozy czyli przewidywanie jak badane zjawisko będzie kształtowało się w następnych latach. W naszym modelu będzie to prognozowanie osób fizycznych prowadzących działalność gospodarczą przy założeniu konkretnych zmiennych objaśniających.
Gdy :
Wartość zmiennej objaśniającej X1 wynosi 11 658 to Y= 643,796
Wartość zmiennej objaśniającej X2= 4 485 to Y=150,0149
Wartość zmiennej objaśniającej X3=16 759 to Y=994,9428
PODSUMOWANIE – WYJŚCIE
Statystyki regresji |
---|
Wielokrotność R |
R kwadrat |
Dopasowany R kwadrat |
Błąd standardowy |
Obserwacje |
ANALIZA WARIANCJI |
---|
Regresja |
Resztkowy |
Razem |
Współczynniki | Błąd standardowy | t Stat | Wartość-p | Dolne 95% | Górne 95% | Dolne 95,0% | Górne 95,0% | |
---|---|---|---|---|---|---|---|---|
Przecięcie | -39,03329752 | 83,71890046 | -0,4662424 | 0,645427708 | -212,21904 | 134,152443 | -212,21904 | 134,152443 |
x1 | 0,067895036 | 0,018354661 | 3,69906234 | 0,001184026 | 0,02992553 | 0,10586455 | 0,02992553 | 0,10586455 |
Wnioski
Celem projektu było zbadanie jaki wpływ na liczbę osób fizycznych prowadzących działalność gospodarczą mają czynniki zewnętrzne. W pierwszym etapie konstruowania modelu ekonometrycznego było sześć parametrów, które miały wpływ na liczbę prowadzonych przedsiębiorstw. Z przeprowadzonych obserwacji, analizy ekonometrycznej wynika, iż liczba ta zależy od liczby ludności ogółem w danej gminie. Na podstawie zebranych danych i po przeprowadzeniu obliczeń utworzyłyśmy model w postaci: , który opisuje w 86% liczbę przedsiębiorstw prowadzonych przez osoby fizyczne od liczby ludności ogółem.