mazurkiewicz,Ekonometria L, model ekonometryczny - ceny jabłek w poszczególnych województwach , Ekonometria


EKONOMETRIA

laboratorium

Model ekonometryczny do zagadnienia:

Ceny jabłek w poszczególnych województwach w 2000 roku.

Spis treści:

  1. Specyfikacja zmiennych wraz z gromadzeniem danych

  2. Dobór zmiennych

  3. Wybór klasy modelu

  4. Estymacja parametrów strukturalnych

  5. Weryfikacja modelu

  6. Dopasowanie modelu do danych empirycznych

  7. Istotność poszczególnych współczynników regresji

  8. Własności składników losowych:

    1. Normalność

    2. Autokorelacja

    3. Symetria reszt modelu

    4. Losowość reszt

    5. Homoskedstyczność reszt

IX. Wnioskowanie na podstawie modelu

I. Specyfikacja zmiennych wraz z gromadzeniem danych

Cena jabłek

Kwartał

Województwo

2,69

1

1

2,39

1

2

2,37

1

3

2,76

1

4

2,35

1

5

2,58

1

6

2,55

1

7

2,86

1

8

2,32

1

9

2,34

1

10

2,71

1

11

2,83

1

12

2,4

1

13

2,44

1

14

2,66

1

15

2,7

1

16

1,8

2

1

1,61

2

2

1,67

2

3

1,85

2

4

1,54

2

5

1,93

2

6

1,69

2

7

1,91

2

8

1,73

2

9

1,51

2

10

1,82

2

11

1,97

2

12

1,68

2

13

1,55

2

14

1,9

2

15

1,94

2

16

2,01

3

1

1,73

3

2

1,69

3

3

2,06

3

4

1,93

3

5

1,97

3

6

1,9

3

7

1,95

3

8

1,81

3

9

1,69

3

10

2,08

3

11

2,14

3

12

1,67

3

13

1,8

3

14

2,02

3

15

2,07

3

16

1,93

4

1

1,68

4

2

1,72

4

3

1,92

4

4

1,78

4

5

1,96

4

6

1,98

4

7

1,92

4

8

1,77

4

9

1,6

4

10

2,11

4

11

2,13

4

12

1,65

4

13

1,73

4

14

1,99

4

15

2,02

4

16

Na podstawie możliwości zebrania kompletu danych zostały wyodrębnione następuje potencjalne zmienne objaśniające.

X1

kwartał

X2

województwo

Zostaną one poddane następnie wstępnej weryfikacji.

II. Dobór zmiennych

Do doboru zmiennych wykorzystam metodę tzw. Step back (kroku wstecznego). Polega ona na eliminowaniu po kolei tej zmiennej objaśniającej, która jest najmniej istotna w modelu, aż do momentu, w którym wszystkie pozostałe parametry będą miały poziom ufności wyznaczony na poziomie 0,05, i będą weryfikowane na podstawie wartości p-value (>0,05 będzie oznaczał nieistotność parametru modelu).

Krok 1

PODSUMOWANIE - WYJŚCIE

Statystyki regresji

Wielokrotność R

0,613641474

R kwadrat

0,376555858

Dopasowany R kwadrat

0,356115067

Błąd standardowy

0,285937119

Obserwacje

64

ANALIZA WARIANCJI

 

df

SS

MS

F

Istotność F

Regresja

2

3,012331544

1,506165772

18,42178456

5,5122E-07

Resztkowy

61

4,987362206

0,081760036

Razem

63

7,99969375

 

 

 

 

Współczynniki

Błąd standardowy

t Stat

Wartość-p

Dolne 95%

Przecięcie

2,449125

0,109583326

22,34943118

4,49521E-31

2,229999599

Kwartał

-0,19225

0,031968742

-6,013686783

1,10851E-07

-0,256175449

Województwo

0,006389706

0,007753559

0,824099755

0,413093566

-0,009114493

Na podstawie powyższej tabeli stwierdzam, że parametr „województwo” jest dla modelu nieistotny. Eliminuję zmienną „województwo”, gdyż wartość p- value jest największa.

Krok 2

PODSUMOWANIE - WYJŚCIE

Statystyki regresji

Wielokrotność R

0,621627657

R kwadrat

0,386420944

Dopasowany R kwadrat

0,352333219

Błąd standardowy

0,286316065

Obserwacje

20

ANALIZA WARIANCJI

 

df

SS

MS

F

Istotność F

Regresja

1

0,929296

0,929296

11,336073

0,003434065

Resztkowy

18

1,475584

0,081976889

Razem

19

2,40488

 

 

 

 

Współczynniki

Błąd standardowy

t Stat

Wartość-p

Dolne 95%

Przecięcie

2,456

0,156821767

15,66109121

6,2505E-12

2,126529693

Kwartał

-0,1928

0,057263213

-3,36690853

0,00343406

-0,313105546

błąd względny

82,57%

błąd ex post

182,57%

Tak, więc w wyniku opisanej heurystyki otrzymałem model, który pozostanie poddany zasadniczej statystycznej weryfikacji.

III. Wybór klasy modelu

Skonstruuję model liniowy z jedną zmienną objaśniającą. Model przyjmie postać:

y = α0 + α1x

IV. Estymacja parametrów strukturalnych

0x08 graphic
Wykres zależności y od zmiennej x:

PODSUMOWANIE - WYJŚCIE

Statystyki regresji

Wielokrotność R

0,621627657

R kwadrat

0,386420944

Dopasowany R kwadrat

0,352333219

Błąd standardowy

0,286316065

Obserwacje

20

ANALIZA WARIANCJI

 

df

SS

MS

F

Istotność F

Regresja

1

0,929296

0,929296

11,336073

0,003434065

Resztkowy

18

1,475584

0,081976889

Razem

19

2,40488

 

 

 

 

Współczynniki

Błąd standardowy

t Stat

Wartość-p

Dolne 95%

Przecięcie

2,456

0,156821767

15,66109121

6,2505E-12

2,126529693

Kwartał

-0,1928

0,057263213

-3,36690853

0,00343406

-0,31310555

błąd względny

82,57%

błąd ex post

182,57%

wzór prostej regresji to:

y = - 0,1928 x + 2,456

Został on oszacowany metodą najmniejszych kwadratów wykorzystując arkusz kalkulacyjny excel.

V. Weryfikacja modelu

VI. Dopasowanie modelu do danych empirycznych

Badam dopasowanie modelu do danych rzeczywistych, liczę błąd standardowy składnika losowego równania regresji Se oraz Φ2

0x08 graphic

Se=32968

0x08 graphic

Φ2=0,075

R2=1-Φ2

R2=0,925

Dla formalności sprawdzę współczynnik regresji wykorzystując test F- Snedecora.

Testuję statystyką F-Snedecora

0x08 graphic

H0 : R = 0

H1 : R > 0

dla n = 20, k = 1 i R2 = 0,386, F = 11,336,

wartość krytyczna statystyki wynosi Fkr = 2,978

Istotność F

0,003434065

Wartość P jest znacznie mniejsza od 0,05 stąd stwierdzam, że Fkr < F, więc odrzucam hipotezę H0 na korzyść H1. Wniosek : Współczynnik regresji jest istotny statystycznie.

VII. Istotność poszczególnych współczynników regresji

Sprawdzam, czy zachodzi zależność liniowa między poszczególnymi współczynnikami regresji

testuję statystyką o rozkładzie T-studenta, dla każdego współczynnika osobno:

H0: αi2=0

H1:: αi2<>0

0x08 graphic

Statystyka ta, przy prawdziwości hipotez zerowych ma rozkład t studenta o 18 stopniach swobody

Wyznaczone empirycznie wartości statystyk t studenta wynoszą odpowiednio:

t(α0)=-11,827 wartość p wynosiła 6,25 E - 12

t(α1)=14,9 wartość p wynosiła 0,0034

Tak więc wartość p jest mniejsza niż poziom ufności 0,05. Nie mam podstaw do odrzucenia hipotezy o istotności obu współczynników modelu. Wniosek : Obydwa współczynniki są istotne statystycznie.

VIII. Własności składników losowych:

a) Autokorelacja

Badam, czy istnieje zależność pomiędzy kolejnymi resztami z próby

Autokorelacja rzędu 1 - test Durbina-Watsona

H0: ς(et,et-1)=0

H1: ς(et,et-1)>0

0x08 graphic

et

et-1

(et-et-1)

(et-et-1)^2

et^2

0,4268

0,18215824

0,1268

0,4268

-0,3

0,09

0,01607824

0,1068

0,1268

-0,02

0,0004

0,01140624

0,4968

0,1068

0,39

0,1521

0,24681024

0,0868

0,4968

-0,41

0,1681

0,00753424

-0,2704

0,0868

-0,3572

0,12759184

0,07311616

-0,4604

-0,2704

-0,19

0,0361

0,21196816

-0,4004

-0,4604

0,06

0,0036

0,16032016

-0,2204

-0,4004

0,18

0,0324

0,04857616

-0,5304

-0,2204

-0,31

0,0961

0,28132416

0,1324

-0,5304

0,6628

0,43930384

0,01752976

-0,1476

0,1324

-0,28

0,0784

0,02178576

-0,1876

-0,1476

-0,04

0,0016

0,03519376

0,1824

-0,1876

0,37

0,1369

0,03326976

0,0524

0,1824

-0,13

0,0169

0,00274576

0,2452

0,0524

0,1928

0,03717184

0,06012304

-0,0048

0,2452

-0,25

0,0625

2,304E-05

0,0352

-0,0048

0,04

0,0016

0,00123904

0,2352

0,0352

0,2

0,04

0,05531904

0,0952

0,2352

-0,14

0,0196

0,00906304

Σ

1,54036752

1,475584

d =

1,043903648

r =

0,478048176

Ho:

ς(et,et-1)=0

H1:

ς(et,et-1)>0

n =

20

k =

1

dl =

1.20149

du =

1.41073

Obliczam współczynnik autokorelacji reszt 0x01 graphic
i 0x01 graphic
określony wzorem:

0x01 graphic

r = 0,478

Ponieważ rx > 0 badam możliwość zajścia autoregresji dodatniej. Jednak dl = 1,201 < du = 1,41. Nie mam więc podstaw do odrzucenia hipotezy H0. Wniosek: Nie istnieje autokorelacja rzędu pierwszego.

b) Normalność

Składniki losowe wartości zmiennej objaśniającej mają mieć rozkłady normalne o wartości oczekiwanej zero i stałej wariancji; N(0,δ). Z powodu niewielkiej liczności próby testuję testem Davida Hellwiga

Metoda postępowania:

1. Odcinek [0,1] dzielę na 20 odcinków (gdyż tyle mam obserwacji) o długości 0,05

2. Obliczam wartości dystrybuanty hipotetycznej dla wszystkich wartości reszt modelu

3. Sprawdzam do których cel wpadają te wartości

Obserwacja

Składniki resztowe

Std. składniki resztowe

Rozkład normalny

nr celi

1

0,4268

1,531507904

0,937178043

19

2

0,1268

0,455002817

0,675446394

14

3

0,1068

0,383235811

0,649227536

13

4

0,4968

1,782692424

0,962681807

20

5

0,0868

0,311468805

0,622277873

13

6

-0,2704

-0,970289919

0,165951001

4

7

-0,4604

-1,652076474

0,049259481

1

8

-0,4004

-1,436775456

0,075390903

2

9

-0,2204

-0,790872404

0,214509227

5

10

-0,5304

-1,903260994

0,028503249

1

11

0,1324

0,475097578

0,682641288

14

12

-0,1476

-0,529640503

0,298180603

6

13

-0,1876

-0,673174514

0,250418136

6

14

0,1824

0,654515093

0,743609997

15

15

0,0524

0,188029555

0,574573259

12

16

0,2452

0,879863491

0,810533368

17

17

-0,0048

-0,017224081

0,493128925

10

18

0,0352

0,12630993

0,550256702

12

19

0,2352

0,843979988

0,800659706

17

20

0,0952

0,341610948

0,633678151

13

przedział od

do

cela nr

0

0,05

1

0,05

0,1

2

0,1

0,15

3

0,15

0,2

4

0,2

0,25

5

0,25

0,3

6

0,3

0,35

7

0,35

0,4

8

0,4

0,45

9

0,45

0,5

10

0,5

0,55

11

0,55

0,6

12

0,6

0,65

13

0,65

0,7

14

0,7

0,75

15

0,75

0,8

16

0,8

0,85

17

0,85

0,9

18

0,9

0,95

19

0,95

1

20

Powstaje 13 cel zajętych i 7 wolnych

H0: składniki losowe mają rozkład normalny

H1: składniki losowe nie mają rozkładu normalnego

liczba pustych cel k = 13

poziom istotności α = 0,05

liczba obserwacji n = 20

Odczytałem z tablic testu Hellwiga, że krytyczne liczby pustych cel wynoszą:

K1 = 6 K2 = 13

Nasza liczba pustych cel znajduje się więc pomiędzy tymi wartościami K1 = 6 < k = 8 < K2 = 13. Nie mam więc podstaw do odrzucenia hipotezy H0. Wniosek: Składniki losowe wartości zmiennej objaśniającej mają rozkład normalny o wartości oczekiwanej zero i stałej wariancji; N(0,δ)

c) Symetria reszt modelu

Składniki losowe powinny mieć rozkład normalny symetryczny. Ponieważ reszty mają rozkład normalny, muszą tym bardziej być symetryczne. Dla formalności sprawdzam.

et

< 0

1,531508

1

0,455003

1

0,383236

1

1,782692

1

0,311469

1

-0,97029

0

-1,65208

0

-1,43678

0

-0,79087

0

-1,90326

0

0,475098

1

-0,52964

0

-0,67317

0

0,654515

1

0,18803

1

0,879863

1

-0,01722

0

0,12631

1

0,84398

1

0,341611

1

12 reszt dodatnich 8 ujemnych

Sprawdzianem jest statystyka o rozkładzie t-studenta

H0: p+=1/2

H1:p+<>1/2

0x08 graphic

t = - 0,889

tkr = 2,085

tkr = 2,085 > t = 0 więc nie ma podstaw do odrzucenia hipotezy H0. Wniosek: Składniki losowe faktycznie są symetryczne.

d) Losowość reszt

Reszty modelu muszą być losowe. Sprawdzam je testem na liczbę serii. Porządkujemy reszty według chronologii i dzielę na serie o jednakowych znakach.

X1

et

nr serii

e > 0

1

1,53151

1

1

1

0,455

1

1

1

0,38324

1

1

1

1,78269

1

1

1

0,31147

1

1

2

-0,97029

2

0

2

-1,65208

2

0

2

-1,43678

2

0

2

-0,79087

2

0

2

-1,90326

2

0

3

0,4751

3

1

3

-0,52964

4

0

3

-0,67317

4

0

3

0,65452

5

1

3

0,18803

5

1

4

0,87986

5

1

4

-0,01722

6

0

4

0,12631

7

1

4

0,84398

7

1

4

0,34161

7

1

Z danych otrzymuję wyniki:

serii L = 7

dodatnich reszt 12

ujemnych reszt 8

α = 0,05

Sprawdzam hipotezy:

H0: błąd modelu jest losowy

H1:błąd modelu nie jest losowy

Odczytane z tablic wartości krytyczne wynoszą : 6 i 13. Empiryczna wartość 6 < L = 6 < 13 nie wpada do obszaru krytycznego, nie ma więc podstaw do odrzucenia hipotezy H0. Wniosek : Reszty modelu są losowe.

e) Homoskedastyczność reszt

Powinna istnieć równość wariancji w pod próbach homogenicznych. Testuję testem Goldfelda-Quandta. Dzielę próbę na dwie podgrupy.

0x01 graphic

nr

et

e^2

REGLINW

e-e^

(e-e^)^2

1

1,531507904

2,345516

1,4161588

0,115349

0,013305

2

0,455002817

0,207028

1,050582

-0,59558

0,354715

3

0,383235811

0,14687

0,6850052

-0,30177

0,091065

4

1,782692424

3,177992

0,3194284

1,463264

2,141142

5

0,311468805

0,097013

-0,046148

0,357617

0,12789

6

-0,97028992

0,941463

-0,411725

-0,55856

0,311995

7

-1,65207647

2,729357

-0,777302

-0,87477

0,765231

8

-1,43677546

2,064324

-1,142879

-0,2939

0,086375

9

-0,7908724

0,625479

-1,508455

0,717583

0,514925

10

-1,90326099

3,622402

-1,874032

-0,02923

0,000854

4,407497

Se1^2 =

0,550937

0x01 graphic

Nr

et

e^2

REGLINW

e-e^

(e-e^)^2

1

0,475097578

0,225718

-0,073463

0,548561

0,300919

2

-0,5296405

0,280519

-0,006263

-0,52338

0,273924

3

-0,67317451

0,453164

0,0609367

-0,73411

0,538919

4

0,654515093

0,42839

0,1281367

0,526378

0,277074

5

0,188029555

0,035355

0,1953367

-0,00731

5,34E-05

6

0,879863491

0,77416

0,2625368

0,617327

0,381092

7

-0,01722408

0,000297

0,3297368

-0,34696

0,120382

8

0,12630993

0,015954

0,3969368

-0,27063

0,073239

9

0,843979988

0,712302

0,4641368

0,379843

0,144281

10

0,341610948

0,116698

0,5313368

-0,18973

0,035996

2,145879

Se1^2 =

0,268235

0x01 graphic

Sprawdzianem jest statystyka o rozkładzie F-Snedecora

0x08 graphic

H0: δe12=δe22

H1: δe12=δe22

Empiryczna wartość statystyki wynosi: F = 16,43

Podczas gdy krytyczna wynosi: Fkr = 2,97

F > Fkr, więc muszę odrzucić H0. na korzyść hipotezy H1. Wniosek : Składniki losowe modelu nie są homoskedastyczne.

Podsumowanie :

Model ekonometryczny uznaję za poprawny. Przeszedł on wszystkie założenia Gaussa- Markowa i jest zbudowany zgodnie z metodologią.

IX. Wnioskowanie na podstawie modelu

Na podstawie opisanego modelu, skonstruuję prognozę wartości zmiennej objaśnianej, w miejsce zebranych przeze mnie danych, w celu porównania wyników i ustalenia trafności modelowania.

Cena jabłek

Kwartał

Cena jabłek

Kwartał

2,69

1

2,2632

1

2,39

1

2,2632

1

2,37

1

2,2632

1

2,76

1

2,2632

1

2,35

1

2,2632

1

1,8

2

2,0704

2

1,61

2

2,0704

2

1,67

2

2,0704

2

1,85

2

2,0704

2

1,54

2

2,0704

2

2,01

3

1,8776

3

1,73

3

1,8776

3

1,69

3

1,8776

3

2,06

3

1,8776

3

1,93

3

1,8776

3

1,93

4

1,6848

4

1,68

4

1,6848

4

1,72

4

1,6848

4

1,92

4

1,6848

4

1,78

4

1,6848

4

średnia

1,974

średnia

1,974

S*

0

S*

0

zmienność

18,02%

zmienność

11,20%

Niestety, jak widać, model daleko niedoskonale oddaje rzeczywistość mimo poprawności metodologicznej jego budowy. Zarówno błąd ex post jak i błąd standardowy policzony do wartości Y^ jak i błąd względny prognozy przekracza granicę 10%, co oznacza, że błąd prognozy jest niedopuszczalny. Przypuszczam więc, że zapewne istnieją jeszcze jakieś współczynnik których nie udało mi się zlokalizować. Lub też, może sam proces w ostatnim okresie charakteryzuje się taką dynamiką, że trudno zidentyfikować wszystkie czynniki na niego wpływające.

.















0x01 graphic



Wyszukiwarka