9379


Przykład 2 (źródło: Borkowski, [2003], s. 103)

Dane są wartości średniego spożycia owoców, dochody i płeć 12 losowo wybranych osób

Nr

Spożycie owocó (kg)

Dochody (tys. Zł)

Płeć

1

3,8

2,0

Mężczyzna

2

4,7

2,1

Kobieta

3

4,4

1,8

Kobieta

4

5,0

2,7

Kobieta

5

4,1

3,0

Mężczyzna

6

3,7

3,5

Mężczyzna

7

4,9

5,0

Kobieta

8

5,4

4,5

Mężczyzna

9

5,2

4,2

Kobieta

10

4,6

3,8

Mężczyzna

11

4,0

2,4

Mężczyzna

12

3,6

1,4

Mężczyzna

Oznaczmy:

Y - miesięczne spożycie owoców w kg;

X - miesięczne dochody w tys. zł

Z - zmienna zero jedynkowa przyjmująca wartość jeden jeśli badana osoba jest kobietą i zero w pozostałych przypadkach.

Model, który należy oszacować ma postać: Y=α01X+α2Z+ξ

W Excelu wpisujemy dane i uzupełniamy tabelę regresji, tak jak to pokazano na poniższym `rysunku.

Rys 1.: Wpisywanie danych do okna dialogowego Regresji0x01 graphic

Po naciśnięciu OK. w okienku regresji pojawi się następująca ramka z wynikami:

Rys. 2: Wyniki działania opcji Regresja - oszacowania modelu ekonometrycznego0x01 graphic

W kolumnie zatytułowanej Współczynniki (komórka B16 na rys. 2) znajdują się oszacowane parametry strukturalne, pozwalające nam zapisać model następująco:

Y=3,27+0,31X+0,60Z

Wynika z tego, że oszacowane parametry strukturalne są następujące: α0=+3,27, α1=+0,31, α2=+0,60.

Interpretacja parametrów

Przy założeniu, że model jest poprawny (co sprawdzimy za pomocą szeregu statystyk omawianych poniżej), a parametry istotne statystycznie możemy je zinterpretować jako:

α1=0,31 oznacza, że wzrost miesięcznych dochodów o 1 tys. zł powoduje wzrost miesięcznego spożycia owoców o 0,31 kg.

α2=0,60 oznacza, że kobiety spożywają średnio o 0,60 kg owoców więcej od mężczyzn

Wyrazu wolnego α0=3,27 najczęściej nie interpretuje się.

Błąd średni modelu Se

Błąd średni nazywany jest również błędem standardowym (np. w Excelu) lub bardziej fachowo odchyleniem standardowym reszt, lub pierwiastkiem z wariancji resztowej. Błąd ten jest liczony na podstawie wartości odchyleń (reszt et) pomiędzy wartościami teoretycznymi badanego zjawiska (czyli zmiennej objaśnianej 0x01 graphic
, wyliczonej z równania ekonometrycznego), a wartościami empirycznymi, czyli oryginalnymi „igrekami”- yt , które podstawialiśmy do równania przed jego oszacowaniem. Z formalnego punktu widzenia reszty et równania są realizacją składnika losowego ξ i pełnią następującą rolę: uzupełniają prawą stronę równania o taką wartość, jaka jest potrzebna, aby można było postawić znak równości pomiędzy prawą i lewą stroną. Pokażemy to na dotychczasowym przykładzie. Przypomnijmy, że oszacowane równania spożycia owoców ma postać:

Y=3,27+0,31X+0,60Z (Y - spożycie owoców w kg. , X - dochody w tys. zł, Z - płeć konsumenta). Na podstawie oszacowanej funkcji możemy wyliczyć teoretyczne, wynikające z oszacowanego równania spożycie owoców. Sposób tego przeprowadzenia ukazuje rys.3.

Rys. 3. Wyliczenie teoretycznych wartości zmiennej objaśnianej (spożycie owoców)

0x01 graphic

Różnice pomiędzy wartościami empirycznymi yt (w kolumnie B) i wartościami teoretycznymi 0x01 graphic
(kolumna E) stanowią reszty równania et (wyliczone w kolumnie F). Możemy zapisać zatem, że reszty to:

et= yt - 0x01 graphic

Ich wartości znajdują się na rys.4.

Rys. 4. Wartości teoretyczne zmiennej objaśnianej (spożycie owoców)

0x01 graphic

Graficzne odzwierciedlenie reszt przedstawia rys. 5.

Rys. 5. Wykres wartości teoretycznych (linia niebieska) i empirycznych (linia czerwona) w równaniu spożycia owoców 0x01 graphic

Z powyższego rysunku możemy odczytać, że reszty w poszczególnych przypadkach wynoszą:

e1=3.8-3.89=-0.09, e2=4.7-4.52=+0.18, e3=4.4-4.43=-0.03, e4=5-4.71=+0.29,

e5=4.1-4.20=-0.1, e6=3.7-4.36=-0.66, e7=4.9-5.42=-0.52, e8=5.4-4.57=+0.83,

e9=5.2-5.17=+0.03, e10=4.6-4.45=+0.15, e11=4-4.01=-0.01, e11=3.6-3.70=-0.1.

Z powyższych wyliczeń wynika, że w niektórych okresach mamy do czynienia z dużą trafnością modelu, tzn. różnice pomiędzy wartościami empirycznymi i teoretycznymi prawie nie istnieją (błędy są niewielkie), jak w przypadku e3, e9, e11. Istnieją też obserwacje dla których mamy do czynienia z dużą pomyłką modelu, jak np. dla e6, e7, e8. To, ile średnio mylimy się, mówi nam właśnie Se, czyli średni (standardowy) błąd (odchylenie) modelu.

Liczymy go za pomocą następującej formuły: 0x01 graphic

gdzie n jest liczbą obserwacji, a k liczbą szacowanych parametrów.

W naszym modelu (spożycia owoców) n=12, k=3, a błąd średni równania wynosi Se=0.396 (w Excelu jest to komórka B7 zatytułowana Błąd standardowy - por. rys. 2). Wartość ta oznacza, że w modelu spożycia owoców wartości empiryczne odchylają się od teoretycznych o średnio 0.396 kg.. Mówiąc prościej Se=0.396 oznacza, że szacując model spożycia owoców mylimy się średnio o 0.396 kg.

Z powyższej interpretacji wynikają pewne własności Se:

  1. Błąd Se jest wyrażony w jednostkach zmiennej objaśnianej. Fakt ten powoduje jego niewielką porównywalność w stosunku do innych modeli (nie ma możliwości przełożenia błędu rzędu 0.396 kg na błąd rzędu np. 0.396 tys. szt.)

  2. Błąd Se nie mówi o skali zjawiska. Np. w naszym przypadku fakt, że w modelu spożycia owoców mylimy się średnio o 0.396 kg nie pozwala nam stwierdzić, czy to dużo, czy mało. To zależy od skali badanego zjawiska. Jeśli jest nim miesięczne spożycie owoców w wieloosobowej rodzinie, gdzie przeciętnie zjada się ok. 10 kg owoców, to taki błąd byłby niewielki. Jeśli natomiast odniesiemy go do spożycia pojedynczych osób, to taka sama miara może oznaczać zupełnie inną skalę błędu. Aby się o tym przekonać, należy odnieść uzyskaną miarę błędu Se do średniej arytmetycznej badanego zjawiska. W naszym przykładzie średnie spożycie owoców wynosi 0x01 graphic
    =(3.8+4.7+4.4+5+4.1+3.7+4.9+5.4+5.2+4.6+4+3.6)/12=53.4/12=4.45 kg. Błąd Se=0.396 kg stanowi zatem ok. 9% wartości średniej (0.396/4.45≈0.09=9%). Dopiero teraz możemy stwierdzić, czy błąd jest duży, czy mały. W szczególności tak obliczoną miarę możemy porównywać do błędu w innym modelu.

  3. Błąd Se jest miarą nienormowaną, zatem nie można twierdzić, że im niższa wartość błędu, tym lepszy model. Dopiero porównanie błędu ze skalą badanego zjawiska (patrz p. 2) pozwala na tego rodzaju stwierdzenia.

Współczynnik determinacji R2

Współczynnik determinacji mówi nam o stopniu dopasowania modelu do danych empirycznych (a dokładnie jaką część całkowitej zmienności zmiennej objaśnianej stanowi zmienność wyjaśniona przez model). Jest miarą „dobroci” modelu (tzn. wskazuje na ile model jest dobry, a nie zły, jak w przypadku Se).

Współczynnik determinacji R2 określony jest wzorem: 0x01 graphic

W Excelu znajdujemy go w komórce zatytułowanej R kwadrat. W przypadku zadania dotyczącego spożycia owoców wynosi on R2=0.66 (komórka B5 na rys. 2). R2=0,66 oznacza, że całkowita zmienność spożycia owoców została w 66% wyjaśniona przez model. W uproszczeniu możemy powiedzieć, że model w 66% opisuje badane zjawisko.

Własności R2:

  1. R2∈<0;1>

  2. R2 jest niemalejącą funkcją liczby regresorów, co oznacza, że po włączeniu dodatkowej zmiennej do modelu R2 nigdy nie maleje (najczęściej rośnie).

  3. Model jest tym „lepszy” (a dokładnie tym większa jest wyjaśniona modelem zmienność zmiennej objaśnianej) im bliższe 1 jest R2.

  4. R2 jest bardzo wysoki w modelach w których występuje silne skorelowanie zmiennych objaśniających między sobą (efekt katalizy).

Dodatkowo prawidłowe użycie współczynnika R2 wymaga:

  1. Obecności wyrazu wolnego w równaniu (w przeciwnym wypadku należy użyć niescentrowanego współczynnika R2);

  2. Liniowej postaci funkcyjnej;

  3. Oszacowania modelu KMNK.

Ze względu na powyższe własności współczynnika determinacji oraz możliwość porównań dopasowania dwóch modeli różniących się liczbą zmiennych objaśniających, stosuje się skorygowany współczynnik R2.

Skorygowany współczynnik determinacji R2sk

Skorygowany współczynnik determinacji w Excelu nosi nazwę Dopasowany R kwadrat, (komórka B7 na rys. 2). Posiada on identyczną interpretację co zwykły R2, ale nie posiada wszystkich jego własności. R2sk nie zachowuje dwóch pierwszych własności zwykłego R2 a mianowicie:

  1. R2sk może przyjmować wartości ujemne.

  2. Wartość R2sk rośnie jedynie w przypadku wprowadzenia zmiennej mającej istotny wpływ na badane zjawisko. W przeciwnym wypadku (gdy wprowadzamy zmienną nie wywołującą znaczącego przyrostu wyjaśnienia zmienności zmiennej objaśnianej) współczynnik R2sk maleje. Może on zatem być kryterium wyboru modelu dla różnej liczby zmiennych objaśniających.

Błędy średnie estymatorów 0x01 graphic
, czyli oszacowanych parametrów

Nazywane są również odchyleniem standardowym estymatorów (oszacowanych parametrów), lub pierwiastkiem z wariancji estymatorów (patrz komentarz do Se). Błędy te mówią nam o ile średnio mylimy się szacując dany parametr αj.

Aby wyliczyć błąd S(αj) należy znać macierz (xTx)-1, której diagonalne elementy pomnożone przez wariancję resztową Se2 (por. rozdział 5) są wariancjami poszczególnych parametrów. Jeśli zatem macierz wariancji kowariancji estymatorów jako D2(α)= Se2(xTx)-1 , a jej elementy diagonalne jako dij to błąd średni (odchylenie standardowe) estymatora (oszacowanego parametru) zapiszemy jako:

0x01 graphic

W przypadku modelu spożycia owoców otrzymujemy następujące oszacowania parametrów i ich błędy średnie (por. kolumna B i C na rys. 2):

0x01 graphic
=3.27, 0x01 graphic
=0.34

0x01 graphic
=0.31, 0x01 graphic
=0.10

0x01 graphic
=0.60, 0x01 graphic
=0.23

Interpretacja:

0x01 graphic
=0.34, oznacza, że szacując parametr α0 mylimy się średnio o 0.34;

0x01 graphic
=0.10, oznacza, że szacując parametr α0 mylimy się średnio o 0.10;

0x01 graphic
=0.23, oznacza, że szacując parametr α0 mylimy się średnio o 0.23;

Czy to oznacza, że najmniejszym błędem (a zatem największą precyzją szacowania) charakteryzuje się parametr o najmniejszej wartości błędu, czyli 0.10? Oczywiście nie, bowiem wartość błędu parametru trzeba odnieść do wartości tego parametru i dopiero to porównanie pozwala nam stwierdzać precyzję szacowania parametrów. W naszym przypadku błędy parametrów stanowią odpowiednio 10%, 24% i 39% wartości parametrów α0, α1, α2 (0.34/3.27≈0.1=10%; 0.10/0.31≈0.34=34%; 0.23/0.60≈0.39=39%). A zatem to parametr α0 jest oszacowany z najmniejszym błędem (najbardziej precyzyjnie).

Statystyki t-Studenta

Statystyki t-Studenta służą do testowania istotności parametrów i zmiennych włączonych do modelu. Poniżej zaprezentowany test jest statystycznym narzędziem podejmowania decyzji co do istotności wpływu uwzględnionych w równaniu czynników na zmienną objaśnianą. Wnioskowanie o istotności zmiennych odbywa się pośrednio: poprzez wnioskowanie o istotności parametrów. W tym celu stawiamy następujący zespół hipotez:

H0: αj=0 (nieistotność statystyczna)

H1: αj≠0 (istotność statystyczna)

Ten zespół hipotez weryfikujemy za pomocą statystyki t postaci: 0x01 graphic
, mającej rozkład t-Studenta. Następnie należy wybrać właściwą wartość krytyczną rozkładu t-Studenta: tkr, którą odczytujemy dla: odpowiedniego poziomu istotności (jest to przeciwieństwo poziomu prawdopodobieństwa wnioskowania - poziomu ufności, najczęściej 0.05, czemu odpowiada 95% prawdopodobieństwo testu);

Decyzja o istotności lub jej braku jest następująca:

W Excelu wartość krytyczną odczytujemy wybierając odpowiednią funkcję o nazwie ROZKŁAD.T.ODW, gdzie należy wpisać Prawdopodobieństo oraz Stopnie_swobody- patrz rys. 6.

Rys. 6. Generowanie wartości krytycznej rozkładu t-Studenta

0x01 graphic

W naszym przykładzie wpisujemy prawdopodobieństwo: 0.05 oraz liczbę stopni swobody: 9 i otrzymujemy wartość krytyczną tkr=2.26.

Wartości statystyk t-Studenta dla kolejnych parametrów podaje kolumna D na rysunku 2. Są one następujące: tα0=0x01 graphic
=9.66, tα1=0x01 graphic
=2.96, tα0=0x01 graphic
=2.59.

Ponieważ tα0=9.66>2.26=tkr zatem parametr α0 ma istotny wpływ na badane zjawisko (spożycie owoców).

Ponieważ tα1=2.96>2.26=tkr zatem parametr α1 ma istotny wpływ na badane zjawisko (spożycie owoców).

Ponieważ tα2=2.59>2.26=tkr zatem parametr α1 ma istotny wpływ na badane zjawisko (spożycie owoców).

Ponieważ parametry α1 i α2 są związane z czynnikami determinującymi spożycie owoców, zatem wniosek o ich istotności rozciąga się na wniosek o istotności zmiennych. Możemy zatem stwierdzić, że zarówno dochody, jak i płeć ma istotny wpływ na spożycie owoców.

Przedziały ufności dla parametrów:

Przedziały ufności wyznaczają granice w których znajdą się wartości parametrów z góry określonym prawdopodobieństwem. Wyznaczanie przedziałów ufności nazywane jest również estymacją przedziałową bo zamiast konkretnej, jednej wartości estymatora (oszacowanego parametru) wyznacza się prawdopodobny przedział jego wartości, wg wzoru: αj∈(0x01 graphic
), gdzie:

αj - prawdziwa wartość parametru αj,

0x01 graphic
- estymator (oszacowanie) parametru αj,

tkr - wartość krytyczna rozkładu t- Studenta dla n-k stopni swobody i z góry ustalonym prawdopodobieństwie,

0x01 graphic
- błąd średni estymatora (oszacowania) αj.

Przedziały ufności mówią nam, że przy danym prawdopodobieństwie przedział o podanych krańcach pokryje prawdziwą wartość badanego parametru.

Dla modelu spożycia owoców, otrzymujemy następujące przedziały ufności dla 95% prawdopodobieństwa (kolumny F i G na rys. 2):

α0∈(2.50;4.04), α1∈(0.07;0.54), α2∈(0.08;1.13).

Oznacza to, że:

UWAGA

W Excelu można dowolnie ustalić prawdopodobieństwo przedziału ufności, co spowoduje wyświetlenie się w dwóch ostatnich kolumnach przedziałów dla nowego prawdopodobieństwa. Aby to uczynić należy zaznaczyć pole Poziom ufności (por. rys. 1) i ustawić żądany poziom. Poniżej znajdują się wyniki dla modelu spożycia owoców wraz z 99% przedziałami ufności.

Rys. 7. Wyniki regresji równania spożycia owoców z dodatkowym, 99% przedziałem ufności dla parametrów

0x01 graphic

Jak widzimy zwiększenie prawdopodobieńśtwa (lub inaczej mówiąc zmniejszenie poziomu istotności) powoduje rozszerzenie przedziału ufności.

Różnice w znakach reszt wynikające z wyliczania ich jako et= yt - 0x01 graphic
lub jako et= 0x01 graphic
yt - nie mają znaczenia dla dalszych obliczeń w których bierze się pod uwagę albo kwadraty, albo moduły reszt.

Wbrew temu, co podaje Excel należy tutaj wpisać poziom istotności, a nie prawdopodobieństwo, czyli chcąc wnioskować z 90% prawdopodobieństwem, należy wpisać 0.1.

1



Wyszukiwarka

Podobne podstrony:
9379
9379
9379
9379
9379
9379
9379
9379
9379

więcej podobnych podstron