Wykłady z Ekonometrii Opracował: dr Adam Kucharski
2.1 Schemat Gaussa-Markowa
Naturalną tendencją podczas budowy modeli jest dążenie do możliwie najprostszego sposobu opisu zjawiska. Stąd wzięło się częste sięganie po liniową postać regresji jako najlepiej odpowiadającą temu założeniu. Okazuje się, że w sporej liczbie przypadków takie podejście zdaje egzamin. Aby jednak można było użyć MNK do estymacji parametrów modelu liniowego, konieczne jest spełnienie określonych założeń zwanych założeniami schematu Gaussa-Markowa:
1. model jest niezmienniczy ze względu na obserwacje (parametry i postać funkcji nie ulegają zmianie);
2. model jest liniowy względem parametrów1;
3. zmienne objaśniające są nielosowe, a ich wartości są ustalonymi liczbami rzeczywistymi;
4. składnik losowy ma rozkład normalny;
5. wartość oczekiwana składnika losowego jest równa 0 (zakłócenia mają tendencję do wzajemnego znoszenia się);
6. składnik losowy jest sferyczny - macierz wariancji-kowariancji Z)1 (ej) jest diagonalna, o takich samych elementach na przekątnej głównej2;
7. informacje zawarte w próbie są jedynymi, na podstawie których estymuje się parametry modelu;
8. liczba obserwacji powinna być wyższa niż liczba szacowanych parametrów.
Część powyższych założeń dotyczy (wprowadzonego wcześniej) składnika losowego, który stanowi abstrakcyjny sposób wyjaśniania takiego a nie innego zachowania się obserwacji. W konsekwencji nie jesteśmy w stanie poznać składnika wprost, znamy za to jego przybliżenie -resztę z modelu.
Równanie po oszacowaniu (dla przypadku jednej zmiennej objaśniającej) ma postać:
Daszek nad parametrami oznacza, że są to już konkretne wartości, dlatego w równaniu (3) nie występuje składnik losowy. Podstawiając do równania obserwacje jakimi dysponujemy dla zmiennej X otrzymamy wartości Y wynikające z równania (czyli Yi) zwane wartościami teoretycznymi zmiennej objaśnianej. Oczywiście nie będą one dokładnie odpowiadać rzeczywistym realizacjom tej zmiennej, ponieważ większość punktów leży powyżej lub poniżej linii regresji. Występującą w tej sytuacji różnicę:
nazywamy resztą z modelu. Można więc (choć praktykuje się to rzadko) zapisać równanie (3) jako:
Zapis podany w (5) pokazuje, że reszty z modelu (a jest ich tyle ile obserwacji) mogą być traktowane jako przybliżona realizacja składnika losowego. Tak więc nie znamy składnika losowego jako takiego, znamy natomiast reszty, które mają podobne własności.
Należy zauważyć, że model musi być liniowy względem parametrów, ale nie względem zmiennych. Dzięki temu używa się modeli nieliniowych sprowadzanych przy pomocy stosownych przekształceń do postaci liniowej.
Mówimy, że składnik losowy jest homoskedastyczny i nieskorelowany
5 z 26