2. Proszę przedstawić metodologię ekonometrii.
Metodologia ekonometrii to sposób postępowania przy formułowaniu modelu ekonometrycznego. Następujące kroki: 1. Ustalenie teorii ekonomicznej lub zbioru hipotez, które model ekonomiczny ma potwierdzić lub odrzucić 2.wyznaczenie funkcji matematycznej z dołączonym zaburzeniem losowym 3. Ustalenie zbioru danych statystycznych 4. Estymacja modelu 5. Diagnostyka modelu
3. Proszę wymienić i przedyskutować założenia klasycznego modelu regresji liniowej.
1)model jest liniowy względem parametrów, a nie względem zmiennych objaśniających
liniowość pozwala na korzystanie z prostych metod estymacji. Procedury regresji są dość odporne na niewielkie naruszenie tego założenia. Praktyką powinno być rozpoczęcie analizy regresji od przestudiowania pod kątem liniowości wykresu rozrzutu.
2)liczba obserwacji musi być większa lub równa liczbie oszacowanych parametrów.
Bez spełnienia tego warunku nie jesteśmy w stanie wyznaczyć na podstawie próby oszacowań nieznanych parametrów. W praktyce zależy nam, aby liczba obserwacji była jak największa. Wraz ze wzrostem liczebności próby rośnie precyzja oszacowań parametrów modelu.
3)składnik losowy ma wartość oczekiwana równa zeru.
Czynniki nieuwzględnione w modelu nie oddziałują w istotny sposób na średnia wartość zmiennej zależnej.
4)wariacja składnika losowego jest taka sama dla wszystkich obserwacji Var(Ei)= o- 2
założenie to nosi nazwę homoscedastycznosci i oznacza, ze czynniki nie ujęte w modelu maja taka sama zmienność niezależnie od numeru obserwacji. Jeżeli zalozenie to nie jest spełnione to mówimy, ze mamy do czynienia z heteroscedastycznoscia
5)składniki losowe są nieskorelowane: cov(Ei,Ej)=0 dla i=/ j
założenie to nie jest najczęściej spełnione w regresji szacowanej na szeregu czasowym. Czasami autokorelacja wynika ze źle dobranej postaci funkcyjnej modelu.
6)składnik losowy ma rozkład normalny
uwzględniając trzy poprzednie założenia możemy zapisać E=[E1…En] ` N(0,o-2 1)
niespełnienie tego założenia nie powoduje utraty przez estymatory ich własności, a jedynie niemożliwość weryfikacji hipotez odnośnie parametrów modelu, gdyż odpowiednie statystyki testowe nie mają pożądanych rozkładów. Jednakże analiza regresji jest odporna na niewielkie odstępstwa od tego założenia.
7) żadna ze zmiennych nie dostarcza do modelu informacji, które są zawarte w innych zmiennych.
Jaką rolę spełnia składnik losowy w klasycznym modelu regresji liniowej?
1)Składnik losowy reprezentuje losowe zakłócenia funkcyjnego powiązania między wartościami zmiennej zależnej a wartościami zmiennej niezależnej
2)wyraża wpływ wszystkich czynników, które obok x mogą wpływać na zmienną objaśnianą Y.
3)Składnik losowy pozwala obliczyć dokładność szacunku parametrów liniowej funkcji regresji.
4)Dodanie do równania regresji składnika losowego powoduje, że równanie ma charakter stochastyczny (losowy).
5. Jakie są rodzaje danych statystycznych?
Dane szeregów czasowych- kolejne obserwacje rejestrują badane zjawisko ekonomiczne w następujących po sobie przedziałach czasu (np. stopa inflacji, PKB, zestawiane jako dane roczne, miesięczne lub kwartalne). Są one z reguły danymi zagregowanymi opisującymi przeciętną wartość badanego zjawiska z określonego przedziału czasu.
Dane przekrojowe- obserwacje wielu obiektów dokonywane w tej samej jednostce czasu (np. obserwacja budżetów gospodarstw domowych, GUS obserwuje je np. na terenie całego kraju).Dane te są szczegółowe i uwzględniają różnorodność badanych gospodarstw domowych.
Dane panelowe- łączą cechy danych szeregów czasowych i danych przekrojowych (typowymi danymi panelowymi są panele gosp. domowych. Dla Polski zestawiono panele z lat 1993-1997 i 97-2000 zawierające ok. 3 tys. tych samych gospodarstw badanych przez okresy czteroletnie).
6. Na czym polega liniowość w klasycznym modelu regresji liniowej?
Klasyczny model regresji jest modelem liniowym względem parametrów a nie względem zmiennych objaśniających.. Model jest liniowy względem parametrów jeśli każda z pochodnych cząstkowych zmiennej objaśnianej względem parametrów jest niezależna od wszystkich parametrów modelu. Liniowość względem parametrów to jedno z założeń modelu regresji liniowej. parametry równania muszą być w pierwszej potędze np. Y=β0+βixi+…+βk+ε, i=1,2,3,n.
7. Jaką interpretację mają współczynniki regresji w modelu liniowym względem zmiennych objaśniających?
Parametr beta, stojący przy zmiennej objaśniającej x modelu determinuje wzrost lub spadek (w zależności od znaku jaki stoi przed parametrem) o swoją wartość, wartości funkcji modelu w zależności od przyjmowanego przez zmienną objaśniającą poziomu.
8. Jaką interpretację mają współczynniki regresji w modelu podwójnie logarytmicznym?
W modelu podwójnie logarytmicznym wyznaczamy elastyczność. Elastyczność odpowiada na pytanie: o ile % zmieni się zmienna objaśniana, gdy objaśniająca zmieni się o 1%. Elastyczności mogą być bezpośrednio z modelu, w którym zarówno zmienna objaśniana jak i zmienne objaśniające są logarytmami zmiennych pierwotnych.
Logarytmowanie jest wygodną transformacją ze względu na fakt, że logarytm ilorazu jest w przybliżeniu równy względnej zmianie zmiennej
9. Sformułować twierdzenie Gaussa-Markowa i je zinterpretować.
Twierdzenie brzmi: W klasycznym modelu regresji liniowej najlepszym liniowym i nieobciążonym estymatorem wektora parametrów ß jest b wyznaczone za pomocą MNK b=(X'X)-1X'y o macierzy wariancji-kowariancji Σbb = σ 2 (X'X)-1 Dyskusja twierdzenia: Estymator b jest estymatorem liniowym, gdyż jest liniową funkcją zmiennej losowej y. b jest estymatorem nieobciążonym tzn. E(b)=β więc:
b w powtarzalnych próbach, przy danej macierzy X, jest średnio równy nieznanemu wektorowi parametrów β, nie odchyla się więc od wielkości, którą estymuje. Ze względu na indywidualne zaburzenia losowe różne w różnych próbach, oszacowane b różni się od β, jednak średnio różnice te się znoszą. Jest więc estymatorem nieobciążonym. Estymator b jest najlepszym, tzn. że ma minimalną macierz wariancji-kowariancji wynoszącą
Σbb = σ 2 (X'X)-1 . Dopełnieniem własności estymatorów MNK jest własność zgodności, co oznacza, że dla wzrastającej wielkości próby estymator b jest zbieżny do prawdziwych wartości β w populacji.
10. Co to jest błąd standardowy estymatora? Proszę podać wzór dla przypadku regresji wielorakiej i go zinterpretować.
Standardowy błąd szacunku ( = standardowy błąd estymatora) parametru (czyli standardowy błąd bi ) równy jest jego odchyleniu standardowemu (czyli pierwiastkowi z jego wariancji). Z oznaczenia : . Innymi słowy- błąd standardowy Bi to pierwiastek z i-yego miejsca diagonalnej macierzy Ebb.
Mamy więc:
Standardowy błąd szacynku parametru Bi mówi o ile jednostek wartość Bi rozni się od nieznanej wielkości parametru Bi
11. Na czym polega statystyczna istotność zmiennej objaśniającej?
Wśród hipotez dwustronnych uznajemy hipotezę zerowa postaci
H0: βk=0 i hipotezę alternatywna H 1: βk≠ 0 . odrzucenie hipotezy
zerowej oznacza, że parametr stojący przy k- tej zmiennej objaśniającej jest, jak mówimy „statystycznie różny od zera”, a wiec, że k- ta zmienna jest statystycznie istotna, co oznacza, że wyjaśnia ona zachowanie się zmiennej objaśnianej. (przyjęcie zerowej hipotezy nie wskazuje, że jest ona prawdziwa, gdyż możliwe, że istnieje inna zerowa hipoteza, która jest również zgodna z danymi z próby.
12. Proszę przedyskutować wzór dekompozycji zmienności całkowitej zmiennej objaśnianej y na zmienność wyjaśnioną i niewyjaśnioną.
Z równania dekomponującego zmienność całkowita zmiennej objaśnianej y na zmienność
wyjaśniona równaniem regresji i zmienność resztową (niewyjaśniona) wiemy że:
TSS = ESS+ RSS . Dobroć dopasowania równania regresji (do danych empirycznych) wyrażona jest przez tak zwany współczynnik determinacji oznaczany przez R2.
Współczynnik ten określa jaka cześć zmienności zmiennej objaśnianej y jest wyjaśniona
łącznie przez zmienność wszystkich zmiennych objaśniających x2 …xK .
Zmienność całkowita zmiennej objaśnianej y, TSS. Jeśli model zawiera stała, to całkowita sumę kwadratów możemy zdekomponować na dwa składniki, na wyjaśnioną (równaniem regresji) sumę kwadratów, oznaczana przez ESS i resztową (niewyjaśnioną) sumę kwadratów, oznaczaną przez RSS.
13 Proszę wyprowadzić wzory na współczynnik determinacji i skorygowany współczynnik determinacji oraz podać ich interpretacje?
Współczynnik determinacji oznaczany przez R^ określa jaka cześć zmiennej objaśnianej y jest wyjaśniona przez zmienność wszystkich zmiennych objaśniających. Zmienność całkowitą zmiennej objaśnianej y (TSS), mierzymy za pomocą sumy kwadratów odchyleń obserwacji zmiennej objaśnianej od średniej: TSS=
Jeśli model zawiera stałą, to całkowitą TSS dzielimy na 2 składniki:
- wyjaśnioną sumę kwadratów ESS=
-resztową sumę kwadratów RSS=
R^ przyjmuje wartości z przedziału miedzy 0 i 1. jeśli wynosi ! to funkcja regresji w 100% wyjaśnia zmienność y. Jeśli np. R^ wynosi 0,6 to Można powiedzieć, że 60% zmienności zmiennej objaśnianej y jest wyjaśnione zmiennością wszystkich zmiennych objaśniających łącznie, a 40% zmienności jest niewyjaśnione (jest zmiennością resztową).
Skorygowany współczynnik determinacji R^. współczynnik ten jest skorygowany ze względu na tak zwaną liczbę stopni swobody, to znaczy ze względu na różnicę między liczbą obserwacji n a liczbą zmiennych objaśniających k. Współczynnik R^ zdefiniowany jest następująco:
R^ stosuje się przy szacowaniu kilku modeli z różną liczbą regresorów, gdy dodajemy do równania dalsze regresory to R^ zawsze wzrasta niezależnie od prawdziwej ważności tych zmiennych.
14 proszę omówić zasady wprowadzania do równania regresji regresorów 0-1
Wprowadza się je gdy mamy do czynienia ze zmiennymi jakościowymi zwanymi kategoriami, których wartości nie mogą być przedstawiane za pomocą liczb rzeczywistych np.,: wykształcenie, płeć. Aby do modelu dodać zmienną jakościową o dwóch kategoriach musimy z niej stworzyć kat. 0-1. Aby dołączyć do modelu cechy jakościowe o m kategoriach należy wprowadzić do równania regresji jedynie m-1 zmiennych 0-1, pomijając dowolną z kategorii. Tę pominietą kategorię której zmienna 0-1 przyjmuje wartośc 0 nazywamy kategorią bazową albo referencyjną. Oszacowanie parametru dla zmiennej 0-1 interpretujemy względem jej kategorii referencyjnej.
15jakie są skutki pominięcia w równaniu regresji istotnych zmiennych objaśniających?
Konstruując równanie regresji powinniśmy do niego włączyć wszystkie zmienne objaśniające, które z punktu widzenia teorii ekonomii mogą wyjaśniać zachowanie się zmiennej objaśnianej, a następnie eliminować te z nich które okażą się nieistotne. Pominięcie objaśniających zmiennych istotnych powoduje że estymatory MNK dla istniejących zmiennych są obciążone. Do równania powinniśmy wstawiać wszystkie zmienne nawet gdyby były nieistotne. Usunięcie zmiennych świadczy że zbiór danych do oszacowania modelu nie potwierdza teorii ekonomii
16 co to jest współliniowość? Jakie są symptomy, metody wykrywania i jak można ją przezwyciężyć?
Współliniowość jest cechą zmiennej a nie populacji, w której zmienne są ze sobą zbyt silnie powiązane liniowo. Oznacza ona dokładną lub niemal dokładną liniową zależno (korelację) między regresorami, co utrudnia a czasami uniemożliwia określenie wpływu każdej ze zmiennych objaśniających na zmienną objaśnianą. Współliniowość wywiera negatywny wpływ na oszacowaniu modelu, gdy pojawia się, to estymatory mają zbyt duże błędy standardowe, co zmniejsza precyzję oszacowania.
Symptomy współliniowości:
- współczynniki mają duże błędy standardowe i w związku z tym znaczna liczba regresorów jest nieistotna, nawet wtedy gdy łącznie są one istotne. R^ jest wysokie
- współczynniki mogą mieć niewłaściwe znaki i niedopuszczalną wielkość
- małe zmiany w zbiorze statystycznym mogą prowadzić do znacznych oszacowań współczynników regresji przy niektórych zmiennych.
Przezwyciężyć ja można przez:
- opuszczenie zmiennej
- wprowadzenie dodatkowych regresorów, kwadratów zmiennych pierwotnych
- rozszerzenie zbioru pierwotnych obserwacji o dodatkowe obserwacje
- zastąpienie brakujących informacji średnią średnią arytmetyczną lub średnią ruchomą
- wykrycie obserwacji znaczących, nietypowych wartości zmiennej objaśnianej i obserwacji dźwigniowych dla zmiennych objaśniających. Brak w obserwacjach dźwigniowych ostatniej obserwacji zmienia znacząco rónanie regresji, można przez to uzyskać inny model, ale nie jest on zgodny z danymi
17 co to jest standardowy błąd prognozy i przedzialprognozy?
Błąd standardowy określa o ile średnio różni się prognoza od średniej prognozowanej. Wyrażony jest wzorem:
Gdzie oznacza niezmienną wariancję. -nieobciążony estymator z próby.
Znając standardowy błąd prognozy możemy wyznaczyć przedziałprognozy dla wartości :
Zakladamy że wektor wartości, jakie przyjmują zmienne objaśniające w okresie prognozowanym jest znany badaczowi:
Dla wyznaczenia prognozy znajomośc tego wektora jest niezbędna. Przedział prognozy oznacza prawdopodobieństwo ze zmienna prognozowana znajduje się w przedziale przed prognozowaniem i po prognozowaniu.
18 Na czym polega uogólniona metoda najmniejszych kwadratów?
MNK polega na wyznaczeniu b z warunku minimalizacji sumy kwadratów reszt: e: y-xb
Po podstawieniu za e wyrażenia zapisanego wyżej, po wymnożeniu i przyrównaniu do zera pierwszej pochodnej względem e otrzymamy
X'Xb=X'Y układ równań normalnych
20 proszę przedstawić test Durbina-Watsona i go omówić.
Test D-W stosowany jest do wykrywania autokorelacji pierwszego rzędu, a więc autokorelacji między sąsiednimi zaburzeniami losowymi. Warunkami niezbędnymi do przeprowadzenia tego testu jest występowanie w modelu stałej, rozkład normalny składnika losowego, brak opóźnień zmiennej objaśnianej wśród zmiennych objaśniających.
Etapy:
1)szacujemy za pomocą MNK równanie regresji i wyznaczamy reszty ei
2)obliczamy statystykę d
3)z tablic rozkładu statystyki d dla danej wielkości próby T oraz danej liczby regresorów K znajdujemy dwie wartości: dl oraz du gdzie l oznacza dolną a u górną granicę podziału między którymi znajduje się rzeczywista wartość krytyczna, na ogół podawana dla
4)stawiamy hipoteze zerową p=0 wobez hipotezy alternatywnej p>0
5)jeśli d<dl to odrzucamy hipoteze zerową i pryjmujemy alternatywną. Wystepuje dodatnia korelacja. Jeśli dl<d<du to test jest nierozstrzygnięty. Jeśli d>du to przyjmujemy hipoteze zerową.
Test ten ma wiele wad:
-przedział nierozstrzygnięci testu
- wykrywa tylko korelacje pierwszego rzędu
- jest bardzo czuły na założenie normalności zaburzeń losowych.
19 proszę przedstawic test white'a i go omówić
Test whitea stosujemy gdy nie wiemy jaka zmienna wywołuje heteroscedastycznosc. Stosujemy wtedy gdy nie potrafimy określic zmiennych odpowiedzialnych za wzrost wariancji. Test ten wykrywa również błędną specyfikacje równania, wskazuje że aktualnie zastosowana postać równania regresji jest niepoprawna.
Przedstawienie testu White'a na przykładzie regresji z dwiema zmiennymi objaśniającymi.
Idea tej procedury sprowadza się do uzależnienia wariancji zaburzenia losowego do regresorów, ich kwadratów i iloczynów. Procedura przebiega w następujących krokach:
1) szacujemy za pomocą MNK równanie regresji i wyznaczamy reszty ei
2) wyznaczamy regresję pomocniczą: w której regresorami są zmienne objaśniające równania wyjściowego, ich kwadraty i iloczyny
3) wyznaczamy R^ dla regresji pomocniczej. Statystyka n x R^ ma asymptotyczny rozkład x^ o m-1 stopniach swobody gdzie m jest liczbą regresorów w regresji pomocniczej, co zapisujemy:
4) stawiamy hipotezę zerową:
5) konstruujemy statystykę testującą
6)testowanie hipotezy zerowej: jeśli to odrzucamy hipotezę zerową o homoscedastyczności i przyjmujemy alternatywną ze występuje heteroscedastyczność