1. MODEL STATYSTYCZNY - hipoteza lub układ hipotez, sformułowanych w sposób matematyczny (odpowiednio w postaci równania lub układu równań), który przedstawia zasadnicze powiązania występujące pomiędzy rozpatrywanymi zjawiskami rzeczywistymi.
Bardziej formalnie jest to parametryzowana rodzina rozkładów łącznych rozważanych zmiennych, stąd druga nazwa przestrzeń statystyczna.
Modele statystyczne używane w ekonometrii noszą nazwę modeli ekonometrycznych.
3. REGRESJA − metoda statystyczna pozwalająca na badanie związku pomiędzy wielkościami danych i przewidywanie na tej podstawie nieznanych wartości jednych wielkości na podstawie znanych wartości innych.
Formalnie regresja to dowolna metoda statystyczna pozwalającą estymować warunkową wartość oczekiwaną zmiennej losowej, zwanej zmienną objaśnianą[1], dla zadanych wartości innej zmiennej lub wektora zmiennych losowych (tzw. zmiennych objaśniających[1]).
Użycie regresji w praktyce sprowadza się do dwóch faz:
-konstruowanie modelu - budowa tzw. modelu regresyjnego, czyli funkcji opisującej, jak zależy wartość oczekiwana zmiennej objaśnianej od zmiennych objaśniających. Funkcja ta może być zadana nie tylko czystym wzorem matematycznym, ale także całym algorytmem, np. w postaci drzewa regresyjnego, sieci neuronowej, itp.. Model konstruuje się tak, aby jak najlepiej pasował do danych z próby, zawierającej zarówno zmienne objaśniające, jak i objaśniane (tzw. zbiór uczący). Mówiąc o wyliczaniu regresji ma się na myśli tę fazę.
-stosowanie modelu (tzw. scoring) - użycie wyliczonego modelu do danych w których znamy tylko zmienne objaśniające, w celu wyznaczenia wartości oczekiwanej zmiennej objaśnianej.
REGRESJA LINIOWA - w statystyce, metoda estymowania wartości oczekiwanej zmiennej y przy znanych wartościach innej zmiennej lub zmiennych x. Szukana zmienna y jest tradycyjnie nazywana zmienną objaśnianą, lub zależną. Inne zmienne x nazywa się zmiennymi objaśniającymi lub niezależnymi. Zarówno zmienne objaśniane, jak i objaśniające, mogą być wielkościami skalarnymi lub wektorami.
Regresja w ogólności to problem estymacji warunkowej wartości oczekiwanej. Regresja liniowa jest nazywana liniową, gdyż zakładanym modelem zależności między zmiennymi zależnymi, a niezależnymi, jest funkcja liniowa.
Dla jednej zmiennej objaśniającej zagadnienie polega na poprowadzeniu prostej jak najlepiej dopasowanej do zbioru n punktów doświadczalnych . Celem dopasowania jest przede wszystkim uzyskanie ocen wartości parametrów a i b opisujących prostą, oraz ich niepewności u(a) i u(b).
W ogólnym przypadku zadanie prowadzi do estymacji współczynników modelu statystycznego:
gdzie:
y to zmienna objaśniana
xi to zmienne objaśniające
ai to współczynniki modelu
ε to błąd o wartości oczekiwanej zero
Najczęściej wykorzystuje się do tego celu klasyczną metodę najmniejszych kwadratów i jej pochodne. Metoda ta jest najstarsza i najłatwiejsza do zastosowania, choć posiada wady (np. niewielką odporność na elementy odstające), które udało się usunąć w innych, mniej rozpropagowanych metodach.
Wymienić założenia modelu regresji liniowej jednej zmiennej.
a) model jest liniowy względem parametrów a i b , jest niezmienny ze względu na obserwację ( nie zależy od numeru obserwacji) b) zmienna objaśniajaca X jest zmienną nielosową , jej empiryczne wartości
x1,x 2,x n są ustalonymi liczbami rzeczywistymi c) składnik losowy ma rozkład normalny o parametrach (0, δ2) . Rozkład zmiennej losowej t nie zalezy od numeru kolejnej obserwacji t t: N(0, δ2), t= 1,2,..n
Et=0 , Dt= δ2 t=1,2..n d) nie występuje autokorelacja składnika losowego
4. Rozkład prawdopodobieństwa zmiennej objaśniającej jest określony przez tzw. SKLADNIK LOSOWY modelu:
Co nazywamy składnikiem losowym i z czego wynika potrzeba uwzględnienia jego w modelu ekonometrycznym? Składnik losowy obrazuje w danym modelu „zakłócenia ” innymi czynnikami , gdyż równanie wynikające z ilościowego prawa ekonomicznego nie może być prawem absolutnym , gdyż w życiu realnym nie stwierdzamy dokładnego spełnienia założeń modelu , a równość Y=F(x1,x 2,x k) traktujemy jako przybliżoną wartość. Rozwiązaniem jest wprowadzenie do równania zmiennej losowej i założeniu, że rzeczywista zależność miedzy zmiennymi Y(x1,x 2,x k) przedstawia się w równaniu Y=(x1,x 2,x k )
5. CECHA STATYSTYCZNA- właściwość populacji, która jest przedmiotem badania statystycznego. Zgodnie z definicją cecha statystyczna jest to funkcja przypisująca elementom populacji elementy zbioru wartości cechy statystycznej.
W ramach badania statystycznego zbierane są wartości określonej cechy statystycznej nazywane wartościami zaobserwowanymi cechy statystycznej lub DANYMI STATYSTYCZNYMI. Dane te mają taki sam charakter jak cecha (ilościowy, jakościowy itp.), jednakże po przetworzeniu charakter tych danych może ulec degradacji. Zróżnicowanie wartości cechy statystycznej powoduje, że można mówić o jej rozkładzie w populacji.
7. WSPÓŁCZYNNIK REGRESJI to liczba przed zmiennymi objaśniającymi (x), inaczej b. Jeżeli b jest liczbą ujemną, to wraz ze wzrostem y o 1 jednostkę, x maleję o b. I odwrotnie, jeżeli b jest liczbą dodatnią, to wraz ze wzrostem y o 1 jednostkę, to x wzrasta o b.
8.
9. Założenia modelu regresji liniowej (założenia Gaussa-Markowa)
Postać funkcji regresji jest liniowa i stała (jej parametry nie zmieniają się wewnątrz zbioru obserwacji), tzn. relacja między zmiennymi jest stabilna,
Zmienne objaśniające (egzogeniczne) są nielosowe, ich wartości są ustalonymi liczbami rzeczywistymi,
Macierz obserwacji
o wymiarach [n×(k+1)] jest macierzą pełnego rzędu rz(X)=k+1<n, tzn.:
zmienne objaśniające nie są współliniowe, czyli nie występuje między nimi dokładna zależność liniowa oraz
liczba obserwacji przekracza liczbę szacowanych parametrów modelu, tzn. (wraz z poprzednim punktem),
Składnik losowy:
ma rozkład normalny
o średniej równej 0
i stałym odchyleniu standardowym:
,
nie występuje autokorelacja składnika losowego:
dla
,
a także nie występuje korelacja składnika losowego ze zmiennymi objaśniającymi,
Informacje zawarte w próbie są jedynymi informacjami, na podstawie których dokonuje się szacowania (estymacji) parametrów modelu.
Twierdzenie Gaussa i Markowa o estymatorze Metody Najmniejszych Kwadratów (MNK): Jeżeli założenia Klasycznego Modelu Regresji Liniowej (u nas ponumerowane od 1 do 5) są spełnione, to najlepszym (w klasie liniowych i nieobciążonych) estymatorem wektora nieznanych parametrów ၢ jest estymator Metody Najmniejszych Kwadratów dany w tym akurat problemie wzorem: ၢ^=(X'X)-1X'y [o macierzy kowariancji ၳ2(X'X)-1]
10. ESTYMATOR jest statystyką służącą do szacowania wartości parametru rozkładu.
Celem zastosowania estymatora jest znalezienie parametru rozkładu cechy w populacji.
Przykładowo badamy rozkład wzrostu ludności w Polsce. Zakładamy, że rozkład tej cechy X w populacji jest rozkładem normalnym, zaś szukaną wielkością jest wartość oczekiwana m. Wartość m jest zatem szukanym parametrem rozkładu cechy X. W celu oszacowania tych wielkości zbieramy dane z próby losowej o liczebności n. Następnym krokiem będzie znalezienie wygodnej statystyki z próby, która posłuży do oszacowania parametru m. Rolę takiej statystyki może spełniać wartość średnia z próby. Mówimy zatem, że wartość średnia z próby jest estymatorem wartości oczekiwanej rozkładu normalnego. Obliczoną przez nas na podstawie konkretnej próby wartość średnią nazywamy oceną parametru.
11. Istotność zmiennych sprawdzaliśmy w teście statystycznym (Hipoteza 0 - zmienne objaśniające (x) są nieistotne; Hipoteza I - zmienne objaśniające (x) są istotne). Generalnie jeśli x nie należy do przedziału hipotezy zerowej, jest istotny, ponieważ ma wpływ na model.
12.
13. Co nazywamy WSPÓŁCZYNNIKIEM DETERMINACJI w modelu regresji liniowej jednej? O czym informuje ten współczynnik? Współczynnik determinacji R2 jest miernikiem dopasowania zbudowanego modelu do posiadanych danych empirycznych na podstawie których model był zbudowany . R2 informuje jaka cześć zmiennej objaśnianej Y zdeterminowana jast przez zmienna objaśniajacą X Dopasowanie modelu do danych jest tym lepsze , im współczynnik R2 jest bliższy jedności Współczynnik determinacji modelu R2 określa się wzorem:
.
14.
15.
16.
17. ŚREDNI BŁĄD PROGNOZY - Dla prognoz wyznacza się średni błąd prognozy który określa o ile przeciętnie prognozy będą się różnić od rzeczywistych wartości zmiennej prognozowanej w okresie prognozowania.
Rodzaje prognoz:
1) PUNKTOWE
jest liczbą uznaną za najlepszą oceną wartości zmiennej prognozowanej w okresie prognozowanym.
2) PRZEDZIAŁOWE
jest przedziałem liczbowym który z góry zadanym prawdopodobieństwem zawiera nieznana wartość zmiennej prognozowanej w okresie prognozowania
18.
19.
20. Istnienie autokorelacji rzędu I - test DURBINA-WATSONA
; nie występuje autokorelacja (rzędu pierwszego) składnika losowego modelu,
Dla
hipoteza alternatywna formułowana jest w postaci: