Prof. dr hab. inż. Jan T.Duda Kraków, luty 2009
Katedra Informatyki Stosowanej
WZ AGH, tel. 617-45-06, E_mail: jdu@ia.agh.edu.pl
Ekonometria i statystyczne modelowanie procesów - repetytorium
Materiał dydaktyczny uzupełniający do wykładu z przedmiotów Prognozowanie i symulacje i Ekonometria
1. Przedmiot i narzędzia ekonometrii
Ekonometria - nauka o metodach badania ilościowych prawidłowości występujących w zjawiskach ekonomicznych. Wykorzystuje do tego aparat rachunku prawdopodobieństwa i statystyki matematycznej oraz algebrę liniową (rachunek macierzowy)
Rys.1. Ekonometryczne ujęcie zjawisk ekonomicznych
Ekonometria zajmuje się poszukiwaniem zależności ekonometrycznych f(X) (tj. deterministycznych powiązań ilościowych pomiędzy zmiennymi objaśniającymi i objaśnianymi) oraz analizą probabilistyczną składowej losowej e zmiennych objaśnianych.
Rys.2. Schemat konstruowania modelu ekonometrycznego. Źródło []
Literatura:
Henry Theil: Zasady ekonometrii, PWN, Warszawa, 1979
Zbigniew Pawłowski: Ekonometria, PWN, Warszawa 1969
Edward Nowak: Zarys metod ekonometrii - zbiór zadań, PWN, Warszawa 1994
John Freund Podstawy nowoczesnej statystyki, PWE, Warszawa 1968
G.E.P.Box, G.M.Jenkins: Analiza szeregów czasowych, PWN, Warszawa, 1983
Józef Bielecki, Mirosław Krzysztofiak: Ekonometria
Metody ekonometryczne” - praca zb. pod. Red. Stanisławy Bartosiewicz
2. Podstawowe pojęcia rachunku prawdopodobieństwa
Literatura:
I.E. Brontsztejn, K.A.Siemeindiajew: Matematyka - poradnik encyklopedyczny. Część szósta - Opracowanie danych doświadczalnych,. PWN, Warszawa 1986
Poradnik inżyniera - Matematyka - Rozdziały XXXII i XXXIII
J.Greń: Statystyka matematyczna - modele i zadania, PWN, Warszawa 1982
[MaN81] Mańczak K., Nachorski M.: Komputerowa identyfikacja obiektów dynamicznych. Warszawa, PWN, 1981
Definicje intuicyjne: (Foralnie definicje można znależć np. w Poradniku 2)
Zdarzenie losowe: zdarzenie, którego zajście leży całkowicie lub częściowo poza zasięgiem kontroli.
Definuje się:
iloczyn zdarzeń A i B jako równoczesne wystąpienie zdarzenia A i zdarzenia B; (A*B)
sumę (alternatywę) zdarzeń A, B, jako wystąpienie zdarzenia A lub zdarzenia B. (A+B)
zdarzenie przeciwne do A - zdarzenie zachodzące wtedy gdy A nie zachodzi (~A)
zdarzenie pewne - zachodzi zawsze (np. A+(~A));
zdarzenie niemożliwe - nie zachodzi nigdy (np. A*(~A)); oznaczamy go symbolem ∅
zdarzenia rozłączne A, B - takie, że A*B jest zdarzeniem niemożliwym
Rys.2. Graficzna ilustracja zdarzeń elementarnych i złożonych:
koła- elementarne zdarzenia losowe, całe ramki - wszystkie zdarzenia możliwe
Prawdopodobieństwo zdarzenia - liczba wyrażająca stopień możliwości zachodzenia zdarzenia. Prawdopodobieństwo zdarzenia A czyli P(A) jest równe stosunkowi liczby przypadków sprzyjających zdarzeniu A (nA) do wszystkich przypadków możliwych (n):
Wartość tak zdefiniowanego prawdopodobieństwa ilustrują stosunki pól figur (kół) reprezentujących zdarzenia A, B na rysunkach powyżej, do pola całej ramki E.
Właściwości prawdopodobieństwa:
Jeśli A, B, .. są zdarzeniami rozłącznymi (wykluczają się wzajemnie) to
P(A lub B lub ..)=P(A)+P(B)+.. (patrz rysunek d)
Jeśli E jest zdarzeniem pewnym to
P(E)=1 (patrz rysunek e)
Stąd wynika, że dla dowolnego zdarzenia A
0≤ P(A) ≤ 1
P(nieA)=1-P(A) (patrz rysunek a)
Dla dowolnych zdarzeń A i B
P(A lub B)=P(A)+P(B)-P(A i B) (patrz rysunki b, c)
Prawdopodobieństwo warunkowe i prawdopodobieństwo całkowite:
Mamy dwa zdarzenia losowe A i B. Niech P(B)>0. Jeśli zdarzenia A i B mogą występować równocześnie to można mówić o prawdopodobieństwie zajścia zdarzenia A pod warunkiem, że zaszło zdarzenie B, co oznacza się symbolem P(A|B). W tym przypadku zbiór zdarzeń możliwych redukuje się do zdarzenia B, zatem (zgodnie z rys.2b) mamy:
gdzie
Prawdopodobieństwo warunkowe nazywane jest prawdopodobieństwem a posteriori (po uzyskaniu dodatkowej informacji) i na ogół różni się od P(A) zwanego prawdopodobieństwem a priori (określonym dla dowolnych warunków przy których zachodzi A).
Jeśli w wyniku pewnego doświadczenia losowego realizuje się zawsze jedno z wzajemnie wykluczających się zdarzeń B1, B2, .. BN (tzn. B1+ B2 +.. BN=E oraz B1*B2=∅, Bi*Bk=∅ dla każdej pary zdarzeń Bi, Bk i≠k) to dla dowolnego zdarzenia A zachodzi równość:
Jest to wzór na prawdopodobieństwo całkowite.
Stosuje się go, gdy prawdopodobieństwa warunkowe P(A|Bn) oraz prawdopodobieństwa P(A) albo P(Bn) są łatwe do oszacowania lub znane. Prawdopodobieństwo wystąpienia zdarzenia Bn gdy zaszło zdarzenie A liczy się ze wzoru Bayesa:
Jeśli zdarzenie B nie wpływa na prawdopodobieństwo zdarzenia A to zdarzenia A, B są zdarzeniami niezależnymi. Wówczas obowiązuje zależność:
zatem
Zdarzenia A, B są zatem niezależne, gdy mogą występować w różnych okolicznościach, a ich łączne wystąpienie jest tylko całkowicie przypadkowe. Założenie niezależności zdarzeń jest często wykorzystywane w obliczeniach probabilistycznych. W ekonometrii mamy na ogół do czynienia ze zdarzeniami współzależnymi, ale założenie niezależności pozwala dokonać zgrubnych oszacowań prawdopodobieństw iloczynu zdarzeń.
Zmienne losowe: liczby charakteryzujące rezultat zjawiska losowego
Zmienne losowe dyskretne - liczby losowe ze skończonego lub przeliczalnego zbioru wartości. Na ogół są to liczby całkowite symbolizujące rozważane zdarzenia losowe, zliczające ich krotność itp.
Zmienne losowe ciągłe: liczby rzeczywiste o losowej wartości, charakteryzujące ilościowo zjawiska losowe:
Zdarzenia losowe odniesione do liczb losowych dotyczą wystąpienia określonych wartości zmiennych dyskretnych oraz wystąpienia wartości zmiennych ciągłych w określonych przedziałach.
Prawdopodobieństwa takich zdarzeń charakteryzują rozkłady prawdopodobieństwa zmiennych losowych:
Dystrybuantą rozkładu zmiennej losowej x nazywamy prawdopodobieństwo wystąpienia wartości x mniejszej niż argument dystrybuanty (założona wartość zmiennej) X.
F(X) = P(x < X)
Dystrybuanta posiada następujące cechy:
F(-∞)=0;
F(∞)=1;
jest funkcją lewostronnie ciągłą i niemalejącą, tzn., jeśli X1<X2 to F(X1) ≤ F(X2)
Dystrybuanta zmiennej losowej dyskretnej zmienia się skokowo w punktach odpowiadających kolejnym wartościom zmiennej.
Rozkład prawdopodobieństwa takich zmiennych wygodniej jest charakteryzować podając wprost prawdopodobieństwa wystąpienia poszczególnych wartości p(xi). Nazywa się to krótko rozkładem prawdopodobieństwa zmiennych dyskretnych:
f(x)={p(xi); i=1,2, ...,N}, gdzie N oznacza liczbę możliwych wartości zmiennej x
W przypadku zmiennych losowych ciągłych (dokładnie - absolutnie ciągłych - patrz Poradnik [2]) rozkład opisuje się tzw. funkcją gęstości prawdopodobieństwa f(x), którą definiuje się jako pochodną dystrybuanty względem zmiennej x, tzn. w następujący sposób:
Zgodnie z własnością (3) dystrybuanty funkcja f(x) jest nieujemna
Uwaga !! Funkcja gęstości prawdopodobieństwa zmiennych losowych ciągłych nie określa wprost prawdopodobieństwa, ale pozwala obliczyć prawdopodobieństwo wystąpienia wartości X w zadanym przedziale x1, x2 z wzoru:
Wynika stąd, że
oraz
Parametry rozkładu prawdopodobieństwa jednowymiarowych zmiennych losowych:
Rozkład prawdopodobieństwa zmiennej ciągłej charakteryzuje się przy pomocy parametrów zwanych momentami. Moment i-tego rzędu mi(x) definiuje się następująco:
Moment rzędu zerowego jest zawsze równy 1.
Moment rzędu pierwszego zmiennej X nazywa się wartością oczekiwaną zmiennej losowej X, a operację jego obliczania oznacza się symbolem E{X}.
Wartość oczekiwana jest też nazywana wartością przeciętną zmiennej losowej lub nadzieją matematyczną.
Dla zmiennej losowej ciągłej wartość oczekiwaną wyraża wzór:
Dla zmiennej dyskretnej przyjmującej wartości xi z prawdopodobieństwem pi wartość oczekiwaną oblicza się ze wzoru:
Właściwości wartości oczekiwanej:
Każda ograniczona zmienna losowa ma wartość oczekiwaną.
Wartość oczekiwana kombinacji liniowej zmiennych losowych jest kombinacją liniową ich wartości oczekiwanych
Jeśli x1 i x2 są niezależnymi zmiennymi losowymi to
Zmienna losowa ciągła x będąca odchyłką zmiennej losowej oryginalnej X od jej wartości oczekiwanej m1(X) nazywa się zmienną losową scentrowaną:
Oczywiście E{x}=0
Momenty wyższego rzędu można obliczać dla oryginalnych zmiennych lub scentrowanych. Momenty dla zmiennych scentrowanych nazywa się momentami centralnymi.
Centralny moment rzędu drugiego zmiennej nazywa się wariancją zmiennej
Właściwości wariancji:
Znając pierwszy i drugi moment oryginalnej zmiennej losowej X można obliczyć jej wariancję:
bo:
Jeśli x1, x2 ... xN są niezależnymi zmiennymi losowymi to
Odchyleniem średnim (standardowym) lub dyspersją σ zmiennej losowej nazywamy pierwiastek arytmetyczny z jej wariancji.
Odchyleniem przeciętnym βX zmiennej losowej X nazywamy wartość oczekiwaną modułu scentrowanej zmiennej x
βX=E{|X-E{X}|}
Parametry pozycyjne rozkładu - kwantyle
Kwantylem rzędu p zmiennej losowej x nazywamy taką wartość λp zmiennej, że
P(x ≤ λp) ≥ p P(x ≥ λp) ≥ 1-p
Kwantyl rzędu p=1/2 nazywa się medianą (jest to wartość zmiennej losowej rozdzielająca jej zakres na dwie części o jednakowym prawdopodobieństwie wystąpienia p=0.5.
Kwantyle rzędu p=1/4 i ¾ nazywają się odpowiednio kwantylem górnym i dolnym.
Kwantyle rzędu p=0.1, 0.2 ....0.9 nazywa się decylami.
Zmienną losową o wartości oczekiwanej 0 i wariancji 1 nazywamy zmienną losową standaryzowaną.
Jeśli mamy zmienną losową X o wartości oczekiwanej E(X) i dyspersji σX to odpowiadającą jej zmienną standaryzowaną x uzyskuje się przez przekształcenie
i odwrotnie, mając zmienną standaryzowaną x, np. odczytaną z tablic rozkładu, uzyskuje się zmienną X o zadanej :
Zmienne losowe wielowymiarowe
Jeśli rozważamy kilka zbiorów liczb losowych to mówimy o zmiennej losowej wielowymiarowej. Dystrybuantę zmiennej wielowymiarowej X=[X1, X2, ... XN ] definiuje się jako prawdopodobieństwo zdarzenia polegającego na równoczesnym wystąpieniu wszystkich rozważanych liczb losowych mniejszych od zadanych argumentów dystrybuanty [X1, X2, . XN]
F(X1, X2, ... XN)=P[(x1<X1) i (x2<X2,) ...i (xN<XN)]
Wielowymiarowa zmienna losowa ma rozkład absolutnie ciągły jeśli istnieje taka funkcja f(x1, x2, ... xN ) zwana wielowymiarową gęstością prawdopodobieństwa, że
Zmienne losowe X1, X2, ... XN są niezależne, jeśli ich łączna dystrybuanta jest iloczynem dystrybuant poszczególnych zmiennych:
F(X1, X2, ... XN)=F(x1<X1)*F(x2<X2,)*...*F(xN<XN)
Zmienne losowe absolutnie ciągłe są niezależne, jeśli ich wielowymiarowa funkcja gęstości prawdopodobieństwa jest iloczynem funkcji gęstości dla poszczególnych zmiennych:
Rozkłady brzegowe i warunkowe zmiennych losowych wielowymiarowych
Niech f(x, y) oznacza dwuwymiarowy rozkład zmiennych x, y.
Rozkładami brzegowymi są funkcje:
Oczywiście, obie spełniają warunek podstawowy:
i
Rozkładami warunkowymi są natomiast funkcje:
oraz
Kowariancja zmiennych losowych X, Y - wartość oczekiwana iloczynu scentrowanych zmiennych x, y:
cov(X,Y)=E{x⋅y}=
Współczynnik korelacji ρXY zmiennych X i Y to ich kowariancja przeliczona do zakr. [-1, 1]
ρXY=cov(X,Y)/(σx⋅σy)
Współczynnik korelacji przyjmuje wartość 0 gdy zmienne X, Y są niezależne i wartość ±1
gdy są one zależne liniowo (ale tylko liniowo np. X=a+bY, a, b stałe);
Wynika to z następujących rachunków:
cov(X⋅Y)=E{a⋅Y+b⋅Y2}-E{Y}⋅E{X}=a⋅E{Y}+b⋅E{Y2}-E{Y}⋅[a+b⋅E{Y}]=
=b⋅{E{Y2}-[E{Y}]2}=b⋅σ2Y
σ2X=E{(a+b⋅Y)2}-[E{a+b⋅Y}]2=E{a2+2a⋅bY+b2⋅Y2}-[a+b⋅E{Y}]2=
=a2+2a⋅b⋅E{Y}+b2⋅E{Y2}-a2-2a⋅b⋅E{Y}-b2⋅[E{Y}]2=b2⋅{E{Y2}- [E{Y}]2}=b2⋅σY2
Zatem σX⋅σY=|b|⋅σY, czyli
ρXY=cov(X⋅Y)/(σX⋅σY)=b/|b|= ±1
UWAGA !!
Niezerowe, a nawet wysokie wartości współczynnika korelacji dwóch zmiennych losowych nie muszą oznaczać związku przyczynowo-skutkowego między nimi, a jedynie współzależność stochastyczną, czyli istnienie wspólnych przyczyn dla obu zjawisk
Procesy stochastyczne
Procesem stochastycznym nazywa się zmienną losową sparametryzowaną czasem (ogólnie - dowolną zmienną skalarną).
Z=(X,t)=Xt
Oznacza to, że każdej chwili czasu to przypisuje się zbiór zmiennych losowych Xto (zwany zbiorem możliwych realizacji procesu Z w chwili to), z jego wartością oczekiwaną E(Xto) i rozkładem prawdopodobieństwa f(Xto).
Proces stochastyczny jest zatem szczególnym przypadkiem wielowymiarowej zmiennej losowej i można dla niego definiować wielowymiarowe rozkłady prawdopodobieństwa f(Xto, Xt1, .. , XtN ), a także kowariancje cov(Xto, Xt1) odpowiadające różnym to, t1 (zwane autokowariancjami lub funkcjami korelacyjnymi). Określa się je identycznie jak dla wielowymiarowych zmiennych losowych. Współczynnik korelacji odpowiadający dwóm różnym wartościom t, nazywa się współczynnikiem autokorelacji procesu.
Ważną klasą procesów stochastycznych są procesy stacjonarne.
Proces stochastyczny jest stacjonarny w węższym sensie jeśli wszystkie jego rozkłady prawdopodobieństwa nie zależą od czasu, a jedynie od różnic wartości to, t1, .. , tN dla których są definiowane.
Zatem jednowymiarowe rozkłady prawdopodobieństwa zmiennych Xt dla kolejnych t są identyczne, czyli f(Xt)=f(X), a rozkłady dwuwymiarowe f(Xt1, Xt2) zależą tylko od różnicy czasów τ=t2-t1, tzn. f(Xt1, Xt2) = f(X, τ).
Także autokowariancja i współczynnik autokorelacji zależą tylko od τ. Nazywa się je funkcją korelacyjną KX(τ) i funkcją autokorelacji r(τ)
czyli
gdzie xt oznacza proces scentrowany (tj. E{x}=0).
Wartość funkcji autokorelacji w zerze wynosi zawsze 1, r(0)=1
Proces stochastyczny jest stacjonarny w szerszym sensie jeśli istnieje jego wartość oczekiwana i jest ona stała w czasie, a funkcje korelacyjne zależą tylko od przesunięcia czasu τ (nie zależą od wartości to, t1):
mX(t)=E{Xt}=mX=const
KX(t1, t2)=E{xt1⋅xt2}=KX(τ)
Zatem procesy stochastyczne stacjonarne mają stałą wartość oczekiwaną, a relacje probabilistyczne między ich wartościami w różnych chwilach czasu są określone (deterministycznie) przez funkcję autokorelacji r(τ).
Mówimy, że funkcja autokorelacji opisuje właściwości dynamiczne procesu stochastycznego stacjonarnego, natomiast jego właściwości chwilowe (statyczne) charakteryzuje funkcja gęstości prawdopodobieństwa, czyli rozkład prawdopodobieństwa
Im wolniej maleje funkcja autokorelacji, tym mniej losowe są zmiany w czasie procesu, tzn. zmiany te są powodowane głównie wewnętrzną inercją procesu, a nie czynnikami losowymi.
Transformata Fouriera funkcji autokorelacji nazywa się funkcją gęstości widmowej mocy procesu lub spektrum procesu
UWAGA:
Funkcje analogiczne jak funkcja korelacyjna mogą być definiowane dla dwu różnych procesów stochastycznych stacjonarnych przesuniętych względem siebie w czasie.
Modelowe rozkłady prawdopodobieństwa
Szereg zjawisk losowych można opisać rozkładami prawdopodobieństwa, których gęstości są stosunkowo prostymi funkcjami analitycznymi zmiennej losowej.
Modelowe rozkłady prawdopodobieństwa dla zmiennych dyskretnych (I.E. Brontsztejn, K.A.Siemeindiajew: Matematyka - poradnik encyklopedyczny. Część szósta - Opracowanie danych doświadczalnych,. PWN, Warszawa 1986, str.782)
Rozważmy zdarzenie losowe (zwane sukcesem) występujące w pewnym procesie losowym ze stałym prawdopodobieństwem p>0. Prawdopodobieństwo nie wystąpienia sukcesu wynosi (1-p).
Jeśli przeprowadzimy n niezależnych doświadczeń, to liczba sukcesów Sn jest liczbą losową o rozkładzie dwumianowym:
wartość oczekiwana E{Sn}=n⋅p; wariancja
=n⋅p⋅(1-p)
Prawdopodobieństwo łącznej liczby wystąpień X pewnego rzadkiego zdarzenia (o małym prawdopodobieństwie) oblicza się z rozkładu Poissona, który jest przybliżeniem rozkładu dwumianowego dla
i
ale tak, że
.
wartość oczekiwana E{X}= λ; wariancja
Rozkład ten jest w praktyce stosowalny już dla n rzędu kilkudziesięciu, przy λ<10.
Przykładem zmiennej X może być liczba klientów zainteresowanych - w pewnym przedziale czasu - luksusowym artykułem w sklepie odwiedzanym przez wielu klientów zainteresowanych na ogół innymi artykułami (np. w kiosku). Można go wykorzystać do oceny opłacalności zamawiania takich artykułów.
Rozważmy sytuację jak w (1), ale gdy interesuje nas prawdopodobieństwo zdarzenia polegającego na wystąpieniu serii k sukcesów, po których następuje brak sukcesu. Zakładając niezależność kolejnych prób uzyskuje się wyrażenie zwane rozkładem geometrycznym dyskretnej zmiennej losowej X wyrażającej długość serii niezależnych sukcesów o jednakowym prawdopodobieństwie wystąpienia:
wartość oczekiwana
; wariancja
Modelowe rozkłady prawdopodobieństwa dla zmiennych ciągłych (I.E. Brontsztejn, K.A.Siemeindiajew: Matematyka - poradnik encyklopedyczny. Część szósta - Opracowanie danych doświadczalnych,. PWN, Warszawa 1986, str.783 i dalsze)
Rozkład wykładniczy określa rozstęp czasowy x pomiędzy wystąpieniami zdarzenia którego prawdopodobieństwo zależy tylko od przedziału czasu w którym się go oczekuje, a nie zależy od czasu trwania procesu losowego (np. czas pomiędzy nadejściem dwu kolejnych klientów, czas pomiędzy awariami urządzenia)
wartość oczekiwana E(x)=1/a; wariancja
Jest to ciągły odpowiednik rozkładu geometrycznego, gdy x=k⋅δt, a=(1-p)/δt, 1-p=a⋅δt, δt≅0. (1-p) - prawdopodobieństwo wystąpienia zdarzenia
Rozkład równomierny ma zmienna losowa x, gdy może przyjmować z tym samym prawdopodobieństwem dowolną wartość z przedziału [a-b, a+b], b>0 i nie występuje poza tym przedziałem:
wartość oczekiwana E{x}=a; wariancja
Rozkład równomierny przypisuje się zmiennym losowym, których wartości są naturalnie ograniczone i wynikają z oddziaływania pewnego czynnika o czysto losowym charakterze i ograniczonej „sile”. Przykładowo, taki rozkład może mieć kwota wydawana przez jednego klienta w małym sklepie spożywczym lub kiosku.
Rozkład normalny czyli rozkład Gaussa: dla zmiennej X o wartości oczekiwanej m=E{X} i dyspersji σ (oznaczany symbolem N(m, σ)):
Dla zmiennej standaryzowanej x rozkład Gaussa N(0, 1) ma postać
i w tej postaci jest on dostępny w tablicach i generatorach liczb
Dystrybuanta rozkładu Gaussa jest funkcją nieanalityczną zapisywaną w postaci:
gdzie erf(x) (error function - funkcja błędu) jest definiowana jako
Wartości funkcji erf(x) dla x=1/
, 2/
, 3/
(czyli w otoczeniu wartości oczekiwanej o szerokości σ, 2⋅σ, 3⋅σ), wynoszą:
erf(1/
)=0.6827=68.3%
erf(2/
)=0.9545=95.5%
erf(3/
)=0.9973=99.7%
erf(4/
)=0.9999=99.99%
Jak widać, zmienne losowe o rozkładzie normalnym praktycznie mieszczą się w zakresie (m-3⋅σ, m+3⋅σ) (z prawdopodobieństwem 99.7%). Jest to tzw. zasada trzech sigm.
UWAGA !!! Wartość erf(x) wylicza w MATLABie funkcja o nazwie erf()
Rys. 3. Rozkład Gaussa N(0,1) dla standaryzowanej zmiennej losowej x
UZUPEŁNIENIE: Zasada trzech sigm stosuje się dla liczb losowych o dowolnym rozkładzie.
Ujmuje to ogólnie nierówność Czebyszewa. Niech x oznacza zmienną losową o dowolnym rozkładzie z ograniczoną wartością oczekiwaną E(x) i ograniczoną wariancją σ2. Wówczas
Zatem, dowolna zmienna losowa mieści się w zakresie trzech sigm z prawdopodobieństwem co najmniej 90%.
Rozkład normalny mają zmienne losowe, których wartości są zależne od wielu czynników, przy czym każdy z nich indywidualnie ma mały wpływ na tę wartość. Z taką sytuacją mamy bardzo często do czynienia w praktyce, w tym również w ekonometrii, dlatego rozkład normalny odgrywa bardzo ważną rolę w zastosowaniach rachunku prawdopodobieństwa i w statystyce matematycznej.
Formalnie ujmują to tzw. twierdzenia graniczne (patrz I.E. Brontsztejn, K.A.Siemeindiajew: Matematyka - poradnik encyklopedyczny. Część szósta - Opracowanie danych doświadczalnych,. PWN, Warszawa 1986, Poradnik inżyniera - Matematyka - Rozdział XXXII).
1. Twierdzenie Lindberga-Leviego: Niech x1, x2, x3, ... xn, będzie ciągiem niezależnych zmiennych losowych, o jednakowym rozkładzie, posiadających wartość oczekiwaną m i wariancję σ2. Wtedy dla każdego rzeczywistego X spełniona jest relacja:
Oznacza to, że suma n takich zmiennych przy dużej liczbie składników n ma rozkład zbliżony do normalnego z wariancją równą n⋅σ2 i wartością oczekiwaną równą n⋅m.
Można pokazać, że jeśli liczby x1, x2, x3, ... xn mają rozkład równomierny to już dla n zbliżonych do 10 uzyskuje się praktycznie rozkład normalny.
2. Twierdzenie Lapunowa mówi, że suma zmiennych x1, x2, x3, ... xn zmierza do rozkładu normalnego także wówczas, gdy mają one różne rozkłady, różne wartości oczekiwane mk i wariancje
, ale muszą mieć odpowiednio silnie ograniczone momenty centralne rzędu trzeciego bk=E(|xk-mk|3), tak aby spełniony był następujący warunek:
;
gdzie
jest dyspersją sumy zmiennych.
Wartość oczekiwana m rozkładu sumy takich liczb jest oczywiście sumą mk dla k=1, 2, ..n.
Z powyższego wynika, że suma niezależnych zmiennych losowych o dowolnych symetrycznych rozkładach (czyli o zerowych bk, ale posiadających ograniczone wartości oczekiwane i ograniczone wariancje), zmierza do rozkładu normalnego. Oczywiście, zbieżność jest w tym przypadku wolniejsza niż dla liczb z Twierdzenia Lindberga-Leviego.
3.Lokalne twierdzenie graniczne Moivre'a-Laplace'a: Rozkład dwumianowy o ustalonym prawdopodobieństwie sukcesu p zmierza do rozkładu normalnego, gdy liczba prób n rośnie do nieskończoności.
Liczbę sukcesów Sn w takiej sytuacji można obliczać jako zmienną losową (ciągłą) o rozkładzie normalnym z wartością oczekiwaną m=n⋅p i wariancją σ2= n⋅p⋅(1-p). Formalnie zapisuje się to w postaci:
Twierdzenie to stosuje się już dla n rzędu kilkudziesięciu. Pozwala ono oszacować przedziały np. liczby sztuk Sn pewnego artykułu (o stałym popycie) sprzedanych w ciągu dnia, z wykorzystaniem tablic funkcji błędu erf(x) pakietu MATLAB,
gdzie
; d - promień przedziału Sn wokół wartości oczekiwanej m=n⋅p.
Przykładowo, dla p=0.02 i n=50 (jeden dzień) mamy E{Sn}=1, σSn=0.99, co daje P(Sn∈[0,2])≅0.68.
Dla n=300 (tydzień) mamy E{Sn}=6, σSn=2.43, co daje P(Sn∈[4,8])≅0.59 oraz P(Sn∈[0,12])≅0.986, czyli, że sprzedaż tygodniowa praktycznie nie przekroczy 12 sztuk.
W analizie danych wykorzystuje się prawa wielkich liczb.
Prawo wielkich liczb Chinczyna (Poradnik inżyniera - Matematyka str.1072)
Niech x1, x2, x3, ... xn oznacza ciąg niezależnych liczb losowych o jednakowym rozkładzie i ograniczonej wartości oczekiwanej E(x)=m. Wtedy dla dowolnej liczby dodatniej ε zachodzi równość:
Jeśli dodatkowo niezależne liczby losowe x mają skończoną wariancję to słuszne jest
mocne prawo wielkich liczb, które mówi, że średnia arytmetyczna ciągu niezależnych liczb losowych o ograniczonej wartości oczekiwanej i wariancji zmierza z prawdopodobieństwem 1 do ich wartości oczekiwanej.
3.4. Inne przydatne rozkłady teoretyczne
Rozkład logistyczny (Smiths [14])
(R1)
Rozkład 2 o k stopniach swobody
(R2)
Rozkład t-Studenta [Gór97]:
(R3)
gdzie l>0 jest parametrem całkowitym (liczbą stopni swobody), ( - funkcją gamma Eulera.
σ2=l/(l-2) (???); m=0
Skalowany rozkład x-Studenta [14]:
>2 (R4)
Rozkład potęgowo-wykładniczy [14]
(R1)
m- średnia, parametr rozrzutu, - parametr kształtu (=0 - rozkład normalny, -1< <1)
;
dla =0 σ2 =2
ELEMENTY STATYSTYKI MATEMATYCZNEJ
Literatura:
J.Greń: Statystyka matematyczna - modele i zadania, PWN, Warszawa 1982
"Ekonometria. Metody i analiza problemów ekonomicznych". Pod red. K. Jajugi; Wydawnictwo AE we Wrocławiu, Wrocław 1999.
I.E. Brontsztejn, K.A.Siemeindiajew: Matematyka - poradnik encyklopedyczny. Część szósta - Opracowanie danych doświadczalnych,. PWN, Warszawa 1986
Poradnik inżyniera - Matematyka - Rozdział XXXIII
Edward Nowak: Zarys metod ekonometrii - zbiór zadań, PWN, Warszawa 1994
John Freund Podstawy nowoczesnej statystyki, PWE, Warszawa 1968
Pojęcia podstawowe statystyki (wg J.Greń: Statystyka matematyczna)
Metody statystyki stosuje się w ekonometrii w celu badania właściwości probabilistycznych zmiennych ekonometrycznych. Zmienne te reprezentują pewne cechy badanej zbiorowości, czyli populacji generalnej. Poddawane analizie dane (liczby losowe) są widziane jako losowa próba populacji generalnej. Aby wynik badania był miarodajny, należy zadbać o reprezentatywność próby. Uzyskuje się ją przez odpowiedni dobór (losowanie, rejestrację) elementów próby z populacji generalnej.
Losowe wartości cechy w próbie o liczności n traktuje się jako jedną wartość n-wymiarowego wektora losowego. Zbiór wszystkich możliwych wartości tej cechy w próbie o liczności n nazywa się przestrzenią próby.
Rozkład populacji, to rozkład wartości badanej cechy w populacji generalnej. Zwykle zakłada się, że rozkład populacji jest zbliżony do pewnego rozkładu modelowego (patrz poprzedni rozdział).
Na podstawie zebranych danych losowych można obliczać statystyki z próby, czyli dowolne funkcje zebranych zmiennych losowych. Statystyki są także zmiennymi losowymi.
Takimi statystykami mogą być zależności pozwalające na oszacowanie parametrów rozkładów prawdopodobieństwa badanych cech populacji generalnej. Nazywa się je estymatorami parametrów rozkładów. Wynikiem zastosowania estymatora jest estymata poszukiwanego parametru rozkładu.
Estymator nieobciążony - estymator a pewnego parametru α spełniający równość E{a}= α, co oznacza, że estymator szacuje wartość α bez błędu systematycznego, a więc pozwala znaleźć faktyczną wartość parametru.
Estymator zgodny - estymator a pewnego parametru α spełniający warunek:
tzn, estymator, który jest stochastycznie zbieżny do wartości parametru. Gdy używa się estymatora zgodnego, to zwiększanie liczności próby zmniejsza błąd estymacji.
Ogólnie, estymator zgodny może być obciążony, a estymator nieobciążony może nie być zgodny.
Estymator efektywny - estymator o możliwie małej wariancji.
Badania statystyczne zmiennych ekonometrycznych obejmują:
analizę losowości zmiennych i określenie ich rozkładu prawdopodobieństwa;
obliczanie czyli estymację parametrów tych rozkładów;
weryfikację hipotez statystycznych dotyczących rozkładów populacji generalnej
Analiza losowości zmiennych i określenie ich rozkładu prawdopodobieństwa
Podstawowe estymatory rozkładów zmiennych losowych
1. Zgodnie z prawem wielkich liczb, jeśli cecha x populacji generalnej jest zmienną losową o ograniczonej wariancji σ2 i ograniczonej wartości oczekiwanej m, a ciąg wartości x1, x2, ...xn tej cechy w próbie jest ciągiem niezależnych liczb losowych, to estymatorem zgodnym, nieobciążonym i najefektywniejszym wartości m=E(x) jest jej średnia arytetyczna:
E{x}=m ≅
Średnia arytmetyczna liczb o rozkładzie normalnym ma rozkład normalny o wartości oczekiwanej m (takiej jak liczby uśredniane) i wariancji
Jeśli uśredniane liczby mają rozkład inny niż normalny to rozkład średniej arytmetycznej zmierza (dla n zmierzającego do nieskończoności) do rozkładu normalnego
(patrz Twierdzenie Lindberga-Leviego)
2. Estymatorem zgodnym, nieobciążonym i najefektywniejszym wariancji cechy x na podstawie ciągu wartości x1, x2, ...xn tej cechy w próbie o własnościach jak wyżej, jest średniokwadratowa odchyłka od wartości średniej obliczana wg wzoru:
Występująca w mianowniku różnica (n-1) powoduje, że estymator jest nieobciążony. Wynika ona z faktu, że dane w liczbie n zostały już wykorzystane do obliczenia wartości średniej. Zatem liczba jeszcze nie wykorzystanych danych wynosi (n-1).
Formalnie można to wykazać wychodząc z zależności:
gdzie M jest nieznanym jeszcze dzielnikiem estymatora.
Ze wzorów podanych w poprzednim rozdziale wynika, że:
,
Po podstawieniu do wzoru wyżej mamy:
Wynika stąd, że aby uzyskać tożsamość, M powinno być równe (n-1).
Dzielenie przez n daje zatem błąd estymatora (obciążenie) jakkolwiek pozostaje on zgodny.
Dla dużych n można ten błąd zaniedbać i dzielić przez n.
Estymata wariancji obliczona jak wyżej dla liczb o rozkładzie normalnym ma rozkład χ2
(chi-kwadrat) - patrz I.E. Brontsztejn, K.A.Siemeindiajew: Matematyka - poradnik encyklopedyczny. Część szósta.
Zmienna losowa ma rozkład 2 o k stopniach swobody, gdy gęstość
wyraża się wzorem
Suma kwadratów N niezależnych liczb losowych o rozkładzie normalnym N(0,1) ma rozkład 2 o N-1 stopniach swobody. Zatem relacja między estymatą s2 a faktyczną wariancją σ2 ma postać:
a przedział ufności dla wariancji σ2 wynosi
4.Estymatorem kowariancji dwóch zmiennych losowych x, y jest wyrażenie:
lub w przybliżeniu (dla dużych n)
Zachodzi równość: Kxy=Kyx
Analogicznie, dla wielowymiarowych zmiennych losowych X=[X1, X2, .. XM], gdzie X1, X2, .. XM są wektorami kolumnowymi (o jednakowej długości) losowych wartości kolejnych cech w próbie, liczy się macierz kowariancji K wg wzoru macierzowego:
gdzie T oznacza transpozycję macierzy,
jest wektorem wierszowym wartości średnich kolejnych wektorów X1, X2, .. XM, , zatem
T (wektor kolumnowy) pomnożony przez
(wektor wierszowy) daje macierz kwadratową o wymiarze MxM, czyli taką jak macierz K.
Jeśli wektory X1, X2, .. XM są wektorami wierszowymi (takie są na ogół produkowane przez procedury pakietu MATLAB), to macierz kowariancji K liczy się wg wzoru:
Macierz kowariancji K jest symetryczna, tzn KT=K
5.Estymator funkcji autokowariancji i autokorelacji
Jeśli ciąg liczb losowych jest uporządkowany wg czasu ich rejestracji, z jednakowym rozstępem czasowym Δt między próbkami, czyli do kolejnych próbek można przypisać czas liczony numerem kolejnym próbki, to ciąg jest reprezentacją dyskretną procesu stochastycznego (albo inaczej - zdyskretyzowanym procesem stochastycznym).
Jeśli badany proces stochastyczny jest stacjonarny, to estymator jego funkcji autokowariancji z rozstępem m (czyli z rozstępem czasowym τ=m⋅Δt) ma postać
Funkcję autokowariancji liczy się na ogół dla wystarczająco długich ciągów, aby można było zastosować wzór:
Jeśli ciąg x1, x2, ...xn jest ciągiem niezależnych liczb losowych reprezentujących stacjonarny proces stochastyczny, to
Estymatorem unormowanej funkcji autokowariancji (czyli autokorelacji) rxn(m) jest wyrażenie
Dyskusje ocen autokowariancji ciągu rnm dla kolejnych m zawiera podręcznik [Mańczak Nahorski] str.66. Dla dużych n i dużych m mamy:
ρm - prawdziwa wartość funkcji
Stąd wynika oszacowanie wariancji rm
(i)
Jeśli proces xi jest liniowy i spełnia warunki:
to wielowymiarowy rozkład zmiennych
.
Dla dużych n istotność funkcji autokorelacji można badać metodą Boxa:
Zakładamy, że ρ1, ..., ρk są zerowe
obliczamy wariancje rm ze wzoru (i) i sprawdzamy hipotezę j.w. dla m=1
jeśli należy ją odrzucić przyjmujemy ρ1=r1 i sprawdzamy hipotezę dla m=2
w taki sam sposób sprawdzamy dla dalszych m
Szeregi rozdzielcze i estymacja rozkładu prawdopodobieństwa
Histogram
dzielimy przedział zmienności zbioru liczb x na pewną liczbę m podprzedziałów o szerokości Δxi. i grupujemy liczby w klasy takie, aby w i-tej klasie znalazły się wszystkie liczby xk ∈(
Należy przy tym tak dobrać liczbę klas lub ich szerokości, aby w każdej klasie znalazło się co najmniej 10 liczb Uzyskuje się w ten sposób szereg rozdzielczy zmiennej x.
dla każdego przedziału liczymy wysokość słupka histogramu pi wg wzoru:
Wartość pi jest estymatą prawdopodobieństwa Pi{x ∈(
}
robimy wykres słupkowy wartości pi względem
i uzyskujemy histogram.
Na tle histogramu wskazane jest wykreślenie przypuszczalnego rozkładu teoretycznego (lub zestawu rozkładów) populacji generalnej, z parametrami E(x) oraz s2 obliczonymi jak wyżej.
Jeśli danych jest wystarczająco dużo, najwygodniej jest przyjąć stałą szerokość klas szeregu rozdzielczego. Można do tego wykorzystać funkcję hist(x,k) z pakietu MATLAB. Tworzy ona szereg rozdzielczy wektora x z liczbą przedziałów k, a następnie wykreśla histogram dla liczności ni próbek w podprzedziałach (a nie dla pi jak zalecono w punkcie b)
Histogram można wykonać dla dowolnego zbioru liczb, ale ma on sens, gdy liczby te są liczbami losowymi. Sam kształt histogramu nie rozstrzyga kwestii losowości danych, jakkolwiek może sugerować, że są lub nie są one losowe. Hipotezę losowości należy przyjąć wcześniej na podstawie analizy przyczyn losowości danych, obecności pewnych oddziaływań deterministycznych, czy wreszcie przypuszczalnego rozkładu prawdopodobieństwa danych. Na ogół dla zmiennych ciągłych rozkład ten winien być zbliżony do normalnego, w pewnych przypadkach - do równomiernego. Stwierdzenie dużych rozbieżności histogramu od takiej hipotezy może być spowodowane:
niejednorodnością próbki, tzn. występowaniem kilku (np. dwóch) klas danych o różnych rozkładach;
zależnością parametrów rozkładu (głównie wartości oczekiwanej) od pewnych czynników nielosowych (np. czasu lub zmiennych egzogenicznych)
W przypadku (a) zbiór danych należy rozdzielić na podzbiory jednorodne statystycznie.
W przypadku (b) należy znaleźć najpierw odpowiednie zależności ekonometryczne badanej zmiennej (endogenicznej) od znanych czynników egzogenicznych, a następnie poddać analizie probabilistycznej odchyłki losowe danych od tych zależności. Będzie to przedmiotem następnego rozdziału opracowania.
Estymacja przedziałowa
Jak, wspomniano, estymaty są liczbami losowymi o określonym rozkładzie scharakteryzowanym dyspersją i wartością oczekiwaną. W związku z tym wynik estymacji można przedstawić jako estymatę wartości oczekiwanej parametru oraz przedział, w którym z zadanym prawdopodobieństwem - zwanym poziomem ufności - mieści się prawdziwa wartość parametru. Przedział taki nazywa się przedziałem ufności, sam sposób postępowania - estymacją przedziałową.
Zwykle podaje się przedział ufności o szerokości 1⋅σ, 2⋅σ lub 3⋅σ. Dla rozkładu normalnego estymatora odpowiada to poziomowi ufności odpowiednio: 68.3%, 95.5% i 99.7%
Zgodność histogramu z założonym rozkładem prawdopodobieństwa testuje się m.in. przy pomocy statystyki 2 (kryterium 2 Pearsona).
Niech F(x) oznacza założoną (teoretyczną) dystrybuantę zmiennej losowej x, f(x) - funkcję gęstości prawdopodobieństwa, 1, 1, ..., j, ..., L ciąg rozłącznych przedziałów histogramu o wartości średniej xj, nj - liczbę danych w j-tym przedziale. Wówczas, dla N→∞ statystyka
ma rozkład 2 o L-2 stopniach swobody. W praktyce wystarcza, aby minj N f(x)j>10.
Wynika to z faktu, że jeśli szerokość przedziału histogramu jest odpowiednio mała to prawdopodobieństwo wystąpienia wartości zmiennej w przedziale jest praktycznie stałe, a więc liczność próbek w przedziale ma rozkład dwumianowy (Bernouliego).
Jeśli liczba próbek w każdym j-tym przedziale jest dostatecznie duża (N→∞), to na podstawie twierdzenia Moivra-Laplace'a rozkład liczności w przedziale jest bliski normalnego,
Zatem zmienna losowa
ma rozkład normalny N(0,1)
Statystyka Andersona-Darlinga [14] - dobra ch-ka zgodności ogonów
Statystyka Kołmogorowa [14] - dobra ch-ka zgodności w pobliżu średniej
Powyższy wywód pozwala określić estymaty przedziałowe ocen prawdopodobieństawa na podstawie częstości
Wynika to stąd, że jeśli nj ma rozkład jak wyżej, to dyspersja pj wynosi
Podstawiając (nie do końca legalnie) jako pj jego estymatę, uzyskujemy:
Zatem względny błąd standardowy oceny wynosi:
5. Modele ekonometryczne
Literatura:
Manikowski A., Tarapata Z.: Prognozowanie i symulacja rozwoju przedsiębiorstwa. WSE Warszawa 2002
Pawłowski Z. " Zasady predykcji ekonometrycznej" PWN, Warszawa 1982.
Zeliaś A. "Teoria prognozy" PWE, Warszawa 1997.
Dittmann P., Metody prognozowania sprzedaży w przedsiębiorstwie, wyd. 6, Wyd. AE Wrocław, 2002.
Gajda J.B., Prognozowanie i symulacja a decyzje gospodarcze, C.H.Beck Warszawa, 2001.
Radzikowska B. (red.), Metody prognozowania. Zbiór zadań, wyd. 3, Wyd. AE Wrocław, 2001.
Zeigler B.P, Teoria modelowania i symulacji, PWN Warszawa, 1984.
K. Molenda, M. Molenda, Analiza i prognozowanie szeregów czasowych, Placet, Warszawa 1999
E. Nowak. (red.) Prognozowanie gospodarcze. Metody, modele, zastosowania, przykłady. Placet 1998
Cieślak M. Prognozowanie gospodarcze. Wydawnictwo AE Wrocław, 1998.
Henry Theil: Zasady ekonometrii, PWN, Warszawa, 1979
Zbigniew Pawłowski: Ekonometria, PWN, Warszawa 1969
G.E.P.Box, G.M.Jenkins: Analiza szeregów czasowych, PWN, Warszawa, 1983
Modelem ekonometrycznym nazywa się zależność wartości oczekiwanych zmiennych endogenicznych od deterministycznych zmiennych egzogenicznych.
Schemat ujęcia zagadnienia zilustrowano na Rys.1.
Model ekonometryczny zapisuje się ogólnie w postaci:
;
gdzie X jest wektorem wartości zmiennych, przyjętych jako istotnie oddziałujące na zmienną objaśnianą y. Zmienna objaśniająca y ma wartość:
gdzie e jest błędem modelu spowodowanym z założenia tylko czynnikami losowymi.
Jeśli wektor X zawiera tylko zmienne egzogeniczne (zewnętrzne) przypisane do tej samej chwili czasu co zmienna endogeniczna, to model jest równaniem algebraicznym opisującym proces ekonomiczny w stanie wewnętrznej równowagi, a model nazywa się zależnością statyczną.
Modele statyczne buduje się w celu znalezienia ilościowych i stałych w czasie powiązań zmiennych egzogenicznych z endogenicznymi.
Jeśli co najmniej jedna spośród zmiennych X jest zmienną endogeniczną zarejestrowaną w poprzednich chwilach czasu, lub zmienne egzogeniczne brane są z wcześniejszych chwil czasu niż y, to model jest dyskretnym zapisem równania różniczkowego (czyli równaniem różnicowy) i opisuje przebieg zjawiska dynamicznego (uwarunkowanego wewnętrzną dynamiką badanego procesu ekonomicznego). Taki model nazywa się modelem dynamiki zjawiska. Modele takie wykorzystuje się w ekonometrii głównie do prognozowania przebiegu zjawiska w przyszłości (matematyczne prognozowanie procesów ekonomicznych, np. cen, zapotzrzebowania itp.)
W ekonometrii czynniki losowe odgrywają zwykle dużą rolę, stąd konieczność poszukiwania raczej prostych zależności f(X).
W praktyce najczęściej stosuje się modele jednoczynnikowe, gdzie mamy tylko jedną zmienną objaśniającą. Opracowanie wiarygodnych modeli wieloczynnikowych jest zadaniem bardzo trudnym i wymaga często długotrwałych badań.
Szczególnym przypadkiem modeli jednoczynnikowych są takie, gdzie jedyną zmienną objaśniającą jest czas t. Zależność ekonometryczną tego typu nazywa się często trendem, a wyliczanie odchyłek danych od takiej zależności - ekstrakcją trendu. Formalnie, zależność taka jest zależnością statyczną, niemniej może być (i często jest) wykorzystywana do analizy dynamicznego przebiegu zjawiska. W szczególności stosuje się takie modele do prognozowania zjawisk (tzw. modele Browna).
Typowe modele regresyjne statyczne
(P.Dittmann: Prognozowanie w przedsiębiorstwie)
liniowe - wielomiany, cykliczne (harmoniczne) ze znanym okresem; cykliczno-wielomianowe addytywne, cykliczno-wielomianowe multiplikatywne
linearyzowalne:
wykładniczy:
potęgowy:
Takim modelem jest funkcja Cobba-Douglasa (patrz Wikipedia) przedstawiająca zależności produkcji od zasobów pracy L i kapitału K, często stosowane w ekonomii jako funkcji produkcji. Została sformułowana przez Knuta Wicksella i przetestowana na danych statystycznych przez Paula Douglasa i Charlesa Cobba w 1928. Oryginalnie sformułowana jako funkcja powyższych dwóch zmiennych:
P= F(K,L)=a0 Ka1 La2
gdzie K oznacza nakład kapitału, a L nakład pracy potrzebny do wytworzenia jednostek produktu, a0 jest parametrem skalującym, a współczynniki a1 i a2 spełniają relację a1.+a2=1 (założenie to jest postulatem części makroekonomistów, argumentujących, że z jednej strony w całej gospodarce nie ma niekorzyści skali, bo zakłady pracy można po prostu kopiować, z drugiej jednak strony istnieje wiele zakładów pracy, które osiągnęły już optymalną wielkość). Zdjęcie ostatniego założenia daje funkcję typu Cobba-Douglasa. W przypadku a1.+a2 > 1 mamy korzyści skali, w odwrotnym przypadku są ujemne skutki skali.
Wyrażenia
nazywają się współczynnikami elastyczności produkcji wzgl. xi (
), a
, krańcową stopą substytucji, a
- współczynnikiem elastyczności substytucji
Model potęgowo-wykładniczy
Model wykładniczo-hiperboliczny
Model Tőrnquista I (ilorazowy)
opisujący popyt na dobra podstawowe w funkcji dochodów ludności:
Tőrnquista II:
; x>c
opisujący popyt na dobra wyższego rzedu w funkcji dochodów ludności:
Tőrnquista III:
; x>c
opisujący popyt na dobra luksusowe w funkcji dochodów ludności:
Regresja probitowa: rejestrujemy częstość pi występowania pewnego zjawiska (zakup produktu, upadłość firmy, niewypłacalność dłużnika) dla wartości iXi wektora czynników egzogenicznych. Zakładamy, że zmienna prognozowana ma określony rozkład prawdopodobieństwa (na ogół przyjmuje się rozkład Gaussa). Zmienną modelowaną yi obliczamy jako zmienną losową będącą arg(F(pi)) czyli z odwrotności założonej dystrybuanty, po czym szukamy modelu: yi=W(Xi). Poszukiwane prawdopodobieństwo będzie obliczane ze wzoru p=F(W(X))
Regresja logitowa:
y może być w szczególności prawdopodobieństwem (częstością) występowania pewnego zjawiska przy określonych wartościach wektora X (będących środkami przedziałów dla których wyznaczono częstość y)
Ogólna funkcja logistyczna:
jest już nielinearyzowalna
Opisuje ona np. popyt na pewne dobro w zależności od czasu, który upłynął od wprowadzenia go do sprzedaży (a>0; b > 1
Funkcja produkcji CES /constant elasticity of substitution/ jest inną funkcją nielinearyzowalną [http://wzr.pl/~jz/pliki/EKONOMETRIA/Funkcja%20produkcji.doc].
Wyznaczając współczynnik elastyczności substytucji funkcji Cobba - Douglasa, otrzymamy
. Ekonometrycy amerykańscy: Arrow K., Chedery H.B., Minhas B. i Solow R.H. przedstawili nową postać funkcji produkcji, która wprawdzie nadal gwarantowała stały współczynnik elastyczności substytucji, lecz niekoniecznie równy jedności:
,
Gdzie: Q - wielkość produkcji, K - zasoby kapitału, L - nakłady pracy żywej.
Parametr γ określa efektywność technologii produkcji, niezależną od sposobu wykorzystania czynników produkcji. Parametr ten określa się również jako tzw. „neutralną efektywność technologii”.
Parametr δ określa udział czynników produkcji w tworzeniu produktu, to tzw. parametr rozdziału /0 < δ < 1/.
Parametr ρ jest parametrem substytucji:
. Po przekształceniu, otrzymujemy współczynnik elastyczności substytucji między pracą i kapitałem.
= const.
Parametr υ określa stopień jednorodności funkcji produkcji. Wskazuje stałą, rosnącą lub malejącą wydajność produkcji.
Niech
,
Funkcja typu CES nie jest funkcją liniową zarówno względem zmiennych jak i parametrów strukturalnych i stosowanie MNK jest w tym przypadku niemożliwe. Istnieje rozwiązanie problemu estymacji parametrów funkcji, pochodzi od J. Kenty - nieliniową funkcję, zastąpił aproksymantą liniową /względem parametrów/, logarytmując funkcję CES stronami, a następnie rozwijając ją w szereg MacLaurina:
Modele regresyjne, liniowe
Bardzo ważną grupę modeli ekonometrycznych stanowią modele liniowe o ogólnej postaci:
gdzie Un jest wektorem wierszowym tzw. wejść uogólnionych [u0n, u1n, ..., uKn], A - wektorem kolumnowym nieznanych współczynników modelu A=[a0, a1, ..., aK].
Wejścia uogólnione są to funkcje algebraiczne zmiennych objaśniających, zadane wraz ze wszystkimi koniecznymi współczynnikami, tak aby mając wartości zmiennych Xn w kolejnych próbkach n=1..N, można było obliczyć wszystkie wartości Un dla n=1, ..N.
Zatem, dane o wejściach X pozwalają obliczyć całą macierz U złożoną z wierszy Un.
Niech
oznaczają wektory kolumnowe wartości
dla n=1, .. N; E - wektor kolumnowy kolejnych wartości zakłóceń e1, e2, ..., eN. Można ogólnie zapisać formuły:
; lub
gdzie
W ekonometrii najczęściej wykorzystuje się takie modele bądź jako modele wieloczynnikowe liniowe, tj. biorąc Un ≡ Xn, lub jako modele jednoczynnikowe, w których wejścia u(x) są prostymi funkcjami, przeważnie jednomianami. W ostatnim przypadku mamy modele wielomianowe (najpopularniejsze).
Postać wejść U oraz ich liczba to struktura modelu regresyjnego. Struktura modelu regresyjnego musi być ustalona arbitralnie. Mając tę strukturę należy obliczyć parametry A.
Wyznaczanie parametrów A nazywa się identyfikacją modelu. Realizuje się ją w następujący sposób:
Dokonuje się pomiarów w liczbie N>K+1, tak aby nadmiar danych w stosunku do liczby nieznanych współczynników pozwolił dobrać optymalne współczynniki
Definiuje się kryterium jakości modelu
Oblicza się wartości współczynników rozwiązując zadanie optymalizacji polegające na minimalizacji kryterium (b)
Najprostszy algorytm uzyskuje się przyjmując jako kryterium (b) sumę kwadratów błędów modelu. Nazywa się to metodą najmniejszych kwadratów MNK.
Takie zadanie ma rozwiązanie analityczne, tzn. optymalny wektor współczynników modelu wyraża się wzorem macierzowym:
UWAGA !!!
Wyznaczone w powyższy sposób parametry A mają sens tylko wówczas, gdy macierz U jest dobrze uwarunkowana, tzn. wynik jej odwracania jest słabo zależny od błędów numerycznych. Sprawdza się to procedurą svd() z biblioteki MATLAB. Uwarunkowanie nie zależy od wartości wyjść procesu (i ich składnika losowego) ale tylko od struktury funkcji regresji i zmienności wejść (im mniejsza zmienność tym gorsze uwarunkowanie). Uwarunkowanie można zatem poprawić tylko przez zmianę struktury modelu lub zebranie bardziej zróżnicowanych danych wejściowych.
Warto podkreślić, że taki sam wzór określa współczynniki optymalnej aproksymacji dowolnej funkcji y(u) zadanej w N punktach. Model ekonometryczny ma być jednak zależnością stochastyczną, a nie aproksymatą pewnej funkcji deterministycznej. Oznacza to, że błedy modelu chcemy interpretować jako spowodowane tylko czynnikami losowymi, a nie wynikające z arbitralnego doboru wartości funkcji.
Aby uzyskany model mógł być interpretowany jako zależność stochastyczna winny być spełnione następujące warunki (podane przez Gaussa) (patrz Z.Pawłowski: Ekonometria):
zmienne objaśniające X, a więc także U winny być nielosowe (czyli dokładnie znane), i U nie mogą być liniowo współzależne (ogólnie - macierz U musi być dobrze uwarunkowana, co jest konieczne, aby obliczenia dawały sensowne rezultaty)
składnik losowy e zmiennej objaśnianej musi mieć zerową wartość oczekiwaną E(e)=0, i skończoną oraz stałą wariancję (niezależną od czasu przypisanego do kolejnych danych)
ciąg {en, n=1,2, ..N}musi być ciągiem niezależnych liczb losowych
składnik losowy e nie może być skorelowany ze zmiennymi objaśniającymi uwzględnionymi w modelu.
Jeśli te założenia są spełnione to estymatory A współczynników modelu są zgodne i nieobciążone, a ich macierz kowariancji wyraża się prostym wzorem:
gdzie
oznacza estymatę wariancji reszt modelu.
Pozwala to wyznaczać nie tylko samą funkcję regresji, ale także przedziały ufności dla tej funkcji oraz prognoz zmiennej y, regresji w oparciu o oceny wariancji funkcji regresji
i wariancji przewidywanej zmiennej objaśnianej
, które oblicza się ze wzorów:
;
Model jednoczynnikowe wielomianowe mają wejścia uogólnione o postaci:
u0n ≡ 1; (stała modelu)
u1n= xn
u2n= (xn)2
.........
uKn= (xn)K
Algorytmiczny dobór struktury równania regresji - metoda odrzucania
W celu uzyskania modelu o najkorzystniejszych właściwościach należy wyspecyfikować w miarę liczny zbiór wejść uogólnionych, a następnie wybrać z niego możliwie mało liczny podzbiór wejść istotnych w sensie statystycznym. Suboptymalne procedury wyboru zwane regresją krokową [MaN81] (ang. step-wize regression) są stosunkowo łatwe do algorytmizacji. Najprostsza i zwykle wystarczająco skuteczna jest procedura odrzucania [MaN81], oparta na iteracyjnym testowaniu hipotezy Ho o nieistotności kolejnych współczynników aj modelu:
Ho: E{aj}=0; H1: E{aj}≠0;
W typowym przypadku, gdy zakłócenia z mają rozkład normalny, testowanie hipotezy Ho opiera się na statystyce t Studenta [Mań79], z założonym poziomem istotności testu . Funkcja gęstości prawdopodobieństawa rozkładu Studenta i związek poziomu istotności z wartością krytyczną tkr statyki mają postać [Gór97]:
(1.6.11)
gdzie l>0 jest parametrem całkowitym (liczbą stopni swobody), ( - funkcją gamma Eulera.
Niech saj oznacza estymatę dyspersji współczynnika aj, obliczonego w m-tej iteracji, w której model (1.6.3) zawierał (Km+1) członów (saj.=
). Jeśli hipoteza Ho jest prawdziwa, to iloraz tj= aj/saj ma rozkład Studenta t o liczbie stopni swobody l=N-Km-1 [Mań79]. Zatem, rozpoczynając od nadmiarowego (ale zapewniającego dobre uwarunkowanie zadania) zestawu członów równania (1.6.3), w kolejnej iteracji oblicza się współczynniki A według wzoru (1.6.5) oraz wartości statystyki tj= aj/saj dla każdego członu obecnego w modelu. Jeśli spełniona jest relacja:
(1.6.12)
to przyjmuje się hipotezę Ho dla j-tego członu równania, bo nie ma podstaw do jej odrzucenia (oznacza to założenie aj=0, a więc usunięcie j-tego członu z równania), po czym rozpoczyna się następna iteracja. Procedura kończy się, gdy relacja (1.6.12) nie jest spełniona, co oznacza, że wszystkie składniki modelu są istotne na poziomie istotności .
Model z ograniczeniami równościowymi [Pawłowski str.120]
BA=C
B - znana macierz, C - znany wektor, A - wektor współczynników oryginalnych.
Zmodyfikowany wektor parametrów wyraża się wzorem:
gdzie
Macierz kowariancji ma postać:
Funkcje korelacyjne a zależności regresyjne
W przypadku szeregów czasowych, stosowaną powszechnie analizę współczynnika korelacji zmiennych losowych można łatwo rozszerzyć, badając korelacje szeregów przesuniętych względem siebie w czasie, czyli funkcje korelacyjne. Dla szeregów XNd={x1, .. xN-d}, YN={yd+1, .. yN}przesuniętych o d próbek definiuje je formuła:
(1)
,
(2)
gdzie sx, sy,
,
, ysr, xsr oznaczają dyspersje, wartości oczekiwane i średnie ciągów XNd i YN.
Wzór (1) można zastosować dla dowolnych ciągów, ale funkcja Ryxd jest miarodajna, gdy są one stacjonarnymi szeregami czasowymi [6].
Przyjmijmy, że szeregi YN, XNd mają zerowe wartości średnie (ysr=0, xsr=0) (co można zawsze uzyskać prowadząc analizy dla szeregów scentrowanych) i są powiązane liniową funkcją regresji:
,
(3)
gdzie zn są próbkami zakłócenia,
- wartością oczekiwaną E{yn} (zależną liniowo od xn-d). Jeśli zakłócenia zn mają rozkład normalny z zerową wartością oczekiwaną oraz stałą wariancją (niezależną od n), i nie są skorelowane z poprzednimi wartościami (E{znznm}=0 dla m >0) i ze zmienną x (E{znxnd}=0), to optymalny, zgodny i nieobciążony estymator współczynnika a wyraża się wzorem wynikającym z metody najmniejszych kwadratów [Paw]:
(4)
Dyspersję se błędów zależności (3) wyraża wzór:
(5)
a dyspersja współczynnika a obliczonego ze wzoru (4) wynosi:
(6)
Miarą zasadności stosowania modelu regresyjnego (3) jest statystyka Studenta (t) jego współczynnika a:
(7)
Wynika stąd też zależność między statystyką Studenta i współczynnikiem korelacji, którą wykorzystuje się do testowania istotności korelacji [A.Manikowski, Z.Tarapata: Prognozowanie i symulacja rozwoju przedsiębiorstwa. WSE Warszawa 2002 (str. 172)]:
(7a)
Dla odpowiednio długich, nieskorelowanych ciągów (N-d >30) statystyka ta ma rozkład Gaussa N(0,1) [Pa]. Uzyskanie wartości ta>3 oznacza zatem, że zależność (3) jest istotna na poziomie istotności 0.3%. Zatem, jeśli Ryxd ≠ 0, to wykazanie tego wymaga ciągu o długości
(8)
Bardziej praktyczną miarą przydatności modelu jest jednak stopień redukcji niepewności informacji o wartościach yn uzyskiwanych wg wzoru (3) względem oceny trywialnej, jaką daje średnia wartość ysr szeregu YN . Zgodnie ze wzorem (5) miarę tę wyraża formuła:
(9)
Jeśli szeregi YN, XN-d są stacjonarne, to dla odpowiednio dużych wartości N, np. spełniających relację (8), uzyskuje się
≅Ryxd =const, sy≅σy, sx≅σx, se≅σe oraz:
, (10)
gdzie σx, σy, σe są stałymi odchyleniami standardowymi zmiennych x, y i błędów modelu (3),
Wówczas właściwości prognoz uzyskiwanych przez zastosowanie modelu (3), t.j.
(11)
można miarodajnie ocenić wg wzoru (9), a istotność zależności (3) - wg. wzoru (8).
W przeciwnym wypadku ekstrapolacja zawarta w formule predyktora (11) może wprowadzać znaczący błąd, większy niż wynikałoby to ze wzoru (9), szczególnie dla małych N.
Modele regresyjne dynamiki procesów (modele ARMAX)
Ważną rolę odgrywają regresyjne, liniowe modele dynamiki procesów wynikające z równań różnicowych opisujących przebieg procesu w dyskretnych chwilach czasu:
gdzie pierwszą sumę nazywa się członem autoregresyjnym (AR), a sumy druga i trzecia są średnimi ruchowymi (moving average MA) dla zmiennych egzogenicznych X (np. sterowań branych z zadanym opóźnieniem m próbek) oraz zakłóceń z (zakłocenia z są z założenia ciągiem niezależnych liczb losowych o zerowej wartości oczekiwanej) .
Modele takie omawia obszernie monografia G.E.P.Box, G.M.Jenkins: Analiza szeregów czasowych, PWN, Warszawa, 1983.
W pakiecie MATLAB są procedury do identyfikacji współczynników modeli ARMAX.
W przypadku, gdy wejścia są nieznane (np. gdy interesują nas przebiegi wejść zakłócających widzianych jako efekt czynników wyłącznie losowych), stosuje się model ARMA:
Jest on często stosowany do prognozowania takich zakłóceń (jako alternatywa dla model Browna).
UWAGA !!! W modelu ARMA (a także ARMAX) zakłada się, że zakłócenia z mają wartość oczekiwaną zerową. Jeśli nie jest to spełnione, należy ją wyznaczyć oddzielnie (jako wartość średnią procesu lub wyznaczyć trend), a następnie zastosować model dla reszt. W szczególności, gdy wartość ta jest zmienna w czasie, a reszty detrendingu są istotnie skorelowane, lepiej zastosować model ARMA dla różnic wyjść y i zakłóceń. Taki model nazywa się modelem ARIMA (scałkowany model ARMA)
Z drugiej strony, pomijając drugą sumę modelu ARMAX uzyskuje się model dynamiki procesu dla przypadku, gdy mamy słabe zakłócenia zewnętrzne, a z reprezentuje szumy pomiarowe. Taki model identyfikuje się metodą analizy regresji, biorąc jako wejścia uogólnione u wektor: un=[yn-1, yn-2, ... yn-I, xn-1-m, xn-2-m, ... xn-J-m ]
oraz jako wejście ciąg: yn=[yn, yn-1, ... yn-I+1].
Wektor współczynników: A=[α1, α2, ...αI, β1, β2, ...βJ];
Procedura identyfikacji może dalej przebiegać jak dla modeli statycznych, jakkolwiek lepsze rezultaty daje metoda zmodyfikowana, zwana metodą zmiennych instrumentalnych (IV). Jest ona omówiona np. w podręczniku: A.Niederliński: Komputerowe systemy sterowania.
W pakiecie MATLAB jest procedura do identyfikacji współczynników modelu tą metodą (funkcja iv()).
Modele ARMA mają bardzo dobre podstawy teoretyczne. Opierają się na tzw. hipotezie filtru liniowego [B], według której stacjonarny szereg czasowy jest interpretowany jako wynik przejścia szumu białego przez dyskretny filtr liniowy, skończenie wymiarowy.
Model ARMA(p, q) zastosowany do prognozowania wartości yp t+k ma postac:
yp t+k =-ϕ1 yz t+k 1 ϕ2 yz t+k- .. ϕp yz t+k-p + θ1 E{et+k1}+ ..+ θq E{et+kq} (2)
gdzie yz t+k-i oznacza znane do chwili t (włącznie) wartości sygnału (w członach AR o numerach i ≥ k mamy yz t+k-i= y t+k-i) lub ich prognozy (robocze) dla chwil wcześniejszych (w członach o numerach i < k przyjmuje się yz t+ki = yp t+ki). Z kolei, jako wartość oczekiwaną E{et+k j} błędu w chwili (t+k j) przyjmuje się błędy prognozy w chwilach wcześniejszych niż t (tj. w członach MA o numerach j ≥ k) oraz wartość zerową dla chwili bieżącej t i późniejszych (człony MA o numerach j < k są pomijane). Model (2) powinien być identyfikowany przed każdą prognozą, w rozszerzanym przedziale danych lub w przesuwanym oknie, po osiągnięciu wystarczająco dużej liczby próbek (np. kilka tysięcy).
Ze względu na uwarunkowanie numeryczne zadania identyfikacji i wymaganą niską losowość współczynników, umożliwiającą uzyskanie filtrów stabilnych, stosuje się na ogół predyktory o niewysokim rzędzie (p<5, q<3, a przeważnie q=0). W efekcie błąd predykcji jest często z założenia niezależny od błędów wcześniejszych prognoz (gdy q=0), a przy większych wyprzedzeniach k prognoza po kilku krokach n staje się niezależna od wartości sygnału (dla n ≥ p), czyli jest odpowiedzią swobodną filtru. Ta właściwość istotnie obniża skuteczność modeli ARMA w prognozowaniu z wymaganym wyprzedzeniem p>5. Przeszkodę tę można formalnie ominąć poprzez odniesienie formuły (1) do szeregu o zwiększonym rozstępie r danych (r>1, r ≤k, gdzie r jest dzielnikiem k) i jej identyfikację dla takich szeregów. Pozwala to przyjąć niższy rząd p modelu, dzięki zmniejszenieniu formalnego wyprzedzenia kf prognozy (kf= k/r), a przez to usunąć problemy uwarunkowania numerycznego i stabilności modelu.
Modelowanie charakterystyk statycznych metodą analizy regresji
(Uzupełnienie [Duda 2003])
Modele statyczne buduje się w celu znalezienia ilościowych i stałych w czasie powiązań zmiennych wejściowych z wyjściowymi. Jeśli czynniki losowe odgrywają dużą rolę, zaleca się poszukiwanie raczej prostych zależności f(U).
Bardzo ważną grupę modeli statystycznych procesów stanowią zależności liniowe (ze względu na nieznane parametry) o ogólnej postaci:
(1.6.3)
gdzie n jest wektorem wierszowym tzw. wejść uogólnionych [0n, 1n, ..., Kn], A - wektorem kolumnowym nieznanych współczynników modelu A=[a0, a1, ..., aK].
Wejścia uogólnione są to funkcje algebraiczne zmiennych objaśniających, zadane wraz ze wszystkimi koniecznymi współczynnikami, tak aby mając wartości zmiennych Un w kolejnych próbkach n=1..N, można było obliczyć wszystkie wartości n dla n=1, ..N. Zatem, dane o wejściach U pozwalają obliczyć całą macierz Φ złożoną z wierszy n. Zakres zmienności poszczególnych kolumn macierzy Φ wyznacza N-wymiarowe pole korelacji modelu.
Niech
oznaczają wektory kolumnowe wartości
dla n=1, .. N; Z - wektor kolumnowy kolejnych wartości zakłóceń z1, z2, ..., zN:
; lub
gdzie
(1.6.4)
Najczęściej wykorzystuje się takie modele bądź jako modele wieloczynnikowe liniowe, tj. biorąc n=f(Un), lub jako modele jednoczynnikowe, w których wejścia n(u) są prostymi funkcjami (przeważnie jednomianami) jednej zmiennej wejściowej.
Postać wejść Φ oraz ich liczba to struktura modelu regresyjnego, która musi być ustalona arbitralnie. Mając tę strukturę należy obliczyć parametry A. Wyznaczanie parametrów A nazywa się identyfikacją modelu. Jest ona realizowana w następujący sposób:
rejestruje się pomiary wejść i wyjść w liczbie N>K+1, tak aby nadmiar danych w stosunku do liczby nieznanych współczynników pozwolił dobrać optymalne współczynniki A
definiuje się kryterium jakości modelu
oblicza się wartości współczynników rozwiązując zadanie optymalizacji polegające na minimalizacji kryterium (b),
przy pomocy testów statystycznych usuwa się z modelu mało istotne składniki.
Najprostszy algorytm identyfikacji uzyskuje się przyjmując jako kryterium (b) sumę kwadratów błędów modelu. Nazywa się to metodą najmniejszych kwadratów MNK. Takie zadanie ma rozwiązanie analityczne, tzn. optymalny wektor współczynników modelu wyraża się wzorem macierzowym ([Mań79], [MaN81], [Gór97]):
(1.6.5)
Wzór ten można zapisać w postaci splotowej:
(1.6.5a)
gdzie
jest macierzą, której wiersze są odpowiedziami impulsowymi filtru przekształcającego ciąg Y na współczynniki jego aproksymaty minimalnokwadratowej.
Zostanie wykazane w dalszej części tego rozdziału, że suma elementów wierszy k=0, 1, ....K macierzy G spełnia równości:
oraz
dla k=1, ...K (1.6.5b)
Należy zwrócić uwagę, że wyznaczone wg wzoru (1.6.5) parametry A mają sens tylko wówczas, gdy macierz Φ jest dobrze uwarunkowana, tzn. wynik jej odwracania jest słabo zależny od błędów numerycznych (patrz rozdz.3.2). Uwarunkowanie nie zależy od wartości wyjść procesu (i zakłóceń) ale tylko od struktury funkcji regresji i zmienności wejść (im mniejsza zmienność tym gorsze uwarunkowanie). Można je zatem poprawić tylko przez przeskalowanie (normalizację) wejść uogólnionych lub zmianę struktury modelu, lub zebranie bardziej zróżnicowanych danych wejściowych. Dokładność obliczeń można również zwiększyć stosując tzw. faktoryzację pierwiastkową i przekształcenie Hausholdera [Nied85].
Wzór (1.6.5) jest ogólną formułą minimalno-kwadratowego dopasowania danych do założonego modelu, a więc nie zawsze daje wyniki będące estymatami w sensie statystycznym. Określa bowiem również współczynniki optymalnej aproksymacji dowolnej funkcji y(u) zadanej w N punktach. Dla niektórych zastosowań poszukiwana zależność (1.6.3) może spełniać jedynie rolę aproksymaty pewnej złożonej funkcji w polu korelacji. Przykładem są zależności wykorzystywane do iteracyjnej optymalizacji on-line omawiane w rozdz.3.5.3.2. W wielu przypadkach wymaga się jednak, aby model był adekwatny również w pewnym otoczeniu pola korelacji. Funkcja (1.6.4) musi być wówczas zależnością stochastyczną co oznacza, że błędy modelu winny być powodowane tylko czynnikami losowymi, bez znaczącego wpływu arbitralnego doboru struktury modelu.
Model (1.6.3) o współczynnikach obliczonych wg wzoru (1.6.5) jest zależnością stochastyczną, jeśli spełnione są następujące warunki podane przez Gaussa (patrz [Paw69]):
zmienne wejściowe U, a więc także Φ muszą być nielosowe (czyli dokładnie znane), a macierz Φ musi być dobrze uwarunkowana,
składnik losowy z zmiennej wyjściowej musi mieć zerową wartość oczekiwaną E{z}=0, i skończoną oraz stałą wariancję (niezależną od czasu przypisanego do kolejnych danych)
ciąg {zn, n=1,2, ..N} musi być ciągiem niezależnych liczb losowych
składnik losowy z nie może być skorelowany ze zmiennymi wejściowymi uwzględnionymi w modelu, tzn.
.
Jeśli spełnione jest założenie (a), to błąd losowy współczynników wyraża się wzorem:
(1.6.6)
Wynika stąd, że przy spełnionym założeniu (d) estymator (1.6.5) jest nieobciążony, tzn.: E{δA}= 0, a macierz kowariancji współczynników modelu wyraża ogólnie wzór:
(1.6.7)
gdzie KZ oznacza macierz autokowariancji zakłóceń, która przy założeniach (b) i (c) wynosi
. Estymatę zgodną
wariancji
zakłóceń (wariancji reszt modelu) wyraża wzór:
(1.6.8)
Zatem, jeśli spełnione są założenia (a-d), to estymator (1.6.5) współczynników modelu jest zgodny i nieobciążony, a macierz kowariancji współczynników wyraża się prostym wzorem:
(1.6.9)
Jeśli dodatkowo zakłócenia losowe mają rozkład Gaussa, to wzór (1.6.5) daje najefektywniejsze estymaty współczynników modelu o przyjętej strukturze [Mań79].
Wzór (1.6.8) daje estymator zgodny wariancji resztowej. Można to wykazać, podobnie jak dla estymatora wariancji, wychodząc z zależności:
(1.6.9a)
gdzie M jest nieznanym jeszcze dzielnikiem estymatora.
Ze wzorów podanych w rozdziale o rachunku prawdopodobieństwa wynika, że:
(1.6.9b)
(1.6.9c)
gdzie
.
oznacza wariancję modelu.
Pierwszy składnik po prawej stronie wzoru (1.6.9c) jest wartością oczekiwaną estymaty wariancji modelu. Błąd modelu dla n-tej obserwacji wejść uogólnionych n wynosi (zgodnie z 1.6.5b i 1.6.6):
(1.6.9d)
Estymatę
wariancji modelu
dla obserwacji Un można obliczyć na dwa sposoby.
Pierwszy, to wykorzystanie macierzy kowariancji współczynników (1.6.9):
(1.6.9e)
Jeśli KZ=
, to jej wartość oczekiwana wynosi:
(1.6.9f)
gdzie
są współczynnikami rozkładu błędu generowanego przez zakłócenia dla poszczególnych obserwacji n będących wierszami macierzy .
Przykładowe wartości współczynników filtrujących gkn i rozkładu gn dla 100 obserwacji modelu wielomianowego 3. stopnia pokazano na rys.1.
Wykażemy, że
(1.6.9g)
Niech fij oznacza ij-ty element macierzy F=[T]-1. Współczynnik γn wyraża wzór:
co można zapisać w skrócie:
(1.6.9g0)
Zsumowanie elementów γn daje:
(1.6.9g1)
Zwróćmy uwagę, że wektor wierszowy jest tu k-tym wierszem macierzy T, natomiast wektor kolumnowy - to k-ta kolumna macierzy odwrotnej F, tj. [T]-1. Iloczyn skalarny takich wektorów musi być zawsze równy 1, co wynika z oczywistej relacji [T][T]-1=I. Zatem powyższa suma wynosi zawsze K+1, co jest wykazaniem zależności (1.6.9g) !!!!.
Wynika stąd ogólne twierdzenie algebry macierzowej:
Ślad macierzy U*[UTU]-1UT jest zasze równy rzędowi macierzy U
W taki sam sposób wykazuje się zależność (1.6.5b).
Sposób drugi, to zastosowanie wzoru (1.6.9d).
Po podstawieniu wzorów (1.6.9b) i (1.6.9cb) do wzoru (1.6.9a) i uwzględnieniu (1.6.9f) oraz (1.6.9g) mamy:
Wynika stąd, że aby uzyskać estymator nieobciążony, M powinno być równe (N-K-1).
Wzór (1.6.9) pozwala wyznaczyć przedziały ufności dla funkcji regresji oraz prognoz zmiennej y, w oparciu o oceny wariancji funkcji regresji
i wariancji przewidywanej zmiennej objaśnianej
, które oblicza się ze wzorów:
(1.6.10)
Uzyskanie dobrych wyników modelowania, szczególnie poza polem korelacji, wymaga trafnego doboru funkcji regresji, tj. przekształceń n(U) generujących wejścia uogólnione, a także przyjęcia odpowiedniej liczby członów (K+1) modelu (1.6.3). Dla procesów wielowejściowych dobór przekształceń jest na ogół trudnym problemem, wymagającym dużego doświadczenia, intuicji i wiedzy technologicznej. Jeśli rozbieżności między funkcją regresji pierwszego rodzaju a modelem są duże, to formuła (1.6.9) jest nieadekwatna, a co za tym idzie oszacowania przedziałów ufności są niemiarodajne (na ogół zbyt optymistyczne). Z drugiej strony, zastosowanie zbyt złożonej funkcji regresji prowadzi często do złego uwarunkowania zadania identyfikacji, lub powoduje bardzo niekorzystne właściwości modelu poza polem korelacji, ujawniające się zwykle szybkim wzrostem wariancji modelu obliczanej wg (1.6.10). Jest to typowy efekt nadparametryzacji modelu, której skutkiem jest nadmierna wrażliwość wyniku estymacji na zakłócenia.
Podobne zależności można uzyskać dla uogólnionej MNK.
(1.6.7)
(1.6.7)
Jeśli jako macierz wagową przyjmiemy WT=a⋅(KZ)-1, gdzie a jest dowolną stałą, to współczynniki A nie zależą od a, natomiast macierz KA wyraża się wzorem:
(1.6.9h)
W przypadku, gdy KZ jest diagonalna macierz W=diag(
. Obliczymy sumę ważonych kwadratów błędów modelu:
(1.6.8h)
Podobnie jak we wzorach (1.6.8-1.6.9f) obliczymy wartość oczekiwaną tej sumy:
(1.6.9i)
Estymatę
wariancji modelu
dla obserwacji Un można obliczyć wg macierzy kowariancji współczynników (1.6.9h):
(1.6.9j)
W rozważanym przypadku jej wartość oczekiwana wynosi:
(1.6.9k)
gdzie
są współczynnikami rozkładu błędu generowanego przez zakłócenia dla poszczególnych obserwacji n, takimi samymi jak dla MNK - wzór (1.6.9f).
Zatem, zgodnie ze wzorem (1.6.9g) mamy
(1.6.9l)
Zatem
(1.6.9m)
a więc estymatorem zgodnym stałej a jest
(1.6.9n)
Macierz kowariancji zakłóceń należy obliczać ze wzoru:
(1.6.9o)
Przykładowe współczynniki gkn i rozkład błędów dla K=3 i N=100 pokazano na rysunku.
1.6.3. Modele regresyjne dynamiki procesów
W klasycznym ujęciu punktem wyjścia do identyfikacji dynamiki procesu SISO jest model dyskretny w postaci ARMAX (CARMA):
(1.6.13)
gdzie zakłócenia z są z założenia ciągiem niezależnych liczb losowych o zerowej wartości oczekiwanej.
Modele takie omawiają obszernie monografie [BoJ83], [MaN81] i [Nied85]. Procedury ich identyfikacji zawarte są w pakietach wspomagania projektowania układów automatyki (np. MATLAB).
W przypadku, gdy wejścia są nieznane (np. gdy interesują nas przebiegi wejść zakłócających widzianych jako efekt czynników wyłącznie losowych), stosuje się model ARMA:
(1.6.14)
Jest on często stosowany do prognozowania zakłóceń.
Należy zaznaczyć, że w modelu ARMA (a także CARMA) zakłócenia z mają z założenia wartość oczekiwaną zerową. Jeśli nie jest to spełnione, a w szczególności, gdy wartość ta jest zmienna, lepiej zastosować model ARMA dla różnic wyjść y i zakłóceń. Taki model nazywa się modelem ARIMA (scałkowany model ARMA)
Z kolei, pomijając drugą sumę modelu ARMAX uzyskuje się model dynamiki procesu dla przypadku, gdy mamy słabe zakłócenia zewnętrzne, a z reprezentuje szumy pomiarowe. Taki model może uwzględniać także opóźnienie d. Identyfikuje się je metodą analizy regresji, biorąc jako wejścia uogólnione wektor:
n=[yn-1, yn-2, ... yn-I, un-1-m-d, un-2-m-d, ... un-J-m-d ] (1.6.15)
oraz jako wyjście ciąg:
yn=[yn, yn-1, ... yn-I+1]. (1.6.16)
Wektor współczynników ma postać:
A=[α1, α2, ...αI, β1, β2, ...βJ] (1.6.17)
Procedura identyfikacji może dalej przebiegać jak dla modeli statycznych, z macierzą zbudowaną z wierszy (1.6.15), ale wzór (1.6.5) daje obciążone estymaty współczynników A, gdyż zakłócenia zn modelu (1.6.14) są skorelowane ze zmiennymi wejściowymi yn-i.
Lepsze rezultaty można uzyskać przez zastosowanie zmodyfikowanej procedury identyfikacji, zwanej metodą zmiennych instrumentalnych (IV) [Nied85]. W celu wyznaczenia nieobciążonej estymaty współczynników A modelu dynamicznego definiuje się macierz W zmiennych instrumentalnych, taką aby W nie była skorelowana z zakłóceniami zn, a równocześnie była silnie skorelowana z wejściami uogólnionymi , tj. :
,
(1.6.18)
Symbol lim oznacza tu granice stochastyczne [Nied85], a druga macierz musi istnieć i być dobrze uwarunkowana. Jeśli znana jest taka macierz W, to nieobciążonym i zgodnym estymatorem współczynników A jest formuła:
(1.6.19)
Macierz W konstruuje się iteracyjnie, wychodząc od macierzy i zamieniając występujące w niej wartości zakłócone yn-i ich estymatami uzyskanymi w poprzedniej iteracji. Można wykazać, że jeśli zakłócenia wyjścia obiektu są szumem białym, to procedura taka jest zbieżna [Nied85].
Dla obiektów z opóźnieniem wartość d dobiera się metodą prób tak, aby zminimalizować wariancję resztową modelu.
Model dyskretny (1.6.14) winien być przekształcony do postaci ciągłej. Jest to możliwe, jeśli wszystkie pierwiastki rzeczywiste wielomianu o współczynnikach (1, α1, α2, ...αI) są dodatnie. Jeśli występują pierwiastki ujemne, to model nie ma odpowiednika ciągłego, co może być spowodowane zbyt małą częstotliwością próbkowania, pominiętą nieliniowością, lub zbyt słabym pobudzeniem u obiektu w stosunku do zakłóceń.
Od lat 70. rozwijane są także metody identyfikacji modeli ciągłych ([UnR87], [FBy84]). Punktem wyjścia jest równanie różniczkowe zwyczajne o postaci:
(1.6.20)
które splata się obustronnie z odpowiedzią impulsową g(t) pewnego filtru określonego na nośniku zwartym [0, T], tj. g(t)≠0 dla t∈[0, T] oraz g(t)= 0 dla t∉[0, T].
Jeśli funkcja g(t) posiada ciągłe pochodne do J-tej włącznie dla t∈[0, T], to wykorzystując właściwości splotu uzyskuje się model regresyjny w postaci:
(1.6.21)
gdzie
;
; dla i=1,...., I; (1.6.22)
dla j=0, .....J;
(1.6.23)
Obliczając numerycznie wartości powyższych splotów dla odpowiednio długiego ciągu dyskretnych wartości t, uzyskuje się wektor Y i macierz Φ pozwalające obliczyć współczynniki modelu ciągłego przy pomocy wzoru (1.6.5). Udoskonalone wersje tej metody omawiają prace [FBy84], [ByF92].
W prognozowaniu zakłóceń stochastycznych, jako alternatywę dla modeli ARMA można wykorzystać jednoczynnikowe modele statyczne, w których jedyną zmienną wejściową jest czas t (tzw. modele Browna). Zależność tego typu nazywa się często trendem, a wyliczanie odchyłek danych od takiej zależności - ekstrakcją trendu [DuK99a].
Szczególne znaczenie dla syntezy klasycznych układów regulacji mają proste modele niskiego rzędu z opóźnieniem. Są one wyznaczane przez aproksymację odpowiedzi obiektu na wymuszenie skokowe, modelem liniowym o wymaganej strukturze. Identyfikacja takich modeli może być realizowana technikami regresji statycznej. Jako model procesu przyjmuje się teoretyczną odpowiedź układu, a zmienną niezależną jest czas. Formalnie, prowadzi to do nieliniowego zadania optymalizacji. Jednakże w szczególnie interesującym przypadku, gdy poszukuje się optymalnego modelu pierwszego rzędu z opóźnieniem, problem można sprowadzić do zadania liniowo-kwadratowego poprzez przekształcenie logarytmiczne wyjścia. Odpowiedź skokowa takiego obiektu ma bowiem postać:
(1.6.24)
gdzie K oznacza wzmocnienie, T - stałą czasową, d - opóźnienie.
Stosując przekształcenie logarytmiczne, wzór (1.6.24) sprowadzamy do postaci:
(1.6.25)
W wyniku eksperymentu uzyskujemy ciąg Y={y1, y2, yp, ......, yN, ....., y, ....., yf} wartości wyjść zarejestrowanych w chwilach czasu U = {t1, t2, tp, ..., tN, .., t, .., tf} (niekoniecznie z jednakowym rozstępem). Wartość t jest czasem po którym wyjście nie wykracza poza przedział K(1± ) do końca okresu obserwacji tf, gdzie jest odpowiednio małą liczbą dodatnią (np. 0.02). Wartość tf winna być istotnie większa niż t (około 5 krotna wartość przewidywanej stałej czasowej). Jeśli wyjście jest silnie zakłócone, to jako można przyjąć oszacowanie błędu standardowego zakłócenia, w przedziale (t, tf) przekroczenia zakresu K(1± ) winny być tylko losowe, a ich liczba - rzędu 1/3 liczby danych w tym przedziale.
Uśredniając dane {y, ....., yf} oblicza się wzmocnienie K, a następnie wektor wyjść pN modelu dla chwil tn z zakresu [tp tN]:
(1.6.26)
Oczywiście, przekształcenie obejmuje również zakłócenia zn, będące różnicą między błędem estymacji K i zakłóceniami chwilowymi wyjścia. W związku z tym wartość tN musi być odpowiednio mniejsza niż t. Zgodnie ze wzorem (1.6.25) elementy γn ciągu pN można wyrazić zależnością liniową:
γn =a+b un + zn (1.6.27)
gdzie
,
(1.6.28)
Wartości współczynników a i b uzyskuje się metodą analizy regresji liniowej ze wzoru (1.6.27), a następnie oblicza się parametry d i T ze wzoru (1.6.28).
Czas t, jak również czas początkowy tp należy dobrać tak, aby błędy liniowej aproksymacji ciągu pN nie były duże, np. tak aby zminimalizować wariancję resztową modelu, a zakłócenia resztowe zn nie wykazywały istotnego spadku ze wzrostem tn.
*ZESTAWIENIE FUNKCJI PAKIETU MATLAB, UŻYTECZNYCH W EKONOMETRII
abs(x) - wartość bezwzględna zmiennej x lub długość wektora x
arx([y u],[na nb nd]) - identyfikacja wg.najmniejszych kwadratów modelu ARX ciągu y z wejsciem x; na - rząd mianownika, nb - rząd licznika, nd - opóźnienie
arxmax([y u],[na nb nc nd]) - identyfikacja wg.najmniejszych kwadratów modelu ARMAX ciągu y z wejsciem x; na - rząd mianownika, nb - rząd licznika, nc - rząd modelu MA zakłócenia losowego, nd - opóźnienie
bar(x,y) - rysowanie wykresu słupkowego (histogramu) elementów wektora y na pozycjach wskazanych przez wartości wektora x.
chi2inv(p, lst_swob) - wartość chi2 na poziomie ufności p przy lst_swob stopni swobody
cdf() - różne funkcje rozkładu.
cov(x) - wariancja wektora x; macierz kowariancji, gdy x jest macierzą, której wiersze są wektorami zmiennych losowych
erf(x) - funkcja błędu, tj. prawdopodobieństwo wystąpienia zmiennej losowej o rozkładzie normalnym w przedziale E(x)±x⋅√2
finv(p,lst1,lst2) wartość statystyki F Snedecora na poziomie ufności p przy stopniach swobody lst1 i Lst2
floor(x) - obcięcie liczy x do wartości całkowitej
hist(y,n) - rysowanie histogramu szeregu rozdzielczego elementów wektora y w n jednakowych przedziałach; wywołanie: [y,x]=hist(y,n); powoduje tylko policzenie wektorów histogramu do narysowania funkcją bar(x,y);
inv(A) - odwrócenie macierzy A (kwadratowej)
iv([y u],[na nb nd],nf,mf) - identyfikacja morelu ARX metodą zmiennych instrumentalnych
mean(x) - wartość średnia wektora x
median(x) - mediana wektora x
a=polyfit(x,y,n) - obliczenie współczynników wielomianu przybliżającego minimalnokwadratowo zależność wektora y od x; n - rząd wielomianu; a(1), a(2), ... współczynniki wielomianu od najwyższej potęgi a(1) do stałej zapisanej jako a(n)
rand - generator liczb losowych (niezależnych) o rozkładzie równomiernym z zakresu [0, 1]
randn - generator liczb losowych (niezależnych) o rozkładzie normalnym standaryzowanym, czyli N(0,1)
std(x) - odchylenie standardowe (dyspersja) elementów wektora x
svd(A) - dekompozycja singularna macierzy A (sprawdzanie dopuszczalności odwracania macierzy)
xcorr(x) - podaje (m.innymi) funkcje autokorelacji wektora x (nieunormowaną)
Dodatkowe informacje o funkcji uzyskuje się komendą MATLABa:
help nazwa
Przykład:
Ld=60; clear xx; xx=10*randn(1,Ld); s2x=var(xx);
p=0.05; b=chi2inv(1-p/2, Ld-1); a=chi2inv(p/2, Ld-1);
[Ld*s2x/b s2x Ld*s2x/a],
1
Nieznane czynniki losowe v
Badane
zjawiska ekonomiczne
Zm.egzogeniczne X
Zm.endogeniczne: Y=f(X)+e
Wpływ procesu na otoczenie
opisują zmienne objaśniane
(endogeniczne) Y: Y=f(X)+e
e - reprezentacja losowości opisu
Wpływ otoczenia na proces
opisują zmienne objaśniające
(egzogeniczne) X
(c)
A lub B (A+B)
(a)
A
A
B
(b)
A+(~A)=E
A i B
A*B
~A
nieA
(d)
A
(e)
B
E
Zdarzenie pewne E
(suma wszystkich zdarzeń możliwych)
Zdarzenia rozłączne A, B
Dystrybuanta i gęstość rozkładu równomiernego
a+b
a-b
x
1
x=a
F(x)
f(x)
0