Zadanie nr 17
Korzystając z informacji zamieszczonych w tabeli poniżej, dobrać postać analityczną modelu regresji:
yi |
xi |
30 |
100 |
50 |
150 |
90 |
200 |
80 |
300 |
100 |
350 |
120 |
450 |
120 |
550 |
160 |
600 |
140 |
700 |
150 |
900 |
150 |
1000 |
170 |
1050 |
160 |
1200 |
Y= wydatki na odzież i obuwie(w zł)
X= wydatki ogółem (w zł)
W szacowaniu modelu posłużymy się metodą najmniejszych kwadratów. Obliczenia zostaną wykonane za pomocą programu Excel. Przy weryfikacji hipotez istotności zakładamy współczynnik α=0,05.
Rozwiązanie
Poniżej graficzna prezentacja danych do zadania
Do zbadania zależności danych oraz w celu zaproponowania modelu analitycznego modelu, przeprowadzimy analizę danych po przez :
funkcję liniową
funkcję Tőrnqista
Ad.1
Parametry funkcji liniowej, przedstawionej poniżej :
będziemy szacować za pomocą MNK. Wektor parametrów rozwiązania obliczamy wg wzoru:
za macierz X podstawiamy Wydatki ogółem.Macierz Y otrzymujemy przypisując do niej wydatki na odzież i obuwie.
Kolejnym krokiem jest transpozycja macierzy X :
Macierz XT mnożymy przez macierz X otrzymując macierz:
Obliczamy wyznacznik macierzy, który dla tego przypadku wynosi: 20900000 . Macierz odwrotna istnieje, więc przedstawiamy ją poniżej:
Następnym krokiem jest obliczenie ilorazu XTY, wynosi on:
Ostatnim krokiem w celu obliczenia wektora rozwiązań równania jest obliczenie iloczynu macierzy (XTX)-1(XTY)
Powyższa macierz jest macierzą parametrów naszego równania. Możemy przypisać odpowiednio
oraz
Uzyskujemy dzięki temu równanie o parametrach:
Kolejnym analizy, jest oszacowanie parametrów rozkładu składnika losowego pozwalające wnioskować o dobroci dopasowania modelu do danych empirycznych. Do pierwszego parametru należą średnie błędów szacunku estymatorów modelu. Należy obliczyć najpierw wariancje resztową
:
gdzie:
n - liczba obserwacji (dla naszego przykładu 13),
k - liczba parametrów modelu (dla naszego przypadku 2).
Obliczmy najpierw iloczyn macierzy YTY, który wynosi 201400. Iloczyn macierzy XTY mamy już obliczony powyżej, dla przypomnienia pozostaje nam obliczyć iloczyn tej macierzy i wektora rozwiązań czyli
, a wynosi on: 196605. Przejdźmy do obliczenia
Możemy już teraz przejść do obliczenia średnich błędów szacunku modelu, które liczymy wg wzoru:
gdzie cji to elementy stojące na przekątnej macierzy (XT X)-1.
Obliczamy średnie błędy szacunku dla poszczególnych parametrów strukturalnych modelu:
dla a0
dla a1
Model nasz możemy, więc zapisać w postaci:
Saj = (11,178) (0,0165)
W celu zbadania istotności parametrów strukturalnych modelu weryfikujemy hipotezę
wobec alternatywnej
W tym celu wyznaczamy ze statystyki
t0 dla a0, które wynosi :
oraz t1 dla a1
Z tablic rozkładu t-Studenta dla n-k stopni swobody i α = 0,05 odczytujemy: t0,05,11 =2,201.
Przedstawmy tę sytuację na wykresie:
Wyniki mówią nam, że parametr a0 dla którego przyjmujemy hipotezę H0 jest statystycznie różny od 0, oznacza to, że parametr ten ma wpływ na model. Parametr a1 jest istotnie różny od zera. Ma on wpływ na wielkość wydatków. Zapiszmy, więc nasz model :
Saj : (2,55) (0,14)
tj : (4,829) (6,57)
Aby sprawdzić dopasowanie oszacowanego modelu do danych rzeczywistych wyznaczamy współczynnik determinacji R2 oraz odchylenie standardowe składnika resztowego modelu s.
Odchylenie standardowe reszt jest niczym innym jak pierwiastkiem kwadratowym z
czyli
w naszym przypadku wynosi ono 20,88 i mówi nam że przeciętne odchylenie wartości empirycznych od wartości rzeczywistych wynosi 20,88 zł.
Współczynnik determinacji obliczamy wg wzoru:
n - liczba obserwacji (13)
- średnia z macierzy = 116,9231
Pozostałe wartości tego równania mamy już obliczone powyżej i po podstawieniu otrzymujemy
Model nasz jest więc słabo dopasowany do danych empirycznych, bo wyjaśnia tylko 79,75 % obserwacji. Posiadając obliczony współczynnik determinacji
możemy obliczyć współczynnik zbieżności
, który liczymy jako różnice : 1 - R2 .
Wysoka wartość współczynnik zbieżności świadczy o mało dokładnym dopasowaniu modelu do danych empirycznych. Współczynnik ten mierzy tę część całkowitej zaobserwowanej zmienności zmiennej Y, która wynika z działania czynników losowych ( przypadkowych).
Współczynnik korelacji wielorakiej, to kolejna miara dopasowania modelu do danych empirycznych. Jest on pierwiastkiem kwadratowym z R2. Dla naszego modelu:
Ostatnią miarą dopasowania modelu jest współczynnik zmienności losowej, czyli
Dla naszego modelu, uzyskujemy
Współczynnik V informuje nas , jaki procent średniego poziomu zaobserwowanej zmienności zmiennej objaśnianej Y stanowią odchylenia przypadkowe w danym równaniu trendu. Sytuacja ze statystycznego punktu widzenia jest tym lepsza im wartość V jest bliższa 0.
Współczynnik ten jest wysoki co oznacza, że cechy wykazują zróżnicowanie statystycznie istotne.
Aby odpowiedzieć na to pytanie,czy występuje autokorelacja zastosujmy statystykę
Durbina-Watsona. Musimy wykonać obliczenia pomocnicze, które przedstawiamy w tabeli poniżej.
x |
yt |
Yt |
et |
et2 |
et-1 |
et-12 |
et -et-1 |
et et-1 |
(et -et-1)2 |
100 |
30 |
64,82 |
-34,82 |
1212,66 |
- |
- |
- |
- |
- |
150 |
50 |
70,24 |
-20,24 |
409,79 |
-34,82 |
1212,66 |
14,58 |
704,94 |
212,58 |
200 |
90 |
75,66 |
14,34 |
205,54 |
-20,24 |
409,79 |
34,58 |
-290,22 |
1195,78 |
300 |
80 |
86,50 |
-6,50 |
42,29 |
14,34 |
205,54 |
-20,84 |
-93,24 |
434,31 |
350 |
100 |
91,92 |
8,08 |
65,23 |
-6,50 |
42,29 |
14,58 |
-52,53 |
212,58 |
450 |
120 |
102,76 |
17,24 |
297,10 |
8,08 |
65,23 |
9,16 |
139,22 |
83,91 |
550 |
120 |
113,60 |
6,40 |
40,92 |
17,24 |
297,10 |
-10,84 |
110,26 |
117,51 |
600 |
160 |
119,02 |
40,98 |
1679,09 |
6,40 |
40,92 |
34,58 |
262,12 |
1195,78 |
700 |
140 |
129,86 |
10,14 |
102,75 |
40,98 |
1679,09 |
-30,84 |
415,37 |
951,11 |
900 |
150 |
151,54 |
-1,54 |
2,38 |
10,14 |
102,75 |
-11,68 |
-15,64 |
136,42 |
1000 |
150 |
162,38 |
-12,38 |
153,35 |
-1,54 |
2,38 |
-10,84 |
19,11 |
117,51 |
1050 |
170 |
167,80 |
2,20 |
4,83 |
-12,38 |
153,35 |
14,58 |
-27,20 |
212,58 |
1200 |
160 |
184,06 |
-24,06 |
579,04 |
2,20 |
4,83 |
-26,26 |
-52,86 |
689,59 |
|
- |
- |
- |
4794,98 |
- |
263,31 |
- |
-76,60 |
1156,09 |
Dla zastosowania tej statystyki musimy zastosować poniższe wzory
Estymator współczynnika autokorelacji
co po podstawieniu naszych danych z tabeli daje nam r = -0,068
Statystyka Durbina-Watsona
po podstawieniu danych z tabeli pomocniczej otrzymujemy d =0,241.
Z tablic wartości krytycznych statystyki Durbina-Watsona, dla α=0,05 oraz n=13 i k=2 odczytujemy odpowiednie statystyki dL=0,861 oraz du=1,562. Testujemy hipotezę
wobec hipotezy alternatywnej
Nanieśmy nasze dane na wykres.
Z powyższego wykresy wynika, że przyjmujemy hipotezę H1. W naszym modelu mamy do czynienia z dodatnią autokorelacją składników losowych.
Jesteśmy zmuszeni wprowadzić macierz
, którą określamy jako
Jest to macierz, której na przekątnej wpisujemy 1+r2 , jedynie pierwszy i ostatni element przekątnej to 1. w pola sąsiadujące z przekątną wpisujemy -r . W pozostałe pola wpisujemy 0.
Macierz Ω-1 ma wymiary 13x13 . Uwzględniając macierz Ω-1, wektor rozwiązań naszego modelu znajdziemy z wzoru:
Pierwszy człon tego równania
jest równy:
Drugi człon tego równania
jest równy:
Po wymnożeniu obu macierzy otrzymujemy nowy wektor rozwiązań modelu :
Ostatecznie model nasz możemy zapisać :
Poniżej przedstawiamy graficzną prezentację danych otrzymanych przy pomocy powyższego wzoru.
Ad.2
aby wykonać obliczenia, musimy dokonać przekształceń:
po uproszczeniu:
Uzyskujemy, więc macierz X w postaci:
Model ten, tak ja i poprzedni możemy obliczyć MNK, czyli wg wzoru:
Wynik naszej operacji na macierzach (XTX)-1, jest macierz:
Macierz XTY wygląda następująco:
Po wymnożeniu naszych macierzy, uzyskujemy
:
Model nasz możemy zapisać w postaci:
Kolejnym krokiem będzie obliczenie wariancji resztowej
:
gdzie:
n - liczba obserwacji (dla naszego przykładu 13),
k - liczba parametrów modelu (dla naszego przypadku 2).
Iloczyn macierzy YTY wynosi 0,002282, natomiast iloczyn
- 0,002236. Po obliczeniu uzyskujemy, więc
= 4,2054E-06.
Możemy już teraz przejść do obliczenia średnich błędów szacunku modelu, które liczymy- dla przypomnienia wg wzoru:
gdzie cji to elementy stojące na przekątnej macierzy (XT X)-1
Obliczamy średnie błędy szacunku dla poszczególnych parametrów strukturalnych modelu:
dla a0
dla a1
Model nasz możemy, więc zapisać w postaci:
Saj : (8,63*10-4) (0,217)
W celu zbadania istotności parametrów strukturalnych modelu zakładamy weryfikujemy hipotezę
wobec alternatywnej
W tym celu wyznaczamy ze statystyki
t0 dla a0, które wynosi :
oraz t1 dla a1
Z tablic rozkładu t-Studenta dla n-k stopni swobody i α = 0,05 odczytujemy: t0,05,11 =2,201.
Przedstawmy tę sytuację na wykresie:
Już z wykresu widzimy, że wszystkie nasze parametry modelu są istotnie różne od zera. Oszacowane przez nas parametry modelu mają istotny wpływ na wielkość wydatków. Zapiszmy nasz model w postaci:
Saj : (8,63*10-4) (0,217)
tj : (312,86) (12,67)
Aby sprawdzić dopasowanie oszacowanego modelu do danych rzeczywistych wyznaczamy współczynnik determinacji R2 oraz odchylenie standardowe składnika resztowego modelu s.
Odchylenie standardowe reszt jest niczym innym jak pierwiastkiem kwadratowym z
czyli
w naszym przypadku wynosi ono 2,05*10-3 co oznacza, że przeciętne odchylenie wartości empirycznych od wartości rzeczywistych wynosi 2,05*10-3 zł. Obliczmy
, który obliczamy wg wzoru:
n - liczba obserwacji (13)
- średnia z macierzy = 0,0110
Pozostałe wartości tego równania mamy już obliczone powyżej i po podstawieniu otrzymujemy
Model nasz jest więc bardzo dobrze dopasowany do danych empirycznych, bo wyjaśnia aż 93,58 % obserwacji. Posiadając obliczony współczynnik determinacji
możemy obliczyć
współczynnik zbieżności
, który liczymy jako różnice : 1 - R2 .
Niska wartość współczynnik zbieżności świadczy o dokładnym dopasowaniu modelu do danych empirycznych.
Współczynnik korelacji wielorakiej, jest on pierwiastkiem kwadratowym z R2. Dla naszego modelu:
Ostatnią miarą dopasowania modelu jest współczynnik zmienności losowej, czyli
Dla naszego modelu, uzyskujemy
Współczynnik ten jest wysoki co oznacza, że cechy wykazują zróżnicowanie statystycznie istotne.
Zastosujmy statystykę Durbina-Watsona dla Yt. wg wzoru:
gdzie 370,37 to
a 1018,18 to β - wartość otrzymana z proporcji 2,7491= β / 370,37
Musimy wykonać obliczenia pomocnicze, które prezentujemy w tabeli poniżej.
x |
yt |
Yt |
et |
et2 |
et-1 |
et-12 |
et -et-1 |
et et-1 |
(et -et-1)2 |
100 |
30 |
33,123 |
-3,12 |
9,75 |
- |
- |
- |
- |
- |
150 |
50 |
47,557 |
2,44 |
5,97 |
-3,12 |
9,75 |
5,57 |
-7,63 |
30,97 |
200 |
90 |
60,807 |
29,19 |
852,23 |
2,44 |
5,97 |
26,75 |
71,31 |
715,57 |
300 |
80 |
84,291 |
-4,29 |
18,41 |
29,19 |
852,23 |
-33,48 |
-125,27 |
1121,19 |
350 |
100 |
94,746 |
5,25 |
27,61 |
-4,29 |
18,41 |
9,55 |
-22,55 |
91,11 |
450 |
120 |
113,52 |
6,48 |
42,00 |
5,25 |
27,61 |
1,23 |
34,05 |
1,51 |
550 |
120 |
129,9 |
-9,90 |
97,97 |
6,48 |
42,00 |
-16,38 |
-64,15 |
268,27 |
600 |
160 |
137,33 |
22,67 |
514,00 |
-9,90 |
97,97 |
32,57 |
-224,40 |
1060,78 |
700 |
140 |
150,89 |
-10,89 |
118,63 |
22,67 |
514,00 |
-33,56 |
-246,93 |
1126,49 |
900 |
150 |
173,78 |
-23,78 |
565,28 |
-10,89 |
118,63 |
-12,88 |
258,96 |
166,00 |
1000 |
150 |
183,52 |
-33,52 |
1123,38 |
-23,78 |
565,28 |
-9,74 |
796,88 |
94,89 |
1050 |
170 |
188,03 |
-18,03 |
325,23 |
-33,52 |
1123,38 |
15,48 |
604,45 |
239,71 |
1200 |
160 |
200,36 |
-40,36 |
1629,27 |
-18,03 |
325,23 |
-22,33 |
727,94 |
498,63 |
|
- |
- |
- |
5329,73 |
- |
3700,46 |
- |
1802,65 |
5415,13 |
Dla obliczenia tej statystyki musimy zastosować poniższe wzory
Estymator współczynnika autokorelacji
co po podstawieniu naszych danych z tabeli daje nam r = 0,406
Statystyka Durbina-Watsona
po podstawieniu danych z tabeli pomocniczej otrzymujemy d =1,016.
Z tablic wartości krytycznych statystyki Durbina-Watsona, dla α=0,05 oraz n=13 i k=2 odczytujemy odpowiednie statystyki dL=0,861 oraz du=1,562.
Testujemy hipotezę
wobec hipotezy alternatywnej
Nanieśmy nasze dane na wykres.
W naszym przypadku (dla tego modelu ) nie możemy odpowiedzieć na pytanie o występowanie autokorelacji. Dla tego modelu mamy zbyt małą liczebność próby, by odpowiedzieć na to pytanie.
Nanieśmy jeszcze nasze dane uzyskane za pomocą ekstrapolacji naszą funkcją na wykres.
Wadą pierwszego modelu jest występowanie autokorelacji składników losowych. Występuje tu też wyższy niż w innych prezentowanych modelach współczynnik zmienności losowej V.
Ogólne miary dopasowania świadczą o tym, że to drugi model ,model funkcji Tőrnqista jest najlepiej dopasowany do danych empirycznych. Model ten również ma najniższy błąd standardowy s czyli przeciętne odchylenie ilości rzeczywistej od ilości wyznaczonej na podstawie modelu. Z tego powodu model ten w postaci:
uznaliśmy za dobry i wybraliśmy go jako końcowy efekt naszej pracy.
15
H1
H1
H0
tj
t1=6,57
t0=4,829
tα
-tα
t0=312,86
t1=12,67
tα
-tα
tj
H0
H1
H1