Zadanie 1.
Na podstawie poniższego zestawienia, należy oszacować (wypełnić także puste miejsca i wyjaśnić zastosowane oznaczenia) średni staż pracy oraz jego zróżnicowanie w firmie „F”.
Parametry Q |
|
|
|
|
|
|
|
|
|
E(X) = ? D(X) = ? |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
x średnia |
D(X) |
S(x) |
T |
D(T) |
1- |
|
|
-u |
50 |
10 |
nieznane |
5 |
… |
… |
0,95 |
… |
… |
-1,96 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Dolna granica |
Górna granica |
|
|
… …
n |
x średnia |
D(X) |
S(x) |
T |
D(T) |
1- |
|
|
-u |
50 |
10 |
nieznane |
5 |
… |
… |
0,95 |
… |
… |
-1,96 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Dolna granica |
Górna granica |
|
|
… …
Zinterpretować otrzymany przedziały.
Miarą zróżnicowania stażu pracy jest odchylenie standardowe stażu pracy.
Można określić tzw. przedział ufności, w którym z prawdopodobieństwem 95 % zawiera się oszacowane odchylenie standardowe stażu pracy.
X - zmienna - staż pracy [w latach np.]
Przedział ufności dla odchylenia standardowego σ w populacji generalnej.
T - szacowany parametr (odchylenie std) z próby
- maksymalny błąd (odchylenie standardowe) na parametrze z próby
- wartość krytyczna z tablic rozkładu normalnego
Próba jest liczna - przekracza 30 obserwacji, a podana wariancja jest obciążona (zwykła)
.
(n>30 ;w przypadku dużej próby budujemy przedział ufności dla odchylenia standardowego)
n = 50 (n >30) , więc korzystam z rozkładu normalnego
=>
Interpretacja
Przedział ufności dla odchylenia standardowego stażu pracy przy współczynniku ufności 0,95 to
(lat).
Zadanie 2.
Do badania średniej płacy w przedsiębiorstwie „P”, wylosowano 70 pracowników. Pracownicy ci zarabiali średnio 2900 zł (± 300). Badanie miało na celu sprawdzenie przypuszczenia, że w tym przedsiębiorstwie pracownicy zarabiają średnio biorąc więcej niż 2500 zł. Wnioskując w tym zakresie dopuszczono nie więcej niż 5 pomyłek na 100. Poniżej przedstawiono wyniki badania uzyskane przy zastosowaniu programu Gretl (wskazać odpowiedni moduł). Zapisać odpowiednie hipotezy oraz podjąć decyzję weryfikacyjną w oparciu o udostępnione wyniki badania.
Hipoteza zerowa: średnia z populacji = 2500
Liczebność próby: n = 70
Średnia z próby = 2900, odchylenie std. = 300
Statystyka testowa: z = (2900 - 2500)/35,8569 = 11,1555
Dwustronny obszar krytyczny p = 6,734e-029
(jednostronny obszar krytyczny = 3,367e-029)
Moduł programu Gretl:
X - płaca [zł]
Oznaczenia:
- średnia (arytmetyczna) z próby = 2900
- średnia z populacji generalnej
- odchylenie standardowe z próby = 300
- odchylenie standardowe z populacji generalnej - nieznane!
- poziom, do którego porównujemy w treści zadania = 2500
n - liczba obserwacji (wielkość próby) = 70
Hipotezy:
(średnia wynosi tyle samo, co wartość zakładana)
(średnia jest wyższa od zakładanej)
Uwaga:
Przy hipotezie alternatywnej jednostronnej:
Tj. :
lub
Należy szukać wartość krytyczną w tablicach statystycznych przy podwojonej wartości
.
Próba jest liczna (n > 30), więc korzystam z rozkładu normalnego
Statystyka testu:
Hipoteza zerowa: średnia z populacji = 2500
Liczebność próby: n = 70
Średnia z próby = 2900, odchylenie std. = 300
Statystyka testowa: z = (2900 - 2500)/35,8569 = 11,1555
Dwustronny obszar krytyczny p = 6,734e-029
(jednostronny obszar krytyczny = 3,367e-029)
Testy można weryfikować na podstawie u i u alfa, bądź porównania wartości p i poziomu alfa. Wyniki są te same. W programie Gretl jest już podany poziom wartości p.
Decydujemy na podstawie wartości p i poziomu alfa.
Jeśli alternatywna hipoteza jest jednostronna, to w programie Gretl wybieramy
. Wartość p = 3,367e-09.
Alfa = 0,05.
Wartość p = 3,367e-09 < alfa = 0,05
Zachodzi:
Wartość p < 0,05 => istnieją podstawy do odrzucenia hipotezy zerowej
Przy poziomie istotności 0,05 odrzucamy hipotezę zerową mówiącą o tym, że płaca jest równa 2500 zł. Jest ona wyższa.
Dodatkowo:
Wartość p < 0,05 => istnieją podstawy do odrzucenia hipotezy zerowej
To to samo, jak:
|u|>
=> istnieją podstawy do odrzucenia hipotezy zerowej
Zadanie 3.
Zapytano dwóch studentów o sposób zbadania zależności między wydatkami na kulturę a wykształceniem Polaków. Według pierwszego z nich do badania należy wyodrębnić próbę losową osób, określić warianty badanych cech, policzyć współczynnik korelacji liniowej Pearsona i ocenić jego statystyczną istotność. Drugi ze studentów odpowiedział, że należy wytypować próbę losową osób, określić warianty badanych cech, policzyć statystykę χ2 i zastosować ją jako test niezależności, a następnie obliczyć współczynnik Czuprowa. Czy Twoim zdaniem rację miał: (a) pierwszy ze studentów, (b) drugi, (c) obaj, ponieważ są to dwa równoważne sposoby rozwiązania tego samego problemu, (d) żaden, ponieważ należało postąpić następująco … (opisać, jak), (e) jedna z odpowiedzi (a) - (c) jest prawidłowa (wskazać, która), ale można było również postąpić następująco … (opisać, jak).
Zależność między wydatkami (cecha ilościowa ciągła - w jednostce zł), a wykształceniem (cecha jakościowa, skokowa).
Pierwszy student się myli, bo współczynnik korelacji liniowej Pearsona (miernik siły związku prostoliniowego między dwoma cechami mierzalnymi)
wymaga 2 cech ilościowych. Tam m.in. liczy się średnie, odchylenia - jak więc liczyć średnią wykształcenia?! Nie jest to możliwe.
Drugi student też się myli. Współczynnik zbieżności Czuprowa
mierzy siłę korelacji w przypadku dwóch cech nominalnych, a jedna z naszych cech jest ilościowa.
Odpowiedź:
Należy stworzyć np. przedziały wydatków oraz posegregować typy wykształceń.
Stworzyć tabele korelacyjną, policzyć statystykę
, potem ją przetestować testem niezależności.
gdzie:
(Liczebności teoretyczne)
Liczebności teoretyczne wyznaczamy na podstawie iloczynu dwóch liczebności (sumy wiersza i sumy kolumny dla danej wartości xij) podzielonego przez generalną liczebność.
Potem:
(Współczynnik Vxy- Cramera)
Gdzie:
min(k;w) - mniejsza z liczby kolumn lub wierszy
<0;1>
Vxy = 0, gdy zmienne są stochastycznie niezależne,
Vxy = 1, gdy między zmiennymi jest związek funkcyjny.
Może być obliczany na podstawie dowolnej tablicy korelacyjnej (w odróżnieniu od współczynnika Yule'a).
Zadanie 4.
W celu zbadania zależności między wielkością obrotów a liczbą klientów pewnego supermarketu zbudowano klasyczny model ekonometryczny. W wyniku estymacji i weryfikacji tego modelu otrzymano:
Model 1: Estymacja KMNK z wykorzystaniem 72 obserwacji 2005:01-2010:12
Zmienna zależna: obroty
współczynnik błąd standardowy t-Student wartość p
---------------------------------------------------------------------
const 394623 491353 0,8031 0,4246
liczba_klientow 21,9766 3,10141 7,086 8,70E-010 ***
Średnia arytmetyczna zmiennej zależnej = 3,82849e+006
Odchylenie standardowe zmiennej zależnej = 896481
Suma kwadratów reszt = 3,32271e+013
Błąd standardowy reszt = 688965
Wsp. determinacji R-kwadrat = 0,41769
Skorygowany wsp. R-kwadrat = 0,40937
Stopnie swobody = 70
Statystyka testu Durbina-Watsona = 1,5112
Autokorelacja reszt rzędu pierwszego = 0,208477
(1) Zapisać empiryczny model regresji. (2) Zinterpretować wartość współczynnika regresji.
(3) Wypowiedzieć się na temat jego istotności. (4) Zinterpretować również: S(u), R2 ϕ2.
Czy rozważany model spełnia podstawowe kryteria weryfikacji statystycznej i ekonomicznej?
Polecenie 1.
Model empiryczny: obroty^i = 394623 + 21,9766 * liczba_klientowi
Polecenie 2.
Interpretacja współczynnika regresji
+ 21,9766 * liczba_klientowi
Jeśli obroty sklepu są np. w zł, a liczba klientów w osobach, to:
Wzrost liczby klientów o 1 osobę powoduje wzrost obrotów sklepu przeciętnie o 21,9766 zł (ceteris paribus).
Polecenie 3.
Istotność współczynnika regresji
Oszacowany parametr: 21,9766
Błąd na oszacowanym parametrze:
Test t- Studenta na istotność poszczególnych (indywidualnych) współczynników regresji
Hipotezy:
(parametr stojący przy zmiennej „i” jest nieistotny statystycznie)
(parametr stojący przy zmiennej „i” jest istotny statystycznie)
i = 1.
Obliczone wartości statystyk dla każdego z parametrów strukturalnych:
Znów decyzje można podjąć na podstawie t i t krytycznej.
My podejmiemy decyzje na podstawie wartości p i poziomu alfa:
Poziom istotności (wartość p) = 8,70E-010 < przyjęty poziom istotności (
)
Oznacza to, że przy
należy odrzucić H0, czyli parametr jest statystycznie istotny - zmienna „liczba_klientow” jest istotna.
Ważna dla jakości modelu jest istotność wszystkich parametrów stojących przy zmiennych objaśniających - świadczy to o tym, że wszystkie zmienne wykazują w modelu trwały wpływ na zmienną objaśnianą. Jest to podstawowe kryterium oceny jakości modelu.
Polecenie 4.
Zinterpretować:
Błąd standardowy reszt
Wartości empiryczne (rzeczywiste) obrotów sklepu różnią się od ich wartości teoretycznych (wyznaczonych na podstawie modelu) średnio o 688965 zł.
Współczynnik determinacji R2
R2 = 41,769 %
Interpretacja
Zmienność czynników uwzględnionych w modelu (liczby klientów sklepu) wyjaśniła około 41,769 % zmienności obrotów sklepu w badanym okresie.
Stopień wyjaśnienia zmienności zmiennej objaśniającej w modelu w porównaniu do granicznej (minimalnej) wartości tego współczynnika - możemy uznać za zbyt niski.
Współczynnik indeterminacji
= 100 % - 41,769 % = 58,231 %
Interpretacja
Zmienność czynników uwzględnionych w modelu (liczby klientów sklepu) nie wyjaśniła około 58,231 % zmienności obrotów sklepu w badanym okresie. Pozostałe czynniki wyjaśniają 58,231 % zmienności obrotów sklepu w badanym okresie.
Stopień niewyjaśnienia zmienności zmiennej objaśniającej w modelu w porównaniu do granicznej (minimalnej) wartości tego współczynnika - możemy uznać za zbyt wysoki.
Nie, nie spełnia. Parametr przy zmiennej dot. liczby klientów jest istotna, a więc ta zmienna trwale wpływa na wielkość obrotów, ale poziom wyjaśnienia zmienności zmiennej objaśnianej (wielkość obrotów) jest zbyt niski - powinno być przynajmniej 85 % tego współczynnika.
Dodatkowo:
Błąd S(u) w porównaniu do średniej y:
V(u) = 688965 / 3,82849e+006 = 17,996 % przekracza maksymalne 15 %, co oznacza, że model nie nadaje się do prognozowania.
Model niskiej jakości - nie spełnia podstawowych kryteriów oceny statystycznej.
Zadanie 5.
Na podstawie danych dotyczących wielkości obrotów pewnego przedsiębiorstwa handlowego (styczeń 2005 - grudzień 2009) dopasowano model z trendem liniowym (zapisać hipotezę takiego modelu - tzn. model hipotetyczny), oszacowano parametry tego modelu i wyznaczono prognozy obrotów na trzy okresy wprzód (wyniki poniżej). Polecenie: Ocenić otrzymane prognozy.
|
|
:
[hipoteza modelowa]
Oszacowany model ma postać:
Mając tylko takie dane dot. prognoz:
Okres przyjęty za próbę to styczeń 2005 - grudzień 2009, to 60 obserwacji.
W przypadku trendu liniowego podstawiamy kolejne „numery czasu”: 61, 62 i 63. [sprawdź liczby]
Błąd ex ante - ocena dopuszczalności prognozy do praktycznego wykorzystania (przyjmując maksymalny poziom błędu ex ante równy 5%):
Bezwzględny błąd
[podany w tabeli początkowej jako „błąd standardowy”]
Względny
Zasada oceny dopuszczalności prognozy:
=> prognoza dopuszczalna do praktycznego wykorzystania
=> prognoza niedopuszczalna do praktycznego wykorzystania
Obs |
Vt |
Ytp |
|
Ocena prognozy |
Styczeń 2010 |
501160,380 |
3794559,500 |
13,21% |
niedopuszczalna |
Luty 2010 |
501967,830 |
3831711,100 |
13,10% |
niedopuszczalna |
Marzec 2010 |
502799,980 |
3868862,600 |
13,00% |
niedopuszczalna |
Komentarz:
Prognozy zmiennej objaśnianej okazały się niedopuszczalne do praktycznego wykorzystania dla okresów prognozowania, ponieważ błąd prognoz przekraczał maksymalny poziom błędu ex ante = 5 %.
2