JEDNOCZYNNIKOWY MODEL ANALIZY WARIANCJI (MODEL STAŁY)
Sformułowanie modelu
Zmienna Y w populacji generalnej (zmienna objaśniana) zależy od pewnego czynnika, który przyjmuje r poziomów.
Przyjmując poziom czynnika za kryterium podziału wyodrębniamy r subpopulacji (grup) i rozpatrujemy zmienne Y1, Y2,...,Yr, które mają rozkłady N(μi,σ2)
Z każdej subpopulacji pobieramy próbę prostą o liczebności ni, przy czym
Jeżeli czynnik nie wpływa na wartości zmiennej Y, to prawdziwa jest hipoteza zerowa:
wobec hipotezy alternatywnej:
Oznaczamy przez yki obserwację o numerze k z i-tej próby i przyjmujemy, że obserwacje generowane są przez model:
,
gdzie:
μ - stała wartość, identyczna dla wszystkich grup,
αi - nieznana stała opisująca wpływ i-tego poziomu czynnika na wartość zmiennej Y,
ξki - zmienna losowa opisująca łączny wpływ innych czynników o charakterze losowym na wartość zmiennej Y.
Zmienna ξki nazywana jest składnikiem (błędem) losowym. Przyjmuje się, że każda zmienna ξki ma rozkład N(0;σ) oraz że są one niezależne, czyli
dla wszystkich k, i, k', i', przy czym k≠k'.
Możemy zatem zapisać:
czyli obserwacja yki pochodzi z subpopulacji o wartości oczekiwanej μi.
Stała αi charakteryzuje odchylenie średniej zmiennej Y w i-tej grupie od średniej ogólnej dla całej populacji, spełnia zatem warunek
. Hipoteza zerowa może więc być sformułowana równoważnie jako
Weryfikacja hipotezy zerowej o identyczności średnich
w r populacjach
Założenie
Istotność różnic między średnimi może być oceniana na podstawie relacji zróżnicowania między średnimi w wyodrębnionych grupach do ogólnego zróżnicowania badanej zmiennej
Oznaczenia
nr obserwacji (k) |
1 |
numer 2 |
grupy .... |
(i) r |
1 |
|
|
|
|
2 |
|
|
|
|
... |
|
|
|
|
ni |
|
|
|
|
liczebność grupy |
ni |
n2 |
.... |
nr |
średnie grupowe |
|
|
.... |
|
Średnia ogólna:
Średnia grupowa:
Całkowita suma kwadratów odchyleń od średniej ogólnej:
gdzie:
SST - całkowita zmienność zmiennej Y,
SSE - zmienność wewnątrzgrupowa,
SSB - zmienność międzygrupowa.
Procedura
Do weryfikacji hipotezy zerowej wykorzystujemy statystykę postaci:
gdzie:
Statystyka F przy założeniu słuszności hipotezy zerowej ma rozkład F-Snedecora o stopniach swobody licznika i mianownika odpowiednio r-1 oraz n-r.
Obszar krytyczny wyznaczony jest z zależności:
Zestawienie obliczeń w postaci tablicy analizy wariancji
Źródło zmienności |
Suma kwadratów odchyleń |
Stopnie swobody |
Średni kwadrat odchyleń |
Czynnik (zróżnicowanie międzygrupowe) |
SSB |
r-1 |
MSB |
Błąd losowy (zróżnicowanie wewnątrzgrupowe) |
SSE |
n-r |
MSE |
Zróżnicowanie całkowite |
SST |
n-1 |
- |
Weryfikacja założeń modelu wariancji
Założenia:
składniki losowe
mają rozkład N(0;σ),
składniki losowe
są niezależne,
identyczność wariancji zmiennej objaśnianej w grupach.
Test jednorodności wariancji
hipotezy
testy Bartletta, Cochrana, Hartleya
PRZYKŁAD
Organizacja Współpracy Gospodarczej i Rozwoju (OECD) stosuje poniższą klasyfikację regionów (województw) w Polsce (według stopnia ich rozwoju), wyróżniając następujące grupy:
A - rozwinięte regiony rolnicze,
B - słabo rozwinięte regiony rolnicze,
C - rozwinięte regiony uprzemysłowione,
D - słabo rozwinięte regiony uprzemysłowione,
F - rozwinięte regiony „mieszane”,
G - nierozwinięte regiony „mieszane”.
TABLICA 1
Województwa |
Klasyfikacja |
Stopa bezrobocia |
Stoł. Warszawskie Bialskopodlaskie Białostockie Bielskie Bydgoskie Chełmskie Ciechanowskie Częstochowskie Elbląskie Gdańskie Gorzowskie Jeleniogórskie Kaliskie Katowickie Kieleckie Konińskie Koszalińskie Miej. krakowskie Krośnieńskie Legnickie Leszczyńskie Lubelskie Łomżyńskie Miej. łódzkie Nowosądeckie Olsztyńskie Opolskie Ostrołęckie Pilskie Piotrkowskie Płockie Poznańskie Przemyskie Radomskie |
F B F C C A B D G F G D C D B B G F B C G G B C B G D B G D B F B B |
7,7 12,2 13,4 11,1 18,9 13,3 22,3 13,5 27 14,8 21,3 18,7 17,1 9,7 17,9 18,1 28,8 7,2 16,4 17,8 13,9 13,5 17,5 20,5 13,9 27,9 13,2 18,9 24,6 19,7 20,8 8,2 16,5 19,5 |
Rzeszowskie Siedleckie Sieradzkie Skierniewickie Słupskie Suwalskie Szczecińskie Tarnobrzeskie Tarnowskie Toruńskie Wałbrzyskie Włocławskie wrocławskie Zamojskie Zielonogórskie |
G B B B G B F B A G D A F B C |
17 15,4 14,8 14,2 27,5 28,8 14,1 13,4 14,5 21,9 23,9 22 13,3 13,5 18,1 |
Przekrojowe dane, dotyczące całej zbiorowości województw w ustalonym momencie, potraktujemy jako próbę z populacji hipotecznej.
Formalnie zweryfikujemy hipotezę zerową, że średnie stopy bezrobocia w poszczególnych grupach województw są identyczne:
wobec alternatywy, że co najmniej dwie średnie różnią się między sobą.
TABLICA 2
Źródło zmienności |
Suma kwadratów odchyleń |
Stopnie swobody |
Średni kwadrat odchyleń |
Zróżnicowanie międzygrupowe |
SSB = 516,65 |
5 |
MSB = 103,33 |
Zróżnicowanie wewnątrzgrupowe |
SSE = 871,77 |
43 |
MSE = 20,27 |
Ogółem |
SST = 1388,42 |
48 |
_ |
Obliczamy wartość statystyki
.
Jeśli przyjmiemy poziom istotności α=0,05, to wartość krytyczna rozkładu F-Snedecora wynosi
.
Obszar krytyczny ma postać:
.
co oznacza, że (z prawdopodobieństwem popełnienia błędu równym 0,05) odrzucamy hipotezę zerową, a więc przeciętne stopy bezrobocia w sześciu wyodrębnionych grupach województw różnią się istotnie między sobą. Inaczej mówiąc, otrzymany wynik wskazuje na to, że stopa bezrobocia zależy od poziomu rozwoju województwa (według przyjętych przez OECD kryteriów).
Można też stwierdzić, że z punktu widzenia zróżnicowania bezrobocia zastosowana klasyfikacja województw jest uzasadniona.