Przykład 1
Problem badawczy
(na podstawie danych, plik: przychód w USA.xls)
Czy obszar Stanów Zjednoczonych jest homogeniczny z punktu widzenia dochodów gospodarstw domowych? Czy są rejony, gdzie dochody są istotnie wyższe od pozostałych?
Analiza problemu ujawnia dwie zmienne: dochody gospodarstw domowych [w USD] oraz obszar Stanów Zjednoczonych. [regiony] Pierwsza ze zmiennych jest ilościowa i zależna, (replikacje o łącznej liczbie 51: dochody w 50 stanach oraz Dystrykcie Columbii) druga jest jakościowa i niezależna (czynnik o 4 poziomach: obszar północno-wschodni, północno-centralny, południowy i zachodni.
Hipoteza zerowa
Region Stanów Zjednoczonych nie determinuje istotnie wysokości dochodów gospodarstw domowych.
Hipoteza alternatywna
Istnieją istotne różnice w wysokości dochodów gospodarstw domowych pomiędzy regionami Stanów Zjednoczonych
Weryfikacja hipotezy zerowej
Wartość testu z próby wynosi F=1,919, podczas gdy wartość krytyczna testu dla poziomu istotności α=0,05 Fα=2,802. Oznacza to, iż dochód gospodarstw domowych nie różni się istotnie pomiędzy 4 regionami Stanów Zjednoczonych.
Wartość próbkowego poziomu istotności p-value=0,139, co stanowi 13,9%. Wobec 5%-go poziomu istotności testu stwierdzamy brak podstaw do odrzucenia Ho.
Wniosek: Obszar Stanów Zjednoczonych jest homogeniczny z punktu widzenia dochodów gospodarstw domowych.
Homoskedastyczność
Hipoteza zerowa:
Hipoteza alternatywna:
Reguła Hartley'a:
Badanie homoskedastyczności regułą Hartley'a pozwala stwierdzic, iż pomiędzy wariacjami w grupach nie występują istotne różnice. Oznacza to, iż model spełnia założenie homoskedastyczności. Nie ma podstaw do odrzucenia hipotezy zerowej.
Test Bartlett'a
λ=3,858
χ2=7,815
Badanie homoskedastyczności testem Bartlett'a potwierdza, iż wariacje w grupach są stałe. Model tym samym spełnia weryfikowane założenie. Nie ma podstaw do odrzucenia hipotezy zerowej.
Przykład 2
Problem badawczy
(na podstawie danych, plik: „firmy w USA.xls”)
Czy Stany Zjednoczone są zróżnicowane pod kątem ilości przedsiębiorstw? Czy są regiony, w których liczba podmiotów istotnie różni się od pozostałych?
Analiza problemu ujawnia dwie zmienne: ilość przedsiębiorstw [liczba podmiotów] oraz obszar Stanów Zjednoczonych. [regiony] Pierwsza ze zmiennych jest ilościowa i zależna, (replikacje o łącznej liczbie 51: liczba podmiotów w 50 stanach oraz Dystrykcie Columbii) druga jest jakościowa i niezależna (czynnik o 4 poziomach: obszar północno-wschodni, północno-centralny, południowy i zachodni.
Hipoteza zerowa
Liczba przedsiębiorstw nie różni się istotnie między regionami.
Hipoteza alternatywna
Istnieją regiony, gdzie liczba podmiotów gospodarczych jest istotnie wyższa, niż w pozostałych.
Weryfikacja hipotezy zerowej
Wartość testu z próby wynosi F=0,039, podczas gdy wartość krytyczna testu dla poziomu istotności α=0,05 Fα=2,802. Oznacza to, iż liczba przedsiębiorstw nie różni się istotnie pomiędzy 4 regionami Stanów Zjednoczonych.
Wartość próbkowego poziomu istotności p-value=0,990, co stanowi 99,0%. Wobec 5%-go poziomu istotności testu stwierdzamy brak podstaw do odrzucenia Ho.
Wniosek: Obszar Stanów Zjednoczonych jest homogeniczny z punktu widzenia ilości podmiotów gospodarczych.
Homoskedastyczność
Hipoteza zerowa:
Hipoteza alternatywna:
Reguła Hartley'a:
Badanie homoskedastyczności regułą Hartley'a pozwala stwierdzic, iż pomiędzy wariacjami w grupach nie występują istotne różnice. Oznacza to, iż model spełnia założenie homoskedastyczności. Nie ma podstaw do odrzucenia hipotezy zerowej.
Test Bartlett'a
λ=8,877
χ2=7,815
Badanie homoskedastyczności testem Bartlett'a nie potwierdza, stałości wariacji w grupach. Tym samym model nie spełnia weryfikowanego założenie. Hipoteza zerowa została odrzucona.
Test Bartlett'a jest wiarygodniejszą metodą weryfikacji założenia homoskedastyczności niż reguła kciuka. W związku z tym, należy dokonać transformacji danych i ponownie wyciągnąć wnioski z analizy badając uprzednio homoskedastyczność.
Transformacja danych
W celu spełnienia założenie modelu i tym samym potwierdzenia lub obalenia wniosków wyciągnietych z postawionego problemu badawczego należy dokonac tranformacji danych.
W tym przypadku dokonano transformacji logarytmicznej.
Weryfikacja hipotezy zerowej
Wartość testu z próby wynosi F=0,734, podczas gdy wartość krytyczna testu dla poziomu istotności α=0,05 Fα=2,802. Oznacza to, iż liczba przedsiębiorstw nie różni się istotnie pomiędzy 4 regionami Stanów Zjednoczonych.
Wartość próbkowego poziomu istotności p-value=0,537, co stanowi 53,7%. Wobec 5%-go poziomu istotności testu stwierdzamy brak podstaw do odrzucenia Ho.
Wniosek: Obszar Stanów Zjednoczonych jest homogeniczny z punktu widzenia ilości podmiotów gospodarczych.
Wnioski z modelu po operacji logarytmowania danych są takie same jak przed transformacją danych. Należy zaznaczyć, iż taka sytuacja nie musi mieć miejsca. Wnioski mogą być zupełnie inne. Ich przyjęcie zależy od spełnienia założenia homoskedastyczności.
Homoskedastyczność
Hipoteza zerowa:
Hipoteza alternatywna:
Reguła Hartley'a:
Badanie homoskedastyczności regułą Hartley'a pozwala stwierdzic, iż pomiędzy wariacjami w grupach nie występują istotne różnice. Oznacza to, iż model spełnia założenie homoskedastyczności. Nie ma podstaw do odrzucenia hipotezy zerowej.
Test Bartlett'a
λ=3,894
χ2=7,815
Badanie homoskedastyczności testem Bartlett'a potwierdza stałość wariacji w grupach. Tym samym model spełnia weryfikowane założenie. Hipoteza zerowa nie została odrzucona.
Model po transformacji logarytmicznej spełnie założenie homoskedastyczności.
Przykład 3
Problem badawczy
(na podstawie danych, plik: „zachorowanie na gruźlicę.xls”)
Czy są rejony świata, gdzie zachorowalność na gruźlicę jest istotnie wyższa niż w pozostałych? Czy może występowanie gruźlicy jest równomierne?
Analiza problemu ujawnia dwie zmienne: ilość zachorowań na gruźlicę na 100 tys. mieszkańców [liczba przypadków] oraz rejony świata. [rejony] Pierwsza ze zmiennych jest ilościowa i zależna, (replikacje o łącznej liczbie 123: liczba przypadków gruźlicy na 100 tys. mieszkańców) druga jest jakościowa i niezależna (czynnik o 4 poziomach: Afryka, Azja, Ameryka, Europa).
Hipoteza zerowa
Zachorowalność na gruźlicę jest taka sama we wszystkich analizowanych rejonach świata.
Hipoteza alternatywna
Istnieją istotne różnice w ilości przypadków gruźlicy na 100 tys. mieszkańców pomiędzy analizowanymi rejonami świata.
Weryfikacja hipotezy zerowej
Wartość testu z próby wynosi F=12,217, podczas gdy wartość krytyczna testu dla poziomu istotności α=0,05 Fα=2,681. Oznacza to, iż istnieją istotne różnice w zachorowalności na gruźlicę pomiędzy rejonami świata. Są obszary, gdzie liczba przypadków istotnie odbiega od pozostałych regionów.
Wartość próbkowego poziomu istotności p-value=5,033*10-7, co stanowi 0,00%. Wobec 5%-go poziomu istotności testu odrzucamy hipotezę zerową H0 na korzyść hipotezy alternatywnej HA
Wniosek: Występowanie gruźlicy nie jest równomierne w skali świata.
Homoskedastyczność
Hipoteza zerowa:
Hipoteza alternatywna:
Reguła Hartley'a:
Badanie homoskedastyczności regułą Hartley'a pozwala stwierdzic, iż pomiędzy wariacjami w grupach nie występują istotne różnice. Oznacza to, iż model spełnia założenie homoskedastyczności. Nie ma podstaw do odrzucenia hipotezy zerowej.
Test Bartlett'a
λ=15,189
χ2=7,815
Badanie homoskedastyczności testem Bartlett'a nie potwierdza wniosku wynikającego z reguły kciuka. Wariacje w grupach nie są stałe. Model tym samym nie spełnia weryfikowanego założenia. Hipoteza zerowa została odrzucona na korzyść hipotezy alternatywnej.
Transformacja danych
W celu spełnienia założenie modelu i tym samym potwierdzenia lub obalenia wniosków wyciągnietych z postawionego problemu badawczego należy dokonac tranformacji danych.
W tym przypadku dokonano transformacji potęgowej. Replikacje podniesiono do potęgi 0,5.
Weryfikacja hipotezy zerowej
Wartość testu z próby wynosi F=20,650, podczas gdy wartość krytyczna testu dla poziomu istotności α=0,05 Fα=2,681.
Oznacza to, iż istnieją istotne różnice w zachorowalności na gruźlicę pomiędzy rejonami świata.
Wartość próbkowego poziomu istotności p-value=7,704*10-11, co stanowi 0,00%. Wobec 5%-go poziomu istotności testu stwierdzamy brak podstaw do odrzucenia Ho.
Wniosek: Istnieją obszary świata, gdzie liczba przypadków istotnie odbiega od pozostałych regionów.
Wnioski z modelu po operacji transformacji danych są takie same jak przed transformacją danych. Należy zaznaczyć, iż taka sytuacja nie musi mieć miejsca. Wnioski mogą być zupełnie inne. Ich przyjęcie zależy od spełnienia założenia homoskedastyczności.
Homoskedastyczność
Hipoteza zerowa:
Hipoteza alternatywna:
Reguła Hartley'a:
Badanie homoskedastyczności regułą Hartley'a pozwala stwierdzic, iż pomiędzy wariacjami w grupach nie występują istotne różnice. Oznacza to, iż model spełnia założenie homoskedastyczności. Nie ma podstaw do odrzucenia hipotezy zerowej.
Test Bartlett'a
λ=2,731
χ2=7,815
Badanie homoskedastyczności testem Bartlett'a potwierdza wniosku z badania homoskedastyczności regułą kciuka. Istnieje stałość wariacji w grupach. Model tym samym spełnia weryfikowane założenie. Hipoteza zerowa nie została odrzucona.
Test Bartletta może być przeprowadzony z wykorzystaniem makra ANOVA.xls. (Patrz plik Bartlett oraz LSD.xls)
Interpretacja wyników uzyskanych z makra jest pozwala na wyciągnięcie wniosku, iż:
wartość-p (0,03%) jest mniejsza niż 5 procent, to znaczy, że odrzucamy
i model nie spełnia założenia homoskedastyczności.
Porównania wielokrotne
Odrzucenie hipotezy zerowej w jednokierunkowej analizie wariancji oznaczam, iż występowanie zachorowania na gruźlicę nie jest równomierne w skali całego świata. Powstaje więc pytanie, w których rejonach zapadalność na tę chorobę jest istotnie wyższa od pozostałych.
Pary regionów |
LSD |
|
warunek |
Afryka-Azja |
2,525021 |
4,890339 |
istotna |
Afryka-Ameryka |
3,391973 |
7,529819 |
istotna |
Afryka-Europa |
2,420986 |
9,294256 |
istotna |
Azja-Ameryka |
3,541099 |
2,63948 |
nie istotna |
Azja-Europa |
4,403917 |
2,625848 |
nie istotna |
Ameryka-Europa |
3,467683 |
1,764437 |
nie istotna |
LSD można przeprowadzić używając do tego makra ANOVA.xls. (Patrz plik Bartlett oraz LSD.xls)
Jak odczytać wyniki?
|
ISTOTNOŚĆ RÓŻNIC |
|
|
|
||
|
|
|
|
|
||
|
1 |
2 |
3 |
4 |
|
|
1 |
|
|
|
|
|
|
2 |
1 |
|
|
|
|
|
3 |
1 |
0 |
|
|
|
|
4 |
1 |
0 |
0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Cyfry oznaczone na kolor czerwony oznaczają średnie w grupach, które są z sobą porównywane. Jeśli na przecięciu danych grup, np. grupy 1 oraz 2 będzie „jedynka” różnice jakie występują pomiędzy średnimi są statystycznie istotne i nie wolno połączyć tych grup razem. Jeśli na przecięciu danych grup, np. grupy 2 oraz 3 będzie „zero” różnice jakie występują pomiędzy średnimi nie są statystycznie istotne i można połączyć te grupy razem.
Wobec tego, na mocy powyższego opisu można utworzyć z 4 grup (1,2,3,4) dwie grupy, tj. {1} oraz {2,3,4}.
Wyniki analizy techniką LSD wskazują, iż kontynent afrykański {1} znacznie odbiega od pozostałych regionów świata {2,3,4} pod kątem ilości przypadków gruźlicy na 100 tys. mieszkańców. Wskazuje, na to fakt, iż różnice pomiędzy regionem afrykańskim a pozostałymi obszarami są istotne pod analizowanym względem.