ANOVA, Przykłady ANOVA, Problem badawczy


Przykład 1

Problem badawczy

(na podstawie danych, plik: przychód w USA.xls)

Czy obszar Stanów Zjednoczonych jest homogeniczny z punktu widzenia dochodów gospodarstw domowych? Czy są rejony, gdzie dochody są istotnie wyższe od pozostałych?

Analiza problemu ujawnia dwie zmienne: dochody gospodarstw domowych [w USD] oraz obszar Stanów Zjednoczonych. [regiony] Pierwsza ze zmiennych jest ilościowa i zależna, (replikacje o łącznej liczbie 51: dochody w 50 stanach oraz Dystrykcie Columbii) druga jest jakościowa i niezależna (czynnik o 4 poziomach: obszar północno-wschodni, północno-centralny, południowy i zachodni.

Hipoteza zerowa

0x01 graphic

Region Stanów Zjednoczonych nie determinuje istotnie wysokości dochodów gospodarstw domowych.

Hipoteza alternatywna

0x01 graphic

0x01 graphic

Istnieją istotne różnice w wysokości dochodów gospodarstw domowych pomiędzy regionami Stanów Zjednoczonych

Weryfikacja hipotezy zerowej

Wartość testu z próby wynosi F=1,919, podczas gdy wartość krytyczna testu dla poziomu istotności α=0,05 Fα=2,802. Oznacza to, iż dochód gospodarstw domowych nie różni się istotnie pomiędzy 4 regionami Stanów Zjednoczonych.

Wartość próbkowego poziomu istotności p-value=0,139, co stanowi 13,9%. Wobec 5%-go poziomu istotności testu stwierdzamy brak podstaw do odrzucenia Ho.

Wniosek: Obszar Stanów Zjednoczonych jest homogeniczny z punktu widzenia dochodów gospodarstw domowych.

Homoskedastyczność

Hipoteza zerowa:

0x01 graphic

Hipoteza alternatywna:

0x01 graphic

0x01 graphic

Reguła Hartley'a:

0x01 graphic

Badanie homoskedastyczności regułą Hartley'a pozwala stwierdzic, iż pomiędzy wariacjami w grupach nie występują istotne różnice. Oznacza to, iż model spełnia założenie homoskedastyczności. Nie ma podstaw do odrzucenia hipotezy zerowej.

Test Bartlett'a

0x01 graphic
0x01 graphic

0x01 graphic

0x01 graphic

λ=3,858

χ2=7,815

0x01 graphic

Badanie homoskedastyczności testem Bartlett'a potwierdza, iż wariacje w grupach są stałe. Model tym samym spełnia weryfikowane założenie. Nie ma podstaw do odrzucenia hipotezy zerowej.

Przykład 2

Problem badawczy

(na podstawie danych, plik: „firmy w USA.xls”)

Czy Stany Zjednoczone są zróżnicowane pod kątem ilości przedsiębiorstw? Czy są regiony, w których liczba podmiotów istotnie różni się od pozostałych?

Analiza problemu ujawnia dwie zmienne: ilość przedsiębiorstw [liczba podmiotów] oraz obszar Stanów Zjednoczonych. [regiony] Pierwsza ze zmiennych jest ilościowa i zależna, (replikacje o łącznej liczbie 51: liczba podmiotów w 50 stanach oraz Dystrykcie Columbii) druga jest jakościowa i niezależna (czynnik o 4 poziomach: obszar północno-wschodni, północno-centralny, południowy i zachodni.

Hipoteza zerowa

0x01 graphic

Liczba przedsiębiorstw nie różni się istotnie między regionami.

Hipoteza alternatywna

0x01 graphic

0x01 graphic

Istnieją regiony, gdzie liczba podmiotów gospodarczych jest istotnie wyższa, niż w pozostałych.

Weryfikacja hipotezy zerowej

Wartość testu z próby wynosi F=0,039, podczas gdy wartość krytyczna testu dla poziomu istotności α=0,05 Fα=2,802. Oznacza to, iż liczba przedsiębiorstw nie różni się istotnie pomiędzy 4 regionami Stanów Zjednoczonych.

Wartość próbkowego poziomu istotności p-value=0,990, co stanowi 99,0%. Wobec 5%-go poziomu istotności testu stwierdzamy brak podstaw do odrzucenia Ho.

Wniosek: Obszar Stanów Zjednoczonych jest homogeniczny z punktu widzenia ilości podmiotów gospodarczych.

Homoskedastyczność

Hipoteza zerowa:

0x01 graphic

Hipoteza alternatywna:

0x01 graphic

0x01 graphic

Reguła Hartley'a:

0x01 graphic

Badanie homoskedastyczności regułą Hartley'a pozwala stwierdzic, iż pomiędzy wariacjami w grupach nie występują istotne różnice. Oznacza to, iż model spełnia założenie homoskedastyczności. Nie ma podstaw do odrzucenia hipotezy zerowej.

Test Bartlett'a

0x01 graphic
0x01 graphic

0x01 graphic

0x01 graphic

λ=8,877

χ2=7,815

0x01 graphic

Badanie homoskedastyczności testem Bartlett'a nie potwierdza, stałości wariacji w grupach. Tym samym model nie spełnia weryfikowanego założenie. Hipoteza zerowa została odrzucona.

Test Bartlett'a jest wiarygodniejszą metodą weryfikacji założenia homoskedastyczności niż reguła kciuka. W związku z tym, należy dokonać transformacji danych i ponownie wyciągnąć wnioski z analizy badając uprzednio homoskedastyczność.

Transformacja danych

W celu spełnienia założenie modelu i tym samym potwierdzenia lub obalenia wniosków wyciągnietych z postawionego problemu badawczego należy dokonac tranformacji danych.

W tym przypadku dokonano transformacji logarytmicznej.

Weryfikacja hipotezy zerowej

Wartość testu z próby wynosi F=0,734, podczas gdy wartość krytyczna testu dla poziomu istotności α=0,05 Fα=2,802. Oznacza to, iż liczba przedsiębiorstw nie różni się istotnie pomiędzy 4 regionami Stanów Zjednoczonych.

Wartość próbkowego poziomu istotności p-value=0,537, co stanowi 53,7%. Wobec 5%-go poziomu istotności testu stwierdzamy brak podstaw do odrzucenia Ho.

Wniosek: Obszar Stanów Zjednoczonych jest homogeniczny z punktu widzenia ilości podmiotów gospodarczych.

Wnioski z modelu po operacji logarytmowania danych są takie same jak przed transformacją danych. Należy zaznaczyć, iż taka sytuacja nie musi mieć miejsca. Wnioski mogą być zupełnie inne. Ich przyjęcie zależy od spełnienia założenia homoskedastyczności.

Homoskedastyczność

Hipoteza zerowa:

0x01 graphic

Hipoteza alternatywna:

0x01 graphic

0x01 graphic

Reguła Hartley'a:

0x01 graphic

Badanie homoskedastyczności regułą Hartley'a pozwala stwierdzic, iż pomiędzy wariacjami w grupach nie występują istotne różnice. Oznacza to, iż model spełnia założenie homoskedastyczności. Nie ma podstaw do odrzucenia hipotezy zerowej.

Test Bartlett'a

0x01 graphic
0x01 graphic

0x01 graphic

0x01 graphic

λ=3,894

χ2=7,815

0x01 graphic

Badanie homoskedastyczności testem Bartlett'a potwierdza stałość wariacji w grupach. Tym samym model spełnia weryfikowane założenie. Hipoteza zerowa nie została odrzucona.

Model po transformacji logarytmicznej spełnie założenie homoskedastyczności.

Przykład 3

Problem badawczy

(na podstawie danych, plik: „zachorowanie na gruźlicę.xls”)

Czy są rejony świata, gdzie zachorowalność na gruźlicę jest istotnie wyższa niż w pozostałych? Czy może występowanie gruźlicy jest równomierne?

Analiza problemu ujawnia dwie zmienne: ilość zachorowań na gruźlicę na 100 tys. mieszkańców [liczba przypadków] oraz rejony świata. [rejony] Pierwsza ze zmiennych jest ilościowa i zależna, (replikacje o łącznej liczbie 123: liczba przypadków gruźlicy na 100 tys. mieszkańców) druga jest jakościowa i niezależna (czynnik o 4 poziomach: Afryka, Azja, Ameryka, Europa).

Hipoteza zerowa

0x01 graphic

Zachorowalność na gruźlicę jest taka sama we wszystkich analizowanych rejonach świata.

Hipoteza alternatywna

0x01 graphic

0x01 graphic

Istnieją istotne różnice w ilości przypadków gruźlicy na 100 tys. mieszkańców pomiędzy analizowanymi rejonami świata.

Weryfikacja hipotezy zerowej

Wartość testu z próby wynosi F=12,217, podczas gdy wartość krytyczna testu dla poziomu istotności α=0,05 Fα=2,681. Oznacza to, iż istnieją istotne różnice w zachorowalności na gruźlicę pomiędzy rejonami świata. Są obszary, gdzie liczba przypadków istotnie odbiega od pozostałych regionów.

Wartość próbkowego poziomu istotności p-value=5,033*10-7, co stanowi 0,00%. Wobec 5%-go poziomu istotności testu odrzucamy hipotezę zerową H0 na korzyść hipotezy alternatywnej HA

Wniosek: Występowanie gruźlicy nie jest równomierne w skali świata.

Homoskedastyczność

Hipoteza zerowa:

0x01 graphic

Hipoteza alternatywna:

0x01 graphic

0x01 graphic

Reguła Hartley'a:

0x01 graphic

Badanie homoskedastyczności regułą Hartley'a pozwala stwierdzic, iż pomiędzy wariacjami w grupach nie występują istotne różnice. Oznacza to, iż model spełnia założenie homoskedastyczności. Nie ma podstaw do odrzucenia hipotezy zerowej.

Test Bartlett'a

0x01 graphic
0x01 graphic

0x01 graphic

0x01 graphic

λ=15,189

χ2=7,815

0x01 graphic

Badanie homoskedastyczności testem Bartlett'a nie potwierdza wniosku wynikającego z reguły kciuka. Wariacje w grupach nie są stałe. Model tym samym nie spełnia weryfikowanego założenia. Hipoteza zerowa została odrzucona na korzyść hipotezy alternatywnej.

Transformacja danych

W celu spełnienia założenie modelu i tym samym potwierdzenia lub obalenia wniosków wyciągnietych z postawionego problemu badawczego należy dokonac tranformacji danych.

W tym przypadku dokonano transformacji potęgowej. Replikacje podniesiono do potęgi 0,5.

Weryfikacja hipotezy zerowej

Wartość testu z próby wynosi F=20,650, podczas gdy wartość krytyczna testu dla poziomu istotności α=0,05 Fα=2,681.

Oznacza to, iż istnieją istotne różnice w zachorowalności na gruźlicę pomiędzy rejonami świata.

Wartość próbkowego poziomu istotności p-value=7,704*10-11, co stanowi 0,00%. Wobec 5%-go poziomu istotności testu stwierdzamy brak podstaw do odrzucenia Ho.

Wniosek: Istnieją obszary świata, gdzie liczba przypadków istotnie odbiega od pozostałych regionów.

Wnioski z modelu po operacji transformacji danych są takie same jak przed transformacją danych. Należy zaznaczyć, iż taka sytuacja nie musi mieć miejsca. Wnioski mogą być zupełnie inne. Ich przyjęcie zależy od spełnienia założenia homoskedastyczności.

Homoskedastyczność

Hipoteza zerowa:

0x01 graphic

Hipoteza alternatywna:

0x01 graphic

0x01 graphic

Reguła Hartley'a:

0x01 graphic

Badanie homoskedastyczności regułą Hartley'a pozwala stwierdzic, iż pomiędzy wariacjami w grupach nie występują istotne różnice. Oznacza to, iż model spełnia założenie homoskedastyczności. Nie ma podstaw do odrzucenia hipotezy zerowej.

Test Bartlett'a

0x01 graphic
0x01 graphic

0x01 graphic

0x01 graphic

λ=2,731

χ2=7,815

0x01 graphic

Badanie homoskedastyczności testem Bartlett'a potwierdza wniosku z badania homoskedastyczności regułą kciuka. Istnieje stałość wariacji w grupach. Model tym samym spełnia weryfikowane założenie. Hipoteza zerowa nie została odrzucona.

Test Bartletta może być przeprowadzony z wykorzystaniem makra ANOVA.xls. (Patrz plik Bartlett oraz LSD.xls)

Interpretacja wyników uzyskanych z makra jest pozwala na wyciągnięcie wniosku, iż:

wartość-p (0,03%) jest mniejsza niż 5 procent, to znaczy, że odrzucamy 0x01 graphic
i model nie spełnia założenia homoskedastyczności.

Porównania wielokrotne

Odrzucenie hipotezy zerowej w jednokierunkowej analizie wariancji oznaczam, iż występowanie zachorowania na gruźlicę nie jest równomierne w skali całego świata. Powstaje więc pytanie, w których rejonach zapadalność na tę chorobę jest istotnie wyższa od pozostałych.

Pary regionów

LSD

0x01 graphic

warunek

Afryka-Azja

2,525021

4,890339

istotna

Afryka-Ameryka

3,391973

7,529819

istotna

Afryka-Europa

2,420986

9,294256

istotna

Azja-Ameryka

3,541099

2,63948

nie istotna

Azja-Europa

4,403917

2,625848

nie istotna

Ameryka-Europa

3,467683

1,764437

nie istotna

LSD można przeprowadzić używając do tego makra ANOVA.xls. (Patrz plik Bartlett oraz LSD.xls)

Jak odczytać wyniki?

ISTOTNOŚĆ RÓŻNIC

1

2

3

4

 

 

1

 

 

 

 

 

 

2

1

3

1

0

4

1

0

0

 

 

 

 

Cyfry oznaczone na kolor czerwony oznaczają średnie w grupach, które są z sobą porównywane. Jeśli na przecięciu danych grup, np. grupy 1 oraz 2 będzie „jedynka” różnice jakie występują pomiędzy średnimi są statystycznie istotne i nie wolno połączyć tych grup razem. Jeśli na przecięciu danych grup, np. grupy 2 oraz 3 będzie „zero” różnice jakie występują pomiędzy średnimi nie są statystycznie istotne i można połączyć te grupy razem.

Wobec tego, na mocy powyższego opisu można utworzyć z 4 grup (1,2,3,4) dwie grupy, tj. {1} oraz {2,3,4}.

Wyniki analizy techniką LSD wskazują, iż kontynent afrykański {1} znacznie odbiega od pozostałych regionów świata {2,3,4} pod kątem ilości przypadków gruźlicy na 100 tys. mieszkańców. Wskazuje, na to fakt, iż różnice pomiędzy regionem afrykańskim a pozostałymi obszarami są istotne pod analizowanym względem.



Wyszukiwarka