test chi kwadrat

background image

TABELE WIELODZIELCZE

W wielu badaniach medycznych gromadzimy dane będące liczebnościami. Przykładowo
możemy klasyfikować chorych w badanej próbie do różnych kategorii pod względem wieku,
płci czy skali natężenia choroby. Przedstawiane do tej pory metody statystyczne stają się
bezużyteczne dla danych tego typu, zwanych danymi jakościowymi. Testy i techniki
statystyczne prezentowane w tym kursie należą do najbardziej przydatnych technik analizy
danych jakościowych. Techniki te umożliwiają również dokonania oceny zależności
pomiędzy zmiennymi tego typu.

Pierwszym krokiem w analizach, o których tu mowa jest przedstawienie zebranych danych
indywidualnych w postaci tablicy wielodzielczej. Wymaga to zliczenia jednostek w
odpowiednich komórkach tabeli z danymi. Zliczanie to bez użycia komputera jest żmudne i
męczące zwłaszcza dla dużej ilości przypadków. Tablice wielodzielcze stanowią bowiem
podstawę do obliczania pozostałych statystyk określających siłę związku.

Tablica wielodzielcza przedstawia rozkład obserwacji ze względu na kilka cech jednocześnie.
Dla dwu zmiennych tablica wielodzielcza pokazuje określony łączny rozkład obu cech.
Liczebności w ostatnim wierszu i w ostatniej kolumnie nazywamy empirycznymi
brzegowymi rozkładami, odpowiednio cechy Y i cechy X.
Przykładowo chcąc ocenić wpływ palenia papierosów na pewną chorobę zebraliśmy dane na
temat ich używania w grupie 90 osobowej. Zastosowano podział na cztery kategorie:

Nigdy - nie używano nigdy,
Niewiele - używano w niewielkich ilościach,
Średnio - używano w średnich ilościach
Dużo - używano w dużych ilościach.

W badaniach brano również pod uwagę płeć respondentów. Zliczając otrzymane dane dla
papierosów i płci otrzymamy następującą tablicę wielodzielczą:

Płeć

Papieros

Nigdy

Papieros

Niewiele

Papieros

Średnio

Papieros

Dużo

Kobieta

12

8

5

5

30

Mężczyzna

4

3

29

24

60

16

11

34

29

90

W tabeli zacieniowano rozkłady brzegowe. Z tabeli widać wyraźną przewagę mężczyzn w
grupie palących duże lub średnie ilości papierosów. Z kolei około trzykrotnie więcej kobiet
niż mężczyzn nigdy nie paliło w rozpatrywanej grupie. Informacje byłyby bogatsze po
dołączenie danych procentowych. Stosuje się procenty liczone względem ostatniej kolumny
(względem płci), względem ostatniego wiersza (względem ilości wypalanych papierosów)
oraz względem całkowitej liczby respondentów.

Następny etap analizy statystycznej tak zebranych danych, to próba weryfikacji hipotezy
mówiącej, że dwie jakościowe cechy w populacji są niezależne. Najczęściej stosowanym
„narzędziem” jest test

χ

2

. Został on opracowany przez Karla Pearsona w 1900 r. i jest

metodą, dzięki której można się upewnić, czy dane zawarte w tablicy wielodzielczej
dostarczają wystarczającego dowodu na związek tych dwóch zmiennych. Test

χ

2

polega na

background image

porównaniu częstości zaobserwowanych z częstościami oczekiwanymi przy założeniu
hipotezy zerowej (o braku związku pomiędzy tymi dwiema zmiennymi).

Interesuje nas weryfikacja hipotezy zerowej:

H

0

: cechy X i Y są niezależne

Wobec hipotezy alternatywnej:

H

1

: cechy X i Y są zależne

Do weryfikacji hipotezy stosujemy statystykę:

χ

2

=

(

)

E

E

O

2

gdzie E - oczekiwana częstość komórki oraz O - obserwowana częstość komórki. Przy
założeniu hipotezy zerowej opisywana statystyka ma rozkład

χ

2

o s = (k - 1)(p - 1) stopniach

swobody. Częstości oczekiwane obliczamy wykorzystując częstości marginalne (z tablicy
wielodzielczej) według następującego wzoru:

E (częstość oczekiwana) =

(

)(

)

(

)

suma rzę du suma kolumny

suma cał kowita

Dla tabel dwudzielczych 2x2 postaci

wartość statystyki

χ

2

wyznaczamy

według prostszego, praktycznego wzoru:

χ

2

=

(

)

(

)(

)(

)(

)

ad bc N

a b c d a c b d

+

+

+

+

2

Przykładowo w próbie liczącej 100 mężczyzn w wieku 50 - 60 lat zbadano częstość
występowania choroby wieńcowej i podwyższonego ciśnienia tętniczego. Chcemy ocenić, czy
choroba wieńcowa współistnieje z podwyższonymi wartościami ciśnienia tętniczego. Wyniki
obliczeń wartości oczekiwanych przedstawiono w nawiasach obok wartości obserwowanych.

Ciśnienie

niepodwyższone

Ciśnienie

podwyższone

Raze

m

Choroba wieńcowa

nie występuje

37 (24,3)

17 (29,7)

54

Choroba wieńcowa

występuje

8 (20,7)

38 (25,3)

46

Razem

45

55

100

Oczywiście nie przeprowadzamy weryfikacją „na piechotę”. W praktyce posługujemy się
oczywiście komputerem. W pakiecie STATISTICA test

χ

2

znajdziemy w dwóch miejscach.

Pierwsze, to moduł Statystyki nieparametryczne. Znajdująca się tam opcja Tablice 2x2,
chi/V/Fi kwadrat, test McNemary,
umożliwia obliczenie statystyki

χ

2

oraz innych statystyk

z nią związanych dla tablic 2x2.

a b
c d

background image

Dla danych z naszego przykładu otrzymujemy następujący arkusz wyników.

Rys. 1 Arkusz wyników dla testu

χ

2

W pierwszych pięciu wierszach powtórzona jest tabela z danymi wraz sumami brzegowymi
oraz procenty wszystkich wartości wyliczane w stosunku do całkowitej liczebności grupy.
Kolejne wiersze to wartości statystyki

χ

2

oraz jej modyfikacje (związane z liczebnością

próby) wraz z poziomami istotności. Przykładowo, gdy ogólna liczebność próby jest mała
(N<40) i którakolwiek z liczebności oczekiwanych jest <

5 stosujemy dokładny test Fishera.

W wierszu dziewiątym podany jest współczynnik

Φ

- Yula (omówiony poniżej) oceniający

siłę powiązania pomiędzy dwoma zmiennymi w tabeli 2x2. Jak widzimy powiązanie
pomiędzy chorobą wieńcową i podwyższonym ciśnieniem jest wysoce istotnie (p = 0,00001),
ale słabe (

Φ

= 0,262). Mamy tym samym podstawy wnioskować, że choroba wieńcowa

występuje częściej u osób z podwyższonym ciśnieniem tętniczym.
Zauważmy, że bardzo duże wartości

χ

2

oznaczają dużą różnicę pomiędzy częstościami

obserwowanymi a oczekiwanymi i jest to dowód istnienia zależności. Przeciwnie mała
wartość

χ

2

(zwłaszcza bliska 0) nie daje dowodu na istnienie korelacji.

UWAGI !

Dla tabeli 2x2 przedstawionej wyżej statystyka

χ

2

jest często modyfikowana w celu

utworzenia bardziej odpowiedniego testu. W większości komputerowych programów
statystycznych mamy możliwości obliczenia tych poprawek. Najbardziej popularna to
poprawka Yatesa. Stosujemy ją, jeżeli 20 < N <40 i którakolwiek z liczebności
oczekiwanych jest mniejsza od 5.

Statystyka

χ

2

sprawdza czy dwie zmienne są ze sobą powiązane. Jednakże oprócz

sprawdzenia czy pomiędzy zmiennymi zachodzi związek, interesuje nas jak silne jest to
powiązanie. W praktyce najczęściej korzystamy z następujących miar:

1. Współczynnik

Φ

- Yula. Jest on miarą korelacji pomiędzy zmiennymi

jakościowymi w tabeli 2x2. Przyjmuje on wartości od 0 (brak powiązania) do 1
(doskonałe powiązanie pomiędzy zmiennymi)
2. Współczynnik V – Cramera. Przyjmuje on wartości od 0 (brak relacji
między zmiennymi) do 1

background image

Interpretacja wszystkich tych współczynników jest taka sama:

jeżeli posiada on wartość zero to cechy X i Y są niezależne

im bliższa jedynki jest wartość tych współczynników tym silniejsze jest powiązanie
pomiędzy analizowanymi cechami X i Y.

Obliczając opisane współczynniki dla danych dotyczących choroby wieńcowej otrzymujemy -
współczynnik

Φ

= V = 0,51 zaś współczynnik kontyngencji wynosi C = 0,46. Pomiędzy

rozpatrywanymi zmiennymi zachodzi więc wysoka korelacja.
W programie STATISTICA do analizy tablic wielodzielczych służy również opcja Tabele
wielodzielcze
w module Podstawowe statystyki i tabele. W module tym możemy wybrać
dwie grupy statystycznych analiz dotyczących tablic zbiorczych oraz tablic wielokrotnych
odpowiedzi. Możemy utworzyć tabele wielodzielcze i zbiorcze oraz obliczyć różne statystyki
związane z takimi tabelami. W module tym możemy analizować tabele dowolnych rozmiarów
niekoniecznie 2x2 jak w poprzednim module. Możemy też wybrać jakie podsumowania i
jakie statystyki chcemy policzyć. Kartę z możliwymi opcjami pokazuje poniższy rysunek.

Rys. 2 Karta z opcjami dla wyników tabelaryzacji

Program udostępnia nam również przyciski oferujące interpretacje graficzne analizowanych
problemów. Przykładowy wykres dla danych opisujących powiązanie między
występowaniem nadciśnienia i chorobą wieńcową pokazuje poniższy rysunek.

Tabela dwudzielcza: CHOROBA x CIŚNIENIE

Rys. 3 Trójwymiarowy wykres częstości


Wyszukiwarka

Podobne podstrony:
test chi kwadrat
test chi kwadrat Word2003, Elementy matematyki wyższej
wyklad9 test chi kwadrat
12 Test chi kwadrat na postać rozkładu zadania domowe ECW
Test chi kwadrat na postać rozkładu zadania domowe
3Ca ćwiczenie 26 03 i 09 04 2015 TEST CHI KWADRAT
Test chi kwadrat z poprawką Yetsa przykład zastosowania
10 test chi kwadrat
12 14 04 2014 Ćwiczenie 8 TEST CHI KWADRAT ZASADYid 13321 pptx
Wykład 5b 05 11 2013 TEST CHI KWADRAT
4Ca ćwiczenie 16 04 i 23 04 2015 TEST CHI KWADRAT c d
test zgodnosci chi-kwadrat, Test zgodności chi-kwadrat
statystyka Test zgodności chi kwadrat i inne, $$ STUDIA $$, Statystyka
stat praca, Test zgodności chi, Test zgodności chi-kwadrat służy do weryfikowania hipotezy, że obser
Prezentacja na wykład test zgodności Chi kwadrat

więcej podobnych podstron