Tabele wielodzielcze – analiza frekwencji
Procedury analizy frekwencji stosuje się do danych w skali nominalnej, jednak
znajdują one zastosowanie także do pozostałych skal.
Testy zgodności
– porównują otrzymany (empiryczny) rozkład frekwencji
badanej cechy z rozkładem teoretycznym.
Testy niezależności
– porównują dwa empiryczne rozkłady frekwencji badanej
cechy.
Współczynniki Φ, korelacji tetrachorycznej, V Cramera i kontyngencji
–
określają siłę związku między badanymi cechami.
Testy zgodności
Przykład 21
Proporcja różnych kwiatów u danego gatunku rośliny w kolejnym pokoleniu
powinna wynosić 9:3:3:1. Otrzymano następujące liczby kwiatów (n=250).
Obliczanie wartości oczekiwanych: 250/(9+3+3+1)=15,6
3*15,6= 46,9
9*15,6=140,6
Do testowania istotności
różnic używa się testu
2
lub
testu G.
2
= 8,96; df=3; p=0,030
H
0
o podobieństwie frekwencji otrzymanej i oczekiwanej należy odrzucić
Najwyższy iloraz kwadratu różnicy między frekwencją obserwowaną i
oczekiwaną
przez wartość oczekiwaną występuje w przypadku kwiatów
czerwonych. W celu sprawdzenia czy ta kategoria jest odpowiedzialna za
zaistniałe różnice wyklucza się ją z dalszej analizy i testuje się pozostałe
kategorie.
obserwane
oczekiwane róznica
kwadrat różnicy/
fr. oczekiwana
białe
152
140,6
11,4
0,924
żółte
39
46,9
-7,9
1,331
różowe
53
46,9
6,1
0,793
czerwone
6
15,6
-9,6
5,908
2
= 3,05; df=2; p=0,218
Nie ma różnic pomiędzy pozostałymi kategoriami. Za zaistniałą różnicę
odpowiedzialna jest zbyt mała frekwencja kwiatów czerwonych.
liczba stopni swobody (df) = k-1 = 4-1 = 3
Testy niezależności
Gatunek
KLASA 1 KLASA 2 KLASA 3 KLASA 4
Suma
choina
18
22
27
19
86
klon
63
15
20
12
110
Suma
81
37
47
31
196
Przykład 22
Porównywano strukturę wiekową choiny i klonu rosnących na pewnym
obszarze. Wyróżniono 4 klasy wiekowe. Należy sprawdzić, czy struktura
wiekowa obu tych gatunków jest taka sama. Poniżej przedstawiono tzw.
tabelę kontyngencji.
Do testowania istotności różnic używa się testu
2
lub testu G.
2
= 26,40; df=3; p<0,0001
H
0
o podobieństwie struktury wiekowej choiny i klonu należy odrzucić
(struktura wiekowa badanych drzew jest zależna od gatunku)
Gatunek
KLASA 1 KLASA 2 KLASA 3 KLASA 4
choina
9,18%
11,22%
13,78%
9,69%
klon
32,14%
7,65%
10,20%
6,12%
W celu sprawdzenia która klasa (które klasy) wiekowa jest odpowiedzialna za zaistniałe
różnice przeliczono surowe dane na udziały procentowe w stosunku do całkowitej
liczebności próby (n=196)
Największa różnica między
choiną i klonem wystąpiła w
klasie 1.
Po wyłączeniu z analizy klasy 1 różnice okazały się
nieistotne.
2
= 0,12; df=2; p=0,943
Frekwencja młodych klonów (klasa 1) jest istotnie wyższa niż młodych choin.
liczba stopni swobody (df) = (r-1)-(c-1) = (2-1)*(4-1) = 1*3 = 3
Test
2
- założenia
Test
2
jest testem nieparametrycznym, lecz jego stosowanie obwarowane
jest warunkiem by liczebności oczekiwane nie były zbyt małe.
Wartość wyrażenia
nie powinna być mniejsza niż 6
c
r
n
n –liczebność próby
r – liczba wierszy tabeli kontyngencji
c – liczba kolumn tabeli kontyngencji
W większości podręczników spotyka się założenia, że żadna z frekwencji
oczekiwanych nie powinna być mniejsza niż 5
Jeśli założenie to nie jest spełnione, to zaleca się wykluczenie z analizy
kategorii o zbyt małej liczebności lub połączenie jej z sąsiednią kategorią.
W przypadku tabel o 2 wierszach i 2 kolumnach, gdy liczebności oczekiwane
są zbyt małe można stosować
test dokładny Fishera.
W przypadku tabel o 2 wierszach i 2 kolumnach, gdy choć jedna z liczebności
oczekiwanych jest mniejsza od 10 stosuje się
poprawkęYatesa
.
Tabele wielodzielcze – siła związku
Współczynnik Φ
– jest miarą korelacji miedzy dwiema zmiennymi jakościowymi
dychotomicznymi (tylko dla tabeli 2 x 2). Przyjmuje wartości od 0 (brak korelacji) do 1
(korelacja pełna).
Współczynnik kontyngencji (C)
– jest miarą korelacji miedzy zmiennymi
jakościowymi. Gdy zmienne są niezależne przyjmuje on wartość 0. jego maksymalna
wartość zależy od rozmiaru tabeli (liczby kategorii w obrębie zmiennych). W przypadku
tabel kwadratowych, tzn. takich w których liczba wierszy i kolumn jest taka sama,
można wyznaczyć jego maksymalną wartość.
Jego maksymalna wartość dla danego rozmiaru tabeli kwadratowej oblicza się wg wzoru:
k
k
C
1
max
k – liczba kolumn (wierszy) w tabeli
k
2
3
4
5
C
max
0,7
1
0,8
2
0,8
7
0,8
9
Współczynnik V Cramera
– jest miarą korelacji miedzy dwiema zmiennymi
jakościowymi. Przyjmuje wartości od 0 (brak korelacji) do 1 (korelacja pełna).
Współczynnik korelacji tetrachorycznej
– ma zastosowanie tylko dla tabeli 2 x 2.
Stosuje się go, gdy tabela 2 x 2 jest wynikiem rozdzielenia na 2 kategorie zmiennych o
charakterze ciągłym. Daje ocenę korelacji między tymi zmiennymi. Przyjmuje wartości
od 0 (brak korelacji) do 1 (korelacja pełna).
Może służyć do porównań siły związku w tabelach o takich samych rozmiarach:
Tabele wielodzielcze – siła związku
Gatunek
KLASA 1 KLASA 2 KLASA 3 KLASA 4
Suma
choina
18
22
27
19
86
klon
63
15
20
12
110
Suma
81
37
47
31
196
Przykład 23
Porównywano strukturę wiekową choiny i klonu rosnących na pewnym
obszarze. Wyróżniono 4 klasy wiekowe. Należy sprawdzić, czy struktura
wiekowa obu tych gatunków jest taka sama (czy struktura wiekowa jest
zależna od gatunku drzewa).
2
= 26,40; df=3; p<0,0001
Struktura wiekowa badanych drzew jest zależna od gatunku
Współczynnik kontyngencji C = 0,34
Test dokładny Fishera
Stosuje się go wyłącznie do tabel 2 x 2, gdy nie są spełnione wymagania
związane ze stosowaniem testu
2
.
Przykład 24
Porównywano strukturę płciową u dorosłych krzyżówek chwytanych w dwa
typy pułapek. Należy sprawdzić czy rodzaj stosowanej pułapki wpływa na
proporcję płci w próbie. (czy struktura płciowa dorosłych krzyżówek jest
zależna od typu pułapki)
Typ 1
2
7
Typ 2
5
4
5
,
4
4
18
c
r
n
test Fishera; p=0,335
Struktura płciowa chwytanych krzyżówek nie jest zależna od typu stosowanej pułapki
Typ 1
1
8
Typ 2
6
3
test Fishera; p=0,0498
Typ 1
11
%
39
%
Typ 2
28
%
22
%
Typ 1
6
21
Typ 2
15
12
test Fishera; p=0,0122
test
2
;
2
=6,31; df=1; p=0,0120.
Test McNemara (test istotności zmian)
Test ten stosowany jest do zbadania istotności różnic jakie zaszły pod
wpływem danego czynnika. Może być traktowany jako alternatywa dla testu
t-Studenta dla zmiennych powiązanych, gdy badana zmienna jest
dychotomiczna.
Jego zastosowanie wymaga wpisania danych w tabelę 2 x 2.
Po (-)
Po (+)
Przed
(+)
Liczba przypadków, w
których doszło do zmiany z
+
na
-
Liczba przypadków, w
których nie doszło do
zmiany
Przed (-) Liczba przypadków, w
których nie doszło do
zmiany
Liczba przypadków, w
których doszło do zmiany z
-
na
+
Suma liczebności komórek A i D powinna wynosić co najmniej 20
Po (-)
Po (+)
Przed
(+)
A
B
Przed (-)
C
D
Test McNemara A/D
– weryfikuje H
0
o
równych liczebnościach w komórkach A i D.
Test McNemara (test istotności zmian)
Po (-)
Po (+)
Przed
(+)
Liczba powierzchni, na
których mniszka nie było, a
pojawił się po
eksperymencie
(3)
Liczba powierzchni, na
których nie było mniszka
przed i po eksperymencie
(5)
Przed (-) Liczba powierzchni, na
których mniszek był przed
i po eksperymencie
(5)
Liczba powierzchni, na
których mniszek znikł
zupełnie po eksperymencie
(17)
Przykład 25
Na trawnikach miejskich wyznaczono losowo 30 powierzchni badawczych. Na
każdej z powierzchni policzono mniszki lekarskie. Na 8 powierzchniach
mniszków nie stwierdzono wcale. Przez rok na wszystkich powierzchniach
stosowano łagodny środek chwastobójczy. Po zakończeniu eksperymentu
policzono ponownie wszystkie osobniki mniszka. Uzyskano następujące wyniki
(jako „-” przyjęto występowanie mniszka):
test McNemara;
2
=8,45; p=0,0037
Test Q Cochrana
Test ten jest rozwinięciem testu McNemara na więcej niż dwie próby.
Zmienne muszą zawierać jedynie kody 0 i 1
Przykład 26
Badano preferencje pokarmowe u 35 kanarków. Każdego osobnika wpuszczano
pojedynczo do klatki z 4 rodzajami karmy i pozwalano żerować przez 15 minut
obserwując które rodzaje karmy są przez niego spożywane. Wyniki
przedstawiono w tabeli kodując jako 1 spożywanie danej karmy:
ptak
Karm
a 1
Karm
a 2
Karm
a 3
Karm
a 4
1
1
0
0
0
2
1
0
1
0
3
1
1
1
1
4
0
0
1
0
Suma
Procent 0 Procent 1
Karma 1
29
17,1
82,9
Karma 2
19
45,7
54,3
Karma 3
14
60,0
40,0
Karma 4
15
57,1
42,9
WYNIKI
Test Q Cochrana; Q=13,96; p=0,003
Stopień wykorzystania czterech karm przez badane kanarki nie był taki sam.