218 Wybrane procedury statystyczni!
Wspomniane problemy to np. paradoks Simpeona, w którym nieuwzględnienie jednej zmiennej zmienia znacząco wyniki zależności dla pozostałych zmiennych.
oparta na teście x'ź< w której zaniedbaliśmy się informacje o różnej częstości występu, wania poziomów zmiennych wzrost i charakter w podpopulacjach określonych przez zmienną pleć. W tym przykładzie badamy zależność pomiędzy charakterem a wzrostem dla przebadanych 121 kobiet i 121 mężczyzn. Wykonaliśmy analizę z użyciem testu y2, którego wyniki wskazują na silną zależność pomiędzy wzrostem a poziomem agresji. Jeżeli jednak przyjrzeć się osobno populacji męskiej i żeńskiej, to w każdej z tych populacji obie cechy występują niezależnie. Wykonując test Cochrana-Mantela-Haenszela z podziałem na podpopulacje określone przez płeć otrzymujemy p-wartość równą 1, czyli brak jakichkolwiek przesłanek o zależności pomiędzy wzro- ■ steiu a poziomem agresji. To wniosek zupełnie przeciwny wnioskowi wyciągniętego z testu x2 Pearsoua dla dwóch zmiennych.
> # tablica kontyngencji dla trzech zmiennych
> tab
, , piec « kobieta wzrost
charakter niski/a wysoki/a lagodny/a 100 10
, , piec = raezczyzna wzrost
> U tak u/ygląda ta tablica, gdy zaniedbamy informacje o pici
> (laczna = apply(tab,c(l,2),sum))
wzrost
charakter niski/a wysoki/a lagodny/a 101 20
agresywny/a 20 101
> # test chi~2, do weryfikacji hipotezy o zależności pomiędzy wzrostem
charakterem
> chisq.test(laczna)
Pearson'8 Chi-squared test with Yates’ continuity correction
data: laczna
X-squared * 106, df = 1, p-value < 2.2e-16
> # test Cochrana-Mantela-Haenszela, do weryfikacji tej samej hipotezy
> mantelhaen.test(tab)
Mantel-Haenszel ehi-squared test without continuity correction
data: tab
Mantel-Haenszel X-squared ■ 0, df = 1, p-value * 1 alternative hypothesis: true common odds ratio is not equal to 1 95 percent confidence interval:
0.218 4.593
?•
/ Różnice pomiędzy wynikami dwócli wykonanych powyżej testów wynikały z zaniedbania informacji o różnicach pomiędzy podpulacjami kobiet i mężczyzn. W tej sytuacji do analizy powinien zostać wybrany tost Cochtóna-Mantela-Haenszcla. Testu x1 2 możemy użyć jeżeli analizę przeprowadzimy osobno dla kobiet i osobno dla mężczyzn.
3.5.5.4 Współczynnik zgodności k
naukach społecznych (ale nie tylko) często wykorzystywanym współczynnikiem do pomiaru siły zgodności pomiędzy dwoma zmiennymi jakościowymi jest współczynnik K Cohena. Najczęściej tymi zmiennymi jakościowymi są oceny dwóch różnych i oceniających w skali k uporządkowanych ocen. Ten współczynnik (oraz wiele jego ■ odmian, takich jak k Lighta oraz ważony k) jest zaimplementowany w pakietach irr i psy. Lista funkcji, które umożliwiają wyznaczenie tego współczynnika znajduje się w tabeli 3.17. Niektóre z nich poza samą wartością współczynnika wyznaczają również p-wartość dla hipotezy zerowej o braku zgodności pomiędzy tymi ocenami, a więc p-wartość dla hipotezy zerowej postaci:
Ho : k — 0.
Właśnie przez takiej przykłady pomiędzy
studentami kr.-łżą 1 plotki, żc oceny ze 1 statystyki sa zupełnie losowe. ]
Poniżej przedstawiamy przykładowe wywołanie funkcji kappa2(irr) w badaniu zgodności pomiędzy ocenami dwóch oceniających. W tym przypadku współczynnik k jest bliski 0. Test istotności tego współczynnika pozwala przypuszczać, że nie ma istotnych zależności pomiędzy wystawionymi ocenami.
> tt losujemy oceny w skali od 2 do S
> ocenal = factor(2 + trunefrunif(100)*41)
> ocena2 = factor(2 + trunc(runif(100)*4))
> t> zobaczmy jak wygląda tabela kontyngencji dla tych ocen
> table(ocenal, ocena2)
ocena2 | ||||
ocenal |
2 |
3 |
4 |
5 |
% 2 |
4 |
8 |
7 |
9 |
3 |
2 |
6 |
3 |
8 |
4 |
6 |
6 |
5 |
6 |
5 |
7 |
5 |
5 |
13 |
> tt oceny są niezależne, więc zgodność jest bardzo niska
> kappa2(cbind(ocenal,ocena2))
. Cohen’s Kappa for 2 Raters (Weights: unweighted)
Subjects = 100
Raters - 2 ■
Kappa = 0.0339 •
z - 0.592 p-value * 0.554
Wybierając funkcję do badania zgodności ocen należy określić, czy oceny są
w skali porządkowej. Dla skal, dla których można określić porządek pomiędzy poziomami, np. o poziomach Słabo, Średnio, Dobrze, Bardzo Dobrze różnica w pomiędzy ocenami Dobrze i Bardzo Dobrze powinna być traktowana inaczej niż różnica