Kiniuś™
Statystyka
Dr Elżbieta Grabowska
(notatki z wykładu 3)
15.03.2009
ZALEŻNOŚĆ CECH JAKOŚCIOWYCH
Wszelkie analizy zależności rozpoczynamy od tabelaryzacji danych.
Najprostsza tabela krzyżowa dla 2 cech jakościowych dychotomicznych (dzieli się tylko na 2 kategorii np. płeć k i m)
kat. |
1 |
2 |
1 |
n 1,1 |
n 2,1 |
2 |
n 1,2 |
n 2,2 |
kat. |
kobiety |
mężczyźni |
suma |
Są |
6 |
18 |
24 |
Nie ma |
12 |
8 |
20 |
suma |
18 |
26 |
44 |
np.Uzdolnienia techniczne w zależności od płci:
N = 44 os
Dychotomizowanie kategorii - podział kategorii na pół np.
Zgadzam się ++ |
Raczej się zgadzam + |
|
Raczej się nie zgadzam - |
Nie zgadzam się -- |
|
|
|
|
|
- zaznaczamy odpowiedzi w tabeli każdej osoby z osobna
- jak wszystkie kostki są skarbowane zliczamy
( karbowanie, co 4)
Prawidłowa tabela:
- suma wierszy zgadza się z sumą kolumn i z N (ilością elementów próby)
- w zasadzie minimalna liczebność kostki to 5 os. lub 5 obiektów.
Kiniuś™
Na podstawie tabeli liczymy podstawową miarę zależności dla danych jakościowych:
Chi kwadrat
Wzór uproszczony na
odpowiedni dla tabeli czteropolowej:
a |
b |
c |
d |
Zad.1
6 |
18 |
12 |
8 |
Ponieważ
nie ma określonej wartości maksymalnej, nie nadaje się do interpretacji to musimy przeliczyć go na 1 dowolnie wybrany wskaźnik sił związku.
Wskaźnik
Yule'a
Wskaźnik T Czuprowa
w - l. wierszy
k - l. kolumn
Wskaźnik V Cramera
(mniejsza z dwóch wartości do
wyboru w lub dwóch)
Współczynnik siły związku rp
Dla tabeli 4polowej zawsze
= V = T
nie nadaje się do tabel bardziej rozbudowanych wtedy liczymy V lub T.
Wskaźniki te przybierają podobne wartości, lecz nie identyczne.
rp nadająca się dla tabel 4polowych lub bardziej rozbudowanych, ale tylko wtedy gdy 1 cecha jest dychotomiczna.
Kiniuś™
rp > V
T Wskaźniki siły związku przyjmują wartości od 0 do 1, czyli pokazują siłę zależności czyli siłę związku cech.
V, T rp |
zależność |
0 0,01-0,20 0,21-0,40 0,41-0,60 0,61-0,80 0,81-0,99 1 |
brak nikła słaba przeciętna dość silna bardzo silna pełna |
(dane z zad.1)
= V = T = 0,35 - zależność słaba
rp = 0,47 - zależność umiarkowana zbliżona do przeciętnej.
[ Jeżeli niespełnione są warunki do liczenia `chi kwadrat', liczymy Na - współczynnik skuteczności przewidywania opisany w podręczniku Górskiego „metody opisu i wnioskowania statystycznego dla psychologów psychologów i pedagogów”.]
Przy liczeniu
liczebność grupy:
4 kostki w tabeli - 32-40 obiektów
12 kostek - 96-120 obiektów
Jeżeli w danych empirycznych okaże się, że występują najwyżej 2 kostki o liczebności mniejszej niż 5 to ostatecznie możemy policzyć
, ale z poprawką Yates'a.
Ustalamy silniejszą przekątną i słabszą.
Od każdej wartości na silniejszej przekątnej odejmujemy 0,5
Do każdej wartości na słabszej przekątnej dodajemy 0,5
Liczymy
według podstawowego wzoru.
! Zastosowanie poprawki zawsze obniża siłę badanej zależności, dlatego nie opłaca się jej stosować przy zależnościach bardzo słabych.
Kiniuś™
|
zadowolona |
nie zadowolona |
Suma wierszy |
Pedantyczne Sprzątanie |
+0,5 |
10 -0,5 |
14 |
Zwyczajne Sprzątanie |
20 -0,5 |
6 +0,5 |
26 |
Suma kolumn |
24 |
16 |
40 |
Przekątna słabsza:
4 + 0,5 = 4,5
6 + 0,5 = 6,5
Przekątna silniejsza:
10 - 0,5 =9,5
20 - 0,5 = 19,5
Wiosek: W badanej próbie 40 mężatek wystąpiła zależność między satysfakcją z seksu a pedantycznym sprzątaniem. Częściej zdarzają się panie zadowolone z seksu i sprzątające zwyczajnie oraz panie niezadowolone i sprzątające pedantycznie.
! Jeżeli badamy zależność dwóch cech, z których jedna jest jakościowa nominalna, a druga dowolna, czyli np. porządkowa albo ilościowa, zawsze skalę wyższego rzędu nominalizujemy, czyli zmieniamy na jakościowa i liczymy
.
ZALEŻNOŚĆ DLA CECH PORZĄDKOWYCH
Przykład rangowania niezupełnego (słabego)
Wiek widzów na filmie Madagaskar:
70, 10, 10, 5, 27, 27, 5, 5, 22, 22, 5, 10, 7, 4.
Rangowanie:
nr. |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
wiek |
70 |
27 |
27 |
22 |
22 |
10 |
10 |
10 |
7 |
5 |
5 |
5 |
5 |
4 |
ranga |
1 |
2,5 2,5 |
4,5 4,5 |
7 7 7 |
9 |
11,5 11,5 11,5 11,5 |
14 |
Kiniuś™
nr. |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
wiek |
4 |
5 |
5 |
5 |
5 |
7 |
10 |
10 |
10 |
22 |
22 |
27 |
27 |
70 |
ranga |
1 |
3,5 3,5 3,5 3,5 |
6 |
8 8 8 |
10,5 10,5 |
12,5 12,5 |
14 |
nr. |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
|
|
1 |
1 |
1 |
7 |
7 |
8 |
8 |
8 |
8 |
8 |
9 |
9 |
9 |
|
ranga |
2 2 2 |
4,5 4,5 |
8 8 8 8 8 |
12 12 12 |
Najprostszym wskaźnikiem zależności dla danych porządkowych jest współczynnik korelacji rang: Rs Spearmana przyjmuje wartości
Pokazuje siłę i kierunek zależności wyznaczamy go z następującego wzoru:
d - różnica w kolejnych parach rang szeregów „i'' i „j”
Zad
Zależność między wysokością głosów śpiewaczek operowych a ich tuszą.
głos |
waga |
i |
j |
dij = i-j |
dij2 |
s.liryczny s.ko… s.dramatyczny mezosopran alt |
119 80 99 70 68 |
1 2 3 4 5 |
5 3 4 2 1 |
-4 -1 -1 2 4 |
16 1 1 4 16 |
suma |
|
|
|
0 |
38 |
W badanej grupie 5 os. Wystąpiła bardzo silna zależność ujemna między wysokością głosu a wagą śpiewaczki. Zależność polegała na ty że, im cieńszy głos tym wyższa waga.
! Wskaźnikiem położenia dla danych porządkowych jest mediana.
Wskaźnikiem rozproszenia dla danych porządkowych jest rozstęp.
(oba te wskaźniki będą omówione łącznie z danymi ilościowymi)
Kiniuś™
WSKAŹNIKI OPISU DLA DANYCH ILOŚCIOWYCH
(wyrażonych na skali interwałowej)
Struktura położenia dla danych ilościowych opisują 3 miary:
Miara pozycyjna: jej wynik zależy od niektórych pomiarów w próbie badanej.
Dominanta: D, Mo
Mediana: Me
Miara klasyczna: wynik zależy od wszystkich pomiarów.
Śr. arytmetyczna :
Przykład wyznaczania dla danych indywidualnych:
Cecha mierzona -ilość długopisów przyniesionych na zajęcia.
Szereg danych indywidualnych nieuporządkowanych:
1, 2, 1, 1, 1, 3, 4, 3, 3.
Szereg uporządkowany:
1, 1, 1, 1, 2, 3, 3, 3, 4.
N=9 (liczebność próby)
D= 1 (powtarza się najczęściej)
Typowe dla grupy jest przyniesienie 1 długopisu.
Dominanta może nie wystąpić w ogóle, gdy różne wyniki powtarzają się równie często.
Me=2 (wartość środkowa, która dzieli wyniki na pół w szeregu uporządkowanym)
Wyznaczanie mediany dla indywidualnych danych nieparzystych.
Porządkujemy dane od najmniejszej do największej wartości.
Wyznaczamy pozycję mediany wg. wzoru: [np.N=9]
Medianą jest wartość pomiaru w uporządkowanym szeregu, na miejscu wskazanym przez pozycję.
Wzorcowa interpretacja mediany:
Połowa grupy przyniosła na zajęcia co najwyżej 2 długopisy (2 lub mniej) i połowa grupy przyniosła na zajęcia co najmniej 2 długopisy (2 lub więcej)
Kiniuś™
Wyznaczanie mediany dla indywidualnych danych parzystych:
Cecha mierzona - godzina pobudki
Wcale, 3.45, 6.00, 6.20, 6.30, 6.55 Dla danych indywidualnych parzystych Me
to średnia z dwóch środkowych wartości.
Połowa grupy spała co najwyżej do 6.10 lub wstała wcześniej, druga połowa grupy wstała o 6.10 lub później.
Własności mediany:
- daje się wyznaczyć zawsze, dla każdych danych i ma sens logiczny
- zawsze dzieli wyniki grupy na pół
- jej wynik nie zależy od wartości skrajnych w szeregu
6
Ten sam wiek (27) zajmuje kolejne miejsca 2 i 3 aby określić rangę wyciągamy z nich średnią (2,5) i przypisujemy do obu.
Ten sam wiek (10) zajmuje kolejne miejsca 6,7,8 aby przypisać rangę wybieramy środkowy numer ranga - 7
Ten sam wiek (5) zajmuje kolejno miejsca od 10 do 13, aby określić rangę wyciągamy średnią z dwóch środkowych numerów (11,12) ranga 11,5
Wiek 7 lat zajmuje jedno miejsce - 9, przepisujemy je jako rangę.