Wykład 2
26.02.2012
Analiza statystyczna:
Opis statystyczny - charakterystyka przebadanej próby, rozkładu wyników - za pomocą określonych wskaźników - statystyk opisowych); tylko o przebadanej próbie;
Wnioskowanie statystyczne - stosowanie testów statystycznych w celu ustalenia prawdopodobieństwa, z jakim na podstawie uzyskanych wyników można wyciągać wnioski o populacji;
Wskaźniki opisu statystycznego:
Miary położenia (miary tendencji centralnej) - pokazują, co w badanej próbie jest typowe, najczęstsze, przeciętne;
Miary rozproszenia (=zróżnicowania, dyspersji) - pokazują, jaki jest rozrzut wartości zmiennej wokół tendencji centralnej, na ile próba jest jednorodna lub zróżnicowana;
Miary skośności (asymetrii) - pokazują stopień przewagi wartości niskich lub wysokich;
Miary koncentracji - pokazują na ile rozkład wartości zmiennej jest wysmukły lub spłaszczony;
Uwaga: wskaźniki opisu statystycznego dotyczą tylko badanej próby (opisują zbadaną próbę; nie dotyczą całej populacji, z wyników tej próby nie wolno wyciągać wniosków dotyczących całej populacji) i nie wolno na ich podstawie wyciągać wniosków na temat całej populacji (uogólniać na populację). Np. przeciętna wartość inteligencji w zbadanej próbie nie świadczy o przeciętnym IQ w całej populacji.
Opis dla danych zmierzonych na skali nominalnej lub porządkowej
Kategoria (wartość zmiennej nominalnej |
Kobiety |
Mężczyźni |
Liczebność (n) |
80 |
10 |
% |
88,89 |
11,11 |
Liczebność dla kategorii modalnej = 80
Najprostszy wskaźnik położenia (tendencji centralnej) dla zmiennej nominalnej jest kategoria (=wartość) modalna (=dominanta, moda), a więc ta wartość zmiennej (kategoria). Która reprezentowana jest w zbadanej próbie najczęściej. W przykładzie powyżej - kobiety.
Kategoria modalna - dominująca (najliczniejsza); dominanta.
A co by było, gdyby:
Kategoria |
Kobiety |
Mężczyźni |
Liczebność (n) |
45 |
45 |
% |
50 |
50 |
Czy kategoria modalna w ogóle występuje?
Niektórzy uważają, że w tej sytuacji nie ma modalnej, ale inni - że jest to rozkład dwumodalny. Trudno jednak mówić w tym przypadku, że istnieje wyraźna dominanta, bo reprezentacja dla obu wartości jest identyczna (po 50% badanych)
Przykład zmiennej o większej liczbie wartości (kategorii)
Kategorie zmiennej „ulubiony gatunek muzyki”
|
poważna |
rockowa |
dyskotekowa |
jazzowa |
Hip-hop |
chillout |
inne |
razem |
liczebność |
7 |
35 |
23 |
29 |
14 |
19 |
11 |
138 |
% |
5 |
25 |
17 |
21 |
10 |
14 |
8 |
100 |
Jaka kategoria jest reprezentowana najliczniej (co jest dominantą, wartością modalną, modą)? - muzyka rockowa to najliczniejsza grupa badanych (35 osób, co stanowi 25% całej próby).
A co z modalną w takim przykładzie?
Kategorie zmiennej „miasto zamieszkania”
|
Poznań |
Kraków |
Wrocław |
Gdańsk |
Warszawa |
Katowice |
Toruń |
razem |
liczebność |
38 |
129 |
45 |
100 |
129 |
31 |
26 |
498 |
% |
8 |
26 |
9 |
20 |
26 |
6 |
5 |
100 |
Dwie wartości (kategorie) zmiennej są tak samo liczne (i najliczniej) reprezentowane u badanych: Kraków i Warszawa. Mówimy wtedy, że rozkład wartości tej zmiennej jest dwumodalny.
Częstość kategorii (wartości) modalnej
C - częstość
n - liczebność danej kategorii
N - liczebność całej próby
Kategoria (wartość zmiennej nominalnej |
Kobiety |
Mężczyźni |
Liczebność (n) |
80 |
10 |
% |
88,89 |
11,11 |
W tym przykładzie:
C1 = 80:90 = 0,8888
0,8888 x 100 = 88,89%
C2 = 10 : 90 = 0,1111
0,1111 x 100 = 11,11%
Częstość to liczebność dla danej wartości (kategorii) zmiennej (n) podzielona przez liczebność całej próby (N).
Jeśli wynik tego ilorazu pomnożymy przez 100 - otrzymamy częstość wyrażoną w procentach (= ile procent osób reprezentuje dana wartości zmiennej)
W powyższym przykładzie częstość kategorii modalnej (wartości dominującej) Cm + C1 = 0,8888. Jej maksymalna dominacja byłaby wtedy gdyby częstość dla kategorii „mężczyźni” była równa zero.
Sama liczebność to nie jest częstość (chociaż tak jest w SPSS). Z maksymalną dominacją mamy do czynienia kiedy jednej kategorii jest 0% (np. kobiet jest 90, a mężczyzn 0).
Maksymalna i minimalna dominacja:
Maksymalna dominacja - jest wtedy, gdy jedna wartość (kategoria) dominuje, a częstość pozostałych wartości zmiennej jest zerowa;
Minimalna dominacja - jaki musi być minimalny % badanych w danej kategorii, aby można było mówić o dominacji tej kategorii? Minimalna dominacja nie ma stałej wartości częstości. Zmienia się ona w zależności od liczby kategorii (wartości) zmiennej;
Umowne zero dominacji - odsetek badanych jaki reprezentuje wszystkie kategorie (wartości) zmiennej, gdy nie ma żadnej przewagi ani jednej kategorii; gdyby w każdej kategorii było po tyle samo osób;
Umowne zero dominacji
Liczba kategorii zmiennej |
Min. C - umowne zero dominacji |
2 3 4 5 6 7 8 9 10 |
50% 33,3% 25% 20% 16,7% 14,3% 12,5% 11,1% 10% |
Przykład:
Palący |
Niepalący |
100 |
0 |
N = 100 osób
Gdy C1 = 100, a C2 = 0, kategoria 1 (palący) dominuje (i jest to maksymalna dominacja)
Palący |
Niepalący |
51 |
49 |
Gdy C1 = 51 (51% badanych), zaś C2 = 49 mamy do czynienia z minimalną dominacją (minimalna przewaga ponad zero umowne dominacji)
Palący |
Niepalący |
50 |
50 |
Gdy C1 = C2 - nie ma dominacji, bo żadna kategoria nie dominuje. Tak jest przy zmiennej o dwóch wartościach (kategoriach)! Przy 3 - wartościowej zmiennej będzie inaczej…
Przykład ze zmienną o 3 kategoriach (wartościach):
Kategoria zmiennej |
przeciw |
obojętne |
popieram |
Liczebność (n) oraz % |
90 100% |
0 |
0 |
C1 „przeciw” - dominacja maksymalna;
Kategoria zmiennej |
przeciw |
obojętne |
popieram |
Liczebność (n) oraz % |
30 33,3% |
30 33,3% |
30 33,3% |
C1 = C2 = C3 - brak dominacji; umowne zero dominacji
Kategoria zmiennej |
przeciw |
obojętne |
popieram |
Liczebność (n) oraz % |
25 27,77% |
23 25,55% |
42 46,66% |
C3 („popieram”) - kategoria modalna (dominuje, ale nie maksymalnie)
Kategoria zmiennej |
przeciw |
obojętne |
popieram |
Liczebność (n) oraz % |
30 33,3% |
31 34,44% |
29 32,22% |
C2 („obojętne”) - dominuje i jest to tutaj minimalna dominacja;
Jak ocenić poziom siły dominacji?
Cały zaznaczony odcinek trzeba podzielić na 4 równe części. Dla 3-wartościowej zmiennej umowne zero dominacji to 33%. Od 100 odejmujemy 33% i powstały odcinek dzielimy na 4:
Przedział między zerem umownym a 100% dzielimy na 4 równe części i patrzymy, w której z nich znajduje się obliczona częstość (%) kategorii dominującej. Jeśli częstość kategorii dominującej zawiera się w 1 przedziale - dominacja jest słaba, jeśli w 2 - umiarkowana, w 3 - silna, w 4 - bardzo silna.
Jeśli np.:
Wykształcenie wyższe |
Wykształcenie średnie |
Wykształcenie podstawowe |
10 |
16 |
5 |
C2 (dominuje) = 16 : 31 = 52%
52% badanych ma wykształcenie średnie. Gdzie znajduje się 52%? W 2 przedziale, a więc dominacja jest umiarkowana. Osoby z wykształceniem średnim dominują w sposób umiarkowany.
Uwaga!!!! Zaokrąglamy do 2 miejsca po przecinku już na pierwszym etapie liczenia częstości. Jak na 3 miejscu po przecinku jest 5 - zaokrąglamy w górę.
Zadanie 1
Kontrolowano zmienną „stosunek do statystyki” i przyjmuje ona 5 wartości (1 - nienawidzę!, 2 - nie lubię; 3 - mam to gdzieś; 4 - lubię; 5 - uwielbiam). Oblicz częstość wartości dominującej i siłę dominacji tej wartości (kategorii) zmiennej, jeżeli liczebności dla poszczególnych kategorii zmiennej są następujące:
Kategoria zmiennej |
Nienawidzę |
Nie lubię |
Mam to gdzieś |
lubię |
uwielbiam |
Liczebność (n) |
14 |
20 |
9 |
27 |
15 |
Dominująca kategoria: lubię
n = 27
N = 85
C = 27 : 85 x 100% = 32%
100 - 20 = 80 : 4 = 20
jest to dominacja słaba
Kategoria najbardziej liczna będzie miała numer 1.
* Gdyby w jednej kategorii było 18 osób, to byłaby minimalna dominacja, gdyby było 17 - dominacji brak.
Zadanie 2
Kontrolowano zmienną „kolor oczu” i przyjmuje ona 4 wartości (niebieskie, brązowe, zielone, czarne). Oblicz częstość wartości dominującej i siłę dominacji tej wartości (kategorii) zmiennej, jeżeli liczebności dla poszczególnych kategorii zmiennej są następujące:
Kategoria zmiennej |
Niebieskie |
Brązowe |
Zielone |
Czarne |
Liczebność (n) |
60 |
123 |
15 |
4 |
Dominująca kategoria: 123
C = 123 : 202 x 100% = 61%
0 dominacji = 50,5
Minimalna dominacja: 51
100 - 25 = 75 : 4 = 18,75%
dominacja umiarkowana
Rozproszenie danych jakościowych - wskaźnik dyspersji
To podstawowy wskaźnik rozproszenia dla danych jakościowych.
Wyznaczamy do ze wzoru:
N - liczebność próby
n - liczebność dla danej kategorii zmiennej
k - liczba kategorii (wartości) zmiennej
j - kolejny numer kategorii
[] - „uporządkowanie od największej do najmniejszej”
h przyjmuje wartości od 0 (brak zróżnicowania = grupa maksymalnie jednorodna) do 1 (grupa maksymalnie zróżnicowana, o rozproszonych wartościach). To wskaźnik dyspersji.
Przykłady prób o różnej dyspersji:
Łagodna dyspersja |
Umiarkowana dyspersja |
Głęboka dyspersja |
27 |
0 |
0 |
h = 0 (grupa maksymalnie jednorodna, wszyscy mają tę samą wartość zmiennej)
Łagodna dyspersja |
Umiarkowana dyspersja |
Głęboka dyspersja |
9 |
9 |
9 |
h = 1 (grupa maksymalnie zróżnicowana, po tyle samo osób należy do każdej kategorii)
Łagodna dyspersja |
Umiarkowana dyspersja |
Głęboka dyspersja |
2 |
18 |
7 |
h = 0,41 (grupa przeciętnie zróżnicowana)
Przykład na obliczanie wskaźnika dyspersji
Kategorie zmiennej (najczęściej kupowana marka proszku do prania
|
Vizir |
Ariel |
Bryza |
Dosia |
Rex |
Persil |
E |
liczebność |
2 |
18 |
15 |
15 |
16 |
17 |
2 |
j (numer kolejny kategorii) |
n[j] (od największej) |
1 2 3 4 5 6 7 |
18 17 16 15 15 2 2 |
k = 7 |
N = 85 |
W dodawaniu wykreślamy kategorię nr 1 (najbardziej liczebną);
Skoro h przyjmuje wartości od 0 do 1, to wartość 0,69 świadczy o dość silnym zróżnicowaniu.
Zadanie 3
W pewnych badaniach kontrolowano zmienną 4 - wartościową „tytuł / stopień naukowy” w próbie przebadanych pracowników pewnej katedry. Oblicz współczynnik dyspersji dla uzyskanych wyników i zinterpretuj jego wartość.
Kategoria zmiennej |
magister |
doktor |
Doktor habilitowany |
profesor |
Liczebność (n) |
8 |
12 |
2 |
9 |
j |
n[j] |
1 2 3 4 |
12 9 8 2 |
k = 4 |
N = 31 |
h = 2 : (k - 1) x N ∑ (j-1) x n[j]
h = 2 : (4 - 1) x 31 ∑ [(2 - 1) x 9 + (3 - 1) x 8 + (4 - 1) x 2]
h = 2 : (3 x 31) ∑ [9 + 16 + 6]
h = (2 : 93) x 31 = 62 : 93 = 0,67
Liczebności i częstości przy uwzględnieniu tylko jednej zmiennej nominalnej dzielącej na kategorie:
Tabela częstości (mylące w SPSS bo tabela częstości zawiera liczebności)
Częstości / liczebności przy uwzględnianiu kategorii dwóch zmiennych jakościowych - tabela krzyżowa
Zadanie 4
Statystyka
Dr Małgorzata Gut
Semestr 4
- 7 -