Wykład 3
26.02.2012
Wskaźniki opisu statystycznego:
Miary położenia (miary tendencji centralnej) - pokazują, co w badanej próbie jest typowe, najczęstsze, przeciętne;
Miary rozproszenia (=zróżnicowania, dyspersji) - pokazują jaki jest rozrzut wartości zmiennej wokół tendencji centralnej, na ile próba jest jednorodna lub zróżnicowana;
Miary skłonności (asymetrii) - pokazują stopień przewagi wartości niskich lub wysokich;
Miary koncentracji - pokazują na ile rozkład wartości zmiennej jest wysmukły lub spłaszczony;
Opis dla danych zmierzonych na skali ilościowej:
Miary tendencji centralnej
Miary pozycyjne: 1) dominanta (modalna, moda) - wartość występująca najczęściej (D), 2) mediana - wartość środkowa, dzieląca szereg wartości zmiennej uzyskanych przez badanych z próby na pół - połowa wyników badanych jest przed medianą, zaś połowa za medianą (Me);
Miara klasyczna: średnia arytmetyczna (przeciętna)
Miary zróżnicowania (rozproszenia, dyspersji):
Miara pozycyjna: rozstęp - różnica między wartością maksymalną i minimalną, „odległość” między skrajnymi wynikami;
Miary klasyczne: 1) wariancja; 2) odchylenie standardowe - informują, jak przeciętnie w zbadanej próbie wyniki osób badanych są rozproszone. Odchylają się od średniej;
Miary asymetrii i koncentracji rozkładu wartości zmiennej:
Skośność - informuje o stopniu asymetrii rozkładu (czyli ewentualnej przewadze wartości niskich lub wysokich);
Kurtoza - miara koncentracji rozkładu (skupieniu wartości zmiennej uzyskanych przez badanych wokół jednej wartości lub przeciwnie: rozproszenia ich).
Dominanta
Przykład 1: Zmienna „liczba posiadanych dzieci”.
Wartości poszczególnych badanych:
1, 3, 2, 2, 2, 1, 4, 1, 1, 0, 1, 1, 2, 2, 2, 3, 0, 2, 1, 0, 2
Wartość występująca najczęściej: 2.
Interpretacja: dominuje posiadanie dwójki dzieci (najwięcej badanych ma 2 dzieci).
UWAGA: przy małej liczbie badanych dominantę widać „na oko”, ale jak próba jest duża, liczenie w szeregu wartości uzyskanych przez wszystkich badanych która wartość występuje najczęściej byłoby raczej trudne. Wtedy dużym dobrodziejstwem dla badacza jest program SPSS.
Przykład 2: Ta sama zmienna, ale N = 456
Dominanta D = 0
Najwięcej badanych ma 0 dzieci
Dominanta nie musi się równać mediana.
Mediana:
Przykład 3: Zmienna „liczba zdanych egzaminów w sesji”
Wartości u poszczególnych badanych:
2, 5, 4, 5, 2, 3, 4, 5, 6, 1, 5 (szereg danych indywidualnych nieuporządkowanych).
Aby wyliczyć medianę, najpierw trzeba szereg uporządkować:
1, 2, 2, 3, 4, 4, 5, 5, 5, 5, 6 (szereg danych indywidualnych uporządkowanych)
N = 11
Mediana (Me) dzieli wyniki na pół w szeregu uporządkowanym. Jeżeli danych jest mało i jest ich nieparzysta liczba, można to zrobić szybko odliczając „na piechotę” pozycję w połowie szeregu: wartość znajdująca się tam (na pozycji 6) będzie Medianą, czyli Me = 4.
Warto zauważyć, że w tym przypadku Me ≠ D (bo wcale nie musi tak być).
Można też posłużyć się wzorem na obliczenie pozycji wartości ME:
Dla nieparzystej liczby danych:
W omawianym przykładzie (3):
Szósta w szeregu jest wartość 4, więc Me = 4 (wartość mediany):
Interpretacja: połowa badanych zdała w sesji co najwyżej 4 egzaminy (4 lub mniej) zaś połowa co najmniej 4 egzaminy (4 lub więcej);
Dla parzystej liczby danych:
Przykład 4: zmienna „liczba wypalanych dziennie papierosów”; N = 8
Szereg danych indywidualnych uporządkowanych:
Nie ma pozycji 4 i pół, a więc patrzymy na pozycję 4 i 5 i obliczamy średnią z wartości, które się tam znajdują, a więc:
Interpretacja: połowa badanych wypala dziennie co najwyżej 10 papierosów (10 lub mniej) zaś połowa co najmniej 10 (10 lub więcej).
Zadanie 1
Wskaż wartość występującą najczęściej oraz wartość środkową w przypadku następujących wartości zmiennej „liczba poprawnie rozwiązanych w ciągu godziny zadań logicznych”:
Wartości badanych z próby: 4, 3, 7, 4, 2, 8, 2, 1, 4, 7
D = 4
1, 2, 2, 3, 4, 4, 4, 7, 7, 8
Pozycja Me = (10 +1) : 2 = 11:2 = 5,5
Wartość Me = (4+4) : 2 = 4
Zadanie 2
Wskaż wartość występującą najczęściej oraz wartość środkową w przypadku następujących wartości zmiennej „liczba posiadanych kart kredytowych:
Wartości badanych z próby: 2, 1, 2, 3, 0, 2, 1, 0, 2, 1, 0
D = 2
0, 0, 0, 1, 1, 1, 2, 2, 2, 2, 3
Pozycja Me = (11+1) : 2 = 6
Me = 1
Średnia:
Średnia dla indywidualnych danych ilościowych:
,
Czyli:
Dla przykładu z zadania 2:
Średnia dla nietypowego rozkładu danych:
Rozkład z przewagą wartości skrajnych
Np. zmienna „liczba przeczytanych w ciągu roku książek”: 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 17, 28
D = 1
Me = 1
Średnia = 3,87 jest niewiarygodna, bo nie jest prawdą, że przeciętnie każdy badany przeczytał ok. 4 książki w ciągu roku;
Rozkład siodłowy
Średnia wyniosła ok. 20, ale z rozkładu widać, że ta wartość występuje wśród badanych najmniej licznie (zatem: średnia niewiarygodna).
Im bardziej odbiegają od siebie wartości średniej, mediany i dominanty tym bardziej rozkład odbiega od rozkładu normalnego.
Rozkład normalny:
Rozkład normalny wartości zmiennej (krzywa normalna, krzywa dzwonowata). Krzywa jest symetryczna. Średnia, mediana i wartość modalna zbiegają się w jednym punkcie.
Rozkład empiryczny
Krzywa rozkładu może być niesymetryczna, albo bardziej spłaszczona lub wysmukła niż z przypadku rozkładu normalnego albo posiadać kilka wartości modalnych.
Rozproszenie rozkładu
Rozkład wartości jakiejś zmiennej w przebadanej próbie może mieć różne rozproszenie: być bardziej skoncentrowany wokół jednej wartości (badani mają dość podobne wyniki), albo być bardziej rozproszony (próba badanych jest bardzo zróżnicowana pod względem tej zmiennej):
Miary rozproszenia (zróżnicowania)
Miara pozycyjna: rozstęp - różnica między wartością maksymalną i minimalną, „odległość” między skrajnymi wynikami;
Miary klasyczne: 1) wariancja; 2) odchylenie standardowe - informują, jak przeciętnie w zbadanej próbie wyniki osób badanych są rozproszone, odchylają się od średniej.
Rozstęp
Przykład 5
Wyniki kwestionariusza oceniającego dojrzałość społeczną wyniosły w przebadanej próbie: 14, 17, 15, 19, 23, 15, 27, 24, 16, 13, 18, 26, 22, 23, 15
Najniższy wynik (minimum): 13
Najwyższy wynik (maksimum): 27
Rozstęp: 27 - 13 = 14
Przykład 6
Zmienna „czas reakcji na bodziec”. Wartości uzyskane przez badanych wyniosły (w milisekundach): 467, 500, 350, 376, 342, 366, 441, 503, 477, 390
Najniższy wynik (minimum): 342
Najwyższy wynik (maksimum): 503
Rozstęp: 503 - 342 = 161
Statystyka
Dr Małgorzata Gut
Semestr 4
- 3 -