Statystyka (s) wywodzi się z teorii rachunku prawdopodobieństwa. Jest nauką traktującą o ilościowych metodach badania zjawisk masowych (badania masowe: badania robione na dużych próbach, populacjach), statystyka bada stochastyczne (probabilistyczne) zależności pomiędzy zmiennymi. Nie odpowiada na pytanie „dlaczego?”, a „ile?” nie podając przyczyn.
Statystyka (def.: Tekane i Ferguson) zajmuje się zbieraniem, klasyfikacją, opisem oraz interpretacją danych uzyskiwanych w badania sondażowych i eksperymentalnych. Jej zasadniczym celem jest opis i wyciąganie wniosków dot. właściwości ilościowych całej populacji.
W s mamy raczej badania o charakterze sondażowym, w psychologii - raczej badania eksperymentalne.
S pełni dwie funkcje:
1. funkcja opisowa - zbieramy materiał empiryczny, przeprowadzamy badania itp.
2. funkcja indukcyjna - uogólnianie wniosków z próby na całą populację
Populacją, lub inaczej mówiąc zbiorowością statystyczną nazywamy zbiór dowolnych elementów, które objęte są badaniem. Poszczególne elementy populacji nazywamy jednostkami statystycznymi (Sobczyk).
Badanie pełne to badanie, które obejmuje wszystkie elementy (jednostki statystyczne) populacji (przykłady badań pełnych: spisy powszechne prowadzone przez GUS, do każdego gospodarstwa dociera ankieter). Badanie pełne daje wynik pełny.
Próba - dowolny podzbiór wybrany z populacji w sposób losowy. Badanie próby daje wynik prawdopodobny, ale nigdy nie pewny w 100%.
Próba jest losowa gdy (zasady randomizacji):
Wybrana próba jest losowa jeżeli wszystkie elementy populacji miały jednakową szansę dostania się do próby
Np. losowanie z rejestru PESEL, który przechowywany jest w MSWiA.
Próbę dzieli się na warstwy (np. ze względu na wiek, płeć itd.), a następnie staramy się by w każdej warstwie zapewnić losowy dobór próby
Ze spisów powszechnych lub danych GUS można uzyskać rozkład populacji w każdej warstwie. W przypadku badań telefonicznych stosuje się metodę Kicha (siatka Kicha): prosimy aby osoba z którą rozmawiamy podała imiona i wiek zamieszkujących z nią w gospodarstwie domowym, szeregujemy je wiekiem od 16 do 70 lat, wykreślamy nie pasujące do naszego badania dane, z siatki Kicha bierzemy liczby losowe i za ich pomocą których wybieramy osobę z którą przeprowadzamy wywiad.
Próba reprezentatywna/reprezentatywność próby, 3 reguły:
Próba jest reprezentatywna, jeżeli występują w niej wszystkie wartości zmiennych poddanych badaniu (np. jeśli jedną ze zmiennych jest płeć, to w próbie musi występować każda z płci)
Próba jest reprezentatywna jeżeli rozkłady zmiennych poddanych badaniu na podstawie próby odpowiadają rozkładom zmiennych w całej populacji (odpowiednio z pewnym marginesem błędu)
Próba jest reprezentatywna, jeżeli ustalone na jej podstawie zależności odpowiadają odpowiednim zależnościom w całej populacji.
Parametr (P) (dot. populacji) - ilościowa właściwość całej populacji (np. są nim: frekwencja wyborcza, średnie wydatki na zakupy świąteczne, odsetek osób popierających działania premiera itp.)
Jeżeli nie prowadzimy badań pełnych, to parametry są nieznane i wtedy ustalamy je na podstawie próby i estymatora.
Estymator - przybliżenie nieznanej wartości parametru na podstawie próby
Im więcej osób zbadamy, tym błąd statystyczny jest mniejszy.
Np. badanie na poparcie PO:
± d (błąd statystyczny) |
N (wielkość próby) |
± 3 |
1.068 |
± 4 |
Ok. 500 |
± 5 |
385 |
± 2 |
2.323 |
± 1 |
9.012 |
* (± - plus/minus)
Zazwyczaj w badaniach przyjmuje się błąd statystyczny w granicach ± 3, czyli wielkość próby wynosi ok. 1.068 osób.
Zmienne - cechy, które różnią elementy populacji (jednostki statystyczne). Zmiennie podlegają badaniu, cechy stałe nie podlegają badaniu.
Pomiar poziomu zmiennej - polega na przyporządkowaniu każdej jednostce statystycznej określonej wartości zmiennej. Wyróżniamy dwa rodzaje zmiennych: jakościowe i liczbowe oraz cztery poziomy ich pomiaru:
Poziom nominalny - najniższy poziom pomiaru zmiennej - o 2 dowolnych jednostkach statystycznych możemy powiedzieć że albo są takie same, albo się między sobą różnią (A=B, A≠B). Zmienną nominalną są np.: płeć, decyzja o udziale w wyborach, preferencje partyjne etc.
Poziom porządkowy - zachowuje te same własności co nominalny poziom pomiaru zmiennej, ale dodatkowo pozwala na uszeregowanie wartości od najmniejszej do największej (A=B, A≠B, A>B, B<A)
np.: częste pytanie w kwestionariuszu: „w jakim stopniu zgadza się Pan/Pani z następującymi stwierdzeniami:?”, co pozwala uszeregować wyniki
Poziom przedziałowy/interwałowy - zachowuje wszystkie własności poziomu nominalnego czy porządkowego a dodatkowo pozwala na wnioskowanie o odległościach czy różnicach pomiędzy badanymi zmiennymi (A=B, A≠B, A>B, B<A, A-B)
np. wiek (czy dochód, bo na te pytania respondenci najczęściej odmawiają dokładnej odpowiedzi) podawany w przedziałach najczęściej: do 20, 21-30, 31-40, 41-50, 51-60, pow. 60.
Jako zmienną przedziałową traktujemy wyniki wszelkiego rodzaju testów, ocen, umownych skal pomiarowych (np. temp. powietrza).
Poziom ilorazowy - najbardziej dokładny poziom pomiaru zmiennej, poziom ten zachowuje właściwości wszystkich pozostałych, dodatkowo jednak pozwala na obliczanie proporcji (A=B, A≠B, A>B, B<A, A-B, A/B).
Cechą charakterystyczną skali ilorazowej jest posiadanie bezwzględnego punktu 0 (np. badanie dochodów, gdzie 0 jest w tym samym miejscu niezależnie od waluty :-).
Organizacja badania statystycznego
I ETAP - PRZYGOTOWANIE BADANIA
Etap, w którym socjolog zastanawia się jaki jest cel badania, co jest jego przedmiotem, co chce pokazać (konceptualizacja problemu badawczego w języku naukowym).
Określenie badanej populacji.
Wybór (definicja) zmiennych wybranych do badania (co związane jest z celem badania).
Określenie sposobu pomiaru zmiennej (wywiady kwestionariuszowe, ankiety, ankiety audytoryjne, badania telefoniczne, obserwacje etc.)
II ETAP - PRZYGOTOWANIE BADANIA
Dokonanie pomiaru i zebranie materiału statystycznego przy pomocy określonych narzędzi badawczych.
Weryfikacja zebranego materiału statystycznego (ustalenie czy zebrany materiał jest wiarygodny, czy odpowiedzi nie są losowe, czy są prawidłowo zakodowane itd.)
III OPRACOWANIE I PREZENTACJA MATERIAŁU STATYSTYCZNEGO
Statystyka opisowa, czyli tabele, wykresy, określone miary opisowe, badanie zależności pomiędzy zmiennymi itd.
IV ETAP UOGÓLNIENIE/WNIOSKOWANIE
Statystyka indukcyjna czyli uogólnianie wniosków z próby na całą populację, wyznaczanie błędów statystycznych, testowanie hipotez statystycznych.
Rozkłady empiryczne zmiennych
Szereg liczebności (tabela) i wykres - przedstawiają wyniki badania.
Rozkładem liczebności (szeregiem rozdzielczym) zmiennej nazywamy przyporządkowanie wszystkim wartościom zmiennej lub wszystkim przedziałom klasowym zawierających wartości zmiennej odpowiednich liczebności i procentów.
Przykład 1
Płeć |
Liczebność* |
Procenty (fi) |
Kobiety |
520 |
52% |
Mężczyźni |
480 |
48% |
& |
1000 |
100% |
fi =
i = 1,2… k gdzie k - liczba wszystkich różnych wartości zmiennej
fi =
Wynik możemy przedstawić za pomocą wykresu słupkowego lub kołowego.
* jeżeli mamy zmienną nominalną, liczebność mówi nam, ile razy dana zmienna pojawiła się w pomiarze (ni)
Przykład 2 (Poziom porządkowy - na podstawie badania poziomu wykształcenia)
Wykształcenie |
Liczebność ni |
Procent fi |
Liczebność skumulowana Ni |
Procent skumulowany Fi |
Podstawowe |
100 |
10% |
100 |
10% |
Zasadnicze zaw. |
150 |
15% |
250 |
25% |
Średnie |
350 |
35% |
600 |
60% |
Licencjat |
300 |
30% |
900 |
90% |
Wyższe |
100 |
10% |
1000 |
100% |
fi =
Ni= Ni-1+Ni
Fi =
Liczebność skumulowana pokazuje nam jaka liczba obserwacji ma wartość < lub = danej wartości. Procent skumulowany pokazuje nam jaki odsetek obserwacji ma wartości < lub + danej wartości.
Możemy przedstawić dane za pomocą diagramu, gdzie przedstawimy liczebności skumulowane:
Przykład 3
Zmienne przedziałowe lub ilorazowe, np. wiek.
Przedział |
Liczebność ni |
Procent fi |
Liczebność skumulowana Ni |
Procent skumulowany Fi |
Do 25 |
150 |
15% |
150 |
15% |
26-35 |
250 |
25% |
400 |
40% |
36-45 |
40% |
40% |
800 |
80% |
46-55 |
100 |
10% |
900 |
90% |
Pow. 55 |
100 |
10% |
1000 |
100% |
|
1000 |
100% |
|
|
i = 1…. k k - oznacza liczbę ustalonych przedziałów