Dobór próby jest częścią badania statystycznego. Polega na wybraniu pewnych indywidualnych obserwacji, które tworząc tzw. próbę statystyczną pozwolą uzyskać pewną wiedzę o całej populacji.
Każda obserwacja może obejmować jedną lub większą liczbę konkretnych wartości tzw. cech statystycznych dotyczących jednego konkretnego obiektu badań, lub (w przypadku analiz zmian jakiegoś zjawiska w czasie) jednej chwili czasowej.
Błędy doboru próby powodują brak odzwierciedlenia rozkładu cech populacji w próbie. Rzutują na całe badanie: błędnie dobrana próba skutkuje nieprzydatnością badania do opisu zjawisk i prawidłowości w populacji. Hipotezy sformułowane wstępnie pozostają nierozstrzygnięte. Skutki są podobne do przekłamań w zebranych danych.
Wykrycie błędu doboru próby jest trudne i wymaga prześledzenia metodologii badań oraz znajomości realiów tematu badania.
Dobór próby można podzielić na siedem etapów:
Definiowanie szerokiej populacji
Wybór operatu losowania
Określenie metody doboru
Określenie wielkości próby
Implementacja założeń
Zbieranie danych
Sprawdzenie poprawności doboru
Definiowanie szerokiej populacji
Właściwa praktyka statystyczna opiera się na poprawnym zdefiniowaniu problemu. Przede wszystkim musimy wiedzieć, jakie obiekty badamy. Populacja statystyczna to hipotetyczny zbiór wszelkich możliwych obiektów, o których chcemy uzyskać informacje, np.:
mieszkańcy Polski w wieku 18-25 lat
partia właśnie wyprodukowanych żarówek
Niekiedy badamy tzw. szeregi czasowe, czyli zmiany pewnych wielkości w czasie. Wówczas populacja może obejmować np. obserwacje badanych wielkości w kolejnych chwilach czasowych, np.
kursy wszystkich akcji na polskiej giełdzie na kolejnych sesjach
Zwykle metody statystyczne służą zdobyciu danych o dużej populacji przez badanie jedynie jej wycinka.
Operat losowania
W najprostszym przypadku istnieje teoretyczna możliwość zbadania całej populacji statystycznej, np. całej partii żarówek. Często jednak takiej możliwości nie ma, np. nigdy nie zbadamy reakcji wszystkich żyjących muszek owocówek na dany bodziec, nie miałoby to zresztą sensu.
Z zasady więc ograniczamy wstępnie populację do obiektów które jesteśmy w stanie zidentyfikować i włączyć dowolny z nich do próby. Zbiór ten zwany jest operatem losowania. W przedwyborczym sondażu opinii możliwe zawężenia populacji obejmują np.:
odwiedzających centra handlowe wieczorem w ostatni poniedziałek przed wyborami.
Wszystkie powyższe zakresy obejmują pewnych ludzi, którzy nie wezmą udziału w wyborach i nie obejmują części ludzi, którzy udział wezmą. Ważne jest, aby takie zawężenie było reprezentatywne. Na przykład wybierając ludzi wyłącznie z książki telefonicznej ograniczamy się do posiadaczy telefonu, którzy mogą się różnić od ogółu wyborców (np. częściej mieszkają w mieście).
Aby wyłoniona próba była reprezentatywna, operat musi być aktualny i kompletny.
Metody doboru
Z operatu dobierane są obserwacje do próby statystycznej. Można tego dokonać na wiele sposobów.
Prosta próba losowa
W prostej próbie losowej o pewnej liczności, każdy element z operatu ma jednakową szansę znalezienia się w próbie. Przy właściwym doborze operatu próba taka jest reprezentatywna dla populacji.
Jeśli jednak interesuje nas zjawisko rzadkie w populacji, np. nietypowa odmiana badanej choroby, może okazać się, że prosta próba losowa albo nie będzie obejmowała wystarczającej liczby tych nietypowych przypadków, albo jej liczność będzie musiała być bardzo duża i badania będą zbyt kosztowne. Lepiej wówczas użyć próby warstwowej.
Próba kwotowa
W próbie kwotowej operat jest najpierw dzielony na rozłączne podgrupy. Następnie eksperymentator lub ankieter wybiera z każdej podgrupy przypadki w odpowiedniej proporcji. Na przykład ankieter ma za zadanie przepytać 200 kobiet i 300 mężczyzn w wieku od 45 do 60 lat.
Ten drugi krok sprawia, że próby uzyskane tą techniką mogą być niereprezentatywne. Na przykład jest prawdopodobne, że ankieter (nawet nieświadomie) będzie wybierał osoby w dobrym humorze, gdyż z doświadczenia wie, że chętniej odpowiadają one na pytania.
Próba warstwowa
Próba warstwowa (lub: próba warstwowana) tak jak w przypadku kwotowej wymaga podzielenia operatu na podgrupy (klasy, warstwy), jednak z każdej grupy obiekty do próby wybierane są losowo. Główne przyczyny stosowania prób warstwowych to:
zapewnienie określonym grupom wystarczającej liczności w próbie
zapewnienie większej efektywności badań przez przeważanie próby.
Jeśli w populacji 99% obiektów jest z klasy A i 1% z klasy B (cokolwiek oznacza to w danym przypadku), a do badań potrzebujemy co najmniej 300 obiektów z każdej klasy, to przy prostej próbie losowej musielibyśmy mieć ponad 30000 obiektów w próbie. W przypadku próby warstwowej losujemy 300 obiektów z klasy A, 300 z klasy B i we wszystkich analizach nadajemy obiektom w klasie A wagę 0,99 a obiektom w B wagę 0,01. W ten sposób podobną istotność statystyczną wyników zapewnia pięćdziesięciokrotnie mniejsza próba. Z drugiej strony utrudnia to analizę i sprawia, że wariancja w małych klasach mocno wpływa na wariancję wyniku.
Próba grupowa
Inna nazwa: próba zespołowa. W tej wersji operat jest dzielony na grupy, a następnie losowane są do próby nie pojedyncze jednostki, lecz całe grupy.
Takie losowanie upraszcza badania. Istnieje jednak zagrożenie, że niektóre z pominiętych grup różnią się rozkładami cech i w ten sposób próba będzie niereprezentatywna. Ponadto wymaga to wprowadzenia pewnych korekt do testów statystycznych.
Losowanie dwustopniowe
Podobnie jak w próbie zespołowej losowane są najpierw grupy, jednak nie wchodzą one w całości do próby, lecz przeprowadzane jest z nich kolejne losowanie.
Próba losowo-kwotowa
Losowanie dwustopniowe, w którym najpierw losuje się miejscowości (wiejskie i miejskie), a następnie wykonuje próbę kwotową. Ma wszystkie wady próby zespołowej i próby kwotowej, choć efekt jest nieco lepszy dzięki zapewnieniu właściwych proporcji miast i wsi.
Próba systematyczna
Wybór badanych w jakikolwiek systematyczny sposób np. co 10 nazwiska z książki telefonicznej. Jeśli zmienna według której wybieramy (czyli tu: pozycja w książce telefonicznej) jest niezależna od wszystkich zmiennych badanych, to próba jest reprezentatywna. Istnieje jednak ryzyko, że nie uwzględniamy jakiegoś czynnika, który wpływa na badania (np. konkurencyjna firma badawcza nadużywała próby systematycznej i dokładnie ci badani, którzy znajdują się na co 10 miejscu w książce są teraz wrogo nastawieni do ankiet i podają nieprawdziwe dane).
Próba ekspercka / dobór celowy
W tym schemacie losowania grupy badanych są dobierani do próby przez ekspertów, np. aby przewidzieć wynik wyborów, bierze się pod uwagę miejscowości, gdzie wyniki w poprzednich wyborach były najbardziej zbliżone do wyników w skali kraju.
Dobór celowy jest tani, jednak trudno ocenić, czy próba jest reprezentatywna.
Rozmiar próby
Rozmiar próby powinien być taki, aby zapewnić istotność statystyczną wyników. Potrzeba do tego jednak pewnych danych o populacji. Można więc w pierwszym rzucie zdecydować się na małą próbę, a w razie potrzeby ją poszerzać. Do badania istotności służą testy istotności statystycznej.