Wykład 2
Wprowadzenie do badań
2.1.
Podstawowe pojęcia
Populacja generalna – zbiorowość statystyczna; zbiór elementów nieidentycznych z punktu
widzenia badanej cechy.
Próba – podzbiór populacji generalnej, podlegający badaniu ze względu na ustaloną cechę, w celu
wyciągnięcia wniosków o kształtowaniu się badanej cechy w populacji generalnej.
Liczebność próby – liczba elementów populacji generalnej wybranych do próby (oznaczana
zwykle jako „n”) . Gdy n<30 mówi się często o małej próbie.
Próba reprezentacyjna – próba, której struktura pod względem badanej cechy nie różni się
istotnie od struktury populacji generalnej. Reprezentatywność - stopień w jakim próba reprezentuje
populację generalną w celu uogólnienia na nią prawidłowości zaobserwowanych w próbie
Schemat losowania próby – praktyczny sposób losowania elementów populacji generalnej do
próby, uwzględniający możliwości techniczne, koszt i efektywność uzyskanych wyników.
Losowanie niezależne – schemat losowania próby ze zwracaniem każdego wylosowanego
elementu w trakcie losowania, tak że jeden element może zostać wylosowany do próby więcej niż
jeden raz.
Losowanie zależne – schemat losowania elementów do próby bez zwracania każdego
wylosowanego elementu populacji generalnej, tak że jeden element może zostać wylosowany do
próby tylko jeden raz.
Losowanie nieograniczone – schemat losowania, w którym wylosowanie pewnej jednostki nie
ogranicza możliwości wylosowania do próby jakiejkolwiek innej jednostki.
Losowanie ograniczone – schemat losowania, który pewnym jednostkom nie pozwala znaleźć się
w próbie jednocześnie. Do najbardziej rozpowszechnionych schematów losowania ograniczonego
można zaliczyć: dobór wielostopniowy i dobór wielofazowy.
Losowanie indywidualne – schemat losowania, w którym jednostka losowania jest jednocześnie
jednostką badania.
Losowanie zespołowe – schemat losowania, w którym jednostka losowania składa się z pewnej
liczby jednostek badania (co najmniej dwóch). Przykładem losowania zespołowego, ze względu na
poszczególne osoby, może być wylosowanie do badania pewnej liczby gospodarstw domowych.
2.2.
Indeksy, skale, typologie
Badacze muszą często stosować różne wskaźniki, aby trafnie i adekwatnie zmierzyć daną
zmienną. Indeksy i skale1 tworzy się w celu uzyskania porządkowego miernika danej zmiennej. Dla
niektórych zmiennych, takich jak np. wiek, wystarcza jedno pytanie. Często jednak przedmiotem
1 Szerzej na ten temat: E. Babbie, Badania społeczne w prakty ce, Wydawnictwo Naukowe PWN, Warszawa
2003, s. 173-199.
dr Mirosława Szewczyk
1
Statystyka
badania są zmienne, dla których nie ma jasnych i jednoznacznych wskaźników. Dotyczy to zwłaszcza
postaw i poglądów. Badacz używa wówczas zestawu pytań, z których każde stanowi jakiś wskaźnik
zmiennej. Natomiast uwzględnienie tylko pojedynczych odpowiedzi mogłoby prowadzić do
nierzetelnych wniosków.
Terminy indeks i skala są na ogół w literaturze stosowane zamiennie. Różnią się one sposobem
ustalania wyniku. Główne etapy tworzenia indeksu to wybór możliwych pytań, zbadanie zależności
pomiędzy nimi, ustalenie punktacji indeksu i sprawdzenie jego trafności. Indeks tworzony jest przez
proste zsumowanie wyników przypisanych poszczególnym wartościom, np. w badaniach dotyczących
aktywności politycznej - dodajemy liczbę twierdzeń świadczących o aktywności (głosowanie – 1pkt,
praca przy organizacji kampanii – 1 pkt, kandydowanie w wyborach 1pkt). Skala natomiast
wykorzystuje różnice w intensywności zmiennej (osoby kandydujące zapewne pracowały przy
organizacji kampanii, a także wzięły udział w głosowaniu – a zatem wykazały znacznie większą
aktywność polityczną od osób które np. tylko głosowały).
Typologia to miernik złożony. Często badacz postanawia podsumować skrzyżowanie co najmniej
dwóch zmiennych, tworząc w ten sposób zbiór kategorii lub typów zwany typologią. Przykład
przedstawia poniższa tabela.
Tabela 4. Typologia polityczna gazet.
Polityka zagraniczna
konserwatywna
liberalna
Sprawy
konserwatywna
A
B
wewnętrzne
liberalna
C
D
Źródło: E. Babbie, Badania społeczne w prakty ce, Wydawnictwo Naukowe PWN, Warszawa 2003, s.197.
Czynnikiem określającym ilość informacji, jakiej może dostarczyć określona zmienna, jest typ skali
pomiarowej. Wyróżnić można następujące skale: nominalna, porządkowa, przedziałowa, ilorazowa.
Skala nominalna umożliwia pomiar na najniższym poziomie klasyfikacji obiektów według rozłącznych
cech, nie ma własności wartościujących – dla potrzeb identyfikacji jednostki stosuje się jedynie opis
słowny (np. forma prawna: osoba fizyczna, spółka cywilna, spółka z o.o., spółka akcyjna, spółdzielnia,
podmiot państwowy).
Skala porządkowa cechuje się tym, że ponumerowane pozycje obserwowanych w próbie wartości
pokazują relacje między sobą. W skalowaniu porządkującym korzysta się z rangowania -
porządkowania od wartości najmniejszej do największej i przypisywania uszeregowanym obiektom
kolejnych liczb w porządku rosnącym lub malejącym. Przykładem użycia skali porządkowej może być
pytanie dotyczące częstotliwości współpracy badanego podmiotu z innymi przedsiębiorstwami
w zakresie wdrażania innowacji. Możliwe odpowiedzi według pięciostopniowej skali: (1) bardzo często,
(2) często, (3) rzadko, (4) bardzo rzadko, (5) okazjonalnie.
dr Mirosława Szewczyk
2
Statystyka
W skali interwałowej (przedziałowej) oprócz rangowania wyników obserwacji określamy również
różnice między nimi (umożliwia pomiar ilościowy na poziomie wartościowania addytywnego).
Przykładem może być odpowiedź na pytanie o rok założenia firmy.
Skala
ilorazowa
umożliwia
pomiar
na
najwyższym
poziomie
z zachowaniem
cech
proporcjonalności, ważne są nie tylko różnice między wynikami, ale również ilorazy tych różnic.
Przykładem może być odpowiedź na pytanie dotyczące średniorocznego zatrudnienia w danym
przedsiębiorstwie (w osobach) czy też wieku respondenta (w latach).
2.3.
Dobór próby
Aby poznać rozkład populacji generalnej należy przeprowadzić badanie. Przeprowadzenie badania
pełnego jest możliwe, jeżeli badana zbiorowość ma skończoną liczbę elementów, a badanie nie ma
charakteru niszczącego. W przeciwnym przypadku obserwacji poddaje się tylko wyodrębniony zespół
elementów populacji generalnej (próbę). Podobnie postępuje się, gdy badanie całej populacji
generalnej jest zbyt kosztowne.
Wykorzystywana w badaniach próba powinna być reprezentatywna, tzn. powinna opisywać
strukturę populacji generalnej z przyjętą dokładnością. Reprezentatywność próby ma zatem
decydujące znaczenie dla jakości wyciągniętych wniosków.
Reprezentatywność typologiczna - próba jest reprezentatywna, jeśli zawiera wszystkie typy
(wartości) interesujących nas cech (zmiennych).
Reprezentatywność rozkładów - próba jest reprezentatywna, jeżeli rozkłady interesujących
nas cech (zmiennych) w tej próbie odpowiadają (z określonym przybliżeniem) rozkładom tych
cech (zmiennych) w populacji generalnej.
Reprezentatywność związków między cechami - próba jest reprezentatywna, jeżeli
zależności występujące między cechami w próbie odpowiadają analogicznym zależnościom
w populacji generalnej
Reprezentatywność próby zależy od sposobu doboru próby oraz od liczebności próby. Metody
doboru próby dzieli się na metody doboru losowego i metody doboru nielosowego. Dobór nielosowy
(subiektywny) uzależniony jest od osoby prowadzącej badanie. Polega on na wyborze konkretnych
jednostek o ustalonych z góry charakterystykach. Przykładem doboru nielosowego są:
dobór celowy, w którym osoba prowadząca badanie wybiera do próby jednostki populacji
świadomie (kierując się swoją wiedzą i przekonaniami w wyborze jednostek „typowych”), np.
wybór artykułów najczęściej kupowanych przez konsumentów, wybór osób o przeciętnych
zarobkach itp.
dobór proporcjonalny (kwotowy), w którym wybiera się określone segmenty próby,
w proporcji odpowiadającej strukturze zbiorowości generalnej. Im więcej wyróżnia się cech
zbiorowości, tym uzyskuje się więcej segmentów i tym trudniej skompletować odpowiedni
skład zbiorowości próbnej. Dlatego też dla skompletowania składu liczebnego najczęściej
poprzestaje się na 2-3 cechach dających nie więcej niż 10 segmentów. Dobór jednostek do
dr Mirosława Szewczyk
3
Statystyka
próby nie ma charakteru losowego, zwłaszcza w końcowej fazie kompletowania struktury
zbioru.
dobór na zasadzie eliminacji jest przeciwieństwem doboru jednostek typowych. W tym
przypadku eliminuje się jednostki odbiegające znacznie od przeciętnych. Powoduje to
zawężenie obrazu struktury zjawiska do wielkości przeciętnych.
W doborze losowym wybór jednostek do próby jest przypadkowy, można jednak określić
prawdopodobieństwo, że dana jednostka lub zespół jednostek znajdzie się w próbie. Przykładem
losowego doboru jednostek do próby jest losowanie niezależne, w którym raz wylosowana do próby
jednostka wraca do populacji. Nieograniczony dobór losowy jest podstawową metodą uzyskania
reprezentatywnej zbiorowości próbnej. Jeżeli próba jest losowa, to wraz ze wzrostem liczebności
próby wzrasta stopień reprezentatywności. Losowanie indywidualne, nieograniczone i niezależne (tj.
ze zwracaniem) nosi nazwę losowania prostego.
Do najbardziej rozpowszechnionych schematów losowania ograniczonego można zaliczyć: dobór
warstwowy, dobór wielostopniowy i dobór wielofazowy.
Dobór warstwowy zaleca się w sytuacji, gdy badana zbiorowość wykazuje silne
zróżnicowanie pewnej interesującej nas cechy. Metoda ta wymaga podziału całej zbiorowości
na warstwy (grupy), w obrębie których następuje oddzielny dobór losowy. Losowania
dokonuje się zazwyczaj w stosunku wprost proporcjonalnym do liczebności danej warstwy.
Najlepsze efekty osiąga się wówczas, gdy za kryterium podziału przyjmuje się cechy możliwie
silnie skorelowane z cechami badanymi (np. dochód, powierzchnia gospodarstwa rolnego,
wiek, miejsce zamieszkania itp.).
Dobór wielostopniowy stosuje się, kiedy możliwe jest podzielenie, przy wykorzystaniu
określonego kryterium, badanej zbiorowości na kolejne, coraz mniejsze grupy, np. podział
kraju na województwa, podział województw na powiaty, podział powiatów na gminy itd. Na
początku wybiera się jednostki losowania pierwszego stopnia, następnie jednostki te dzieli się
na mniejsze zespoły (jednostki losowania drugiego stopnia) itd., aż ostatecznie dochodzi się
do jednostek badania.
Dobór wielofazowy różni się od doboru wielostopniowego jedynie wyborem próby znacznie
liczniejszej od pożądanej. Z tej próby można wybrać dwie lub więcej mniejszych prób, które
mogą być wykorzystywane w badaniach.
Losowanie do próby polega na ponumerowaniu wszystkich jednostek danej zbiorowości
i dokonaniu wyboru losowego pewnej ich liczby. Najczęściej wykorzystuje się losowanie za pomocą
tablic liczb losowych oraz metodę doboru systematycznego.
Losowanie za pomocą tablic liczb losowych2 polega na odczytaniu w ustalonej kolejności liczb
w nich umieszczonych. Zaczynając zatem od dowolnego miejsca tablicy, wybieramy według ustalonej
zasady tyle liczb, ile jednostek ma liczyć dana próba losowa. Pomija się przy tym wszystkie liczby
większe od liczebności badanej zbiorowości. Zanotowane liczby z tablic liczb losowych wskazują
numery jednostek, które zostały wylosowane do próby.
2 Tablice te zbudowane są tak, że liczby czytane w dowolnym porządku (pionowo, poziomo, wprzód, wstecz,
całościowo, segmentowo), zachowują zawsze cechy przypadkowości, niezależnie od miejsca ich występowania.
dr Mirosława Szewczyk
4
Statystyka
Dobór systematyczny polega na wyborze z uporządkowanego zbioru odpowiedniej liczby
jednostek w równych odstępach (interwałach). Na początku ustala się liczebność całej zbiorowości
(N), a następnie liczebność próby (n). Na tej podstawie ustala się interwał losowania k=N/n.
Poczynając od losowo obranej jednostki pierwszego interwału dobiera się kolejno co „k” jednostek
z każdego interwału po jednej jednostce, aż do osiągnięcia pożądanej wielkości próby.
Zalety doboru losowego:
Brak wstępnej wiedzy o populacji generalnej nie wpływa negatywnie na reprezentatywność
próby.
Umożliwia oszacowanie metodami probabilistycznymi stopnia reprezentatywności uzyskanej
próby i to w zakresie wszystkich możliwych cech, ich rozkładów oraz zależności między nimi.
Pozwala skorygować wiedzę o populacji.
Wady doboru losowego:
Próba losowa musi być dostatecznie liczna, co ze względów technicznych lub finansowych
może stanowić pewną trudność.
Mogą wystąpić trudności związane z efektywnym zdefiniowaniem populacji zgodnej z celem
badania, a co z tym związane – listy obiektów tworzących populację generalną.
2.4.
Typy badań
Najczęściej stosowanymi formami badania częściowego są metoda reprezentacyjna, metoda
monograficzna, metoda ankietowa. Badanie reprezentacyjne to takie badanie częściowe, w którym
losowo pobrane do próby jednostki reprezentują całą populację, mimo, że stanowią tylko jej część.
Badanie monograficzne polega na wszechstronnym, wyczerpującym opisie wybranej jednostki
(np. województwa, przedsiębiorstwa). Jednostka zostaje wybrana do badania świadomie (celowo).
Z reguły jednostka zasługuje na badanie, gdyż jest to jednostka „typowa” albo też „nietypowa”.
Badania ankietowe mają miejsce wówczas, gdy nie chodzi tylko o opis faktów i ich właściwości,
ale gdy celem jest również poznanie opinii. Dane są gromadzone za pomocą odpowiednio
skonstruowanej ankiety, rozsyłanej do wytypowanego lub losowo wybranego grona respondentów.
Stosując tę metodę nie prowadzi się bezpośrednich obserwacji, lecz zwraca się z prośbą do
ankietowanych opodanie informacji.
Ankieta powinna zawierać :
wprowadzenie zapewniające o anonimowości ankiety oraz motywujące respondenta do podania
kompletnych i szczerych odpowiedzi na zawarte w ankiecie pytania
instrukcję prawidłowego wypełnienia ankiety (zwłaszcza w pytaniach z wieloma wariantami
odpowiedzi należy wyraźnie poinformować respondenta czy ma wybrać dokładnie jedną z nich,
czy też może zakreślić kilka)
metryczkę – pytania pozwalające na identyfikację interesujących nas cech kategoryzujących
respondenta (płeć, wiek, miejsce zamieszkania, ...)
dr Mirosława Szewczyk
5
Statystyka
Pytania mogą być:
zamknięte – respondent ma wybrać jedną lub kilka odpowiedzi z zestawu ułożonego przez
ankietera; zestaw odpowiedzi na pytanie zamknięte powinien być zupełny (zawierający
wszystkie możliwe do przewidzenia warianty odpowiedzi na postawione pytanie, w celu
uzupełnienia zestawu można dołączyć odpowiedź „inne – jakie?”) i rozłączny (w przypadku
pytania z jedną prawidłową odpowiedzią - wybór jednej odpowiedzi powinien wykluczać wybór
innych dostępnych)
otwarte – forma i sposób odpowiedzi są dowolne.
Przykład
Proszę o wzięcie udziału w badaniu i wypełnienie ankiety pt. „Dlaczego czytam wykłady ze
statystyki”. Jej wyniki zostaną wykorzystane wyłącznie do celów naukowych. Celem badania jest
poznanie opinii studentów o wykładach ze statystyki, występujących trudnościach i możliwościach ich
przezwyciężenia. Ankieta jest anonimowa (wypełnionej ankiety nie należy więc podpisywać
nazwiskiem). Proszę o szczegółowe i uważne zapoznanie się z treścią pytań oraz możliwymi
odpowiedziami. Odpowiadając na kolejne pytania, należy spośród podanych odpowiedzi wybrać
odpowiedź(i) zgodną(e) z poglądami lub wpisać treść odpowiedzi we właściwym miejscu. Proszę
o odpowiedź na każde pytanie. Dziękuję za zainteresowanie oraz poświęcony czas.
Mirosława Szewczyk
1. Dlaczego przeczytał(a) Pan(Pani) dzisiejszy wykład? (moż na zakreś lić krzyż ykiem kilka odpowiedzi)
a) Jest to mój ulubiony wykład
b) Pomyliłem(am) się i przeczytałem(am) statystykę zamiast makroekonomii
c) Myślałem(am), że znajdę odpowiedź na nurtujące mnie pytania
d) Inne (jakie?) ...........................................................
2. Który z wykładów uważa Pan(Pani) za najciekawszy? Proszę uporządkować wykłady
z wymienionych przedmiotów w wybranej przez siebie kolejności (1 – najciekawszy, 2 – średnio
ciekawy, 3 – najmniej ciekawy).
a) Statystyka
b) Makroekonomia
c) Finanse publiczne
3. Czy jest Pan (Pani) zadowolony(a) z jakości materiałów prezentowanych na wykładach ze
statystyki ? (zakreś lić krzyż ykiem jedną odpowiedź )
a) Zdecydowanie tak
b) Raczej tak
c) Raczej nie
d) Zdecydowanie nie
e) Nie potrafię ocenić
dr Mirosława Szewczyk
6
Statystyka
Metryka respondenta
4. Płeć
a) Kobieta
b) Mężczyzna
5. Wiek .............. lat
6. Miejsce zamieszkania (miejscowość/województwo):
................................/woj..............................
Proszę o sprawdzenie, czy udzielił(a) Pan (Pani) odpowiedzi na wszystkie pytania.
Dziękuję za udział w badaniu
Mirosława Szewczyk
Jeśli ma Pan (Pani) dodatkowe uwagi na tematy poruszane w ankiecie, proszę
o zamieszczenie ich poniżej ................................................................................. ......................
.............................................................................................................................. .......................
.....................................................................................................................................................
2.5.
Zagadnienia i pytania kontrolne
Pytania kontrolne:
1. Rozważ grę liczbową „Duży Lotek”, w której za pomocą maszyny losującej dokonuje się
doboru sześciu liczb spośród czterdziestu dziewięciu. Jaka jest liczność populacji generalnej,
a jaka liczność próby? Czy jest to losowanie indywidualne czy zespołowe? Czy jest to
losowanie zależne czy niezależne?
2. W przedsiębiorstwie „Oszuścik” przeprowadzono badanie płac zatrudnionych osób. Kiedy
będziemy mogli powiedzieć, że było to badanie całkowite? Gdy badamy wszystkie cechy,
od których zależą płace? Gdy badamy wszystkich pracowników przedsiębiorstwa? Czy
może w jeszcze innym przypadku?
Problemy do dyskusji:
1. Znajdź w opracowaniach Urzędu Statystycznego (GUS lub Wojewódzkiego Urzędu
Statystycznego) raport z badań z zastosowaniem jednej z metod doboru próby. Jaki rodzaj
doboru próby został zastosowany? Jak liczna była próba?
2. Znajdź w Internecie lub w opracowaniach Urzędu Statystycznego (GUS lub Wojewódzkiego
Urzędu Statystycznego) formularz zawierający zestaw pytań z Narodowego Spisu
dr Mirosława Szewczyk
7
Statystyka
Powszechnego Ludnoś ci i Mieszkań 2002 lub Powszechnego Spisu Rolnego 2002.
Zapoznaj się z poszczególnymi pytaniami.
dr Mirosława Szewczyk
8
Statystyka