p09 w02

Wykład 2

Wprowadzenie do badań

2.1.

Podstawowe pojęcia

Populacja generalna – zbiorowość statystyczna; zbiór elementów nieidentycznych z punktu

widzenia badanej cechy.

Próba – podzbiór populacji generalnej, podlegający badaniu ze względu na ustaloną cechę, w celu

wyciągnięcia wniosków o kształtowaniu się badanej cechy w populacji generalnej.

Liczebność próby – liczba elementów populacji generalnej wybranych do próby (oznaczana

zwykle jako „n”) . Gdy n<30 mówi się często o małej próbie.

Próba reprezentacyjna – próba, której struktura pod względem badanej cechy nie różni się

istotnie od struktury populacji generalnej. Reprezentatywność - stopień w jakim próba reprezentuje

populację generalną w celu uogólnienia na nią prawidłowości zaobserwowanych w próbie

Schemat losowania próby – praktyczny sposób losowania elementów populacji generalnej do

próby, uwzględniający możliwości techniczne, koszt i efektywność uzyskanych wyników.

Losowanie niezależne – schemat losowania próby ze zwracaniem każdego wylosowanego

elementu w trakcie losowania, tak że jeden element może zostać wylosowany do próby więcej niż

jeden raz.

Losowanie zależne – schemat losowania elementów do próby bez zwracania każdego

wylosowanego elementu populacji generalnej, tak że jeden element może zostać wylosowany do

próby tylko jeden raz.

Losowanie nieograniczone – schemat losowania, w którym wylosowanie pewnej jednostki nie

ogranicza możliwości wylosowania do próby jakiejkolwiek innej jednostki.

Losowanie ograniczone – schemat losowania, który pewnym jednostkom nie pozwala znaleźć się

w próbie jednocześnie. Do najbardziej rozpowszechnionych schematów losowania ograniczonego

można zaliczyć: dobór wielostopniowy i dobór wielofazowy.

Losowanie indywidualne – schemat losowania, w którym jednostka losowania jest jednocześnie

jednostką badania.

Losowanie zespołowe – schemat losowania, w którym jednostka losowania składa się z pewnej

liczby jednostek badania (co najmniej dwóch). Przykładem losowania zespołowego, ze względu na

poszczególne osoby, może być wylosowanie do badania pewnej liczby gospodarstw domowych.

2.2.

Indeksy, skale, typologie

Badacze muszą często stosować różne wskaźniki, aby trafnie i adekwatnie zmierzyć daną

zmienną. Indeksy i skale1 tworzy się w celu uzyskania porządkowego miernika danej zmiennej. Dla

niektórych zmiennych, takich jak np. wiek, wystarcza jedno pytanie. Często jednak przedmiotem

1 Szerzej na ten temat: E. Babbie, Badania społeczne w prakty ce, Wydawnictwo Naukowe PWN, Warszawa

2003, s. 173-199.

dr Mirosława Szewczyk

Statystyka

badania są zmienne, dla których nie ma jasnych i jednoznacznych wskaźników. Dotyczy to zwłaszcza

postaw i poglądów. Badacz używa wówczas zestawu pytań, z których każde stanowi jakiś wskaźnik

zmiennej. Natomiast uwzględnienie tylko pojedynczych odpowiedzi mogłoby prowadzić do

nierzetelnych wniosków.

Terminy indeks i skala są na ogół w literaturze stosowane zamiennie. Różnią się one sposobem

ustalania wyniku. Główne etapy tworzenia indeksu to wybór możliwych pytań, zbadanie zależności

pomiędzy nimi, ustalenie punktacji indeksu i sprawdzenie jego trafności. Indeks tworzony jest przez

proste zsumowanie wyników przypisanych poszczególnym wartościom, np. w badaniach dotyczących

aktywności politycznej - dodajemy liczbę twierdzeń świadczących o aktywności (głosowanie – 1pkt,

praca przy organizacji kampanii – 1 pkt, kandydowanie w wyborach 1pkt). Skala natomiast

wykorzystuje różnice w intensywności zmiennej (osoby kandydujące zapewne pracowały przy

organizacji kampanii, a także wzięły udział w głosowaniu – a zatem wykazały znacznie większą

aktywność polityczną od osób które np. tylko głosowały).

Typologia to miernik złożony. Często badacz postanawia podsumować skrzyżowanie co najmniej

dwóch zmiennych, tworząc w ten sposób zbiór kategorii lub typów zwany typologią. Przykład

przedstawia poniższa tabela.

Tabela 4. Typologia polityczna gazet.

Polityka zagraniczna

konserwatywna

liberalna

Sprawy

konserwatywna

wewnętrzne

liberalna

Źródło: E. Babbie, Badania społeczne w prakty ce, Wydawnictwo Naukowe PWN, Warszawa 2003, s.197.

Czynnikiem określającym ilość informacji, jakiej może dostarczyć określona zmienna, jest typ skali

pomiarowej. Wyróżnić można następujące skale: nominalna, porządkowa, przedziałowa, ilorazowa.

Skala nominalna umożliwia pomiar na najniższym poziomie klasyfikacji obiektów według rozłącznych

cech, nie ma własności wartościujących – dla potrzeb identyfikacji jednostki stosuje się jedynie opis

słowny (np. forma prawna: osoba fizyczna, spółka cywilna, spółka z o.o., spółka akcyjna, spółdzielnia,

podmiot państwowy).

Skala porządkowa cechuje się tym, że ponumerowane pozycje obserwowanych w próbie wartości

pokazują relacje między sobą. W skalowaniu porządkującym korzysta się z rangowania -

porządkowania od wartości najmniejszej do największej i przypisywania uszeregowanym obiektom

kolejnych liczb w porządku rosnącym lub malejącym. Przykładem użycia skali porządkowej może być

pytanie dotyczące częstotliwości współpracy badanego podmiotu z innymi przedsiębiorstwami

w zakresie wdrażania innowacji. Możliwe odpowiedzi według pięciostopniowej skali: (1) bardzo często,

(2) często, (3) rzadko, (4) bardzo rzadko, (5) okazjonalnie.

dr Mirosława Szewczyk

Statystyka

W skali interwałowej (przedziałowej) oprócz rangowania wyników obserwacji określamy również

różnice między nimi (umożliwia pomiar ilościowy na poziomie wartościowania addytywnego).

Przykładem może być odpowiedź na pytanie o rok założenia firmy.

Skala

ilorazowa

umożliwia

pomiar

najwyższym

poziomie

z zachowaniem

cech

proporcjonalności, ważne są nie tylko różnice między wynikami, ale również ilorazy tych różnic.

Przykładem może być odpowiedź na pytanie dotyczące średniorocznego zatrudnienia w danym

przedsiębiorstwie (w osobach) czy też wieku respondenta (w latach).

2.3.

Dobór próby

Aby poznać rozkład populacji generalnej należy przeprowadzić badanie. Przeprowadzenie badania

pełnego jest możliwe, jeżeli badana zbiorowość ma skończoną liczbę elementów, a badanie nie ma

charakteru niszczącego. W przeciwnym przypadku obserwacji poddaje się tylko wyodrębniony zespół

elementów populacji generalnej (próbę). Podobnie postępuje się, gdy badanie całej populacji

generalnej jest zbyt kosztowne.

Wykorzystywana w badaniach próba powinna być reprezentatywna, tzn. powinna opisywać

strukturę populacji generalnej z przyjętą dokładnością. Reprezentatywność próby ma zatem

decydujące znaczenie dla jakości wyciągniętych wniosków.

Reprezentatywność typologiczna - próba jest reprezentatywna, jeśli zawiera wszystkie typy

(wartości) interesujących nas cech (zmiennych).

Reprezentatywność rozkładów - próba jest reprezentatywna, jeżeli rozkłady interesujących

nas cech (zmiennych) w tej próbie odpowiadają (z określonym przybliżeniem) rozkładom tych

cech (zmiennych) w populacji generalnej.

Reprezentatywność związków między cechami - próba jest reprezentatywna, jeżeli

zależności występujące między cechami w próbie odpowiadają analogicznym zależnościom

w populacji generalnej

Reprezentatywność próby zależy od sposobu doboru próby oraz od liczebności próby. Metody

doboru próby dzieli się na metody doboru losowego i metody doboru nielosowego. Dobór nielosowy

(subiektywny) uzależniony jest od osoby prowadzącej badanie. Polega on na wyborze konkretnych

jednostek o ustalonych z góry charakterystykach. Przykładem doboru nielosowego są:

dobór celowy, w którym osoba prowadząca badanie wybiera do próby jednostki populacji

świadomie (kierując się swoją wiedzą i przekonaniami w wyborze jednostek „typowych”), np.

wybór artykułów najczęściej kupowanych przez konsumentów, wybór osób o przeciętnych

zarobkach itp.

dobór proporcjonalny (kwotowy), w którym wybiera się określone segmenty próby,

w proporcji odpowiadającej strukturze zbiorowości generalnej. Im więcej wyróżnia się cech

zbiorowości, tym uzyskuje się więcej segmentów i tym trudniej skompletować odpowiedni

skład zbiorowości próbnej. Dlatego też dla skompletowania składu liczebnego najczęściej

poprzestaje się na 2-3 cechach dających nie więcej niż 10 segmentów. Dobór jednostek do

dr Mirosława Szewczyk

Statystyka

próby nie ma charakteru losowego, zwłaszcza w końcowej fazie kompletowania struktury

zbioru.

dobór na zasadzie eliminacji jest przeciwieństwem doboru jednostek typowych. W tym

przypadku eliminuje się jednostki odbiegające znacznie od przeciętnych. Powoduje to

zawężenie obrazu struktury zjawiska do wielkości przeciętnych.

W doborze losowym wybór jednostek do próby jest przypadkowy, można jednak określić

prawdopodobieństwo, że dana jednostka lub zespół jednostek znajdzie się w próbie. Przykładem

losowego doboru jednostek do próby jest losowanie niezależne, w którym raz wylosowana do próby

jednostka wraca do populacji. Nieograniczony dobór losowy jest podstawową metodą uzyskania

reprezentatywnej zbiorowości próbnej. Jeżeli próba jest losowa, to wraz ze wzrostem liczebności

próby wzrasta stopień reprezentatywności. Losowanie indywidualne, nieograniczone i niezależne (tj.

ze zwracaniem) nosi nazwę losowania prostego.

Do najbardziej rozpowszechnionych schematów losowania ograniczonego można zaliczyć: dobór

warstwowy, dobór wielostopniowy i dobór wielofazowy.

Dobór warstwowy zaleca się w sytuacji, gdy badana zbiorowość wykazuje silne

zróżnicowanie pewnej interesującej nas cechy. Metoda ta wymaga podziału całej zbiorowości

na warstwy (grupy), w obrębie których następuje oddzielny dobór losowy. Losowania

dokonuje się zazwyczaj w stosunku wprost proporcjonalnym do liczebności danej warstwy.

Najlepsze efekty osiąga się wówczas, gdy za kryterium podziału przyjmuje się cechy możliwie

silnie skorelowane z cechami badanymi (np. dochód, powierzchnia gospodarstwa rolnego,

wiek, miejsce zamieszkania itp.).

Dobór wielostopniowy stosuje się, kiedy możliwe jest podzielenie, przy wykorzystaniu

określonego kryterium, badanej zbiorowości na kolejne, coraz mniejsze grupy, np. podział

kraju na województwa, podział województw na powiaty, podział powiatów na gminy itd. Na

początku wybiera się jednostki losowania pierwszego stopnia, następnie jednostki te dzieli się

na mniejsze zespoły (jednostki losowania drugiego stopnia) itd., aż ostatecznie dochodzi się

do jednostek badania.

Dobór wielofazowy różni się od doboru wielostopniowego jedynie wyborem próby znacznie

liczniejszej od pożądanej. Z tej próby można wybrać dwie lub więcej mniejszych prób, które

mogą być wykorzystywane w badaniach.

Losowanie do próby polega na ponumerowaniu wszystkich jednostek danej zbiorowości

i dokonaniu wyboru losowego pewnej ich liczby. Najczęściej wykorzystuje się losowanie za pomocą

tablic liczb losowych oraz metodę doboru systematycznego.

Losowanie za pomocą tablic liczb losowych2 polega na odczytaniu w ustalonej kolejności liczb

w nich umieszczonych. Zaczynając zatem od dowolnego miejsca tablicy, wybieramy według ustalonej

zasady tyle liczb, ile jednostek ma liczyć dana próba losowa. Pomija się przy tym wszystkie liczby

większe od liczebności badanej zbiorowości. Zanotowane liczby z tablic liczb losowych wskazują

numery jednostek, które zostały wylosowane do próby.

2 Tablice te zbudowane są tak, że liczby czytane w dowolnym porządku (pionowo, poziomo, wprzód, wstecz,

całościowo, segmentowo), zachowują zawsze cechy przypadkowości, niezależnie od miejsca ich występowania.

dr Mirosława Szewczyk

Statystyka

Dobór systematyczny polega na wyborze z uporządkowanego zbioru odpowiedniej liczby

jednostek w równych odstępach (interwałach). Na początku ustala się liczebność całej zbiorowości

(N), a następnie liczebność próby (n). Na tej podstawie ustala się interwał losowania k=N/n.

Poczynając od losowo obranej jednostki pierwszego interwału dobiera się kolejno co „k” jednostek

z każdego interwału po jednej jednostce, aż do osiągnięcia pożądanej wielkości próby.

Zalety doboru losowego:

Brak wstępnej wiedzy o populacji generalnej nie wpływa negatywnie na reprezentatywność

próby.

Umożliwia oszacowanie metodami probabilistycznymi stopnia reprezentatywności uzyskanej

próby i to w zakresie wszystkich możliwych cech, ich rozkładów oraz zależności między nimi.

Pozwala skorygować wiedzę o populacji.

Wady doboru losowego:

Próba losowa musi być dostatecznie liczna, co ze względów technicznych lub finansowych

może stanowić pewną trudność.

Mogą wystąpić trudności związane z efektywnym zdefiniowaniem populacji zgodnej z celem

badania, a co z tym związane – listy obiektów tworzących populację generalną.

2.4.

Typy badań

Najczęściej stosowanymi formami badania częściowego są metoda reprezentacyjna, metoda

monograficzna, metoda ankietowa. Badanie reprezentacyjne to takie badanie częściowe, w którym

losowo pobrane do próby jednostki reprezentują całą populację, mimo, że stanowią tylko jej część.

Badanie monograficzne polega na wszechstronnym, wyczerpującym opisie wybranej jednostki

(np. województwa, przedsiębiorstwa). Jednostka zostaje wybrana do badania świadomie (celowo).

Z reguły jednostka zasługuje na badanie, gdyż jest to jednostka „typowa” albo też „nietypowa”.

Badania ankietowe mają miejsce wówczas, gdy nie chodzi tylko o opis faktów i ich właściwości,

ale gdy celem jest również poznanie opinii. Dane są gromadzone za pomocą odpowiednio

skonstruowanej ankiety, rozsyłanej do wytypowanego lub losowo wybranego grona respondentów.

Stosując tę metodę nie prowadzi się bezpośrednich obserwacji, lecz zwraca się z prośbą do

ankietowanych opodanie informacji.

Ankieta powinna zawierać :

wprowadzenie zapewniające o anonimowości ankiety oraz motywujące respondenta do podania

kompletnych i szczerych odpowiedzi na zawarte w ankiecie pytania

instrukcję prawidłowego wypełnienia ankiety (zwłaszcza w pytaniach z wieloma wariantami

odpowiedzi należy wyraźnie poinformować respondenta czy ma wybrać dokładnie jedną z nich,

czy też może zakreślić kilka)

metryczkę – pytania pozwalające na identyfikację interesujących nas cech kategoryzujących

respondenta (płeć, wiek, miejsce zamieszkania, ...)

dr Mirosława Szewczyk

Statystyka

Pytania mogą być:

zamknięte – respondent ma wybrać jedną lub kilka odpowiedzi z zestawu ułożonego przez

ankietera; zestaw odpowiedzi na pytanie zamknięte powinien być zupełny (zawierający

wszystkie możliwe do przewidzenia warianty odpowiedzi na postawione pytanie, w celu

uzupełnienia zestawu można dołączyć odpowiedź „inne – jakie?”) i rozłączny (w przypadku

pytania z jedną prawidłową odpowiedzią - wybór jednej odpowiedzi powinien wykluczać wybór

innych dostępnych)

otwarte – forma i sposób odpowiedzi są dowolne.

Przykład

Proszę o wzięcie udziału w badaniu i wypełnienie ankiety pt. „Dlaczego czytam wykłady ze

statystyki”. Jej wyniki zostaną wykorzystane wyłącznie do celów naukowych. Celem badania jest

poznanie opinii studentów o wykładach ze statystyki, występujących trudnościach i możliwościach ich

przezwyciężenia. Ankieta jest anonimowa (wypełnionej ankiety nie należy więc podpisywać

nazwiskiem). Proszę o szczegółowe i uważne zapoznanie się z treścią pytań oraz możliwymi

odpowiedziami. Odpowiadając na kolejne pytania, należy spośród podanych odpowiedzi wybrać

odpowiedź(i) zgodną(e) z poglądami lub wpisać treść odpowiedzi we właściwym miejscu. Proszę

o odpowiedź na każde pytanie. Dziękuję za zainteresowanie oraz poświęcony czas.

Mirosława Szewczyk

1. Dlaczego przeczytał(a) Pan(Pani) dzisiejszy wykład? (moż na zakreś lić krzyż ykiem kilka odpowiedzi)

a) Jest to mój ulubiony wykład

b) Pomyliłem(am) się i przeczytałem(am) statystykę zamiast makroekonomii

c) Myślałem(am), że znajdę odpowiedź na nurtujące mnie pytania

d) Inne (jakie?) ...........................................................

2. Który z wykładów uważa Pan(Pani) za najciekawszy? Proszę uporządkować wykłady

z wymienionych przedmiotów w wybranej przez siebie kolejności (1 – najciekawszy, 2 – średnio

ciekawy, 3 – najmniej ciekawy).

a) Statystyka

b) Makroekonomia

c) Finanse publiczne

3. Czy jest Pan (Pani) zadowolony(a) z jakości materiałów prezentowanych na wykładach ze

statystyki ? (zakreś lić krzyż ykiem jedną odpowiedź )

a) Zdecydowanie tak

b) Raczej tak

c) Raczej nie

d) Zdecydowanie nie

e) Nie potrafię ocenić

dr Mirosława Szewczyk

Statystyka

Metryka respondenta

4. Płeć

a) Kobieta

b) Mężczyzna

5. Wiek .............. lat

6. Miejsce zamieszkania (miejscowość/województwo):

................................/woj..............................

Proszę o sprawdzenie, czy udzielił(a) Pan (Pani) odpowiedzi na wszystkie pytania.

Dziękuję za udział w badaniu

Mirosława Szewczyk

Jeśli ma Pan (Pani) dodatkowe uwagi na tematy poruszane w ankiecie, proszę

o zamieszczenie ich poniżej ................................................................................. ......................

.............................................................................................................................. .......................

.....................................................................................................................................................

2.5.

Zagadnienia i pytania kontrolne

Pytania kontrolne:

1. Rozważ grę liczbową „Duży Lotek”, w której za pomocą maszyny losującej dokonuje się

doboru sześciu liczb spośród czterdziestu dziewięciu. Jaka jest liczność populacji generalnej,

a jaka liczność próby? Czy jest to losowanie indywidualne czy zespołowe? Czy jest to

losowanie zależne czy niezależne?

2. W przedsiębiorstwie „Oszuścik” przeprowadzono badanie płac zatrudnionych osób. Kiedy

będziemy mogli powiedzieć, że było to badanie całkowite? Gdy badamy wszystkie cechy,

od których zależą płace? Gdy badamy wszystkich pracowników przedsiębiorstwa? Czy

może w jeszcze innym przypadku?

Problemy do dyskusji:

1. Znajdź w opracowaniach Urzędu Statystycznego (GUS lub Wojewódzkiego Urzędu

Statystycznego) raport z badań z zastosowaniem jednej z metod doboru próby. Jaki rodzaj

doboru próby został zastosowany? Jak liczna była próba?

2. Znajdź w Internecie lub w opracowaniach Urzędu Statystycznego (GUS lub Wojewódzkiego

Urzędu Statystycznego) formularz zawierający zestaw pytań z Narodowego Spisu

dr Mirosława Szewczyk

Statystyka

Powszechnego Ludnoś ci i Mieszkań 2002 lub Powszechnego Spisu Rolnego 2002.

Zapoznaj się z poszczególnymi pytaniami.

dr Mirosława Szewczyk

Statystyka