Projektowanie badań społeczno-
ekonomicznych
ekonomicznych
Prof.Małgorzata Rószkiewicz
mroszki@sgh.waw.pl
Konsultacje: czwartki 13.45 p.215/F
Literatura:
•
Podstawowa:
•
M. Rószkiewicz, Metody ilościowe w badaniach marketingowych, PWN,
Warszawa, 2002 rodziały: 3-5.
•
J. Kordos, Jakość danych statystycznych, PWE, Warszawa, 1988, rozdziały:
1-4.
•
V. Barnett, Elementy teorii próby, PWE, Warszawa, 1982.
•
V. Barnett, Elementy teorii próby, PWE, Warszawa, 1982.
•
Uzupełniająca:
•
Ch. Frankfort-Nachmias, D. Nachmias, Metody badawcze w naukach
społecznych, Zysk i s-ka Wydawnictwo, Poznań, 2001, rozdziały: 4-11.
•
Fieldwork jest sztuką, pod red. P.B. Sztabińskiego, Z. Sawińskiego, F.
Sztabińskiego, IFiSPAN, Warszawa, 2005, rozdziały: 6-8 i 16-25.
•
E. Barbbie, Badania społeczne w praktyce, PWN, Warszawa, 2005,
rozdziały: 2-7.
Co to znaczny „
projektowanie badania
społecznego-ekonomicznego
”?
•
Wybór rodzaju badania.
•
Określenie badanej zbiorowości
•
Ustalenie zakresu pojęciowego, definicji i klasyfikacji badanych
cech.
•
Zaprojektowanie tablic wynikowych oraz wybór metod analizy
•
Zaprojektowanie tablic wynikowych oraz wybór metod analizy
wyników.
•
Wybór metody zbierania danych: poziom mikro lub makro.
•
Przygotowanie zaplecza technicznego i organizacyjnego
badania.
•
Wybór metody kontroli realizacji badania.
•
Terminarz realizacji badania.
•
Wybór formy prezentacji wyników.
Kryteria klasyfikacji badań
empirycznych:
•
wykorzystywane źródła informacji,
•
wykorzystywane źródła informacji,
•
zakres tematyczny badania,
•
organizację badania,
•
rodzaj informacji otrzymywanej w rezultacie
badania.
Ze względu na wykorzystywane
źródła informacji:
•
badania wtórne(desk research): wykorzystujące dane
zastane
•
badania pierwotne (field work): tworzące dane w wyniku
•
badania pierwotne (field work): tworzące dane w wyniku
zorganizowanego pomiaru
Ze względu na zakres tematyczny
badania:
•
badania syndykatowe:
tzw. badania branżowe, tj. o stałym, powtarzany
cyklicznie obszarze badania,
•
badania różnorodne tematycznie, w których
obszar badania uzależniony jest każdorazowo od
potrzeb i zainteresowań podmiotów poszukujących
informacji. Do tej grupy badań zalicza się tzw.
badania ad hoc.
Ze względu na organizację badania:
•
charakter tematyki badania: monotematyczne
, koncentrujące się na realizacji
jednego celu badawczego związanego z jednym ośrodkiem zainteresowanym
wynikami,
wielotematyczne
, realizujące wiele celów badawczych, związanych z
wieloma ośrodkami zainteresowanymi wynikami, tzw. Omnibusy,
•
zasięg pomiaru: wyczerpujące
, poddające badaniu wszystkie jednostki
tworzące badaną zbiorowość (spisy),
fragmentaryczne
, poddające badaniu
jedynie pewną grupę jednostek wybraną w jakiś sposób z całej badanej
zbiorowości (badania na próbach),
•
częstotliwość pomiaru:
ciągłe (monitoring), okresowe, jednorazowe,
•
stabilności grupy podlegającej obserwacji w badaniach okresowych i/lub
stabilność narzędzia pomiaru:
przekrojowe (cross-section), panele, trackingi
Ze względu na rodzaj informacji
(cel badania) otrzymywanej w rezultacie
badania:
•
badania jakościowe:
rozpoznające indywidualne poglądy i stanowiska,
wyjaśniające kształtowania się określonych opinii,
wyjaśniające kształtowania się określonych opinii,
•
badania ilościowe:
tworzące statystyczny obraz badanej rzeczywistości.
Badania opisowe:
mają na celu scharakteryzowanie
obiektów lub sytuacji badanych
Badania przyczynowe:
mają na celu identyfikację czynników
Badania ilościowe,
których celem jest określenie
liczbowych charakterystyk
rynku. Pozwalają zbudować
Ze względu na rodzaj informacji
(cel badania) otrzymywanej w rezultacie
badania:
mają na celu identyfikację czynników
kształtujących zjawiska i badane procesy
Badania eksploracyjne:
mają na celu rozpoznanie zjawisk,
procesów i badanych zdarzeń
rynku. Pozwalają zbudować
statystyczny obraz
rzeczywistości.
Badania jakościowe,
których celem jest określenie
sposobów widzenia,interpretowania
i wartościowania zjawisk.
Orientacje badawcze wg Pike’a:
Perspektywa zewnętrzna wobec
obiektu badanego – pojęcia i
kategorie opisowe badacza. Z
potrzeby agregacji danych
wymagana standaryzacja pomiaru
Orientacja etic:
podejście ilościowe
Rodzaj poszukiwanej informacji (cel badania) wyznacza zasadę pomiaru:
Perspektywa wewnętrzna obiektu
badanego – pojęcia i kategorie opisowe
badanego. Z faktu niepowtarzalności
indywidualnych przypadków wymagana
indywidualizacja pomiaru
Orientacja emic:
podejście jakościowe
obserwacja
wywiad
eksperyment
badania terenowe
Rodzaj poszukiwanej informacji (cel badania) wyznacza metodę pomiaru:
obserwacja
wywiad
eksperyment
Obserwacja, czyli bierne
rejestrowanie rzeczywistości
Wywiad, czyli rozmowa
bezpośrednia lub za pomocą
bezpośrednia lub za pomocą
wybranego środka komunikacji
Eksperyment, czyli świadoma
ingerencja badacza w stan
rzeczywistości i rejestracja
efektów tej ingerencji
Obserwacja
Wywiad
Metody nieingerujące:
eksploracyjne i opisowe
13
Eksperyment
Metody ingerujące:
eksploracyjne i dowodzące
przyczynowości
Metody naukowe
Metody ilościowe
Metody
jakościowe
Rodzaj poszukiwanej informacji (cel badania) wyznacza metodę analizy wyników:
Metody
statystyczne i
ekonometryczne
Longitudionalne
(panelowe)
Przekrojowe
Metody
deterministyczne
Metody
heurystyczne
Intuicyjne
Analogowe: case study
Eksperckie: Metoda delficka
wykształcenie
Wydatki
na
edukację
Aspiracje
zawodowe
Zawód
Pozycja społeczno -
zwodowa
Oczekiwania
konsumpcyjne
Model rozważanych zależności:
Model teoretyczny
15
Staż
pracy
Dochód
na głowę
Liczba
dzieci
Stopa
oszczędzania
Jak konkretnie mierzyć zmienne, które
znalazły się w modelu teoretycznym
wyrażającym koncepcję ujęcia
rzeczywistości?
Przykład
X
4
– zawód
Jak go zmierzyć, czyli o co zapytać respondenta?
a)
Zawód wyuczony
b)
Zawód wykonywany
Trzeba dokonać wyboru określonego systemu
16
klasyfikacji zawodów
X
7
– dochód na głowę
Jak go zmierzyć, czyli o co zapytać respondenta?
a)
Dochód rozporządzalny
b)
Dochód brutto
Trzeba zdefiniować pojęcie dochodu osoby badanej
Operacjonalizacja –
stworzenie definicji operacyjnej
zmiennej by
umożliwić jej pomiar
za pomocą
określonych narzędzi pomiarowych
(urządzeń pomiarowych, pytań
17
(urządzeń pomiarowych, pytań
kwestionariuszowych itp.)
Podstawowa zasada przy konstrukcji
pytań w kwestionariuszu ankietowym:
Treść pytania kwestionariuszowego zależy od
przewidywanej formy odpowiedzi
18
przewidywanej formy odpowiedzi
Wybór formy odpowiedzi prowadzi do
pytań otwartych lub pytań zamkniętych.
Kiedy?
trudno przewidzieć odpowiedź,
przewidywalne
19
dużo wariantów odpowiedzi,
poszukiwanie cytatów,
poszukiwanie innowacji,
poszukiwanie subiektywnych
sądów,
trudne, drażliwe pytania.
odpowiedzi,
konieczna ścisła kontrola
odpowiedzi,
potrzeba standaryzacji,
ograniczenia czasowe,
Pytania otwarte Pytania zamknięte
Wady:
Zalety:
√√√√
swoboda wypowiedzi,
√√√√
bogactwo treści,
√√√√
szczegółowość wypowiedzi,
√√√√
inspiracja.
√√√√
łatwe,
√√√√
porównywalność odpowiedzi,
√√√√
szybkość opracowania,
√√√√
urozmaicają formularz.
20
√√√√
niekompletność,
√√√√
nieporównywalność
√√√√
nieadekwatność,
√√√√
trudność opracowania,
√√√√
podatne na efekt ankieterski.
√√√√
czasochłonne przygotowanie,
√√√√
niekompletne,
√√√√
niedostosowane do
nietypowych sytuacji,
Wady:
SKALOWANIE
Skalowanie polega na przyporządkowaniu
(zgodnie z określonymi regułami)
wybranych symboli (cyfr) obserwowanym faktom lub wyrażanym
opiniom
Podstawowe pytanie w dziedzinie skalowania (pomiaru):
21
Podstawowe pytanie w dziedzinie skalowania (pomiaru):
czy wykorzystywany system liczbowy ma podobną
strukturę do struktury mierzonych pojęć
KLASYFIKACJA SKAL WG STEVENSA
KLASYFIKACJA SKAL WG STEVENSA
Skala
Podstawa porównania
Przykład
Relacje i
dopuszczalne
przekształcenia
matematyczne:
Nominalna
Identyfikacja
Kobieta – Mężczyzna
Klient indywidualny – klient instytucjonalny
Marka A – Marka B
= lub
≠
przekształcenie
wzajemnie
jednoznaczne
Porządkowa
Pozycja w porządku
Preferencje dla marek
Klasa społeczna
= ;
≠
; <;
≤
;> ;
≥
przekształcenie
22
Klasa społeczna
Klasa jakości
przekształcenie
monotonicznie
rosnące
Przedziałowa
Porównanie obiektów
Temperatura
Wynik zaliczenia testu
Postawa wobec marki
Ś
wiadomość reklamy
= ;
≠
; <;
≤
;> ;
≥
Przekształcenie
liniowe:
y = ax + b dla a >0
Stosunkowa
Porównanie wartości
Cena jednostkowa produktu
Liczba nabywców
Możliwość zakupu
Waga, odległość, pojemność
= ;
≠
; <;
≤
;> ;
≥
Y=ax dla a>0
Pytanie rozstrzygające:
Czy zamierzacie Państwo rozszerzyć zakres środków
telekomunikacji wykorzystywanych w Państwa firmie?
Proszę zakreślić kółkiem jeden z dwóch symboli odpowiedzi
Tak
Nie
Nie
wiem
Pytanie dopełniające:
Które z niżej wymienionych środków telekomunikacji wykorzystujecie Państwo
w firmie?
Proszę zakreślić kółkiem jeden z dwóch symboli odpowiedzi dla każdego pytania
Telefon przewodowy
Tak
Nie
Skala nominalna
Telefon przewodowy
Tak
Nie
Telex
Tak
Nie
Telefax
Tak
Nie
Radiotelefon
Tak
Nie
Systemy przywoławcze
Tak
Nie
Poczta elektroniczna
Tak
Nie
Komertel
Tak
Nie
Telefon komórkowy
Tak
Nie
Skala porządkowa zrównoważona - skala Likerta:
form a tabelaryczna:
Proszę określić Pani/Pana stosunek do nakłaniania Pani/Pana do testowania
preparatów kosmetycznych:
Proszę zakreślić kółkiem właściwy sym bol odpowiedzi
bardzo nie lubię
(1)
raczej nie lubię
(2)
jest mi to
obojętne
(3)
raczej lubię
(4)
bardzo lubię
(5)
form a graficzna:
Proszę określić Pani/Pana stosunek do nakłaniania Pani/Pana do testowania preparatów
kosmetycznych:
Skale porządkowe
Proszę zakreślić kółkiem właściwy sym bol odpowiedzi
0
1
2
3
4
5
Bardzo
nie lubię
Bardzo
lubię
lub:
Proszę ocenić w skali od 1 (ocena najniższa) do 5 (ocena najwyższa)
Pani/Pana stosunek do nakłaniania Pani/Pana do testowania
preparatów kosmetycznych:
Proszę w ram ce obok wpisać właściwy sym bol odpowiedzi
Ocena:
S kala p o rząd kow a n iezrów n ow a żon a:
P roszę ok reślić Pan i/Pan a stosu ne k d o n akłan ian ia Pan i/Pan a d o
testow an ia prep aratów ko sm etyc znych:
P roszę zakreślić kółkiem w łaściw y sym bol odpow iedzi
b ard zo
n ie lu bię
(1)
nie lu b ię
(2)
jest m i to
ob ojętne
(3)
R aczej
lub ię
(4)
lu b ię
(5)
lu bię
zd ecydow an
ie
(6)
lu b ię
w yjątko
w o
(7)
Skala d yfe ren cjału sem antyczn ego:
P roszę w yra zić sw oją opinię o cen trum h an d low ym znajdu jącym się w
Pani/Pana sąsied ztw ie, posłu gu jąc się skalą od 1 d o 7, zgod n ie ze zn aczen ia m i
p rzed staw ion ym i p on iżej:
P roszę zakreślić kółkiem w łaściw y sym bol odpow iedzi
W ąski aso rty m en t
tow arów
1
2
3
4
5
6
7
Szero ki aso rtym ent
tow arów
W ąski aso rty m en t
u sług
1
2
3
4
5
6
7
Szero ki aso rtym ent
usłu g
M ały w yb ór m a rek
1
2
3
4
5
6
7
D uży w ybó r m a re k
N ieko m p eten tna
1
2
3
4
5
6
7
K om p eten tn a ob słu ga
N ieko m p eten tna
ob słu ga
1
2
3
4
5
6
7
K om p eten tn a ob słu ga
N iew ygodn y d ojazd
1
2
3
4
5
6
7
W ygod ny d ojazd
K rótki cza s p racy
1
2
3
4
5
6
7
D łu gi czas p ra cy
B rak m o żliw ości
op ieki n ad dziećm i
1
2
3
4
5
6
7
B ogaty p rog ram op ieki
nad d ziećm i
Skala S tap ela:
P roszę ocen ić zn ajd ujące się w Pani/Pana sąsied ztw ie cen tru m h an dlow e,
b iorąc p od u w agę p on iższe kw estie:
P roszę zakreślić kółkiem w łaściw y sym bol odpow iedzi
A so rtym en t tow arów
-5
-4
-3
-2
-1
+1
+2
+3
+4
+5
A so rtym en t u słu g
-5
-4
-3
-2
-1
+1
+2
+3
+4
+5
w yb ór m a rek
-5
-4
-3
-2
-1
+1
+2
+3
+4
+5
K om p eten cje ob sługi
-5
-4
-3
-2
-1
+1
+2
+3
+4
+5
D ojazd
-5
-4
-3
-2
-1
+1
+2
+3
+4
+5
C za s p racy
-5
-4
-3
-2
-1
+1
+2
+3
+4
+5
P rog ra m op ieki nad
d ziećm i
-5
-4
-3
-2
-1
+1
+2
+3
+4
+5
Liczba kategorii odpowiedzi:
•
Najczęściej stosuje się skale 3,5,7 i 9 punktowe.
•
Wzrost liczby kategorii skali powoduje wzrost
mocy dyskryminacyjnej
człowiek posługuje się
najwyżej skalą 11 punktową
•
Jako kategorii krańcowych należy użyć kategorii
26
•
Jako kategorii krańcowych należy użyć kategorii
przedstawiających stany idealne (punkty
zakotwiczenia), które nie będą wykorzystywane
przez żadnego (lub prawie żadnego) respondenta
Skale
stosunkowe
(ilorazowe)
1 6 . P r o s z ę
p o d a ć n a jb a r d z i e j k o r z ys t n e
o r a z
n a jm n i e j
k o r z y s t n e
( a l e
je s z c z e
m o ż l i w e
d o
z a a k c e p t o w a n i a )
z d a n i e m
P a ń s t w a
s t a ł e
o p r o c e n t o w a n i e
d l a
c e r t yfi k a t u
d e p o z y t o w e g o ,
z a k ł a d a ją c ,
ż
e
m u s i
b yć
o n o
n i ż s z e
o d
o p r o c e n t o w a n i a l o k a t t e r m i n o w yc h :
6 8
n a jb a r d z i e j k o r z ys t n e
,
%
6 9
n a jm n i e j k o r z ys t n e
,
%
1 7 . J a k ą w i e l k o ś ć n a d w yż k i fi n a n s o w e j b yl i b yś c i e
P a ń s t w o
s k ł o n n i
p r z e z n a c z y ć
n a
z a k u p
c e r t y fi k a t ó w d e p o z yt o w yc h p r z y s t a ł y m p o z i o m i e
o p r o c e n t o w a n i a n a t a k i m p o z i o m i e , k t ó r y je s t d l a
P a ń s t w a :
7 0
n a jb a r d z i e j k o r z ys t n e
.. ... .... .... ... .... t ys . z ł
7 1
n a jm n i e j k o r z ys t n e
.. ... .... .... ... .... t ys . z ł
7 2
p o n i ż e j n a jm n i e j
k o r z ys t n e g o ,
u w z g l ę d n i a ją c t e n d e n c ję
.. ... .... .... ... .... t ys . z ł
u w z g l ę d n i a ją c t e n d e n c ję
z w i ą z a n ą z e s p a d k i e m
s t ó p p r o c e n t o w yc h
.. ... .... .... ... .... t ys . z ł
1 8 .
J a k ą
c z ę ś ć
ś
r o d k ó w
z
i n n yc h
l o k a t
p r z e s u n ę l i b yś c i e
P a ń s t w o
z
i n n y c h
l o k a t
t e r m i n o w yc h n a z a k u p c e r t yfi k a t ó w d e p o z y t o w yc h ,
z g a d z a ją c s i ę n a n i ż s z ą r e n t o w n o ś ć w z a m i a n z a
w y s o k ą p ł y n n o ś ć , p r z y o p r o c e n t o w a n i u , k t ó r e
u z n a l i ś c i e P a ń s t w o z a :
7 3
n a jb a r d z i e j k o r z ys t n e
,
%
7 4
n a jm n i e j k o r z ys t n e
,
%
7 5
p o n i ż e j n a jm n i e j
k o r z ys t n e g o
u w z g l ę d n i a ją c t e n d e n c ję
z w i ą z a n ą z e s p a d k i e m
s t ó p p r o c e n t o w yc h
,
%
Typ danych:
Mierniki analizy struktury zbiorowości:
Dane nominalne
Wskaźniki struktury (procentowe),
dominanta
Dane porządkowe
Wskaźniki struktury (procentowe),
Sposób analizy struktury zjawisk
zależy od rodzaju danych, które te zjawiska opisują!
Analiza struktury
Dane porządkowe
Wskaźniki struktury (procentowe),
dominanta, percentyle, z których
najpopularniejszą jest mediana
Dane przedziałowe i ilorazowe
Wskaźniki struktury (procentowe),
dominanta, percentyle, średnia i
odchylenie standardowe
Cecha
Cecha niezależne
zależna
Dane nominalne
Dane porządkowe
Dane przedziałowe
lub ilorazowe
Miary współwystępowania
Sposób pomiaru współwystępowania zjawisk
zależy od rodzaju danych, które te zjawiska opisują!
29
Dane nominalne
Współczynnik
V Cramera
Współczynnik
V Cramera
Dane porządkowe
Współczynnik
V Cramera
Współczynnik
korelacji rang
Spearmana
Dane przedziałowe
lub ilorazowe
Współczynnik eta
Współczynniki eta
Współczynnik
korelacji
Najpopularniejsze sposoby oceny wyników eksperymentu
w schematach prawdziwych
Skala pomiaru
wyników
eksperymentu
(
typ zmiennej zależnej
)
Pomiar niezależny
Pomiar zależny
Nominalna
ryzyko względne
test U dla dwóch frakcji,
test niezależności
chi-kwadrat,
test McNemara,
test Cochrana
Porządkowa
test serii Walda–
test Friedmana
30
Porządkowa
test serii Walda–
Wolfowitza,
test Kołmogorowa–
Smirnowa,
test Kruskal’a–Wallis’a
test Friedmana
Przedziałowa lub
ilorazowa
test U lub t dla dwóch
ś
rednich,
analiza wariancji dla
doboru całkowicie
losowego
test t,
analiza wariancji dla
schematów blokowych,
analiza conjoint
Skale pomiarowe
Skale mocne
Skale słabe
Skala
Skala
31
Skala
nominalna
Skala
porządkowa
Skala
przedziałowa
Skala
ilorazowa
Transformować można jedynie skale mocniejszą
na skalę słabszą
Określenie cech zewnętrznych
kwestionariusza
TYTUŁ BADANIA
PREAMBUŁA
(wyjaśnia cel i intencje badacza,
może być zastąpiona listem intencyjnym)
32
może być zastąpiona listem intencyjnym)
BLOKI PYTAŃ
METRYCZKA
Określenie cech zewnętrznych kwestionariusza
1. Pozwala budować klasyfikacje odpowiedzi na pytania.
METRYCZKA - funkcje
33
2. Pozwala zweryfikować adekwatność zbadanej grupy
respondentów względem zbiorowości, z której
pochodzą.
Dane
Makro
Mikro
Jakie jest typ danych, którymi dysponujemy?
Podsumowanie i ilustracja
tego co wiemy o całej zbiorowo
ś
ci
Opis
i statystyczna analiza danych,
analiza dynamiki
Ustalenie wiedzy o całej zbiorowo
ś
ci
bez mo
ż
liwo
ś
ci dotarcia
do ka
ż
dej jednostki
Wnioskowanie
statystyczne
Typ danych rozstrzyga o metodzie analizy danych!
Opis
i statystyczna analiza danych
Rozkład cechy statystycznej
Nazwa cechy
statystycznej (X)
Liczebno
ś
ci
lub cz
ę
sto
ś
ci (n
i
lub w
i
)
n
1
n
2
x
1
x
Jakie kategorie
lub warto
ś
ci
wyst
ą
piły
w zbiorowo
ś
ci?
Ile razy
lub
jak cz
ę
sto
wyst
ę
powały?
razem
N lub 1 b
ą
d
ź
100,0
n
2
.
.
.
n
k
x
2
.
.
.
x
k
wszystkie jednostki
Opis
i statystyczna analiza danych
Statystyczna analiza struktury rozkładu cechy
statystycznej
Położenie rozkładu
:
jakie wartości przyjmuje cecha statystyczna?
Rozproszenie rozkładu cechy statystycznej
:
czy są i na czym polegają różnice między
wartościami cechy statystycznej?
Wnioskowanie statystyczne
polega na
polega na
określeniu właściwości populacji
(
typ rozkładu oraz wartości parametrów
)
na podstawie próby losowej
Rzeczywista struktura
populacji:
Struktura sugerowana
na podstawie próby:
Płeć
Liczba osób Odsetek
Kobiety
110
52,9
Mężczyźni
98
47,1
Ogółem
208
100,0
Płeć
Liczba osób Odsetek
Kobiety
12
60,0
Mężczyźni
8
40,0
Ogółem
20
100,0
?
Metody statystyczne nie daj
ą
mo
ż
liwo
ś
ci ustalenia wiedzy o
populacji z całkowit
ą
pewno
ś
ci
ą
, ale sugeruj
ą
c posta
ć
rozkładu populacji,
Jedynie metody wnioskowania statystycznego dostarczaj
ą
Informacji o dokładno
ś
ci uzyskanej informacji o rozkładzie badanej
populacji
pozwalaj
ą
równie
ż
okre
ś
li
ć
jakim bł
ę
dem statystycznym
obarczone jest rozwi
ą
zanie
Liczebność teoretyczna:
i
i
p
N
n
•
=
ˆ
Konstrukcja rozkładu cechy statystycznej
na podstawie wybranego modelu prawdopodobie
ń
stwa
i
i
czyli taka liczba przypadków, która wystąpiłaby w
zbiorowości gdyby strukturę tej zbiorowości opisywały
wartości prawdopodobieństw p
i
Jakim rozkładem prawdopodobieństwa należy
posłużyć się w wyznaczaniu liczebności
teoretycznych?
•
Dwumianowy? ⇒
•
Poissona? ⇒
•
Normalny? ⇒
•
Jakie
p
?
•
Jakie
λ
= np
?
•
jakie
m
oraz
σ
?
•
Normalny? ⇒
•
Chi-kwadrat? ⇒
•
........
•
jakie
m
oraz
σ
?
•
Jakie
ν
?
•
.........
Wnioskowanie
nieparametryczne
Wnioskowanie
parametryczne
Obiektywną konsekwencją
własności badanej populacji,
fragmentaryczności badania
oraz
składu wybranej do
badania grupy
jest błąd losowy.
Konsekwencją
subiektywnych wyborów
dokonanych
przez osoby uczestniczące w badaniu i ich
błędnych
41
Wynikiem
błędu losowego
jest niska precyzja
wynikiem
błędu systematycznego
jest niska trafność
przez osoby uczestniczące w badaniu i ich
błędnych
decyzji
jest błąd systematyczny
Niska precyzja jest wynikiem błędu losowego
Niska trafność jest wynikiem błędu systematycznego
Wysoka precyzja
i wysoka trafno
ść
Niska precyzja,
wysoka trafno
ść
Wysoka precyzja
Niska trafno
ść
42
•
•
•
•
•
••
•
•
•
•
•
•
•
•
•
Błąd losowy
Błąd systematyczny
•
•
43
Niech:
x - wartość prawdziwa cechy X
x’= x + d - wartość obserwowana cechy X
x’ - x = d - błąd losowy i/lub systematyczny
0
≠
d
-obciążenie systematyczne:
wyniki niedoszacowane lub przeszacowane
Błędy
losowe
Zróżnicowanie
populacji
Rozmiar próby
Metoda
Błędy
nielosowe
Bł
ę
dy w badaniach ilo
ś
ciowych
Bł
ę
dy w badaniach ilo
ś
ciowych
Metoda
estymacji
Metoda
losowania
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Błędy losowe małe i duże
45
Lepiej!
Wyniki są mniej
zróżnicowane
Gorzej!
Wyniki są bardziej
zróżnicowane.
Zakres rozrzutu jest miarą efektywności
wnioskowania na podstawie próby.
Jest to tzw. standardowy błąd szacunku
(SE) reguły jego obliczania są znane.
•
•
•
•
•
•
•
•
•
•
Błąd losowy
•
Θ
T
n
T
n
-
Θ
46
Bł
ą
d
ś
redniokowadratowy:
)
(
)
(
)
(
2
2
n
n
n
T
D
T
E
T
MSE
=
−
=
θ
Błąd sredniokowadratowy:
)
(
)
(
)
(
2
2
n
n
n
T
D
T
E
T
MSE
=
−
=
θ
Informuje jak daleko odbiegają oceny t
n
od
θ
2
)
(
)
(
T
E
T
MSE
=
−
=
θ
47
Z dwóch rodzajów błędów
tylko poziom
błędu losowego może być oszacowany!
2
2
2
2
2
)
(
)
(
)
(
)
(
SE
d
T
D
T
E
T
MSE
x
n
n
n
≈
+
=
=
=
−
=
′
σ
θ
Poziom błędu standardowego z próby prostej
•
Dla wartości średniej:
•
Dla frakcji:
n
x
S
n
x
S
N
n
SE
)
(
)
(
1
≈
−
=
w
w
w
w
n
SE
i
i
i
i
)
1
(
)
1
(
1
−
≈
−
−
=
n
w
w
n
w
w
N
n
SE
i
i
i
i
)
1
(
)
1
(
1
−
≈
−
−
=
Bł
ą
d wzgl
ę
dny:
n
n
T
SE
T
V
=
)
(
Do 7,5% - estymacja precyzyjna
od 7,5 do 15% - estymacja dostateczna
powy
ż
ej 15% - estymacja niedostateczna
•
Jest funkcją
zróżnicowania populacji
⇒
Z populacji
bardziej jednorodnej otrzymujemy próby dające błędy
mniejsze.
Od czego zależy precyzja czyli błąd
standardowy (SE)
49
•
Jest funkcją
rozmiarów próby
⇒
duża próba daje błąd
mniejszy niż próba mała.
•
Jest funkcją
techniki losowania
⇒
dodatkowa informacja
pozwala zastosować bardziej efektywne techniki losowania
Błąd sredniokowadratowy:
2
2
2
2
2
)
(
)
(
d
SE
d
T
E
T
MSE
x
n
n
+
=
+
=
−
=
′
σ
θ
Tylko ten składnik MSE zależy od wielkości próby.
50
Tylko ten składnik MSE zależy od wielkości próby.
Wzrost liczebności próby nie musi i nie poprawi
dokładności badania
WNIOSKOWANIE Z PRÓBY NA POPULACJĘ
Liczebność próby a maksymalny błąd oszacowań w %
2
3
4
5
6
7
8
9
10
błąd (%)
Bł
ą
d
systematyczny
51
0
1
2
100
200
300
400
500
600
700
800
900
1000
1100
1200
1300
1400
1500
1600
wielkość próby
systematyczny
Błąd badania fragmentarycznego
Skala badania
mała
52
Błąd losowy
Błędy nielosowe
du
ż
a
Błędy
losowe
Zróżnicowanie
populacji
Rozmiar próby
Metoda
Błędy
nielosowe
Błędy treści
Błędy pokrycia
Bł
ę
dy w badaniach ilo
ś
ciowych
Bł
ę
dy w badaniach ilo
ś
ciowych
Metoda
estymacji
Metoda
losowania
Zbiorowość
zdefiniowana
w celu badania
Prawda
Badana zbiorowość
Wynik badania
Błędy
pokrycia
Błąd
struktury
Błąd wybory
Błędy treści
Błąd
pomiaru
Błąd analizy
Błąd
zagubienia
Błąd
odrzucenia
Błąd
interpretacji
Zasady doboru próby
√√√√
Określenie populacji badanej.
√√√√
Określenie operatu losowania (jeśli istnieje)
√√√√
Określenie jednostki wyboru.
√√√√
Ustalenie wielkości próby.
√√√√
Wybór metody doboru jednostek:
Próba losowa:
Próba pseudo-losowa
:
Próba celowa
:
1
Próba losowa:
O trafieniu jednostki do próby
decyduje niezależny od
wybierającego mechanizm
wybory i można określić
prawdopodobieństwo trafienia
jednostki do próby
Próba pseudo-losowa
:
określamy proporcje osób,
które wezmą udział w badaniu
np. ze względu na wiek, płeć,
wykształcenie, miejsce
zamieszkania
(kwotowa)
Próba celowa
:
szukamy osób, które
należą do grupy
docelowej
Próba ma charakter losowy, gdy przyj
ę
te kryterium doboru
jednostek jest niezale
ż
ne od badanych cech i gdy ka
ż
da jednostka
zbiorowo
ś
ci ma ró
ż
ne od zera p-stwo znalezienia si
ę
w próbie.
Operat losowania:
wykaz jednostek tworzących
badaną zbiorowość (populację)
2
Musi być:
- kompletny,
- aktualny,
- gwarantujący identyfikowalność jednostek.
Dobór celowy:
nie ma potrzeby dowodzenia reprezentatywności i
oceny precyzji
Dobór losowy:
3
Dobór losowy:
jest potrzeba zagwarantowania
reprezentatywno
ś
ci i oceny precyzji
Dobór celowy:
nie ma potrzeby dowodzenia reprezentatywności i
oceny precyzji
•
Dobór kwotowy:
gdy badane zjawiska, o których
nie ma żadnej informacji są silnie skorelowane z
cechami o znanych rozkładach (podstawa
ustalania kwot).
•
Dobór typowy
lub
przez eliminację
(warunki
4
•
Dobór typowy
lub
przez eliminację
(warunki
stosowania j.w.).
•
Dobór przypadkowy
: nie oczekuje się zgodności
jakichkolwiek struktur.
•
Dobór wg „
kuli śniegowej
”: badanie
środowiskowe o znacznej homogeniczności
populacji i trudnej dostępności jednostek
Zagrożenia w doborze celowym
•
Błędny osąd i intuicja badacza co do
prawidłowości występujących w populacji.
•
Nadmierna chęć uczestnictwa w badaniach jest
podyktowana specjalnymi predyspozycjami
5
podyktowana specjalnymi predyspozycjami
respondentów, które nie zawsze są zgodne z
cechami populacji.
•
Brak uzasadnienia wiarygodności wyników tego
typu badań i łatwo argumentować przeciw nim,
jeśli są „niewygodne”.
Cechy doboru losowego:
•
W czasie losowania elementy populacji nie
przemieszczają się.
•
Dostęp do każdego elementu populacji jest
jednakowy.
•
Elementy populacji są dostatecznie wymieszane.
6
Próba ma charakter losowy, gdy przyj
ę
te
kryterium doboru jednostek jest niezale
ż
ne od
badanych cech i gdy ka
ż
da jednostka
zbiorowo
ś
ci ma ró
ż
ne od zera p-stwo
znalezienia si
ę
w próbie.
Jak losować?
Prosto!!!
Próba losowa prosta:
10097
32533
76520
13586
34673
54876
80959
37542
04805
64894
74296
24805
24037
20636
08422
68953
19645
9303
23209
02560
15953
99019
02529
09376
70715
38311
31165
88676
7
99019
02529
09376
70715
38311
31165
88676
12807
99970
80157
36147
64032
36653
98951
66065
74717
34072
76850
36697
36170
65813
31060
10805
45571
82406
35303
42614
86799
85269
77602
02051
65692
68665
74818
73053
63573
32135
05325
47048
90553
57548
28468
73796
45753
03529
64778
35808
34282
60935
98520
17767
14905
68607
22109
40558
60970
11805
05431
39808
27732
50725
68248
29405
83452
99634
06288
98083
13746
70078
18475
88685
40200
86507
58401
36766
67951
90364
99594
67348
87517
64969
91826
8928
93785
O zastosowaniu określonej metody doboru próby
decydują warunki,
w jakich będzie realizowane badanie.
1. Populacje mogą być skończone lub nieskończone.
2. Wiedza o populacji może być bardzo rozległa i opierać się na
dostępnych danych lub zweryfikowanych teoriach i hipotezach lub
też wiedza taka może w ogóle nie istnieć.
8
3. Skład populacji może być nieustannie lub okresowo weryfikowany
w postaci spisów i innych rejestrów, lub też nie ma możliwości
utworzenia imiennej listy jednostek tworzących populację.
Jeśli jest znana wielkość populacji i istnieje
możliwość nawiązania kontaktu z każdą jednostką,
to wystarczy, by zbudować próbę losową
Dobór losowy:
jest potrzeba zagwarantowania reprezentatywności i
oceny precyzji
•
Dobór prosty ze zwracaniem lub bez zwracania.
•
Dobór warstwowy.
•
Dobór zespołowy.
•
Dobór wielostopniowy.
•
Dobór systematyczny.
Losowanie
ograniczone
9
•
Dobór systematyczny.
•
Losowanie z jednakowymi prawdopodobieństwami
wyboru: tzw. próby samoważące się
•
Losowanie z różnymi prawdopodobieństwami wyboru:
konieczność przeważenia wyników
Losowanie proste ze zwracaniem
lub bez (efektywniejsze)
Kiedy?
Brak jakichkolwiek informacji o populacji i populacje nie są
zbyt liczne.
Zalety:
Wady:
10
•
Próby wyważone
automatycznie.
•
Proste metody
obliczania precyzji
•
Łatwe!
•
Dogodny tylko dla
małych populacji.
•
Wymaga znajomości
operatu losowania.
Zalety:
Wady:
( )
( )
n
x
S
N
n
N
n
x
S
x
D
SE
)
(
ˆ
ˆ
2
2
≈
−
=
=
n
x
S
N
n
N
n
x
S
x
D
x
MSE
)
(
ˆ
)
(
ˆ
)
(
)
(
2
2
2
≈
−
=
=
Losowanie proste bez zwracania:
∑
=
=
n
i
i
x
n
x
1
1
( )
(
)
2
1
2
1
1
ˆ
∑
=
−
−
=
n
i
i
x
x
n
x
S
gdzie:
oraz
n – liczebno
ść
próby
N – liczebno
ść
populacji
Losowanie systematyczne
interwał losowania:
k = N/n
Kiedy?
Brak jakichkolwiek informacji o populacji i zawsze gdy
brak operatu losowania
12
Losowanie systematyczne:
n
x
S
N
n
N
n
x
S
x
MSE
)
(
ˆ
)
(
ˆ
)
(
2
2
≈
−
≈
Je
ś
li jednostki populacji przed losowaniem zostały uporz
ą
dkowane w sposób losowy, to:
13
n
x
S
N
n
N
n
x
S
x
SE
)
(
ˆ
)
(
ˆ
)
(
≈
−
≈
Losowanie systematyczne
interwał losowania:
k = N/n
Kiedy?
Brak jakichkolwiek informacji o populacji i zawsze gdy
brak operatu losowania
Zalety:
Wady:
14
•
Próby wyważone
automatycznie.
•
Precyzja taka jak dla
próby prostej
•
Łatwe!
•
Ukryte
powarstwowanie
populacji
Zalety:
Wady:
8
10
12
14
16
18
w
a
rt
o
śc
i
y
BSS
WSS
TSS
Równo
ść
wariancyjna
15
15
0
2
4
6
8
0
1
2
3
w
a
rt
o
śc
i
y
Nr grupy
BSS
WSS
)
(
)
(
)
(
2
2
2
y
S
y
S
y
S
WSS
BSS
TSS
i
i
+
=
+
=
Losowanie warstwowe
Kiedy?
Istnieją dodatkowe informacje o populacji i populacje są
bardzo liczne.
Zalety:
Wady:
16
•
Są bardziej efektywne, czyli
dostarczają bardziej precyzyjnych
informacji.
•
W każdej warstwie można
stosować inną technikę losowania.
•
Warstwowanie można
przeprowadzić po wylosowaniu
próby dostosowując się do
potrzeb
•
Wymaga znajomości struktur
populacji. Jest tym
efektywniejsze im mniejsze
jest zróżnicowanie warstw.
•
Pożądany operat losowania.
Losowanie warstwowe:
∑
=
⋅
−
=
k
h
h
h
W
n
S
N
N
N
n
N
x
SE
1
2
ˆ
)
(
gdzie:
∑
=
⋅
−
=
=
k
h
h
h
W
W
n
S
N
N
N
n
N
x
D
x
MSE
1
2
2
ˆ
)
(
)
(
17
)
(
)
(
x
SE
x
SE
W
≤
( )
(
)
2
1
2
1
1
ˆ
∑
=
−
−
=
h
n
i
h
i
h
x
x
n
x
S
∑
=
=
n
i
i
x
n
x
1
1
gdzie:
oraz
∑
=
=
k
h
h
n
n
1
k – liczba warstw,
Losowanie warstwowe
Kiedy?
Istnieją dodatkowe informacje o populacji i populacje są
bardzo liczne.
Zalety:
Wady:
18
•
Są bardziej efektywne, czyli
dostarczają bardziej precyzyjnych
informacji.
•
W każdej warstwie można
stosować inną technikę losowania.
•
Warstwowanie można
przeprowadzić po wylosowaniu
próby dostosowując się do
potrzeb
•
Wymaga znajomości struktur
populacji. Jest tym
efektywniejsze im mniejsze
jest zróżnicowanie warstw.
•
Pożądany operat losowania.
Techniki losowania:
Proporcjonalne, czyli z różnymi prawdopodobieństwami
wyboru
Kiedy?
Populacje są bardzo liczne. Istnieją zespoły o zdecydowanie
różnych rozmiarach
19
•
Można stosować gdy istnieje
operat ograniczony tylko do
zespołów.
•
Uwzględnia strukturę
populacji.
•
Wymaga znajomości struktur
populacji.
•
Korzysta się z informacji
dotyczącej przeszłości.
•
Może wymagać przeważenia
danych
Zalety:
Wady:
Losowanie zespołowe
Kiedy?
Brak jakichkolwiek informacji o jednostkach populacji lecz
istnieją informacje o podgrupach (zespołach) oraz populacje
są bardzo liczne
20
Losowanie zespołowe:
∑
∑
=
=
−
−
⋅
−
=
=
k
j
Z
j
M
i
ij
Z
Z
M
x
M
x
k
K
k
K
k
x
D
x
MSE
j
1
2
2
1
2
)
(
)
1
(
1
1
)
(
)
(
21
∑
∑∑
=
=
=
=
=
m
h
h
k
h
n
j
hj
Z
x
k
x
n
x
1
1
1
1
1
0
k – liczba zespołów w próbie
K – liczba zespołów w populacji
M
j
– liczebność każdego zespołu
Losowanie zespołowe
Kiedy?
Brak jakichkolwiek informacji o jednostkach populacji lecz
istnieją informacje o podgrupach (zespołach) oraz populacje
są bardzo liczne
Zalety:
Wady:
22
•
Ograniczenie operatu tylko do
listy zespołów.
•
Mało rozproszone terytorialnie
próby.
•
Efektywny! Ale przy dużej
liczbie zespołów o małych
rozmiarach w próbie
•
Złożony schemat losowania, na
ogół dwustopniowy: zespoły i
jednostki
Losowanie dwustopniowe:
zespołowe i w zespołach proste bez zwracania
lub systematyczne
Kiedy?
Brak jakichkolwiek informacji o jednostkach populacji lecz
istnieją informacje o podgrupach (zespołach) oraz populacje
23
•
Ograniczenie operatu tylko do
listy zespołów.
•
Mało rozproszone terytorialnie
próby.
•
Efektywny! Ale przy dużej
liczbie zespołów o małych
rozmiarach w próbie
•
Złożony schemat losowania, na
ogół dwustopniowy: zespoły i
jednostki
istnieją informacje o podgrupach (zespołach) oraz populacje
są bardzo liczne
Zalety:
Wady:
Dla zespołów ró
ż
nolicznych w populacji, równych liczebno
ś
ciach próby (n
0
) w ka
ż
dym zespole:
( )
)
(
)
(
)
(
)
(
2
1
0
0
2
2
2
x
S
n
n
N
N
kN
K
x
S
k
K
k
K
x
D
x
MSE
h
k
h
h
h
h
Z
Z
∑
=
−
+
⋅
−
=
=
Losowanie dwustopniowe: zespołowe i w zespołach proste bez zwracania:
∑
∑∑
=
=
=
=
=
k
h
h
k
h
n
j
hj
Z
x
k
x
n
x
1
1
1
1
1
0
∑
=
−
−
=
k
h
Z
h
h
k
x
x
x
S
1
2
2
1
)
(
)
(
∑∑
=
=
−
−
=
k
h
n
i
h
hj
h
k
n
x
x
x
S
1
1
2
2
0
)
(
)
(
to wariancja międzyzespołowa
to wariancja wewnątrzzespołowa
k – liczba zespołów w próbie
K – liczba zespołów w populacji
n
0
– liczebność każdej podpróby
Zagrożenia w doborze losowym
• Ignorowanie konsekwencji wyboru techniki
losowania:
Sposób pobierania próby jest
sprz
ęż
ony ze sposobem estymacji wybranego
parametru. Dokonanie zmian w jednej ze „stron”
wywoływa
ć
musi zmian
ę
w drugiej.
25
•
Niedostosowana do rzeczywisto
ś
ci technika
losowania:
Otaczaj
ą
ca rzeczywisto
ść
ma zło
ż
on
ą
struktur
ę
i dlatego s
ą
potrzebne adekwatne do
niej schematy losowania.
• Ignorowanie sprawdzania losowo
ś
ci wylosowanej
próby
sprawdzania losowości
wylosowanej próby: test serii
1. Wyznaczenie mediany dla cechy, według której losowo
ść
próby powinna by
ć
zachowana.
2. Oznaczenie symbolami:
np.
A
tych jednostek, których warto
ś
ci cechy s
ą
mniejsze od mediany,
symbolem
B
za
ś
warto
ś
ci, które s
ą
wi
ę
ksze od mediany.
symbolem
B
za
ś
warto
ś
ci, które s
ą
wi
ę
ksze od mediany.
W przypadku gdy jednostka posiada warto
ść
cechy identyczn
ą
z warto
ś
ci
ą
mediany,
nale
ż
y j
ą
pomin
ąć
.
3. Okre
ś
lenie liczby serii symboli A oraz B oraz liczby elementów A, tj. n
1
, i liczby
elementów B, tj. n
2
.
4. Odczytanie z tablic rozkładu serii warto
ś
ci krytycznych
k
1
i
k
2
, tzn. takich, które
wyznaczaj
ą
przedział warto
ś
ci (k
/2
, k
1-
α
/2
〉
, okre
ś
laj
ą
cych dopuszczalne liczby serii
obserwowane w próbie, z przyj
ę
tym ryzykiem bł
ę
du
α
(na ogół 5%).
Gdy rozmiar próby przekracza 40
elementów:
Wykorzystanie zbie
ż
no
ść
liczby serii do rozkładu normalnego.
H
0
: próba ma charakter losowy
H
1
: próba nie ma charakter ulosowego
Warto
ść
statystyki testuj
ą
cej okre
ś
la wzór:
k
k
u
−
=
)
(k
S
k
k
u
−
=
1
2
2
1
2
1
+
+
=
n
n
n
n
k
)
1
(
)
(
)
2
(
2
)
(
2
1
2
2
1
2
1
2
1
2
1
−
+
+
−
−
=
n
n
n
n
n
n
n
n
n
n
k
S
która ma rozkład N(0, 1).
Jeśli wartość statystyki u nie przekracza wartości 1,96, to nie ma podstaw do odrzucenia hipotezy zerowej,
czyli by podważać losowy charakter próby.
gdzie:
Techniki prowadzenia wywiadu
Zalety:
Wady:
1.
Niskie koszty.
2.
Brak wpływu ankietera na udzielane
odpowiedzi.
1.
Konieczność formułowania prostych pytań.
2.
Brak możliwości „sondowania” odpowiedzi.
Odpowiedzi są ostateczne.
Ankieta pocztowa:
odpowiedzi.
3.
Wysoki poziom anonimowości.
4.
Czas na przemyślenie odpowiedzi.
5.
Znaczna dostępność respondentów.
Odpowiedzi są ostateczne.
3.
Brak kontroli nad tym, kto w rzeczywistości
udziela odpowiedzi.
4.
Niski odsetek odpowiedzi.
Techniki prowadzenia wywiadu
Zalety:
Wady:
1.
Możliwość budowania pytań złożonych o
wyższym stopniu trudności.
2.
Możliwości „sondowania” odpowiedzi.
1.
Wysokie koszty.
2.
Wpływ ankietera na udzielane odpowiedzi.
3.
Brak wysokiego poziomu anonimowości.
Ankieta bezpo
ś
rednia (face-to-face):
3.
Możliwość bezpośredniego kodowania danych
(CATI).
4.
Kontrola nad tym, kto w rzeczywistości
udziela odpowiedzi.
5.
Wysoki odsetek odpowiedzi.
6.
Możliwość oceny warunków zbierania
informacji.
4.
Brak czasu na przemyślenie odpowiedzi.
Zasady prowadzenia wywiadu osobistego:
•Powiedz respondentowi, kim jeste
ś
i kogo reprezentujesz.
•Powiedz respondentowi, co robisz, w sposób wzbudzaj
ą
cy zainteresowanie.
•Powiedz respondentowi, w jak sposób został wybrany.
•Dostosuj post
ę
powanie do sytuacji.
•Dostosuj post
ę
powanie do sytuacji.
•Postaraj si
ę
wytworzy
ć
atmosfer
ę
zaufania i zrozumienia.
•Nie zadawaj pyta
ń
z pami
ę
ci.
•Nie interpretuj pyta
ń
.
•Nie zmieniaj kolejno
ś
ci i nie omijaj pyta
ń
.
Techniki prowadzenia wywiadu
Zalety:
Wady:
1.
Przeciętne koszty.
2.
Krótki czas realizacji.
1.
Łatwość odmowy udziału w badaniu.
2.
Łatwość przerwania wywiadu.
Ankieta telfoniczna (TI):
2.
Krótki czas realizacji.
3.
Duża liczba respondentów.
4.
Wysoki odsetek odpowiedzi.
5.
Możliwość bezpośredniego kodowania danych
(CATI).
6.
Dotarcie do osób, które niechętnie uczestniczą w
badaniach pocztowych lub w wywiadach
osobistych.
7.
Możliwość kontroli zadawania pytań i rejestracji
danych.
8.
Możliwości „sondowania” odpowiedzi.
2.
Łatwość przerwania wywiadu.
3.
Brak wysokiego poziomu anonimowości.
4.
Brak czasu na przemyślenie odpowiedzi.
5.
Brak kontroli nad tym, kto w rzeczywistości
udziela odpowiedzi.
Baza danych
Definiowanie zmiennych:
1. Nazwa
2. Typ
3. Liczba znaków
3. Liczba znaków
4. Liczba miejsc po przecinku
5. Etykieta
6. Wyodr
ę
bnione kategorie
7. Braki danych
8. Szeroko
ść
kolumny
9. Wyrównanie
10.Skala pomiaru
Badanie spójności bazy danych
1.
Wszystkie warto
ś
ci mieszcz
ą
si
ę
w ramach ustalonych przez zasady skalowania.
2.
Wyst
ę
puje zgodno
ść
w filtrach.
3.
Rozstrzygni
ę
ta kwestia obserwacji nietypowych.
4.
Wyst
ę
puje spójno
ść
logiczna danych.
Gdy respondent może mówić nieprawdę!
Technika odpowiedzi losowych
•
Reszka
– odpowiadamy na
pytanie 1
•
Orzeł
– odpowiadamy na
pytanie 2
•
(reszka) Zdarzyło mi się, że w trakcie
zakupów w supermarkecie
zjadłam/zjadłem batonik
czekoladowy i nie zapłaciłem/am za
niego
•
(orzeł) Brałem udział w ostatnich
wyborach parlamentarnych
wyborach parlamentarnych
)
(
)
(
)
(
)
(
)
(
)
(
)
(
)
(
)
(
)
|
(
)
|
(
)
(
2
2
1
1
2
1
2
1
2
1
O
P
R
P
T
P
T
T
P
T
P
R
P
T
P
O
P
T
P
R
T
P
O
T
P
T
T
P
⋅
−
∪
=
⋅
+
⋅
=
+
=
∪
Estymacja frakcji odpowiedzi pozytywnych na pytanie 1:
Przykład: braki danych
v1
v2
v3
v4
v5
v6
v7
2.0
2.0
1.0
2.0
1.0
1.0
2.0
2.0
1.0
2.0
2.0
2.0
2.0
2.0
1.0
2.0
2.0
1.0
2.0
2.0
1.0
2.0
2.0
2.0
1.0
2.0
2.0
1.0
2.0
2.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
2.0
1.0
1.0
2.0
2.0
1.0
2.0
2.0
1.0
2.0
2.0
2.0
1.0
2.0
2.0
1.0
2.0
2.0
1.0
1.0
2.0
2.0
1.0
2.0
1.0
2.0
2.0
1.0
2.0
2.0
2.0
2.0
1.0
2.0
2.0
2.0
1.0
2.0
2.0
1.0
2.0
2.0
2.0
2.0
1.0
1.0
2.0
2.0
1.0
2.0
2.0
2.0
2.0
2.0
1.0
2.0
2.0
1.0
2.0
2.0
2.0
2.0
2.0
1.0
2.0
2.0
1.0
2.0
Przykład: braki rekordów
Liczba ludności miast według płci i
wyróżnionych grup wieku
Struktura ludności miast według płci i
wyróżnionych grup wieku
Grupy wieku
płeć
razem
płeć
razem
kobiety
mężczyźni
kobiety
mężczyźni
15 – 19
58716
60901
119617
10,5%
10,9%
21,4%
20 – 29
112962
111769
224731
20,2%
20,0%
40,3%
30 - 39
111571
102246
213816
20,0%
18,3%
38,3%
Liczba ludno
ś
ci miast według płci i wyró
ż
nionych grup wieku oraz wska
ź
niki struktury dla wyró
ż
nionych grup
Ogółem
283249
274916
558165
50,7%
49,3%
100,0%
Liczba respondentów według płci i wyró
ż
nionych grup wieku oraz wska
ź
niki struktury dla wyró
ż
nionych grup
Liczba respondentów według płci i
wyróżnionych grup wieku
Struktura próby według płci i grup wieku
Grupy wieku
płeć
razem
płeć
razem
kobiety
mężczyźni
kobiety
mężczyźni
15 – 19
104
95
199
12,6%
11,5%
24,1%
20 – 29
184
194
378
22,2%
23,5%
45,7%
30 – 39
92
158
250
11,1%
19,1%
30,2%
Ogółem
380
447
827
45,9%
54,1%
100,0%
Metody redukcji
błędów
nielosowych
Imputacje
Ważenie danych
(poststratyfikacja)
Metody redukcji bł
ę
dów nielosowych
Imputacja - braki pojedynczych odpowiedzi
dedukcyjna
deterministyczna
stochastyczna
wprowadzenie wartości umownych
38
90
wprowadzenie wartości umownych
ś
rednie
cold-deck
hot-deck
z innych badań lub symulacji
podobieństwo obiektów
Uwzględnienie składnika losowego w imputacji deterministycznej
Ważenie:
•
Ważenie musi być stosowane jeśli próba nie jest
samoważąca się
⇒ losowanie proste,
systematyczne, proporcjonalne
39
•
W przypadku procedur ograniczonego doboru
losowego każda próba może być reprezentatywna dla
populacji, jeśli każdemu elementowi próby przypisze
się prawdopodobieństwo znalezienia się w próbie
Przyczyny ważenia danych:
•
Technika losowania.
•
Odmowy odpowiedzi.
40
•
Dostosowanie do reprezentatywności ze
względu na różne cechy (poststratyfikacja)