Zasady doboru próby
√ Określenie populacji badanej.
√ Określenie operatu losowania (jeśli istnieje)
√ Określenie jednostki wyboru.
√ Ustalenie wielkości próby.
√ Wybór metody doboru jednostek:
Próba losowa:
Próba pseudo-losowa:
Próba celowa:
O trafieniu jednostki do próby
określamy proporcje osób,
szukamy osób, które
decyduje niezależny od
które wezmą udział w badaniu
należą do grupy
wybierającego mechanizm
np. ze względu na wiek, płeć,
docelowej
wybory i można określić
wykształcenie, miejsce
prawdopodobieństwo trafienia
zamieszkania
jednostki do próby
(kwotowa)
Próba ma charakter losowy, gdy przyjęte kryterium doboru jednostek jest niezależne od badanych cech i gdy każda jednostka zbiorowości ma różne od zera p-stwo znalezienia się w próbie.
68
Operat losowania:
wykaz jednostek tworzących
badaną zbiorowość (populację)
Musi być:
- kompletny,
- aktualny,
- gwarantujący identyfikowalność jednostek.
69
1
Dobór celowy:
nie ma potrzeby dowodzenia reprezentatywności i
oceny precyzji
Dobór losowy:
jest potrzeba zagwarantowania
reprezentatywności i oceny precyzji
70
Dobór celowy:
nie ma potrzeby dowodzenia reprezentatywności i
oceny precyzji
• Dobór kwotowy: gdy badane zjawiska, o których
nie ma żadnej informacji są silnie skorelowane z cechami o znanych rozkładach (podstawa
ustalania kwot).
• Dobór typowy lub przez eliminację (warunki
stosowania j.w.).
• Dobór przypadkowy: nie oczekuje się zgodności
jakichkolwiek struktur.
• Dobór wg „kuli śniegowej”: badanie
środowiskowe o znacznej homogeniczności
populacji i trudnej dostępności jednostek
71
2
Zagrożenia w doborze celowym
• Błędny osąd i intuicja badacza co do
prawidłowości występujących w populacji.
• Nadmierna chęć uczestnictwa w badaniach jest
podyktowana specjalnymi predyspozycjami
respondentów, które nie zawsze są zgodne z
cechami populacji.
• Brak uzasadnienia wiarygodności wyników tego
typu badań i łatwo argumentować przeciw nim,
jeśli są „niewygodne”.
72
Cechy doboru losowego:
• W czasie losowania elementy populacji nie
przemieszczają się.
• Dostęp do każdego elementu populacji jest
jednakowy.
• Elementy populacji są dostatecznie wymieszane.
Próba ma charakter losowy, gdy przyjęte
kryterium doboru jednostek jest niezależne od
badanych cech i gdy każda jednostka
zbiorowości ma różne od zera p-stwo
znalezienia się w próbie.
73
3
Jak losować?
Prosto!!!
Próba losowa prosta:
10097
32533
765 20
13586
34673
548 76
80959
37542
04805
648 94
74296
24805
240 37
20636
08422
68953
196 45
9303
23209
025 60
15953
99019
02529
093 76
70715
38311
311 65
88676
12807
99970
801 57
36147
64032
366 53
98951
66065
74717
340 72
76850
36697
361 70
65813
31060
10805
455 71
82406
35303
426 14
86799
85269
77602
020 51
65692
68665
748 18
73053
63573
32135
053 25
47048
90553
575 48
28468
73796
45753
035 29
64778
35808
342 82
60935
98520
17767
149 05
68607
22109
405 58
60970
11805
05431
398 08
27732
50725
682 48
29405
83452
99634
062 88
98083
13746
700 78
18475
88685
40200
865 07
58401
36766
679 51
90364
99594
67348
875 17
64969
91826
8928
93785
74
O zastosowaniu określonej metody doboru próby
decydują warunki,
w jakich będzie realizowane badanie.
1. Populacje mogą być skończone lub nieskończone.
2. Wiedza o populacji może być bardzo rozległa i opierać się na dostępnych danych lub zweryfikowanych teoriach i hipotezach lub też wiedza taka może w ogóle nie istnieć.
3. Skład populacji może być nieustannie lub okresowo weryfikowany w postaci spisów i innych rejestrów, lub też nie ma możliwości utworzenia imiennej listy jednostek tworzących populację.
Jeśli jest znana wielkość populacji i istnieje możliwość nawiązania kontaktu z każdą jednostką, to wystarczy, by zbudować próbę losową
75
4
Dobór losowy:
jest potrzeba zagwarantowania reprezentatywności i oceny precyzji
• Dobór prosty ze zwracaniem lub bez zwracania.
• Dobór warstwowy.
• Dobór zespołowy.
Losowanie
• Dobór wielostopniowy.
ograniczone
• Dobór systematyczny.
• Losowanie z jednakowymi prawdopodobieństwami
wyboru: tzw. próby samoważące się
• Losowanie z różnymi prawdopodobieństwami wyboru: konieczność przeważenia wyników
76
Losowanie proste ze zwracaniem
lub bez (efektywniejsze)
Kiedy?
Brak jakichkolwiek informacji o populacji i populacje nie są zbyt liczne.
Zalety:
Wady:
• Próby wyważone
• Dogodny tylko dla
automatycznie.
małych populacji.
• Proste metody
• Wymaga znajomości
obliczania precyzji
operatu losowania.
• Łatwe!
77
5
Losowanie warstwowe
Kiedy?
Istnieją dodatkowe informacje o populacji i populacje są bardzo liczne.
Zalety:
Wady:
•
Są bardziej efektywne, czyli
•
Wymaga znajomości struktur
dostarczają bardziej precyzyjnych
populacji. Jest tym
informacji.
efektywniejsze im mniejsze
•
W każdej warstwie można
jest zróżnicowanie warstw.
stosować inną technikę losowania.
•
Pożądany operat losowania.
•
Warstwowanie można
przeprowadzić po wylosowaniu
próby dostosowując się do
potrzeb
78
Losowanie proste bez zwracania:
Sˆ( x
N − n
Sˆ
)
( x)
SE( x) ≈
≈
n
N
n
Losowanie warstwowe:
N −
k
n
N S 2
ˆ
SE( x )
W
=
⋅ ∑ h h
N
1 N
n
h=
SE( x ) ≤ SE( x)
W
79
6
Losowanie zespołowe
Kiedy?
Brak jakichkolwiek informacji o jednostkach populacji lecz istnieją informacje o podgrupach (zespołach) oraz populacje są bardzo liczne
Zalety:
Wady:
•
Ograniczenie operatu tylko do
•
Złożony schemat losowania, na
listy zespołów.
ogół dwustopniowy: zespoły i
jednostki
•
Mało rozproszone terytorialnie
próby.
•
Efektywny! Ale przy dużej
liczbie zespołów o małych
rozmiarach w próbie
80
Losowanie systematyczne
interwał losowania: k = N/n
Kiedy?
Brak jakichkolwiek informacji o populacji i populacje są brak operatu losowania
Zalety:
Wady:
• Próby wyważone
• Ukryte
automatycznie.
powarstwowanie
• Precyzja taka jak dla
populacji
próby prostej
• Łatwe!
81
7
Techniki losowania:
Proporcjonalne, czyli z różnymi prawdopodobieństwami wyboru
Kiedy?
Populacje są bardzo liczne. Istnieją zespoły o zdecydowanie różnych rozmiarach
Zalety:
Wady:
•
Można stosować gdy istnieje
•
Wymaga znajomości struktur
operat ograniczony tylko do
populacji.
zespołów.
•
Korzysta się z informacji
•
Uwzględnia strukturę
dotyczącej przeszłości.
populacji.
•
Może wymagać przeważenia
danych
82
Zagrożenia w doborze losowym
• Ignorowanie konsekwencji wyboru techniki
losowania: Sposób pobierania próby jest
sprzężony ze sposobem estymacji wybranego
parametru. Dokonanie zmian w jednej ze „stron”
wywoływać musi zmianę w drugiej.
•
Niedostosowana do rzeczywistości technika
losowania: Otaczająca rzeczywistość ma złożoną
strukturę i dlatego są potrzebne adekwatne do
niej schematy losowania.
• Ignorowanie sprawdzania losowości wylosowanej
83
próby
8
sprawdzania losowości
wylosowanej próby: test serii
nr
x
nr
x
nr
x
i
i
i
jednostki
jednostki
jednostki
1
19
13
13
25
17
2
7
14
5
26
3
3
11
15
12
27
30
4
15
16
17
28
18
5
27
17
30
29
32
6
32
18
28
30
31
7
30
19
28
31
30
8
30
20
30
32
30
9
9
21
30
33
30
10
12
22
30
34
10
11
32
23
35
35
33
12
10
24
9
36
30
Wylosowana próba 8 elementowa: 30, 30, 27, 30, 30, 11, 9, 28
Mediana = 29 gdyż: 9, 11, 27, 28,30, 30, 30, 30
kodowanie: BBABBAAA
Liczba serii =4, n = 4, n = 4
A
B
Tablica 5. Wartości krytyczne rozkładu serii
P( k ≤ k
P( k ≤ k
α ) = 0,05
α ) = 0,95
n
n
2
2
n
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
n
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
1
1
2
2
4
3
3
5 6
4
2
4
5 6 7
5
2 2 3
5
5 7 8 8
6
2 3 3 3
6
5 7 8 9 10
7
2 3 3 4 4
7
5 7 8 9 10 11
8
2 2 3 3 4 4 5
8
5 7 9 10 11 12 12
9
2 2 3 4 4 5 5 6
9
5 7 9 10 11 12 13 13
10
2 3 3 4 5 5 6 6 6
10
5 7 9 10 11 12 13 14 15
11
2 3 3 4 5 5 6 6 7 7
11
5 7 9 11 12 13 14 14 15 16
12
2 3 4 4 5 6 6 7 7 8 8
12
5 7 9 11 12 13 14 15 16 16 17
13
2 3 4 4 5 6 6 7 8 8 9 9
13
5 7 9 11 12 13 14 15 16 17 17 18
14
2 3 4 5 5 6 7 7 8 8 9 9 10
14
5 7 9 11 12 13 15 16 16 17 18 19 19
15
2 3 4 5 6 6 7 8 8 9 9 10 10 11
15
5 7 9 11 13 14 15 16 17 18 18 19 20 20
16
2 3 4 5 6 6 7 8 8 9 10 10 11 11 11
16
5 7 9 11 13 14 15 16 17 18 19 20 20 21 22
17
2 3 4 5 6 7 7 8 9 9 10 10 11 11 12 12
17
5 7 9 11 13 14 15 16 17 18 19 20 21 21 22 23
18
2 3 4 5 6 7 8 8 9 10 10 11 11 12 12 13 13
18
5 7 9 11 13 14 15 17 18 19 20 20 21 22 23 23 24
19
2 3 4 5 6 7 8 8 9 10 10 11 12 12 13 13 14 14
19
5 7 9 11 13 14 15 17 18 19 20 21 22 22 23 24 24 25
20
2 3 4 5 6 7 8 9 9 10 11 11 12 12 13 13 14 14 15
20
5 7 9 11 13 14 16 17 18 19 20 21 22 23 24 24 25 26 26
Wartości liczby serii nie dające podstaw do odrzucenia hipotezy zerowej głoszącej losowość próby: ( k , k
〉 ⇒ (2 ; 7 〉
/ 2
1 -α / 2
Ponieważ k
= 5 nie ma podstaw do odrzucenia hipotezy zerowej.
obserwowane
Próba ma charakter losowy.
9
2009-04-18
Gdy rozmiar próby przekracza 40
elementów:
Wykorzystanie zbieżność liczby serii do rozkładu normalnego.
H : próba ma charakter losowy
0
H : próba nie ma charakter ulosowego
1
Wartość statystyki testującej określa wzór:
k − k
u = S( k)
2 n n
2 n n (2 n n − n − n ) 1
2
gdzie:
k =
+1
S( k)
1
2
1
2
1
2
=
n + n
( n + n )2 ( n + n − ) 1
1
2
1
2
1
2
która ma rozkład N(0, 1).
Jeśli wartość statystyki u nie przekracza wartości 1,96, to nie ma podstaw do odrzucenia hipotezy zerowej, czyli by podważać losowy charakter próby.
Błędy
Błędy treści
pokrycia
Błąd
Błąd pomiaru
struktury
Błąd wybory i
Błąd analizy
braku reakcji
Błąd
Błąd
zagubienia
interpretacji
Błąd
odrzucenia
10
Przykład: braki danych
v1
v2
v3
v4
v5
v6
v7
2.0
2.0
1.0
2.0
1.0
1.0
2.0
2.0
1.0
2.0
2.0
2.0
2.0
2.0
1.0
2.0
2.0
1.0
2.0
2.0
1.0
2.0
2.0
2.0
1.0
2.0
2.0
1.0
2.0
2.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
2.0
1.0
1.0
2.0
2.0
1.0
2.0
2.0
1.0
2.0
2.0
1.0
1.0
2.0
2.0
1.0
2.0
1.0
2.0
2.0
1.0
2.0
2.0
2.0
2.0
1.0
2.0
2.0
2.0
1.0
2.0
2.0
1.0
2.0
2.0
2.0
2.0
1.0
1.0
2.0
2.0
1.0
2.0
2.0
2.0
2.0
2.0
1.0
2.0
2.0
1.0
2.0
2.0
2.0
2.0
2.0
1.0
2.0
2.0
1.0
2.0
Przykład: braki rekordów
Liczba ludności miast według płci i wyróżnionych grup wieku oraz wskaźniki struktury dla wyróżnionych grup Liczba ludności miast według płci i
Struktura ludności miast według płci i
wyróżnionych grup wieku
wyróżnionych grup wieku
Grupy wieku
płeć
razem
płeć
razem
kobiety
mężczyźni
kobiety
mężczyźni
15 – 19
58716
60901
119617
10,5%
10,9%
21,4%
20 – 29
112962
111769
224731
20,2%
20,0%
40,3%
30 - 39
111571
102246
213816
20,0%
18,3%
38,3%
Ogółem
283249
274916
558165
50,7%
49,3%
100,0%
Liczba respondentów według płci i wyróżnionych grup wieku oraz wskaźniki struktury dla wyróżnionych grup Liczba respondentów według płci i
Struktura próby według płci i grup wieku
wyróżnionych grup wieku
Grupy wieku
płeć
razem
płeć
razem
kobiety
mężczyźni
kobiety
mężczyźni
15 – 19
104
95
199
12,6%
11,5%
24,1%
20 – 29
184
194
378
22,2%
23,5%
45,7%
30 – 39
92
158
250
11,1%
19,1%
30,2%
Ogółem
380
447
827
45,9%
54,1%
100,0%
11
2009-04-18
Metody redukcji
błędów
nielosowych
Ważenie danych
Imputacje
(poststratyfikacja)
Metody redukcji błędów nielosowych
Imputacja - braki pojedynczych odpowiedzi
dedukcyjna
deterministyczna
stochastyczna
wprowadzenie wartości umownych
średnie
cold-deck
z innych badań lub symulacji
hot-deck
podobieństwo obiektów
Uwzględnienie składnika losowego w imputacji deterministycznej 90
91
12
Przyczyny ważenia danych:
• Technika losowania.
• Odmowy odpowiedzi.
• Dostosowanie do reprezentatywności ze
względu na różne cechy (poststratyfikacja)
92
Ważenie:
• Ważenie musi być stosowane jeśli próba nie jest samoważąca się ⇒ losowanie proste,
systematyczne, proporcjonalne
• W przypadku procedur ograniczonego doboru
losowego każda próba może być reprezentatywna dla populacji, jeśli każdemu elementowi próby przypisze się prawdopodobieństwo znalezienia się w próbie
93
13
Przykład: braki rekordów
Liczba ludności miast według płci i wyróżnionych grup wieku oraz wskaźniki struktury dla wyróżnionych grup Liczba ludności miast według płci i
Struktura ludności miast według płci i
wyróżnionych grup wieku
wyróżnionych grup wieku
Grupy wieku
płeć
razem
płeć
razem
kobiety
mężczyźni
kobiety
mężczyźni
15 – 19
58716
60901
119617
10,5%
10,9%
21,4%
20 – 29
112962
111769
224731
20,2%
20,0%
40,3%
30 - 39
111571
102246
213816
20,0%
18,3%
38,3%
Ogółem
283249
274916
558165
50,7%
49,3%
100,0%
Liczba respondentów według płci i wyróżnionych grup wieku oraz wskaźniki struktury dla wyróżnionych grup Liczba respondentów według płci i
Struktura próby według płci i grup wieku
wyróżnionych grup wieku
Grupy wieku
płeć
razem
płeć
razem
kobiety
mężczyźni
kobiety
mężczyźni
15 – 19
104
95
199
12,6%
11,5%
24,1%
20 – 29
184
194
378
22,2%
23,5%
45,7%
30 – 39
92
158
250
11,1%
19,1%
30,2%
Ogółem
380
447
827
45,9%
54,1%
100,0%
poststratyfikacja
N
N
n
h
W =
w
h
=
⋅
h
n
h
n
N
h
h
gdzie:
W i w – waga dla h-tej grupy wa h
h
żenia;
n – liczba jednostek z próby w h-tej grupie wa h
żenia;
N – liczba jednostek z populacji w h-tej grupie wa h
żenia;
k
n = ∑ nh
– liczebność próby;
h=1
k
N = ∑ N h
– liczebność populacji.
h=1
14