background image

Jarosław Górniak 

 

Analiza w sytuacji braków danych i ważenie próby 

 

I. Braki danych i imputacja 

 
Jednym z podstawowych problemów w badaniach sondażowych jest występowanie 
zniekształceń na skutek braków danych. Braki te mogą być dwojakiego rodzaju: 
1.  Całkowity brak danych o wylosowanej jednostce, wynikający z niepowodzenia w 

uzyskaniu od niej odpowiedzi na cały kwestionariusz. Może to wynikać z odmowy 
udziału w badaniu, z niemożliwości nawiązania kontaktu lub długotrwałych okoliczności, 
które stały na przeszkodzie w zrealizowaniu badania (choroba, długotrwały wyjazd itp.). 
Zwykle dysponujemy tylko niewielką liczbą danych, które dostępne były na poziomie 
operatu lub mogą być dostarczone przez ankietera poprzez wypełnienie specjalnej karty 
niezrealizowanego wywiadu. Remedium na zniekształcenia wywołane całkowitym 
brakiem danych jest ważenie próby.  

2.  Brak odpowiedzi na pojedyncze pytania kwestionariusza w przypadku osób, które 

zgodziły się wziąć udział w badaniu (udzieliły wywiadu, odesłały ankietę pocztową). 
Może być spowodowany odmową udzielenia odpowiedzi (np. na pytanie o dochody), 
nieznajomością odpowiedzi na określone pytanie,  błędami ankieterów lub niemożliwymi 
do zweryfikowania błędami we wprowadzaniu danych. 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Kompletne 
obserwacje 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Braki danych w 
pojedynczych 
pozycjach 

 

 

 

 

 

 

 

Niezrealizowane 
wywiady/ankiety  X 

 
 
Specjalny przypadek stanowią badania panelowe, gdy osoba, która poprzednio uczestniczyła 
w badaniu, nie bierze udziału w danej realizacji. Wówczas dysponujemy danymi z 
poprzednich badań, które mogą być wykorzystane w kompensacji braków danych. 
 
Braki danych mogą poważnie zniekształcić obraz ogólnej zbiorowości objętej 
reprezentacyjnym badaniem sondażowym. Wielu badaczy i zleceniodawców badań ma 
świadomość wpływu sposobu doboru próby na reprezentatywność wyników badań, a więc ich 
jakość z punktu widzenia odbiorcy. Niestety, zbyt mała jest świadomość wpływu braków 
danych na tę jakość lub nawet jeśli istnieje, nie bardzo wiadomo jak zaradzić konsekwencjom 
występowania braków danych w wynikach badań. 
 
Najczęstszym sposobem postępowania z brakami danych jest ich... ignorowanie. Sporządza 
się tabele, w których obserwacje z brakami danych są wyłączane z podstawy analizy. Już w 
przypadku prostych tabel krzyżowych dwóch zmiennych często bywa tak, że 10-20% 

background image

obserwacji eliminowanych jest z obliczeń na skutek wystąpienia w jednej bądź drugiej 
zmiennej braku danej.  
 
W tabelach czasami analitycy umieszczają odrębną kategorię „brak danych” lub „nie 
wiem/brak odpowiedzi”, zwykle w celu utrzymania stałej bazy obliczeń niż po to, by ulepszyć 
jakość analizy. W praktyce oznacza to przerzucenie na odbiorcę takich tabel konieczności 
zdecydowania, czy należy interpretować procenty liczone w stosunku do całej próby, wraz z 
brakami odpowiedzi, czy też raczej w stosunku do tych, którzy udzielili istotnych 
(„ważnych”) odpowiedzi na zadane pytania.  Oczywiście, są sytuacje, kiedy lepiej jest 
interpretować procenty liczone w stosunku do wszystkich badanych (np. zasięg percepcji 
reklamy); są też takie, w przypadku których lepiej ustalać udziały w oparciu o ważne 
odpowiedzi (np. udział marki w rynku zoperacjonalizowany jako wskazanie dotyczące 
ostatniego zakupu produktu danej klasy). 
 
W warunkach występowania braków danych jeszcze trudniejszy problem stanowią jednak 
rozmaite miary syntetyczne, od statystyk opisowych (np. średnia) po miary siły związku. 
Problem narasta w przypadku wielowymiarowych metod analizy, gdy w grę wchodzi wiele 
zmiennych, które mogą zawierać braki danych w różnych obserwacjach. 
 
Jakie reakcje na braki danych są możliwe? Spróbujmy je wymienić i wskazać na ich 
konsekwencje. Zajmijmy się na początek problemem sytuacją nr 2 czyli brakami danych 
rozsianych po różnych pozycjach w analizowanym zbiorze danych (do kompensacji 
niezrealizowanych ankiet wrócimy przy okazji ważenia). Przyjmijmy w przykładach, że 
mamy do czynienia ze zmiennymi ilościowymi (np. ostatnio zakupiona ilość produktu X, 
wielkość opakowania w gramach itp.); dla zmiennych jakościowych analizowane będą inne 
statystyki, jednak istota problemu pozostaje niezmieniona. 
 
 
Ogólnie, konsekwencje przyjęcia różnych sposobów postępowania w przypadku braków 
zależą od tego, jaki mechanizm generuje braki danych. Prof. D.B. Rubin sformułował jako 
pierwszy (w 1976 r.) następujący podział tych mechanizmów: 
•  MCAR (Missing Completely At Random) – gdy brak danych jest całkowicie losowy; 
•  MAR (Missing At Random) – gdy brak danych jest losowy – w obrębie kategorii 

wyznaczonych przez inne cechy objęte badaniem; 

•  NMAR (Not Missing At Random) – nielosowe braki danych – gdy prawdopodobieństwo 

wystąpienia braku w przypadku danej zmiennej jest związane z poziomem tej zmiennej; 
zwane również nieignorowalnymi brakami danych. 

 
Żeby lepiej zrozumieć ten podział załóżmy, że zrealizowano badanie ankietowe w którym 
zadano tylko dwa pytania: od wykształcenie (liczba ukończonych klas/lat) i o dochód. 
Załóżmy, że wszyscy odpowiedzieli na pytanie o wykształcenie, ale w pytaniu o dochód 
pojawiły się braki odpowiedzi. Jeśli prawdopodobieństwo wystąpienia braku odpowiedzi na 
pytanie o dochód jest niezależne zarówno od wykształcenia jak i od dochodu, wówczas 
mechanizm jest MCAR: respondenci, którzy odpowiedzieli, są próbą losową wszystkich 
respondentów. Jeśli jednak ci, którzy mają wyższe wykształcenie mniej chętnie informują o 
dochodach, wówczas mechanizm MCAR przestaje wyjaśniać tę sytuację. Jeśli w każdej 
grupie wykształcenia prawdopodobieństwo wystąpienia braku danej w pytaniu o dochód jest 
niezależne od wielkości dochodu, to działa mechanizm MAR. Jeśli jednak 
prawdopodobieństwo nieuzyskania odpowiedzi na pytanie o dochód zmienia się wraz ze 
zmianą poziomu dochodu, wówczas mamy do czynienia z nielosowym mechanizmem 

background image

generowania braków danych, lub też nieignorowalnym brakiem danych. Nawet w tym 
ostatnim przypadku, najtrudniejszym do „obejścia” można uzyskać dobre wyniki poprzez 
odpowiednie zabiegi na danych. 
 
 
A)  Wyłączanie obserwacji z brakami danych – analiza kompletnych obserwacji 
Czy ignorując braki danych (wykluczając obserwacje z brakami danych) naprawdę nic nie 
robimy? Nic nie „manipulujemy” przy danych? Wielu osobom tak się wydaje, choć w rzeczy 
samej sprawa nie jest tak prosta. Zadajmy sobie pytanie, czy możemy oczekiwać, że osoby, 
dla których nie mamy danych, są próbą losową z tej samej populacji (mającej takie same 
charakterystyki) co osoby, które udzieliły nam odpowiedzi? Ignorując obserwacje z brakami 
danych odpowiadamy twierdząco. W przeciwnym razie bowiem, tzn. jeśli 
prawdopodobieństwo wystąpienia braku danych zależy od cech respondentów (a w 
konsekwencji np. średnia ilość produktu X zakupiona ostatnio jest inna wśród tych, którzy 
odpowiedzieli, i tych, którzy nie odpowiedzieli) to wyłączenie z podstawy obliczenia części 
obserwacji obciąży systematycznym błędem ocenę parametru badanej populacji (np. 
oszacowanie średniej ilości kupowanej w przypadku produktu X w całej populacji 
nabywców). Jeśli ci, którzy nie odpowiedzieli na pytanie, są przeciętnie tacy sami jak ci, 
którzy odpowiedzieli, to wówczas ich wyłączenie nie spowoduje obciążenia oszacowania 
średniej (ani odchylenia standardowego). 
 
Gdy obliczamy macierz korelacji (kowariancji) lub wykonujemy inną analizę wikłającą wiele 
zmiennych, której elementem jest obliczanie istotności, siły związku lub odległości między 
parami zmiennych (np. analiza czynnikowa, analiza skupień, regresja, modelowanie 
strukturalne) wyłączanie obserwacji z brakami danych może następować w dwojaki sposób: 
•  Usuwanie obserwacjami (casewise); jeśli w którejkolwiek ze zmiennych użytych w 

analizie pojawia się brak danej – cała obserwacja wyłączana jest z obliczeń. 

•  Usuwanie parami (pairwise); statystyki obliczane są w oparciu o wszystkie informacje 

dostępne dla każdej pary zmiennych z osobna. W wyniku zastosowania tej metody każda 
korelacja czy odległość może być obliczona w oparciu o inną próbę. 

Oczywiście, te dwie metody dotyczą także konstruowania podstawy do obliczania tabeli 
zestawiającej średnie, odchylenia standardowe czy inne statystyki opisujące pojedyncze 
zmienne. Zagadnienie to ilustruje poniższy diagram. 
 

 

 
X oznacza brak danej. O oznacza obecność danej. 
 
W przypadku obliczenia tabeli porównawczej średnich i odchyleń standardowych dla 
zmiennych A, B i C możemy przyjąć za podstawę obserwacje 1 i 7 – usuwanie obserwacjami 
– co gwarantuje wykonanie analizy na tej samej próbie. Możemy też w przypadku zmiennej A 
oprzeć obliczenia na obserwacjach 1,3,4,6,7; w przypadku zmiennej B – na obserwacjach 

background image

1,2,4 i 7; w przypadku zmiennej C – na obserwacjach 1,2,3,5,7. Za każdym razem skład 
próby będzie zatem inny, choć z drugiej strony wykorzystamy wszystkie dostępne dane.  
Podobnie, w przypadku obliczania macierzy korelacji przy usuwaniu b.d. parami użyjemy: 
-  dla pary A,B obserwacji 1,4 i 7; 
-  dla pary B,C obserwacji 1,2 i 7; 
-  dla pary A,C obserwacji 1,3 i 7. 
W przypadku usuwania obserwacjami wszystkie współczynniki obliczone zostaną w oparciu 
o obserwacje 1 i 7. 
O ile mamy do czynienia z mechanizmem MCAR  zastosowanie techniki usuwania parami 
nie pociąga za sobą nieporównywalności obliczanych statystyk, gdyż każda z podprób 
obejmujących kompletne dane jest próbą losową z całej próby objętej badaniem. Zyskujemy 
natomiast liczniejszą podstawę dokonywania szacunków. Mechanizm MCAR jest jednak w 
przypadku badań społecznych zjawiskiem dość rzadkim, chyba że pomiarem i analizą objęty 
jest szczególny zestaw zmiennych. Dlatego usuwanie parami zwykle nie jest zalecane, chyba 
że usuwanie obserwacjami prowadzi do radykalnego zmniejszenia liczebności analizowanej 
próby.  
 
Dyskusja ta dotyczy jednak wyboru mniejszego zła spośród największych, gdyż także 
usuwanie obserwacjami prowadzi do zniekształceń informacji o poszczególnych cechach 
wówczas, gdy mechanizm nie jest MCAR. W przypadku każdej analizy wykonanej w oparciu 
o kompletne obserwacje, a więc przy usunięciu (zignorowaniu) braków danych, przyjmujemy 
bowiem implicite założenie o tym, że obserwacje z kompletnymi danymi są próbą losową z 
całej badanej próby. Tylko w sytuacji, gdy to założenie jest prawdziwe, nie „manipulując” 
przy danych, tzn. ignorując obserwacje z brakami danych, rzeczywiście przy nich nie 
manipulujemy z punktu widzenia szacowania parametrów populacji generalnej. Analiza 
kompletnych obserwacji jest faktycznie metodą kompensacji braków danych przez 
przypisanie w danej zmiennej wszystkim brakom danych wartości średniej dla tej zmiennej. 
 
B) Zastępowanie braków danych – imputacja 
W zaawansowanych metodologicznie badaniach sondażowych używa się raczej innych 
mechanizmów kompensacji, opartych na łagodniejszych założeniach o mechanizmie 
generowania braków danych niż MCAR. W sytuacji gdy pozwalają na to dane (rozkłady cech 
w populacji) wykorzystuje się estymację modeli metodą największej wiarygodności,  
dostosowaną do występowania braków danych (tu nie będziemy się tym zagadnieniem 
zajmować; w szczególności powstały propozycje dotyczące analizy w sytuacji 
nieignorowalnych braków danych, jednak dyskusje statystyków nad tym zagadnieniem ciągle 
trwają). Typowym sposobem radzenia sobie z brakami danych jest jednak zastępowanie ich 
wartościami szacunkowymi czyli narzucanie wartości, dla którego przyjmiemy termin 
(pozwólmy sobie na termin techniczny, mimo że jest anglicyzmem) – imputacja. 
 
Imputacja polega na przypisaniu wartości obserwacjom w miejsce braków danych. Przede 
wszystkim używamy jej w przypadku występowania braków danych w poszczególnych 
pozycjach zbioru danych, rzadziej w przypadku braku części danych (np. na skutek 
odpadnięcia w próbie panelowej). W przypadku analizy pojedynczych zmiennych w próbie, w 
której występuje niewielka liczba braków danych, często możemy poprzestać na analizie 
kompletnych obserwacji (usuwanie obserwacjami) bez wprowadzania dużych zniekształceń. 
W przypadku analiz wielowymiarowych, gdy braki danych rozproszone są po różnych 
obserwacjach, usuwanie obserwacjami łatwo może doprowadzić do radykalnego zmniejszenia 
efektywnej liczebności próby i obciążenia wyników analizy. Czasem jedna zmienna, istotna 
merytorycznie (np. dochód), może zawierać szczególnie dużo braków danych i prowadzić do 

background image

utraty informacji zawartych w innych, bardziej kompletnych zmiennych w sytuacji ich łącznej 
analizy. W przypadku użycia wyłącznie kompletnych obserwacji obliczona ocena średniej lub 
frakcji może być obciążona (zobaczymy to w naszym przykładzie). 
 
Zalety i wady imputacji (Lepkowski 1997) 
Zalety imputacji: 
•  Ułatwia pracę analitykowi. 
•  Analizy są spójne, gdyż nie ma potrzeby usuwania obserwacji. 
•  Upraszcza prezentację wyników sondażu (np. nie ma potrzeby umieszczania w tabelach 

wierszy lub kolumn reprezentujących braki danych). 

•  Zachowuje wszystkie dostępne dane co może pozwolić na uzyskanie bardziej 

precyzyjnych ocen parametrów w modelach wielowymiarowych. 

 
Wady imputacji (zwłaszcza prostszych technik): 
•  Niektóre formy imputacji zniekształcają rozkład (średnią, wariancję) zmiennych 

poddanych imputacji i tłumią współzależności. Dotyczy to zwłaszcza mechanicznego 
zastępowania przez średnią. 

•  Prowadzi do niedoszacowania wariancji, gdyż podstawiane wartości traktowane są przez 

program statystyczny tak samo jak pełnowartościowe dane. 

•  Trudno jest przekonać analityków do stosowania imputacji. Analitycy wolą nie używać 

„sfabrykowanych” danych. Ale... czy lepiej fabrykować je przy pomocy analizy opartej na 
kompletnych obserwacjach przy założeniu MCAR, czy też może fabrykować je przy 
założeniu starannie dobranego modelu? 

 
Metody imputacji: 
 
1.  Podstawianie średniej 

 

Przyjmijmy, że wylosowana została (z jednakowymi prawdopodobieństwami wyboru) z 
pewnej populacji próba 18 respondentów, z których 14 ujawniło swoje dochody, a 4 nie 
(rzeczywiste a nieujawnione dochody zostały wzięte w nawias kwadratowy). Mamy 
kompletne dane o płci i wykształceniu.  
 

lp. 

Płeć 

(X

1i

Wykszt. 

 W latach 

(X

2i

Dochód g.d. 

( w 100 PLN) 

(Y

i

23 

12 

[45] 

12 

43 

11 

[67] 

16 

75 

16 

88 

12 

35 

12 

42 

14 

67 

10 

15 

56 

11 

12 

28 

12 

10 

[12] 

13 

12 

31 

background image

14 

12 

35 

15 

12 

30 

16 

18 

66 

17 

15 

72 

18 

12 

[38] 

 
Podstawianie ogólnej średniej polega na zastąpieniu braków danych średnią obliczoną z 
odpowiedzi, które zostały udzielone. Jest to równoważne ze zignorowaniem braków danych 
(analizą kompletnych obserwacji). Zatem w naszym przykładzie y

= y

= y

12

 = y

18

 = 49,9. 

Ten rodzaj imputacji zniekształca rozkład tworząc „wierzchołek” na średniej. W przypadku 
takiej imputacji:  
•  średnia jest zachowana; 
•  odchylenie standardowe jest niedoszacowane; 
•  liczebność próby jest zawyżona. 

W przypadku zmiennych jakościowych, przy niewielkiej liczbie braków danych stosuje się 
podstawianie dominanty lub mediany. 
 
2. Średnia ogólna plus błąd losowy 
 
Jeśli chcemy odzwierciedlić w imputacji zmienność obserwowanych wartości, można przy 
zastępowaniu poszczególnych braków danych dodać do średniej błąd losowy — zwykle 
różnicę pomiędzy wartością wylosowaną spośród ważnych obserwacji a średnią lub wartość 
wylosowaną z rozkładu normalnego o średniej równej średniej ważnych obserwacji i 
wariancji równej ich wariancji. Błąd standardowy nadal jest zaniżony na skutek zawyżenia 
efektywnej liczebności próby. Zachowane jest odchylenie standardowe. Taka imputacja jest 
lepsza od zastępowania średnią. Jednak pozostaje bardzo istotny problem: informacja zawarta 
w innych zmiennych nie jest wykorzystywana w imputacji, co prowadzi do zniekształcenia 
(destrukcji) korelacji pomiędzy uzupełnioną zmienną a innymi zmiennymi. Tracimy także 
efektywność wskutek niewykorzystania tych korelacji. 
 
3. Średnia grupowa (plus błąd losowy) 
 
Jakość imputacji można poprawić podstawiając za b.d. średnią dla klasy obserwacji. W 
naszym przykładzie: dla mężczyzn — y

= y

= 52; dla kobiet — y

12

 = y

18

 =48,1. Można 

również uzupełnić średnią o element stochastyczny zgodnie z regułą omówioną wyżej, z tym 
że w każdej klasie z osobna. Prowadzi to do pewnej poprawy dokładności imputacji pod 
warunkiem homogeniczności klas z punktu widzenia uzupełnianej zmiennej. 
 
4. „Hot deck” 
 
Często wykorzystywaną metodą imputacji jest tzw. „hot deck”. Występuje w dwóch 
odmianach:  
•  sekwencyjnej 
•  hierarchicznej. 

 
Sekwencyjny „hot deck” ilustruje poniższy przykład. Z taką techniką związane są pewne 
problemy: 
•  wielokrotni dawcy 
•  problem z granicami przy sortowaniu (np. przejście od mężczyzn do kobiet) 
•  słaba korelacja wewnątrz grup. 

background image

Główne zalety to: łatwość wykonania i prostota, nie wymaga założeń dotyczących rozkładów 
i możliwość wykonania przy jednym sortowaniu dla całego zestawu skorelowanych 
zmiennych. 
 
 
 
 
Sekwencyjny „hot deck” 

Dochód g.d. 

( w 100 PLN) 

(Y

i

lp. 

Płeć 

(X

1i

Wykszt. 

 W latach 

(X

2i

Rzeczywista wartość  Gorąca (Hot) 

wartość 

Ostateczna 

wartość 

23 

51

1)

 

23 

11 

[67] 

23 

23 

12 

[45] 

23 

23 

12 

43 

23 

43 

12 

35 

43 

35 

12 

42 

35 

42 

16 

75 

42 

75 

16 

88 

75 

88 

12 

10 

[12] 

88 

88 

11 

12 

28 

88 

28 

13 

12 

31 

28 

31 

14 

12 

35 

31 

35 

15 

12 

30 

35 

30 

18 

12 

[38] 

30 

30 

14 

67 

30 

67 

10 

15 

56 

67 

56 

17 

15 

72 

56 

72 

16 

18 

66 

72 

66 

1)

Tzw. „zimna wartość”, losowo wybrana na wypadek braku danej w pierwszej 

obserwacji.

 

 

 
Metodę sekwencyjną można istotnie ulepszyć przy pomocy techniki hierarchicznej. W 
przypadku tej techniki respondenci i nierespondenci są zgrupowani w dużą liczbę klas 
opartych o wiele potencjalnych zmiennych „sortujących”. Wybiera się losowo dawcę w 
każdej klasie, a w razie potrzeby łączy się klasy ze sobą by uzyskać dopasowanie. 
 

Wykształcenie 

<średnie (<12 klas) 

Średnie <12;15> 

Wyższe (>=16 klas) 

 
 
Płeć 

NR 

NR 

NR 

Mężczyzna 

23 

[67] 

43 
35 
42 

[45] 

75 
88 

 

Kobieta 

 

[12] 

28 
31 
35 

[38] 

67 
56 
66 

 

background image

30 

72 

 
Powtórzmy podstawową ideę: zaklasyfikuj Respondentów i Nierespondentów do komórek 
bazujących na pewnej mierze bliskości (np. przynależność do tej samej komórki 
zdefiniowanej przez kategorie zmiennych klasyfikujących, odległość Mahalanobisa, odległość 
między teoretycznymi wartościami zmiennej podlegającej imputacji), następnie losowo 
wybierz respondenta z tego zestawu i podstaw jego wartość w miejsce braku danej u 
nierespondenta. Nadal pozostaje problemem niedoszacowanie błędu standardowego. 
Potrzebna jest także duża próba, by uzyskać dobre dopasowania. Można użyć tylko 
ograniczonego zbioru zmiennych. 
 
5. Metoda regresyjna 
 
Metoda regresyjna może być traktowana w pewnym sensie jako uogólnienie metody „hot 
deck” i podstawiania średniej. Metoda ta występuje w odmianie deterministycznej i 
stochastycznej.  
 
W przypadku odmiany deterministycznej budujemy model regresji w oparciu o dostępne 
dane, a następnie podstawiamy w miejsce brakujących danych wartości teoretyczne, 
przewidywane na podstawie modelu regresji. W przypadku ilościowej zmiennej zależnej 
(imputowanej) używamy regresji liniowej. W przypadku jakościowej zmiennej zależnej 
używamy regresji logistycznej. W przypadku zmiennej dychotomicznej możemy użyć 
również regresji logistycznej, ale dobre wyniki daje również regresja liniowa. 
 
W naszym przykładzie powyżej, przy podstawianiu wartości w zmiennej „dochód g.d.” 
równanie regresji wygląda następująco: 

y

i

 = 66,6 + 12,2*mężczyzna – 55,8 *posiada wykształcenie mniej niż średnie – 

– 37,0*posiada wykształcenie średnie 

Podstawiając stosowne wartości do równania  możemy wyliczyć: 
y

= 51,3 

y

4

 = 25,0 

y

12

= 21,1 

y

18

= 47,3 

 

background image

Można dodać losową resztę do tych czterech imputowanych wartości: 
•  wylosowaną z rozkładu normalnego o tej samej średniej i odchyleniu standardowym co 

wartości przewidywane lub 

•  losując respondenta, który podał swój dochód i obliczając różnicę pomiędzy jego 

wartością obserwowaną i przewidywaną na zmiennej „dochód g.d.”. 

W ten sposób imputację wykonujemy w oparciu o stochastyczną odmianę metody regresyjnej. 
Losowanie respondenta może być dokonywany ze zwracaniem lub bez zwracania, ze 
wskazaniem na tę drugą opcję.  
Technika imputacji przez regresję może zostać uogólniona do modelu wielowymiarowego 
pozwalającego na jednoczesne operowanie wieloma zmiennymi zależnymi. Oczywiście, 
zmienne niezależne muszą być wolne od braków danych. 
 
6. Sekwencyjne metody regresyjne 
 
Metody regresyjne (włączając w to „hot deck”) zastępują braki danych każdorazowo w jednej 
zmiennej.  
 
Sekwencyjna metoda imputacji przez regresję oparta jest na następującej logice: 
Powiedzmy, że mamy p zmiennych y = (y

1

, y

2

, ..., y

p

)’, w których chcemy wykonać imputację 

b.d. i q pomocniczych zmiennych z=(z

1

, z

2

, ..., z

q

). 

Zmienne należy uporządkować od tej, która wymaga najmniej imputacji, do tej, która 
wymaga ich najwięcej. Wykonaj imputację y

1

 na podstawie predyktorów z. Wykonaj 

imputację zmiennej y

2

 na podstawie zmiennych z oraz uzupełnionej zmiennej y

1

, itd. Aż do 

y

p

. Wykonaj ponownie imputację każdej zmiennej y

p

 używając wszystkich predyktorów ze 

zbioru z i y (uzupełnionych o imputowane wartości). Powtarzaj ten proces aż do 
ustabilizowania imputowanych wartości. 
 
7. Metoda EM (expectation-maximization
Metoda EM jest oparta na zaawansowanym algorytmie iteracyjnym, który składa się z 
naprzemiennie występujących dwóch kroków (po wykonaniu wstępnych operacji inicjujących 
proces szacowanai): 
•  E – expectation, w którym następuje imputacja braków danych w oparciu o regresję 
•  M – maximization, w którym metodą największej wiarygodności szacowana jest średnia i 

macierz kowariancji na postawie uzupełnionych danych . 

Etapy te powtarzane są aż do osiągnięcia zbieżności.  
 
Przy szacowaniu momentów metodą największej wiarygodności przyjmuje się założenie o 
rozkładzie, któremu podlegają zmienne w populacji. O to założenie oparta jest funkcja 
wiarygodności, która jest maksymalizowana (a raczej jej logarytm). Ocena oparta o metodę 
największej wiarygodności jest hipotetyczną wartością parametru w populacji, która 
maksymalizuje wiarygodność (prawdopodobieństwo) obserwowanej próby, innymi słowy 
bardziej prawdopodobnie od innych generuje próbę, którą aktualnie obserwujemy. 
 
8. Imputacja wielokrotna 
 
Opisane wyżej bardziej zaawansowane metody imputacji, zwłaszcza stochastyczna metoda 
regresyjna i metoda EM pozwalają zmniejszyć obciążenie wynikające z braków danych i są 
lepsze od naiwnego ignorowania ich obecności. Większość analityków traktuje podstawione 
wartości tak jak rzeczywiste, deterministyczne, i stosuje do estymacji  standardowe 
oprogramowanie statystyczne. Takie podejście powoduje niedoszacowanie wariancji 

background image

estymatorów, zwłaszcza w sytuacji dużej liczby braków danych w zmiennej; niedoszacowuje 
więc granice przedziału ufności. 
 
Wielokrotna imputacja jest techniką, która pozwala oszacować dodatkowy przyrost wariancji 
spowodowany imputacją. Polega ona na wykonaniu więcej raz (na ogół 3 lub więcej) 
imputacji: powiedzmy m razy, stosując tę samą lub odmienne techniki imputacji (np. 
stochastyczną regresyjną i EM, co pozwala ocenić wrażliwość wyników na imputację). Na 
przykład w przypadku estymacji średniej obliczamy dla danej zmiennej średnią w każdym 
zbiorze danych uzyskanym w wyniku imputacji; oznaczmy ją jako

Następnie obliczmy 

Wariancję  szacujemy jako: 

Pierwszy składnik sumy po prawej stronie to wariancja wewnątrz uzupełnionych danych, 
drugi zaś to wariancja pomiędzy uzupełnionymi danymi. Drugi składnik czyni zadość temu, 
że imputowane wartości są w rzeczywistości estymowane i dlatego podlegają zmienności z 
próby. 
Dla naszych przykładowych danych wykonana została trzykrotnie imputacja stochastyczną 
metodą regresyjną (przy pomocy SPSS MVA 8.0). Uzyskano następujące wyniki obliczeń. 
 

Powtórzenia (g) 

 

Ogółem 

 

45,1 

46,4 

45,4 

45,6 

var(

24,1 

22,1 

23,3 

23,1 

(

- )

0,340 

0,608 

0,038 

0,987 

 
Ocena średniej wynosi więc 45,6, zaś ocena wariancji rozkładu z próby wynosi: 
23,1 + 4/3 * 1/2 * 0,987 = 23,758 (błąd standardowy = 4,87). 
 
Pamiętajmy: nawet w sytuacji nieignorowalnego braku danych imputacja daje stosunkowo 
niezłe wyniki. Należy jednak oprzeć ją na maksimum informacji o respondentach, także na 
tych zmiennych, których nie będziemy wykorzystywać następnie w analizie, o ile tylko mają 
moc predykcyjną pozwalającą poprawić oszacowanie brakujących danych.  
 
 

background image

II. Ważenie próby 

 
Ważenie próby jest istotnym elementem precyzyjnie realizowanych badań sondażowych. 
Ważenie wykonujemy (o ile wymaga tego sytuacja) z trzech podstawowych powodów, a są 
to: 
•  kompensacja skutków niejednakowego prawdopodobieństwa dostania się do próby; 
•  kompensacja skutków nieuzyskania danych o części  osób (elementów) wylosowanych do 

próby; 

•  chęć lepszego dostosowania rozkładu próby do znanego rozkładu wybranych cech w 

populacji. 

Powraca więc i tutaj zagadnienie braku danych – zajmiemy się nim w dalszej części. 
 
1. Ważenia w celu skompensowania skutków przyjętej metody doboru próby 
 
Przykładowa sytuacja, w której stosujemy ważenie to losowanie próby w ten sposób, że 
losujemy z jednakowym prawdopodobieństwem wyboru gospodarstwa domowe, a następnie 
w każdym gospodarstwie losujemy jedną osobę dorosłą. Powiedzmy że losujemy 20 
gospodarstw domowych z listy 2000. Mają one następującą charakterystykę: 
 
W 8 gospodarstwach domowych jest tylko jedna osoba dorosła i 3 z 8 wylosowanych do 
próby czytają prasę. 
W 6 g.d. są dwie osoby dorosłe i 3 z 6 wylosowanych czytają. 
W 4 g.d. są trzy osoby dorosłe; 3 z wylosowanych 4 czytają. 
W 2 pozostałych g.d. są 4 osoby dorosłe; obie osoby badane czytają. 
 
Prawdopodobieństwo znalezienia się osoby dorosłej w próbie jest równe 
prawdopodobieństwu wylosowania gospodarstwa domowego (tu: 20/2000) wymnożonemu 
przez prawdopodobieństwo wylosowania jednej osoby spośród dorosłych mieszkających we 
wspólnym g.d.  To ostatnie jest odwrotnie proporcjonalne do liczby dorosłych mieszkających 
we wspólnym g.d. Na przykład: dla każdej z osób dorosłych mieszkających w g.d. liczącym 
dwie osoby dorosłe prawdopodobieństwo to wynosi 20/2000 * 1/2 = 1/200. Z tego wynika 
konieczność ustalenia dla takich osób, które znalazły się w próbie, wagi na poziomie 200. W 
podobny sposób ustalamy wagi dla osób z wszystkich pozostałych typów g.d (100 dla g.d. z 
jedną osobą dorosłą, 300 w przypadku 3 itp. Takie wagi zwykle normujemy dzieląc przez je 
przez średnią wartość wagi (tu: 200). Dzięki temu suma wag równa jest liczebności próby, a 
analizy statystyczne dają wyniki dla próby, tyle że wpływ poszczególnych obserwacji na 
sumaryczne statystyki jest proporcjonalny do ich wagi. 
 
Średnia wartość zmiennej zerojedynkowej „Czy czyta?” – która równa jest frakcji czytających 
– wynosi dla próby nieważonej 0,55. Obliczona została przez zsumowanie wartości dla 
wszystkich obserwacji i podzielenie wyniku przez  liczebność próby czyli 20. Nie jest to 
jednak prawidłowo wyliczona ocena średniej w populacji. Należy obliczyć średnią ważoną, 
wg wzoru:  

 

background image

 

Lp.  Liczba osób w 

g.d. 

Czy czyta? 

(1-tak, 0-nie) 

Waga 

Waga 

unormowana 

Czyta x waga 

100 

,5 

,5 

100 

,5 

,5 

100 

,5 

,5 

100 

,5 

,0 

100 

,5 

,0 

100 

,5 

,0 

100 

,5 

,0 

100 

,5 

,0 

200 

1,0 

1,0 

10 

200 

1,0 

1,0 

11 

200 

1,0 

1,0 

12 

200 

1,0 

,0 

13 

200 

1,0 

,0 

14 

200 

1,0 

,0 

15 

300 

1,5 

1,5 

16 

300 

1,5 

1,5 

17 

300 

1,5 

1,5 

18 

300 

1,5 

,0 

19 

400 

2,0 

2,0 

20 

400 

2,0 

2,0 

Suma 

11 

 

20 

13 

Średnia 

0,55 

 

1,0 

0,65 

 

W tabeli powyżej wykonane zostały podstawowe kroki tego obliczenia. Obliczona została 
wartość sumy w liczniku: wynosi ona 13. Suma wag unormowanych wynosi 20 i jest równa 
liczebności próby (zauważmy, że średnia wartość unormowanych wag wynosi 1, co jest 
typowe i gwarantuje, że ich suma równa się liczebności próby). Zatem średnia ważona wynosi 
0,65. Jest to prawidłowo obliczona ocena średniej, uwzględniająca wagi wynikające z 
niejednakowego prawdopodobieństwa wyboru. 
 
Z koniecznością uwzględnienia wag wynikających z przyjętego schematu losowania 
spotykamy się jeszcze w innych typowych sytuacjach. Oto przykłady: 
•  Jednostką badaną jest gospodarstwo domowe (np. interesuje nas posiadanie przez 

gospodarstwo domowe zmywarki do naczyń). Losujemy adres gospodarstwa domowego 
korzystając z list wyborczych. Oczywiście, prawdopodobieństwo znalezienia się 
gospodarstwa domowego w próbie jest proporcjonalne do liczby członków tego g.d. 
wpisanych na listę wyborczą. W takiej sytuacji wagi przypisane gospodarstwom 
domowym, mającym odpowiednio 1, 2 i 3 członków wpisanych na listę, muszą 
pozostawać w relacji 1:0,5:0,333. Oceny parametrów populacji i w tym wypadku oparte 
powinny być na wynikach ważonych. 

•  Czasem schemat losowania zakłada „nadreprezentację” czyli udział w próbie większy od 

udziału w populacji pewnej mniej licznej grupy po to, by np. umożliwić jej opis i  
porównanie z innymi grupami. I w tym wypadku, przy obliczaniu ocen parametrów całej 
populacji należy wykonać ważenie próby przywracające jej takie proporcje, jakie ma 
populacja. Wagi wyliczamy dzieląc frakcję (udział) każdej z grup w populacji przez jej 
udział w próbie. Wszystkie osoby należące do jednej grupy uzyskują tę samą wagę 

background image

wynikającą z tego dostosowania struktury próby. Jeśli zaniechalibyśmy ważenia, to im 
bardziej jest odmienna charakterystyka grupy nadreprezentowanej, tym silniej obciążona 
zostanie   ocena wartości parametrów całej populacji. 

 
Wagi uwzględniamy nie tylko w przypadku ważonego estymatora średniej, lecz także przy 
obliczaniu wszelkich innych estymatorów, np. wariancji: 

 

Algorytmy programu SPSS są (z wyjątkiem nielicznych procedur) przystosowane do 
uwzględniania wag w obliczeniach. 
 
2. Ważenie w celu skompensowania niezrealizowanych pomiarów 
 
Nie wszystkie osoby wylosowane do próby udaje się zbadać. Całkowite braki odpowiedzi 
wynikają z rozmaitych powodów: odmowy, złego stanu zdrowia, długotrwałego wyjazdu i 
wielu innych. W badaniach społecznych zwykle za niezłą uchodzi realizacja próby na 
poziomie 70%. Oczywiście należy dążyć do uzyskania jak najbardziej kompletnego zestawu 
wyników, gdyż żadne operacje statystyczne nie są w stanie zupełnie skompensować braków 
w realizacji pomiarów.  Na ogół jednak pozostajemy z niekompletnie zrealizowaną próbą i 
wówczas możemy wykorzystać ważenie w celu skompensowania brakujących wywiadów czy 
ankiet. 
 
Wagi używane dla kompensacji braków odpowiedzi w sondażach oparte są na założeniu, że 
ci, którzy odpowiedzieli, są próbą losową wszystkich osób w obrębie grup, co do których 
oczekujemy, że ich członkowie są do siebie bardziej podobni, jest to więc założenie że 
mechanizm generujący braki to MAR (patrz wyżej). 
 
Ogólna procedura wygląda następująco: 
•  Zaklasyfikuj obiekty wylosowane do próby do zbioru komórek (zwanych komórkami 

korygującymi braki odpowiedzi – nonresponse adjustment cells), które są utworzone 
przez skrzyżowanie charakterystyk znanych dla całej wylosowanej próby. 

•  Oblicz poziom realizacji w każdej komórce dzieląc liczbę zrealizowanych ankiet przez 

liczbę osób wylosowanych do próby, które zostały zaklasyfikowane do danej komórki. 

•  Oblicz odwrotność poziomu realizacji dla danej komórki — to jest waga, którą należy 

przypisać wszystkim obiektom z tej komórki. Wagi wyliczamy dla wszystkich komórek 
korygujących. 

 
Jeśli obliczyliśmy wcześniej wagi kompensujące niejednakowe prawdopodobieństwo wyboru, 
to całkowita waga każdego elementu w próbie w

= w

1j

 * w

2j

, gdzie w

1j

 to waga ze względu na 

niejednakowe prawdopodobieństwo (przed unormowaniem), a w

2j

 to waga ze względu na 

braki odpowiedzi. Całkowitą wagę każdego respondenta normujemy dzieląc ją przez średnią 
wagę dopiero na samym końcu. 
 
Stosowane są także bardziej zaawansowane techniki ważenia korygujące ze względu na braki 
odpowiedzi. Należy do nich np. ważenie ze względu na skłonność do udzielania odpowiedzi 
(response propensity weighting): 
•  Budujemy model predykcyjny, w którym zmienną zależną jest udzielenie 

wywianu/wypełnienie ankiety (1) lub  brak danych (0); zmienną zależną można też 

background image

rozbudować, wykorzystując bardziej szczegółowe kategorie, dzielące braki odpowiedzi 
według głównych przyczyn (np. odmowa, niemożność nawiązania kontaktu) 

•  Przy pomocy programu SPSS AnswerTree  znajdujemy predyktory naszej zmiennej 

zależnej i w oparciu o interakcje między nimi budujemy (a raczej uzyskujemy w wyniku 
pracy AnswerTree) komórki korygujące.  

•  Obliczamy wagi jako odwrotność poziomu realizacji w komórce. 
•  Przy tej metodzie wagi mogą charakteryzować się dużym rozproszeniem; w celu 

zredukowania tego rozproszenia można tworzyć większe klasy i używać średniej wartości 
skłonności do odpowiedzi jako podstawy ważenia (chodzi o zredukowanie spadku 
precyzji ocen na skutek ważenia). Stosuje się także arbitralne obcinanie ad hoc zbyt 
dużych wag. 

 
Wybór komórek klasyfikacyjnych jest często w praktyce ograniczony, gdyż zmienne, których 
chcemy użyć przy ich definiowaniu muszą zawierać informacje zarówno dla respondentów 
jak i nierespondentów. Należy więc z góry planować ważenie i gromadzić dane o 
wylosowanych osobach, które mogą być wykorzystane w ważeniu. Kluczowe są takie 
zmienne, które są dobrymi predyktorami udziału bądź nie w badaniu, a także takie, które są 
silnymi predyktorami ważnych zmiennych mierzonych w badaniu. 
Źródła danych dla korekty: 
•  Dane ze źródeł publicznych (administracyjnych) 
•  Obserwacje ankietera (w przypadku wywiadu osobistego) 
•  Informacje o miejscu zamieszkania (o jak najbliższym sąsiedztwie) 
•  Dane o ankieterze 
•  Nota o interakcji respondent-ankieter 

 
3. Poststratyfikacja  
 
Poststratyfikacja jest dość popularna i często w ogóle utożsamiana z ważeniem. Polega na 
dopasowaniu rozkładu próby do znanego rozkładu populacji. Jeśli wcześniej wykonaliśmy 
ważenie kompensujące niejednakowe prawdopodobieństwo wyboru (w

1

) i braki odpowiedzi 

(w

2

), to wagi poststratyfikacyjne w

3j

 mogą być użyte jako składnik całkowitej wagi: 

w

= w

1j

 * w

2j

 * w

3j 

 
Załóżmy, że po wykonaniu ważenia w

1 

i w

2

 rozkład płci w próbie nie zgadza się z rozkładem 

w populacji.  
 
Płeć 

L. próby 

Populacja 

Udział w 
próbie 

Udział w 
populacji 

Waga 

Mężczyzna 

1620 

68057 

45% 

47,15% 

1,05 

Kobieta 

1980 

76288 

55% 

52,85% 

0,96 

 
W przypadku poststratyfikacji wagi jednostek są korygowane w górę lub w dół tak by rozkład 
sum wag w wybranych klasach zgadzał się z rozkładem w populacji. Komórki do ważenia są 
definiowane zwykle przez skrzyżowanie kategorii kilku zmiennych, najlepiej takich które są 
ważnymi predyktorami wyników badania. Na ogół wykorzystuje się zmienne demograficzne, 
taki jak: grupa wiekowa, płeć, region, wykształcenie, podział miasto/wieś. Można 
wykorzystywać tylko takie kombinacje kategorii dla których dostępne są dane o populacji 
(zwykle dane GUS). Wagi uzyskujemy przez podzielenie udziału komórki klasyfikacyjnej w 
populacji przez jej udział w próbie. W mniejszych próbach mogą wystąpić puste komórki 

background image

klasyfikacyjne; wówczas należy łączyć je z komórkami o najbardziej zbliżonej 
charakterystyce (wymaga to na ogół wiedzy i namysłu).  
 
Są także metody szacowania wag poststratyfikacyjnych w sytuacji, gdy nie znamy liczebności 
komórek klasyfikacyjnych lecz jedynie rozkłady brzegowe poszczególnych cech 
klasyfikacyjnych. Służy do tego iteracyjne dopasowanie proporcjonalne (iterative 
proportional fitting
), które można wykonać przy pomocy procedury GENLOG w SPSS 
Advanced Statistics; wykracza to poza zakres tego kursu (dokładnie opisany przykład 
znajduje się w dokumentacji modułu Advanced Statistics). 
 
4. Wykorzystanie ważenia w analizie danych 
 
Ważenie jest na ogół koniecznym elementem opisu statystycznego wyników badań. Czasmi 
bywa tak, że oszacowania w oparciu o estymator ważony i nieważony są niemal takie same. 
Wówczas można zadowolić się oceną nieważoną. Dzieje się tak wówczas, gdy wagi są 
nieskorelowane z analizowaną zmienną. Jeśli nawet ma to miejsce w przypadku jednych 
zmiennych, w przypadku innych efekt ważenia może być istotny. W takich wypadkach 
pominięcie prowadzi do obciążenia błędem oszacowań parametrów na podstawie próby. 
Ponieważ dysponujemy jedną zmienną ważącą, która jest używana we wszystkich 
obliczeniach, determinuje to prowadzenie analizy ważonej. Naprzemienne używanie 
wyników ważonych i nieważonych może wprowadzać zamieszanie przy prezentacji wyników 
badań i prowadzić do niespójnych wyników. Dla celów opisowych powinniśmy więc na ogół 
używać wag przygotowanych w omówiony wyżej sposób. 
 
W przypadku analizy danych nie zawsze jednak korzystanie z wag jest konieczne. Analitycy 
porównują wyniki analiz dokonywanych na próbie ważonej i nieważonej i mogą zdecydować 
o użyciu wyników nieważonych, jeśli różnice są niewielkie. 
 
SPSS pozwala włączyć wagi umieszczone w jednej zmiennej przy pomocy polecenia: 
Weight by nazwa zmiennej ważącej
 
Polecenie to dostępne jest z menu Data > Weight Cases, w oknie edytora danych. 
 
5. Konsekwencje stosowania wag dla precyzji ocen parametrów 
 
Stosowanie wag nie pozostaje bez wpływu na precyzję estymacji, choć zmniejsza obciążenie 
jej wyników systematycznym błędem. Wagi mogą zwiększyć wariancję ocen. Dla średnich 
utratę precyzji na skutek wzrostu wariancji (który przekłada się na wzrost wartości błędu 
standardowego i zwiększenie przedziału ufności) można wyrazić jako: 
 

 

 

Utrata precyzji L może być niewielka, np. 0,01 lub 0,02, lub znacznie większa (np. większa 
od 0,5). 
 
 
Literatura 
Przy przygotowaniu materiału wykorzystano m.in.: 

background image

Little R.J.A., Schenker N., Missing Data, in: Arminger, Clogg, Sobel (eds.), Handbook for 

Statistical Modelling in the Social and Behavioral Sciences, New York 1994: Plenum 

Lepkowski J., Item Missing Data, Weighting — notatki do wykładu z Analysis of Survey 

Data II, ISR, The University of Michigan 1997. 

Lttle R.J.A./Ragunathan T., Statistical Analysis with Missing Data — notatki do wykładów 

ISR, The University of Michigan 1997.