Jarosław Górniak Analiza w sytuacji braków danych i ważenie próby I. Braki danych i imputacja Jednym z podstawowych problemów w badaniach sondażowych jest występowanie zniekształceń na skutek braków danych. Braki te mogą być dwojakiego rodzaju: 1. Całkowity brak danych o wylosowanej jednostce, wynikający z niepowodzenia w uzyskaniu od niej odpowiedzi na cały kwestionariusz. Może to wynikać z odmowy udziału w badaniu, z niemożliwości nawiązania kontaktu lub długotrwałych okoliczności, które stały na przeszkodzie w zrealizowaniu badania (choroba, długotrwały wyjazd itp.). Zwykle dysponujemy tylko niewielką liczbą danych, które dostępne były na poziomie operatu lub mogą być dostarczone przez ankietera poprzez wypełnienie specjalnej karty niezrealizowanego wywiadu. Remedium na zniekształcenia wywołane całkowitym brakiem danych jest ważenie próby. 2. Brak odpowiedzi na pojedyncze pytania kwestionariusza w przypadku osób, które zgodziły się wziąć udział w badaniu (udzieliły wywiadu, odesłały ankietę pocztową). Może być spowodowany odmową udzielenia odpowiedzi (np. na pytanie o dochody), nieznajomością odpowiedzi na określone pytanie, błędami ankieterów lub niemożliwymi do zweryfikowania błędami we wprowadzaniu danych. Kompletne obserwacje Braki danych w X X pojedynczych X X X pozycjach X X X Niezrealizowane X X X X X X X wywiady/ankiety X X X X X X X Specjalny przypadek stanowią badania panelowe, gdy osoba, która poprzednio uczestniczyła w badaniu, nie bierze udziału w danej realizacji. Wówczas dysponujemy danymi z poprzednich badań, które mogą być wykorzystane w kompensacji braków danych. Braki danych mogą poważnie zniekształcić obraz ogólnej zbiorowości objętej reprezentacyjnym badaniem sondażowym. Wielu badaczy i zleceniodawców badań ma świadomość wpływu sposobu doboru próby na reprezentatywność wyników badań, a więc ich jakość z punktu widzenia odbiorcy. Niestety, zbyt mała jest świadomość wpływu braków danych na tę jakość lub nawet jeśli istnieje, nie bardzo wiadomo jak zaradzić konsekwencjom występowania braków danych w wynikach badań. Najczęstszym sposobem postępowania z brakami danych jest ich... ignorowanie. Sporządza się tabele, w których obserwacje z brakami danych są wyłączane z podstawy analizy. Już w przypadku prostych tabel krzyżowych dwóch zmiennych często bywa tak, że 10-20% obserwacji eliminowanych jest z obliczeń na skutek wystąpienia w jednej bądz drugiej zmiennej braku danej. W tabelach czasami analitycy umieszczają odrębną kategorię brak danych lub nie wiem/brak odpowiedzi , zwykle w celu utrzymania stałej bazy obliczeń niż po to, by ulepszyć jakość analizy. W praktyce oznacza to przerzucenie na odbiorcę takich tabel konieczności zdecydowania, czy należy interpretować procenty liczone w stosunku do całej próby, wraz z brakami odpowiedzi, czy też raczej w stosunku do tych, którzy udzielili istotnych ( ważnych ) odpowiedzi na zadane pytania. Oczywiście, są sytuacje, kiedy lepiej jest interpretować procenty liczone w stosunku do wszystkich badanych (np. zasięg percepcji reklamy); są też takie, w przypadku których lepiej ustalać udziały w oparciu o ważne odpowiedzi (np. udział marki w rynku zoperacjonalizowany jako wskazanie dotyczące ostatniego zakupu produktu danej klasy). W warunkach występowania braków danych jeszcze trudniejszy problem stanowią jednak rozmaite miary syntetyczne, od statystyk opisowych (np. średnia) po miary siły związku. Problem narasta w przypadku wielowymiarowych metod analizy, gdy w grę wchodzi wiele zmiennych, które mogą zawierać braki danych w różnych obserwacjach. Jakie reakcje na braki danych są możliwe? Spróbujmy je wymienić i wskazać na ich konsekwencje. Zajmijmy się na początek problemem sytuacją nr 2 czyli brakami danych rozsianych po różnych pozycjach w analizowanym zbiorze danych (do kompensacji niezrealizowanych ankiet wrócimy przy okazji ważenia). Przyjmijmy w przykładach, że mamy do czynienia ze zmiennymi ilościowymi (np. ostatnio zakupiona ilość produktu X, wielkość opakowania w gramach itp.); dla zmiennych jakościowych analizowane będą inne statystyki, jednak istota problemu pozostaje niezmieniona. Ogólnie, konsekwencje przyjęcia różnych sposobów postępowania w przypadku braków zależą od tego, jaki mechanizm generuje braki danych. Prof. D.B. Rubin sformułował jako pierwszy (w 1976 r.) następujący podział tych mechanizmów: " MCAR (Missing Completely At Random) gdy brak danych jest całkowicie losowy; " MAR (Missing At Random) gdy brak danych jest losowy w obrębie kategorii wyznaczonych przez inne cechy objęte badaniem; " NMAR (Not Missing At Random) nielosowe braki danych gdy prawdopodobieństwo wystąpienia braku w przypadku danej zmiennej jest związane z poziomem tej zmiennej; zwane również nieignorowalnymi brakami danych. Żeby lepiej zrozumieć ten podział załóżmy, że zrealizowano badanie ankietowe w którym zadano tylko dwa pytania: od wykształcenie (liczba ukończonych klas/lat) i o dochód. Załóżmy, że wszyscy odpowiedzieli na pytanie o wykształcenie, ale w pytaniu o dochód pojawiły się braki odpowiedzi. Jeśli prawdopodobieństwo wystąpienia braku odpowiedzi na pytanie o dochód jest niezależne zarówno od wykształcenia jak i od dochodu, wówczas mechanizm jest MCAR: respondenci, którzy odpowiedzieli, są próbą losową wszystkich respondentów. Jeśli jednak ci, którzy mają wyższe wykształcenie mniej chętnie informują o dochodach, wówczas mechanizm MCAR przestaje wyjaśniać tę sytuację. Jeśli w każdej grupie wykształcenia prawdopodobieństwo wystąpienia braku danej w pytaniu o dochód jest niezależne od wielkości dochodu, to działa mechanizm MAR. Jeśli jednak prawdopodobieństwo nieuzyskania odpowiedzi na pytanie o dochód zmienia się wraz ze zmianą poziomu dochodu, wówczas mamy do czynienia z nielosowym mechanizmem generowania braków danych, lub też nieignorowalnym brakiem danych. Nawet w tym ostatnim przypadku, najtrudniejszym do obejścia można uzyskać dobre wyniki poprzez odpowiednie zabiegi na danych. A) Wyłączanie obserwacji z brakami danych analiza kompletnych obserwacji Czy ignorując braki danych (wykluczając obserwacje z brakami danych) naprawdę nic nie robimy? Nic nie manipulujemy przy danych? Wielu osobom tak się wydaje, choć w rzeczy samej sprawa nie jest tak prosta. Zadajmy sobie pytanie, czy możemy oczekiwać, że osoby, dla których nie mamy danych, są próbą losową z tej samej populacji (mającej takie same charakterystyki) co osoby, które udzieliły nam odpowiedzi? Ignorując obserwacje z brakami danych odpowiadamy twierdząco. W przeciwnym razie bowiem, tzn. jeśli prawdopodobieństwo wystąpienia braku danych zależy od cech respondentów (a w konsekwencji np. średnia ilość produktu X zakupiona ostatnio jest inna wśród tych, którzy odpowiedzieli, i tych, którzy nie odpowiedzieli) to wyłączenie z podstawy obliczenia części obserwacji obciąży systematycznym błędem ocenę parametru badanej populacji (np. oszacowanie średniej ilości kupowanej w przypadku produktu X w całej populacji nabywców). Jeśli ci, którzy nie odpowiedzieli na pytanie, są przeciętnie tacy sami jak ci, którzy odpowiedzieli, to wówczas ich wyłączenie nie spowoduje obciążenia oszacowania średniej (ani odchylenia standardowego). Gdy obliczamy macierz korelacji (kowariancji) lub wykonujemy inną analizę wikłającą wiele zmiennych, której elementem jest obliczanie istotności, siły związku lub odległości między parami zmiennych (np. analiza czynnikowa, analiza skupień, regresja, modelowanie strukturalne) wyłączanie obserwacji z brakami danych może następować w dwojaki sposób: " Usuwanie obserwacjami (casewise); jeśli w którejkolwiek ze zmiennych użytych w analizie pojawia się brak danej cała obserwacja wyłączana jest z obliczeń. " Usuwanie parami (pairwise); statystyki obliczane są w oparciu o wszystkie informacje dostępne dla każdej pary zmiennych z osobna. W wyniku zastosowania tej metody każda korelacja czy odległość może być obliczona w oparciu o inną próbę. Oczywiście, te dwie metody dotyczą także konstruowania podstawy do obliczania tabeli zestawiającej średnie, odchylenia standardowe czy inne statystyki opisujące pojedyncze zmienne. Zagadnienie to ilustruje poniższy diagram. A B C 1 O O O 2 X O O 3 O X O 4 O O X 5 X X O 6 O X X 7 O O O X oznacza brak danej. O oznacza obecność danej. W przypadku obliczenia tabeli porównawczej średnich i odchyleń standardowych dla zmiennych A, B i C możemy przyjąć za podstawę obserwacje 1 i 7 usuwanie obserwacjami co gwarantuje wykonanie analizy na tej samej próbie. Możemy też w przypadku zmiennej A oprzeć obliczenia na obserwacjach 1,3,4,6,7; w przypadku zmiennej B na obserwacjach 1,2,4 i 7; w przypadku zmiennej C na obserwacjach 1,2,3,5,7. Za każdym razem skład próby będzie zatem inny, choć z drugiej strony wykorzystamy wszystkie dostępne dane. Podobnie, w przypadku obliczania macierzy korelacji przy usuwaniu b.d. parami użyjemy: - dla pary A,B obserwacji 1,4 i 7; - dla pary B,C obserwacji 1,2 i 7; - dla pary A,C obserwacji 1,3 i 7. W przypadku usuwania obserwacjami wszystkie współczynniki obliczone zostaną w oparciu o obserwacje 1 i 7. O ile mamy do czynienia z mechanizmem MCAR zastosowanie techniki usuwania parami nie pociąga za sobą nieporównywalności obliczanych statystyk, gdyż każda z podprób obejmujących kompletne dane jest próbą losową z całej próby objętej badaniem. Zyskujemy natomiast liczniejszą podstawę dokonywania szacunków. Mechanizm MCAR jest jednak w przypadku badań społecznych zjawiskiem dość rzadkim, chyba że pomiarem i analizą objęty jest szczególny zestaw zmiennych. Dlatego usuwanie parami zwykle nie jest zalecane, chyba że usuwanie obserwacjami prowadzi do radykalnego zmniejszenia liczebności analizowanej próby. Dyskusja ta dotyczy jednak wyboru mniejszego zła spośród największych, gdyż także usuwanie obserwacjami prowadzi do zniekształceń informacji o poszczególnych cechach wówczas, gdy mechanizm nie jest MCAR. W przypadku każdej analizy wykonanej w oparciu o kompletne obserwacje, a więc przy usunięciu (zignorowaniu) braków danych, przyjmujemy bowiem implicite założenie o tym, że obserwacje z kompletnymi danymi są próbą losową z całej badanej próby. Tylko w sytuacji, gdy to założenie jest prawdziwe, nie manipulując przy danych, tzn. ignorując obserwacje z brakami danych, rzeczywiście przy nich nie manipulujemy z punktu widzenia szacowania parametrów populacji generalnej. Analiza kompletnych obserwacji jest faktycznie metodą kompensacji braków danych przez przypisanie w danej zmiennej wszystkim brakom danych wartości średniej dla tej zmiennej. B) Zastępowanie braków danych imputacja W zaawansowanych metodologicznie badaniach sondażowych używa się raczej innych mechanizmów kompensacji, opartych na łagodniejszych założeniach o mechanizmie generowania braków danych niż MCAR. W sytuacji gdy pozwalają na to dane (rozkłady cech w populacji) wykorzystuje się estymację modeli metodą największej wiarygodności, dostosowaną do występowania braków danych (tu nie będziemy się tym zagadnieniem zajmować; w szczególności powstały propozycje dotyczące analizy w sytuacji nieignorowalnych braków danych, jednak dyskusje statystyków nad tym zagadnieniem ciągle trwają). Typowym sposobem radzenia sobie z brakami danych jest jednak zastępowanie ich wartościami szacunkowymi czyli narzucanie wartości, dla którego przyjmiemy termin (pozwólmy sobie na termin techniczny, mimo że jest anglicyzmem) imputacja. Imputacja polega na przypisaniu wartości obserwacjom w miejsce braków danych. Przede wszystkim używamy jej w przypadku występowania braków danych w poszczególnych pozycjach zbioru danych, rzadziej w przypadku braku części danych (np. na skutek odpadnięcia w próbie panelowej). W przypadku analizy pojedynczych zmiennych w próbie, w której występuje niewielka liczba braków danych, często możemy poprzestać na analizie kompletnych obserwacji (usuwanie obserwacjami) bez wprowadzania dużych zniekształceń. W przypadku analiz wielowymiarowych, gdy braki danych rozproszone są po różnych obserwacjach, usuwanie obserwacjami łatwo może doprowadzić do radykalnego zmniejszenia efektywnej liczebności próby i obciążenia wyników analizy. Czasem jedna zmienna, istotna merytorycznie (np. dochód), może zawierać szczególnie dużo braków danych i prowadzić do utraty informacji zawartych w innych, bardziej kompletnych zmiennych w sytuacji ich łącznej analizy. W przypadku użycia wyłącznie kompletnych obserwacji obliczona ocena średniej lub frakcji może być obciążona (zobaczymy to w naszym przykładzie). Zalety i wady imputacji (Lepkowski 1997) Zalety imputacji: " Ułatwia pracę analitykowi. " Analizy są spójne, gdyż nie ma potrzeby usuwania obserwacji. " Upraszcza prezentację wyników sondażu (np. nie ma potrzeby umieszczania w tabelach wierszy lub kolumn reprezentujących braki danych). " Zachowuje wszystkie dostępne dane co może pozwolić na uzyskanie bardziej precyzyjnych ocen parametrów w modelach wielowymiarowych. Wady imputacji (zwłaszcza prostszych technik): " Niektóre formy imputacji zniekształcają rozkład (średnią, wariancję) zmiennych poddanych imputacji i tłumią współzależności. Dotyczy to zwłaszcza mechanicznego zastępowania przez średnią. " Prowadzi do niedoszacowania wariancji, gdyż podstawiane wartości traktowane są przez program statystyczny tak samo jak pełnowartościowe dane. " Trudno jest przekonać analityków do stosowania imputacji. Analitycy wolą nie używać sfabrykowanych danych. Ale... czy lepiej fabrykować je przy pomocy analizy opartej na kompletnych obserwacjach przy założeniu MCAR, czy też może fabrykować je przy założeniu starannie dobranego modelu? Metody imputacji: 1. Podstawianie średniej Przyjmijmy, że wylosowana została (z jednakowymi prawdopodobieństwami wyboru) z pewnej populacji próba 18 respondentów, z których 14 ujawniło swoje dochody, a 4 nie (rzeczywiste a nieujawnione dochody zostały wzięte w nawias kwadratowy). Mamy kompletne dane o płci i wykształceniu. lp. Płeć Wykszt. Dochód g.d. (X1i) W latach ( w 100 PLN) (X2i) (Yi) 1 M 9 23 2 M 12 [45] 3 M 12 43 4 M 11 [67] 5 M 16 75 6 M 16 88 7 M 12 35 8 M 12 42 9 K 14 67 10 K 15 56 11 K 12 28 12 K 10 [12] 13 K 12 31 14 K 12 35 15 K 12 30 16 K 18 66 17 K 15 72 18 K 12 [38] Podstawianie ogólnej średniej polega na zastąpieniu braków danych średnią obliczoną z odpowiedzi, które zostały udzielone. Jest to równoważne ze zignorowaniem braków danych (analizą kompletnych obserwacji). Zatem w naszym przykładzie y2 = y4 = y12 = y18 = 49,9. Ten rodzaj imputacji zniekształca rozkład tworząc wierzchołek na średniej. W przypadku takiej imputacji: " średnia jest zachowana; " odchylenie standardowe jest niedoszacowane; " liczebność próby jest zawyżona. W przypadku zmiennych jakościowych, przy niewielkiej liczbie braków danych stosuje się podstawianie dominanty lub mediany. 2. Średnia ogólna plus błąd losowy Jeśli chcemy odzwierciedlić w imputacji zmienność obserwowanych wartości, można przy zastępowaniu poszczególnych braków danych dodać do średniej błąd losowy zwykle różnicę pomiędzy wartością wylosowaną spośród ważnych obserwacji a średnią lub wartość wylosowaną z rozkładu normalnego o średniej równej średniej ważnych obserwacji i wariancji równej ich wariancji. Błąd standardowy nadal jest zaniżony na skutek zawyżenia efektywnej liczebności próby. Zachowane jest odchylenie standardowe. Taka imputacja jest lepsza od zastępowania średnią. Jednak pozostaje bardzo istotny problem: informacja zawarta w innych zmiennych nie jest wykorzystywana w imputacji, co prowadzi do zniekształcenia (destrukcji) korelacji pomiędzy uzupełnioną zmienną a innymi zmiennymi. Tracimy także efektywność wskutek niewykorzystania tych korelacji. 3. Średnia grupowa (plus błąd losowy) Jakość imputacji można poprawić podstawiając za b.d. średnią dla klasy obserwacji. W naszym przykładzie: dla mężczyzn y2 = y4 = 52; dla kobiet y12 = y18 =48,1. Można również uzupełnić średnią o element stochastyczny zgodnie z regułą omówioną wyżej, z tym że w każdej klasie z osobna. Prowadzi to do pewnej poprawy dokładności imputacji pod warunkiem homogeniczności klas z punktu widzenia uzupełnianej zmiennej. 4. Hot deck Często wykorzystywaną metodą imputacji jest tzw. hot deck . Występuje w dwóch odmianach: " sekwencyjnej " hierarchicznej. Sekwencyjny hot deck ilustruje poniższy przykład. Z taką techniką związane są pewne problemy: " wielokrotni dawcy " problem z granicami przy sortowaniu (np. przejście od mężczyzn do kobiet) " słaba korelacja wewnątrz grup. Główne zalety to: łatwość wykonania i prostota, nie wymaga założeń dotyczących rozkładów i możliwość wykonania przy jednym sortowaniu dla całego zestawu skorelowanych zmiennych. Sekwencyjny hot deck lp. Płeć Wykszt. Dochód g.d. (X1i) W latach ( w 100 PLN) (X2i) (Yi) Rzeczywista wartość Gorąca (Hot) Ostateczna wartość wartość 1 M 9 23 511) 23 4 M 11 [67] 23 23 2 M 12 [45] 23 23 3 M 12 43 23 43 7 M 12 35 43 35 8 M 12 42 35 42 5 M 16 75 42 75 6 M 16 88 75 88 12 K 10 [12] 88 88 11 K 12 28 88 28 13 K 12 31 28 31 14 K 12 35 31 35 15 K 12 30 35 30 18 K 12 [38] 30 30 9 K 14 67 30 67 10 K 15 56 67 56 17 K 15 72 56 72 16 K 18 66 72 66 1) Tzw. zimna wartość , losowo wybrana na wypadek braku danej w pierwszej obserwacji. Metodę sekwencyjną można istotnie ulepszyć przy pomocy techniki hierarchicznej. W przypadku tej techniki respondenci i nierespondenci są zgrupowani w dużą liczbę klas opartych o wiele potencjalnych zmiennych sortujących . Wybiera się losowo dawcę w każdej klasie, a w razie potrzeby łączy się klasy ze sobą by uzyskać dopasowanie. Wykształcenie <średnie (<12 klas) Średnie <12;15> Wyższe (>=16 klas) Płeć R NR R NR R NR Mężczyzna 23 [67] 43 [45] 75 35 88 42 Kobieta [12] 28 [38] 67 31 56 35 66 30 72 Powtórzmy podstawową ideę: zaklasyfikuj Respondentów i Nierespondentów do komórek bazujących na pewnej mierze bliskości (np. przynależność do tej samej komórki zdefiniowanej przez kategorie zmiennych klasyfikujących, odległość Mahalanobisa, odległość między teoretycznymi wartościami zmiennej podlegającej imputacji), następnie losowo wybierz respondenta z tego zestawu i podstaw jego wartość w miejsce braku danej u nierespondenta. Nadal pozostaje problemem niedoszacowanie błędu standardowego. Potrzebna jest także duża próba, by uzyskać dobre dopasowania. Można użyć tylko ograniczonego zbioru zmiennych. 5. Metoda regresyjna Metoda regresyjna może być traktowana w pewnym sensie jako uogólnienie metody hot deck i podstawiania średniej. Metoda ta występuje w odmianie deterministycznej i stochastycznej. W przypadku odmiany deterministycznej budujemy model regresji w oparciu o dostępne dane, a następnie podstawiamy w miejsce brakujących danych wartości teoretyczne, przewidywane na podstawie modelu regresji. W przypadku ilościowej zmiennej zależnej (imputowanej) używamy regresji liniowej. W przypadku jakościowej zmiennej zależnej używamy regresji logistycznej. W przypadku zmiennej dychotomicznej możemy użyć również regresji logistycznej, ale dobre wyniki daje również regresja liniowa. W naszym przykładzie powyżej, przy podstawianiu wartości w zmiennej dochód g.d. równanie regresji wygląda następująco: yi = 66,6 + 12,2*mężczyzna 55,8 *posiada wykształcenie mniej niż średnie 37,0*posiada wykształcenie średnie Podstawiając stosowne wartości do równania możemy wyliczyć: y2 = 51,3 y4 = 25,0 y12= 21,1 y18= 47,3 Można dodać losową resztę do tych czterech imputowanych wartości: " wylosowaną z rozkładu normalnego o tej samej średniej i odchyleniu standardowym co wartości przewidywane lub " losując respondenta, który podał swój dochód i obliczając różnicę pomiędzy jego wartością obserwowaną i przewidywaną na zmiennej dochód g.d. . W ten sposób imputację wykonujemy w oparciu o stochastyczną odmianę metody regresyjnej. Losowanie respondenta może być dokonywany ze zwracaniem lub bez zwracania, ze wskazaniem na tę drugą opcję. Technika imputacji przez regresję może zostać uogólniona do modelu wielowymiarowego pozwalającego na jednoczesne operowanie wieloma zmiennymi zależnymi. Oczywiście, zmienne niezależne muszą być wolne od braków danych. 6. Sekwencyjne metody regresyjne Metody regresyjne (włączając w to hot deck ) zastępują braki danych każdorazowo w jednej zmiennej. Sekwencyjna metoda imputacji przez regresję oparta jest na następującej logice: Powiedzmy, że mamy p zmiennych y = (y1, y2, ..., yp) , w których chcemy wykonać imputację b.d. i q pomocniczych zmiennych z=(z1, z2, ..., zq). Zmienne należy uporządkować od tej, która wymaga najmniej imputacji, do tej, która wymaga ich najwięcej. Wykonaj imputację y1 na podstawie predyktorów z. Wykonaj imputację zmiennej y2 na podstawie zmiennych z oraz uzupełnionej zmiennej y1, itd. Aż do yp. Wykonaj ponownie imputację każdej zmiennej yp używając wszystkich predyktorów ze zbioru z i y (uzupełnionych o imputowane wartości). Powtarzaj ten proces aż do ustabilizowania imputowanych wartości. 7. Metoda EM (expectation-maximization) Metoda EM jest oparta na zaawansowanym algorytmie iteracyjnym, który składa się z naprzemiennie występujących dwóch kroków (po wykonaniu wstępnych operacji inicjujących proces szacowanai): " E expectation, w którym następuje imputacja braków danych w oparciu o regresję " M maximization, w którym metodą największej wiarygodności szacowana jest średnia i macierz kowariancji na postawie uzupełnionych danych . Etapy te powtarzane są aż do osiągnięcia zbieżności. Przy szacowaniu momentów metodą największej wiarygodności przyjmuje się założenie o rozkładzie, któremu podlegają zmienne w populacji. O to założenie oparta jest funkcja wiarygodności, która jest maksymalizowana (a raczej jej logarytm). Ocena oparta o metodę największej wiarygodności jest hipotetyczną wartością parametru w populacji, która maksymalizuje wiarygodność (prawdopodobieństwo) obserwowanej próby, innymi słowy bardziej prawdopodobnie od innych generuje próbę, którą aktualnie obserwujemy. 8. Imputacja wielokrotna Opisane wyżej bardziej zaawansowane metody imputacji, zwłaszcza stochastyczna metoda regresyjna i metoda EM pozwalają zmniejszyć obciążenie wynikające z braków danych i są lepsze od naiwnego ignorowania ich obecności. Większość analityków traktuje podstawione wartości tak jak rzeczywiste, deterministyczne, i stosuje do estymacji standardowe oprogramowanie statystyczne. Takie podejście powoduje niedoszacowanie wariancji estymatorów, zwłaszcza w sytuacji dużej liczby braków danych w zmiennej; niedoszacowuje więc granice przedziału ufności. Wielokrotna imputacja jest techniką, która pozwala oszacować dodatkowy przyrost wariancji spowodowany imputacją. Polega ona na wykonaniu więcej raz (na ogół 3 lub więcej) imputacji: powiedzmy m razy, stosując tę samą lub odmienne techniki imputacji (np. stochastyczną regresyjną i EM, co pozwala ocenić wrażliwość wyników na imputację). Na przykład w przypadku estymacji średniej obliczamy dla danej zmiennej średnią w każdym zbiorze danych uzyskanym w wyniku imputacji; oznaczmy ją jako . Następnie obliczmy . Wariancję szacujemy jako: Pierwszy składnik sumy po prawej stronie to wariancja wewnątrz uzupełnionych danych, drugi zaś to wariancja pomiędzy uzupełnionymi danymi. Drugi składnik czyni zadość temu, że imputowane wartości są w rzeczywistości estymowane i dlatego podlegają zmienności z próby. Dla naszych przykładowych danych wykonana została trzykrotnie imputacja stochastyczną metodą regresyjną (przy pomocy SPSS MVA 8.0). Uzyskano następujące wyniki obliczeń. Powtórzenia (g) Ogółem 1 2 3 45,1 46,4 45,4 45,6 24,1 22,1 23,3 23,1 var( ) ( - )2 0,340 0,608 0,038 0,987 Ocena średniej wynosi więc 45,6, zaś ocena wariancji rozkładu z próby wynosi: 23,1 + 4/3 * 1/2 * 0,987 = 23,758 (błąd standardowy = 4,87). Pamiętajmy: nawet w sytuacji nieignorowalnego braku danych imputacja daje stosunkowo niezłe wyniki. Należy jednak oprzeć ją na maksimum informacji o respondentach, także na tych zmiennych, których nie będziemy wykorzystywać następnie w analizie, o ile tylko mają moc predykcyjną pozwalającą poprawić oszacowanie brakujących danych. II. Ważenie próby Ważenie próby jest istotnym elementem precyzyjnie realizowanych badań sondażowych. Ważenie wykonujemy (o ile wymaga tego sytuacja) z trzech podstawowych powodów, a są to: " kompensacja skutków niejednakowego prawdopodobieństwa dostania się do próby; " kompensacja skutków nieuzyskania danych o części osób (elementów) wylosowanych do próby; " chęć lepszego dostosowania rozkładu próby do znanego rozkładu wybranych cech w populacji. Powraca więc i tutaj zagadnienie braku danych zajmiemy się nim w dalszej części. 1. Ważenia w celu skompensowania skutków przyjętej metody doboru próby Przykładowa sytuacja, w której stosujemy ważenie to losowanie próby w ten sposób, że losujemy z jednakowym prawdopodobieństwem wyboru gospodarstwa domowe, a następnie w każdym gospodarstwie losujemy jedną osobę dorosłą. Powiedzmy że losujemy 20 gospodarstw domowych z listy 2000. Mają one następującą charakterystykę: W 8 gospodarstwach domowych jest tylko jedna osoba dorosła i 3 z 8 wylosowanych do próby czytają prasę. W 6 g.d. są dwie osoby dorosłe i 3 z 6 wylosowanych czytają. W 4 g.d. są trzy osoby dorosłe; 3 z wylosowanych 4 czytają. W 2 pozostałych g.d. są 4 osoby dorosłe; obie osoby badane czytają. Prawdopodobieństwo znalezienia się osoby dorosłej w próbie jest równe prawdopodobieństwu wylosowania gospodarstwa domowego (tu: 20/2000) wymnożonemu przez prawdopodobieństwo wylosowania jednej osoby spośród dorosłych mieszkających we wspólnym g.d. To ostatnie jest odwrotnie proporcjonalne do liczby dorosłych mieszkających we wspólnym g.d. Na przykład: dla każdej z osób dorosłych mieszkających w g.d. liczącym dwie osoby dorosłe prawdopodobieństwo to wynosi 20/2000 * 1/2 = 1/200. Z tego wynika konieczność ustalenia dla takich osób, które znalazły się w próbie, wagi na poziomie 200. W podobny sposób ustalamy wagi dla osób z wszystkich pozostałych typów g.d (100 dla g.d. z jedną osobą dorosłą, 300 w przypadku 3 itp. Takie wagi zwykle normujemy dzieląc przez je przez średnią wartość wagi (tu: 200). Dzięki temu suma wag równa jest liczebności próby, a analizy statystyczne dają wyniki dla próby, tyle że wpływ poszczególnych obserwacji na sumaryczne statystyki jest proporcjonalny do ich wagi. Średnia wartość zmiennej zerojedynkowej Czy czyta? która równa jest frakcji czytających wynosi dla próby nieważonej 0,55. Obliczona została przez zsumowanie wartości dla wszystkich obserwacji i podzielenie wyniku przez liczebność próby czyli 20. Nie jest to jednak prawidłowo wyliczona ocena średniej w populacji. Należy obliczyć średnią ważoną, wg wzoru: Lp. Liczba osób w Czy czyta? Waga Waga Czyta x waga g.d. (1-tak, 0-nie) unormowana 1 1 1 100 ,5 ,5 2 1 1 100 ,5 ,5 3 1 1 100 ,5 ,5 4 1 0 100 ,5 ,0 5 1 0 100 ,5 ,0 6 1 0 100 ,5 ,0 7 1 0 100 ,5 ,0 8 1 0 100 ,5 ,0 9 2 1 200 1,0 1,0 10 2 1 200 1,0 1,0 11 2 1 200 1,0 1,0 12 2 0 200 1,0 ,0 13 2 0 200 1,0 ,0 14 2 0 200 1,0 ,0 15 3 1 300 1,5 1,5 16 3 1 300 1,5 1,5 17 3 1 300 1,5 1,5 18 3 0 300 1,5 ,0 19 4 1 400 2,0 2,0 20 4 1 400 2,0 2,0 Suma 11 20 13 Średnia 0,55 1,0 0,65 W tabeli powyżej wykonane zostały podstawowe kroki tego obliczenia. Obliczona została wartość sumy w liczniku: wynosi ona 13. Suma wag unormowanych wynosi 20 i jest równa liczebności próby (zauważmy, że średnia wartość unormowanych wag wynosi 1, co jest typowe i gwarantuje, że ich suma równa się liczebności próby). Zatem średnia ważona wynosi 0,65. Jest to prawidłowo obliczona ocena średniej, uwzględniająca wagi wynikające z niejednakowego prawdopodobieństwa wyboru. Z koniecznością uwzględnienia wag wynikających z przyjętego schematu losowania spotykamy się jeszcze w innych typowych sytuacjach. Oto przykłady: " Jednostką badaną jest gospodarstwo domowe (np. interesuje nas posiadanie przez gospodarstwo domowe zmywarki do naczyń). Losujemy adres gospodarstwa domowego korzystając z list wyborczych. Oczywiście, prawdopodobieństwo znalezienia się gospodarstwa domowego w próbie jest proporcjonalne do liczby członków tego g.d. wpisanych na listę wyborczą. W takiej sytuacji wagi przypisane gospodarstwom domowym, mającym odpowiednio 1, 2 i 3 członków wpisanych na listę, muszą pozostawać w relacji 1:0,5:0,333. Oceny parametrów populacji i w tym wypadku oparte powinny być na wynikach ważonych. " Czasem schemat losowania zakłada nadreprezentację czyli udział w próbie większy od udziału w populacji pewnej mniej licznej grupy po to, by np. umożliwić jej opis i porównanie z innymi grupami. I w tym wypadku, przy obliczaniu ocen parametrów całej populacji należy wykonać ważenie próby przywracające jej takie proporcje, jakie ma populacja. Wagi wyliczamy dzieląc frakcję (udział) każdej z grup w populacji przez jej udział w próbie. Wszystkie osoby należące do jednej grupy uzyskują tę samą wagę wynikającą z tego dostosowania struktury próby. Jeśli zaniechalibyśmy ważenia, to im bardziej jest odmienna charakterystyka grupy nadreprezentowanej, tym silniej obciążona zostanie ocena wartości parametrów całej populacji. Wagi uwzględniamy nie tylko w przypadku ważonego estymatora średniej, lecz także przy obliczaniu wszelkich innych estymatorów, np. wariancji: Algorytmy programu SPSS są (z wyjątkiem nielicznych procedur) przystosowane do uwzględniania wag w obliczeniach. 2. Ważenie w celu skompensowania niezrealizowanych pomiarów Nie wszystkie osoby wylosowane do próby udaje się zbadać. Całkowite braki odpowiedzi wynikają z rozmaitych powodów: odmowy, złego stanu zdrowia, długotrwałego wyjazdu i wielu innych. W badaniach społecznych zwykle za niezłą uchodzi realizacja próby na poziomie 70%. Oczywiście należy dążyć do uzyskania jak najbardziej kompletnego zestawu wyników, gdyż żadne operacje statystyczne nie są w stanie zupełnie skompensować braków w realizacji pomiarów. Na ogół jednak pozostajemy z niekompletnie zrealizowaną próbą i wówczas możemy wykorzystać ważenie w celu skompensowania brakujących wywiadów czy ankiet. Wagi używane dla kompensacji braków odpowiedzi w sondażach oparte są na założeniu, że ci, którzy odpowiedzieli, są próbą losową wszystkich osób w obrębie grup, co do których oczekujemy, że ich członkowie są do siebie bardziej podobni, jest to więc założenie że mechanizm generujący braki to MAR (patrz wyżej). Ogólna procedura wygląda następująco: " Zaklasyfikuj obiekty wylosowane do próby do zbioru komórek (zwanych komórkami korygującymi braki odpowiedzi nonresponse adjustment cells), które są utworzone przez skrzyżowanie charakterystyk znanych dla całej wylosowanej próby. " Oblicz poziom realizacji w każdej komórce dzieląc liczbę zrealizowanych ankiet przez liczbę osób wylosowanych do próby, które zostały zaklasyfikowane do danej komórki. " Oblicz odwrotność poziomu realizacji dla danej komórki to jest waga, którą należy przypisać wszystkim obiektom z tej komórki. Wagi wyliczamy dla wszystkich komórek korygujących. Jeśli obliczyliśmy wcześniej wagi kompensujące niejednakowe prawdopodobieństwo wyboru, to całkowita waga każdego elementu w próbie wj = w1j * w2j, gdzie w1j to waga ze względu na niejednakowe prawdopodobieństwo (przed unormowaniem), a w2j to waga ze względu na braki odpowiedzi. Całkowitą wagę każdego respondenta normujemy dzieląc ją przez średnią wagę dopiero na samym końcu. Stosowane są także bardziej zaawansowane techniki ważenia korygujące ze względu na braki odpowiedzi. Należy do nich np. ważenie ze względu na skłonność do udzielania odpowiedzi (response propensity weighting): " Budujemy model predykcyjny, w którym zmienną zależną jest udzielenie wywianu/wypełnienie ankiety (1) lub brak danych (0); zmienną zależną można też rozbudować, wykorzystując bardziej szczegółowe kategorie, dzielące braki odpowiedzi według głównych przyczyn (np. odmowa, niemożność nawiązania kontaktu) " Przy pomocy programu SPSS AnswerTree znajdujemy predyktory naszej zmiennej zależnej i w oparciu o interakcje między nimi budujemy (a raczej uzyskujemy w wyniku pracy AnswerTree) komórki korygujące. " Obliczamy wagi jako odwrotność poziomu realizacji w komórce. " Przy tej metodzie wagi mogą charakteryzować się dużym rozproszeniem; w celu zredukowania tego rozproszenia można tworzyć większe klasy i używać średniej wartości skłonności do odpowiedzi jako podstawy ważenia (chodzi o zredukowanie spadku precyzji ocen na skutek ważenia). Stosuje się także arbitralne obcinanie ad hoc zbyt dużych wag. Wybór komórek klasyfikacyjnych jest często w praktyce ograniczony, gdyż zmienne, których chcemy użyć przy ich definiowaniu muszą zawierać informacje zarówno dla respondentów jak i nierespondentów. Należy więc z góry planować ważenie i gromadzić dane o wylosowanych osobach, które mogą być wykorzystane w ważeniu. Kluczowe są takie zmienne, które są dobrymi predyktorami udziału bądz nie w badaniu, a także takie, które są silnymi predyktorami ważnych zmiennych mierzonych w badaniu. yródła danych dla korekty: " Dane ze zródeł publicznych (administracyjnych) " Obserwacje ankietera (w przypadku wywiadu osobistego) " Informacje o miejscu zamieszkania (o jak najbliższym sąsiedztwie) " Dane o ankieterze " Nota o interakcji respondent-ankieter 3. Poststratyfikacja Poststratyfikacja jest dość popularna i często w ogóle utożsamiana z ważeniem. Polega na dopasowaniu rozkładu próby do znanego rozkładu populacji. Jeśli wcześniej wykonaliśmy ważenie kompensujące niejednakowe prawdopodobieństwo wyboru (w1) i braki odpowiedzi (w2), to wagi poststratyfikacyjne w3j mogą być użyte jako składnik całkowitej wagi: wj = w1j * w2j * w3j Załóżmy, że po wykonaniu ważenia w1 i w2 rozkład płci w próbie nie zgadza się z rozkładem w populacji. Płeć L. próby Populacja Udział w Udział w Waga próbie populacji Mężczyzna 1620 68057 45% 47,15% 1,05 Kobieta 1980 76288 55% 52,85% 0,96 W przypadku poststratyfikacji wagi jednostek są korygowane w górę lub w dół tak by rozkład sum wag w wybranych klasach zgadzał się z rozkładem w populacji. Komórki do ważenia są definiowane zwykle przez skrzyżowanie kategorii kilku zmiennych, najlepiej takich które są ważnymi predyktorami wyników badania. Na ogół wykorzystuje się zmienne demograficzne, taki jak: grupa wiekowa, płeć, region, wykształcenie, podział miasto/wieś. Można wykorzystywać tylko takie kombinacje kategorii dla których dostępne są dane o populacji (zwykle dane GUS). Wagi uzyskujemy przez podzielenie udziału komórki klasyfikacyjnej w populacji przez jej udział w próbie. W mniejszych próbach mogą wystąpić puste komórki klasyfikacyjne; wówczas należy łączyć je z komórkami o najbardziej zbliżonej charakterystyce (wymaga to na ogół wiedzy i namysłu). Są także metody szacowania wag poststratyfikacyjnych w sytuacji, gdy nie znamy liczebności komórek klasyfikacyjnych lecz jedynie rozkłady brzegowe poszczególnych cech klasyfikacyjnych. Służy do tego iteracyjne dopasowanie proporcjonalne (iterative proportional fitting), które można wykonać przy pomocy procedury GENLOG w SPSS Advanced Statistics; wykracza to poza zakres tego kursu (dokładnie opisany przykład znajduje się w dokumentacji modułu Advanced Statistics). 4. Wykorzystanie ważenia w analizie danych Ważenie jest na ogół koniecznym elementem opisu statystycznego wyników badań. Czasmi bywa tak, że oszacowania w oparciu o estymator ważony i nieważony są niemal takie same. Wówczas można zadowolić się oceną nieważoną. Dzieje się tak wówczas, gdy wagi są nieskorelowane z analizowaną zmienną. Jeśli nawet ma to miejsce w przypadku jednych zmiennych, w przypadku innych efekt ważenia może być istotny. W takich wypadkach pominięcie prowadzi do obciążenia błędem oszacowań parametrów na podstawie próby. Ponieważ dysponujemy jedną zmienną ważącą, która jest używana we wszystkich obliczeniach, determinuje to prowadzenie analizy ważonej. Naprzemienne używanie wyników ważonych i nieważonych może wprowadzać zamieszanie przy prezentacji wyników badań i prowadzić do niespójnych wyników. Dla celów opisowych powinniśmy więc na ogół używać wag przygotowanych w omówiony wyżej sposób. W przypadku analizy danych nie zawsze jednak korzystanie z wag jest konieczne. Analitycy porównują wyniki analiz dokonywanych na próbie ważonej i nieważonej i mogą zdecydować o użyciu wyników nieważonych, jeśli różnice są niewielkie. SPSS pozwala włączyć wagi umieszczone w jednej zmiennej przy pomocy polecenia: Weight by nazwa zmiennej ważącej. Polecenie to dostępne jest z menu Data > Weight Cases, w oknie edytora danych. 5. Konsekwencje stosowania wag dla precyzji ocen parametrów Stosowanie wag nie pozostaje bez wpływu na precyzję estymacji, choć zmniejsza obciążenie jej wyników systematycznym błędem. Wagi mogą zwiększyć wariancję ocen. Dla średnich utratę precyzji na skutek wzrostu wariancji (który przekłada się na wzrost wartości błędu standardowego i zwiększenie przedziału ufności) można wyrazić jako: Utrata precyzji L może być niewielka, np. 0,01 lub 0,02, lub znacznie większa (np. większa od 0,5). Literatura Przy przygotowaniu materiału wykorzystano m.in.: Little R.J.A., Schenker N., Missing Data, in: Arminger, Clogg, Sobel (eds.), Handbook for Statistical Modelling in the Social and Behavioral Sciences, New York 1994: Plenum Lepkowski J., Item Missing Data, Weighting notatki do wykładu z Analysis of Survey Data II, ISR, The University of Michigan 1997. Lttle R.J.A./Ragunathan T., Statistical Analysis with Missing Data notatki do wykładów ISR, The University of Michigan 1997.