1
Latent Markov Chain Analysis of Income States with the European
Community Household Panel (ECHP). Empirical Results on Measurement
Error and Attrition Bias.
Edin Basic & Ulrich Rendtel
Data publikacji artykułu: June 2004
Streszczenie: Łukasz Kowalczyk, nr. ind.: 197729
Dane z paneli mogą być źródłem interesujących studiów dotyczących dynamicznego
aspektu ubóstwa, czy też ogólniej mobilności dochodowej. Szczególnie interesujące
wydaje się wykorzystanie koncepcji łańcuchów Markova i wyznaczenie macierzy
przejścia pomiędzy różnymi stanami dochodowymi na podstawie paneli. Podstawowym
celem autorów artykułu było zbadanie, w jakim stopniu błędy pomiarowe oraz efekt
wycierania się panelu (attrition effect) wpływają na szacunki mobilności między różnymi
stanami dochodowym.
1. Wykorzystane dane i ich źródła, definicje ubóstwa oraz stanów dochodowych.
Dla przeprowadzenia stosownego badania autorzy posłużyli się danymi pochodzącymi z
panelu ECHP dla Finlandii dla lat 1996-2000. Panel ten został zaprojektowany i jest
koordynowany przez Eurostat. W wymienionych latach prowadzony był w większości
państw Unii Europejskiej, a zbierane informacje dotyczyły przede wszystkim dochodów
gospodarstw domowych oraz ich ogólnych warunków życiowych. Szczególny sposób
zbierania danych do panelu w Finlandii uczynił je idealnym źródłem dla celu
postawionego przez autorów. Mianowicie, w latach 1996 oraz 2000 źródłem danych było
specjalnie przeprowadzone w tym celu badanie ankietowe, natomiast w pozostałych
latach dane do panelu zostały zaczerpnięte z finlandzkiego spisu powszechnego. Dane ze
spisu są także dostępne dla lat 1996 i 2000. Ponadto w obu źródłach jest dostępna
zmienna „numer identyfikacyjny uczestników”, dzięki czemu można „dopasować” do
siebie indywidualne dane z obu źródeł. W ten sposób możliwe staje się zbadanie wpływu
efektu błędów pomiarowych oraz efektu wycierania panelu (spis powszechny zawiera
informacje o osobach, które nie uczestniczyły w badaniu ankietowym w 2000 roku) na
oszacowanie macierzy przejścia dla mobilności dochodowej. Wielkość ostatecznej
analizowanej próbki to 5570 osób. Zawiera ona wyłącznie osoby powyżej 16 roku życia,
zamieszkujące (we wszystkich analizowanych latach) w prywatnym gospodarstwie
domowym.
Dla ustalenia stanu dochodowego dla poszczególnych obserwacji (respondentów) autorzy
posłużyli się miarą household equivalence income, która jest funkcją liczby członków
gospodarstwa domowego i bierze pod uwagę fakt, że gospodarstwa domowe mogą w
pewnym zakresie mieć do czynienia z pozytywnymi efektami skali (wykorzystanie
wspólnych zasobów). W swoich badaniach autorzy posługiwali się relatywną koncepcją
2
ubóstwa - czyli taką, która definiuje ubóstwo w stosunku do pewnej statystyki dla
dochodów (household equivalence income) w całej populacji. Wykorzystano dwa
kryteria dla wydzielenia stanów dochodowych:
• Połowa mediany dochodu – osoba zostaje uznana za ubogą, jeśli jej dochody są
poniżej tego progu;
• Kwintyle dochodu – kryterium to ma większą wartość informacyjną, ale zamiast
pojęcia stanu ubóstwa i „nie-ubóstwa” mamy w tym przypadku do czynienia z
pięciostopniową skalą, na której jednym końcu są osoby relatywnie
najbiedniejsze, a na drugim – relatywnie najbogatsze.
W artykule większość wyników została zaprezentawana dla obu kryteriów
wyodrębnienia stanów dochodowych. Jakoże istnieją pewne rozbieżności w wielkościach
dochodów pochodzących z dwóch źródeł (ankieta oraz spis), to można tutaj mówić o
uznaniu danego respondenta za „ubogiego według spisu” oraz „ubogiego według
rejestru”.
2. Porównanie rozkładów dochodu dla danych ze spisu powszechnego oraz badania
ankietowego oraz wyznaczenie „prostych” macierzy przejścia dla stanów
dochodowych.
Autorzy artykułu porównali rozkłady dochodu dla miar pochodzących z obu wyżej
wymienionych źródeł (spisu i ankiety). W szczególności przeanalizowali wielkości
dochodu dla poszczególnych kwintyli dla badania ankietowego i spisu dla lat 1996 oraz
2000. Ponadto posłużyli się analizą graficzną dla porównania pierwotnej zmiennej
dochód (zmienna ciągła).
Przeprowadzone analizy wykazały występowanie znacznych rozbieżności – różnice
średnich dochodów dla danych z badania ankietowego i spisu wyniosły w obu okresach
ponad 12%. Zaobserwowano także tendencję do zaniżania wielkości dochodu w badaniu
ankietowym w stosunku do danych ze spisu. Największe rozbieżności występowały dla
wyższych kwintyli dochodów.
Następnym krokiem było wyznaczenie odrębnych macierzy przejścia pomiędzy stanami
dochodowymi dla danych ze spisu powszechnego oraz z badania ankietowego (pomiędzy
1996 a 2000 rokiem). Zrobiono to zarówno dla 2 (ubóstwo lub „nie-ubóstwo”), jak i dla 5
stanów dochodowych (kwintyle). W obu przypadkach zaobserwowano wyraźne różnice
pomiędzy otrzymanymi wynikami, przy czym macierz uzyskana dla badania
ankietowego wskazywała na większą niż dla spisu niestabilność (większe
prawdopodobieństwa zmiany stanu dochodowego). Wykazane rozbieżności wskazują, że
konieczne może być uwzględnienie efektów błędów pomiarowych przy analizowaniu
mobilności dochodowej.
3
3. Modele uwzględniające błędy pomiarowe.
W dalszej części pracy autorzy zaprezentowali wyniki otrzymywane dla różnych wersji
modelu łuńcuchów Markova ze zmienną ukrytą (latent Markov chain models). Modele
takie pozwalają na uzwględnienie obu (rozbieżnych) źródeł danych do wyznaczenia
macierzy przejścia. Prawdziwy (rzeczywisty) stan dochodowy jest traktowany jako
zmienna ukryta, a zmienne obserwowalne (dane ze spisu i badania ankietowego) jako
wskaźniki (indicators), które służą do oceny rzeczywistego stanu. Model ze zmienną
ukrytą składa się z dwóch części:
• Część strukturalna – opisuje przejścia pomiędzy stanami prawdziwymi;
• Część pomiarowa – opisuje zależność zmiennych obserwowalnych
(wskaźników) od zmiennej ukrytej (prawdziwy stan). Zależność ta jest
opisana za pomocą macierzy pomiarowej (lub dosłownie macierzy
odpowiedzi,
response matrix), która zawiera prawdopodobieństwa
zaobserwowania poszczególnych stanów (wskaźnik) dla poszczególnych
stanów prawdziwych (zmienna ukryta). Jeśli błędy pomiarowe nie występują,
to macierz pomiarowa jest równa macierzy jednostkowej.
Poniżej przedstawiam kolejne modele wykorzystane przez autorów wraz z opisem
uzyskanych wyników. Modele te zostały wyznaczone osobno dla dwóch możliwych
wariantów:
• Założenie, że dane ze spisu powszechnego są danymi prawdziwymi;
• Założenie, że błędy pomiarowe występują zarówno w przypadku spisu, jak i
badania ankietowego. Jeśli stan ze spisu pokrywa się dla danej obserwacji ze
stanem dla badania ankietowego, to uznaje się ten stan za prawdziwy (i tylko
wtedy).
Model Markova ze zmienną ukrytą dla dwóch fal.
Model ten zakłada bezpośrednie (jedno) przejście pomiędzy stanami dochodowymi
pomiędzy 1996 a 2000 rokiem – nie są więc analizowane przejście pomiędzy
poszczególnymi latami (1996 a 1997, 1997 a 1998 itd.). W tym przypadku uwzględnia
się wyłacznie dane dla lat 1996 i 2000.
Uzyskana macierz przejścia dla stanów rzeczywistych wykazała znacznie większą
stabilność niż macierz uzyskana dla prostego modelu Markova. Okazało się również, że
zarówno dane z ankiety jak i z samego spisu są słabymi wskaźnikami prawdziwego
stanu. W szczególności, dla modelu z dwoma stanami przy prawdziwym stanie ubóstwo
oba wskaźniki dawały w ponad 50% przypadków złe odpowiedzi. Analiza macierzy
uzyskanej przy założeniu prawdziwości danych ze spisu wykazała ponadto na znaczne
rozbieżności pomiędzy dwoma wskaźnikami.
Model Markova ze zmienną ukrytą dla pięciu fal.
Model ten opisuje przejścia pomiędzy stanami dochodowymi pomiędzy poszczególnymi
okresami, czyli: 1996 a 1997, 1997 a 1998, 1998 a 1999, 1999 a 2000. W przypadku lat
1997-1999 uwzględniono wyłącznie dane ze spisu (brak badania ankietowego w tych
latach). Nie zakładano tutaj stałości macierzy przejścia w czasie, natomiast założono
równość macierzy pomiarowych dla poszczególnych okresów.
4
Uzyskane macierze przejścia dla stanów prawdziwych ponownie wykazały znacznie
większą stabilność niż prosty model Markova. W przypadku modelu zakładającego
występowanie błędów pomiarowych dla obu źródeł okazało się, że błędy dla wskaźnika
bazującego na spisie są znacznie mniejsze niż dla badania ankietowego, choć dalej
występują. Autorzy zaobserwowali wysoką wartość statystyki LR, co ich zdaniem mogło
wynikać z dwóch czynników:
• Nieuwzględnienie zależności prawdopodobieństw od wczesniejszych stanów (w
okresach t-1, t-2, t-3), czyli możliwość nieprawdziwości założenia o
stacjonarności.
• Błędne założenie o homogeniczności populacji. Możliwe jest, że populacja jest
niejednorodna, czyli dla różnych jej grup obowiązują różne macierze przejścia.
Mieszany model Markova ze zmienną ukrytą.
Model ten jest podobny do opisywanego powyżej z tą różnicą, że zakłada się
występowanie kilku grup i odrębnej macierzy przejścia dla każdej z nich. W wyniku
problemów z identyfikacją modelu konieczne było ograniczenie się do dwóch grup
(dwóch łańcuchów):
• Stayers – osoby, które przez cały okres 1996-2000 wogóle nie zmieniają swojego
stanu dochodowego.
• Movers – osoby, których stan dochodowy przynajmniej raz uległ zmianie w
analizowanym okresie.
Wyniki uzyskane dla podpopulacji Stayers dla dwóch stanów wskazują, że około 52%
całej populacji nigdy nie zmieni swojego stanu. Dla podpopulacji Movers dla kolejnych
macierzy prawdziwych przejścia obserwujemy wzrost stabilności w czasie, szczególnie
dla stanu początkowego ubóstwo. Oznacza to, że osoby ubogie mają coraz mniejsze
szanse na wydostanie się z tego stanu dochodowego. Ponownie dane ze spisu okazały się
lepszym wskaźnikiem niż dane z ankiety. Odsetki błędnych pomiarów dla wszystkich
stanów początkowych dla wskaźnika opartego na danych ze spisu były lepsze niż dla
poprzedniego modelu.
Modele Markova ze zmienną ukrytą pozwalają na dekomopozycję obserwowanych
zmienności oraz stabilności na dwa komponenty: prawdziwy (rzeczywisty) i błędny
(wynikający z błędów pomiarowych). Przeprowadzona przez autorów analiza
składowych stabilności i zmienności wskazała na znaczny udział zmienności błędnej w
całej obserwowanej zmienności, niezależnie od użytego modelu. Potwierdza to wcześniej
otrzymane wyniki dla poszczególnych modeli, które wskazują, że przy pominięciu efektu
błędów pomiarowych zmienność (prawdopodobieństwa zmian) pomiędzy stanami jest
zawyżone, a stabilność zaniżona.
4. Analiza wpływu efektu wycierania się panelu.
Po zbadaniu wpływu efektu błędów pomiarowych na uzyskiwane oszacowania macierzy
przejścia autorzy przystąpili do analizy efektu wycierania się panelu. Wycieranie się
polega na tym, że respondenci, którzy przynajmniej raz uczestniczyli w panelu, przestają
5
w pewnym momencie brać udział w dalszej jego części. Można wymienić kilka
podstawowych powodów, dla których najczęściej tak się dzieje:
• Respondent odmawia dalszej współpracy;
• Respondent nie może udzielić odpowiedzi z powodu choroby itp.;
• Kontakt z respondentem zostaje utracony (np. wskutek jego przeprowadzki);
• Z innych powodów kontakt z respondentem jest niemożliwy (wyjechał na
wakacje itp.).
Aby zbadać, czy wycieranie się panelu ma wpływ na poprawność oszacowanej macierzy
przejścia dla mobilności dochodowej, autorzy wykorzystali dane z lat 1996 i 2000,
dzieląc całą próbkę na dwie części: attriters i respondents. Dane ze spisu były dostępne
dla wszystkich respondentów dla obu lat, natomiast dane z badania ankietowego – dla
wszystkich w 1996 roku i tylko dla respondents w 2000. Następnie wyestymowano trzy
modele Markova: przy założeniu równości macierzy przejścia dla attriters i respondents
oraz osobne modele dla attriters oraz respondents. Porównanie dwóch ostatnich modeli
wskazuje na większe prawdopodobieństwo pozostania w niższych stanach dochodowych
dla attriters niż dla respondents. Jednak przeprowadzone przez autorów testy Hausmana
dla różnych wariantów modelu wskazały, że nie ma podstaw do odrzucenia hipotezy
zerowej o równości macierzy przejść dla attriters i respondents (poziom ufności 95%).
Należy więc uznać, że efekt wycierania się panelu nie ma wpływu na uzyskane
oszacowania macierzy przejścia dla stanów dochodowych.
5. Podsumowanie.
Autorzy artykułu zbadali, w jakim stopniu błędy pomiarowe oraz efekt wycierania się
panelu wpływają na szacunki mobilności między różnymi stanami dochodowym dla
ludności Finlandii w latach 1996-2000. Według uzyskanych przez nich wyników
nieuzwględnienie błędów pomiarowych prowadzi do macierzy przejścia wskazujących na
nadmierną w stosunku do prawdziwej zmienność pomiędzy stanami dochodowymi.
Konieczne więc wydaje się uwzględnienie występowania błędów pomiarowych w
badaniach mobilności dochodowej ludności. Błędy w rozpoznawaniu stanów ubóstwa są
większe niż dla wyższych stanów dochodowych. Ponadto bardziej wiarygodnymi
wskaźnikami stanu dochodowego okazały się te oparte na danych ze spisu
powszechnego. W przypadku efektu wycierania się panelu nie stwierdzono istotnego jego
wpływu na uzyskiwane oszacowania macierzy przejść dla stanów dochodowych.