Latent Markov Chain Analysis of Income States with the European

Community Household Panel (ECHP). Empirical Results on Measurement

Error and Attrition Bias.

Edin Basic & Ulrich Rendtel

Data publikacji artykułu: June 2004

Streszczenie: Łukasz Kowalczyk, nr. ind.: 197729

Dane z paneli mogą być źródłem interesujących studiów dotyczących dynamicznego

aspektu ubóstwa, czy też ogólniej mobilności dochodowej. Szczególnie interesujące

wydaje się wykorzystanie koncepcji łańcuchów Markova i wyznaczenie macierzy

przejścia pomiędzy różnymi stanami dochodowymi na podstawie paneli. Podstawowym

celem autorów artykułu było zbadanie, w jakim stopniu błędy pomiarowe oraz efekt

wycierania się panelu ( attrition effect) wpływają na szacunki mobilności między różnymi

stanami dochodowym.

1. Wykorzystane dane i ich źródła, definicje ubóstwa oraz stanów dochodowych.

Dla przeprowadzenia stosownego badania autorzy posłużyli się danymi pochodzącymi z

panelu ECHP dla Finlandii dla lat 1996-2000. Panel ten został zaprojektowany i jest

koordynowany przez Eurostat. W wymienionych latach prowadzony był w większości

państw Unii Europejskiej, a zbierane informacje dotyczyły przede wszystkim dochodów

gospodarstw domowych oraz ich ogólnych warunków życiowych. Szczególny sposób

zbierania danych do panelu w Finlandii uczynił je idealnym źródłem dla celu

postawionego przez autorów. Mianowicie, w latach 1996 oraz 2000 źródłem danych było

specjalnie przeprowadzone w tym celu badanie ankietowe, natomiast w pozostałych

latach dane do panelu zostały zaczerpnięte z finlandzkiego spisu powszechnego. Dane ze

spisu są także dostępne dla lat 1996 i 2000. Ponadto w obu źródłach jest dostępna

zmienna „numer identyfikacyjny uczestników”, dzięki czemu można „dopasować” do

siebie indywidualne dane z obu źródeł. W ten sposób możliwe staje się zbadanie wpływu

efektu błędów pomiarowych oraz efektu wycierania panelu (spis powszechny zawiera

informacje o osobach, które nie uczestniczyły w badaniu ankietowym w 2000 roku) na

oszacowanie macierzy przejścia dla mobilności dochodowej. Wielkość ostatecznej

analizowanej próbki to 5570 osób. Zawiera ona wyłącznie osoby powyżej 16 roku życia,

zamieszkujące (we wszystkich analizowanych latach) w prywatnym gospodarstwie

domowym.

Dla ustalenia stanu dochodowego dla poszczególnych obserwacji (respondentów) autorzy

posłużyli się miarą household equivalence income, która jest funkcją liczby członków

gospodarstwa domowego i bierze pod uwagę fakt, że gospodarstwa domowe mogą w

pewnym zakresie mieć do czynienia z pozytywnymi efektami skali (wykorzystanie

wspólnych zasobów). W swoich badaniach autorzy posługiwali się relatywną koncepcją

1

ubóstwa - czyli taką, która definiuje ubóstwo w stosunku do pewnej statystyki dla

dochodów ( household equivalence income) w całej populacji. Wykorzystano dwa

kryteria dla wydzielenia stanów dochodowych:

• Połowa mediany dochodu – osoba zostaje uznana za ubogą, jeśli jej dochody są

poniżej tego progu;

• Kwintyle dochodu – kryterium to ma większą wartość informacyjną, ale zamiast

pojęcia stanu ubóstwa i „nie-ubóstwa” mamy w tym przypadku do czynienia z

pięciostopniową skalą, na której jednym końcu są osoby relatywnie

najbiedniejsze, a na drugim – relatywnie najbogatsze.

W artykule większość wyników została zaprezentawana dla obu kryteriów

wyodrębnienia stanów dochodowych. Jakoże istnieją pewne rozbieżności w wielkościach

dochodów pochodzących z dwóch źródeł (ankieta oraz spis), to można tutaj mówić o

uznaniu danego respondenta za „ubogiego według spisu” oraz „ubogiego według

rejestru”.

2. Porównanie rozkładów dochodu dla danych ze spisu powszechnego oraz badania

ankietowego oraz wyznaczenie „prostych” macierzy przejścia dla stanów

dochodowych.

Autorzy artykułu porównali rozkłady dochodu dla miar pochodzących z obu wyżej

wymienionych źródeł (spisu i ankiety). W szczególności przeanalizowali wielkości

dochodu dla poszczególnych kwintyli dla badania ankietowego i spisu dla lat 1996 oraz

2000. Ponadto posłużyli się analizą graficzną dla porównania pierwotnej zmiennej

dochód (zmienna ciągła).

Przeprowadzone analizy wykazały występowanie znacznych rozbieżności – różnice

średnich dochodów dla danych z badania ankietowego i spisu wyniosły w obu okresach

ponad 12%. Zaobserwowano także tendencję do zaniżania wielkości dochodu w badaniu

ankietowym w stosunku do danych ze spisu. Największe rozbieżności występowały dla

wyższych kwintyli dochodów.

Następnym krokiem było wyznaczenie odrębnych macierzy przejścia pomiędzy stanami

dochodowymi dla danych ze spisu powszechnego oraz z badania ankietowego (pomiędzy

1996 a 2000 rokiem). Zrobiono to zarówno dla 2 (ubóstwo lub „nie-ubóstwo”), jak i dla 5

stanów dochodowych (kwintyle). W obu przypadkach zaobserwowano wyraźne różnice

pomiędzy otrzymanymi wynikami, przy czym macierz uzyskana dla badania

ankietowego wskazywała na większą niż dla spisu niestabilność (większe

prawdopodobieństwa zmiany stanu dochodowego). Wykazane rozbieżności wskazują, że

konieczne może być uwzględnienie efektów błędów pomiarowych przy analizowaniu

mobilności dochodowej.

2

3. Modele uwzględniające błędy pomiarowe.

W dalszej części pracy autorzy zaprezentowali wyniki otrzymywane dla różnych wersji

modelu łuńcuchów Markova ze zmienną ukrytą ( latent Markov chain models). Modele

takie pozwalają na uzwględnienie obu (rozbieżnych) źródeł danych do wyznaczenia

macierzy przejścia. Prawdziwy (rzeczywisty) stan dochodowy jest traktowany jako

zmienna ukryta, a zmienne obserwowalne (dane ze spisu i badania ankietowego) jako

wskaźniki ( indicators), które służą do oceny rzeczywistego stanu. Model ze zmienną

ukrytą składa się z dwóch części:

• Część strukturalna – opisuje przejścia pomiędzy stanami prawdziwymi;

• Część pomiarowa – opisuje zależność zmiennych obserwowalnych

(wskaźników) od zmiennej ukrytej (prawdziwy stan). Zależność ta jest

opisana za pomocą macierzy pomiarowej (lub dosłownie macierzy

odpowiedzi,

response matrix), która zawiera prawdopodobieństwa

zaobserwowania poszczególnych stanów (wskaźnik) dla poszczególnych

stanów prawdziwych (zmienna ukryta). Jeśli błędy pomiarowe nie występują,

to macierz pomiarowa jest równa macierzy jednostkowej.

Poniżej przedstawiam kolejne modele wykorzystane przez autorów wraz z opisem

uzyskanych wyników. Modele te zostały wyznaczone osobno dla dwóch możliwych

wariantów:

• Założenie, że dane ze spisu powszechnego są danymi prawdziwymi;

• Założenie, że błędy pomiarowe występują zarówno w przypadku spisu, jak i

badania ankietowego. Jeśli stan ze spisu pokrywa się dla danej obserwacji ze

stanem dla badania ankietowego, to uznaje się ten stan za prawdziwy (i tylko

wtedy).

Model Markova ze zmienną ukrytą dla dwóch fal.

Model ten zakłada bezpośrednie (jedno) przejście pomiędzy stanami dochodowymi

pomiędzy 1996 a 2000 rokiem – nie są więc analizowane przejście pomiędzy

poszczególnymi latami (1996 a 1997, 1997 a 1998 itd.). W tym przypadku uwzględnia

się wyłacznie dane dla lat 1996 i 2000.

Uzyskana macierz przejścia dla stanów rzeczywistych wykazała znacznie większą

stabilność niż macierz uzyskana dla prostego modelu Markova. Okazało się również, że

zarówno dane z ankiety jak i z samego spisu są słabymi wskaźnikami prawdziwego

stanu. W szczególności, dla modelu z dwoma stanami przy prawdziwym stanie ubóstwo

oba wskaźniki dawały w ponad 50% przypadków złe odpowiedzi. Analiza macierzy

uzyskanej przy założeniu prawdziwości danych ze spisu wykazała ponadto na znaczne

rozbieżności pomiędzy dwoma wskaźnikami.

Model Markova ze zmienną ukrytą dla pięciu fal.

Model ten opisuje przejścia pomiędzy stanami dochodowymi pomiędzy poszczególnymi

okresami, czyli: 1996 a 1997, 1997 a 1998, 1998 a 1999, 1999 a 2000. W przypadku lat

1997-1999 uwzględniono wyłącznie dane ze spisu (brak badania ankietowego w tych

latach). Nie zakładano tutaj stałości macierzy przejścia w czasie, natomiast założono

równość macierzy pomiarowych dla poszczególnych okresów.

3

Uzyskane macierze przejścia dla stanów prawdziwych ponownie wykazały znacznie

większą stabilność niż prosty model Markova. W przypadku modelu zakładającego

występowanie błędów pomiarowych dla obu źródeł okazało się, że błędy dla wskaźnika

bazującego na spisie są znacznie mniejsze niż dla badania ankietowego, choć dalej

występują. Autorzy zaobserwowali wysoką wartość statystyki LR, co ich zdaniem mogło

wynikać z dwóch czynników:

• Nieuwzględnienie zależności prawdopodobieństw od wczesniejszych stanów (w

okresach t-1, t-2, t-3), czyli możliwość nieprawdziwości założenia o

stacjonarności.

• Błędne założenie o homogeniczności populacji. Możliwe jest, że populacja jest

niejednorodna, czyli dla różnych jej grup obowiązują różne macierze przejścia.

Mieszany model Markova ze zmienną ukrytą.

Model ten jest podobny do opisywanego powyżej z tą różnicą, że zakłada się

występowanie kilku grup i odrębnej macierzy przejścia dla każdej z nich. W wyniku

problemów z identyfikacją modelu konieczne było ograniczenie się do dwóch grup

(dwóch łańcuchów):

• Stayers – osoby, które przez cały okres 1996-2000 wogóle nie zmieniają swojego

stanu dochodowego.

• Movers – osoby, których stan dochodowy przynajmniej raz uległ zmianie w

analizowanym okresie.

Wyniki uzyskane dla podpopulacji Stayers dla dwóch stanów wskazują, że około 52%

całej populacji nigdy nie zmieni swojego stanu. Dla podpopulacji Movers dla kolejnych

macierzy prawdziwych przejścia obserwujemy wzrost stabilności w czasie, szczególnie

dla stanu początkowego ubóstwo. Oznacza to, że osoby ubogie mają coraz mniejsze

szanse na wydostanie się z tego stanu dochodowego. Ponownie dane ze spisu okazały się

lepszym wskaźnikiem niż dane z ankiety. Odsetki błędnych pomiarów dla wszystkich

stanów początkowych dla wskaźnika opartego na danych ze spisu były lepsze niż dla

poprzedniego modelu.

Modele Markova ze zmienną ukrytą pozwalają na dekomopozycję obserwowanych

zmienności oraz stabilności na dwa komponenty: prawdziwy (rzeczywisty) i błędny

(wynikający z błędów pomiarowych). Przeprowadzona przez autorów analiza

składowych stabilności i zmienności wskazała na znaczny udział zmienności błędnej w

całej obserwowanej zmienności, niezależnie od użytego modelu. Potwierdza to wcześniej

otrzymane wyniki dla poszczególnych modeli, które wskazują, że przy pominięciu efektu

błędów pomiarowych zmienność (prawdopodobieństwa zmian) pomiędzy stanami jest

zawyżone, a stabilność zaniżona.

4. Analiza wpływu efektu wycierania się panelu.

Po zbadaniu wpływu efektu błędów pomiarowych na uzyskiwane oszacowania macierzy

przejścia autorzy przystąpili do analizy efektu wycierania się panelu. Wycieranie się

polega na tym, że respondenci, którzy przynajmniej raz uczestniczyli w panelu, przestają

4

w pewnym momencie brać udział w dalszej jego części. Można wymienić kilka

podstawowych powodów, dla których najczęściej tak się dzieje:

• Respondent odmawia dalszej współpracy;

• Respondent nie może udzielić odpowiedzi z powodu choroby itp.;

• Kontakt z respondentem zostaje utracony (np. wskutek jego przeprowadzki);

• Z innych powodów kontakt z respondentem jest niemożliwy (wyjechał na

wakacje itp.).

Aby zbadać, czy wycieranie się panelu ma wpływ na poprawność oszacowanej macierzy

przejścia dla mobilności dochodowej, autorzy wykorzystali dane z lat 1996 i 2000,

dzieląc całą próbkę na dwie części: attriters i respondents. Dane ze spisu były dostępne dla wszystkich respondentów dla obu lat, natomiast dane z badania ankietowego – dla

wszystkich w 1996 roku i tylko dla respondents w 2000. Następnie wyestymowano trzy

modele Markova: przy założeniu równości macierzy przejścia dla attriters i respondents oraz osobne modele dla attriters oraz respondents. Porównanie dwóch ostatnich modeli wskazuje na większe prawdopodobieństwo pozostania w niższych stanach dochodowych

dla attriters niż dla respondents. Jednak przeprowadzone przez autorów testy Hausmana dla różnych wariantów modelu wskazały, że nie ma podstaw do odrzucenia hipotezy

zerowej o równości macierzy przejść dla attriters i respondents (poziom ufności 95%).

Należy więc uznać, że efekt wycierania się panelu nie ma wpływu na uzyskane

oszacowania macierzy przejścia dla stanów dochodowych.

5. Podsumowanie.

Autorzy artykułu zbadali, w jakim stopniu błędy pomiarowe oraz efekt wycierania się

panelu wpływają na szacunki mobilności między różnymi stanami dochodowym dla

ludności Finlandii w latach 1996-2000. Według uzyskanych przez nich wyników

nieuzwględnienie błędów pomiarowych prowadzi do macierzy przejścia wskazujących na

nadmierną w stosunku do prawdziwej zmienność pomiędzy stanami dochodowymi.

Konieczne więc wydaje się uwzględnienie występowania błędów pomiarowych w

badaniach mobilności dochodowej ludności. Błędy w rozpoznawaniu stanów ubóstwa są

większe niż dla wyższych stanów dochodowych. Ponadto bardziej wiarygodnymi

wskaźnikami stanu dochodowego okazały się te oparte na danych ze spisu

powszechnego. W przypadku efektu wycierania się panelu nie stwierdzono istotnego jego

wpływu na uzyskiwane oszacowania macierzy przejść dla stanów dochodowych.

5