Przykład 8.1
Zastosowanie analizy korespondencji zostało zilustrowane badaniem stopnia wykluczenia społecznego w województwach Polski w 2007 r. Stopień wykluczenia społecznego jest mierzony w obszarach wykluczenia finansowego, zatrudnienia oraz edukacji za pomocą wskaźników (Panek 2008):
A - stopień wykluczenia w wymiarze finansowym,
B - stopień wykluczenia w obszarze rynku pracy,
C - stopień wykluczenia w obszarze wykształcenia.
Wskaźniki te, powstałe w wyniku agregacji wskaźników cząstkowych, przyjmują wartości z przedziału [0; 1]. Czym wyższy stopień wykluczenia tym wyższa wartość odpowiedniego wskaźnika.
Arkusz zawierający wartości wskaźników wykluczenia społecznego dla województw Polski w 2007 r. znajduje się na rysunku 8.1.
Rys. 8.1. Tablica z danymi do Przykładu 8.1.
Analiza została przeprowadzona z wykorzystaniem pakietu STATISTICA. Odpowiedni moduł uruchamiamy wybierając z menu Statystyka opcję Wielowymiarowe techniki eksploracyjne/Analiza korespondencji (rys. 8.2).
Rys. 8.2. Opcje modułu Wielowymiarowe techniki ekspoloracyjne.
Wybranie tego modułu powoduje na pojawienie się na ekranie wstępnego okna analizy korespondencji (rys. 8.3).
Rys. 8.3. Wstępne okno modułu analizy korespondencji.
Na karcie Analiza korespondencji definiujemy typ danych, na których mamy przeprowadzić analizę. Zakres wyboru typu danych do analizy odpowiada klasycznemu ujęciu analizy korespondencji. Można go jednakże wykorzystać także w podejściu nieklasycznym. Mamy do wyboru trzy typy danych, a mianowicie:
Dane surowe. Z danymi surowymi mamy do czynienia gdy w tablicy dla każdej badanej jednostki (obiektu lub grupy obiektów) podany jest wariant zmiennej lub jej wartość liczbowa, który wystąpił w danym obiekcie.
Częstości ze zmiennymi grupującymi. W tablicy z danymi dla każdej kombinacji obiektu (lub grupy obiektów) z wariantami (lub wartościami liczbowymi) zmiennej mamy podane liczebności tych kombinacji.
Częstości bez zmiennych grupujących. Tablica wynikowa ma postać tablicy dwudzielnej. W boczku tablicy podawane są nazwy grup obiektów, a w główce tablicy nazwy wariantów (lub wartości liczbowe) zmiennych charakteryzujących grupy obiektów. We wnętrzu tablicy, w komórkach na przecięciu odpowiednich wierszy i kolumn tablicy, podajemy liczebności odpowiednich grup obiektów posiadających dany wariant zmiennej.
W naszym przykładzie wybieramy opcję Częstości bez zmiennych grupujących otrzymując okno z klawiszem Zmienne z częstościami (rys. 8.4).
Rys. 8.4. Okno analizy korespondencji z wybraną opcją formy danych wejściowych Częstości bez zmiennych grupujących.
Klikając klawisz Zmienne z częstościami otwieramy okno umożliwiające wybór zmiennych do analizy (rys. 8.5).
Rys. 8.5. Okno wyboru zmiennych do analizy.
W oknie tym wybieramy zmienne A, B i C akceptując wybór klawiszem OK. W efekcie uzyskujemy wstępne okno analizy korespondencji z przyjętymi założeniami odnośnie danych wejściowych (rys. 8.6).
Rys. 8.6. Wstępne okno analizy korespondencji z przyjętymi założeniami dotyczącymi danych wejściowych.
Akceptujemy przyjęte założenia klawiszem OK otrzymując okno Wyniki analizy korespondencji (rys. 8.7).
Rys. 8.7. Okno Wyniki analizy korespondencji.
W ramach tego okna, na karcie Przegląd, możemy prześledzić szacunek wartości statystyki chi-kwadrat, (a dokładnie jej wartość podzieloną przez liczbę obserwacji nazywaną inercją lub bezwładnością), która jest miarą zróżnicowania elementów w macierzy danych wejściowych, czyli miarą jej zasobów informacyjnych. Przykładowo klikając klawisz Udział w chi-kwadrat otrzymujemy tablicę pokazującą udziały w wartości statystyki chi-kwadrat poszczególnych kombinacji obiektów (województw) i charakteryzujących je zmiennych (wskaźników stopnia wykluczenia społecznego) (rys. 8.8).
Rys. 8.8. Tablica udziałów w statystyce chi-kwadrat kombinacji poszczególnych województw i wskaźników wykluczenia społecznego.
Wartość statystyki chi-kwadrat jest relatywnie mała co wskazuje, że zarówno województwa są dość słabo zróżnicowane ze względu na strukturę wartości opisujących je zmiennych, jak i że zróżnicowanie wskaźników wykluczenia w województwach nie jest zbyt duże. Jednakże ponieważ nasz przykład ma wyłącznie ilustracyjny charakter możemy przystąpić do dalszej części analizy.
W tym celu w oknie Wyniki analizy korespondencji na karcie Opcje ustalamy założenia analizy. Pierwszym z nich jest wybór przestrzeni czynnikowej, w której zostaną przestawione wejściowe konfiguracje punktów reprezentujących województwa i/lub wskaźniki. W naszej analizie maksymalny wymiar przestrzeni czynnikowej równy jest dwa. Oznacza to, że oryginalne konfiguracje punktów reprezentujących województwa i wskaźniki zostają odtworzone bez zniekształceń w dwuwymiarowej przestrzeni czynnikowej. Prezentacja tych punktów na płaszczyźnie umożliwia wszelkie analizy w formie graficznej, a tym samym w polu Liczba wymiarów wpisujemy 2 (rys. 8.9).
Rys. 8.9. Okno Wyniki analizy korespondencji z przyjętymi założeniami.
Po ustaleniu wymiaru przestrzeni czynnikowej należy wybrać metodę standaryzacji danych wejściowych dla obliczenia współrzędnych punktów reprezentujących województwa i/lub wskaźniki wykluczenia społecznego w przestrzeni czynnikowej. Mamy do wyboru następujące opcje:
Standaryzacja wierszowa. Wyznaczymy wtedy współrzędne punktów reprezentujących województwa.
Standaryzacja kolumnowa. Otrzymujemy współrzędne punktów reprezentujących wskaźniki wykluczenia społecznego.
Standaryzacja wierszowo-kolumnowa. Uzyskujemy jednocześnie współrzędne punktów reprezentujących województwa oraz wskaźniki wykluczenia społecznego.
Standaryzacja kanoniczna. Uzyskujemy jednocześnie współrzędne punktów reprezentujących województwa oraz wskaźniki wykluczenia społecznego stosując procedurę właściwą analizie kanonicznej (por. rozdz. 7 oraz Gifi, 1980).
W naszym przykładzie interesuje nas zarówno analiza konfiguracji punktów reprezentujących województwa jak i wskaźników wykluczenia społecznego. A tym samym wybieramy standaryzację wierszowo-kolumnową (rys. 8.9).
Aby przystąpić do analizy konfiguracji punktów w przestrzeni czynnikowej w oknie Wyniki analizy korespondencji wybieramy kartę Więcej (rys. 8.10).
Rys. 8.10. Karta Więcej w oknie Wyniki analizy korespondencji.
Przed właściwą analizą możemy jeszcze określić udziały poszczególnych czynników w inercji, czyli ich zasoby informacyjne.
W tym celu klikamy klawisz Wartości własne otrzymując tablicę z wartościami osobliwymi, wartościami własnymi oraz innymi charakterystykami zasobów informacyjnych czynników (rys. 8.11).
Rys. 8.11. Tablica z charakterystykami zasobów informacyjnych czynników.
Pierwszy z czynników pozwala na odtworzenie 70,41% zróżnicowania elementów w macierzy danych wejściowych, czyli całkowitej inercji (bezwładności), a drugi z czynników pozostałe 29,59%.
W celu analizy konfiguracji punktów, reprezentujących województwa, w przestrzeni czynnikowej klikamy klawisz Wiersze 2W otrzymując rysunek 8.12.
Rys. 8.12. Wykres konfiguracji punktów reprezentujących województwa w dwuwymiarowej przestrzeni czynnikowej.
Województwami o najbardziej typowej strukturze wartości wskaźników wykluczenia społecznego (najbliższej przeciętnej strukturze) są województwa O5 i O10 (odpowiadające im punkty leżą relatywnie najbliżej środka układu współrzędnych). Natomiast do województw o najbardziej nietypowej strukturze wartości wskaźników wykluczenia społecznego należy zaliczyć województwa O9, O2, O14, O16, O8 i O11.Wśród badanych województw można wyróżnić dwie ich grupy o podobnej strukturze wartości wskaźników wykluczenia społecznego. Pierwszą z nich tworzą województwa O14, O1, O2 oraz O3. Do drugiej grupy należą województwa O7, O4, O6, O15, O12, O13 i O11.
Klikając na karcie Więcej klawisz Kolumny 2W (rys. 8.10) otrzymujemy wykres konfiguracji punktów reprezentując wskaźniki wykluczenia społecznego w dwuwymiarowej przestrzeni czynnikowej (rys. 8.13).
Rys. 8.13. Wykres konfiguracji punktów reprezentujących wskaźniki wykluczenia społecznego w dwuwymiarowej przestrzeni czynnikowej.
Odległości punktów, reprezentujących wskaźniki wykluczenia społecznego, od środka układu współrzędnych są dość podobne. Najdalej od początku układu współrzędnych leży punkt reprezentujący wskaźnik wykluczenia społecznego w obszarze wykształcenia. Różnicuje on relatywnie najsilniej województwa ze względu na stopień wykluczenia społecznego i ma tym samym największy wkład w tworzeniu przestrzeni czynnikowej.
Punkty reprezentujące wskaźniki wykluczenia społecznego są relatywnie daleko położone od siebie. Oznacza to, że poszczególne wymiary wykluczenia społecznego w różny sposób różnicują badane województwa.
Wartości współrzędnych punktów reprezentujących województwa w przestrzeni czynnikowej na rysunku 8.12 i 8.13 (tzw. współrzędnych standardowych) możemy uzyskać klikając na OK karcie Więcej klawisz Współrzędne wierszy i kolumn (rys. 8.10). Klikając na karcie Więcej klawisz Wiersze i kolumny 2W otrzymujemy konfigurację punktów reprezentujących województwa i wskaźniki wykluczenia społecznego w samej dwuwymiarowej przestrzeni czynnikowej (rys. 8.14).
Rys. 8.14. Wykres konfiguracji punktów reprezentujących województwa i wskaźniki wykluczenia społecznego w dwuwymiarowej przestrzeni czynnikowej.
Bliskie położenie punktu reprezentującego wskaźnik wykluczenia społecznego w obszarze wykształcenia w stosunku do województw O14, O1, O2 i O3 wskazuje, że właśnie ze względu na wartości tego wskaźnika omawiana grupa województw wyróżnia się od innych badanych województw. Podobnie grupa województw O7, O4, O6, O16 i O12 charakteryzuje się odmiennymi od innych województwami, relatywnymi (w stosunku do wartości wskaźników wykluczenia społecznego w pozostałych obszarach wykluczenia) wartościami wskaźnika wykluczenia społecznego w obszarze rynku pracy.
Wartości współrzędnych czynnikowych punktów reprezentujących województwa i wskaźniki wykluczenia społecznego na rysunku 8.15 (tzw. współrzędne główne) otrzymujemy klikając na karcie Więcej, w oknie Wyniki analizy korespondencji, klawisz Współrzędne wierszy i kolumn (rys. 8.10).
Rys. 8.15. Tablica z wartościami współrzędnych standardowych punktów reprezentujących województwa i wskaźniki wykluczenia społecznego w przestrzeni czynnikowej.
W tablicach tych znajdują się wartości nie tylko powyższych współrzędnych ale także wartości mierników oceny jakości odwzorowania oryginalnych konfiguracji punktów w przestrzeni czynnikowej (tab. 8.16).
Rys. 8.16. Tablica z wartościami współrzędnych standardowych punktów reprezentujących województwa i wskaźniki wykluczenia społecznego w przestrzeni czynnikowej.
Ze względu na fakt, że konfiguracje punktów reprezentujących województwa oraz wskaźniki wykluczenia społecznego zostały umieszczone w przestrzeni czynnikowej o maksymalnym wymiarze wartości miary jakości odwzorcowania ((8.28) i (8.29)) wszystkich punktów podane w kolumnach Jakość osiągają najwyższe możliwe wielkości równe 1. Potwierdza to wcześniejsze stwierdzenie, że oryginalne konfiguracje punktów nie uległy w przestrzeni czynnikowej żadnemu zniekształceniu. W kolumnach Cos2 Wymiar 1 oraz Cos2 Wymiar 2 zostały podane wartości miar jakości odwzorowania punktów reprezentujących województwa oraz wskaźniki wykluczenia społecznego gdyby zostały one odwzorowane w przestrzeni jednowymiarowej zdefiniowanej odpowiednio przez pierwszy albo drugi czynnik.
W kolumnie Względna bezwładność dolnej z tablic został podany udział punktów reprezentujących poszczególne województwa w tworzeniu dwuwymiarowej przestrzeni czynnikowej. Zdecydowanie największe udziały mają tutaj województwa O9, O16, O14 oraz O11. Wartości w kolumnie Względna bezwładność górnej tablicy wskazują, że największy udział w tworzeniu przestrzeni czynnikowej przez wskaźniki wykluczenia społecznego miał wskaźnik wykluczenia w obszarze wykształcenia.
W kolumnach bezwładnośćWymiar 1 oraz bezwładnośćWymiar 2 obu tablic podawane są udziały odpowiednio poszczególnych województw oraz wskaźników wykluczenia społecznego w tworzeniu jednowymiarowej przestrzeni czynnikowej, definiowanej odpowiednio przez pierwszy i drugi czynnik.
Na wykresie punktów reprezentujących województwa i wskaźniki wykluczenia społecznego można umieścić dodatkowe punkty zawierające informacje o badanym zjawisku. W naszym przykładzie umieścimy w tym układzie współrzędnych nowy punkt reprezentujący wykluczenie społeczne w obszarze niefinansowym (w obszarach rynku pracy i wykształcenia łącznie). W tym celu w oknie Wyniki analizy korespondencji otwieramy kartę Punkty dodatkowe (rys. 8.17).
Rys. 8.17. Karta Punkty dodatkowe.
Ponieważ dodatkowe informacje, dotyczące wykluczenia społecznego, związane są ze wskaźnikami umieszczonymi w kolumnach na karcie Punkty dodatkowe klikamy klawisz Dodaj punkty do kolumn. Na ekranie pojawia się tablica jak na rysunku 8.18.
Rys. 8.18. Dodatkowe punkty dla kolumn z fragmentem tablicy z wartościami dodatkowej zmiennej BC w województwach.
W pierwszym wierszu tablicy wpisujemy wartości wskaźnika wykluczenia społecznego dla kolejnych województw będące średnimi arytmetycznymi z wartości wskaźników w obszarach rynku pracy oraz wykształcenia. Następnie akceptujemy wprowadzone wartości klawiszem OK. Nowe informacje wprowadzone do tablicy zostaną uwzględnione zarówno na wykresach jak i w tablicach wyników analizy korespondencji. Przykładowo klikając na karcie Więcej klawisz Kolumny 2W (rys. 8.10) otrzymujemy wykres konfiguracji punktów reprezentujących wskaźniki wykluczenia społecznego wraz z nowym wskaźnikiem wykluczenia w obszarze niefinansowym (rys. 8.19).
Rys. 8.19. Wykres konfiguracji punktów reprezentujących wskaźniki wykluczenia społecznego z uwzględnieniem wskaźnika wykluczenia społecznego w obszarze niefinansowym, w dwuwymiarowej przestrzeni czynnikowej.
Natomiast klikając na tej samej karcie klawisz Współrzędne wierszy i kolumn otrzymujemy tablicę ze współrzędnymi głównymi punktów reprezentujących wskaźniki społeczne, wraz z nowym wskaźnikiem wykluczenia społecznego w obszarze niefinansowym oraz charakterystyki jakości odwzorcowania (rys. 8.20).
Rys. 8.20. Tablica z wartościami współrzędnych standardowych punktów reprezentujących wskaźniki społeczne oraz charakterystykami jakości odwzorowania.
Jakość odwzorowania nowego punktu reprezentującego nowy wskaźnik, ze względu na to, że wskaźnik ten nie był uwzględniony przy wyznaczaniu przestrzeni czynnikowej, jest bardzo niska.
1
9