Przykład 5.1
Zastosowanie analizy głównych składowych zostało zilustrowane badaniem 242 gmin miejskich (wszystkie gminy miejskie w Polsce z wyłączeniem gmin będących jednocześnie powiatami grodzkimi) ze względu na wybrane zmienne charakteryzujące ich potencjał w 2005 r. Wejściowy zbiór zmiennych charakteryzujących gminy obejmował następujące zmienne:
C11.1 - liczba mieszkań ogółem na 1 mieszkańca,
E13.1 - liczba gimnazjów dla dzieci i młodzieży na 100 osób w wieku 13-15 lat,
K1.1 - udział powierzchni użytków rolnych w powierzchni gminy ogółem,
N1.1 - liczba jednostek (firm) zarejestrowanych w systemie REGON,
O1.1 - dochody budżetu gminy w tys. zł na osobę.
Wartości zmiennych zostały wstępnie poddane standaryzacji. Fragment tablicy zawierającej wystandaryzowane wartości zmiennych znajduje się na rysunku 5.2.
Rys. 5.2. Fragment tablicy z danymi do przykładu 5.1.
Analiza została przeprowadzona z wykorzystaniem pakietu STATISTICA. Odpowiedni moduł uruchamiamy wybierając z menu Statystyka opcję Wielowymiarowe techniki eksploracyjne/Analiza składowych głównych i klasyfikacja (rys. 5.3).
Rys. 5.3. Opcje modułu Wielowymiarowe techniki eksploracyjne.
Wybranie tej opcji powoduje pojawienie się na ekranie wstępnego okna modułu analizy głównych składowych (rys. 5.4).
Rys. 5.4. Wstępne okno modułu analizy głównych składowych.
Klikając klawisz Zmienne otwieramy okno pozwalające na wybór zmiennych do analizy (rys. 5.5).
Rys. 5.5. Okno wyboru zmiennych do analizy.
Program umożliwia wybranie do analizy czterech typów zmiennych. W naszym przykładzie skoncentrujemy się wyłącznie na zmiennych, które są brane pod uwagę podczas obliczania wartości głównych składowych. Są to Zmienne do analizy wybierane w pierwszym oknie. Po wyborze zmiennych akceptujemy je klikając klawisz OK. W dolnej części wstępnego okna modułu analizy wybieramy opcję Analiza na podstawie korelacji, oraz Oblicz wariancje jako SS (rys. 5.6).
Rys. 5.6. Okno analizy głównych składowych z przyjętymi założeniami.
Główne składowe obliczane będą tym samym na podstawie macierzy korelacji, a wariancja w oparciu o wzór bazujący na danych dla całej populacji (nasze gminy stanowią pewną populację generalną, a nie próbę pobraną z tej populacji). Nasze wybory akceptujemy klawiszem OK. Na ekranie pojawia się okno Wyniki analizy głównych składowych i analizy klasyfikacyjnej (rys. 5.7).
Rys. 5.7. Okno Wyniki analizy głównych składowych.
W oknie tym mamy do wyboru cztery karty: Podstawowe, Zmienne, Przypadki i Opisowe. W górnej części okna umieszczono ogólne wyniki analizy, które zostaną także przedstawione w ramach analiz szczegółowych.
Wybranie karty Opisowe powoduje pojawienie się okna zawierającego podstawowe statystyki opisowe (rys. 5.8).
Rys. 5.8. Karta ze statystykami opisowymi.
Najbardziej interesująca jest, z punktu widzenia analizy głównych składowych, macierz korelacji. Macierz tą uzyskujemy uruchamiając klawisz Macierz korelacji (rys. 5.9).
Rys. 5.9. Macierz współczynników korelacji pomiędzy zmiennymi charakteryzującymi gminy.
Czym większe wartości bezwzględne elementów macierzy (współczynników korelacji liniowej) tym mniejsza liczba głównych składowych będzie przenosiła większość informacji zawartych w zbiorze zmiennych wejściowych.
Wyniki samej analizy głównych składowych znajdują się na pozostałych kartach okna Wyniki analizy składowych głównych i analizy klasyfikacyjnej. Klikając klawisz Zmienne otrzymujemy kartę przedstawioną na rysunku 5.10.
Rys. 5.10. Karta Zmienne z przyjętymi domyślnie opcjami.
Przegląd wyników zaczniemy od uruchomienia klawisza Wartości własne. Po uruchomieniu tego klawisza otwiera się okno z tablicą zawierającą wartości własne macierzy korelacji i pokrewnych statystyk (rys. 5.11).
Rys. 5.11. Tablica z wartościami i skumulowanymi wartościami własnymi głównych składowych oraz procentami i skumulowanymi procentami sumy wariancji.
W pierwszej kolumnie tablicy podane są wartości własne kolejnych głównych składowych będące jednocześnie ich wariancjami. Pokazują one hierarchię głównych składowych w wyjaśnianiu zasobów informacyjnych zmiennych wejściowych.
W drugiej kolumnie tablicy znajdują się procenty sumy wariancji zmiennych wejściowych wyodrębnione przez kolejne główne składowe. Przykładowo pierwsza główna składowa przenosi ponad 48% informacji o gminach zawartych w zmiennych wejściowych. W dwóch kolejnych kolumnach znajdują się skumulowane wartości własne i skumulowane procenty wariancji. W dalszych analizach na szczególną uwagę zasługują dwie pierwsze główne składowe, które przenoszą ponad 70% informacji zawartych w zmiennych wejściowych.
W kolejnym kroku przedstawimy wektory własne macierzy korelacji odpowiadające wartościom własnym. W tym celu klikamy klawisz Wektory własne otrzymując arkusz z wektorami własnymi naszej macierzy korelacji (rys. 5.12).
Rys. 5.12. Tablica z wektorami własnymi macierzy korelacji.
Wartości i znaki elementów wektorów własnych mówią nam o sile i kierunku wpływu poszczególnych zmiennych na główne składowe. Dokładniejsza interpretacja tych wpływów zostanie dokonana na podstawie wartości współczynników głównych składowych.
W celu podjęcia ostatecznej decyzji co do liczby głównych składowych, na których powinniśmy skoncentrować się w dalszej analizie, możemy skorzystać z kryterium wartości własnej lub kryterium osypiska. Według kryterium wartości własnej do dalszej analizy powinniśmy wykorzystać tylko dwie pierwsze główne składowe, gdyż tylko ich wartości własne są większe od 1 (rys. 5.11).
Aby uzyskać wykres osypiska klikamy klawisz Wykres osypiska. Na rysunku 5.13 widać, że osypisko zaczyna się od trzeciej głównej składowej, która łącznie z dwoma pierwszymi składowymi wyjaśnia ponad 83% całkowitych zasobów informacyjnych zmiennych wejściowych. W praktyce należałoby spróbować obu rozwiązań i sprowadzić, które z nich daje lepszą interpretację wyników.
Rys. 5.13. Wykres wartości własnych macierzy korelacji.
W naszym przykładzie do dalszych analiz przyjmiemy dwie pierwsze główne składowe wprowadzając na karcie Zmienne, w pole Liczba czynników, liczbę 2. Posługując się w dalszej analizie dwoma pierwszymi składowymi redukujemy liczbę zmiennych opisujących gminy do dwóch tracąc jednocześnie około 30% informacji zawartych w zmiennych wejściowych. Informacja ta jest przedstawiona w polu Jakość reprezentacji na karcie Zmienne (rys. 5.14).
Rys. 5.14. Karta Zmienne z liczbą głównych składowych przyjętych do dalszej analizy.
Nowe składowe są jednocześnie osiami nowej, dwuwymiarowej przestrzeni czynnikowej, w której możemy umieścić punkty reprezentujące gminy. Aby obliczyć współrzędne tych punktów względem dwóch pierwszych osi czynnikowych otwieramy kartę Przypadki (rys. 5.15) i klikamy na niej klawisz Współrzędne czynnikowe przypadków.
Rys. 5.15. Karta Przypadki.
Na ekranie otrzymujemy tablicę zawierającą szukane współrzędne czynnikowe gmin (współrzędne głównych składowych). Fragment tej tablicy jest przedstawiony na rysunku 5.16.
Rys. 5.16. Fragment tablicy z wartościami współrzędnych czynnikowych gmin.
Wykres konfiguracji punktów reprezentujących gminy w dwuwymiarowej przestrzeni czynnikowej otrzymujemy klikając klawisz Wykres 2W współrzędnych czynnikowych przypadków (rys. 5.17).
Rys. 5.17. Wykres konfiguracji punktów reprezentujących gminy w układzie dwóch pierwszych osi czynnikowych.
Interpretacja otrzymanych głównych składowych (czynników) dokonywana jest na podstawie wartości ich współczynników (wartości ładunków czynnikowych). Stanowią one jednocześnie współczynniki korelacji liniowej pomiędzy zmiennymi wejściowymi i głównymi składowymi. Aby uzyskać współczynniki głównych składowych (ładunki czynnikowe) na karcie Zmienne klikamy klawisz Współrzędne czynnikowe zmiennych (rys. 5.18).
Rys. 5.18. Tablica z wartościami współczynników głównych składowych (współrzędnych czynnikowych zmiennych).
Pierwsza główna składowa reprezentuje przede wszystkim zmienne O1.1 oraz E13.1. Natomiast druga z głównych składowych przenosi przede wszystkim informacje zawarte w zmiennej N1.1.
Dla oceny stopnia przenoszenia zasobów informacyjnych zawartych w zmiennych wejściowych (ich wariancji) przez wybrane do dalszej analizy dwie pierwsze główne składowe wykorzystujemy sumę kwadratów współczynników głównych składowych (ładunków czynnikowych). Suma kwadratów współczynników głównych składowych (ładunków czynnikowych) dla danej zmiennej nazywana jest zasobem zmienności wspólnej. Aby te sumy otrzymać klikamy na karcie Zmienne klawisz Zasoby zmienności wspólnej. Kliknięcie tego klawisza powoduje otwarcie tablicy zawierającej wartości zasobów zmienności wspólnej (rys. 5.19).
Rys. 5.19. Tablica z wartościami zasobów zmienności wspólnej.
Przykładowo około 57% zasobów informacyjnych zmiennej K1.1 jest przenoszone przez dwie pierwsze główne składowe. W przypadku zmiennej N1.1 jest to prawie 80%.
Powiązania pomiędzy zmiennymi wejściowymi oraz głównymi składowymi możemy przedstawić także w formie graficznej. Wykres ten uzyskujemy klikając na karcie Zmienne klawisz Wykres 2W współrzędnych czynnikowych zmiennych. Wcześniej możemy określić Opcje wykresu współrzędnych czynnikowych (rys. 5.14). Wybranie poszczególnych opcji daje możliwość uwzględnienia dodatkowo na wykresie:
Wektorów kierunkowych łączących początek układu współrzędnych z punktami reprezentującymi zmienne wejściowe, których wartości są podane w tablicy na rysunku 5.18,
Koła jednostkowego wewnątrz którego znajdują się ładunki czynnikowe,
Nazw zmiennych,
Numerów zmiennych.
Na naszym wykresie dodatkowo umieścimy wektory kierunkowe, koło jednostkowe oraz nazwy zmiennych. Po wybraniu opcji wykresu klikamy klawisz Wykres 2W współrzędnych czynnikowych zmiennych otrzymując rysunek 5.20, na którym na płaszczyźnie wyznaczonej przez dwie pierwsze główne składowe, znajdują się punkty reprezentujące zmienne wejściowe.
Rys. 5.20. Wykres konfiguracji punktów reprezentujących zmienne w układzie dwóch pierwszych osi czynnikowych (głównych składowych).
Współrzędnymi tych punktów są odpowiadające im współczynniki (ładunki czynnikowe) zmiennych. Długość wektorów kierunkowych łączących punkty reprezentujące zmienne z początkiem układu współrzędnych jest równa zasobom informacyjnym tych zmiennych przenoszonym przez dwie pierwsze główne składowe. Im dana zmienna wejściowa leży bliżej brzegu tego koła tym lepsza jest jej reprezentacja przez główne składowe wyznaczające układ współrzędnych (tym większa część informacji zawartych w danej zmiennej wejściowej jest przenoszona przez te główne składowe). W sytuacji gdyby 100% informacji wnoszonych przez daną zmienną o badanym zjawisku (gdyby zasoby zmienności wspólnej były dla danej zmiennej równe 1) byłoby przenoszone przez dwie pierwsze główne składowe to reprezentujący ją punkt leżałby na brzegu koła.
Położenie punktów reprezentujących zmienne wejściowe względem osi czynnikowych (głównych składowych) pozwala na zakwalifikowanie zmiennych do odpowiednich kategorii. Przykładowo, rozważając położenie punktów względem pierwszej osi, zmienne mogą być zakwalifikowane do jednej z dwóch kategorii, zależnie od tego po której stronie te osi leża ich ładunki czynnikowe. Tym samym klasyfikacja jest dokonywana ze względu na znaki ładunków czynnikowych. Jeżeli rozpatrujemy łącznie obie osie czynnikowe zmienne wejściowe mogą być kwalifikowane do jednej z czterech kategorii, zależnie od kombinacji znaków ich ładunków czynnikowych.
Im bliżej siebie leżą na wykresie punkty (wektory) reprezentujące zmienne wejściowe, tym silniejsza jest dodatnia korelacja pomiędzy odpowiadającymi im zmiennymi. Jeżeli wektory te są prostopadłe zmienne są ze sobą nieskorelowane. Jeżeli natomiast wektory leża na jednej linii, lecz po przeciwnych stronach środka układu współrzędnych, to zmienne są maksymalnie ujemnie skorelowane (współczynnik korelacji liniowej wynosi - 1).
1
13