Przykład 2.9
W oparciu o macierz (tab. 2.1) zbudowano dendryt za pomocą metody taksonomii wrocławskiej.
Otrzymane, w oparciu o analizę elementów macierzy odległości, pary najbardziej do siebie podobnych obiektów przedstawiono w postaci grafu niezorientowanego (rys. 2.1).
Rys. 2.1. Zestawienie par obiektów najbliższych.
Następnie wyeliminowano połączenia występujące dwukrotnie (rys. 2.1) oraz utworzono skupienia 1-szego rzędu (rys. 2.2).
Rys. 2.2. Skupienia 1-szego rzędu.
Uzyskany w ten sposób graf nie jest spójny. Łącząc ze sobą skupienia 1-szego rzędu, w miejscach określonych przez minimalną odległość między tymi skupieniami, utworzono skupienia 2-giego rzędu (rys. 2.3).
Rys. 2.3. Skupienia 2-giego rzędu.
Graf w dalszym ciągu nie jest spójny. W kolejnym kroku procedury utworzono skupienia 3-ciego rzędu (rys. 2.4).
Rys. 2.4. Skupienia 3-go rzędu.
Otrzymany graf niej jest jednak spójny. Kontynuujemy procedurę łącząc odpowiednio skupienia 3-ciego rzędu i otrzymując w efekcie skupienia 4-tego rzędu. Otrzymany graf jest spójny i stanowi graficzną ilustrację uporządkowania województw w postaci dendrytu (rys. 2.5).
Rys. 2.5. Dendryt.
Przykład 2.10
W oparciu o macierz odległości (tab. 2.1), skonstruowano dendryt Prima, stanowiący graficzną ilustrację uporządkowania nieliniowego województw Polski ze względu na poziom życia w 2005 r.
W punkcie początkowym procedury zbiór A zawierający województwa należące do dendrytu jest zbiorem pustym:
Ø,
a zbiór B0, który tworzą województwa nie należące do dendrytu, ma postać:
B0={ O1, O2, O3, O4, O5, O6, O7, O8, O9, O10, O11, O12, O13, O14, O15, O16}.
W pierwszym kroku do zbioru A0 włączamy dowolne województwo otrzymując:
A1={ O1}.
Zbiór B1 ma tym samym postać:
B1={ , O2, O3, O4, O5, O6, O7, O8, O9, O10, O11, O12, O13, O14, O15, O16}.
Tworzymy wektor d1 zawierający odległości wybranego województwa (O1), należącego do zbioru A1, od województw należących do zbioru B1:
d1=[2,52; 3,96; 2,43; 2,87; 3,02; 2,97; 3,27; 4,18; 3,25; 3,28; 3,67; 4,19; 3,05; 3,11; 1,51].
(2-1) (3-1) (4-1) (5-1) (6-1) (7-1) (8-1) (9-1) (10-1) (11-1) (12-1) (13-1) (14-1)(15-1) (16-1)
W wektorze d1 wybieramy najmniejszy element (1,51), a odpowiadające mu województwo (O16) włączamy do zbioru A1 i jednocześnie wyłączamy go ze zbioru B1. Powyższe zbiory przyjmują w drugim kroku procedury następującą postać:
A2={O1, O16}.
B2={ O2, O3, O4, O5, O6, O7, O8, O9, O10, O11, O12, O13, O14, O15 }.
Ponieważ zbiór B2 nie jest zbiorem pustym tworzymy wektor d2, którego elementami są najmniejsze z odległości każdego z województw w zbiorze B2 od województw ze zbioru A2:
d2=[2,39; 3,94; 2,34; 2,87; 3,02; 2,97; 3,27; 4,18; 3,25; 2,73; 3,67; 4,14; 2,51; 3,11]
(2-16) (3-16) (4-16) (5-1) (6-1) (7-1) (8-1) (9-1) (10-1) (11-16) (12-1) (13-16) (14-16)(15-1)
Kolejne kroki procedury prowadzą do utworzenia następujących zbiorów województw typu A i B oraz odpowiadających im wektorów d:
Krok 3:
A3={O1, O4, O16}.
B3={ O2, O3, O5, O6, O7, O8, O9, O10, O11, O12, O13, O14, O15 }.
d3=[2,39; 3,94; 2,87; 3,02; 2,97; 3,27; 4,18; 3,12; 2,73; 3,67; 4,14; 2,01; 3,11]
(2-16) (3-16) (5-1) (6-1) (7-1) (8-1) (9-1) (10-4) (11-16) (12-1) (13-16) (14-4)(15-1)
Krok 4:
A4={O1, O4, O14, O16}.
B4={ O2, O3, O5, O6, O7, O8, O9, O10, O11, O12, O13, O15 }.
d4=[1,68; 3,94; 2,87; 3,02; 2,97; 3,27; 4,11; 2,88; 2,73; 3,67; 2,86; 3,11]
(2-14) (3-16) (5-1) (6-1) (7-1) (8-1) (9-14) (10-14) (11-16) (12-1) (13-14) (15-1)
Krok 5:
A5={O1, O2, O4, O14, O16}.
B5={ O3, O5, O6, O7, O8, O9, O10, O11, O12, O13, O15 }.
d5=[3,32; 2,87; 2,98; 2,97; 3,27; 4,05; 2,71; 2,73; 3,67; 2,86; 2,80]
(3-2) (5-1) (6-2) (7-1) (8-1) (9-2) (10-2) (11-16) (12-1) (13-2) (15-2)
Krok 6:
A6={O1, O2, O4, O10, O14, O16}.
B6={ O3, O5, O6, O7, O8, O9, O11, O12, O13, O15 }.
d6=[3,32; 2,87; 2,26; 2,97; 2,54; 3,31; 2,73; 3,67; 2,86; 2,55]
(3-2) (5-1) (6-10) (7-1) (8-10) (9-10) (11-16) (12-1) (13-2) (15-10)
Krok 7:
A7={O1, O2, O4, O6, O10, O14, O16}.
B7={ O3, O5, O7, O8, O9, O11, O12, O13, O15 }.
d7=[3,32; 2,87; 2,35; 2,54; 3,19; 2,20; 3,67; 2,86; 2,28]
(3-2) (5-1) (7-6) (8-10) (9-6) (11-6) (12-1) (13-2) (15-6)
Krok 8:
A8={O1, O2, O4, O6, O10, O11, O14, O16}.
B8={ O3, O5, O7, O8, O9, O12, O13 O15, }.
d8=[3,32; 2,87; 2,35; 2,54; 3,19; 3,67; 2,86; 2,28]
(3-2) (5-1) (7-6) (8-10) (9-6) (12-1) (13-2) (15-6)
Krok 9:
A9={O1, O2, O4, O6, O10, O11, O14, O15, O16}.
B9={ O3, O5, O7, O8, O9, O12, O13 }.
d9=[3,32; 2,87; 2,35; 2,54; 3,19; 3,62; 2,86]
(3-2) (5-1) (7-6) (8-10) (9-6) (12-15) (13-2)
Krok 10:
A10={O1, O2, O4, O6, O7, O10, O11, O14, O15, O16}.
B10={ O3, O5, O8, O9, O12, O13 }.
d10=[3,32; 2,87; 2,54; 3,19; 3,62; 2,86]
(3-2) (5-1) (8-10) (9-6) (12-15) (13-2)
Krok 11:
A11={O1, O2, O4, O6, O7, O8, O10, O11, O14, O15, O16}.
B11={ O3, O5, O9, O12, O13 }.
d11=[3,32; 2,87; 3,19; 3,62; 2,86]
(3-2) (5-1) (9-6) (12-15) (13-2)
Krok 12:
A12={O1, O2, O4, O6, O7, O8, O10, O11, O13, O14, O15, O16}.
B12={ O3, O5, O9, O12 }.
d12=[2,27; 2,87; 3,19; 3,62]
(3-13) (5-1) (9-6) (12-15)
Krok 13:
A13={O1, O2, O3, O4, O6, O7, O8, O10, O11, O13, O14, O15, O16}.
B13={ O5, O9, O12 }.
d13=[2,87; 3,19; 3,62]
(5-1) (9-6) (12-15)
Krok 14:
A14={O1, O2, O3, O4, O5, O6, O7, O8, O10, O11, O13, O14, O15, O16}.
B14={ O9, O12 }.
d14=[3,19; 3,43]
(9-6) (12-5)
Krok 15:
A15={O1, O2, O3, O4, O5, O6, O7, O8, O9, O10, O11, O13, O14, O15, O16}.
B15={ O12 }.
d15=[3,43]
(12-5)
W tym kroku procedury ostatnie województwo (O12), które znajdowało się w zbiorze B15 przeszło do A15. Kolejne kroki procedury przedstawiamy w formie graficznej budując dendryt, którego wierzchołki tworzą województwa kolejno przechodzące do zbioru A. Długości łączących ich wiązadeł są równe odległościom pomiędzy odpowiednimi województwami. Dendryt ten ma identyczną postać jak dendryt utworzony za pomocą metody taksonomii wrocławskiej (rys. 2.6).
Rys. 2.6. Dendryt Prima.
Przykład 2.11
Na podstawie wystandaryzowanych wartości zmiennych diagnostycznych przedstawionych na rysunku 2.8 przeprowadzono porządkowanie województw Polski, ze względu na poziom życia osiągnięty w 2005 r., w oparciu o metody drzewkowe.
Rys. 2.8. Tablica z danymi do przykładu 2.11.
Wykorzystaliśmy w tym celu pakiet STATISTICA. Budowę drzewka (dendrogramu) wykonujemy w module Analiza skupień. Moduł ten uruchamiamy wybierając z menu Statystyka opcję Wielowymiarowe techniki eksploracyjne/Analiza skupień (rys. 2.9).
Rys. 2.9. Opcje modułu Wielowymiarowe techniki eksploracyjne.
Po wybraniu tego modułu na ekranie pojawia się okno Metoda grupowania (rys. 10).
Rys. 2.10. Okno Metoda grupowania.
W oknie tym na karcie Podstawowe wybieramy metodę grupowania Aglomerację. Na ekranie pojawia się okno pozwalające na zdefiniowanie założeń procedury grupowania (rys. 2.11).
Rys. 2.11. Okno definicji założeń procedury grupowania obiektów.
W oknie możemy wybrać jedną z dwóch kart: Podstawowe i Więcej. Wybieramy kartę Więcej, która pozwala na dokładne określenie założeń procedury grupowania. Ustalenie założeń grupowania rozpoczynamy od wyboru zmiennych, charakteryzujących poziom życia województw. W tym celu klikamy klawisz Zmienne. Na ekranie otrzymujemy okno Wybierz zmienne do analizy (rys. 2.12).
Rys. 2.12. Okno Wybierz zmienne do analizy.
Ponieważ grupowanie województw będziemy prowadzili w oparciu o wszystkie wcześniej określone zmienne diagnostyczne wybieramy wszystkie zmienne klikając klawisz Wszystkie i akceptujemy wybór klawiszem OK.
Następnie ustalamy postać pliku wejściowego danych. Lista postaci pliku wejściowego zawiera opcje: Dane surowe i Macierz odległości (rys. 2.11). Nasze dane mają postać zwykłego pliku danych STATISTICA, a tym samym pozostawiamy wybrane domyślnie na liście Dane surowe. W kolejnym kroku określamy co stanowi obiekt porównań (grupowania), a co jest przestrzenią porównania. Ponieważ naszym celem jest grupowanie województw, opisywanych przez kolejne zmienne (występujące w kolumnach) na liście Grupuj zmieniamy domyślnie opcję Zmienne (kolumny) na Przypadki (wiersze). Tym samym przedmiotem porządkowania są województwa w przestrzeni zmiennych.
W następnym etapie dokonujemy wyboru metody aglomeracji. Rozwijamy w tym celu listę Metody aglomeracji. Lista ta zawiera 7 metod aglomeracyjnych: Pojedynczego wiązania (najbliższego sąsiedztwa), Pełnego wiązania (najbliższego sąsiedztwa), Średnich połączeń, Średnich połączeń ważonych, Środków ciężkości, Ważonych środków ciężkości (mediany) oraz Metodę Warda. W naszym przykładzie wybieramy metodę Pełnego wiązania. W kolejnym kroku dokonujemy wyboru postaci miary odległości między obiektami (województwami). Na rozwijanej liście Miary odległości mamy do wyboru 7 miar: Odległość euklidesową, Kwadrat odległości euklidesowej, Odległość miejską (Manhattan), Odległość Czebyszewa, Odległość potęgową, Niezgodność procentową i l-r Pearsona (gdzie r jest współczynnikiem korelacji liniowej Pearsona).
Po ustaleniu założeń procedury (rys. 2.13) akceptujemy je klawiszem OK.
Rys. 2.13. Okno ze zdefiniowanymi założeniami procedury grupowania obiektów.
Na ekranie pojawi się okno Wyniki aglomeracji (rys. 2.14).
Rys. 2.14. Okno Wyniki aglomeracji.
W górnej części okna znajduje się ogólne podsumowanie założeń analizy. Natomiast w dolnej części okna znajdują się klawisze otwierające szereg arkuszy wynikowych analizy. W prawej, dolnej części okna znajdują się klawisze Macierz odległości oraz Statystyki opisowe. Klikając klawisz Statystyki opisowe otwieramy arkusz zawierający średnie arytmetyczne i odchylenia standardowe (łącznie ze wszystkich zmiennych wejściowych) dla kolejnych województw (rys. 2.15).
Rys. 2.15. Tablica z wartościami średnich arytmetycznych i odchyleń standardowych.
Natomiast klikając klawisz Macierz odległości otrzymujemy arkusz z macierzą odległości euklidesowej między województwami (rys. 2.16).
Rys. 2.16. Macierz odległości euklidesowych.
W lewej dolnej części okna Wyniki aglomeracji znajdują się klawisze wywołujące arkusze właściwych wyników grupowania. Kliknięcie klawisza Przebieg aglomeracji otwiera arkusz przedstawiający przebieg grupowania województw (rys. 2.17).
Rys. 2.17. Arkusz przebiegu aglomeracji województw.
W pierwszej kolumnie arkusza znajdują się odległości wiązań, na których zostały utworzone odpowiednie grupy województw. Natomiast w kolejnych wierszach zostały podane nazwy województw, które tworzą odpowiednie grupy przy danych odległościach wiązań.
Przyciśnięcie klawiszy Poziomy hierarchiczny wykres drzewka lub Pionowy wykres sopelkowy w oknie Wyniki aglomeracji spowoduje otworzenie okna zawierającego drzewko (dendrogram) będące graficzną ilustracją przebiegu tworzenia grup województw. Kliknięcie klawisza Poziomy hierarchiczny wykres drzewka powoduje pojawienie się okna z poziomym wykresem drzewka, a uruchomienie klawisza Pionowy wykres sopelkowy otworzy okno z pionowym wykresem drzewka (rys. 2.18).
Rys. 2.18. Pionowy wykres sopelkowy (drzewko powiązań) dla metody pełnego wiązania (najdalszego sąsiedztwa).
W przypadku obu typu wykresów mamy możliwość utworzenia poza drzewkiem z prostokątnymi gałęziami także drzewko z ukośnymi gałęziami. Wyboru jednego z typów gałęzi dokonujemy zaznaczając lub nie opcję Prostokątne gałęzie. Ponadto mamy możliwość wyboru opcji Skaluj:100* odl. wiązania/odl. maks. (rys. 2.19), powodującej przeskalowanie drzewka poprzez podzielenie odległości każdego wiązania przez maksymalną odległość wiązania i przemnożenie wyniku przez 100 (rys. 2.20).
Rys. 2.19. Okno Wyniki aglomeracji.
Rys. 2.20. Przykładowy wykres sopelkowy (drzewko powiązań) dla metody pełnego wiązania (najdalszego sąsiedztwa).
Wreszcie możemy otrzymać liniowy wykres kolejnych etapów wiązania województw, klikając klawisz Wykres przebiegu aglomeracji. Wykres ten może być wykorzystany do grupowania województw (por. rozdz.3.3.2). Poniżej przedstawiamy trzy drzewka uzyskane przy zastosowaniu różnych metod aglomeracji, tzn. pełnego wiązania, pojedynczego wiązania oraz metody Warda, przy identycznych pozostałych założeniach grupowania województw (rys. 2.21). Sposób wiązania województw (postać drzewka) wyraźnie zależy od wybranej metody aglomeracji.
Rys. 2.21. Pionowe wykresy sopelkowe (drzewka powiązań) dla metod pełnego wiązania, pojedynczego wiązania i metod Warda.
16