analiza dyskryminacyjna p


Przykład 9.1

Ilustrację zastosowania analizy dyskryminacyjnej stanowi przykład oceny zdolności dyskryminacyjnej zmiennych charakteryzujących poziom rozwoju wybranych losowo 728 gmin miejskich, wiejskich i miejsko-wiejskich w Polsce w 2005 r., a następnie klasyfikacja gmin do tych grup gmin na podstawie zmiennych o istotnej zdolności dyskryminacyjnej. Wyjściowy zbiór zmiennych, które zostały następnie poddane ocenie zdolności dyskryminacyjnej, zawierał następujące zmienne:

C11.1 - liczba mieszkań ogółem na 1 mieszkańca,

D1.1 - liczba aptek ogółem na 1 mieszkańca,

E13.1 - liczba gimnazjów dla dzieci i młodzieży na 100 osób w wieku 13-15 lat,

K1.1 - udział powierzchni użytków rolnych w powierzchni gminy ogółem,

N1.1 - liczba jednostek (firm) zarejestrowanych w systemie REGON,

O1.1 - dochody gminy ogółem w tys. zł na osobę,

O1.1A - dochody własne gminy w tys. zł na osobę,

O1.10 - subwencje ogólne w tys. zł na osobę,

O1.12 - dotacje celowe z budżetu państwa w tys. zł na osobę,

O1.16 - dotacje otrzymane z funduszy celowych w tys. zł na osobę.

Zmienne powyższe zostały wstępnie poddane standaryzacji. Fragment arkusza zawierający wartości tych zmiennych przedstawiono na rysunku 9.1.

Rys. 9.1. Fragment tablicy z danymi do Przykładu 9.1.

0x01 graphic

Analizę przeprowadzono z wykorzystaniem pakietu STATISTICA. Odpowiedni moduł analityczny uruchamiamy wybierając z menu STATISTICA opcję Wielowymiarowe techniki eksploracyjne/Analiza dyskryminacyjna (rys. 9.2).

Rys. 9.2. Opcje modułu Wielowymiarowe techniki eksploracyjne.

0x01 graphic

Na ekranie otrzymujemy wstępne okno modułu analizy dyskryminacyjnej (rys. 9.3).

Rys. 9.3. Wstępne okno modułu analizy dyskryminacyjnej.

0x01 graphic

Klikając w oknie klawisz Zmienne otwieramy okno Wybierz zmienną grupującą i listę zmiennych niezależnych (rys. 9.4).

Rys. 9.4. Okno wyboru zmiennych do analizy.

0x01 graphic

W lewym oknie wybieramy zmienną grupującą NOWAZM. W prawej części okna wybieramy wszystkie pozostałe zmienne, charakteryzujące gminy. Nasz wybór akceptujemy klawiszem OK.

Wracamy do wstępnego modułu analizy dyskryminacyjnej, w którym klikamy klawisz Kody zmiennej grupującej otrzymując okno Wybierz kody zmiennej grupującej (rys. 9.5).

Rys. 9.5. Okno Wybierz kody zmiennej grupującej.

0x01 graphic

W oknie tym klikamy klawisz Wszystkie i akceptujemy nasz wybór klawiszem OK. W efekcie przyporządkowaliśmy poszczególnym gminom odpowiadające im kody typu gminy, które będą pojawiały się w trakcie dalszej analizy, a mianowicie:

Na zakończenie ustalania założeń analizy akceptujemy opcję Więcej opcji (analiza krokowa) klikając w odpowiednie okienko. Pozwoli to nam prześledzenie etapów badania mocy dyskryminacyjnej zmiennych charakteryzujących gminy (włączania ich do funkcji dyskryminacyjnych) oraz udostępnienie różnych opcji zawierających miary opisujące własności zmiennych wejściowych. Przyjęte założenia analizy funkcji dyskryminacyjnych (rys. 9.6) akceptujemy klawiszem OK.

Rys. 9.6. Okno analizy funkcji dyskryminacyjnych z przyjętymi założeniami.

0x01 graphic

W efekcie otrzymujemy okno Definicja modelu (rys. 9.7).

Rys. 9.7. Okno Definicja modelu.

0x01 graphic

Rozwijając listę w oknie Metoda mamy możliwość wyboru jednej z trzech metod konstrukcji funkcji dyskryminacyjnej. Wybór opcji Standardowa powoduje wprowadzenie do modelu (równania funkcji dyskryminacyjnej) wszystkich wybranych zmiennych. Wybór opcja Krokowa postępująca prowadzi do wprowadzania do modelu kolejnych zmiennych o najwyższej mocy dyskryminacyjnej. Wreszcie zdecydowanie się na opcję Krokowa wsteczna powoduje wprowadzenie na początku do modelu wszystkich zmiennych, a następnie usuwanie z niego w kolejnych krokach zmiennych o najmniejszej mocy dyskryminacyjnej. W tych dwóch ostatnich opcjach procedura włączania do modelu/usuwania z modelu zmiennych zostaje zakończona gdy są spełnione pewne założenia zatrzymania procedury przez użytkownika. Spośród powyższych opcji wybieramy metodę krokową budowy funkcji dyskryminacyjnej. W ramach okna Definicja modelu pojawiają się pola, w których należy podać założenia konstrukcji funkcji dyskryminacyjnej (rys. 9.8).

Rys. 9.8. Okno Definicja modelu po wyborze metody krokowej postępującej dla konstrukcji funkcji dyskryminacyjnej.

0x01 graphic

W pierwszym z nich, Tolerancja wskazujemy jaki odsetek nowych informacji o gminach, nie powielanych ze zmiennymi już wprowadzonymi do modelu, musi wnosić dana zmienna aby została wprowadzona do modelu. Wartość tolerancji jest równa dopełnieniu do 1 współczynnika determinacji zmiennej wprowadzanej do modelu ze zmiennymi już wprowadzonymi do modelu. Pozostawiamy w polu Tolerancja domyślną wartość 0,01, co oznacza że nowa zmienna, aby zostać wprowadzona do modelu, musi wnosić do niego przynajmniej 1% nowych, nie wniesionych już do modelu przez znajdujące się w nim zmienne, informacji o badanych gminach.

Następnym parametrem, którego wartość należy ustalić jest F wprowadzenia. Czym wyższa wartość tego parametru dla danej zmiennej, tym wyższa jej moc dyskryminacyjna. Jeżeli wartość parametru F dla danej zmiennej będzie większa niż wprowadzona do okna opcji F wprowadzenia, zmienna ta zostanie wprowadzona do modelu. Innymi słowy im niższa wartość F wprowadzenia tym więcej zmiennych wprowadzimy do modelu. Pozostawiamy w oknie Definicja modelu wartość domyślną 1. Wpływ kolejnej opcji F usunięcia na budowę modelu, w przypadku wyboru metody analizy krokowej postępującej, powinniśmy pominąć pozostawiając wartość domyślną 0. Wartość ta wskazuje bowiem przy jakiej wielkości parametru F usuwamy zmienną z modelu i parametr ten powinien być tym samym stosowany przy wyborze metody Krokowa wsteczna do konstrukcji funkcji dyskryminacyjnej.

Kolejnym założeniem konstrukcji modelu jest liczba kroków wprowadzania zmiennych do modelu ustalana w ramach opcji Liczba kroków. Jeżeli chcemy wprowadzić do modelu wszystkie zmienne, pod warunkiem spełnienia przez nie wcześniejszych założeń, wartość wybrana w tej opcji nie powinna być mniejsza niż liczba zmiennych. Wskazuje to na zasadność pozostawienia domyślnej liczby kroków 10. W ramach ostatniej opcji Wyświetl wyniki ustalamy zakres wyników, które będą pokazywane podczas analizy. Jeżeli wybieramy wariant Tylko podsumowanie program przeprowadzi cała procedurę budowy modelu pokazując tylko ostateczne wyniki uzyskane po ostatnim kroku. Wybór wariantu Dla każdego kroku pozwala na wywoływanie okien z wynikami po każdym kroku budowy modelu, poczynając od kroku 0. W naszym przykładzie wybieramy ten drugi wariant opcji kończąc ustalanie założeń do konstrukcji modelu (rys. 9.9).

Rys. 9.9. Okno Definicja modelu z przyjętymi założeniami zasad konstrukcji funkcji dyskryminacyjnych.

0x01 graphic

Nasze wybory akceptujemy klawiszem OK. Na ekranie, na karcie Więcej, ukazuje się okno Wyniki analizy funkcji dyskryminacyjnej w kroku 0 (rys. 9.10).

Rys. 9.10. Okno Wyniki analizy funkcji dyskryminacyjnej w kroku 0.

0x01 graphic

Krok 0 oznacza, że nie rozpoczęliśmy jeszcze wyboru zmiennych, które zostaną użyte do budowy funkcji dyskryminacyjnych. Powoduje to, że niektóre klawisze w oknie są nieaktywne. Istotne informacje, dla dalszych etapów budowy modelu, uzyskujemy jedynie w oknie, które otrzymujemy klikając klawisz Zmienne poza modelem (rys. 9.11).

Rys. 9.11. Tablica z charakterystykami zmiennych znajdujących się poza modelem w kroku 0.

0x01 graphic

Informacje zawarte w arkuszu pozwalają m. in. wskazać, które zmienne nie znajdują się w modelu i jaka jest ich relatywna (w porównaniu z innymi zmiennymi) moc informacyjna.

W pierwszej kolumnie mamy podane wartości statystyki lambda Wilksa, określone wzorem (9.10), po wprowadzeniu danej zmiennej do modelu. Stanowi ona ocenę mocy dyskryminacyjnej modelu (wszystkich zmiennych wprowadzonych do modelu łącznie). Przypominamy, że czym mniejsza wartość tej statystyki tym większa moc dyskryminacyjna modelu. W kolejnej kolumnie podawane są wartości Cząstkowych lambda Wilksa (9.8). Określają one wkłady poszczególnych zmiennych do dyskryminacji grup gmin. Czym mniejsza wartość tej statystyki tym większa moc dyskryminacyjna danej zmiennej. Ze względu na fakt, że do modelu nie wprowadzono żadnej zmiennej wartości cząstkowych lambda Wilksa są takie same jak wartości lambda Wilksa.

W trzeciej kolumnie tablicy znajdują się wartości F wprowadzenia dla zmiennych wejściowych. Kolejność uporządkowania zmiennych wejściowych ze względu na wartości statystyki F jest zgodna z hierachią ich mocy dyskryminacyjnej i jednocześnie identyczna z ich uporządkowaniem ze względu na wartości cząstkowej lambda Wilksa. Wartości statystyki F mierzą tym samym moc dyskryminacyjną zmiennych i wskazują na kolejność wprowadzania zmiennych wejściowych do modelu. Najwyższą wartość statystyki F posiada zmienna O1,10(F=276,9) i ona jako pierwsza znajdzie się w modelu. Do modelu nie weszłyby natomiast zmienne O1,1oraz O1,16, dla których wartości statystyki F są mniejsze od założonej wcześniej minimalnej wartości tej statystyki równej 1. Wartości wszystkich trzech wymienionych statystyk w trakcie budowy modelu będą ulegały zmianom, ze względu na skorelowanie zmiennych wejściowych wprowadzanych do modelu. Tym samym może także ulec zmianie zbiór zmiennych, które znajdą się ostatecznie w modelu.

Podawany w kolejnej kolumnie tablicy krytyczny poziom p nie może być interpretowany identycznie jak w testach istotności dotyczących równości średnich wartości danej zmiennej w grupach gmin. Nie weryfikujemy tutaj hipotezy, że dana zmienna istotnie różnicuje grupy gmin lecz czy wnosi istotny wkład do modelu (zmiennej dyskryminacyjnej) wyjaśniającego zróżnicowanie grup gmin.

Wartości Tolerancji oraz R-kwadrat, równe są dla każdej zmiennej 1,0 oraz 0,0 gdyż do modelu nie wprowadzono jeszcze żadnej zmiennej.

Klikając klawisz Dalej, w prawym dolnym rogu okna Wyniki analizy funkcji dyskryminacyjnej (rys. 9.10), wprowadzamy do modelu kolejne zmienne zgodnie z ich mocą dyskryminacyjną.

Dla prezentacji procedury budowy modelu omówimy przykładowo jej wybrane kroki. Zaczniemy od kroku 3. W kroku 3 okno Wyniki analizy funkcji dyskryminacyjnej przedstawiono na rysunku 9.12.

Rys. 9.12. Okno Wyniki analizy funkcji dyskryminacyjnej w kroku 3.

0x01 graphic

W górnej części okna znajdują się ogólne informacje dotyczące aktualnego etapu budowy modelu. Między innymi wskazany jest numer kroku budowy modelu (3) i ostatnia zmienna wprowadzona do modelu (N1.1). Na karcie Więcej uaktywnił się także klawisz Podsumowanie: Zmienne w modelu. Klikając ten klawisz otrzymujemy arkusz zawierający podsumowanie aktualnego modelu (etapu budowy funkcji dyskryminacyjnej) (9.13).

Rys. 9.13. Tablica z charakterystykami zmiennych znajdujących się w modelu w kroku 3.

0x01 graphic

Dyskryminacja typów gmin przez zmienne znajdujące się już w modelu jest wysoce istotna (lambda Wilksa=0,36391; F=158,51; p<0,0000). Wartość lambda Wilksa po wprowadzeniu do modelu ostatniej zmienne wyraźnie spadła (z 1 do 0,391) co wskazuje na znaczący wzrost jego mocy dyskryminacyjnej. Wartości F usunięcia dla każdej zmiennej jest wysoka, a krytyczny poziom istotności p=0,000 wskazuje na istotny ich wkład w dyskryminację grup gmin. W tablicy pojawiły się także wartości tolerancji różne od jedności i wartości R-kwadrat różne od zera. Przykładowo wartości tolerancji=0,826 i R-kwadrat=0,174 dla zmiennej N1.1 oznacza, że 82,6% informacji wnoszonych przez tą zmienną nie jest powielanych przez dwie pozostałe zmienne już znajdujące się w modelu. Klikając klawisz Zmienne poza modelem otwieramy okno z wartościami statystyk dla zmiennych znajdujących się jeszcze poza modelem (rys. 9.14).

Rys. 9.14. Tablica z charakterystykami zmiennych znajdujących się poza modelem w kroku 3.

0x01 graphic

Wartości statystyki F wprowadzenia wskazują, że kolejną zmienną, która zostanie wprowadzona do modelu jest zmienna K1.1.

Klikając klawisz Dalej w prawym lewym rogu okna Wyniki analizy funkcji dyskryminacyjnej przechodzimy do ostatniego 10 kroku analizy (rys. 9.15).

Rys. 9.15. Okno Wyniki analizy funkcji dyskryminacyjnej w kroku 10 końcowym.

0x01 graphic

Klawisz Zmienne poza modelem jest nieaktywny gdyż procedura wyboru zmiennych wejściowych do funkcji dyskryminacyjnej została zakończona. Klikając klawisz Podsumowanie: Zmienne w modelu otrzymujemy tablicę z podstawowymi statystykami oceniającymi moc dyskryminacyjną modelu oraz moc dyskryminacyjną poszczególnych zmiennych wejściowych (rys. 9.16).

Rys. 9.16. Tablica z charakterystykami zmiennych wprowadzanych do modelu w kolejnych krokach.

0x01 graphic

Do modelu ostatecznie nie weszła tylko zmienna O1.16. Największy wkład do dyskryminacji różnych typów gmin, na który wskazują najwyższe wartości statystyki F usunięcia oraz najniższe wartości cząstkowe lambda Wilksa, mają zmienne D1.1 oraz N1.1.

Korzystny w tym momencie byłby powrót do okna Definicja modelu oraz ponowny wybór zmiennych do analizy, pomijając zmienną O1.16. Po ponownym wykonaniu analizy otrzymujemy arkusz analogiczny jak arkusz na rysunku 9.16, jednakże już bez zmiennej O1.16 (rys. 9.17).

Rys. 9.17. Tablica z charakterystykami zmiennych dyskryminacyjnych wprowadzonych ostatecznie do modelu.

0x01 graphic

Wartości statystyk dla modelu i dla zmiennych w modelu uległy nieznacznym zmianom lecz sama hierarchia i relacje charakterystyk mocy dyskryminacyjnej zmiennych pozostały bez zmian. Klikając w oknie Wyniki analizy kanonicznej klawisz Wykonaj analizę kanoniczną otrzymujemy okno Analiza kanoniczna (rys. 9.18) pozwalające na interpretację otrzymanych funkcji dyskryminacyjnych, w których zmienne dyskryminacyjne są liniowymi funkcjami wybranych w poprzednich etapach zmiennych wejściowych istotnie dyskryminujących grupy gmin.

Rys. 9.18. Okno Analiza kanoniczna.

0x01 graphic

W pakiecie STATISTICA szacunek współczynników funkcji dyskryminacyjnych odbywa się w analogiczny sposób jak w analizie kanonicznej (por. rozdz. VII). Pierwszą grupę zmiennych stanowią zmienne dyskryminacyjne, a drugą zmienne zero-jedynkowe reprezentujące typ gminy, przyjmujące wartość 1 gdy dana gmina należy do danego typu gmin i wartość 0 w przeciwnej sytuacji.

Aby otrzymać wartości współczynników funkcji dyskryminacyjnych klikamy na karcie Więcej w oknie Analiza kanoniczna klawisz Współczynniki dla zmiennych kanonicznych.

W efekcie uzyskujemy dwa arkusze z surowymi współczynnikami i standaryzowanymi współczynnikami funkcji dyskryminacyjnych (rys. 9.19).

Rys. 9.19. Tablice z wartościami współczynników standaryzowanych i surowych funkcji dyskryminacyjnych.

0x01 graphic
0x01 graphic

W naszym przykładzie otrzymaliśmy dwie funkcje dyskryminacyjne. Dla oceny wpływu poszczególnych zmiennych na tworzenie funkcji dyskryminacyjnych korzystamy ze współczynników standaryzowanych, chociaż ze względu na wcześniejszą standaryzację zmiennych wejściowych możemy skorzystać także ze współczynników niestandaryzowanych. Największy wpływ na kształtowanie się wartości pierwszej z funkcji dyskryminacyjnych mają zmienne D1.1, O1.1 oraz O1.10. W przypadku drugiej funkcji dyskryminacyjnej tego typu zmiennymi są zmienne O1.1A i O1.1. W tablicach na rysunku 9.19 otrzymaliśmy obok współczynników funkcji dyskryminacyjnych także Wartości własne dla każdej z funkcji oraz Skumulowaną proporcję, która określa jaki procent wariancji międzygrupowej wyjaśniają kolejne funkcje dyskryminacyjne. Pierwsza z funkcji dyskryminacyjnych wyjaśnia aż ponad 97% tej wariancji, a tym samym powinna stanowić podstawę dalszych analiz.

Pomimo, że druga z funkcji dyskryminacyjnych posiada relatywnie niewielką moc dyskryminacyjną powinniśmy zbadać jej istotność. W tym celu w oknie Analiza kanoniczna (rys. 9.18) klikamy klawisz Podsumowanie: Testy chi-kwadrat kolejnych pierwiastków otrzymując wyniki testowania istotności zmiennych (funkcji) dyskryminacyjnych (rys. 9.20). Wartości krytycznych poziomów istotności p w ostatniej kolumnie tablicy wskazują, że obie funkcje dyskryminacyjne są istotne.

Rys. 9.20. Tablica z wynikami testu istotności zmiennych dyskryminacyjnych.

0x01 graphic

Po stwierdzeniu, że obie funkcje dyskryminacyjne są istotne przechodzimy do określenia charakteru tej dyskryminacji. Zaczniemy od oceny numerycznej klikając klawisz Średnie zmiennych kanonicznych (rys. 9.21).

Rys. 9.21. Tablica z średnimi wartościami zmiennych dyskryminacyjnych.

0x01 graphic

W otrzymanej tablicy, w kolejnych kolumnach, znajdują się przeciętne wartości zmiennych dyskryminacyjnych dla każdego typu gmin. Różnice pomiędzy średnimi wartościami zmiennych dyskryminacyjnych dla gmin są znacząco większe dla pierwszej ze zmiennych dyskryminacyjnych niż dla drugiej z nich. Pierwsza funkcja dyskryminacyjna odróżnia przede wszystkim gminy miejskie od gmin wiejskich. Średnia wartość pierwszej funkcji dyskryminacyjnej dla gmin miejsko-wiejskich jest nieznacznie bardziej bliska średniej wartości tej funkcji dla gmin wiejskich niż gmin miejskich. Natomiast druga funkcja dyskryminacyjna rozróżnia przede wszystkim gminy miejsko-wiejskie od pozostałych typów gmin.

Charakter dyskryminacji możemy także ocenić w formie graficznej. W oknie Analiza kanoniczna otwieramy kartę Wartości kanoniczne (rys. 9.22).

Rys. 9.22. Karta Wartości kanoniczne.

0x01 graphic

Na karcie tej klikamy klawisz Wykres rozrzutu wartości kanonicznych otrzymując wykres 9.23.

Rys. 2.23. Wykres konfiguracji punktów reprezentujących gminy w układzie wyznaczonym przez zmienne (osie) dyskryminacyjne.

0x01 graphic

Na wykresie wyraźnie widać, że współrzędne zdecydowanej większości punktów reprezentujących gminy miejskie względem pierwszej zmiennej (osi) dyskryminacyjnej mają znacznie wyższe wartości od analogicznych współrzędnych punktów reprezentujących gminy wiejskie. Natomiast współrzędne punktów reprezentujących gminy miejsko-wiejskie względem pierwszej zmiennej dyskryminacyjnej przyjmują wartości z górnej części przedziału zmienności współrzędnych dla gmin wiejskich i dolnej części przedziału zmienności współrzędnych dla gmin miejskich. Ze względu na niewielką dyskryminację typów gmin drugiej ze zmiennych dyskryminacyjnych przedziały zmienności współrzędnych gmin różnych typów w sposób znaczący pokrywają się.

Wartości współrzędnych pojedynczych punktów, reprezentujących poszczególne gminy, prezentowanych na wykresie 9.23 (w układzie osi czynnikowych), uzyskać możemy klikając w oknie Analiza kanoniczna na karcie Wartości kanoniczne klawisz Wartości kanoniczne dla każdego przypadku. Otrzymujemy tablicę, w której kolumnach znajdują się właśnie wartości zmiennych dyskryminacyjnych dla każdej objętej badaniem gminy (rys. 9.24).

Rys. 9.24. Fragment tablicy z wartościami zmiennych dyskryminacyjnych dla gmin.

0x01 graphic

Interpretacji otrzymanych zmiennych dyskryminacyjnych dokonujemy, w analogiczny sposób jak czynników w innych metodach czynnikowych, w oparciu o postać strukturalną modelu. Poszczególne zmienne wejściowe przedstawiane są jako kombinacja zmiennych dyskryminacyjnych. Parametry funkcji, zwane ładunkami czynnikowymi, są jednocześnie współczynnikami korelacji liniowej pomiędzy zmiennymi wejściowymi i zmiennymi dyskryminacyjnymi. Wartości tych współczynników otrzymujemy klikając w oknie Analiza czynnikowa, na karcie Więcej (rys. 9.18) klawisz Struktura czynnikowa. Z wartości występujących w pierwszej otrzymanej kolumnie tablicy (rys. 9.25) wynika, że kwadraty współczynników korelacji dla żadnej ze zmiennych wejściowych nie przekraczają wartości 0,5 co znacząco utrudnia interpretację pierwszej ze zmiennych dyskryminacyjnych.

Rys. 9.25. Tablica z wartościami współczynników korelacji (ładunków czynnikowych) zmiennych wejściowych ze zmiennymi dyskryminacyjnymi.

0x01 graphic

Możemy jednocześnie stwierdzić że zmienna ta przede wszystkim reprezentuje własności dyskryminacyjne zmiennych wejściowych O1.10, D1.1, C11.1 i N1.1. W przypadku drugiej ze zmiennych dyskryminacyjnych jej zdolność dyskryminacyjna typów gmin jest wynikiem zdolności dyskryminacyjnej zmiennej wejściowej E13.1.

Drugie z zastosowań analizy dyskryminacyjnej, do klasyfikacji obiektów do grup obiektów, zilustrujemy korzystając z tych samych danych jak w przypadku procedury dyskryminacji tych gmin. Jedyną różnicą jest eliminacja ze zbioru zmiennych wejściowych zmiennej O1.16, której moc dyskryminacyjna typów gmin okazała się nieistotna. Po ponownym przeprowadzeniu analizy funkcji dyskryminacyjnej otrzymujemy okno Wyniki analizy funkcji dyskryminacyjnej, w którego górnej części znajduje się podsumowanie wyników (rys. 9.26).

Rys. 9.26. Okno Wyniki analizy funkcji dyskryminacyjnej.

0x01 graphic

Aby przejść do klasyfikacji gmin do grup typów gmin w oknie tym klikamy klawisz Klasyfikacja. Otwieramy w ten sposób kartę umożliwiającą zarówno ustalenie założeń klasyfikacji jak i przeprowadzenie samej procedury klasyfikacji (rys. 9.27).

Rys. 9.27. Karta Wyniki analizy funkcji dyskryminacyjnej.

0x01 graphic

Procedurę rozpoczynamy od wyboru sposobu określenia prawdopodobieństwa a priori. Wyboru tego dokonujemy wybierając w ramach opcji Prawdopodobieństwa klasyfikacyjne a priori jedną z trzech opcji: Proporcjonalnie do wielkości grup, Jednakowe dla wszystkich grup, Zdefiniowane przez użytkownika. Ponieważ nasz przykład ma wyłącznie ilustracyjny charakter pozostawimy domyślną opcję Proporcjonalnie do wielkości grup. Po ustaleniu prawdopodobieństwa a priori przystępujemy do konstrukcji funkcji klasyfikacyjnych dla każdego typu gmin klikając klawisz Funkcje klasyfikacyjne. Otrzymujemy tablicę, w której kolumnach znajdują się współczynniki funkcji klasyfikacyjnych (rys. 9.28), dla kolejnych typów gmin: miejskich, wiejskich i miejsko-wiejskich.

Rys. 9.28. Tablica z wartościami współczynników funkcji klasyfikacyjnych.

0x01 graphic

Ze względu na niewielkie różnice w liczebnościach gmin w poszczególnych ich typach stosowanie liniowej postaci funkcji klasyfikacyjnych należy uznać za zasadne. Czym wyższa wartość bezwzględna współczynnika stojącego przy danej zmiennej wejściowej tym większy jej wpływ na tworzenie danej funkcji klasyfikacyjnej i samą klasyfikację danej gminy do danego typu gmin.

W oparciu o otrzymane funkcje klasyfikacyjne możemy dokonać kwalifikacji poszczególnych gmin do typów gmin. Program daje nam do wyboru dwa rodzaje postępowania. Możemy, w oparciu o otrzymane funkcje klasyfikacyjne, klasyfikować do typów gmin te gminy, których wartości charakterystyk (wartości zmiennych wejściowych) zostały wykorzystane do konstrukcji funkcji klasyfikacyjnych. Mamy wtedy do czynienia z tzw. klasyfikacją post hoc. Druga z możliwości to tzw. klasyfikacja a priori, czyli klasyfikacja do typów gmin tych gmin, których wartości charakterystyk nie były uwzględnione przy konstrukcji funkcji klasyfikacyjnych. Oczywiście częstość trafności klasyfikacji post hoc zawsze będzie większa od częstości trafności klasyfikacji a priori. Jeżeli chcemy przeprowadzić klasyfikację a priori klikamy klawisz Selekcja w ramach opcji Wybór przypadków do klasyfikacji (rys. 9.27) otrzymując okno Warunki selekcji przypadków do analizy lub wykresu (rys. 9.29).

Rys. 9.29. Okno Warunki selekcji przypadków dla analizy lub wykresu.

0x01 graphic

Oczywiście w momencie rozpoczynania analizy dyskryminacyjnej należałoby włączyć wcześniej do zbioru danych wartości zmiennych o gminach, które to gminy nie byłyby wcześniej brane pod uwagę w konstrukcji funkcji dyskryminacyjnych. Wtedy po skonstruowaniu funkcji klasyfikacyjnych, wykorzystując opcje z okna Warunki selekcji przypadków do analizy lub wykresu, moglibyśmy dokonać klasyfikacji do grup typów gmin tylko gmin wyłączonych z procedury konstrukcji funkcji klasyfikacyjnych.

Ze względu na ilustracyjny charakter naszego przykładu skoncentrujemy się wyłącznie na klasyfikacji post hoc. Dla ogólnej oceny trafności klasyfikacji poszczególnych gmin do typów gmin klikamy na karcie Klasyfikacja klawisz Macierz klasyfikacji. Na ekranie otrzymujemy tablicę zawierającą informacje na temat liczby i odsetka gmin poprawnie sklasyfikowanych w każdej z grup gmin (rys. 9.30).

Rys. 9.30. Macierz trafności klasyfikacji gmin do typów gmin.

0x01 graphic

W naszym przykładzie ponad 75% gmin zostało poprawnie zakwalifikowanych do typów gmin. Najlepszy wynik uwzględniliśmy dla gmin miejskich (85,5%), dla których wartości zmiennych uwzględnionych w badaniu znacząco różnią się od wartości tych zmiennych dla gmin innego typu. Najmniejszy odsetek trafnych klasyfikacji wystąpił dla gmin miejsko-wiejskich (64,2%), które posiadają wartości charakterystyk pośrednie pomiędzy gminami miejskimi i gminami wiejskimi.

Dla poznania wyników klasyfikacji pojedynczych gmin, za pomocą funkcji klasyfikacyjnych, klikamy na karcie Klasyfikacja klawisz Klasyfikacja przepadków. W otrzymanej tablicy, której fragment został przedstawiony na rysunku 9.31, uzyskujemy wyniki klasyfikacji każdej z gmin.

Rys. 9.31. Fragment tablicy wyników klasyfikacji gmin.

0x01 graphic

W pierwszej z kolumn zaznaczono gwiazdkami gminy, które zostały błędnie zakwalifikowane do typu gminy. W drugiej z kolumn znajdują się symboliczne nazwy gmin. W kolejnych kolumnach znajdują się klasyfikacje gmin według pierwszego, drugiego i trzeciego wyboru, tzn. typy gmin, dla których dana gmina miała kolejno największe prawdopodobieństwo a posteriori.

Do klasyfikacji gmin do wyróżnionych ich typów możemy także wykorzystać, zamiast funkcji klasyfikacyjnych, procedurę opartą na odległości Mahalanobisa. Kwadraty odległości Mahalanobisa poszczególnych gmin od środków ciężkości grup gmin, składających się z gmin danego typu, otrzymujemy klikając na karcie klasyfikacja klawisz Kwadraty odległości Mahalanobisa (rys. 9.32).

Rys. 9.32. Fragment tablicy z wartościami kwadratów odległości Mahalanobisa gmin od środków ciężkości grup gmin.

0x01 graphic

W pierwszej kolumnie zaznaczono gwiazdkami gminy, których klasyfikacja do typu gminy okazała się błędna. W kolejnych kolumnach podawane są właśnie kwadraty odległości Mahalanobisa od środków ciężkości grup gmin poszczególnych typów. Oczywiście dana gmina zostaje zakwalifikowana do tego typu gmin, od którego środka ciężkości jest najmniej odległa.

Klikając na karcie Klasyfikacja klawisz Prawdopodobieństwa a posteriori uzyskujemy tablicę z prawdopodobieństwami a posteriori, że dana gmina należy do danego typu gmin (rys. 9.33).

Rys. 9.33. Fragment tablicy z wartościami prawdopodobieństw a posteriori.

0x01 graphic

Błędne klasyfikacje zostały zaznaczone w pierwszej kolumnie tablicy gwiazdkami. W kolejnych kolumnach podawane są, dla poszczególnych gmin, prawdopodobieństwa a posteriori zakwalifikowania ich do danego typu gmin. Gmina jest ostatecznie klasyfikowana do tego typu gmin, dla którego odpowiadające gminie prawdopodobieństwo a posteriori jest największe.

7



Wyszukiwarka

Podobne podstrony:
analiza dyskryminacyjna w prognozowaniu
Wykorzystanie analizy dyskryminacyjnej w ocenie ryzyka upadłości przedsiębiorców
analiza dyskryminacyjna 2011 id Nieznany (2)
10 2 DC Analiza dyskryminacyjnaid 11278
Wybrane modele analizy dyskryminacyjnej - materiały dla studentów, Górka
PREZENTACJA analiza dyskrym CA O
Analiza dyskryminacyjna tabele 1
Analiza dyskryminacyjna, od Goldman
analiza dyskryminacyjna
6 Analiza dyskryminacyjna
10 1 DC Analiza dyskryminacyjna g3
Analiza dyskryminacyjna
Analiza funkcji dyskryminacyjnej - Opis, Psychologia, Statystyka, psychometria
Modelowanie i analiza modeli dynamicznych z dyskrytnym czasem
Analiza finansowa dyskryminacyj Nieznany (2)

więcej podobnych podstron