rozdział III Wybrane metody statystyczne

Rozdział trzeci
WYBRANE METODY STATYSTYCZNE
W ROZWIZYWANIU ZADAC KLASYFIKACJI
Proces klasyfikacji1 jest nierozerwalnie związany z myśleniem, postrzeganiem, uczeniem
się oraz podejmowaniem decyzji i oznacza dzielenie obiektów na klasy (grupy, kategorie)2.
Zadanie klasyfikacji polega na konstrukcji reguły decyzyjnej pozwalającej klasyfikować
obserwacje jako realizacje poszczególnych klas podobieństwa obiektów3. Według
Z. Hellwiga4: ... jeżeli podzbiory mają charakter klas formalnych, to mówi się o klasyfikacji,
jeżeli natomiast zbiór jest kompozycją naturalną, utworzoną ze składowych o bytach samoist-
nych, wzajem niezależnych, to mówi się o taksonomii .
Często zamiast terminu klasyfikacja używa się takich określeń jak: grupowanie, podział,
dyskryminacja, taksonomia, taksonometria, analiza skupień, identyfikacja, itp. Różnorodność
terminologii wynika przede wszystkim z tego, że metody klasyfikacji są tworzone i stosowane
przez przedstawicieli różnych dyscyplin badawczych takich jak: biologia, psychologia, eko-
nomia, matematyka, informatyka, itp. Próby usystematyzowania tych pojęć można znalezć
w pracach: T. Borys [1984]; T. Grabiński, S. Wydymus, A. Zeliaś [1989], W. Ostasiewicz
[1980], J. Pociecha, B. Podolec, A. Sokołowski i K. Zając [1988].
Klasyfikacją zajmowano się od zarania dziejów5. W starożytności hindusi dzieli ludzi na
sześć klas ze względu na płeć, warunki fizyczne i psychiczne. Przykładem może tu być rów-
nież opracowana przez Mendelejewa w XIX wieku tablica pierwiastków chemicznych.
1
Pojęcie klasyfikacji nie jest jednak jednoznaczne. Można wymienić trzy podstawowe znaczenia słowa klasyfikacja: metoda
(plan) podziału obiektów na klasy; czynność przydzielania obiektów do klasy; zbiór klas, będących wynikiem grupowania.
(Klasa to zbiór obiektów charakteryzujących się pewnymi wspólnymi własnościami).
2
Porównaj E. Gatnar [1998], s. 13. Szczegółowe omówienie teorii klasyfikacji można znalezć w pracy T. Wójcika [1965].
3
Definicję tę przytoczono za J. Kolonko [1980], s. 15.
4
Porównaj Z. Hellwig, U. Siedlecka, J. Siedlecki [1995], s. 9.
5
Porównaj J. A. Hartigan [1982], s. 1-10.
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
77
W praktyce zdania klasyfikacji zaczęto masowo wykorzystywać po sformalizowaniu al-
gorytmów (procedur) klasyfikacji, co nastąpiło w latach pięćdziesiątych i sześćdziesiątych.
Pionierem w tej dziedzinie był J. Czekanowski, który zastosował własną oryginalną metodę
do klasyfikacji 13 czaszek ludzkich6. Metoda ta znana jest pod nazwą diagramowa metoda
Czekanowskiego.
Metody klasyfikacji muszą charakteryzować się:
- ścisłością, tzn. jeden element może należeć tylko do jednej klasy;
- szybkością, szczególnie w obliczeniach numerycznych preferowane są metody, któ-
re dają większe błędy klasyfikacji, ale dokonują jej w krótszym czasie, zatem meto-
da dająca poprawne rezultaty w 80% częściej będzie stosowana niż metoda dająca
poprawne rezultaty w 95%, o ile jest np. 100 razy szybsza;
- zrozumieniem, ważne jest w procesie klasyfikacji, aby błędy nie wynikały
z niezrozumienia reguł;
- możliwością modyfikacji reguł klasyfikacyjnych, w szczególnie szybko zmieniają-
cym się otoczeniu ważne jest, aby była możliwość uwzględnienia w procesie klasy-
fikacji nowych elementów przybywających do klas7.
Jednostki badania polegające klasyfikacji nazywa się obiektami8. Przedmiotem klasyfika-
cji jest zbiór obiektów. Zbiór ten w sposób ogólny można zapisać:
&! = {O1,O2 ,...,On} (3.1)
Poszczególne elementy tego zbioru będziemy oznaczać przez Oi .
Zbiór cech przyjętych do opisu klasyfikowanych obiektów z uwagi na badane zjawisko
jest realizowany przez zbiór zmiennych losowych, które ogólnie można zapisać:
X = {x1, x2 ,..., xk} (3.2)
Poszczególne zmienne losowe z tego zbioru będziemy oznaczać przez x i nazywać
j
zmiennymi diagnostycznymi.
Macierz
X = [xij ], gdzie : i = 1,2,...,n; j = ,21 ,...,k , (3.3)
której wiersze charakteryzują obiekty Oi, a kolumny- zmienne xj nazywa się macierzą danych.
Każdy obiekt Oi jest scharakteryzowany przez wektor xi.
6
Porównaj J. Czekanowski [1913], s. 7-25.
7
Porównaj Machine lerning, Neural and Statistical Classification, [1993], s. 7-9.
8
Porównaj E. Nowak [1990], s. 13.
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
78
Zadanie klasyfikacji polega na tym, że mając dany n-elementowy zbiór
&! = {O1,O2,...,On}, zawierający obiekty badania opisywane przez k zmiennych diagnostycz-
nych X = {x1, x2 ,..., xk}, należy go podzielić na l podzbiorów (grup, klas): K1, K2 ,..., Kl
gdzie: 1 d" ld" n tak, aby były spełnione następujące warunki:
- K1 *" K2 *" ... *" Kl &!= (3.4),
- Ki *" K = " (i,j = ,21 ,...,l; i `" j) (3.5),
j
- Ki `" " (i = 1,2,...,l) (3.6).
Warunek (3.4) nosi nazwę warunku addytywności i oznacza, że suma wyodrębnionych
podzbiorów jest zbiorem &!. Warunek (3.5) nosi nazwę warunku rozłączności grup typolo-
gicznych i oznacza, że poszczególne grupy nie zawierają żadnych elementów wspólnych.
Warunek (3.6) oznacza, że w każdej klasie znajduje się przynajmniej jeden obiekt.
Liczba grup typologicznych jest znana lub nieznana. Jeżeli jest nieznana to może być za-
dawana z góry przez badacza lub wyznaczana według kryteriów statystycznych.
W literaturze pojawiło się wiele propozycji systematyzacji metod klasyfikacji z różnych
punktów widzenia. Szczegółowe rozważna na temat podziału metod klasyfikacji można zna-
lezć w pracach: P. H. A. Seneath i R. R. Sokal [1963], Z. Chojnicki i T. Czyż [1973], T. Gra-
biński [1984], T. Grabiński, S. Wydymus i A. Zeliaś [1984] i [1989], K. Jajuga [1990]
i [1987], J. Kolonko [1980], E. Nowak [1990], T. Marek [1989], B. Podolec i K. Zając
[1978], R. Tadeusiewicz [1985].
Zadania klasyfikacji można z formalnego punktu widzenia zaliczyć do problemów po-
dejmowania decyzji. Natomiast metody klasyfikacji zalicza się do szerokiej klasy metod sta-
tystycznych analizy wielowymiarowej. Jest to klasa bardzo niejednorodna i jak twierdzi
K. Jajuga [1996], s. 7, brakuje udanej próby systematyzacji wszystkich metod tej grupy.
K. Jajuga [1996], s. 8 przedstawił dość ogólny podział metod analizy wielowymiarowej na
dwie grupy:
- metody badania wewnętrznych zależności w zbiorze zmiennych;
- metody badania zewnętrznych zależności między zbiorami zmiennych.
Najbardziej znany podział metod klasyfikacyjnych to podział zaczerpnięty z teorii rozpozna-
wania obrazów na metody:
- rozpoznawania ze wzorcem (z nauczycielem) stosowane jeżeli dysponuje się pew-
nym zasobem informacji o klasach, z których pobrano obserwacje (zaliczamy do
nich m.in. analizę dyskryminacyjną);
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
79
- rozpoznawania bez wzorca (bez nauczyciela) stosowane jeżeli próba zawiera ob-
serwacje nie sklasyfikowane lub takie, których nie można wykorzystać do zbudowa-
nia funkcji klasyfikujących są to tzw. metody taksonomiczne.
3.1. METODY DOBORU ZMIENN
YCH DIAGNOSTYCZ NYCH
Cechy są atrybutami jakościowymi obiektów, które umożliwiają odróżnianie obiektów
między sobą. W przypadku metod statystycznych stosowanych do rozpoznawania obiektów
ważną sprawą jest wybór optymalnego zestawu zmiennych diagnostycznych. Powinny to być
zmienne niosące informacje ogólne, a nie unikatowe o poszczególnych jednostkach. Jednak
wiele zmiennych ekonomicznych wykazuje silną wzajemną korelację. Zatem nie można ich
wszystkich uwzględnić, ponieważ oznaczałoby to powielanie tej samej informacji9.
Dobór zmiennych diagnostycznych należy do zadań szczególnie ważnych, jako że
w znacznym stopniu zależą od niego ostateczne wyniki badania. Zestaw zmiennych diagno-
stycznych powinien być tak określony, by w sposób możliwie pełny charakteryzował najważ-
niejsze aspekty badanego zjawiska. Wybór zmiennych odbywa się w drodze przetwarzania
i analizy informacji statystycznych za pomocą odpowiednich procedur formalnych. Podstawą
do wyboru zmiennych diagnostycznych jest tzw. wstępna lista cech zaproponowana przez
badacza na podstawie ogólnej znajomości zjawiska10.
Metody doboru zmiennych diagnostycznych można podzielić na dwie grupy: merytorycz-
ne i statystyczne11. Kryterium merytoryczne jest oceną jakościową i może być przeprowadzone
w oparciu np. o metodę delficką lub tzw. burzę mózgów. Kryterium statystyczne oparte jest na
miernikach ilościowych, które wyznaczane są za pomocą formalnych procedur.
W wielu badaniach ekonomicznych istnieje potrzeba redukowania liczby zmiennych opi-
sujących badany wycinek rzeczywistości. Potrzeba ta może wynikać z faktu posiadania mało
licznej próby, a dużej liczby szacowanych parametrów lub występowania zmiennych powiela-
jących tę samą informację. Przeprowadzana redukcja musi odpowiadać pewnym wymaga-
niom, aby uzyskany opis nie fałszował rzeczywistości. Do tego celu powinno się zastosować
odpowiednie procedury. W procedurach tych dąży się do uzyskania zmiennych, które
w sposób możliwie pełny charakteryzowałyby badane jednostki, a przy tym tworzyły zespół
jak najmniej liczny. Wymagania te są spełnione wtedy, gdy zmienne diagnostyczne posiadają
następujące własności:
9
Porównaj K. Zając (red.) [1977], s. 12.
10
Porównaj B. Podolec, K. Zając [1978], s. 20.
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
80
- są nieskorelowane lub co najwyżej słabo skorelowane między sobą;
- są silnie skorelowane ze zmiennymi nie wchodzącymi do zespołu diagnostycznego;
- posiadają zdolność dyskryminacji badanych jednostek, tj. charakteryzują się wysoką
zmiennością wśród wszystkich jednostek zbioru, a niską wśród jednostek wydzielo-
nych grup;
- nie ulegają wpływom zewnętrznym.
Procedura doboru zmiennych przebiega według poniższego schematu.
1. Na podstawie wiedzy merytorycznej sporządza się zestaw tzw. pierwotnych
zmiennych diagnostycznych, którymi są wszystkie najważniejsze wielkości od-
działywujące na zmienną decyzyjną. Oznaczone przez X = {x1, x2 ,..., xk}.
2. Zbiera się dane będące realizacjami potencjalnych zmiennych diagnostycznych
w macierz X = [xij ], gdzie : i = 1,2,...,n; j = ,21 ,...,k , której wiersze charakteryzują
obiekty Oi, a kolumny- zmienne pierwotne xj oraz w przypadku występowania
T
wektor zmiennej decyzyjnej (klasyfikacyjnej) Y = [y1 y2... yn] .
3. Eliminuje się zmienne diagnostyczne odznaczające się zbyt niskim poziomem
zmienności.
4. Oblicza się współczynniki korelacji między wszystkimi rozpatrywanymi zmien-
nymi.
5. Przeprowadza się redukcję zbioru zmiennych diagnostycznych za pomocą wybra-
nej metody statystycznej.
Do oceny zmienności zmiennych diagnostycznych wykorzystuje się zwykle współczynnik
zmienności:
S
j
Vj = (3.7)
x
j
przy czym x , Sj oznaczają odpowiednio średnią arytmetyczną i odchylenie standardowe
j
j-tej zmiennej.
Wymaga się najczęściej w tym przypadku, aby cechy miały dużą zmienność, a więc wyż-
szą od arbitralnie zadanej liczby � (przyjmuje się na ogół, że �=0,1)12.
Podstawowe metody statystyczne doboru zmiennych diagnostycznych to:
- metoda analizy macierzy współczynników korelacji;
- metoda analizy czynnikowej;
11
Porównaj W. Dębski [1994].
12
Taką wartość zaleca też E. Nowak [1997], s. 12.
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
81
- metoda Hellwiga;
- metoda analizy głównych składowych.
3.1.1. METODA ANALIZY MACIERZY WSPÓACZYNNIKÓW KORELACJI
Idea metody analizy macierzy współczynników korelacji (często zwanej metodą Nowa-
ka)13 polega na wyborze takich zmiennych diagnostycznych, które są silnie skorelowane ze
zmienną niezależną i jednocześnie słabo skorelowane między sobą. Punktem wyjścia jest
wektor R0 = [ri ] (wektor współczynników korelacji dla zmiennej decyzyjnej i zmiennych dia-
gnostycznych) oraz macierz korelacji R = [rij] (współczynniki korelacji pomiędzy zmiennymi
diagnostycznymi).
Dla zadanego poziomu istotności ą oraz dla n-2 (gdzie: n - liczba obiektów) stopni swo-
body (gdzie: n - liczba obiektów) wyznacza się wartość krytyczną współczynnika korelacji ze
wzoru:
(t*ą ,n-2
)
r* = (3.8)
t*ą ,n-2 - 2
+ n
*
gdzie: tą ,n-2 jest wartością statystyki odczytanej z tablic testu t-Studenta dla danego po-
ziomu istotności ą oraz dla n-2 stopni swobody. Krytyczna wartość współczynnika korelacji
r* może być zadawana z góry.
Procedura doboru zmiennych diagnostycznych przy użyciu metody analizy macierzy
współczynników korelacji przebiega według następującego schematu.
1. Ze zbioru potencjalnych zmiennych diagnostycznych eliminuje się te wszystkie
zmienne, dla których zachodzi nierówność rj d" r * , są one nieistotnie skorelowane
ze zmienną decyzyjną.
2. Spośród pozostałych zmiennych diagnostycznych jako zmienną objaśniającą wy-
biera się taką zmienną xh, dla której rh = max{rj }. Zmienna ta jest nośnikiem naj-
j
większej informacji o zmiennej decyzyjnej.
3. Ze zbioru pozostałych zmiennych diagnostycznych eliminuje się wszystkie te
zmienne dla których rhj > r * . Są to zmienne silnie skorelowane ze zmienną xh, a
więc powielające tę samą informację.
4. Postępowanie opisane w punktach 1-3 kontynuuje się aż do momentu wyczerpania
13
Porównaj E. Nowak [1997], s. 19.
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
82
zbioru zmiennych pierwotnych.
3.1.2. METODA ANALIZY CZYNNIKOWEJ
Głównym zadaniem analizy czynnikowej14 jest wyodrębnienie najbardziej istotnych
czynników z ogółu zmiennych charakteryzujących badane zjawisko. Zamierzony cel osiąga
się za pomocą zastąpienia zmiennych pierwotnych mniej licznym zestawieniem unormowa-
nych i ortogonalnych czynników15.
Możliwość wyodrębnienia żądanych prawidłowości istnieje tylko wtedy, gdy wśród ze-
branych zmiennych znajdują się takie, które są ze sobą silnie skorelowane, a przez to mało
różnią się między sobą pod względem dostarczanych informacji o badanym zjawisku. W ta-
kim przypadku istnieje potrzeba wyeliminowania wszystkich silnie skorelowanych zmien-
nych i zastąpienia ich wielkością zwaną czynnikiem wspólnym.
Dalsze rozważania będą opierać się na zmiennych wystandaryzowanych, więc macierz
obserwacji X (3.3) musi zostać unormowana. Unormowane wartości zmiennych otrzymuje się
z wzoru:
xij - x
j
zij = (3.9)
S
j
gdzie:
zij zmienna po standaryzacji wartość j-tej zmiennej dla i-tego obiektu;
xij wartość j-tej zmiennej dla i-tego obiektu;
x średnia arytmetyczna j-tej zmiennej;
j
Sj odchylenie standardowe j-tej zmiennej.
Powiązania między wielkościami występującymi w omawianym zagadnieniu można
przedstawić w formie następującego układu równań:
z1 = a11f1 + a12f2 + ... + a1ifi + ... + a1mfm + a1u1
..............................................................................
z = a f1 + a f2 + ... + a fi + ... + a fm + a uj (3.10)
j j1 j2 ji jm j
..............................................................................
zk = a f1 + a f2 + ... + a fi + ... + a fm + a uk
k1 k2 k i km k
gdzie:
m14
Opis metody można znalezć w pracach: W. Pluta [1977], s. 49-60; T. Czyż [1971], s. 12-28; K. Jajuga [1993], s. 200-222.
15
Porównaj StatisticaTM PL [1997], s. 3193.
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
83
T
z = [z1 j , z2 j ,..., znj] wektor j-tej zmiennej pierwotnej po standaryzacji (j=1,2,...,k);
j
T
fi = [f1i , f2i ,..., fni] wektor i-tego czynnika wspólnego (i=1,2,...,m);
T
u = [u1 j ,u2 j ,...,unj] - wektor j-tego czynnika swoistego (specyficznego);
j
aji ładunek czynnikowy wektora i-tego czynnika wspólnego i wektora j-tej zmiennej
pierwotnej;
aj ładunek czynnikowy wektora j-tego czynnika swoistego.
W analizie czynnikowej przyjmuje się dwa założenia16:
- zmienne i czynniki są unormowane;
- wszystkie czynniki wspólne i specyficzne są nieskorelowane, tzn. ich współczynniki
korelacji są równe zeru.
Pojedyncze równanie układu (3.10) jest postaci:
z1 j �ł łł �ł łł u1 j
�ł łł f11 f12 f1i f1m �ł łł
�ł łł �ł łł
�łz śł
�ł �ł śł �ł śł
f21śł �ł f22 śł f2i f2m �łu2 j śł
2 j
�ł śł �ł śł
�ł śł �ł śł �ł śł �ł śł
z = = a + a + ... + a + ... + a + a (3.11)
j j1 j2 ji jm j
�ł śł �ł śł
: �ł śł �ł śł �ł śł �ł śł :
: : : :
�ł śł �łu śł
�ł śł �ł śł
znj �ł śł �ł śł
fn1 fn2 fni fnm �ł nj śł
�ł śł
�ł �ł �ł �ł �ł �ł �ł �ł
�ł �ł �ł �ł
gdzie: n liczba obiektów.
Z zapisu (3.11) wynika, że wielkości zj, fi oraz uj są wektorami zmiennych, przy czym
znane są jedynie realizacje unormowanych zmiennych pierwotnych. Rozwiązanie tego układu
równań polega na obliczeniu ładunków czynnikowych oraz wartości czynników wspólnych i
swoistych.
W analizie czynnikowej wykorzystuje się podział całkowitej wariancji na dwa składniki:
- zasób zmienności wspólnej część wariancji, objaśniana przez czynniki wspólne;
- swoistość - część wariancji, wyjaśniana przez czynniki swoiste17.
Wariancja j-tej zmiennej po standaryzacji wynosi:
n
1
2
2
S = (zij - z ) (3.12)
j " j
n
i=1
Korzystając z własności zmiennej unormowanej takiej, że z = 0 i (3.11), można zamiast
j
(3.12) zapisać:
16
Porównaj W. Pluta [1977], s. 52; T. Czyż [1971], s. 19; K. Jajuga [1993], s. 211.
17
Porównaj K. Jajuga [1993], s. 210-211.
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
84
2 2
n n
1 1
2
S = (zij ) = (a fi1 + a fi2 + ... + a fim + a uij ) =
j " " j1 j2 jm j
n n
i=1 i=1
n n n n
1 �ł
2 2
= �ła2 fi1 + a2 fi2 + ... + a2 fim + a2 2 +
j1" j 2" 2 jm" j "uij
n
�ł i=1 i=1 i=1 i=1
(3.13)
n n n
�ł
+ 2�ła a fi1 fi2 + a a fi1 fi3 + ... + a a fi1 fim +
j1 j2" j1 j3" j1 jm"
�ł i=1 i=1 i=1
n n n
�ł
�ł�ł
+ a a fi1uij + a a fi2uij +... + a a fimuij �ł�ł
j j1" j j 2" j jm"
i=1 i=1 i=1 łł
łł
Spełnione są następujące relacje:
- wariancja j-tego czynnika jest równa jeden, ponieważ zmienne oraz czynniki są
unormowane (założenie 1):
n
1
fij2 = 1, (3.14)
"
n
i=1
- współczynnik korelacji między różnymi czynnikami jest równy zero (założenie 2):
n
1
(fij - f )(fip - f )
" j p
n
1 n
i=1
fij fip = = rf f = 0, dla j `" p (3.15)
"
j p
n S S
i=1
f f
j p
Zależność (3.13) można więc zapisać w postaci:
2
S = 1 = a2 + a2 + ... a2 ++ a2 (3.16)
j j1 j 2 jm j
Reguła (3.16) przedstawia zależność między wariancją zmiennej, a ładunkami czynniko-
wymi. Wynika z niej, że wariancję każdej zmiennej można rozłożyć na składniki będące
kwadratami ładunków poszczególnych czynników.
W analizie czynnikowej dąży się do wyjaśnienia wariancji zmiennych pierwotnych przez
czynniki wspólne. W celu pełniejszego zastąpienia zmiennych pierwotnych wyznaczonymi
czynnikami. Dąży się zatem do zwiększania roli czynników wspólnych przy równoczesnym
eliminowaniu wpływu czynników specyficznych.
Regułę (3.16) można zapisać w postaci:
2
S h2 += a2 (3.17)
j j j
gdzie:
h2 = a2 + a2 ... ++ a2 (3.18)
j j1 j 2 jm
jest zasobem zmienności wspólnej wariancji j-tej cechy;
a2 jest częścią wariancji wyjaśnianą przez czynniki swoiste.
j
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
85
W celu wyeliminowania niepożądanych czynników swoistych przeprowadza się zmiany
w macierzy korelacji R = [rij] (i,j = 1,2,..., k) polegające na wprowadzeniu zasobów zmienno-
ści wspólnej na główną przekątną18. Tak przekształcona macierz jest nazywana zredukowaną
macierzą korelacji (R ):
�ł łł
h12 r12 ... r1k
�łr h2 ... r2k śł
2
21
�ł śł
R`= (3.19)
�ł śł
... ... ... ...
�ł śł
2
rk ... hk �ł
�ł śł
�łrk1 2
Wprowadzenie zredukowanej macierzy korelacji prowadzi do uproszczenia analizy czyn-
nikowej. Przez usunięcie ładunków i czynników swoistych zredukuje się układ równań (3.11)
do postaci:
z`1 = a11f1 + a12f2 + ... + a1ifi + ... + a1mfm
..............................................................................
z`j = a f1 + a f2 + ... + a fi + ... + a fm (3.20)
j1 j2 ji jm
..............................................................................
z`k = a f1 + a f2 + ... + a fi + ... + a fm
k1 k2 k i km
Współczynniki korelacji w zredukowanej macierzy korelacji są postać:
n n
1 1
2 j 2
r`jp = (z'ij -z )(z'ip -z )= z'ij z'ip =
" p "
n n
i=1 i=1
n n n
1 �ł
2 2 2
= �ła ap1 fi1 + a a fi2 + ... + a apm fim + (3.21)
j1 " j 2 p2" jm "
n
�ł i=1 i=1 i=1
n n
+ a ap2 fi1 fi2 + ... + a a fim fim-1
j1 " jm pm-1"
i=1 i=1
Upraszczając regułę (3.21) na podstawie założeń (3.14) i (3.15) otrzymujemy:
r`ip = a a + a ap2 ... ++ a apm (3.22)
j1 p1 j 2 jm
Zatem
2
ńł
�łh dla j = p
j
r`jp = (3.23)
�ł
�ł
ółrjp dla j `" p
ponieważ z założenia czynnik swoisty nie wpływa na korelację między zmiennymi.
Korzystając z (3.19) i (3.22) można zapisać:
18
Porównaj W. Pluta [1977], s. 54-56; T. Czyż [1971]. s. 17-19.
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
86
�ł łł a1l a12 ... a1m a11 a21 ... ak1
h12 r12 ... r1k �ł łł�ł łł
�łr h2 ... r2k śł
�ła a22 ... a2m śł�ła a22 ... ak śł
2
21 12 2
21
�ł śł
�ł śł�ł śł
= (3.24)
�ł śł
�ł śł�ł śł
... ... ... ... ... ... ... ...
... ... ... ...
�ł śł
�ła ak ... akm śł�ła a2m ... akm śł
2
rk ... hk �ł �ł k1 2
�ł śł
�łrk1 2 �ł�ł 1m �ł
lub
R`= AAT
(3.25)
gdzie:
a1l a12 ... a1m
�ł łł
�ł
a21 a22 ... a2m śł
�ł śł
A = jest macierzą ładunków czynnikowych.
�ł śł
... ... ... ...
�ł
ak1 ak 2 ... akm śł
�ł �ł
Otrzymane równania (3.24) lub (3.25) wyrażają podstawową zależność służącą do wy-
znaczania ładunków czynnikowych. Po wyznaczeniu których oblicza się elementy macierzy
wartości czynnikowych. Korzysta się przy tym z ograniczeń nałożonych na tę macierz19. Za-
kłada się mianowicie, że spełniony jest warunek:
T
A A = I
(3.26)
Stąd:
AT = A-1
(3.27)
Korzystając z (3.20) możemy zapisać, że:
Z = AF
(3.28)
więc:
F = ATZ
(3.29)
gdzie:
z11 z12 ... z1k
�ł łł
�ł
z21 z22 ... z2k śł
�ł śł
Z = jest macierzą unormowanych zmiennych pierwotnych;
�ł śł
... ... ... ...
�ł
zn1 zn2 ... znk śł
�ł �ł
f1l f12 ... f1m
�ł łł
�ł
f21 f22 ... f2m śł
�ł śł
F = jest macierzą czynników wspólnych.
�ł śł
... ... ... ...
�ł
fk1 fk 2 ... fkm śł
�ł �ł
19
Porównaj W. Pluta [1977], s. 57-59; T. Czyż [1971], s. 20-23.
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
87
Otrzymane tym sposobem wielkości fij interpretuje się jako wartości j-tego czynnika dla i-
tego obiektu.
H. H. Harman [1960], s. 30 twierdzi, że analizę czynnikową należy kontynuować tylko do
momentu przeanalizowania 95% zasobu zmienności wspólnej, gdyż pozostałe czynniki mają
małe znaczenie.
Z reguły w praktyce badawczej, wykorzystując formułę o aproksymacji rzędu macierzy
korelacji i wyodrębnia się tylko czynniki odpowiadające wartościom własnym większym od
jedności20.
Do wyjaśnienia pozostał jeszcze problem związany z wyznaczaniem nieznanej wartości
zasobów zmienności wspólnej21. Wartości h2j nie są wyznaczane eksperymentalnie, lecz są
szacowane. Stosuje się przy tym kilka metod estymacji, m. in.:
rjprjl
1) h2 = (3.30),
j
rpl
gdzie: symbolami rjp , rjl oznaczono najwyższe wartości współczynników korelacji j-tej
zmiennej z pozostałymi zmiennymi;
k
1
2) h2 = (3.31)
j "rij
k -1
i=1
t`" j
czyli h2j jest średnią arytmetyczną współczynników korelacji każdej zmiennej
z pozostałymi;
3) przyjmując najwyższą wartość współczynnika korelacji danej zmiennej z pozostałymi.
Na podkreślenie zasługuje fakt, że wartości liczbowe zasobu zmienności wspólnej otrzy-
mywane za pomocą wymienionych metod niewiele różnią się między sobą.
Analiza czynnikowa służy do rozwiązywania zagadnień taksonomicznych. Może stano-
wić również metodę grupowania współzależnych zmiennych w nowe kategorie albo metodę
grupowania obiektów na zasadzie największego podobieństwa lub zachowań22.
3.1.3. METODA HELLWIGA
W przypadku tej procedury doboru zmiennych diagnostycznych23:
1)dla danej zmiennej sumuje się bezwzględne wartości wszystkich współczynników ko-
20
Porównaj P. O. Pedersen [1967] i L. King [1969], StatisticaTM PL [1997], s. 3195.
21
Porównaj W. Pluta [1977], s. 59.
22
Porównaj T. Czyż [1971], s. 51, StatisticaTM PL [1997], s. 3197.
23
Metodę Hellwiga omówiono w pracach: E. Nowak [1990], s. 29; K. Strzała, T. Przechlewski [1994], s. 56; M. Urbanek
[1995], s. 113-123.
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
88
relacji, następnie wybiera się tę zmienną, dla której otrzymaliśmy największą war-
tość sumy, zwana jest ona zmienną centralną;
2) ze zbioru pozostałych zmiennych eliminujemy te zmienne, dla których współczynnik
korelacji - co do wartości bezwzględnej - jest wyższy niż przyjęta wartość krytyczna,
wartość krytyczna może być z góry zadana lub obliczona z wzoru (3.8), zmienne te
nazywa się satelitarnymi;
3) postępowanie opisane w punktach 1-2 kontynuuje się aż do momentu wyczerpania
początkowego zbioru zmiennych diagnostycznych.
3.1.4. METODA ANALIZY GAÓWNYCH SKAADOWYCH
Analiza głównych składowych24 przeprowadzana dla macierzy danych (3.3) zapisanej
w postaci wektora:
T
X = [x1x2...xk ] (3.32)
polega na wyznaczeniu macierzy zmiennych:
T
y = [y1y ...yk ]
2
(3.33)
będącej liniową transformacją macierzy X :
Y = ATX
(3.34)
gdzie:
a11 a12 ... a1k
�ł łł
�ła a22 ... a2k śł
21
�ł śł
A = = [a1a2 ...ak ]
�ł śł
... ... ... ...
�ła ak ... akk śł
�ł k1 2 �ł
(3.35)
1 dla j = p
ńł
przy czym aT a =
�ł0 dla j `" p j, = 1,2,..., kp
j p
ół
Główne składowe są liniową kombinacją współrzędnych wektora X, gdyż dla j=1,2,...,k
Yj = a X1 + a ... ++ a XX
j1 j2 2 jk k
(3.36)
Transformacja zbioru zmiennych w główne składowe przeprowadzana jest w następujący
sposób:
- pierwszą główną składową wyznacza się w ten sposób, że wybiera się zmienną, któ-
rej wariancja jest maksymalna wśród wszystkich możliwych unormowanych kombi-
24
Opis analizy głównych składowych można znalezć w pracach: D. Morrison [1990], s. 393-441; K. Jajuga [1993], s. 190-
200; W. Pluta [1977], s. 60-80.
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
89
nacji liniowych;
- drugą główną składową wyznacza się w ten sposób, że wybiera się zmienną, której
wariancja jest maksymalna wśród wszystkich możliwych unormowanych kombina-
cji liniowych nieskorelowanych z pierwszą główną składową;
- trzecią główną składową wyznacza się w ten sposób, że wybiera się zmienną, której
wariancja jest maksymalna wśród wszystkich możliwych unormowanych kombina-
cji liniowych nieskorelowanych z pierwszą i drugą główną składową;
- itd., aż do m-tej głównej składowej25.
aj jest więc unormowanym wektorem własnym odpowiadającym j-tej co do wielkości
wartości własnej macierzy kowariancji S = [sij] .
i, j=1,2,...,k
Główne składowe mają następujące własności:
- wariancja j-tej składowej jest równa j-tej najwyższej wartości własnej;
- suma wariancji głównych składowych jest równa sumie wariancji zmiennych wcho-
dzących w skład wektora X, tzn.:
k k
= (3.37)
"li "sii
i=1 i=1
gdzie: l1,l2,...,lk oznaczają wektory własne macierzy kowariancji uporządkowane ma-
lejąco.
Formalnie można wyznaczyć k głównych składowych, w praktyce uwzględnia się jedynie
s pierwszych składowych dla których p>p0,
gdzie:
s
"li
i=1
p = (3.38)
k
"sii
i=1
jest procentem zmienności zmiennych wektora X, która wyjaśniana jest przez s
pierwszych głównych składowych;
p0 jest wartością niewiele mniejszą od jedności, tzn. równą 0,8, czy 0,926.
Główne składowe są k-wymiarowymi hiperpłaszczyznami określonymi równaniem:
a X1 + a + ... + a XX = 0 dla j=1,2,...,k. (3.39)
j1 j 2 2 jk k
Hiperpłaszczyzny (3.39) przechodzą przez punkt będący wektorem średnich obserwacji
25
Porównaj K. Jajuga [1993], s. 194; W. Pluta [1977], s. 71, StatisticaTM PL [1997], s. 3196.
26
Takie wielkości proponuje K. Jajuga [1993], s. 196. W. Pluta [1997], s. 72 postuluje aby to było 95% zasobu zmienności
wspólnej.
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
90
zbioru obserwacji i są ortogonalne. Przy czym suma kwadratów odchyleń punktów od hiper-
płaszczyzny jest minimalna.
3.2. ANALIZA DYSKRYMINACYJNA
Analiza dyskryminacyjna jest stosowana do rozstrzygania, które zmienne dyskryminu-
ją dwie lub więcej naturalnie wyłaniające się grupy. Jest ona bardzo przydatnym narzędziem
do wykrywania tych zmiennych, które pozwalają dyskryminować różne (naturalne wyłaniają-
ce się) grupy oraz do klasyfikacji przypadków do różnych grup z większą niż przypadkową
trafnością. Funkcja dyskryminacji jest wynikiem maksymalizacji pewnej miary odległości
pomiędzy populacjami27.
II
podział faktyczny
x"�2
x"�1
ł1
ł2
I D2={x"�2} D1={x"�1}
decyzje
Rysunek 3.1. Związki między rzeczywistą strukturą badanego zbioru, a zbiorami decyzyjnymi
(klasyfikacyjnymi)
yródło: J. Kolonko [1980] s. 54.
Rysunek 3.1 ilustruje związek między rzeczywistym podziałem dychotomicznym,
a wyznaczoną na podstawie jakiejś metody klasyfikacji (reguły decyzyjnej). Każdy punkt
ograniczonego obszaru reprezentuje pojedynczy obiekt. Krzywa I rozcina ten obszar na dwa
podzbiory odpowiadające realizacjom klas K1 i K2. Krzywa II rozcina ten sam obszar na takie
podzbiory, że wszystkim obiektom należącym do tego samego podzbioru jest przyporządko-
27
Porównaj D. Morrison [1990], s. 342-343.
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
91
wana ta sama decyzja o zakwalifikowaniu. Obszary B1 i B2 przedstawiają podzbiory błędnych
decyzji. Każda miara obszaru błędnych decyzji charakteryzuje zastosowaną procedurę klasy-
fikacyjną. W zależności od wyboru sposobu zmierzenia tego obszaru otrzymamy różne reguły
klasyfikacyjne.
Po raz pierwszy analiza dyskryminacyjna była wykorzystywana w badaniach medycz-
nych, psychologii i biologii w USA w 1930 r. Znacznie pózniej E. I. Altman [1968] zastoso-
wał analizę dyskryminacyjną w zarządzaniu finansami.
Metody analizy dyskryminacyjnej pozwalają się usystematyzować w sposób przedsta-
wiony na rysunku 3.2.
Analiza Dyskryminacyjna
Jednowymiarowa Wielowymiarowa
Parametryczna Nieparametryczna
Logistyczna
Kwadratowa Liniowa
Rysunek 3.2. Systematyzacja analizy dyskryminacyjnej
yródło: Opracowanie własne na podstawie C. Krause [1993], s. 15.
Każdy z wymienionych rodzajów analizy zostanie omówiony w dalszej części tego pod-
rozdziału.
3.2.1. JEDNOWYMIAROWA ANALIZA DYSKRYMINACYJNA
Analiza dyskryminacyjna jednowymiarowa określana jest jako test dychotomiczny.
Test klasyfikacyjny analizuje jedynie pojedynczą zmienną obiektu i na podstawie jej wartości
ustala regułę klasyfikacyjną. Dla próby losowej wyznacza się wartości liczbowe zmienne kla-
syfikującej, porządkuje się je według wielkości i w rezultacie określa się wartość krytyczną
zmiennej, która minimalizuje liczbę zle rozpoznanych przypadków.
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
92
Częstość występowania
wartości zmiennej
Elementy pierwszej klasy
Elementy drugiej klasy
błąd I-ego rodzaju
błąd II-ego rodzaju
wartość krytyczna Wartość zmiennej
Rysunek 3.3. Klasyfikacja dychotomiczna
yródło: C. Krause [1993], s. 16.
Na rysunku 3.3 przedstawiono proces wyznaczania krytycznej wartości podziału. Li-
nia odciętych oznacza wartości określonej zmiennej klasyfikującej. Na osi rzędnych przed-
stawiono częstotliwości występowania wartości danej zmiennej oddzielnie dla każdej próby
losowej.
Wartość krytyczna klasyfikująca oznacza, że wszystkie obiekty, których wartości zmien-
nej leżą powyżej wartości krytycznej zostają zaklasyfikowane do pierwszej klasy, a wszystkie
elementy, których wartości zmiennej są poniżej wartości krytycznej należą do drugiej klasy.
Przy tego rodzaju klasyfikacji mogą występować dwa rodzaje błędów. Jako błąd I-ego
rodzaju (ą-błąd) określa się wartość procentową elementów drugiej klasy, które zostały za-
klasyfikowane do klasy pierwszej. Błąd II-ego rodzaju (�-błąd) podaje wartość procentową
elementów pierwszej klasy, które zostały zaklasyfikowane do drugiej klasy.
Dla jednowymiarowej analizy dyskryminacyjnej wybiera się tylko jedną cechę, przy po-
mocy której są klasyfikowane obiekty. Jest wiele metod wyboru zmiennej diagnostycznej
używanej do określenia reguły klasyfikacyjnej. Zmienna ta musi spełniać następujące warun-
ki:
- zle klasyfikować w próbie losowej najmniejszą liczbę przypadków;
- musi być najsilniej skorelowana z decyzją;
- posiadać zdolność dyskryminacji badanych obiektów, tj. charakteryzować się wyso-
ką zmiennością wśród wszystkich elementów zbioru, a niską wśród jednostek wy-
dzielonych grup;
- nie ulegać wpływom zewnętrznym28.
28
Porównaj E. Nowak [1997], s. 23.
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
93
Zaleta jednowymiarowej analizy dyskryminacyjnej polega na tym, iż jest ona stosunkowo
łatwa do przeprowadzenia. Wadą tej metody jest jednak to, że można uchwycić tylko część
posiadanych informacji o obiektach. Jednowymiarowa analiza dyskryminacyjna przeprowa-
dzona dla dwóch różnych zmiennych może dawać dla pewnych obiektów różne wyniki klasy-
fikacji.
W przypadku wielowymiarowej analizy dyskryminacyjnej stosuje się do klasyfikacji wię-
cej zmiennych diagnostycznych. Różne wartości zmiennych są przekształcane przez funkcję
dyskryminacyjną do jednej wartości (tj. do tzw. wartości dyskryminacyjnej).
Klasyfikacji dokonuje się według wartości krytycznej, która może być uzależniona od
prawdopodobieństwa występowania elementów pierwszej i drugiej klasy. Należy przy tym
zwrócić uwagę, że zmienne, które w przypadku analizy jednowymiarowej dobrze klasyfikują,
niekoniecznie nadają się do klasyfikacji w przypadku analiz wielowymiarowych.
Może się zdarzyć, że kilka zmiennych dobrze klasyfikujących w przypadku analizy jed-
nowymiarowej osłabia się wzajemnie i wspólnie nie mogą dobrze klasyfikować (tzw. efekt
osłabienia). Jest też możliwe, iż kilka cech zle klasyfikujących w analizie jednowymiarowej
może się wzajemnie wzmacniać i w przypadku analizy wielowymiarowej dobrze klasyfiko-
wać (tzw. efekt wzmocnienia)29. Zatem nie wystarczy zebrać dobrze klasyfikujące zmienne
w przypadku analizy jednowymiarowej, lecz konieczne są wielowymiarowe metody anali-
tyczne doboru zmiennych diagnostycznych30.
3.2.2. WIELOWYMIAROWA ANALIZA DYSKRYMINACYJNA
Wśród wielowymiarowych metod analitycznych rozróżnia się metody parametryczne
i nieparametryczne. Parametryczne metody wielowymiarowej analizy dyskryminacyjnej za-
kładają pełną lub częściową znajomość charakterystyk probabilistycznych modelu, zgodnie
z którymi generowane są obserwacje poddawane klasyfikacji. Niestety ustalenie rozkładów
warunkowych często sprawia trudności.
W przypadku metod parametrycznych zakłada się, że zbiór posiadanych obserwacji jest
zbiorem realizacji pewnej klasy rozkładów. Mamy tu do czynienia z hipotezą statystyczną,
ponieważ twierdzimy, że próba jest ciągiem realizacji zmiennej o rozkładzie jednej z tych
podgrup.
Załóżmy, że mamy do czynienia z dwiema klasami. Niech xi będzie pewną ciągłą cechą
charakteryzującą cechy klasyfikowanego obiektu przyjmującą wartości z pewnego zbioru &!.
29
O efekcie wzmocnienia i osłabienia pisali C. Krause [1993], s. 18 oraz J. Hauschildt [1998], s. 128.
30
Jak uczynił to M. Tamari [1964], s. 15-45.
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
94
Znamy dwa rozkłady warunkowe f (xi / K1)i (xi / Kf ), czyli funkcje prawdopodobieństwa,
2
że xi należy do klasy pierwszej lub drugiej oraz rozkłady klas K1 i K2. Podane reguły decyzyj-
ne sprowadza się do podziału zbioru &! na dwa podzbiory D1 i D2 spełniające warunki (3.4)-
(3.6) oraz jeśli xi " D1, to podejmujemy decyzję, że xi " K1 lub gdy xi " D2 , to podejmu-
jemy decyzję, że xi " K2 . Prawdopodobieństwo znalezienia się obiektu zbioru K1 w zbiorze
D2 wynosi f (xi / K1)dx , zaś obiektu zbioru K2 w zbiorze D1: f (xi / K2 )dx . Korzystając ze
+" +"
D2 D1
wzoru na prawdopodobieństwo całkowite można obliczyć prawdopodobieństwo podjęcia
błędnej decyzji:
P(B) = ą f ( / K1)dx + (1-ą) f (xxi / K1)dx (3.40)
i
+" +"
D2 D1
gdzie:
P(xi " K1) = ą - prawdopodobieństwo, że obiekt należy do pierwszej klasy;
P(xi " K2 = 1) -ą - prawdopodobieństwo, że obiekt należy do drugiej klasy31;
P(xi " )" xi " KK1 ) = 0 .
2
Optymalne (tj. minimalizujące prawdopodobieństwo błędnej klasyfikacji) obszary decy-
zyjne mają postać:
ńł ą �" f (xi / K1) �ł
D1 = : e" 1żł,
�łx
i
(1-ą)f (xi / K2 )
ół �ł
(3.41)
ńł ą �" f (xi / K1) �ł
D2 = : < 1żł.
�łx
i
(1-ą)f (xi / K2 )
ół �ł
ą �" f (xi / K1)
Z twierdzenia Bayesa wynika, że
jest prawdopodobień-
ą �" f (xi / K1)+ (1-ą)f (xi / K2 )
stwem a posteriori tego, że dany obiekt xi został wylosowany z klasy K1. Reguły klasyfika-
cyjne przedstawione wyżej ze względu na ich związki z twierdzeniem Bayesa nazywamy
bayesowskimi regułami klasyfikacyjnymi. Synonimem tego pojęcia są bayesowskie funkcje
dyskryminacyjne.
Rozważania uogólnione dla więcej niż dwóch klas oraz w przypadku gdy oba rozkłady są
wielowymiarowymi rozkładami normalnymi można znalezć w pracach: M. Krzyśko [1990],
T. W. Anderson [1958], K. Jajuga [1990], E. Gatnar [1998] i J. Kolonko [1980].
Metody nieparametryczne pozwalają budować algorytmy klasyfikujące bez wcześniej-
szych założeń o postaci analitycznej rozkładów w poszczególnych klasach tylko w oparciu
31
Są to tzw. prawdopodobieństwa a priori.
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
95
o informacje zawarte w próbach.
Wśród nieparametrycznych metod dobrze znane i opisane są metody o funkcjach dys-
kryminacji liniowej32, kwadratowej i logistycznej. Dla liniowych funkcji dyskryminacyjnych
przedstawiane są różne zmienne w postaci funkcji liniowej.
x2
K1
K1
K2
K2
x1
wartość krytyczna
K1 K2
K1
K2
Legenda:
" -obiekty pierwszej klasy;
f&- obiekty drugiej klasy;
- błąd I-ego rodzaju;
- błąd II-ego rodzaju.
Rysunek 3.4. Klasyfikacja liniową funkcją dyskryminacji przy użyciu dwóch zmiennych
yródło: C. Krause [ 1993] s. 16.
Rysunek 3.4 pokazuje proces klasyfikacji dwuwymiarowej liniowej funkcji dyskrymina-
cyjnej przy użyciu dwóch jednowymiarowych zmiennych x1, x2 . Funkcja dyskryminacji ma
postać:
D(xi ) = a0 + a1 �" x + a2 �" xii1 (3.42)
2
gdzie:
aT = [a1, a ]- wektor współczynników dyskryminacji;
2
32
Pomysł konstrukcji liniowej funkcji dyskryminacyjnej pochodzi od R. A. Fischera [1922].
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
96
a0 wartość krytyczna;
xi = [xi1, xi2 ] - wektor zmiennych dyskryminacyjnych.
Jeżeli D(xi ) e" 0 to xi " K1 (" ), natomiast jeżeli D(xi ) < 0 to xi " K2 (f&).
Powierzchnia obszarów określająca prawdopodobieństwo wystąpienia błędów I- i II-ego
rodzaju jest mniejsza przy użyciu dwuwymiarowej liniowej analizy dyskryminacyjnej niż
przy użyciu jednowymiarowej funkcji dyskryminacyjnej według zmiennej x1 lub x2 (rysunek
3.4).
Gdy mamy do czynienia z więcej niż dwiema zmiennymi tworzenie funkcji dyskrymina-
cji należy poprzedzić wielowymiarowymi analizami zmiennych diagnostycznych. Założenia,
które należy sprawdzić przed wykonaniem wielowymiarowej analizy dyskryminacyjnej oraz
odpowiednie metody pozwalające na ich sprawdzenie przedstawiono poniżej33.
1. Rozkład normalny. Zakłada się, że zmienne dyskryminacyjne reprezentują wielo-
wymiarowy rozkład normalny. Dotychczasowe badania z użyciem wielowymia-
rowej funkcji dyskryminacji potwierdzają, że jest ona dobrym klasyfikatorem mi-
mo naruszenia tego założenia34. Do weryfikacji założenia o wielowymiarowym
normalnym rozkładzie używa się testów normalności wielowymiarowego rozkładu
normalnego, np.: testu Kołmogorowa-Smirnowa, Shapiro-Wilka lub testu zgodno-
ści Hellwiga35.
2. Podzielność zmiennych. Podzielność zmiennych przejawia się w systematycznej
różnicy wartości średnich między grupami. Do wyeliminowania zmiennych niepo-
dzielnych korzysta się z testu U-Mann-Whitney (jest to wielowymiarowa odmiana
jednowymiarowego testu t-Studenta).
3. Równość macierzy kowariancji. Zakłada się, że macierze kowariancji zmiennych
diagnostycznych są równe w grupach. Badania empiryczne wykazują, że można
pominąć to założenie. Poza tym wielowymiarowy test M. Boxa na równość kowa-
riancji jest szczególnie wrażliwy na odchylenia od wielowymiarowego rozkładu
normalnego. Ito i Schull [1964] zbadali zachowanie rozkładów gdy macierze ko-
wariancji są rożne i pokazali, że przy dużych liczebnościach niejednakowe macie-
rze kowariancji nie mają wpływu na prawdopodobieństwo błędu I-ego rodzaju
33
Podobnie sformułowano założenia w pracach M. Krzyśko [1990], s. 19 i StatisticaTM PL [1997], s. 3069. Jak twierdzą
C. Domański, M. Misztal [1998], s. 96 ... liniowa funkcja dyskryminacji jest optymalna przy spełnieniu obu tych założeń
(w niniejszej pracy założenia 1 i 3), jednak często jest ona wykorzystywana z dobrym rezultatem nawet, kiedy żadne z tych
założeń nie jest spełnione. Wynika to z faktu, że liniowa funkcja dyskryminacji jest odporna na te założenia .
34
Porównaj D. Morrison [1990], s. 347; H. Rehkugler , A. Schmidt-von Rhein [1993], s. 12; Machine lerning, Neural and
Statistical Classification, [1993], s. 22; C. Krause [1993], s. 23; A. Sokołowski [1999], s. 40, D. J. Hand [1981], s. 27.
35
Zastosowanie i użycie testów normalności opisano szczegółowo w pracach: W. Wagner [1987]; J. Wywiał [1983];
B. Ludwiczak [1985].
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
97
oraz moc testu36.
Wielowymiarowa analiza dyskryminacyjna jest metodą klasyfikacji danego obiektu Oi ze
zbioru &! do jednej z wcześniej ustalonych klas37. Zakwalifikowania danej obserwacji Oi o
wektorze xi ze zbioru &! dokonuje się na podstawie wartości funkcji dyskryminacyjnej D, któ-
rą wyznacza się następująco:
T
D(xi ) = a0 + a1xi1 + a2 xi2 + ... + ak xip a0 += xa (3.43)
i
gdzie:
aT = [a1, a2, ..., ap ] - wektor współczynników dyskryminacyjnych;
a0 - wartość krytyczna;
xi = [xi1, xi2, ..., xip ]- wektor zmiennych diagnostycznych (zmiennych dyskry-
minacyjnych) dla i-tego obiektu.
Liniowa funkcja dyskryminacji opisuje hiperpłaszczyznę rozdzielającą zbiory obiektów
w ten sposób, aby je jak najlepiej odseparować.
Metody klasyfikacji wzorcowej oparte na funkcjach dyskryminacji stanowią część paki
e-
tów komputerowych realizujących analizy statystyczne np. STATISTICA, SAS, SPSS38. Wy-
znacza się tam nie funkcje dyskryminacyjne tylko klasyfikacyjne, których jest tyle ile grup i
mają postać:
p
Dj : ! ! dla j = 1,2,...,l
gdzie: Dj oznacza funkcję klasyfikacyjną dla klasy Kj, tzn. :
xi " K D ( ) = max{Ds (xx )}dla s = 1,2,...,l (3.44)
j j i i
s
Zatem obiekt o wektorze zmiennych xi jest przydzielany do tej klasy, dla której funkcja
klasyfikacji przyjmuje największą wartość39.
Powstaniu liniowej funkcji dyskryminacji40 towarzyszy założenie, że dwie niezależne
próby o liczebności n1 (liczba elementów klasyK ) i n2 (liczba elementów klasy K2) pochodzą
1
z p-wymiarowych rozkładów normalnych o wektorach wartości oczekiwanych odpowiednio
równych �1 i �2 oraz takiej samej macierzy kowariancji Ł. Dobrze zdefiniowana funkcja
Ł
ŁŁ
dyskryminacyjna uwzględnia wzajemne powiązania pomiędzy różnymi zmiennymi diagno-
stycznymi, przez co może dostarczać dodatkowych informacji.
36
Porównaj K. Ito, W. J. Schull [1964], s. 71-82.
37
Porównaj I. Staniec, D. Witkowska [1998], s. 541-546.
38
Porównaj StatisticaTM PL [1997], s. 3067.
39
Porównaj E. Gatnar [1998], s. 46; K. Jajuga [1993], s. 139; A. Sokołowski [1999], s. 41-42, StatisticaTM PL [1997],
s. 3071.
40
Dalsze rozważania ograniczono dla klasyfikacji dychotomicznej.
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
98
Istnieje wiele metod doboru zmiennych do funkcji dyskryminacyjnej, niektóre z nich
przedstawiono w podrozdziale 3.1.
Wektor parametrów funkcji dyskryminacyjnej wyznacza się ze wzoru:
a = S-1(x2 - x1 ) (3.45)
gdzie:
S - macierz kowariancji;
x1;x2 - wektory przeciętnych wartości zmiennych niezależnych w klasie pierw-
szej i drugiej.
Jeżeli wariancje obserwowanych zmiennych są identyczne, to elementy wektora parame-
trów funkcji dyskryminacji przedstawiają udział poszczególnych zmiennych dyskryminacyj-
nych. W przeciwnym przypadku, porównywalność współczynników funkcji dyskryminacji
uzyskuje się dzieląc każdy z nich przez odchylenie standardowe odpowiedniej zmiennej41.
Przeciętne wartości funkcji dyskryminacyjnej wynoszą:
- dla klasy pierwszej:
y1 = (x1 - x2 )T S-1x1 (3.46)
- dla klasy drugiej:
y2 = (x1 - x2 )T S-1x2 (3.47)
Wartością krytyczną jest liczba wyznaczona na podstawie reguły:
T T
a0 = -(ą(x1 - x2 ) S-1x1 + (1-ą)(x1 - x2 ) S-1x2) (3.48)
gdzie:
ą - prawdopodobieństwo wystąpienia elementów klasy pierwszej42;
1-ą - prawdopodobieństwo wystąpienia elementów klasy drugiej.
Regułę klasyfikującą można przedstawić w postaci jednej statystyki43:
T T T -1
D(xi ) = (x1 - x2 ) S-1xi -ą(x1 - x2 ) S-1x1 - (1-ą)(x1 - x2 ) xS (3.49)
2
Obserwację o wektorze zmiennych xi należy zaklasyfikować do klasy pierwszej (K1) jeże-
li D(xi ) e" 0, a do klasy drugiej (K2), jeżeli D(xi ) < 0.
W celu wykorzystania liniowej statystyki dyskryminacyjnej do klasyfikacji obserwacji
ważna jest umiejętność szacowania prawdopodobieństwa błędnej klasyfikacji. Prawdopodo-
bieństwo zakwalifikowania obserwacji Oi o wektorze zmiennych xi pochodzącej z rozkładu
41
Porównaj D. Morrison [1990], s. 343.
42
Wielu autorów min. K. Jajuga [1993], E. Gatnar [1998], D. Morrison [1990] przyjmują automatycznie ą=0,5.
43
Statystyka (3.49) jest nazywana statystyką klasyfikacyjną Walda-Andersona, gdyż jako pierwszy podał ją A. Wald [1944],
s. 145-162, a jako pierwszy podał jej własności T. W. Anderson [1951], s. 31-50.
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
99
N(�1;Ł) jako pochodzącej z rozkładu N(�2 Ł); (zakładając, że oba rozkłady N(�1 Ł);
i N(�2 Ł); jako równie prawdopodobne) jest równe:
T
T
1
�ł
(x1 - x2 ) a - �1 ałł
P1 = P(D(xi ) d" 0) = Ś�ł 2 (3.50)
śł
�ł aT Ła śł
�ł �ł
gdzie:
a wektor określony wzorem (3.45);
x1;x2 - wektory przeciętnych wartości zmiennych niezależnych odpowiednio
w klasie pierwszej i drugiej;
�1 - wektor wartości oczekiwanej w pierwszej klasie.
Prawdopodobieństwo zakwalifikowania obserwacji Oi o wektorze zmiennych
xi pochodzącej z rozkładu N(�2 Ł); jako pochodzącej z rozkładu N(�1 Ł); (przy przyjętym
założeniu o jednakowym prawdopodobieństwie występowania obu rozkładów) jest równe:
�ł�T a - 1 - x2 T ałł
(x1 )
P2 = P(D(xi ) > 0) = 1- P(D(xi ) d" 0) = Ś�ł 2 2 (3.51)
śł
�ł aT Ła śł
�ł �ł
gdzie:
- a - wektor określony wzorem (3.45);
- x1;x2 - wektory przeciętnych wartości zmiennych niezależnych w klasie pierwszej
i drugiej;
- �2 - wektor wartości oczekiwanej w drugiej klasie.
Prawdopodobieństwa P1 oraz P2 są szacowane przez empiryczne częstości błędnej klasy-
fikacji. Wyznaczenie tych prawdopodobieństw jest dość skomplikowane. M. Okamoto [1963]
podał asymptotyczne rozwinięcie dla tych prawdopodobieństw wraz z tablicami niezbędnych
współczynników44. Innym alternatywnym podejściem jest procedura zaproponowana przez
P. A. Lachenbrucha i M. R. Mickeya [1968]45. Po wyznaczeniu statystyk:
ns ns
1 1
2
Ds = (xi ), Ss = (xi )- Ds )2 , s = 1,2,...,l . (3.52)
"Ds "(Ds
ns i=1 ns i=1
gdzie:
Ds (xi ) - wartość statystyki określonej wzorem (3.49) dla i-tego obiektu w s-tej
klasie;
Ds - średnia wartość statystyki Ds (3.49) w s-tej klasie;
44
Porównaj M. Okamoto [1963], s. 1286-1301.
45
Porównaj P. A. Lachenbruch, M. R. Mickey [1968], s. 1-11.
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
100
2
S - wariancja wartość statystyki Ds w s-tej klasie;
s
ns - liczność s-tej klasy.
Prawdopodobieństwo błędnej klasyfikacji dychotomicznej szacuje się przy pomocy na-
stępujących estymatorów:
�ł �ł �ł �ł
D1 Ć �ł D2 �ł
Ć
�ł
P1 = Ś�ł- �ł
P2 = Ś�ł �ł (3.53)
S1 �ł, S2
�ł łł �ł łł
Własności estymatorów prawdopodobieństwa zależą od założenia o normalności rozkładu
zmiennych wykorzystanych w liniowej funkcji dyskryminacji. Problemem oszacowania
prawdopodobieństwa błędnej klasyfikacji zajmowali się również M. S. Barlett [1951], M. T.
Sorum [1971] oraz G. J. Mclanchen [1974]46.
W przypadku nierównych macierzy kowariancji szacuje się kwadratową lub inną postać
funkcji dyskryminacji o których pisze S. Kullback [1968].
Kwadratowa analiza dyskryminacyjna ma w stosunku do liniowej następujące zalety:
- kwadraty zmiennych mogą zostać uwzględnione w funkcji dyskryminacyjnej;
- nie zakłada ona równych macierzy kowariancji uwzględnianych zmiennych47.
Kwadratowa funkcja dyskryminacji ma postać:
D(xi ) xi T Axi += xi T B (3.54)
gdzie:
xi-wektor zmiennych dyskryminacyjnych o wymiarach [px1] dla i-tego obiektu;
A, B - macierze współczynników dyskryminacyjnych.
Posiada ona również następujące wady:
- funkcje są przy niektórych zmiennych bardzo zawiłe48;
- funkcje kwadratowe są pod względem ekonomicznym nie do zinterpretowania oraz
wkład poszczególnych cech jest nie do ustalenia;
- w porównaniu do liniowej funkcji dyskryminacyjnej wyniki klasyfikacyjne są wy-
raznie gorsze;
- kwadratowa funkcja dyskryminacji przy użyciu nowych przypadków okazuje się
niestabilna49.
Z powodu tych wad w wielu badaniach (np. przy ocenie przedsiębiorstw i konsumentów)
46
Porównaj M. S. Bartllet [1951], s. 107-111; M. I. Sorum [1971], s. 333-343; G. J. McLanchan [1974], s. 239-249.
47
O założeniach funkcji dyskryminacji piszą M. Krzyśko [1990], s. 50; L. Fahmeir, W. Hau�ler, G. Tutz [1984], s. 320.
48
Zwrócił na to uwagę E. I. Altman, B. A. Loris [1976], s. 1204.
49
O porównaniu liniowej i kwadratowej funkcji dyskryminacji pisali G. Gebhardt [1980], s. 261; G. Weinrich [1978], s. 125;
E. I. Altman, R. G. Haldeman, P. Narayanan [1977], s. 58; M. M. Hamer [1983], s. 299, H. J. Niehaus [1987], s. 149-156.
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
101
przedkłada się wielowymiarową liniową analizę dyskryminacyjną nad kwadratową funkcją
dyskryminacji.
W przypadku dyskryminacji logistycznej jako prawdopodobieństwo przynależności
obiektu o wektorze zmiennych xi do klasy Ks przyjmuje się wartość dystrybuanty rozkładu
logistycznego (L):
P(Ks / xi ) L(a0 += aT xi) (3.55)
gdzie przyjęto założenie o liniowości logarytmu ilorazu wiarygodności.
W przypadku klasyfikacji dychotomicznej model dyskryminacji logistycznej jest równo-
ważny modelowi regresji logistycznej, który jest postaci:
1
P(xi ) = (3.56)
(a0 )
1+ e- +aT xi
Parametry równania (3.56) szacuje się metodą największej wiarygodności. Uzyskane
oceny równania logistycznego można interpretować następująco:
- jeżeli aj>0, to czynnik opisywany przez zmienną xj działa stymulująco na prawdo-
podobieństwo wystąpienia badanego zjawiska;
- jeżeli aj<0, to czynnik opisywany przez zmienną xj działa destymulująco na praw-
dopodobieństwo wystąpienia badanego zjawiska;
- jeżeli aj=0, to czynnik opisywany przez zmienną xj nie wpływa na prawdopodo-
bieństwo wystąpienia badanego zjawiska.
W przypadku analizy dyskryminacyjnej można stosować zamiast metod doboru zmien-
nych diagnostycznych proces odwrotny, czyli eliminować zmienne, które nie wpływają na
poprawę jakości funkcji dyskryminacyjnej50. Do kryteriów oceny jakości dyskryminacyjnych
zmiennych należą:
- Wilksa;
- odległość d2 Mahalanobisa.
Statystyka Wilksa jest wyznaczona ze wzoru51:
det W
= (3.57)
det W + M
gdzie:
W i M są macierzami obliczanymi ze wzorów:
50
Porównaj E. Gatnar [1998], s. 57.
51
Tę metodę eliminacji zmiennych dyskryminacyjnych wykorzystuje pakiet Statistica (porównaj StatisticaTM PL [1997],
s. 3081).
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
102
T
W = (xi - xj)(xi - xj)
" "
j i"K
j
(3.58)
T
M = (xj - x)(xj - x)
""
j i"K
j
Im mniejsza wartość , tym silniejsze zróżnicowanie między klasami. Zmiany statystyki
po dodaniu do modelu (p+1)-szej zmiennej można weryfikować w oparciu o statystykę F,
mającą rozkład Fishera-Sendecora o n-l-p oraz l-1 stopniach swobody:
1-p
n - l - p p
F = �" (3.59)
p +1
l -1
p
gdzie:
- n - liczba obiektów;
- l - liczba klas;
- p - liczba zmiennych w funkcji,
- p - wartość statystyki Wilksa przed dodaniem zmiennej p+1;
- p+1 - wartość statystyki Wilksa po dodaniu zmiennej p+1.
Odległość d2 Mahalanobisa oblicza się dla każdej pary klas (a,b) ze wzoru:
p p
2
d (a,b) = (xia - xib )(x - x ) (3.60)
""sij ja jb
i=1 j=1
gdzie:
xia - to średnia arytmetyczna i-tej zmiennej w klasie a;
sij- odpowiedni element odwróconej macierzy kowariancji wewnątrzgrupowej,
tj. S-1 = [sij].
Do funkcji dyskryminacji dołącza się zmienną, która daje największą wartość d2 Mahala-
nobisa dla dwóch klas leżących najbliżej.
Zmiany wektorów średnich w dwóch klasach a i b weryfikuje się za pomocą statystyki F:
(n - p -1)nanb 2
F = d (a,b) (3.61)
p(n - 2)(na + nb )
Może być ona wykorzystywana w celu doboru zmiennych. Do funkcji dyskryminacji do-
łącza się tę zmienną, która daje największą wartość statystyki F.
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
103
3.3. METODY TAKSONOMICZNE
Termin taksonomia pochodzi od greckich słów: taksis (porządek) oraz nomos (prawo, za-
sada). Oznacza on dziedzinę wiedzy o zasadach porządkowania.
T. Grabiński, S. Wydymus, A. Zeliaś [1989], s. 31 rozumieją dosyć szeroko metody tak-
sonomiczne i zaproponowali ich następujący podział:
- wzorcowe i bezwzorcowe;
- obszarowe, oparte na podobieństwie i czynnikowe;
- hierarchiczne i niehierarchiczne;
- aglomeracyjne i podziałowe;
- liniowe i nieliniowe.
M. Walesiak [1994], s. 53 zaproponował podział metod taksonomicznych (w wąskim
znaczeniu) na trzy podstawowe grupy:
- metody hierarchiczne,
- obszarowe i gęstościowe;
- metody optymalizujące wstępny podział zbioru obiektów.
Wśród metod hierarchicznych wyróżnia się metody aglomeracyjne oraz deglomeracyjne.
W praktycznych zastosowaniach przeważają metody aglomeracyjne, są też one najlepiej
opracowane pod względem metodologicznym52.
Metody aglomeracyjne zaczynają się zawsze od sytuacji, w której każdy obiekt badania
Oi tworzy początkowo jedną klasę Ki, gdzie i=1,2,...,n. W związku z tym maci e odległości
erz
przybierają postać:
0 d(K1, K2 ) ... d(K1, Kn )
�ł łł
�łd , K1) 0 ... d(K2 , Kn
(K2 )śł
�ł śł
[dij]= (3.62)
�ł śł
... ... ... ...
�łd , K1) d(Kn , K2 ... 0 śł
(Kn )
�ł �ł
Wszystkie hierarchiczne metody klasyfikacji aglomeracyjnej działają według centralnej
procedury aglomeracyjnej. Algorytm tej procedury jest przedstawiony poniżej53.
1. Tworzy się n-skupień, czyli każdy obiekt badania stanowi jedną klasę.
2. W macierzy odległości szuka się pary klas najbardziej podobnych (najmniej odle-
głych od siebie). Załóżmy, że będą to klasy Ki oraz Kj.
3. Redukuje się liczbę klas o jeden, łącząc klasy Ki oraz Kj w nową klasę.
52
Porównaj A. Kowalski [1977], s. 3-20.
53
Porównaj M. R. Anderberg [1973], A. D. Gordon [1987], s. 119-137; M. Walesiak [1994], s. 54-55.
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
104
4. Przekształca się odległości stosownie do metody między połączonymi klasami Ki
i Kj oraz pozostałymi klasami.
5. Powtarza się kroki 1-3 do chwili, gdy wszystkie obiekty znajdą się w jednej klasie.
Różnice w procedurach aglomeracyjnych wynikają z odmienności definiowania odległo-
ści międzyklasowej w punkcie drugim54. Odległość między połączonymi klasami Ki *" K
j
i inną klasą Kq jest zdefiniowana następująco:
d(Ki *" K , Kq)= ąid(Ki , Kq)+ ą d(K , Kq )+ �d(Ki , K )+
j j j j
(3.63)
+ ł d(Ki , Kq )- d(K , Kq ) + � h(Ki )+ � h(K )+ �h(Kq )
j i j j
gdzie:
ąi ,ą , � ,ł ,� ,� ,� - parametry, których wartości zależą od konkretnego wariantu
j i j
metody aglomeracyjnej;
h(Kq )- poziom przyłączenia klasy Kq.
Tabela 3.1. Wartości parametrów charakteryzujących hierarchiczne metody aglomeracyjne
ł �
Lp. Nazwa metody yródło
�
ąi �
i
1 najbliższego sąsiedztwa 0,5 0 -0,5 0 0 Florek i in. [1951], Seath
[1957]
2 kompletnego połączenia 0,5 0 0,5 0 0 McQuitty [1960],
Sokal i Sneath [1963]
3 średniej klasowej 0 0 0 0 Sokal i Michener [1958],
ni
McQuitty [1967]
n + ni
j
4 ważona średnia klasowa 0,5 0 0 0 0 McQuitty [1966;1967]
5 wewnątrzklasowa suma
ni + nq - ni 0 - nq - nq Jambu [1978]
kwadratów odległości
n
n n n
6 powiększona suma Ward [1963]
ni + nq - nq 0 0 0
kwadratów odległości Wishart [1969]
n n
7 środka ciężkości 0 0 0 Sokal i Michener [1958],
ni - nin
j
Gower [1967]
2
ni + n
(ni + n )
j
j
8 medianowa 0,5 -0,25 0 0 0 Lance i Williams [1966],
Gower [1967]
9 giętka dowolna 0 0 0 Lance i Williams [1967],
1
(1- � )
liczba
2
mniejsza od
jeden
Oznaczenia: n = ni + n + nq ; ni - liczba obiektów w klasie i.
j
yródło: Opracowanie własne na podstawie M. Walesiak [1994] s. 55; K. Jajuga [1990] s. 142-143.
54
Ogólny wzór na obliczanie odległości międzyklasowej, uwzględniający wszystkie znane metody klasyfikacji aglomeracyj-
nej podali w swych pracach G. N. Lance i W. T. Willliams [1967], M. Jambu [1978], A. D. Gordon [1987] oraz K. Jajuga
[1990].
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
105
W przypadku metod aglomeracyjnych gdy liczba klas jest znana i wynosi l, należy proces
grupowania przerwać po n-l etapach55.
W klasyfikacji deglomeracyjnej (zwanej dedukcyjną) punktem wyjścia jest jedna klasa
obejmująca wszystkie obiekty badania. W każdym kolejnym kroku klasyfikacji liczba klas
zwiększa się o jeden, przy czym uzyskuje się to poprzez podział jednej z istniejących klas. Po
zakończeniu procesu klasyfikacji otrzymuje się liczbę klas równą liczbie obiektów, tzn. każdy
obiekt tworzy jedną klasę. Tych metod nie da się opisać wspólnym algorytmem. Należą do
nich metody Huberta56 oraz metody dendrytowe. Metody dendrytowe to m.in. metoda takso-
nomii wrocławskiej57 i metoda najkrótszej sieci połączeń Prima58.
Ogólna filozofia metod obszarowych i gęstościowych polega na tym, że wydzielonymi
przy ich użyciu klasami są takie obszary w przestrzeni p-wymiarowej, które charakteryzują
się większą gęstością obiektów i są oddzielone obszarami o mniejszej gęstości obiektów. Do
metod tego typu należą m.in. metoda kul59, metoda taksonomii stochastycznej60, metoda pro-
stopadłościanów61 oraz metoda grafowa Pluty62.
Punktem wyjścia metod optymalizacji iteracyjnej jest wstępny podział zbioru obiektów na
l klas otrzymany przy użyciu dowolnej metody klasyfikacji lub ustalony losowo. Zadaniem
tych metod jest poprawienie z punktu widzenia pewnej zdefiniowanej funkcji kryterium
wstępnego podziału zbioru obiektów. Metody te działają według następującego schematu:
1) definiujemy funkcję kryterium wstępnego podziału zbioru obiektów;
2) dla każdej klasy wstępnego podziału oblicza się środki ciężkości oraz odległości
każdego obiektu od środków ciężkości tych klas;
3) zmienia się przyporządkowanie obiektów do klas o najbliższym środku ciężkości;
4) oblicza się nowe środki ciężkości dla każdej klasy;
5) po każdej iteracji oblicza się wartość funkcji kryterium;
6) powtarza się kroki 2 i 3, aż nie nastąpi przesunięcie między klasami63.
55
Metody te znalazły szerokie odzwierciedlenie w wielu pakietach statystycznych m.in. w Statistice (porównaj StatisticaTM
PL [1997], s. 3171).
56
Szerzej o tych metodach w pracy J. Kucharczyk [1982].
57
Na temat tych metod występuje w Polsce bogata literatura m.in. K. Florek, J. Aukasiewicz, J. Perkal, H. Steinhaus,
S. Zubrzycki [1951], s. 193-211; J. Perkal [1953].
58
Opracowanie tej metody znajduje się w pracach P. H. A. Sneath [1957], s. 201-226; R. C. Prim [1957], s. 1389-1401.
59
Została dokładnie opisana w pracy W. Bukietyński, Z. Hellwig, U. Królik, A. Smoluk [1969].
60
Porównaj U. Siedlecka [1976].
61
Porównaj J. Kolonko , E. Stolarska, K. Zadora [1970].
62
Porównaj W. Pluta [1977], s. 13.
63
Porównaj M. S. Aldenderfer, R. K. Blashfield [1984], s. 11.
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
106
M. Walesiak [1994], s. 59 i K. Jajuga [1990], s. 26 wyróżniają następujące metody opty-
malizacji iteracyjnej:
- Forgy ego;
- Janceya;
- algorytm Cluster64;
- k-średnich McQueena65;
- k-średnich Wisharta;
- ISODATA Balla i Halla66.
Niektórzy autorzy twierdzą, że metody iteracyjno-optymalizacyjne są bardziej efektywne
niż metody hierarchiczne, ponieważ przenoszenie obiektów z klasy do klasy w trakcie gru-
powania pozwala się wycofać z wcześniej podjętych, błędnych decyzji o ich przynależności.
3.3.1. METODA MIERNIKA TAKSONOMICZNEGO
Z. Hellwig [1968], s. 324 zaproponował taksonomiczną metodę klasyfikacji zwaną meto-
dą wzorca lub miernika taksonomicznego.
Metoda wzorca polega na ustaleniu nowego wzorcowego obiektu, z którym porównuje
się poszczególne obiekty. Dane dla obiektu wzorcowego stanowi wektor wartości optymal-
nych dla każdej z badanych cech.
W zbiorze zmiennych diagnostycznych znajdują się zmienne, które mają różny wpływ na
kierunek rozwoju danego zjawiska: pobudzają go lub hamują. W związku z tym wyróżnia się
dwa podstawowe rodzaje zmiennych:
- stymulanty, zmienne wywierające dodatni wpływ na poziom rozwoju badanego zja-
wiska, a więc korzystne są wysokie wartości tych zmiennych;
- destymulanty, zmienne charakteryzujące się opózniającym oddziaływaniem na sto-
pień rozwoju zjawiska, a więc takie których niskie wartości są korzystne.
Obok stymulant i destymulant mogą także wystąpić nominanty, czyli zmienne nie mające
istotnego wpływu na poziom rozwoju badanego obiektu67.
Określenie charakteru zmiennych powinno opierać się na przesłankach pozastatystycz-
nych (merytorycznych). Poprawność określenia charakteru zmiennych można zweryfikować
określając kierunek korelacji poszczególnych zmiennych ze zmienną decyzyjną. Dla stymu-
64
Porównaj R. S. Michalski [1980], s. 34-56.
65
Porównaj R. M. Cormack [1971].
66
Każda z tych metod została dokładnie opisana w pracy M. R. Anderberg [1973].
67
Porównaj W. Pluta [1986].
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
107
lant kierunek ten powinien być dodatni, a dla destymulant ujemy. Natomiast dla nominant
powinna występować nieistotna korelacja68.
Zmienne stosowane do opisu klasyfikowanych obiektów są często zmiennymi ilościo-
wymi i mają różne miana. W celu sprowadzenia poszczególnych cech do porównywalności
należy doprowadzić je do postaci niemianowanej. Wybór metody doprowadzającej do porów-
nywalności zmiennych powinien być dokonany przede wszystkim z uwzględnieniem właści-
wości metody taksonomicznej, która będzie w badaniu użyta, a także właściwości miary po-
dobieństwa obiektów69.
Najczęstszym sposobem doprowadzenia do porównywalności zmiennych macierzy da-
nych (3.3) w metodzie wzorca jest przekształcenie różnicowo-ilorazowe (zwane unitaryza-
cją)70:
xij - min{xij}
i
Ć
xij = (3.64)
max{xij}- min{xij}
i i
gdzie:
Ć
xij - miara opisywana przez j-zmienną dlai -tego obiektu;
max{xij}- wartość maksymalna j-tej zmiennej w zbiorze obiektów;
i
min{xij} - wartość minimalna j-tej zmiennej w zbiorze obiektów;
i
xij - wartość j-tej zmiennej dla i-tego obiektu.
Dla każdej zmiennej diagnostycznej o charakterze stymulanty przyjmuje się jako:
- min{xij} wartość pierwszego decyla jest to tzw. antywzorzec;
i
- max{xij} wartość dziewiątego decyla jest to tzw. wzorzec.
i
Dla każdej zmiennej diagnostycznej o charakterze destymulanty przyjmuje się jako:
- min{xij} wartość dziewiątego decyla jest to tzw. antywzorzec;
i
- max{xij} wartość pierwszego decyla jest to tzw. wzorzec.
i
W sytuacji gdy wynikiem unitaryzacji są wartości większe od jedności przyjmuje się war-
tość maksymalną, czyli jeden. W przypadku, gdy wartości zmiennych są mniejsze od zera
przyjmuje się wartość minimalną - zero.
Często stosowany w celu sprowadzania zmiennych do porównywalności jest zapropono-
68
Porównaj T. Grabiński, S. Wydymus, A Zeliaś [1989], s. 22.
69
Porównaj W. Pluta [1977], s. 20; Z. Hellwig, U. Siedlecka, J. Siedlecki [1995], s. 16; W. Rogowski, M. Krysiak [1997],
s. 97.
70
Porównaj Z. Hellwig, U. Siedlecka, J. Siedlecki [1995], s. 26; W. Rogowski, M. Krysiak [1997], s. 99.
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
108
wany przez W. Plutę [1977] miernik izotomiczny, oddający zróżnicowanie poziomu zmiennej
xj:
xij
Ć
xij = (3.65)
n
"xij
i=1
Ć
Następnym etapem w metodzie wzorca jest agregacja miar cząstkowych xij w syntetycz-
ną miarę dla każdego obiektu, określoną formułą:
k
1
Ć Ć
xi = (3.66)
"xik
k
j=1
Taksonomiczne mierniki wzorca zastępują wielocechowy opis badanych obiektów opi-
sem za pomocą jednej agregatowej wielkości, przez co klasyfikacja wielocechowych obiek-
tów sprowadza się do grupowania zbioru obiektów według jednej zmiennej.
W dalszym etapie zbiór obiektów dzieli się na l klas o wartościach syntetycznej miary z l
przedziałów o długości 1/ l . Podział zbioru może też następować tak jak proponuje A. Malar-
ska [1998], s. 61 tzn. przy dużych skokach jednostkowych w uporządkowanym szeregu miary
syntetycznej określonej wzorem (3.66). To podejście jest szczególnie przydatne, gdy liczba
klas nie jest z góry określona.
3.3.2. METODA K-ŚREDNICH
Idea metody k średnich71 została opracowana już w latach pięćdziesiątych przez
T. Daleniusa, który przedstawił iteracyjną procedurę podziału populacji na l grup, tak aby
zminimalizować wielkość wewnątrzgrupowej wariancji72. Najczęściej wykorzystywany
w praktyce wariant tej metody, opracowany przez J. A. Hartigana [1975], przedstawiono po-
niżej.
1. Ustala się maksymalną liczbę iteracji73 oraz liczbę grup l, na jakie ma być podzie-
lony analizowany zbiór obiektów, przy czym l " 2;n -1 , gdzie: n jest liczbą
obiektów.
71
Z reguły przyjmuje się, że liczba grup w populacji jest równa k i stąd nazwa tej metody. Bliższe szczegóły dotyczące me-
tody k średnich można znalezć w pracy C. F. Banfielda i L. C. Bassila [1977].
72
D. R. Cox [1971] podał funkcję mierzącą wielkość strat związanych z podziałem obiektów na l grup według jednowymia-
rowej zmiennej o rozkładzie normalnym. Uogólnienie na przypadek wielowymiarowy zaproponował G. S. Sebestyen [1962].
L. Engelman i J. S. Hartigan [1969] zajęli się empirycznymi rozkładami błędu podziału, odgrywającego w metodzie k śred-
nich rolę funkcji-kryterium, na podstawie której podejmuje się decyzje o przynależności klasyfikowanych obiektów do po-
szczególnych grup. W zależności od sposobu zdefiniowania funkcji-kryteriów, reguł podejmowania decyzji w procesie gru-
powania, metody ustalania wstępnego podziału obiektów itp. występuje kilka wersji algorytmu k średnich.
73
Omawiana metoda optymalizacji wstępnych podziałów zbioru nie jest zbieżna. Dlatego, aby nie dopuścić do powstania
pętli w obliczeniach, należy z góry ustalić dopuszczalną liczbę iteracji.
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
109
2. Ustala się wyjściową macierz środków ciężkości grup
B = [bsj](s = 1,2,...,l; j = 1,2,..., k) (3.67)
gdzie: k jest liczbą zmiennych, oraz przyporządkowuje poszczególne obiekty do
takich grup, dla których ich odległość od środka ciężkości danej grupy jest naj-
mniejsza.
3. Wyznacza się wartość wyjściowego błędu podziału obiektów między l grup:
n
2
� = (3.68)
"dis
i=1
2
gdzie: dis jest odległością Euklidesa między i-tym obiektem, a najbliższym s-tym
środkiem ciężkości:
2
k
2
dis = (xij - bsj ) (i = 1,2,..., n) (3.69)
"
j=1
4. Dla pierwszego obiektu określa się zmiany błędu podziału wynikające z przypo-
rządkowania go kolejno do wszystkich aktualnie występujących grup:
nsd12 ns d12
s1
1 s 1
"� = - (3.70)
s
ns +1 ns +1
1
gdzie:
ns - liczebność s-tej grupy;
2
d1s - odległość pierwszego obiektu od środka ciężkości s-tejgrupy;
ns - liczebność grupy zawierającej pierwszy obiekt;
1
d12 - odległość pierwszego obiektu od najbliższego środka ciężkości.
s1
Jeżeli minimalna wartość wyrażenia (3.70) dla wszystkich s `" s1 jest ujemna,
1
to pierwszy obiekt przypisuje się do grupy, dla której "� = min. Z kolei przeli-
s
cza się środki ciężkości grup B uwzględniając dokonaną transformację obiektu
oraz wyznacza się aktualną wartość błędu podziału (3.68). Jeżeli minimalna war-
tość wyrażenia (3.70) jest dodatnia lub równa zeru, to nie dokonuje się żadnych
zmian.
5. Operacje opisane w punkcie (4) powtarza się dla każdego następnego obiektu, co
kończy pierwszą iterację procedury.
6. Jeżeli w danej iteracji nie obserwuje się żadnych przesunięć obiektów z grupy do
grupy, to postępowanie się kończy. W przeciwnym wypadku rozpoczyna się na-
stępną iterację, aż do momentu, w którym liczba iteracji nie przekroczy ustalonej
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
110
wartości.
Przedstawiony algorytm (1)-(4) umożliwia znalezienie lokalnego optimum błędu podziału
�, przy czym zazwyczaj74 liczba niezbędnych iteracji jest mniejsza od 15.
Omówioną wersję metody k średnich zmodyfikował D. N. Sparksa [1973], zmieniając
regułę transpozycji obiektów z grupy do grupy. Zamiast szukać obiektu, który zapewnia mak-
symalny spadek błędu podziału, można przypisywać poszczególne obiekty do grupy o naj-
bliższym środku ciężkości, obserwując wartość błędu podziału75.
Inna modyfikacja metody k średnich polega na zmianie reguły, według której przeli-
cza się środki ciężkości grup. Zamiast wykonywania tej operacji po każdej dokonanej trans-
pozycji można ją realizować dopiero po zakończeniu poszczególnych iteracji, co prowadzi do
znacznego skrócenia czasu obliczeń76.
Trzecia możliwa modyfikacja algorytmu k średnich wyraża się w tym, że zamiast do-
konywać transpozycji kolejnych obiektów między różnymi grupami przeprowadza się wy-
mianę poszczególnych par obiektów w ramach różnych grup. Metoda ta zapewnia osiągnięcie
lokalnego minimum błędu podziału, bliższego minimum globalnemu niż w poprzedniej wersji
algorytmu. Niemniej jednak uzyskuje się to kosztem wielokrotnie zwiększonego czasu obli-
czeń77.
3.4. PORÓWNANIE WYBRANYCH STATYSTYCZNYCH METOD
KLASYFIKACJI
W analizie czynnikowej zakłada się, że dane reprezentują pomiary dokonane na skali in-
terwałowej oraz, że zmienne podlegają wielowymiarowemu rozkładowi normalnemu.
W obliczeniach jest wykorzystywana macierz korelacji pomiędzy zmiennymi pozwalająca na
identyfikowanie ukrytych wymiarów. Wymiary te można traktować jako zmienne ukryte,
które korelują z wielkościami bezpośrednio obserwowanymi. Techniki grupowania,
w szczególności metody aglomeracji mogą być stosowane niezależnie od sposobu wyliczania
miar odległości i nie ma ścisłych wymagań odnoszących się do ukrytych rozkładów lub skali
pomiaru (dopóki miary odległości są poprawne). Ponadto, skupienia mają charakter czysto
opisowy i tworzą tylko pewną taksonomię (podział na grupy) analizowanych obiektów. Me-
74
Porównaj T. Grabiński, S. Wydymus, A. Zeliaś [1989], s. 80.
75
Nie prowadzi ona jednak do minimalizacji błędu podziału określonego wzorem
(3.68).
76
Porównaj T. Grabiński S. Wydymus, A. Zeliaś [1989], s. 81.
77
Informacje dotyczące modyfikacji metody k średnich można znalezć w pracy C. F. Banfielda i L. C. Bassila [1977], Stati-
sticaTM PL [1998], s. 3167.
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
111
toda ta nie pozwala na wprowadzenie wnioskowania na temat ukrytych zmiennych78. Analiza
głównych składowych, w odróżnieniu od analizy czynnikowej jest opisową metodą redukcji
danych.
Cechą definicyjną rozróżniającą dwa analityczne modele czynnikowe: czynniki główne,
a główne składowe jest to, że w analizie składowych głównych zakładamy, że całkowita
zmienność wskaznika powinna zostać użyta w analizie, podczas gdy w analizie czynników
głównych używamy tylko tej zmienności wskaznika, którą dzieli on z innymi wskaznikami.
W większości przypadków, obie metody dają bardzo podobne wyniki. Jednak analiza składo-
wych głównych jest często preferowana jako metoda redukcji danych, podczas gdy analiza
czynników głównych jest chętniej stosowana, gdy celem jest wykrycie struktury.
Analiza dyskryminacyjna wykazuje pewne podobieństwo do grupowania metodą k-
średnich. Jednakże całkowicie różni się pod względem istoty i sposobu interpretacji.
W przypadku analizy dyskryminacyjnej z góry wiadomo, do jakiej grupy należy każdy przy-
padek. Celem analizy jest określenie, która ze zmiennych pozwala w najlepszy sposób doko-
nać dyskryminacji w obrębie obserwowanych grup. Rysunek 3.5 przedstawia jedną z sytuacji
grupowania dychotomicznego, kiedy liniowa funkcja dyskryminacji daje najlepsze wyniki
klasyfikacji.
x2 K2
K1
x1
Rysunek 3.5. Liniowa funkcja dyskryminacji
yródło: Opracowanie własne.
W przypadku grupowania metodą k-średnich nie wiadomo do którego skupienia należy
każdy z przypadków, ani nie jesteśmy pewni co do istoty (a nawet liczby) skupień występują-
cych w obrębie danych. Celem grupowania metodą k-średnich jest ustalenie, czy i w jaki spo-
sób obiekty trafiają do grup, podczas gdy analiza dyskryminacyjna zakłada znajomość liczby
grup oraz przynależności do grup każdego z przypadków79.
78
Porównaj StatisticaTM PL [1997], s. 3169, Sriram R. D. [1997], s. 476-478.
79
Porównaj StatisticaTM PL [1997], s. 3170, Sriram R. D. [1997], s. 478.
METODY STATYSTYCZNE W ROZWIZYWANIU ZADAC KLASYFIKACJI
112
Rysunek 3.6 przedstawia jedną z sytuacji grupowania dychotomicznego, kiedy metoda k-
średnich daje najlepsze wyniki klasyfikacji.
x2
K2
K1
K1
K2
x1
Rysunek 3.6. Metoda k-średnich
yródło: Opracowanie własne.
Porównując sytuacje przedstawione na rysunkach 3.5 i 3.6 można stwierdzić, że istnieją
przypadki w których należy zastosować konkretną z metod klasyfikacji. Niestety możliwość
wizualnego stwierdzenia, która z metod grupowania będzie lepsza jest możliwe tylko
w sytuacjach zaprezentowanych na płaszczyznie, czyli reprezentowanych za pomocą dwóch
zmiennych80.
80
Porównaj Sriram R. D. [1997], s. 475.

Wyszukiwarka

Podobne podstrony:
Meredith Pierce historia napisana przeze mnie Rozdział III
04 Rozdział III Od wojennego chaosu do papieża matematyka
Rozdział III
4 Rozdział III
05 Rozdział III Mnisi, czyli żywa świątynia Ducha Świętego
06 Rozdział III
M Sokół ABC języka HTML Rozdział III Znaczniki HTML formatujące tekst
ROZDZIAŁ III Stabilizacja punktów i zabezpieczenie zespołu
Stefen s Diaries Rozdział III
Meredith Pierce Nieopisana historia Rozdział III
4 Postanowienia rozdziału III Konwencji SOLAS
07 Rozdział III Kwaterniony jako macierze
Siderek12 Tom I Część III Rozdział 14

więcej podobnych podstron