• B—xj. co powoduje, że x] = 1, s(jc]) = v{x|), a 2 Jej, = n,
• B=Xxii,co powoduje, że nowa zmienna x'g przyjmuje wartości z przedziału [0,1], a suma jej wartości jest równa 1. Z x tj = 1,
• B = JHxJ, co powoduje, że suma kwadratów wartości nowej zmiennej jest
równa 1, 2(x*)2 = 1. zaś ona sama przyjmuje wartości z przedziału 0<x’# <1
(jest to tzw. przekształcenie Stone‘a)69 • J3= min{*,;}, B = max{x^} itp.
Wszystkie przekształcenia ilorazowe czynią z nowej zmiennej wielkość nie-mianowaną, a najczęściej wykorzystywaną procedurą transformacji ilorazowej jest pierwsza z wymienionych, a mianowicie dzielenie wartości zmiennej przez ich średnią70.
Innym jeszcze sposobem doprowadzania do porównywalności cech jest tzw. unitaryzacja, która jest przekształceniem bezwzględnych ich wartości w wartości względne o stałym jednostkowym obszarze zmienności, tzn. R(Jc,)= 1 (zob. Ba-zamik i in., 1992). Stosowane są tu różne wzory, m.in.:
(4.88)
(4.89)
(4.90)
x.tj - min{x..}
gdzie: x, - średnia wartość cechy X.,
min{jc..} - najmniejsza zaobserwowana wartość cechy X r Rj = max{^:i>} — min{x^} - rozstęp (obszar zmienności) cechy.
Unitaryzacja według wzoru (4.90) powoduje, że wartości zmiennych zawarte są w przedziale x E [0,1], a średnia arytmetyczna każdej ze zmiennych jest równa “ nun^}) / Rj1'-
Do procedur normalizacyjnych zalicza się nieraz rangowanie, a więc zastępowanie rzeczywistych wartości zmiennych xu liczbami naturalnymi, zgodnie z uporządkowaniem obserwacji w rosnący ciąg wartości.
Efektem normalizacji jest nowa macierz danych znormalizowanych TL
69 Porównaj normalizację ładunków głównych składowych w rozdziale 2.
70 Porównaj problem standaryzacji obiektów (punkt 4.5).
71 Przekształcenia zmiennych polegające na wyrażeniu ich w jednostkach rozproszenia (odchylenia standardowego lub rozstępu) nadają tym zmiennym jednakową wagę.
4.6. Grupowanie hierarchiczne
Wśród metod grupowania wielowymiarowych obiektów najczęściej stosowane są metody hierarchiczne (ang hierarducal methods) Jeżeli proces grupowania hie rarchicznego przebiega od pojedynczych obiektów do jednej ostatecznej grupy skupiającej je wszystkie, to takie grupowanie nazywamy aglomeracyjnym (ang agglomeration lub amalgamatom). Istnieją rożne procedury tej klasyfikacji, jednak ich podstawowe funkcje są takie same. W literaturze przedmiotu można się cza sami zetknąć z akronimem SAHN, który oznacza sekwencyjne, aglomeracyjne. hierarchiczne, rozłączne (ang. seąueniial, aggiomeratm, hierarchii nonomiappmg) grupowanie, podkreślając w ten sposób zasadnicze własności technik znajdowa nia skupisk.
Istota grupowania hierarchicznego (aglomeracyjnego) polega na tym. że wyjściowo każdy element zbioru Q jest traktowany jako odrębna grupa jedno elementowa. Opierając się na miarach odległości lub podobieństwa, przepro wadza się sekwencyjnie grupowanie (czyli aglomerację i obiektów, w zależności od tego, jak dalece różnią się one między sobą lub na ile są podobne Pierwsze sku pienie zawsze się tworzy z połączenia dwóch obiektów najbardziej podobnych W kolejnych etapach bądź to dołącza się pojedynczy obiekt do istniejącego już skupienia bądź też łączy skupienia, również według najmniejszej odległości lub największego podobieństwa. Przed rozpoczęciem każdego kolejnego kroku naic ży w określony sposób przeliczyć odległości między ostatnio powstałym skupie niem a skupieniami dotychczas istniejącymi, tak aby to nowe ugrupowanie było w sposób jednoznaczny reprezentowane w macierzy odległości. Na kolejnym bowiem etapie aglomeracji podstawą łączenia będą aktualne, przeliczone odległości W efekcie wielokrotnego powtórzenia postępowania - łączenia dwóch najbliższych skupień, przeliczanie odległości itd - otrzymujemy jedną ostateczną grupę obiektów'2 oraz wykres hierarchicznego uporządkowania. Wykres raki, zwany dizewkicm połączeń lub dcndrogramcm (ang tmdiagram lub ómirogmm), ukazuje istotne cechy przeprow adzonego łączenia. Ten sposób postępowano tworzy wstępujący ciąg partycji P, < P2 <.. < P, = PQ. gdzie P, jest podziałem na który składają się jednoelementowe skupienia, czyli pojedyncze obiekty , zaś PQ jest równoznaczne z niepodziclonym. pełnym zbiorem obiektów Q. 1
' Sens hierarchii w grupowaniu znakomicie oddaic odniesienie biologiczne, gdzie w taksonomii obiekt może należeć sukcesywnie do gatunku, rodzaju, rodziny, rzędu, klasy lub gromady, typu i w efekcie do królestwa. Im niższego poziomu jest jednostka systematyczna (taksonj. tym bardziej podobne są należące do niej jednostki