Cechy występujące w macierzy danych posiadają różne jednostki miar, również ich wartości bezwzględne różnią się znacznie między sobą. Aby móc rozpatrywać je wszystkie łącznic, trzeba przeprowadzić procedurę unifikacji, tzn. uwolnienia od jednostek miary i ustalenia jednakowego zakresu zmienności.
Najczęściej stosowany sposób uwalniania cech od jednostek miary to standaryzacja przekształcająca wartość każdej ze zmiennych w poniższy sposób:
ymn = X'"n~ Xn , m - 1,2.....M n = 1,2,..., W (10.4)
gdzie:
xmn— m-ta realizacja /i-tej zmiennej, x„ — wartość oczekiwana (średnia) /i-tej zmiennej, o;i — odchylenie standardowe /i-tej zmiennej.
Inny sposób, transformujący wartości każdej zmiennej do przedziału domkniętego <0, 1> wyraża się wzorem:
xmn ~ m‘n
(10.5)
max - min
Czasami stosuje się bardziej wyrafinowane metody unifikacji. Traktując realizacje wielowymiarowych zmiennych losowych jako punkty (lub wektory) usytuowane w pewnej wielowymiarowej przestrzeni, można zauważyć, że są one zróżnicowane pod względem poziomu wartości opisujących je zmiennych, to jest proporcji poziomów ich wartości. Wówczas o strukturze wartości zmiennych informuje kąt między rozpatrywanymi wektorami, a o poziomie wartości zmiennych — długość poszczególnych wektorów.
Możliwe jest zastosowanie takiej unifikacji, aby otrzymać dane jednorodne albo pod względem struktury, albo pod względem poziomu wartości zmiennych.
Przykładowo przekształcenie, które z wartości każdej zmiennej eliminuje składnik struktury, a pozostawia składnik poziomu, określa się następująco:
niech Xn = {.v1#l, x2ll, ..., xmn, ..., xMn)1 będzie wektorem realizacji /t-tej cechy; wówczas dane transformowane
Vn = {vln, ...» vmn,vMy wylicza się korzystając na podstawie wzoru
vnms-n~ ’ • gdzie n= 1,2.....N (10.6)
m-l
197