252 4 Analizą skupią,
Współczynnik skojarzenia oraz współczynnik korelacji (p jk można również obliczać, jeżeli w tablicy asocjacji zamiast liczebności bezwzględnych mamy udziały (częstości względem n). Wówczas symbole a, b, c, d tak właśnie należy rozumieć. Współczynniki <p lk oraz powinno się w zasadzie używać wtedy, gdy są nieujemne, gdyż wówczas są najbardziej efektywne (zob. Timm, 2003).
Zestawienie obliczonych p{p — 1) / 2 miar asocjacji podaje się w formie macierzy podobieństwa
s,
1 ... s
1 S
(4.78)
z tym że dobrze jest dla ułatwienia interpretacji cechy z wysokim dodatnimi wartościami indeksów umieszczać wzdłuż przekątnej macierzy. W macierzy można by też podawać wartości dwóch wskaźników - jeśli są obliczane - jednego nad przekątną, drugiego zaś pod przekątną.
Wychodząc ze współczynników <p jk oraz c ^, można obliczać odpowiadające im miary odległości, które można wykorzystać w grupowaniu cech. Są to:
dl =Jl~<P’dl =1“^ lub d)k = ■N/ł ~ cik •
Zaprezentowane w tym punkcie postępowanie jest dość uciążliwe, albowiem mierniki podobieństwa cech alternatywnych są wyznaczane dla każdej pary cech odrębnie - tworzy się odrębne tablice asocjacji, z których oblicza się wartości mierników. Istnieje jednak znacznie szybszy sposób, który krótko omówimy64. Jak wiemy z punktu 4.3.3 macierz obserwacji X dla danych alternatywnych może być przedstawiona jako zbiór 1 lub 0, w zależności od obecności lub nieobecności każdej z cech Xj(j— 1,... ,p) w obiekcie. Oznaczmy przez
liczbę obecności każdej z cech w zbiorze n obserwacji, lub inaczej liczbę obiektów, które posiadają cechę Xi (/ = 1,..., p), oraz przez
(4.80)
64 Fragment ten zamieszczamy, pomimo że w rozdziale 4 główny nacisk kładziemy na klasyfikację obiektów w wielowymiarowej przestrzeni cech. Problem bowiem można odwrócić i grupować cechy w wielowymiarowej przestrzeni obiektów, co w wielu zagadnieniach ma konkretny praktyczny wymiar.
icństwo cech i jęgopomiar
253
0ółwystąpień lub połączeń (koincydencji) cech X \Xt w zbiorze jed-
W*r '
r |Ujj inaczej liczbę jednostek, które posiadają zarówno cechę X , jak i cechę y n# i tworzą symetryczną macierz N = (n,} obecności (liczby na •V j współobecności (pozostałe elementy)
«.« |
WI2 • |
n, |
n2l |
n22 * |
n. 2f |
> |
*,2 • |
n PF |
N =
(4.81.
p^y tyCh warunkach miarą podobieństwa cech jest współczynnik korelacji
P*85
n' n/t ~ n, ' nkk
* ■Jni'nkt(n’-niXn-nJ
(4.82;
Jest to klasyczny współczynnik korelacji dla cech binarnych a zatem przy •e wartości z przedziału [-1, 1]. Warto zasygnalizować również, ze macierz wystąpień i współwystąpień N jest iloczynem macierzy wyjściowej X i jej trans pozycji. N = XTX(zob. Dagnelie, 1975).
pnykład 4.2. (współczynnik korelacji punktowej)
Załóżmy, że zbadano n = 15 jednostek ze względu na p = 4 cechy alternatywne, zapisując wartość 1, jeśli cecha (wyróżniona odmiana cechy ) występuje, oraz wartość 0 w przeciwnym przypadku. Macierz danych binarnych podajemy w postaci następującej tablicy: