------------------------
nak, że współobecności są silniejszym wskaźnikiem podobieństwa, niż współ-nie obecności34. W przeciwieństwie do odległości wyższa wartość tych wskaźników świadczy o większym podobieństwie obiektów. Najlepiej by było, gdyby wskaż niki przyjmowały wartości między 0 (zupełne niepodobieństwo) a 1 (pełne podobieństwo).
Alternatywne ujęcie cechy może dotyczyć także jakichkolwiek cech ilościowych. Wymaga to jednak uważnego rozdzielenia zbioru wartości zmiennej na dwie wyłączające się części zgodnie z celem badania, na przykład wiek do 30 lal i wiek 30 lat i więcej. Takie podejście do cech ilościowych zarówno ciągłych, jak i skokowych trzeba traktować jako ostateczność. Dychotomizowanie wydaje się bardziej naturalne w odniesieniu do wielowariantowych cech jakościowych. Zawsze jednak tworzone w ten sposób kategorie, a przynajmniej jedna z nich, będą na tyle obszerne, że trudno w przypadku ich współwystępowania mówić o podobieństwie obiektów.
W odniesieniu do każdej pary obiektów mamy do czynienia z podwójną dychotomią i wygodnie jest informację o występowaniu i współwystępowaniu cech u dwóch różnych obiektów przedstawić w postaci tablicy asocjacji (dla obiektów)35.
Tablica 4.1. Schemat tablicy asocjacji dla obliczania wskaźników podobieństwa obiektów
Obiekt s | ||||
Wyszczególnienie |
obecność cechy (1) |
nieobecność cechy (0) |
Razem | |
obecność cechy |
Prs |
Prr-Pn |
Pn | |
Obiekt r |
(1) |
(a) |
m |
(a + b) |
nieobecność |
Pss-Pn |
P~Prr~Pss + Pn |
P-Pn | |
cechy (0) |
(c) |
(d) |
(C+d) | |
Razem |
(fl + c) |
P-Pss (b + d) |
p (a + b + c + d) |
Wielkościami w tablicy asocjacji, które uwzględnia się konstruując wskaźniki,
p — łączna liczba cech, ze względu na które badamy obiekty (a + b + c + d),
34 Jeśli na przykład grupujemy ludzi, to stwierdzenie faktu, że dwie osoby oglądają w telewizji filmy sensacyjne (lub jakąkolwiek inną szczególną formę) bardziej świadczy o podobieństwie, niż to, że ich nie oglądają. Znaczenie współobecności i współ-nieobecności nie musi być jednak aż tak różne. np. posiadanie samochodu produkcji krajowej lub zagranicznej w zbiorowości osób zmotoryzowanych nie aż tak różnicuje jednostki. Problem ten. przy okazji omawiania współczynników podobieństwa, dyskutują Sneath i Sokal (1973). Krytykując uwzględnianie wc współczynnikach współ-nieobecności. dają oni wręcz komiczny przykład, iż obserwując odrębne zupełnie organizmy, np. wielbłąda, wszy i nicienie, brak skrzydeł byłby z pewnością absurdalnym wskaźnikiem podobieństwa.
35 Pojęcie asocjacji odnosi się zasadniczo do zagadnienia zależności dwóch cech dychotomicznych.
n = 2 x x _ — liczba cech. które mają równocześnie obiekty r i s (a)
"■ j-» n *
P
p^si £ xlj — liczba cech. które posiada obiekt r (a+ b),
p = Ix — liczba cech, które posiada obiekt s U + c), r" ;«1 *
p— pn — p u + pn ~~ liczba cech, których żaden z dwóch obiektów nie posiada (dr.
Przedstawianie tablicy asocjacji dla każdej pary obiektów byłoby kłopotliwe i dlatego wyniki zliczeń zestawia się w jednej łą< /.nej symetrycznej tablicy (n X n; w której elementy diagonalne reprezentują liczbę obecności (pjub pa), zas po zostałe - liczbę współobecności (pn)
(4.32)
Na jej podstawie można tworzyć tablice asocjacji, wybierając elementy dia gonalne dla każdej pary obiektów r i s (będą to sumy brzegowe w pierwszym wier szu i pierwszej kolumnie) oraz liczby leżące na przecięciu wiersza r i kolumny s (będą to liczby w kratkach współobecności a). Te trzy liczby wystarczą do wypełnienia tablicy asocjacji i do obliczenia większości miar podobieństwa Zanim omówimy parę ważniejszych wskaźników podobieństwa warto wyra zić metrykę Minkowskiego jako funkcję liczb a,b,c,d w tablicy asocjacji czyli odnieść ją do zmiennych binarnych W tym celu zapiszemy wzór (4 3) w postaci
—--= — X\x . — * |m r,s = 1,... ,n;r* s (4.33)
P P
Ponieważ bezwzględne różnice | .v.. — jc . | są równe 0, gdy dane jednostki r i s są zgodne: (0 - 0) lub (1 - 1) oraz są równe 1 w przeciwnym przypadku, to dla wszystkich wartości m > 1 powyższe wyrażenie jest równe (zob. wzór 4.39)
b + c P
a + d
V
(4.34)
36 Symbole a.b.c.d na oznaczenie odpowiednich liczebności wpisano dlatego, aby ułatwić Czytcl nikowi nawiązanie do wyrażeń, które często są zapisywane przy użyciu tychże symboli.