83078 P3200150

83078 P3200150



------------------------

nak, że współobecności są silniejszym wskaźnikiem podobieństwa, niż współ-nie obecności34. W przeciwieństwie do odległości wyższa wartość tych wskaźników świadczy o większym podobieństwie obiektów. Najlepiej by było, gdyby wskaż niki przyjmowały wartości między 0 (zupełne niepodobieństwo) a 1 (pełne podobieństwo).

Alternatywne ujęcie cechy może dotyczyć także jakichkolwiek cech ilościowych. Wymaga to jednak uważnego rozdzielenia zbioru wartości zmiennej na dwie wyłączające się części zgodnie z celem badania, na przykład wiek do 30 lal i wiek 30 lat i więcej. Takie podejście do cech ilościowych zarówno ciągłych, jak i skokowych trzeba traktować jako ostateczność. Dychotomizowanie wydaje się bardziej naturalne w odniesieniu do wielowariantowych cech jakościowych. Zawsze jednak tworzone w ten sposób kategorie, a przynajmniej jedna z nich, będą na tyle obszerne, że trudno w przypadku ich współwystępowania mówić o podobieństwie obiektów.

W odniesieniu do każdej pary obiektów mamy do czynienia z podwójną dychotomią i wygodnie jest informację o występowaniu i współwystępowaniu cech u dwóch różnych obiektów przedstawić w postaci tablicy asocjacji (dla obiektów)35.

Tablica 4.1. Schemat tablicy asocjacji dla obliczania wskaźników podobieństwa obiektów

Obiekt s

Wyszczególnienie

obecność cechy (1)

nieobecność cechy (0)

Razem

obecność cechy

Prs

Prr-Pn

Pn

Obiekt r

(1)

(a)

m

(a + b)

nieobecność

Pss-Pn

P~Prr~Pss + Pn

P-Pn

cechy (0)

(c)

(d)

(C+d)

Razem

(fl + c)

P-Pss

(b + d)

p

(a + b + c + d)

Wielkościami w tablicy asocjacji, które uwzględnia się konstruując wskaźniki,

Si

p — łączna liczba cech, ze względu na które badamy obiekty (a + b + c + d),

34 Jeśli na przykład grupujemy ludzi, to stwierdzenie faktu, że dwie osoby oglądają w telewizji filmy sensacyjne (lub jakąkolwiek inną szczególną formę) bardziej świadczy o podobieństwie, niż to, że ich nie oglądają. Znaczenie współobecności i współ-nieobecności nie musi być jednak aż tak różne. np. posiadanie samochodu produkcji krajowej lub zagranicznej w zbiorowości osób zmotoryzowanych nie aż tak różnicuje jednostki. Problem ten. przy okazji omawiania współczynników podobieństwa, dyskutują Sneath i Sokal (1973). Krytykując uwzględnianie wc współczynnikach współ-nieobecności. dają oni wręcz komiczny przykład, iż obserwując odrębne zupełnie organizmy, np. wielbłąda, wszy i nicienie, brak skrzydeł byłby z pewnością absurdalnym wskaźnikiem podobieństwa.

35 Pojęcie asocjacji odnosi się zasadniczo do zagadnienia zależności dwóch cech dychotomicznych.

n = 2 x x _ — liczba cech. które mają równocześnie obiekty r i s (a)

"■    j-» n *

P

p^si £ xlj — liczba cech. które posiada obiekt r (a+ b),

p = Ix — liczba cech, które posiada obiekt s U + c), r" ;«1 *

p— pn — p u + pn ~~ liczba cech, których żaden z dwóch obiektów nie posiada (dr.

Przedstawianie tablicy asocjacji dla każdej pary obiektów byłoby kłopotliwe i dlatego wyniki zliczeń zestawia się w jednej łą< /.nej symetrycznej tablicy (n X n; w której elementy diagonalne reprezentują liczbę obecności (pjub pa), zas po zostałe - liczbę współobecności (pn)


(4.32)

Na jej podstawie można tworzyć tablice asocjacji, wybierając elementy dia gonalne dla każdej pary obiektów r i s (będą to sumy brzegowe w pierwszym wier szu i pierwszej kolumnie) oraz liczby leżące na przecięciu wiersza r i kolumny s (będą to liczby w kratkach współobecności a). Te trzy liczby wystarczą do wypełnienia tablicy asocjacji i do obliczenia większości miar podobieństwa Zanim omówimy parę ważniejszych wskaźników podobieństwa warto wyra zić metrykę Minkowskiego jako funkcję liczb a,b,c,d w tablicy asocjacji czyli odnieść ją do zmiennych binarnych W tym celu zapiszemy wzór (4 3) w postaci

(d(m)r    i f

—--= — X\x . — * |m r,s = 1,... ,n;r* s    (4.33)

P    P

Ponieważ bezwzględne różnice | .v.. — jc . | są równe 0, gdy dane jednostki r i s są zgodne: (0 - 0) lub (1 - 1) oraz są równe 1 w przeciwnym przypadku, to dla wszystkich wartości m > 1 powyższe wyrażenie jest równe (zob. wzór 4.39)

b + c P


a + d

V


(4.34)


36 Symbole a.b.c.d na oznaczenie odpowiednich liczebności wpisano dlatego, aby ułatwić Czytcl nikowi nawiązanie do wyrażeń, które często są zapisywane przy użyciu tychże symboli.


Wyszukiwarka

Podobne podstrony:
CCF20090225005 człowieka ze środowiskiem są znacznie bardziej złożone niż u zwierząt z racji o wiel
Sytuacja kobiet slide Sytuacja kobiet • Statystyki mówią, że kobiety są w Polsce lepiej wykształcon
O A,2 Przyjmijmy że krzywe obojętności każdego z handlowców są silnie wypukłe O1 Przez każdy punkt
42236 Zdjecie2021 Wymiary szkieletu są silnie zdeterminowane genetyczni^ co oznacza, że trudno jest
94286101 djvu ELEKTROFIZYOLOGIA 241 trod są większe, tein oba prądy są silniejsze, w tym tedy fakc
P3200152 Spośród wymienionych czterech wskaźników podobieństwa najczyściej sio suwane są współczynni
Środowisko naturalne, rolnictwo i leśnictwo Lasy i przemysł bazujący na drewnie ze swej natury są si
Zdjęcie1550 Siewniki uniwersalne Zasada działania Podczas pracy słownika nasiona ze zbiornika są&nbs
111 Przy tej sposobności nadmieniamy, że górale są ludźmi wogóle bardzo chciwymi, a nawet niestety,

więcej podobnych podstron