88763 P3200180

88763 P3200180




czy tez statystyki Gowera

(4.114)


(4.115)


G= Z(dn-ca)2

i jej odmiany w postaci ważonej sumy kwadratów101 WSK = 2 wn(dn - cj2

które są miarami niezgodności (lub dopasowania) między macierzą odległości D a poziomami łączenia na dendrogramie.

Powyższe wskaźniki można uogólnić w formie metryki Minkowskiego

dla 0 < m < 1


(4.116)

oraz


max| dncn |    dla m = 0


(4.117)


lardine i Sibson w roku 1968 zaproponowali serię względnych miar opartych ma metryce Minkowskiego. które można zapisać w następującej ogólnej postaci


ó


(4.118)


gdzie 0< m < l. Miary dopasowania według powyższej propozycji są niczym innym jak standaryzowanymi metrykami Minkowskiego, w których poprzez różniące się wartości m można różnicować wagi dużych lub małych różnic zarówno odległości, jak i wartości kofenetycznych (zob. Sneath i Sokal, 1973; Everitt, 1978). Wartości miar i =0 wskazują na dopasowanie doskonałe. Jardine i Sibson, objaśniając istotę miary, stosowali m = 1 / Z a więc analogicznie jak w przypadku znanego z zastosowań w niemetrycznym skalowaniu wielowymiarowym, a wprowadzonej w 1964 roku przez Kruskala mierze o nazwie STRESS (ang. standarized residual sum of square)


1/2


(4.119)


.


gdzie cn są elementami macierzy kofenetycznej.

Wartości miary stress dla poszczególnych metod grupowania podano w ostatnim wierszu tablicy 4.6.

Zauważmy, że współczynnik korelacji kofenetycznej i miary dopasowania <5 czy dm nie muszą dawać takiej samej oceny grupowania. Jeżeli bowiem założymy, ze jakaś metoda grupowania hierarchicznego rozszerzyłaby proporcjonalnie i0! Pomysł na porównanie macierzy odległości (lub podobieństwa) przy użyciu tej miary jest przy pisywany J A. Hartiganowi (1967 r.j; zob. Anderberg (1973).


— 1). natomiast wskaźnik ó przyjąłby wartość równą A — £4, i świadczyłby o wyjątkowo dużej niezgodności. Idlatego wskaźniki ó czy óm nic są allernaty wą


dla współczynnika korelacji kofenetycznej Mają one inną wariośt informacyjną


oceniają inne własności grupowania

Czasami można zakładać, że w obserwowanych odległościach lub pod o bieństwach znaczenie ma tylko porządek, a nie bezwzględne poziomy łączenia Wówczas miarą ogólnego dopasowania dendrograinu może byc współczynnik

korelacji rang lub na przykład współczynnik y Goodmana-Kruskala o postać i

(4 120


(C-D)

Y~ (C + D)

gdzie C oraz D oznaczają odpowiednio liczby zgodnych (ang. concordant ) i nie zgodnych (ang. discordant) par {(r, s),

Współczynniky porownuje zatem wszystkie pary obiektów ze względu na od ległość (lub podobieństwo) między nimi, czyli wszystkie pary odległości w ma cierzy odległości i macierzy dendrogramu. Porów nanie między parami < r s i( r można zapisać w postaci relacji dfi Rddtu oraz cn R cm gdzie symbole R i R oznaczają relacje mniejszości (<) i w iększości (>). Jako parę zgodną określimy laką parę, dla której (Rd ,R() = (<> <) lub (R, , R,)« (>,>)■ Rozbieżność znaków nie równości jest świadectwem niezgodności. Współczynnik y opiera się na ląc / no liczbie zgodnych i niezgodnych par (pomija się w nim wartości remisowe. Po dobnie jak współczynnik korelacji przyjmuje on w artości / przedziału — 1 < y < i od pełnej niezgodności do pełnej zgodności (/<*b. Gordon. 1999 Współczynnik Goodmana-Kruskala jest także miarą efektywności różnych metod grupowania stosowanych do tych samych danych.

Zapewne mniej znaną i rzadziej stosowaną miarą zgodności dwóch ugrupo wań jest współczynnik Randa. W. Rand zaproponował go w 1971 roku dla oceny

podobieństwa dwóch podziałów’, powiedzmy: P = {C .( : .....Ck) } oraz

P2 = {C,2,C22,C\2), które spełniają kryteria podane w punkcie 4.2. Współczynnik zdefiniowano następująco

RAND =


*(*-1)

2


(4.121)


pierwszym etapie łączenia zachowana zostaje rzeczywista odległość dwóch najbardziej podobnych obiektów

Współczynnik Goodmana i Kmskala jest zasadniczo stosowany do oceny zgodności upo rządkowań i może być wykorzystywany do grupowania zmiennych (por. współczynnik r-Kcndalla).



Wyszukiwarka

Podobne podstrony:
P3310046 288 4 Anajiza skupi,. i/ to/ statystyki Ciowera (4 114) i jej odmiany w postaci ważonej sum
P3310046 288 4 Anajiza skupi,. i/ to/ statystyki Ciowera (4 114) i jej odmiany w postaci ważonej sum
P3310046 288 4 Anajiza skupi,. i/ to/ statystyki Ciowera (4 114) i jej odmiany w postaci ważonej sum
114 115 (4) dzieciom papierosy. Ci sprzedawcy też bywają matkami i ojcami. Drodzy Radni - zajęcie si
P1020349 114 Jan Danecki (np. poddaństwo chłopów) czy też na bezwzględnym uzależnieniu ludzi formaln
CCF20081129017 traktować możliwie wyczerpująco całą masę dokumentamą, czy też zastosować metody sta
skanuj0011 (283) ^ńóinićznej czy też ■ określonych ""gustów i preferencji.’W masie i ludz
Illich16 stniczyłby autor wybranej (książki albo jego przedstawiciel; czy też system gwarantujący&nb
170 PARADOKSY J OGÓLNIKI wczesną, czy też przedwczesną, — za paradoks w ujemnem znaczeniu przez ogół

więcej podobnych podstron