15728 P3200144

15728 P3200144



216

4-Analiza skupią

kioi 4 możemy zapisać również w postaci

«2')2 =(x - X J(x, - xj=||x, - X , II2    (4.6a)

gdzie x’, oraz x’, wektory wierszowe (IX p),

J| x. — x . )| - euklidesowa norma wektora (x, — x f)

Takie podejście do mierzenia odległości jest zalecane, jeśli w grupowaniu hie-rarchic/n>m stosow ane są metody: centroidalna, Warda, średniego zróżnicowania lub surm kwadratów (zob. punki 4.6). Kwadratowa odległość euklidesowa jest zawsze wyborem bezpiecznym. Podobnie jak w przypadku metryki miejskiej metrykę euklidesowo można stosować, gdy zmienne są wzajemnie nieskorelo-wane. co jest warunkiem trudnym do spełnienia. W przeciwnym przypadku metryka euklidesowa będzie złą miarą odległości (Everitt, 1993) i wówczas zalecaną miarą odległości jest odległość Mahalanobisa20. Nie wydaje się, aby to ograniczenie było w praktyce uwzględniane.

Jakkolwiek metryka euklidesowa jest najpowszechniej stosowaną miarą zróżnicowania, to wielu badaczy woli stosować metrykę miejską. Argumentują oni, że metryka miejska spełnia następujący warunek: jeżeli dwa obiekty są opisane dwiema zmiennymi, których jednostki skali są jednakowe, to mają one tę samą odległość bez względu na to, czy są oddalone o dwie jednostki ze względu na każdą zmienną, czy też o jedną jednostkę ze względu na jedną zmienną i o trzy jednostki ze względu na drugą zmienną, co czyni z niej naturalną miarą odległości (zob. Everitt, 1993). Poważny natomiast zarzut formułuje się pod adresem metryki eu-kiidesowej, taki mianowicie, że w przypadku zmiany skali pomiarowej nie zachowuje ona nawet porządku odległości. Everitt (1993) daje przykład trójki dzieci, którym zmierzono wagę (w funtach) oraz wzrost (w stopach). Dla danych 1(60:3,0), 11(65:3,5) oraz 111(63:4,0) mamy następujące odległości euklidesowe: du = 5.02 dn = 3,16 oraz d2i = 2,06. Jeśli natomiast wzrost zmierzymy w calach, to odległości euklidesowe wyniosą: d}, = 7,81, dl} = 12,37 orazd2, = 6,32idziecko I będzie teraz traktowane jako bardziej podobne do dziecka II niż do III. Zanim więc obliczy się odległości euklidesowe dobrze jest przeprowadzić standaryzację zmiennych według wzoru xif/s. . Jest to zarzut prawdziwy, ale odnosi się również do odległości miejskiej, która także zmienia porządek odległości przy zmianie skali pomiarowej zmiennej lub zmiennych (zob. Hair i in., 1995). Właśnie zmiana skali (pomiar nie w stopach, lecz w calach; nie w minutach, lecz w sekundach itp.) powoduje, że zmienna prześladowana zacznie dominować w obliczeniach, 1

podczas gdy inne staną się mniej znaczące. Odwrotna sytuacja może da w a' taki sam efekt.

Wartości odległości obliczane według powyższych wzorów zalezą od liczby p uwzględnionych w badaniu zmiennych i rosną wraz z tą liczbą Aby uwolnić się od wpływu liczby zmiennych, często uśrednia się odległości poprzez dzielenie przez p. Otrzymujemy w len sposób następujące mierniki • Przeciętną odległość miejską (ang tntan absuluu disianui


<47

zwaną też różnicą przeciętną, średnią różnicą cech lub odległością Czeka -


niają jako jej wadę to, iż zawsze niedoszacowujc odległość euklidesow ą ■ zob Sne ath i Sokal, 1973). Stwierdzenie to nie jest w pełni zrozumiałe Przeciętna miejska odległość nie musi być analizowana pod kątem lego jak szacuje ona przeciętną odległość euklidesową. Jest to jedna z możliwych metrycznych miar wyjściowo ani lepsza, ani gorsza od innych. Relatywizowanie ocen\ przydatność: średnie’ metryki miejskiej opiera się zapewne na analogii między odchyleniem przecięt nym a odchyleniem standardowym, przy uznawanej przewadze tej drugiej wiei kości jako miary rozproszenia. Jakkolwiek byśmy oceniali obie mian odległości to dla wielu danych oba pomiary okazują się jednakowo dobre z punktu widzenia wyników grupowania.

• Przeciętną odległość euklidesową ( ang. mcan cuciidian disiance


48

Ciekawy wynik w odniesieniu do przeciętnej odległości euklideso1 ei uzyskał F.J. Rohlf (zob. Sneath i Sokal. 1973). Stwierdził on mianow icie iż przy pstanda ryzowanych niezależnych zmiennych o rozkładzie normalnym, wartość oczekiwana wielkości d dla parzystej liczby p(p > 4) wwnosi


(.4.9)

21 Średnią odległość miejską w badaniach antropologicznych użył 1 ('zekanowski już w 1909 roku


i nazwał ją: durchschnittlicht Diffcrcnz Faktu tego zdają się często nic dostrzegać liczni angielskojęzyczni statystycy, choć wzmiankę o wykorzystaniu metryki miejskiej przez Czekanowskiego zamieścili w swych książkach. Sneath i Sokal (1973) oraz Everitt (1993)

1

Odległość Mahalanobisa dla dwóch obiektówr i s dana jest wzorem dn = (xr — x( )S_,(xr -x,l gdzie x. i i, są wierszowymi wektorami pomiarów, zaś S macierzą kowariancji. Formuła odległości Mahalanobisa ma wbudowaną procedurę standaryzacyjną danych.


Wyszukiwarka

Podobne podstrony:
34753 P3310032 (2) którą możemy zapisać również w postaci (4.6a)pń2l
P3200162 252 4 Analizą skupią, Współczynnik skojarzenia oraz współczynnik korelacji (p jk można równ
skrypt wzory i prawa z objasnieniami20 36 Praca ■ Dla stałej siły pracę wydłuż odcinka o długości /
Metody numeryczne - 7. Całkowanie numeryczne Wzór ten możemy zapisać także w postaci: ^
skanuj0011 miernik był podłączony za pomocą przewodów miedzianych, zbudowane ogniwo możemy zapisać:
skanuj0019 (26) „Czystą” hydrolizę tej soli (czyli tylko z udziałem cząsteczek H20!) możemy zapisać
image 037 Podsumowsmie 37 Analogicznie, dla sytuacji z rys. l.lOb, możemy zapisać prawą stronę
image 074 74 Pole bliskie anteny i jego znaczenie dla techniki antenowej W efekcie możemy zapisać ca
skanuj0019 (26) „Czystą” hydrolizę tej soli (czyli tylko z udziałem cząsteczek H20!) możemy zapisać
stat Pageb resize 62 3.8 Analiza zjawisk dynamicznych Możemy skorzystać z poznanych wcześniej indek

więcej podobnych podstron