P3200055

P3200055



D

cenią hipotezy zerowej, jeżeli dane zostały wylosowane z rozkładu o niższej kunozie niż

w rozkładzie normalnym, na przykład z rozkładu jednostajnego. lEngieman and Hartigan

19791.

Badania wykazały, że właściwszym postępowaniem jest postawienie hipotezy zerowej, że dane pochodzą z rozkładu jednostajnego [Hartigan 1978, Arnold 1979, Sarle 1983]. Ten

niej jednomodainego (jak np. rozkładu normalnego). Aproksymacja wartości oczekiwanej

współczynnika R2 (E[R2], expected R2) jest oparta na założeniu, ze wszystkie skupienia są


rozłożone podobnie jak hipersześciany (hypercubes, wielowymiarowe uogólnienie sześcianu). Sarle (1983) zaproponował, żeby użyć hiperprostopadłościanów (hyperboxes, wielowymiarowe uogólnienie prostopadłościanu).

Metoda CCC (cubic clustering criterion) jest oparta na porównaniu wartości oczekiwanej współczynnika R2 tj. E[R2], gdy spełniona jest hipoteza zerowa (że dane pochodzą z rozkładu jednostajnego) z zaobserwowaną w próbie wartością R2 i obliczeniu wartości:

CCC = ln

K , gdzie K =


np


V 2


(o,ooi + e(/?2))l2


p jest tu największą liczbą całkowitą mniejszą niż liczba skupień

K jest pewnym współczynnikiem stabilizującym wariancję, wyznaczonym empirycznie za pomocą symulacji Monte Carlo (brane były pod uwagę różne liczby obserwacji n, zmiennych p i skupień q).

Milligan i Cooper (1985) porównali 30 metod służących do szacowania liczby skupień za pomocą czterech hierarchicznych metod grupowania. W testach najlepiej wypadły trzy metody: statystyka pseudo-F [Calinski and Harabasz 1974], Je(2)/Je(l) będąca przekształceniem statystyki pseudo-t [Duda and Hart 1973] oraz CCC. Metody pseudo-F i CCC są dostępne w procedurze FASTCLUS systemu SAS, natomiast wszystkie trzy (pseudo-t może być stosowana tylko w metodach hierarchicznych) w procedurze CLUSTER systemu

SAS.

Uwagi o interpretowaniu wartości CCC.

1.    Zmienne użyte w analizie skupień nic powinny być silnie skorelowane ze sobą. Jeżeli występują silne korelacje, to należy zredukować liczbę zmiennych lub użyć analizy czynnikowej w celu zastąpienia zmiennych przez pewną liczbę ortogonalnych składowych (innych zmiennych).

2.    Liczba poszukiwanych skupień nie powinna być duża w porównaniu z liczbą obiektów

149


Wyszukiwarka

Podobne podstrony:
Etap III. Wybór - odpowiedniego do postawionej hipotezy zerowej - testu i obliczenie jego wartości w
Photo020 Ekonometria Współczesna Jeżeli JB < x„(2), wówczas nie ma podstaw do odrzucenia hipotezy
hydraulika 1. Wyznaczyć ciśnienie p2, jeżeli dane są: h
skanuj0521 542 PHP i MySQL dla każdego if(!$id = mysql_1nsert_1dO){ echo(”<h3 align- center >D
img077 X2 = 0.8357 co oczywiście nie jest wynikiem uprawniającym do odrzucenia hipotezy zerowej o br
PB062316 Oznacza to, że dodawanie macierzy jest łączne i przemienne elementem neutralnym. Przykład 1
IMG49 Jeżeli zwierzę zostało złapane 15 — dniowa przyżyciowa obserwacja weterynaryjna (zwierzęta do

więcej podobnych podstron