background image

 

 

 

 

ZASTOSOWANIE ALGORYTMÓW GRUPOWANIA  

W SIECI WWW I E-BIZNESIE 

 

 

 

Sprawozdanie V 

 

Miary podobieństwa, przetwarzanie wstępne danych, ocena wyników 

 

 

 

Czemiel Paulina 

Hałaburda Krzysztof 

 

 

 

 

background image

Zadania

 

1.

 

Dla zbioru 

iris – missing.arff

 dokonać zamiany wartości brakujących na wartości średnie 

(zakładka PreprocessFilter: Filters-> unsupervised -> attributes -
ReplaceMissingValues). 

2.

 

Wykonać grupowanie algorytmem EM. Zanotować skuteczność w komórce nr 1 
poniŜszej tabeli. 

3.

 

Wykonać normalizację atrybutów zbioru (zakładka PreprocessFilter: Filters -> 
unsupervised -> attributes -> Normalize). Ponownie pogrupować dane algorytmem EM i 
zanotować skuteczność w komórce nr 2 tabeli. 

4.

 

Dokonać selekcji atrybutów (zakładka Select attributesAttribute Evaluator: Principal 
Components). Numery wybranych atrybutów: 1,2. 

5.

 

Ponownie pogrupować dane usuwając zbędne atrybuty i zanotować skuteczność w 
komórce nr 3 tabeli. 

 

Zbiór: iris - missing.arff algorytm: EM 

 

nr 

normalizacja 

Selekcja atrybutów 

Skuteczność 

[%] 

59,3333 

[0,1] 

59,3333 

[0,1] 

PCA 

60.6667 

 

6.

 

Dla zbioru

 labor.arff

 wykonać grupowanie algorytmem EM. Zanotować skuteczność w 

komórce nr 1 poniŜszej tabeli. 

7.

 

Wykonać normalizację atrybutów (zakładka Preprocess, Filter: Filters -> unsupervised -
> attributes -> Normalize). 

8.

 

Wykonać transformację wartości atrybutów nominalnych do numerycznych 
(zakładka PreprocessFilter: Filters -> unsupervised -> attributes -
NominalToBinary). Ponownie pogrupować dane algorytmem EM i zanotować 
skuteczność w komórce nr 2 tabeli. 

9.

 

Dokonać selekcji atrybutów (zakładka Select attributesAttribute 
Evaluator
SymmetricalUncertAttributeSetEval, Search Method: RCBFSearch). Numery 
wybranych atrybutów: 2, 15, 24, 22, 18, 9. 

10.

 

Ponownie pogrupować dane usuwając zbędne atrybuty (zakładka PreprocessFilter
Filters -> supervised -> attributes -> AttributeSelection ustawiając parametry z p. 9) i 
zanotować skuteczność w komórce nr 3 tabeli. 

 

Zbiór: labor.arff algorytm: EM 

nr  normalizacja 

Typy atrybutów 

Selekcja 

atrybutów 

Skuteczność 

[%] 

nominalne+numeryczne 

42,1053 

[0,1] 

numeryczne 

50,8772 

[0,1] 

numeryczne 

Współczynnik 

korelacji i 

redundancji 

57.8947