ZASTOSOWANIE ALGORYTMÓW GRUPOWANIA
W SIECI WWW I E-BIZNESIE
Sprawozdanie V
Miary podobieństwa, przetwarzanie wstępne danych, ocena wyników
Czemiel Paulina
Hałaburda Krzysztof
Zadania
1.
Dla zbioru
iris – missing.arff
dokonać zamiany wartości brakujących na wartości średnie
(zakładka Preprocess, Filter: Filters-> unsupervised -> attributes -
> ReplaceMissingValues).
2.
Wykonać grupowanie algorytmem EM. Zanotować skuteczność w komórce nr 1
poniższej tabeli.
3.
Wykonać normalizację atrybutów zbioru (zakładka Preprocess, Filter: Filters ->
unsupervised -> attributes -> Normalize). Ponownie pogrupować dane algorytmem EM i
zanotować skuteczność w komórce nr 2 tabeli.
4.
Dokonać selekcji atrybutów (zakładka Select attributes, Attribute Evaluator: Principal
Components). Numery wybranych atrybutów: 1,2.
5.
Ponownie pogrupować dane usuwając zbędne atrybuty i zanotować skuteczność w
komórce nr 3 tabeli.
Zbiór: iris - missing.arff algorytm: EM
nr
normalizacja
Selekcja atrybutów
Skuteczność
[%]
1
-
-
59,3333
2
[0,1]
-
59,3333
3
[0,1]
PCA
60.6667
6.
Dla zbioru
labor.arff
wykonać grupowanie algorytmem EM. Zanotować skuteczność w
komórce nr 1 poniższej tabeli.
7.
Wykonać normalizację atrybutów (zakładka Preprocess, Filter: Filters -> unsupervised -
> attributes -> Normalize).
8.
Wykonać transformację wartości atrybutów nominalnych do numerycznych
(zakładka Preprocess, Filter: Filters -> unsupervised -> attributes -
> NominalToBinary). Ponownie pogrupować dane algorytmem EM i zanotować
skuteczność w komórce nr 2 tabeli.
9.
Dokonać selekcji atrybutów (zakładka Select attributes, Attribute
Evaluator: SymmetricalUncertAttributeSetEval, Search Method: RCBFSearch). Numery
wybranych atrybutów: 2, 15, 24, 22, 18, 9.
10.
Ponownie pogrupować dane usuwając zbędne atrybuty (zakładka Preprocess, Filter:
Filters -> supervised -> attributes -> AttributeSelection ustawiając parametry z p. 9) i
zanotować skuteczność w komórce nr 3 tabeli.
Zbiór: labor.arff algorytm: EM
nr normalizacja
Typy atrybutów
Selekcja
atrybutów
Skuteczność
[%]
1
-
nominalne+numeryczne
-
42,1053
2
[0,1]
numeryczne
-
50,8772
3
[0,1]
numeryczne
Współczynnik
korelacji i
redundancji
57.8947