ZASTOSOWANIE ALGORYTMÓW GRUPOWANIA

W SIECI WWW I E-BIZNESIE

Sprawozdanie V

Miary podobieństwa, przetwarzanie wstępne danych, ocena wyników

Czemiel Paulina

Hałaburda Krzysztof

Zadania

  1. Dla zbioru iris - missing.arff dokonać zamiany wartości brakujących na wartości średnie (zakładka Preprocess, Filter: Filters-> unsupervised -> attributes -> ReplaceMissingValues).

  2. Wykonać grupowanie algorytmem EM. Zanotować skuteczność w komórce nr 1 poniższej tabeli.

  3. Wykonać normalizację atrybutów zbioru (zakładka Preprocess, Filter: Filters -> unsupervised -> attributes -> Normalize). Ponownie pogrupować dane algorytmem EM i zanotować skuteczność w komórce nr 2 tabeli.

  4. Dokonać selekcji atrybutów (zakładka Select attributes, Attribute Evaluator: Principal Components). Numery wybranych atrybutów: 1,2.

  5. Ponownie pogrupować dane usuwając zbędne atrybuty i zanotować skuteczność w komórce nr 3 tabeli.

Zbiór: iris - missing.arff algorytm: EM

nr

normalizacja

Selekcja atrybutów

Skuteczność [%]

1

-

-

59,3333

2

[0,1]

-

59,3333

3

[0,1]

PCA

60.6667

  1. Dla zbioru labor.arff wykonać grupowanie algorytmem EM. Zanotować skuteczność w komórce nr 1 poniższej tabeli.

  2. Wykonać normalizację atrybutów (zakładka Preprocess, Filter: Filters -> unsupervised -> attributes -> Normalize).

  3. Wykonać transformację wartości atrybutów nominalnych do numerycznych (zakładka Preprocess, Filter: Filters -> unsupervised -> attributes -> NominalToBinary). Ponownie pogrupować dane algorytmem EM i zanotować skuteczność w komórce nr 2 tabeli.

  4. Dokonać selekcji atrybutów (zakładka Select attributes, Attribute Evaluator: SymmetricalUncertAttributeSetEval, Search Method: RCBFSearch). Numery wybranych atrybutów: 2, 15, 24, 22, 18, 9.

  5. Ponownie pogrupować dane usuwając zbędne atrybuty (zakładka Preprocess, Filter: Filters -> supervised -> attributes -> AttributeSelection ustawiając parametry z p. 9) i zanotować skuteczność w komórce nr 3 tabeli.

Zbiór: labor.arff algorytm: EM

nr

normalizacja

Typy atrybutów

Selekcja atrybutów

Skuteczność [%]

1

-

nominalne+numeryczne

-

42,1053

2

[0,1]

numeryczne

-

50,8772

3

[0,1]

numeryczne

Współczynnik korelacji i redundancji

57.8947