I.
Analiza danych breast cancer wisconsin (original)
http://archive.ics.uci.edu./ml/datasets.html
1.
Zapoznaj się z opisem danych.
2.
Podziel dane na 2 części – niech część treningową stanowią obiekty 1 – 600; część testową
niech stanowią obiekty 601 – 699.
3.
Dokonaj preprocessingu danych treningowych polegającego na zastąpieniu wartości
brakujących wartościami kompletnymi. Wykonaj zamianę wg następującej strategii:
Dla każdego obiektu z wartością brakującą znajdź obiekt niezawierający wartości
brakujących będący jego najbliższym sąsiadem. Weź pod uwagę tylko obiekty z tej
samej klasy decyzyjnej, a do wyznaczenia odległości pomiędzy obiektami użyj metryki
Manhattan i uwzględnij wszystkie atrybuty z wyjątkiem pierwszego i tego na którym
dany obiekt ma wartość brakującą.
4.
Dokonaj preprocessingu danych testowych polegającego na zastąpieniu wartości brakujących
wartościami kompletnymi. Wykonaj zamianę wg następującej strategii:
- Znajdź obiekt testowy z wartością brakującą.
- Znajdź wszystkie obiekty treningowe identyczne z danym na wszystkich atrybutach z
wyjątkiem pierwszego, ostatniego (decyzyjnego) i tego, który zawiera wartość brakującą.
- Zastąp wartość brakującą wartością występującą najczęściej na danym atrybucie wśród
obiektów wyznaczonych w poprzednim kroku.
5.
Użyj metody 3-NN aby każdemu obiektowi testowemu zaproponować jedną z dwóch
wartości decyzji: 2 lub 4.
6.
Oszacuj przydatność klasyfikatora 3-NN do predykcji nowych przypadków. Użyj do tego
współczynnika dokładności klasyfikacji.
7.
Powtórz etapy 5-6 eksploracji danych stosując metodę 5-NN.
8.
Porównaj wyniki otrzymane w krokach 6 i 7.
Rozwiąż zadanie za pomocą 2 narzędzi komputerowych.
II.
Analiza danych breast tissue
http://archive.ics.uci.edu./ml/datasets.html
1.
Zapoznaj się z opisem danych.
2.
Dokonaj segmentacji danych na 6 skupisk. W trakcie podziału nie uwzględniaj atrybutu
decyzyjnego. Wykorzystaj metodę k-means.
3.
Dla każdego skupiska sprawdź jego jednorodność pod względem przynależności obiektów do
różnych klas decyzyjnych. Wyniki przedstaw w postaci graficznej – utwórz 6 wykresów
kołowych (po jednym dla każdego skupiska) na których zaznaczone będzie jaki procent
obiektów z danego skupiska należy po każdej z sześciu klas decyzyjnych.
Rozwiąż zadanie za pomocą 2 narzędzi komputerowych.