data mining zadania

background image

I.

Analiza danych breast cancer wisconsin (original)

http://archive.ics.uci.edu./ml/datasets.html

1.

Zapoznaj się z opisem danych.

2.

Podziel dane na 2 części – niech część treningową stanowią obiekty 1 – 600; część testową

niech stanowią obiekty 601 – 699.

3.

Dokonaj preprocessingu danych treningowych polegającego na zastąpieniu wartości

brakujących wartościami kompletnymi. Wykonaj zamianę wg następującej strategii:

Dla każdego obiektu z wartością brakującą znajdź obiekt niezawierający wartości

brakujących będący jego najbliższym sąsiadem. Weź pod uwagę tylko obiekty z tej

samej klasy decyzyjnej, a do wyznaczenia odległości pomiędzy obiektami użyj metryki

Manhattan i uwzględnij wszystkie atrybuty z wyjątkiem pierwszego i tego na którym

dany obiekt ma wartość brakującą.

4.

Dokonaj preprocessingu danych testowych polegającego na zastąpieniu wartości brakujących

wartościami kompletnymi. Wykonaj zamianę wg następującej strategii:

- Znajdź obiekt testowy z wartością brakującą.

- Znajdź wszystkie obiekty treningowe identyczne z danym na wszystkich atrybutach z

wyjątkiem pierwszego, ostatniego (decyzyjnego) i tego, który zawiera wartość brakującą.

- Zastąp wartość brakującą wartością występującą najczęściej na danym atrybucie wśród

obiektów wyznaczonych w poprzednim kroku.

5.

Użyj metody 3-NN aby każdemu obiektowi testowemu zaproponować jedną z dwóch

wartości decyzji: 2 lub 4.

6.

Oszacuj przydatność klasyfikatora 3-NN do predykcji nowych przypadków. Użyj do tego

współczynnika dokładności klasyfikacji.

7.

Powtórz etapy 5-6 eksploracji danych stosując metodę 5-NN.

8.

Porównaj wyniki otrzymane w krokach 6 i 7.

Rozwiąż zadanie za pomocą 2 narzędzi komputerowych.

II.

Analiza danych breast tissue

http://archive.ics.uci.edu./ml/datasets.html

1.

Zapoznaj się z opisem danych.

2.

Dokonaj segmentacji danych na 6 skupisk. W trakcie podziału nie uwzględniaj atrybutu

decyzyjnego. Wykorzystaj metodę k-means.

3.

Dla każdego skupiska sprawdź jego jednorodność pod względem przynależności obiektów do

różnych klas decyzyjnych. Wyniki przedstaw w postaci graficznej – utwórz 6 wykresów

kołowych (po jednym dla każdego skupiska) na których zaznaczone będzie jaki procent

obiektów z danego skupiska należy po każdej z sześciu klas decyzyjnych.

Rozwiąż zadanie za pomocą 2 narzędzi komputerowych.


Wyszukiwarka

Podobne podstrony:
Dodatkowe Wytyczne projektu, Data mining - Grzenda
Data mining w rekomendacji
Metodologia w VIII, WYBRANE METODY ANALIZY WIELOZMIENNOWEJ - PODSTAWOWE ZAŁOŻENIA ANALIZY CZYNNIKOWE
(Sas Code) Data Mining Cookbook (Wiley)
IEEE Finding Patterns in Three Dimensional Graphs Algorithms and Applications to Scientific Data Mi
Scoring kredytowy a modele data mining
Detecting Internet Worms Using Data Mining Techniques
Numerical linear algebra in data mining
Improve Fraud Detection Through Data Mining
(Sas Code) Data Mining Cookbook (Wiley)
New data mining technique to enhance IDS alarms quality
Funkcja data,przykłady i zadania do wykonania
Data Mining of Gene Expression Data by Fuzzy and Hybrid Fuzzy Methods piq
Data Mining Methods for Detection of New Malicious Executables
Application of Data Mining based Malicious Code Detection Techniques for Detecting new Spyware
KSSP Aspekt akwizycji danych (Data Acquisition) i eksploatacji danych (Data Mining) AN
Data Mining Ai A Survey Of Evolutionary Algorithms For Data Mining And Knowledge Discovery
Exposure Data mapping in Raung Volcano, umk, notatki, zadania

więcej podobnych podstron