Środowisko DM to zazwyczaj architektura klient-serwer lub oparty na Web system informatyczny
Dane to najbardziej krytyczny składnik DM, mogą zawierać dane nieustrukturyzowane Osoba drążąca to często użytkownik końcowy 3€ DM wymaga kreatywnego myślenia
Istotne są możliwości i łatwość użycia narzędzi DM.
Dane w Data Mining
Dane: zbiór faktów zazwyczaj uzyskanych jako wynik doświadczeń, obserwacji lub eksperymentów
Dane mogą składać się z cyfr, słów, obrazów
§€ Dane: najniższy poziom abstrakcji (z którego wyprowadza się informacje i wiedzę)
Dane kategoryczne - reprezentują etykiety klas. Np. rasa, płeć, grupa wiekowa, poziom wykształcenia
Dane nominalne - zawierają pomiary przypisane do obiektów jako etykiety. Np. stan cywilny: „kawaler/panna", „żonaty/zamężna", „rozwiedziony/a"
§€ Dane porządkowe - zawierają kody przypisane do obiektów jako etykiety, które reprezentują ich uporządkowanie. Np. grupa wiekowa: „dziecko, nastolatek, dorosły, stary".
Dane numeryczne - reprezentują wartości numeryczne zmiennych. Np. wiek, liczba dzieci, przychody, odległość, temperatura
Dane interwałowe - zmienne, które mogą być mierzone skalą interwałową.
Dane relacyjne (stosunkowe) - zmienne mierzalne spotykane w fizyce i inżynierii. Np. masa, energia, naładowanie elektryczne.
Inne typy danych obejmują:
Data/czas
§€ Tekst nieustrukturyzowany
Obrazy
34> Dźwięk
Co robi DM?
Jak to działa?
DM wydobywa wzorce z danych