DM - Data Mining (eksploracja danych)
Czynniki rozwoju DM: wzrost zbiorów danych; szeroki dostęp użytkowników do wiarygodnych danych; zwiększony dostęp do danych z intranetu i Internetu; zwiększanie udziału rynku w globalnej ekonomii wzrost dostępności do oprogramowania DM;
Podejście metodyczne CRISP-DM
Cykl życia DM: zrozumienie uwarunkowań biznesowych/badawczych, zrozumienie danych, przygotowanie danych, modelowanie, ewaluacja, wdrożenie (fazy interacyjne)
Zadania DM:
-opis wzorców i tendencji tkwiących w danych
-szacowanie, klasyfikacja; zmienna celu jest numeryczna, a nie jakościowa -przewidywanie; wynik dotyczy zawsze przyszłości -klasyfikacja; jakościowa zmienna celu
-grupowanie rekordów, obserwacji, przypadków w klasy podobnych obiektów; nie ma zmiennej celu; dzieli cały zbiór na zgodne podzbiory, tam maksymalizowane jest podobieństwo rekordów, a podobieństwo rekordów spoza grupy jest minimalizowane
-odkrywanie reguł; szukanie powiązanych ze sobą rekordów (które atrybuty rekordów są ze sobą powiązane); ilościowo określana relacja
DM modelowanie metody
METODY NIENADZOROWANE, nie ma zidentyfikowanej zmiennej celu;
-grupowanie
-tworzenie reguł asocjacyjnych (analiza koszyków zakupowych)
METODY NADZOROWANE; zmienna celu jest określona (+przykłady ze zmienną celu)
-regresja
-klasyfikacja
Drzew a decyzyjne - metoda klasyfikacji; zbiór węzłów decyzyjnych połączonych za pomocą gałęzi, rozchodzących się w dół od korzenia aż do kończących liści; atrybuty to korzenie, a każde możliwe wyjście to gałęzie, gałąź prowadzi albo do liścia albo kolejnego więzła decyzyjnego
- gdy nie można dokonać nowych podziałów, brak nowych więzów Aby można było zastosować drzewo trzeba:
-wstępnie sklasyfikować zmienną celu i dostarczyć zbiór uczący zawierający wartość zmiennej celu -zbiór uczący ma być bogaty i różnorodny (reprezentatywna grupa rekordów)
-klasy zmiennej celu muszą być dyskretne (nie może być ciągła zmienna celu)
Drzewa klasyfikacyjne i regresyjne, CART, Breiman, 1984;
-ściśle binarne (dokładnie dwie gałęzie wychodzące z każdego więzła decyzyjnego)
DM reguły decyzyjne (zdolność interpretacji za pomocą reguł decyzyjnych);
- budowane są przez przechodzenie dowolną ścieżką z korzenia do liścia -pełny zbiór reguł decyzyjnych jest równoważny z drzewem decyzyjnym -forma „jeżeli poprzednik, to następnik”
-WSPARCIE odnosi się do procentu rekordów w zbiorze danych, które są przypisane do danego liścia; UFNOŚĆ reguł wskazuje na procent rekordów w liściu, dla których reguła jest prawdziwa