8zti 27


V "
" Zastosowanie modelu do nowych (niewidzianych)
"
"
przypadków
Można dostrzec bardzo zróżnicowane możliwości zasto-
sowań drążenia danych w praktyce, tzn. zastosowań
schematów reprezentacji niejawnej wiedzy (modeli u-
czenia). Podstawą tych modeli mogą być zarówno kon-
cepcje statystyczne, jak i elementy uczenia maszynowe-
go. Na przykład:
Regresja (ang. regression)  jest próbą znalezienia fun-
kcji, która zbiorom atrybutów przydziela pewną war-
tość rzeczywistą. Regresję stosuje się przede wszystkim
wtedy, gdy chcemy znalezć wartość nieznanej zmiennej i
zakładamy, że ta zmienna jest w jakiś sposób zależna od
innych. Przykładem niech będzie próba oszacowania po-
pytu klientów na dany produkt jako zależność od kosz-
tów poniesionych na kampanię reklamową.
Podsumowywanie (ang. summarization)  polega na zna-
lezieniu zwięzłego opisu pewnych podzbiorów danych
(w ogólności całego zbioru). Trywialnym przykładem
może być obliczenie średniej oraz odchylenia standar-
dowego wszystkich atrybutów. Bardziej skomlikowany-
mi przykładami może być wyszukiwanie reguł, opisują-
cych funkcjonalne zależności między podzbiorami da-
nych. Metody te wykorzystuje się m. in. do automatycz-
nej generacji raportów.
Modelowanie zależności (ang. dependency modelling) 
służy do znalezienia modelu opisującego zależności mię-
dzy zmiennymi, których wartości zapisane są w bazie.
Wyszukiwanie reguł asocjacyjnych (ang. association ru-
les) może zostać zakwalifikowane do tej kategorii. Mo-
dele zależności mogą być rozpatrywane na dwóch pozio-
mach. Poziom struktury (ang. structural level) odzwier-
ciedla jedynie zależności między poszczególnymi zmien-
nymi (najczęściej prezentowane graficznie), natomiast
poziom wartości (ang. quantitative level) dodatkowo
specyfikuje liczbowo poziom tej zależności. Techniki te
są z powodzeniem wykorzystywane np. do budowy me-
dycznych systemów ekspertowych (ich baz wiedzy) na
podstawie baz danych z informacjami o objawach cho-
rób. Jednym ze znanych komercyjnych zastosowań drą-
żenia danych jest odszukanie zależności między kupo-
wanymi towarami w supermarkecie, co pozwala efekty-
wniej zaplanować ich ułożenie na półkach.
Wykrywanie zmian i nieprawidłowości (ang. change and
deviation detection)  wykorzystywane jest przy szuka-
niu wartości danych, których zmiany od ostatniego po-
miaru są nietypowe, lub wyszukiwaniu danych o naj-
bardziej znaczących zmianach. Zastosowaniem jest wy-
krywanie różnych nadużyć, oszustw w bankach, przed-
siębiorstwach telekomunikacyjnych, itp. Jako przykład
rozważmy firmę telekomunikacyjną, która prowadzi e-
widencję wszystkich rozmów telefonicznych swoich klie-
ntów. Firma, dzięki stosowaniu tych metod jest w stanie
wykryć u swoich klientów rozmowy telefoniczne, jakich
zazwyczaj nie przeprowadzają. Nietypowa rozmowa kli-
enta może wskazywać na to, że ktoś się pod niego pod-
szywa i korzysta z jego numeru telefonu. Szybkie wyk-
rywanie takich przypadków dobrze świadczy o firmie i
nie naraża klienta na koszty.
Istnieje bardzo dużo algorytmów, które mogą być wyko-
rzystane do realizacji powyższych zadań drążenia da-
nych. Są to w zasadzie wszystkie algorytmy, które mają
zastosowanie w automatycznym uczeniu się maszyn.
Wybierając algorytm, należy rozpatrzyć czynniki takie
jak: rodzaj stawianego zadania, wymagania dotyczące
uzyskanej informacji, jakość i rodzaj posiadanych da-
nych. Wybór algorytmu często pociąga za sobą okreś-
lony sposób przedstawienia wyciągniętej wiedzy, co ró-
wnież trzeba uwzględnić. Należy jeszcze raz podkreślić,
że jeżeli dane nie zostały przygotowane dokładnie i pod
kątem wymaganego celu, to nawet z najlepszym algo-
rytmem nie osiągniemy spodziewanych wyników. Spec-
jaliści twierdzą, że 80% pracy powinno być poświęcone
na jak najlepsze przygotowanie danych, co sprawia, że
paradoksalnie faza właściwego ekstrakcji wzorców (na-
wet wybór algorytmu) nie jest wcale najważniejsza w
całym procesie. Taka dysproporcja istnieje również w
przypadku tworzenia (budowy) systemów informatycz-
nych. Najważniejsze jest zebranie dokładnych wyma-
gań, identyfikacja danych, zaprojektowanie systemu.
Implementacja jest już sprawą drugorzędną  wolniej-
szy algorytm sortowania zawsze będzie można wymienić
na szybszy, byle dane, które sortuje, były właściwe.
Znajdowanie klastrów (ang. clustering)  ma wtedy zas-
tosowanie, gdy zachodzi potrzeba znalezienia skończo-
nego zbioru klas opisujących dane w bazie. W termino-
logii uczenia maszynowego znajdowanie klastrów jest
równoważne z uczeniem nienadzorowanym. Znalezione
klasy z reguły bywają rozłączne, ale nic nie stoi na prze-
szkodzie, aby szukane kategorie się pokrywały. Możli-
wym jest także wprowadzenie struktury hierarchicznej
pomiędzy nimi, tzn. kategorie podrzędne służą do rozró-
żnienia pomiędzy obiektami zakwalifikowanymi do ka-
tegorii nadrzędnej. Przykładem może być znalezienie
grup konsumentów na podstawie ich typowych zacho-
wań dotyczących zakupów towarów. Wydzielenie takich
grup może pomóc w opracowaniu odpowiedniej kampa-
nii reklamowej, która będzie skierowana tylko do konk-
retnych grup konsumentów, co może dać w efekcie wyż-
szą efektywność reklamy połączoną z niższym kosztem.
Wydobyta wiedza jest już gotowa do wdrożenia, naj-
częściej będzie ona użyta do podjęcia doraznych decyzji.
Często się zdarza, że wydobywanie wiedzy jest częścią
szerzej zakrojonego projektu dążącego do zbudowania
ogromnej bazy wiedzy.


Wyszukiwarka