8zti 27

background image

V

••

Zastosowanie modelu do nowych (niewidzianych)

przypadków

Można dostrzec bardzo zróżnicowane możliwości zasto-
sowa
ń drążenia danych w praktyce, tzn. zastosowań
schematów reprezentacji niejawnej wiedzy (modeli u-
czenia). Podstaw
ą tych modeli mogą być zarówno kon-
cepcje statystyczne, jak i elementy uczenia maszynowe-
go. Na przykład:

Regresja

(ang. regression) – jest próbą znalezienia fun-

kcji, która zbiorom atrybutów przydziela pewną war-
to
ść rzeczywistą. Regresję stosuje się przede wszystkim
wtedy, gdy chcemy znale
źć wartość nieznanej zmiennej i
zakładamy,
że ta zmienna jest w jakiś sposób zależna od
innych. Przykładem niech b
ędzie próba oszacowania po-
pytu klientów na dany produkt jako zale
żność od kosz-
tów poniesionych na kampani
ę reklamową.

Podsumowywanie

(ang. summarization) – polega na zna-

lezieniu zwięzłego opisu pewnych podzbiorów danych
(w ogólno
ści całego zbioru). Trywialnym przykładem
mo
że być obliczenie średniej oraz odchylenia standar-
dowego wszystkich atrybutów. Bardziej skomlikowany-
mi przykładami mo
że być wyszukiwanie reguł, opisują-
cych funkcjonalne zale
żności między podzbiorami da-
nych. Metody te wykorzystuje si
ę m. in. do automatycz-
nej generacji raportów.

Modelowanie zależności

(ang. dependency modelling) –

służy do znalezienia modelu opisującego zależności mię-
dzy zmiennymi, których warto
ści zapisane są w bazie.

background image

Wyszukiwanie reguł asocjacyjnych (ang. association ru-
les
) może zostać zakwalifikowane do tej kategorii. Mo-
dele zale
żności mogą być rozpatrywane na dwóch pozio-
mach. Poziom struktury (ang. structural level
) odzwier-
ciedla jedynie zale
żności między poszczególnymi zmien-
nymi (najcz
ęściej prezentowane graficznie), natomiast
poziom warto
ści (ang. quantitative level) dodatkowo
specyfikuje liczbowo poziom tej zale
żności. Techniki te
s
ą z powodzeniem wykorzystywane np. do budowy me-
dycznych systemów ekspertowych (ich baz wiedzy) na
podstawie baz danych z informacjami o objawach cho-
rób. Jednym ze znanych komercyjnych zastosowa
ń drą-
żenia danych jest odszukanie zależności między kupo-
wanymi towarami w supermarkecie, co pozwala efekty-
wniej zaplanowa
ć ich ułożenie na półkach.

Wykrywanie zmian i nieprawidłowości

(ang. change and

deviation detection) – wykorzystywane jest przy szuka-
niu warto
ści danych, których zmiany od ostatniego po-
miaru s
ą nietypowe, lub wyszukiwaniu danych o naj-
bardziej znacz
ących zmianach. Zastosowaniem jest wy-
krywanie ró
żnych nadużyć, oszustw w bankach, przed-
si
ębiorstwach telekomunikacyjnych, itp. Jako przykład
rozwa
żmy firmę telekomunikacyjną, która prowadzi e-
widencj
ę wszystkich rozmów telefonicznych swoich klie-
ntów. Firma, dzi
ęki stosowaniu tych metod jest w stanie
wykry
ć u swoich klientów rozmowy telefoniczne, jakich
zazwyczaj nie przeprowadzaj
ą. Nietypowa rozmowa kli-
enta mo
że wskazywać na to, że ktoś się pod niego pod-
szywa i korzysta z jego numeru telefonu. Szybkie wyk-

background image

rywanie takich przypadków dobrze świadczy o firmie i
nie nara
ża klienta na koszty.

Istnieje bardzo dużo algorytmów, które mogą być wyko-
rzystane do realizacji powy
ższych zadań drążenia da-
nych. S
ą to w zasadzie wszystkie algorytmy, które mają
zastosowanie w automatycznym uczeniu si
ę maszyn.
Wybieraj
ąc algorytm, należy rozpatrzyć czynniki takie
jak: rodzaj stawianego zadania, wymagania dotycz
ące
uzyskanej informacji, jako
ść i rodzaj posiadanych da-
nych. Wybór algorytmu cz
ęsto pociąga za sobą okreś-
lony sposób przedstawienia wyci
ągniętej wiedzy, co ró-
wnie
ż trzeba uwzględnić. Należy jeszcze raz podkreślić,
że jeżeli dane nie zostały przygotowane dokładnie i pod
k
ątem wymaganego celu, to nawet z najlepszym algo-
rytmem nie osi
ągniemy spodziewanych wyników. Spec-
jali
ści twierdzą, że 80% pracy powinno być poświęcone
na jak najlepsze przygotowanie danych, co sprawia,
że
paradoksalnie faza wła
ściwego ekstrakcji wzorców (na-
wet wybór algorytmu) nie jest wcale najwa
żniejsza w
całym procesie. Taka dysproporcja istnieje równie
ż w
przypadku tworzenia (budowy) systemów informatycz-
nych. Najwa
żniejsze jest zebranie dokładnych wyma-
ga
ń, identyfikacja danych, zaprojektowanie systemu.
Implementacja jest ju
ż sprawą drugorzędną – wolniej-
szy algorytm sortowania zawsze b
ędzie można wymienić
na szybszy, byle dane, które sortuje, były wła
ściwe.

Znajdowanie klastrów

(ang. clustering) – ma wtedy zas-

tosowanie, gdy zachodzi potrzeba znalezienia skończo-
nego zbioru klas opisuj
ących dane w bazie. W termino-
logii uczenia maszynowego znajdowanie klastrów jest

background image

równoważne z uczeniem nienadzorowanym. Znalezione
klasy z reguły bywaj
ą rozłączne, ale nic nie stoi na prze-
szkodzie, aby szukane kategorie si
ę pokrywały. Możli-
wym jest tak
że wprowadzenie struktury hierarchicznej
pomi
ędzy nimi, tzn. kategorie podrzędne służą do rozró-
żnienia pomiędzy obiektami zakwalifikowanymi do ka-
tegorii nadrz
ędnej. Przykładem może być znalezienie
grup konsumentów na podstawie ich typowych zacho-
wa
ń dotyczących zakupów towarów. Wydzielenie takich
grup mo
że pomóc w opracowaniu odpowiedniej kampa-
nii reklamowej, która b
ędzie skierowana tylko do konk-
retnych grup konsumentów, co mo
że dać w efekcie wyż-
sz
ą efektywność reklamy połączoną z niższym kosztem.

Wydobyta wiedza jest ju
ż gotowa do wdrożenia, naj-
cz
ęściej będzie ona użyta do podjęcia doraźnych decyzji.
Cz
ęsto się zdarza, że wydobywanie wiedzy jest częścią
szerzej zakrojonego projektu d
ążącego do zbudowania
ogromnej bazy wiedzy.


Wyszukiwarka

Podobne podstrony:
Prezentacje, Spostrzeganie ludzi 27 11
27 407 pol ed02 2005
2012 02 27, ćwiczenie 1 0001
Materiały do wykładu 4 (27 10 2011)
BTI AWAX 26 27 45
53 Prostownik 27 150
ei 03 2002 s 27
Prz 3 w 27 DROGA GOŚCINNOŚCI
09 1993 27 32
4 27 Life coaching
27 Pigalle
27 28 Polimery NOWE
egzamin 2 termin 27 06 2005 id Nieznany
28 rozdzial 27 vmxgkzibmm3xcof4 Nieznany (2)
27 letni żołnierz USA skazany za zamordowanie więźniów (30 03 2009)
DGP 2014 06 27 prawnik

więcej podobnych podstron