Jak wspomniano, kompleksowa procedura drążenia
danych (DM, KDD) jest następująca:
I. gromadzenie danych na temat znanych przypad-
ków,
II. oczyszczanie (przygotowanie) danych,
III. generowanie modelu uczenia,
IV. interpretacja zjawiskowa parametrów modelu,
V. zastosowanie modelu do nowych (niewidzianych)
przypadków.
III. Generowanie modelu uczenia
Drążenie danych (ang. Data Mining, DM) jest eta-
pem w którym odbywa się właściwe odkrywanie wie-
dzy. Nie wnikając w zagadnienia nomenklatury (da-
ta mining, drążenie danych, zgłębianie danych, eksp-
loracja danych), my będziemy posługiwali się poję-
ciem generowania modelu(i) uczenia. Proces ten bę-
dzie dodatkowo ilustrowany działaniem wybranych
systemów informatycznych, zaprojektowanych i op-
racowanych w Katedrze Systemów Ekspertowych i
Sztucznej Inteligencji WSIiZ w Rzeszowie.
Przystępując zatem do generowania modelu uczenia
dysponujemy przygotowanym zbiorem danych, który
musi być zestawiony w formacie, wymaganym przez
system używany do poszukiwania modelu uczenia w
danych. Wspomniany zbiór danych jest właściwie
zbiorem faktów F (zbiorem przypadków) opisanych
danymi. W modelu relacyjnym faktem jest krotka
(rekord), zaś zbiorem relacja (tabela). W modelu
obiektowym fakt reprezentuje obiekt, zaś zbiorem
danych jest zbiór obiektów. Poniższa tablica przed-
stawia przykładowy zbiór danych.
Wiek Zarobki Ocena kredytu
30 65000 Bezpieczny
23 15000 Ryzykowny
40 75000 Bezpieczny
55 40000 Ryzykowny
55 100000 Bezpieczny
45 60000 Bezpieczny
Model uczenia (wzorzec) jest wyrażeniem E w języku
L, opisującym fakty z podzbioru FE zbioru wszyst-
kich faktów F. E jest wzorcem, jeżeli jest prostszy (w
sensie reprezentacji, czytelności, zwięzłości opisu) niż
wyliczenie wszystkich faktów zawartych w FE. Przy-
kładem wzorca może być reguła: Jeśli zarobki są
większe od 50.000 PLN, wtedy ryzyko kredytu jest
niskie . Przykładowy wzorzec przedstawiono poni-
żej:
120000
100000
80000
Ryzkow ny
60000
Bezpieczny
40000
20000
0
0 20 40 60
Wiek
Tworząc wejściowy zbiór danych, z reguły już redu-
kuje się liczbę zmiennych poprzez odrzucenie tych,
które są nieistotne z punktu widzenia celu procesu.
Analogicznie można ograniczyć ilość danych przez
wybór istotnej próbki (np. interesujące są tylko dane
dotyczące klientów firmy z ostatnich 5 lat). Ważnym
aspektem przy selekcji danych jest kwestia prywat-
ności; osoby pracujące na danych chorobowych pac-
jentów nie powinny mieć dostępu do ich danych oso-
bowych. Kwestie te są w pewnym stopniu uregulo-
wane prawnie ustawą o ochronie danych osobowych,
o tajemnicy lekarskiej. Najczęściej mamy jednak do
czynienia z problemami natury etycznej. Nikt np. nie
zabroni firmie ubezpieczeniowej przetwarzać dane o
chorobach swoich klientów (jeżeli tylko takie posia-
da), w celu znalezienia grup wysokiego ryzyka i ma-
nipulowania stawkami ubezpieczeniowymi. Właści-
wy dobór danych i ich jakość, rozstrzygają o jakości
wydobytej wiedzy. Należy pamiętać, że śmieci na
wejściu, dadzą śmieci na wyjściu.
Zarobki
W omawianym etapie wybiera się typ zadania gene-
rowania modelu uczenia (tzn. przeznaczenie odkry-
tego wzorca), czyli decyduje się, czy końcowym ce-
lem badań jest klasyfikacja, regresja, lub znalezienie
skupisk (klastrów). A zatem generowanie modelu u-
czenia może służyć dwom podstawowym celom: mo-
że to być predykcja lub opisywanie.
Predykcja ma miejsce, gdy używając wartości z bazy,
należy określić wartość innego, nieznanego atrybutu
lub obiektu.
Opisywanie ma natomiast na celu znalezienie wzor-
ców czytelnych dla człowieka opisujących dane.
Opisywanie jest procesem ważniejszym oraz częściej
wykorzystywanym niż predykcja.
Podsumowując, w omawianym etapie generuje się
model uczenia, tj. w istocie rzeczy wzorzec. Ważnymi
cechami wzorca są:
" prawdziwość,
"
"
"
" nowość,
"
"
"
" potencjalna użyteczność oraz
"
"
"
" zrozumiałość.
"
"
"
Prawdziwość: Znalezione wzorce muszą odpowiadać
faktom zawartym w zbiorze danych z określonym
stopniem pewności. Jak najwięcej faktów ze zbioru
powinno być pokrytych przez wzorce.
Nowość: Wzorce muszą być nowe, tzn. uprzednio nie
odkryte.
Potencjalna użyteczność: Odkrycie wzorców powinno
prowadzić do ich praktycznego zastosowania. Infor-
macja, która nie przyczynia się do rozwiązania
analizowanego problemu, jest nic nie warta i nie mo-
że utworzyć użytecznej wiedzy. Przykładem prakty-
cznego zastosowania odkrytej wiedzy może być
mniejsza liczba błędnie udzielanych kredytów, wspo-
magając się regułą odkrytą w zbiorze danych, przed-
stawioną na jednym z poprzednich przezroczy.
Zrozumiałość (maksymalna): Głównym celem KDD
jest wydobycie wzorców, które będą jak najbardziej
zrozumiałe i czytelne dla człowieka (niekoniecznie
specjalisty), aby ułatwić zrozumienie natury danych,
z których wiedza została wydobyta.
Do typowych zadań drążenia danych należy zatem:
Klasyfikacja (ang. classification) która jest próbą
znalezienia pewnej funkcji, przypisującej obiektowi
jedną z kilku predefiniowanych kategorii. Analizo-
wany obiekt jest charakteryzowany posługując się
logiką atrybutalną przy pomocy atrybutów opisują-
cych, których wartości znajdują się w bazie infor-
macyjnej. Klasyfikacja jest uważana za najważniej-
sze (najczęściej wykorzystywane) zadanie drążenia
danych. W terminologii uczenia maszynowego ope-
racja ta jest równoważna z uczeniem nadzorowa-
nym. Klasyfikacja może być używana zarówno w o-
pisywaniu, jak i w przewidywaniu. O ile pierwsze za-
stosowanie wydaje się oczywiste, to w drugim przy-
padku nie jest to już takie proste. Jako przykład zas-
tosowania klasyfikacji do przewidywania, niech pos-
łuży próba oceny potencjalnego klienta banku, który
chce zaciągnąć kredyt. Bank, zanim takiego kredytu
udzieli, musi oszacować poniesione ryzyko. Analitycy
bankowi klasyfikują klientów do dwóch kategorii:
spłaci kredyt bądz nie spłaci kredytu, przewidując w
ten sposób przyszłe ich zachowanie. Fomalnie biorąc,
mamay tu do czynienia z generowaniem pewnego
modelu na podstawie danych historycznych, a nas-
tępnie zastosowanie utworzonego modelu do oceny
zachowania się danego klienta banku w przyszłości.
W wykładzie zostaną przedstawione najczęściej sto-
sowane modele uczenia, tzn. schematy reprezentacji
ukrytej wiedzy w postaci modeli:
drzew decyzji,
reguł składniowych,
reguł przekonań,
sieci przekonań,
sztucznych sieci neuronowych,
lub w postaci wyników działania tak zwanych syste-
mów minimalno-odległościowych (zwanych także sy-
stemami rozpoznawania obrazów).
Wyszukiwarka
Podobne podstrony:
8zti8zti8zti&8zti uzup8zti8zti8zti8zti8zti8zti8zti8zti8zti8zti8zti8zti8zti8ztiwięcej podobnych podstron