Jak wspomniano,
system informatyczny uczy się, jeśli dokonuje w samym so-
bie zmian umożliwiających lepszą realizację określonego
zadania
Wiedza (zdobyta wskutek uczenia) jest:
trudna do gromadzenia,
trudna do stosowania,
trudna do dystrybucji,
rozproszona,
sprzeczna,
starzejąca się,
rzadka,
mglista.
Według niektórych zródeł, w procesie KDD wyróżniamy
cztery poziomy wydobywanej wiedzy:
1). Wiedza płytka (ang. shallow knowledge) formalnie
są to informacje, które są widoczne na pierwszy rzut
oka i mogą być łatwo wydobyte z bazy danych przy
użyciu np. języka SQL. Ma naturę faktograficzną, wie-
dzę tę można łatwo przechować w bazach danych i łat-
wo nią manipulować. Języki umożliwiające użytkowni-
kowi generowanie zapytań do DBMS (takie jak SQL) są
doskonałymi narzędziami do ekstrakcji płytkiej wiedzy
z danych;
2). Wiedza wielowymiarowa (ang. multi-dimensional kno-
wledge) informacje, które mogą być łatwo wydobyte
przy użyciu narzędzi OLAP. Wiedza tego typu jest tak-
że faktograficzna w swojej treści, jednakże w tym przy-
padku dane są przechowywane w formacie o wielu wy-
miarach (zazwyczaj 3D). Narzędzia informatyczne typu
OLAP używa się do przetwarzania tego rodzaju da-
nych;
3). Wiedza ukryta (ang. hidden knowledge) informacje,
które mogą być wydobyte z danych z wykorzystaniem
różnych algorytmów uczenia maszynowego. Te same in-
formacje można wprawdzie zgromadzić przy użyciu ję-
zyka SQL (lub OLAP), ale zajęłoby to nieporównywal-
nie więcej czasu, gdyż proces wnioskowania musiałby p-
rowadzić człowiek. Wiedza ukryta reprezentuje zatem
niejawne wzorce lub regularności w danych, trudne do
wykrycia przy pomocy tradycyjnych narzędzi przeszu-
kiwania baz danych, takich jak SQL. Natomiast algoryt-
my drążenia danych mogą z łatwością odkryć te wzorce
lub regularności;
4). Wiedza głęboko ukryta (ang. deep knowledge) która
może być wydobyta z danych tylko wtedy, gdy dostępna
jest wskazówka, która mówi, jak dokładnie należy tej
wiedzy szukać. Bez tej wskazówki, algorytmy uczenia
maszynowego mogą poszukiwać wiedzę wspomnianego
typu nieskończenie długo. Przykładem może być infor-
macja, która jest zaszyfrowana bez klucza odczytanie
jej jest praktycznie niemożliwe.
Narzędzia generujące pytania do DBMS oraz narzędzia
OLAP, nadają się doskonale od wyszukania i raporto-
wania informacji z bazy danych, jeśli dokładnie wiemy,
jakie informacje poszukujemy.
Wiedza płytka i wielowymiarowa powstają na ogół na
skutek wnioskowania dedukcyjnego. Dwa pozostałe ro-
dzaje wiedzy są wynikiem wnioskowania indukcyjnego.
Rozumowanie (zaawansowanego) systemu informatycz-
nego
Uważa się, że system informatyczny rozumuje, gdy po-
trafi zrealizować czynność, o której nie powiedziano ex-
plicite, jak ją należy realizować.
Dedukcja: przejście od wiedzy ogólnej do specyficznej
Indukcja: przejście od szczegółów do wiedzy ogólnej
Odkrycie: pozyskanie wiedzy o czymś uprzednio niez-
nanym.
Rodzaje uczenia (maszynowego)
"
" nadzorowane
"
"
"
" nienadzorowane
"
"
"
" tworzenie skupisk
"
"
W dalszych rozważaniach będziemy mówili o wektoro-
wym opisie przypadków (obiektów fizycznych, idei, kon-
cepcji, procesów).
Charakterystyka typowych przypadków
a) może być niezbędna bardzo duża liczba zmiennych,
aby właściwie opisać problem (zagadnienie)
b) zależności pomiędzy dostępnymi danymi (wynikami
pomiarów) a oczekiwaną informacją, nie są jawne
Kompleksowa procedura DM jest następująca:
I. gromadzenie danych na temat znanych przypadków
(celem pózniejszego wygenerowania modelu uczenia),
II. oczyszczanie (przygotowanie) danych,
III. generowanie modelu uczenia,
IV. interpretacja zjawiskowa parametrów modelu
(zrozumienie modelu),
V. zastosowanie modelu do nowych (niewidzianych)
przypadków.
Ogólne uwagi o poszczególnych elementach procedury
I. Gromadzenie danych
Zazwyczaj jedna zmienna nie wystarcza do opisu da-
nych dotyczących określonego obiektu (idei, procesu). Z
tego względu musimy zastosować charakterystykę opar-
tą na wielu różnych cechach, co narzuca konieczność ko-
rzystania z tzw. metod wielu-zmiennych (ang. multiva-
riate methods). W tym podejściu obiekty są charaktery-
zowane przy pomocy zbioru cech (zbioru zmiennych), a
czasami należy dołączyć do tego zbiór właściwości. Zas-
tosowanie metod statystycznych wymaga rozsądnej licz-
by obiektów oraz cech: typowymi wartościami będą tu
20-1000 obiektów i 2-500 cech.
Wyszukiwarka
Podobne podstrony:
8zti8zti8zti&8zti uzup8zti8zti8zti8zti8zti8zti8zti8zti8zti8zti8zti8zti8zti8ztiwięcej podobnych podstron