Wprowadzenie
Większość międzynarodowych korporacji wytwarza zna-
cznie więcej danych i informacji w ciągu tygodnia, niż
człowiek jest zdolny przeczytać i zrozumieć w ciągu całego
życia. Nie są już wyjątkiem organizacje, które zgromadziły
terabajty danych w swoich systemach informatycznych.
Każdego dnia setki megabajtów informacji krążą po In-
ternecie.
Gromadzone są dane związane praktycznie z każdą dzie-
dziną naszego życia. Przykłady można mnożyć: np. w as-
tronomii olbrzymie ilości danych płynących w każdej ch-
wili z satelitów, teleskopów lub radioteleskopów są przet-
warzane i poddawane różnorakim analizom. Można tu np.
wymienić program SETI, w którym ze cel postawiono so-
bie wyłowienie z ogromu danych płynących z kosmosu
sygnału od pozaziemskich istot inteligentnych. Znana jest
także sprawa gromadzenia danych np. o trzęsieniach ziemi
[ http://qcn.stanford.edu/EVENTS/2008_211/ ].
Szczególną dziedziną, w której gromadzi się ogromne iloś-
ci danych, jest medycyna. Analiza danych statystycznych
dotyczących zachorowań, może dostarczyć informacji o
przyczynach chorób. Pozyskiwanie wiedzy z baz danych
ma także swój mniej naukowy, komercyjny wymiar. Wiel-
kie sieci handlowe, supermarkety posiadają informacje o
zakupach robionych przez swoich klientów. Te dane są
bezcenne dla specjalistów od marketingu, gdyż można z
nich wydobyć informacje o zwyczajach kupujących, i w
odpowiedni sposób przygotować dla nich ofertę handlową.
W jeszcze lepszej sytuacji są firmy telekomunikacyjne, u-
bezpieczeniowe czy banki. Posiadają jeszcze cenniejsze in-
formacje, ponieważ znają miejsce zamieszkania, wykształ-
cenie, status materialny oraz sytuację rodzinną swoich
klientów. Takie dane to już kopalnia złota . Umiejętnie
użyte, mogą wydatnie przyczynić się do wzrostu zysku fir-
my, jej pozycji na rynku i przewagi nad konkurencją. Z
drugiej strony, duża liczba klientów i gąszcz danych spra-
wia, że firmy są bardziej narażone na oszustwa. Przy tak
dużej ilości danych, wykrycie nieprawidłowości wyłącznie
przez człowieka, staje się niemożliwe.
Rozmiary współczesnych baz danych sprawiły, że trady-
cyjne sposoby analizy i eksploracji danych stały się mało
przydatne. Inżynierowie i naukowcy musieli sprostać pa-
radoksowi związanemu ze stałym wzrostem wielkości baz
danych: im więcej danych gromadzimy, tym de facto mniej
informacji posiadamy. Zaistniała potrzeba opracowania
nowych, automatycznych oraz inteligentnych metod wy-
ciągania użytecznej informacji z danych. Potrzeba ta zro-
dziła nową dziedzinę informatyki drążenie danych pow-
stałą na pograniczu technologii baz danych i sztucznej
inteligencji. Termin został po raz pierwszy zaproponowa-
ny w roku 1989 przez George a Piatetsky-Shapiro. Oma-
wiana dziedzina informatyki jest ciągle w fazie rozwoju,
opracowywane są nowe algorytmy zaawansowanych tech-
nologii informatycznych. Pojawiło się już wiele rozbudo-
wanych komercyjnych narzędzi, wspierających DM (Data
Mining). Wiele systemów zarządzania bazami danych po-
siada wsparcie dla przetwarzania typu OLAP (On-Line
Analytic Processing), tj. przetwarzania danych nastawio-
nego na ich analizę. Nie bez znaczenia jest także wzrost
wydajności komputerów, pozwalający na stosowanie bar-
dziej wyrafinowanych algorytmów, a także przetwarzanie
coraz większych baz.
Celem wykładu jak już wspomniano jest przedstawie-
nie podstawowych zasad rządzących procesem DM, naj-
ważniejszych algorytmów mających tu zastosowanie oraz
omówienie możliwości i ograniczeń wybranych, zaawan-
sowanych technologii informatycznych.
Wykład Zaawansowane technologie informatyczne obej-
muje wiadomości o systemach zarządzających w specyficz-
ny sposób danymi; systemy te dokonują analizy danych i
generują model uczenia, który wydany na zewnątrz sy-
stemu, umożliwia sięgnięcie do nowej:
" informacji
"
"
"
lub czasami " wiedzy
"
"
"
Wydawana na zewnątrz informacja/wiedza pochodzi za-
tem z istniejących zródeł danych, wskutek ich przetwa-
rzania przy pomocy specjalizowanych narzędzi informaty-
cznych do uczenia maszynowego lub eksploracji danych.
yródła danych, o których wspomniano, nazywamy często
pierwotnymi zródłami danych. W istocie rzeczy są to bazy
informacyjne, które zawierają dane, przedstawione przy
pomocy różnych formalizmów reprezentacji wiedzy, np.:
asocjacji wiedzy,
obrazów wiedzy,
otwartych tekstów,
tablic decyzji,
wektorów wiedzy
Bazy informacyjne (to nie są bazy danych!!!) zawierają za-
tem
" wiedzę istniejącą, przygotowaną przez człowieka zgodnie
"
"
"
jak wspomniano z pewnymi specjalnymi formalizmami
reprezentacji wiedzy.
Natomiast poprzez zastosowanie narzędzi uczenia maszy-
nowego (narzędzi eksploracji danych) zostaje wykryta, a
potem wydana na zewnątrz systemu tzw.
" wiedza ukryta, ujawniona w postaci odpowiedniego mo-
"
"
"
delu uczenia, wyrażonego za pomocą np. :
drzew decyzji,
reguł składniowych (reguł wnioskowania),
reguł przekonań,
sieci przekonań,
sztucznych sieci neuronowych, czy
systemów minimalno-odległościowych.
Wyszukiwarka
Podobne podstrony:
8zti8zti8zti&8zti uzup8zti8zti8zti8zti8zti8zti8zti8zti8zti8zti8zti8zti8zti8ztiwięcej podobnych podstron