8zti 10


Redukcja danych
Jeżeli ostateczny zbiór danych jest zbyt duży lub zawiera
dane, które są nieistotne dla końcowego celu należy przep-
rowadzić redukcję. Usuwać można zbędne rekordy lub zbę-
dne atrybuty. Do ograniczania rozmiaru zbioru danych sto-
sowane są następujące techniki:
Dodanie nowych atrybutów  sensie konstruktywnej induk-
cji (zostanie to wyjaśnione podczas omawiania Repetyto-
rium II), co może ułatwić generowanie modelu uczenia,
lub często spowodować usunięcie sprzeczności w danych,
Filtrowanie rekordów  usunięcie ze zbioru tych rekordów,
które nie spełniają pewnych kryteriów. Kryteriami mogą
być wyrażenia wyliczane na podstawie wartości pól rekor-
du (np. usunięcie z bazy rekordów klientów, których wiek
jest mniejszy niż 20 lat),
Próbkowanie (ang. sampling)  pozwala wybrać ze zbioru
danych podzbiór rekordów. Wybrane rekordy muszą być
możliwie najbardziej reprezentatywne dla zródłowego z-
bioru.
Kodowanie danych  jest procesem twórczym, na ogół wie-
lokrotnie powtarzanym na tym samym zbiorze danych, w
celu osiągnięcia coraz to lepszych rezultatów. Właściwe
kodowanie ma bardzo duży wpływ na wydajność algoryt-
mów wydobywających wiedzę oraz na jej jakość. Sposób
reprezentacji analizowanych danych, w dużym stopniu de-
terminuje postać i treść modeli uczenia, które otrzymamy
na wyjściu.
Stosowanymi sposobami kodowania są:
Zmiana sposobu reprezentacji informacji  wartości atrybu-
tów mogą nieść ze sobą więcej informacji, niż jest to wy-
magane lub informacja ta jest zbyt szczegółowa. Powoduje
to niepotrzebne wydłużenie czasu poszukiwania wzorców
w bazie. W tym wypadku zmienić można sposób repre-
zentacji danych. Dokonuje się tego najczęściej przez zmia-
nę typu atrybutu. Zmiana typu może spowodować celową
utratę informacji (np. zmiana dokładnej daty urodzenia
na wiek) lub może być bezstratna, gdy chodzi o niesioną
informację (np. zmiana tekstowych wartości atrybutów
wyliczeniowych na odpowiadające im wartości numerycz-
ne). Czasem wystarcza zmiana reprezentacji danych w
obrębie tego samego typu (np. zapisanie cen w tysiącach
złotych). Zmiana sposobu reprezentowania danych, poza
wzrostem szybkości generowania wzorców i ich jakości,
wpływa także na rozmiar bazy danych, co też oddziałuje
na szybkość przetwarzania.
Dyskretyzacja  przekształcenie wartości ciągłych atrybutu
na wartości dyskretne. Dokonuje się tego przez podział
dziedziny atrybutu na wiele mniejszych przedziałów. Wte-
dy rzeczywiste wartości są zamieniane na numery prze-
działów, do których należą. Przedziały mogą być równe,
ustalone a priori, bądz obliczone na podstawie rozkładu
rzeczywistych wartości atrybutu w taki sposób, aby roz-
kład wartości dyskretnych był jak najbardziej równomier-
ny. Dyskretyzację można traktować jako szczególny przy-
padek zmiany sposobu repiezentowania informacji. Tym,
co wyróżnia tę metodę, jest duży stopień automatyzacji.
Analogicznie zamiana wartości ciągłych na dyskretne mo-
że się przyczynić do wzrostu jakości modeli uczenia i szyb-
kości ich generowania. Ponadto niektóre algorytmy drą-
żenia danych działają wyłącznie na wartościach dyskret-
nych.
Normalizacja  wykorzystywana jest w celu łatwiejszego
szukania zależności między atrybutami oraz łatwego zna-
lezienia miary odległości między atrybutami. Jest ona sz-
czególnym przypadkiem zmiany sposobu reprezentacji in-
formacji i także może być wykonana automatycznie.
Agregacja rekordów  na ogół polega na zastąpieniu kilku
rekordów bazy jednym poprzez wykonanie na ich atry-
butach prostych operacji takich jak: zsumowanie, znale-
zienie maksimum, minimum, obliczenie średniej. Może tu
być przykładem zastąpienie wszystkich klientów z danego
miasta rekordem, reprezentującym jednego średniego kli-
enta mieszkającego w danym mieście. Pozwoli to szybciej
znalezć pewne zależności między miastami.
Zmiana schematu relacji  jeżeli atrybut jest dyskretny, i
przyjmuje n wartości, jest zastępowany przez n binarnych
atrybutów. Każdy zastępuje dokładnie jedną z wartości
starego, wyliczeniowego atrybutu. Taka zmiana schematu
relacji pozwala na redukcję liczby rekordów w bazie ko-
sztem wzrostu rozmiaru samego rekordu. Ponadto pozwa-
la na odkrycie zależności między wartościami atrybutów.
Przykładami zmiany schematu relacji może być:
Zmiana adresu na regon. Adres zamieszkania jest zamie-
niany na jeden z czterech kodów. Upraszcza to informację
o zamieszkaniu,
Zmiana daty urodzenia na wiek. Data urodzenia jest w tym
wypadku informacją zbyt szczegółową, więc można ją za-
mienić na wiek,
Podzielenie dochodu przez 1000. Dochód ma mniejsze war-
tości i może być łatwiej porównywany z wiekiem. Spro-
wadzenie wartości atrybutów do tego samego rzędu wiel-
kości, pomoże zdefiniować pewniejszą miarę odległości
między rekordami. Miara taka jest wykorzystywana w
niektórych zadaniach drążenia danych (znajdowanie klas-
trów). Również porównywanie dochodów między sobą bę-
dzie szybsze,
Podzielenie kredytu przez 1000  z przyczyn j. w.
Zamiana daty prenumeraty na liczbę miesięcy, które up-
łynęły od 1900 roku. Operacja ta pomoże przeprowadzić
analizę i wyszukiwanie sekwencji czasowych w danych we-
jściowych. Zapis daty w dniach jest zbyt dokładny, aby
można było znalezć ogólne zależności czasowe.
Uznaje się, że po operacji I. Oczyszczenia danych, można
teraz przedstawić dane w formacie wymaganym przez sto-
sowane narzędzie(a) do DM. Jakie zatem formalizmy rep-
rezentacji wiedzy są najczęściej stosowane w procesie ucze-
nia maszynowego oraz jaki faktyczny format mają dane,
przygotowane do prowadzenia tego procesu?
Jeśli chodzi o formalizmy reprezentacji wiedzy, najczęściej
stosowane w uczeniu maszynowym, mogą to być:
" asocjacje wiedzy,
"
"
"
(obrazy wiedzy),
(otwarte teksty),
" tablice decyzji,
"
"
"
" wektory wiedzy
"
"
"
Asocjacje wiedzy
& &
Przyczyna_B
Przyczyna_A Wynik_C
&
Przyczyna_A
Przyczyna_B
Wynik_C
&
Przyczyna_B1
Wynik_C1
 patrz-wprzód-i-wstecz-KNN
Tablice decyzji
(patrz 8MON_11.PPT)


Wyszukiwarka

Podobne podstrony:
8zti
8zti
8zti&
8zti uzup
8zti
8zti
8zti
8zti
8zti
8zti
8zti
8zti
8zti
8zti
8zti
8zti
8zti

więcej podobnych podstron