Kończąc fragment wykładu na temat I. Gromadzenia da-
nych warto przypomnieć, że mówiliśmy wyłącznie o czyn-
ności ich zbierania (gromadzenia), nie wnikając na razie
w zagadnienie sposobu przedstawiania danych na użytek
zastosowań komputerowych, a więc o tzw. formacie da-
nych. Zagadnienia te sotaną omówione pózniej.
II. Oczyszczanie danych.
Kolejnym krokiem w procesie przygotowania danych jest
ich oczyszczenie i potencjalne wstępne przetworzenie (pre-
processing). Operacja ta powinna być poprzedzona anali-
zą danych, aby zorientować się w występujących błędach.
W przypadku dużej bazy można posłużyć się losową prób-
ką.
W bazach danych można zidentyfikować kilka rodzajów
zanieczyszczeń . Należą do nich:
" błędne dane,
"
"
"
" redundancja informacji (kilka rekordów, które reprezen-
"
"
"
tują ten sam fakt),
" brakujące wartości danych,
"
"
"
" niespójność dziedzinowa (atrybuty o wartościach spoza
"
"
"
swojej dziedziny; jest ona bardzo trudna, a czasem wręcz
niemożliwa do wykrycia).
Większość tych zanieczyszczeń jest spowodowana przez
błędy typograficzne, lub przez zwyczajne niedbalstwo o-
sób wprowadzających. Na tym etapie należy zadecydować
o strategii postępowania z brakującymi wartościami atry-
butów. Jeżeli liczba rekordów zawierających wartości
NULL w bazie jest niewielka, rekordy te są usuwane, gdyż
nie mają wielkiego wpływu na końcowy wynik i potrak-
towane mogą być jako szum informacyjny. Jeżeli nato-
miast liczba takich rekordów jest znaczna, to wartość
NULL traktuje się jako dodatkową wartość z dziedziny
atrybutu.
W celu zilustrowania problemu oczyszczania danych, zos-
tanie wykorzystany zbiór danych będący próbką z syste-
mu informatycznego wydawnictwa, zawierający informa-
cje o klientach prenumerujących czasopisma. Pokazana
na poniżej tablica zawiera przykładowe fakty (rekordy) w
bazie danych.
Tablica 1. Dane oryginalne
Numer Nazwisko Adres Data Czasopismo
klienta prenum.
23003 Nowak Grunwaldzka 1 04-15-1997 Samochody
23003 Nowak Grunwaldzka 1 06-21-1998 Muzyka
23003 Nowak Grunwaldzka 1 05-30-1996 Komiks
23009 Kowalski Sienkiewicza 2 01-01-2010 Komiks
23013 Wrocławski Prusa 3 02-30-1995 Sport
23019 Nowek Grunwaldzka 1 01-01-1901 Dom
W Tablica 1 znajdują się dane osoby o nazwisku Nowak i
Nowek. Różnią się numerem klienta, ale mają ten sam ad-
res zamieszkania, co jest wskazówką, że najprawdopodob-
niej dotyczą tej samej osoby. Mamy tu do czynienia z du-
plikacją informacji. Błąd! Nie można odnalezć zródła
odwołania. przedstawia zbiór danych po usunięciu (po-
prawieniu) powielonej informacji. Tablica zawiera
również dwie daty, które na pewno są błędne. W roku
1901 firma jeszcze nie istniała, rok 2010 dopiero nastąpi.
Wartości te są tak naprawdę nieznane, więc powinny być
zastąpione wartością NULL, by nie prowadzić do wyciąg-
nięcia mylnych wniosków z danych. Poprawiony zbiór
zawiera Tablica 3.
Tablica 2. Usunięcie zdublowanych oraz błędnych rekordów
Numer Nazwisko Adres Data Czasopismo
klienta prenum.
23003 Nowak Grunwaldzka 1 04-15-1997 Samochody
23003 Nowak Grunwaldzka 1 06-21-1998 Muzyka
23003 Nowak Grunwaldzka 1 05-30-1996 Komiks
23009 Kowalski Sienkiewicza 2 01-01-2008 Komiks
23013 Wrocławski Prusa 3 02-30-1995 Sport
23003 Nowak Grunwaldzka 1 01-01-1901 Dom
Tablica 3. Spójność dziedzinowa
Numer Nazwisko Adres Data prenum. Czasopismo
Klienta
23003 Nowak Grunwaldzka 1 04-15-1997 Samochody
23003 Nowak Grunwaldzka 1 06-21-1998 Muzyka
23003 Nowak Grunwaldzka 1 05-30-1996 Komiks
23009 Kowalski Sienkiewicza 2 NULL Komiks
23013 Wrocławski Prusa 3 02-30-1995 Sport
23003 Nowak Grunwaldzka 1 NULL Dom
Innymi elementami procesu czyszczenia danych mogą być
pewne specyficzne operacje na danych, m. in.:
Wzbogacenie danych
Obecnie istnieje mnóstwo firm trudniących się sprzedażą
różnego rodzaju danych, gromadzonych na podstawie
wieloletnich badań i obserwacji statystycznych. Dane te
mogą dostarczyć dodatkowej informacji o różnorodnej te-
matyce, zależnie od aspektu, na który kładziemy nacisk
przy wyciąganiu wiedzy (np. średnie ceny domów, profil
klientów, demografia). Połączenie istniejącej korporacyj-
nej bazy danych z zakupioną może być procesem bardzo
trudnym. Najczęściej spotykanym problemem jest rekons-
trukcja zależności w bazie danych. Można na przykład za-
kupić dane osób mieszkających na pewnym obszarze, ale
bez informacji o relacjach rodzinnych między tymi oso-
bami. Wtedy dane są praktycznie bez wartości. Ważnym
jest, by kupując dodatkowe dane zwrócić uwagę, czy dane
są kompletne i zawierają pełne spektrum informacji.
Wyszukiwarka
Podobne podstrony:
8zti8zti8zti&8zti uzup8zti8zti8zti8zti8zti8zti8zti8zti8zti8zti8zti8zti8zti8ztiwięcej podobnych podstron