8zti 09

background image

Kończąc fragment wykładu na temat

I. Gromadzenia da-

nych

warto przypomnieć, że mówiliśmy wyłącznie o czyn-

ności ich zbierania (gromadzenia), nie wnikając na razie
w zagadnienie sposobu przedstawiania danych na u
żytek
zastosowa
ń komputerowych, a więc o tzw.

formacie

da-

nych. Zagadnienia te sotaną omówione później.

II. Oczyszczanie danych

.

Kolejnym krokiem w procesie przygotowania danych jest
ich oczyszczenie i potencjalne wst
ępne przetworzenie (pre-
processing
). Operacja ta powinna być poprzedzona anali-
z
ą danych, aby zorientować się w występujących błędach.
W przypadku du
żej bazy można posłużyć się losową prób-
k
ą.

W bazach danych można zidentyfikować kilka rodzajów
„zanieczyszcze
ń”. Należą do nich:

ędne dane,

redundancja informacji (kilka rekordów, które reprezen-
tuj
ą ten sam fakt),

brakujące wartości danych,

niespójność dziedzinowa (atrybuty o wartościach spoza
swojej dziedziny; jest ona bardzo trudna, a czasem wr
ęcz
niemo
żliwa do wykrycia).

Większość tych zanieczyszczeń jest spowodowana przez
ędy typograficzne, lub przez zwyczajne niedbalstwo o-
sób wprowadzaj
ących. Na tym etapie należy zadecydować
o strategii post
ępowania z brakującymi wartościami atry-
butów. Je
żeli liczba rekordów zawierających wartości
NULL w bazie jest niewielka, rekordy te s
ą usuwane, gdyż

background image

nie mają wielkiego wpływu na końcowy wynik i potrak-
towane mog
ą być jako szum informacyjny. Jeżeli nato-
miast liczba takich rekordów jest znaczna, to warto
ść
NULL traktuje si
ę jako dodatkową wartość z dziedziny
atrybutu.

W celu zilustrowania problemu oczyszczania danych, zos-
tanie wykorzystany zbiór danych b
ędący próbką z syste-
mu informatycznego wydawnictwa, zawieraj
ący informa-
cje o klientach prenumeruj
ących czasopisma. Pokazana
na poni
żej tablica zawiera przykładowe fakty (rekordy) w
bazie danych.

Tablica 1. Dane oryginalne

Numer

klienta

Nazwisko

Adres

Data

prenum.

Czasopismo

23003 Nowak

Grunwaldzka 1

04-15-1997 Samochody

23003 Nowak

Grunwaldzka 1

06-21-1998

Muzyka

23003 Nowak

Grunwaldzka 1

05-30-1996

Komiks

23009 Kowalski

Sienkiewicza 2

01-01-2010

Komiks

23013 Wrocławski

Prusa 3

02-30-1995

Sport

23019 Nowek

Grunwaldzka 1

01-01-1901

Dom

W Tablica 1 znajdują się dane osoby o nazwisku Nowak i
Nowek
. Różnią się numerem klienta, ale mają ten sam ad-
res zamieszkania, co jest wskazówk
ą, że najprawdopodob-
niej dotycz
ą tej samej osoby. Mamy tu do czynienia z du-
plikacj
ą informacji. Błąd! Nie można odnaleźć źródła
odwołania.

przedstawia zbiór danych po usunięciu (po-

prawieniu) powielonej informacji. Tablica zawiera
równie
ż dwie daty, które na pewno sąędne. W roku
1901 firma jeszcze nie istniała, rok 2010 dopiero nast
ąpi.
Warto
ści te są tak naprawdę nieznane, więc powinny być

background image

zastąpione wartością NULL, by nie prowadzić do wyciąg-
ni
ęcia mylnych wniosków z danych. Poprawiony zbiór
zawiera Tablica 3.

Tablica 2. Usunięcie zdublowanych oraz błędnych rekordów

Numer
klienta

Nazwisko

Adres

Data

prenum.

Czasopismo

23003 Nowak

Grunwaldzka 1

04-15-1997

Samochody

23003 Nowak

Grunwaldzka 1

06-21-1998

Muzyka

23003 Nowak

Grunwaldzka 1

05-30-1996

Komiks

23009 Kowalski

Sienkiewicza 2

01-01-2008

Komiks

23013 Wrocławski

Prusa 3

02-30-1995

Sport

23003 Nowak

Grunwaldzka 1

01-01-1901

Dom

Tablica 3. Spójność dziedzinowa

Numer

Klienta

Nazwisko

Adres

Data prenum. Czasopismo

23003 Nowak

Grunwaldzka 1

04-15-1997 Samochody

23003 Nowak

Grunwaldzka 1

06-21-1998

Muzyka

23003 Nowak

Grunwaldzka 1

05-30-1996

Komiks

23009 Kowalski

Sienkiewicza 2

NULL

Komiks

23013 Wrocławski

Prusa 3

02-30-1995

Sport

23003 Nowak

Grunwaldzka 1

NULL

Dom

Innymi elementami procesu czyszczenia danych mogą być
pewne specyficzne operacje na danych, m. in.:

Wzbogacenie danych

Obecnie istnieje mnóstwo firm trudniących się sprzedażą
żnego rodzaju danych, gromadzonych na podstawie
wieloletnich bada
ń i obserwacji statystycznych. Dane te
mog
ą dostarczyć dodatkowej informacji o różnorodnej te-
matyce, zale
żnie od aspektu, na który kładziemy nacisk

background image

przy wyciąganiu wiedzy (np. średnie ceny domów, profil
klientów, demografia). Poł
ączenie istniejącej korporacyj-
nej bazy danych z zakupion
ą może być procesem bardzo
trudnym. Najcz
ęściej spotykanym problemem jest rekons-
trukcja zale
żności w bazie danych. Można na przykład za-
kupi
ć dane osób mieszkających na pewnym obszarze, ale
bez informacji o relacjach rodzinnych mi
ędzy tymi oso-
bami. Wtedy dane s
ą praktycznie bez wartości. Ważnym
jest, by kupuj
ąc dodatkowe dane zwrócić uwagę, czy dane
s
ą kompletne i zawierają pełne spektrum informacji.


Wyszukiwarka

Podobne podstrony:
download Zarządzanie Produkcja Archiwum w 09 pomiar pracy [ www potrzebujegotowki pl ]
09 AIDSid 7746 ppt
09 Architektura systemow rozproszonychid 8084 ppt
TOiZ 09
Wyklad 2 TM 07 03 09
09 Podstawy chirurgii onkologicznejid 7979 ppt
Wyklad 4 HP 2008 09
09 TERMOIZOLACJA SPOSOBY DOCIEPLEŃ
09 Nadciśnienie tętnicze
wyk1 09 materiał
Niewydolność krążenia 09
09 Tydzień zwykły, 09 środa
09 Choroba niedokrwienna sercaid 7754 ppt
TD 09
moj 2008 09
IU 09

więcej podobnych podstron