I
STOTA I STRUKTURY HURTOWNI
DANYCH
Zasady eksploracji danych
S
PIS TRE
Ś
CI
Spis tre
ś
ci:
I.
Wst
ę
p
Definicja - Hurtownia danych
Zalety hurtowni danych
Kto potrzebuje hurtowni
danych?
Cele i przykłady
Jaka powinna by
ć
hurtownia
IV.
Projektowanie
Metody projektowania i
wdra
ż
ania hurtowni
danych
ETL
Ź
ródła danych
Przegl
ą
d rozwi
ą
za
ń
-
przykłady
Jaka powinna by
ć
hurtownia
danych?
II.
Implementacja
Standardowa implementacja
Rodzaje implementacji danych
III.
Architektura
Architektura
Schemat gwiazdy
Schemat płatka
ś
niegu
Schemat konstelacji faktów
przykłady
V.
Eksploatacja
Definicja
Metody eksploatacji danych
Przykłady stosowanych
rozwi
ą
za
ń
Metody przetwarzania
Zastosowanie
VI.
Podsumowanie
VII.
Bibliografia
W
ST
Ę
P
H
U
R
T
O
W
N
IA
D
A
N
Y
C
H
Definicja
Hurtownia danych (
ang.
data
warehouse) – rodzaj
bazy danych
,
która jest zorganizowana i
zoptymalizowana pod k
ą
tem pewnego
wycinka rzeczywisto
ś
ci.
Hurtownia danych to zbiór
http://pl.wikipedia.org/wiki/Hurtownia_danych
Hurtownia danych to zbiór
zintegrowanych, nieulotnych,
ukierunkowanych baz danych,
wykorzystywanych w systemach
wspomagania decyzji.
http://www.jakubw.pl/zajecia/hur/HUR2006_01.pdf
Wa
ż
ne
H
U
R
T
O
W
N
IE
D
A
N
Y
C
H
Czym jest
hurtownia danych
wg H. Inmonna?
zbiór danych wspomagaj
ą
cych
podejmowanie decyzji, który jest:
uporz
ą
dkowany tematycznie,
zintegrowany,
zawieraj
ą
cy wymiar czasowy,
nieulotny.
Jest to definicja autorstwa Williama H. Inmonna
Hurtownia danych – Starczewski, Zr
ę
da
H
U
R
T
O
W
N
IA
D
A
N
Y
C
H
Dodatkowy pi
ą
ty
punkt , który cz
ę
sto
dodawany jest do
definicji hurtowni
danych
Hurtownia danych ma wspomaga
ć
przetwarzanie informacji dla celów
strategicznych i analitycznych (w
przeciwie
ń
stwie do systemów
transakcyjnych realizuj
ą
cych
przetwarzanie dla celów
operacyjnych)
Z
A
L
E
T
Y
Agregacja danych (cz
ę
sto
niejednorodnych)
Mo
ż
liwo
ść
eksploracji danych w my
ś
l
zasady "od ogółu do szczegółu"
(poziomy agregacji danych)
Analizy przekrojowe z całego zakresu
działalno
ś
ci organizacji
Jednorodno
ść
danych
Jednorodno
ść
danych
http://pl.wikipedia.org/wiki/Hurtownia_danych#Architektura
K
T
O
P
O
T
R
Z
E
B
U
J
E
H
U
R
T
O
W
N
I
Kto i do czego
potrzebuje hurtowni
danych?
Menad
ż
erowie
Do zarz
ą
dzania taktycznego
Analitycy
Bie
żą
ca analiza sytuacji podmiotu
Prognozy
Stratedzy firmy
Tworzenie planów strategicznych krotko
i długookresowych.
H
U
R
T
O
W
N
I
D
A
N
Y
C
H
?
P
O
C
O
S
Ą
H
U
R
T
O
W
N
IE
D
A
N
Y
C
H
Niektóre przykłady
Podstawowe cele:
przetwarzanie analityczne danych
(OLAP)
wspomaganie decyzji (DSS)
archiwizacja
Przykłady:
http://www.jakubw.pl/zajecia/hur/HUR2006_01.pdf
Wa
ż
ne
D
A
N
Y
C
H
Przykłady:
zestawienia (zbiorcze, porównawcze,
okresowe)
analizy statystyczne
analizy trendów
zale
ż
no
ś
ci mi
ę
dzy danymi
planowanie i kontrola celów
Hurtownia danych – Starczewski, Zr
ę
da
J
A
K
A
P
O
W
IN
N
A
B
Y
Ć
H
U
R
T
O
W
N
IA
Cechy dobrej
hurtowni danych
Powinna by
ć
łatwa w u
ż
yciu
Stanowi
ć
jedyne
ź
ródło informacji
Synchronizowa
ć
dane mi
ę
dzy
oddziałami firmy
Integrowa
ć
dane w organizacji
Stworzona do celów analitycznych
H
U
R
T
O
W
N
IA
D
A
N
Y
C
H
?
I
MPLEMENTACJA
Hurtowni danych
Przykładowa architektura hurtowni danych
Hurtownie danych – Jerzy Surna
S
T
A
N
D
A
R
D
O
W
A
IM
P
L
E
M
E
N
T
A
C
J
A
Rozmiar > 1TB
Liczba u
ż
ytkowników – około 100
(analityków)
Typowy czas wdro
ż
enia – od 6
miesi
ę
cy do 3 lat
IM
P
L
E
M
E
N
T
A
C
J
A
http://pl.wikipedia.org/wiki/Hurtownia_danych#Architektura
I
M
P
L
E
M
E
N
T
A
C
J
A
Rodzaje
implementacji
danych
Architektura scentralizowana:
fizyczna hurtownia centralna (i ew.
ODS).
Architektura federacyjna: hurtownia
centralna jest wirtualna (perspektywy
nie zawsze zmaterializowane),
pobiera dane z ODS.
Architektura warstwowa: fizyczna
hurtownia centralna, kolejne warstwy
hurtownia centralna, kolejne warstwy
fizycznych hurtowni tematycznych.
http://www.jakubw.pl/zajecia/hur/HUR2006_01.pdf
http://www.jakubw.pl/zajecia/hur/HUR2006_01.pdf
http://www.jakubw.pl/zajecia/hur/HUR2006_01.pdf
http://www.jakubw.pl/zajecia/hur/HUR2006_01.pdf
A
RCHITEKTURA
Hurtowni danych
A
R
C
H
IT
E
K
T
U
R
A
1/2
Warstwa zasilania
Zajmuje si
ę
przetwarzaniem danych, ich
czyszczeniem i standaryzacj
ą
, ł
ą
czeniem.
Warstwa danych wła
ś
ciwych
(hurtownia danych)
Dalsza obróbka, generowane agregaty
danych, wykonywane raporty oraz
ostateczna obróbka danych przed ich
udost
ę
pnieniem.
Składnica danych (Data Mart)
Jej celem jest przyspieszenie dost
ę
pu do
najcz
ęś
ciej wykorzystywanych danych.
Zaprojektowana pod k
ą
tem szybko
ś
ci a nie
elastyczno
ś
ci
Obsługuje standardowe zapytania
Niewielka liczba danych – najcz
ęś
ciej
agregaty.
Przechwytuje najcz
ęś
ciej zadawane
kwerendy.
A
R
C
H
IT
E
K
T
U
R
A
2/2
Operacyjny magazyn danych (ODS
– operation Data Store)
Jego celem jest udost
ę
pnienie
zebranych i zintegrowanych danych
Jest
ź
ródłem informacji operacyjnych, dane
pochodz
ą
z ró
ż
nych aplikacji
Mała liczba danych, ma odpowiada
ć
na
pytania dotycz
ą
ce aktualnych danych
Mo
ż
e by
ć
zast
ą
piony przez zmodyfikowany
TSA
Ostania warstwa - warstwa
Ostania warstwa - warstwa
udost
ę
pniania danych (front-end)
Narz
ę
dzia analityczne
Generatory zapyta
ń
Specjalizowane aplikacje
Serwery www umo
ż
liwiaj
ą
ce dost
ę
p do
danych poprzez przegl
ą
dark
ę
www
Czyli wszystko to do czego ma dost
ę
p
u
ż
ytkownik hurtowni
S
C
H
E
M
A
T
G
W
IA
Z
D
Y
Architektura
hurtowni danych
Centralna tabela faktów
Wymiary zdenormalizowane
Tabela faktów poła˛czona z tabelami
wymiarów poprzez klucze główne i
klucze obce
http://icis.pcz.pl/~olga/projekty/hurt.pdf
S
C
H
E
M
A
T
P
Ł
A
T
K
A
Ś
N
IE
G
U
Architektura
Centralna tabela faktów
Wymiary znormalizowane
http://icis.pcz.pl/~olga/projekty/hurt.pdf
S
C
H
E
M
A
T
K
O
N
S
T
E
L
A
C
J
I
F
A
K
T
Ó
W
Architektura
Schemat stanowi
ą
cy kombinacj
ę
schematów gwiazd współdziel
ą
cych
niektóre wymiary
Ró
ż
ne tabele faktów mog
ę
odwoływac si
ę
do ró
ż
nych poziomów
danego wymiaru
http://icis.pcz.pl/~olga/projekty/hurt.pdf
P
ROJEKTOWANIE
Hurtowni danych
M
E
T
O
D
Y
P
R
O
J
E
K
T
O
W
A
N
IA
I
W
D
R
A
Ż
D
A
N
Y
C
H
1/2
Wielki wybuch
budowa korporacyjnej hurtowni danych
w ramach jednego projektu
globalna analiza wymaga´ n,
implementacja cało´sciowej hurtowni
danych,
implementacja aplikacji analitycznych
długi czas realizacji, pocza˛tkowo
wybrane technologie przestaja˛ by
W
D
R
A
Ż
A
N
IA
H
U
R
T
O
W
N
I
wybrane technologie przestaja˛ by
wspierane przez dostawców
http://icis.pcz.pl/~olga/projekty/hurt.pdf
M
E
T
O
D
Y
P
R
O
J
E
K
T
O
W
A
N
IA
I
W
D
R
A
Ż
D
A
N
Y
C
H
2/2
Od ogółu do szczegółu
iteracyjna realizacja hurtowni danych, po
kolei dla ka˙zdego obszaru
tematycznego, konstrukcja zale˙znych
składnic danych
Od szczegółu do ogółu
realizacja niezalez˙nych składnic
danych, z wizja˛ ich przyszłej integracji
w jedna˛ hurtownie˛ danych
W
D
R
A
Ż
A
N
IA
H
U
R
T
O
W
N
I
w jedna˛ hurtownie˛ danych
E
T
L
•
Ekstrakcja
•
Transformacja
•
Wczytywanie
Ekstrakcja: odczyt ´zródłowych
danych z operacyjnych baz danych,
systemów starej generacji, plików
zewn
ę
trznych
Transformacja: ł
ą
czenie danych, ich
weryfikacja, walidacja, czyszczenie i
znakowanie czasowe
Wczytywanie: wprowadzanie danych
do docelowej hurtowni danych
do docelowej hurtowni danych
Ź
R
Ó
D
Ł
A
D
A
N
Y
C
H
Rodzaje
ź
ródeł
danych
Produkcyjne - systemy operacyjne,
operacyjne bazy danych (IMS, DB2,
Oracle, Sybase, Informix), systemy
plików, dedykowane aplikacje (SAP,
PeopleSoft, Oracle Financials)
Zarchiwizowane - dane historyczne,
potrzebne do inicjalizacji hurtowni,
mog
ą
wymagac unikalnej
transformacji
transformacji
Zewn
ę
trzne - komercyjne bazy
danych, Internet, problemy zwi
ą
zane
z formatem, cz
ę
stotliwo
ś
ci
ą
od
ś
wie
ż
ania, przewidywalno
ś
ci
ą
Wewn
ę
trzne - wewn
ę
trzne bazy
danych, dokumenty, arkusze
kalkulacyjne
P
RZEGL
Ą
D ROZWI
Ą
ZA
Ń
O
RACLE
W
AREHOUSE
B
UILDER
jako system bazy danych Oracle 8i;
aplikacje analityczne;
kreatorzy wspomagaj
ą
cy działania projektowe;
kod generowany jest automatycznie;
do tworzenia składnic danych Oracle Data Mart
Suite;
programy analityczne: OLAP (Oracle Express) i
data mining (Oracle Darwin).
P
RZEGL
Ą
D ROZWI
Ą
ZA
Ń
IBM V
ISUAL
W
AREHOUSE
Zawiera szereg narz
ę
dzi przeznaczonych do
realizacji poszczególnych kroków projektu hurtowni
danych. W pakiecie zawarty jest równie
ż
serwer
bazy danych DB2 - platforma, na której mo
ż
e
działa
ć
hurtownia korporacyjna.
działa
ć
hurtownia korporacyjna.
IBM oferuje równie
ż
aplikacje analityczne w
technologii OLAP (DB2 OLAP Server) i data mining
IntelligentMiner.
P
RZEGL
Ą
D ROZWI
Ą
ZA
Ń
S
Y
B
ASE
W
AREHOUSE
S
TUDIO
W jego skład wchodzi ponad dziesi
ęć
narz
ę
dzi i
aplikacji przeznaczonych do obsługi projektu
(modelowania, oczyszczania i przenoszenia
danych), składowania i zarz
ą
dzania danymi,
tworzenia zapyta
ń
i raportów.
tworzenia zapyta
ń
i raportów.
Jako platform
ę
do działania hurtowni danych
Sybase oferuje własny serwer bazy danych -
Adaptive Enterprise Server.
P
RZEGL
Ą
D ROZWI
Ą
ZA
Ń
C
OMPUTER
A
SSOCIATES
pakiet DECISIONBASE:
projektowanie modelu danych - ErWin;
zasilanie danymi z ró
ż
nych
ź
ródeł - Transformer;
metadane – PLANTIUM Repository;
narz
ę
dzia analityczne, OLAPServer i rozwi
ą
zanie
narz
ę
dzia analityczne, OLAPServer i rozwi
ą
zanie
bazuj
ą
ce na sieciach neuronowych – Neugents;
wiele innych.
E
KSPLOATACJA
Hurtowni danych
E
K
S
P
L
O
R
A
C
J
A
D
A
N
Y
C
H
definicja
Jeden z etapów procesu odkrywania
wiedzy
z
baz danych
(
ang.
Knowledge Discovery in Databases,
KDD). Idea eksploracji danych polega
na wykorzystaniu szybko
ś
ci
komputera
do znajdowania ukrytych
dla
człowieka
prawidłowo
ś
ci w
danych
zgromadzonych w
hurtowniach
danych
.
danych
.
http://pl.wikipedia.org/wiki/Eksploracja_danych
M
E
T
O
D
Y
E
K
S
P
L
O
R
A
C
J
I
D
A
N
Y
C
H
Dwa sposoby
podziału
Techniki predykcyjne – uogólnienie i
przewidywanie
Techniki deskrypcyjne – opis
danych i uchwycenie ogólnych cech
opisywanych obiektów
Techniki uczenia nadzorowanego –
„uczy si
ę
” rozró
ż
niac przykłady
D
A
N
Y
C
H
„uczy si
ę
” rozró
ż
niac przykłady
nale
żą
ce do ró
ż
nych klas
Techniki uczenia bez nadzoru –
formułuje model najbardziej pasuj
ą
cy
do obserwowanych danych
Hurtownie danych – metody eksploracji
P
R
Z
Y
K
Ł
A
D
Y
S
T
O
S
O
W
A
N
Y
C
H
R
O
Z
W
I
Ą
Ń
Zakresy
Przykładowych
stosowanych
rozwi
ą
za
ń
Techniki i metody słu
żą
ce eksploracji
danych wywodz
ą
si
ę
głównie z obszaru
bada
ń
nad
sztuczn
ą
inteligencj
ą
.
Główne przykłady stosowanych
rozwi
ą
za
ń
nale
żą
do nast
ę
puj
ą
cych
zakresów:
wizualizacje na wykresach
metody statystyczne
R
O
Z
W
I
Ą
Z
A
Ń
sieci neuronowe
metody uczenia maszynowego
metody ewolucyjne
logika rozmyta
zbiory przybli
ż
one
http://pl.wikipedia.org/wiki/Eksploracja_danych
M
E
T
O
D
Y
P
R
Z
E
T
W
A
R
Z
A
N
IA
Jakie s
ą
metody
przetwarzania
danych
W eksploracji danych rozwijane s
ą
ró
ż
ne metody przetwarzania, ró
ż
ni
ą
ce
si
ę
zakresem zastosowa
ń
, stosowanymi
algorytmami
rozwi
ą
za
ń
, sposobem
prezentacji wyników. W
ś
ród nich
wyró
ż
nia si
ę
:
streszczanie
poszukiwanie asocjacji
analiza funkcjonalna
klasyfikacja
grupowanie
http://pl.wikipedia.org/wiki/Eksploracja_danych
Z
A
S
T
O
S
O
W
A
N
IE
K
D
D
Gdzie znajduje
zastosowanie
KDD?
Zastosowania KDD znajduj
ą
zastosowania przy:
eksploracji danych o ruchu internetowym,
rozpoznawaniu sygnałów obrazu, mowy,
pisma,
wspomaganiu diagnostyki medycznej,
badaniach genetycznych,
analizie operacji bankowych,
projektowaniu hurtowni danych,
tworzeniu reklam skierowanych(ang.
Targeted ads),
prognozowaniu sprzeda
ż
y(ang. Sales
forecast),
wdra
ż
aniu strategii Cross-selling'owej,
wykrywaniu nadu
ż
y
ć
(ang. Fraud detection),
ocenie ryzyka kredytowego,
segmentacji klientów.
http://pl.wikipedia.org/wiki/Eksploracja_danych
P
ODSUMOWANIE
P
ODSUMOWANIE
budowa hurtowni to wielkie wyzwanie z uwagi na
zło
ż
ono
ść
technologiczn
ą
i organizacyjn
ą
;
najcz
ęś
ciej trwa dwa, trzy lata, pierwsze wyniki
najcz
ęś
ciej po roku;
koszty sprz
ę
tu i oprogramowania rz
ę
du milionów
koszty sprz
ę
tu i oprogramowania rz
ę
du milionów
dolarów;
korzy
ś
ci biznesowe mog
ą
by
ć
zerowe lub
stuprocentowe.
coraz wi
ę
cej firm decyduje si
ę
na taki krok;
w USA rynek hurtowni to ponad 40 mld dolarów i
szybko ro
ś
nie.
B
IB
L
IO
G
R
A
F
IA
Ostatnie wej
ś
cie na
strony w bibliografii:
19/05/2011
http://www.google.pl/url?sa=t&source=web&cd=6&ve
d=0CFYQFjAF&url=http%3A%2F%2Fwww.ipipan.wa
w.pl%2F%257Esubieta%2Fprezentacje%2520studen
ckie%2FHurtownie%2520Danych%2520-
%2520Starczewski%26Zreda.ppt&rct=j&q=Hurtownie
%20danych&ei=A1XVTa_vBc6OswaEgKWUDA&usg
=AFQjCNEfIKFGv39wAqBuyc5Yf4V8EeL9QQ&sig2=
o4Et8NChxs7d_vVw9HYYWA&cad=rja
http://pl.wikipedia.org/wiki/Hurtownia_danych#Archite
ktura
http://icis.pcz.pl/~olga/projekty/hurt.pdf
http://www.jakubw.pl/zajecia/hur/HUR2006_01.pdf
http://icis.pcz.pl/~olga/projekty/hurt.pdf
http://www.google.pl/url?sa=t&source=web&cd=10&v
http://www.google.pl/url?sa=t&source=web&cd=10&v
ed=0CFgQFjAJ&url=http%3A%2F%2Fwww.e-
sgh.pl%2Fniezbednik%2Fplik.php%3Fid%3D2724344
0%26pid%3D460&rct=j&q=Hurtownie%20danych%20
Eksploatacja%20&ei=am7VTe7wFY_AswbZ7tiEDA&u
sg=AFQjCNFO7HZUi5iqGi68iqXsQ_N2wNBwJQ&sig
2=zyWFHiXcnl-Ivnual6om8w&cad=rja
http://pl.wikipedia.org/wiki/Eksploracja_danych