Hurtownie danych
Hurtownie danych
Wstęp
Wstęp
„Hurtownia danych to zbiór zintegrowanych,
nieulotnych, ukierunkowanych baz danych,
wykorzystywanych w systemach
wspomagania decyzji.”
W.H.Inmon
W.H.Inmon
Hurtownie danych
Hurtownie danych
Wstęp – OLAP/OLTP
Wstęp – OLAP/OLTP
OLTP – On-Line Transaction Processing
OLTP – On-Line Transaction Processing
(przetwarzanie transakcyjne)
(przetwarzanie transakcyjne)
OLAP – On-Line Analytical Processing
OLAP – On-Line Analytical Processing
(przetwarzanie analityczne)
(przetwarzanie analityczne)
Hurtownie danych
Hurtownie danych
OLAP/OLTP - porównanie
OLAP/OLTP - porównanie
OLAP
OLTP
Dane zorientowane tematycznie
Dane zorientowane procesowo
Duża wielkość (od
kilkudziesięciu GB do kilku TB)
Mała wielkość (kilkadziesiąt MB
– kilka GB)
Przechowywane są dane
historyczne
Przechowywane są dane
teraźniejsze
Zdenormalizowana struktura
danych (kilka tabel – wiele
kolumn w tabeli)
Znormalizowana struktura
danych (wiele tabel – kilka
kolumn w tabeli)
Złożone zapytania
Proste zapytania
Dane zagregowane
Dane jednostkowe
Hurtownie danych
Hurtownie danych
Analiza danych – OLAP
Analiza danych – OLAP
Narz
Narz
ę
ę
dzia klasy OLAP, s
dzia klasy OLAP, s
ł
ł
u
u
żą
żą
do tworzenia ró
do tworzenia ró
ż
ż
nego rodzaju
nego rodzaju
analiz. Najwa
analiz. Najwa
ż
ż
niejsz
niejsz
ą
ą
rol
rol
ę
ę
odgrywa tu analiza
odgrywa tu analiza
wielowymiarowa która jest podstawą przetwarzania
wielowymiarowa która jest podstawą przetwarzania
analitycznego. Dane przetrzymywane w hurtowniach
analitycznego. Dane przetrzymywane w hurtowniach
danych maj
danych maj
ą
ą
najcz
najcz
ęś
ęś
ciej struktur
ciej struktur
ę
ę
wielowymiarow
wielowymiarow
ą
ą
.
.
Hurtownie danych
Hurtownie danych
Modelowanie danych
Modelowanie danych
Podczas analizy , dane poddawane s
Podczas analizy , dane poddawane s
ą
ą
typowym operacj
typowym operacj
om
om
do których zaliczamy m.in. :
do których zaliczamy m.in. :
-
-
zwijanie
zwijanie
– podnoszenie poziomu agregacji czyli
– podnoszenie poziomu agregacji czyli
uogólnianie danych
uogólnianie danych
-
-
rozwijanie
rozwijanie
– zmniejszanie poziomu agregacji, dane
– zmniejszanie poziomu agregacji, dane
staj
staj
ą
ą
si
si
ę
ę
bardziej szczegó
bardziej szczegó
ł
ł
owe
owe
-
-
selekcja –
selekcja –
wybór interesuj
wybór interesuj
ą
ą
cych elementów wymiarów
cych elementów wymiarów
-
-
projekcja –
projekcja –
zmniejszanie licz
zmniejszanie licz
b
b
y wymiarów
y wymiarów
-
-
obracanie
obracanie
Hurtownie danych
Hurtownie danych
Modelowanie danych
Modelowanie danych
Hurtownie danych
Hurtownie danych
Systemy OLAP
Systemy OLAP
Systemy OLAP które są spotykane na świecie można
Systemy OLAP które są spotykane na świecie można
podzielić na dwa główne typy :
podzielić na dwa główne typy :
ROLAP
ROLAP
(Relational OLAP)
(Relational OLAP)
czyli systemy relacyjne oraz
czyli systemy relacyjne oraz
MOLAP
MOLAP
(Multidimensional
(Multidimensional
OLAP) - systemy wielowymiarowe. Istnieją jeszcze
OLAP) - systemy wielowymiarowe. Istnieją jeszcze
systemy hybrydowe
systemy hybrydowe
HOLAP
HOLAP
(Hybrid OLAP) które są
(Hybrid OLAP) które są
połączeniem ROLAP i MOLAP.
połączeniem ROLAP i MOLAP.
Hurtownie danych
Hurtownie danych
ROLAP
ROLAP
Systemy ROLAP jest architektur
Systemy ROLAP jest architektur
ą
ą
opart
opart
ą
ą
o relacyjne bazy
o relacyjne bazy
danych. Typowym sposobem przechowywania danych s
danych. Typowym sposobem przechowywania danych s
ą
ą
schematy gwiazdy i p
schematy gwiazdy i p
ł
ł
atka
atka
ś
ś
niegu które zostały ju
niegu które zostały ju
ż
ż
wyja
wyja
ś
ś
nione wcze
nione wcze
ś
ś
niej. Motor ROLAP jest warstw
niej. Motor ROLAP jest warstw
ą
ą
logiczn
logiczn
ą
ą
,
,
która t
która t
ł
ł
umaczy
umaczy
żą
żą
dania u
dania u
ż
ż
ytkownika na zapytania j
ytkownika na zapytania j
ę
ę
zyka
zyka
SQL. Istniej
SQL. Istniej
ą
ą
dwa sposoby dzia
dwa sposoby dzia
ł
ł
ania
ania
:
:
Hurtownie danych
Hurtownie danych
ROLAP
ROLAP
Drugim, cz
Drugim, cz
ęś
ęś
ciej wykorzystywanym sposobem dzia
ciej wykorzystywanym sposobem dzia
ł
ł
ania,
ania,
podczas procesu ETL czyli procesu zasilania hurtowni
podczas procesu ETL czyli procesu zasilania hurtowni
danych z systemów
danych z systemów
ź
ź
ród
ród
ł
ł
owych, który wi
owych, który wi
ąż
ąż
e si
e si
ę
ę
z
z
oczyszczeniem, konsolidacj
oczyszczeniem, konsolidacj
ą
ą
oraz przekszta
oraz przekszta
ł
ł
ceniem danych
ceniem danych
do wspólnego formatu, wykonywane s
do wspólnego formatu, wykonywane s
ą
ą
niezb
niezb
ę
ę
dne
dne
agregacje - motor ROLAP kieruje zapytania SQL do
agregacje - motor ROLAP kieruje zapytania SQL do
danych
danych
ź
ź
ród
ród
ł
ł
owych i cz
owych i cz
ęś
ęś
ciowo zagregowanych w
ciowo zagregowanych w
relacyjnej bazie danych
relacyjnej bazie danych
.
.
Hurtownie danych
Hurtownie danych
MOLAP
MOLAP
Drugim rodzajem s
Drugim rodzajem s
ą
ą
systemy MOLAP. Architektura MOLAP
systemy MOLAP. Architektura MOLAP
opiera si
opiera si
ę
ę
na predefiniowanych wielowymiarowych
na predefiniowanych wielowymiarowych
tablicach zawieraj
tablicach zawieraj
ą
ą
cych zagregowane dane za
cych zagregowane dane za
ł
ł
adowane z
adowane z
ró
ró
ż
ż
nych zasobów danych. W porównaniu do relacyjnych
nych zasobów danych. W porównaniu do relacyjnych
systemów, systemy MOLAP cechuje du
systemów, systemy MOLAP cechuje du
ż
ż
a wydajno
a wydajno
ść
ść
. S
. S
ą
ą
optymalne dla operacji selekcji oraz projekcji wymiarów.
optymalne dla operacji selekcji oraz projekcji wymiarów.
Mog
Mog
ą
ą
przetwarza
przetwarza
ć
ć
z
z
ł
ł
o
o
ż
ż
one zapytania i szybko zwracaj
one zapytania i szybko zwracaj
ą
ą
wyniki. Niestety posiadaj
wyniki. Niestety posiadaj
ą
ą
te
te
ż
ż
istotne wady. Najbardziej
istotne wady. Najbardziej
istotn
istotn
ą
ą
z nich jest mo
z nich jest mo
ż
ż
liwo
liwo
ść
ść
przetrzymywania znacznie
przetrzymywania znacznie
mniejszej ilo
mniejszej ilo
ś
ś
ci danych od systemów ROLAP.
ci danych od systemów ROLAP.
Hurtownie danych
Hurtownie danych
ROLAP/MOLAP – porównanie
ROLAP/MOLAP – porównanie
Funkcjonalność
ROLAP
MOLAP
Wielkość
50 GB -10 TB
1 – 50 GB
Struktura danych
Gwiazda/Płatek
śniegu/ inne
„Kostka” danych
Zarządzanie
Złożone
Proste
Projektowanie
Czasochłonne
Szybkie
Wydajność (całościowo)
Mała
Duża
Motory
-
IBM (DB2 –
RedBrick)
-
MicroStrategy
-
Oracle
-
Sysbase
-
Cognos
-
Hyperion