background image

I

STOTA I STRUKTURY HURTOWNI

DANYCH

Zasady eksploracji danych

background image

S

PIS TRE

Ś

CI

Spis tre

ś

ci:

I.

Wst

ę

p



Definicja - Hurtownia danych



Zalety hurtowni danych



Kto potrzebuje hurtowni 
danych?



Cele i przykłady



Jaka powinna by

ć

 hurtownia 

IV.

Projektowanie



Metody projektowania i 
wdra

ż

ania hurtowni

danych



ETL



Ź

ródła danych



Przegl

ą

d rozwi

ą

za

ń

 -

przykłady



Jaka powinna by

ć

 hurtownia 

danych?

II.

Implementacja



Standardowa implementacja



Rodzaje implementacji danych

III.

Architektura



Architektura



Schemat gwiazdy



Schemat płatka 

ś

niegu



Schemat konstelacji faktów

przykłady

V.

Eksploatacja



Definicja 



Metody eksploatacji danych



Przykłady stosowanych 
rozwi

ą

za

ń



Metody przetwarzania



Zastosowanie

VI.

Podsumowanie

VII.

Bibliografia

background image

W

ST

Ę

P

background image

H

U

R

T

O

W
N

IA
D

A

N

Y

C

H

Definicja

Hurtownia danych (

ang.

data 

warehouse) – rodzaj 

bazy danych

która jest zorganizowana i 
zoptymalizowana pod k

ą

tem pewnego 

wycinka rzeczywisto

ś

ci.

Hurtownia danych to zbiór 

http://pl.wikipedia.org/wiki/Hurtownia_danych

Hurtownia danych to zbiór 
zintegrowanych, nieulotnych, 
ukierunkowanych baz danych, 
wykorzystywanych w systemach 
wspomagania decyzji.

http://www.jakubw.pl/zajecia/hur/HUR2006_01.pdf

Wa

ż

ne

background image

H

U

R

T

O

W
N

IE
D

A

N

Y

C

H

Czym jest 
hurtownia danych 
wg H. Inmonna?

zbiór danych wspomagaj

ą

cych 

podejmowanie decyzji, który jest:



uporz

ą

dkowany tematycznie,



zintegrowany,



zawieraj

ą

cy wymiar czasowy,



nieulotny.

Jest to definicja autorstwa Williama H. Inmonna

Hurtownia danych – Starczewski, Zr

ę

da

background image

H

U

R

T

O

W
N

IA
D

A

N

Y

C

H

Dodatkowy pi

ą

ty 

punkt , który cz

ę

sto 

dodawany jest do 
definicji hurtowni 
danych

Hurtownia danych ma wspomaga

ć

 

przetwarzanie informacji dla celów 
strategicznych i analitycznych 
(w 
przeciwie

ń

stwie do systemów 

transakcyjnych realizuj

ą

cych 

przetwarzanie dla celów 
operacyjnych)

background image

Z

A

L

E

T

Y

Agregacja danych (cz

ę

sto 

niejednorodnych)

Mo

ż

liwo

ść

 eksploracji danych w my

ś

zasady "od ogółu do szczegółu" 
(poziomy agregacji danych)

Analizy przekrojowe z całego zakresu 
działalno

ś

ci organizacji

Jednorodno

ść

 danych

Jednorodno

ść

 danych

http://pl.wikipedia.org/wiki/Hurtownia_danych#Architektura

background image

K

T

O
P

O

T

R

Z

E

B

U

J

E
H

U

R

T

O

W
N

I

Kto i do czego 
potrzebuje hurtowni 
danych?

Menad

ż

erowie 



Do zarz

ą

dzania taktycznego

Analitycy



Bie

żą

ca analiza sytuacji podmiotu



Prognozy

Stratedzy firmy



Tworzenie planów strategicznych krotko 
i długookresowych.

H

U

R

T

O

W
N

I

D

A

N

Y

C

H

?

background image

P

O
C

O
S

Ą

H

U

R

T

O

W
N

IE
D

A

N

Y

C

H

Niektóre przykłady

Podstawowe cele:



przetwarzanie analityczne danych 
(OLAP)



wspomaganie decyzji (DSS)



archiwizacja

Przykłady:

http://www.jakubw.pl/zajecia/hur/HUR2006_01.pdf

Wa

ż

ne

D

A

N

Y

C

H

Przykłady:



zestawienia (zbiorcze, porównawcze, 
okresowe)



analizy statystyczne



analizy trendów



zale

ż

no

ś

ci mi

ę

dzy danymi



planowanie i kontrola celów

Hurtownia danych – Starczewski, Zr

ę

da

background image

J

A

K

A
P

O

W
IN

N

A
B

Y

Ć

H

U

R

T

O

W
N

IA

Cechy dobrej 
hurtowni danych

Powinna by

ć

 łatwa w u

ż

yciu

Stanowi

ć

 jedyne 

ź

ródło informacji

Synchronizowa

ć

 dane mi

ę

dzy 

oddziałami firmy

Integrowa

ć

 dane w organizacji

Stworzona do celów analitycznych

H

U

R

T

O

W
N

IA
D

A

N

Y

C

H

?

background image

I

MPLEMENTACJA

Hurtowni danych

background image

Przykładowa architektura hurtowni danych

Hurtownie danych – Jerzy Surna

background image

S

T

A

N

D

A

R

D

O

W

A
IM

P

L

E

M

E

N

T

A

C

J

A

Rozmiar > 1TB

Liczba u

ż

ytkowników – około 100 

(analityków)

Typowy czas wdro

ż

enia – od 6 

miesi

ę

cy do 3 lat

IM

P

L

E

M

E

N

T

A

C

J

A

http://pl.wikipedia.org/wiki/Hurtownia_danych#Architektura

background image

I

M

P

L

E

M

E

N

T

A

C

J

A

Rodzaje 
implementacji 
danych

Architektura scentralizowana
fizyczna hurtownia centralna (i ew. 
ODS).

Architektura federacyjna: hurtownia 
centralna jest wirtualna (perspektywy 
nie zawsze zmaterializowane), 
pobiera dane z ODS.

Architektura warstwowa: fizyczna 
hurtownia centralna, kolejne warstwy 

hurtownia centralna, kolejne warstwy 
fizycznych hurtowni tematycznych.

http://www.jakubw.pl/zajecia/hur/HUR2006_01.pdf

background image

http://www.jakubw.pl/zajecia/hur/HUR2006_01.pdf

background image

http://www.jakubw.pl/zajecia/hur/HUR2006_01.pdf

background image

http://www.jakubw.pl/zajecia/hur/HUR2006_01.pdf

background image

A

RCHITEKTURA

Hurtowni danych

background image

A

R

C

H

IT

E

K

T

U

R

A

1/2

Warstwa zasilania



Zajmuje si

ę

 przetwarzaniem danych, ich 

czyszczeniem i standaryzacj

ą

, ł

ą

czeniem.

Warstwa danych wła

ś

ciwych 

(hurtownia danych)



Dalsza obróbka, generowane agregaty 
danych, wykonywane raporty oraz 
ostateczna obróbka danych przed ich 
udost

ę

pnieniem.

Składnica danych (Data Mart)



Jej celem jest przyspieszenie dost

ę

pu do 

najcz

ęś

ciej wykorzystywanych danych.

Zaprojektowana pod k

ą

tem szybko

ś

ci  a nie 

elastyczno

ś

ci

Obsługuje standardowe zapytania

Niewielka liczba danych – najcz

ęś

ciej 

agregaty.



Przechwytuje najcz

ęś

ciej zadawane 

kwerendy.

background image

A

R

C

H

IT

E

K

T

U

R

A

2/2

Operacyjny magazyn danych (ODS 
– operation Data Store)



Jego celem jest udost

ę

pnienie 

zebranych i zintegrowanych danych

Jest 

ź

ródłem informacji operacyjnych, dane 

pochodz

ą

 z ró

ż

nych aplikacji

Mała liczba danych, ma odpowiada

ć

 na 

pytania dotycz

ą

ce aktualnych danych

Mo

ż

e by

ć

 zast

ą

piony przez zmodyfikowany 

TSA

Ostania warstwa  - warstwa

Ostania warstwa  - warstwa
udost

ę

pniania danych  (front-end)



Narz

ę

dzia analityczne



Generatory zapyta

ń



Specjalizowane aplikacje



Serwery www umo

ż

liwiaj

ą

ce dost

ę

p do 

danych poprzez przegl

ą

dark

ę

 www



Czyli wszystko to do czego ma dost

ę

u

ż

ytkownik hurtowni

background image

S

C

H

E

M

A

T
G

W
IA

Z

D

Y

Architektura 
hurtowni danych

Centralna tabela faktów

Wymiary zdenormalizowane

Tabela faktów poła˛czona z tabelami 
wymiarów poprzez klucze główne i

klucze obce

http://icis.pcz.pl/~olga/projekty/hurt.pdf

background image

S

C

H

E

M

A

T
P

Ł

A

T

K

A

Ś

N

IE

G

U

Architektura

Centralna tabela faktów

Wymiary znormalizowane

http://icis.pcz.pl/~olga/projekty/hurt.pdf

background image

S

C

H

E

M

A

T
K

O

N

S

T

E

L

A

C

J

I

F

A

K

T

Ó

W

Architektura

Schemat stanowi

ą

cy kombinacj

ę

 

schematów gwiazd współdziel

ą

cych 

niektóre wymiary

ż

ne tabele faktów mog

ę

 

odwoływac si

ę

 do ró

ż

nych poziomów 

danego wymiaru

http://icis.pcz.pl/~olga/projekty/hurt.pdf

background image

P

ROJEKTOWANIE

Hurtowni danych

background image

M

E

T

O

D

Y
P

R

O

J

E

K

T

O

W

A

N

IA
I

W
D

R

A

Ż

D

A

N

Y

C

H

1/2

Wielki wybuch



budowa korporacyjnej hurtowni danych 
w ramach jednego projektu



globalna analiza wymaga´ n, 
implementacja cało´sciowej hurtowni 
danych,



implementacja aplikacji analitycznych



długi czas realizacji, pocza˛tkowo
wybrane technologie przestaja˛ by

W
D

R

A

Ż

A

N

IA
H

U

R

T

O

W
N

I

wybrane technologie przestaja˛ by



wspierane przez dostawców

http://icis.pcz.pl/~olga/projekty/hurt.pdf

background image

M

E

T

O

D

Y
P

R

O

J

E

K

T

O

W

A

N

IA
I

W
D

R

A

Ż

D

A

N

Y

C

H

2/2

Od ogółu do szczegółu



iteracyjna realizacja hurtowni danych, po 
kolei dla ka˙zdego obszaru



tematycznego, konstrukcja zale˙znych
składnic danych

Od szczegółu do ogółu



realizacja niezalez˙nych składnic 
danych, z wizja˛ ich przyszłej integracji



w jedna˛ hurtownie˛ danych

W
D

R

A

Ż

A

N

IA
H

U

R

T

O

W
N

I



w jedna˛ hurtownie˛ danych

background image

E

T

L

Ekstrakcja

Transformacja

Wczytywanie

Ekstrakcja: odczyt ´zródłowych
danych z operacyjnych baz danych, 
systemów starej generacji, plików 
zewn

ę

trznych

Transformacja: ł

ą

czenie danych, ich 

weryfikacja, walidacja, czyszczenie i 
znakowanie czasowe

Wczytywanie: wprowadzanie danych 
do docelowej hurtowni danych

do docelowej hurtowni danych

background image

Ź

R

Ó

D

Ł

A
D

A

N

Y

C

H

Rodzaje 

ź

ródeł 

danych

Produkcyjne - systemy operacyjne, 
operacyjne bazy danych (IMS, DB2, 
Oracle, Sybase, Informix), systemy 
plików, dedykowane aplikacje (SAP, 
PeopleSoft, Oracle Financials)

Zarchiwizowane - dane historyczne, 
potrzebne do inicjalizacji hurtowni, 
mog

ą

 wymagac unikalnej 

transformacji

transformacji

Zewn

ę

trzne - komercyjne bazy 

danych, Internet, problemy zwi

ą

zane 

z formatem, cz

ę

stotliwo

ś

ci

ą

 

od

ś

wie

ż

ania, przewidywalno

ś

ci

ą

Wewn

ę

trzne - wewn

ę

trzne bazy 

danych, dokumenty, arkusze 
kalkulacyjne

background image

P

RZEGL

Ą

D ROZWI

Ą

ZA

Ń

O

RACLE

W

AREHOUSE

B

UILDER

jako system bazy danych Oracle 8i;

aplikacje analityczne;

kreatorzy wspomagaj

ą

cy działania projektowe;

kod generowany jest automatycznie;

do tworzenia składnic danych Oracle Data Mart 
Suite;

programy analityczne: OLAP (Oracle Express) i 
data mining (Oracle Darwin).

background image

P

RZEGL

Ą

D ROZWI

Ą

ZA

Ń

IBM V

ISUAL

W

AREHOUSE

Zawiera szereg narz

ę

dzi przeznaczonych do 

realizacji poszczególnych kroków projektu hurtowni 
danych. W pakiecie zawarty jest równie

ż

 serwer 

bazy danych DB2 - platforma, na której mo

ż

działa

ć

 hurtownia korporacyjna.

działa

ć

 hurtownia korporacyjna.

IBM oferuje równie

ż

 aplikacje analityczne w 

technologii OLAP (DB2 OLAP Server) i data mining 
IntelligentMiner.

background image

P

RZEGL

Ą

D ROZWI

Ą

ZA

Ń

S

Y

B

ASE

W

AREHOUSE

S

TUDIO

W jego skład wchodzi ponad dziesi

ęć

 narz

ę

dzi i 

aplikacji przeznaczonych do obsługi projektu 
(modelowania, oczyszczania i przenoszenia 
danych), składowania i zarz

ą

dzania danymi, 

tworzenia zapyta

ń

 i raportów.

tworzenia zapyta

ń

 i raportów.

Jako platform

ę

 do działania hurtowni danych 

Sybase oferuje własny serwer bazy danych -
Adaptive Enterprise Server.

background image

P

RZEGL

Ą

D ROZWI

Ą

ZA

Ń

C

OMPUTER

A

SSOCIATES

pakiet DECISIONBASE:

projektowanie modelu danych - ErWin;

zasilanie danymi z ró

ż

nych 

ź

ródeł - Transformer;

metadane – PLANTIUM Repository;

narz

ę

dzia analityczne, OLAPServer i rozwi

ą

zanie 

narz

ę

dzia analityczne, OLAPServer i rozwi

ą

zanie 

bazuj

ą

ce na sieciach neuronowych – Neugents;

wiele innych.

background image

E

KSPLOATACJA

Hurtowni danych

background image

E

K

S

P

L

O

R

A

C

J

A
D

A

N

Y

C

H

definicja

Jeden z etapów procesu odkrywania 

wiedzy

baz danych

(

ang.

Knowledge Discovery in Databases, 
KDD). Idea eksploracji danych polega 
na wykorzystaniu szybko

ś

ci 

komputera

do znajdowania ukrytych 

dla 

człowieka

prawidłowo

ś

ci w 

danych

zgromadzonych w 

hurtowniach 

danych

.

danych

.

http://pl.wikipedia.org/wiki/Eksploracja_danych

background image

M

E

T

O

D

Y

E

K

S

P

L

O

R

A

C

J

I

D

A

N

Y

C

H

Dwa sposoby 
podziału 

Techniki predykcyjne – uogólnienie i 
przewidywanie

Techniki deskrypcyjne – opis 
danych i uchwycenie ogólnych cech 
opisywanych obiektów

Techniki uczenia nadzorowanego 
„uczy si

ę

” rozró

ż

niac przykłady 

D

A

N

Y

C

H

„uczy si

ę

” rozró

ż

niac przykłady 

nale

żą

ce do ró

ż

nych klas

Techniki uczenia bez nadzoru 
formułuje model najbardziej pasuj

ą

cy 

do obserwowanych danych

Hurtownie danych – metody eksploracji

background image

P

R

Z

Y

K

Ł

A

D

Y
S

T

O

S

O

W

A

N

Y

C

H
R

O

Z

W
I

Ą

Ń

Zakresy 
Przykładowych 
stosowanych 
rozwi

ą

za

ń

Techniki i metody słu

żą

ce eksploracji 

danych wywodz

ą

 si

ę

 głównie z obszaru 

bada

ń

 nad 

sztuczn

ą

 inteligencj

ą

Główne przykłady stosowanych 
rozwi

ą

za

ń

 nale

żą

 do nast

ę

puj

ą

cych 

zakresów:

wizualizacje na wykresach

metody statystyczne

R

O

Z

W
I

Ą

Z

A

Ń

sieci neuronowe

metody uczenia maszynowego

metody ewolucyjne

logika rozmyta

zbiory przybli

ż

one

http://pl.wikipedia.org/wiki/Eksploracja_danych

background image

M

E

T

O

D

Y
P

R

Z

E

T

W

A

R

Z

A

N

IA

Jakie s

ą

 metody 

przetwarzania 
danych

W eksploracji danych rozwijane s

ą

 

ż

ne metody przetwarzania, ró

ż

ni

ą

ce 

si

ę

 zakresem zastosowa

ń

, stosowanymi 

algorytmami

rozwi

ą

za

ń

, sposobem 

prezentacji wyników. W

ś

ród nich 

wyró

ż

nia si

ę

:

streszczanie

poszukiwanie asocjacji

analiza funkcjonalna

klasyfikacja

grupowanie

http://pl.wikipedia.org/wiki/Eksploracja_danych

background image

Z

A

S

T

O

S

O

W

A

N

IE

K

D

D

Gdzie znajduje 
zastosowanie 
KDD?

Zastosowania KDD znajduj

ą

 

zastosowania przy:



eksploracji danych o ruchu internetowym,



rozpoznawaniu sygnałów obrazu, mowy, 
pisma,



wspomaganiu diagnostyki medycznej,



badaniach genetycznych,



analizie operacji bankowych,



projektowaniu hurtowni danych,



tworzeniu reklam skierowanych(ang. 
Targeted ads),



prognozowaniu sprzeda

ż

y(ang. Sales

forecast),



wdra

ż

aniu strategii Cross-selling'owej,



wykrywaniu nadu

ż

y

ć

(ang. Fraud detection),



ocenie ryzyka kredytowego,



segmentacji klientów.

http://pl.wikipedia.org/wiki/Eksploracja_danych

background image

P

ODSUMOWANIE

background image

P

ODSUMOWANIE

budowa hurtowni to wielkie wyzwanie z uwagi na 
zło

ż

ono

ść

 technologiczn

ą

 i organizacyjn

ą

;

najcz

ęś

ciej trwa dwa, trzy lata, pierwsze wyniki 

najcz

ęś

ciej po roku;

koszty sprz

ę

tu i oprogramowania rz

ę

du milionów 

koszty sprz

ę

tu i oprogramowania rz

ę

du milionów 

dolarów;

korzy

ś

ci biznesowe mog

ą

 by

ć

 zerowe lub 

stuprocentowe.

coraz wi

ę

cej firm decyduje si

ę

 na taki krok;

w USA rynek hurtowni to ponad 40 mld dolarów i 
szybko ro

ś

nie.

background image

B

IB

L

IO

G

R

A

F

IA

Ostatnie wej

ś

cie na 

strony w bibliografii: 
19/05/2011

http://www.google.pl/url?sa=t&source=web&cd=6&ve
d=0CFYQFjAF&url=http%3A%2F%2Fwww.ipipan.wa
w.pl%2F%257Esubieta%2Fprezentacje%2520studen
ckie%2FHurtownie%2520Danych%2520-
%2520Starczewski%26Zreda.ppt&rct=j&q=Hurtownie
%20danych&ei=A1XVTa_vBc6OswaEgKWUDA&usg
=AFQjCNEfIKFGv39wAqBuyc5Yf4V8EeL9QQ&sig2=
o4Et8NChxs7d_vVw9HYYWA&cad=rja
http://pl.wikipedia.org/wiki/Hurtownia_danych#Archite
ktura
http://icis.pcz.pl/~olga/projekty/hurt.pdf
http://www.jakubw.pl/zajecia/hur/HUR2006_01.pdf

http://icis.pcz.pl/~olga/projekty/hurt.pdf

http://www.google.pl/url?sa=t&source=web&cd=10&v

http://www.google.pl/url?sa=t&source=web&cd=10&v
ed=0CFgQFjAJ&url=http%3A%2F%2Fwww.e-
sgh.pl%2Fniezbednik%2Fplik.php%3Fid%3D2724344
0%26pid%3D460&rct=j&q=Hurtownie%20danych%20
Eksploatacja%20&ei=am7VTe7wFY_AswbZ7tiEDA&u
sg=AFQjCNFO7HZUi5iqGi68iqXsQ_N2wNBwJQ&sig
2=zyWFHiXcnl-Ivnual6om8w&cad=rja 
http://pl.wikipedia.org/wiki/Eksploracja_danych