Istota i struktury hurtowni danych Zasady eksploracji danych

background image

I

STOTA I STRUKTURY HURTOWNI

DANYCH

Zasady eksploracji danych

background image

S

PIS TRE

Ś

CI

Spis tre

ś

ci:

I.

Wst

ę

p



Definicja - Hurtownia danych



Zalety hurtowni danych



Kto potrzebuje hurtowni
danych?



Cele i przykłady



Jaka powinna by

ć

hurtownia

IV.

Projektowanie



Metody projektowania i
wdra

ż

ania hurtowni

danych



ETL



Ź

ródła danych



Przegl

ą

d rozwi

ą

za

ń

-

przykłady



Jaka powinna by

ć

hurtownia

danych?

II.

Implementacja



Standardowa implementacja



Rodzaje implementacji danych

III.

Architektura



Architektura



Schemat gwiazdy



Schemat płatka

ś

niegu



Schemat konstelacji faktów

przykłady

V.

Eksploatacja



Definicja



Metody eksploatacji danych



Przykłady stosowanych
rozwi

ą

za

ń



Metody przetwarzania



Zastosowanie

VI.

Podsumowanie

VII.

Bibliografia

background image

W

ST

Ę

P

background image

H

U

R

T

O

W
N

IA
D

A

N

Y

C

H

Definicja

Hurtownia danych (

ang.

data

warehouse) – rodzaj

bazy danych

,

która jest zorganizowana i
zoptymalizowana pod k

ą

tem pewnego

wycinka rzeczywisto

ś

ci.

Hurtownia danych to zbiór

http://pl.wikipedia.org/wiki/Hurtownia_danych

Hurtownia danych to zbiór
zintegrowanych, nieulotnych,
ukierunkowanych baz danych,
wykorzystywanych w systemach
wspomagania decyzji.

http://www.jakubw.pl/zajecia/hur/HUR2006_01.pdf

Wa

ż

ne

background image

H

U

R

T

O

W
N

IE
D

A

N

Y

C

H

Czym jest
hurtownia danych
wg H. Inmonna?

zbiór danych wspomagaj

ą

cych

podejmowanie decyzji, który jest:



uporz

ą

dkowany tematycznie,



zintegrowany,



zawieraj

ą

cy wymiar czasowy,



nieulotny.

Jest to definicja autorstwa Williama H. Inmonna

Hurtownia danych – Starczewski, Zr

ę

da

background image

H

U

R

T

O

W
N

IA
D

A

N

Y

C

H

Dodatkowy pi

ą

ty

punkt , który cz

ę

sto

dodawany jest do
definicji hurtowni
danych

Hurtownia danych ma wspomaga

ć

przetwarzanie informacji dla celów
strategicznych i analitycznych
(w
przeciwie

ń

stwie do systemów

transakcyjnych realizuj

ą

cych

przetwarzanie dla celów
operacyjnych)

background image

Z

A

L

E

T

Y

Agregacja danych (cz

ę

sto

niejednorodnych)

Mo

ż

liwo

ść

eksploracji danych w my

ś

l

zasady "od ogółu do szczegółu"
(poziomy agregacji danych)

Analizy przekrojowe z całego zakresu
działalno

ś

ci organizacji

Jednorodno

ść

danych

Jednorodno

ść

danych

http://pl.wikipedia.org/wiki/Hurtownia_danych#Architektura

background image

K

T

O
P

O

T

R

Z

E

B

U

J

E
H

U

R

T

O

W
N

I

Kto i do czego
potrzebuje hurtowni
danych?

Menad

ż

erowie



Do zarz

ą

dzania taktycznego

Analitycy



Bie

żą

ca analiza sytuacji podmiotu



Prognozy

Stratedzy firmy



Tworzenie planów strategicznych krotko
i długookresowych.

H

U

R

T

O

W
N

I

D

A

N

Y

C

H

?

background image

P

O
C

O
S

Ą

H

U

R

T

O

W
N

IE
D

A

N

Y

C

H

Niektóre przykłady

Podstawowe cele:



przetwarzanie analityczne danych
(OLAP)



wspomaganie decyzji (DSS)



archiwizacja

Przykłady:

http://www.jakubw.pl/zajecia/hur/HUR2006_01.pdf

Wa

ż

ne

D

A

N

Y

C

H

Przykłady:



zestawienia (zbiorcze, porównawcze,
okresowe)



analizy statystyczne



analizy trendów



zale

ż

no

ś

ci mi

ę

dzy danymi



planowanie i kontrola celów

Hurtownia danych – Starczewski, Zr

ę

da

background image

J

A

K

A
P

O

W
IN

N

A
B

Y

Ć

H

U

R

T

O

W
N

IA

Cechy dobrej
hurtowni danych

Powinna by

ć

łatwa w u

ż

yciu

Stanowi

ć

jedyne

ź

ródło informacji

Synchronizowa

ć

dane mi

ę

dzy

oddziałami firmy

Integrowa

ć

dane w organizacji

Stworzona do celów analitycznych

H

U

R

T

O

W
N

IA
D

A

N

Y

C

H

?

background image

I

MPLEMENTACJA

Hurtowni danych

background image

Przykładowa architektura hurtowni danych

Hurtownie danych – Jerzy Surna

background image

S

T

A

N

D

A

R

D

O

W

A
IM

P

L

E

M

E

N

T

A

C

J

A

Rozmiar > 1TB

Liczba u

ż

ytkowników – około 100

(analityków)

Typowy czas wdro

ż

enia – od 6

miesi

ę

cy do 3 lat

IM

P

L

E

M

E

N

T

A

C

J

A

http://pl.wikipedia.org/wiki/Hurtownia_danych#Architektura

background image

I

M

P

L

E

M

E

N

T

A

C

J

A

Rodzaje
implementacji
danych

Architektura scentralizowana:
fizyczna hurtownia centralna (i ew.
ODS).

Architektura federacyjna: hurtownia
centralna jest wirtualna (perspektywy
nie zawsze zmaterializowane),
pobiera dane z ODS.

Architektura warstwowa: fizyczna
hurtownia centralna, kolejne warstwy

hurtownia centralna, kolejne warstwy
fizycznych hurtowni tematycznych.

http://www.jakubw.pl/zajecia/hur/HUR2006_01.pdf

background image

http://www.jakubw.pl/zajecia/hur/HUR2006_01.pdf

background image

http://www.jakubw.pl/zajecia/hur/HUR2006_01.pdf

background image

http://www.jakubw.pl/zajecia/hur/HUR2006_01.pdf

background image

A

RCHITEKTURA

Hurtowni danych

background image

A

R

C

H

IT

E

K

T

U

R

A

1/2

Warstwa zasilania



Zajmuje si

ę

przetwarzaniem danych, ich

czyszczeniem i standaryzacj

ą

, ł

ą

czeniem.

Warstwa danych wła

ś

ciwych

(hurtownia danych)



Dalsza obróbka, generowane agregaty
danych, wykonywane raporty oraz
ostateczna obróbka danych przed ich
udost

ę

pnieniem.

Składnica danych (Data Mart)



Jej celem jest przyspieszenie dost

ę

pu do

najcz

ęś

ciej wykorzystywanych danych.

Zaprojektowana pod k

ą

tem szybko

ś

ci a nie

elastyczno

ś

ci

Obsługuje standardowe zapytania

Niewielka liczba danych – najcz

ęś

ciej

agregaty.



Przechwytuje najcz

ęś

ciej zadawane

kwerendy.

background image

A

R

C

H

IT

E

K

T

U

R

A

2/2

Operacyjny magazyn danych (ODS
– operation Data Store)



Jego celem jest udost

ę

pnienie

zebranych i zintegrowanych danych

Jest

ź

ródłem informacji operacyjnych, dane

pochodz

ą

z ró

ż

nych aplikacji

Mała liczba danych, ma odpowiada

ć

na

pytania dotycz

ą

ce aktualnych danych

Mo

ż

e by

ć

zast

ą

piony przez zmodyfikowany

TSA

Ostania warstwa - warstwa

Ostania warstwa - warstwa
udost

ę

pniania danych (front-end)



Narz

ę

dzia analityczne



Generatory zapyta

ń



Specjalizowane aplikacje



Serwery www umo

ż

liwiaj

ą

ce dost

ę

p do

danych poprzez przegl

ą

dark

ę

www



Czyli wszystko to do czego ma dost

ę

p

u

ż

ytkownik hurtowni

background image

S

C

H

E

M

A

T
G

W
IA

Z

D

Y

Architektura
hurtowni danych

Centralna tabela faktów

Wymiary zdenormalizowane

Tabela faktów poła˛czona z tabelami
wymiarów poprzez klucze główne i

klucze obce

http://icis.pcz.pl/~olga/projekty/hurt.pdf

background image

S

C

H

E

M

A

T
P

Ł

A

T

K

A

Ś

N

IE

G

U

Architektura

Centralna tabela faktów

Wymiary znormalizowane

http://icis.pcz.pl/~olga/projekty/hurt.pdf

background image

S

C

H

E

M

A

T
K

O

N

S

T

E

L

A

C

J

I

F

A

K

T

Ó

W

Architektura

Schemat stanowi

ą

cy kombinacj

ę

schematów gwiazd współdziel

ą

cych

niektóre wymiary

ż

ne tabele faktów mog

ę

odwoływac si

ę

do ró

ż

nych poziomów

danego wymiaru

http://icis.pcz.pl/~olga/projekty/hurt.pdf

background image

P

ROJEKTOWANIE

Hurtowni danych

background image

M

E

T

O

D

Y
P

R

O

J

E

K

T

O

W

A

N

IA
I

W
D

R

A

Ż

D

A

N

Y

C

H

1/2

Wielki wybuch



budowa korporacyjnej hurtowni danych
w ramach jednego projektu



globalna analiza wymaga´ n,
implementacja cało´sciowej hurtowni
danych,



implementacja aplikacji analitycznych



długi czas realizacji, pocza˛tkowo
wybrane technologie przestaja˛ by

W
D

R

A

Ż

A

N

IA
H

U

R

T

O

W
N

I

wybrane technologie przestaja˛ by



wspierane przez dostawców

http://icis.pcz.pl/~olga/projekty/hurt.pdf

background image

M

E

T

O

D

Y
P

R

O

J

E

K

T

O

W

A

N

IA
I

W
D

R

A

Ż

D

A

N

Y

C

H

2/2

Od ogółu do szczegółu



iteracyjna realizacja hurtowni danych, po
kolei dla ka˙zdego obszaru



tematycznego, konstrukcja zale˙znych
składnic danych

Od szczegółu do ogółu



realizacja niezalez˙nych składnic
danych, z wizja˛ ich przyszłej integracji



w jedna˛ hurtownie˛ danych

W
D

R

A

Ż

A

N

IA
H

U

R

T

O

W
N

I



w jedna˛ hurtownie˛ danych

background image

E

T

L

Ekstrakcja

Transformacja

Wczytywanie

Ekstrakcja: odczyt ´zródłowych
danych z operacyjnych baz danych,
systemów starej generacji, plików
zewn

ę

trznych

Transformacja: ł

ą

czenie danych, ich

weryfikacja, walidacja, czyszczenie i
znakowanie czasowe

Wczytywanie: wprowadzanie danych
do docelowej hurtowni danych

do docelowej hurtowni danych

background image

Ź

R

Ó

D

Ł

A
D

A

N

Y

C

H

Rodzaje

ź

ródeł

danych

Produkcyjne - systemy operacyjne,
operacyjne bazy danych (IMS, DB2,
Oracle, Sybase, Informix), systemy
plików, dedykowane aplikacje (SAP,
PeopleSoft, Oracle Financials)

Zarchiwizowane - dane historyczne,
potrzebne do inicjalizacji hurtowni,
mog

ą

wymagac unikalnej

transformacji

transformacji

Zewn

ę

trzne - komercyjne bazy

danych, Internet, problemy zwi

ą

zane

z formatem, cz

ę

stotliwo

ś

ci

ą

od

ś

wie

ż

ania, przewidywalno

ś

ci

ą

Wewn

ę

trzne - wewn

ę

trzne bazy

danych, dokumenty, arkusze
kalkulacyjne

background image

P

RZEGL

Ą

D ROZWI

Ą

ZA

Ń

O

RACLE

W

AREHOUSE

B

UILDER

jako system bazy danych Oracle 8i;

aplikacje analityczne;

kreatorzy wspomagaj

ą

cy działania projektowe;

kod generowany jest automatycznie;

do tworzenia składnic danych Oracle Data Mart
Suite;

programy analityczne: OLAP (Oracle Express) i
data mining (Oracle Darwin).

background image

P

RZEGL

Ą

D ROZWI

Ą

ZA

Ń

IBM V

ISUAL

W

AREHOUSE

Zawiera szereg narz

ę

dzi przeznaczonych do

realizacji poszczególnych kroków projektu hurtowni
danych. W pakiecie zawarty jest równie

ż

serwer

bazy danych DB2 - platforma, na której mo

ż

e

działa

ć

hurtownia korporacyjna.

działa

ć

hurtownia korporacyjna.

IBM oferuje równie

ż

aplikacje analityczne w

technologii OLAP (DB2 OLAP Server) i data mining
IntelligentMiner.

background image

P

RZEGL

Ą

D ROZWI

Ą

ZA

Ń

S

Y

B

ASE

W

AREHOUSE

S

TUDIO

W jego skład wchodzi ponad dziesi

ęć

narz

ę

dzi i

aplikacji przeznaczonych do obsługi projektu
(modelowania, oczyszczania i przenoszenia
danych), składowania i zarz

ą

dzania danymi,

tworzenia zapyta

ń

i raportów.

tworzenia zapyta

ń

i raportów.

Jako platform

ę

do działania hurtowni danych

Sybase oferuje własny serwer bazy danych -
Adaptive Enterprise Server.

background image

P

RZEGL

Ą

D ROZWI

Ą

ZA

Ń

C

OMPUTER

A

SSOCIATES

pakiet DECISIONBASE:

projektowanie modelu danych - ErWin;

zasilanie danymi z ró

ż

nych

ź

ródeł - Transformer;

metadane – PLANTIUM Repository;

narz

ę

dzia analityczne, OLAPServer i rozwi

ą

zanie

narz

ę

dzia analityczne, OLAPServer i rozwi

ą

zanie

bazuj

ą

ce na sieciach neuronowych – Neugents;

wiele innych.

background image

E

KSPLOATACJA

Hurtowni danych

background image

E

K

S

P

L

O

R

A

C

J

A
D

A

N

Y

C

H

definicja

Jeden z etapów procesu odkrywania

wiedzy

z

baz danych

(

ang.

Knowledge Discovery in Databases,
KDD). Idea eksploracji danych polega
na wykorzystaniu szybko

ś

ci

komputera

do znajdowania ukrytych

dla

człowieka

prawidłowo

ś

ci w

danych

zgromadzonych w

hurtowniach

danych

.

danych

.

http://pl.wikipedia.org/wiki/Eksploracja_danych

background image

M

E

T

O

D

Y

E

K

S

P

L

O

R

A

C

J

I

D

A

N

Y

C

H

Dwa sposoby
podziału

Techniki predykcyjne – uogólnienie i
przewidywanie

Techniki deskrypcyjne – opis
danych i uchwycenie ogólnych cech
opisywanych obiektów

Techniki uczenia nadzorowanego
„uczy si

ę

” rozró

ż

niac przykłady

D

A

N

Y

C

H

„uczy si

ę

” rozró

ż

niac przykłady

nale

żą

ce do ró

ż

nych klas

Techniki uczenia bez nadzoru
formułuje model najbardziej pasuj

ą

cy

do obserwowanych danych

Hurtownie danych – metody eksploracji

background image

P

R

Z

Y

K

Ł

A

D

Y
S

T

O

S

O

W

A

N

Y

C

H
R

O

Z

W
I

Ą

Ń

Zakresy
Przykładowych
stosowanych
rozwi

ą

za

ń

Techniki i metody słu

żą

ce eksploracji

danych wywodz

ą

si

ę

głównie z obszaru

bada

ń

nad

sztuczn

ą

inteligencj

ą

.

Główne przykłady stosowanych
rozwi

ą

za

ń

nale

żą

do nast

ę

puj

ą

cych

zakresów:

wizualizacje na wykresach

metody statystyczne

R

O

Z

W
I

Ą

Z

A

Ń

sieci neuronowe

metody uczenia maszynowego

metody ewolucyjne

logika rozmyta

zbiory przybli

ż

one

http://pl.wikipedia.org/wiki/Eksploracja_danych

background image

M

E

T

O

D

Y
P

R

Z

E

T

W

A

R

Z

A

N

IA

Jakie s

ą

metody

przetwarzania
danych

W eksploracji danych rozwijane s

ą

ż

ne metody przetwarzania, ró

ż

ni

ą

ce

si

ę

zakresem zastosowa

ń

, stosowanymi

algorytmami

rozwi

ą

za

ń

, sposobem

prezentacji wyników. W

ś

ród nich

wyró

ż

nia si

ę

:

streszczanie

poszukiwanie asocjacji

analiza funkcjonalna

klasyfikacja

grupowanie

http://pl.wikipedia.org/wiki/Eksploracja_danych

background image

Z

A

S

T

O

S

O

W

A

N

IE

K

D

D

Gdzie znajduje
zastosowanie
KDD?

Zastosowania KDD znajduj

ą

zastosowania przy:



eksploracji danych o ruchu internetowym,



rozpoznawaniu sygnałów obrazu, mowy,
pisma,



wspomaganiu diagnostyki medycznej,



badaniach genetycznych,



analizie operacji bankowych,



projektowaniu hurtowni danych,



tworzeniu reklam skierowanych(ang.
Targeted ads),



prognozowaniu sprzeda

ż

y(ang. Sales

forecast),



wdra

ż

aniu strategii Cross-selling'owej,



wykrywaniu nadu

ż

y

ć

(ang. Fraud detection),



ocenie ryzyka kredytowego,



segmentacji klientów.

http://pl.wikipedia.org/wiki/Eksploracja_danych

background image

P

ODSUMOWANIE

background image

P

ODSUMOWANIE

budowa hurtowni to wielkie wyzwanie z uwagi na
zło

ż

ono

ść

technologiczn

ą

i organizacyjn

ą

;

najcz

ęś

ciej trwa dwa, trzy lata, pierwsze wyniki

najcz

ęś

ciej po roku;

koszty sprz

ę

tu i oprogramowania rz

ę

du milionów

koszty sprz

ę

tu i oprogramowania rz

ę

du milionów

dolarów;

korzy

ś

ci biznesowe mog

ą

by

ć

zerowe lub

stuprocentowe.

coraz wi

ę

cej firm decyduje si

ę

na taki krok;

w USA rynek hurtowni to ponad 40 mld dolarów i
szybko ro

ś

nie.

background image

B

IB

L

IO

G

R

A

F

IA

Ostatnie wej

ś

cie na

strony w bibliografii:
19/05/2011

http://www.google.pl/url?sa=t&source=web&cd=6&ve
d=0CFYQFjAF&url=http%3A%2F%2Fwww.ipipan.wa
w.pl%2F%257Esubieta%2Fprezentacje%2520studen
ckie%2FHurtownie%2520Danych%2520-
%2520Starczewski%26Zreda.ppt&rct=j&q=Hurtownie
%20danych&ei=A1XVTa_vBc6OswaEgKWUDA&usg
=AFQjCNEfIKFGv39wAqBuyc5Yf4V8EeL9QQ&sig2=
o4Et8NChxs7d_vVw9HYYWA&cad=rja
http://pl.wikipedia.org/wiki/Hurtownia_danych#Archite
ktura
http://icis.pcz.pl/~olga/projekty/hurt.pdf
http://www.jakubw.pl/zajecia/hur/HUR2006_01.pdf

http://icis.pcz.pl/~olga/projekty/hurt.pdf

http://www.google.pl/url?sa=t&source=web&cd=10&v

http://www.google.pl/url?sa=t&source=web&cd=10&v
ed=0CFgQFjAJ&url=http%3A%2F%2Fwww.e-
sgh.pl%2Fniezbednik%2Fplik.php%3Fid%3D2724344
0%26pid%3D460&rct=j&q=Hurtownie%20danych%20
Eksploatacja%20&ei=am7VTe7wFY_AswbZ7tiEDA&u
sg=AFQjCNFO7HZUi5iqGi68iqXsQ_N2wNBwJQ&sig
2=zyWFHiXcnl-Ivnual6om8w&cad=rja
http://pl.wikipedia.org/wiki/Eksploracja_danych


Wyszukiwarka

Podobne podstrony:
Hurtownie danych Juranek
Hurtownia danych serwis samochodowy
4 TurboPascal Struktury i typy danych
03 Projekt fizyczny hurtowni danych
bd 02 03 Hurtownie danych Ix
hurtownie danych 1 id 207288 Nieznany
bd 02 04 Hurtownie danych IIx
bd 02 03, Hurtownie danych Ix
HDA przykladowy test z teorii, Studia WIT - Informatyka, HDA - Hurtownie Danych
Hurtownie Danych(2)
05 Normalizacja struktury bazy danych (AC)
zadania hurtownie 2b, WSB Poznań, Hurtownie Danych
hurtownie danych
04 hurtownia danych PLOUG

więcej podobnych podstron