ISTOTA I STRUKTURY HURTOWNI
DANYCH
Zasady eksploracji danych
SPIS TREŚCI
Spis treści: IV. Projektowanie
Metody projektowania i
I. Wstęp
wdrażania hurtowni
Definicja - Hurtownia danych
danych
Zalety hurtowni danych
ETL
Kto potrzebuje hurtowni
yródła danych
danych?
Przegląd rozwiązań -
Cele i przykłady
przykłady
przykłady
Jaka powinna byćhurtownia
Jaka powinna być hurtownia
V. Eksploatacja
danych?
Definicja
II. Implementacja
Metody eksploatacji danych
Standardowa implementacja
Przykłady stosowanych
Rodzaje implementacji danych
rozwiązań
III. Architektura
Metody przetwarzania
Architektura
Zastosowanie
Schemat gwiazdy
VI. Podsumowanie
Schemat płatka śniegu
VII. Bibliografia
Schemat konstelacji faktów
WSTP
Definicja
1 Hurtownia danych (ang. data
warehouse) rodzaj bazy danych,
która jest zorganizowana i
zoptymalizowana pod kątem pewnego
wycinka rzeczywistości.
http://pl.wikipedia.org/wiki/Hurtownia_danych
1 Hurtownia danych to zbiór
1 Hurtownia danych to zbiór
zintegrowanych, nieulotnych,
Ważne
ukierunkowanych baz danych,
wykorzystywanych w systemach
wspomagania decyzji.
http://www.jakubw.pl/zajecia/hur/HUR2006_01.pdf
H
URTOWNIA DANYCH
Czym jest
1 zbiór danych wspomagających
hurtownia danych
wg H. Inmonna?
podejmowanie decyzji, który jest:
uporządkowany tematycznie,
zintegrowany,
zawierający wymiar czasowy,
nieulotny.
Jest to definicja autorstwa Williama H. Inmonna
Hurtownia danych Starczewski, Zręda
H
URTOWNIE DANYCH
Dodatkowy piąty
1 Hurtownia danych ma wspomagać
punkt , który często
dodawany jest do
przetwarzanie informacji dla celów
definicji hurtowni
danych
strategicznych i analitycznych (w
przeciwieństwie do systemów
transakcyjnych realizujących
przetwarzanie dla celów
operacyjnych)
H
URTOWNIA DANYCH
1 Agregacja danych (często
niejednorodnych)
1 Możliwość eksploracji danych w myśl
zasady "od ogółu do szczegółu"
(poziomy agregacji danych)
1 Analizy przekrojowe z całego zakresu
działalności organizacji
1 Jednorodność danych
1 Jednorodność danych
http://pl.wikipedia.org/wiki/Hurtownia_danych#Architektura
Z
ALETY
Kto i do czego
1 Menadżerowie
potrzebuje hurtowni
danych?
Do zarządzania taktycznego
1 Analitycy
Bieżąca analiza sytuacji podmiotu
Prognozy
1 Stratedzy firmy
Tworzenie planów strategicznych krotko
i długookresowych.
K
TO POTRZEBUJE HURTOWNI DANYCH
?
HURTOWNI
Niektóre przykłady
1 Podstawowe cele:
przetwarzanie analityczne danych
(OLAP)
wspomaganie decyzji (DSS)
Ważne
archiwizacja
http://www.jakubw.pl/zajecia/hur/HUR2006_01.pdf
1 Przykłady:
1 Przykłady:
zestawienia (zbiorcze, porównawcze,
okresowe)
analizy statystyczne
analizy trendów
zależności między danymi
planowanie i kontrola celów
Hurtownia danych Starczewski, Zręda
P
O CO S
HURTOWNIE DANYCH
DANYCH
Cechy dobrej
1 Powinna być łatwa w użyciu
hurtowni danych
1 Stanowić jedyne zródło informacji
1 Synchronizować dane między
oddziałami firmy
1 Integrować dane w organizacji
1 Stworzona do celów analitycznych
J
AKA POWINNA BY
Ć
HURTOWNIA DANYCH
?
HURTOWNIA
IMPLEMENTACJA
Hurtowni danych
Przykładowa architektura hurtowni danych
Hurtownie danych Jerzy Surna
1 Rozmiar > 1TB
1 Liczba użytkowników około 100
(analityków)
1 Typowy czas wdrożenia od 6
miesięcy do 3 lat
http://pl.wikipedia.org/wiki/Hurtownia_danych#Architektura
S
TANDARDOWA IMPLEMENTACJA
IMPLEMENTACJA
Rodzaje
1 Architektura scentralizowana:
implementacji
danych
fizyczna hurtownia centralna (i ew.
ODS).
1 Architektura federacyjna: hurtownia
centralna jest wirtualna (perspektywy
nie zawsze zmaterializowane),
pobiera dane z ODS.
1 Architektura warstwowa: fizyczna
hurtownia centralna, kolejne warstwy
hurtownia centralna, kolejne warstwy
fizycznych hurtowni tematycznych.
http://www.jakubw.pl/zajecia/hur/HUR2006_01.pdf
I
MPLEMENTACJA
http://www.jakubw.pl/zajecia/hur/HUR2006_01.pdf
http://www.jakubw.pl/zajecia/hur/HUR2006_01.pdf
http://www.jakubw.pl/zajecia/hur/HUR2006_01.pdf
ARCHITEKTURA
Hurtowni danych
1/2
1 Warstwa zasilania
Zajmuje się przetwarzaniem danych, ich
czyszczeniem i standaryzacją, łączeniem.
1 Warstwa danych właściwych
(hurtownia danych)
Dalsza obróbka, generowane agregaty
danych, wykonywane raporty oraz
ostateczna obróbka danych przed ich
udostępnieniem.
1 Składnica danych (Data Mart)
Jej celem jest przyspieszenie dostępu do
najczęściej wykorzystywanych danych.
1 Zaprojektowana pod kątem szybkości a nie
elastyczności
1 Obsługuje standardowe zapytania
1 Niewielka liczba danych najczęściej
agregaty.
Przechwytuje najczęściej zadawane
kwerendy.
A
RCHITEKTURA
2/2
1 Operacyjny magazyn danych (ODS
operation Data Store)
Jego celem jest udostępnienie
zebranych i zintegrowanych danych
1 Jest zródłem informacji operacyjnych, dane
pochodzą z różnych aplikacji
1 Mała liczba danych, ma odpowiadać na
pytania dotyczące aktualnych danych
1 Może być zastąpiony przez zmodyfikowany
TSA
1 Ostania warstwa - warstwa
1 Ostania warstwa - warstwa
udostępniania danych (front-end)
Narzędzia analityczne
Generatory zapytań
Specjalizowane aplikacje
Serwery www umożliwiające dostęp do
danych poprzez przeglądarkę www
Czyli wszystko to do czego ma dostęp
użytkownik hurtowni
ARCHITEKTURA
Architektura
1 Centralna tabela faktów
hurtowni danych
1 Wymiary zdenormalizowane
1 Tabela faktów połaczona z tabelami
wymiarów poprzez klucze główne i
1 klucze obce
http://icis.pcz.pl/~olga/projekty/hurt.pdf
S
CHEMAT GWIAZDY
Architektura
1 Centralna tabela faktów
1 Wymiary znormalizowane
http://icis.pcz.pl/~olga/projekty/hurt.pdf
S
CHEMAT PAATKA
Ś
NIEGU
Architektura
1 Schemat stanowiący kombinację
schematów gwiazd współdzielących
niektóre wymiary
1 Różne tabele faktów mogę
odwoływac się do różnych poziomów
danego wymiaru
http://icis.pcz.pl/~olga/projekty/hurt.pdf
FAKTÓW
S
CHEMAT KONSTELACJI
PROJEKTOWANIE
Hurtowni danych
1/2
1 Wielki wybuch
budowa korporacyjnej hurtowni danych
w ramach jednego projektu
globalna analiza wymaga n,
implementacja całosciowej hurtowni
danych,
implementacja aplikacji analitycznych
długi czas realizacji, poczatkowo
wybrane technologie przestaja by
wybrane technologie przestaja by
wspierane przez dostawców
http://icis.pcz.pl/~olga/projekty/hurt.pdf
DANYCH
M
ETODY PROJEKTOWANIA I WDRA
Ż
ANIA HURTOWNI
WDRA
Ż
2/2
1 Od ogółu do szczegółu
iteracyjna realizacja hurtowni danych, po
kolei dla kaŁzdego obszaru
tematycznego, konstrukcja zaleŁznych
składnic danych
1 Od szczegółu do ogółu
realizacja niezalezŁnych składnic
danych, z wizja ich przyszłej integracji
w jedna hurtownie danych
w jedna hurtownie danych
DANYCH
M
ETODY PROJEKTOWANIA I WDRA
Ż
ANIA HURTOWNI
WDRA
Ż
" Ekstrakcja
1 Ekstrakcja: odczyt zródłowych
" Transformacja
danych z operacyjnych baz danych,
" Wczytywanie
systemów starej generacji, plików
zewnętrznych
1 Transformacja: łączenie danych, ich
weryfikacja, walidacja, czyszczenie i
znakowanie czasowe
1 Wczytywanie: wprowadzanie danych
do docelowej hurtowni danych
do docelowej hurtowni danych
ETL
Rodzaje zródeł
1 Produkcyjne - systemy operacyjne,
danych
operacyjne bazy danych (IMS, DB2,
Oracle, Sybase, Informix), systemy
plików, dedykowane aplikacje (SAP,
PeopleSoft, Oracle Financials)
1 Zarchiwizowane - dane historyczne,
potrzebne do inicjalizacji hurtowni,
mogą wymagac unikalnej
transformacji
transformacji
1 Zewnętrzne - komercyjne bazy
danych, Internet, problemy związane
z formatem, częstotliwością
odświeżania, przewidywalnością
1 Wewnętrzne - wewnętrzne bazy
danych, dokumenty, arkusze
kalkulacyjne
y
RÓDAA DANYCH
PRZEGLD ROZWIZAC ORACLE WAREHOUSE
BUILDER
1 jako system bazy danych Oracle 8i;
1 aplikacje analityczne;
1 kreatorzy wspomagający działania projektowe;
1 kod generowany jest automatycznie;
1 do tworzenia składnic danych Oracle Data Mart
Suite;
1 programy analityczne: OLAP (Oracle Express) i
data mining (Oracle Darwin).
PRZEGLD ROZWIZAC IBM VISUAL
WAREHOUSE
1 Zawiera szereg narzędzi przeznaczonych do
realizacji poszczególnych kroków projektu hurtowni
danych. W pakiecie zawarty jest również serwer
bazy danych DB2 - platforma, na której może
działać hurtownia korporacyjna.
działać hurtownia korporacyjna.
1 IBM oferuje również aplikacje analityczne w
technologii OLAP (DB2 OLAP Server) i data mining
IntelligentMiner.
PRZEGLD ROZWIZAC SYBASE WAREHOUSE
STUDIO
1 W jego skład wchodzi ponad dziesięć narzędzi i
aplikacji przeznaczonych do obsługi projektu
(modelowania, oczyszczania i przenoszenia
danych), składowania i zarządzania danymi,
tworzenia zapytań i raportów.
tworzenia zapytań i raportów.
1 Jako platformę do działania hurtowni danych
Sybase oferuje własny serwer bazy danych -
Adaptive Enterprise Server.
PRZEGLD ROZWIZAC COMPUTER
ASSOCIATES
1 pakiet DECISIONBASE:
1 projektowanie modelu danych - ErWin;
1 zasilanie danymi z różnych zródeł - Transformer;
1 metadane PLANTIUM Repository;
1 narzędzia analityczne, OLAPServer i rozwiązanie
1 narzędzia analityczne, OLAPServer i rozwiązanie
bazujące na sieciach neuronowych Neugents;
1 wiele innych.
EKSPLOATACJA
Hurtowni danych
definicja
1 Jeden z etapów procesu odkrywania
wiedzy z baz danych (ang.
Knowledge Discovery in Databases,
KDD). Idea eksploracji danych polega
na wykorzystaniu szybkości
komputera do znajdowania ukrytych
dla człowieka prawidłowości w danych
zgromadzonych w hurtowniach
danych.
danych.
http://pl.wikipedia.org/wiki/Eksploracja_danych
E
KSPLORACJA DANYCH
Dwa sposoby
1 Techniki predykcyjne uogólnienie i
podziału
przewidywanie
1 Techniki deskrypcyjne opis
danych i uchwycenie ogólnych cech
opisywanych obiektów
1 Techniki uczenia nadzorowanego
uczy się rozróżniac przykłady
uczy się rozróżniac przykłady
należące do różnych klas
1 Techniki uczenia bez nadzoru
formułuje model najbardziej pasujący
do obserwowanych danych
Hurtownie danych metody eksploracji
M
ETODY
E
KSPLORACJI DANYCH
DANYCH
Zakresy
Techniki i metody służące eksploracji
Przykładowych
stosowanych
danych wywodzą się głównie z obszaru
rozwiązań
badań nad sztuczną inteligencją.
Główne przykłady stosowanych
rozwiązań należą do następujących
zakresów:
1 wizualizacje na wykresach
1 metody statystyczne
1 sieci neuronowe
1 metody uczenia maszynowego
1 metody ewolucyjne
1 logika rozmyta
1 zbiory przybliżone
http://pl.wikipedia.org/wiki/Eksploracja_danych
P
RZYKAADY STOSOWANYCH ROZWI
ZA
C
ROZWI
C
Jakie są metody
W eksploracji danych rozwijane są
przetwarzania
danych
różne metody przetwarzania, różniące
się zakresem zastosowań, stosowanymi
algorytmami rozwiązań, sposobem
prezentacji wyników. Wśród nich
wyróżnia się:
1 streszczanie
1 poszukiwanie asocjacji
1 analiza funkcjonalna
1 klasyfikacja
1 grupowanie
http://pl.wikipedia.org/wiki/Eksploracja_danych
M
ETODY PRZETWARZANIA
Gdzie znajduje
1 Zastosowania KDD znajdują
zastosowanie
KDD?
zastosowania przy:
eksploracji danych o ruchu internetowym,
rozpoznawaniu sygnałów obrazu, mowy,
pisma,
wspomaganiu diagnostyki medycznej,
badaniach genetycznych,
analizie operacji bankowych,
projektowaniu hurtowni danych,
tworzeniu reklam skierowanych(ang.
Targeted ads),
prognozowaniu sprzedaży(ang. Sales
forecast),
wdrażaniu strategii Cross-selling'owej,
wykrywaniu nadużyć(ang. Fraud detection),
ocenie ryzyka kredytowego,
segmentacji klientów.
http://pl.wikipedia.org/wiki/Eksploracja_danych
Z
ASTOSOWANIE
KDD
PODSUMOWANIE
PODSUMOWANIE
1 budowa hurtowni to wielkie wyzwanie z uwagi na
złożoność technologiczną i organizacyjną;
1 najczęściej trwa dwa, trzy lata, pierwsze wyniki
najczęściej po roku;
1 koszty sprzętu i oprogramowania rzędu milionów
1 koszty sprzętu i oprogramowania rzędu milionów
dolarów;
1 korzyści biznesowe mogą być zerowe lub
stuprocentowe.
1 coraz więcej firm decyduje się na taki krok;
1 w USA rynek hurtowni to ponad 40 mld dolarów i
szybko rośnie.
Ostatnie wejście na
1 http://www.google.pl/url?sa=t&source=web&cd=6&ve
strony w bibliografii:
d=0CFYQFjAF&url=http%3A%2F%2Fwww.ipipan.wa
19/05/2011
w.pl%2F%257Esubieta%2Fprezentacje%2520studen
ckie%2FHurtownie%2520Danych%2520-
%2520Starczewski%26Zreda.ppt&rct=j&q=Hurtownie
%20danych&ei=A1XVTa_vBc6OswaEgKWUDA&usg
=AFQjCNEfIKFGv39wAqBuyc5Yf4V8EeL9QQ&sig2=
o4Et8NChxs7d_vVw9HYYWA&cad=rja
1 http://pl.wikipedia.org/wiki/Hurtownia_danych#Archite
ktura
1 http://icis.pcz.pl/~olga/projekty/hurt.pdf
1 http://www.jakubw.pl/zajecia/hur/HUR2006_01.pdf
1 http://icis.pcz.pl/~olga/projekty/hurt.pdf
1 http://www.google.pl/url?sa=t&source=web&cd=10&v
1 http://www.google.pl/url?sa=t&source=web&cd=10&v
ed=0CFgQFjAJ&url=http%3A%2F%2Fwww.e-
sgh.pl%2Fniezbednik%2Fplik.php%3Fid%3D2724344
0%26pid%3D460&rct=j&q=Hurtownie%20danych%20
Eksploatacja%20&ei=am7VTe7wFY_AswbZ7tiEDA&u
sg=AFQjCNFO7HZUi5iqGi68iqXsQ_N2wNBwJQ&sig
2=zyWFHiXcnl-Ivnual6om8w&cad=rja
1 http://pl.wikipedia.org/wiki/Eksploracja_danych
B
IBLIOGRAFIA
Wyszukiwarka
Podobne podstrony:
[Volmarg ] Hurtownie danych 1 CzęścioweHurtownie danych 2 odp na ćwiczenia03 Projekt fizyczny hurtowni danychHurtownie danych czyli jak zapewnic dostep do wiedzy tkwiacej w danychHurtownie Danych 1 Ćwiczenia całe05 Normalizacja struktury bazy danych (AC)Hurtownia danych serwis samochodowy01 Hurtownie danych4 TurboPascal Struktury i typy danych07 Metodyka wdrożenia systemu hurtowni danychOĹ›wietlenie awaryjne zasady eksploatacji03 strategie i zasady eksploatacji statkow powietrznychidD98więcej podobnych podstron