Bazy danych w12 07 id 81706 Nieznany (2)

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Hurtownie danych

Hurtownie danych

Wykład 12

8.01.2008

Antoni Dydejczyk

http://www.ftj.agh.edu.pl/~antek

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

OLTP ( Online Transaction Processing ) - natychmiastowe przetwarzanie transakcji (w

odróżnieniu od systemów wsadowego przetwarzania transakcji). Często
terminem tym okre
śla się także relacyjne bazy danych.

OLAP (Online Analytical Processing) - termin stosowany (w odróżnieniu od OLTP) na

określenie systemów umożliwiających wielowymiarową analizę danych
wspomagaj
ącą podejmowanie decyzji biznesowych.

SELECT * FROM Locations, States, Countries WHERE

Locations.State_Id = States.State_Id AND

Locations.Country_id=Countries.Country_Id AND

Country_Name='USA'

Przykładowa baza danych

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Mexico

Distrito Federal

Mexico City

MX01

1005

Canada

Ontario

Toronto

TO01

1004

USA

New York

Brooklyn

NY01

1003

USA

Illinois

Arlington Hts

IL02

1002

USA

Illinois

Chicago Loop

IL01

1001

Country_Name

State_Name

Loc_Name

Loc_Code

Dim_Id

Field Name

Type

Dim_Id

INTEGER (4)

Loc_Code

VARCHAR (4)

Name

VARCHAR (50)

State_Name

VARCHAR (20)

Country_Name

VARCHAR (20)

W tabeli "WH_Locations" umieszczamy dane dotyczące interesujących nas

miejsc. W czasie pracy RDBMS (OLTP) tworzona jest tabela będąca
połączeniem trzech tabel - Locations, State i Countries.

W celu przetwarzania danych dotyczących lokalizacji tworzona jest tabela

WH_Locations. Tabela zawiera dane nadmiarowe. Klucz główny Dim_Id.

WYMIAR LOKALIZACJI

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Field Name

Type

Dim_Id

INTEGER (4)

Month

SMALL INTEGER (2)

Month_Name

VARCHAR (3)

Quarter

SMALL INTEGER (4)

Quarter_Name

VARCHAR (2)

Year

SMALL INTEGER (2)

Q2

Q2

Q1

Q1

Q1

TM

_Quarter_Name

2003

2

May

5

1005

2003

2

Apr

4

1004

2003

1

Mar

3

1003

2003

1

Feb

2

1002

2003

1

Jan

1

1001

TM

_Year

TM

_Quarter

TM

_Month_Name

TM

_Month

TM

_Dim_Id

WYMIAR CZASOWY

W celu analizy czasowej tworzymy tabelę WH_Time zawierającą informacje o

interesujących nas okresach czasowych. Klucz główny to TM_Dim_Id.

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Meat

Smoked Salmon 6oz

SMKSAL55

1003

Dairy

Skim Milk 1 Gal

MLK66F

1002

Sanitary

Dove Soap 6PK

DOVE6K

1001

Category

Name

SKU

PR_Dim_Id

Field Name

Type

PR_Dim_Id

INTEGER (4)

SKU

VARCHAR (10)

Name

VARCHAR (30)

Category

VARCHAR (30)

WYMIAR PRODUKTU

W celu analizy produktów tworzona jest tabela WH_Product zawierającą

informacje o interesującym nas asortymencie produktów. Klucz główny
tabeli to PR_Dim_Id.

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

65432

1001

1004

1001

98765

1003

1001

1003

451121

1001

1002

1002

435677

1003

1001

1001

Sales

LOC_Dim_Id

PR_Dim_Id

TM_Dim_Id

Field Name

Type

TM_Dim_Id

INTEGER (4)

PR_ Dim_Id

INTEGER (4)

LOC_ Dim_Id

INTEGER (4)

Sales

INTEGER (4)

Zestawienie miesięcznej sprzedaży zależne od wymiaru czasowego, wymiaru

produktu i wymiaru lokalizacji dla poszczególnych produktów zbieramy w
tabeli MonthlySales. Klucz główny tak utworzonej tabeli składa się z
następujących atrybutów (TM_Dim_Id, PR_Dim_Id, LOC_Dim_Id).

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

--- Selekcja produktu z wykorzystaniem funkcji agregującej SUM

SELECT P.Name, SUM(F.Sales)

--- Łączenie tabel poszczególnych wymiarów w tabeli FACT

FROM Sales F, Time T, Product P, Location L

WHERE

F.TM_Dim_Id = T.Dim_Id

AND F.PR_Dim_Id = P.Dim_Id

AND F.LOC_Dim_Id = L.Dim_Id

--- Budowanie poszczególnych atrybutów

AND

T.Month='Jan' AND T.Year='2003' AND L.Country_Name='USA'

--- Na koniec agregowanie przy pomocy funkcji
--- agregującej w celu zebrania danych dla danej
--- kategorii.

GROUP BY P.Category

Schemat gwiazdy

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Przykładowy raport dla zebranych danych.

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Schemat płatka śniegu

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Hierarchia systemów komputerowych w przedsiębiorstwie

DSS
EIS

Data Warehouse

Systemy informacyjne (MIS)

Systemy transakcyjne

Operacyjne bazy danych

Wykonawcy

Analitycy i specjaliści

Kierownicy średniego

szczebla

Kierownicy wyższego

szczebla

Systemy transakcyjne wspierają bieżącą aktywność przedsiębiorstwa - raporty i
zestawienia wykorzystywane przez bezpośrednich wykonawców operacji.

Systemy informacyjne (Management Information Systems) - aplikacje wspierające
zarządzanie - wykorzystywane przez analityków i kierowników średnich szczebli.

Systemy Wspomagające Podejmowanie Decyzji (Decision Support Systems) - aplikacje
dostarczające wiedzy, wykorzystywane przez kierownictwo.

Systemy Informowania Kierownictwa (Executive Information Systems) - aplikacje
dostarczające kierownictwu wybrane zestawienia i raporty z systemu DSS.

Hurtownie danych

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Modele przetwarzania danych :

przetwarzanie operacyjne OLTP (On Line Transaction Processing)

przetwarzanie analityczne OLAP (On Line Analytical Processing)

OLTP (On Line Transaction Processing) - każdy biznesowy system

informatyczny pracujący w sposób transakcyjny, z natychmiastowym
przetwarzaniem transakcji (w odró
żnieniu od systemów wsadowego
przetwarzania transakcji). Cz
ęsto terminem tym określa się także relacyjne
bazy danych.

OLAP (On Line Analytical Processing) - termin stosowany (w odróżnieniu od

OLTP) na określenie systemów umożliwiających wielowymiarową analizę
danych wspomagającą podejmowanie decyzji biznesowych.

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Przetwarzanie operacyjne OLTP



przetwarzanie transakcji w trybie on-line;



wspomaganie bieżącej obsługi działalności firmy, dla dobrze
zdefiniowanych procesów;



oparty na transakcjach, które operują na niewielkiej części danych;



dostarcza rozwiązań dla problemów: efektywne i bezpieczne
przechowywanie danych, optymalizacja dostępu do danych,
zarządzanie współbieżnością;



podstawowym kryterium oceny efektywności systemu OLTP jest ilość
transakcji na sekundę.

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Przetwarzanie analityczne OLAP



przetwarzanie analityczne w trybie on-line,



celem jest przeprowadzenie analizy danych i wspomaganie decyzji.

Posiadanie danych opisujących działanie przedsiębiorstwa w dłuższym
okresie czasu pozwala na analizę trendów, anomalii, poszukiwanie
wzorców zachowań klientów.

Zalety przeprowadzania analizy danych



właściwe zarządzanie zapasami, produkcją;



zrozumienie zachowań klientów, efektywne kierowanie kampaniami
reklamowymi;



analiza rentowności firmy.

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Klasyczna definicja hurtowni danych autorstwa W. H. Inmona
mówi, że jest to:



uporządkowany tematycznie,



zintegrowany,



zawierający wymiar czasowy,



nieulotny,

zbiór danych wspomagających podejmowanie decyzji.

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

"Uporządkowanie tematyczne"

Oznacza, że dane w hurtowni przechowywane są w oderwaniu od aplikacji,
która je wygenerowała.

"Hurtownia ma być zintegrowana"

Wymaganie pozostaje w związku z poprzednim. Dane w hurtowni muszą mieć
ujednolicone sposoby pomiaru wartości, ujednolicone sposoby kodowania.

"Dane mają zawierać wymiar czasowy"

W systemach operacyjnych dane są aktualne w momencie dostępu. Od
hurtowni natomiast oczekujemy, iż dane będą dokładne w dowolnie wybranym
momencie, to znaczy, że sprzedaż za styczeń będzie taka sama niezależnie od
tego czy zażądamy danych w lutym czy w czerwcu. Kolejnym aspektem
wymiaru czasowego jest fakt, że dane w hurtowni po poprawnym pobraniu z
systemu produkcyjnego nie są aktualizowane. Są więc ogromną liczbą
migawkowych zapisów.

"Nieulotność danych"

Tym pojęciem określa się różnicę między przetwarzaniem danych w
ś

rodowisku operacyjnym i w hurtowni. W pierwszym przypadku dane są

usuwane, aktualizowane i wprowadzane przez cały czas, w hurtowni natomiast
mamy dwie podstawowe operacje: ładowanie danych i dostęp do nich.

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Hurtownia danych ma wspomagać przetwarzanie informacji

dla celów strategicznych i analitycznych

(w odróżnieniu od systemów transakcyjnych

– realizujących przetwarzanie dla celów operacyjnych)

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Czym powinna być hurtownia danych?

Hurtownia danych jest całkowicie odrębną (ale działającą w ramach
istniejącego systemu) zorientowaną tematycznie bazą danych wraz z
towarzyszącymi jej aplikacjami. Powinna być regularnie zasilana
danymi pochodzącymi z przeróżnych źródeł (baz transakcyjnych,
systemów billingowych, zbiorów tekstowych i binarnych).

Każdą porcję danych, którą zasilamy hurtownię można porównać do
fotografii wybranych informacji będących podstawą do wyciągania
istotnych informacji dotyczących działalności firmy w określonym
przedziale czasu. Tak też hurtownia danych powinna być przede
wszystkim systemem służącym do dostarczania informacji zarządczej.

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Narzędzia do budowy hurtowni danych.

Narzędzia wykorzystane do budowy hurtowni danych powinny
zapewnić:



szybkie i sprawne ładowanie danych,



czyszczenie i agregowanie danych,



administrowanie hurtownią,



bezpieczeństwo danych.

Powinny również sprostać wymaganiom związanym z szybką i
efektywną budową aplikacji analitycznych. Narzędzie musi
współpracować z różnymi systemami, mieć możliwość pracy w trybie
klient-serwer oraz technologii intranetowej.

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Systemy transakcyjne

Systemy Informacji Zarządczej

Wprowadzanie, modyfikowanie,
raportowanie bieżących
informacji

Dostarczanie informacji
przekrojowych

Duża ilość prostych operacji

Mała ilość skomplikowanych
zapytań

Aplikacje statyczne

Aplikacje dynamiczne

Automatyzacja czynności
rutynowych

Wspomaganie kreatywności
analityków

Porównanie systemów transakcyjnych z systemami typu SIZ

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Charakterystyka hurtowni danych

Charakterystyka

Opis

Orientacja tematyczna

Dane są zorganizowane w taki sposób w jaki użytkownik się do
nich odwołuje.

Integralność

System dba o spójność i zgodność danych z przyjętymi
standardami (nazywamy to "czyszczeniem danych", czyli
poddawaniem ich odpowiedniej konwersji, ujednolicaniu
formatów, jednostek miar itp.).

Trwałość (nie ulotność)

Dane są tylko do odczytu. Dane pozostają niezmienione.

Szeregi czasowe

Danymi są szeregi czasowe, a nie bieżące stany.

Agregacja danych

Operacyjne dane są przedstawione w postaci użytecznej dla
podejmowania decyzji.

Rozległość

Utrzymywanie szeregów czasowych powoduje, że dużo więcej
danych jest zachowywanych.

Brak normalizacji

Dane dla systemów SIZ mogą być redundantne (występować
wiele razy).

Metadane

Metadanymi nazywamy opisy konkretnych danych
przechowywanych w hurtowni (np. w bazie przechowujemy
opisy "PF", które wg słownika klientów identyfikujemy jako
podmioty finansowe).


background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Hurtownia

danych

Składnica

danych

ODS

Metadane

Zasilanie
hurtowni

Warstwa danych
wła
ściwych

Dystrybucja
danych

Dane operacyjne
Dane zewnętrzne

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Składnica danych (DM) ma za zadanie przyspieszyć dostęp do najczęściej
wykorzystywanych informacji. Składnica danych następujące cechy:



w odróżnieniu od hurtowni zaprojektowana jest pod kątem szybkości a nie
elastyczności,



jest oddzielona od systemów operacyjnych przedsiębiorstwa,



obsługuje standardowe zapytania,



gromadzi informacje strategiczne lub taktyczne, których struktura jest
wysoce wyspecjalizowana,



zawiera niewielka liczbę danych, często są to agregaty.

Operacyjny magazyn danych (ODS):



jest źródłem informacji operacyjnych, integrującym dane pochodzące z
różnych aplikacji;



zawiera małą liczbę danych, głównie bieżących; jego zadaniem jest
odpowiadać na palące pytania dotyczące aktualnych danych;



może być obszarem czyszczenia, integrowania i przygotowywania danych
dla hurtowni (tzn. funkcję ODS pełnić może nieco przystosowany TSA).

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Metadane, czyli dane o danych. Metadane umożliwiają użytkownikom
poruszanie się po hurtowni, tłumacząc nieprzyjazne dla nich pojęcia
informatyczne na słownik biznesu oraz informując ich, jakie dane są aktualnie
dostępne. Metadane są katalogiem dostępnych informacji. Metadane powinny
zawierać przede wszystkim następujące informacje:



opis danych zawartych w hurtowni;



opis dostępności danych, np. "dane o fakturach aktualnie dostępne są za
okres 98-01-01 do 98-07-30";



nazwę systemu źródłowego, z którego pochodzą dane,



opis operacji poczynionych na danych podczas zasilania hurtowni, np. czy
kwoty zostały zsumowane i w jaki sposób, czy odfiltrowano wszystkie
anulowane faktury itd.



wersję metadanych, np.: kiedy zmieniło się źródło danych o klientach; dane
za pewien okres mogą różnić się od późniejszych danych, aby więc
właściwie je odczytać, niezbędna jest możliwość określenia, jakie
metadane obowiązywały w danym momencie;



metryki dotyczące danych (np. liczby wierszy w tablicach), pozwalające
użytkownikowi ocenić, czy odpowiedź na jego pytanie pojawi się szybko
czy po dłuższym czasie.

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Na modelowe środowisko Wspomagania Decyzji składają się następujące warstwy:

1. Warstwa danych źródłowych - dane przetwarzania transakcyjnego (OLTP), dane

historyczne i archiwalne. Dane ze źródeł zewnętrznych. Odpowiedzialna za działanie
operacyjne i administracyjne systemu. Współczesne systemy OLTP przechowują
bieżące dane operacyjne w znormalizowanej relacyjnej bazie danych.

2. Warstwa hurtowni danych (Data Warehouse Layer) - dane przechowywane są często

w postaci nie znormalizowanej, co powoduje nadmiarowość danych, jednak ułatwia
operacje analityczne i tworzenie raportów. Przenoszenie danych z warstwy OLTP do
warstwy DW (ekstrakcja danych) jest najtrudniejszym i najbardziej czasochłonnym
zadaniem.

3. Warstwa hurtowni tematycznych (Data Mart Layer) - w tej warstwie przechowywane

są dane sumaryczne utworzone w oparciu o dane warstwy DW. Dane przechowywane
są w formacie, który umożliwia szybki, intuicyjny i efektywny dostęp do danych.
Zwykle każda baza DM jest bazą tematyczną i dotyczy wybranego zagadnienia.

4. Warstwa aplikacji analitycznych - należą do niej narzędzia modelowania

matematycznego, narzędzia analitycznego przetwarzania i „data mining tools”.

5. Warstwa prezentacji - warstwa środowiska graficznego adresowana do końcowych

użytkowników Data Mart lub Data Warehouse. Wyróżniamy tutaj:

- OLAP GUI - dla końcowych użytkowników data Mart
- Managed Query Environment (MQE) - dla końcowych użytkowników DW
- Geographic Information Systems (GIS) - dla wizualizacji danych topograficznych

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Dane

archiwalne

Dane

transakcyjne

(z baz OLTP)

Dane

zewnętrzne

Dane

ź

ródłowe

DW

(OLAP)

DW

Klient

Klient

Klient

DM

DM

Data
Warehouse

Data Mart

Prezentacja
danych

Zapytania,
analizy,
raporty

Ekstrakcja
i konwersja
danych

DM(OLAP)

Przetwarzanie analityczne

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Dane

archiwalne

Dane

transakcyjne

(z baz OLTP)

Dane

zewnętrzne

Dane

ź

ródłowe

DW

Klient

Klient

Klient

DM

Data
Warehouse

Data Mart

Prezentacja
danych

Zapytania,
analizy,
raporty

Ekstrakcja
i konwersja
danych

Przetwarzanie analityczne

DM

DM

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Dane

archiwalne

Dane

transakcyjne

(z baz OLTP)

Dane

zewnętrzne

Dane

ź

ródłowe

Klient

Klient

Klient

DM

DM

Data
Warehouse

Prezentacja
danych

Zapytania,
analizy, raporty

Konwersja
danych

Przetwarzanie analityczne

Zbiory
danych:
RDBMS,
pliki tekstowe,
itp.

Aplikacje:
Ekstrakcja,
Konwersja,
Czyszczenie,
Standaryzacja,
Eksport do DM

DM

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Mechanizm ETL (Extraction, Transformation and Load)

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Ekstrakcja danych



odbywa się poprzez bramki (gateways),
standardowe interfejsy (ODBC, JDBC, Oracle Open
Connect, Informix Enterprise Gateway), własne
procedury



identyfikacja pól w tabelach źródłowych, z których
czerpane będą dane

Mechanizmy ETL (Extraction, Transformation and Load)

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Czyszczenie danych



zapewnienie jakości i poprawności danych



detekcja i korekcja błędów: niekompletne dane,
błędne dane, informacje niezrozumiałe,
niekonsekwencje w danych, konflikty strukturalne



czyszczenie specjalne



czyszczenie oparte na regułach

Mechanizmy ETL (Extraction, Transformation and Load)

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Transformacja danych



analiza tematyczna danych



ustalenie wspólnego formatu danych



rozdzielenie i łączenie kolumn, konwersja typów, agregaty



określenie zbioru reguł sterujących tą transformacją

Mechanizmy ETL (Extraction, Transformation and Load)

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Ładowanie danych



integracja i umieszczenie nowych danych w hurtowni



sprawdzanie ograniczeń integralnościowych,
sortowanie, podsumowanie, budowanie indeksów



ładowanie wsadowe, sekwencyjne, równoległe

Mechanizmy ETL (Extraction, Transformation and Load)

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Monitorowanie zmian



mechanizmy wyzwalaczy



analiza pliku logu



procedury własne



zapytania do źródeł

Mechanizmy ETL (Extraction, Transformation and Load)

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Cechy charakterystyczne przepływu i zarządzania danymi:



Heterogeniczne dane źródłowe,

 Ekstrakcja i konwersja danych,

 Przetwarzanie analityczne danych zgromadzonych w środowisku DW,

 Prezentacja danych na stacjach klientów.

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Obszary zastosowań przetwarzania analitycznego:

1.

Raportowanie - nie wymaga przetwarzania analitycznego, a jedynie dostęp
do danych. Może być realizowane wsadowo i prezentowane w postaci
wydruku.

2.

Interaktywne przetwarzanie analityczne (On-Line Analitycal Procesing -
OLAP), które dostarcza pogłębionych analiz finansowych i
marketingowych.

3.

Przetwarzanie predykcyjne - ma umożliwić przewidywanie zachowań
naszego przedsiębiorstwa, rynku, biznesu w oparciu o posiadane dane i
założone wskaźniki - do tego celu stosuje się technologię drążenia danych
(Data Mining)

4.

Możliwość modelowania biznesu, przewidywania przyszłości, kreowania
planów.

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Bazy danych wspierające technologię hurtowni danych - OLAP można podzielić
na dwa rodzaje, ze względu na wykorzystywane przez nie modele danych:



bazy relacyjne, nazywane również ROLAP (Relational OLAP),



bazy wielowymiarowe (multidimensional), nazywane również MD-OLAP
(MultiDimensional OLAP).

ROLAP

Hurtownia danych tego typu jest zbudowana na podstawie systemu
zarządzania relacyjną bazą danych posiadającego mechanizmy efektywnego
przetwarzania zapytań typu OLAP. Zwykle schemat takiej hurtowni posiada
strukturę gwiazdy (star schema) lub strukturę bardziej złożoną,
przypominającą płatek śniegu (snowflake schema). W celu skrócenia czasu
potrzebnego na wyznaczenie wyników zapytania relacje bazy danych są
często denormalizowane, na przykład zawierają wartości zagregowane, są
wynikiem połączenia wielu innych relacji.

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Technologia ROLAP

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Technologia ROLAP

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Bazy danych wspierające technologię hurtowni danych - OLAP można podzielić
na dwa rodzaje, ze względu na wykorzystywane przez nie modele danych:



bazy relacyjne, nazywane również ROLAP (Relational OLAP),



bazy wielowymiarowe (multidimensional), nazywane również MD-
OLAP (MultiDimensional OLAP).

MD-OLAP

Hurtownia danych zaprojektowana w technologii MD-OLAP do
przechowywania danych wykorzystuje wielowymiarowe tablice
(multidimensional arrays, datacubes). Tablice te zawierają wstępnie
przetworzone (np. zagregowane) dane pochodzące z wielu źródeł.

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Technologia MOLAP

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Technologia MOLAP

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Budowa hurtowni danych

Analiza



grupa analityków przychodzi do firmy;



przeprowadzają rozmowy, najlepiej z każdym przyszłym
u
żytkownikiem hurtowni;



sporządzają wymagania techniczne i biznesowe.

Wymagania obecnie najczęściej opisuje się w narzędziu CASE, co ułatwia
analiz
ę zależności.

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007



wykonanie inwentaryzacji dostępnych źródeł danych;



dla każdego ze źródeł należy określić formaty przechowywania
danych, ich jako
ść, potrzeby aktualizacji;



konstrukcja wstępnego modelu danych;



wybór narzędzi;



określenie wymagań sprzętowych;



oszacowanie objętości danych.

Budowa hurtowni danych

Projektowanie

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007



najczęściej realizuje się najpierw projekt pilotowy, obejmujący
wszystkie warstwy lecz jego zakres tematyczne jest niewielki;



stworzenie modelu danych dla użytkownika końcowego;



pisanie aplikacji i tworzenie dokumentacji;



przeszkolenie użytkowników i administratorów;



rozszerzenie frontu robót.

Budowa hurtowni danych

Budowa i wdrożenie

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007



często trwa przez cały czas życia systemu i pochłania wielkie
koszty;



trzeba dostosowywać hurtownię do nowych potrzeb
u
żytkowników.

Często budowa hurtowni ma charakter przyrostowy

.

Budowa hurtowni danych

Konserwacja

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Wirtualna Hurtownia Danych

Rozwiązanie to polega na udostępnianiu użytkownikom danych z wielu,
różnorodnych systemów źródłowych poprzez warstwę pośredniczącą. Dostęp
ten umożliwia oprogramowanie warstwy średniej (middleware). Użytkownicy
końcowi uzyskują dostęp do danych przykładowo poprzez zainstalowanie
fragmentu programowania middleware na swoich stacjach roboczych.

Architektury

Architektury

hurtowni

hurtowni

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Wirtualna Hurtownia Danych

Wirtualna Hurtownia Danych

Zalety rozwiązania:

• Niski koszt rozwiązania związany z brakiem infrastruktury Hurtowni

Danych, a w szczególności z brakiem sprzętu, oprogramowania
bazadanowego, narzędzi transformacji;

• Dostęp do wielu, różnych systemów transakcyjnych.

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Wirtualna Hurtownia Danych

Wirtualna Hurtownia Danych

Wady rozwiązania:

• Rozwiązanie to nie odciąża systemów źródłowych od przeprowadzanych

analiz;

• Rozwiązanie powoduje dodatkowe obciążenie systemów produkcyjnych

związane z dynamiczną realizacją zapytań użytkowników do systemów
ź

ródłowych;

• Rozwiązanie to stanowi jedynie interfejs do różnych systemów

informatycznych i nie dostarcza żadnej dodatkowej funkcjonalności;

• Brak warstwy ETL powoduje:

• brak możliwości przeprowadzenia procesu czyszczenia danych (istotne

przy niskiej jakości danych źródłowych);

• brak możliwości integracji danych z różnych źródeł, np. danych o

kliencie z systemu transakcyjnego i systemu CRM w postaci stworzenia
jednej bazy danych zawierającej spójne dane o kliencie;

• Możliwość analizy danych historycznych tylko pod warunkiem

przechowywania niezbędnych danych w systemach produkcyjnych, co wiąże
się z ich dodatkowym obciążeniem;

• Brak możliwości przeprowadzania analiz wielowymiarowych.

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Wiele Składnic Danych

Rozwiązanie to polega na pobraniu niezbędnych danych z systemów
ź

ródłowych, umieszczeniu ich w jednej lub wielu Składnicach Danych i

udostępnianiu danych ze Składnic Danych użytkownikom końcowym. Każda
Składnica Danych może być zasilana z jednego lub wielu źródeł danych za

pośrednictwem warstwy ETL.

Architektury

Architektury

hurtowni

hurtowni

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Wiele sk

Wiele sk

ł

ł

adnic danych

adnic danych

Zalety rozwiązania:

• Niski koszt architektury w porównaniu z kolejnymi wariantami,

wynikający z mniejszych wymagań związanych ze sprzętem (pamięć
dyskowa, jednostki obliczeniowe); Koszt projektowania i implementacji
procesu transformacji pomniejszony o etap zasilania repozytorium danych
Hurtowni Danych;

• Stosunkowo krótki czas wdrożenia względem kolejnych wariantów, w

których musi powstać dodatkowo repozytorium Hurtowni Danych;

• Możliwości równoległego wdrażania wielu Składnic Danych przez

niezależne zespoły, które mogą wykonywać pracę w tym samym czasie;

• Odciążenie systemów transakcyjnych od funkcji analitycznych;
• Krótszy czas odpowiedzi na zapytania skierowane do bazy danych, dzięki

przechowywaniu danych zagregowanych;

• Możliwość przeprowadzania analiz wielowymiarowych, np. po

zastosowaniu serwera do analiz wielowymiarowych zasilanego danymi z
jednej lub wielu Składnic Danych.

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Wiele sk

Wiele sk

ł

ł

adnic danych

adnic danych

Wady rozwiązania:

• Problemy z zarządzaniem projektem budowy wielu odrębnych Składnic

Danych polegających na koordynacji prac związanych z odrębnymi
projektami, np. procesu zbierania wymagań biznesowych, analizy
systemów źródłowych, harmonogramowanie dostępu do systemów
ź

ródłowych w celu uniknięcia ich przeciążenia;

• Niespełnienie podstawowego założenia Hurtowni Danych w postaci

budowy spójnego, zintegrowanego źródła danych do analiz biznesowych,
co grozi powstaniem baz danych odrębnie zarządzanych i
administrowanych, co powoduje utratę integracji systemów;

• Potencjalne problemy z interpretacją wyników analiz wykonywanych na

podstawie różnych Składnic Danych; Dane liczbowe dotyczące tych
samych zagadnień będą pochodziły z różnych Składnic, a ze względu na
odrębne procesy ETL mogą one być różne;

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Wiele sk

Wiele sk

ł

ł

adnic danych

adnic danych

Wady rozwiązania:

• Zasilanie różnych Składnic z tych samych systemów transakcyjnych

powoduje wielokrotne obciążenie systemów produkcyjnych procesem
zasilania danymi;

• Wielokrotne ponoszenie kosztów budowy kolejnych Składnic Danych

wynikających z powtarzającego się etapu analizy wymagań, ponownego
rozpatrywania dostępnych platform sprzętowych i oprogramowania,
wielokrotnej analizy jakości danych w tych samych systemach;

• Możliwość zasilania różnych Składnic Danych tymi samymi danymi z

różnych źródeł, co wpływa na pogorszenie spójności tych systemów.

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Architektury

Architektury

hurtowni

hurtowni

Hurtownia Danych z dostępem tylko do Składnic Danych

Rozwiązanie to polega na pobraniu niezbędnych danych z systemów źródłowych
i umieszczeniu ich w jednej, centralnej bazie danych Hurtowni Danych
(Repozytorium Danych). Zasilanie Hurtowni danymi następuje za pośrednictwem
warstwy ETL, która umożliwia przeprowadzenie procesu czyszczenia i integracji
danych. Następnie dane z Hurtowni - w razie potrzeby również za pośrednictwem
warstwy ETL - zasilają Składnice Danych, do których mają dostęp użytkownicy
końcowi. W tym wariancie architektury nie mogą oni korzystać bezpośrednio z
centralnej bazy danych Hurtowni.

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Hurtownia Danych z dost

Hurtownia Danych z dost

ę

ę

pem tylko do Sk

pem tylko do Sk

ł

ł

adnic Danych

adnic Danych

Zalety rozwiązania:

• Istnienie jednego, zintegrowanego repozytorium danych, które może być

następnie wykorzystane jako źródło danych do zasilania Składnic Danych,
czyli baz tematycznych;

• Zminimalizowanie obciążenia systemów źródłowych dzięki przeniesieniu

procesów związanych z analizami biznesowymi na płaszczyznę Hurtowni
Danych;

• Odciążenie systemów źródłowych od wielokrotnego procesu zasilania wielu

Składnic Danych na rzecz jednokrotnego zasilania głównego repozytorium
danych Hurtowni;

• Integracja wielu źródeł danych z różnych działów i departamentów firmy na

poziomie danej Składnicy Danych. Dane mogą pochodzić z różnej liczby
systemów transakcyjnych jak również ze źródeł zewnętrznych;

• Ułatwienie procesu administracji Hurtownią Danych dzięki ograniczeniu

bezpośredniego dostępu użytkowników do głównego repozytorium danych.
Powoduje to polepszenie bezpieczeństwa danych (użytkownicy mają dostęp
tylko do danej Składnicy Danych);

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Hurtownia Danych z dost

Hurtownia Danych z dost

ę

ę

pem tylko do Sk

pem tylko do Sk

ł

ł

adnic Danych

adnic Danych

Zalety rozwiązania:

• Zwiększenie efektywności działania repozytorium Hurtowni Danych,

dzięki nie obciążaniu go dodatkowymi procesami związanymi z obsługą
zapytań użytkowników, którzy korzystają bezpośrednio ze Składnic
Danych;

• Możliwość dowolnej prezentacji danych użytkownikom końcowym,

ograniczona jedynie możliwościami obecnej technologii (np. w postaci
witryny internetowej, aplikacji klient-serwer itp.);

• Możliwość przeprowadzania analiz wielowymiarowych, np. po

zastosowaniu serwera do analiz wielowymiarowych zasilanego danymi z
Hurtowni Danych.

Wady rozwiązania:

• Znaczący koszt rozwiązania wynikający z kosztu rozbudowanej

infrastruktury Hurtowni Danych,

• Możliwe ograniczenie możliwości wykonywania raportów typu "ad hoc"

(zawężenie dostępu użytkownika do danych przechowywanych w
Składnicy/ach Danych);

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Dostęp mieszany

Rozwiązanie to polega na pobraniu niezbędnych danych z systemów źródłowych
i umieszczeniu ich w jednej, centralnej bazie danych Hurtowni Danych.
Zasilanie Hurtowni danymi następuje za pośrednictwem warstwy ETL, która
umożliwia przeprowadzenie procesu czyszczenia i integracji danych. Następnie
dane z Hurtowni - w razie potrzeby również za pośrednictwem warstwy ETL -
zasilają Składnice Danych, do których mają dostęp użytkownicy końcowi. W
tym wariancie architektury mogą oni korzystać bezpośrednio z centralnej bazy
danych Hurtowni. Ponadto niektóre Składnice Danych mogą być zasilane
danymi bezpośrednio z systemów źródłowych, a nie tylko z Hurtowni Danych.

Architektury

Architektury

hurtowni

hurtowni

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Dost

Dost

ę

ę

p mieszany

p mieszany

Zalety rozwiązania:

• Zminimalizowanie obciążenia systemów źródłowych dzięki przeniesieniu

procesów związanych z analizami biznesowymi na płaszczyznę Hurtowni
Danych;

• Odciążenie systemów źródłowych od wielokrotnego procesu zasilania wielu

Składnic Danych na rzecz jednokrotnego zasilania głównego repozytorium
danych Hurtowni;

• Integracja wielu źródeł danych z różnych działów i departamentów firmy.

Dane mogą pochodzić z różnej liczby systemów transakcyjnych jak również ze
ź

ródeł zewnętrznych;

• Istnienie jednego, zintegrowanego repozytorium danych, które może być

następnie wykorzystane jako źródło danych do zasilania Składnic Danych,
czyli baz tematycznych;

• Możliwość zwiększenia efektywności wykonywanych analiz przez grupę

użytkowników poprzez stworzenie Składnicy Danych zasilanej z repozytorium
Hurtowni;

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Dost

Dost

ę

ę

p mieszany

p mieszany

Zalety rozwiązania:

• Ułatwienie procesu administracji Hurtownią Danych dzięki ograniczeniu

bezpośredniego dostępu użytkowników do głównego repozytorium danych.
Powoduje to polepszenie bezpieczeństwa danych (użytkownicy mają dostęp
tylko do danej Składnicy Danych);

• Zwiększenie efektywności działania Hurtowni Danych, dzięki nie obciążaniu

jej dodatkowymi procesami związanymi z obsługą zapytań użytkowników;

• Możliwość dowolnej prezentacji danych użytkownikom końcowym,

ograniczona jedynie możliwościami obecnej technologii (np. w postaci
witryny internetowej, aplikacji klient-serwer itp.);

• Możliwość zastosowania jednolitego narzędzia ETL do wszystkich danych,

jakimi zasilana jest Hurtownia Danych;

• Możliwość wykonywania analiz ad-hoc przez upoważnionych użytkowników

mających dostęp do całości danych znajdujących się w Hurtowni Danych;

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Zalety rozwiązania:

• Stworzenie nowych możliwości raportowych, dzięki dostępowi

użytkowników końcowych do wszystkich danych znajdujących się w
Hurtowni Danych; brak ograniczenia do pojedynczych Składnic Danych co
czyni to rozwiązanie bardziej elastycznym;

• Możliwość przechowywania danych zagregowanych co ułatwia i

przyspiesza wykonywanie analiz;

• Możliwość przeprowadzania analiz wielowymiarowych, np. po

zastosowaniu serwera do analiz wielowymiarowych zasilanego danymi z
Hurtowni Danych.

Wady rozwiązania:

• Znaczący koszt rozwiązania wynikający z kosztu rozbudowanej

infrastruktury Hurtowni Danych.

Dost

Dost

ę

ę

p mieszany

p mieszany

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Oracle

Oracle

Opracowała oprogramowanie Oracle Warehouse Builder przeznaczone do

projektowania, generowania i zasilania korporacyjnych hurtowni danych. W
ofercie znajduje si
ę też serwer bazy danych Oracle8i i Oracle9i, który może służyć
jako platforma dla hurtowni danych oraz szereg aplikacji analitycznych.

Oprogramowanie do projektowania hurtowni pozwala modelować ją

wizualnie, dostępne są kreatory wspomagające standardowe działania projektowe
oraz biblioteki transformacji danych. Zapewnia to szybkie tworzenie hurtowni, a
cały potrzebny kod generowany jest automatycznie.

W ofercie są też pakiety Oracle Data Mart Suite oraz Oracle Data Mart Suite -

Sales & Marketing Edition, służące do tworzenia składnic danych (data mart).
Zawieraj
ą one oprogramowanie bazodanowe, narzędzia do projektowania,
ekstrakcji i transformacji danych oraz zasilania nimi składnic danych, instrumenty
do analiz i raportów oraz narz
ędzia dające dostęp do składnicy poprzez Intranet.

Firma wytwarza również oprogramowanie analityczne ogólnego

przeznaczenia (Oracle Discoverer, oparte na technologii OLAP Oracle Express i
Data Mining Oracle Darwin) i aplikacje specjalizowane.

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

IBM

Przygotował zintegrowany pakiet oprogramowania biznesowego pod nazwą

Visual Warehouse. Pakiet ten zawiera szereg narzędzi przeznaczonych do
realizacji poszczególnych kroków projektu hurtowni danych. Nale
żą do nich:
oprogramowanie do definiowania schematu, oprogramowanie do ekstrakcji
danych z ró
żnych źródeł, ich oczyszczania i przekształcania, oprogramowanie do
zasilania hurtowni danymi (ładowania za pomoc
ą SQL-a, przyrostowego oraz
równoległego), narz
ędzia do automatyzacji procesu zasilania (scheduler),
podstawowe oprogramowanie do zarz
ądzania, narzędzie analityczne typu OLAP
oraz oprogramowanie pozwalaj
ące na dostęp do hurtowni za pomocą technologii
internetowych. W pakiecie zawarty jest równie
ż serwer bazy danych DB2 -
platforma, na której mo
że działać hurtownia korporacyjna.

W ofercie znajduje się jeszcze dodatkowy pakiet DB2 Warehouse Manager

rozszerzający możliwości serwera bazy. Udostępnia on nowe funkcje zarządzania,
poprawia skalowalno
ść, zwiększa możliwość kontroli nad zapytaniami oraz
metadanymi.
IBM oferuje równie
ż aplikacje analityczne w technologii OLAP (DB2 OLAP
Server) i Data Mining IntelligentMiner.

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Sybase

Oferuje Warehouse Studio, który jest zintegrowanym zestawem narzędzi

do tworzenia hurtowni danych. W jego skład wchodzi ponad dziesięć
narzędzi i aplikacji przeznaczonych do obsługi projektu (modelowania,
oczyszczania i przenoszenia danych), składowania i zarz
ądzania danymi,
tworzenia zapyta
ń i raportów. Ponadto dostępne są również branżowe
pakiety aplikacji Sybase Industry Warehouse Studios, które zostały
przygotowane do tworzenia specjalizowanych hurtowni danych.

Dodatkowo, Sybase udostępnia pakiet PowerStage przeznaczony do

automatyzacji procesów ekstrakcji, transformacji i oczyszczania danych
pochodz
ących z różnych źródeł. Jako platformę do działania hurtowni
danych Sybase oferuje własny serwer bazy danych - Adaptive Enterprise
Server.

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

SAS

Ma w ofercie SAS System, który składa się z bazy SAS Base oraz

dodatkowych modułów rozszerzających jego podstawowe funkcje.
SAS/Warehouse Administrator jest przeznaczony do tworzenia skryptów
ładuj
ących hurtownie danych. Pakiet SAS/ACCESS pozwala operować na
danych zewn
ętrznych pochodzących z innych serwerów baz danych. W
systemie znajduj
ą się moduły pozwalające na zorganizowanie dostępu do
hurtowni danych z poziomu Internetu. W ofercie znajduje si
ę również
SAS/Enterprise Miner, narzędzie klasy data mining przeznaczone do
odkrywania zale
żności w danych oraz cała gama analiz statystycznych.

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

NCR

Opracował Teradata Warehouse Suite, rodzinę zintegrowanych produktów

wspomagających realizację trzech faz środowiska hurtowni danych (zasilanie
hurtowni danych, zarz
ądzanie danymi i metadanymi oraz analiza danych z
wykorzystaniem technologii OLAP i data mining). Jako platforma do działania
systemu przeznaczony jest NCR Teradata Active Warehouse (oparty na serwerze
NCR Teradata Warehouse).

Computer Associates

Proponuje zintegrowany pakiet DecisionBase. W jego skład wchodzą:

narzędzie do projektowania modelu hurtowni danych ERwin, narzędzie zasilania
danymi pochodz
ącymi z różnych źródeł DecisionBase Transformer, narzędzie do
zarz
ądzania metadanymi PLATINUM Repository, narzędzia analityczne:
bazuj
ące na technologii OLAP DecisionBase OLAP Server oraz bazujące na
sieciach neuronowych Neugents,
środowisko do szybkiego tworzenia aplikacji
analitycznych bazuj
ące na Forest & Trees, narzędzie do tworzenia raportów
DecisionBase Reporter, narz
ędzie do ekstrakcji i oczyszczania danych InfoRefiner
oraz InfoPump, przeznaczone do replikacji danych

.

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Tematyczna hurtownia danych, minihurtownia DM

(Data Mart) Składnica danych

tematycznych, ułatwiająca uzyskiwanie odpowiedzi na specyficzne zapytania do
wspomagania podejmowania decyzji w jednej dziedzinie (marketing, finanse).

Hurtownia danych DW

(Data Warehouse) Zintegrowana struktura wielotematyczna,

umożliwiająca uzyskiwanie odpowiedzi na złożone zapytania, dostępna wielu
użytkownikom. Zawiera szczegółowe dane archiwalne o działalności przedsiębiorstwa.
Przykładowo - w banku hurtownia może zawierać dane o stanie konta klienta na każdy
dzień w ciągu ostatnich 12 miesięcy.

Hurtownia danych dla całego przedsi

ę

biorstwa EDW (

Enterprise Data Warehouse)

Główna składnica danych archiwalnych w przedsiębiorstwie przeznaczona jedynie do
zapełniania oddziałowych hurtowni i minihurtowni oraz innych specjalizowanych składnic
danych. Jej zawartość jest uzupełniana okresowo (raz na tydzień lub raz na miesiąc) z
systemów transakcyjnych przedsiębiorstwa.

Operacyjna składnica danych ODS

(Operational Data Store) Zawiera aktualne dane

tematyczne o przedsiębiorstwie; nie zawiera danych archiwalnych. Zawartość ODS jest
uzupełniana na bieżąco z systemów transakcyjnych przedsiębiorstwa. Służy do udzielania
odpowiedzi na pytania o stan określonej zmiennej; nie polecana do wykonywania zapytań
typu analitycznego.

background image

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Model hurtowni danych


Wyszukiwarka

Podobne podstrony:
Bazy danych w03 07 id 81702 Nieznany
Bazy danych w02 07 id 81701 Nieznany
Bazy danych w13 07 id 81707 Nieznany
Bazy danych w07 07 id 81703 Nieznany
Bazy danych w10 07 id 81705 Nieznany
Bazy danych 07 id 81462 Nieznany (2)
bazy danych pierwsza zarowka id Nieznany
Bazy Danych [tryb zgodnosci] id Nieznany (2)
HYDROLOGIA 07 id 207788 Nieznany
hih kolo kolo2 07 id 709394 Nieznany
I CSK 304 07 1 id 208210 Nieznany
Fizjologia Cwiczenia 07 id 1743 Nieznany
III CSK 302 07 1 id 210245 Nieznany
G2 PB 02 B Rys 3 07 id 185395 Nieznany
CwiczenieArcGIS 07 id 125941 Nieznany
DAB 07 id 130775 Nieznany
III CZP 65 07 id 210286 Nieznany

więcej podobnych podstron