HUR2006 01 id 207254 Nieznany

background image

1

Hurtownie danych

Jakub Wróblewski

jakubw@pjwstk.edu.pl

http://zajecia.jakubw.pl/hur

Wstęp.

Architektura hurtowni danych.

CO TO JEST HURTOWNIA

DANYCH

B. Inmon, 1996:

Hurtownia danych to zbiór zintegrowanych,
nieulotnych, ukierunkowanych baz danych,
wykorzystywanych w systemach wspomagania
decyzji.

Podstawowe cele:

– przetwarzanie analityczne danych (OLAP)

– wspomaganie decyzji (DSS)

– archiwizacja

background image

2

LITERATURA

Pozycje podstawowe:

• Ch. Todman. Projektowanie hurtowni danych. WNT,

Warszawa 2003.

• M. Jarke, M. Lenzerini, Y. Vassiliou, P. Vassiliadis. Hurtownie

danych. Podstawa organizacji i funkcjonowania, WSiP,
Warszawa 2003.

Pozycje dodatkowe:

• V. Poe, P. Klauer, S. Brobst. Tworzenie hurtowni danych.

WNT, Warszawa 2000.

• inne...

OLTP a OLAP

OLTP

on-line transaction processing

przetwarzanie transakcyjne

• bieżąca działalność

przedsiębiorstwa

• duża liczba prostych zapytań

(fakty)

• dodawanie, usuwanie i

modyfikacja danych

• natychmiastowy dostęp do

aktualnych informacji

OLAP

on-line analytical processing

przetwarzanie analityczne

• analizy, raporty

• niewielka liczba

skomplikowanych zapytań
(podsumowania)

• odczytywanie informacji i ich

cykliczne uzupełnianie

• dane mogą być dostępne z

opóźnieniem

background image

3

SYSTEMY WSPOMAGANIA

DECYZJI

• DSS (decision support systems)

• Tworzenie raportów

– jaka była wielkość sprzedaży w rozbiciu na miesiące?

– jaka grupa klientów generuje 80% obrotu?

– jaka jest struktura (histogram) wielkości zakupów?

• Odkrywanie wiedzy (KDD, data mining)

IF

a = fast AND b < 14.7

THEN

c = high ( in 85% )

a

b

High
Med.
Low

CRM

Customer Relationship Management - zarządzanie

kontaktami z klientami

• Cele biznesowe: pozyskiwanie nowych klientów,

zatrzymanie najlepszych klientów, zwiększenie
sprzedaży

• CRM - rozwiązania programowe i organizacyjne

mające na celu zmniejszenie ryzyka utraty
klientów

– gromadzenie informacji o klientach

– usprawnienie kontaktów z klientami

– wsparcie techniczne akcji marketingowych.

background image

4

ARCHITEKTURA (1)

Źródła danych

Centralna

hurtownia

danych

Hurtownie

tematyczne

(oddziałowe,

data marts)

Wyniki (np. raporty)

integracja

czyszczenie

odświeżanie

agregacje,
propagacja
aktualizacji

ARCHITEKTURA (2)

Centralna

hurtownia

danych

Hurtownie

tematyczne

Magazyny danych
operacyjnych (ODS)

ODS stanowią warstwę pośrednią,w
której dane są już zintegrowane. Zwykle
ODS są częściej aktualizowane, niż
właściwa hurtownia danych.

background image

5

KWESTIE TECHNICZNE

Typowe operacje (zastosowania) w hurtowniach

tematycznych:

- OLAP: obracanie kostki danych, zwijanie,

rozwijanie... (zestawienia statystyczne)

- Eksploracja danych (opis danych lub

przewidywanie)

- GIS (informacje geograficzne/przestrzenne)

- Business Intelligence (analiza wariantów: co by

było, gdyby...)

MODEL WIELOWYMIAROWY

230$

Baza zawiera fakty opisane przez wymiary i określające wartość miar.

Przykład:

Fakt - pojedyncza sprzedaż.
Opisana przez czas, klienta,
produkt, sklep itp.
Miarą może być np. wartość
sprzedaży, liczba sztuk itp.
Poziom agregacji to poziom
szczegółowości opisu
wymiarów, np. czas można
dzielić na dni lub na kwartały.

Zawartość komórki:
zagregowana miara (np. suma
sprzedaży danego produktu w
danym sklepie, danego dnia)

sklep

czas

produkt

Kostka wielowymiarowa danych

background image

6

SYSTEMY ZARZĄDZAJĄCE

Centralna

hurtownia

danych

ODS

SQL

Zapytania bieżące

ROLAP

MDDB

ROLAP -

Relational OLAP, nakładka przesłaniająca relacyjną strukturę danych na

rzecz dostępu wielowymiarowego

.

MDDB -

systemy zarządzające przechowujące dane bezpośrednio w postaci kostek

wielowymiarowych

.

Systemy superrelacyjne -

dodatkowe funkcje relacyjnych baz danych

ułatwiające obsługę hurtowni (wsparcie schematu gwiazdy, indeksy, formaty danych).

RDBMS - systemy relacyjne
(typu VLDB - very large database
drivers) lub superrelacyjne

RODZAJE IMPLEMENTACJI

• Architektura scentralizowana: fizyczna

hurtownia centralna (i ew. ODS).

• Architektura federacyjna: hurtownia centralna

jest wirtualna (perspektywy nie zawsze
zmaterializowane), pobiera dane z ODS.

• Architektura warstwowa: fizyczna hurtownia

centralna, kolejne warstwy fizycznych hurtowni
tematycznych.

background image

7

ARCHITEKTURA

SCENTRALIZOWANA

Centralna

hurtownia

danych

Hurtownie

tematyczne

ODS

Centralna

hurtownia jest

materialna

ODS może istnieć

materialnie lub nie

Hurtownie tematyczne zwykle są

zmaterializowane (ze względów

wydajnościowych)

ARCHITEKTURA FEDERACYJNA

Centralna

hurtownia

danych

Hurtownie

tematyczne

ODS

Centralna hurtownia jest

wirtualna

(stanowi tylko wspólny model

logiczny i pojęciowy danych)

ODSy są zmaterializowane i stanowią

faktyczne miejsce przechowywania danych

Hurtownie tematyczne są

zmaterializowane

background image

8

ARCHITEKTURA WARSTWOWA

Centralna

hurtownia

danych

Hurtownie

tematyczne

Coraz wyższe stopnie agregacji danych.
Dane z kolejnych warstw są obliczane na podstawie
poprzednich. Ze względu na wydajność, wszystkie warstwy są
zmaterializowane.

PERSPEKTYWA PRAKTYCZNA (1)

• Typowa ilość danych: >1 TB

– Wiele firm dysponuje znacznie większymi danymi

archiwalnymi. Nawet bazy produkcyjne osiągają
obecnie wielkości >1 TB (ocenia się, że na świecie jest
kilka tysięcy takich przedsiębiorstw).

• Typowe obciążenie zapytaniami: rzędu 10

tys. zapytań OLAP na dobę, do 100
użytkowników (analitycznych).

• Typowy czas projektów: od 1 do 3 lat.
• Typowy budżet: 1 mln. USD, z czego 60%

na sprzęt, 16% na oprogramowanie
bazodanowe.

background image

9

PERSPEKTYWA PRAKTYCZNA (2)

• Odświeżanie danych zwykle w cyklu dobowym.

• Modny kierunek: Real-Time Data Warehousing,

czyli połączenie typowej hurtowni danych z
możliwością bieżącego odświeżania danych (np.
w cyklach godzinnych czy minutowych).

• Hurtownia danych to przedsięwzięcie nie tylko

informatyczne, ale też organizacyjne (ustalenie
procedur i instrukcji postępowania, schematów
replikacji danych itp.).


Wyszukiwarka

Podobne podstrony:
NLP Magazine 01 id 320421 Nieznany
I CKN 316 01 1 id 208193 Nieznany
domowe2 01 id 140222 Nieznany
HUR2006 02 id 207255 Nieznany
Cwiczenie 01 id 98935 Nieznany
01 id 539970 Nieznany (2)
ais 01 id 53429 Nieznany (2)
cwilew 01 id 125957 Nieznany
NAI2006 01 id 313053 Nieznany
Krym 01 id 251309 Nieznany
Mikroekonomia I W 01 id 301249 Nieznany
prostownik akumul 01 id 402192 Nieznany
26429 01 id 31503 Nieznany (2)
Antropologia Cwiczenia 01 id 65 Nieznany (2)
CwiczenieArcGIS 01 id 125936 Nieznany
Neurofizjologia Wyklad 01 id 31 Nieznany
lab 01 id 258755 Nieznany
GPW biuletyn 2011 01 id 194038 Nieznany

więcej podobnych podstron