Hurtownie danych
Tomek Juranek
Po co hurtownie danych?
Do sprawnego zarządzania firmą potrzeba,
by:
Dane zgromadzone w organizacji mogły być
wykorzystywane w procesie decyzyjnym
Istniała możliwość tworzenia analiz
obejmujących całość organizacji
Przyczyny dla których dane operacyjne
w istniejących systemach nie nadają do
tych celów:
Rozproszenie
Heterogeniczność
Niewłaściwy układ
Brak historii
Rozwiązanie problemu:
rozwiązanie które pozwoliło by:
Scalić dane z różnych źródeł
Efektywnie udostępniać aktualne dane
do analiz
Przechowywać dane historyczne
Co to jest hurtownia danych?
Hurtownia danych (data warehouse) jest
wydzieloną centralną bazą danych zbierającą
informacje służące do zarządzania
organizacją.
Jest ona odizolowana od baz operacyjnych a
jej struktura i użyte do jej budowy narzędzia
powinny być zoptymalizowane pod kątem
przetważania analitycznego.
Cechy hurtowni danych
Jest scentralizowaną bazą
Jest oddzielona od baz operacyjnych
Scala informacje z wielu źródeł
Jest zorientowana tematycznie
Przechowuje dane historyczne
Utrzymuje wielką ilość informacji
Agreguje informację
Rodzaje danych w
hurtowniach
Elementarne
Zmaterializowane agregaty - wyliczone
wartości obliczeń (sumy, średnie itp.)
Historyczne
Metadane
Cykl życia danych w HD
Ładowanie i scalanie
Agregacja
Przeniesienie do danych historycznych
----------------------
Usuwanie
Składnice danych (data
marts)
Przechowywanie wszystkich danych i
agregatów zaspokajających potrzeby
wszystkich odbiorców w jednej centralnej
hurtowni jest często nieefektywne i
niepożądane ze względów organizacyjnych.
Dlatego tworzy się mniejsze,
wyspecjalizowane
składnice danych, zwykle tworzone dla
wydziałów organizacji.
Hurtownie danych a składnice
danych
Niezależna od
zastosowania
Scentralizowana
Przeznaczona do
wykorzystania w całej
organizacji
Zawiera dane historyczne
Dane są mało zagregowane
Dane są mało
zdenormalizowane
Ma wiele źródeł danych
Typowa operacje to
dodawanie danych
Specyficzne dla
zastosowania
Przeznaczone dla
określonych użytkowników
Dane w różnych składnicach
powtarzają się
Dane są silnie zagregowane
Dane są silnie
zdenormalizowane
Maja niewiele źródeł danych
Może być wymagana
podatność danych na
modyfikacje
Przykładowa architektura
systemu z hurtownią danych i
składnicą danych
Wykorzystanie hurtowni
danych
Przetwarzanie analityczne OLAP (On-
line Analitycal Processing)
Eksploracja danych (data mining)
Przetwarzanie analityczne
OLAP
Efektywne analizowanie wielkiej ilości danych
w środowisku wielodostępnym
Prezentacja danych niezależna od sposobu ich
przechowywania
Szybkie realizowanie zapytań i obliczeń,
umożliwiające interaktywną analizę
Wykonywanie różnorodnych obliczeń
Łatwe tworzenie różnych form prezentacji
wyników analizy, raportów, wykresów itp.
Problemy budowy hurtowni
danych
Koncepcyjny
Organizacyjny
Psychologiczny
Technologiczny
Finansowy