Hurtownie danych
Metodyka budowy hurtowni
danych
1
marcin.mazurek@wat.edu.pl
Treść wykładu
Etapy budowy hurtowni danych
Struktura zespołu projektowego
Organizacja prac
Organizacja prac
marcin.mazurek@wat.edu.pl
2
Etapy budowy hurtowni danych (1)
Inicjowanie
Ocena sytuacji biznesowej
Planowanie
Ocena infrastruktury
Planowanie projektu
Planowanie projektu
Analiza biznesowa
Wymagania dla projektu
Analiza danych
Prototyp aplikacji
Analiza repozytorium metadanych
marcin.mazurek@wat.edu.pl
3
Ź
ródło: L.T.Moss, S. Atre, Building Intelligence Roadmap: The Complete Project Lifecycle for Decision Support Applications, Addison Wesley 2003
Etapy budowy hurtowni danych (2)
Projektowanie
Projekt bazy danych
Projekt repozytorium metadanych
Projekt ETL
Implementacja
Implementacja
Budowa aplikacji
ETL
Data mining
Repozytorium metadanych
Wdrożenie
Wdrożenie
Ewaluacja i testy
marcin.mazurek@wat.edu.pl
4
Iteracje
Iteracje wyznaczane przez obszary tematyczne
Czas trwanie iteracji : 3-6 miesięcy
Kolejne iteracje opierają się na uzgodnionych
Kolejne iteracje opierają się na uzgodnionych
wymiarach wdrożonych w poprzednich etapach
Każda iteracja zakończona formalnym
odbiorem
marcin.mazurek@wat.edu.pl
5
Określenie zakresu
informacyjnego hurtowni danych
Przeniesienie zakresu informacyjnego
ź
ródeł danych
Analiza procesów biznesowych
Analiza procesów biznesowych
Analiza wymagań raportowych
marcin.mazurek@wat.edu.pl
6
Produkty (ang. deliverables) (1)
Faza
Produkt
Faza inicjowania i planowania
projektu
•Uzasadnienie biznesowe projektu (Business Case)
•Plan projektu
•Dokumentacja przetargowa / ofertowa
•Kontrakt
•Plan projektu ( w tym Plan Zapewniania Jakości)
•Rejestr wymagań
•Rejestr konfiguracja
•Rejestr konfiguracja
•Log zmian
Analiza biznesowa
•Analiza źródeł danych
•Model pojęciowy danych
•„Mapowanie” źródeł danych
•Specyfikacja wymagań raportowych i raportów predefiniowanych
•Plan testów (koncepcja testowania)
Projektowanie
•Architektura systemu
•Projekt logiczny repozytorium głównego
•Projekt datamartów
•Projekt fizyczny bazy danych
•Projekt procesów ETL
•Projekt logiczny repozytorium metadanych
marcin.mazurek@wat.edu.pl
7
Produkty (ang. deliverables) (2)
Faza
Produkt
Implementacja
•Model fizyczny repozytorium głównego i
datamartów
•Skrypty inicjalnego ładowania danych
•Kody procesów ETL inicjalnego ładowania
danych
•Kody procesów ETL
•Metadane ROLAP (warstwa semantyczna)
•Raporty predefiniowane
•Raporty predefiniowane
Wdrożenie
•Zasilona inicjalnie hurtownia danych
•Raport z testów jakości danych
•Uruchomione środowisko archiwizacji i
backupu
•Uruchomione interfejsy aplikacyjne
•Dokumentacja administratora
•Dokumentacja użytkownika
•Szkolenia
marcin.mazurek@wat.edu.pl
8
Zespół projektowy
Kierownik Projektu, Biuro Projektów, Komitet Sterujący …
Architekt rozwiązania
Analitycy (w tym Główny Analityk)
Analiza źródeł danych
Model pojęciowy hurtowni danych
Specyfikacja predefiniowanych raportów
Projektanci i programiści bazy danych
Projekt bazy danych
Projekt i implementacja procesów ETL
Projektanci i programiści raportów predefiniowanych
Przygotowanie datamartów i warstwy OLAP
Testerzy
marcin.mazurek@wat.edu.pl
9
Ś
rodowiska
Ś
rodowisko deweloperskie
prywatne schematy danych dla
programistów
Niewielki podzbiór danych
Ś
rodowisko testowe
Ś
rodowisko identyczne w zakresie
DEV
DEV
Ś
rodowisko identyczne w zakresie
konfiguracji do środowiska
produkcyjnego
W porównaniu ze środowiskiem
produkcyjnym mniejszy wolumen
danych
przed wdrożeniem produkcyjnym
hurtowni, rolę środowiska testowego
może odgrywać środowisko
produkcyjne
Ś
rodowisko produkcyjne
marcin.mazurek@wat.edu.pl
10
TEST
TEST
PROD
PROD
Metadane
Główne ryzyka projektowe
Niedostępne źródła danych
brak udokumentowanych
interfejsów do źródeł danych
brak wiedzy o źródłach danych
Sprzeczne wymagania różnych
departamentów
departamentów
Brak zaangażowania
kierownictwa w rozstrzyganie
spornych kwestii
Brak zaangażowania
użytkowników biznesowych na
etapie analizy
Zła jakość danych
Wydajność
11
Literatura
L.T.Moss, S. Atre, Building Intelligence Roadmap: The Complete Project
Lifecycle for Decision Support Applications, Addison Wesley 2003
12
marcin.mazurek@wat.edu.pl