16.04.21
1
Dr hab. Marek J. Greniewski
Technologia
Data
Warehousing
2
Wprowadzenie
• Lata sześćdziesiąte – osiemdziesiąte XX wieku to gwałtowny
rozwój zastosowań informatyki w zarządzaniu firmami.
• Większość tych zastosowań dotyczyła wspomagania wybranych
funkcji zarządzania, takich jak:
– Rachunkowość i finanse;
– Ewidencja osobowa i płace;
– Gospodarka zapasami;
– Planowanie potrzeb materiałowych (systemy MRP);
– Planowania produkcji, gospodarowanie zapasami, planowanie sprzedaży i
zakupów (systemy MRP II).
• W tym okresie, powstała jedna z zasadniczych technologii
informatycznych, tj. systemy baz danych, a w szczególności
relacyjnych baz danych, która to technologia otworzyła
możliwości dalszego rozwoju zastosowań informatyki.
• Rozwój informatyki (lata sześćdziesiąte – osiemdziesiąte XX
wieku) doprowadził do powstania szeregu „wysp informatyzacji”
w firmach, zostawiając wiele obszarów firmy - poza sferą
bezpośredniego oddziaływania informatyki.
3
Likwidacja „wysp
informatyzacji” I
• Pomysł Data Warehouse, pochodzący od amerykańskiego informatyka
Billa Inmona, zakładał zbudowanie specjalnych baz danych
zawierających historyczne dane o prowadzonym przez firmę biznesie
(szeregi czasowe uśrednionych danych dla okresów), obejmujący sfery
podaży i popytu.
• Historyczne dane o prowadzonym przez firmie biznesie, to zapisy
transakcji odpowiadających tzw. zdarzeniom, jakie miały miejsce w toku
realizacji poszczególnych procesów biznesowych firmy, zarówno
wewnątrz firmy,
jak i w jej otoczeniu.
• Przykładowo, jeśli ograniczymy nasze rozważania do prywatnych szkół
wyższych - to zdarzeniami, którym towarzyszą transakcje, są między
innymi:
– Zarejestrowanie kandydata na studia w toku prowadzenia rekrutacji, wraz z jego
danymi osobowymi oraz wyborem kierunku, czyli określenie programu studiów
kandydata;
– Wniesienie opłaty rejestracyjnej i czesnego przez kandydata - za pierwszy semestr
studiów, powodującej przekształcenie kandydata na studia w studenta;
– Wydanie nowo przyjętemu studentowi indeksu;
– Rejestracja kolejnych zaliczeń przedmiotów i wyników egzaminów studenta;
– Rejestracja opłat czesnego za kolejne semestry i innych opłat wnoszonych przez
studenta.
4
Likwidacja „wysp informatyzacji”
II
• W odróżnieniu od tabel danych zawartych w BD - informatycznych
systemów operacyjnych (czyli wspomagających zarządzanie operacjami i
zarządzanie taktyczne), Data Warehouse zawiera dwa typy tabel: tzw.
tabele faktów (fact tables) i tzw. tabele wymiarów (dimensional tables).
• Przykładowo, jeśli ograniczymy nasze rozważania do prywatnych szkół
wyższych, to będziemy mieli pięć tabeli faktów. A mianowicie:
– „Studenci”. Tabela faktów zawierająca klucze podstawowych danych o
studentach oraz flagi statusu każdego z nich;
– „Grupy studenckie”. Tabela faktów zawierająca klucze podstawowe danych o
poszczególnych grupach studenckich oraz flagi statusu każdego z nich;
– „Wykładowcy”. Tabela faktów zawierająca klucze podstawowych danych o
nauczycielach akademickich oraz flagi statusu każdego z nich;
– „Przedmioty nauczania”. Tabela faktów zawierająca klucze podstawowych
danych o przedmiotach nauczanych w szkole oraz flagi statusu każdego z nich;
– „Programy nauczania”. Tabela faktów zawierająca klucze podstawowych
danych o programach nauczania wraz ze specjalnościami oraz flagi statusu
każdego z nich.
• Tabele faktów, mogą zawierać wzajemne odwołania. Np. poszczególni
studenci - są przypisani do grup studenckich. Każdy student, może należeć
np. - tylko do jednej grupy dziekańskiej i kilku grup ćwiczeniowych.
5
Likwidacja „wysp
informatyzacji” III
• Z kolei tabele wymiarów, mogą mieć w - szczególności postać -
tzw. wielowymiarowych kostek danych, czyli wymagają wówczas
systemów RDBMS o dodatkowej funkcjonalności.
• Przykładowo, jeśli ograniczymy nasze rozważania do prywatnych
szkół wyższych, to tabeli faktów „studenci” – będą dołączone
następujące tabele wymiarów:
– „Jednostki czasu”. Tabela jednostek czasu zawiera kalendarz jednostek czasu (np.
w układzie kolejnych dat i numerów semestrów), w stosunku do których zbierane są
dane o zdarzeniach;
– „Dane studenta”. Tabela zawierająca dane osobowe poszczególnych studentów
(imiona, nazwisko, data urodzenia, płeć, imię ojca, adres zamieszkania, datę
rozpoczęcia studiów, stan cywilny i ew. datę zawarcia związku itp., oraz numer
albumu);
– „Dane szkoły średniej”. Tabela zawierająca dane szkół średnich, w których
studenci uzyskali świadectwo maturalne.
– „Czesne i inne opłaty”. Tabela zawiera dane o wszystkich wpłatach dokonywanych
przez każdego ze studentów, z uwzględnieniem podziału czesnego na raty, np.
według rodzaju przyznanego, zgodnie z regulaminem opłat czesnego, przez kanclerza
szkoły – rozkładu
czesnego na raty
– „Wyników nauki”. Tabela zawiera dane o wynikach uzyskiwanych przez każdego
studenta.
6
Definicje
• Data Warehouse – zbiór danych zorientowanych tematycznie,
wewnętrznie zintegrowany, rosnący wraz z upływem czasu, służący
np. wspomaganiu podejmowania decyzji przez kierownictwo firmy
(korporacji). Definicje wszystkich danych zawartych w Data
Warehouse, składają się na tzw. Meta-Dane (Metadata).
• Data Mart – jest typem Data Warehouse zaprojektowanym dla
potrzeb wybranej grupy użytkowników (np. zarządu dywizji
korporacji) z wybranej jednostki organizacyjnej firmy. Na ogół Data
Mart dotyczy jednej wybranej dziedziny np. sprzedaży.
• Executive Information System (EIS) – zbiór raportów tworzonych
na podstawie zawartości Data Warehouse wspomagających
podejmowanie decyzji opartych o wstępnie zdefiniowane modele.
• Data Mining – narzędzie do tworzenie z danych surowych – opisów
zdarzeń: tabel faktów oraz wielowymiarowych kostek danych Data
Warehouse.
• On-Line Analytical Processing (OLAP) – narzędzia do
przetwarzania (analizy) wielowymiarowych kostek danych Data
Warehouse.
7
Przykład tabeli faktów
„Studenci”
• Tabela faktów „Studenci” zawiera następujące atrybuty:
– Klucz_studenta (identyfikator studenta), klucz tabeli wymiarów „Dane
studenta”;
– Klucze_przedmiotów, grupa kluczy do tabeli wymiarów „Wyniki nauki”;
– Klucz_wpłaty, jeden z kluczy tabeli wymiarów „Czesne i inne opłaty”;
– Klucz_szkoły, jeden z kluczy tabeli wymiarów „Dane szkoły średniej”;
– Klucz_czasu, klucz tabeli wymiarów „Jednostki czasu” oraz jeden z kluczy
wielu tabel;
– Status na koniec semestru;
– Flaga uzyskania dyplomu;
• Wybieranie danych dotyczących danego studenta, np.
dotyczące wpłat, odbywa się za pomocą kluczy:
(1) Klucz_studenta, (2) Klucz_wpłaty i (3) Klucz_czasu.
Powoduje to, wybranie oraz wyświetlenie - dla wskazanego
studenta oraz numeru semestru, wysokości wniesionych wpłat i
całości rozliczenia pomiędzy studentem i szkołą.
• Liczba wierszy (n-tupel) tabeli faktów „Studenci” jest równa
liczbie wszystkich studentów danej szkoły.
8
Przykład tabeli wymiarów
„Dane
studenta”
•
Tabela wymiarów „Dane studenta”, zawiera np.- następujące
atrybuty:
– Klucz_studenta (identyfikator studenta),
– Imiona;
– Nazwisko;
– Data urodzenia;
– Płeć (K – kobieta, M – mężczyzna);
– Imię ojca;
– Adres zamieszkania;
– Data rozpoczęcia studiów;
– Stan cywilny;
– Data zawarcia związku małżeńskiego (nie dotyczy samotnych);
– Numer albumu.
•
Wybranie danych wskazanego studenta, wymaga użycia tylko
jednego klucza – identyfikatora studenta.
•
Tabela wymiarów „Dane studenta” jest kostką dwuwymiarową,
czyli tabelą zawierającą liczbę wierszy (n-tupel) równą liczbie
studentów.
9
Przykład tabeli wymiarów
„Wyniki
Nauki”
Uwaga:
Liczba tabel RBD odpowiadających trójwymiarowej
kostce ocen,
jest równa liczbie semestrów objętych działalnością szkoły.
Przedmioty
(zaliczenia i egzaminy)
S
tu
d
e
n
t
Se
m
es
tr
Trójwymiarowa kostka ocen
Lista przedmiotów
(danego semestru)
Oceny zaliczeń
i egzaminów
S
tu
d
e
n
ci
Lista przedmiotów
(danego semestru)
Oceny zaliczeń
i egzaminów
Lista przedmiotów
(danego semestru)
Oceny zaliczeń
i egzaminów
Lista przedmiotów
(danego semestru)
Oceny zaliczeń
i egzaminów
Lista przedmiotów
(danego semestru)
Oceny zaliczeń
i egzaminów
Lista przedmiotów
(danego semestru)
Oceny zaliczeń
i egzaminów
Tabele RBD odpowiadające
trójwymiarowej kostce ocen
Dla wyszukania wyniku należy
użyć następujących identyfikatorów:
klucz_studenta, klucz_czasu oraz
klucz_przedmiotu.
10
Zasada działania programu
Data Mining
•
Surowe dane przeznaczone do zasilania Data Warehouse są
rekordami o poszczególnych zdarzeniach (czyli są to dane
transakcyjne), np. dotyczących wpłat czesnego przez
konkretnego studenta.
•
Program Data Mining pobiera kolejny rekord zdarzeń np.
dotyczący danego studenta (w naszym przykładzie - jeden
rekord tabeli faktów odpowiada jednemu studentowi):
1. Sprawdza czy student o danym kluczu_studenta posiada już rekord w
tabeli faktów, jeśli taki rekord nie istnieje w tabeli faktów, to Data Mining
tworzy nowy rekord z nowym kluczem_studenta zostawiając miejsce na
pozostałe klucze odwołań do tabeli wymiarów, ustawiając jedynie flagi;
2. Następnie w zależności od rodzaju zdarzenia wstawia do rekordu
odpowiadającemu danemu studentowi - wartości kluczy dotyczące
danego zdarzenia do rekordu w tabeli faktów;
3. Kolejnym krokiem, jest sprawdzenie czy istnieje tabela wymiarowa,
odpowiadająca rejestrowanemu zdarzeniu, jeśli takiej tabeli niema, to
Data Mining ją tworzy;
4. Ostatnim krokiem obsługi pojedynczego rekordu zdarzenia, jest
utworzenie rekordu odpowiadającego zdarzeniu w tabeli wymiarowej;
•
Jeśli jest to ostatni rekord surowych zdarzeń, to program Data
Mining kończy działanie.
11
Zasada działania
programu OLAP
• Prostym przykładem
zastosowania programu OLAP,
jest wyliczenie średniej oceny
uzyskiwanej przez studentów w
okresie kilku kolejnych
semestrów.
• Program OLAP sprawdza kolumnę
ocen (atrybutów), zliczając liczbę
wystawionych ocen, czyli
odrzucając dane studentów,
którzy z jakichś powodów nie
zdawali egzaminu z wybranego
przedmiotu, sumuje oceny, a
następnie wyznacza średnią
ocenę z przedmiotu.
Lista przedmiotów
(danego semestru)
Oceny zaliczeń
i egzaminów
S
tu
d
e
n
ci
Lista przedmiotów
(danego semestru)
Oceny zaliczeń
i egzaminów
Lista przedmiotów
(danego semestru)
Oceny zaliczeń
i egzaminów
Lista przedmiotów
(danego semestru)
Oceny zaliczeń
i egzaminów
Lista przedmiotów
(danego semestru)
Oceny zaliczeń
i egzaminów
Tabele RBD odpowiadające
trójwymiarowej kostce ocen
Wybrany przedmiot, któremu
odpowiada ten przekrój
12
Cel wprowadzenia Data
Warehousing
• Jak już wcześniej zostało powiedziane jednym z celów
wprowadzania technologii Data Warehousing, była chęć
zbudowania narzędzi informatycznych umożliwiających
wspomaganie podejmowania decyzji,
a w szczególności decyzji strategicznych, w oparciu o dane
dotyczące przeszłości.
• Przedstawione wycinkowe przykłady dotyczące Data Warehouse
między innymi, studentów prywatnej szkoły wyższej, nie są
dobrym unaocznieniem faktu przydatności technologii Data
Warehousing do wspomagania podejmowania decyzji
strategicznych.
• Technologia Data Warehousing zakłada okresowe, ale nie
transakcyjne, aktualizowanie bazy danych Data Warehouse –
zarówno danymi z transakcji - dotyczącymi zdarzeń
zachodzących wewnątrz firmy, jak również zdarzeniami
występującymi w otoczeniu firmy.
13
Zasilanie Data Warehouse z
wielu źródeł
14
Proces tworzenia
zawartości
• Jak pokazano na poprzednim slajdzie, zawartość Data
Warehouse tworzona jest w oparciu o dane transakcyjne
pobierane np. z systemów dziedzinowych wspomagania
działalności operacyjnej firmy – Sales (sprzedaż);
Engineering (konstrukcja); Manufacturing (produkcja) i
Finance (finanse).
• Proces tworzenia zawartości Data Warehouse składa się z
czterech podstawowych kroków - procesów, zwanych
odpowiednio:
– Extracting,
– Cleansing,
– Transforming,
– Moving & Loading.
• Kolejne slajdy, są poświęcone omówieniu powyższych
czterech procesów.
15
E – Extracting (Data
Acquisition)
• Źródłem zasilania każdego Data Warehouse, są systemy
dziedzinowe wspomagania działalności operacyjnej firmy
(co już zostało pokazane na poprzedzających slajdach) lub
systemy zewnętrzne w stosunku do firmy obsługiwanej
przez dany Data Warehouse, np. system banku
prowadzącego rachunek firmy, system informacji
statystycznej GUS, system informacji giełdowej.
• Proces Data Extracting, zwany również Data Acquisition,
pobiera wyspecyfikowane dane z systemów źródeł zasilania
danymi, a następnie umieszcza je w niezmienionym
formacie w obszarze roboczym Data Warehouse.
• Proces Data Extracting, jest realizowany w oparciu o
specyfikacje ekstrakcji określone w Meta Data.
Przykładowo, specyfikacje te mogą mieć format instrukcji
zapisanych w języku SQL.
16
C – Cleansing
•
Dane pozyskiwane przez proces Data Extracting
, a
następnie umieszczone w obszarze roboczym Data
Warehouse, zachowują formaty i kody systemów
źródłowych.
•
Funkcjonalność procesu Data Cleansing, umożliwia:
– Unifikację formatów danych pochodzących z różnych źródeł, np.
unifikowanie formatów daty, itp.
– Unifikację kodów danych pochodzących z różnych źródeł, np. kodów
płci lub unifikację kodów stanu cywilnego, itp.
– Usunięcie danych nadmiarowych (powtarzających się), z obszaru
roboczego.
– Wstępna weryfikacja i kontrola zgodności danych pochodzących z
różnych źródeł oraz usuwanie danych błędnych.
•
Proces Data Cleansing, jest realizowany w oparciu o
specyfikacje unifikacji, czyszczenia i walidacji - określone w
Meta Data. Przykładowo, specyfikacje te mogą mieć
format instrukcji zapisanych w języku SQL.
17
T – Transforming
• Dane zapisane w obszarze roboczym Data Warehouse – w
wyniku działania procesów Data Extracting oraz Data
Cleansing, posiadają wprawdzie strukturę zunifikowaną, ale
nadal typową dla źródła pochodzenia, a nie dla Data
Warehouse.
• Funkcjonalność procesu Data Transforming umożliwia:
– Tworzenie danych pochodnych, w stosunku do danych uzyskanych
źródłowych, np. wyznaczanie wartości miernika ROI (zwrot nakładów
inwestycyjnych) dla danego przedziału czasu, które to dane
pochodne zostaną zapisane w Data Warehouse.
– Przekształcanie danych ze zunifikowanych formatów źródłowych, do
formatów tabel Data Warehouse, to jest rekordów umożliwiających
aktualizację tabel faktów i tabel tworzących tzw. kostki
wielowymiarowe danych. Tę funkcjonalność nazywamy Data
Mining.
• Proces Data Transforming, jest realizowany w oparciu o
specyfikacje tworzenia danych pochodnych, rekordów
aktualizujących tabele faktów oraz tabele „kostek
wielowymiarowych danych” - określone w Meta Data.
Przykładowo, specyfikacje te mogą mieć format instrukcji
zapisanych w języku SQL.
18
ML – Moving & Loading
• Dane zapisane w obszarze roboczym danego Data
Warehouse – w wyniku działania procesów Data
Extracting, Data Cleansing oraz Data Transforming,
mają formaty umożliwiające bezpośrednią aktualizację (lub
zakładanie) poszczególnych Data Mart wchodzących w skład
systemu Data Warehousing, z pomocą specjalizowanego
procesu ładowania i aktualizacji bazy danych DBMS.
• Funkcjonalność procesów Data Moving & Loading
umożliwia:
– Wskazanie specjalizowanemu procesowi ładowania i aktualizacji bazy
danych, którymi danymi ma być zaktualizowany dany Data Mart.
– Uruchomienie działania specjalizowanego procesu ładowania i
aktualizacji bazy danych.
– Powtórzenie powyższych dwu czynności dla kolejnych Data Mart
wchodzących w skład systemu Data Warehousing.
• Proces Data Moving & Loading, jest realizowany w oparciu
o specyfikacje ładowania i aktualizacji poszczególnych Data
Mart - określone w Meta Data. Przykładowo, specyfikacje te
mogą mieć format instrukcji zapisanych w języku SQL.
19
Pierwsze scentralizowane
rozwiązania
• Podstawową wadą pierwszych
scentralizowanych Data Warehouse’ów
budowanych w oparciu o dosłowne rozumienie
idei Billa Inmona
-
były gigantyczne wprost
rozmiary oraz związane z tymi rozmiarami
bardzo długie czasy ładowania danych do Data
Warehouse’u.
• Kolejnym problemem, wynikającym z rozmiarów
Data Warehous’u były długie czasy dostępu do
potrzebnych danych.
• Spowodowało to, odejście od rozwiązań
scentralizowanych i poszukiwanie sukcesu na
drodze pełnej decentralizacji Data Warehous’ów.
20
Podejście zcentralizowane - Data
Warehouse
21
Rozwiązanie
zdecentralizowane
• Klasyczny Data Warehouse - został więc podzielony na mniejsze jednostki,
zwane umownie Data Marts, powstał w ten sposób model całkowicie
zdecentralizowanego Data Warehouse’u.
• Tak więc - Data Mart to Data Warehouse zorientowany na obsługę informacyjną
mniejszych jednostek organizacyjnych, jak np. piony funkcjonalne lub jednostki
obsługujące określony segment rynku.
• Rozwiązanie zdecentralizowane posiada również wady. Jeśli firma (korporacja)
posiada
kilka niezależnie zaprojektowanych Data Mart’ów, to zachodzi
niebezpieczeństwo braku synchronizacji informacji zawartych w poszczególnych
Data Mart’ach.
• Jeśli dodamy do tego, że ten sam termin - może być rozumiany inaczej w
różnych jednostkach organizacyjnych firmy, to staje się jasnym, dlaczego
groźny jest – brak synchronizacji Data Mart’ów.
Np. pojęcie wielkość sprzedaży jest różnie interpretowane w: (1) biurze
sprzedaży, gdzie jest rozumiane jako wartość przyjętych do realizacji zamówień
klientów; (2) produkcji, gdzie jest rozumiane jako produkcja zdana do magazynu
wyrobów gotowych; (3) magazynie, gdzie jest rozumiana jako produkcja
ekspediowana do klienta; (4) w finansach, gdzie jest rozumiana jako produkcja
dostarczona na zamówienie klienta i zapłacona.
22
Podejście zdecentralizowane –
indywidualne Data Mart’y
23
Podejście współczesne
•
Łączne wady przyjętych wcześniej rozwiązań
scentralizowanego oraz całkowicie zdecentralizowanego
Data Warehouse’u – usunięto przez opracowanie modelu
Data Warehouse - złożonego z centralnego Data Store’u z
którego ładowane są dziedzinowe Data Mart’y.
•
Rozwiązanie to pozwoliło, z jednej strony na prowadzenie
wspólnego Meta Data dla całego Data Warehouse’u, z drugiej
strony na wspólne przygotowywanie aktualizacji
poszczególnych Data Mart’ów przez jeden wspólny program
Data Mining operujący na wspólnych surowych danych
dostarczanych z różnych źródeł do Data Store – przez
programy Extraction oraz Cleansing.
•
Z kolei użytkownicy Data Warehouse’u w zależności od
potrzeb mogą korzystać z jednego lub więcej Data Mart’u,
mając pewność, że uzyskiwane informacje są spójne i
jednoznaczne, niezależnie od tego z jakiego Data Mart’u
zostały uzyskane.
24
Podejście współczesne – Data Warehouse,
czyli
centralny Data Store i departamentowe
Data Marts
Store
25
Meta-Dane
•
Meta-Dane (Metadata), to charakterystyka wszystkich danych
występujących lub powiązanych z architekturą systemu Data
Warehousing (tj. E/C/T/ML, OLAP, itp.). Charakterystyki danych -
obok formatów i opisu danych, obejmują również wskazanie
miejsc (programów), które wykorzystują dane.
•
Meta-Dane przechowywane są w transakcyjnej relacyjnej bazie
danych – zwanej repozytorium (repository) Meta-Danych.
•
Dla ułatwienia synchronizacji Meta-Danych - pomiędzy dwoma
lub więcej produktami - oprogramowaniem Data Warehousing
pochodzącym od różnych dostawców, opracowano dwa
standardy dotyczące Meta-Danych:
– Tzw. Open Information Model opracowany przez firmę Microsoft,
przeznaczony dla dostawców oprogramowania systemów Data Warehouse,
umożliwiający ujednolicenie struktury repozytorium Meta-Danych;
– Tzw. technologię PLATINUM zawierającą schematy translacji dla
istniejących architektur systemów Data Warehousing – oferowanych przez
niezależnych dostawców do postaci określonej przez Open Information
Model.
26
Schemat Meta Danych
27
Metoda Balanced
Scorecard
• Balanced Scorecard (tzw. Strategiczną kartą wyników);
• Business Processes (tzw. Procesy biznesowe);
• Data Warehousing Technology.
• To trzy metody łącznie - tworzące istotę podejścia do
komputerowo wspomaganego zarządzania
strategicznego, zapewniając równocześnie niezbędną
integrację – procesów zarządzania.
• Perspektywy Balanced Scorecard (Finansów, Klientów,
Procesów biznesowych i Rozwoju firmy) – zawierają
zestaw mierników, które z kolei wyznaczają model
danych (Data Model) – decydujący o niezbędnej
zawartości informacyjnej Data Warehouse.
28
Składowe Data
Warehousing
Baza danych
No 1
Baza danych
No 2
Baza danych
No 3
Proces
C
Magazyn
danych
(Data
Store)
Proces
T
Data Model
Data Mart
B
OLAP
Meta
data
Perspektywy Balanced Scorecard
Procesy biznesowe firmy
wspomagane systemami transakcyjnymi
Proces E
Data Mart
C
OPAP
Data Mart
A
OLAP
Proces
ML
29
Procesy tworzenia i aktualizacji Data
Warehouse
D a n e tr a n s a k c y jn e
I n fo r m a c j e
A d m in is tr o w a n i e
S r o d o w is k o k o m p u te r o w e
0
P r o c e s y tw o r z e n ia
D a ta W a r e h o u s e
30
Dekompozycja procesów
S ro d o w is k o k o m p u te r o w e
A d m in is tr o w a n ie
D a n e tra n s a k c y jn e
In fo rm a c je
D a n e d o
c z y s z c z e n ia
D a n e
o c z y s z c z o n e
D a n e d o
a k tu a liz a c ji
1
E x tra c tio n
2
C le a n s in g
3
T r a n s fo r m in g
(D a ta M in in g )
4
M o v in g
& L o a d in g
31
Procesy Data Extraction
S ro d o w is k o k o m p u te r o w e
A d m in is tr o w a n ie
D a n e d o c z y s z c z e n ia
D a n e t ra n s a k c y jn e
1
P r o c e d u r a
" E x tr a c tio n "
1 B a z a D a n y c h _ N o _ 1
2 B a z a D a n y c h _ N o _ 2
3 B a z a D a n y c h _ N o _ 3
4 R o b o c z y _ I
5 M e ta d a ta
32
Procesy Data Cleansing
S ro d o w is k o k o m p u te r o w e
A d m in is tr o w a n ie
D a n e d o c z y s z c z e n ia
D a n e o c z y s z c z o n e
1
P ro c e d u r a
" C le a n s in g "
4 R o b o c z y _ I
6 R o b o c z y _ II
5 M e ta d a ta
33
Procesy Data Transforming
S ro d o w is k o k o m p u te r o w e
A d m in is tr o w a n ie
D a n e o c z y s z c z o n e
D a n e d o
a k tu a liz a c ji
1
P r o c e d u r a
" T r a n s f o r m in g "
6 R o b o c z y _ I I
7 R o b o c z y _ I I I
5 M e ta d a ta
34
Procesy Data Moving &
Loading
S ro d o w is k o k o m p u te r o w e
A d m in is tr o w a n ie
D a n e d o
a k t u a liz a c ji
I n fo r m a c je
1
P r o c e d u r a
" M o v in g
& L o a d in g "
7 R o b o c z y _ III
1 1 D a ta M a rt_ A
9 D a ta M a rt_ B
1 0 D a ta M a rt_ C
5 M e ta d a ta
35
Struktura procesów tworzenia i
aktualizacji Data Warehouse
0
P ro c e s y t w o r z e n ia
D a t a W a r e h o u s e
1
E x tr a c tio n
2
C le a n s in g
3
T ra n s fo rm in g
( D a ta M in in g )
4
M o v in g
& L o a d in g
P ro c e d u ra
" E x tr a c tio n "
P ro c e d u ra
" C le a n s in g "
P ro c e d u ra
" T ra n s fo r m in g "
P ro c e d u ra
" M o v in g &
L o a d in g "
36
Piramida użytkowników Data
Warehouse
37
Użytkownicy Data
Warehouse
• Statistician (statystycy): pojęcie to obejmuje zarówno osoby
sporządzające statystyki dla potrzeb firmy, jak również osoby
prowadzące badania operacyjne.
• Knowledge Workers (specjaliści): pojęcie obejmuje stosunkowo
nieliczną grupę osób formułujących masowe zapytania (kwerendy)
Data Warehouse oraz prowadzącą analizy w oparciu o dane
zgromadzone w Data Warehouse.
• Information Consumers (konsumenci informacji): pojęcie
obejmuje większość użytkowników Data Warehouse, korzystających
bezpośrednio głównie z gotowych raportów oraz zestawień
tworzonych w ramach EIS.
• Executive (naczelne kierownictwo): pojęcie obejmuje członków
naczelnego kierownictwa firmy (korporacji) wchodzących w skład
zarządu korzystających bezpośrednio głównie z gotowych raportów,
zestawień tworzonych w ramach EIS oraz pośrednio ze statystyk,
wyników badań operacyjnych oraz kwerend przygotowanych przez
statystyków oraz specjalistów.
38
Struktura powiązań
• Jak zostało powiedziane wcześniej, typowa struktura Data
Warehouse zawiera dwa typy tabel:
– Tabele faktów
– Tabele składające się na „kostki wielowymiarowe danych”.
• Tabele faktów zawierają praktycznie klucze obce (forein
key), umożliwiające szybki dostęp do indywidualnych
informacji zawartych w tabelach składających się „kostki
wielowymiarowe danych”.
• „Kostki wielowymiarowe danych” zawierają szeregi
czasowe danych, np. wyniki egzaminów i zaliczeń z
poszczególnych przedmiotów, uzyskiwane w na kolejnych
semestrach studiów.
• W dalszym ciągu, wyróżniać będziemy dwa typy powiązań
pomiędzy tabelami faktów i tabelami składającymi się
„kostki wielowymiarowe danych”. Są to:
– Struktura typu „gwiazda”.
– Struktura typu „płatek śniegu”.
39
Struktura typu gwiazda
„Fakty”
„Dane studenta”
„Wyniki nauki”
„ Czesne i inne opłaty”
„Dane szkoły średniej”„Jednostki czasu”
40
Struktura typu gwiazda
Fakty
id_student
id_status
id_kierunek
id_specjalnosc
id_grupa
id_semestr
id_dyplom
id_akademik
Student
id_student
nazwisko
imie
data_urodzenia
imie_ojca
adres
matura
zdjecie
indeks
data_rozp
Akademik
id_akademik
nazwa
adres
numer_pokoju
data_zam
Semestr
id_semestr
nr_semestru
komentarz
id_grupa (FK)
Kierunek
id_kierunek
nazwa
lista_specjalnosci
nr_programu
id_grupa (FK)
id_specjalnosc (FK)
Specjalnosc
id_specjalnosc
nazwa
nr_programu
id_grupa (FK)
Grupa
id_grupa
typ
symbol_grupy
id_semestr
opiekun_grupy
Status
id_status
Dyplom
id_dyplom
nazwa_ust?
temat
praca_przyjeta?
praca_recenz?
dopuszczenie_egzam?
data_egzaminu
wynik_egzam
dyplom_wyd
41
Zasada tworzenia struktury typu
płatek śniegu
42
Struktura typu płatek
śniegu
„Studenci”
„Dane studenta”
„Wyniki nauki”
„ Czesne i inne opłaty”
„Dane szkoły średniej”„Jednostki czasu”
„Czesne w ratach
43
Struktura
systemów
informatycz
nych
firmy
Przetwarzanie transakcyjne na
OLTP-RDB
Przetwarzanie okresowe: planowanie;
budżetowanie; sprawozdawczość; itp.
na OLTP-RDB
E/C/T/ML –
Przetwarzanie
zasilające Data
Warehouse
danymi z RDBMS i
zewnętrznymi
Data
Warehouse
RDB
EIS
OLAP
Legenda:
1.
EIS – Executive Information System
2.
OLAP – On-Line Analytical
Processing czyli analizowanie
wielowymiarowych „kostek”
3.
RDB – relacyjna baza danych
4.
E – Extracting czyli pobieranie
danych zasilania
5.
C – Cleansing czyli czyszczenie
danych
6.
T – Transforming czyli
przekształcanie
7.
ML – Moving & Loading czyli
ładowanie
8.
OLTP – On-Line Transaction
Processing
44
Uwagi dotyczące
prowadzenia DW
• Systemy źródła danych dla Data Warehouse ulegają
ciągłym zmianom, ze względu na nowe wymagania
biznesu oraz zmiany typu łączenia firm (mergers).
• Platformy sprzętowo-programowe Data Warehouse i
Data Marts będą się zmieniać i osiągać coraz lepsze
parametry eksploatacyjne.
• Standardy przemysłowe będą podlegały stałemu
rozwojowi, któremu towarzyszy wzrost wymagań na
produkty i obsługę.
• Wymagania prowadzących biznes oraz zasady
planowania strategicznego - będą się zmieniać i
rozrastać.
• Wolumen danych będzie szybciej rosnąć,
prawdopodobnie znacznie szybciej niż wyobrażamy
sobie to na początku.
45
CRM – Zarządzanie związkami z
klientem
• Jedną z tzw. Business Intelligence Application, jest Customer
Relationship Management (w skrócie CRM). Powstanie CRM
wiąże się z tzw. Customer -Driven Company.
• Praktyczne zastosowanie CRM wymagało opracowania:
– Technologii Data Warehousing (technologii umożliwiającej efektywne
operowanie wielkimi plikami danych historycznych);
– Multi Channel Contact Server (urządzenia komputerowego
umożliwiającego koncentracje informacji pochodzących z wielu
różnorodnych kanałów informacyjnych, takich jak telefon, fax, e-mail,
itd.), zwanego również Call Center.
• Efektywne działanie CRM wymaga obok informatyzacji strony
popytu firmy (demand), wymaga również informatyzacji
strony podaży (supply) firmy oraz ścisłego współdziałania tych
dwóch części składowych, dających w wyniku tzw. Business
Intelligence Application.
46
1990s-2005
A Customer-Driven
Company
Product
Advertising
Sales
Distribution
Customer
Driven
Company
Customer
Customer
Customer
Needs
Firma typu Customer-Driven Company musi:
1. Modyfikować swoje kanały komunikacji z klientami, tak żeby
„słuchać” opinii klientów;
2. Określić jakie dane dotyczące klientów i popytu należy
gromadzić;
3. Opracować metodę efektywnego wykorzystywania informacji
zebranych od klientów,
tak aby w wyniku - tworzyć i dostarczać lepsze produkty i usługi
klientom.
47
Wyspy informacyjne firmy
48
Zasady działania CRM
D
E
M
A
N
D
S
U
P
P
L
Y
Distribution
Human
Resources
Manufacturing
Finance
Operations
Contact Management
Internet
Sales
Retail
Customer
Service
Customers
Intermediaries
Direct Channels
Indirect Channels
Sales
Distributors
Customer Management
Strategic Development
& Planning
Market Intelligence
& Research
Information Management
Product
Management
Channel
Management
MarCom
Management
Customer
49
Łańcuchy popytu i podaży
Internet
Orders
(
Cust
. Owner)
Functions:
•
Order
Mgt
•
Billing
•
AR
(Product Owner)
Functions:
•
Inventory
Mgt
•
General Ledger
•
MRP
(
Mktg
Data Mart)
Functions:
•
Campaign
Mgt
•
Channel
Mgt
•
DSS
Inventory Details
Order/Sales Info
Journal Entries
Customer Details
Reporting
Reporting
EIS
Extract
Extract
Reporting
Extract (B)
Reporting
Extract (B)
Customer
Profile
Data
Call
Center
50
Kompone
nty
funkcjonal
ne
architektu
ry CRM
51
Porównanie dwóch klas
relacyjnych baz danych
• OLTP RDB (aktualizowane transakcjami) - relacyjne bazy
danych, służące do obsługi tzw. operational systems:
– Obsługa transakcji czyli OLTP;
– Obsługa wsadowego przetwarzania okresowego, planistycznego
oraz sprawozdawczego;
– Dostarczanie informacji klasy „structured” - dla szeroko
rozumianego kierownictwa, w szczególności nadzoru.
• Data Warehouse RDB (aktualizowane wsadowo) –
relacyjne bazy danych, służące do obsługi Data
Warehousingu:
– Obsługa funkcji E
xtracting
/C
leansing
/T
ransforming
/M
oving &
L
oading
;
– Obsługa funkcji D
ata
M
ining
(część funkcjonalności T
ransforming)
;
– Obsługa funkcji OLAP;
– Dostarczanie informacji klasy „semi-structured” - dla
naczelnego kierownictwa, składających się łącznie na EIS.
52
Literatura tematu
1.
Dave Browning & Joy Mundy – Data Warehouse Design Considerations,
Microsoft® SQL Server™ 2000, December 2001, http://www.microsoft.com.
2.
James F. Courtney (Jr.), David B. Paradice – Database Systems for Management,
Times Mirror/Mosby College Publishing, St. Louis USA 1988.
3.
Joseph M. Firesone – Dimentional Modeling and E-R Modeling in The Data
Warehouse, Executive Information Systems, Inc. USA, White Paper No. Eight
June 22, 1988.
4.
Tomas Flanagan, Elias Safdie (editors) – A Practical Guide to Getting Started
with Data Warehousing, http://
The Applide Technology Group, Main
USA 1997.
5.
Tomas Flanagan, Elias Safdie (editors) – Building a Decision Support
Architecture for Data Warehousing, http://www.techguide.com The Applide
Technology Group, Main USA 1997.
6.
Tomas Flanagan, Elias Safdie (editors) - Building a Successful CRM Environment,
http://www.techguide.com The Applide Technology Group, Main USA 1998.
7.
Tomas Flanagan, Elias Safdie (editors) – Putting Metadata to Work in the
Warehouse, http://www.techguide.com The Applide Technology Group, Main
USA 1998.
53
Literatura tematu
8.
Tomas Flanagan, Elias Safdie (editors) – Data Warehousing Today:
Summaries and Subsets, http://www.techguide.com The Applide
Technology Group, Main USA 1999.
9.
Robert S. Kaplan, David P. Norton – Strategiczna karta wyników:
Jak przełożyć strategię na działanie (tłumaczenie z języka
angielskiego), Artur Andersen – Wydawnictwo Naukowe PWN,
Warszawa 2001.
10. Oracle Balanced Scorecard - http://
Corporation, California USA 1999.
11. Jerry Rajan (editor) - Building and Deploying an Enterprise Data
Warehouse, http//
Group, Main USA 2000.