1
Wróżenie z fusów – czyli hurtownie danych
Zasoby
informacyjne
przedsiębiorstwa
najczęściej
są
gromadzone w różnych bazach operacyjnych.
Dostęp do najbardziej aktualnych danych jest kluczowym
czynnikiem w codziennej pracy każdej firmy.
Ceny produktów, adresy dostawców, stany magazynowe czy
stany finansów muszą się zmieniać na bieżąco – wynika to z
faktu, że tego typu dane szybko ulegają przedawnieniu i stają się
nie aktualne i tylko obciążają system stają się „fusami” dla
systemu informacyjnego.
Takie dane historyczne „fusy” mogą stanowić kopalnie wiedzy
dla analityków firmy. Problem polega jednak na umiejętnym
wydobyciu z nich informacji o strategicznym znaczeniu dla firmy.
Takie wydobycie polega na ich odpowiednim połączeniu i
przedstawieniu w czytelnej formie kierownictwu.
Czas i trudności wynikające z takiego scalania i wydobywania
danych jest często przyczyną budowy scentralizowanego systemu
analizy i raportowania zwanego hurtownią danych – data
warehouse.
Wszystko zaczęło się jednak od systemów o przetwarzaniu
operacyjnym – baz danych. Najczęściej obsługują one operacje
on-line, czyli można stwierdzić, że są to operacje czasu
rzeczywistego.
Przykład 1.
2
Przykładowo do zakładu wpływa zamówienie na zakup 1000 okien
system operacyjny sprawdza czy ma potrzebne ilości surowca do
wyprodukowania 1000 okien i odejmuje je od bieżącego stanu magazynowego
(oczywiście przykład jest maksymalnie uproszczony – nowoczesne systemy
uciekają się do analizy zasobów produkcyjnych, kapitałowych, struktury
wyrobów itd.). Wynika z tego, że systemy operacyjne pomagają w codziennym
funkcjonowaniu przedsiębiorstwa (alarmują gdy brakuje jakiejś pozycji w
magazynie, powiadamiają ile czasu zostało do realizacji płatności, monitorują
ogólny stan dostępnego kapitału).
Jak
zmienia
się
sytuacja,
gdy
użytkownik
systemu
operacyjnego zada pytanie, jaki rodzaj okien jest sprzedawany w
różnych obszarach kraju? W tym momencie jest to już „obszar”
analizy. Najczęściej analiza dokonywana jest na podstawie
trendów historycznych, czyli ma duże odniesienie do danych
historycznych i jest uzależniona od skali czasu.
System operacyjny (oparty o klasyczną bazę danych) nie
posiada możliwości dokonywania analiz porównawczych, lub
posiada je w bardzo ograniczonym zakresie. Często bywa tak, że
próba analizy przeprowadzona z użyciem systemu operacyjnego
kończy się zaabsorbowaniem wszystkich jego zasobów, co może
doprowadzić do czasowego (np. kilkugodzinnego paraliżu
informatycznego firmy). Bywa też tak, że struktura danych
uniemożliwia realizację odpowiedzi na dane zapytania.
Systemy analityczne (analityczne bazy danych - hurtownie
danych) są bardzo silnie powiązane z czasem. Przechowują
3
najczęściej dane historyczne, które są umocowane w do
odpowiednich punktów czasowych.
Przeprowadzanie analiz trendów, tendencji np. rynkowych
wymaga od systemu posiadania zgromadzonej ogromnej ilości
danych. Może to pozwolić na przewidzenie zmian, które wpłyną
na kształt rynku w przyszłości, co następnie przełoży się na
strategiczne decyzje dotyczące np. rozwoju pewnego produktu
.
Na
podstawie
powyższych
rozważań
można
wysnuć
następujące wnioski:
•
Dane w systemach operacyjnych są nietrwałe (bazy
danych)
•
Dane w systemach analitycznych są trwałe (swoistego
rodzaju archiwum) –(hurtownie danych).
Od systemu operacyjnego (opartego na bazie danych)
wymaga się:
Przyjmowania danych i bieżącego wprowadzanie zmian w
danych zawartych w bazie danych.
Śledzenia operacji.
Przedstawiania raportów.
Utrzymania integralności danych.
Szybkiego wykonywania operacji.
4
Analityczna baza danych (hurtownia danych) ma za
zadanie:
Przyjmować i archiwizować duże ilości danych
Dokonywać wstępnych analiz poprzez mechanizm migawek
Być bazą danych tylko do odczytu uniemożliwiając
manipulację danymi
Zapewniać stały dostęp do informacji w procesie
podejmowania decyzji.
Systemy analityczne zazwyczaj nie wspierają żadnej z usług
operacyjnych baz danych.
Hurtownia danych
Hurtownia danych to trwała analityczna baza danych, która
staje się podstawą „fundamentem” systemu wspomagani
podejmowania decyzji. Jest ona projektowana dla dużej liczby
danych stałych. Zapewnia ona stały dostęp do informacji w
trakcie podejmowania decyzji. Jest to przedsięwzięcie rozwijające
się, które zapewnia dostęp do właściwych danych właściwym
użytkownikom, we właściwym czasie.
Często tworzone są hurtownie danych, które są zorientowane
na konkretny temat np. analiza sprzedaży, czy finanse,
5
marketing. Nazywane są wtedy hurtowniami tematycznymi
(targowiskiem
danych).
Dostosowane
są
do
potrzeb
użytkowników, co wiąże się z odpowiednią detalizacją danych
(ziarnistością
hurtowni),
która
określona
jest
w
sferze
zainteresowań grupy docelowej, dla której jest tworzona
hurtownia.
Dobrym sposobem jest stworzenie hurtowni danych dla
poszczególnych oddziałów, a później wykorzystanie kolejnej
hurtowni danych, która będzie analizowała dane dla całego
przedsiębiorstwa
.
Architektura jest zbiorem zasad i struktur będących
szkieletem ogólnego projektu systemu lub produktu. Do
najpopularniejszych architektur należą:
Architektura sieciowa
Architektura klient serwer
Architektury dla konkretnych produktów
6
Rys. 1 Przykładowa architektura hurtowni danych.
DANE ŹRÓDŁOWE – są to dane z różnych operacyjnych baz danych,
plików, segmentów w zależności od platform, jakie są używane przez
przedsiębiorstwo. Dane takie są wydzielane z systemów źródłowych i po
konwersji umieszczane w hurtowni danych.
INTEGRACJA DANYCH – w środowisku hurtowni danych integracja to
proces, w którym charakter danych źródłowych jest zmieniany przed
wprowadzeniem ich do hurtowni danych. Integracja danych występuje
najczęściej, gdy dane są wydzielane z systemów operacyjnych, podlegają
konwersji typów, zmianie kodów i uzgadnianiu definicji danych.
TRANSFORMACJA DANYCH – proces zmiany danych pobranych z
hurtowni w informacje, do których ma dostęp końcowy użytkownik.
W procesie transformacji są wykorzystywane struktury i zawartość hurtowni
danych, które zostają zamienione na użytkowe, wartościowe informacje przez
ich formatowanie, podsumowywanie i/lub obrazowanie w konkretny sposób.
Transformacja danych jest najczęściej wykorzystywana za pomocą narzędzi
dostępu do aplikacji.
7
Układ gwiaździsty a hurtownia danych.
Układ gwiaździsty jest specyficznym rodzajem struktury
bazy danych wykorzystywanej w przetwarzaniu analitycznym,
charakteryzuje się on tym, że zawiera dwa typy tabel – tabele
faktów oraz tabele wymiarów. Tabele faktów zawierają dane
ilościowe lub fakty dotyczące działalności firmy, natomiast tabele
wymiarów są mniejsze i przechowują opisowe dane, które
przedstawiają wymiary prowadzonego biznesu.
Rys.1 Prosta baza danych o schemacie gwieździstym, tabele faktów i wymiarów
Spotyka się także różne odmiany schematu gwieździstego, w
których występuje więcej niż jedna tabela faktów rys 2. (mogą one
występować wielokrotnie). Dodanie nowej tabeli faktów może się
wiązać z dodaniem tabeli dla nowego roku. Czyli pojawia się nowa
tabela o niemal identycznej strukturze, co dotychczasowa tabela
faktów z tą różnicą, że dotyczy następnego roku rozliczeniowego.
8
Rys. 2. Odmiana schematu gwieździstego zawierająca więcej niż jedną tabelę faktów
W schemacie analitycznej bazy danych mogą wystąpić także
tabele zewnętrzne. Wystąpią one wtedy, gdy tabela wymiaru
zawiera klucz obcy, który jest kluczem głównym innej tabeli
wymiaru. Tabele, z której pochodzi ten klucz nazywana jest
zewnętrzną tabelą wymiaru. Możliwa jest również sytuacja, w
której tabele zewnętrzne są ze sobą powiązane i tworzą hierarchię
tabel wymiarów zorganizowanych w znormalizowaną bazę
danych.
sprzeda
ż
miesi
ę
czna
PK
sp_m_id
ilo
ść
FK1
id_okresu
FK2
id_towaru
sprzeda
ż
dzienna
PK
sprz_id
sprzeda
ż
dzienna
FK1
id_okresu
FK2
id_towaru
ilo
ść
sprzeda
ż
roczna
PK
sp_r_id
ilo
ść
FK1
id_okresu
FK2
id_towaru
towar
PK
id_towaru
opis towaru
FK1
id_opak
FK2
id_mag
okres
PK
id_okresu
dzie
ń
miesi
ą
c
kwartał
opakowanie
PK
id_opak
pojemno
ść
magazyn
PK
id_mag
ulica
kod
9
Inna odmiana schematu gwieździstego zakłada przechowywanie
wszystkich informacji dotyczących wymiarów w trzeciej postaci
normalnej, a pozostawia bez zmian strukturę tabel faktów. Taki
rodzaj schematu gwieździstego nazywany jest „płatkiem śniegu”.
Kolejne odmiany są już kombinacjami schematu gwieździstego
tworząc schematy wielogwieździsty.
Rys.3 Schemat bazy danych „płatek śniegu”.
Korzyści wynikają ze stosowania schematu gwieździstego:
•
Szybki czas odpowiedzi na zapytania.
•
Prosta i przejrzysta struktura bazy danych, umożliwiająca lepsze jej
wykorzystanie.
•
Paralele pomiędzy projektem bazy danych, a tym, w jaki sposób
użytkownicy są przyzwyczajeni do myślenia o danych i ich używaniu.
•
Struktura bazy pozwala na łatwe i przejrzyste poznanie metadanych
zarówno przez projektanta jak i późniejszego użytkownika, czy
administratora.
•
Biorąc pod uwagę, że są produkty dostępu do danych, które wymagają
schematu gwieździstego powiększa się ilość narzędzi, które mogą
wspomóc tworzenie i korzystanie z bazy danych.
OKRES
PK
ID_OKRES
FK1
ID_KWARTL
FK2
ID_ROK
PRODUKT
PK
ID_PROD
FK1
ID_MARKA
FK2
ID_ROZM
KWARTAŁ
PK
ID_KWARTL
ROK
PK
ID_ROK
MARKA
PK
ID_MARKA
ROZMIAR
PK
ID_ROZM
SPRZEDAZ
PK
ID_SPRZEDAZ
FK1
ID_OKRES
FK2
ID_PROD
FK3
RYNEK_ID
RYNEK
PK
RYNEK_ID
FK1
REGION_ID
FK2
DYSTRYKT_ID
REGION
PK
REGION_ID
DYSTRYKT
PK
DYSTRYKT_ID