BAZY DANYCH
Wyk 6
Potrzeba analizy danych dotyczących bieżącej i przyszłej
działalności organizacji była impulsem do powstania nowych
systemów informatycznych.
Analiza taka stanowi podstawę do podejmowania decyzji
dotyczących zarządzania przedsiębiorstwem.
Istniejące dotychczas systemy informatyczne nie mogą
dostarczyć potrzebnych danych, gdyż są oparte na bazach
danych (operacyjnych), mogą być rozproszone, niejednorodne a
często nie są zintegrowane.
Układ danych jest dostosowany do działań operacyjnych, dane
są więc przechowywane w sposób umożliwiający ich
modyfikacje. W operacyjnych bazach danych przechowuje się na
ogół dane odzwierciedlające jedynie aktualny stan lub najnowszą
historię, tymczasem do analiz i porównań potrzebne są
długookresowe dane historyczne.
Rozwiązaniem zaistniałego problemu okazała się
Hurtownia Danych (Data Warehouse).
„Hurtownia danych to zbiór
zintegrowanych, nieulotnych,
ukierunkowanych baz danych,
wykorzystywanych w systemach
wspomagania decyzji.”
W.H.Inmon
OLTP – On-Line Transaction Processing
(przetwarzanie transakcyjne)
OLAP – On-Line Analytical Processing
(przetwarzanie analityczne)
OLTP – On-Line Transaction Processing
Zadaniem systemów OLTP jest wydajne obsługiwanie zmian
danych, wprowadzanych przez wielu użytkowników
Najczęściej systemy OLTP sprawnie obsługują wielką liczbę
niewielkich transakcji wykonywanych równocześnie.
OLAP – On-Line Analytical Processing
W przetwarzaniu analitycznym wielodostęp i efektywna
modyfikacja danych są problemami drugorzędnymi.
Istotna jest natomiast efektywność operacji:
Wyszukiwania
Odczytu
Agregowania bardzo dużych objętości danych
OLAP – On-Line Analytical Processing
Najbardziej typowym zadaniem systemu OLAP jest analiza
wielowymiarowa. Dane gromadzone w hurtowniach danych
najczęściej bowiem mają charakter wielowymiarowy –
umożliwiają prowadzenie analiz wpływu wielu czynników na
zjawiska zachodzące w organizacji.
Struktura wielowymiarowa przedstawia elementarne komórki
danych, tzw.
fakty
, w funkcji wielu niezależnych czynników,
zwanych
wymiarami
.
Wymiary są opisywane wartościami dyskretnymi,
które mogą tworzyć hierarchię
Przykład typowych wymiarów:
Czas (np. w dniach, miesiącach, kwartałach latach)
Produkt (np. typ, rodzaj)
Jednostka organizacyjna (np. wydział, oddział)
Terytorium (np. gmina, powiat, województwo)
Fakty opisane są atrybutami liczbowymi –
miarami.
OLAP
OLTP
Dane zorientowane
tematycznie
Dane zorientowane
procesowo
Duża wielkość (od
kilkudziesięciu GB do
kilku TB)
Mała wielkość
(kilkadziesiąt MB – kilka
GB)
Przechowywane są dane
historyczne
Przechowywane są dane
teraźniejsze
Zdenormalizowana
struktura danych (kilka
tabel – wiele kolumn w
tabeli)
Znormalizowana
struktura danych (wiele
tabel – kilka kolumn w
tabeli)
Złożone zapytania
Proste zapytania
Dane zagregowane
Dane jednostkowe
OLAP/OLTP - porównanie
Systemy OLAP które są spotykane na świecie można
podzielić na dwa główne typy :
ROLAP (Relational OLAP) czyli systemy relacyjne.
MOLAP (Multidimensional OLAP) - systemy
wielowymiarowe.
HOLAP (Hybrid OLAP) które są połączeniem ROLAP i
MOLAP.
Hurtownie danych
ROLAP
Pierwszym z nich motor ROLAP kieruje zapytania do
Pierwszym z nich motor ROLAP kieruje zapytania do
danych źródłowych w relacyjnej bazie danych i
danych źródłowych w relacyjnej bazie danych i
dokonuje niezbędnych agregacji danych oraz
dokonuje niezbędnych agregacji danych oraz
wykonuje obliczenia na bieżąco dla przedstawienia
wykonuje obliczenia na bieżąco dla przedstawienia
podsumowań i wyników w wielowymiarowym
podsumowań i wyników w wielowymiarowym
formacie.
formacie.
Hurtownie danych
ROLAP
Drugim, częściej wykorzystywanym sposobem
Drugim, częściej wykorzystywanym sposobem
działania, podczas procesu ETL czyli procesu
działania, podczas procesu ETL czyli procesu
zasilania hurtowni danych z systemów
zasilania hurtowni danych z systemów
źródłowych, który wiąże się z oczyszczeniem,
źródłowych, który wiąże się z oczyszczeniem,
konsolidacją oraz przekształceniem danych do
konsolidacją oraz przekształceniem danych do
wspólnego formatu, wykonywane są
wspólnego formatu, wykonywane są
niezbędne agregacje - motor ROLAP kieruje
niezbędne agregacje - motor ROLAP kieruje
zapytania SQL do danych źródłowych i
zapytania SQL do danych źródłowych i
częściowo zagregowanych w relacyjnej bazie
częściowo zagregowanych w relacyjnej bazie
danych.
danych.
Hurtownie danych
MOLAP
Drugim rodzajem są systemy MOLAP. Architektura
Drugim rodzajem są systemy MOLAP. Architektura
MOLAP opiera się na predefiniowanych
MOLAP opiera się na predefiniowanych
wielowymiarowych tablicach zawierających
wielowymiarowych tablicach zawierających
zagregowane dane załadowane z różnych zasobów
zagregowane dane załadowane z różnych zasobów
danych. W porównaniu do relacyjnych systemów,
danych. W porównaniu do relacyjnych systemów,
systemy MOLAP cechuje duża wydajność. Są
systemy MOLAP cechuje duża wydajność. Są
optymalne dla operacji selekcji oraz projekcji
optymalne dla operacji selekcji oraz projekcji
wymiarów. Mogą przetwarzać złożone zapytania i
wymiarów. Mogą przetwarzać złożone zapytania i
szybko zwracają wyniki. Niestety posiadają też
szybko zwracają wyniki. Niestety posiadają też
istotne wady. Najbardziej istotną z nich jest
istotne wady. Najbardziej istotną z nich jest
możliwość przetrzymywania znacznie mniejszej
możliwość przetrzymywania znacznie mniejszej
ilości danych od systemów ROLAP.
ilości danych od systemów ROLAP.
Przygotowanie danych
Agregacja – wstępne wyliczenie pewnych miar
przydatnych w późniejszych analizach
Podział na partycje – podział tabel na części tak,
aby zmniejszyć rozmiar danych, które trzeba będzie
przeczytać w trakcie analizy
Rodzaje danych
Wielkości analizowane (fakty) – dane ilościowe
opisujące pewne fakty: np.. Sprzedaż, zyski, obroty
Wielkości klasyfikujące (wymiary) – dane
klasyfikujące opisywane fakty wg okoliczności ich
zaistnienia: np.. Czas, miejsce, osoba
Model wielowymiarowy
Baza zawiera fakty opisane przez wymiary i określające wartość miar.
Fakt – pojedyncze zdarzenie będące podstawą analiz ( np. sprzedaż)
Fakty opisane są przez wymiary i miary
Wymiar – cecha opisująca dany fakt, pozwalający powiązać go z innymi
pojęciami modelu przedsiębiorstwa: (np.. Klient, data, miejsce produkt)
Wymiary są opisane atrybutami
Atrybut –cecha wymiaru, przechowująca dodatkowe informacje na temat
faktu (np. wymiar data może mieć atrybuty: miesiąc, kwartał, rok; wymiar
klient może mieć atrybuty: nazwisko, region).
Miara – wartość liczbowa przyporządkowana do danego faktu (np.. Wartość
sprzedaży, liczba sztuk).
Shematy funkcjonowania
hurtowni
1. Schemat gwiazdy
2. Schemat płatka śniegu
3. Schemat płatkowo śniegowy
Schemat gwiazdy i płatka śniegu
Schemat gwiazdy
Schemat gwiazdy – rodzaj organizacji danych, projektowany pod
kątem szybkości dostępu do danych.
Struktura ułatwia przeprowadzanie analiz danych i składa się z:
1. Tabel opisujących wymiary
2. Tabeli faktów (zawiera również klucze obce z tabel wymiarów
Schemat gwiazda - przykład
Schemat płatka śniegu
Kostki Danych
czas
kw1 kw2 kw3 kw4
Klient
kl1
kl2
kl3
kl5
kl4
•region
R1
R3
R2
R4