Hurtownia趎ych

Hurtownia danych polega ona na u偶yciu istniej膮cych ju偶 w firmie informacji, aby poprzez tworzenie raport贸w, u艂atwi膰 kierownictwu podejmowanie lepszych i szybszych decyzji. Mo偶e by膰 zasilana informacjami (danymi) pochodz膮cymi z program贸w informatycznych lub z plik贸w arkuszy kalkulacyjnych czy nawet tekstowych. Wa偶n膮 rol臋 w wykorzystaniu danych zgromadzonych w hurtowni odgrywa analiza wielowymiarowa. Popularne wymiary to: czas (dzie艅, miesi膮c, kwarta艂, rok), centrum (firma, pion, dzia艂), sprzedawca, asortyment, rodzaj kosztu, itd. Uprawniony u偶ytkownik samodzielnie mo偶e definiowa膰 raporty. Mo偶liwo艣膰 tworzenia i przegl膮dania takich raport贸w mo偶e odbywa膰 w aplikacji instalowanej na danym komputerze, w aplikacji obs艂ugiwanej poprzez przegl膮dark臋 internetow膮 czy te偶 w arkuszu kalkulacyjnym. graficzny. Maj膮c dane obrobione oraz zgromadzone w jednym miejscu spos贸b ich prezentacji nie nastr臋cza ju偶 wi臋kszych trudno艣ci i mo偶e przybra膰 wiele form, mo偶e to by膰 uj臋cie tabelaryczne (statyczne lub dynamiczne), mo偶e to by艣 zestaw wykres贸w (2D lub 3D).

Business Intelligence

- zbi贸r praktyk, metodyk, narz臋dzi i technologii informatycznych, s艂u偶膮cych zbieraniu i integrowaniu danych w celu dostarczania informacji i wiedzy w艂a艣ciwym osobom, we w艂a艣ciwym miejscu oraz we w艂a艣ciwym czasie

- przekszta艂canie danych w informacje, a informacji w wiedz臋 w celu optymalizacji dzia艂ania proces贸w biznesowych i ca艂ej organizacji

- kultura organizacyjna nastawiona na 艣wiadome podejmowanie decyzji na podstawie fakt贸w

System, do kt贸rego 艂adujemy 艣ci艣le wyselekcjonowane pod k膮tem analiz biznesowych i zintegrowane dane z r贸偶nych firmowych 藕r贸de艂, gromadz膮cy je w spos贸b nieulotny przez d艂ugi czas nazywamy hurtowni膮 danych (data warehouse).

W 1992 roku Bill Inmon zdefiniowa艂 hurtowni臋 danych jako baz臋 danych, maj膮c膮 s艂u偶y膰 wspomaganiu procesu podejmowania decyzji, kt贸ra jest:

路 zorientowana na temat (subject oriented)

路 nieulotna (nonvolatile)

路 zintegrowana (integrated)

路 zr贸偶nicowana czasowo (time variant)

Zorientowanie na temat oznacza, 偶e dane gromadzone s膮 pod k膮tem konkretnych analiz biznesowych i organizowane s膮 w spos贸b maj膮cy te konkretne zadania analityczne u艂atwi膰.

Nieulotno艣膰 oznacza, 偶e dane, raz umieszczone w hurtowni, zazwyczaj nie podlegaj膮 zmianom innym, ni偶 dodawanie nowych porcji danych.

Zintegrowanie oznacza, 偶e umieszczane w hurtowni dane s膮 jednolite pod wzgl臋dem formatu, kodowania, postaci danych pochodz膮cych z r贸偶nych 藕r贸de艂.

Zr贸偶nicowanie czasowe oznacza, 偶e gromadzone s膮 kolejne warstwy danych z kilku, a nawet kilkunastu lat. Przy ka偶dym zdarzeniu (fakcie) musi by膰 informacja o czasie zaj艣cia zdarzenia.

Og贸lna idea hurtowni danych, jest nast臋puj膮ca: budujemy now膮 baz臋 danych (hurtowni臋 danych) pod k膮tem konkretnych analiz biznesowych i 艂adujemy do niej odpowiednio wyselekcjonowane dane z r贸偶nych 藕r贸de艂. Dane te musz膮 zosta膰 uprzednio wybrane (ekstrakcja) oraz przekszta艂cone do docelowego formatu hurtowni (transformacja). Procesy ekstrakcji, transformacji i 艂adowania, czyli procesy ETL, s膮 wykonywanie cyklicznie. Danych za艂adowanych ju偶 do hurtowni zazwyczaj nie zmieniamy i przechowujemy je przez d艂ugi czas. Dane s膮 pobierane ze 藕r贸d艂owych baz operacyjnych, przetwarzane i wpisywane zgodnie z pewn膮 ich organizacj膮 okre艣lon膮 przez repozytorium meta danych (s艂ownik danych). Zbudowana w ten spos贸b hurtownia wspomaga analizy wielowymiarowe (OLAP) oraz eksploracj臋 danych (data mining).

OLTP a OLAP

OLTP (On-line Transaction Processing) OLAP (On-line Analytical Processing)
u偶ytkownicy urz臋dnicy, personel IT kierownicy, analitycy
funkcja u艂atwianie pracownikom ich codziennej pracy wspomaganie procesu podejmowania decyzji w firmie
projekt zorientowany na dzia艂anie zorientowany na temat
schemat bazy danych

znormalizowany z du偶膮

liczb膮 tabel; cz臋sto pomi臋dzy dwiema tabelami jest wiele

艣cie偶ek z艂膮cze艅

normalizacja nie jest wymagana, liczba tabel jest relatywnie ma艂a; pomi臋dzy dwiema dowolnymi tabelami dopuszczamy jedn膮 艣cie偶k臋 z艂膮cze艅
藕r贸d艂o danych na og贸艂 dane wpisywane s膮 przez ko艅cowych u偶ytkownik贸w systemu; systemy te mog膮 by膰 藕r贸d艂em danych dla system贸w OLAP dane 艂adowane s膮 ze 藕r贸de艂 (m.in. z system贸w OLTP) zwykle przy pomocy plik贸w wsadowych
dane

bie偶膮ce, aktualne,

szczeg贸艂owe

wielowymiarowe, historyczne,

zagregowane, zintegrowane,

skonsolidowane

aktualno艣膰 danych wymagany natychmiastowy dost臋p do aktualnych danych

dane mog膮 by膰 dost臋pne z

op贸藕nieniem (najlepiej znanym z

g贸ry, np. dobowym)

przechowywanie danych historycznych

na og贸艂 dane historyczne nie s膮

przechowywane w bazie

konieczno艣膰 przechowywania

pe艂nej historii danych istotnych z

punktu widzenia analiz

biznesowych

u偶ycie powtarzalne ad-hoc
zadania wykonywanie du偶ej liczby prostych zapyta艅 pochodz膮cych od wielu u偶ytkownik贸w

wykonywanie niewielkiej liczby

zapyta艅, ale dotycz膮cych bardzo

du偶ych ilo艣ci danych

czas przetwarzania na og贸艂 bardzo kr贸tki

obliczenia mog膮 trwa膰 od kilku

sekund do wielu godzin

operacje wstawiania,

aktualizacji i usuwania danych

cz臋ste operacje wstawiania, aktualizacji i usuwania pojedynczych rekord贸w wykonywane przez ko艅cowych

u偶ytkownik贸w

zasadniczo jedyn膮 operacj膮 wykonywan膮 przez u偶ytkownik贸w takiego systemu jest odczyt danych; dane do takiego systemu s膮 cyklicznie 艂adowane na og贸艂 przy pomocy plik贸w wsadowych; je艣li zachodzi potrzeba aktualizacji danych r贸wnie偶 przewidywane s膮

odpowiednie procedury

liczba u偶ytkownik贸w tysi膮ce setki
rozmiar bazy danych 100MB-GB 100GB-TB

Podstawowe cele tworzenia hurtowni danych s膮 nast臋puj膮ce:

Wykonywanie analiz biznesowych bez ingerencji w systemy transakcyjne - mo偶liwo艣膰 zadawania zapyta艅 pozwalaj膮cych na wykonywanie raport贸w, wykres贸w oraz wst臋pnych zestawie艅 statystycznych, a tak偶e na 艣ledzenie trend贸w i wykonywanie analiz finansowych.

Wspomaganie decyzji (Decision Support, DS) 鈥 wykonywanie bardziej z艂o偶onych analiz, symulacji scenariuszy biznesowych itd.

Ca艂o艣ciowy wgl膮d w dane firmy 鈥 gromadzenie w jednym miejscu zintegrowanych danych nap艂ywaj膮cych z r贸偶nych 藕r贸de艂 daje pe艂niejszy obraz zdarze艅 zachodz膮cych w ca艂ym przedsi臋biorstwie, a nie tylko w jego poszczeg贸lnych obszarach.

Dost臋p do danych historycznych 鈥 gromadzenie danych z d艂ugiego okresu, z jednoczesnym rejestrowaniem chwili zaj艣cia danego zdarzenia pozwala na wykonywanie wi臋kszo艣ci podstawowych analiz biznesowych. Umo偶liwienie szybkiego odczytania danych z konkretnej chwili mo偶e by膰 r贸wnie偶 istotne ze wzgl臋du na wymagania prawne.

Ujednolicenie posiadanych informacji 鈥 poprawne wdro偶enie hurtowni danych wymusza dodefiniowanie i ujednolicenie poj臋膰, co przyczynia si臋 do jednakowego wyliczania i interpretowania wska藕nik贸w wynikowych w ca艂ej firmie. Dzi臋ki temu omija si臋 problem r贸偶nic w raportach przygotowywanych przez r贸偶nych autor贸w.

Typowe zastosowania:

Analiza trend贸w i zachowa艅. Prawdziwa si艂a hurtowni tkwi w mo偶liwo艣ci 鈥瀞ymulowania鈥 konkretnych sytuacji. Osoby podejmuj膮ce decyzje nie musz膮 dzia艂a膰 w ciemno, wypr贸bowuj膮c swoj膮 strategi臋 na rynku i czekaj膮c na efekty. Mog膮 testowa膰 proponowane obni偶ki cen w systemie wspomagania podejmowania decyzji a偶 do momentu osi膮gni臋cia optimum ceny, udzia艂u w rynku i zysku. Jasne jest, 偶e aby tego rodzaju testy mia艂y sens, konieczny jest dost臋p do danych historycznych.

Ukierunkowany marketing. Odpowiednio dobrany cel kampanii marketingowej jest kluczem jej powodzenia. O wiele lepiej postawi膰 na marketing ukierunkowany, czyli przed przyst膮pieniem do kampanii starannie wybra膰 jej cel. Cel ten mo偶na wybra膰 korzystaj膮c z kryj膮cej si臋 w hurtowni danych wiedzy na temat demografii klient贸w, zachowa艅 i zapotrzebowa艅 na produkt. Korzystaj膮c z danych historycznych analitycy mog膮 przewidzie膰 prawdopodobie艅stwa reakcji na kampani臋 oraz oczekiwan膮 warto艣膰 transakcji i na tej podstawie wybra膰 w艂a艣ciwych klient贸w do bezpo艣redniego marketingu.

Analiza rentowno艣ci. Korzystaj膮c z danych historycznych zgromadzonych w hurtowni firma jest w stanie oceni膰 rentowno艣膰 poszczeg贸lnych klient贸w. Tego rodzaju informacja mo偶e pos艂u偶y膰 z jednej strony do wzmacniania relacji z dochodowymi klientami oraz do opisania ich w celu pozyskania nowych dochodowych klient贸w, z drugiej za艣 do scharakteryzowania klient贸w ma艂o rentownych w celu opracowania program贸w przesuni臋cia ich do grupy bardziej dochodowej.

Zapobieganie odej艣ciu klienta. Korzystaj膮c z danych zgromadzonych w hurtowni, analitycy biznesowi mog膮 opracowa膰 modele oceny ryzyka, pozwalaj膮ce na zidentyfikowanie klient贸w, kt贸rzy mog膮 odej艣膰, na tyle wcze艣nie, aby m贸c spr贸bowa膰 temu zapobiec. Dok艂adno艣膰 w okre艣laniu grup ryzyka zale偶y od jako艣ci modeli ryzyka, a te z kolei od jako艣ci i dost臋pno艣ci szczeg贸艂owej informacji o klientach. Zadaniem hurtowni danych jest dostarczenie tej informacji.

Zarz膮dzanie zasobami. Kluczowy w zarz膮dzaniu zapasami jest oczywi艣cie dost臋p do informacji o wzorcach popytu, marginesach zysku i wymaga艅 na powierzchni臋 magazynow膮. Aby mo偶na by艂o okre艣li膰 wzorce sprzeda偶owe dla poszczeg贸lnych produkt贸w i dla sklepu konieczne s膮 dane sprzeda偶owe z co najmniej 15 do 27 miesi臋cy. Zrozumienie wp艂ywu sezonowo艣ci i mo偶liwo艣膰 odniesienia nowych produkt贸w do por贸wnywalnych z przesz艂o艣ci pozwala na ca艂kiem dok艂adne przewidywanie przysz艂ego popytu.

Automatyczne generowanie zam贸wie艅. Codzienny raport z hurtowni z list膮 towar贸w, kt贸re nale偶y zam贸wi膰 by艂by dla os贸b odpowiedzialnych za zam贸wienia towar贸w bardzo pomocny. Nie m贸wi膮c ju偶 o tym, 偶e po zaimplementowaniu stosownych wyzwalaczy hurtownia danych sama mo偶e takie zam贸wienia sk艂ada膰.

Analiza ryzyka kredytowego. W celu okre艣lenia ryzyka zwi膮zanego z udzieleniem kredytu firmy kredytowe opracowuj膮 modele ilo艣ciowe, oparte na danych z przesz艂o艣ci, umo偶liwiaj膮ce przewidywanie zachowania si臋 potencjalnych kredytobiorc贸w podczas sp艂aty kredytu. Wewn臋trzna hurtownia z danymi dotycz膮cymi zachowa艅 klient贸w mo偶e wydajnie przyczyni膰 si臋 do podwy偶szenia efektywno艣ci oceny ryzyka kredytowego.

D艂ugoterminowa ocena warto艣ci klienta. Zbudowanie modelu pozwalaj膮cego na przewidzenie d艂ugoterminowej oceny warto艣ci klienta w du偶ym stopniu opieraj膮 si臋 na dost臋pnej w hurtowni danych informacji o zachowaniu si臋 klienta, jego profilu psychologicznym, wa偶nych wydarzeniach w jego 偶yciu oraz o danych demograficznych.

Wykrywanie oszustw. polega na opracowaniu, na podstawie danych dost臋pnych w hurtowni, algorytmu wykrywania oszustw, a nast臋pnie zastosowaniu go w systemach operacyjnych. Korzystaj膮c z dost臋pnych w hurtowni danych historycznych tworzy si臋 modele do przewidywania schemat贸w oszustw, tak aby mo偶na je by艂o wykry膰 zanim straty stan膮 si臋 bardzo du偶e. Tego rodzaju algorytmy wykorzystywane s膮 chocia偶by w sektorze bankowym oraz do wykrywania oszustw w korzystaniu z kart telefonicznych oraz telefon贸w kom贸rkowych, jak r贸wnie偶 w dziedzinie ubezpiecze艅, zasi艂k贸w, przy zwrotach

zakupionych produkt贸w oraz przy operacjach finansowych.

Podsumowanie biznesowe

Podstawowy problem, na kt贸ry lekarstwem ma by膰 budowa hurtowni danych, to ci膮g艂e przybywanie bie偶膮cej informacji w przedsi臋biorstwie. Rosn膮ce mo偶liwo艣ci techniczne i post臋puj膮ca informatyzacja sprawia, 偶e wzrost ten jest wyk艂adniczy - szacuje si臋, 偶e ilo艣膰 danych podwaja si臋 co dwa lata. Jednocze艣nie ro艣nie zapotrzebowanie na wyniki z艂o偶onych analiz przeprowadzanych zar贸wno na danych historycznych jak i tych naj艣wie偶szych. Sektor hurtowni danych jest rynkiem rosn膮cym niemal 20% rocznie i nie ma podstaw, by w 艣redniej

perspektywie oczekiwa膰 zmniejszenia zainteresowania. Budowa hurtowni danych jest cz臋sto wymieniana w planach przedsi臋biorstw, kt贸re jeszcze z nich nie korzystaj膮.

Aktualne trendy

Aktualne trendy na rynku hurtowni danych pokazuj膮 kilka dalszych dr贸g rozwoju:

鈥 przyjazne i proste w obs艂udze narz臋dzia do analiz,

鈥 oprogramowanie open source dla hurtowni danych, a tak偶e ETL, OLAP, BI oraz DM,

鈥 rozszerzanie klasycznej funkcjonalno艣ci hurtowni danych w kierunku podstawowych element贸w transakcyjno艣ci,

鈥 nowe technologie, takie jak kompresja danych, organizacja kolumnowa, Cloud Computing czy te偶 np. MapReduce.

Dotychczasowe za艂o偶enia techniczne i biznesowe dotycz膮ce hurtowni danych to:

鈥 typowa ilo艣膰 danych: >10 TB,

鈥 typowe obci膮偶enie zapytaniami: rz臋du 10 tys. zapyta艅 OLAP na dob臋, do 100 u偶ytkownik贸w (analitycznych),

鈥 od艣wie偶anie danych zwykle w cyklu dobowym, dzienny przyrost to >10 GB, 艂adowanych podczas sesji nocnej,

鈥 typowy czas projekt贸w: od 1 do 3 lat,

鈥 typowy bud偶et: kilka mln. USD, z czego 60% na sprz臋t, 16% na oprogramowanie bazodanowe.

Og贸lna architektura hurtowni danych

Struktur臋 hurtowni danych tworz膮 kolejne warstwy danych, przy czym ka偶da nast臋pna warstwa jest zasilana z poprzedniej. Najni偶sz膮 warstw臋 stanowi膮, bardzo cz臋sto heterogeniczne i rozproszone, 藕r贸d艂a danych, kt贸rymi mog膮 by膰 relacyjne bazy danych (np. systemy transakcyjne), inne systemy zastane w przedsi臋biorstwie, arkusze kalkulacyjne, pliki tekstowe, pliki XML, urz膮dzenia rejestruj膮ce itp. 殴r贸d艂a te mog膮 by膰 bardzo zr贸偶nicowane pod wzgl臋dem sposobu dost臋pu, a tak偶e struktury logicznej, wielko艣ci i jako艣ci danych.

艢rodkow膮 warstw臋 stanowi centralna hurtownia danych (podstawowa, korporacyjna), kt贸ra jest podstawowym miejscem przechowywania ukierunkowanej tematycznie informacji pochodz膮cej ze 藕r贸de艂. W centralnej hurtowni danych przechowywane s膮 zar贸wno dane szczeg贸艂owe (cho膰 w por贸wnaniu ze 藕r贸d艂ami s膮 one zwykle zagregowane), jak i cz臋艣ciowe

podsumowania (agregacje). Centralna hurtownia jest cyklicznie (np. w cyklu dobowym) zasilana ze 藕r贸de艂 danych, przy czym zak艂adamy, 偶e nowe dane do艂膮czaj膮 do danych ju偶 istniej膮cych.

Poniewa偶 w centralnej hurtowni danych gromadzone s膮 ogromne ilo艣ci danych dotycz膮ce dzia艂alno艣ci ca艂ej firmy, cz臋sto kolejn膮 warstw臋 stanowi膮 tak zwane hurtownie tematyczne (data marts, hurtownie oddzia艂owe), tworzone na potrzeby u偶ytkownik贸w z konkretnych dzia艂贸w. Ilo艣膰 danych w hurtowniach tematycznych jest istotnie mniejsza, gdy偶 po pierwsze, dane tam gromadzone dotycz膮 pewnego wycinka dzia艂alno艣ci firmy, a po drugie, dane, kt贸re tam trafiaj膮 s膮 na og贸艂 silniej zagregowane ni偶 dane w hurtowni. Ze wzgl臋du na mniejszy rozmiar i mo偶liwo艣膰 pracy lokalnej, hurtownie tematyczne pozwalaj膮 na sprawniejsze operowanie danymi. Mog膮 by膰 zaimplementowane jako relacyjne bazy danych lub specjalne struktury wielowymiarowe.

Rodzaje implementacji

W praktyce spotyka si臋 trzy podstawowe architektury fizyczne hurtowni danych: architektur臋 scentralizowan膮, federacyjn膮 oraz wielowarstwow膮.

W architekturze scentralizowanej wszystkie dane wykorzystywane do analiz w przedsi臋biorstwie s膮 przechowywane w jednej fizycznej hurtowni danych, przez co najlepiej sprawdza si臋 ona w firmach o scentralizowanej dzia艂alno艣ci operacyjnej.

Zaletami takiego rozwi膮zania s膮: 艂atwiejsze tworzenie i administrowanie w por贸wnaniu z innymi rozwi膮zaniami, znacznie uproszczony dost臋p do danych dzi臋ki ujednoliceniu modelu, wsp贸lne metadane oraz brak konieczno艣ci przesy艂ania danych (poza 艂adowaniem). Zasadnicz膮 wad膮 jest mniejsza wydajno艣膰 z uwagi na konieczno艣膰 wykonywania wszystkich zapyta艅 i modyfikacji danych w jednej, centralnej bazie.

Alternatywnym rozwi膮zaniem jest architektura rozproszona sprawdzaj膮ca si臋 przy du偶ych rozwi膮zaniach. Jej zaletami s膮: skalowalno艣膰, wi臋ksza odporno艣膰 na awarie, kr贸tszy czas dzia艂ania z uwagi na umieszczenie danych bli偶ej u偶ytkownika ko艅cowego, zmniejszenie przeszukiwanego obszaru danych oraz mo偶liwo艣膰 autonomii oddzia艂贸w. Wady to: trudniejsza budowa i konserwacja, trudniejsze od艣wie偶anie, czasami trudniejsza realizacja zapyta艅 analitycznych oraz trudniejsza modyfikacja proces贸w analitycznych. Architektura federacyjna to architektura rozproszona, w kt贸rej logicznie jednorodne dane fizycznie przechowywane s膮 w r贸偶nych bazach danych zlokalizowanych w jednym lub wielu systemach komputerowych.

Przechowywane lokalnie tematyczne hurtownie danych zawieraj膮 informacje w艂a艣ciwe konkretnemu dzia艂owi danej instytucji. Cech膮 charakterystyczn膮 jest to, 偶e centralna hurtownia danych jest wirtualna (stanowi jedynie wsp贸lny model logiczny i poj臋ciowy danych), a fizycznym miejscem przechowywania danych s膮 magazyny danych operacyjnych oraz zmaterializowane hurtownie tematyczne.

Architektura wielowarstwowa to architektura, w kt贸rej hurtowni臋 centraln膮 b臋d膮c膮 rzeczywist膮, fizyczn膮 baz膮 danych uzupe艂niaj膮 kolejne poziomy lokalnych tematycznych hurtowni danych, zawieraj膮cych kopie danych poprzedniej warstwy lub ich podsumowania. Z uwagi na wydajno艣膰, wszystkie warstwy s膮 materializowane.

Architektura relacyjna i wielowymiarowa

Tworz膮c hurtowni臋 mo偶emy zdecydowa膰 si臋 na przechowywanie danych na serwerze relacyjnej bazy danych (RDB) lub wielowymiarowej bazy danych (MDDB). Je艣li decydujemy si臋 na rozwi膮zanie relacyjne, m贸wimy o architekturze ROLAP, a je艣li na wielowymiarowe, m贸wimy o architekturze MOLAP.

鈥 W architekturze ROLAP dane przechowywane s膮 w tabelach relacyjnych, przy czym schemat bazy danych zaprojektowany jest w taki spos贸b, aby odzwierciedli膰 wielowymiarow膮 struktur臋 danych.

Zalety:

- du偶a elastyczno艣膰, skalowalno艣膰 w zakresie liczby wymiar贸w i z艂o偶ono艣ci hierarchii

- szeroki zakres realizacji zapyta艅 predefiniowanych i ad hoc.

Wady:

- zr贸偶nicowana wydajno艣膰, na og贸艂 ni偶sza ni偶 w rozwi膮zaniach MOLAP.

Architektura ROLAP nadaje si臋 do nawet bardzo du偶ych zastosowa艅 (> 10TB).

鈥 W architekturze MOLAP dane przechowywane s膮 w wielowymiarowych tablicach, zwanych te偶 kostkami danych.

Zalety:

- bardzo wysoka wydajno艣膰 wyszukiwania i prezentacji danych.

Wady:

- ma艂a elastyczno艣膰

- dane s膮 mocno agregowane ju偶 w momencie ekstrakcji, co przek艂ada si臋 na brak lub

ograniczenie dost臋pu do danych atomowych.

Mo偶liwa jest zatem efektywna realizacja zapyta艅 predefiniowanych (czyli okre艣lonych a priori), natomiast niemo偶liwa (lub bardzo utrudniona) realizacja zapyta艅 ad hoc.

Architektura MOLAP charakteryzuje si臋 te偶 nisk膮 skalowalno艣ci膮. Przyjmuje si臋, 偶e tego rodzaju rozwi膮zanie nadaje si臋 dla stosunkowo ma艂ych zastosowa艅 (do 50 GB).

Obydwa podej艣cia maj膮 wady i zalety, st膮d pomys艂 na po艂膮czenie obu podej艣膰, zwany architektur膮 HOLAP (Hybrid OLAP). W tym rozwi膮zaniu dane przechowywane s膮 w tabelach na serwerze relacyjnym, za艣 z艂o偶one przetwarzanie danych jest realizowane na serwerze wielowymiarowym.

Model poj臋ciowy, logiczny i fizyczny

Proces projektowania hurtowni danych przebiega w trzech etapach. Najpierw tworzony jest model poj臋ciowy, nast臋pnie logiczny, a na ko艅cu fizyczny. Podstawow膮 zalet膮 takiego tr贸jetapowego sposobu projektowania jest to, 偶e decyzje dotycz膮ce projektu logicznego i fizycznego mog膮 by膰 podejmowane i implementowane bez wp艂ywu na model poj臋ciowy, kt贸ry odzwierciedla wymagania firmy. Kolejna, r贸wnie istotna w przypadku hurtowni zaleta jest taka, 偶e dzi臋ki modelowi poj臋ciowemu u偶ytkownikom biznesowym jest o wiele 艂atwiej zrozumie膰 dane w hurtowni, co przek艂ada si臋 na du偶o efektywniejsze korzystanie z niej.

Poszczeg贸lne modele mo偶na scharakteryzowa膰 nast臋puj膮co:

Model poj臋ciowy to opis struktury, zawarto艣ci i przeznaczenia hurtowni danych z punktu widzenia cel贸w biznesowych. W opisie tym u偶ywane s膮 cz臋sto zwroty specjalistyczne, charakterystyczne dla dzia艂alno艣ci danej firmy. Na tym etapie ustalamy m. in. co chcemy analizowa膰, jakie dane chcemy gromadzi膰, na jakie pytania chcemy zna膰 odpowiedzi, jakie

raporty chcemy generowa膰. Jest to te偶 moment dodefiniowania pewnych 鈥瀘czywistych鈥 poj臋膰 takich jak 鈥瀔lient鈥 lub 鈥瀞przeda偶鈥.

Model logiczny tworzony na podstawie modelu poj臋ciowego to opis logiczny fakt贸w, miar, wymiar贸w, atrybut贸w, hierarchii itp., w architekturze relacyjnej przyjmuj膮cy posta膰 schematu gwiazdy, p艂atka 艣niegu lub konstelacji fakt贸w, a w architekturze wielowymiarowej posta膰

kostki lub kaskady kostek. Decyduj膮c si臋 na architektur臋 relacyjn膮 na tym etapie projektujemy schemat bazy danych, okre艣laj膮c nazwy tabel, nazwy kolumn, typy danych, klucze, powi膮zania, ograniczenia itp. Na tym etapie tworzymy te偶 map臋 transformacji danych z system贸w 藕r贸d艂owych do hurtowni.

Model fizyczny generowany na podstawie modelu logicznego to opis parametr贸w maj膮cych na celu optymalizacj臋 dzia艂ania hurtowni danych, takich jak indeksy, partycje, perspektywy zmaterializowane, a tak偶e takich element贸w, jak formaty danych, procedury ETL, wyzwalacze, rozmieszczenie na dysku poszczeg贸lnych fragment贸w danych, itp.

Warto pami臋ta膰, 偶e hurtownia danych to przedsi臋wzi臋cie nie tylko informatyczne, ale te偶 organizacyjne. W sk艂ad projektu i realizacji hurtowni danych wchodzi np. ustalenie procedur i instrukcji post臋powania, schemat贸w replikacji danych, organizacja przechowywania i transportu kopii zapasowych itp. Tworzenie hurtowni danych to te偶 okazja do dodefiniowania poj臋膰, kt贸re zdaj膮 si臋 by膰 oczywistymi, a przy wnikliwszym zastanowieniu, okazuj膮 si臋 by膰

wcale nie oczywiste. Jednym z takich poj臋膰 jest poj臋cie 鈥瀞przeda偶y鈥. Czym jest sprzeda偶? W kt贸rym momencie mo偶emy m贸wi膰 o wyst膮pieniu faktu sprzeda偶y, zw艂aszcza w firmie internetowej? W momencie z艂o偶enia zam贸wienia? W momencie wydania towaru z magazynu? W momencie wystawienia faktury? To trzeba koniecznie ustali膰.

Wielowymiarowy model danych

Podstawowym modelem logicznym dla system贸w OLAP jest wielowymiarowy model danych (MDD, Multidimensional Data Model). W modelu wielowymiarowym analizujemy fakty wzd艂u偶 wymiar贸w. Fakt to pojedyncze zdarzenie b臋d膮ce podstaw膮 analiz (np. fakt sprzeda偶y, fakt dokonania operacji na koncie bankowym, fakt wzi臋cia kredytu itp.), w tym przypadku b臋d膮ce po prostu zbiorem miar, czyli numerycznych warto艣ci opisuj膮cych zdarzenie (miarami s膮 np. liczba sztuk zakupionych produkt贸w, 艂膮czna kwota sprzeda偶y, zysk, 艂膮czna kwota operacji bankowych, kwota wzi臋tego kredytu itp.). Warto艣ci miar zale偶膮 od wymiar贸w, po kt贸rych dane s膮 analizowane. Przyk艂adowo wymiarami analizy mog膮 by膰 produkty, klienci, obszary

sprzeda偶y, czy te偶 daty sprzeda偶y. M贸wi膮c matematycznie, miara jest reprezentowana jako punkt w n-wymiarowej przestrzeni wymiar贸w. Wymiary s膮 opisane zbiorami atrybut贸w (np. nazwa produktu, nazwa kategorii produktu), a atrybuty tworz膮 hierarchie (np. produkt 鈥> kategoria). Model wielowymiarowy zak艂ada stworzenie n-wymiarowej tablicy (zwanej kostk膮 OLAP), kt贸rej kraw臋dzie opisane s膮 wymiarami, a poszczeg贸lne kom贸rki zawieraj膮 podsumowania miar. Kostka stanowi nast臋pnie dogodne 藕r贸d艂o danych do podsumowa艅 - cz臋sto wystarczy jedynie wyselekcjonowa膰 jej dwa wymiary, aby uzyska膰 wymagan膮 tabel臋 statystyczn膮 do raportu. Model wielowymiarowy bezpo艣rednio implementowany jest w architekturze MOLAP.

Je艣li decydujemy si臋 na architektur臋 ROLAP tworzymy schemat relacyjny maj膮cy szczeg贸ln膮, odzwierciedlaj膮c膮 inherentn膮 wielowymiarowo艣膰 danych, struktur臋. Ale nawet, je艣li dane chcemy trzyma膰 na serwerze relacyjnym mo偶emy przygotowa膰 kostki danych i przechowywa膰 w nich agregacje.

Dla kostki danych okre艣lony jest zbi贸r operacji, kt贸re mo偶na na niej wykonywa膰.

Podstawowymi operacjami na kostce s膮:

Rozwijanie (roll-down, drill-down) 鈥 schodzenie na ni偶szy poziom hierarchii wymiaru, czyli przej艣cie od og贸艂u do szczeg贸艂u. Je艣li widzimy np. kwoty sprzeda偶y zagregowane do kategorii produktu, a chcemy zobaczy膰 jak kszta艂tuje si臋 sprzeda偶 dla poszczeg贸lnych produkt贸w, to korzystamy z operacji rozwijania. Podobnie, je艣li widzimy sprzeda偶 np. roczn膮, a chcemy zobaczy膰 kwartaln膮, miesi臋czn膮, czy wreszcie dzienn膮.

Zwijanie (roll-up, drill-up) 鈥 wchodzenie na wy偶szy poziom hierarchii wymiaru, czyli przej艣cie od szczeg贸艂u do og贸艂u. Je艣li widzimy np. kwoty sprzeda偶y dla ka偶dego produktu z osobna, a chcemy zobaczy膰 jak kszta艂tuje si臋 sprzeda偶 w rozbiciu na kategorie, to korzystamy z operacji zwijania. Podobnie, je艣li widzimy sprzeda偶 dzienn膮, a chcemy zobaczy膰

sprzeda偶 miesi臋czn膮, kwartaln膮, czy roczn膮. Operacja ta redukuje ilo艣膰 wy艣wietlanych informacji, zast臋puj膮c wiele warto艣ci jedn膮 鈥 zagregowan膮.

Dr膮偶enie (drill through) 鈥 przegl膮danie danych szczeg贸艂owych dotycz膮cych konkretnego podsumowania.

Selekcja (Slicing) 鈥 wycinanie fragmentu danych poprzez okre艣lenie warunk贸w na warto艣ciach wymiar贸w oraz listy wymiar贸w branych pod uwag臋 w raporcie, czego wynikiem jest podkostka, np. dwuwymiarowy plaster (slice), odpowiadaj膮ca danym spe艂niaj膮cym warunki. Warto艣ci pozosta艂ych wymiar贸w s膮 rzutowane (agregowane). Jako 偶e wi臋kszo艣膰 prezentacji danych ma posta膰 dwuwymiarow膮, kt贸ra jest rzutem z wielowymiarowej kostki, u偶ytkownik ko艅cowy na og贸艂 widzi efekt pewnej selekcji.

Filtrowanie (screening, selection, filtering) 鈥 ograniczenie si臋 do prezentacji tylko tych danych, kt贸re spe艂niaj膮 zdefiniowane przez u偶ytkownika warunki na warto艣ciach miar lub atrybutach wymiaru. W przeciwie艅stwie do selekcji filtrowanie nie dotyczy odrzucania ca艂ych wymiar贸w, a jedynie ograniczenia ich zakresu.

Obracanie (pivot, rotate) 鈥 zmiana orientacji (kolejno艣ci wymiar贸w) kostki. W przypadku arkusza dwuwymiarowego obracanie to mi臋dzy innymi zamiana miejscami wierszy i kolumn, co bywa istotne dla czytelno艣ci otrzymanego wyniku. Jest to r贸wnie偶 przeniesienie pewnego

wymiaru z kolumn do wierszy (lub odwrotnie), co ma znaczenie, gdy obok siebie chcemy umie艣ci膰 wi臋cej ni偶 jeden wymiar. Do operacji obracania zalicza si臋 te偶 czasem zamian臋 pewnego wymiaru (lub atrybutu) na inny, nieu偶ywany.

Obok operacji podstawowych s膮 te偶 inne operacje na kostkach danych, np. wyb贸r n g贸rnych miejsc lub n g贸rnych procent. Z tego rodzaju operacji korzystamy, gdy chcemy np. wybra膰 dziesi臋膰 najlepiej sprzedaj膮cych si臋 produkt贸w w styczniu 2011 roku albo 5% najlepszych klient贸w z roku.


Wyszukiwarka

Podobne podstrony:
Hurtownie danych Juranek
PODSTAWY MARKETINGU WSZIB KRAK脫W Handel detaliczny Handel hurtowy
hurtownie danch(1)
Hurtownia danych serwis samochodowy
01-HURTOWNIE, bhp
Optymalizacja dostaw od producent%F3w do hurtowni
Instrukcja bhp dla hurtowni, BHP, Instrukcje BHP
Wniosek o wydanie zezwolenia na prowadzenie w kraju obrotu hurtowego napojami alkoholowymi powy偶e, W
handel hurtowy (2 str), handel h
Hurtownia papierosow - baza w SQL + opis w Word, Praca
hurtownia poprawna
rynki hurtowe tekst
Kana艂 dystrybucji Rynek hurtowy, detaliczny
Kierownik hurtowni 142003 id 23 Nieznany
analiza kondycji ekonomicznej hurtowni materia艂贸w budowlanyc
Hurtowania tkanin
Hurtowania tkanin

wi臋cej podobnych podstron