Hurtownia�nych

Hurtownia danych polega ona na użyciu istniejących już w firmie informacji, aby poprzez tworzenie raportów, ułatwić kierownictwu podejmowanie lepszych i szybszych decyzji. Może być zasilana informacjami (danymi) pochodzącymi z programów informatycznych lub z plików arkuszy kalkulacyjnych czy nawet tekstowych. Ważną rolę w wykorzystaniu danych zgromadzonych w hurtowni odgrywa analiza wielowymiarowa. Popularne wymiary to: czas (dzień, miesiąc, kwartał, rok), centrum (firma, pion, dział), sprzedawca, asortyment, rodzaj kosztu, itd. Uprawniony użytkownik samodzielnie może definiować raporty. Możliwość tworzenia i przeglądania takich raportów może odbywać w aplikacji instalowanej na danym komputerze, w aplikacji obsługiwanej poprzez przeglądarkę internetową czy też w arkuszu kalkulacyjnym. graficzny. Mając dane obrobione oraz zgromadzone w jednym miejscu sposób ich prezentacji nie nastręcza już większych trudności i może przybrać wiele form, może to być ujęcie tabelaryczne (statyczne lub dynamiczne), może to byś zestaw wykresów (2D lub 3D).

Business Intelligence

- zbiór praktyk, metodyk, narzędzi i technologii informatycznych, służących zbieraniu i integrowaniu danych w celu dostarczania informacji i wiedzy właściwym osobom, we właściwym miejscu oraz we właściwym czasie

- przekształcanie danych w informacje, a informacji w wiedzę w celu optymalizacji działania procesów biznesowych i całej organizacji

- kultura organizacyjna nastawiona na świadome podejmowanie decyzji na podstawie faktów

System, do którego ładujemy ściśle wyselekcjonowane pod kątem analiz biznesowych i zintegrowane dane z różnych firmowych źródeł, gromadzący je w sposób nieulotny przez długi czas nazywamy hurtownią danych (data warehouse).

W 1992 roku Bill Inmon zdefiniował hurtownię danych jako bazę danych, mającą służyć wspomaganiu procesu podejmowania decyzji, która jest:

· zorientowana na temat (subject oriented)

· nieulotna (nonvolatile)

· zintegrowana (integrated)

· zróżnicowana czasowo (time variant)

Zorientowanie na temat oznacza, że dane gromadzone są pod kątem konkretnych analiz biznesowych i organizowane są w sposób mający te konkretne zadania analityczne ułatwić.

Nieulotność oznacza, że dane, raz umieszczone w hurtowni, zazwyczaj nie podlegają zmianom innym, niż dodawanie nowych porcji danych.

Zintegrowanie oznacza, że umieszczane w hurtowni dane są jednolite pod względem formatu, kodowania, postaci danych pochodzących z różnych źródeł.

Zróżnicowanie czasowe oznacza, że gromadzone są kolejne warstwy danych z kilku, a nawet kilkunastu lat. Przy każdym zdarzeniu (fakcie) musi być informacja o czasie zajścia zdarzenia.

Ogólna idea hurtowni danych, jest następująca: budujemy nową bazę danych (hurtownię danych) pod kątem konkretnych analiz biznesowych i ładujemy do niej odpowiednio wyselekcjonowane dane z różnych źródeł. Dane te muszą zostać uprzednio wybrane (ekstrakcja) oraz przekształcone do docelowego formatu hurtowni (transformacja). Procesy ekstrakcji, transformacji i ładowania, czyli procesy ETL, są wykonywanie cyklicznie. Danych załadowanych już do hurtowni zazwyczaj nie zmieniamy i przechowujemy je przez długi czas. Dane są pobierane ze źródłowych baz operacyjnych, przetwarzane i wpisywane zgodnie z pewną ich organizacją określoną przez repozytorium meta danych (słownik danych). Zbudowana w ten sposób hurtownia wspomaga analizy wielowymiarowe (OLAP) oraz eksplorację danych (data mining).

OLTP a OLAP

	OLTP (On-line Transaction Processing)	OLAP (On-line Analytical Processing)
użytkownicy	urzędnicy, personel IT	kierownicy, analitycy
funkcja	ułatwianie pracownikom ich codziennej pracy	wspomaganie procesu podejmowania decyzji w firmie
projekt	zorientowany na działanie	zorientowany na temat
schemat bazy danych	znormalizowany z dużą liczbą tabel; często pomiędzy dwiema tabelami jest wiele ścieżek złączeń	normalizacja nie jest wymagana, liczba tabel jest relatywnie mała; pomiędzy dwiema dowolnymi tabelami dopuszczamy jedną ścieżkę złączeń
źródło danych	na ogół dane wpisywane są przez końcowych użytkowników systemu; systemy te mogą być źródłem danych dla systemów OLAP	dane ładowane są ze źródeł (m.in. z systemów OLTP) zwykle przy pomocy plików wsadowych
dane	bieżące, aktualne, szczegółowe	wielowymiarowe, historyczne, zagregowane, zintegrowane, skonsolidowane
aktualność danych	wymagany natychmiastowy dostęp do aktualnych danych	dane mogą być dostępne z opóźnieniem (najlepiej znanym z góry, np. dobowym)
przechowywanie danych historycznych	na ogół dane historyczne nie są przechowywane w bazie	konieczność przechowywania pełnej historii danych istotnych z punktu widzenia analiz biznesowych
użycie	powtarzalne	ad-hoc
zadania	wykonywanie dużej liczby prostych zapytań pochodzących od wielu użytkowników	wykonywanie niewielkiej liczby zapytań, ale dotyczących bardzo dużych ilości danych
czas przetwarzania	na ogół bardzo krótki	obliczenia mogą trwać od kilku sekund do wielu godzin
operacje wstawiania, aktualizacji i usuwania danych	częste operacje wstawiania, aktualizacji i usuwania pojedynczych rekordów wykonywane przez końcowych użytkowników	zasadniczo jedyną operacją wykonywaną przez użytkowników takiego systemu jest odczyt danych; dane do takiego systemu są cyklicznie ładowane na ogół przy pomocy plików wsadowych; jeśli zachodzi potrzeba aktualizacji danych również przewidywane są odpowiednie procedury
liczba użytkowników	tysiące	setki
rozmiar bazy danych	100MB-GB	100GB-TB

Podstawowe cele tworzenia hurtowni danych są następujące:

Wykonywanie analiz biznesowych bez ingerencji w systemy transakcyjne - możliwość zadawania zapytań pozwalających na wykonywanie raportów, wykresów oraz wstępnych zestawień statystycznych, a także na śledzenie trendów i wykonywanie analiz finansowych.

Wspomaganie decyzji (Decision Support, DS) – wykonywanie bardziej złożonych analiz, symulacji scenariuszy biznesowych itd.

Całościowy wgląd w dane firmy – gromadzenie w jednym miejscu zintegrowanych danych napływających z różnych źródeł daje pełniejszy obraz zdarzeń zachodzących w całym przedsiębiorstwie, a nie tylko w jego poszczególnych obszarach.

Dostęp do danych historycznych – gromadzenie danych z długiego okresu, z jednoczesnym rejestrowaniem chwili zajścia danego zdarzenia pozwala na wykonywanie większości podstawowych analiz biznesowych. Umożliwienie szybkiego odczytania danych z konkretnej chwili może być również istotne ze względu na wymagania prawne.

Ujednolicenie posiadanych informacji – poprawne wdrożenie hurtowni danych wymusza dodefiniowanie i ujednolicenie pojęć, co przyczynia się do jednakowego wyliczania i interpretowania wskaźników wynikowych w całej firmie. Dzięki temu omija się problem różnic w raportach przygotowywanych przez różnych autorów.

Typowe zastosowania:

Analiza trendów i zachowań. Prawdziwa siła hurtowni tkwi w możliwości „symulowania” konkretnych sytuacji. Osoby podejmujące decyzje nie muszą działać w ciemno, wypróbowując swoją strategię na rynku i czekając na efekty. Mogą testować proponowane obniżki cen w systemie wspomagania podejmowania decyzji aż do momentu osiągnięcia optimum ceny, udziału w rynku i zysku. Jasne jest, że aby tego rodzaju testy miały sens, konieczny jest dostęp do danych historycznych.

Ukierunkowany marketing. Odpowiednio dobrany cel kampanii marketingowej jest kluczem jej powodzenia. O wiele lepiej postawić na marketing ukierunkowany, czyli przed przystąpieniem do kampanii starannie wybrać jej cel. Cel ten można wybrać korzystając z kryjącej się w hurtowni danych wiedzy na temat demografii klientów, zachowań i zapotrzebowań na produkt. Korzystając z danych historycznych analitycy mogą przewidzieć prawdopodobieństwa reakcji na kampanię oraz oczekiwaną wartość transakcji i na tej podstawie wybrać właściwych klientów do bezpośredniego marketingu.

Analiza rentowności. Korzystając z danych historycznych zgromadzonych w hurtowni firma jest w stanie ocenić rentowność poszczególnych klientów. Tego rodzaju informacja może posłużyć z jednej strony do wzmacniania relacji z dochodowymi klientami oraz do opisania ich w celu pozyskania nowych dochodowych klientów, z drugiej zaś do scharakteryzowania klientów mało rentownych w celu opracowania programów przesunięcia ich do grupy bardziej dochodowej.

Zapobieganie odejściu klienta. Korzystając z danych zgromadzonych w hurtowni, analitycy biznesowi mogą opracować modele oceny ryzyka, pozwalające na zidentyfikowanie klientów, którzy mogą odejść, na tyle wcześnie, aby móc spróbować temu zapobiec. Dokładność w określaniu grup ryzyka zależy od jakości modeli ryzyka, a te z kolei od jakości i dostępności szczegółowej informacji o klientach. Zadaniem hurtowni danych jest dostarczenie tej informacji.

Zarządzanie zasobami. Kluczowy w zarządzaniu zapasami jest oczywiście dostęp do informacji o wzorcach popytu, marginesach zysku i wymagań na powierzchnię magazynową. Aby można było określić wzorce sprzedażowe dla poszczególnych produktów i dla sklepu konieczne są dane sprzedażowe z co najmniej 15 do 27 miesięcy. Zrozumienie wpływu sezonowości i możliwość odniesienia nowych produktów do porównywalnych z przeszłości pozwala na całkiem dokładne przewidywanie przyszłego popytu.

Automatyczne generowanie zamówień. Codzienny raport z hurtowni z listą towarów, które należy zamówić byłby dla osób odpowiedzialnych za zamówienia towarów bardzo pomocny. Nie mówiąc już o tym, że po zaimplementowaniu stosownych wyzwalaczy hurtownia danych sama może takie zamówienia składać.

Analiza ryzyka kredytowego. W celu określenia ryzyka związanego z udzieleniem kredytu firmy kredytowe opracowują modele ilościowe, oparte na danych z przeszłości, umożliwiające przewidywanie zachowania się potencjalnych kredytobiorców podczas spłaty kredytu. Wewnętrzna hurtownia z danymi dotyczącymi zachowań klientów może wydajnie przyczynić się do podwyższenia efektywności oceny ryzyka kredytowego.

Długoterminowa ocena wartości klienta. Zbudowanie modelu pozwalającego na przewidzenie długoterminowej oceny wartości klienta w dużym stopniu opierają się na dostępnej w hurtowni danych informacji o zachowaniu się klienta, jego profilu psychologicznym, ważnych wydarzeniach w jego życiu oraz o danych demograficznych.

Wykrywanie oszustw. polega na opracowaniu, na podstawie danych dostępnych w hurtowni, algorytmu wykrywania oszustw, a następnie zastosowaniu go w systemach operacyjnych. Korzystając z dostępnych w hurtowni danych historycznych tworzy się modele do przewidywania schematów oszustw, tak aby można je było wykryć zanim straty staną się bardzo duże. Tego rodzaju algorytmy wykorzystywane są chociażby w sektorze bankowym oraz do wykrywania oszustw w korzystaniu z kart telefonicznych oraz telefonów komórkowych, jak również w dziedzinie ubezpieczeń, zasiłków, przy zwrotach

zakupionych produktów oraz przy operacjach finansowych.

Podsumowanie biznesowe

Podstawowy problem, na który lekarstwem ma być budowa hurtowni danych, to ciągłe przybywanie bieżącej informacji w przedsiębiorstwie. Rosnące możliwości techniczne i postępująca informatyzacja sprawia, że wzrost ten jest wykładniczy - szacuje się, że ilość danych podwaja się co dwa lata. Jednocześnie rośnie zapotrzebowanie na wyniki złożonych analiz przeprowadzanych zarówno na danych historycznych jak i tych najświeższych. Sektor hurtowni danych jest rynkiem rosnącym niemal 20% rocznie i nie ma podstaw, by w średniej

perspektywie oczekiwać zmniejszenia zainteresowania. Budowa hurtowni danych jest często wymieniana w planach przedsiębiorstw, które jeszcze z nich nie korzystają.

Aktualne trendy

Aktualne trendy na rynku hurtowni danych pokazują kilka dalszych dróg rozwoju:

• przyjazne i proste w obsłudze narzędzia do analiz,

• oprogramowanie open source dla hurtowni danych, a także ETL, OLAP, BI oraz DM,

• rozszerzanie klasycznej funkcjonalności hurtowni danych w kierunku podstawowych elementów transakcyjności,

• nowe technologie, takie jak kompresja danych, organizacja kolumnowa, Cloud Computing czy też np. MapReduce.

Dotychczasowe założenia techniczne i biznesowe dotyczące hurtowni danych to:

• typowa ilość danych: >10 TB,

• typowe obciążenie zapytaniami: rzędu 10 tys. zapytań OLAP na dobę, do 100 użytkowników (analitycznych),

• odświeżanie danych zwykle w cyklu dobowym, dzienny przyrost to >10 GB, ładowanych podczas sesji nocnej,

• typowy czas projektów: od 1 do 3 lat,

• typowy budżet: kilka mln. USD, z czego 60% na sprzęt, 16% na oprogramowanie bazodanowe.

Ogólna architektura hurtowni danych

Strukturę hurtowni danych tworzą kolejne warstwy danych, przy czym każda następna warstwa jest zasilana z poprzedniej. Najniższą warstwę stanowią, bardzo często heterogeniczne i rozproszone, źródła danych, którymi mogą być relacyjne bazy danych (np. systemy transakcyjne), inne systemy zastane w przedsiębiorstwie, arkusze kalkulacyjne, pliki tekstowe, pliki XML, urządzenia rejestrujące itp. Źródła te mogą być bardzo zróżnicowane pod względem sposobu dostępu, a także struktury logicznej, wielkości i jakości danych.

Środkową warstwę stanowi centralna hurtownia danych (podstawowa, korporacyjna), która jest podstawowym miejscem przechowywania ukierunkowanej tematycznie informacji pochodzącej ze źródeł. W centralnej hurtowni danych przechowywane są zarówno dane szczegółowe (choć w porównaniu ze źródłami są one zwykle zagregowane), jak i częściowe

podsumowania (agregacje). Centralna hurtownia jest cyklicznie (np. w cyklu dobowym) zasilana ze źródeł danych, przy czym zakładamy, że nowe dane dołączają do danych już istniejących.

Ponieważ w centralnej hurtowni danych gromadzone są ogromne ilości danych dotyczące działalności całej firmy, często kolejną warstwę stanowią tak zwane hurtownie tematyczne (data marts, hurtownie oddziałowe), tworzone na potrzeby użytkowników z konkretnych działów. Ilość danych w hurtowniach tematycznych jest istotnie mniejsza, gdyż po pierwsze, dane tam gromadzone dotyczą pewnego wycinka działalności firmy, a po drugie, dane, które tam trafiają są na ogół silniej zagregowane niż dane w hurtowni. Ze względu na mniejszy rozmiar i możliwość pracy lokalnej, hurtownie tematyczne pozwalają na sprawniejsze operowanie danymi. Mogą być zaimplementowane jako relacyjne bazy danych lub specjalne struktury wielowymiarowe.

Rodzaje implementacji

W praktyce spotyka się trzy podstawowe architektury fizyczne hurtowni danych: architekturę scentralizowaną, federacyjną oraz wielowarstwową.

W architekturze scentralizowanej wszystkie dane wykorzystywane do analiz w przedsiębiorstwie są przechowywane w jednej fizycznej hurtowni danych, przez co najlepiej sprawdza się ona w firmach o scentralizowanej działalności operacyjnej.

Zaletami takiego rozwiązania są: łatwiejsze tworzenie i administrowanie w porównaniu z innymi rozwiązaniami, znacznie uproszczony dostęp do danych dzięki ujednoliceniu modelu, wspólne metadane oraz brak konieczności przesyłania danych (poza ładowaniem). Zasadniczą wadą jest mniejsza wydajność z uwagi na konieczność wykonywania wszystkich zapytań i modyfikacji danych w jednej, centralnej bazie.

Alternatywnym rozwiązaniem jest architektura rozproszona sprawdzająca się przy dużych rozwiązaniach. Jej zaletami są: skalowalność, większa odporność na awarie, krótszy czas działania z uwagi na umieszczenie danych bliżej użytkownika końcowego, zmniejszenie przeszukiwanego obszaru danych oraz możliwość autonomii oddziałów. Wady to: trudniejsza budowa i konserwacja, trudniejsze odświeżanie, czasami trudniejsza realizacja zapytań analitycznych oraz trudniejsza modyfikacja procesów analitycznych. Architektura federacyjna to architektura rozproszona, w której logicznie jednorodne dane fizycznie przechowywane są w różnych bazach danych zlokalizowanych w jednym lub wielu systemach komputerowych.

Przechowywane lokalnie tematyczne hurtownie danych zawierają informacje właściwe konkretnemu działowi danej instytucji. Cechą charakterystyczną jest to, że centralna hurtownia danych jest wirtualna (stanowi jedynie wspólny model logiczny i pojęciowy danych), a fizycznym miejscem przechowywania danych są magazyny danych operacyjnych oraz zmaterializowane hurtownie tematyczne.

Architektura wielowarstwowa to architektura, w której hurtownię centralną będącą rzeczywistą, fizyczną bazą danych uzupełniają kolejne poziomy lokalnych tematycznych hurtowni danych, zawierających kopie danych poprzedniej warstwy lub ich podsumowania. Z uwagi na wydajność, wszystkie warstwy są materializowane.

Architektura relacyjna i wielowymiarowa

Tworząc hurtownię możemy zdecydować się na przechowywanie danych na serwerze relacyjnej bazy danych (RDB) lub wielowymiarowej bazy danych (MDDB). Jeśli decydujemy się na rozwiązanie relacyjne, mówimy o architekturze ROLAP, a jeśli na wielowymiarowe, mówimy o architekturze MOLAP.

• W architekturze ROLAP dane przechowywane są w tabelach relacyjnych, przy czym schemat bazy danych zaprojektowany jest w taki sposób, aby odzwierciedlić wielowymiarową strukturę danych.

Zalety:

- duża elastyczność, skalowalność w zakresie liczby wymiarów i złożoności hierarchii

- szeroki zakres realizacji zapytań predefiniowanych i ad hoc.

Wady:

- zróżnicowana wydajność, na ogół niższa niż w rozwiązaniach MOLAP.

Architektura ROLAP nadaje się do nawet bardzo dużych zastosowań (> 10TB).

• W architekturze MOLAP dane przechowywane są w wielowymiarowych tablicach, zwanych też kostkami danych.

Zalety:

- bardzo wysoka wydajność wyszukiwania i prezentacji danych.

Wady:

- mała elastyczność

- dane są mocno agregowane już w momencie ekstrakcji, co przekłada się na brak lub

ograniczenie dostępu do danych atomowych.

Możliwa jest zatem efektywna realizacja zapytań predefiniowanych (czyli określonych a priori), natomiast niemożliwa (lub bardzo utrudniona) realizacja zapytań ad hoc.

Architektura MOLAP charakteryzuje się też niską skalowalnością. Przyjmuje się, że tego rodzaju rozwiązanie nadaje się dla stosunkowo małych zastosowań (do 50 GB).

Obydwa podejścia mają wady i zalety, stąd pomysł na połączenie obu podejść, zwany architekturą HOLAP (Hybrid OLAP). W tym rozwiązaniu dane przechowywane są w tabelach na serwerze relacyjnym, zaś złożone przetwarzanie danych jest realizowane na serwerze wielowymiarowym.

Model pojęciowy, logiczny i fizyczny

Proces projektowania hurtowni danych przebiega w trzech etapach. Najpierw tworzony jest model pojęciowy, następnie logiczny, a na końcu fizyczny. Podstawową zaletą takiego trójetapowego sposobu projektowania jest to, że decyzje dotyczące projektu logicznego i fizycznego mogą być podejmowane i implementowane bez wpływu na model pojęciowy, który odzwierciedla wymagania firmy. Kolejna, równie istotna w przypadku hurtowni zaleta jest taka, że dzięki modelowi pojęciowemu użytkownikom biznesowym jest o wiele łatwiej zrozumieć dane w hurtowni, co przekłada się na dużo efektywniejsze korzystanie z niej.

Poszczególne modele można scharakteryzować następująco:

• Model pojęciowy to opis struktury, zawartości i przeznaczenia hurtowni danych z punktu widzenia celów biznesowych. W opisie tym używane są często zwroty specjalistyczne, charakterystyczne dla działalności danej firmy. Na tym etapie ustalamy m. in. co chcemy analizować, jakie dane chcemy gromadzić, na jakie pytania chcemy znać odpowiedzi, jakie

raporty chcemy generować. Jest to też moment dodefiniowania pewnych „oczywistych” pojęć takich jak „klient” lub „sprzedaż”.

• Model logiczny tworzony na podstawie modelu pojęciowego to opis logiczny faktów, miar, wymiarów, atrybutów, hierarchii itp., w architekturze relacyjnej przyjmujący postać schematu gwiazdy, płatka śniegu lub konstelacji faktów, a w architekturze wielowymiarowej postać

kostki lub kaskady kostek. Decydując się na architekturę relacyjną na tym etapie projektujemy schemat bazy danych, określając nazwy tabel, nazwy kolumn, typy danych, klucze, powiązania, ograniczenia itp. Na tym etapie tworzymy też mapę transformacji danych z systemów źródłowych do hurtowni.

• Model fizyczny generowany na podstawie modelu logicznego to opis parametrów mających na celu optymalizację działania hurtowni danych, takich jak indeksy, partycje, perspektywy zmaterializowane, a także takich elementów, jak formaty danych, procedury ETL, wyzwalacze, rozmieszczenie na dysku poszczególnych fragmentów danych, itp.

Warto pamiętać, że hurtownia danych to przedsięwzięcie nie tylko informatyczne, ale też organizacyjne. W skład projektu i realizacji hurtowni danych wchodzi np. ustalenie procedur i instrukcji postępowania, schematów replikacji danych, organizacja przechowywania i transportu kopii zapasowych itp. Tworzenie hurtowni danych to też okazja do dodefiniowania pojęć, które zdają się być oczywistymi, a przy wnikliwszym zastanowieniu, okazują się być

wcale nie oczywiste. Jednym z takich pojęć jest pojęcie „sprzedaży”. Czym jest sprzedaż? W którym momencie możemy mówić o wystąpieniu faktu sprzedaży, zwłaszcza w firmie internetowej? W momencie złożenia zamówienia? W momencie wydania towaru z magazynu? W momencie wystawienia faktury? To trzeba koniecznie ustalić.

Wielowymiarowy model danych

Podstawowym modelem logicznym dla systemów OLAP jest wielowymiarowy model danych (MDD, Multidimensional Data Model). W modelu wielowymiarowym analizujemy fakty wzdłuż wymiarów. Fakt to pojedyncze zdarzenie będące podstawą analiz (np. fakt sprzedaży, fakt dokonania operacji na koncie bankowym, fakt wzięcia kredytu itp.), w tym przypadku będące po prostu zbiorem miar, czyli numerycznych wartości opisujących zdarzenie (miarami są np. liczba sztuk zakupionych produktów, łączna kwota sprzedaży, zysk, łączna kwota operacji bankowych, kwota wziętego kredytu itp.). Wartości miar zależą od wymiarów, po których dane są analizowane. Przykładowo wymiarami analizy mogą być produkty, klienci, obszary

sprzedaży, czy też daty sprzedaży. Mówiąc matematycznie, miara jest reprezentowana jako punkt w n-wymiarowej przestrzeni wymiarów. Wymiary są opisane zbiorami atrybutów (np. nazwa produktu, nazwa kategorii produktu), a atrybuty tworzą hierarchie (np. produkt –> kategoria). Model wielowymiarowy zakłada stworzenie n-wymiarowej tablicy (zwanej kostką OLAP), której krawędzie opisane są wymiarami, a poszczególne komórki zawierają podsumowania miar. Kostka stanowi następnie dogodne źródło danych do podsumowań - często wystarczy jedynie wyselekcjonować jej dwa wymiary, aby uzyskać wymaganą tabelę statystyczną do raportu. Model wielowymiarowy bezpośrednio implementowany jest w architekturze MOLAP.

Jeśli decydujemy się na architekturę ROLAP tworzymy schemat relacyjny mający szczególną, odzwierciedlającą inherentną wielowymiarowość danych, strukturę. Ale nawet, jeśli dane chcemy trzymać na serwerze relacyjnym możemy przygotować kostki danych i przechowywać w nich agregacje.

Dla kostki danych określony jest zbiór operacji, które można na niej wykonywać.

Podstawowymi operacjami na kostce są:

• Rozwijanie (roll-down, drill-down) – schodzenie na niższy poziom hierarchii wymiaru, czyli przejście od ogółu do szczegółu. Jeśli widzimy np. kwoty sprzedaży zagregowane do kategorii produktu, a chcemy zobaczyć jak kształtuje się sprzedaż dla poszczególnych produktów, to korzystamy z operacji rozwijania. Podobnie, jeśli widzimy sprzedaż np. roczną, a chcemy zobaczyć kwartalną, miesięczną, czy wreszcie dzienną.

• Zwijanie (roll-up, drill-up) – wchodzenie na wyższy poziom hierarchii wymiaru, czyli przejście od szczegółu do ogółu. Jeśli widzimy np. kwoty sprzedaży dla każdego produktu z osobna, a chcemy zobaczyć jak kształtuje się sprzedaż w rozbiciu na kategorie, to korzystamy z operacji zwijania. Podobnie, jeśli widzimy sprzedaż dzienną, a chcemy zobaczyć

sprzedaż miesięczną, kwartalną, czy roczną. Operacja ta redukuje ilość wyświetlanych informacji, zastępując wiele wartości jedną – zagregowaną.

• Drążenie (drill through) – przeglądanie danych szczegółowych dotyczących konkretnego podsumowania.

• Selekcja (Slicing) – wycinanie fragmentu danych poprzez określenie warunków na wartościach wymiarów oraz listy wymiarów branych pod uwagę w raporcie, czego wynikiem jest podkostka, np. dwuwymiarowy plaster (slice), odpowiadająca danym spełniającym warunki. Wartości pozostałych wymiarów są rzutowane (agregowane). Jako że większość prezentacji danych ma postać dwuwymiarową, która jest rzutem z wielowymiarowej kostki, użytkownik końcowy na ogół widzi efekt pewnej selekcji.

• Filtrowanie (screening, selection, filtering) – ograniczenie się do prezentacji tylko tych danych, które spełniają zdefiniowane przez użytkownika warunki na wartościach miar lub atrybutach wymiaru. W przeciwieństwie do selekcji filtrowanie nie dotyczy odrzucania całych wymiarów, a jedynie ograniczenia ich zakresu.

• Obracanie (pivot, rotate) – zmiana orientacji (kolejności wymiarów) kostki. W przypadku arkusza dwuwymiarowego obracanie to między innymi zamiana miejscami wierszy i kolumn, co bywa istotne dla czytelności otrzymanego wyniku. Jest to również przeniesienie pewnego

wymiaru z kolumn do wierszy (lub odwrotnie), co ma znaczenie, gdy obok siebie chcemy umieścić więcej niż jeden wymiar. Do operacji obracania zalicza się też czasem zamianę pewnego wymiaru (lub atrybutu) na inny, nieużywany.

Obok operacji podstawowych są też inne operacje na kostkach danych, np. wybór n górnych miejsc lub n górnych procent. Z tego rodzaju operacji korzystamy, gdy chcemy np. wybrać dziesięć najlepiej sprzedających się produktów w styczniu 2011 roku albo 5% najlepszych klientów z roku.

Wyszukiwarka

Podobne podstrony:
Hurtownie danych Juranek
PODSTAWY MARKETINGU WSZIB KRAKÓW Handel detaliczny Handel hurtowy
hurtownie danch(1)
Hurtownia danych serwis samochodowy
01-HURTOWNIE, bhp
Optymalizacja dostaw od producent%F3w do hurtowni
Instrukcja bhp dla hurtowni, BHP, Instrukcje BHP
Wniosek o wydanie zezwolenia na prowadzenie w kraju obrotu hurtowego napojami alkoholowymi powyże, W
handel hurtowy (2 str), handel h
Hurtownia papierosow - baza w SQL + opis w Word, Praca
hurtownia poprawna
rynki hurtowe tekst
Kanał dystrybucji Rynek hurtowy, detaliczny
Kierownik hurtowni 142003 id 23 Nieznany
analiza kondycji ekonomicznej hurtowni materiałów budowlanyc
Hurtowania tkanin
Hurtowania tkanin

więcej podobnych podstron