DEF. HURTOWNI DANYCH-1
System umożliwiający przechowywanie, zarządzanie oraz wyszukiwanie informacji w dużych bazach danych. Spotykany w dużych i średnich firmach, gdzie ilości składowanych informacji liczone są w setkach gigabajtów. Głównym celem tworzenia hurtowni danych jest wspomaganie przetwarzania informacji dla celów strategicznych i analitycznych.
Wielotematyczne zbiory danych zgromadzone w celu podejmowania zarządczych decyzji biznesowych. Infrastruktura informatyczna służąca osobom podejmującym decyzje do optymalnego wykorzystania zasobów informacyjnych przedsiębiorstwa.
DEF. HURTOWNI DANYCH-2
Skonsolidowane repozytorium danych historycznych. Centralne źródło informacji dla całej firmy. Hurtownia to nie aplikacja, system czy program lecz struktura zbudowana z różnych obiektów w istniejących bazach danych w celu wspomagania podejmowania decyzji.
Wydzielona centralna baza danych, będąca kopią baz transakcyjnych (pochodzących z funkcjonujących systemów informatycznych) i zawierająca informacje służące do zarządzania organizacją.
Technologia pozwalająca uporządkować dane gromadzone w firmie oraz samodzielnie przeprowadzać złożone analizy, bez konieczności zlecania ich informatykom.
DEF. HURTOWNI DANYCH-3
Scentralizowana, zintegrowana wewnętrznie, uporządkowana tematycznie, nieulotna, nietransakcyjna baza (repozytorium) danych
- przeznaczona do przechowywania informacji w długim horyzoncie czasowym
- globalnie w skali instytucji,
- w wielowymiarowych układach analitycznych,
- ukierunkowana na wyszukiwanie informacji, jej analizowanie i raportowanie,
- bezpośrednio przez końcowych użytkowników (kadrę zarządzającą, analityków oraz kierownictwo średniego szczebla)
- w celu podejmowania poprawnych decyzji.
CECHY HURTOWNI DANYCH
Niezmienność i trwały charakter
Uporządkowanie tematyczne
Integralność i ujednolicenie miar
Oznaczenie czasowe
Przyrostowe zasilanie
Redundancja (brak powtórzeń)
Łatwa dostępność
Odpowiednia agregacja
Denormalizacja
Wysoka jakość (value-added data)
WARSTWY HURTOWNI DANYCH
Systemy źródłowe z danymi wchodzącymi do hurtowni.
Narzędzia zasilania informacji (ETL - Extract, Transform, Load).
Właściwa hurtownia danych (scentralizowana, tematyczna, problemowa).
Warstwa udostępniania danych (front-end) z narzędziami dostępu do danych, generatorami zapytań i raportów, specjalistycznymi narzędziami analitycznymi OLAP oraz data mining.
Serwery intranetowe umożliwiające dostęp do danych, raportów i analiz poprzez przeglądarkę WWW.
GENEZA HURTOWNI DANYCH
Lata 60. Ken Iverson - język APL do wykonywania transformacji na wielowymiarowych strukturach danych.
Lata 70. Jay Wurtz i Rick Karrash - teoria wielowymiarowych baz danych, pakiet Express.
Lata 80. - pierwsze aplikacje w sektorze finansów, systemy Comshare, Metaphor, arkusze kalkulacyjne
VisiCalc, VS Planner, Compete, SuperCalc, 20/20,
Lotus 1-2-3, Quattro Pro, Excel.
Lata 90. Bill Inmon - formalna koncepcja hurtowni, firma Prism Solutions specjalizująca się w oprogramowaniu narzędziowym dla hurtowni danych oraz firma Pine Cone Systems tworzącą programy do administrowania danych i systemy wspomagania decyzji.
RODZAJE HURTOWNI DANYCH
Scentralizowane hurtownie globalne (corporate information factory, enterprise wide warehouse) - jedna hurtownia w skali całej firmy gromadząca wszystkie dostępne i niezbędne informacje.
Tematyczne hurtownie globalne (departmental warehouse) - kilka hurtowni zawierających wyselekcjonowane tematyczne lub organizacyjnie informacje w skali całej firmy.
Problemowe składnice danych, minihurtownie, sklepy detaliczne, targowiska (datamarts - DM) - zakres gromadzonych danych jest ograniczony do wybranego zagadnienia, do rozwiązywania konkretnego problemu dla potrzeb wydzielonych grup użytkowników.
METODY BUDOWY HURTOWNI
„Z góry na dół” (top-down) - najpierw scentralizowana hurtownia globalna, a potem wydzielone podhurtownie tematyczne,
- fizyczne - odrębny podzbiór hurtowni globalnej,
wybrane dane są replikowane i udostępniane użytkownikowi
- logiczne (wirtualne) - definiuje się tylko podgląd do wybranych fragmentów hurtowni globalnej.
„Z dołu do góry” (down-top) - najpierw budujemy tematyczne minihurtownie, a potem scalame je w hurtownię globalną,
- ustalenie reguł, pojęć i danych obowiązujących w docelowej hurtowni globalnej,
- uruchomienie pierwszej, ważnej podhurtowni tematycznej,
- uruchamianie kolejnych minihurtowni.
BUDOWA HURTOWNI METODĄ
„z góry na dół”
BUDOWA HURTOWNI METODĄ
„z dołu do góry”
RODZAJE HURTOWNI
Zależne (dependent datamarts) - podhurtownie wydzielone z hurtowni globalnej (por. podejście „z góry na dół”)
oraz niezależne (independenet datamarts, stovepipes) - podhurtownie utworzone ze standardowych, transakcyjnych baz danych.
Fizyczne (właściwe) oraz wirtualne (virtual warehouse).
Relacyjne (ROLAP), wielowymiarowe (MOLAP) bazy danych oraz rozwiązania hybrydowe (HOLAP) i minibazy (DOLAP) przeznaczone do aplikacji na komputery osobiste.
OLAP - On-Line Analytical Processing) - narzędzia przetwarzania analitycznego danych w hurtowni
Finansowe, marketingowe, kadrowe, produktowe, inżynierskie, naukowe, itd.
MODELE HURTOWNI
Oparte na relacyjnych bazach danych (Relational Data Base - RDB)
- gwiazda (starnet) - centralna tabela z danymi oraz opisujące ją wymiary,
- płatek śniegu (snowflake) - gwiazda plus tabele opisujące wymiary
- galaktyka, gwiazdozbiór (galaxy, constellation) - połączone ze sobą gwiazdy
Oparte na wielowymiarowych bazach danych.
Rozwiązania hybrydowe - informacje gromadzone są według modelu RDB a następnie odwzorowane na strukturę wielowymiarową przez specjalną aplikację .
MODELE HURTOWNI TYPU ROLAP
SCHEMAT GWIAZDY
TABLICE FAKTÓW I WYMIARÓW
Tablice faktów (fact tables) - stanowią centralną część hurtowni i zawierają klucze identyfikacyjne oraz fakty opisane atrybutami liczbowymi tzw. miarami, np. sprzedaż (fakt) opisana może być ilością lub wartością (miara).
Tablice wymiarów (dimension tables) - charakteryzują szczegółowo wyróżnione fakty przy pomocy atrybutów. Fakty ujmowane są w różnych wymiarach opisanych wartościami dyskretnymi, które mogą tworzyć hierarchie. Typowe wymiary: czas (rok - kwartał - miesiąc - dzień), produkt (typ, rodzaj, marka), jednostka organizacyjna (wydział - dział - oddział), jednostka administracyjno-terenowa (gmina - województwo - region).
3-WYMIAROWA KOSTKA DANYCH
5-WYMIAROWA KOSTKA DANYCH
ARCHITEKTURA HYBRYDOWA
WARUNKI REALIZACJI HURTOWNI
Umocowanie projektu i zaangażowanie się kierownictwa
Ścisła współpraca z użytkownikami końcowymi
Świadomość odbiorców systemu o jego możliwościach oraz powiązanie funkcjonowania systemu z potencjalnymi korzyściami dla firmy
Realne planowanie całego przedsięwzięcia, zarówno od strony merytorycznej jak i technicznej
Precyzyjna definicja architektury, zakresu i założeń DW
Iteracyjny (spiralny) cykl wdrożenia systemu
Dostępność źródeł danych, zwykle w postaci istniejących już systemów zarządzania przedsiębiorstwem
Wysoka jakość dostępnych informacji (GIGO)
KOSZTY HURTOWNI DANYCH
Sprzęt komputerowy, opracowanie projektu, konsultacje, oprogramowanie (licencyjne i własne), szkolenia, czas pracy kadry przedsiębiorstwa.
Minimalny koszt wdrożenia hurtowni z bazą rzędu 100 GB szacuje się na ok. 1 mln $, a koszt budowy większych hurtowni to rząd kilkunastu i więcej mln dolarów.
Na globalne hurtownie stać duże firmy (blisko 90% firm z listy Fortune wdrożyło hurtownie danych), w małych stosuje się strategię tworzenia wielu podhurtowni na niewielkich serwerach.
Struktura kosztów typowej dużej hurtowni: 30% - sprzęt, 35% - koszty osobowe, 25% - oprogramowanie, 10% - administrowanie.
REALIZACJA HURTOWNI
Realizacją hurtowni zajmują się na ogół konsorcja:
firma software'wa dostarczającej oprogramowanie bazodanowe, narzędzia ETL, oprogramowanie repozytorium metadanych oraz programy „tuningowe”, odpowiedzialne za optymalne ustawienie parametrów konfiguracyjnych i wydajność pracy programów,
firma konsultingowa opracowująca metodologię budowy hurtowni, analizująca potrzeby biznesowe, konsultująca dobór sprzętu i oprogramowania,
własny zespół projektowy, zapewniający techniczną sprawność hurtowni i bieżącą konwersję zadań tematycznych na model danych i algorytmy analityczne znajdujące się w hurtowni.
CZAS REALIZACJI HURTOWNI
Typowy projekt średniej wielkości hurtowni trwa co najmniej 1 rok, zaś niektóre aplikacje analityczne mogą funkcjonować dopiero po 2-3 latach.
Dojście do pełnego wykorzystania hurtowni danych to proces, który może trwać latami.
Stosuje się zazwyczaj cykl spiralny (sekwencyjny), w którym całość przedsięwzięcia dzieli się na części i realizuje kolejno, przy czym w czasie realizacji kolejnej części udoskonala fragmenty zrealizowane wcześniej, wykorzystując dotychczas zdobyte doświadczenia.
NARZĘDZIA ANALIZY HURTOWNI
OLTP, OLAP
OLTP (On-Line Transaction Processing) - sposób przetwarzania dużego wolumenu transakcji w czasie rzeczywistym, przy natychmiastowej obsłudze żądania od klienta (bankomaty, terminale POS). Wykorzystywane są w tym celu zaawansowane metody optymalizacji bazy danych oraz algorytmy przetwarzania pod kątem uzyskania maksymalnej wydajności i krótkiego czasu reakcji.
OLAP (On Line Analytical Processing) - przetwarzanie analityczne w trybie on-line. Systemy i narzędzia komputerowe zapewniające użytkownikom analizę danych wielowymiarowych przechowywanych w bazie danych w celu wspomagania podejmowani decyzji biznesowych.
Q&R
Narzędzia zadawania pytań i generowania raportów Q&R (Query and Reporting) - narzędzia pozwalające formułować zapytania do bazy danych i uzyskiwać odpowiednie raporty.
Są dostosowane do indywidualnych potrzeb użytkownika, z możliwością tworzenia raportów wykraczających poza wcześniej przygotowane standardy.
Narzędzia te często mają interfejs graficzny, umożliwiają łatwe drukowanie, podgląd i edycję raportów a także wykorzystanie przeglądarek WWW i stron tworzonych w języku HTML.
Typowe narzędzia do raportowania mają ograniczone możliwości analityczne.
DATA MINING
Data drilling, data archeology, information browsing, explanatory data analysis - EDA, knowledge extraction, knowledge discovery in databases - KDD,
Inteligentna eksploracja danych zgłębianie, eksploatacja, drążenie, torturowanie danych, kopanie, dłubanie w danych.
Proces automatycznego odkrywania znaczących, pożytecznych, dotychczas nieznanych i wyczerpujących informacji z dużych baz danych, informacji ujawniających ukrytą wiedzę o badanym przedmiocie.
Wiedza ta ma postać reguł, prawidłowości, tendencji, korelacji i jest następnie przedstawiana użytkownikowi w celu rozwiązania stojących przed nim problemów i podejmowania prawidłowych decyzji.
FINANSOWE I BANKOWE HD
Sprawozdawczość zewnętrzna i wewnętrzna.
Ocena sytuacji finansowej banków i ich oddziałów.
Badanie zyskowności produktów i usług.
Analiza portfelowa.
Analizy kredytowe.
Zarządzanie i szacowanie ryzyka kredytów i pożyczek.
Analiza płatności, należności, zaległości.
Segmentacja klientów wg stopy zyskowności.
Określenie koszyków produktowych.
Zmniejszenie złych długów.
Ograniczenie oszustw.
Ocena funkcjonowania banku.
UBEZPIECZENIOWE HD
Ograniczenie ryzyka ubezpieczeniowego.
Wyłapywanie fałszerstw.
Ustalanie stawek zapewniających odpowiedni zysk.
Ograniczenie kosztów marketingowych.
Ograniczenie kosztów sprzedaży.
Wprowadzenie na rynek nowych produktów.
Zwiększenie zysku z polis.
MARKETINGOWE I HANDLOWE HD
Analiza koszykowa.
Ograniczenie zbędnych promocji towarów.
Zahamowanie odpływu klientów.
Zwiększony napływ nowych klientów.
Zwiększone obroty dla wielu produktów.
Zmniejszenie kosztów marketingu.
Systemy zarządzania relacjami z klientami - CRM.
Ukierunkowany marketing.
Oferowanie produktów niszowych dla wybranych grup klientów.
INNE HD
TELEKOMUNIKACJA
Segmentacja klientów według czasu i rodzaju połączeń.
Ustalanie zróżnicowanych taryf dedykowanych wyróżnionym grupom klientów.
Analiza nieściągalnych rachunków.
Wskazanie obszarów złego funkcjonowania sieci
INTERNET
Grupowanie i określanie ważności dokumentów znajdowanych przez wyszukiwarki.
Automatyczne dopasowywanie struktury i zawartości serwisu internetowego do przewidywanych oczekiwań użytkownika
HURTOWNIA WAL-MART
25 TB, codzienne dane dotyczące ok. 20 mln. transakcji.
Pozwala dostawcom na bieżący (tuż po zeskanowaniu kodu kreskowego sprzedawanego produktu) dostęp do informacji o stanach magazynowych, i elastyczne reagowanie na zmieniający się popyt (zwiększanie lub ograniczanie produkcji i dostaw).
Wal-Mart zyskuje darmowy kredyt u dostawców (zapłata następuje za towar sprzedany a nie dostarczony), nie ponosi kosztów magazynowania ani też nie troszczy się o optymalizację logistyki dostaw, przerzucając to na barki dostawców.
Największe korzyści po terrorystycznym ataku na Nowy Jork, 11 września 2001 roku.
INNE PRZYKŁADY HURTOWNI
Agencja Reuters (400 tys. klientów na całym świecie) do łączenia informacji historycznych z bieżącymi ocenami oraz wiadomościami finansowymi, ekonomicznymi i politycznymi.
Linie lotnicze American Airlines do redukcji kosztów operacyjnych, wynajdowania okazji do zwiększania przychodów, wykrywania prób oszustwa.
Nielsen Media Research analizy zachowań telewidzów 2 tysięcy stacji naziemnych i 10 tysięcy sieci kablowych, ustala kto i dlaczego ogląda dany program.
NASA do obsługi radioteleskopu Hubble'a w zakresie gromadzenia, udostępniania i analizy danych oraz diagnostyki samego teleskopu.
KIERUNKI ROZWOJU HURTOWNI
Wzrost korzyści (ROI) z Inwestycji w budowę hurtowni.
Zwiększanie zawartości hurtowni, grup użytkowników oraz możliwych analiz.
Automatyzacja zasilania hurtowni danymi, zwłaszcza z zewnętrznych źródeł.
Integracja hurtowni danych z systemami CRM (zarządzanie relacjami z klientami).
Rozwiązania w czasie rzeczywistym a nie w trybie wsadowym (ETL, Q&R, OLAP, data mining).
Nacisk na analizy prospektywne a nie historyczne („co się wydarzy” a nie „co się wydarzyło”).
Udostępnienie danych i narzędzi ich analizy poprzez aplikacje internetowe.