Agenda
Wstęp
Przykładowe rozwiązania
Oracle
SQL Server
Sybase IQ
Teradata
SAP Business Warehouse
Wydajność i skalowalność
Podsumowanie
2 / 25
N
Wstęp
Hurtownia danych jako lekarstwo dla biznesu (co 2 lata mamy 2
razy więcej danych)
Business Intelligence (rosną potrzeby na wyniki złożonych analiz)
Wiele rozwiązań dla różnych zastosowań
3 / 25
N
Wstęp
Hurtownia danych jako lekarstwo dla biznesu (co 2 lata mamy 2
razy więcej danych)
Business Intelligence (rosną potrzeby na wyniki złożonych analiz)
Wiele rozwiązań dla różnych zastosowań
3 / 25
N
Wstęp
Hurtownia danych jako lekarstwo dla biznesu (co 2 lata mamy 2
razy więcej danych)
Business Intelligence (rosną potrzeby na wyniki złożonych analiz)
Wiele rozwiązań dla różnych zastosowań
3 / 25
N
Czołowi gracze na rynku
Oracle
SQL Server
Sybase IQ
Teradata
SAP Business Warehouse
IBM
Comarch (platforma BI)
4 / 25
N
Oracle
Lider wśród dostawców rozwiązań bazodanowych. Szeroki zakres
usług obejmuje zarówno systemy bazodanowe (Oracel Database 11g),
jak i kompleksowe rozwiązania sprzętowo-bazodanowe (HP Oracle
Database Machine).
Podstawowe narzędzia:
Projekt: Oracle Designer
Proces ETL: Oracle Warehouse Builder
Oracle Data Mining
5 / 25
N
Oracle
Lider wśród dostawców rozwiązań bazodanowych. Szeroki zakres
usług obejmuje zarówno systemy bazodanowe (Oracel Database 11g),
jak i kompleksowe rozwiązania sprzętowo-bazodanowe (HP Oracle
Database Machine).
Podstawowe narzędzia:
Projekt: Oracle Designer
Proces ETL: Oracle Warehouse Builder
Oracle Data Mining
5 / 25
N
Oracle
Lider wśród dostawców rozwiązań bazodanowych. Szeroki zakres
usług obejmuje zarówno systemy bazodanowe (Oracel Database 11g),
jak i kompleksowe rozwiązania sprzętowo-bazodanowe (HP Oracle
Database Machine).
Podstawowe narzędzia:
Projekt: Oracle Designer
Proces ETL: Oracle Warehouse Builder
Oracle Data Mining
5 / 25
N
Oracle - Podstawowe rozwiązania
Serwer pamięci masowej Oracle Exadata Storage Server
Przetwarzanie zapytań na poziomie pamięci (Exadata Smart Scan)
Inteligentna pamięć podręczna (Exadata Smart Flash Cache)
Kompresja (Oracle Exadata Hybrid Columnar Compression)
Oracle Partitioning
Szybsze działanie (czas przetwarzania zapytania spada z minut do
sekund)
Większa dostępność i łatwość obsługi (zarządzanie małymi
kawałkami danych)
Umożliwia zarządzanie cyklem życia informacji (optymalne
wykorzystanie pamięci masowych)
Oracle OLAP
6 / 25
N
Oracle - Podstawowe rozwiązania
Serwer pamięci masowej Oracle Exadata Storage Server
Przetwarzanie zapytań na poziomie pamięci (Exadata Smart Scan)
Inteligentna pamięć podręczna (Exadata Smart Flash Cache)
Kompresja (Oracle Exadata Hybrid Columnar Compression)
Oracle Partitioning
Szybsze działanie (czas przetwarzania zapytania spada z minut do
sekund)
Większa dostępność i łatwość obsługi (zarządzanie małymi
kawałkami danych)
Umożliwia zarządzanie cyklem życia informacji (optymalne
wykorzystanie pamięci masowych)
Oracle OLAP
6 / 25
N
Oracle - Podstawowe rozwiązania
Serwer pamięci masowej Oracle Exadata Storage Server
Przetwarzanie zapytań na poziomie pamięci (Exadata Smart Scan)
Inteligentna pamięć podręczna (Exadata Smart Flash Cache)
Kompresja (Oracle Exadata Hybrid Columnar Compression)
Oracle Partitioning
Szybsze działanie (czas przetwarzania zapytania spada z minut do
sekund)
Większa dostępność i łatwość obsługi (zarządzanie małymi
kawałkami danych)
Umożliwia zarządzanie cyklem życia informacji (optymalne
wykorzystanie pamięci masowych)
Oracle OLAP
6 / 25
N
Oracle - Przykład wdrożenia
Hurtownia danych oparta na HP Oracle Database Machine, fizycznie
zlokalizowana w ośrodku obliczeniowym Allegro.pl w Poznaniu.
Założenie: obsługa wolumenu o rozmiarze około 8 terabajtów z
szybkością przynajmniej 2000 transakcji na sekundę
HP Oracle Database Machine, posiadająca 8 HP Database Servers
(2 Quad Core Intel CPU), 14 Exadata Storage Servers (każdy
zawiera 12 dysków SAS 450GB)
SZBD: Oracle DB Enterprise Edition, oprogramowanie klastrowe
RAC, partycjonowanie na 12 procesorów
Oprogramowanie Exadata Storage Software w wersji na 120 dysków
HDD
W czasie testów obciążeniowych uzyskano szybkość przetwarzania
transakcji około 10 razy wyższą niż dla klasycznych systemów
stosowanych w hurtowniach danych
7 / 25
N
Oracle - Przykład wdrożenia
Hurtownia danych oparta na HP Oracle Database Machine, fizycznie
zlokalizowana w ośrodku obliczeniowym Allegro.pl w Poznaniu.
Założenie: obsługa wolumenu o rozmiarze około 8 terabajtów z
szybkością przynajmniej 2000 transakcji na sekundę
HP Oracle Database Machine, posiadająca 8 HP Database Servers
(2 Quad Core Intel CPU), 14 Exadata Storage Servers (każdy
zawiera 12 dysków SAS 450GB)
SZBD: Oracle DB Enterprise Edition, oprogramowanie klastrowe
RAC, partycjonowanie na 12 procesorów
Oprogramowanie Exadata Storage Software w wersji na 120 dysków
HDD
W czasie testów obciążeniowych uzyskano szybkość przetwarzania
transakcji około 10 razy wyższą niż dla klasycznych systemów
stosowanych w hurtowniach danych
7 / 25
N
Oracle - Przykład wdrożenia
Hurtownia danych oparta na HP Oracle Database Machine, fizycznie
zlokalizowana w ośrodku obliczeniowym Allegro.pl w Poznaniu.
Założenie: obsługa wolumenu o rozmiarze około 8 terabajtów z
szybkością przynajmniej 2000 transakcji na sekundę
HP Oracle Database Machine, posiadająca 8 HP Database Servers
(2 Quad Core Intel CPU), 14 Exadata Storage Servers (każdy
zawiera 12 dysków SAS 450GB)
SZBD: Oracle DB Enterprise Edition, oprogramowanie klastrowe
RAC, partycjonowanie na 12 procesorów
Oprogramowanie Exadata Storage Software w wersji na 120 dysków
HDD
W czasie testów obciążeniowych uzyskano szybkość przetwarzania
transakcji około 10 razy wyższą niż dla klasycznych systemów
stosowanych w hurtowniach danych
7 / 25
N
Oracle - Przykład wdrożenia
Hurtownia danych oparta na HP Oracle Database Machine, fizycznie
zlokalizowana w ośrodku obliczeniowym Allegro.pl w Poznaniu.
Założenie: obsługa wolumenu o rozmiarze około 8 terabajtów z
szybkością przynajmniej 2000 transakcji na sekundę
HP Oracle Database Machine, posiadająca 8 HP Database Servers
(2 Quad Core Intel CPU), 14 Exadata Storage Servers (każdy
zawiera 12 dysków SAS 450GB)
SZBD: Oracle DB Enterprise Edition, oprogramowanie klastrowe
RAC, partycjonowanie na 12 procesorów
Oprogramowanie Exadata Storage Software w wersji na 120 dysków
HDD
W czasie testów obciążeniowych uzyskano szybkość przetwarzania
transakcji około 10 razy wyższą niż dla klasycznych systemów
stosowanych w hurtowniach danych
7 / 25
N
Oracle - Przykład wdrożenia
Hurtownia danych oparta na HP Oracle Database Machine, fizycznie
zlokalizowana w ośrodku obliczeniowym Allegro.pl w Poznaniu.
Założenie: obsługa wolumenu o rozmiarze około 8 terabajtów z
szybkością przynajmniej 2000 transakcji na sekundę
HP Oracle Database Machine, posiadająca 8 HP Database Servers
(2 Quad Core Intel CPU), 14 Exadata Storage Servers (każdy
zawiera 12 dysków SAS 450GB)
SZBD: Oracle DB Enterprise Edition, oprogramowanie klastrowe
RAC, partycjonowanie na 12 procesorów
Oprogramowanie Exadata Storage Software w wersji na 120 dysków
HDD
W czasie testów obciążeniowych uzyskano szybkość przetwarzania
transakcji około 10 razy wyższą niż dla klasycznych systemów
stosowanych w hurtowniach danych
7 / 25
N
SQL Server
Microsoft od wersji SQL Server 2005 zaoferował cały pakiet
aplikacji w ramach jednego rozwiązania:
SQL Server
SQL Server Integration Services (narzędzie ETL)
SQL Server Analysis Services (narzędzie OLAP)
SQL Server Reporting Services (narzędzie prezentacji danych)
Zaletą platformy opartej na SQL Server jest niski Całkowity Koszt
Posiadania
Główną wadą jest ograniczenie na system operacyjny
8 / 25
N
SQL Server
Microsoft od wersji SQL Server 2005 zaoferował cały pakiet
aplikacji w ramach jednego rozwiązania:
SQL Server
SQL Server Integration Services (narzędzie ETL)
SQL Server Analysis Services (narzędzie OLAP)
SQL Server Reporting Services (narzędzie prezentacji danych)
Zaletą platformy opartej na SQL Server jest niski Całkowity Koszt
Posiadania
Główną wadą jest ograniczenie na system operacyjny
8 / 25
N
SQL Server
Microsoft od wersji SQL Server 2005 zaoferował cały pakiet
aplikacji w ramach jednego rozwiązania:
SQL Server
SQL Server Integration Services (narzędzie ETL)
SQL Server Analysis Services (narzędzie OLAP)
SQL Server Reporting Services (narzędzie prezentacji danych)
Zaletą platformy opartej na SQL Server jest niski Całkowity Koszt
Posiadania
Główną wadą jest ograniczenie na system operacyjny
8 / 25
N
SQL Server - Przykłady wdrożeń
Linie lotnicze Scandinavian Airlines przenosząc hurtownię danych do
SQL Server usprawniły dostęp do danych biznesowych i obniżyły
koszty o 50%
bwin jedna z największych firm zajmujących się hazardem
internetowym, wdrożyła SQL Server 2008 w celu zarządzania
transakcjami realizowanymi w czasie rzeczywistym i danymi
wielkości 100 TB
First Premier Bank korzysta z SQL Server do analizy biznesowej 12
TB danych istotnych z punktu widzenia misji banku
Firma American Power Conversion wdrażając oprogramowanie SQL
Server Enterprise Edition skróciła czas odpowiedzi o 100% i
uzyskała oszczędności rzędu 800 tys. $
9 / 25
N
SQL Server - Przykłady wdrożeń
Linie lotnicze Scandinavian Airlines przenosząc hurtownię danych do
SQL Server usprawniły dostęp do danych biznesowych i obniżyły
koszty o 50%
bwin jedna z największych firm zajmujących się hazardem
internetowym, wdrożyła SQL Server 2008 w celu zarządzania
transakcjami realizowanymi w czasie rzeczywistym i danymi
wielkości 100 TB
First Premier Bank korzysta z SQL Server do analizy biznesowej 12
TB danych istotnych z punktu widzenia misji banku
Firma American Power Conversion wdrażając oprogramowanie SQL
Server Enterprise Edition skróciła czas odpowiedzi o 100% i
uzyskała oszczędności rzędu 800 tys. $
9 / 25
N
SQL Server - Przykłady wdrożeń
Linie lotnicze Scandinavian Airlines przenosząc hurtownię danych do
SQL Server usprawniły dostęp do danych biznesowych i obniżyły
koszty o 50%
bwin jedna z największych firm zajmujących się hazardem
internetowym, wdrożyła SQL Server 2008 w celu zarządzania
transakcjami realizowanymi w czasie rzeczywistym i danymi
wielkości 100 TB
First Premier Bank korzysta z SQL Server do analizy biznesowej 12
TB danych istotnych z punktu widzenia misji banku
Firma American Power Conversion wdrażając oprogramowanie SQL
Server Enterprise Edition skróciła czas odpowiedzi o 100% i
uzyskała oszczędności rzędu 800 tys. $
9 / 25
N
SQL Server - Przykłady wdrożeń
Linie lotnicze Scandinavian Airlines przenosząc hurtownię danych do
SQL Server usprawniły dostęp do danych biznesowych i obniżyły
koszty o 50%
bwin jedna z największych firm zajmujących się hazardem
internetowym, wdrożyła SQL Server 2008 w celu zarządzania
transakcjami realizowanymi w czasie rzeczywistym i danymi
wielkości 100 TB
First Premier Bank korzysta z SQL Server do analizy biznesowej 12
TB danych istotnych z punktu widzenia misji banku
Firma American Power Conversion wdrażając oprogramowanie SQL
Server Enterprise Edition skróciła czas odpowiedzi o 100% i
uzyskała oszczędności rzędu 800 tys. $
9 / 25
N
Sybase IQ
Sybase IQ jest przeznaczony do wydajnej analizy dużych ilości da-
nych. Cechy:
opatentowana technologia składowania danych (Vertical
Partitioning)
równoległość przetwarzania na poziomie systemu operacyjnego
(operacje niskiego poziomu jak sortowanie, wejście/wyjście)
prejoin, hash-join, ad hoc join (wykorzystanie wcześniej
zdefiniowanych zależności pomiędzy tabelami)
DSS Query Processor (wybór najlepszej metody dostępu i algorytmu
wyszukiwania dla każdego zapytania)
10 / 25
N
Sybase IQ - Przykłady wdrożeń
Telekomunikacja Polska SA wdrożyła system do przechowywania
danych o wszystkich zdarzeniach generowanych przez serwery
Neostrady (docelowo przez 2 lata) oraz raportowania za ten okres
W Jastrzębskiej Spółce Węglowej wdrożono system pozwalający
dokonywać analizy bieżącej sprzedaży surowca oraz popytu na
węgiel w przyszłości
Firma American Airlines zyskała dzięki wdrożeniu w ciągu ostatnich
pięciu lat oszczędności rzędu 5 mln $
Kanadyjski Urząd Statystyczny zwiększył prędkość przetwarzania
zapytań w systemie z 2h do 7s
11 / 25
N
Sybase IQ - Przykłady wdrożeń
Telekomunikacja Polska SA wdrożyła system do przechowywania
danych o wszystkich zdarzeniach generowanych przez serwery
Neostrady (docelowo przez 2 lata) oraz raportowania za ten okres
W Jastrzębskiej Spółce Węglowej wdrożono system pozwalający
dokonywać analizy bieżącej sprzedaży surowca oraz popytu na
węgiel w przyszłości
Firma American Airlines zyskała dzięki wdrożeniu w ciągu ostatnich
pięciu lat oszczędności rzędu 5 mln $
Kanadyjski Urząd Statystyczny zwiększył prędkość przetwarzania
zapytań w systemie z 2h do 7s
11 / 25
N
Sybase IQ - Przykłady wdrożeń
Telekomunikacja Polska SA wdrożyła system do przechowywania
danych o wszystkich zdarzeniach generowanych przez serwery
Neostrady (docelowo przez 2 lata) oraz raportowania za ten okres
W Jastrzębskiej Spółce Węglowej wdrożono system pozwalający
dokonywać analizy bieżącej sprzedaży surowca oraz popytu na
węgiel w przyszłości
Firma American Airlines zyskała dzięki wdrożeniu w ciągu ostatnich
pięciu lat oszczędności rzędu 5 mln $
Kanadyjski Urząd Statystyczny zwiększył prędkość przetwarzania
zapytań w systemie z 2h do 7s
11 / 25
N
Sybase IQ - Przykłady wdrożeń
Telekomunikacja Polska SA wdrożyła system do przechowywania
danych o wszystkich zdarzeniach generowanych przez serwery
Neostrady (docelowo przez 2 lata) oraz raportowania za ten okres
W Jastrzębskiej Spółce Węglowej wdrożono system pozwalający
dokonywać analizy bieżącej sprzedaży surowca oraz popytu na
węgiel w przyszłości
Firma American Airlines zyskała dzięki wdrożeniu w ciągu ostatnich
pięciu lat oszczędności rzędu 5 mln $
Kanadyjski Urząd Statystyczny zwiększył prędkość przetwarzania
zapytań w systemie z 2h do 7s
11 / 25
N
Teradata
Lider na rynku dostawców SZBD, posiadający 30-letnie doświadcze-
nie. W skład produktów Teradata wchodzą:
Bazy Danych Teradata
Narzędzia i rozszerzenia Teradata
Aplikacje Analityczne Teradata
Platforma skoncentrowana na zadania przetwarzania danych w sys-
temach analitycznych (nie na przetwarzanie transakcyjne).
12 / 25
N
Teradata
Cechy platformy:
Bazy danych do 186 PB
Do 4096 węzłów w sieci
Wsparcie dla różnych architektur (Symmetric multiprocessing
(SMP), Massively Parallel Processing (MPP), Cloud)
Rozbudowany pakiet narzędzi
13 / 25
N
Teradata - Przykładowe wdrożenia
W 2010 roku Alior Bank wdrożył najnowszą wersję platformy z
rodziny Teradata: Purpose-Built Platform Family
Bank Zachodni WBK używa platformy Teradata rozszerzającej
możliwości business intelligence (obsługa aplikacji zarządzania
kontaktami z klientami, zarządzanie ryzykiem, wsparcie sprzedaży)
Carrefour, Coca-Cola, Dell, DHL Express, eBay, Volvo i wiele innych
14 / 25
N
SAP BW - Przykład wdrożenia
Firma DHL Express: archiwizacja danych historycznych (2009/2010)
Zmniejszenie wielkości bazy danych przez przeniesienie danych do
zewnętrznego archiwum
Obsługa danych wielkości ponad 2.5 TB (bez archiwizacji danych
byłoby to ponad 4 TB)
Wzrost wydajności całego systemu
Niższe koszty platformy sprzętowe
Projekt archiwizacji trwał ponad pół roku (wielkości systemu i
wolumenu danych). Poszczególne zadania analizujące dane oraz
zadania archiwizacji przetwarzały się nawet kilka dni.
17 / 25
N
SAP BW - Przykład wdrożenia
Firma DHL Express: archiwizacja danych historycznych (2009/2010)
Zmniejszenie wielkości bazy danych przez przeniesienie danych do
zewnętrznego archiwum
Obsługa danych wielkości ponad 2.5 TB (bez archiwizacji danych
byłoby to ponad 4 TB)
Wzrost wydajności całego systemu
Niższe koszty platformy sprzętowe
Projekt archiwizacji trwał ponad pół roku (wielkości systemu i
wolumenu danych). Poszczególne zadania analizujące dane oraz
zadania archiwizacji przetwarzały się nawet kilka dni.
17 / 25
N
SAP BW - Przykład wdrożenia
Firma DHL Express: archiwizacja danych historycznych (2009/2010)
Zmniejszenie wielkości bazy danych przez przeniesienie danych do
zewnętrznego archiwum
Obsługa danych wielkości ponad 2.5 TB (bez archiwizacji danych
byłoby to ponad 4 TB)
Wzrost wydajności całego systemu
Niższe koszty platformy sprzętowe
Projekt archiwizacji trwał ponad pół roku (wielkości systemu i
wolumenu danych). Poszczególne zadania analizujące dane oraz
zadania archiwizacji przetwarzały się nawet kilka dni.
17 / 25
N
SAP BW - Przykład wdrożenia
Firma DHL Express: archiwizacja danych historycznych (2009/2010)
Zmniejszenie wielkości bazy danych przez przeniesienie danych do
zewnętrznego archiwum
Obsługa danych wielkości ponad 2.5 TB (bez archiwizacji danych
byłoby to ponad 4 TB)
Wzrost wydajności całego systemu
Niższe koszty platformy sprzętowe
Projekt archiwizacji trwał ponad pół roku (wielkości systemu i
wolumenu danych). Poszczególne zadania analizujące dane oraz
zadania archiwizacji przetwarzały się nawet kilka dni.
17 / 25
N
SAP BW - Przykład wdrożenia
Firma DHL Express: archiwizacja danych historycznych (2009/2010)
Zmniejszenie wielkości bazy danych przez przeniesienie danych do
zewnętrznego archiwum
Obsługa danych wielkości ponad 2.5 TB (bez archiwizacji danych
byłoby to ponad 4 TB)
Wzrost wydajności całego systemu
Niższe koszty platformy sprzętowe
Projekt archiwizacji trwał ponad pół roku (wielkości systemu i
wolumenu danych). Poszczególne zadania analizujące dane oraz
zadania archiwizacji przetwarzały się nawet kilka dni.
17 / 25
N
Z czym jest problem?
Ładowanie danych oraz tworzenie zapytań w SZBD
18 / 25
N
Technologia MapReduce
Wymyślona przez Google
Ukierunkowana na przetwarzanie równoległe dużych zbiorów danych
w klastrach komputerów
Inspirowana funkcjami map i reduce z programowania funkcyjnego
Map - główny program (pobiera dane z wejścia, dzieli na mniejsze
podproblemy, przesyła je do robotników)
Reduce - główny program zbiera odpowiedzi od robotników i łączy
w jeden wynik
19 / 25
N
Technologia MapReduce
Wymyślona przez Google
Ukierunkowana na przetwarzanie równoległe dużych zbiorów danych
w klastrach komputerów
Inspirowana funkcjami map i reduce z programowania funkcyjnego
Map - główny program (pobiera dane z wejścia, dzieli na mniejsze
podproblemy, przesyła je do robotników)
Reduce - główny program zbiera odpowiedzi od robotników i łączy
w jeden wynik
19 / 25
N
Technologia MapReduce
Wymyślona przez Google
Ukierunkowana na przetwarzanie równoległe dużych zbiorów danych
w klastrach komputerów
Inspirowana funkcjami map i reduce z programowania funkcyjnego
Map - główny program (pobiera dane z wejścia, dzieli na mniejsze
podproblemy, przesyła je do robotników)
Reduce - główny program zbiera odpowiedzi od robotników i łączy
w jeden wynik
19 / 25
N
Technologia MapReduce
Wymyślona przez Google
Ukierunkowana na przetwarzanie równoległe dużych zbiorów danych
w klastrach komputerów
Inspirowana funkcjami map i reduce z programowania funkcyjnego
Map - główny program (pobiera dane z wejścia, dzieli na mniejsze
podproblemy, przesyła je do robotników)
Reduce - główny program zbiera odpowiedzi od robotników i łączy
w jeden wynik
19 / 25
N
Technologia MapReduce
Wymyślona przez Google
Ukierunkowana na przetwarzanie równoległe dużych zbiorów danych
w klastrach komputerów
Inspirowana funkcjami map i reduce z programowania funkcyjnego
Map - główny program (pobiera dane z wejścia, dzieli na mniejsze
podproblemy, przesyła je do robotników)
Reduce - główny program zbiera odpowiedzi od robotników i łączy
w jeden wynik
19 / 25
N
Podsumowanie
Różne rozwiązania dla różnych zastowań
Potrzeba przetwarzania coraz większych baz danych wymusza
tworzenie nowych rozwiązań
Problem wydajności i skalowalności wytycza kierunek rozwoju
23 / 25
N
Bibliografia
Todman C., Projektowanie hurtowni danych, zarządzanie
kontaktami z klientami (CRM), WNT, Warszawa 2003
Pavlo A., A Comparison of Approaches to Large-Scale Data
Analysis, Proceedings of the 2009 ACM SIGMOD,
White T., Hadoop: The Definitive Guide, 2nd Edition, O’Reilly, 2010
Oracle: http://www.oracle.com/
SQL Server: http://www.microsoft.com/poland/sql/
Sybase IQ: http://www.proximus-it.pl/pages/sybase-iq/0
Teradata: http://www.teradata.com/t/
SAP Business Warehouse: http://www.sap.com/
24 / 25
N