magazyny趎ych (74 str) UEJHQ5UZ4IAH3TFKJO4LSY33GY4TX3IVGDICFEA


Next-Generation Database Technology

Magazyny danych i technologia OLAP

Opracowa艂 na podstawie materia艂贸w T. Morzego, T.Koszlajdy, M. Matysiaka, R. Wrembela

______________________________________________________________________________

Literatura:

  1. T. Koszlajda, Technologia magazyn贸w danych, w: Materia艂y II Kraj. Szko艂y PLOUG'97, Zakopane.

  2. M. Matysiak, Technologia OLAP, w: Materia艂y II Krajowej Szko艂y PLOUG'97, Zakopane.

  3. R. Wrembel, Dane hurtowo, Informatyka, nr.10, 1998

  4. T. Morzy, Eksploracja danych a bazy danych, Materia艂y III Krajowej Szko艂y PLOUG'98, Zakopane.

  5. Chaudhuri S., U. Dayal, An Overview of Data Warehousing and OLAP Technology, SIGMOD Record, Vol. 26, No. 1, March 1997.

  6. Codd E.F., S.B. Codd, C.T. Salley, Providing to User-Analysts: An IT Mandate, Arbor Software's web site, http://www.arborsoft.com/OLAP.html.

  7. Widom J., Research Problems in Data Warehousing, Proceedings 4th Intern. CIKM Conference, 1995.

  8. Http:// www.olapcouncil.org

Informatyzacja firm, instytucji i innych jednostek organizacyjnych powinna realizowa膰 dwa podstawowe cele:

Ad 1) Usprawnienie pracy pojedynczego pracownika: sprzedawcy, magazyniera, ksi臋gowego lub urz臋dnika - poprzez automatyzacj臋 realizowanych przez nich wybranych, rutynowych dzia艂a艅.

Ad 2) Racjonalizacja dzia艂ania ca艂ych firm - w wyniku wspomagania decyzji kadry zarz膮dzaj膮cej - przez dostarczenie danych analitycznych opisuj膮cych bie偶膮cy stan i histori臋 dzia艂ania danej firmy.

Korzy艣ci: trafniejsze decyzje o strategicznym znaczeniu dla rozwoju danego przedsi臋biorstwa.

Spos贸b w jaki u偶ytkownik korzysta z bazy danych (w jaki realizuje do niej dost臋p) nazywamy modelem przetwarzania

Aplikacje operacyjne systemu informatycznego

Aplikacje analityczne systemu informatycznego

Aplikacje analityczne - podsumowanie

Modelem przetwarzania w艂a艣ciwym dla tej kategorii aplikacji jest przetwarzanie analityczne (ang. On-line Analytical Processing - OLAP) - ma za zadanie wspieranie proces贸w analizy danych dostarczaj膮c narz臋dzi umo偶liwiaj膮cych tak膮 analiz臋 w wielu „wymiarach” definiowanych przez u偶ytkownik贸w (czas, miejsce, klasyfikacja produkt贸w, itp.).

OLAP - weryfikacja hipotez

Analiza danych zgodnie z modelem OLAP, jest ca艂kowicie sterowana przez analityka. Analityk formu艂uje zapytania i dokonuje analizy danych. Z tego punktu widzenia, OLAP mo偶na interpretowa膰 jako rozszerzenie standardu SQL o mo偶liwo艣ci efektywnego przetwarzania z艂o偶onych zapyta艅 zawieraj膮cych agregaty.

Aplikacje analityczne - podsumowanie

Problemy realizacji system贸w OLAP

Problemy realizacji system贸w OLAP

Typowy stan informatyzacji firm, instytucji: heterogeniczno艣膰 eksploatowanych system贸w - uniemo偶liwia to bezpo艣redni dost臋p do wszystkich danych okre艣laj膮cych kondycj臋 danej firmy

0x01 graphic

Problemy realizacji system贸w OLAP

  1. Czy analiza powinna mie膰 charakter rozproszony czy scentralizowany, innymi s艂owy, czy dane nale偶y zgromadzi膰 i przetwarza膰 w jednym miejscu w spos贸b scentralizowany, czy te偶 korzystaj膮c z mechanizmu transakcji rozproszonych mo偶na przetwarza膰 dane w spos贸b rozproszony.

  2. Drugie pytanie dotyczy koegzystencji dw贸ch system贸w - systemu bie偶膮cej obs艂ugi dzia艂ania przedsi臋biorstwa oraz systemu wspomagania podejmowania decyzji. Oba systemy operuj膮 na tych samych danych, st膮d pytanie, czy oba modele OLAP i OLTP mog膮 wsp贸艂istnie膰 w tym samym systemie bazy danych, czy te偶 powinny funkcjonowa膰 niezale偶nie.

Problemy realizacji system贸w OLAP

Problem integracji heterogenicznych i rozproszonych system贸w informatycznych

Czy w celu integracji heterogenicznych i rozproszonych system贸w informatycznych mo偶na wykorzysta膰 koncepcje sfederowanych system贸w baz danych ?

0x01 graphic

Architektura sfederowanych baz danych

Ocena technologii sfederowanych system贸w baz danych

Problemy realizacji system贸w OLAP - cd.

0x01 graphic

Problemy realizacji system贸w OLAP - cd.

Wnioski: analiza powinna mie膰 charakter scentralizowany, a modele OLAP i OLTP powinny funkcjonowa膰 niezale偶nie.

Magazyn danych - koncepcja i architektura

W ostatnim czasie prace badawcze i rozwojowe prowadzone w ramach powy偶szych problem贸w doprowadzi艂y do opracowania nowego typu relacyjnej bazy danych nazwanego magazynem danych (ang. data warehouse).

Magazyn danych - koncepcja i architektura

  1. procesy decyzyjne wymagaj膮 danych, na przyk艂ad o trendach, kt贸rych mo偶e nie by膰 w operacyjnych bazach danych

  2. procesy decyzyjne wymagaj膮 dost臋pu do skonsolidowanych danych pochodz膮cych z wielu heterogenicznych 藕r贸de艂, kt贸re mog膮 u偶ywa膰 niezgodnych format贸w danych i niezgodnego kodowania

  3. operacje typowe dla system贸w OLAP wymagaj膮 specjalnego sk艂adowania danych, odpowiednich struktur i metod dost臋pu do danych, kt贸rych nie stosuje si臋 w tradycyjnych, komercyjnych systemach zarz膮dzania bazami danych (ang. DBMS).

Magazyn danych - rozdzielenie przetwarzania operacyjnego i analitycznego

0x01 graphic

Koncepcja magazynu danych - cd.

Struktura magazynu danych

W magazynie danych przechowywane s膮 nast臋puj膮ce kategorie danych:

Struktura magazynu danych - cd.

0x01 graphic

0x08 graphic
Architektury magazyn贸w danych

Zak艂adowy magazyn danych

Architektury magazyn贸w danych

0x08 graphic

Zbi贸r niezale偶nych oddzia艂owych magazyn贸w danych

Architektury magazyn贸w danych

0x08 graphic

Zbi贸r zale偶nych oddzia艂owych magazyn贸w danych

Architektura systemu zarz膮dzania magazynem danych

0x01 graphic

Architektura systemu zarz膮dzania magazynem danych - cd.

殴r贸d艂a danych: 藕r贸d艂owe bazy danych i 藕r贸d艂a inne ni偶 bazy danych

Modu艂y monitorowania i konwersji danych

Modu艂y monitorowania i konwersji danych

Potrzeba konwersji i integracji danych

0x01 graphic

Architektura systemu zarz膮dzania magazynem danych - cd.

Modu艂 integratora

Dane przechowywane w magazynie danych mog膮 r贸偶ni膰 si臋 schematem poj臋ciowym od danych przechowywanych w poszczeg贸lnych 藕r贸d艂owych bazach danych - zazwyczaj s膮 to dane bardziej przetworzone, na przyk艂ad do warto艣ci sumarycznych, 艣rednich itp.

Zadania modu艂u integratora:

W艂asno艣ci systemu zarz膮dzania magazynem danych

System zarz膮dzania magazynem danych powinien zapewnia膰:

Efektywno艣膰 systemu zarz膮dzania magazynem danych (SZMD) - wybrane problemy

Przetwarzanie r贸wnoleg艂e

Efektywno艣膰 systemu zarz膮dzania magazynem danych (SZMD)- wybrane problemy - cd

Parcelacja danych

Umo偶liwia automatyczne rozpraszanie danych (pochodz膮cych z jednej lub wielu relacji) na wiele dysk贸w, znajduj膮cych si臋 w tym samym lub wielu w臋z艂ach (komputerach) sieci - dzi臋ki podzia艂owi du偶ej relacji na mniejsze:

Efektywno艣膰 SZMD - wybrane problemy - cd

Techniki parcelacji danych:

Technika round-robin umo偶liwia r贸wnomierne rozproszenie danych w w臋z艂ach sieci. Przyk艂adowo, je艣li w sieci znajduj膮 si臋 trzy w臋z艂y, to pierwsza krotka relacji zostanie umieszczona w w臋藕le pierwszym, druga - w w臋藕le drugim, trzecia krotka - w w臋藕le trzecim, czwarta - zn贸w w w臋藕le pierwszym itp.

Wada: poniewa偶 dane s膮 rozproszone w spos贸b przypadkowy, wi臋c odnalezienie 偶膮danych informacji wymaga przeszukania wszystkich w臋z艂贸w.

Efektywno艣膰 SZMD - wybrane problemy - cd

Parcelacja danych -cd

Parcelacja bazuj膮ca na warto艣ci - rozmieszczenie danych w sieci zale偶y od warto艣ci samych danych (np. relacja zawieraj膮ca informacje o klientach sieci supermarket贸w mo偶e by膰 podzielona zgodnie z warto艣ci膮 pierwszej litery nazwiska)

0x01 graphic

Zaleta: ten spos贸b rozpraszania danych jest efektywny dla zapyta艅 wykorzystuj膮cych zakresy warto艣ci w predykatach selekcji, poniewa偶 umo偶liwia szybki dost臋p do danych z 偶膮danego zakresu, bez potrzeby przeszukiwania wszystkich w臋z艂贸w.

Efektywno艣膰 SZMD - wybrane problemy - cd

Parcelacja danych -cd

W parcelacji haszowej dane s膮 umieszczane w w臋z艂ach zgodnie z warto艣ci膮 systemowej funkcji haszowej.

Zaleta: mo偶liwo艣膰 automatycznego umieszczania w tym samym w臋藕le krotek pochodz膮cych z r贸偶nych, powi膮zanych z sob膮 relacji - w ten spos贸b zwi臋ksza si臋 efektywno艣膰 wykonywania operacji 艂膮czenia krotek, gdy偶 艂膮czone z sob膮 krotki znajduj膮 si臋 w tym samym w臋藕le.

Efektywno艣膰 SZMD - wybrane problemy - cd

Parcelacja danych -cd

Parcelacja hybrydowa umo偶liwia dwustopniowe rozpraszanie danych.

Zaleta: wzrasta r贸wnomierno艣膰 rozproszenia danych i obci膮偶enia w臋z艂贸w.

Efektywno艣膰 systemu zarz膮dzania magazynem danych (SZMD)- wybrane problemy - cd

Materializowanie agregat贸w

Przetwarzanie w magazynach danych - W艂asno艣ci danych

0x08 graphic
Nazwa klienta

Adres klienta

Telefon

Alfa

ul. Akacjowa 4

8345-543

Beta

ul. Konwaliowa 8

8665-545

Gamma

ul. Klonowa 34/36

8434-221

Delta

ul. Alba艅ska 8

8665-645

Przyk艂adowa relacja - jeden wymiar

Nawigacja po krotkach relacji:

Przetwarzanie w magazynach danych - W艂asno艣ci danych - cd.

0x08 graphic

Towar

Lod贸wka

Pralka

Zmywarka

Alfa

20

23

5

Klient

Beta

4

0

24

Gamma

45

147

35

Delta

71

12

40

0x08 graphic

Sprzeda偶 pokazana w dw贸ch wymiarach: towary i klienci

Przetwarzanie w magazynach danych - W艂asno艣ci danych - cd.

Towar

Klient

Sprzeda偶

Lod贸wka

Alfa

20

Lod贸wka

Beta

4

Lod贸wka

Gamma

45

Lod贸wka

Delta

71

Pralka

Alfa

23

Pralka

Gamma

147

Pralka

Delta

12

Zmywarka

Alfa

5

Zmywarka

Beta

24

Zmywarka

Delta

40

Sprzeda偶 towar贸w dla klient贸w zapami臋tana w 1-wymiarowej relacji

Przetwarzanie w magazynach danych - W艂asno艣ci danych - cd.

__________________________________________________________________

Przetwarzanie w magazynach danych - Materializowanie agregat贸w

Towar

Lod贸wka

Pralka

Zmywarka

艁膮cznie:

Alfa

20

23

5

48

Klient

Beta

4

0

24

28

Gamma

45

147

35

227

Delta

71

12

40

123

艁膮cznie:

140

182

104

426

Zmaterializowane agregaty w wielowymiarowej bazie danych

Przetwarzanie w magazynach danych - terminologia

Przetwarzanie w magazynach danych - terminologia - cd.

0x01 graphic

Przyk艂ad danych wielowymiarowych

Przetwarzanie w magazynach danych - terminologia - cd.

Na przyk艂ad:

Hierarchie atrybut贸w - przyk艂ad

0x01 graphic

Hierarchie atrybut贸w w ramach wymiar贸w

Projektowanie magazynu danych

Bazy danych wspieraj膮ce technologi臋 magazyn贸w danych (technologi臋 OLAP) mo偶na podzieli膰 na dwa rodzaje, ze wzgl臋du na wykorzystywane przez nie modele danych.

  1. Magazyny relacyjne, nazywane r贸wnie偶 ROLAP (ang. Relational OLAP), wykorzystuj膮ce systemy zarz膮dzania relacyjn膮 baz膮 danych, posiadaj膮ce dodatkowe mechanizmy efektywnego przetwarzania zapyta艅 typu OLAP

  2. Magazyny wielowymiarowe, nazywane r贸wnie偶 MOLAP (ang. Multi-Dimensional OLAP), wykorzystuj膮ce specjalizowane systemy zarz膮dzania, umo偶liwiaj膮ce przechowywanie danych w wielowymiarowych tablicach i wykonywanie operacji OLAP zdefiniowanych dla tych struktur danych.

ROLAP

ROLAP

Centralna relacja Sprzeda偶 zawiera informacje o sprzeda偶y pewnych produkt贸w, w pewnych obszarach geograficznych, w okre艣lonym czasie. Relacje Produkty, Obszary i Okresy s膮 wymiarami, natomiast relacja Sprzeda偶 jest relacj膮 fakt贸w (ang. fact table). Atrybuty relacji fakt贸w przechowuj膮ce informacje o sprzeda偶y s膮 miarami (ang. measures), np. cena, liczba_sztuk. Relacja fakt贸w ­- Sprzeda偶 zawiera r贸wnie偶 atrybuty ProduktID, ObszarID, OkresID, kt贸rych warto艣ci wskazuj膮 na odpowiednie wymiary.

0x01 graphic

Schemat gwiazdy

ROLAP

Je艣li wymiary tworz膮 hierarchie, to schemat hurtowni danych ma cz臋sto posta膰 p艂atka 艣niegu.

0x01 graphic

Schemat p艂atka 艣niegu

MOLAP

Struktury danych MOLAP (ang. multidimensional arrays, datacubes) zawieraj膮 dane wst臋pnie przetworzone (m.in. zagregowane) pochodz膮ce z wielu 藕r贸de艂.

0x01 graphic

Tablica tr贸jwymiarowa, zawieraj膮ca trzy wymiary: obszar, okres i produkt oraz zagregowane informacje o sprzeda偶y samochod贸w w poszczeg贸lnych latach, w wybranych miastach

MOLAP

Analiz臋 danych wielowymiarowych wspomagaj膮 specjalne operatory, do kt贸rych nale偶膮:

MOLAP - operacje

Wyznaczanie punktu centralnego (ang. pivoting)

Rozwijanie (ang. drillng down)

MOLAP - operacje

Rozwijanie (ang. drillng down)

0x01 graphic

Operacja rozwijania hierarchii wymiaru

MOLAP - operacje

Obracanie (ang. rotating);

0x01 graphic

Operacja obracania

MOLAP - operacje

Wycinanie (ang. slicing and dicing);

0x01 graphic
Wycinanie danych w r贸偶nych wymiarach

MOLAP - operacje

Zwijanie (ang. rolling up)

Obliczanie rankingu (ang. ranking);

Operacja ta umo偶liwia uporz膮dkowanie informacji w danym wymiarze, zgodnie z warto艣ciami wybranych miar (w kolejno艣ci malej膮cej lub narastaj膮cej). Przyk艂adowo, w wymiarze roku 97 mo偶na uporz膮dkowa膰 marki samochod贸w zgodnie z narastaj膮cym porz膮dkiem liczby sprzedanych egzemplarzy.

Produkty komercyjne

Obecnie wiele wiod膮cych firm w dziedzinie baz danych oferuje serwery wspieraj膮ce technologi臋 hurtowni danych. S膮 to:

Produkty komercyjne - Oracle

ORACLE for Warehouse Technology

Typy danych w magazynie:

  1. sformatowane (ang. record-oriented)

  2. tekstowe,

  3. przestrzenne (wielowymiarowe),

  4. dane multimedialne.

Produkty komercyjne - Oracle

Techniki specjalne wspomagaj膮ce typy danych w magazynie

  1. Dane sformatowane:

  1. Dane tekstowe (Oracle TextServer)

Produkty komercyjne - Oracle

Techniki specjalne wspomagaj膮ce typy danych w magazynie

  1. Dane przestrzenne (wielowymiarowe)

  1. Dane multimedialne

Produkty komercyjne - Oracle

Narz臋dzia firmy Oracle wspomagaj膮ce technologi臋 magazyn贸w danych:

Produkty komercyjne - Oracle

Narz臋dzia firmy Oracle wspomagaj膮ce technologi臋 magazyn贸w danych:

_______________________________________________________________________________

Magazyny danych i technologia OLAP Z. Kr贸likowski 1

0x01 graphic

0x01 graphic

0x01 graphic



Wyszukiwarka

Podobne podstrony:
M Kopyd艂owski = 艢wiadome 艢nienie (Full 74 str)
transport wodny 艣r贸dl膮dowy (4 str), Gospodarka magazynowa, Logistyka
Anamnesis59 4a str 69 74
Chmaj 呕migrodzki roz 2 str 51 74
controlling logistyczny (9 str), Gospodarka magazynowa, Logistyka
zarz膮zdanie logistyczne w zaopatrzeniu (8 str), Gospodarka magazynowa, Logistyka
gospodarka magazynowa-wyk艂ady (18 str), ABC Magazynu
polityka transportowa pa艅stwa (3 str), Gospodarka magazynowa, Logistyka
system transportowy (13 str), Gospodarka magazynowa, Logistyka
chrakterystyka transportu kolejowego w Polsce (36 str), Gospodarka magazynowa, Logistyka
Dziel臋 si臋 ka偶d膮 chwilk膮 str 74
Bolesta Kuku艂ka Socjologia og贸lna rozdz 4 Wielkie syntezy socjologiczne str 74 82
transport wodny 艣r贸dl膮dowy (4 str), Gospodarka magazynowa, Logistyka

wi臋cej podobnych podstron