cw 14 Analiza趎ych


0x01 graphic

WIELOWYMIAROWA ANALIZA DANYCH

Z WYKORZYSTANIEM NARZ臉DZIA

MS SQL SERVER

Warszawa 2007

Spis tre艣ci

1. Wprowadzenie

  1. Wprowadzenie

W przedsi臋biorstwie istnieje wiele potrzeb zwi膮zanych z analiz膮 klasyfikacyjn膮 (opisem rzeczywisto艣ci) i predykcyjn膮 (prognozowaniem przysz艂o艣ci) gromadzonych danych. Na podstawie wynik贸w tych analiz podejmowane s膮 decyzje biznesowe na r贸偶nych szczeblach zarz膮dzania. Tego typu analizy oparte na technologii OLAP i eksploracji danych (ang. data mining) s膮 r贸wnie偶 mo偶liwe do przeprowadzenia w MS SQL Server. Wymagaj膮 zazwyczaj innej organizacji danych ni偶 w bazie transakcyjnej. Dlatego w celu przeprowadzenia wielowymiarowej analizy danych tworzone s膮 bazy analityczne (zazwyczaj hurtownie danych), dla kt贸rych 藕r贸d艂em danych s膮 bazy transakcyjne.

  1. Tworzenie hurtowni danych

    1. Wprowadzenie

Hurtownia danych jest baz膮 przechowuj膮c膮 dane historyczne przedsi臋biorstwa. Dane te s膮 niezb臋dne do ekstrahowania wiedzy wspomagaj膮cej podejmowanie decyzji biznesowych w r贸偶nych obszarach decyzyjnych - od planowania strategicznego do wspomagania ewaluacji poszczeg贸lnych jednostek organizacyjnych.

Dane w hurtowni s膮 zorganizowane w taki spos贸b, aby mog艂y by膰 efektywnie wykorzystywane w zaawansowanych analizach statystycznych, ekonometrycznych i eksploracyjnych. Wi膮偶e si臋 to z konieczno艣ci膮 przekszta艂cenia rozdrobnionej struktury bazy transakcyjnej w hierarchiczn膮 struktur臋 hurtowni. Hurtownia danych zawiera zupe艂nie inne typy danych jak baza transakcyjna, a nale偶膮 do nich:

Fakty i wymiary 艂膮cz膮 si臋 w modelu danych hurtowni w nast臋puj膮ce struktury:

0x01 graphic

Rys. 1 Struktura gwiazdy

0x01 graphic

Rys. 2 Struktura p艂atka 艣niegu

0x01 graphic

Rys. 3 Struktura burzy 艣niegowej

Wszystkie prezentowane struktury modelu danych pozwalaj膮 na wykorzystanie OLAP'wej technologii przetwarzania danych. G艂贸wn膮 jej zas艂ug膮 jest efektywne wykorzystywanie danych hurtowni do analiz opartych na z艂o偶onych zapytaniach iteracyjnych. Wielowymiarowe struktury OLAP'owe i narz臋dzia agregacji danych umo偶liwiaj膮 艂atwe i szybkie przetwarzanie, agregowanie i podsumowywanie ogromnych zbior贸w danych i udost臋pnianie wynik贸w tych analiz w spos贸b przyjazny dla u偶ytkownika. Informatycznym narz臋dziem umo偶liwiaj膮cym realizacj臋 tych analiz jest SQL Server Business Intelligence Studio, b臋d膮ce komponentem systemu MS SQL Server.

    1. Zadanie

Przygotowa膰 struktur臋 analitycznej bazy danych, kt贸ra umo偶liwia艂aby prowadzenie analiz OLAP i eksploracji danych. B臋dzie to struktura gwiazdy, zgodna ze schematem prezentowanym na

0x01 graphic

Rys. 4 Struktura hurtowni danych

    1. Wykonanie zadania

0x08 graphic
0x01 graphic

Rys. 5 Definicja widoku Fakty_Proj

0x08 graphic
0x08 graphic
0x01 graphic

Rys. 6 Definicja widoku Wymiar_Adres

0x01 graphic

Rys. 7 Definicja widoku Wymiar_Proj

0x01 graphic

Rys. 8 Definicja widoku Wymiar_Prac

  1. Analiza OLAP

    1. Wprowadzenie

OLAP (ang. Online Analytical Processing) to komputerowe przetwarzanie, kt贸re umo偶liwia u偶ytkownikowi 艂atwe i selektywne wydobywanie i ogl膮danie danych wzgl臋dem r贸偶nych wymiar贸w.

Analiza OLAP wykorzystuje koncepcj臋 tzw. kostki OLAP, kt贸ra posiada wymiary (ang. dimensions), zwane tak偶e perspektywami, hierarchie (ang. hierarchies) i miary (ang. measures). Przyk艂ad analizy OLAP to badanie liczby zrealizowanych projekt贸w przez poszczeg贸lne jednostki organizacyjne w kolejnych latach dzia艂alno艣ci firmy. Jednostki organizacyjne i lata to w艂a艣nie wymiary analizy, a liczba zrealizowanych projekt贸w - miara.

Dane zapisywane s膮 w kostce OLAP hierarchicznie. Dzi臋ki temu mo偶emy je analizowa膰 na r贸偶nych poziomach szczeg贸艂owo艣ci, rozpoczynaj膮c od informacji zagregowanych (np. liczba projekt贸w zrealizowanych w poszczeg贸lnych latach) i dochodz膮c do bardzo szczeg贸艂owych, obejmuj膮cych pojedyncze operacje (np. liczba projekt贸w zrealizowanych przez konkretnego pracownika w okre艣lonym miesi膮cu).

Analiza OLAP pozwala na odpowiadanie na pytania: "kto?", "co?", "kiedy?", "jak?", "dlaczego?", a tak偶e na wszechstronn膮 analiz臋 scenariuszow膮 ("co je艣li?"). Umo偶liwia prognozowanie przysz艂ych trend贸w kszta艂towania si臋 zjawiska na podstawie danych historycznych. Przyk艂adowe pytania, na kt贸re odpowiedzi dostarczaj膮 narz臋dzia OLAP:

    1. Zadanie

Nale偶y przygotowa膰 kostk臋 OLAP, kt贸ra pozwoli analizowa膰 dane z tabeli Fakty_Proj wzgl臋dem wymiar贸w: Wymiar_Proj, Wymiar_Prac, Wymiar_Adres.

    1. Wykonanie zadania

0x08 graphic
0x08 graphic
0x08 graphic
0x01 graphic

Rys. 9 Analysis Services Project

0x01 graphic

Rys. 10 Nowe 藕r贸d艂o danych

0x01 graphic

Rys. 11 Tworzenie po艂膮czenia ze 藕r贸d艂em danych

0x01 graphic

Rys. 12 Logowanie do 藕r贸d艂a danych

0x08 graphic
0x01 graphic

Rys. 13 殴r贸d艂o danych Kadry

0x01 graphic

Rys. 14 Przygotowywanie nowego widoku danych 藕r贸d艂owych

0x08 graphic
0x01 graphic

Rys. 15 Tworzenie widoku danych dla projektu

0x01 graphic

Rys. 16 Wyb贸r element贸w struktury kostki

0x01 graphic

Rys. 17 Struktura relacji pomi臋dzy widokami

0x01 graphic

Rys. 18 Tworzenie nowej kostki OLAP

0x01 graphic

Rys. 19 Automatyczne generowanie struktury kostki

0x01 graphic

Rys. 20 Wyb贸r 藕r贸d艂a danych dla kostki

0x01 graphic

Rys. 21 Fakty i wymiary w strukturze kostki

0x08 graphic
0x01 graphic

Rys. 22 Miary obliczane dla kostki

0x01 graphic

Rys. 23 Okno projektowe kostki OLAP

0x01 graphic

Rys. 24 Generowanie kostki

0x01 graphic

Rys. 25 Tabela przestawna

  1. Analiza eksploracyjna danych

    1. Wprowadzenie

Eksploracja danych (ang data mining) to metody statystyczne i metody sztucznej inteligencji, kt贸re umo偶liwiaj膮 odkrywanie nieznanych jeszcze zale偶no艣ci (prawid艂owo艣ci) mi臋dzy danymi w nagromadzonych zbiorach danych. S膮 to takie metody, kt贸re pozwalaj膮 z danych tworzy膰 wiedz臋 (znajdywa膰 zale偶no艣ci, wzorce, trendy).

Mo偶emy wyr贸偶ni膰 dwa podstawowe rodzaje eksploracji danych:

Uruchomienie proces贸w eksploracji danych wymaga danych dobrej jako艣ci, zintegrowanych, prawdziwych i stanowi膮cych reprezentatywn膮 pr贸b臋. W przeciwnym wypadku mo偶emy otrzyma膰 wyniki o mniejszej dok艂adno艣ci lub po prostu nieprawdziwe. Z wykorzystaniem r贸偶nych metod statystycznych, ekonometrycznych czy metod sztucznej inteligencji (np. analiza dyskryminacyjna, regresja logistyczna, drzewa klasyfikacyjne, generowanie regu艂 rozmytych, analiza skupie艅, analiza korespondencji, sieci neuronowe) tworzone s膮 modele, kt贸re wykorzystuje si臋 do analizy danych, celem sprawdzenia czy wyst臋puj膮 w nich ukryte relacje, prawid艂owo艣ci czy te偶 inne zwi膮zki.

Cz臋stym zastosowaniem metod eksploracji danych jest segmentacja klient贸w, pracownik贸w i produkt贸w. W naszych 膰wiczeniach wykonamy modele poszukuj膮ce opisu pracownika efektywnego, czyli takiego, kt贸ry realizuje du偶膮 liczb臋 projekt贸w przy wysokim udziale w艂asnym w realizacji tych projekt贸w.

    1. Zadanie

Przygotowa膰 analiz臋 eksploracyjn膮 danych, kt贸ra umo偶liwi zbadanie, jakie cechy maj膮 wp艂yw na zaanga偶owanie pracownik贸w w realizacj臋 projekt贸w. Firma zatrudnia ponad 450 os贸b, ale tylko nieca艂e 60 os贸b bierze udzia艂 w realizacji projekt贸w. Zarz膮d firmy chce zaktywowa膰 swoich pracownik贸w (ewentualnie doprowadzi膰 do zmian w strukturze zatrudnienia), ale chce te偶 wiedzie膰 na jakie cechy swoich obecnych lub przysz艂ych pracownik贸w powinien zwraca膰 szczeg贸ln膮 uwag臋.

    1. Wykonanie zadania

0x08 graphic
0x01 graphic

Rys. 26 Definicja widoku AktywnoscPrac

0x01 graphic

Rys. 27 Definicja widoku Liczba dzieci

0x08 graphic
0x01 graphic

Rys. 28 Definicja widoku AnalizaDM

0x01 graphic

Rys. 29 Tworzenie projektu AnalizaDM

0x01 graphic

Rys. 30 Udost臋pnianie widoku AnalizaDM

0x01 graphic

Rys. 31 Tworzenie nowej struktury eksploracji danych

0x01 graphic

Rys. 32 Tworzenie struktury eksploracyjnej na podstawie bazy danych

0x01 graphic

Rys. 33 Eksploracja technik膮 drzew decyzyjnych

0x01 graphic

Rys. 34 Wyb贸r 藕r贸d艂a danych

0x01 graphic

Rys. 35 Wyb贸r tabeli do analizy

0x01 graphic

Rys. 36 Lista atrybut贸w i ich role w analizie

0x08 graphic
0x01 graphic

Rys. 37 Dyskretyzacja zmiennych

0x01 graphic

Rys. 38 Zako艅czenie tworzenia struktury eksploracyjnej

0x01 graphic

Rys. 39 Uruchamianie struktury eksploracyjnej

0x01 graphic

Rys. 40 Wyniki modelu Drzewo Decyzyjne

0x08 graphic
0x01 graphic

Rys. 41 Tworzenie nowego modelu eksploracyjnego

0x01 graphic

Rys. 42 R贸偶ne modele tej samej struktury eksploracyjnej

0x08 graphic
0x01 graphic

Rys. 43 Wyniki modelu Regresja

0x01 graphic

Rys. 44 Wyniki modelu SiecNeuronowa

  1. Zadanie do wykonania

Przeprowadzi膰 wielowymiarow膮 analiz臋 danych w oparciu o utworzon膮 kostk臋 OLAP i widok DM, zaprojektowane dla swojego projektu. Zadanie stanowi element oceniany.

dr in偶. T. Ostrowska, dr in偶. K. Rostek Zak艂ad System贸w Informatycznych

IOSP PW Bazy Danych - laboratorium

cw 13-14 Analiza danych, 2007-06-24



Wyszukiwarka

Podobne podstrony:
Analiza 偶ywno艣ci 膰w 14 estry, T偶, Analiza 偶ywno艣ci II, Sprawozdania
Controlling 膰w 14 10 27
cw 13 Analiza Matematyczna (calki) id
Cw 5 10 Analiza tolerancji i od Nieznany
10 14 Analiza FOR Konstytucyjne konsekwencje zmian w ofe
SPRAWOZDANIE CW 14, Semestr 1, Fizyka
Cw 9 i 10 Analiza mikrobiologiczna GLEBY
膰w 14 sprawozdanie I
膯w-8 14.04.2008, studia, Ortopedia, 膯wiczenia
cw 14, m.szpaner, Semestr IV, Fizyka, Sprawozdania Fizyka
膰w.14, Fizyka, Skrypt do Laborek
cw 14 Procedury sk艂adowane i funkcje?zodanowe
cw 06 analiza modeli predykcyjnych
postepow adm cw 14.04.05, post臋powanie administracyjne(8), cw
cw 4 angelika, analiza finansowa, analiza fin. sabuhoro, Analiza Finansowa Angelika Sabuhoro CW by B
Sprawozdanie 膰w 9, T偶, Analiza 偶ywno艣ci II, Sprawozdania
MO 膰w 14(1)
cad 1 I Cw 14 2013 id 107655 Nieznany

wi臋cej podobnych podstron