WIELOWYMIAROWA ANALIZA DANYCH
Z WYKORZYSTANIEM NARZ臉DZIA
MS SQL SERVER
Warszawa 2007
Spis tre艣ci
1. Wprowadzenie
Wprowadzenie
W przedsi臋biorstwie istnieje wiele potrzeb zwi膮zanych z analiz膮 klasyfikacyjn膮 (opisem rzeczywisto艣ci) i predykcyjn膮 (prognozowaniem przysz艂o艣ci) gromadzonych danych. Na podstawie wynik贸w tych analiz podejmowane s膮 decyzje biznesowe na r贸偶nych szczeblach zarz膮dzania. Tego typu analizy oparte na technologii OLAP i eksploracji danych (ang. data mining) s膮 r贸wnie偶 mo偶liwe do przeprowadzenia w MS SQL Server. Wymagaj膮 zazwyczaj innej organizacji danych ni偶 w bazie transakcyjnej. Dlatego w celu przeprowadzenia wielowymiarowej analizy danych tworzone s膮 bazy analityczne (zazwyczaj hurtownie danych), dla kt贸rych 藕r贸d艂em danych s膮 bazy transakcyjne.
Tworzenie hurtowni danych
Wprowadzenie
Hurtownia danych jest baz膮 przechowuj膮c膮 dane historyczne przedsi臋biorstwa. Dane te s膮 niezb臋dne do ekstrahowania wiedzy wspomagaj膮cej podejmowanie decyzji biznesowych w r贸偶nych obszarach decyzyjnych - od planowania strategicznego do wspomagania ewaluacji poszczeg贸lnych jednostek organizacyjnych.
Dane w hurtowni s膮 zorganizowane w taki spos贸b, aby mog艂y by膰 efektywnie wykorzystywane w zaawansowanych analizach statystycznych, ekonometrycznych i eksploracyjnych. Wi膮偶e si臋 to z konieczno艣ci膮 przekszta艂cenia rozdrobnionej struktury bazy transakcyjnej w hierarchiczn膮 struktur臋 hurtowni. Hurtownia danych zawiera zupe艂nie inne typy danych jak baza transakcyjna, a nale偶膮 do nich:
fakty - dane ilo艣ciowe stanowi膮ce g艂贸wny cel analiz przeprowadzanych w hurtowni,
wymiary - dane okre艣laj膮ce po艂o偶enie poszczeg贸lnych fakt贸w w przestrzeni danych (fakty analizowane s膮 wzgl臋dem poszczeg贸lnych wymiar贸w),
agregaty - dane zagregowane zawieraj膮ce fakty, kt贸re zosta艂y zsumowane prostym obliczeniem matematycznym lub za pomoc膮 funkcji statystycznych (np. minimum, maksimum, 艣rednia, wariancja),
metadane - r贸偶ni膮 si臋 od fakt贸w, wymiar贸w i agregat贸w tym, 偶e bezpo艣rednio nie zawieraj膮 danych, ale informacje o ich po艂o偶eniu, strukturze i znaczeniu, a tak偶e informacje o ich mapowaniu ( na przyk艂ad przy zastosowaniu alias贸w w narz臋dziach OLAP) oraz przewodnik do algorytm贸w u偶ytych w agregacjach. W zwi膮zku z tym metadane s膮 cz臋sto definiowane jako „dane o danych”.
Fakty i wymiary 艂膮cz膮 si臋 w modelu danych hurtowni w nast臋puj膮ce struktury:
struktur臋 gwiazdy - jedna tabela fakt贸w 艂膮czy si臋 z wieloma pojedynczymi tabelami wymiar贸w:
Rys. 1 Struktura gwiazdy
struktur臋 p艂atka 艣niegu - jedna tabela fakt贸w 艂膮czy si臋 z wieloma tabelami wymiar贸w, przy czym niekt贸re wymiary mog膮 tworzy膰 hierarchie:
Rys. 2 Struktura p艂atka 艣niegu
struktur臋 burzy 艣niegowej - kilka tabel fakt贸w 艂膮czy si臋 z wieloma wymiarami, przy czym niekt贸re wymiary mog膮 by膰 wsp贸lne dla r贸偶nych tabel fakt贸w (wymiary oczywi艣cie mog膮 tworzy膰 hierarchie):
Rys. 3 Struktura burzy 艣niegowej
Wszystkie prezentowane struktury modelu danych pozwalaj膮 na wykorzystanie OLAP'wej technologii przetwarzania danych. G艂贸wn膮 jej zas艂ug膮 jest efektywne wykorzystywanie danych hurtowni do analiz opartych na z艂o偶onych zapytaniach iteracyjnych. Wielowymiarowe struktury OLAP'owe i narz臋dzia agregacji danych umo偶liwiaj膮 艂atwe i szybkie przetwarzanie, agregowanie i podsumowywanie ogromnych zbior贸w danych i udost臋pnianie wynik贸w tych analiz w spos贸b przyjazny dla u偶ytkownika. Informatycznym narz臋dziem umo偶liwiaj膮cym realizacj臋 tych analiz jest SQL Server Business Intelligence Studio, b臋d膮ce komponentem systemu MS SQL Server.
Zadanie
Przygotowa膰 struktur臋 analitycznej bazy danych, kt贸ra umo偶liwia艂aby prowadzenie analiz OLAP i eksploracji danych. B臋dzie to struktura gwiazdy, zgodna ze schematem prezentowanym na
Rys. 4 Struktura hurtowni danych
Wykonanie zadania
Na u偶ytek 膰wicze艅 stworzymy jedynie kilka dodatkowych widok贸w w bazie danych Kadry, aby w wygodny spos贸b mo偶na by艂o zdefiniowa膰 wielowymiarow膮 kostk臋 OLAP.
Realizacj臋 zadania nale偶y rozpocz膮膰 od przygotowania nowych widok贸w w bazie danych Kadry, kt贸re zostan膮 wykorzystane przy tworzeniu kostki OLAP'owej. Jako pierwszy utworzymy Fakty_Proj, b臋dzie to widok definiuj膮cy fakty zwi膮zane z realizacj膮 projekt贸w. Definicj臋 tego widoku prezentuje Rys. 5. Atrybut CzasProj jest liczony w dniach od daty rozpocz臋cia do daty zako艅czenia projektu: Cast(DataZak-DataRoz as int.
Rys. 5 Definicja widoku Fakty_Proj
Kolejny widok to Wymiar_Adres, kt贸ry pozwoli na analiz臋 realizacji projekt贸w pod k膮tem miejsca zamieszkania os贸b, kt贸re bra艂y w nich udzia艂. Jego definicj臋 prezentuje Rys. 6. W celu umo偶liwienia bardziej precyzyjnej analizy alokacji geograficznej atrybut KodMiasto zosta艂 rozdzielony na dwie sk艂adowe: Kod i Miasto.
Rys. 6 Definicja widoku Wymiar_Adres
Kolejny wymiar to Wymiar_Proj (Rys. 7). Jest to jednocze艣nie wymiar czasu, kt贸ry pozwoli na analiz臋 realizacji projekt贸w w zdefiniowanych przedzia艂ach czasowych.
Rys. 7 Definicja widoku Wymiar_Proj
Ostatni wymiar to Wymiar_Prac, kt贸ry opiera si臋 na definicji widoku Lista zatrudnionych (Rys. 8). Pozwoli on na analiz臋 realizacji projekt贸w pod k膮tem miejsca zatrudnienia, stanowiska, wieku, sta偶u pracy oraz p艂acy pracownika.
Rys. 8 Definicja widoku Wymiar_Prac
Analiza OLAP
Wprowadzenie
OLAP (ang. Online Analytical Processing) to komputerowe przetwarzanie, kt贸re umo偶liwia u偶ytkownikowi 艂atwe i selektywne wydobywanie i ogl膮danie danych wzgl臋dem r贸偶nych wymiar贸w.
Analiza OLAP wykorzystuje koncepcj臋 tzw. kostki OLAP, kt贸ra posiada wymiary (ang. dimensions), zwane tak偶e perspektywami, hierarchie (ang. hierarchies) i miary (ang. measures). Przyk艂ad analizy OLAP to badanie liczby zrealizowanych projekt贸w przez poszczeg贸lne jednostki organizacyjne w kolejnych latach dzia艂alno艣ci firmy. Jednostki organizacyjne i lata to w艂a艣nie wymiary analizy, a liczba zrealizowanych projekt贸w - miara.
Dane zapisywane s膮 w kostce OLAP hierarchicznie. Dzi臋ki temu mo偶emy je analizowa膰 na r贸偶nych poziomach szczeg贸艂owo艣ci, rozpoczynaj膮c od informacji zagregowanych (np. liczba projekt贸w zrealizowanych w poszczeg贸lnych latach) i dochodz膮c do bardzo szczeg贸艂owych, obejmuj膮cych pojedyncze operacje (np. liczba projekt贸w zrealizowanych przez konkretnego pracownika w okre艣lonym miesi膮cu).
Analiza OLAP pozwala na odpowiadanie na pytania: "kto?", "co?", "kiedy?", "jak?", "dlaczego?", a tak偶e na wszechstronn膮 analiz臋 scenariuszow膮 ("co je艣li?"). Umo偶liwia prognozowanie przysz艂ych trend贸w kszta艂towania si臋 zjawiska na podstawie danych historycznych. Przyk艂adowe pytania, na kt贸re odpowiedzi dostarczaj膮 narz臋dzia OLAP:
Jak kszta艂tuje si臋 liczba zrealizowanych projekt贸w w okre艣lonych jednostkach organizacyjnych w okre艣lonych miesi膮cach roku?
Kt贸rzy pracownicy s膮 najbardziej efektywni - bior膮 udzia艂 w najwi臋kszej liczbie realizowanych projekt贸w?
Jak d艂ugo realizowane s膮 projekty przez poszczeg贸lne jednostki organizacyjne w okre艣lonych kwarta艂ach roku?
Gdzie szuka膰 pracownik贸w najbardziej efektywnych (realizuj膮cych najwi臋ksz膮 liczb臋 projekt贸w w najkr贸tszym czasie)?
Zadanie
Nale偶y przygotowa膰 kostk臋 OLAP, kt贸ra pozwoli analizowa膰 dane z tabeli Fakty_Proj wzgl臋dem wymiar贸w: Wymiar_Proj, Wymiar_Prac, Wymiar_Adres.
Wykonanie zadania
Elementy strukturalne kostki OLAP'owej s膮 ju偶 gotowe, wi臋c mo偶na przyst膮pi膰 do jej tworzenia. Pierwszym krokiem jest uruchomienie aplikacji SQL Server Business Intelligence Development Studio. Wcze艣niej wykorzystali艣my j膮 do importu danych z systemu MS Access do MS SQL Server. Teraz wykorzystamy ja do tworzenia i uruchamiania projekt贸w analitycznych.
W oknie startowym nale偶y wybra膰 Create Project. Tworzymy nowy projekt w narz臋dziu Analysis Services o nazwie AnalizaOLAP, zapisywany na Pulpicie w folderze Instrukcje BD - 膯wiczenie 13-14 - Wykonanie 膰w 13-14 (Rys. 9).
Rys. 9 Analysis Services Project
Pierwszym krokiem tworzenia nowego projektu jest ustalenie po艂膮czenia ze 藕r贸d艂ow膮 baz膮 danych (Rys. 10). Nale偶y w eksploratorze projektu wybra膰 na folderze Data Sources opcj臋 New Data Source.
Rys. 10 Nowe 藕r贸d艂o danych
Zg艂asza si臋 Data Source Wizard, kt贸ry przeprowadzi u偶ytkownika przez proces tworzenie 藕r贸d艂a danych na potrzeby analizy. W pierwszym kroku (po przej艣ciu przez ekran powitalny) nale偶y wybra膰 przycisk New. Otworzy si臋 okno Connection Manager, w kt贸rym nale偶y wybra膰 z listy typ po艂膮czenia (Provider: Native OLE DB\Microsoft OLE DB Provider for SQl Server), wpisa膰 nazw臋 serwera (Server name) oraz wybra膰 z listy baz臋 danych (Select or enter database name). Na koniec nale偶y przetestowa膰 istnienie po艂膮czenia (przycisk Test connection). Prawid艂owe parametry dla tego okna prezentuje Rys. 11.
Rys. 11 Tworzenie po艂膮czenia ze 藕r贸d艂em danych
W kroku drugim nale偶y zalogowa膰 si臋 poprawnie do 藕r贸d艂a danych, podaj膮c nazw臋 u偶ytkownika i has艂o takie jak przy logowaniu do bazy danych Kadry.
Rys. 12 Logowanie do 藕r贸d艂a danych
W ostatnim oknie nast臋puje ostateczne zatwierdzenie po艂膮czenia i po wybraniu przycisku Finish nowe 藕r贸d艂o danych jest gotowe do u偶ycia.
Rys. 13 殴r贸d艂o danych Kadry
Teraz nale偶y ograniczy膰 ca艂膮 struktur臋 bazy danych Kadry tylko do tych element贸w, kt贸re b臋d膮 wykorzystywane w projekcie. W tym celu wybieramy New Data Source View na folderze Data Source Views (Rys. 14).
Rys. 14 Przygotowywanie nowego widoku danych 藕r贸d艂owych
Ponownie uruchomi si臋 kreator, gdzie w oknie Select a Data Source nale偶y wybra膰 przycisk Next na po艂膮czeniu z baz膮 Kadry (Rys. 15).
Rys. 15 Tworzenie widoku danych dla projektu
Otworzy si臋 okno, w kt贸rym ze wszystkich element贸w bazy danych Kadry wybieramy tylko te, kt贸re s膮 niezb臋dne dla projektu. Nale偶y wskaza膰 widoki zawieraj膮ce fakty i wymiary kostki (Rys. 16).
Rys. 16 Wyb贸r element贸w struktury kostki
Po zako艅czeniu selekcji w kolejnym oknie nast膮pi otwarcie panelu o nazwie Kadry.dsv Design, w kt贸rym zostan膮 umieszczone wszystkie do艂膮czone elementy. Pomi臋dzy wymiarami i faktami nale偶y utworzy膰 r臋cznie relacje zgodnie z Rys. 17.
Rys. 17 Struktura relacji pomi臋dzy widokami
W ten spos贸b powsta艂 model danych o strukturze gwiazdy, gdzie tabel膮 fakt贸w jest widok Fakty_Proj, a wymiarami s膮 widoki Wymiar_Proj, Wymiar_Prac i Wymiar_Adres. W kolejnym etapie zadania wygenerujemy kostk臋 OLAP'ow膮 (Cube) w oparciu o utworzon膮 struktur臋 gwiazdy.
W eksploratorze projektu na folderze Cubes nale偶y wybra膰 z menu podr臋cznego opcj臋 New Cube (Rys. 18)
Rys. 18 Tworzenie nowej kostki OLAP
Poniewa偶 struktura danych zosta艂a dobrze przygotowana, wi臋c w kreatorze mo偶na wybra膰 automatyczne generowanie kostki (Rys. 19).
Rys. 19 Automatyczne generowanie struktury kostki
Jako 藕r贸d艂o danych nale偶y wskaza膰 utworzone po艂膮czenie z baz膮 Kadry (Rys. 20).
Rys. 20 Wyb贸r 藕r贸d艂a danych dla kostki
Aplikacja automatycznie wykrywa i definiuje fakty i wymiary w kostce, a nast臋pnie wy艣wietla wyniki na kolejnym ekranie (Rys. 21). Je偶eli automatyczne propozycje s膮 r贸偶ne od Rys. 21 to nale偶y dostosowa膰 je do wzorca.
Rys. 21 Fakty i wymiary w strukturze kostki
Proponowane s膮 te偶 miary obliczane w oparciu o dane liczbowe zawarte w tabeli fakt贸w (Rys. 22). Mo偶na te偶 dokona膰 zmiany nazw poszczeg贸lnych warto艣ci obliczanych (pp. Rys. 22).
Rys. 22 Miary obliczane dla kostki
Kolejne okna kreatora to akceptacja atrybut贸w dla poszczeg贸lnych wymiar贸w i zako艅czenie tworzenia struktury kostki. W ostatnim oknie nale偶y wybra膰 przycisk Finisz, aby przej艣膰 do Kadry.Cube (Design).
Kostka OLAP jest ju偶 gotowa (Rys. 23). Na 偶贸艂to zaznaczone s膮 fakty w strukturze kostki. Niebieskie s膮 poszczeg贸lne wymiary.
Rys. 23 Okno projektowe kostki OLAP
Aby zacz膮膰 korzysta膰 z kostki nale偶y j膮 wygenerowa膰 poprzez wybranie opcji Process z menu podr臋cznego folderu Kadry.Cube (Rys. 24).
Rys. 24 Generowanie kostki
Kostka jest ju偶 dost臋pna w postaci tabeli przestawnej w zak艂adce Browser panelu Kadry.Cube (Design). Wymiary oraz miary mo偶na przeci膮ga膰 myszk膮 w wybrane obszary tabeli - wymiary mog膮 tworzy膰 hierarchicznie powi膮zane nag艂贸wki wierszy i kolumn, a miary stanowi膮 analizowane wn臋trze tabeli. Analityk mo偶e wygenerowa膰 raport prezentuj膮cy takie zestawienia analityczne, kt贸re s膮 potrzebne do podejmowania decyzji biznesowych. Przyk艂adowo, Rys. 25 prezentuje liczb臋 zrealizowanych projekt贸w oraz sumaryczny czas po艣wi臋cony na realizacj臋 tych projekt贸w (w dniach) w podziale na miejsce zatrudnienia (jednostki organizacyjne) oraz stanowiska pracownik贸w (pracuj膮cych w zespo艂ach projektowych) w pierwszym kwartale (1-3 miesi膮c) ka偶dego roku.
Rys. 25 Tabela przestawna
Analiza eksploracyjna danych
Wprowadzenie
Eksploracja danych (ang data mining) to metody statystyczne i metody sztucznej inteligencji, kt贸re umo偶liwiaj膮 odkrywanie nieznanych jeszcze zale偶no艣ci (prawid艂owo艣ci) mi臋dzy danymi w nagromadzonych zbiorach danych. S膮 to takie metody, kt贸re pozwalaj膮 z danych tworzy膰 wiedz臋 (znajdywa膰 zale偶no艣ci, wzorce, trendy).
Mo偶emy wyr贸偶ni膰 dwa podstawowe rodzaje eksploracji danych:
weryfikacja hipotez - stosowana jest w sytuacji, gdy mamy pewne przypuszczenie co do istotnej zale偶no艣ci mi臋dzy pewnymi danymi i chcemy zweryfikowa膰 ten pogl膮d,
odkrywanie wiedzy - stosowane jest w贸wczas, gdy chcemy sprawdzi膰 czy mi臋dzy danymi maj膮 miejsce zwi膮zki, kt贸rych cz艂owiek sam nie jest w stanie wychwyci膰.
Uruchomienie proces贸w eksploracji danych wymaga danych dobrej jako艣ci, zintegrowanych, prawdziwych i stanowi膮cych reprezentatywn膮 pr贸b臋. W przeciwnym wypadku mo偶emy otrzyma膰 wyniki o mniejszej dok艂adno艣ci lub po prostu nieprawdziwe. Z wykorzystaniem r贸偶nych metod statystycznych, ekonometrycznych czy metod sztucznej inteligencji (np. analiza dyskryminacyjna, regresja logistyczna, drzewa klasyfikacyjne, generowanie regu艂 rozmytych, analiza skupie艅, analiza korespondencji, sieci neuronowe) tworzone s膮 modele, kt贸re wykorzystuje si臋 do analizy danych, celem sprawdzenia czy wyst臋puj膮 w nich ukryte relacje, prawid艂owo艣ci czy te偶 inne zwi膮zki.
Cz臋stym zastosowaniem metod eksploracji danych jest segmentacja klient贸w, pracownik贸w i produkt贸w. W naszych 膰wiczeniach wykonamy modele poszukuj膮ce opisu pracownika efektywnego, czyli takiego, kt贸ry realizuje du偶膮 liczb臋 projekt贸w przy wysokim udziale w艂asnym w realizacji tych projekt贸w.
Zadanie
Przygotowa膰 analiz臋 eksploracyjn膮 danych, kt贸ra umo偶liwi zbadanie, jakie cechy maj膮 wp艂yw na zaanga偶owanie pracownik贸w w realizacj臋 projekt贸w. Firma zatrudnia ponad 450 os贸b, ale tylko nieca艂e 60 os贸b bierze udzia艂 w realizacji projekt贸w. Zarz膮d firmy chce zaktywowa膰 swoich pracownik贸w (ewentualnie doprowadzi膰 do zmian w strukturze zatrudnienia), ale chce te偶 wiedzie膰 na jakie cechy swoich obecnych lub przysz艂ych pracownik贸w powinien zwraca膰 szczeg贸ln膮 uwag臋.
Wykonanie zadania
Realizacj臋 zadania rozpoczniemy od utworzenia kilku kolejnych widok贸w w bazie danych Kadry. Pierwszy to AktywnoscPrac (Rys. 26) - okre艣laj膮cy liczb臋 zrealizowanych projekt贸w oraz najwy偶szy udzia艂 przy realizacji dla ka偶dego pracownika. Po艂膮czenie pomi臋dzy tabelami nale偶y tak zdefiniowa膰, aby w wyniku wy艣wietlani byli wszyscy pracownicy.
Rys. 26 Definicja widoku AktywnoscPrac
Kolejny widok to Liczba dzieci (Rys. 27). Tutaj te偶 po艂膮czenie pomi臋dzy tabelami nale偶y zmieni膰 na takie, kt贸re pokazuje wszystkie rekordy z tabeli Pracownicy.
Rys. 27 Definicja widoku Liczba dzieci
Ostatnim widokiem jest AnalizaDM (Rys. 28), kt贸ry zawiera wszystkie cechy pracownika mog膮ce mie膰 wp艂yw na jego aktywno艣膰 zawodow膮. Dodatkowy atrybut - Efektywnosc wyznacza warto艣膰 zmiennej predykcyjnej badania eksploracyjnego, przyjmuj膮c warto艣膰 1 dla pracownik贸w aktywnych (liczba zrealizowanych projekt贸w > 10, najwy偶szy udzia艂 przy realizacji projektu > 30) i warto艣膰 0 dla pozosta艂ych pracownik贸w: CASE WHEN LiczbaProj>10 and MaxUdzial>30 THEN 1 ELSE 0 END.
Rys. 28 Definicja widoku AnalizaDM
Teraz nale偶y przej艣膰 do aplikacji SQL Server Business Intelligence Development Studio i utworzy膰 nowy projekt analityczny o nazwie AnalizaDM (Rys. 29).
Rys. 29 Tworzenie projektu AnalizaDM
Najpierw trzeba udost臋pni膰 widok AnalizaDM i w tym celu tworzymy nowy Data Source View, po艂膮czony z widokiem AnalizaDM w bazie danych Kadry (Rys. 30).
Rys. 30 Udost臋pnianie widoku AnalizaDM
Teraz tworzymy now膮 struktur臋 eksploracyjn膮 (Rys. 31).
Rys. 31 Tworzenie nowej struktury eksploracji danych
Uruchomiony zostanie kreator, w kt贸rym na pocz膮tku trzeba zdecydowa膰 czy struktura b臋dzie tworzona w oparciu o zdefiniowany dost臋p do bazy danych czy te偶 w oparciu o utworzone kostki wielowymiarowe. Wybieramy pierwsz膮 mo偶liwo艣膰 (Rys. 32)
Rys. 32 Tworzenie struktury eksploracyjnej na podstawie bazy danych
W nast臋pnym oknie kreatora nale偶y dokona膰 wyboru techniki eksploracyjnej. Zacznijmy od modelu drzewa decyzyjnego ().
Rys. 33 Eksploracja technik膮 drzew decyzyjnych
Nast臋pny krok to wyb贸r widoku 藕r贸d艂a danych, kt贸re b臋dzie wykorzystane do modelowania struktury eksploracyjnej - b臋dzie to widok AnalizaDM (Rys. 34).
Rys. 34 Wyb贸r 藕r贸d艂a danych
Teraz trzeba wyspecyfikowa膰 tabel臋, kt贸ra zostanie u偶yta do analizy - jest to nadal widok AnalizaDM (Rys. 35).
Rys. 35 Wyb贸r tabeli do analizy
Kolejny etap to specyfikacja r贸l, jakie b臋d膮 spe艂nia艂y poszczeg贸lne atrybuty podczas analizy (Rys. 36). Efektywno艣膰 to zmienna predykcyjna, kt贸ra stanowi cel badania. Wszystkie atrybuty typu Input to zmienne, kt贸rych wp艂yw na zmienn膮 predykcyjn膮 jest badany. IdPrac to identyfikator rekord贸w w tabeli AnalizaDM - oczywi艣cie nie podlega badaniu.
Rys. 36 Lista atrybut贸w i ich role w analizie
Nast臋pny krok to automatyczne wykrywanie atrybut贸w, kt贸re przyjmuj膮 sko艅czon膮 list臋 warto艣ci - s膮 atrybutami dyskretnymi (w przeciwie艅stwie do pozosta艂ych, kt贸re s膮 atrybutami ci膮g艂ymi). Atrybuty dyskretne s膮 wykorzystywane do uszczeg贸艂awiania analizy eksploracyjnej i opisu jej wynik贸w. Wykrywanie zmiennych dyskretnych uruchamia si臋 przyciskiem Detect w oknie Specify Columns' Content and Data Type (Rys. 37).
Rys. 37 Dyskretyzacja zmiennych
Struktur臋 eksploracyjn膮 nale偶y nazwa膰 Analiza DM, a zbudowany model Drzewo Decyzyjne (Rys. 38). Na tym ko艅czy si臋 praca kreatora struktury eksploracyjnej.
Rys. 38 Zako艅czenie tworzenia struktury eksploracyjnej
Pierwszy model eksploracyjny jest ju偶 gotowy i mo偶na go uruchomi膰 (Rys. 39).
Rys. 39 Uruchamianie struktury eksploracyjnej
Wyniki modelu mo偶na obejrze膰 w oknie Analiza DM.dmm (Design) w zak艂adce Mining Model Viewer (Rys. 40).
Rys. 40 Wyniki modelu Drzewo Decyzyjne
Wynika z tego modelu, 偶e jedyna cech膮 maj膮c膮 wp艂yw na efektywno艣膰 pracownik贸w jest ich sta偶 pracy. Od 4 roku pracy obserwowany jest wysoki wzrost zaanga偶owania w realizacj臋 projekt贸w.
Model drzew decyzyjnych nie da艂 zbyt wyczerpuj膮cego opisu, dlatego zbudujemy jeszcze dwa modele (w oparciu o ten sam zbi贸r danych) - model regresji logistycznej i model sieci neuronowych. W tym celu nale偶y w zak艂adce Mining Models wybra膰 przycisk Create Related Mining Models (Rys. 41) i utworzy膰 model o nazwie Regresja (wykorzystuj膮cy technik臋 regresji logistycznej) oraz SiecNeuronowa (wykorzystuj膮cy technik臋 sieci neuronowych).
Rys. 41 Tworzenie nowego modelu eksploracyjnego
Struktura tych modeli jest dost臋pna w zak艂adce Mining Models (Rys. 42).
Rys. 42 R贸偶ne modele tej samej struktury eksploracyjnej
Trzeba ponownie uruchomi膰 proces dla struktury Analiza DM (Rys. 39) i wyniki modeli znowu b臋d膮 dost臋pne w zak艂adce Data Mining Viewer (Rys. 43). Na li艣cie Mining Model mo偶na wskaza膰 model eksploracyjny, kt贸rego wyniki chcemy obejrze膰.
Rys. 43 Wyniki modelu Regresja
Na Rys. 43 prezentowane s膮 wyniki regresji logistycznej, kt贸re wskazuj膮 na nast臋puj膮ce cechy podnosz膮ce efektywno艣膰 pracownik贸w:
4 dzieci w rodzinie,
p艂aca rz臋du 5 tys. z艂 i wi臋cej,
wzi臋ta po偶yczka rz臋du 20 tys. z艂,
sta偶 pracy od 4 do 8 lat.
Model sieci neuronowej (Rys. 44) wskazuje na nast臋puj膮ce istotne cechy pracownika:
p艂aca rz臋du 5 tys. z艂 i wi臋cej,
wzi臋ta po偶yczka rz臋du 20 tys. z艂,
wiek pracownika od 32 do 44 lat.
Rys. 44 Wyniki modelu SiecNeuronowa
Na podstawie wynik贸w tych trzech modeli analityk sporz膮dzi profil pracownika efektywnego (np. jest to pracownik w 艣rednim wieku, posiadaj膮cy liczn膮 rodzin臋, z do艣wiadczeniem zawodowym, dobrze zarabiaj膮cy i zwi膮zany z firm膮 przez wysok膮 po偶yczk臋) i nieefektywnego, a nast臋pnie przeka偶e go do os贸b podejmuj膮cych decyzje w sprawach polityki personalnej.
Zadanie do wykonania
Przeprowadzi膰 wielowymiarow膮 analiz臋 danych w oparciu o utworzon膮 kostk臋 OLAP i widok DM, zaprojektowane dla swojego projektu. Zadanie stanowi element oceniany.
dr in偶. T. Ostrowska, dr in偶. K. Rostek Zak艂ad System贸w Informatycznych
IOSP PW Bazy Danych - laboratorium
cw 13-14 Analiza danych, 2007-06-24