SAS
DATA MINING - Enterprise Miner
Data Mining SAS
Enterprise Miner
SAS definiuje data mining jako odkrywanie ukrytych wzorców w
ogromniej liczbie danych
Proces data mining w SAS jest kojarzony z akronimem SEMMA
(sampling, exploring, modifying, modeling, and assessing data)
Sample tworzenie próbki danych zawierających wszystkie
istotne dal danego problemu informacje.
Modify modyfikacja danych poprze tworzenie, wybór zmianę
zmiennych dla wybranego model analizy.
Model wprowadzenie analitycznych narzędzi w celu
poszukiwania związków między danymi oraz weryfikacji hipotez
Assess - oszacowanie danych znalezionych w procesie data
mining.
W systemie SAS model SEMMA realizowany jest w oparciu o
tzw. diagramy przepływu, które można tworzyć przy użyciu
wygodnego GUI
4/20/2006 2
SAS Data Mining
Data Mining w systemie SAS jest w ogólności
traktowany jako proces predykcyjny
Po fazie treningu model można zastosować
do nowych danych
Dane
przewidziane
4/20/2006 3
Enterprise Miner
Enterprise miner posiada wygodne GUI do
tworzenia analizy
W prosty i wygodny sposób można tworzyć
diagramy przepływu
4/20/2006 4
Enterprise Miner Przykład
Analizy
Sytuacja: pracujesz w firmie zajmującej
się sprzedażą wyposażenia dla domu.
Zdanie: wysłanie katalogu wyposażenia
kuchennego do klientów.
Problem: nie stać firmy by wysłać
katalog do wszystkich więc musisz
wybrać tylko tych którzy z dużym
prawdopodobieństwem coś kupią.
Uwaga: posiadasz historie sprzedaży w
Twojej firmie.
Do wykonania tego zadania należy użyć
Enterprise Miner.
W menu Solutions > Analysis
>Enterprise Miner.
4/20/2006 5
Enterprise Miner Przykład
Analizy
Tworzenie nowego
projektu:
File > New > Project
Budowa projektu
polega na
wprowadzaniu nowych
elementów z paska
narzędzi lub wyboru ich
z menu:
4/20/2006 6
Enterprise Miner Przykład
Analizy
Wprowadzenie danych:
Wybór biblioteki oraz
zbioru danych
Jeżeli projekt ma być oparty na
hurtowni danych to należy to
zaznaczyć we właściwościach
projektu
4/20/2006 7
Enterprise Miner Przykład
Analizy
Podstawowa analiza danych:
SAS/INSIGHT - tworzy środowisko dynamicznego i
interaktywnego badania i analizy danych poprzez analizę
rozkładów, wizualizację danych wielowariantowych oraz
modeli objaśniających z zastosowaniem uogólnionego
modelu liniowego.
Standardowo SAS analizuje
tylko 2000 rekordów (opcja
Sample)
4/20/2006 8
Enterprise Miner Przykład
Analizy
Wykonanie modułu Insight,
spowoduje przeczytanie
danych i otwarcie tabeli z
danymi.
Przeprowadzenie analizy na
danych może zostać
wykonane poprzez Analyze z
pasaka menu.
Wykonanie np. Analyze >
Distribution tworzy wyjście w
postaci:
4/20/2006 9
Enterprise Miner Przykład
Analizy
Kolejnym krokiem
będzie zmiana zakresu
danych dla zmiennej
DINING
Z wielkości
numerycznej (0 28)
zmieniamy na binarną
(0,1)
4/20/2006 10
Enterprise Miner Przykład
Analizy
Kolejnym krokiem jest
wprowadzenie
zmiennej jako zmiennej
celowej (target) dla
modelu
4/20/2006 11
Enterprise Miner Przykład
Analizy
Problem redukcja
danych
4/20/2006 12
Enterprise Miner Przykład
Analizy
Przed wykonaniem analizy SAS
musi wiedzieć w jaki sposób
traktować dane tzn. tworzony
jest plik metadata na podstawie
próbkowania danych
Typy danych to:
unary dane z jedna
wartością
binary dwie wartości
nominal więcej niż dwie nie
numeryczne wartości
ordinal więcej niż dwie
numeryczne wartości ale mniej
niż dziesięć
Interval więcej niż 10
numerycznych wartości
4/20/2006 13
Enterprise Miner Przykład
Analizy
Ponieważ interesuje
nas fakt sprzedaży
elementów kuchennych
zmieniamy porządek
sortowania dla
zmiennej DINEBIN
4/20/2006 14
Enterprise Miner Przykład
Analizy
Szacowanie kosztów jest
bardzo ważną częścią
analizy
Każdy zbudowany przez
nas model musi brać pod
uwagę analizie kosztów
Koszt wysłania produkcji i
wysłania katalogu 10$
Średni dochód na katalog
90$
Dobre przewidywanie
zysk 80$
Złe przewidywanie strata
10$
4/20/2006 15
Enterprise Miner Przykład
Analizy
Aby wprowadzić
analizę kosztów dla
naszej zmiennej
celu musimy
utworzyć nowy wzór
kosztów (profile)
4/20/2006 16
Enterprise Miner Przykład
Analizy
" Budujemy wzór
(profile) kosztów
" Wprowadzamy koszty
oraz zyski
" Gwiazdka oznacza
wzór aktywny
4/20/2006 17
Enterprise Miner Przykład
Analizy
Wybór próbki danych do data mining
Nie robimy zwykłego wyboru losowego,
lecz wprowadzamy poprawą wartość
zmiennej celu (w danych wejściowych
była ona przeszacowana)
4/20/2006 18
Enterprise Miner Przykład
Analizy
Dziel i rządz:
Dzielimy dane na trzy grupy:
Treningowe wstępne
wypełnienie modelu
Regulacyjne dopracowanie
modelu
Testowe ocena modelu
4/20/2006 19
Enterprise Miner Przykład
Analizy
Wadliwe dane
Dane mogą zawierać
brakujące wartości lub
przekłamania
Należy wprowadzić
moduł zamiany
(replacement) wartości
4/20/2006 20
Enterprise Miner Przykład
Analizy
Standardowo tworzy dane do
wymiany poprzez analizę
losowej próbki danych ze
zbioru treningowego. Dla
danych:
Interval wprowadza się
średnią z próby dla danych
brakujących
Binary, nominal, ordinal
najczęściej pojawiająca się
wartość zmiennej
Można wprowadzić nową
zmienną która będzie
informowała system, ze dany
record nie nadaje się do
analizy gdyż zawiera
brakujące wartości
4/20/2006 21
Enterprise Miner Przykład
Analizy
Analiza regresji:
Dla omawianego przykładu
należy wybrać tzw.: logistic
regression, która pracuje bardzo
dobrze dla zmiennych
kategorycznych
4/20/2006 22
Enterprise Miner Przykład
Analizy
Regresja wybór modelu:
None (default) wszystkie zmienne są
brane do tworzenia końcowego
modelu.
Backward zaczyna ze wszystkimi
zmiennymi, a następnie usuwa te,
które nie wpływają na efekt końcowy
(można zadać tzw.: poziom znaczenia).
Nie zalecany dla danych binarnych i
ordinalnych.
Forward stopniowo dodaje zmienne i
sprawdza ich wpływ na efekt końcowy.
Wybieramy
Stepwise - stopniowo dodaje zmienne i
STEPWISE
sprawdza ich wpływ na efekt końcowy,
jednak może usunąć już dodane
zmienne.
4/20/2006 23
Enterprise Miner Przykład
Analizy
Aby zobaczyć działanie
wprowadzonego modelu
regresji należy dodać moduł
Assessment
Należy kliknąć na ten moduł
dwukrotnie, a następnie
wybrać opcje wykonania
Po wykonaniu analizy z menu
tool wybieramy lift chart
4/20/2006 24
Enterprise Miner Przykład
Analizy
Rysunek ten przedstawia
efektywność wprowadzonego
modelu.
Linia niebieska reprezentuje 12%
wprowadzonych przez nas danych
(czyli nasze początkowe założenie).
Linia czerwona wskazuje silę
przewidywania przedstawionego
modelu (model nadaje każdemu
klientowi (danej) punktacje, która
reprezentuje chęć zakupu
wyposażenia kuchennego.
Model po treningu przewiduje, że w
przypadku wybrania 10%
najlepszych wyników mamy 26%
odpowiedzi (przewidywany procent
zakupów).
4/20/2006 25
Enterprise Miner Przykład
Analizy
Wykres nieskumulowanej
funkcji odpowiedzi daje
bardziej szczegółowy obraz
sytuacji:
Funkcja odpowiedzi silnie
maleje powyżej 10%
Powyżej 30% model
praktycznie staje się
bezużyteczny gdyż
wskazuje na wartości
poniżej zadanych 12%
Opierając się tylko na tym
modelu praktycznie
sensownie byłoby wysłać
katalogi tylko do 10%
najlepszych wyników
4/20/2006 26
Enterprise Miner Przykład
Analizy
Regresja to
dopasowanie krzywej
do danych, warto więc
wprowadzić nowy
model analizy: drzewo
decyzyjne
4/20/2006 27
Enterprise Miner Przykład
Analizy
Pierwszym etapem jest
wybór miary wyboru
atrybutu testowego
(miara podziału na
gałęzie).
Kolejnym krokiem jest
wykonanie drzewa
decyzyjnego (klawisz
prawy ->run).
4/20/2006 28
Enterprise Miner Przykład
Analizy
4/20/2006 29
Wyszukiwarka
Podobne podstrony:
SAS Base 2006Grecka saĹ‚atkaĹ‚aĹ„cuch oddechowySAS opisowaZOZNAM RASTLÍN PRAKTICKÁ ČASŤ SKÚŠKY Z BOTANIKY IIadministrator sieci s [miner]miner 1więcej podobnych podstron