SAS w sas miner


SAS
DATA MINING - Enterprise Miner
Data Mining  SAS 
Enterprise Miner
SAS definiuje data mining jako odkrywanie ukrytych wzorców w
ogromniej liczbie danych
Proces data mining w SAS jest kojarzony z akronimem SEMMA
(sampling, exploring, modifying, modeling, and assessing data)
Sample  tworzenie próbki danych zawierających wszystkie
istotne dal danego problemu informacje.
Modify  modyfikacja danych poprze tworzenie, wybór zmianę
zmiennych dla wybranego model analizy.
Model  wprowadzenie analitycznych narzędzi w celu
poszukiwania związków między danymi oraz weryfikacji hipotez
Assess - oszacowanie danych znalezionych w procesie data
mining.
W systemie SAS model SEMMA realizowany jest w oparciu o
tzw. diagramy przepływu, które można tworzyć przy użyciu
wygodnego GUI
4/20/2006 2
SAS  Data Mining
Data Mining w systemie SAS jest w ogólności
traktowany jako proces predykcyjny
Po fazie treningu model można zastosować
do nowych danych
Dane
przewidziane
4/20/2006 3
Enterprise Miner
Enterprise miner posiada wygodne GUI do
tworzenia analizy
W prosty i wygodny sposób można tworzyć
diagramy przepływu
4/20/2006 4
Enterprise Miner  Przykład
Analizy
Sytuacja: pracujesz w firmie zajmującej
się sprzedażą wyposażenia dla domu.
Zdanie: wysłanie katalogu wyposażenia
kuchennego do klientów.
Problem: nie stać firmy by wysłać
katalog do wszystkich więc musisz
wybrać tylko tych którzy z dużym
 prawdopodobieństwem coś kupią.
Uwaga: posiadasz historie sprzedaży w
Twojej firmie.
Do wykonania tego zadania należy użyć
Enterprise Miner.
W menu Solutions > Analysis
>Enterprise Miner.
4/20/2006 5
Enterprise Miner  Przykład
Analizy
Tworzenie nowego
projektu:
File > New > Project
Budowa projektu
polega na
wprowadzaniu nowych
elementów z paska
narzędzi lub wyboru ich
z menu:
4/20/2006 6
Enterprise Miner  Przykład
Analizy
Wprowadzenie danych:
Wybór biblioteki oraz
zbioru danych
Jeżeli projekt ma być oparty na
hurtowni danych to należy to
zaznaczyć we właściwościach
projektu
4/20/2006 7
Enterprise Miner  Przykład
Analizy
Podstawowa analiza danych:
SAS/INSIGHT - tworzy środowisko dynamicznego i
interaktywnego badania i analizy danych poprzez analizę
rozkładów, wizualizację danych wielowariantowych oraz
modeli objaśniających z zastosowaniem uogólnionego
modelu liniowego.
Standardowo SAS analizuje
tylko 2000 rekordów (opcja
Sample)
4/20/2006 8
Enterprise Miner  Przykład
Analizy
Wykonanie modułu Insight,
spowoduje przeczytanie
danych i otwarcie tabeli z
danymi.
Przeprowadzenie analizy na
danych może zostać
wykonane poprzez Analyze z
pasaka menu.
Wykonanie np. Analyze >
Distribution tworzy wyjście w
postaci:
4/20/2006 9
Enterprise Miner  Przykład
Analizy
Kolejnym krokiem
będzie zmiana zakresu
danych dla zmiennej
DINING
Z wielkości
numerycznej (0  28)
zmieniamy na binarną
(0,1)
4/20/2006 10
Enterprise Miner  Przykład
Analizy
Kolejnym krokiem jest
wprowadzenie
zmiennej jako zmiennej
celowej (target) dla
modelu
4/20/2006 11
Enterprise Miner  Przykład
Analizy
Problem  redukcja
danych
4/20/2006 12
Enterprise Miner  Przykład
Analizy
Przed wykonaniem analizy SAS
musi wiedzieć w jaki sposób
traktować dane  tzn. tworzony
jest plik metadata na podstawie
próbkowania danych
Typy danych to:
unary  dane z jedna
wartością
binary  dwie wartości
nominal  więcej niż dwie nie
numeryczne wartości
ordinal  więcej niż dwie
numeryczne wartości ale mniej
niż dziesięć
Interval  więcej niż 10
numerycznych wartości
4/20/2006 13
Enterprise Miner  Przykład
Analizy
Ponieważ interesuje
nas fakt sprzedaży
elementów kuchennych
zmieniamy porządek
sortowania dla
zmiennej DINEBIN
4/20/2006 14
Enterprise Miner  Przykład
Analizy
Szacowanie kosztów jest
bardzo ważną częścią
analizy
Każdy zbudowany przez
nas model musi brać pod
uwagę analizie kosztów
Koszt wysłania produkcji i
wysłania katalogu 10$
Średni dochód na katalog
90$
Dobre przewidywanie 
zysk 80$
Złe przewidywanie  strata
10$
4/20/2006 15
Enterprise Miner  Przykład
Analizy
Aby wprowadzić
analizę kosztów dla
naszej zmiennej
celu musimy
utworzyć nowy wzór
kosztów (profile)
4/20/2006 16
Enterprise Miner  Przykład
Analizy
" Budujemy wzór
(profile) kosztów
" Wprowadzamy koszty
oraz zyski
" Gwiazdka oznacza
wzór aktywny
4/20/2006 17
Enterprise Miner  Przykład
Analizy
Wybór próbki danych do data mining
Nie robimy zwykłego wyboru losowego,
lecz wprowadzamy poprawą wartość
zmiennej celu (w danych wejściowych
była ona przeszacowana)
4/20/2006 18
Enterprise Miner  Przykład
Analizy
Dziel i rządz:
Dzielimy dane na trzy grupy:
Treningowe  wstępne
wypełnienie modelu
Regulacyjne  dopracowanie
modelu
Testowe  ocena modelu
4/20/2006 19
Enterprise Miner  Przykład
Analizy
 Wadliwe dane
Dane mogą zawierać
brakujące wartości lub
przekłamania
Należy wprowadzić
moduł  zamiany
(replacement) wartości
4/20/2006 20
Enterprise Miner  Przykład
Analizy
Standardowo tworzy dane do
wymiany poprzez analizę
losowej próbki danych ze
zbioru treningowego. Dla
danych:
Interval  wprowadza się
średnią z próby dla danych
brakujących
Binary, nominal, ordinal 
najczęściej pojawiająca się
wartość zmiennej
Można wprowadzić nową
zmienną która będzie
informowała system, ze dany
record nie nadaje się do
analizy gdyż zawiera
brakujące wartości
4/20/2006 21
Enterprise Miner  Przykład
Analizy
Analiza regresji:
Dla omawianego przykładu
należy wybrać tzw.: logistic
regression, która pracuje bardzo
dobrze dla zmiennych
kategorycznych
4/20/2006 22
Enterprise Miner  Przykład
Analizy
Regresja  wybór modelu:
None (default)  wszystkie zmienne są
brane do tworzenia końcowego
modelu.
Backward  zaczyna ze wszystkimi
zmiennymi, a następnie usuwa te,
które nie wpływają na efekt końcowy
(można zadać tzw.: poziom znaczenia).
Nie zalecany dla danych binarnych i
ordinalnych.
Forward  stopniowo dodaje zmienne i
sprawdza ich wpływ na efekt końcowy.
Wybieramy
Stepwise - stopniowo dodaje zmienne i
STEPWISE
sprawdza ich wpływ na efekt końcowy,
jednak może usunąć już dodane
zmienne.
4/20/2006 23
Enterprise Miner  Przykład
Analizy
Aby  zobaczyć działanie
wprowadzonego modelu
regresji należy dodać moduł
Assessment
Należy kliknąć na ten moduł
dwukrotnie, a następnie
wybrać opcje wykonania
Po wykonaniu analizy z menu
tool wybieramy lift chart
4/20/2006 24
Enterprise Miner  Przykład
Analizy
Rysunek ten przedstawia
efektywność wprowadzonego
modelu.
Linia niebieska reprezentuje 12%
wprowadzonych przez nas danych
(czyli nasze początkowe założenie).
Linia czerwona wskazuje silę
przewidywania przedstawionego
modelu (model nadaje każdemu
klientowi (danej) punktacje, która
reprezentuje  chęć zakupu
wyposażenia kuchennego.
Model po treningu przewiduje, że w
przypadku wybrania 10%
najlepszych wyników mamy 26%
odpowiedzi (przewidywany procent
zakupów).
4/20/2006 25
Enterprise Miner  Przykład
Analizy
Wykres nieskumulowanej
funkcji odpowiedzi daje
bardziej szczegółowy obraz
sytuacji:
Funkcja odpowiedzi silnie
maleje powyżej 10%
Powyżej 30% model
praktycznie staje się
bezużyteczny gdyż
wskazuje na wartości
poniżej zadanych 12%
Opierając się tylko na tym
modelu praktycznie
sensownie byłoby wysłać
katalogi tylko do 10%
najlepszych wyników
4/20/2006 26
Enterprise Miner  Przykład
Analizy
Regresja to
dopasowanie krzywej
do danych, warto więc
wprowadzić nowy
model analizy: drzewo
decyzyjne
4/20/2006 27
Enterprise Miner  Przykład
Analizy
Pierwszym etapem jest
wybór miary wyboru
atrybutu testowego
(miara podziału na
gałęzie).
Kolejnym krokiem jest
wykonanie drzewa
decyzyjnego (klawisz
prawy ->run).
4/20/2006 28
Enterprise Miner  Przykład
Analizy
4/20/2006 29


Wyszukiwarka

Podobne podstrony:
SAS Base 2006
Grecka sałatka
łańcuch oddechowy
SAS opisowa
ZOZNAM RASTLÍN PRAKTICKÁ ČASŤ SKÚŠKY Z BOTANIKY II
administrator sieci s [miner]
miner 1

więcej podobnych podstron