DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Ćwiczenia 6
Analiza modeli predykcyjnych
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
2
Struktura ćwiczeń:
• Łączenie modeli
• Ocena i porównanie modeli
• Scoring modelu
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
3
Określenie zbioru danych
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
4
Określenie zbioru danych – przetwarzanie decyzji
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
5
Podział zbioru danych
Zbiór CHURN1
nie ma braków
danych
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
6
Modele predykcyjne
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
7
Łączenie modeli
Jedna metoda modelowania, różne próbki
Różne metody modelowania, jeden zbiór danych
Zbiór
uczący
Próbka 1
Próbka 2
Metoda
modelowania
Model 1
Model 2
Model łączony
Zbiór
uczący
Metoda
modelowania
1
Metoda
modelowania
2
Model 1
Model 2
Model łączony
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
8
Łączenie modeli
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
9
Łączenie modeli – wyniki
Drzewo
Sieć
Model łączony
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
10
Porównanie modeli – przeciętny błąd kwadratowy (ASE)
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
11
Porównanie modeli – wyniki
Predykcja
Statystyki dopasowania na zbiorze
walidacyjnym
Wartość
Decyzje
Błędna klasyfikacja
Średni zysk/strata
Statystyka Kołmogorowa-Smirnowa
najmniejsza
największa/ najmniejsza
największa
Ranking
ROC
Współczynnik Giniego
największa
największa
Oszacowanie
Średni błąd kwadratowy
Kryterium Bayesowskie Shwartza
Logarytm funkcji wiarygodności
najmniejsza
najmniejsza
największa
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
12
Porównanie modeli – krzywa Wzrost (Lift)
• Każdej obserwacji wybrany model przydziela prawdopodobieństwo,
że zmienna celu przyjmie dla niej wartość 1.
• Zbiór obserwacji sortowany jest malejąco według tych
prawdopodobieństw.
• Otrzymany zbiór jest dzielony na grupy (po 5% całego zbioru).
• Dla każdej grupy obliczany jest stosunek odsetka zdarzeń „1” w grupie
do całkowitej proporcji „1” w zbiorze.
• Czynność ta jest powtarzana dla podpopulacji o różnych rozmiarach.
• Otrzymujemy krzywą Łączny wzrost (Cumulative Lift), która jest
miernikiem mocy predykcyjnej modelu klasyfikacyjnego.
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
13
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
14
Porównanie modeli – krzywa ROC
•
Każdej obserwacji wybrany model przydziela prawdopodobieństwo,
że zmienna celu przyjmie dla niej wartość 1.
•
Zbiór obserwacji sortowany jest malejąco według tych prawdopodobieństw.
•
Wybierana jest grupa k
% górnych obserwacji.
Wrażliwość (czułość):
liczba wartości „1” w wybranej grupie/ liczba wartości „1” w próbie
1-
swoistość (1-specyficzność):
liczba wartości „0” w wybranej grupie/ liczba wartości „0” w próbie
•
Działania powtarzane są dla różnych wartości k, a otrzymane wartości łączone
są w krzywą.
Model dobry
Model przeciętny
Model zły
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
15
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
16
Porównanie modeli – wzrost
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
17
Modelowanie
– scoring modelu
Faza uczenia
Faza predykcji
(scoringu)
Historyczne
dane do
modelowania
Model
Aktualne
dane do
predykcji
Scoring
Scoring
– metoda statystyczna przewidującą prawdopodobieństwo
wystąpienia pewnego zdarzenia w odniesieniu do klienta.
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
18
Źródło danych – nowe dane
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
19
Implementacja modelu
– nowe dane
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
20
Scoring modelu
– ocena punktowa
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
21
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
22
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
23
Eksport tabeli scoringowej
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
24
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
25
Tabela scoringowa
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
26
Zapisanie zbioru wynikowego
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
27
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
28
Zapisanie zbioru wynikowego
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
29
Ćwiczenia
1.
Dokonać połączenia modeli metodą głosowanie, na czym polegają
metody wyliczania prawdopodobieństw a posteriori: średnia i udział?
2.
Korzystając z węzła Porównanie modeli wybrać najlepszy model
drzewa decyzyjnego zbudowanego na zbiorze OSOBY.
3.
Korzystając z węzła Porównanie modeli wybrać najlepszy model
regresji logistycznej zbudowanej na zbiorze OSOBY.
4.
Korzystając z węzła Porównanie modeli wybrać najlepszy model sieci
neuronowej zbudowanej na zbiorze OSOBY.
5.
Wykonać implementację modelu regresji logistycznej dla CHURN2.
6.
Wykonać implementację modelu sieci neuronowej dla CHURN2.
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
30
Dziękuję za uwagę !