background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

Ćwiczenia 6 

Analiza modeli predykcyjnych 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

Struktura ćwiczeń: 

• Łączenie modeli 

 

• Ocena i porównanie modeli  

 

• Scoring modelu 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

Określenie zbioru danych 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

Określenie zbioru danych – przetwarzanie decyzji 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

Podział zbioru danych 

Zbiór CHURN1 
nie ma braków 
danych 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

Modele predykcyjne 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

Łączenie modeli 

Jedna metoda modelowania, różne próbki 

Różne metody modelowania, jeden zbiór danych 

Zbiór 

uczący 

Próbka 1 

Próbka 2 

Metoda 

modelowania 

Model 1 

Model 2 

Model łączony 

Zbiór 

uczący 

Metoda 

modelowania 

Metoda 

modelowania 

Model 1 

Model 2 

Model łączony 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

Łączenie modeli 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

Łączenie modeli – wyniki  

Drzewo 

Sieć 

Model łączony 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

10 

Porównanie modeli – przeciętny błąd kwadratowy (ASE) 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

11 

Porównanie modeli – wyniki  

Predykcja 

Statystyki dopasowania na zbiorze 

walidacyjnym 

Wartość 

Decyzje 

Błędna klasyfikacja  
Średni zysk/strata 
Statystyka Kołmogorowa-Smirnowa 

najmniejsza 
największa/ najmniejsza 
największa 

Ranking 

ROC 
Współczynnik Giniego 

największa 
największa 

Oszacowanie 

Średni błąd kwadratowy 
Kryterium Bayesowskie Shwartza 
Logarytm funkcji wiarygodności 

najmniejsza 

najmniejsza 
największa 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

12 

Porównanie modeli – krzywa Wzrost (Lift

• Każdej obserwacji wybrany model przydziela prawdopodobieństwo,  

że zmienna celu przyjmie dla niej wartość 1. 

• Zbiór obserwacji sortowany jest malejąco według tych 

prawdopodobieństw. 

• Otrzymany zbiór jest dzielony na grupy (po 5% całego zbioru). 
• Dla każdej grupy obliczany jest stosunek odsetka zdarzeń „1” w grupie 

do całkowitej proporcji „1” w zbiorze. 

• Czynność ta jest powtarzana dla podpopulacji o różnych rozmiarach. 
• Otrzymujemy krzywą Łączny wzrost (Cumulative Lift), która jest 

miernikiem mocy predykcyjnej modelu klasyfikacyjnego.  

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

13 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

14 

Porównanie modeli – krzywa ROC 

Każdej obserwacji wybrany model przydziela prawdopodobieństwo,  

że zmienna celu przyjmie dla niej wartość 1. 

Zbiór obserwacji sortowany jest malejąco według tych prawdopodobieństw. 

Wybierana jest grupa k

% górnych obserwacji.  

 

Wrażliwość (czułość):  
liczba wartości „1” w wybranej grupie/ liczba wartości „1” w próbie 
 
1-

swoistość (1-specyficzność): 

liczba wartości „0” w wybranej grupie/ liczba wartości „0” w próbie 

 

Działania powtarzane są dla różnych wartości k, a otrzymane wartości łączone 

są w krzywą. 

 

Model dobry 

Model przeciętny 

Model zły 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

15 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

16 

Porównanie modeli – wzrost 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

17 

Modelowanie 

– scoring modelu 

Faza uczenia 

Faza predykcji 

(scoringu) 

Historyczne 

dane do 

modelowania 

Model 

Aktualne 

dane do 

predykcji 

Scoring 

Scoring 

– metoda statystyczna przewidującą prawdopodobieństwo  

   

 

  

wystąpienia pewnego zdarzenia w odniesieniu do klienta. 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

18 

Źródło danych – nowe dane 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

19 

Implementacja modelu 

– nowe dane 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

20 

Scoring modelu 

– ocena punktowa  

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

21 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

22 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

23 

Eksport tabeli scoringowej 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

24 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

25 

Tabela scoringowa 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

26 

Zapisanie zbioru wynikowego 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

27 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

28 

Zapisanie zbioru wynikowego 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

29 

Ćwiczenia 

1.

Dokonać połączenia modeli metodą głosowanie, na czym polegają 

metody wyliczania prawdopodobieństw a posteriori: średnia i udział? 
 

2.

Korzystając z węzła Porównanie modeli wybrać najlepszy model 
drzewa decyzyjnego zbudowanego na zbiorze OSOBY. 
 

3.

Korzystając z węzła Porównanie modeli wybrać najlepszy model 
regresji logistycznej zbudowanej na zbiorze OSOBY. 
 

4.

Korzystając z węzła Porównanie modeli wybrać najlepszy model sieci 
neuronowej zbudowanej na zbiorze OSOBY. 
 

5.

Wykonać implementację modelu regresji logistycznej dla CHURN2. 
 

6.

Wykonać implementację modelu sieci neuronowej dla CHURN2. 

 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

30 

Dziękuję za uwagę !