cw 06 analiza modeli predykcyjnych

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Ćwiczenia 6

Analiza modeli predykcyjnych

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

2

Struktura ćwiczeń:

• Łączenie modeli

• Ocena i porównanie modeli

• Scoring modelu

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

3

Określenie zbioru danych

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

4

Określenie zbioru danych – przetwarzanie decyzji

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

5

Podział zbioru danych

Zbiór CHURN1
nie ma braków
danych

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

6

Modele predykcyjne

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

7

Łączenie modeli

Jedna metoda modelowania, różne próbki

Różne metody modelowania, jeden zbiór danych

Zbiór

uczący

Próbka 1

Próbka 2

Metoda

modelowania

Model 1

Model 2

Model łączony

Zbiór

uczący

Metoda

modelowania

1

Metoda

modelowania

2

Model 1

Model 2

Model łączony

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

8

Łączenie modeli

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

9

Łączenie modeli – wyniki

Drzewo

Sieć

Model łączony

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

10

Porównanie modeli – przeciętny błąd kwadratowy (ASE)

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

11

Porównanie modeli – wyniki

Predykcja

Statystyki dopasowania na zbiorze

walidacyjnym

Wartość

Decyzje

Błędna klasyfikacja
Średni zysk/strata
Statystyka Kołmogorowa-Smirnowa

najmniejsza
największa/ najmniejsza
największa

Ranking

ROC
Współczynnik Giniego

największa
największa

Oszacowanie

Średni błąd kwadratowy
Kryterium Bayesowskie Shwartza
Logarytm funkcji wiarygodności

najmniejsza

najmniejsza
największa

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

12

Porównanie modeli – krzywa Wzrost (Lift)

• Każdej obserwacji wybrany model przydziela prawdopodobieństwo,

że zmienna celu przyjmie dla niej wartość 1.

• Zbiór obserwacji sortowany jest malejąco według tych

prawdopodobieństw.

• Otrzymany zbiór jest dzielony na grupy (po 5% całego zbioru).
• Dla każdej grupy obliczany jest stosunek odsetka zdarzeń „1” w grupie

do całkowitej proporcji „1” w zbiorze.

• Czynność ta jest powtarzana dla podpopulacji o różnych rozmiarach.
• Otrzymujemy krzywą Łączny wzrost (Cumulative Lift), która jest

miernikiem mocy predykcyjnej modelu klasyfikacyjnego.

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

13

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

14

Porównanie modeli – krzywa ROC

Każdej obserwacji wybrany model przydziela prawdopodobieństwo,

że zmienna celu przyjmie dla niej wartość 1.

Zbiór obserwacji sortowany jest malejąco według tych prawdopodobieństw.

Wybierana jest grupa k

% górnych obserwacji.

Wrażliwość (czułość):
liczba wartości „1” w wybranej grupie/ liczba wartości „1” w próbie

1-

swoistość (1-specyficzność):

liczba wartości „0” w wybranej grupie/ liczba wartości „0” w próbie

Działania powtarzane są dla różnych wartości k, a otrzymane wartości łączone

są w krzywą.

Model dobry

Model przeciętny

Model zły

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

15

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

16

Porównanie modeli – wzrost

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

17

Modelowanie

– scoring modelu

Faza uczenia

Faza predykcji

(scoringu)

Historyczne

dane do

modelowania

Model

Aktualne

dane do

predykcji

Scoring

Scoring

– metoda statystyczna przewidującą prawdopodobieństwo

wystąpienia pewnego zdarzenia w odniesieniu do klienta.

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

18

Źródło danych – nowe dane

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

19

Implementacja modelu

– nowe dane

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

20

Scoring modelu

– ocena punktowa

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

21

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

22

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

23

Eksport tabeli scoringowej

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

24

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

25

Tabela scoringowa

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

26

Zapisanie zbioru wynikowego

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

27

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

28

Zapisanie zbioru wynikowego

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

29

Ćwiczenia

1.

Dokonać połączenia modeli metodą głosowanie, na czym polegają

metody wyliczania prawdopodobieństw a posteriori: średnia i udział?

2.

Korzystając z węzła Porównanie modeli wybrać najlepszy model
drzewa decyzyjnego zbudowanego na zbiorze OSOBY.

3.

Korzystając z węzła Porównanie modeli wybrać najlepszy model
regresji logistycznej zbudowanej na zbiorze OSOBY.

4.

Korzystając z węzła Porównanie modeli wybrać najlepszy model sieci
neuronowej zbudowanej na zbiorze OSOBY.

5.

Wykonać implementację modelu regresji logistycznej dla CHURN2.

6.

Wykonać implementację modelu sieci neuronowej dla CHURN2.

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

30

Dziękuję za uwagę !


Wyszukiwarka

Podobne podstrony:
CW 06 B przerw
Instrukcja do ćw 06 Sterowanie pracą silnika indukcyjnego za pomocą falownika
Cw 06 Newton Raphson
Cw 06 Gauss Seidel
Cw 06
cw 13 Analiza Matematyczna (calki) id
Cw 5 10 Analiza tolerancji i od Nieznany
06 Analizowanie ukladow elektry Nieznany (2)
Cw 06 Siatka dyfrakcyjna id 121 Nieznany
06 Analiza ryzyka [tryb zgodnos Nieznany
Cw 9 i 10 Analiza mikrobiologiczna GLEBY

więcej podobnych podstron