background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

Ćwiczenia 4 

Zastosowania regresji logistycznej 

w data mining 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

Struktura ćwiczeń: 

• Przygotowanie danych wejściowych  

 

• Imputacja danych 

 

• Wybór zmiennych do modelu 

 

• Transformacja zmiennych 

 

• Budowa modelu regresji logistycznej 

 

• Budowa modelu regresji liniowej 

 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

Modele regresji 

 

 

Modele regresji wyjaśniają w sposób analityczny 

kształtowanie się wartości jednej zmiennej 

objaśnianej pod wpływem innych zmiennych 

objaśniających (niezależnych). 

Regresja liniowa  

(Linear regression

• ilościowa zmienna celu 

Regresja logistyczna 

(Logistic regression

• jakościowa zmienna celu 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

Określenie zbioru danych do modelowania 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

Przetwarzanie decyzji 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

Podział zbioru danych 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

Imputacja danych 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

Analiza korelacji zmiennych z wykorzystaniem węzła Kod SAS-owy 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

Analiza korelacji zmiennych z wykorzystaniem węzła Kod SAS-owy 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

10 

Wybór zmiennych do modelu regresji  

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

11 

Wybór zmiennych do modelu regresji – wyniki  

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

12 

Przekształcenia zmiennych do modelu regresji  

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

13 

Przekształcenia zmiennych - wykresy 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

14 

Modele regresji w  SAS Enterprise Miner 

• Binarna zmienna celu 

 

• Porządkowa zmienna celu 

 

• Nominalna zmienna celu 

 

• Ciągła zmienna celu 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

15 

Model regresji logistycznej 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

16 

Model regresji logistycznej 

– dobór zmiennych 

objaśniających do modelu  

• Metoda eliminacji (Backward elimination procedure
• Metoda dołączania (Forward selection procedure
• Metoda regresji krokowej (Stepwise procedure
• Brak – wszystkie zmienne zostaną włączone do modelu 
 
 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

17 

Model regresji logistycznej 

– wyniki 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

18 

Model regresji logistycznej 

– wyniki 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

19 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

20 

Kryteria wyboru modelu 

Kryterium informacyjne Akaikego 

– Akaike Information Criterion (AIC) 

Kryterium Bayesowskie Shwartza 

– Shwarz  Bayesian Criterion (SBC) 

Błąd podczas walidacji – Validation Error (binarna zmienna celu) 

Błędne zakwalifikowanie podczas walidacji – Validation Misclassification (binarna 
zmienna celu) 

Błąd podczas walidacji krzyżowej– Cross Validation Error (obliczane na podstawie 

zbioru uczącego) 

Błędne zakwalifikowanie podczas walidacji krzyżowej – Cross Validation 
Misclassification
 

(obliczane na podstawie zbioru uczącego) 

Zysk/strata podczas walidacji 

– Validation Profit/Loss (obliczane na podstawie 

zbioru walidacyjnego, wymaga podania macierzy zysku) 

Zysk/strata 

– Profit/Loss (obliczane na podstawie zbioru uczącego, wymaga 

podania macierzy zysku) 

Zysk/strata podczas walidacji krzyżowej – Cross Validation Profit/Loss 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

21 

Modele regresji logistycznej z uwzględnieniem transformacji zmiennych 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

22 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

23 

Modele regresji logistycznej z uwzględnieniem transformacji zmiennych 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

24 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

25 

Modele regresji logistycznej z uwzględnieniem transformacji zmiennych 

 

– wyniki 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

26 

Modele regresji logistycznej bez transformacji zmiennych 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

27 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

28 

Modele regresji logistycznej bez transformacji zmiennych  

 

– wyniki 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

29 

Modele regresji logistycznej bez transformacji zmiennych  

 

– interpretacja wyników 

 

p

k

x

x

x

P

logit

-

2

1

e

1

1

,

,

,

|

1

Kom

 

k

k

x

x

x

p

2

2

1

1

0

logit

Np. Estimate=-

0.0477<0, co oznacza, że  prawdopodobieństwo zdarzenia, 

że zmienna Kom przyjmie wartość 1 maleje wraz ze wzrostem wieku. 

Kodowanie zmiennych objaśniających skokowych

          Odchylenie                                                      GLM 

-1 

-1 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

30 

Modele regresji logistycznej bez transformacji zmiennych  

 

– wyniki i ich interpretacja 

Uzyskany wynik oznacza, że prawdopodobieństwo 
przyjęcia przez zmienną objaśnianą kom wartości 1 dla 
respondentów z wykształceniem wyższym (D4_11=1) 
jest o 20% większe niż dla respondentów bez 
wykształcenia (D4_11=8) .  

Natomiast dla osób z wykształceniem gimnazjalnym 
(D4_11=6) jest 2.985 razy większe niż dla osób bez 
wykształcenia.  

 

OR dla wieku (wyrażonego w latach) wynosi 0.953,  
co oznacza, że wraz ze wzrostem wieku o jedną 
jednostkę (1 rok), szanse na posiadanie komputera 
maleją o (1-0.953)*100%=4.7%. 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

31 

Regresja wieloraka 

– ciągła  zmienna celu 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

32 

Wybór zmiennych do modelu regresji wielorakiej 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

33 

Model regresji wielorakiej 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

34 

 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

35 

Model regresji wielorakiej 

– interakcje, regresja wielomianowa  

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

36 

Model regresji wielorakiej 

– interakcje, regresja wielomianowa 

Statystyki oceny modelu 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

37 

Ćwiczenia 

1.

Zbudować najlepszy (uwzględniając odpowiednie miary) model 
regresji logistycznej na zbiorze CHURN1 (zmienna celu: churn). 
Należy skorzystać z tego samego zbioru danych, który został użyty 
w budowie modelu drzew decyzyjnych. 

2.

Jaka jest skuteczność klasyfikacji i błąd średniokwadratowy modelu 
na próbie walidacyjnej? 

3.

Jakie zmienne objaśniające zostały uwzględnione w  modelu? 

background image

DATA MINING  –  nr przedmiotu 233100-0997 

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH 

dr Wioletta Grzenda 

38 

Dziękuję za uwagę !