DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Ćwiczenia 4
Zastosowania regresji logistycznej
w data mining
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
2
Struktura ćwiczeń:
• Przygotowanie danych wejściowych
• Imputacja danych
• Wybór zmiennych do modelu
• Transformacja zmiennych
• Budowa modelu regresji logistycznej
• Budowa modelu regresji liniowej
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
3
Modele regresji
Modele regresji wyjaśniają w sposób analityczny
kształtowanie się wartości jednej zmiennej
objaśnianej pod wpływem innych zmiennych
objaśniających (niezależnych).
Regresja liniowa
(Linear regression)
• ilościowa zmienna celu
Regresja logistyczna
(Logistic regression)
• jakościowa zmienna celu
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
4
Określenie zbioru danych do modelowania
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
5
Przetwarzanie decyzji
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
6
Podział zbioru danych
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
7
Imputacja danych
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
8
Analiza korelacji zmiennych z wykorzystaniem węzła Kod SAS-owy
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
9
Analiza korelacji zmiennych z wykorzystaniem węzła Kod SAS-owy
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
10
Wybór zmiennych do modelu regresji
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
11
Wybór zmiennych do modelu regresji – wyniki
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
12
Przekształcenia zmiennych do modelu regresji
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
13
Przekształcenia zmiennych - wykresy
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
14
Modele regresji w SAS Enterprise Miner
• Binarna zmienna celu
• Porządkowa zmienna celu
• Nominalna zmienna celu
• Ciągła zmienna celu
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
15
Model regresji logistycznej
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
16
Model regresji logistycznej
– dobór zmiennych
objaśniających do modelu
• Metoda eliminacji (Backward elimination procedure)
• Metoda dołączania (Forward selection procedure)
• Metoda regresji krokowej (Stepwise procedure)
• Brak – wszystkie zmienne zostaną włączone do modelu
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
17
Model regresji logistycznej
– wyniki
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
18
Model regresji logistycznej
– wyniki
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
19
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
20
Kryteria wyboru modelu
•
Kryterium informacyjne Akaikego
– Akaike Information Criterion (AIC)
•
Kryterium Bayesowskie Shwartza
– Shwarz Bayesian Criterion (SBC)
•
Błąd podczas walidacji – Validation Error (binarna zmienna celu)
•
Błędne zakwalifikowanie podczas walidacji – Validation Misclassification (binarna
zmienna celu)
•
Błąd podczas walidacji krzyżowej– Cross Validation Error (obliczane na podstawie
zbioru uczącego)
•
Błędne zakwalifikowanie podczas walidacji krzyżowej – Cross Validation
Misclassification
(obliczane na podstawie zbioru uczącego)
•
Zysk/strata podczas walidacji
– Validation Profit/Loss (obliczane na podstawie
zbioru walidacyjnego, wymaga podania macierzy zysku)
•
Zysk/strata
– Profit/Loss (obliczane na podstawie zbioru uczącego, wymaga
podania macierzy zysku)
•
Zysk/strata podczas walidacji krzyżowej – Cross Validation Profit/Loss
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
21
Modele regresji logistycznej z uwzględnieniem transformacji zmiennych
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
22
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
23
Modele regresji logistycznej z uwzględnieniem transformacji zmiennych
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
24
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
25
Modele regresji logistycznej z uwzględnieniem transformacji zmiennych
– wyniki
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
26
Modele regresji logistycznej bez transformacji zmiennych
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
27
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
28
Modele regresji logistycznej bez transformacji zmiennych
– wyniki
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
29
Modele regresji logistycznej bez transformacji zmiennych
– interpretacja wyników
p
k
x
x
x
P
logit
-
2
1
e
1
1
,
,
,
|
1
Kom
k
k
x
x
x
p
2
2
1
1
0
logit
Np. Estimate=-
0.0477<0, co oznacza, że prawdopodobieństwo zdarzenia,
że zmienna Kom przyjmie wartość 1 maleje wraz ze wzrostem wieku.
Kodowanie zmiennych objaśniających skokowych:
Odchylenie GLM
x
A
B
A
1
0
B
0
1
C
-1
-1
x
A
B
C
A
1
0
0
B
0
1
0
C
0
0
1
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
30
Modele regresji logistycznej bez transformacji zmiennych
– wyniki i ich interpretacja
Uzyskany wynik oznacza, że prawdopodobieństwo
przyjęcia przez zmienną objaśnianą kom wartości 1 dla
respondentów z wykształceniem wyższym (D4_11=1)
jest o 20% większe niż dla respondentów bez
wykształcenia (D4_11=8) .
Natomiast dla osób z wykształceniem gimnazjalnym
(D4_11=6) jest 2.985 razy większe niż dla osób bez
wykształcenia.
OR dla wieku (wyrażonego w latach) wynosi 0.953,
co oznacza, że wraz ze wzrostem wieku o jedną
jednostkę (1 rok), szanse na posiadanie komputera
maleją o (1-0.953)*100%=4.7%.
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
31
Regresja wieloraka
– ciągła zmienna celu
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
32
Wybór zmiennych do modelu regresji wielorakiej
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
33
Model regresji wielorakiej
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
34
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
35
Model regresji wielorakiej
– interakcje, regresja wielomianowa
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
36
Model regresji wielorakiej
– interakcje, regresja wielomianowa
Statystyki oceny modelu
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
37
Ćwiczenia
1.
Zbudować najlepszy (uwzględniając odpowiednie miary) model
regresji logistycznej na zbiorze CHURN1 (zmienna celu: churn).
Należy skorzystać z tego samego zbioru danych, który został użyty
w budowie modelu drzew decyzyjnych.
2.
Jaka jest skuteczność klasyfikacji i błąd średniokwadratowy modelu
na próbie walidacyjnej?
3.
Jakie zmienne objaśniające zostały uwzględnione w modelu?
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
38
Dziękuję za uwagę !