cw 04 regresja logistyczna

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Ćwiczenia 4

Zastosowania regresji logistycznej

w data mining

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

2

Struktura ćwiczeń:

• Przygotowanie danych wejściowych

• Imputacja danych

• Wybór zmiennych do modelu

• Transformacja zmiennych

• Budowa modelu regresji logistycznej

• Budowa modelu regresji liniowej

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

3

Modele regresji

Modele regresji wyjaśniają w sposób analityczny

kształtowanie się wartości jednej zmiennej

objaśnianej pod wpływem innych zmiennych

objaśniających (niezależnych).

Regresja liniowa

(Linear regression)

• ilościowa zmienna celu

Regresja logistyczna

(Logistic regression)

• jakościowa zmienna celu

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

4

Określenie zbioru danych do modelowania

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

5

Przetwarzanie decyzji

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

6

Podział zbioru danych

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

7

Imputacja danych

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

8

Analiza korelacji zmiennych z wykorzystaniem węzła Kod SAS-owy

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

9

Analiza korelacji zmiennych z wykorzystaniem węzła Kod SAS-owy

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

10

Wybór zmiennych do modelu regresji

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

11

Wybór zmiennych do modelu regresji – wyniki

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

12

Przekształcenia zmiennych do modelu regresji

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

13

Przekształcenia zmiennych - wykresy

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

14

Modele regresji w SAS Enterprise Miner

• Binarna zmienna celu

• Porządkowa zmienna celu

• Nominalna zmienna celu

• Ciągła zmienna celu

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

15

Model regresji logistycznej

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

16

Model regresji logistycznej

– dobór zmiennych

objaśniających do modelu

• Metoda eliminacji (Backward elimination procedure)
• Metoda dołączania (Forward selection procedure)
• Metoda regresji krokowej (Stepwise procedure)
• Brak – wszystkie zmienne zostaną włączone do modelu

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

17

Model regresji logistycznej

– wyniki

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

18

Model regresji logistycznej

– wyniki

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

19

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

20

Kryteria wyboru modelu

Kryterium informacyjne Akaikego

Akaike Information Criterion (AIC)

Kryterium Bayesowskie Shwartza

Shwarz Bayesian Criterion (SBC)

Błąd podczas walidacji – Validation Error (binarna zmienna celu)

Błędne zakwalifikowanie podczas walidacji – Validation Misclassification (binarna
zmienna celu)

Błąd podczas walidacji krzyżowej– Cross Validation Error (obliczane na podstawie

zbioru uczącego)

Błędne zakwalifikowanie podczas walidacji krzyżowej – Cross Validation
Misclassification

(obliczane na podstawie zbioru uczącego)

Zysk/strata podczas walidacji

Validation Profit/Loss (obliczane na podstawie

zbioru walidacyjnego, wymaga podania macierzy zysku)

Zysk/strata

Profit/Loss (obliczane na podstawie zbioru uczącego, wymaga

podania macierzy zysku)

Zysk/strata podczas walidacji krzyżowej – Cross Validation Profit/Loss

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

21

Modele regresji logistycznej z uwzględnieniem transformacji zmiennych

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

22

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

23

Modele regresji logistycznej z uwzględnieniem transformacji zmiennych

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

24

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

25

Modele regresji logistycznej z uwzględnieniem transformacji zmiennych

– wyniki

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

26

Modele regresji logistycznej bez transformacji zmiennych

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

27

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

28

Modele regresji logistycznej bez transformacji zmiennych

– wyniki

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

29

Modele regresji logistycznej bez transformacji zmiennych

– interpretacja wyników

 

p

k

x

x

x

P

logit

-

2

1

e

1

1

,

,

,

|

1

Kom

 

k

k

x

x

x

p

2

2

1

1

0

logit

Np. Estimate=-

0.0477<0, co oznacza, że prawdopodobieństwo zdarzenia,

że zmienna Kom przyjmie wartość 1 maleje wraz ze wzrostem wieku.

Kodowanie zmiennych objaśniających skokowych:

Odchylenie GLM

x

A

B

A

1

0

B

0

1

C

-1

-1

x

A

B

C

A

1

0

0

B

0

1

0

C

0

0

1

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

30

Modele regresji logistycznej bez transformacji zmiennych

– wyniki i ich interpretacja

Uzyskany wynik oznacza, że prawdopodobieństwo
przyjęcia przez zmienną objaśnianą kom wartości 1 dla
respondentów z wykształceniem wyższym (D4_11=1)
jest o 20% większe niż dla respondentów bez
wykształcenia (D4_11=8) .

Natomiast dla osób z wykształceniem gimnazjalnym
(D4_11=6) jest 2.985 razy większe niż dla osób bez
wykształcenia.

OR dla wieku (wyrażonego w latach) wynosi 0.953,
co oznacza, że wraz ze wzrostem wieku o jedną
jednostkę (1 rok), szanse na posiadanie komputera
maleją o (1-0.953)*100%=4.7%.

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

31

Regresja wieloraka

– ciągła zmienna celu

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

32

Wybór zmiennych do modelu regresji wielorakiej

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

33

Model regresji wielorakiej

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

34

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

35

Model regresji wielorakiej

– interakcje, regresja wielomianowa

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

36

Model regresji wielorakiej

– interakcje, regresja wielomianowa

Statystyki oceny modelu

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

37

Ćwiczenia

1.

Zbudować najlepszy (uwzględniając odpowiednie miary) model
regresji logistycznej na zbiorze CHURN1 (zmienna celu: churn).
Należy skorzystać z tego samego zbioru danych, który został użyty
w budowie modelu drzew decyzyjnych.

2.

Jaka jest skuteczność klasyfikacji i błąd średniokwadratowy modelu
na próbie walidacyjnej?

3.

Jakie zmienne objaśniające zostały uwzględnione w modelu?

background image

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

38

Dziękuję za uwagę !


Wyszukiwarka

Podobne podstrony:
ruch harmoniczny, Transport i Logistyka (AM) 1 (semestr I), Fizyka, fiza laborki (rozwiązania), Cw 0
Data wykonania ćw, Transport i Logistyka (AM) 1 (semestr I), Fizyka, fiza laborki (rozwiązania), Cw
ruch harmoniczny1, Transport i Logistyka (AM) 1 (semestr I), Fizyka, fiza laborki (rozwiązania), Cw
ruch harmoniczny, Transport i Logistyka (AM) 1 (semestr I), Fizyka, fiza laborki (rozwiązania), Cw 0
MPiS cw 04 zmienne losowe
MD cw 04
Socjologia?ukacji Wychowania ćw  04 2011
regresja logistyczna w R
cw 04 opto 04 03 05 (2)
L5 regresja logistyczna klucz (2)
ćw 04 Wyznaczanie stosunku e do m elektronu, Fizyka
Ćw[1]. 04 - Stale narzędziowe, Politechnika Poznańska ZiIP, II semestr, nom, Laboratoria-sprawozdani
cw 04 instrukcja
Cw 04
Rozród owiec i kóz ćw$ 04
Promocja zdrowia Ćw $ 04 2013
cw 04 rozw5b
cw# 04
PODSTAWY LOGISTYKI - 04.02, logistyka

więcej podobnych podstron