Regresja logistyczna
Metody statystyczne w analizie danych marketingowych
Magdalena Jabłońska
Regresja logistyczna
" Jedna z metod opisu zależności pomiędzy jakościową
(dychotomiczną) zmienną zależną a zbiorem zmiennych
niezależnych (ilościowych lub jakościowych)
" Odpowiedzi na pytania:
- Jaka jest zależność pomiędzy wiekiem a obecnością
(nieobecnością) danej choroby?
- Jaki wpływ na zakup nowego pakietu ma długość
rozmów?
Zastosowanie regresji logistycznej w
praktyce
" w badaniach ekonomicznych, analiza zdolności spłaty
zaciągniętych kredytów bankowych,
" w badaniach społecznych, możliwość wskazania
prawdopodobieństwa np. zakupu nowego produktu przez
konsumenta, z punktu widzenia określonych (statystycznie
istotnych) cech dotyczÄ…cych produktu oraz specyfiki procesu
decyzyjnego nabywcy,
" w badaniach rynku mieszkaniowego, określenie
prawdopodobieństwa sprzedaży nieruchomości
mieszkaniowej, z punktu widzenia czasu oczekiwania
nieruchomości na sprzedaż
Zależność nieliniowa
" Krzywe sigmoidalne (kszałt litery s)
" Ostrzeżenie przed zastosowaniem tradycyjnej regresji liniowej
" Regresja logistyczna zakłada, że zależność pomiędzy zmienną
zależną a niezależną jest nieliniowa (w przeciwieństwie do regresji
liniowej)
" Gdy wartość X dąży do minus nieskończoności wartość funkcji
wynosi 0
" Gdy wartość X dąży do plus nieskończoności wartość funkcji wynosi
1
Zależność nieliniowa& . cd.
" Która z krzywych lepiej przewiduje wynik? W której błąd predykcji
jest mniejszy?
Zmienne w regresji logistycznej:
" Zmienna zależna: zmienna dychotomiczna (0-1)
Ważny jest sposób kodowania dla interpretacji wyników jedynką
musi być oznaczona ta kategoria, której wystąpienie chcemy
przewidywać (np. kupił pakiet, churn)
" Zmienna niezależna: jakościowa lub ilościowa
Wzór
e - liczba Eulera
5ØRÜ5ØżÞ0+5ØżÞ15ØeÜ
5Øß 5ØeÜ =
e H"2,718
1 + 5ØRÜ5ØżÞ0+5ØżÞ15ØeÜ
Jak możemy zinterpretować ten wynik?
" 5Øß 5ØeÜ przyjmuje wartoÅ›ci <0;1>
" Ą(x) to prawdopodobieństwo, że wynik jest pozytywny
dla rekordów z X=x
" Wartość 1-Ą(x) może być interpretowana jako
prawdopodobieństwo, że wynik jest negatywny dla
rekordów X=x
Innymi słowy&
5ØRÜ5ØżÞ0+5ØżÞ15ØeÜ
5Øß 5ØeÜ =
1 + 5ØRÜ5ØżÞ0+5ØżÞ15ØeÜ
" Zmienna zależna jest zmienną binarną (przyjmuje
wartości 0, 1)
" W związku z tym równanie regresji określa
prawdopodobieństwo wystąpienia danego zdarzenia (1)
dla wartości predyktorów wprowadzonych do modelu
regresji logistycznej.
Jedną z możliwości regresji logistycznej jest
odpowiedz na pytanie, do której z dwóch grup
dana obserwacja z większym
prawdopodobieństwem będzie należeć, czyli &
klasyfikacja
Tabela krzyżowa
" Plik: Churn.sav
Klasyfikacja do dwóch kategorii
Przykład: Jakie jest prawdopodobieństwo, że klient sieci
telefonii komórkowej przeniesie się do innego operatora?
Churn = migracja
P(churn) =
483/3333=0,14
P(churn/VoiceMail = yes) = 80 / 922= 0,09
P(churn/VoiceMail=no) = 403 / 2411= 0,17
P(X/A) to tak zwane prawdopodobieństwo warunkowe,
że wydarzy się X pod warunkiem, że spełnione jest A
Szansa to stosunek dwóch
prawdopodobieństw:
p(dane zjawisko wystÄ…pi)
p(dane zjawisko nie
wystÄ…pi)
5Ø]Ü(5Ø4Ü)
5Ø`Ü5ØgÜ5ØNÜ5Ø[Ü5Ø`Ü5ØNÜ 5Ø4Ü =
1 - 5Ø]Ü(5Ø4Ü)
483/3333
5Ø`Ü5ØgÜ5ØNÜ5Ø[Ü5Ø`Ü5ØNÜ 5ØPÜ!5ØbÜ5Ø_Ü5Ø[Ü = =0,17
1-483/3333
Szansa, że przypadkowy klient odejdzie z sieci
równa jest 17% szansy tego, że klient w sieci
pozostanie
Można obliczyć oddzielnie
szansę w grupie tych którzy
mają plan poczty głosowej
i szansę w grupie tych, który nie
mają poczty głosowej
80/922
5Ø`Ü5ØgÜ5ØNÜ5Ø[Ü5Ø`Ü5ØNÜ 5ØPÜ!5ØbÜ5Ø_Ü5Ø[Ü - 5ØcÜ5Ø\Ü5ØVÜ5ØPÜ5ØRÜ = 1 = =0,095
1-80/922
403/2411
5Ø`Ü5ØgÜ5ØNÜ5Ø[Ü5Ø`Ü5ØNÜ 5ØPÜ!5ØbÜ5Ø_Ü5Ø[Ü - 5ØcÜ5Ø\Ü5ØVÜ5ØPÜ5ØRÜ = 0 = =0,20
1-403/2411
80/922
5Ø`Ü5ØgÜ5ØNÜ5Ø[Ü5Ø`Ü5ØNÜ 5ØPÜ!5ØbÜ5Ø_Ü5Ø[Ü - 5ØcÜ5Ø\Ü5ØVÜ5ØPÜ5ØRÜ = 1 = =0,095
1-80/922
403/2411
5Ø`Ü5ØgÜ5ØNÜ5Ø[Ü5Ø`Ü5ØNÜ 5ØPÜ!5ØbÜ5Ø_Ü5Ø[Ü - 5ØcÜ5Ø\Ü5ØVÜ5ØPÜ5ØRÜ = 0 = =0,20
1-403/2411
Iloraz szans (oblicza się dla dwóch grup) stosunek
szansy na to, że dane zjawisko wystąpi w grupie A do szansy
na to, że dane zjawisko wystąpi w grupie B
0,095
5ØBÜ5ØEÜ5ØPÜ!5ØbÜ5Ø_Ü5Ø[Ü_5ØcÜ5Ø\Ü5ØVÜ5ØPÜ5ØRÜ_15ØeÜ5ØPÜ!5ØbÜ5Ø_Ü5Ø[Ü_5ØcÜ5Ø\Ü5ØVÜ5ØPÜ5ØRÜ_0 = = 0,475
0,20
Szansa na przejście do innego operatora jest w zaokrągleniu połowę mniejsza w
grupie osób posiadających pocztę głosową niż w grupie osób, którzy tej usługi
nie posiadajÄ…
Praca własna
" Plik: Titanic.sav
" Zmienna zależna: survived
" Zmienna niezależna: sex
Funkcja logitowa
logit = ln (OR) logarytm naturalny z ilorazu szans
5Øß(5ØeÜ)
5ØTÜ 5ØeÜ = ln = 5ØżÞ5Ø\Ü + 5ØżÞ15ØeÜ
1 - 5Øß(5ØeÜ)
Metoda estymacji największej
wiarygodności
" (odpowiednik metody najmniejszych kwadratów w analizie
regresji liniowej)
" Funkcja wiarygodności jest funkcją parametrów
5ØÅ¼Þ = 5ØżÞ5Ø\Ü, 5ØżÞ1 & 5ØżÞ5ØZÜ , która okreÅ›la prawdopodobieÅ„stwo
uzyskania obserwowanych danych x.
" Estymatory największej wiarygodności najbardziej
wiarygodne wartości parametrów dla obserwowanych danych.
" Metoda iteracyjna (Å‚ac. iteratio powtarzanie)
czasami dopasowanie funkcji nie udaje się w określonej liczbie
iteracji co wskazuje na słabość modelu
Można znalezć jakąś funkcję, która pozwoli
na przewidywanie wartości Churn na
podstawie wartości Liczby_minut&
regresja logistyczna
Liczba wykorzystanych minut w ciÄ…gu dnia
- Zmienna ilościowa
W miarę zwiększania się wartości
wykorzystanych liczba minut zmieniajÄ… siÄ™
szanse na odejście klientów w obu grupach
Churn zmienna jakościowa
binarna
Jak wykonać
regresjÄ™ logistycznÄ…?
Jeśli mamy zmienne
jakościowe, dodatkowo
zaznaczamy je w oknie
jakościowe .
Wyniki:
Blok 1:
Model podstawowy, bez predyktorów
O czym mówią poszczególne tabele?
Wyniki blok 1:
Model 1: (model właściwy)
Test zbiorowy współczynników modelu:
Testuje czy wartość -2logarytmu wiarygodności różni się
istotnie od modelu 0 (z bloku 0)
Chi2 < 0,005
R2 Nagelkerkego zbliżona interpretacja do R2 z
regresji liniowej
Test Hosmera-Lemenshowa
Testuje hipotezę, że model jest
niedopasowany, czyli chcemy, aby
p>0,005
Ostrożnie!
Gdy są rozbieżności między chi2
(poprzedni slajd), a testem
Hosmera i Lemenshowa,
interpretujemy chi2.
Jak dokładne są nasze
przewidywania?
Tabela kontyngencji przewiduje, ile
obserwacji może przewidzieć nasz
model (1) w porównaniu do danych,
2 1
które faktycznie wystąpiły (2).
Ile % obserwacji nasz model
przewiduje prawidłowo?
Exp (B) podobny do bety z analizy
Współczynnik logarytmu Test Walda
regresji. O ile wzrasta
naturalnego OR - trudny w podobna interpretacja
prawdopodobieństwo zdarzenia,
interpretacji sam w sobie, ale jak test t z analizy
jeżeli wartość predyktora wzrasta o 1.
właśnie tę wartość podstawia się regresji.
do równania.
Test Walda
" obliczany jest oddzielnie dla każdego współczynnika regresji
logistycznej
5ØżÞ
5ØMÜ5ØJÜ5ØNÜ5ØYÜ5ØQÜ =
5ØFÜ5Ø8Ü(5ØżÞ)
" Test ten ma rozkład normalny standaryzowany a jego wartość
określa jak ma się wartość współczynnika regresji do jego własnego
odchylenia standardowego.
" W SPSS obliczana jest wartość testu Walda podniesionego do
kwadratu ma ona wtedy rozkład chi kwadrat
Podstawiając za wartość X
wartości zmiennej Liczba
minut można obliczyć
5ØRÜ5ØżÞ0+5ØżÞ15ØeÜ
5Øß 5ØeÜ =
prawdopodobieństwo, że dana
1 + 5ØRÜ5ØżÞ0+5ØżÞ15ØeÜ
osoba odejdzie do innej sieci
P(churn)
0,6
0,5
0,4
0,3
P(churn)
0,2
0,1
0
0 100 200 300 400
Prawdopodobieństwo przeniesienia się dla dowolnego klienta bez
względu na to, ile minut rozmawia wynosi:
P(churn) = 483/3333=0,17
Prawdopodobieństwo przeniesienia obliczone dla klienta, który
rozmawia ok. 100 minut dziennie wynosi 0,06
Szansa, że klient, który rozmawia 100 minut przeniesie się do
innej sieci wynosi: 0,06/1-0,06=0,06
Prawdopodobieństwo przeniesienia obliczone dla klienta, który
rozmawia 350 minut wynosi 0,48
Szansa wynosi: 0,48/1-0,48= 0,92
0,92
5ØBÜ5ØEÜ5ØPÜ!5ØbÜ5Ø_Ü5Ø[Ü 350 5ØcÜ5Ø`Ü 100 = =15,33
0,06
W identyczny sposób można też znalezć parametry równania
5ØRÜ5ØżÞ0+5ØżÞ15ØeÜ
5Øß 5ØeÜ =
1 + 5ØRÜ5ØżÞ0+5ØżÞ15ØeÜ
gdy zmienne niezależne są jakościowe
5ØRÜ-2,354+0,748"0
5ØRÜ-2,354+0,748"1
5Øß 5ØeÜ = =0,086
5Øß 5ØeÜ = =0,167
1+5ØRÜ-2,354+0,748"0
1+5ØRÜ-2,354+0,748"1
Szansa churn (voicemail = no) = 0,167/1-0,167 =
0,20
Szansa churn (voicemail = yes) = 0,086/1-0,086 =
0,094
0,094
5ØBÜ5ØEÜ5ØPÜ!5ØbÜ5Ø_Ü5Ø[Ü 5ØcÜ5Ø\Ü5ØVÜ5ØPÜ5ØRÜ5ØZÜ5ØNÜ5ØVÜ5ØYÜ 5ØfÜ5ØRÜ5Ø`Ü 5ØcÜ5Ø`Ü 5Ø[Ü5Ø\Ü = =0,47
0,20
Wynik uzyskany przy pomocy dopasowywania krzywej
logistycznej jest taki sam, jak wynik uzyskany przy pomocy
analizy częstości (wcześniej)
0,095
5ØBÜ5ØEÜ5ØPÜ!5ØbÜ5Ø_Ü5Ø[Ü_5ØcÜ5Ø\Ü5ØVÜ5ØPÜ5ØRÜ_15ØeÜ5ØPÜ!5ØbÜ5Ø_Ü5Ø[Ü_5ØcÜ5Ø\Ü5ØVÜ5ØPÜ5ØRÜ_0 = = 0,475
0,20
Połączenie obu zmiennych w jednej analizie trzeba
znalezć trzy współczynniki równania
5ØRÜ5ØżÞ0+5ØżÞ15ØeÜ+5ØżÞ25ØeÜ
5Øß 5ØeÜ =
1 + 5ØRÜ5ØżÞ0+5ØżÞ15ØeÜ+5ØżÞ25ØeÜ
Tak robił to SPSS metodą największej
wiarygodności
5ØRÜ5ØżÞ0+5ØżÞ15ØeÜ+5ØżÞ25ØeÜ
5Øß 5ØeÜ =
1 + 5ØRÜ5ØżÞ0+5ØżÞ15ØeÜ+5ØżÞ25ØeÜ
Klient, który rozmawia 100 minut i ma pocztę głosową:
5ØRÜ-4,534+0,011"100+0,768"0
5Øß 5ØeÜ = = 0, 031
1+5ØRÜ-4,534+0,011"100+0,768"0
Tak samo obliczone prawdopodobieństwo dla klienta, który
rozmawia 350 minut i nie ma poczty głosowej wynosi 0,52
Podsumowanie
Na co należy zwrócić uwagę?
" dopasowanie funkcji
" współczynniki funkcji analogicznie jak dla modelu
liniowego (parametry dla każdego predyktora + stała)
" iloraz szans (odds ratio)
" przedział ufności dla ilorazu szans
" równanie.
Praca własna
" Plik: zadłużenie.sav
" Zmienna zależna: Kredyt
Opózniona spłata: tak/ nie
" Zmienna niezależna:
Dlug_karta
Blok 0
Model:
Praca własna 2:
" Plik: tree_credit.sav
" Zmienna zależna:
ocena kredytowa: dobra/zła
UWAGA: należy wybrać jedynie obserwacje, które mają oceną dobrą lub złą
-> Wybierz obserwacje -> ocena_kredytowa ~=9
" Zmienne niezależne:
wiek, dochód, karta kredytowa, pożyczka na samochód,
wykształcenie
Praca własna 3
" Plik: Titanic
" Zmienna zależna:
survived
" Zmienne niezależne:
age, sex
Praca własna 4
" Plik: tree_credit.sav
" Zmienna zależna:
" Pożyczka na samochód
" Zmienne niezależne:
wiek, dochód, karta kredytowa, ocena kredytowa,
wykształcenie
Wyszukiwarka
Podobne podstrony:
Regresja logistyczna 8L5 regresja logistycznaRegresja logistycznaL5 regresja logistyczna kluczregresja empirycznarynek pracy logistykaLogistyka (13 stron)Baum Wajszczuk Wawrzynowicz Modelowe rozwiazanie logistycznelogistyka opakowania i znakowanie towarow (5 stron)logistyka produkcji w 2 mrp iNiedziolka Logistyka w dzialaniachProjekt?ntrum logistycznego zalozenia projwięcej podobnych podstron