Regresja liniowa
Metody statystyczne w analizie danych marketingowych
Magdalena Jabłońska
Korelacja
" Mówi nam o związku liniowym dwóch
zmiennych
" Opisywana przy pomocy współczynnika korelacji
r Pearsona (zmienne ilościowe) lub rho
Spearmana (zmienne porzÄ…dkowe)
Jakie to zmienne?
" Wzrost w cm&
" Wykształcenie mierzone w latach nauki&
" Wykształcenie: podstawowe, średnie, wyższe&
" Liczba książek: 0-9, 10-19, 20-29, 30-39
" Zarobki w zaokrÄ…gleniu do tysiÄ…ca&
Współczynnik korelacji
" Przyjmuje wartości <-1;1>
r interpretacja
0-0,3 SÅ‚aba korelacja
0,3-0,5 Åšrednia korelacja
0,5-0,7 Silna korelacja
0,7 0,9 Bardzo silna korelacja
r> 0,9 Związek niemalże idealnie liniowy
O czym informuje korelacja?
" Korelacja dodatnia, korelacja ujemna
" Brak zwiÄ…zku przyczynowo-skutkowego
Wykres korelacji:
+ 1
- 0,5
+ 0,85
+ 0,15
Przykład.
Plik small-cluster.sav
1
3
2
Plik: small-cluster
R2 = r2
Współczynnik współzmienności
(współczynnik wariancji wyjaśnionej)
Mówi nam o tym, jaki procent zmienności jednej zmiennej możemy
wyjaśnić na podstawie znajomości innej zmiennej.
Wykres rozrzutu:
Zadanie:
" Plik: Zadluzenie.sav
" Pytania:
1. Jaka jest zależność pomiędzy zadłużeniem na
karcie kredytowej a innymi zadłużeniami?
2. Jaka jest zależność pomiędzy wykształceniem a
zarobkami?
Regresja liniowa
" Korelacja nie daje nam możliwości predykcji
" Przewidywanie wartości umożliwia natomiast
regresja
" Matematyczny model, który pozwala nam
przewidywać relacje między zmiennymi
" Nadal obarczony błędem predykcji!
Wzór regresji
Ć
Y =ð BnachyleniaX +ð Astala
20
19
18
Y= 2x+1
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
1 2 3 4 5 6 7 8 9 10 11
" Jak wzrasta wartość X o 1, wartość Y wzrasta o 2
" Idealna predykcja, w większości przypadków mamy do
czynienia z błędem predykcji
Czy istnieje związek pomiędzy zawartością cukru a
wartością kaloryczną?
Plik: Platki_sav.
Jak nie wiadomo, czego się spodziewać, to najlepiej oczekiwać średniej
arytmetycznej
Ale może da się znalezć jakąś tendencję, gdy przeanalizuje się wykres
rozrzutu?
Równanie tego typu będzie matematycznym modelem relacji.
Może się okazać tak, że pewne rzeczywiste obserwacje pasują do modelu lepiej a
inne gorzej.
Dopasowanie modelu
Wartość oczekiwana wartość
przewidywana przez model
Reszta odchylenie od modelu
różnica między wartością
przewidywanÄ… przez model a
rzeczywistÄ…
ANOVA mówi nam o tym, czy
model regresji przewiduje wyniki
lepiej niż średnia
Metoda najmniejszych
kwadratów - metoda pozwalająca
określić położenie linii regresji tak,
aby odległość między linią regresji a
obserwacjami była jak namniejsza
Przykład:
" Plik: Platki.sav
Jak odczytać wynik?
F(1,75)= 34,685; p<0,001
B1=2,465; t=5,889; p<0,001
²=0,562
Na co patrzmy:
1. Czy analiza regresji jest istotna? -> ANOVA
2. Jakie predyktory są istotne? -> Współczynniki
O czym informują nas współczynniki
niestandaryzowane a o czym standaryzowane?
Jak stworzyć równanie?
Y= 89,82 + 2,465x
O czym informuje nas R2?
Stopień dopasowanie naszego modelu do danych, czyli
informacja o tym, jak duży procent wariancji zmiennej zależnej
pozwala wyjaśnić predyktor. Model wyjaśnia 30,7% wariancji w
zmiennej zależnej.
Zadanie do samodzielnej analizy
" Plik Zadłużenie.sav
" Czy na podstawie ilości lat u obecnego
pracodawcy jesteśmy w stanie przewidzieć
dochody?
" Zm. zależna: zarobki
" Zm. niezależna: ostatnie_zatrudnienie
Regresja wieloraka (wielozmiennowa)
" Bada wpływ więcej niż jednego predyktora na
zmienną zależną
" Wzór: y= a+ b1x+ b2x + & bnx
Przykład:
" Plik Zadłużenie.sav
" Czy możemy przewidzieć zarobki na podstawie
innych predyktorów niż lata zatrudnienia u
obecnego pracodawcy?
" Zm. zależna: zarobki
" Zm. niezależna:
- ostatnie_zatrudnienie
- wiek
- poziom wykształcenia
1.
2.
3.
Kroki postępowania:
1. Sprawdzamy czy model linii regresji dobrze pasuje
do danych (ANOVA)
2. Podajemy współczynnik determinacji R2
3. Sprawdzamy, czy istnieje zależność między
predyktorem a zmienną zależną (istotność
współczynnika beta)
4. Interpretujemy współczynnik beta (siła i kierunek
zależności)
5. Zapisujemy wzór linii dla danych surowych
Uwagi:
" Przed wykonaniem analizy należy sprawdzić założenia
regresji:
- Przypadki odstające i ekstremalne powinny zostać
znalezione i wyeliminowane (dewianci!)
- Zmienna zależna musi mieć rozkład normalny
- Normalny rozkład reszt
- Zmienne niezależne powinny być liniowo powiązane ze
zmienną zależną
Dewianci (ang. outliers)
Usuwamy dewianta:
$casenum~= numer obserwacji dewianta
Dewianci - metody aposteriori
1.
2.
3.
1.
3.
2.
Plik: zarobki.sav
Normalny rozkład reszt
Prawidłowy wykres
rozkładu reszt
Zależność prostoliniowa
Liniowa liniowa krzywoliniowa
Praca własna
" Plik: life_and_tv.sav
" Czy możemy przewidzieć oczekiwaną długość
życia na podstawie liczby lekarzy i telewizorów
przypadających na jednego mieszkańca danego
kraju?
Wyszukiwarka
Podobne podstrony:
sokolski,statystyka inżynierska,regresja liniowaL4 regresja liniowa kluczAnaliza regresji liniowejTemat 4 I Klasyczny model regresji liniowej2 Model regresji liniowejRegresja liniowaRegresja liniowaL4 regresja liniowa (2)Regresja liniowa3 Istotność parametrów modelu regresji liniowej3 Zastosowanie regresji liniowej do obliczania szybkości reakcji chemicznychTemat 5 I Weryfikacja modelu regresji liniowejRegresja liniowa 7Wzory regresji liniowejKorelacja i regresja liniowawięcej podobnych podstron