Regresja liniowa


Regresja liniowa
Metody statystyczne w analizie danych marketingowych
Magdalena Jabłońska
Korelacja
" Mówi nam o związku liniowym dwóch
zmiennych
" Opisywana przy pomocy współczynnika korelacji
r Pearsona (zmienne ilościowe) lub rho
Spearmana (zmienne porzÄ…dkowe)
Jakie to zmienne?
" Wzrost w cm&
" Wykształcenie mierzone w latach nauki&
" Wykształcenie: podstawowe, średnie, wyższe&
" Liczba książek: 0-9, 10-19, 20-29, 30-39
" Zarobki w zaokrÄ…gleniu do tysiÄ…ca&
Współczynnik korelacji
" Przyjmuje wartości <-1;1>
r interpretacja
0-0,3 SÅ‚aba korelacja
0,3-0,5 Åšrednia korelacja
0,5-0,7 Silna korelacja
0,7  0,9 Bardzo silna korelacja
r> 0,9 Związek niemalże idealnie liniowy
O czym informuje korelacja?
" Korelacja dodatnia, korelacja ujemna
" Brak zwiÄ…zku przyczynowo-skutkowego
Wykres korelacji:
+ 1
- 0,5
+ 0,85
+ 0,15
Przykład.
Plik small-cluster.sav
1
3
2
Plik: small-cluster
R2 = r2
Współczynnik współzmienności
(współczynnik wariancji wyjaśnionej)
Mówi nam o tym, jaki procent zmienności jednej zmiennej możemy
wyjaśnić na podstawie znajomości innej zmiennej.
Wykres rozrzutu:
Zadanie:
" Plik: Zadluzenie.sav
" Pytania:
1. Jaka jest zależność pomiędzy zadłużeniem na
karcie kredytowej a innymi zadłużeniami?
2. Jaka jest zależność pomiędzy wykształceniem a
zarobkami?
Regresja liniowa
" Korelacja nie daje nam możliwości predykcji
" Przewidywanie wartości umożliwia natomiast
regresja
" Matematyczny model, który pozwala nam
przewidywać relacje między zmiennymi
" Nadal obarczony błędem predykcji!
Wzór regresji
Ć
Y =ð BnachyleniaX +ð Astala
20
19
18
Y= 2x+1
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
1 2 3 4 5 6 7 8 9 10 11
" Jak wzrasta wartość X o 1, wartość Y wzrasta o 2
" Idealna predykcja, w większości przypadków mamy do
czynienia z błędem predykcji
Czy istnieje związek pomiędzy zawartością cukru a
wartością kaloryczną?
Plik: Platki_sav.
Jak nie wiadomo, czego się spodziewać, to najlepiej oczekiwać średniej
arytmetycznej
Ale może da się znalezć jakąś tendencję, gdy przeanalizuje się wykres
rozrzutu?
Równanie tego typu będzie matematycznym modelem relacji.
Może się okazać tak, że pewne rzeczywiste obserwacje pasują do modelu lepiej a
inne gorzej.
Dopasowanie modelu
Wartość oczekiwana  wartość
przewidywana przez model
Reszta  odchylenie od modelu 
różnica między wartością
przewidywanÄ… przez model a
rzeczywistÄ…
ANOVA  mówi nam o tym, czy
model regresji przewiduje wyniki
lepiej niż średnia
Metoda najmniejszych
kwadratów - metoda pozwalająca
określić położenie linii regresji tak,
aby odległość między linią regresji a
obserwacjami była jak namniejsza
Przykład:
" Plik: Platki.sav
Jak odczytać wynik?
F(1,75)= 34,685; p<0,001
B1=2,465; t=5,889; p<0,001
²=0,562
Na co patrzmy:
1. Czy analiza regresji jest istotna? -> ANOVA
2. Jakie predyktory są istotne? -> Współczynniki
O czym informują nas współczynniki
niestandaryzowane a o czym standaryzowane?
Jak stworzyć równanie?
Y= 89,82 + 2,465x
O czym informuje nas R2?
Stopień dopasowanie naszego modelu do danych, czyli
informacja o tym, jak duży procent wariancji zmiennej zależnej
pozwala wyjaśnić predyktor. Model wyjaśnia 30,7% wariancji w
zmiennej zależnej.
Zadanie do samodzielnej analizy
" Plik Zadłużenie.sav
" Czy na podstawie ilości lat u obecnego
pracodawcy jesteśmy w stanie przewidzieć
dochody?
" Zm. zależna: zarobki
" Zm. niezależna: ostatnie_zatrudnienie
Regresja wieloraka (wielozmiennowa)
" Bada wpływ więcej niż jednego predyktora na
zmienną zależną
" Wzór: y= a+ b1x+ b2x + & bnx
Przykład:
" Plik Zadłużenie.sav
" Czy możemy przewidzieć zarobki na podstawie
innych predyktorów niż lata zatrudnienia u
obecnego pracodawcy?
" Zm. zależna: zarobki
" Zm. niezależna:
- ostatnie_zatrudnienie
- wiek
- poziom wykształcenia
1.
2.
3.
Kroki postępowania:
1. Sprawdzamy czy model linii regresji dobrze pasuje
do danych (ANOVA)
2. Podajemy współczynnik determinacji R2
3. Sprawdzamy, czy istnieje zależność między
predyktorem a zmienną zależną (istotność
współczynnika beta)
4. Interpretujemy współczynnik beta (siła i kierunek
zależności)
5. Zapisujemy wzór linii dla danych surowych
Uwagi:
" Przed wykonaniem analizy należy sprawdzić założenia
regresji:
- Przypadki odstające i ekstremalne powinny zostać
znalezione i wyeliminowane (dewianci!)
- Zmienna zależna musi mieć rozkład normalny
- Normalny rozkład reszt
- Zmienne niezależne powinny być liniowo powiązane ze
zmienną zależną
Dewianci (ang. outliers)
Usuwamy dewianta:
$casenum~= numer obserwacji dewianta
Dewianci - metody aposteriori
1.
2.
3.
1.
3.
2.
Plik: zarobki.sav
Normalny rozkład reszt
Prawidłowy wykres
rozkładu reszt
Zależność prostoliniowa
Liniowa liniowa krzywoliniowa
Praca własna
" Plik: life_and_tv.sav
" Czy możemy przewidzieć oczekiwaną długość
życia na podstawie liczby lekarzy i telewizorów
przypadających na jednego mieszkańca danego
kraju?


Wyszukiwarka

Podobne podstrony:
sokolski,statystyka inżynierska,regresja liniowa
L4 regresja liniowa klucz
Analiza regresji liniowej
Temat 4 I Klasyczny model regresji liniowej
2 Model regresji liniowej
Regresja liniowa
Regresja liniowa
L4 regresja liniowa (2)
Regresja liniowa
3 Istotność parametrów modelu regresji liniowej
3 Zastosowanie regresji liniowej do obliczania szybkości reakcji chemicznych
Temat 5 I Weryfikacja modelu regresji liniowej
Regresja liniowa 7
Wzory regresji liniowej
Korelacja i regresja liniowa

więcej podobnych podstron