Procedura związana z analizą regresji
1. Wybór zmiennych oraz postaci funkcji
regresji
2. Oszacowanie parametrów funkcji,
wyznaczenie błędów
5. Wykorzystanie modelu – ocena
związków, prognozowanie
4.a Model dobry
3. Ocena modelu (istotność parametrów,
dopasowanie, własności reszt, obserwacje
odstające)
4.b Model niedobry
Uwagi do kolejnych etapów
Ad 1. O ile jest to możliwe (zmiennych nie jest zbyt dużo) należy sprawdzić:
•
charakter związku pomiędzy zmiennymi
•
występowanie interakcji pomiędzy zmiennymi
W przypadku, gdy nie ma „mocnej” teorii zjawiska, która narzuca postać
funkcji, wówczas samemu należy zaproponować możliwie najlepsze
rozwiązanie. Właściwsze podejście polega na zaproponowaniu modelu
maksymalnie rozbudowanego by następnie upraszczać go zgodnie z
zadaną procedurą (korzystanie z kryteriów informacyjnych, lub z testu t –
jeśli kryteria nie są dostępne)
Ad 2….
Ad 3. Ocena zbudowanego modelu polega na sprawdzeniu czy:
•
parametry są statystycznie istotne (test t)
•
parametry mają właściwe interpretacje (w szczególności znaki)
•
odchylenie standardowe reszt jest akceptowalnie małe
•
reszty są normalne (wykres normalności, testy normalności dla reszt)
•
reszty są homoskedastyczne (wykres reszt względem
obserwowanych/przewidywanych – jeśli reszty zależą od wartości
zmiennej zależnej, to nie są homoskedastyczne)
•
występują obserwacje odstające i czy wpływają one na wartości
oszacowanych parametrów (postać funkcji) – odległość Cooka (odległość
pomiędzy wektorami parametrów równań regresji, z których jedno
wykorzystują obserwację i drugie zaś nie), usunięta reszta – porównanie
reszt z dwóch modeli, z których jeden wykorzystuje daną obserwację,
drugi nie, odległość Mahalanobisa – odległość wektora zmiennych
objaśniających od „centroidu” wyznaczonego dla wszystkich wektorów
zmiennych objaśnianych.
Ad 4a. huraa
Ad 4b. Poprawiamy model tj.
•
zmieniamy rodzaj związku pomiędzy zmiennymi
•
usuwamy zmienne (dodajemy zmienne)
•
wykluczamy obserwacje odstające
Ad 5. hurrraaa
Zadania.
Zad 1.Otworzyć plik płace
•
oszacować parametry modelu regresji, ocenić dobroć modelu,
•
wykreślić wykres rozrzutu płaca/wiek biorąc pod uwagę płeć respondenta
•
poprawić wykres
Zad 2. Otworzyć plik saab 9-3
•
oszacować model regresji ujmujący zależność pomiędzy wartością a
pozostałymi zmiennymi: zinterpretować parametry, miary dopasowania
•
wykorzystać metodą analizy krokowej, aby wskazać „optymalny” model
•
poprawić model
Zad 3. Otworzyć plik Poverty.sta (w folderze plików przykładowych programu)
•
Zbudować regresję dla zmiennej procent biedy
•
Ocenić model (w szczególności ze względu na wartości odstające)