Dorota Duda 28 lutego 2010 r.
KNoP, Studia doktoranckie niestacjonarne, IX edycja
Zadanie 4. Model regresji – próbka nr 9
Model regresji stwarza możliwość modelowania oraz symulowania prawdopodobieństwa zdarzenia opisywanego przez zmienną zależną w zależności od różnych zmiennych niezależnych (w tym przypadku zmienną zależną są koszty, a zmiennymi niezależnymi liczba stanowisk, czas i odległość).
Model regresji dla całej populacji (123 obserwacje) przedstawia się następująco:
Ŷ = -9,196 – 0,417 X1 + 0,826 X2 + 1,324 X3
Model regresji dla próbki (22 obserwacje) kształtuje się następująco:
Ŷ = -11,966 – 0,703 X1 + 1,121 X2 + 1,505 X3
Wartości wszystkich współczynników w modelu regresji dla próbki 22 obserwacji są większe niż w modelu regresji dla całej populacji. Powyższe funkcje regresji otrzymujemy poprzez metodę najmniejszych kwadratów w oparciu o dane z losowej próby.
Współczynnik korelacji wielorakiej dla próbki wyniósł 0,982 (dla całej populacji 0,968). Jest on miarą liniowej zależności między zmienną objaśnianą a liniową kombinacją zmiennych objaśniających. Przyjmuje wartość z przedziału [0,1], przy czym dla R=1 zachodzi zależność funkcyjna liniowa. W omawianym przykładzie współczynniki są bliskie 1, co oznacza, że zależność między kosztami a kombinacją zmiennych niezależnych jest zbliżona do zależności liniowej.
Miarą dopasowania modelu regresji jest współczynnik R2. Jest to liczba z przedziału [0,1]. R2=1 oznacza doskonałe dopasowanie, natomiast wartość R2=0 - brak powiązania między zmiennymi. Punktem wyjścia do utworzenia takiej miary jest badanie sumy kwadratów odchyleń poszczególnych obserwacji yi od ich średniej. Miara dopasowania R2 jest dla próbki większa (0,964) niż dla całej populacji (0,938). Oznacza to, iż dla próbki uzyskaliśmy funkcję, która w większym stopniu opisuje zależności między zmiennymi. Skorygowany R2 wynosi dla próbki 0,957, a dla całej populacji 0,936.
Różnice opisujące rozbieżność między wartościami zmiennej zależnej yj, a wartościami wyliczonymi z modelu ŷj to reszty. Im reszty są mniejsze, tym bliżej wartości empirycznej yi są wartości przewidywane przez model. Jako miarę omawianej rozbieżności traktuje się odchylenie standardowe reszt zi. W statystyce precyzję estymatora oddaje jego wariancja, czyli jest średnią arytmetyczną kwadratów odchyleń (różnic) poszczególnych wartości cechy od wartości oczekiwanej.
Błąd standardowy estymacji Sz informuje o przeciętnej wielkości odchyleń empirycznych wartości zmiennej zależnej od wartości wyliczonych z modelu (teoretycznych). Jest to ważny parametr w analizie regresji, ponieważ stanowi miarę rozproszenia elementów populacji wokół linii regresji. Odchylenie standardowe reszt mówi więc nam o stopniu "dopasowania" modelu do danych empirycznych. Im Sz mniejsze, tym lepiej dopasowany model. W naszym przykładzie błąd standardowy jest dla próbki obserwacji większy niż dla całej populacji, gdyż wynosi 2,336 w porównaniu do 1,649 dla całości.
Model regresji obrazuje zależność, jaka kształtuje się pomiędzy kosztami wyjazdów na polowania a odległością kraju wyjazdu, czasem jego trwania oraz liczbą stanowisk. Przy czym im większa odległość i czas, tym wyższe koszty wyjazdów. Natomiast model wskazuje na ujemną zależność liczby stanowisk do kosztów.