Praca zaliczeniowa
Metody ilościowe w badaniach naukowych
Studia doktoranckie IX edycja KNOP
Grzegorz Gołąbek
Temat: statystyka regresji.
Zadanie 4 - Model regresji - próbka nr 14
Dane wejściowe
Próbka nr 14
kraj_obecny |
liczba_stanowisk |
czas |
odległość |
koszty |
kraj_poprzedni |
lojalność |
B |
1 |
17,5 |
4,10 |
7,16 |
D |
1 |
B |
2 |
10,1 |
3,60 |
3,65 |
A |
1 |
A |
2 |
7,9 |
4,30 |
3,40 |
A |
0 |
E |
2 |
9,0 |
4,40 |
3,96 |
E |
0 |
C |
2 |
7,7 |
4,70 |
3,62 |
D |
0 |
B |
2 |
13,2 |
5,30 |
6,52 |
C |
1 |
B |
2 |
16,4 |
7,00 |
11,15 |
B |
1 |
D |
3 |
8,5 |
4,80 |
4,03 |
D |
0 |
E |
3 |
7,2 |
4,80 |
3,02 |
A |
0 |
E |
3 |
8,6 |
5,70 |
4,85 |
B |
0 |
A |
3 |
8,8 |
6,00 |
5,10 |
B |
0 |
C |
3 |
8,6 |
6,10 |
4,70 |
C |
0 |
A |
3 |
9,7 |
6,10 |
5,38 |
A |
0 |
C |
3 |
6,8 |
6,30 |
4,22 |
C |
1 |
A |
3 |
8,2 |
6,30 |
4,94 |
B |
0 |
E |
3 |
8,1 |
6,60 |
4,72 |
D |
0 |
A |
3 |
15,8 |
8,60 |
13,32 |
E |
1 |
D |
3 |
9,8 |
9,70 |
9,38 |
D |
0 |
A |
4 |
9,0 |
6,50 |
5,66 |
A |
0 |
B |
4 |
14,3 |
7,60 |
10,67 |
C |
1 |
B |
4 |
14,0 |
13,10 |
18,34 |
B |
1 |
A |
4 |
13,3 |
23,00 |
29,10 |
C |
1 |
Dane wyjściowe
Korelacja zmiennych.
|
liczba_stanowisk |
czas |
odległość |
koszty |
liczba_stanowisk |
1 |
|
|
|
czas |
-0,11781028 |
1 |
|
|
odległość |
0,589566879 |
0,328919805 |
1 |
|
koszty |
0,463626932 |
0,596193316 |
0,948623 |
1 |
Koszty: słaba korelacja z liczbą stanowisk, średnia z czasem, silna korelacja z odległością.
Statystyka regresji
Wielokrotność R |
0,99521917 |
R kwadrat |
0,990461197 |
Dopasowany R kwadrat |
0,988871396 |
Błąd standardowy |
0,647287735 |
Obserwacje |
22 |
ANALIZA WARIANCJI |
|
|
df |
Regresja |
3 |
Resztkowy |
18 |
Razem |
21 |
|
Współczynniki |
Błąd standardowy |
Przecięcie |
-7,662903516 |
0,825897577 |
liczba_stanowisk |
0,052290227 |
0,24101217 |
czas |
0,603660533 |
0,05022555 |
odległość |
1,241726617 |
0,048596361 |
SKŁADNIKI RESZTOWE |
|
|
|
|
|
Obserwacja |
Przewidywane koszty |
Składniki resztowe |
1 |
8,0224312 |
-0,8624312 |
2 |
3,032346541 |
0,617653459 |
3 |
2,554233156 |
0,845766844 |
4 |
3,338218853 |
0,621781147 |
5 |
2,927263942 |
0,692736058 |
6 |
6,963936654 |
-0,443936654 |
7 |
11,03906409 |
0,110935911 |
8 |
3,559221068 |
0,470778932 |
9 |
2,773025068 |
0,246974932 |
10 |
4,772495859 |
0,077504141 |
11 |
5,238627983 |
-0,138627983 |
12 |
5,265239055 |
-0,565239055 |
13 |
5,947516188 |
-0,567516188 |
14 |
4,438094704 |
-0,218094704 |
15 |
5,244046781 |
-0,304046781 |
16 |
5,557578122 |
-0,837578122 |
17 |
12,69288773 |
0,627112271 |
18 |
10,47384737 |
-1,093847372 |
19 |
6,020615764 |
-0,360615764 |
20 |
10,60935335 |
0,060646652 |
21 |
17,28662283 |
1,053377169 |
22 |
29,13333369 |
-0,033333692 |
Model regresji stwarza możliwość modelowania oraz symulowania prawdopodobieństwa zdarzenia opisywanego przez zmienną zależną w zależności od różnych zmiennych niezależnych (w tym przypadku zmienną zależną są koszty (Ŷ), a zmiennymi niezależnymi: liczba stanowisk (X1), czas (X2) i odległość(X3)).
Model regresji dla całej populacji (123 obserwacje) przedstawia się następująco:
Ŷ = -9,196 - 0,416 X1 + 0,826 X2 + 1,324 X3
Model regresji dla próbki (22 obserwacji) kształtuje się następująco:
Ŷ = -7,662 +0,052 X1 + 0,603 X2 + 1,241 X3
Wartości wszystkich współczynników w modelu regresji dla próbki 22 obserwacji są mniejsze niż w modelu regresji dla całej populacji. Budowę funkcje regresji otrzymujemy poprzez metodę najmniejszych kwadratów (małych kwadratów) w oparciu o dane z losowej próby.
Współczynnik korelacji wielorakiej (wielokrotność R) dla próbki wyniósł 0,995 (dla całej populacji 0,968). Jest on miarą liniowej zależności między zmienną objaśnianą a liniową kombinacją zmiennych objaśniających. Przyjmuje wartość z przedziału [0,1], przy czym dla R=1 zachodzi zależność funkcyjna liniowa. W omawianym przykładzie współczynniki są bliskie 1, co oznacza, że zależność między kosztami a kombinacją zmiennych niezależnych jest zbliżona do zależności liniowej.
Miarą dopasowania modelu regresji jest współczynnik R2. Jest to liczba z przedziału [0,1]. R2=1 oznacza doskonałe dopasowanie, natomiast wartość R2=0 - brak powiązania między zmiennymi. R2 pokazuje jak dobrze dane estymowane są dopasowane do danych rzeczywistych. Jeśli R2 wynosi ponad 0,8 można uznać trend za nieźle dopasowany. Współczynnik R2 jest dla próbki większa (0,990) niż dla całej populacji (0,937). Oznacza to, iż dla próbki uzyskaliśmy funkcję, która w większym stopniu opisuje zależności między zmiennymi. Dopasowany R2 wynosi dla próbki 0,988, a dla całej populacji 0,936.
Różnice opisujące rozbieżność między wartościami zmiennej zależnej yj, a wartościami wyliczonymi z modelu ŷj to reszty. Im reszty są mniejsze, tym bliżej wartości empirycznej yi są wartości przewidywane przez model. Jako miarę omawianej rozbieżności traktuje się odchylenie standardowe reszt zi. W statystyce precyzję estymatora oddaje jego wariancja, czyli jest średnią arytmetyczną kwadratów odchyleń (różnic) poszczególnych wartości cechy od wartości oczekiwanej.
Błąd standardowy estymacji Sz informuje o przeciętnej wielkości odchyleń empirycznych wartości zmiennej zależnej od wartości wyliczonych z modelu (teoretycznych). Jest to ważny parametr w analizie regresji, ponieważ stanowi miarę rozproszenia elementów populacji wokół linii regresji. Odchylenie standardowe reszt mówi więc nam o stopniu "dopasowania" modelu do danych empirycznych. Im Sz mniejsze, tym lepiej dopasowany model. W naszym przykładzie błąd standardowy jest dla próbki obserwacji mniejszy niż dla całej populacji, gdyż wynosi 0,647 w porównaniu do 1,65 dla całości.
Model regresji obrazuje zależność, jaka kształtuje się pomiędzy kosztami wyjazdów na polowania a odległością kraju wyjazdu, czasem jego trwania oraz liczbą stanowisk.
W modelu regresji dla próbki 22 obserwacji koszty zależą od wszystkich zmiennych niezależny, tj. liczby stanowisk (X1), czasu (X2) i odległość(X3).