równoznaczne z jej prawdziwością. Dlatego też usunięcie nawet i nieistotnych zmiennych zmniejszy nieco dokładność równania.
Moc testu F zależy od liczebności próby, gdy więc próba jest niezbyt liczna, muszą wystąpić duże różnice, aby je uznać za istotne. Powinniśmy więc dążyć do tego, aby występujące w równaniach normalnych sumy kwadratów i iloczynów były obliczone na podstawie jak największej liczby obserwacji.
Przykład 4.
Przytoczymy teraz tabelę analizy wariancji dla danych rozpatrywanych w poprzednich przykładach. Testujemy zatem hipotezę H0: p, = P2 = P3 = 0.
Zmienność |
Liczba stopni swobody |
Suma kwadratów |
Średni kwadrat |
F |
Regresja |
3 |
3062,37 |
1020,79 |
9,189 |
Odchylenie od regr. |
12 |
1333.11 |
111,092 | |
Całkowita |
15 |
4395.48 |
Wyliczona wartość F = 9,189 jest większa od wartości krytycznej wynoszącej Fo,o5:3; 12 = 3.490. zatem odrzucamy postawioną hipotezę zerową. Uzyskany wynik pokrywa się oczywiście z wynikiem otrzymanym w przykładzie 2.
Przystępując do budowy modelu regresji wielokrotnej kierujemy się zazwyczaj dwoma sprzecznymi kryteriami:
ł. Aby uzyskać równanie przydatne do celów predykcji dążymy do wprowadzenia do modelu tak wielu zmiennych niezależnych, jak to jest możliwe, gdyż im więcej jest w modelu uwzględnionych zmiennych niezależnych, tym lepiej, pełniej wyjaśniona będzie zmienna zależna.
2. Ze względu na koszty związane z uzyskaniem informacji o dużej liczbie zmiennych i czas zużyty na kolejne ich uwzględnianie w modelu chcielibyśmy, aby równanie zawierało jak najmniej zmiennych niezależnych.
Oba kryteria uwzględniane łącznic prowadzą do określenia optymalnego zestawu zmiennych niezależnych, do uzyskania optymalnego równania regresji wielokrotnej.
268