KLASYCZNY MODEL REGRESJI LINIOWEJ
A SFORMUŁOWANIE MODELU
Wartości oczekiwane warunkowych rozkładów zmiennej losowej Y są liniową funkcją ustalonych wartości zmiennej losowej X:
przy czym wariancja zmiennej losowej Y w jej warunkowych rozkładach jest stała (niezależna od x):
Klasyczny model normalnej regresji liniowej
Warunkowe rozkłady zmiennej losowej Y są normalne:
Y dla X=x ma rozkład
B SFORMUŁOWANIE MODELUZałożenie
Ciąg par
jest n-elementową próbą losową z populacji dwuwymiarowej, stanowiącą podstawę estymacji parametrów zależności zmiennej Y od z góry ustalonych wartości zmiennej X.
Postać klasycznego modelu regresji liniowej
gdzie:1.
2.
3.
dla
Klasyczny model normalnej regresji liniowej
4.
WNIOSKI Z ZAŁOŻEŃ DOTYCZĄCYCH ROZKŁADU ZMIENNYCH LOSOWYCH
a)
-
funkcja regresji Y względem X jest liniowa
- wartości zmiennej
X są niezależne
Dowód:
b)
wariancje w warunkowych rozkładach zmiennej Y są takie same
Dowód:
c)-
dla
składniki losowe są nieskorelowane
d)
warunkowe rozkłady zmiennej losowej Y są normalne
B ESTYMACJA PARAMETRÓW KLASYCZNEGO MODELU REGRESJI LINIOWEJ
B 1 ESTYMACJA PARAMETRÓW STRUKTURALNYCH MODELU:
i
z populacji dwuwymiarowej
pobieramy n-elementową próbę losową
wynikom próby (zbiorowi par wartości
), przyporządkowujemy zbiór n-punktów na płaszczyźnie o współrzędnych równym obserwowanym wartościom obu cech,
do danych z próby (do zbioru n-punktów na płaszczyźnie) tak dobieramy równanie linii prostej, aby jej wykres możliwie dobrze "pasował" do punktów reprezentujących na wykresie poszczególne obserwacje z próby:
różniczkujemy wyrażenie S względem i , otrzymując:
przyrównujemy pochodne do zera, zastępując jednocześnie przez
i przez
, otrzymując układ równań:
przekształcamy układ równań uzyskując tzw. układ równań normalnych:
rozwiązujemy układ równań względem
i
otrzymując:
,
B 2 ESTYMACJA PARAMETRÓW STOCHASTYCZNYCH MODELU:
i
1. Estymacja wariancji składników losowych
wariancja reszt:
odchylenie standardowe reszt:
2. Estymacja standardowych błędów oceny parametrów i
estymator standardowego błędu oceny parametru :
estymator standardowego błędu oceny parametru :
LINIOWA FUNKCJA REGRESJI WYZNACZANA
Z PRÓBY LOSOWEJ
Postać liniowej funkcji regresji wyznaczanej z próby losowej:
Reszty modelu regresji:
WŁASNOŚCI LINIOWEJ FUNKCJI REGRESJI
WYZNACZONEJ ZA POMOCĄ MNK
suma wartości teoretycznych zmiennej zależnej jest równa sumie empirycznych wartości tej zmiennej
suma reszt równa jest zeru
wykres funkcji regresji z próby przechodzi zawsze przez punkt 0 współrzędnych
DOKŁADNOŚĆ DOPASOWANIA PROSTEJ MNK
Równość wariancyjna
Współczynnik determinacji
Współczynnik indeterminacji
WNIOSKOWANIE W KLASYCZNYM MODELU NORMALNEJ REGRESJI LINIOWEJ
stawiamy hipotezę, że współczynnik regresji
przyjmuje określoną wartość liczbową
:
stawiamy hipotezę alternatywną:
jeżeli
jest prawdziwa, to statystyka:
ma rozkład t-Studenta z n-2 stopniami swobody,
przy danym z góry poziomie istotności
obszar krytyczny tej statystyki określony jest wzorem:
jeżeli wartość statystyki t oszacowana na podstawie próby losowej:
- należy do obszaru krytycznego
to
odrzucamy na korzyść
,
- nie należy do obszaru krytycznego
to stwierdzamy, że nie ma podstaw do odrzucenia
.
ESTYMACJA NA PODSTAWIE KLASYCZNEGO MODELU REGRESJI LINIOWEJ
dokonujemy estymacji, opierając się na klasycznym modelu regresji liniowej, warunkowej wartości oczekiwanej zmiennej losowej Y przy warunku, że X=x, tzn. estymacji
:
najlepszym nieobciążonym estymatorem liniowym warunkowej wartości oczekiwanej
jest zmienna losowa
o postaci:
,
wariancja estymatora
wyraża się wzorem:
estymatorem wariancji
jest
określona wzorem:
PREDYKCJA NA PODSTAWIE KLASYCZNEGO MODELU REGRESJI LINIOWEJ
dokonujemy estymacji, opierając się na klasycznym modelu regresji liniowej, pojedynczej wartości zmiennej losowej Y przy ustalonej wartości
:
,
najlepszym nieobciążonym estymatorem pojedynczej wartości zmiennej losowej
jest statystyka o postaci:
błąd predykcji pojedynczej realizacji zmiennej losowej
jest sumą dwóch nieskorelowanych błędów:
- błędu estymacji warunkowej wartości oczekiwanej zmiennej losowej Y,
- odchyleń pojedynczych realizacji zmiennej w rozkładzie warunkowym od średniej tego rozkładu,
wariancja błędu predykcji wyraża się wzorem:
estymator średniego błędu predykcji określamy jako:
STATYSTYCZNA WERYFIKACJA MODELU NORMALNEJ REGRESJI LINIOWEJ
stawiamy hipotezę, że regresja badanych zmiennych Y i X jest liniowa:
stawiamy hipotezę alternatywną:
na podstawie n-elementowej próby szacujemy MNK parametry
i
liniowego modelu regresji,
wyznaczamy na podstawie wyników próby ciąg wartości teoretycznych:
i=1,2,...,n
oraz ciąg wartości reszt:
porządkujemy zaobserwowane w próbie oraz odpowiadające im teoretyczne wartości zmiennej Y według rosnących wartości xi zmiennej niezależnej X,
oznaczamy reszty dodatnie
przez a, natomiast reszty ujemne
przez b otrzymując ciąg elementów a i b.
Definicja:
Serią nazywamy każdy podciąg złożony z elementów jednego typu.
jeżeli H0 jest prawdziwa to statystyka k będąca liczbą serii, która jest definiowana jako:
,
gdzie:
- liczba serii składających się odpowiednio z elementów a i elementów b,
ma rozkład serii zależny od liczebności elementów typu
i typu
występujących w ciągu
przy danym z góry poziomie istotności obszar krytyczny tej statystyki określony jest wzorem:
jeżeli wartość statystyki k oszacowana na podstawie próby losowej:
- należy do obszaru krytycznego
to odrzucamy H0 na korzyść H1,
- nie należy do obszaru krytycznego
to stwierdzamy, że
nie ma podstaw do odrzucenia H0.
KLASYCZNY MODEL REGRESJI LINIOWEJZ WIELOMA ZMIENNYMI NIEZALEŻNYMI
Założenia:
rozważamy zmienną losową (k + 1) - wymiarową
(Y, X1,X2,...,Xk)
dla opisu zależności zmiennej Y i zmiennych X1,X2,...,Xk właściwy jest klasyczny model regresji liniowej, jeżeli dla każdego układu wartości x1,x2,...,xk warunkowe rozkłady zmiennej Y mają średnie:
oraz wariancje
warunkowe rozkłady zmiennej Y mają rozkład normalny
obserwacje na zmiennej losowej Y dokonywane są przy ustalonych z góry wartościach zmiennych niezależnych
Sformułowanie modelu
,
,
,
, dla
ZMIENNE JAKOŚCIOWE W MODELU REGRESJI
Założenia do modelu przy wykorzystaniu zmiennych zero-jedynkowych:
zmienna Y zależy tylko od dwóch czynników: mierzalnej zmiennej X1 oraz zmiennej jakościowej o możliwych wariantach A, B i C
wariantom A, B, C cechy jakościowej przyporządkowujemy zmienne zero-jedynkowe X2, X3, X4 definiowane następująco:
1, jeśli obserwacja reprezentuje wariant A
0, w pozostałych przypadkach,
1, jeśli obserwacja reprezentuje wariant B
0, w pozostałych przypadkach,
1, jeśli obserwacja reprezentuje wariant C
0, w pozostałych przypadkach.
Postać modelu:
,
gdzie parametr
oznacza wyraz wolny, czyli
.
Uwarunkowania:
pomiędzy zmiennymi niezależnymi modelu zachodzi zależność liniowa postaci X2+X3+X4=X5
eliminujemy z modelu dowolną zmienną zero-jedynkową, zastępując ją przez kombinację liniową pozostałych zmiennych
parametry dla reprezentowanych w modelu wariantów zmiennej jakościowej mierzą wpływ tych wariantów odniesiony do wpływu wariantu pominiętego
wyraz wolny jest powiększony o wartość mierzącą wpływ pominiętego wariantu cechy jakościowej
SKORYGOWANY WSPÓŁCZYNNIK DETERMINACJI