Model regresji liniowej służy: analizie zależności między zmienną objaśnianą Y a zmiennymi
objaśniającymi; predykcji zmiennej Y na podstawie zmiennych X. Głównym składnikiem modelu
regresji jest funkcja regresji, której postać analityczną określa się na podstawie wyników losowej
próby lub innych pozanalitycznych przesłanek. Parametry tej funkcji podlegają estymacji na
podstawie danych empirycznych pochodzących z próby losowej.
Z WYKŁADU:
przykład1
pewna funkcja
MODEL: Aktywność enzymu = enzym Y = f(dawka leku)
równanie
Przy konstrukcji trzeba oprzeć się na pewnych założeniach:
1.
Rozważamy 2 zmienne X i Y, przy czym zmienna Y musi być wyrażona liczbowo, a zmienna X
może ale nie musi
X- zmienna objaśniona/zależna
Y- zmienna objaśniająca/niezależna
2.
O zm.Y będziemy zakładać, że jest zm.losową. Jeżeli zaobserwujemy pewną wartość cechy X,
to może jej odpowiadać niekoniecznie dokładnie jedna wartość cechy Y, czyli nie dokońca
możemy dokładnie przewidzieć wartość Y. Przez zm.losową rozumiemy funkcję, której
wartości nie są do końca przewidywalne, ale możemy je określić z pewnym
prawdopodobieństwem
3.
Będziemy zakładać, że zmienne X i Y opisują pewne realne cechy populacji
4.
Będzie nam zależało na skonstruowaniu modelu opisującego zależność populacji, ale
będziemy mieć jedynie dane dla próby z tej populacji. Będziemy zakładać, że próba ma
ustaloną liczebność (n), zaś dane z próby będą mieć postać: (x
i
, y
i
), i=1,2,3...
5.
powiązania między zmiennymi będziemy badać za pomocą funkcji regresji
F.regresji daje dokładny obraz powiązań między zmiennymi X i Y w populacji. Opisuje ona jak
zmieniają się tzw. warunkowe wartości oczekiwane zmiennej Y w zależności od wartości zmiennej X.
(*) E(Y|X = x
i
) = F(x
i
) i = 1,2,3... N
E- wartość oczekiwana zmiennej Y pod warunkiem (|)
N- liczebność populacji, nawet N= +∞
Gdy nie ma N to nie znamy dokładnej postaci funkcji f we worze (*). Możemy natomiast wykreślić
tzw. empiryczną linię regresji w oparciu o warunkowe średnie wyliczone na podstawie danych z
próby.
Enzym X
Enzym Y
7
120
8
122
9
125
•
Wraz ze ↑ aktywności enz.X obserwuje sie na ogół ↑aktywności enz.Y
•
stwierdzenie " jak jedno ↑ to drugie ↓" są mało precyzyjne trzeba
stworzyć równanie wiążące zmienne ze sobą- MODEL ZALEŻNOŚCI MIĘDZY
Wykres empiryczny linii regresji podpowiada nam, jakim typem funkcji można opisać powiązanie
miedzy X i Y w populacji. W grę wchodzą najczęściej funkcje: liniowa, logarytmiczna, wykładnicza,
wielomianowa. Ta funkcja, której użyjemy do przybliżenia funkcji regresji I rodzaju, to funkcja regresji
II rodzaju.
Uwaga !! postać funkcji regresji II rodz. wybieramy głównie na podstawie kształtu empirycznej linii
regresji, ale bierzemy też pod uwagę wyniki poprzednich badań z danego wykresu, teorię z danej
dziedziny, opinie ekspertów. Staramy się wybierać do opisu powiązań najprostsze możliwe funkcje
wg zasady żeby nie komplikować nadmiernie modelu.
Etapy konstrukcji modelu regresji:
1.
Specyfikacja modelu
Formułujemy postać analityczną modelu, czyli określamy wzór matematyczny wiążący X z Y.
Najprostsze powiązanie X z Y to powiązanie za pomocą funkcji liniowej.
Ogólna postać modelu liniowego
część deterministyczna
Y = β
0
+ β
1
* X + ε (epsilon, część losowa, zakłócenie)
parametry modelu
Liniowy model regresji: w tym równaniu nieznane są parametry β
0
+ β
1
oraz wartość ε.
Model rozumiany jest następująco
y
1
= β
0
+ β
1
* X
1
+ ε
1
( dla pierwszej obserwacji)
120 = β
0
+ β
1
* 7 + ε
1
( z przykładu)
y
2
= β
0
+ β
1
* X
2
+ ε
2
itd.
y
n
= β
0
+ β
1
* X
n
+ ε
n
Specyfikacja dla przykładu 1: na podstawie wykresu rozrzutu punktów empirycznych przyjmujemy
hipotezę, że powiązanie między aktywnością enzymu Y i enz. X ma charakter liniowy. Po specyfikacji
model będzie miał postać: enzym Y = β
0
+ β
1
* enzym X + ε
2.
Estymacja parametrów modelu
Na tym etapie stosuje się odpowiednie metody statystyczne w celu uzyskania najlepszych oszacowań
dla parametrów modelu, czyli β
0
i β
1
. Na tym etapie wykorzystujemy program do obliczeń
statystycznych lub Excela.
Etap I: Y~X (Y zależy od X, Y jest funkcją X)
Etap II: β
0
=? β
1
=? (obliczenia wykonuje komputer)
tego poniżej to nie wiem
β - estymator dla β
0
(nieznanego) β = b
uzyskujemy metodą najmniejszych kwadratów(MNK)
β - estymator dla β
1
(nieznanego) β = b
Możemy wyznaczyć reszty modelu:
e = y − y
y
i
- wartości empiryczne zmiennej y
y - wartości teoretyczne zmiennej Y, wyliczone ze wzoru y = b + b
∙ x
3.
Weryfikacja modelu
Sprawdzamy, czy otrzymany model spełnia pewne wymagania, tzn. dokonujemy tzw. weryfikacji
modelu. Obejmuje ona weryfikację merytoryczną i weryfikację statystyczną.
Wykorzystujemy na tym etapie wyznaczone wartości reszt. Oczywiste jest, że model jest tym lepiej
dopasowany do danych empirycznych im reszty są mniejsze. Wykorzystujemy odchylenie
standardowe reszt(średni błąd szacunku modelu S
e
), które pozwoli nam ocenić czy reszty są "małe"
czy "duże" . Im S
e
mniejsze tym model lepszy.
Jeżeli model nie będzie spełniał wymagań na etapie weryfikacji to wracamy do specyfikacji i
próbujemy znaleźć inne powiązanie między Y i X niż pierwotnie założone np.: może należy
przekształcić zmienną X i rozważyć model postaci: Y = β
0
+ β
1
* lnX + ε. Niekiedy przed specyfikacją
nowego modelu staramy się zebrać także dodatkowe dane dla X i Y. Jeżeli model przejdzie etap
weryfikacji to przechodzimy do ostatniego etapu związanego z konstrukcją modelu czyli do
wykorzystania modelu.
Weryfikacja(
trudny, długi etap
) = my
(interpretacja
) + komputer(
pomoc w zakresie obliczeń
)
4.
Wykorzystanie modelu
Najczęściej na 2 sposoby:
•
używamy modelu do oceny czy zmienna/zestaw zmiennych objaśniających jest w sposób
statystycznie istotny powiązana ze zmienna objaśniana (opieramy sie na wynikach
przeprowadzonych testów istotności parametrów)
•
do wyznaczania przewidywanej wartości Y albo średniej wartości Y przy ustalonej wartości
zmiennej X, czy używamy modelu do prognozowania zmiennej Y
obliczenia: komputer - etap względnie łatwy