PLANOWANIE I ANALIZA DOŚWIADCZEŃ WIELOCZYNNIKOWYCH
Dotychczas zajmowaliśmy się dwoma modelami jednoczynnikowej analizy wariancji.
yij = m +ai + eij (1)
yij = m + ai + rj + eij (2)
W modelu (2) dodatkowo z błędu losowego wydzielona została zmienność powtórzeń
(replikacji) w celu poprawy wskaźnika precyzji eksperymentu.
W zastosowaniach praktycznych najczęściej badamy wpływ więcej niż jednego
czynnika na analizowaną cechę. Modele tego typu będziemy nazywać
wieloczynnikowymi analizami wariancji, a sama postać modelu zależy od sposoby
zaprojektowania konkretnego eksperymentu badawczego.
Rozważamy sytuację, gdy badamy wpływ czynnika A i czynnika B.
Model dwuczynnikowej analizy wariancji.
yi/k = m + ai +bj + abij + eijk (3)
lub
yi/k = mi + bj + abij + rk + eijk (4)
Poszczególne symbole użyte w obu modelach oznaczają odpowiednio:
yij
wartość badanej cechy dla i-tego poziomu czynnika A, j-tego poziomu
czynnika B
m
średnia ogólna (generalna)
ai
efekt i-tego poziomu czynnika A
bj
efekt j-tego poziomu czynnika B
abij
efekt interakcji (współdziałania) i-tego poziomu czynnika A z j-tym
poziomem czynnika B
rk
efekt k-tej replikacji (powtórzenia)
aij
błąd losowy
Poza tym pojęciem rozumiemy wpływ poziomów jednego czynnika w poziomy drugiego
z nich. Rozpatrzmy następny przykład interakcji dwóch czynników na wartości
pewnej cechy
INTERAKCJA
A1
A2
B1
30
40
B2
35
45
A1
A2
B1
30
40
B2
35
55
Błąd! Nieprawidłowe łącze.Błąd! Nieprawidłowe łącze.
W przypadku braku interakcji widzimy, że zmiana podziałów czynnika A z A1 na A2
przy obu poziomach czynnika B powoduje taki sam przyrost wartości badanej
cechy.
W sytuacji istotnej interakcji zmiana poziomów czynnika A z A1 na A2 powoduje
niejednakową reakcję badanej cechy. W naszym przypadku mamy dodatkowy przyrost
badanej cechy o 10 jednostek.
Przedstawiony w modelach (3) i (4) schemat analizy dwuczynnikowej jest jednym z
najprostszych przykładów eksperymentu z krzyżową klasyfikacją czynników w
eksperymencie tego typu każdy poziom czynnika A występuje w każdym poziomie
czynnika B. Możliwe jest takie zaplanowanie eksperymentu, gdzie poziomy jednego
czynnika występują tylko z niektórymi poziomami drugiego czynnika. W takiej
sytuacji mówimy o klasyfikacji hierarchicznej.
Model (3) dwuczynnikowej analizy wariancji odpowiada tzw.: układowi całkowicie
losowemu. Oznacza to, że na replikację nałożony jest tylko jeden warunek: muszą
być próbą losową.
Model (4) dwuczynnikowej analizy wariancji odpowiada tzw.: układowi bloków
losowych. W układzie tym eksperyment jest specjalnie projektowany w taki
sposób, aby uchwycić zmienność powtórzeń.
UKŁADY ZALEŻNE
Modele (3) i (4) dwuczynnikowej analizy wariancji reprezentują jednocześnie
klasę tzw.: układów zależnych. W układach tego typu na etapie planowania
eksperymentu rozmieszczane są w powtórzeniach kombinacje obu czynników w
konsekwencji oba badane czynniki oceniane są jednakowo dokładnie. Możliwe są
także takie układy gdzie czynniki kontrolowania rozmieszczone są w
powtórzeniach stopniowo. Najpierw rozmieszczamy poziomy czynnika A, a w
kolejnym kroku i tym poziomie czynnika A rozmieszczamy poziomy czynnika B itd.
Układy tego typu noszą nazwę: układów zależnych. Odpowiadają im modele
liniowych analiz wariancji.
yijk = m + ai + eik(1) + bj + abij + eijk(2) (5)
oraz
yijk = m + ai + rk + eik(1) + bj + abij + eijk(2) (6)
ZAŁOŻENIA W ANALIZIE WARIANCJI, HIPOTEZY ZEROWE I ICH WERYFIKACJE
Podobnie jak w przypadku jednoczynnikowej analizy wariancji będziemy zakładać,
że analizowana cecha pochodzi z populacji o rozkładzie normalnym
o różnych średnich, ale o tej samej wariancji. Do sprawdzenia tego założenia
można wykorzystać znane nam już testy (Chi Kwadrat, W Shapiro-Wilka,
Bartletta).
Modele (3), (4), (5) i (6) dwuczynnikowej analizy wariancji pozwalają na
zweryfikowanie następujących hipotez zerowych:
(7)
(8)
(9)
Hipotezy (7) i (8) dotyczą tzw.: efektów głównych czynników badanych hipotez a
hipoteza (9) dotyczy efektu interakcji obu czynników.
Do weryfikacji hipotezy (7), (8) i (9) wykorzystano statystykę F
Fishera-Snedecora. Mamy odpowiednio:
Model (3) i (4)
Model (5) i (6)
Weryfikacja hipotez (7), (8) i (9) dostarcza informacji ogólnej o tym, czy dany
czynnik lub interakcja czynników wpływa istotnie na nie.
W przypadku którejś z hipotez potrzebne jest szczegółowe porównanie średnich
wykonania analogicznie jak w przypadku analizy jednoczynnikowej. Dla modelu (3)
i (4) błędy różnicy średnich dla porównań poziomów czynnika A i B oraz
interakcji AB znajdziemy ze wzorów:
- czynnika A
- czynnika B
- interakcji
REGRESJA WIELOKROTNA
Dotychczas zajmowaliśmy się taką sytuacją, gdzie w populacji generalnej
rozpatrywaliśmy tylko zmienne Y i X.
Znacznie częściej będziemy mieć do czynienia z sytuacjami, gdzie w populacji
generalnej rozpatrywać będziemy k +1 zmiennych: zmienną losową Y oraz k
zmiennych X (stałych lub losowych).
Zmiennej losowej Y sformułowanej założeniem, że jest to zmienna normalna:
Załóżmy dalej, że wartość oczekiwana zmiennej losowej Y jest funkcja losową
zmiennych:
Zapis wariancji sformułowany w założeniu oznacza podobnie jak w przypadku
regresji jednej zmiennej stałość rozrzutu wartości cechy Y dla danej kombinacji
wartości zmiennych X. Parametry powyższego modelu liniowego nie są zmienne i
muszą być oznaczone na podstawie n - elementowej próby losowej. Współczynniki
modelu będziemy nazywać cząstkowymi współczynnikami regresji.
REGRESJA WIELOKROTNA I ESTYMACJA MODELU
Oznaczamy elementy próby losowej jako . Zgodnie z modelem, dla j
tej
obserwacji Y mamy:
Kryterium estymacji sformułujemy analogicznie jak poprzednio: chcemy tak dobrać
parametry modelu aby suma kwadratów odchyleń od modelu była jak najmniejsza
Minimalizacja funkcji S wymaga rozwiązania k +1 układów równań. Można częściowo
uprościć obliczenia zapisując model funkcji regresji w postaci:
gdzie
Kryterium estymacji ma teraz postać:
Minimalizacja funkcji S wymaga teraz rozwiązania układu równań normalnych,
które otrzymamy obliczając pochodne cząstkowe funkcji S względem poszczególnych
bj i przyrównując je do zera. Otrzymany układ równań normalnych można zapisać
macierzowo w postaci:
Macierz V jest macierzą kwadratową współ. Przy niewiadomych, większe jest
wektorem ocen cząstkowych współ. Regresji a wektor C jest wektorem wyrazów
wolnych.
UKŁAD RÓWNAŃ NORMALNYCH
Elementami macierzy V są odpowiednio:
Wektor kolumnowy ocen cząstkowych współ. regresji ma postać:
a wektor kolumnowy wyrazów wolnych ma postać:
(UWAGA: indeks "T" w powyższych wzorach oznacza transpozycję wektorową).
Dla dwóch zmiennych niezależnych układ równań normalnych można zapisać w
postaci:
Przykład układu równań normalnych.
W zapisie macierzowym ten sam układ równań ma postać:
Macierz V jest macierzą kwadratową i nie osobliwą (jej wyznacznik jest różny od
zera), tym samym istnieje macierz odwrotna do macierzy V. Dla macierzy
odwrotnej do danej macierzy spełniony jest warunek:
Macierz I jest macierzą identyczności, spełnia ona rolę modułu mnożenia w
działaniach na macierzach.
ROZWIĄZANIE UKŁADU RÓWNAŃ NORMALNYCH
Aby rozwiązać równanie macierzowe:
musimy pomnożyć (lewostronnie) obie strony powyższego równania przez macierz
odwrotną do macierzy V.
Tak więc oceny mierzonych cząstkowych współ. regresji są równe:
a oceny wyrazu wolnego znajdziemy w zależności:
BADANIE ISTOTNOŚCI REGRESJI
Hipotezę o istotności regresji wielokrotnej możemy zapisać jako:
a do jej weryfikacji wykorzystać test F Fishera-Snedecora.
Tabela analizy wariancji ma postać:
WIELKOŚĆ:
SS
MS
REGRESJI
k
ODCHYLEŃ
n-k-1
CAŁKOWITA
n-1
Hipotezę będziemy odrzucać wtedy, gdy:
Odrzucenie hipotezy H0 jest równoznaczne z tym, że co najmniej jeden
współczynnik regresji jest różny od zera.
Tym samym istnieje związek funkcyjny umowy między zmienną zależną Y i zmiennymi
niezależnymi X.
Problemem statystycznym będzie dalej ustalenie, które zmienne niezależne
powinny powstać w modelu regresji.
WERYFIKACJA HIPOTEZ O ISTOTNOŚCI CZĄSTKOWEJ WSPÓŁCZYNNIKÓW REGRESJI
Teoretycznie problem sprowadza się do zweryfikowania serii k hipotez zerowych
mówiących o tym, że i
ty cząstkowy współczynnik regresji jest równy zero.
Hipotezy te mogą być weryfikowane testem t
Studenta, a funkcja testowa ma
postać:
wyrażenie:
jest oszacowaniem średniego kwadraty odchyleń od regresji (element w analizie
wariancji), a element jest elementem diagonalnym macierzy .
WERYFIKACJA HIPOTEZY WNIOSKOWANIE
Przy prawdziwości hipotezy H0 tak określone statystyki maja rozkład t
Studenta z liczbą swobody . Hipotezę będziemy więc odrzucać wtedy, jeśli
wartość empiryczna statystyki znajdzie się w odpowiednim obszarze krytycznym.
Tym samym zmienna, przy której stoi weryfikowany cząstkowy współczynnik
regresji powinna pozostać w modelu.
I tu pojawia się pewien trudny problem. Jeżeli zmienne niezależne są ze sobą
powiązane (macierz V nie jest macierzą diagonalną) , to oceny istotności
cząstkowych współczynników regresji nie są
PROBLEM DOBORU ZMIENNYCH
W przypadku istnienia silnych zależności między zmiennymi niezależnymi w
aspekcie doboru zmiennych istotnych zmusza nas do wypracowania innego sposobu
określającego zestawienia zmiennych niezależnych.
Można sformułować takie podejście: zaczynamy od pełnego zestawu potencjalnych
zmiennych niezależnych, a następnie kolejno usuwamy z modelu tą zmienną
niezależną, której rola w opisywaniu zależności między zmienną Y a zmiennymi
niezależnymi jest najmniejsza. Podejście takie nosi nazwę regresji krokowej,
ale przed jej omówieniem wprowadzimy jeszcze miernik dobroci dopasowania
modelu.
OCENA STOPNIA DOPASOWANIA MODELU
Miarą stopnia dopasowania modelu może być współczynnik korelacji wielokrotnej R
lub jego kwadrat (współczynnik determinacji D).
Można również zdefiniować tzw. współczynnik zbieżności:
mówiąc o tym, jaką część zmienności całkowitej zmiennej Y nie zostało
wyjaśnione w modelu regresji.
Dobierając model funkcji regresji powinniśmy dążyć do wyznaczenia jak
największego współczynnika determinacji (korelacji), ale przy możliwie małym
średnim kwadracie odchyleń od regresji:
REGRESJA KROKOWA
W świetle poprzednich rozważań można sformułować następujący tok postępowania:
zaczynamy od pełnego (potencjalnie) zestawu zmiennych niezależnych. Estymujemy
model regresji i wyznaczamy oraz ;
wyznaczamy wektor wartości empirycznych statystyk t dla hipotez ;
usuwamy z modelu tą zmienną niezależną, dla której uzupełnialiśmy najmniejszą
wartość empiryczną statystyki t (co do wielkości bezwzględnej) i ponownie
estymujemy model.
Postępowanie takie kontynuujemy tak długo dopóki w modelu nie pozostaną tylko
zmienne istotne.
Generalnie nasze postępowanie ma doprowadzić do maksymalizacji wartości
współczynników determinacji, przy jednoczesnej minimalizacji średniego kwadratu
błędu.
Miarą relatywnego wpływu zmiennej objaśnionej , na kształtowanie się zmiennej
objaśnionej Y może być współczynnik "ważności" zdefiniowany następująco:
Większe wartości tego wskaźnika do modułu wskazują na większe znaczenie danej
zmiennej
Ocenę błędu stałej regresji znajdziemy ze wzoru:
gdzie:
Wartość jest wektorem kolejnych średnich zmiennych objaśniających a n jest
licznością próby losowej.
REGRESJA LINIOWA
Dotychczas zajmowaliśmy się konstruowaniem jedno-równaniowych modelów
regresyjnych, przy założeniu, że związki między zmienną objaśnioną a zmienną
objaśniającą mają charakter liniowy.
Problem estymacji tego modelu staje się prosty, jeżeli dokonamy formalnego
podstawienia
w wyniku, którego sprowadzamy model krzywoliniowy do modelu linowego postaci:
Rozważmy jeszcze jeden przykład modelu nieliniowego z dwoma zmiennymi
niezależnymi:
Poprzez formalne podstawienie modelu, model ten daje się sprowadzić do
standardowego modelu liniowego:
Postępowanie , które pozwala na sprowadzenie modelu krzywoliniowego do
standardowego modelu liniowego nosi nazwę linearyzacji modelu regresji.
Wyszukiwarka
Podobne podstrony:
ekonomietria programowanie liniowe (10 stron)model ekonometryczny 5 energia elektryczna (10 stron)zarządzanie zapasami (10 stron)analiza swot (10 stron)zarzadzanie strategiczne (10 stron)zarzadzanie strategiczne (10 stron)10 mitow pozycjonowania stron internetowych Arkadiusz Podlaski10 mitow pozycjonowania stron internetowych10 mitów pozycjonowania stron internetowychwięcej podobnych podstron