1. Funkcją regresji - nazywamy funkcje określoną wzorem:
E(X/Y = yj) = m1 (y) lub
E(Y/X = xi) = m2 (x)
Nazywamy funkcją regresji 1 rodzaju zmiennej losowej Y względem zmiennej losowej X.
Funkcję m1 (x1, x2, …, xn), której wartościami są warunkowe wartości oczekiwanej zmiennej losowej Y nazywamy funkcją regresji wielorakiej, rodzaju zmiennej losowej Y względem zmiennych losowych x1, x2, …, xn.
Prostą regresji 2 rodzaju zmiennych losowych Y względem X nazywamy y = ayx +By spełniającą warunek.
2. Klasyczny model regresji liniowej.
W przypadku dwuwymiarowym o modelu ………mówimy wtedy, gdy dla każdej ustalonej wartości jednej zmiennej, powiemy X, druga zmienna losowa, czyli Y (…… warunkowy rozkładu z wartością oczekiwaną).
E(X/Y = x) = ax - β,
oraz wariancją:
D2(Y/X = x) = G2.
Zapis pierwszy oznacza, że oczekiwane warunkowych rozkładów zmiennej losowej Y są liniową funkcją ustalonych warunkowo zmiennej losowej X, czyli inaczej, że funkcja regresji 1 rodzaju Y względem X jest liniowa.
Zapis drugi oznacza, że wariancja zmiennej losowej Y w jej warunkowych rozkładach jest stała (nie zależy od wartości x).
W przedstawionym wyżej modelu zmienna losowa Y pełni rolę zmiennej zależnej, natomiast X jest zmienną niezależną.
Parametr a prostej regresji 1 rodzaju jest określony jako współczynnik regresji liniowej.
Zapis pierwszy wyraźnie sugeruje interpretację dla α, jest to wielkość o jaką zmienia się …………wartość oczekiwana zmiennej zależnej Y gdy X wzrasta o jednostkę.
3. Metoda najmniejszych kwadratów.
Jeśli na podstawie próby (x1, x2, …, xn), szacuje się wartości średnią m w populacji to można zapisać:
X = mi + E, i=1,…, n., gdzie Ei jest odchyleniem zmiennej ……, od m.
Należy oczekiwać, że te odchylenia są małe gdyż ……………pewnych informacji o m (stąd jako estymatora średniej m można użyć takiej wielkości m, która minimalizuje sumę).
(suma na górze n, na dole i=1) ……………… względem m: łatwo można wykazać, że wartość (m ze znaczkiem na górze), która minimalizuje sumę.
Średnia arytmetyczna z próby x=1/n(suma)x.
4. Układ równań normalnych.
Tzw. klasyczny model normalnej regresji liniowej …… przyjmuje się poza założeniami wymienionymi w pkt.2 czyli klasycznego modelu regresji liniowej, że warunkowe rozkłady Y dla X=x ma rozkład
N(ax+β; δ).
Temu warunkowi jest równoważne bez założenia o rozkładzie normalnym tj. że normalne są warunkowe rozkłady zmiennej losowej Y.
5.Model liniowy jest nadmiarowy.
Tzn że model jest nieidentyfikowalny - dzieje się tak wtedy gdy macierz X nie jest pełnego rzędu: układ równań normalnych ma nieskończenie wiele rozwiązań. (chyba)
6. Regresja prosta - funkcji regresji zależna tylko od jednego argumentu tzn. p = 1.
Funkcja regresji:
E(Y/X = x) = β0 + β1x
(Y1, X1)…(Yn, Xn) obserwacjami losowymi.
Model:
Yi = β0 + β1 xi + Ei, i=1,…,n.
Ei są zmiennymi losowymi o tym samym rozkładzie normalnym N(0, δ2).
7. Regresja wielokrotna - jest to zależność jednej zmiennej zależnej od więcej niż jednej zmiennej niezależnej.
8. Współczynnik determinacji - jest to kwadrat wsp. Korelacji (p2).
Yi = β0 + β1 xi + Ei, i=1,…,n.
Oraz
Yi = β0 + β1, xi, i=1,…n.
Dla par wyznaczamy (Yi, Yi)
Współczynnik determinacji zmiennej Y przez X.
jest to liczba z przedziału (0%, 100%) i dopasowanie funkcji regresji jest tym lepsze im ten współczynnik jest wyższy.
Rozkład zmienności cechy Y.
współczynnik determinacji - proces zmienności cechy Y wyjaśniony przez funkcję regresji.
Jeżeli funkcja regresji jest funkcją liniową, to:
10. Co mierzy współczynnik korelacji wielorakiej (wielokrotnej)
współczynnik korelacji wielorakiej przyjmuje wartość z przedziału <0,1> (kowariancja zmiennych Y i Y jest zawsze dodatnia).
Współczynnik ten informuje o sile związku pomiędzy zmienną Y a całym zespołem zmiennych (x1, x2, …, xn).
11. Co mierzy współczynnik korelacji wielorakiej (wielokrotnej) - współczynnik korelacji pomiędzy zmiennymi
(y-y z dachami )α(x1-x2 z dachem) jest wsp. korelacji cząstkowej zmiennych yi x1 względem zmiennych x2, x3, ..., xn i oznaczony przez py x1 - x2 x3,...xn.
py x1 - x2 x3,...xn =
Współczynnik korelacji cząstkowej jest miarą skorelowania zmiennych yi x1 po wyeliminowaniu wpływu (na obie te zmienne) zmiennych (x2, x3, …, xn).
12. Hipoteza o adekwatności opisu zależności liniową funkcją regresji.
W każdym z punktów pomiarowych Xi wykonano po ni obserwacji zmiennej Y.
Yij =β0+β1+Eij j-1...ni,i-1,...k
Niech rzeczywistą f. regresji będzie f(x)
HIPOTEZA O ADEKWATNOŚCI OPISU ZALEŻN.
H0: (∇β,β1∈R)(∇x)f(x)= β0+β1x
Ogólna liczba obserwacji:
Średnia wartość obserwacji w punkcie xi
Niech
yi=β0+β1x1
Statystyka testu adekwatności:
Hipotezę odrzucamy jeżeli F>Fαk-1, n-k
Jeżeli ni=1 dla wszystkich i to przeprowadzenie testu adekwatności jest niemożliwe.
13. Reszty w modelu regresji.
Różnice pomiędzy wartościami empirycznymi a teoretycznymi nazywane są resztami i oznaczone symbolem ei=yi-yi z dachem
yi z dachem - wartość teoretyczna zmiennej y odpowiadającej i tej obserwacji.
14. 15. Elementy analizy resztowej.
Model:
Yi=β0+β1xi+Ei i=1,...,n
Ei...En - zmienne x- zmienne losoweo rozkładzie normalnym N(0,δ2)
Niech yi=β0^+β1^x1
Analiza resztowa polega na zbadaniu czy reszty są empiryczne: ei=yi-yi^. Mogą być traktowane jako próba losowa z rozkładu normalnego. Im współczynnik reszt jest mniejszy tym współczynnik determinacji jest większy.
16. Wykres reszt z trendem kwadratowym
17. Wykres reszt - trendliniowy.
18. Wykres reszt - niestabilność wariancji obserwowanej cechy.
19. Dwa testy na badanie normalności.
a) Test Shapiro - Wilka
b) Test Kołomogorowa.
21.Metoda wszystkich regresji doboru zmiennych
Liczba wszystkich możliwych funkcji regresji jest 2p.
Optymalny podzbiór o największym poprawionym współczynniku determinacji. (niepełne)
22.Regresja krokowa w tył doboru zmiennych
Generalnie polega na usuwaniu zmiennych z równania regresji. Kolejno wykonywane są następujące czynności:
Konstrukcja zmiennych dla wszystkich p zmiennych
dla każdego i=1, …,p wyznaczamy wartść statystyki Fi testu hipotezy H: βi=0. Niech Fl=min{F1,…,Fp). Niech Fout będzie wartością krytyczną. Jeżeli Fl < Fout to zmienną o numerze l uzuwamuy z modelu i powtarzamy krok 1 dla p-1 zmiennych. Jeżeli zaś Fl > Fout to kończymy postępowanie
23.Regresja krokowa w przód doboru zmiennych
Generalnie polega na dodawaniu zmiennych do równania regresji:
W modelu nie ma ani jednej zmiennej niezależnej.
Wyznaczane są modele z jedną zmienną niezależną. βo+βi xi i=1,…,p. Dla każdego modelu wyznaczamy wartość statystyki Fi testu hipotezy H: βi=0. Niech Fl=max {F1,…,Fp} Niech Fin będzie wartością krytyczną. Jeżeli Fl > Fin to zmienna o numerze l włączamy do modelu. W przeciwnym wypadku stwierdzamy że zmienna Y nie jest zależna od żadnej ze zmiennych i kończymy postępowanie.
W pierwszym kroku postawić model Y =βo+βi xi. Budujemy p-1 modeli z dwoma zmiennymi niezależnymi.
Postępowanie kończymy, gdy już nie można dodać żadnej z pozostałych zmiennych do zbudowanego modelu.
24. Obszar ufności - dla prostej regresji - służy do oceny średniej wartości cechy Y dla ustalonego X.
25.Jakie wnioski wprowadzamy na podstawie obszaru ufności dla funkcji regresji. Na podstawie ufności możemy wnioskować o wartościach cechy Y jednocześnie dla wielu wybranych wartości cechy X.
27. Na podstawie obszaru predykcji możemy wnioskować o wartościach cechy Y jednocześnie dla wielu wybranych wartości X.
30. Sformułować hipotezę weryfikowaną w jednoczynnikowej analizie wariancji.
H: czynnik (dany) nie różnicuje cechy badanej (lub czynnik nie wpływa na cechę)
31. Techniki porównań szczegółowych - to techniki, które są uzupełnieniem analizy wariancji i uzupełnieniem cechy. Po stwierdzeniu, że cechy nie są równe techniki te mają nam powiedzieć jak działa średnia na grupy jednorodne.
32.Sformułować hipotezy weryfikowane w dwuczynnikowej analizie wariancji.
braku wpływu czynnika A:
Ho: α1=…αa=0
braku wpływu czynnika B:
Ho: β1=…βb=0
braku współdziałania czynników:
33. W dwuczynnikowej analizie wariancji hipotezę o braku współdziałania czynników A I B odrzucono. Zinterpretować.
Dwuczynnikowa analiza wariancji - dotyczy np.
a) plenności pewnej rośliny
b) wydajności pracowników dla zakładów w kolejnych dniach, tygodniach.
Nie ma współdziałania, bo średnio rzuca biorąc następujące wzrost i spadek. Czynniki podobnie zachowują się w różnych warunkach.
Weryfikacja hipotezy:
1. o braku wpływu czynnika A
Ho : α1 = …α2 = 0.
2. o braku wpływu czynnika B.
3. o braku współdziałania
36. Dyskretny plan eksperymentu - zakłada skończoną liczbę punktów X, który zakłada pomiar oraz taką samą liczbę powtórzeń - to skończona ilość punktów pomiarowych, ale ilość powtórzeń nie musi być taka sama.
36. Plan dyskretny eksperymentu.
Plan dyskretny zakłada skończoną liczbę punktów X, który zakłada pomiar oraz taką samą ilość powtórzeń ale każdego X
37. Ciągły plan eksperymentu.
Zakłada skończoną ilość punktów pomiarowych ale ilość powtórzeń nie musi być taka sama.
38.Plan Eksperymentu
Plan - rozkład praw, nieskończenie wiele punktów pomiarowych z nieskończenie dużą ilością powtórzeń.
W jakich obserwujemy Y
po ile obserwacji zawiera każdy taki punkt
39. Regresja wielomianowa.
ψi = βo + βo + βi xi +…+ βk xi + εi, i=1,…,n