1. Funkcją regresji - nazywamy funkcje określoną wzorem:
E(X/Y = yj) = m1 (y) lub
E(Y/X = xi) = m2 (x)
Nazywamy funkcją regresji 1 rodzaju zmiennej losowej Y względem zmiennej losowej X.
Funkcję m1 (x1, x2, …, xn), której wartościami są warunkowe wartości oczekiwanej zmiennej losowej Y nazywamy funkcją regresji wielorakiej, rodzaju zmiennej losowej Y względem zmiennych losowych x1, x2, …, xn.
Prostą regresji 2 rodzaju zmiennych losowych Y względem X nazywamy y = ayx +By spełniającą warunek.
2. Klasyczny model regresji liniowej.
W przypadku dwuwymiarowym o modelu ………mówimy wtedy, gdy dla każdej ustalonej wartości jednej zmiennej, powiemy X, druga zmienna losowa, czyli Y (…… warunkowy rozkładu z wartością oczekiwaną).
E(X/Y = x) = ax - β,
oraz wariancją:
D2(Y/X = x) = G2.
Zapis pierwszy oznacza, że oczekiwane warunkowych rozkładów zmiennej losowej Y są liniową funkcją ustalonych warunkowo zmiennej losowej X, czyli inaczej, że funkcja regresji 1 rodzaju Y względem X jest liniowa.
Zapis drugi oznacza, że wariancja zmiennej losowej Y w jej warunkowych rozkładach jest stała (nie zależy od wartości x).
W przedstawionym wyżej modelu zmienna losowa Y pełni rolę zmiennej zależnej, natomiast X jest zmienną niezależną.
Parametr a prostej regresji 1 rodzaju jest określony jako współczynnik regresji liniowej.
Zapis pierwszy wyraźnie sugeruje interpretację dla α, jest to wielkość o jaką zmienia się …………wartość oczekiwana zmiennej zależnej Y gdy X wzrasta o jednostkę.
3. Metoda najmniejszych kwadratów.
Jeśli na podstawie próby (x1, x2, …, xn), szacuje się wartości średnią m w populacji to można zapisać:
X = mi + E, i=1,…, n., gdzie Ei jest odchyleniem zmiennej ……, od m.
Należy oczekiwać, że te odchylenia są małe gdyż ……………pewnych informacji o m (stąd jako estymatora średniej m można użyć takiej wielkości m, która minimalizuje sumę).
(suma na górze n, na dole i=1) ……………… względem m: łatwo można wykazać, że wartość (m ze znaczkiem na górze), która minimalizuje sumę.
Średnia arytmetyczna z próby x=1/n(suma)x.
4. Układ równań normalnych.
Tzw. klasyczny model normalnej regresji liniowej …… przyjmuje się poza założeniami wymienionymi w pkt.2 czyli klasycznego modelu regresji liniowej, że warunkowe rozkłady Y dla X=x ma rozkład
N(ax+β; δ).
Temu warunkowi jest równoważne bez założenia o rozkładzie normalnym tj. że normalne są warunkowe rozkłady zmiennej losowej Y.
5.Model liniowy jest nadmiarowy.
Tzn że model jest nieidentyfikowalny - dzieje się tak wtedy gdy macierz X nie jest pełnego rzędu: układ równań normalnych ma nieskończenie wiele rozwiązań. (chyba)
6. Regresja prosta - funkcji regresji zależna tylko od jednego argumentu tzn. p = 1.
Funkcja regresji:
E(Y/X = x) = β0 + β1x
(Y1, X1)…(Yn, Xn) obserwacjami losowymi.
Model:
Yi = β0 + β1 xi + Ei, i=1,…,n.
Ei są zmiennymi losowymi o tym samym rozkładzie normalnym N(0, δ2).
7. Regresja wielokrotna - jest to zależność jednej zmiennej zależnej od więcej niż jednej zmiennej niezależnej.
8. Współczynnik determinacji - jest to kwadrat wsp. Korelacji (p2).
Yi = β0 + β1 xi + Ei, i=1,…,n.
Oraz
Yi = β0 + β1, xi, i=1,…n.
Dla par wyznaczamy (Yi, Yi)
Współczynnik determinacji zmiennej Y przez X.
jest to liczba z przedziału (0%, 100%) i dopasowanie funkcji regresji jest tym lepsze im ten współczynnik jest wyższy.
Rozkład zmienności cechy Y.
współczynnik determinacji - proces zmienności cechy Y wyjaśniony przez funkcję regresji.
Jeżeli funkcja regresji jest funkcją liniową, to:
10. Co mierzy współczynnik korelacji wielorakiej (wielokrotnej)
współczynnik korelacji wielorakiej przyjmuje wartość z przedziału <0,1> (kowariancja zmiennych Y i Y jest zawsze dodatnia).
Współczynnik ten informuje o sile związku pomiędzy zmienną Y a całym zespołem zmiennych (x1, x2, …, xn).
11. Co mierzy współczynnik korelacji wielorakiej (wielokrotnej) - współczynnik korelacji pomiędzy zmiennymi
(y-y z dachami )α(x1-x2 z dachem) jest wsp. korelacji cząstkowej zmiennych yi x1 względem zmiennych x2, x3, ..., xn i oznaczony przez py x1 - x2 x3,...xn.
py x1 - x2 x3,...xn =
Współczynnik korelacji cząstkowej jest miarą skorelowania zmiennych yi x1 po wyeliminowaniu wpływu (na obie te zmienne) zmiennych (x2, x3, …, xn).
12. Hipoteza o adekwatności opisu zależności liniową funkcją regresji.
W każdym z punktów pomiarowych Xi wykonano po ni obserwacji zmiennej Y.
Yij =β0+β1+Eij j-1...ni,i-1,...k
Niech rzeczywistą f. regresji będzie f(x)
HIPOTEZA O ADEKWATNOŚCI OPISU ZALEŻN.
H0: (∇β,β1∈R)(∇x)f(x)= β0+β1x
Ogólna liczba obserwacji:
Średnia wartość obserwacji w punkcie xi
Niech
yi=β0+β1x1
Statystyka testu adekwatności:
Hipotezę odrzucamy jeżeli F>Fαk-1, n-k
Jeżeli ni=1 dla wszystkich i to przeprowadzenie testu adekwatności jest niemożliwe.
13. Reszty w modelu regresji.
Różnice pomiędzy wartościami empirycznymi a teoretycznymi nazywane są resztami i oznaczone symbolem ei=yi-yi z dachem
yi z dachem - wartość teoretyczna zmiennej y odpowiadającej i tej obserwacji.
14. 15. Elementy analizy resztowej.
Model:
Yi=β0+β1xi+Ei i=1,...,n
Ei...En - zmienne x- zmienne losoweo rozkładzie normalnym N(0,δ2)
Niech yi=β0^+β1^x1
Analiza resztowa polega na zbadaniu czy reszty są empiryczne: ei=yi-yi^. Mogą być traktowane jako próba losowa z rozkładu normalnego. Im współczynnik reszt jest mniejszy tym współczynnik determinacji jest większy.
16. Wykres reszt z trendem kwadratowym
17. Wykres reszt - trendliniowy.
18. Wykres reszt - niestabilność wariancji obserwowanej cechy.
19. Dwa testy na badanie normalności.
a) Test Shapiro - Wilka
b) Test Kołomogorowa.
21.Metoda wszystkich regresji doboru zmiennych
Liczba wszystkich możliwych funkcji regresji jest 2p.
Optymalny podzbiór o największym poprawionym współczynniku determinacji. (niepełne)
22.Regresja krokowa w tył doboru zmiennych
Generalnie polega na usuwaniu zmiennych z równania regresji. Kolejno wykonywane są następujące czynności:
Konstrukcja zmiennych dla wszystkich p zmiennych
dla każdego i=1, …,p wyznaczamy wartść statystyki Fi testu hipotezy H: βi=0. Niech Fl=min{F1,…,Fp). Niech Fout będzie wartością krytyczną. Jeżeli Fl < Fout to zmienną o numerze l uzuwamuy z modelu i powtarzamy krok 1 dla p-1 zmiennych. Jeżeli zaś Fl > Fout to kończymy postępowanie
23.Regresja krokowa w przód doboru zmiennych
Generalnie polega na dodawaniu zmiennych do równania regresji:
W modelu nie ma ani jednej zmiennej niezależnej.
Wyznaczane są modele z jedną zmienną niezależną. βo+βi xi i=1,…,p. Dla każdego modelu wyznaczamy wartość statystyki Fi testu hipotezy H: βi=0. Niech Fl=max {F1,…,Fp} Niech Fin będzie wartością krytyczną. Jeżeli Fl > Fin to zmienna o numerze l włączamy do modelu. W przeciwnym wypadku stwierdzamy że zmienna Y nie jest zależna od żadnej ze zmiennych i kończymy postępowanie.
W pierwszym kroku postawić model Y =βo+βi xi. Budujemy p-1 modeli z dwoma zmiennymi niezależnymi.
Postępowanie kończymy, gdy już nie można dodać żadnej z pozostałych zmiennych do zbudowanego modelu.
24. Obszar ufności - dla prostej regresji - służy do oceny średniej wartości cechy Y dla ustalonego X.
25.Jakie wnioski wprowadzamy na podstawie obszaru ufności dla funkcji regresji. Na podstawie ufności możemy wnioskować o wartościach cechy Y jednocześnie dla wielu wybranych wartości cechy X.
27. Na podstawie obszaru predykcji możemy wnioskować o wartościach cechy Y jednocześnie dla wielu wybranych wartości X.
30. Sformułować hipotezę weryfikowaną w jednoczynnikowej analizie wariancji.
H: czynnik (dany) nie różnicuje cechy badanej (lub czynnik nie wpływa na cechę)
31. Techniki porównań szczegółowych - to techniki, które są uzupełnieniem analizy wariancji i uzupełnieniem cechy. Po stwierdzeniu, że cechy nie są równe techniki te mają nam powiedzieć jak działa średnia na grupy jednorodne.
32.Sformułować hipotezy weryfikowane w dwuczynnikowej analizie wariancji.
braku wpływu czynnika A:
Ho: α1=…αa=0
braku wpływu czynnika B:
Ho: β1=…βb=0
braku współdziałania czynników:
33. W dwuczynnikowej analizie wariancji hipotezę o braku współdziałania czynników A I B odrzucono. Zinterpretować.
Dwuczynnikowa analiza wariancji - dotyczy np.
a) plenności pewnej rośliny
b) wydajności pracowników dla zakładów w kolejnych dniach, tygodniach.
Nie ma współdziałania, bo średnio rzuca biorąc następujące wzrost i spadek. Czynniki podobnie zachowują się w różnych warunkach.
Weryfikacja hipotezy:
1. o braku wpływu czynnika A
Ho : α1 = …α2 = 0.
2. o braku wpływu czynnika B.
3. o braku współdziałania
36. Dyskretny plan eksperymentu - zakłada skończoną liczbę punktów X, który zakłada pomiar oraz taką samą liczbę powtórzeń - to skończona ilość punktów pomiarowych, ale ilość powtórzeń nie musi być taka sama.
36. Plan dyskretny eksperymentu.
Plan dyskretny zakłada skończoną liczbę punktów X, który zakłada pomiar oraz taką samą ilość powtórzeń ale każdego X
37. Ciągły plan eksperymentu.
Zakłada skończoną ilość punktów pomiarowych ale ilość powtórzeń nie musi być taka sama.
38.Plan Eksperymentu
Plan - rozkład praw, nieskończenie wiele punktów pomiarowych z nieskończenie dużą ilością powtórzeń.
W jakich obserwujemy Y
po ile obserwacji zawiera każdy taki punkt
39. Regresja wielomianowa.
ψi = βo + βo + βi xi +…+ βk xi + εi, i=1,…,n
1.Trend - jest to uśredniony, generalny przebieg zjawiska. Trend - funkcja, opisująca generalny przebieg zjawiska, zmiany średniego poziomu zjawiska w czasie. Wyznaczanie średniej wartości zjawiska w pewnym ustalonym okresie czasu, przy czym okres, w którym wyznaczamy średnią przesuwamy po szeregu czasowym. Wyznaczanie trendu:
2. Metoda średnich ruchomych wyrównanie trendu - jest to najprostsza metoda wygładzania szeregu czasowego. Polega na obliczaniu średniej arytmetycznej kilku kolejnych obserwacji i przyporządkowaniu jej jako obserwacji odpowiedniego szeregu wygładzanego. Średnia ruchoma dla n kolejnych obserwacji przy nieparzystym n jest obliczana w następujący sposób:
- wyznaczanie średniej wartości zjawiska w pewnym ustalonym okresie czasu. Okres ten przesuwamy po całym szeregu czasowym. Jeśli szereg jest cykliczny, to wtedy możemy wychwycić trend.
3. Metoda średnich ruchomych - pozwala na czas, okres
- odgadnięcie wzoru f(t) f- trendu, przesuwa się po całym szeregu
- odgadnięcie długości r okresu.
4. Wahania sezonowe - stałe zmiany wartości trendu w danych momentach czasowych.
5. Długość cyklu sezonowego - dotyczy zjawisk szeregów czasowych związanych z cyklicznością.
6. Multiplikatywny wskaźnik sezonowości stosujemy, gdy amplituda wyższa lub niższa, z trendem amplituda jest proporcjonalna do wartości trendu.
7. Addytywne wskaźniki sezonowości - stosuje się, gdy amplituda jest stała w czasie.
8. Prognozą w szeregu czasowym, w którym występuje trend i addytywne wskaźniki sezonowości konstruuje się tzw. trend w chwili ++ odpowiednie wahanie okresowe (wskaźnik addytywny + - błąd losowy).
9. Prognoza w szeregu czasowym, w którym występuje trend i multiplikatywne wskaźniki sezonowości konstruuje się tak: wartość trendu w chwili t jest modyfikowana multiplikatywnym wskaźnikiem sezonowości (procentowym) i korygowana błędem losowym.
13. Proces jest stacjonarny w szerszym sensie gdy rozkład obserwowanej zmiennej jest stały w czasie.
14. Proces stacjonarny w węższym sensie - gdy zależność między obserwacjami jest funkcją odległości obserwacji. Proces przebiega na tym samym poziomie.
15. Różnicowanie w szeregu czasowym stosujemy , gdy szereg jest niestacjonarny.
16. Szereg jest różnicowany jednokrotnie, gdy bierzemy pod uwagę różnice między kolejnymi obserwacjami, analizujemy przyrosty szeregu czasowego.
17, Postać procesu AR(1):
yt = Φ1 yt-1 + at - bieżąca obserwacja jest uzależniona od poprzedniej obserwacji i szumu losowego.
18. ARIMA (1,0,0) = AR(1).
19. MA(1): yt = at - Q1 Qt-1.
20. ARIMA (0,0,1) = MA(1).
21. ARIMA (1,0,1):
ϕ1 (B) ∇o yt = θ1 (B) Gt
22. ARIMA (1,1,0) - proces bez średnich ruchomych:
(yt - yt-1) = ϕ1 (yt-1 - yt) + at
23. ARIMA (0,1,1):
(yt - yt-1) = at - Q1 at-1
24. ARIMA (1,0,0) x (1,0,0)12:
ϕ1 (B) ϕq *(Bi2) yt = at
ϕ1 - ϕ1 B) ( 1 - ϕ* Bi2 ) yt = at
yt = ϕ1 yt-1 - ϕ*1 yt-i2 - ϕ1 ϕ-1 + yt-i2-1 + at
25. ARIMA (0,0,1)x(0,0,1)
Funkcja autokorelacji (samoskorelowanie szeregu) określana na liczbach naturalnych w taki sposób że wartość funkcji autokorelacji dla liczby k jest korelacją między obserwacjami szeregu czasowego oddalonymi od siebie o k jednostek.
Dla procesu AR (p) - postać funkcji autokorelacji: funkcja autokorelacji zanika wykładniczo lub sinusoidalnie a funkcja autokorelacji cząstkowej urywa się dla k>p.
Dla procesu HA (q): funkcja autokorelacji cząstkowej urywa się dla k>q a funkcja autokorelacji cząstkowej zanika wykładniczo lub sinusoidalnie.
27. Co to jest funkcja autokorelacji cząstkowej.
Funkcja autokorelacji cząstkowej jest to funkcja określona na liczbach naturalnych w taki sposób że wartość funkcji autokorelacji dla liczby k jest korelacją między obserwacjami szeregu czasowego oddalającymi od siebie o k jednostek z pominięciem momentów środkowych.
2. Macierz korelacji
Pozwala na ustalenie zależności między poszczególnymi składowymi obserwowanego wektora.
4. Analiza korelacji
Stwarza możliwości oceny siły, kierunku i kształtu zależności pomiędzy cechami statystycznymi mierzalnymi, które w sposób wymierny opisują obserwowane zjawiska. W zależności od ilości obserwowanych zjawisk, a zatem i liczby cech statystycznych, które je opisują, analiza korelacji może być dwu wymiarowa, gdy badany jest związek jedynie dwóch zjawisk, lub też może być wielowymiarowa gdy liczba obserwowanych zjawisk jest większa od dwóch.
5. Różnica między analizą regresji a analizą kanoniczną.
Analiza kanoniczna bada zależność między grupą zmiennych zależnych i grupą zmiennych niezależnych. Natomiast jeśli zmienna zależna jest jednoelementowa to analiza sprowadza się do analizy regresji i w tym sensie analiza kanoniczna jest rozszerzeniem analizy regresji.
6. Co to są korelacje kanoniczne
Korelacje kanoniczne to współczynnik korelacji między zmiennymi kanonicznymi.
7. Zmienne kanoniczne
To sztuczne zmienne u i v. Są takie że zmienne u, v są parami nieskorelowanymi. Współczynniki korelacji ϕ między zmiennymi ui i vi tworzą ciąg malejący.
Zmienne ui i vi dla i≠j są nieskorelowane.
8. Jaki jest cel analizy składowych głównych?
Służy ona do budowania struktury obiektu (zmienności populacji) do badania zmienności (zróżnicowania) w jakich kierunkach ta zmienność jest największa (najlepiej widoczna).
9. Co to są składowe główne.
Są to zmienne losowe z1, …,zk takie że:
są liniowymi funkcjami zmiennych oryginalnych
są wzajemnie nieskorelowane
wariancje składowych głównych są malejące
10. Kryteria wyboru liczby składowych głównych:
Kryterium wyjaśnianej zmienności - wybór ilości składowych głównych ze względu na procent zmienności wyjaśnianej musi być „dostatecznie” duży (≥75%).
Kryterium osypiska - składowej zi odpowiada, wartość własna λi próbkowej macierzy kowariancji R, przy czym: λ1 ≥ λ2 ≥…≥ λk
12. Jaki jest cel nanlizy czynnikowej
znalezienie liczby p wspólnych czynników
oszacowanie zasobów poszczególnych czynników tzn. oszacowanie elementów macierzy A.
ocena wariancji specyficznych ψ1…ψk