Statystyka w analizie i planowaniu eksperymentu
Wykład 6
Analiza regresji
Przemysław Biecek
Dla 1 roku studentów Biotechnologii
Wejściówka
Proszę na (niewielkiej) kartce napisać:
1
ImiÄ™, nazwisko,
2
Nr. indeksu,
3
Nazwisko osoby prowadzącej ćwiczenia
Analiza regresji 2/24
Wejściówka
Wybierz dwie ostatnie różne cyfry swojego numeru indeksu.
Na poziomie istotności ą = 0.01 zweryfikuj hipotezę o równości
średnich liczb w kolumnach odpowiadających wybranym powyżej
cyfrom.
Przyjmij, że rzeczywista wariancja tych liczb wynosi 8.
cyfra indeksu 1 2 3 4 5 6 7 8 9 0
próba 1 5 8 2 7 8 6 8 8 0
4 7 4 9 8 8 9 3 7 3
7 8 4 2 0 3 4 1 6 8
9 8 5 6 1 4 5 5 4 6
4 7 2 8 8 1 4 5 3 3
Wyznacz p wartość dla tej hipotezy.
Analiza regresji 3/24
Kilka zdań o historii regresji
Charles Darwin Friedrich Gauss Francis Galton Karl Pearson
Analiza regresji 4/24
Regresja prosta
Obserwujemy zależność pomiędzy czasem reakcji a logarytmem
stężenia produktu w roztworze.
0.0 0.2 0.4 0.6 0.8 1.0 1.2
x
Analiza regresji 5/24
y
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
Regresja prosta
Na podstawie wyników eksperymentu możemy ocenić zależność
pomiędzy czasem a stężeniem produktu.
Możemy rozważać różne modele zależności pomiędzy tymi
zmiennymi.
0.0 0.2 0.4 0.6 0.8 1.0 1.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2
x x
y = -0.05 + 1.2x
y = 0.2 + 24.5x - 375x2 - 2452x3 + 38641x4 - 58765x5 - 720012x6
+3441503x7 - 3341678x8 - 16322170x9 + 66451510x10 - 120777700x11
+132393300x12 - 93195130x13 + 42084630x14 - 11654990x15 + 1775557x16
-111920x17
Analiza regresji 6/24
y
y
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
Regresja prosta
As simple as possible, but not simpler Albert Einstein.
Opisując zależności pomiędzy zmiennymi powinniśmy używać
najprostszych możliwych związków.
Zasada KISS ( Keep It Simple, Stupid ).
Prostych modeli łatwiej używać, mają też najczęściej równie dobrą
lub lepszą zdolność predykcyjną.
0.0 0.2 0.4 0.6 0.8 1.0 1.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2
x x
Analiza regresji 7/24
y
y
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
Regresja prosta
Dziś będziemy rozważać model regresji prostej, jest on postaci:
y = ²0 + ²1x + µ,
gdzie y to zmienna objaÅ›niana, x zmienna objaÅ›niajÄ…ca a µ to
zakłócenie losowe.
Założenia:
Postać modelu jest liniowa,
Zakłócenia µ
mają rozkład normalny,
są niezależne,
mają średnie 0,
mają wariancje niezależną od wartości x.
Analiza regresji 8/24
Regresja prosta
Interesuje nas ocena współczynników ²0, i ²1.
Mając oceny współczynników możemy dokonywać predykcji
wartości y
Ć Ć
w = ²0 + ²1x,
Ć Ć
gdzie ²0 to wyraz wolny a ²1 to efekt zmiennej x.
Możemy określić błąd dopasowania
µi = yi - wi.
Ć
Analiza regresji 9/24
Regresja prosta
^
( , )
(Xi, Yi)
^
^
ei = Yi - Yi
= -
(Xi, Yi)
( , )
0.0 0.5 1.0 1.5 2.0
x
Analiza regresji 10/24
y
0.0
0.5
1.0
1.5
2.0
^
0
²
²
+
+
^
X
1
²
²
=
=
^
Y
Oceny współczynników
Ocen współczynników ²0 i ²1 szukamy tak, by zminimalizować
błąd kwadratowy
Ć Ć
min (yi - wi)2 = min (yi - ²0 - ²1xi)2.
i i
Okazuje się, że takie oceny możemy wyznaczyć z następujących
wzorów
(xi - x)(yi - y) cov(x, y)
Å» Å»
i
Ć
²1 = = ,
(xi - x)2 var(x)
Å»
i
Ć Ć
²0 = y - ²1x.
Å» Å»
Analiza regresji 11/24
Testy dla współczynników
Dla ocen tych współczynników możemy wyznaczyć rozkłady
prawdopodobieństwa
Ç2
n-2
Ã2 <" Ã2
Ć
n-2
Ã2
Ć
Ć
²1 <" ²1 + tn-2 (xi -Å»)2
x
Ć
E[²1] = ²1
Ã2
Ć
Ć
Var[²1] =
(xi -Å»)2
x
i
Analiza regresji 12/24
Testy dla współczynników
... dzięki czemu możemy wyznaczać przedziały ufności dla
współczynników modelu
1
1-Ä…/2
Ć
²1 = ²1 Ä… tn-2 Ã ,
Ć
(xi - x)2
Å»
oraz dla prognozy wartości zmiennej objaśnianej dla wartości x0
1 (x0 - x)2
Å»
1-Ä…/2
y0 = w Ä… tn-2 Ã + .
Ć
n (xi - x)2
Å»
i
Analiza regresji 13/24
Testy dla współczynników
... oraz testy na istotność dla tych współczynników
H0 : ²1 = 0,
HA : ²1 = 0.
Za statystykÄ™ testowÄ… wybiera siÄ™
Ć
²1
T = (xi - x)2.
Å»
Ã
Ć
i
Ta statystyka testowa ma rozkład t-Studenta z n - 2 stopniami
swobody (nie będziemy z niej korzystać).
Analiza regresji 14/24
Testy dla współczynników
Tą samą hipotezę można też weryfikować korzystając ze statystyki
testowej
(n - 2) (yi - yi)2
Å»
i
F =
(yi - wi)2
i
Ta statystyka testowa ma rozkład F z 1, n - 2 stopniami swobody.
Analiza regresji 15/24
Dopasowanie modelu
Do oceny dopasowania często wykorzystywany jest współczynnik
R2, nazywany współczynnikiem determinacji.
Przedstawia on procent wariancji wyjaśnionej przez model
(yi - w)2
i
R2 = 1 - .
(yi - y)2
Å»
i
Wysoka wartość tego współczynnika (bliska 1) oznacza, że użyty
model dobrze i wyczerpująco wyjaśnia zmienność w danych.
Niska wartość tego współczynnika (bliska 0) oznacza, że użyty
model wyjaśnia niewielki fragment całej zmienności.
Analiza regresji 16/24
Przykład w R
> summary(lm(wzrost <" waga))
Call:
lm(formula = wzrost <" waga)
Residuals:
Min 1Q Median 3Q Max
-73.1599 -21.6536 0.5492 17.6769 77.6339
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 869.37234 29.65927 29.31 <2e-16 ***
waga 1.26559 0.04636 27.30 <2e-16 ***
---
Signif. codes: 0 *** 01 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 27.96 on 98 degrees of freedom
Multiple R-Squared: 0.8838, Adjusted R-squared: 0.8826
F-statistic: 745.4 on 1 and 98 DF, p-value: < 2.2e-16
Analiza regresji 17/24
Badanie modelu
Po dopasowaniu modelu, powinniśmy zbadać reszty. Badając reszty
jesteśmy w stanie zweryfikować założenia modelu.
60 70 80 90
waga
Analiza regresji 18/24
wzrost
150
160
170
180
190
Przykład w R
Residuals vs Fitted Normal Q-Q
63 63
64
64
21
21
150 160 170 180 190 -2 -1 0 1 2
Fitted values Theoretical Quantiles
lm(y ~ x) lm(y ~ x)
Scale-Location Residuals vs Leverage
63
0.5
21
64
95
11
40
Cook's distance
0.5
150 160 170 180 190 0.00 0.02 0.04 0.06 0.08
Fitted values Leverage
lm(y ~ x) lm(y ~ x)
Analiza regresji 19/24
Residuals
Standardized residuals
-2
-1
0
1
2
3
-10
-5
0
5
10
Standardized residuals
Standardized residuals
-3
-2
-1
0
1
2
3
0.0
0.5
1.0
1.5
Wykresy diagnostyczne
Sprawdzian, czy Å›rednia wartość µ zależą od x lub od y.
Ć
Residuals vs Fitted Residuals vs Fitted
63 20
143
70
64
21
150 160 170 180 190 -20 0 20 40 60 80
Fitted values Fitted values
lm(y ~ x) lm(y ~ x)
Oczekujemy, że lokalna średnia będzie bliska 0.
Analiza regresji 20/24
Residuals
Residuals
-10
-5
0
5
10
15
20
-10
-5
0
5
10
Wykresy diagnostyczne
Sprawdzian, czy rozkÅ‚ad wartoÅ›ci µ jest zgodny z r. normalnym.
Ć
Normal Q-Q Normal Q-Q
63 20
143
70
64
21
-2 -1 0 1 2 -3 -2 -1 0 1 2 3
Theoretical Quantiles Theoretical Quantiles
lm(y ~ x) lm(y ~ x)
Oczekujemy, że punkty ułożą się wzdłuż linii prostej.
Analiza regresji 21/24
Standardized residuals
Standardized residuals
-2
-1
0
1
2
3
-1
0
1
2
Wykresy diagnostyczne
Sprawdzian, czy wariancja wartoÅ›ci µ zależy od x lub od y.
Ć
Scale-Location Scale-Location
63 137
132
21
36
64
150 160 170 180 190 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
Fitted values Fitted values
lm(y ~ x) lm(y ~ x)
Oczekujemy, że średnie lokalne odchylenie standardowe będzie
stałe.
Analiza regresji 22/24
Standardized residuals
Standardized residuals
0.0
0.5
1.0
1.5
0.0
0.5
1.0
1.5
Wykresy diagnostyczne
Sprawdzian, czy obserwujemy wartości nietypowe lub odstające.
Residuals vs Leverage Residuals vs Leverage
0.5
0.5
95
11
203
0.5
1
201
40
202
Cook's distance Cook's distance
0.5
0.00 0.02 0.04 0.06 0.08 0.00 0.02 0.04 0.06 0.08 0.10 0.12
Leverage Leverage
lm(y ~ x) lm(y ~ x)
Oczekujemy, że nie zaobserwujemy punktów o dużych wartościach
Leverage oraz Cook.
Analiza regresji 23/24
Standardized residuals
Standardized residuals
-10
-8
-6
-4
-2
0
2
-3
-2
-1
0
1
2
3
Co trzeba zapamiętać?
Dlaczego regresja liniowa jest popularna pomimo tego, że jest
prosta.
Jak wyznaczać oceny współczynników modelu.
Jak weryfikować istotność współczynników modelu.
Jak wykonywać predykcje.
Jak weryfikować dokładność dopasowania modelu.
Analiza regresji 24/24
Wyszukiwarka
Podobne podstrony:
Analiza regresji21 Analiza regresjiAnaliza regresji 200905182006 06 Analiza Naruszeń i Egzekwowanie Polityki BezpieczeństwaAnaliza regresji liniowejAnaliza regresji wykład i lista nr 32009 06 Analiza obrazu z wykorzystaniem ImageJ [Grafika]3 Analiza regresji06 Analizowanie psychospołecznych aspektów rozwojuBlyskawiczna analiza regresji SnapStat06 Analizasystemowaanaliza regresji06 Analiza ryzyka [tryb zgodności]idb4506 regresja www przeklej plidc90Analiza ekonomiczna 06Elementy analizy korelacji i regresji06 Lutomirski S i inni Analiza przyczyn awarii pokryw osadnikow wstepnychidc25więcej podobnych podstron