METODY STATYSTYCZNE W BIOLOGII
1.
Wykład wstępny
2. Populacje
i próby danych
3.
Testowanie hipotez i estymacja parametrów
4.
Planowanie eksperymentów biologicznych
5.
Najczęściej wykorzystywane testy statystyczne I
6.
Najczęściej wykorzystywane testy statystyczne II
7. Regresja liniowa
8. Regresja nieliniowa
9.
Określenie jakości dopasowania równania regresji liniowej i nieliniowej
10. Korelacja
11. Elementy statystycznego modelowania danych
12.
Porównywanie modeli
13. Analiza wariancji
14. Analiza kowariancji
15.
Podsumowanie materiału, wspólna analiza przykładów, dyskusja
WSTĘP
TESTOWANIE JAKOŚCI DOPASOWANIA
RÓWNANIA REGRESJI
statystyki:
• R
2
• D
wykresy
diagnostyczne
Copyright ©2011, Joanna Szyda
REGRESJA LINIOWA
RÓWNANIE REGRESJI
ELEMENTY RÓWNANIA REGRESJI:
BŁĄD
22
23
24
25
26
27
28
29
30
50
60
70
80
90
100
masa ciała
za
w
.
tł
u
s
zc
zu
Wartość zaobserwowana (y)
Wartość przewidziana (ŷ)
Copyright ©2011, Joanna Szyda
DOPASOWANIE REGRESJI LINIOWEJ -
zmienność
zmienność "y"
wyjaśniona przez równanie
regresji
zaobserwowana
n
i
i
y
y
1
2
ˆ
n
i
i
y
y
1
2
Copyright ©2011, Joanna Szyda
22
23
24
25
26
27
28
29
30
50
60
70
80
90
100
za
w
. tłuszc
zu
masa ciała
22
23
24
25
26
27
28
29
30
50
60
70
80
90
100
za
w
. tłuszc
zu
masa ciała
n
i
i
n
i
i
y
y
y
y
R
1
2
1
2
2
ˆ
DOPASOWANIE REGRESJI LINIOWEJ -
zmienność
n
i
i
n
i
i
y
y
y
y
R
1
2
1
2
2
ˆ
jaka część
obserwowanej
zmienności została
wyjaśniona przez
równanie regresj
i
Copyright ©2011, Joanna Szyda
DOPASOWANIE REGRESJI LINIOWEJ -
przykład
PRÓBA DANYCH
1.
Zmienna niezależna
2.
Zmienna zależna, rozkład ciągły
MASA
CIAŁA
ZAW.
TŁUSZCZU
89
28
88
27
66
24
59
23
93
29
73
25
82
29
77
25
100
30
67
23
masa_ciała
19
.
0
57
.
11
tluszcz
R
2
= 0.94
Copyright ©2011, Joanna Szyda
BŁĘDY
i
i
i
e
y
y
ˆ
Copyright ©2011, Joanna Szyda
1.
Wartości błędów
2.
Wartości reszt
3. Residuals
4. http://stattrek.com/videos/ap/lessons/regression/3e/ap-
3e.aspx
HISTOGRAM
2
,
0
~
ˆ
e
i
i
i
N
e
y
y
0
1
2
3
4
5
6
7
8
n
kategoria "e"
brak rozkładu normalnego -
złe dopasowanie
0
1
2
3
4
5
6
7
8
n
kategoria "e"
rozkład "normalny" - dobre
dopasowanie
Copyright ©2011, Joanna Szyda
HISTOGRAM
2
,
0
~
ˆ
e
i
i
i
N
e
y
y
0
1
2
3
4
5
6
7
8
n
kategoria "e"
brak rozkładu normalnego -
złe dopasowanie
Copyright ©2012, Joanna Szyda
ZŁE DOPASOWANIE
Zastosować transformację „y”:
•
𝒚
•
ln 𝒚
•
𝟏
𝒚
QQ PLOT
Copyright ©2011, Joanna Szyda
• QQ plot
• porównanie kwantyli
• oczekiwany rozkład N(0,1)
• uzyskany rozkład dla "e
i
"
BŁĄD x PRZEWIDZIANY "Y" lub ZMIENNA NIEZALEŻNA
DOBRE DOPASOWANIE
Brak trendu
- 1.5
- 1.0
- 0.5
0.0
0.5
1.0
1.5
0
0.5
1
1.5
2
e
przewidziane
y / zmienna niezależna
Copyright ©2011, Joanna Szyda
- 0.6
- 0.4
- 0.2
0.0
0.2
0.4
0.6
0
0.5
1
1.5
2
e
przewidziane
y / zmienna niezależna
ZŁE DOPASOWANIE
Zastosować:
•
regresję ważoną
•
transformację "y"
BŁĄD x PRZEWIDZIANY "Y" lub ZMIENNA NIEZALEŻNA
Copyright ©2011, Joanna Szyda
ZŁE DOPASOWANIE
Zastosować:
•
inne / dodatkowe współczynniki regresji
- 0.2
- 0.1
0.0
0.1
0.2
0.3
0.4
0
0.5
1
1.5
2
e
przewidziane
y / zmienna niezależna
BŁĄD x PRZEWIDZIANY "Y" lub ZMIENNA NIEZALEŻNA
Copyright ©2011, Joanna Szyda
ZŁE DOPASOWANIE
Zastosować:
•
inne / dodatkowe współczynniki regresji
- 0.2
- 0.1
- 0.1
0.0
0.1
0.1
0.2
0.2
0.3
0
0.5
1
1.5
2
e
przewidziane
y / lub zmienna niezależna
BŁĄD x PRZEWIDZIANY "Y" lub ZMIENNA NIEZALEŻNA
Copyright ©2011, Joanna Szyda
ODSTAJĄCE OBSERWACJE
•
Mają duży wpływ na estymatory wsp. równania regresji
•
Sprawdzić dane - błędna wartość
BŁĄD x PRZEWIDZIANY "Y" lub ZMIENNA NIEZALEŻNA
- 1.5
- 1.0
- 0.5
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
0
0.5
1
1.5
2
e
przewidziane
y / zmienna niezależna
Copyright ©2011, Joanna Szyda
HISTOGRAM
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
- 1.2 - 0.8 - 0.4 0.0 0.4 0.8 1.2 1.6 2.0
n
kategoria "e"
- 2.0
- 1.0
0.0
1.0
2.0
3.0
20
22
24
26
28
30
32
e
przewidziane y
Copyright ©2011, Joanna Szyda
REGRESJA LOGISTYCZNA
DOPASOWANIE REGRESJI NIELINIOWEJ -
zmienność
zmienność "y"
wyjaśniona przez równanie
regresji
zaobserwowana
n
i
i
i
i
i
i
i
i
r
p
y
n
p
y
y
n
L
1
ˆ
1
log
ˆ
log
log
log
2
~
log
log
2
p
n
obs
r
L
L
D
n
i
i
i
i
i
i
i
i
i
i
obs
n
y
y
n
n
y
y
y
n
L
1
1
log
log
log
log
Copyright ©2011, Joanna Szyda
DOPASOWANIE REGRESJI NIELINIOWEJ -
zmienność
jaka część
obserwowanej
zmienności została
wyjaśniona przez
równanie regresj
i
2
~
log
log
2
p
n
obs
r
L
L
D
Copyright ©2011, Joanna Szyda
DOPASOWANIE REGRESJI NIELINIOWEJ -
zmienność
DANE
nacisk
ilość
całkow.
ilość
uszkod.
2500
50
10
2700
70
17
...
4300
65
51
1.
a
MAX
= 0.05
2. D=0.3719 ~
2
(10-2)st.sw.
3.
a
T
= 0.999957
4. H
0
5.
Dobre dopasowanie równania regresji
x
p
p
001548
.
0
340
.
5
1
log
p
logit
Copyright ©2011, Joanna Szyda
DOPASOWANIE REGRESJI NIELINIOWEJ -
błędy
•
Zależne od liczby obserwacji
2
,
0
ˆ
e
i
i
i
N
e
y
y
i
i
i
i
i
p
p
p
n
y
y
e
ˆ
1
ˆ
ˆ
•
Błędy skorygowane na
odchylenie st.
•
Błędy=reszty Pearsona
- 0.4
- 0.3
- 0.2
- 0.1
0.0
0.1
0.2
0.3
0.4
-2
-1
0
1
2
e
przewidziane y
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
n
kategoria "e
p
"
rozkład "normalny" - dobre
dopasowanie
Copyright ©2011, Joanna Szyda
PRZYKŁAD
Copyright ©2011, Joanna Szyda
JAKOŚĆ
DOPASOWANIA
R
2
D
reszty
wykresy diagnostyczne