06.03.2013
1
Pracownia Chemometrii Środowiska
dr hab. Tomasz Puzyn, prof. UG
Pracownia Chemometrii Środowiska
e-mail:
t.puzyn@qsar.eu.org
tel. (58) 523 54 51
Pracownia Chemometrii Środowiska
1. Scharakteryzowanie tzw. tendencji centralnej oraz
rozrzutu wyników
2. Sprawdzenie rozkładu zmiennej
3. Wykrycie tzw. punktów odbiegających (ang. outliers)
2
06.03.2013
2
Pracownia Chemometrii Środowiska
1; 2; 3; 4; 5
Średnia m = 3
Mediana M = 3
1; 2; 3; 4; 50
Średnia m = 12
Mediana M = 3
3
Pracownia Chemometrii Środowiska
• Średnia ważona M
W
:
• Średnia geometryczna M
G
:
• Średnia harmoniczna M
H
:
M
G
=
x
i
i
=1
n
∏
n
M
H
=
n
1
x
i
i
=1
n
∑
M
W
=
w
i
x
i
i
=1
n
∑
w
i
i
=1
n
∑
4
06.03.2013
3
Pracownia Chemometrii Środowiska
5
Pracownia Chemometrii Środowiska
06.03.2013
4
Pracownia Chemometrii Środowiska
28; 29; 30; 31; 32
10; 20; 30; 40; 50
Średnia m = 30
Średnia m = 30
Odchylenie standardowe s = 1,6
Odchylenie standardowe s = 15,8
7
Pracownia Chemometrii Środowiska
10; 20; 30; 40; 50
Średnia m = 30
s
2
=
(x
i
− m)
2
i
−1
n
∑
n
− 1
s
=
(x
i
− m)
2
i
−1
n
∑
n
− 1
( x
i
− m)
2
i
=1
n
∑
i
x
i
(x
i
-m) (x
i
-m)
2
1
10
-20
400
2
20
-10
100
3
30
0
0
4
40
10
100
5
50
20
400
n=5
1000
s
2
= 1000/4 = 250 s = √s
2
= 15,8
8
06.03.2013
5
Pracownia Chemometrii Środowiska
X
1
2
3
4
5
Z
Z
ij
=
X
ij
− X
j
s
j
X
10
20
30
40
50
Z
Pracownia Chemometrii Środowiska
X
1
2
3
4
5
Z
-1,26
-0,63
0,00
0,63
1,26
Z
ij
=
X
ij
− X
j
s
j
X
10
20
30
40
50
Z
-1,26
-0,63
0,00
0,63
1,26
06.03.2013
6
Pracownia Chemometrii Środowiska
11
Standaryzowana wartość mierzonej cechy (x)
f(
x)
-‐
G
ęs
to
ść
p
raw
do
po
do
bi
eń
stw
a
Pracownia Chemometrii Środowiska
12
Standaryzowana wartość mierzonej cechy (x)
f(x) -‐
G
ęs
to
ść
p
raw
do
po
do
bi
eń
stw
a
σ -‐ odchylenie standardowe
μ -‐ średnia arytmetyczna
06.03.2013
7
Pracownia Chemometrii Środowiska
Dla każdej zmiennej obliczamy:
• Wartość najmniejszą
MIN
,
• Wartość największą
MAX
,
• Stosunek
MIN/MAX
,
• Rozstęp
r = MAX – MIN
,
• Środek rozkładu
d = (MAX+MIN)/2
• Średnią
m
,
• Inne miary tendencji centralnej (np. medianę
M
),
• Odchylenie standardowe
s
,
• Współczynnik skośności rozkładu normalnego
q
,
• Współczynnik spłaszczenia (kurtozę)
K
.
13
Pracownia Chemometrii Środowiska
14
06.03.2013
8
Pracownia Chemometrii Środowiska
•
MAX
lub
MIN
znacznie różni się od spodziewanej wartości à
prawdopodobnie punkt odbiegający.
•
| MIN/MAX | < 0,1
à zmienna może nie mieć rozkładu normalnego.
•
m ≈ MAX i m ≠ d
lub
m ≈ MIN i m ≠ d
à rozkład silnie skośny
•
m >> M
lub
m << M
à
rozkład skośny lub punkty odbiegające
•
r/s < 4
(dla n < 50) lub r/s < 5 (dla n > 50) à zmienna może nie mieć rozkładu
normalnego (prawdopodobna niejednorodność w rozkładzie).
•
|q| >> 0
à rozkład prawdopodobnie nie jest symetryczny lub istnieje punkt
odbiegający.
•
K<0
à rozkład prawdopodobnie bardzo spłaszczony z węższymi częściami
brzegowymi lub
K>0
à krzywa rozkładu bardzo stroma w części centralnej i
relatywnie długie części boczne.
15
Pracownia Chemometrii Środowiska
< 5,3
0
[5,3; 5,8)
6
[5,8; 6,3)
41
[6,3; 6,9)
114
[6,9; 7,4)
139
[7,4; 7,9)
78
[7,9; 8,5)
22
8,5 ≥
0
n = 400
m = 7,0
s = 0,58
16
06.03.2013
9
Pracownia Chemometrii Środowiska
1. Dzielimy wszystkie zdarzenia
elementarne na przedziały o jednakowej
szerokości, przy czym ich liczba
k ≤ n/4
:
dla n =
kilkanaście
à
k = 4-5
dla n =
kilkaset
à
k = 8-10
dla n =
kilka tys
. à
k = ok. 12
2. W przypadku
parzystej liczby
przedziałów
średnia powinna leżeć w
środkowym przedziale;
w przypadku
nieparzystej liczby
– w
pobliżu granicy pomiędzy dwoma
środkowymi przedziałami.
3.
Skrajne wyniki
powinny leżeć możliwie
w środku skrajnych przedziałów.
17
Pracownia Chemometrii Środowiska
18
Standaryzowana wartość mierzonej cechy (x)
f(
x)
-‐
G
ęs
to
ść
p
raw
do
po
do
bi
eń
stw
a
06.03.2013
10
Pracownia Chemometrii Środowiska
• Przyjmujemy
założenie o rozkładzie
normalnym pozostałych punktów
!
• Stosujemy
odpowiednie testy
statystyczne
, zależnie od liczebności
wyników:
Jeżeli
n < 10
à
test Q-Dixona,
Jeżeli
10 < n < 40
à
rozkład t-Studenta,
Jeżeli
n > 40
à
reguła 3 σ.
19
Pracownia Chemometrii Środowiska
Przyjęcie założeń, określenie hipotezy
zerowej (H
0
) oraz hipotezy alternatywnej
(H
A
)
Otrzymanie rozkładu z próby, wyznaczenie
poziomu istotności oraz obszaru
krytycznego
Obliczenie wartości statystyki testowej
Podjęcie decyzji na podstawie wartości
statystyki testowej oraz reguł decyzyjnych
dla danego testu
20
06.03.2013
11
Pracownia Chemometrii Środowiska
Przyjąć H
0
Odrzucić H
0
H
0
jest
prawdziwa
OK
Błąd I-go
rodzaju
H
0
jest
fałszywa
Błąd II-go
rodzaju
OK
Wniosek z testu
Pra
w
da
21
Pracownia Chemometrii Środowiska
1.
Porządkujemy
wyniki
w kolejności rosnącej:
x
1
< x
2
< x
3
<…< x
n-1
< x
n
2.
Formułujemy
H
0
: x
1
(lub odpowiednio x
n
) nie jest punktem odbiegającm
H
A
: x
1
(lub odpowiednio x
n
) jest punktem odbiegającym
3.
Obliczamy statystykę Q
:
gdy podejrzewamy x
1
lub
gdy podejrzewamy x
n
4. Uzyskaną wartość Q
porównujemy z tablicami
(Q
kr
) na odpowiednim
poziomie ufności α.
Jeżeli Q ≥ Q
kr
à
punkt odbiegający
(bo z
prawdopodobieństwem 1-α nie należy do tej samej populacji co pozostałe).
n
3
4
5
6
7
8
9
10
Q
kr
0,941 0,765 0,642 0,560 0,507 0,468 0,437 0,412
α=0,05
22
06.03.2013
12
Pracownia Chemometrii Środowiska
Statystyka t
• Obliczamy statystykę t ze wzoru
• Odnajdujemy w tablicach wartość t
kr
dla założonego
poziomu istotności α.
• Jeżeli t > t
kr
to z prawdopodobieństwem 1-α nie
należy do populacji (odrzucamy).
Przedział ufności
• Obliczamy przedział, w którym z
prawdopodobieństwem 1-α znajdują się wszystkie
wartości x
i
(tzw. przedział ufności).
• Każdą wartość x
i
leżącą poza wyznaczonym
przedziałem możemy odrzucić (popełniając przy tym
błąd nie większy niż α).
UWAGA! Średnią i odchylenie standardowe obliczamy dla pozostałych punktów
bez „podejrzanego
”
wyniku!!!
23
Pracownia Chemometrii Środowiska
24
06.03.2013
13
Pracownia Chemometrii Środowiska
0.100
0.050
0.020
0.010
1
6.314
12.706
31.821
63.656
2
2.920
4.303
6.965
9.925
3
2.353
3.182
4.541
5.841
4
2.132
2.776
3.747
4.604
5
2.015
2.571
3.365
4.032
6
1.943
2.447
3.143
3.707
7
1.895
2.365
2.998
3.499
8
1.860
2.306
2.896
3.355
9
1.833
2.262
2.821
3.250
10
1.812
2.228
2.764
3.169
11
1.796
2.201
2.718
3.106
12
1.782
2.179
2.681
3.055
13
1.771
2.160
2.650
3.012
14
1.761
2.145
2.624
2.977
15
1.753
2.131
2.602
2.947
16
1.746
2.120
2.583
2.921
17
1.740
2.110
2.567
2.898
18
1.734
2.101
2.552
2.878
19
1.729
2.093
2.539
2.861
α – poziom istotności
ν = n - 1
ν
–
liczb
a
st
op
ni
sw
ob
od
y
n = 19
v = 18
m = 69,5
s = 4,8
25
Pracownia Chemometrii Środowiska
Jeżeli dany wynik x
i
znajduje się o więcej niż 3 odchylenia standardowe od
średniej to z prawdopodobieństwem ok. 99 % możemy mówić, że nie należy on do
populacji.
26
Zakres
P(A)
[-‐1,0; 1,0]
≈ 0.68
[-‐2,0; 2,0]
≈ 0.95
[-‐3,0; 3,0]
≈ 0.99