MetStatChem 02b notatki

background image

06.03.2013  

1  

Pracownia Chemometrii Środowiska

dr hab. Tomasz Puzyn, prof. UG

Pracownia Chemometrii Środowiska

e-mail:

t.puzyn@qsar.eu.org

tel. (58) 523 54 51

Pracownia Chemometrii Środowiska



1.  Scharakteryzowanie tzw. tendencji centralnej oraz

rozrzutu wyników

2.  Sprawdzenie rozkładu zmiennej


3.  Wykrycie tzw. punktów odbiegających (ang. outliers)

2  

background image

06.03.2013  

2  

Pracownia Chemometrii Środowiska

1; 2; 3; 4; 5

Średnia m = 3

Mediana M = 3

1; 2; 3; 4; 50

Średnia m = 12

Mediana M = 3

3  

Pracownia Chemometrii Środowiska

•  Średnia ważona M

W

:




•  Średnia geometryczna M

G

:




•  Średnia harmoniczna M

H

:

M

G

=

x

i

i

=1

n

n

M

H

=

n

1

x

i

i

=1

n

M

W

=

w

i

x

i

i

=1

n

w

i

i

=1

n

4  

background image

06.03.2013  

3  

Pracownia Chemometrii Środowiska

5  

Pracownia Chemometrii Środowiska

background image

06.03.2013  

4  

Pracownia Chemometrii Środowiska

28; 29; 30; 31; 32

10; 20; 30; 40; 50

Średnia m = 30

Średnia m = 30

Odchylenie standardowe s = 1,6

Odchylenie standardowe s = 15,8

7  

Pracownia Chemometrii Środowiska

10; 20; 30; 40; 50

Średnia m = 30

s

2

=

(x

i

m)

2

i

−1

n

n

− 1

s

=

(x

i

m)

2

i

−1

n

n

− 1

( x

i

m)

2

i

=1

n

i

x

i

(x

i

-m) (x

i

-m)

2

1

10

-20

400

2

20

-10

100

3

30

0

0

4

40

10

100

5

50

20

400

n=5

1000

s

2

= 1000/4 = 250 s = √s

2

= 15,8

8  

background image

06.03.2013  

5  

Pracownia Chemometrii Środowiska

X

1

2

3

4

5

Z

Z

ij

=

X

ij

X

j

s

j

X

10

20

30

40

50

Z

Pracownia Chemometrii Środowiska

X

1

2

3

4

5

Z

-1,26

-0,63

0,00

0,63

1,26

Z

ij

=

X

ij

X

j

s

j

X

10

20

30

40

50

Z

-1,26

-0,63

0,00

0,63

1,26

background image

06.03.2013  

6  

Pracownia Chemometrii Środowiska

11  

Standaryzowana  wartość  mierzonej  cechy  (x)  

 f(

x)

 -­‐  

G

ęs

to

ść

 p

raw

do

po

do

bi

stw

a  

Pracownia Chemometrii Środowiska

12  

Standaryzowana  wartość  mierzonej  cechy  (x)  

 f(x)  -­‐  

G

ęs

to

ść

 p

raw

do

po

do

bi

stw

a  

σ  -­‐  odchylenie  standardowe  

μ  -­‐  średnia  arytmetyczna  

background image

06.03.2013  

7  

Pracownia Chemometrii Środowiska

Dla każdej zmiennej obliczamy:

•  Wartość najmniejszą

MIN

,

•  Wartość największą

MAX

,

•  Stosunek

MIN/MAX

,

•  Rozstęp

r = MAX – MIN

,

•  Środek rozkładu

d = (MAX+MIN)/2

•  Średnią

m

,

•  Inne miary tendencji centralnej (np. medianę

M

),

•  Odchylenie standardowe

s

,

•  Współczynnik skośności rozkładu normalnego

q

,

•  Współczynnik spłaszczenia (kurtozę)

K

.

13  

Pracownia Chemometrii Środowiska

14  

background image

06.03.2013  

8  

Pracownia Chemometrii Środowiska

MAX

lub

MIN

znacznie różni się od spodziewanej wartości à

prawdopodobnie punkt odbiegający.

| MIN/MAX | < 0,1

à zmienna może nie mieć rozkładu normalnego.

m ≈ MAX i m ≠ d

lub

m ≈ MIN i m ≠ d

à rozkład silnie skośny

m >> M

lub

m << M

à

rozkład skośny lub punkty odbiegające

r/s < 4

(dla n < 50) lub r/s < 5 (dla n > 50) à zmienna może nie mieć rozkładu

normalnego (prawdopodobna niejednorodność w rozkładzie).

|q| >> 0

à rozkład prawdopodobnie nie jest symetryczny lub istnieje punkt

odbiegający.

K<0

à rozkład prawdopodobnie bardzo spłaszczony z węższymi częściami

brzegowymi lub

K>0

à krzywa rozkładu bardzo stroma w części centralnej i

relatywnie długie części boczne.

15  

Pracownia Chemometrii Środowiska

< 5,3

0

[5,3; 5,8)

6

[5,8; 6,3)

41

[6,3; 6,9)

114

[6,9; 7,4)

139

[7,4; 7,9)

78

[7,9; 8,5)

22

8,5 ≥

0

n = 400
m = 7,0
s = 0,58

16  

background image

06.03.2013  

9  

Pracownia Chemometrii Środowiska

1.  Dzielimy wszystkie zdarzenia

elementarne na przedziały o jednakowej
szerokości, przy czym ich liczba

k ≤ n/4

:

dla n =

kilkanaście

à

k = 4-5

dla n =

kilkaset

à

k = 8-10

dla n =

kilka tys

. à

k = ok. 12

2.  W przypadku

parzystej liczby

przedziałów

średnia powinna leżeć w

środkowym przedziale;
w przypadku

nieparzystej liczby

– w

pobliżu granicy pomiędzy dwoma
środkowymi przedziałami.

3.

Skrajne wyniki

powinny leżeć możliwie

w środku skrajnych przedziałów.

17  

Pracownia Chemometrii Środowiska

18  

Standaryzowana  wartość  mierzonej  cechy  (x)  

 f(

x)

 -­‐  

G

ęs

to

ść

 p

raw

do

po

do

bi

stw

a  

background image

06.03.2013  

10  

Pracownia Chemometrii Środowiska

•  Przyjmujemy

założenie o rozkładzie

normalnym pozostałych punktów

!

•  Stosujemy

odpowiednie testy

statystyczne

, zależnie od liczebności

wyników:

Jeżeli

n < 10

à

test Q-Dixona,


Jeżeli

10 < n < 40

à

rozkład t-Studenta,


Jeżeli

n > 40

à

reguła 3 σ.

19  

Pracownia Chemometrii Środowiska

Przyjęcie założeń, określenie hipotezy

zerowej (H

0

) oraz hipotezy alternatywnej

(H

A

)

Otrzymanie rozkładu z próby, wyznaczenie

poziomu istotności oraz obszaru

krytycznego

Obliczenie wartości statystyki testowej

Podjęcie decyzji na podstawie wartości

statystyki testowej oraz reguł decyzyjnych

dla danego testu

20  

background image

06.03.2013  

11  

Pracownia Chemometrii Środowiska

Przyjąć H

0

Odrzucić H

0

H

0

jest

prawdziwa

OK

Błąd I-go

rodzaju

H

0

jest

fałszywa

Błąd II-go

rodzaju

OK

Wniosek z testu

Pra

w

da

21  

Pracownia Chemometrii Środowiska

1.

Porządkujemy

wyniki

w kolejności rosnącej:

x

1

< x

2

< x

3

<…< x

n-1

< x

n

2.

Formułujemy

H

0

: x

1

(lub odpowiednio x

n

) nie jest punktem odbiegającm

H

A

: x

1

(lub odpowiednio x

n

) jest punktem odbiegającym

3.

Obliczamy statystykę Q

:


gdy podejrzewamy x

1


lub
gdy podejrzewamy x

n

4.  Uzyskaną wartość Q

porównujemy z tablicami

(Q

kr

) na odpowiednim

poziomie ufności α.

Jeżeli Q ≥ Q

kr

à

punkt odbiegający

(bo z

prawdopodobieństwem 1-α nie należy do tej samej populacji co pozostałe).

n

3

4

5

6

7

8

9

10

Q

kr

0,941 0,765 0,642 0,560 0,507 0,468 0,437 0,412

α=0,05

22  

background image

06.03.2013  

12  

Pracownia Chemometrii Środowiska

Statystyka t
•  Obliczamy statystykę t ze wzoru
•  Odnajdujemy w tablicach wartość t

kr

dla założonego

poziomu istotności α.

•  Jeżeli t > t

kr

to z prawdopodobieństwem 1-α nie

należy do populacji (odrzucamy).

Przedział ufności
•  Obliczamy przedział, w którym z

prawdopodobieństwem 1-α znajdują się wszystkie
wartości x

i

(tzw. przedział ufności).

•  Każdą wartość x

i

leżącą poza wyznaczonym

przedziałem możemy odrzucić (popełniając przy tym
błąd nie większy niż α).

UWAGA! Średnią i odchylenie standardowe obliczamy dla pozostałych punktów
bez „podejrzanego

wyniku!!!

23  

Pracownia Chemometrii Środowiska

24  

background image

06.03.2013  

13  

Pracownia Chemometrii Środowiska

0.100

0.050

0.020

0.010

1

6.314

12.706

31.821

63.656

2

2.920

4.303

6.965

9.925

3

2.353

3.182

4.541

5.841

4

2.132

2.776

3.747

4.604

5

2.015

2.571

3.365

4.032

6

1.943

2.447

3.143

3.707

7

1.895

2.365

2.998

3.499

8

1.860

2.306

2.896

3.355

9

1.833

2.262

2.821

3.250

10

1.812

2.228

2.764

3.169

11

1.796

2.201

2.718

3.106

12

1.782

2.179

2.681

3.055

13

1.771

2.160

2.650

3.012

14

1.761

2.145

2.624

2.977

15

1.753

2.131

2.602

2.947

16

1.746

2.120

2.583

2.921

17

1.740

2.110

2.567

2.898

18

1.734

2.101

2.552

2.878

19

1.729

2.093

2.539

2.861

α – poziom istotności

ν = n - 1

ν

liczb

a

st

op

ni

sw

ob

od

y

n = 19
v = 18
m = 69,5
s = 4,8

25  

Pracownia Chemometrii Środowiska

Jeżeli dany wynik x

i

znajduje się o więcej niż 3 odchylenia standardowe od

średniej to z prawdopodobieństwem ok. 99 % możemy mówić, że nie należy on do
populacji.

26  

Zakres

P(A)

[-­‐1,0;  1,0]

≈  0.68

[-­‐2,0;  2,0]

≈  0.95

[-­‐3,0;  3,0]

≈  0.99


Wyszukiwarka

Podobne podstrony:
MetStatChem 03 notatki
MetStatChem 02a notatki
MetStatChem 02d notatki
MetStatChem 01 notatki
MetStatChem 02c notatki
MetStatChem 03 notatki
MetStatChem 02a notatki
MetStatChem 02a notatki
02b Rozkład normalnyid 4039 ppt
Istota , cele, skladniki podejscia Leader z notatkami d ruk
MODELOWANIE DANYCH notatki
Prezentacja ochrona własności intelektualnej notatka
notatki makro2 wiosna09
Prawo cywilne notatki z wykładów prof Ziemianin

więcej podobnych podstron