analiza wynikow w statystyce id Nieznany (2)

background image

1

Statystyczna interpretacja

wyników eksperymentu

Małgorzata Jakubowska

Katedra Chemii Analitycznej

Wydział In

ż

ynierii Materiałowej i Ceramiki AGH

Podstawowe zadanie statystyki

Statystyka

to uniwersalne i łatwo dostępne

narzędzie, które pomaga konwertować wyniki
eksperymentu na wiedzę o badanym obiekcie lub
procesie.

Poważnym błędem jest pominięcie analizy
statystycznej tam, gdzie jest ona potrzebna.

Zalety statystyki

Tworzenie zwartej i treściwej reprezentacji danych:

• dysponujemy nowoczesną aparaturą, która w krótkim czasie

dostarcza znacznej ilości wyników

• wyniki te należy przekształcić w użyteczną informację

• człowiek może brać pod uwagę jedynie ograniczoną liczbę

faktów

• statystyka pomaga zrozumieć dane, wydobyć z nich użyteczną

informację i przekształcić ją w wiedzę

Zalety statystyki II

Wnioskowanie w oparciu o niepewne dane:

• dane eksperymentalne są niepewne np. z powodu błędów

pomiarowych,

niejednorodności

badanego

obiektu,

niedoskonałości modeli stosowanych do interpretacji

• eksperymentatora interesują wnioski pewne

• statystyka pozwala wyeliminować lub ograniczyć niektóre

czynniki zmienności

• wynik podawany jest wraz z oszacowaniem niepewności

Zalety statystyki III

Przekształcanie danych do postaci użytecznej w

rozwiązywaniu postawionego zadania:

• informacja zawarta jest w danych w postaci „uwikłanej”

• surowe dane należy przekształcić do formy przydatnej w

rozwiązywanym problemie

• stosujemy modele dobrze zdefiniowane i często łatwo

dostępne w systemach analizy danych

• zastosowanie adekwatnego modelu pozwala uzyskać

odpowiedź na postawione pytanie

Niebezpieczeństwa

stosowania statystyki

Nieumiejętne stosowanie metod statystycznych polega na:
• użyciu niewłaściwych pojęć i modeli, które nie są uzasadnione

teoretycznie i źle reprezentują dane

• ograniczaniu warstwy informacyjnej poprzez zastosowanie

zbyt daleko idących uproszczeń

• zbyt kategorycznym formułowaniu wniosków w oparciu o

niepewne dane

• uruchamianiu procedur komputerowych bez istotnej wiedzy o

ich działaniu

• niewłaściwej prezentacji danych
• celowym ukrywaniu faktów np. dużego rozrzutu danych

eksperymentalnych poprzez podanie jedynie wartości średniej

background image

2

Podstawowe wymogi warunkujące

miarodajność wyników

reprezentatywność próbki (próbka musi wiernie
odzwierciedlać skład chemiczny całego badanego obiektu)

jednorodność próbki (bardzo istotne, gdy niski poziom analitu
lub mała masa próbki pobranej do analizy)

selektywność metody analitycznej (niezależności wyniku od
wpływu składników matrycy)

losowość wyników (test znaków różnic, test trendu)

Analiza danych

eksperymentalnych

Przyczyny niepewności wyników eksperymentu:

• błędy grube

• błędy systematyczne

• błędy przypadkowe

Wszystkie wyniki pomiarów, włączając te uzyskane instrumentem

o bardzo dużej precyzji i przy wysokiej dbałości eksperymentalnej,

nie są dokładne, lecz mają przybliżony charakter.

Błąd gruby

wynika z niedbałości lub ewidentnej pomyłki eksperymentatora,

wyraźnej

niesprawności

sprzętu

albo

nieoczekiwanego

zaburzenia układu pomiarowego

• objawia się istnieniem jednego wyniku znacząco odstającego od

pozostałych, uzyskanych w danej serii pomiarów

• wynik pomiaru obarczony błędem grubym jest zazwyczaj łatwo

zauważalny i należy go odrzucić (wyeliminować) lub posłużyć się
odpowiednim testem

• ostateczny wynik nie powinien być obciążony wpływem błędu

grubego.

Błąd gruby – test Deana Dixona

• W wyniku kilkakrotnie przeprowadzonej analizy uzyskujemy szereg

wyników najczęściej różniących się między sobą.

• Stwierdzamy, że jeden z wyników znacznie różni się od pozostałych.

• Musimy zdecydować czy należy go odrzucić.

• Decyzja o odrzuceniu wyniku powinna opierać się na przesłankach

statystycznych.

• W tym celu stosujemy jeden z testów, np. test Deana Dixona.

Błąd gruby – test Deana Dixona

Obliczamy parametr Q według wzoru:

R

y

y

Q

1

2

=

gdzie y

1

- wynik wątpliwy, y

2

- wynik mu najbliższy, R - rozrzut wyników.

Wartości krytyczne parametru Q testu Deana Dixona

Poziom ufności 1-

αααα

Liczba

wyników

0.90

0.95

0.98

0.99

3

0.886

0.941

0.972

0.988

4

0.679

0.765

0.846

0.889

5

0.557

0.642

0.729

0.760

6

0.482

0.560

0.644

0.698

7

0.434

0.507

0.586

0.637

8

0.399

0.468

0.543

0.590

9

0.370

0.437

0.510

0.555

10

0.349

0.412

0.483

0.527


Wynik wątpliwy należy
odrzucić, jeżeli obliczony
parametr Q jest większy
od odczytanej z tablicy
krytycznej wartości dla
wybranego poziomu
istotności.

Błąd systematyczny

• błąd polegający na stałym lub zmiennym, systematycznym odchyleniu

wyniku pomiaru od rzeczywistej wartości wielkości mierzonej

• przesunięcie wyniku następuje zwykle w tę sama stronę

• dowolna liczba powtórzeń pomiaru nie ujawni nieprawidłowości

• przyczyny:

nieprawidłowe

ustawienia

przyrządu

pomiarowego,

niewystarczająca czystość

chemiczna, periodyczne zaburzenia układu

pomiarowego czynnikami zewnętrznymi, niedoskonała standaryzacja lub
kalibracja, błąd obsługi, niedoskonała procedura pomiarowa

• błąd ten eliminuje się zmieniając przyrząd na pozbawiony wady lub

kontrolując tok postępowania oraz warunki, w których wykonywany jest
pomiar

• czasami daje się skorygować wynik numerycznie po pomiarze

• metody statystyczne nie mają tu zastosowania.

background image

3

Rodzaje błędów systematycznych

stały

B

ł

ą

d

Warto

ść

mierzona

proporcjonalny

0.0

Warto

ść

mierzona

złożony

0.0

Warto

ść

mierzona

W

a

rt

o

ś

ć

m

ie

rz

o

n

a

Zmienna niezale

ż

na

Zmienna niezale

ż

na

0.0

0.0

0.0

0.0

Zmienna niezale

ż

na

Błędy przypadkowe

• powstaje na skutek działania czynników losowych

jest miarą rozrzutu otrzymywanych wyników wokół wartości najbardziej

prawdopodobnej.

• jego obecność powoduje niemożność uzyskania jednakowych wartości wyników

w danej serii pomiarowej (przy założeniu, że są mierzone z wystarczającą ilością
miejsc znaczących)

• źródłami błędów losowych są wszelkie zmienności występujące w sposób

przypadkowy w toku procesu analitycznego (czynniki zewnętrzne, właściwości
obiektu pomiarowego, niestabilna praca urządzeń)

• błędu przypadkowego w zasadzie nie da się wyeliminować ani skorygować a

także nie da się go oszacować przed dokonaniem pomiaru

• staramy się tak zaprojektować i przeprowadzić pomiar, aby wartość błędu

przypadkowego była jak najmniejsza

• po zakończeniu pomiaru dokonujemy oceny (oszacowania) wielkości błędu

losowego przy użyciu narzędzi statystycznych.

Błędy przypadkowe

Tablica Galtona
– model procesu
pomiaru

Błędy przypadkowe -

modelowanie

Wykonujemy pomiar wielkości x, czyli spuszczamy kulkę na tablicy Galtona.
Najmniejsza działka naszego przyrządu pomiarowego równa jest odległości między
kołeczkami w rzędzie. Następujące relacje określają związki pomiędzy rzeczywistym
i modelowanym pomiarem:

Proces pomiaru

ruch kulki na tablicy

Błędy pomiarowe

przemieszczenia poziome kulki

Wynik pomiaru

numer przegródki, do której trafi

ł

a kulka

1. Błędy przypadkowe obecne są w każdym pomiarze - spadające kulki zawsze
ulegają zderzeniom z kołeczkami.
2. Błąd przypadkowy pomiaru można rozpatrywać jako sumę bardzo dużej liczby
małych, jednakowych błędów elementarnych - końcowe przemieszczenie kulki jest
sumą dużej liczby ma

ł

ych, jednakowych przemieszczeń.

3. B

ł

ę

dy elementarne występują z jednakowym prawdopodobieństwem ze znakiem

plus i minus - prawdopodobieństwa odchyleń w prawo i w lewo są takie same.

Rozkład normalny

2

2

2

)

(

2

1

)

(

σ

µ

π

σ

ϕ

=

x

e

x

µ

- wartość oczekiwana

σ

2

- wariancja zmiennej

losowej

π

σ

2

1

max

=

y

Estymacja punktowa

Estymator – parametr obliczony z próby celem uzyskania

informacji o parametrach populacji generalnej.

Estymacja punktowa - wyznaczamy z próby tylko niektóre

parametry (punkty) rozkładu, a nie cały rozkład, np.
dystrybuantę lub gęstość rozkładu. Nie potrafimy podać
dokładności uzyskanej oceny.

background image

4

Estymacja punktowa

Estymatory wartości centralnej:

•średnia arytmetyczna
•mediana
•moda
•średnia ważona

Estymatory rozrzutu wyników:

•odchylenie standardowe
•wariancja
•względne odchylenie standardowe
•współczynnik zmienności

Estymacja punktowa

Medianą dla n wyników y

1

, y

2

,...,y

n

uporządkowanych według

wielkości jest wartość leżąca w środku.

n

y

y

n

i

i

=

=

1

Niech n oznacza liczebność próby czyli liczbę pomiarów.

Średnia arytmetyczna w próbie n wyników y

1

, y

2

,...,y

n

:

Estymacja punktowa

Wariancja zmiennej losowej

Odchylenie standardowe

Względne odchylenie standardowe

Współczynnik zmienności

1

)

(

1

2

2

=

=

n

y

y

S

n

i

i

2

S

S

=

y

S

RSD

=

%

100

=

RSD

CV

Estymacja przedziałowa

Estymacja przedziałowa pozwala na oszacowanie wartości parametru
jakiegoś rozkładu oraz podanie dokładności, z jaką to oszacowanie
wykonano.

Przedziałem ufności (ang. confidence interval) dla parametru y na poziomie

ufności (1-

α

αα

α

) nazywamy przedział (y

1

, y

2

) spełniający następujące warunki:

• jego końce y

1

i y

2

są funkcjami próby i nie zależą od szacowanego parametru

• prawdopodobieństwo pokrycia przez ten przedział nieznanego parametru y

jest równe (1-

α

αα

α

), co zapisujemy w postaci:

P(y

1

< y < y

2

)=1-

α

αα

α

gdzie

α

αα

α

jest ustalonym z góry prawdopodobieństwem.

Stosuje się następującą terminologię:

α

αα

α

poziom istotności

1-

α

αα

α

poziom ufności (ang. confidence level)

Estymacja przedziałowa

Przedział ufności dla średniej rozkładu normalnego o nieznanej
wariancji:

CI

y

y

CI

y

+

<

<

gdzie

n

S

t

CI

α

=

t

α

- α-procentowa wartość t, którą odczytuje się z tablic t - Studenta

przy poziomie ufności 1-α oraz n-1 stopniach swobody.

Poziom istotności

α

wynosi najczęściej 0.05 lub 0.01.

Estymacja przedziałowa

Przedział ufności z zadanym z góry prawdopodobieństwem (1 - α) pokrywa
prawdziwą wartość parametru

y

.

Wartości funkcji t - Studenta w zależności od poziomu istotności i liczby stopni swobody

Poziom ufności 1-

αααα

Liczba stopni

swobody n-1

0.90

0.95

0.99

0.999

1

6.314

12.706

63.657

636,619

2

2.920

4.303

9.925

31.598

3

2.353

3.182

5.841

12.941

4

2.132

2.776

4.604

8.610

5

2.015

2.571

4.032

6.859

6

1.943

2.447

3.707

5.959

7

1.895

2.365

3.499

5.405

8

1.860

2.306

3.355

5.041

9

1.833

2.262

3.250

4.781

10

1.812

2.228

3.169

4.587

15

1.753

2.131

2.947

4.073

20

1.725

2.086

2.845

3.850

background image

5

Testowanie hipotez

Badacz precyzuje swój problem i wyraża go w formie pewnej
hipotezy.

Dzieje się to przed zaplanowaniem i wykonaniem doświadczenia.

Samo doświadczenie ma służyć

do sprawdzenia słuszności

postawionej hipotezy.

Metody weryfikowania hipotez nazywamy testami istotności.

Test istotności F w przypadku

różnicy dwóch wariancji

Zmienna losowa y

1

ma rozkład normalny z nieznaną średnią

µ

1

i

odchyleniem standardowym

σ

1

, zmienna y

2

ma rozkład normalny z

parametrami

µ

2

i

σ

2

.

Test istotności F sprawdza czy wariancja pierwszej populacji jest
równa wariancji drugiej populacji
. Dla zweryfikowania hipotezy o
równości wariancji korzystamy z funkcji testowej postaci:

oraz

n

1

i n

2

oznaczają liczebność pierwszej i drugiej próby

S

1

2

i S

2

2

oznaczają wariancje pierwszej i drugiej próby

2

2

2

1

0

S

S

F

=

2

2

2

1

S

S

>

Test istotności F w przypadku

różnicy dwóch wariancji

Odpowiednią wartość graniczną F odczytuje się z tablic F przy n

1

-1 i

n

2

-1 stopniach swobody.

Jeżeli F

0

jest większe od wartości krytycznej to hipotezę

odrzucamy.

Test istotności oparty na funkcji F może służyć do porównywania
precyzji dwóch metod lub do porównania precyzji dwóch zbiorów
liczbowych, będących wynikiem stosowania tej samej metody w
odmiennych warunkach lub przez różnych pracowników.

Test istotności t w przypadku

różnicy dwóch średnich

Zmienna losowa y

1

ma rozkład normalny z nieznaną średnią

µ

1

i

odchyleniem standardowym

σ

, zmienna y

2

ma rozkład normalny ze

ś

rednią

µ

2

i tym samym odchyleniem standardowym

σ

.

Dla zweryfikowania hipotezy o równości średnich korzystamy z
funkcji testowej postaci:

n

1

, n

2

oznaczają liczebność pierwszej i drugiej próby

oznaczają średnie arytmetyczne pierwszej i drugiej próby

S oznacza wariancję

)

1

1

(

2

)

1

(

)

1

(

2

1

2

1

2

2

2

2

1

1

2

1

0

n

n

n

n

S

n

S

n

y

y

t

+

+

+

=

2

1

, y

y

Test istotności t w przypadku

różnicy dwóch średnich

Ilość stopni swobody n

1

+n

2

-2 wskazuje ten wiersz w tablicy t

Studenta, z którego przy obranym ryzyku błędu

α

=0.05 lub

α

=0.01

odczytuje się wartość krytyczną t

0.05

lub t

0.01

.

Jeżeli

α

=0.05 oraz okaże się, że t

0

jest większe od t

0.05

, to hipotezę

odrzucamy z 5-procentowym ryzykiem błędu i wnioskujemy o
istotnej różnicy między średnimi prób.

Regresja liniowa

Regresja liniowa
metodą
najmniejszych
kwadratów

background image

6

Regresja liniowa

0

10

20

30

40

50

60

70

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

y = 0.00998x + 0.033
r = 0.9987

W

y

so

k

o

ś

ć

p

ik

u

[

µ

A

]

Stężenie [

µ

M]

Metoda najmniejszych

kwadratów

Minimalizacja wyrażenia:

=

+

=

n

i

i

i

bx

a

y

1

2

))

(

(

Przyrównujemy do zera
pochodne cząstkowe:

a

b

oraz

Regresja liniowa

x

xy

Q

Q

b

=

x

b

y

a

=

n

x

x

x

x

Q

n

i

i

n

i

i

n

i

i

x

2

1

1

2

1

2

)

(

)

(

=

=

=

=

=

y

x

n

y

x

n

y

x

y

x

y

y

x

x

Q

n

i

i

i

n

i

i

n

i

i

n

i

i

i

n

i

i

i

xy

=

=

=

=

=

=

=

=

1

1

1

1

1

)

)(

(

x

y

,

- średnie arytmetyczna wartości x

i

oraz y

i

Przedstawianie bł

ę

dów pomiarowych

i zaokr

ą

glanie wyników

Przedstawianie bł

ę

dów pomiarowych

i zaokr

ą

glanie wyników

W ogólnym przypadku wynik pomiaru przedstawiamy w postaci:

X

R

= X

M

±

X

gdzie:

X

R

- warto

ść

rzeczywista wielko

ś

ci mierzonej,

X

M

- warto

ść

uzyskana w wyniku pomiaru,

X

- niepewno

ść

lub bł

ą

d pomiaru.

Powy

ż

szy zapis oznacza,

ż

e:



najlepszym przybli

ż

eniem warto

ś

ci mierzonej jest według

eksperymentatora liczba X

M



z rozs

ą

dnym prawdopodobie

ń

stwem szukana warto

ść

znajduje

si

ę

gdzie

ś

pomi

ę

dzy X

M

-

X i X

M

+

X.

Przedstawianie bł

ę

dów pomiarowych

i zaokr

ą

glanie wyników II



wynik X

M

oraz bł

ą

d pomiaru

X s

ą

wielko

ś

ciami szacowanymi



nie ma wi

ę

c sensu podawa

ć

wszystkich cyfr, które otrzymujemy

z oblicze

ń



obliczone warto

ś

ci X

M

i

X podajemy zaokr

ą

glone



oznacza to,

ż

e przybli

ż

amy warto

ś

ci otrzymane z oblicze

ń

.

Przedstawianie bł

ę

dów pomiarowych

i zaokr

ą

glanie wyników II



cyframi znacz

ą

cymi danej liczby ró

ż

nej od zera nazywamy

wszystkie jej cyfry z wyj

ą

tkiem wyst

ę

puj

ą

cych na pocz

ą

tku zer



do cyfr znacz

ą

cych zalicza si

ę

równie

ż

zera ko

ń

cowe, je

ś

li s

ą

one wynikiem oblicze

ń

, a nie zaokr

ą

gle

ń



oznacza to,

ż

e pierwsza cyfra znacz

ą

ca musi by

ć

ż

na od zera,

natomiast druga, trzecia i dalsze mog

ą

by

ć

zerami.

background image

7

Przedstawianie bł

ę

dów pomiarowych

i zaokr

ą

glanie wyników III



obliczenia wykonujemy zawsze z wi

ę

ksz

ą

liczb

ą

cyfr, ni

ż

chcemy poda

ć

wynik



zaokr

ą

gle

ń

dokonujemy dopiero po zako

ń

czeniu oblicze

ń



oszacowane

ę

dy zaokr

ą

glamy zawsze w gór

ę

, poniewa

ż

w

ż

adnym przypadku nie wolno pomniejsza

ć

ę

dów. Zawsze

lepiej poda

ć

zawy

ż

on

ą

warto

ść

ę

du ni

ż

go niedoszacowa

ć

;

ę

dy pomiarów zaokr

ą

glane s

ą

do pierwszej cyfry znacz

ą

cej

(wyj

ą

tek: 1, 2)



przy zaokr

ą

glaniu wyniku pomiaru stosowane s

ą

powszechnie przyj

ę

te zasady zaokr

ą

gle

ń

: liczb

ę

ko

ń

cz

ą

c

ą

si

ę

cyframi 0-4 zaokr

ą

glamy w dół, a 5 - 9 w gór

ę



ostatnia cyfra znacz

ą

ca w ka

ż

dym wyniku pomiaru powinna

sta

ć

na tym samym miejscu dziesi

ę

tnym, co bł

ą

d pomiaru.

Dziękuję za uwagę!


Wyszukiwarka

Podobne podstrony:
4 Analiza progu rentownosci id Nieznany (2)
dodatkowe8 analiza 2011 12 id 1 Nieznany
analiza zwiazkow organiczna id Nieznany (2)
B14 analiza plu przedzialy id 7 Nieznany
Cw Analiza finansowa bankow id Nieznany
analizator stanow logicznych id Nieznany (2)
analiza dzialan promocyjnych id Nieznany (2)
Analiza finansowa dzwignie id 6 Nieznany
MwNNE plan wynikowy 1 151608 id Nieznany
analiza dyskryminacyjna 2011 id Nieznany (2)
5 Analiza wyniku finansowego id Nieznany (2)
Probabilistyka i Statystyka id Nieznany
analiza istrumentalna kolo 2 id Nieznany (2)
analiza strategiczna bakoma id Nieznany (2)
Dodatki statystyczne A B C id 1 Nieznany
Analiza spoBki budownictwo id 6 Nieznany
analiza strategiczna space id 6 Nieznany
cw 3, Analiza piwa (teoria) id Nieznany
ANALIZA KINEMATYCZNA BELEK id 6 Nieznany (2)

więcej podobnych podstron