Statystyka i planowanie

eksperymentów

Janusz Donizak

Kraków, 2012

Podręczniki i źródła

„Analiza danych”, S. Brandt, PWN, 1999

„Statystyka i data mining w badaniach statystycznych”,

www.statsoft.pl, 2004

„Statystyka dla fizyków”, Roman Nowak, PWN, 2002

„Przystępny kurs statystyki”, A. Stanisz, Statsoft, 2006

„Rachunek prawdopodobieństwa”, L. Kubik, PWN, 1973

Motto:

„Zacznę od zaskakującego na pierwszy rzut oka stwierdzenia, że wszyscy ludzie stale posługują się statystyką. ... Skonfrontowani z koniecznością wytworzenia sobie pewnego syntetycznego sądu na podstawie wielu danych szczegółowych, odwołujemy się zwykle do średniej, mediany albo wartości modalnej (pojęcia charakteryzujące rozkład statystyczny), chociaż czasem nie znamy tych pojęć. Jednak wypowiadamy sądy typu: ‘w tym sklepie jest drogo’, ‘to jest bogaty kraj’, etc., w istocie sięgamy do uogólnienia, którego korzenie tkwią w statystycznych technikach

... Stwierdzić można:

mimo hermetycznej i trudnej terminologii, używanej i

nadużywanej przez statystyków ... – statystyka jest w istocie czymś prostym i oczywistym. Chodzi po prostu o sztukę wyciągania trafnych, maksymalnie wiarygodnych wniosków w sytuacji, gdy do dyspozycji jest wiele danych, a każda z nich jest trochę inna od pozostałych i może sugerować coś innego.

... Tymczasem poprawnie stosowana statystyka jest takim samym działem matematyki jak trygonometria, algebra, rachunek różniczkowy i całkowy itp. Jest ona częścią rachunku prawdopodobieństwa i wykorzystują ją niemal na każdym kroku inne nauki ścisłe jak fizyka i chemia – absolutnie bez żadnych nadużyć. ”

R. Tadeusiewicz

Statystyka jest polem badań w dziedzinie nauki o gromadzeniu i analizie ilościowych danych w celu wyprowadzenia z nich

konkluzji w obliczu ich niepewności.

Statystyka

to

nauka

o

metodach

badania

prawidłowości

występujących w zjawiskach masowych.

A. Sokołowski, Kat. Statystyki AE

Niezależnie od tego, jakie jest źródło danych (zaplanowany i zrealizowany eksperyment,

obserwacje

zjawisk

nie

podlegających

badaniom

eksperymentalnym – zachowania społeczne, ekonomia etc.) są one obarczone pewnymi

przypadkowymi

zakłóceniami.

Statystyka

jest

narzędziem

matematycznym pozwalającym na odróżnienie tego co stałe i niezmienne od tego co ulotne i przypadkowe.

Statystyka służy więc zatem do tego, by wydobyć prawdę z chaosu, by uchronić nas przed skutkami niepewności wynikającej z przypadkowości wielu czynników i by pomagać nam osiągać

pewność i skuteczność w warunkach niepewności.

R. Tadeusiewicz

Książka p.t. „Common Errors in Statistics (and How to Avoid Them)”

P. I. Good i J.W. Hardin

obdarzona została mottem:

„Don’t think – use the computer” (Nie myśl – używaj komputera)

Do najbardziej typowych błędów przy stosowaniu metod statystycznych w badaniach, wiele autorytetów wymienia następujące:

niewłaściwe planowanie eksperymentu badawczego i brak z góry określonej hipotezy badawczej (tutaj warto wspomnieć zasadnicze wskazówki dla eksperymentatorów:

„Sformułuj cele badań i sposób wykorzystania wyników, zanim rozpoczniesz eksperyment. Sformułuj hipotezy i wszystkie związane z nimi alternatywy.

Określ możliwe wyniki eksperymentów, ich znaczenie i potencjalne wnioski.

Zrób to, zanim zbierzesz jakiekolwiek dane oraz zanim włączysz komputer.)”

nieprawidłowe

metody

pozyskiwania

danych

(m.inn.

nielosowość

i

niereprezentaty-wność, nieadekwatna liczebność próby badanej b. często spowodowana ograniczonymi środkami finansowymi),

użycie niewłaściwych metod statystycznych (m.inn. dobór niewłaściwych testów statystycznych, niespełnienie warunków dla zastosowania określonych testów), pozwolenie na to, aby statystyczne procedury podejmowały decyzje za badacza (oprogramowanie)

Statystyka jest narzędziem matematycznym pozwalającym na odróżnienie tego co stałe i niezmienne od tego co ulotne i przypadkowe Źródła niepewności danych empirycznych:

- Na każde zjawisko oddziałują dwa rodzaje przyczyn:

-

główne ( składnik systematyczny)

-

uboczne ( składnik losowy)

- Dodatkowym czynnikiem wpływającym na niepewność danych empirycznych są

nieuniknione niedokładności przyrządów pomiarowych.

Rozrzut rezultatów badań empirycznych nazywamy fluktuacją i wiążemy z procesem pomiarowym, czyli brakiem absolutnej wierności w każdym z wykonanych aktów pomiarowych.

2 5

2 0

wróia 1 5

mo pab 1 0

zlic

5

0

9 0 0

9 5 0

1 0 0 0

1 0 5 0

1 1 0 0

p r z y s p i e s z e n i e z i e m s k i e [ c m / s 2 ]

Wyniki eksperymentu w którym wyznaczano wartość przyspieszenia ziemskiego g na podstawie czasu staczania walca z równi pochyłej.

Źródła niepewności danych empirycznych

Natura badanego zjawiska

Przyczyny główne wynikają z istoty zjawiska, działają w sposób trwały i ukierunkowany, jednakowo na wszystkie elementy badanej zbiorowości i one właśnie powodują powstawanie PRAWIDŁO-WOŚCI, nazywanych niekiedy składnikiem systematycznym.

Przyczyny uboczne

(inaczej losowe)

oddziaływają

różnie na

poszczególne elementy zbiorowości, działają różnokierunkowo i w sposób

nietrwały.

One

to

powodują

odchylenia

od

PRAWIDŁOWOŚCI, są źródłem tzw. składnika losowego.

Niektóre zjawiska przejawiają w ogólności charakter statystyczny.

Przykład: badania rozpadu izotopu bizmutu o liczbie masowej 211, ujawniają że rozpad może przebiegać dwutorowo: do Po211 (emisja elektronu i neutrino) oraz 84

do Tl207

(emisja cz

). Drogi rozpadu przebiegaj

81

ąstki alfa He42

ą losowo,

niezależnie od warunków pomiaru, aczkolwiek statystycznie średnio rozpad 1-szą drogą zachodzi w 65 % przypadków.

Nieuniknione niedokładności przyrządów pomiarowych

Doświadczeniem w sensie laboratoryjnym będziemy nazywali

ścisłe przestrzeganie pewnej z góry ustalonej procedury, w rezultacie

której

otrzymujemy,

w

wyniku

dokonanych

pomiarów interesującej wielkości, zbiór wartości stanowiących wynik.

Każdy pomiar wielkości fizycznej o rozkładzie ciągłym w

dokonywanym eksperymencie jest obarczony pewnym błędem,

który wynika ze skończonej dokładności urządzeń pomiarowych.

We

współczesnych

zastosowaniach

metod

statystycznej

analizy

danych

do

opracowania

wyników

badań

empirycznych wyróżnia się dwa podstawowe podejścia:

1) konfirmacyjna analiza danych

Postawione hipotezy badawcze wynikają z istniejącej lub postulowanej teorii albo z wyników wcześniejszych badań. Uważa się powszechnie, że z metodologicznego punktu widzenia weryfikacja postawionej hipotezy i konfirmacyjna analiza danych jest bardziej poprawna.

2) eksploracyjna analiza danych

W eksploracyjnej analizie danych problemy badawcze są stawiane bardziej ogólnie, przyjmują postać pytań badawczych lub ogólnych przypuszczeń.

Wybór metody zależy od sposobu formułowania problemu

badawczego i postawionych hipotez lub pytań badawczych.

Związek między hipotezą badawczą a hipotezą statystyczną

Hipoteza badawcza jest stwierdzeniem precyzującym istnienie jakiejś zależności, różnicy w przebiegu, czy samego mechanizmu funkcjonowania analizowanego procesu.

Przykłady:

1. Pewna reakcja chemiczna w określonych warunkach przeprowadzania procesu technologicznego przebiega w obszarze (reżimie) dyfuzyjnym ( lub kinetycznym).

2. Zastosowanie badanej/proponowanej modyfikacji procesu rafinacji metalu prowadzi do głębszego usunięcia domieszek niż w dotychczas stosowanych technologiach rafinacji.

3. Postulowane są 2 różne mechanizmy przebiegu reakcji rozpuszczania Cu w roztworze kwasu azotowego. Który z mechanizmów (wieloetapowych) jest w świetle badań empirycznych bardziej prawdopodobny?

Hipoteza statystyczna

Przez hipotezę statystyczną rozumiemy dowolne przypuszczenie co do rozkładu populacji generalnej (albo postaci albo wartości parametrów rozkładu).

Przykłady:

1. Średnia liczba braków produkcyjny w dużych partiach produkowanego określonego produktu wynosi 2% , co jest zgodne z ustaloną normą branżową. (Zadanie: skontrolować czy produkcja zakładu spełnia tę normę ).

2. Czasy wykonywania szarży w określonym typie konwertora mają rozkład normalny o dyspersji (odchyleniu standardowym) nie przekraczającym 20 minut. (Zadanie: sprawdź,

czy

uzyskiwane

rezultaty

konwertorownia

przez

określoną

zmianę

pracowniczą wskazują na błędy lub brak dyscypliny).

3. Produkty otrzymywane

wyniku zastosowania 2 alternatywnych procesów

technologicznych wykazują jednakowy rozkład najistotniejszej cechy jakościowej produktu w obu procesach

technologicznych.

(Zadanie: dokonaj wyboru procesu

technologicznego do dalszej eksploatacji, popartego obiektywną oceną wykonanych prób).

Statystyka rozpatruje dwie możliwe sytuacje. Badania statystyczne mają charakter:

pełny

– obejmujący badanie cechy/zmiennej wszystkich elementów

tzw. populacji generalnej,

częściowy

– badanie cechy/zmiennej odbywa się na pewnych (zazwyczaj

losowo) wybranych elementach populacji; tzw. próba losowa-

zazwyczaj reprezentatywna dla populacji generalnej.

Pełne badanie - postępowanie ogranicza się do scharakteryzowania wyników badania (statystyka opisowa).

Badania częściowe - opieramy się na technikach wnioskowania statystycznego zajmujących się problemami uogólniania wyników badania próby losowej na całą populację (indukcja statystyczna) oraz szacowania błędów wynikających z takiego uogólnienia, czyli określania poziomu pewności orzekania.

Dwa działy wnioskowania statystycznego:

- estymacja - szacowanie wartości nieznanych parametrów rozkładu na podstawie znanych wyników pobranej próby ,

- weryfikacja hipotez statystycznych - sprawdzanie poprawności przypuszczeń na temat rozkładu statystycznego w populacji generalnej na podstawie informacji zebranych w trakcie badania próby losowej.

Konfirmacyjna vs eksploracyjna analiza danych

Podstawowe

różnice

w

obu

podejściach

metodologicznych

przejawiają się w:

A)

Sposobie pozyskiwania danych empirycznych

Eksperyment vs. obserwacja zjawisk i procesów bez ingerencji

B)

Roli danych empirycznych w badaniach statystycznych

Potwierdzenie przyjętych a priori modeli vs. poszukiwanie prawidłowości i wzorców w obrębie danych

C)

Technikach analizy statystycznej danych

Klasyczne techniki wnioskowania statystycznego (weryfikacja hipotez statystycznych)

vs.

techniki

graficzne,

analiza

grupowa,

metody

klasyfikacyjne, techniki data mining i machine learning. Wstępna analiza danych w 1) służy kontroli założeń stawianych przez metody wnioskowania, w 2) umożliwia wybór docelowych metod analizy danych.

D) Zakres uogólnienia wyników wnioskowania statystycznego

Eksploracyjna analiza nie daje podstaw do uogólnienia na szerszą zbiorowość obiektów.

Planowanie i analiza eksperymentów

Ogranicza się do konfirmacyjnej analizy danych.

Zaprojektowanie pomiaru określonych własności badanych

jednostek w warunkach umożliwiających weryfikację postawionych przez badacza hipotez i pytań badawczych. Efektem właściwego

zaplanowania

eksperymentu

jest

uzyskanie

danych

które

opracowywane

są

za

pomocą

odpowiedniego

modelu

statystycznego.

Określenie czynników wpływających na rezultat eksperymentu, Redukcja wymaganej

liczby kontrolowanych czynników w celu

osiągnięcia założonego rezultatu.

Punktem wyjścia procesu projektowania eksperymentu jest

odpowiedni zasób wiedzy z danej dziedziny, doświadczenie

badacza, oraz przykłady eksperymentów wykonanych przez innych badaczy.

R.A. Fisher (lata 30te XXw.) teoria eksperymentu

1) Określenie celu badań (pomiarów)

2) Określenie metody analizy wyników

3) Ustalenie planu badań

a) Dobrany ze względu na punkty 1 i 2 –

np. wyznaczenie parametrów funkcji (o zadanej

postaci) opisującej obiekt badań.

b) Możliwie mała liczba pomiarów (ekonomia)

4) Realizacja pomiarów/eksperymentu

5) Analiza i wnioskowanie statystyczne

Obiekt badań

x1

x2

...

F

z

xn

Plan badań

Zbiór m układów (zbiorów) wartości wielkości wejściowych

{x } ; k=1, 2, ... , n; i= 1, 2, ... , m,

k i

dla których mierzy się wartości zmiennej wyjściowej zi

{x } ; k=1, 2, ... , n; i= 1, 2, ... , m,

k i

Niech k=2 : {x x } ; i= 1, 2, ... , m

1,

2 i

10

9

8

7

Z max

6

5

4

Kompletny

3

plan badań

2

1

0

0

1

2

3

4

5

6

7

8

9

10

10

10

z=F2(x2); x1=x1opt=const

X2

x2

9

Planowanie badań i analiza9 wyników

krok 2

8

8

7

Plan badań 7

Z max

5

6

6

25

10

15

Wyznaczone

5

20

5

maksimum (?)

4

4

3

3

?

2

2

1

1

0

0

0

1

2

3

4

5

6

7

8

9

10

X

0

10

20

30

1

z

20

z=F1(x1) ; x2=const

z

krok 1

15

Plan tradycyjny

10

5

0

0

1

2

3

4

5

6

x1opt 7

8

9

10

x1

STATYSTYKA

Metody pozyskiwania danych ilościowych

Metody wykorzystania danych ilościowych i ich prezentacji

Metody indukcyjnego wnioskowania oparte o metody

prawdopodobieństwa matematycznego

4 elementy wspólne każdemu

zagadnieniu statystycznemu

Populacja generalna i procedura pobrania próbki

Próbka pobrana z populacji, analiza informacji zawartej w

niej

Wnioskowanie o populacji oparte na informacji zawartej w

próbce

Miara wiarygodności wnioskowania