Statystyka i planowanie
eksperymentów
Janusz Donizak
Kraków, 2012
Podręczniki i źródła
„Analiza danych”, S. Brandt, PWN, 1999
„Statystyka i data mining w badaniach statystycznych”,
www.statsoft.pl, 2004
„Statystyka dla fizyków”, Roman Nowak, PWN, 2002
„Przystępny kurs statystyki”, A. Stanisz, Statsoft, 2006
„Rachunek prawdopodobieństwa”, L. Kubik, PWN, 1973
Motto:
„Zacznę od zaskakującego na pierwszy rzut oka stwierdzenia, że wszyscy ludzie stale posługują się statystyką. ... Skonfrontowani z koniecznością wytworzenia sobie pewnego syntetycznego sądu na podstawie wielu danych szczegółowych, odwołujemy się zwykle do średniej, mediany albo wartości modalnej (pojęcia charakteryzujące rozkład statystyczny), chociaż czasem nie znamy tych pojęć. Jednak wypowiadamy sądy typu: ‘w tym sklepie jest drogo’, ‘to jest bogaty kraj’, etc., w istocie sięgamy do uogólnienia, którego korzenie tkwią w statystycznych technikach
... Stwierdzić można:
mimo hermetycznej i trudnej terminologii, używanej i
nadużywanej przez statystyków ... – statystyka jest w istocie czymś prostym i oczywistym. Chodzi po prostu o sztukę wyciągania trafnych, maksymalnie wiarygodnych wniosków w sytuacji, gdy do dyspozycji jest wiele danych, a każda z nich jest trochę inna od pozostałych i może sugerować coś innego.
... Tymczasem poprawnie stosowana statystyka jest takim samym działem matematyki jak trygonometria, algebra, rachunek różniczkowy i całkowy itp. Jest ona częścią rachunku prawdopodobieństwa i wykorzystują ją niemal na każdym kroku inne nauki ścisłe jak fizyka i chemia – absolutnie bez żadnych nadużyć. ”
R. Tadeusiewicz
Statystyka jest polem badań w dziedzinie nauki o gromadzeniu i analizie ilościowych danych w celu wyprowadzenia z nich
konkluzji w obliczu ich niepewności.
Statystyka
to
nauka
o
metodach
badania
prawidłowości
występujących w zjawiskach masowych.
A. Sokołowski, Kat. Statystyki AE
Niezależnie od tego, jakie jest źródło danych (zaplanowany i zrealizowany eksperyment,
obserwacje
zjawisk
nie
podlegających
badaniom
eksperymentalnym – zachowania społeczne, ekonomia etc.) są one obarczone pewnymi
przypadkowymi
zakłóceniami.
Statystyka
jest
narzędziem
matematycznym pozwalającym na odróżnienie tego co stałe i niezmienne od tego co ulotne i przypadkowe.
Statystyka służy więc zatem do tego, by wydobyć prawdę z chaosu, by uchronić nas przed skutkami niepewności wynikającej z przypadkowości wielu czynników i by pomagać nam osiągać
pewność i skuteczność w warunkach niepewności.
R. Tadeusiewicz
Książka p.t. „Common Errors in Statistics (and How to Avoid Them)”
P. I. Good i J.W. Hardin
obdarzona została mottem:
„Don’t think – use the computer” (Nie myśl – używaj komputera)
Do najbardziej typowych błędów przy stosowaniu metod statystycznych w badaniach, wiele autorytetów wymienia następujące:
niewłaściwe planowanie eksperymentu badawczego i brak z góry określonej hipotezy badawczej (tutaj warto wspomnieć zasadnicze wskazówki dla eksperymentatorów:
„Sformułuj cele badań i sposób wykorzystania wyników, zanim rozpoczniesz eksperyment. Sformułuj hipotezy i wszystkie związane z nimi alternatywy.
Określ możliwe wyniki eksperymentów, ich znaczenie i potencjalne wnioski.
Zrób to, zanim zbierzesz jakiekolwiek dane oraz zanim włączysz komputer.)”
nieprawidłowe
metody
pozyskiwania
danych
(m.inn.
nielosowość
i
niereprezentaty-wność, nieadekwatna liczebność próby badanej b. często spowodowana ograniczonymi środkami finansowymi),
użycie niewłaściwych metod statystycznych (m.inn. dobór niewłaściwych testów statystycznych, niespełnienie warunków dla zastosowania określonych testów), pozwolenie na to, aby statystyczne procedury podejmowały decyzje za badacza (oprogramowanie)
Statystyka jest narzędziem matematycznym pozwalającym na odróżnienie tego co stałe i niezmienne od tego co ulotne i przypadkowe Źródła niepewności danych empirycznych:
- Na każde zjawisko oddziałują dwa rodzaje przyczyn:
-
główne ( składnik systematyczny)
-
uboczne ( składnik losowy)
- Dodatkowym czynnikiem wpływającym na niepewność danych empirycznych są
nieuniknione niedokładności przyrządów pomiarowych.
Rozrzut rezultatów badań empirycznych nazywamy fluktuacją i wiążemy z procesem pomiarowym, czyli brakiem absolutnej wierności w każdym z wykonanych aktów pomiarowych.
2 5
2 0
wróia 1 5
mo pab 1 0
zlic
5
0
9 0 0
9 5 0
1 0 0 0
1 0 5 0
1 1 0 0
p r z y s p i e s z e n i e z i e m s k i e [ c m / s 2 ]
Wyniki eksperymentu w którym wyznaczano wartość przyspieszenia ziemskiego g na podstawie czasu staczania walca z równi pochyłej.
Źródła niepewności danych empirycznych
Natura badanego zjawiska
Przyczyny główne wynikają z istoty zjawiska, działają w sposób trwały i ukierunkowany, jednakowo na wszystkie elementy badanej zbiorowości i one właśnie powodują powstawanie PRAWIDŁO-WOŚCI, nazywanych niekiedy składnikiem systematycznym.
Przyczyny uboczne
(inaczej losowe)
oddziaływają
różnie na
poszczególne elementy zbiorowości, działają różnokierunkowo i w sposób
nietrwały.
One
to
powodują
odchylenia
od
PRAWIDŁOWOŚCI, są źródłem tzw. składnika losowego.
Niektóre zjawiska przejawiają w ogólności charakter statystyczny.
Przykład: badania rozpadu izotopu bizmutu o liczbie masowej 211, ujawniają że rozpad może przebiegać dwutorowo: do Po211 (emisja elektronu i neutrino) oraz 84
do Tl207
(emisja cz
). Drogi rozpadu przebiegaj
81
ąstki alfa He42
ą losowo,
niezależnie od warunków pomiaru, aczkolwiek statystycznie średnio rozpad 1-szą drogą zachodzi w 65 % przypadków.
Nieuniknione niedokładności przyrządów pomiarowych
Doświadczeniem w sensie laboratoryjnym będziemy nazywali
ścisłe przestrzeganie pewnej z góry ustalonej procedury, w rezultacie
której
otrzymujemy,
w
wyniku
dokonanych
pomiarów interesującej wielkości, zbiór wartości stanowiących wynik.
Każdy pomiar wielkości fizycznej o rozkładzie ciągłym w
dokonywanym eksperymencie jest obarczony pewnym błędem,
który wynika ze skończonej dokładności urządzeń pomiarowych.
We
współczesnych
zastosowaniach
metod
statystycznej
analizy
danych
do
opracowania
wyników
badań
empirycznych wyróżnia się dwa podstawowe podejścia:
1) konfirmacyjna analiza danych
Postawione hipotezy badawcze wynikają z istniejącej lub postulowanej teorii albo z wyników wcześniejszych badań. Uważa się powszechnie, że z metodologicznego punktu widzenia weryfikacja postawionej hipotezy i konfirmacyjna analiza danych jest bardziej poprawna.
2) eksploracyjna analiza danych
W eksploracyjnej analizie danych problemy badawcze są stawiane bardziej ogólnie, przyjmują postać pytań badawczych lub ogólnych przypuszczeń.
Wybór metody zależy od sposobu formułowania problemu
badawczego i postawionych hipotez lub pytań badawczych.
Związek między hipotezą badawczą a hipotezą statystyczną
Hipoteza badawcza jest stwierdzeniem precyzującym istnienie jakiejś zależności, różnicy w przebiegu, czy samego mechanizmu funkcjonowania analizowanego procesu.
Przykłady:
1. Pewna reakcja chemiczna w określonych warunkach przeprowadzania procesu technologicznego przebiega w obszarze (reżimie) dyfuzyjnym ( lub kinetycznym).
2. Zastosowanie badanej/proponowanej modyfikacji procesu rafinacji metalu prowadzi do głębszego usunięcia domieszek niż w dotychczas stosowanych technologiach rafinacji.
3. Postulowane są 2 różne mechanizmy przebiegu reakcji rozpuszczania Cu w roztworze kwasu azotowego. Który z mechanizmów (wieloetapowych) jest w świetle badań empirycznych bardziej prawdopodobny?
Hipoteza statystyczna
Przez hipotezę statystyczną rozumiemy dowolne przypuszczenie co do rozkładu populacji generalnej (albo postaci albo wartości parametrów rozkładu).
Przykłady:
1. Średnia liczba braków produkcyjny w dużych partiach produkowanego określonego produktu wynosi 2% , co jest zgodne z ustaloną normą branżową. (Zadanie: skontrolować czy produkcja zakładu spełnia tę normę ).
2. Czasy wykonywania szarży w określonym typie konwertora mają rozkład normalny o dyspersji (odchyleniu standardowym) nie przekraczającym 20 minut. (Zadanie: sprawdź,
czy
uzyskiwane
rezultaty
konwertorownia
przez
określoną
zmianę
pracowniczą wskazują na błędy lub brak dyscypliny).
3. Produkty otrzymywane
wyniku zastosowania 2 alternatywnych procesów
technologicznych wykazują jednakowy rozkład najistotniejszej cechy jakościowej produktu w obu procesach
technologicznych.
(Zadanie: dokonaj wyboru procesu
technologicznego do dalszej eksploatacji, popartego obiektywną oceną wykonanych prób).
Statystyka rozpatruje dwie możliwe sytuacje. Badania statystyczne mają charakter:
pełny
– obejmujący badanie cechy/zmiennej wszystkich elementów
tzw. populacji generalnej,
częściowy
– badanie cechy/zmiennej odbywa się na pewnych (zazwyczaj
losowo) wybranych elementach populacji; tzw. próba losowa-
zazwyczaj reprezentatywna dla populacji generalnej.
Pełne badanie - postępowanie ogranicza się do scharakteryzowania wyników badania (statystyka opisowa).
Badania częściowe - opieramy się na technikach wnioskowania statystycznego zajmujących się problemami uogólniania wyników badania próby losowej na całą populację (indukcja statystyczna) oraz szacowania błędów wynikających z takiego uogólnienia, czyli określania poziomu pewności orzekania.
Dwa działy wnioskowania statystycznego:
- estymacja - szacowanie wartości nieznanych parametrów rozkładu na podstawie znanych wyników pobranej próby ,
- weryfikacja hipotez statystycznych - sprawdzanie poprawności przypuszczeń na temat rozkładu statystycznego w populacji generalnej na podstawie informacji zebranych w trakcie badania próby losowej.
Konfirmacyjna vs eksploracyjna analiza danych
Podstawowe
różnice
w
obu
podejściach
metodologicznych
przejawiają się w:
A)
Sposobie pozyskiwania danych empirycznych
Eksperyment vs. obserwacja zjawisk i procesów bez ingerencji
B)
Roli danych empirycznych w badaniach statystycznych
Potwierdzenie przyjętych a priori modeli vs. poszukiwanie prawidłowości i wzorców w obrębie danych
C)
Technikach analizy statystycznej danych
Klasyczne techniki wnioskowania statystycznego (weryfikacja hipotez statystycznych)
vs.
techniki
graficzne,
analiza
grupowa,
metody
klasyfikacyjne, techniki data mining i machine learning. Wstępna analiza danych w 1) służy kontroli założeń stawianych przez metody wnioskowania, w 2) umożliwia wybór docelowych metod analizy danych.
D) Zakres uogólnienia wyników wnioskowania statystycznego
Eksploracyjna analiza nie daje podstaw do uogólnienia na szerszą zbiorowość obiektów.
Planowanie i analiza eksperymentów
Ogranicza się do konfirmacyjnej analizy danych.
Zaprojektowanie pomiaru określonych własności badanych
jednostek w warunkach umożliwiających weryfikację postawionych przez badacza hipotez i pytań badawczych. Efektem właściwego
zaplanowania
eksperymentu
jest
uzyskanie
danych
które
opracowywane
są
za
pomocą
odpowiedniego
modelu
statystycznego.
Określenie czynników wpływających na rezultat eksperymentu, Redukcja wymaganej
liczby kontrolowanych czynników w celu
osiągnięcia założonego rezultatu.
Punktem wyjścia procesu projektowania eksperymentu jest
odpowiedni zasób wiedzy z danej dziedziny, doświadczenie
badacza, oraz przykłady eksperymentów wykonanych przez innych badaczy.
R.A. Fisher (lata 30te XXw.) teoria eksperymentu
1) Określenie celu badań (pomiarów)
2) Określenie metody analizy wyników
3) Ustalenie planu badań
a) Dobrany ze względu na punkty 1 i 2 –
np. wyznaczenie parametrów funkcji (o zadanej
postaci) opisującej obiekt badań.
b) Możliwie mała liczba pomiarów (ekonomia)
4) Realizacja pomiarów/eksperymentu
5) Analiza i wnioskowanie statystyczne
Obiekt badań
x1
x2
...
F
z
xn
Plan badań
Zbiór m układów (zbiorów) wartości wielkości wejściowych
{x } ; k=1, 2, ... , n; i= 1, 2, ... , m,
k i
dla których mierzy się wartości zmiennej wyjściowej zi
{x } ; k=1, 2, ... , n; i= 1, 2, ... , m,
k i
Niech k=2 : {x x } ; i= 1, 2, ... , m
1,
2 i
10
9
8
7
Z max
6
5
4
Kompletny
3
plan badań
2
1
0
0
1
2
3
4
5
6
7
8
9
10
10
10
z=F2(x2); x1=x1opt=const
X2
x2
9
Planowanie badań i analiza9 wyników
krok 2
8
8
7
Plan badań 7
Z max
5
6
6
25
10
15
Wyznaczone
5
20
5
maksimum (?)
4
4
3
3
?
2
2
1
1
0
0
0
1
2
3
4
5
6
7
8
9
10
X
0
10
20
30
1
z
20
z=F1(x1) ; x2=const
z
krok 1
15
Plan tradycyjny
10
5
0
0
1
2
3
4
5
6
x1opt 7
8
9
10
x1
STATYSTYKA
Metody pozyskiwania danych ilościowych
Metody wykorzystania danych ilościowych i ich prezentacji
Metody indukcyjnego wnioskowania oparte o metody
prawdopodobieństwa matematycznego
4 elementy wspólne każdemu
zagadnieniu statystycznemu
Populacja generalna i procedura pobrania próbki
Próbka pobrana z populacji, analiza informacji zawartej w
niej
Wnioskowanie o populacji oparte na informacji zawartej w
próbce
Miara wiarygodności wnioskowania