Statystyka i planowanie
eksperymentów
Janusz Donizak
Kraków, 2011
Podręczniki i źródła
„Analiza danych”, S. Brandt, PWN, 1999
„Statystyka i data mining w badaniach
statystycznych”,
, 2004
„Statystyka dla fizyków”, Roman Nowak, PWN,
2002
„Przystępny kurs statystyki”, A. Stanisz, Statsoft,
2006
„Rachunek prawdopodobieństwa”, L. Kubik,
PWN, 1973
Statystyka
Statystyka jest polem badań w dziedzinie nauki o
gromadzeniu i analizie ilościowych danych w celu
wyprowadzenia z nich konkluzji w obliczu ich
niepewności.
Statystyka
Statystyka
to
nauka
o
metodach
badania
prawidłowości
występujących
w
zjawiskach
masowych.
A. Sokołowski, Kat. Statystyki AE
Niezależnie od tego, jakie jest źródło danych (zaplanowany i
zrealizowany
eksperyment,
obserwacje
zjawisk
nie
podlegających badaniom eksperymentalnym – zachowania
społeczne, ekonomia etc.) są one obarczone pewnymi
przypadkowymi zakłóceniami. Statystyka jest narzędziem
matematycznym pozwalającym na odróżnienie tego co stałe i
niezmienne od tego co ulotne i przypadkowe.
Statystyka
Statystyka służy więc zatem do tego, by wydobyć
prawdę z chaosu, by uchronić nas przed skutkami
niepewności wynikającej z przypadkowości wielu
czynników i by pomagać nam osiągać pewność i
skuteczność w warunkach niepewności.
R. Tadeusiewicz
STATYSTYKA
Metody pozyskiwania danych ilościowych
Metody wykorzystania danych ilościowych i ich
prezentacji
Metody indukcyjnego wnioskowania oparte o
metody prawdopodobieństwa matematycznego
Pojęcia Podst. Statystyki
POPULACJA
GENERALNA
–
zbiorowość
o
elementach będących obiektami materialnymi lub
zjawiskami. Każdemu z elementów zbiorowości można
przypisać pewne cechy (zmienne statystyczne).
Zbiorowość może być skończona lub nieskończona.
np. zbiorowość obywateli naszego kraju.
Elementy populacji mogą się różnić określoną cechą,
wtedy
mówimy
o
rozkładzie
danej
cechy
statystycznej (zmiennej statystycznej).
Próbką statystyczną nazywamy podzbiór danych
wybranych z populacji generalnej.
Wnioskowaniem statystycznym nazywamy decyzję,
oszacowanie,
przewidywanie
lub
uogólnienie
dotyczące populacji generalnej oparte na informacji
zawartej w próbce statystycznej.
Jest to główny cel badań statystycznych. Z każdym
wnioskowaniem opartym na niepełnych badaniach
populacji
wiąże
się
pojęcie
wiarygodności
wnioskowania.
4 elementy wspólne
każdemu zagadnieniu
statystycznemu
Populacja generalna i procedura pobrania
próbki
Próbka pobrana z populacji, analiza informacji
zawartej w niej
Wnioskowanie o populacji oparte na informacji
zawartej w próbce
Miara wiarygodności wnioskowania
Statystyka opisowa
Jednym
z
zadań
realizowanych
metodami
statystycznymi jest prezentacja rezultatów badań
empirycznych.
Często
opis
statystyczny
sprowadza
się
do
wyznaczenia
pewnych
liczbowych
parametrów
określających badany zbiór danych. Taki opis
statystyczny
jest
często
punktem
wyjścia
wnioskowania
statystycznego
na
temat
cech
populacji generalnej.
Jeśli zbiór danych obejmuje całą populację
generalną,
wnioskowanie
statystyczne
jest
zbędne, pozostaje tylko odpowiednia prezentacja
opracowanych rezultatów badań.
Forma prezentacji zebranych danych statystycznych
zależy zatem od sposobu pobierania próbki
statystycznej i rodzaju zbieranych danych.
Empirycznym rozkładem
Empirycznym rozkładem cechy (zmiennej)
statystycznej zwiemy przyporządkowanie określonym
wartościom cechy częstości jej wystąpienia w
badanej próbce.
Prezentacja danych
Częstością bezwzględną dla określonej kategorii
nazywamy całkowita liczbę n
i
danych które mieszczą
się w obrębie tej kategorii.
Częstością względną w
i
będziemy nazywać częstość
bezwzględną kategorii n
i
odniesioną do całkowitej
liczebności pobranej próbki n.
w
i
= n
i
/ n
Szeregiem rozdzielczym
Szeregiem rozdzielczym nazywamy uporządkowaną
tabelę częstości:
Liczba braków
(kategoria)
Liczba partii
produktu
(częstość
bezwzględna)
Częstość partii
produktu
(częstość
względna)
0
5
0.25
1
8
0.40
2
4
0.20
3
3
0.15
20
1.00
Histogramem
Histogramem nazywamy graficzną prezentację
rozkładu częstości w kategoriach (bezwzględnych lub
względnych).
Kategoria (liczba braków)
-1
0
1
2
3
4
Li
cz
ba
o
bs
er
w
ac
ji
0
2
4
6
8
10
Jeśli zmienna (cecha) jest zmienną ciągłą lub
dyskretną ale przyjmująca wiele wartości można
tabele rozdzielczą oraz histogram rozkładu zmiennej
przygotować, wydzieliwszy wcześniej odpowiednie
przedziały wartości zmiennej zwane
przedziałami
przedziałami
klasowymi
klasowymi.
Przykład. Z dokładnością do 1 minuty zmierzono czas
wykorzystany przez 120 pracowników wydziału
poświęcony
na
posiłek
regeneracyjny,
wyniki
przedstawiono w tabeli :
Czas poświęcony
posiłkowi
(kategoria )
Liczba prac.
(częstość
bezw.)
Czas poświęcony
posiłkowi
(kategoria )
Liczba prac.
(częstość bezw.)
3
2
19
8
5
5
20
8
10
7
22
9
12
5
23
3
14
11
25
6
16
8
27
7
17
13
30
8
Kategoria (czas w min)
0
5
10
15
20
25
30
35
40
Li
cz
ba
p
ra
co
w
ni
kó
w
0
2
4
6
8
10
12
14
Nie wszystkie możliwe kategorie posiadają niezerowe
częstości,
histogram
nie
daje
wystarczająco
przejrzystego obrazu rozkładu.
W takiej sytuacji zaleca się wprowadzenie przedziałów
klasowych, których liczba powinna spełniać k < 1+5
log
10
n . Dobrze jest dobrać przedziały o tej samej
rozpiętości, i unikać przedziałów o zbyt nikłej
(np.zerowej) częstości. Podział musi być rozłączny i
obejmować cały zakres zmienności w próbce.
2D Graph 3
0
5
10
15
20
25
30
35
0
5
10
15
20
25
Niewłaściwy podział na
kategorie
mimo k=10
0
5
10
15
20
25
30
35
0
5
10
15
20
25
30
35
Dobry podział na kategorie
k=8
1+5 log
10
100=1+5*2=11
Prezentacja częstości względnych (w
i
= n
i
/ n )
0-4
4-8
8-12
12-
16
16-
20
20-
24
24-
28
28-
32
Dystrybuanta
Dystrybuanta empiryczną nazywamy funkcję
określoną na podstawie częstości względnych
1
1
1
0 dla
dla
1 2
1
1 dla
( )
, ,...,
i
n
s
i
i
s
k
x x
F x
w
x
x x
i
k
x x
+
=
<
�
�
�
=
� <
=
-
�
�
�
�
�
�
Dystrybuanta jest funkcja niemalejącą i ograniczoną
do <0,1>.
Liczba
braków
(kategoria)
Liczba partii
produktu
(częstość
bezwzględna)
Częstość partii
produktu
(częstość
względna)
Dystrybuanta
empiryczna
0
5
0.25
0.25
1
8
0.40
0.65
2
4
0.20
0.85
3
3
0.15
1.00
20
1.00
0
3
1 2
1
0.5
Interpretacja:
F(2)=0.85 określa iż 85%
partii produktu miało co
najwyżej dwa braki.