K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
1
MPiS30 W09: PODSTAWY STATYSTYKI
MATEMATYCZNEJ
1. Różne pojęcia statystyki
2. Badanie statystyczne
3. Populacja generalna i cecha statystyczna
4. Wnioskowanie statystyczne
5. Próba a próba reprezentatywna
6. Rozkład teoretyczny a rozkład empiryczny
7. Twierdzenie o rozkładzie średniej arytmetycznej
Przykład 1
8. CTG
centralne twierdzenie graniczne
Przykład 2
9. CTG dla sumy
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
2
10. Rozkład t-Studenta, jego własności i zastosowanie
Przykład 3
11. Rozkład chi-kwadrat, jego własności i zastosowanie
Przykład 4
12. Statystyki porównania parametrów w dwóch popu-
lacjach normalnych
13. Statystyka porównania dwóch frakcji
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
3
1. Różne pojęcia statystyki
A. Statystyka jako nauka dostarcza metod pozyskiwania,
przetwarzania, zestawiania, analizy i prezentacji danych doty-
czących wyników doświadczeń, obserwacji zjawisk losowych
lub procesów masowych.
Wiele nauk zajmuje się badaniem „otaczającego nas świa-
ta” poprzez obserwacje lub konstrukcje doświadczeń dla po-
twierdzenia swoich
. Takie badania wymagają specjali-
stycznych metod i zwykle przebiegają według schematu:
planowanie doświadczenia,
zebranie i opracowanie danych,
analiza danych, ich interpretacja i wnioski.
Statystyka tworzy i rozwija te metody w sposób formalny.
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
4
zespół metod, nie używających
probabilistyki, służących do wydobywania „informacji” za-
wartych w zbiorach danych zebranych w czasie
, jako wyniku obserwacji, realizacji zjawiska lub
doświadczenia losowego.
Celem stosowania metod statystyki opisowej jest podsumo-
wanie zbioru danych i wyciągnięcie podstawowych wniosków
dotyczących przedmiotu badań w określonej zbiorowosci.
Przedmiotem zainteresowania statystyki opisowej są m.in.:
1. miary położenia: np. średnia, percentyle, wartość modalna.
2. miary dyspersji: np. wariancja, odchylenie standardowe,
3. miary asymetrii,
4. miary współzależności.
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
5
C. Statystyka matematyczna (SM)
sformalizowany
dział statystyki, używający probabilistyki i innych działów
matematyki do badania poprawności przyjętych założeń, w
określonym modelu probabilistycznym, na podstawie analizy
danych otrzymanych w wyniku obserwacji zjawiska lub prze-
prowadzonego eksperymentu.
SM dostarcza teoretycznych podstaw do konstrukcji pro-
cedur statystycznych, w celu uzyskania wiarogodnej informa-
cji o przedmiocie badania.
W SM wyniki doswiadczenia zwane obserwacjami lub
pomiarami, interpretujemy jako zm. l. X
1
, X
2
,..., X
n
tworzące
próbę losową X. Zmienne te i ich rozkłady stanowią element
modelu matematycznego badanego zjawiska.
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
6
D. Statystyka jako funkcja
zm. l. U będąca funkcją U
f(X
n
) próby losowej X
n
(X
1
, X
2
,..., X
n
). Statystyki służą do
poznania mechanizmu generującego obserwacje.
Dzięki probabilistyce znamy twierdzenia dotyczące mię-
dzy innymi rozkładów najczęściej stosowanych statystyk.
Podstawowe statystyki:
średnia arytmetyczna
n
i
i
n
X
n
1
1
X
,
jeżeli modelem cechy jest zm. l. X~B(p), to średnia
arytm. nazywa się frakcją jednostek wyróżnionych w
próbie i jest ozn.
n
P
,
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
7
wariancja z próby
2
1
2
)
(
1
1
n
n
i
i
n
X
n
S
X
, n
2,
odch. std. z próby S
n
,
kowariancja empiryczna,
)
)(
(
1
1
)
,
(
1
n
i
n
n
i
i
Y
X
n
Cov
Y
X
Y
X
, n
2,
współczynnik korelacji Pearsona
n
i
n
i
n
i
n
i
n
i
n
i
n
i
Y
X
Y
X
R
1
2
2
1
1
)
(
)
(
)
)(
(
)
,
(
Y
X
Y
X
Y
X
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
8
2. Badanie statystyczne
BS
to szereg czynności związanych z pozyskiwaniem
i przetwarzaniem danych zmierzających do jak najlepszego
poznania
rozkładu wyróżnionych cech statystycznych
w badanej zbiorowości zwanej
populacją generalną.
BS może być pełne (obejmuje całą populację) lub czę-
ściowe (dotyczy pewnych elementów populacji
próby)
.
Czynniki, które przemawiają na korzyść badań częściowych:
populacja może być nieskończona,
badanie może być niszczące,
wysokie koszty.
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
9
3. Populacja generalna i cecha statystyczna
Populacja generalna
(zbiorowość statystyczna) to zbiór
elementów zwanych
, podlegają-
cych BS
.
Jednostki populacji są do siebie podobne pod
względem badanych cech, ale nie są identyczne.
Cechy statystyczne
to te właściwości
, które są przedmiotem BS. Cecha statystyczna może być:
mierzalna
(ilościowe)
np. temperatura, ciśnienie, wzrost,
niemierzalna
(jakościowe)
np. kolor oczu, płeć,
Zróżnicowanie wartości cechy statystycznej powoduje, że
można mówić o jej
nych cech statystycznych są zmienne losowe.
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
10
4. Wnioskowanie statystyczne
WS
to zespół metod służących do uogólniania wyników
badania próby na całą populację oraz szacowania błędów wy-
nikających z takiego uogólnienia.
Wyróżniamy dwie grupy metod uogólniania wyników, de-
finiujące jednocześnie dwa działy WS:
Estymacja
szacowanie wartości nieznanych parametrów
rozkładu badanych cech.
Weryfikacja hipotez statystycznych
sprawdzanie po-
prawności przypuszczeń na temat rozkładu badanych cech
w jednej lub kilku populacjach.
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
11
5. Próba a próba reprezentatywna
z populacji badanej ze względu na jedną ce-
chę X, lub kilka cech, np. dwie X i Y nazywamy:
X
1
, X
2
,…, X
n
oznaczany X lub X
n
,
w przypadku dwóch cech ciąg par zm. l.
(X
1
, Y
1
), (X
2
, Y
2
),…, ( X
n
, Y
n
) oznaczany (X, Y)
Jeżeli badamy dwie populacje ze względu na wspólną ce-
chę, to próbą losową są dwa ciągi: X
1,1
,…, X
1,n
i X
2,1
,…, X
2,m
.
Jeżeli zm. l.-owe w próbie są
rozkładzie (i.i.d.) co badana cecha lub cechy, to próbę nazy-
wamy
prostą próbą losową
.
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
12
Próbą reprezentatywną
nazywamy taką próbę, która za-
chowuje strukturę populacji ze względu na badane cechy.
Prosta próba losowa gwarantuje reprezentatywność.
Próbę niereprezentatywną nazywamy
próbą obciążoną
.
Planowaniem doświadczenia i sposobem wyboru próby
zajmuje się dział statystyki zwany
metodami reprezentacyj-
nymi
.
Liczbę n jednostek wybranych do próby nazywamy
licz-
nością próby
. Liczność próby zależy m.in. od przyjętego błę-
du, zwanego
poziomem ufności
.
Jeżeli n
30 to próbę nazywamy
małą próbą
. W przeciw-
nym przypadku próbę nazywamy
dużą próbą
.
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
13
6. Rozkład teoretyczny a rozkład empiryczny
Probabilistycznym modelem
badanej cechy jest zm. l. X.
Rozkład badanej cechy X w populacji nazywamy
rozkładem
teoretycznym
. Rozkład ten zwykle nie jest znany i w bada-
niach statystycznych zwykle przyjmujemy, że jest to pewien
rozkład spośród określonej rodziny rozkładów zależnej od
nieznanych parametrów, np. X ~ N(m,
), X ~ B(p).
Rozkład cechy lub kilku cech w próbie nazywamy
rozkła-
dem empirycznym
. Rozkład ten poznajemy na podstawie BS
opisującego wartości przyjmowane przez
zwykle przy pomocy dystrybuanty empirycznej,
występowania lub odpowiednich statystyk z próby.
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
14
Niech (X
1
, X
2
,…, X
n
) będzie jedno-cechową próbą prostą.
Dystrybuantą empiryczną
nazywamy następującą funkcję:
dla każdego x
R, F
n
(x)
{i: X
i
x}
/n,
gdzie
A
oznacza liczebność zbioru A.
UWAGI:
1. W klasycznej SM zakładamy, że dane są próbami pro-
stymi.
2. Rozróżniamy rozkład prawdop. w populacji i rozkład
próby losowej oraz średnią, wariancję, odch. standardowe,
kowariancję, współczynnik korelacji, tzw. teoretyczne, tj.
w
populacjach od empirycznych, tj. w próbach losowych.
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
15
7. Twierdzenie o rozkładzie średniej arytmetycznej
Jeżeli cechę w populacji generalnej opisuje zm. l. X o roz-
kładzie N(m,
), to średnia arytmetyczna
n
X
z próby prostej
X
1
, X
2
,…, X
n
ma rozkład normalny N(m,
/
n), tj.
teza
n
e
załałożeni
n
m
N
m
N
X
)
/
,
(
~
)
,
(
~
X
Dowód tego tw. wynika z tw. o sumie niezależnych zm. l. o
rozkładach normalnych.
Twierdzenie o rozkładzie sumy zm. l.
Jeśli X
1
, X
2
,…, X
n
są
niezależnymi zm. l. o rozkładach N(m
i
,
i
), to dla n
1, 2,…
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
16
teza
n
n
n
m
m
m
N
X
X
X
2
2
2
2
1
2
1
2
1
...
,
...
~
...
Wniosek.
Dla prostej próby losowej
)
/
,
(
~
n
m
N
n
X
,
a po standaryzacji średniej
)
1
,
0
(
~ N
n
m
n
X
.
Uwaga.
W statystyce twierdzenia probabilistyki są stosowane
w drugą stronę, tzn. z pewnej wiedzy zawartej w tezie twier-
dzenia chcemy wnioskować o prawdziwości założenia.
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
17
Wnioskowanie to nazywamy
wnioskowaniem redukcyj-
nym
, w odróżnieniu od dedukcyjnego dowodzenia prawdy
stosowanego w naukach formalnych.
Wnioskowanie redukcyjne nie jest niezawodne, niemniej
jest najczęściej stosowane w naukach empirycznych.
Przykład 1.
Długość linii jaką można narysować pewnego
typu pisakiem ma rozkład N(800; 100) [m].
a) Ile trzeba mieć takich pisaków, aby z prawd. co najmniej
0,99, można było narysować linię o długości ponad
3000m ?
b) Co wynika z faktu, że średnia długość linii narysowanej
4 pisakami jest krótsza niż 650 m?
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
18
8. CTG
centralne twierdzenie graniczne
Jeżeli X
1
, X
2
,…, X
n
jest próbą prostą z populacji X o warto-
ści oczekiwanej m i skończonym odchyleniu standardowym
, to rozkład średniej
n
X
z próby dąży do rozkładu normal-
nego o wartości oczekiwanej m i odchyleniu standardowym
/
n, gdy liczebność próby wzrasta nieograniczenie, czyli
)
/
,
(
~
)
,
?(
~
n
m
N
m
X
n
n
X
.
Siła CTG polega na tym, że rozkład populacji może być inny
niż normalny, a nawet może być nieznany (stąd piszemy ?).
Twierdzenie o standaryzowanym rozkładzie średniej arytme-
tycznej nazywa się
tw. Lindeberga-Levy’ego
.
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
19
Przykład 2. Dane techniczne informują, że pewne silniki
osiągają max moment obrotowy 220 Nm, a odchylenie stan-
dardowe 15 Nm. Producent łodzi motorowych zanim dokona
zakupu tych silników zamierza zbadać próbną partię 36 silni-
ków. Jakie jest prawdop. zdarzenia, że średni max moment
przyjmie wartość mniejszą niż 215 Nm ? Jeśli średni moment
z próby będzie mniejszy od 215Nm, to co z tego wynika ?
Rozwiązanie. Rozpatrywana tu zm. l. to średnia arytmetyczna
z próby
36
X
, która ze względu na dużą liczebność próby ma
w przybliżeniu rozkład normalny o średniej m i standardo-
wym odchyleniu
/
n. Wykonujemy obliczenia stosując
standaryzację
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
20
.
0228
,
0
)
2
(
36
/
15
220
215
P
/
215
P
)
215
(
P
36
TABL
STD
Z
n
m
Z
X
Wniosek. Prawdop. że test, który chce przeprowadzić nabyw-
ca, wykaże średni max moment obrotowy silnika mniejszy niż
215 KM jest bardzo małe. Wynika stąd, że jeśli przeprowa-
dzony test da wynik mniejszy od 215 KM, to będą podstawy
do podważenia a priori danej informacji o parametrach osią-
ganej mocy silników.
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
21
9. CTG dla sumy
Jeżeli X
1
, X
2
,…, X
n
jest próbą prostą z populacji X o skoń-
czonej wartości oczekiwanej m i odchyleniu stand.
, to dla
dostatecznie dużych n
)
,
(
~
)
(
1
n
nm
N
X
n
n
i
i
Dowód.
Spełnione są założenia CTG, więc
)
/
,
(
~
n
m
N
X
.
Ponieważ
X
1
…
X
n
n
X
, więc dla dostatecznie dużych n
suma n
X
ma prawie rozkład normalny oraz
E(n
X
)
nE(
X
)
nm, D
2
(n
X
)
n
2
D
2
(
X
)
n
2
2
/n
n
2
.
Stąd odch. standardowe wynosi
n. Co kończy dowód.
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
22
10. Rozkład t-Studenta, jego własności i zastosowa-
nie
Aby zastosować CTG musimy znać
w populacji. Jeżeli
nie jest znane, to korzystamy z jego estymatora S
n
z próby.
W tym przypadku standaryzowana statystyka:
n
S
m
t
n
n
X
nie ma stand. rozkładu normalnego. Jest jedynie asympto-
tycznie normalna.
Rozkład statystyki t jest bardziej płaski w środku i ma
dłuższe „ogony” niż stand. rozkład normalny.
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
23
Tw. Jeżeli rozkład cechy X w populacji jest normalny, to sta-
tystyka t ma rozkład
t-Studenta
1
o
n
1
stopniach swobody.
Zapis X~t(n) oznacza, że zm. l. X ma rozkład t-Studenta
o n stopniach swobody.
Własności: Jeżeli X~t(n), to EX
0 oraz D
2
X
n/(n
2), n >2.
Zastosowanie: W estymacji i weryfikacji hipotez dotyczą-
cych wartości oczekiwanej przy nieznanej wariancji.
1
William Sealy Gosset (1876 – 1937), statystyk angielski. Publikował pod pseu-
donimem Student, stąd nazwa wprowadzonego przez niego - w roku 1908 - rozkładu.
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
24
Kwantyle rozkładu t-Studenta są stablicowane.
http://pl.wikisource.org/wiki/Tablica_rozk%C5%82adu_t-Studenta
Rys. 1. Krzywe gęstości rozkładu t-Studenta.
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
25
Przykład 3. Zarząd wielkiej firmy FIA informuje, że rozkład
płac pewnej dużej grupy pracowników tej firmy jest normalny
z wartością oczekiwaną m
2500 PLN. Spośród pracowni-
ków tej firmy wylosowano 25 osób. Obliczyć prawdop. zda-
rzenia, że średnia płaca wylosowanych pracowników jest
mniejsza od 2000 PLN, jeśli:
a) wariancja płacy pracowników firmy FIA jest znana i
wynosi
2
14400 PLN
2
;
b) jedynie wariancja płacy z próby jest znana i wynosi s
2
19600 PLN
2
.
Wsk. Jeśli
jest znane, to zastosować tw. o rozkładzie śred-
niej arytmetycznej; jeśli
jest nieznane, to zastosować roz-
kład t-Studenta.
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
26
Doświadczenie z próbą powiązaną. W populacji badamy ce-
chę dwukrotnie, tj. opisaną parą zm. l.-ych (X, Y).
Zakładamy, że zm. l. D
(X − Y) ~ N(m,
).
Pobieramy n elementową próbę powiązaną, tj.
(X, Y)
(X
1
, Y
1
), (X
2
, Y
2
),…, (X
n
, Y
n
).
Jeżeli D
i
(X
i
−Y
i
), i
1, 2,…, n oraz D
(D
1
, D
2
,…, D
n
), to
)
1
(
~
n
t
n
S
m
D
t
n
p
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
27
11. Rozkład chi-kwadrat, jego własności i zastoso-
wanie
Jeżeli X
1
, X
2
,…, X
n
jest próbą prostą z populacji o rozkładzie
normalnym, to statystyka
)
1
(
~
)
1
(
2
2
2
n
chis
S
n
n
n
ma rozkład chi-kwadrat o n
1 stopniach swobody.
Własności.
Jeżeli X~chis(k), to EX
k, D
2
(X)
2k, mo(X)
k
2 dla k > 2.
Zastosowanie.
Statystyka chi-kwadrat ma zastosowanie w es-
tymacji i weryfikacji hipotez dotyczących wariancji.
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
28
Uwaga.
Jeżeli cecha X w populacji generalnej ma rozkład
normalny, to średnia arytmetyczna i wariancja z próby są nie-
zależnymi zm. l. mimo, że pochodzą z tej samej próby.
Krzywe gęstości Wykresy dystrybuant
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
29
Przykład 4 (kontynuacja przykładu 3). Zarząd firmy FIA po-
informował, że zróżnicowanie płac mierzone wariancją wy-
nosi 14400 PLN
2
.
a) (pre posteriori). Jakie jest prawd. zdarzenia, że obliczona
z wylosowanej próby 25 pracowników wariancja empi-
ryczna wyniesie ponad 25000 PLN
2
?
b) (a posteriori). Obliczona z wylosowanej próby wariancja
empiryczna wyniosła ponad 25000 PLN
2
. Co z tego wy-
nika ?
Wskazówka.
667
,
41
25000
2
25
2
25
S
Uwaga. Jeżeli n > 30, to można zastosować statystykę
)
1
,
3
2
(
/
)
1
(
2
n
N
S
n
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
30
12. Statystyki porównania parametrów w dwóch
populacjach normalnych
Rozważamy dwie niezależne populacje, w których modelami
badanej cechy są zm. l. X i Y, przy czym
X~N(m
1
,
1
), Y~N(m
2
,
2
).
Z populacji tych pobieramy niezależne próby proste
)
,...,
,
(
1
2
1
n
X
X
X
X
oraz
)
,...,
,
(
2
2
1
n
Y
Y
Y
Y
Niech
X
,
Y
, S
1
i S
2
będą statystykami z tych prób.
Do konstrukcji przedziałów ufności oraz testów statystycz-
nych dotyczących porównania wartości oczekiwanych lub
wariancji badanej cechy typu ciągłego mają zastosowanie na-
stępujące statystyki:
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
31
)
1
,
0
(
~
)
(
2
2
2
1
2
1
2
1
N
n
n
m
m
Z
Y
X
2
)
1
(
/
)
1
(
znane,
jest
?,
),
2
(
~
1
)
(
2
1
2
2
2
2
1
1
2
2
2
2
1
2
1
2
1
2
2
1
n
n
S
n
k
S
n
S
k
k
n
n
t
n
n
k
S
m
m
t
Y
X
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
32
W szczególnym przypadku, gdy k
1
2
)
1
(
)
1
(
?,
),
2
(
~
1
1
)
(
2
1
2
2
2
2
1
1
2
2
2
2
2
1
2
1
2
1
2
2
1
n
n
S
n
S
n
S
n
n
t
n
n
S
m
m
t
Y
X
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
33
Statystyka Cochrana
Coxa
2
2
2
2
2
2
1
2
1
1
2
2
2
2
1
2
1
2
2
2
1
2
2
2
1
2
1
2
1
1
1
1
1
?,
),
(
~
)
(
n
S
n
n
S
n
n
S
n
S
t
n
S
n
S
m
m
t
Y
X
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
34
2
)
1
(
)
1
(
,
),
2
(
~
)
2
(
2
1
2
2
2
2
1
1
2
2
2
2
2
1
2
1
2
2
2
1
2
n
n
S
n
S
n
S
n
n
chis
S
n
n
)
1
,
1
(
~
/
/
2
1
2
2
2
2
2
1
2
1
n
n
Snedecora
S
S
F
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
35
13. Statystyka porównania dwóch frakcji
Rozważamy dwie niezależne populacje, w których modelami
badanej cechy jakościowej są zm. l. X i Y, przy czym
X~B(p
1
), Y~B(p
2
).
Z populacji tych pobieramy duże niezależne próby proste
o licznościach odpowiednio n
1
i n
2
(często >100),
)
,...,
,
(
1
2
1
n
X
X
X
X
oraz
)
,...,
,
(
2
2
1
n
Y
Y
Y
Y
.
Liczby elementów wyróżnionych, w tych próbach, oznacza-
my odpowiednio K
1
i K
2
, tj.
i
X
K
1
,
i
Y
K
2
oraz
1
1
1
/ n
K
P
,
2
2
2
/ n
K
P
K.J. Andrzejczak, MPiS30 W09: Podstawy statystyki matematycznej
36
wówczas
2
1
2
1
2
1
2
1
,
2
1
2
1
,
gdzie
)
1
,
0
(
~
)
1
(
)
(
2
1
n
n
n
n
n
n
n
K
K
p
N
n
p
p
p
p
p
p
Z
n
n
W praktyce, przybliżenie rozkładem normalnym stosujemy,
gdy dla i
1, 2
i
i
i
i
i
i
n
p
p
n
p
n
)
1
(
0