LITERATURA
A. Aomnicki, Wprowadzenie do statystyki dla przyrodników
W. Krysicki, J. Bartos, W. Dyczka, K. Królikowska, M. Wasilewski, Ra-
chunek prawdopodobieństwa i statystyka matematyczna w zadaniach
J. Koronacki, J. Mieliczuk, Statystyka dla studentów kierunków technicz-
nych i przyrodniczych
Statystyka zajmuje się opisem zjawisk masowych przy pomocy metod
rachunku prawdopodobieństwa.
Przykład. Krzyżujemy nasiona okrągłe i żółte z pomarszczonymi i zielo-
nymi. Otrzymano następujące wyniki: pomarszczone zielone 32, pomarszczo-
ne i żółte 101, okrągłe zielone 108, okrągłe żółte 315. Czy stosunek wynosi
1 : 3 : 3 : 9?
Przykład. Badamy, która kapusta: biała czy czerwona zawiera więcej wita-
miny C. W próbkach po 100 g otrzymano następujące wyniki (w mg): biała:
45, 50, 64, 38, 66, 43, 49, 58, 31, 49 oraz czerwona: 70, 68, 55, 61, 62, 74,
52, 71, 56, 61. Który z gatunków zawiera więcej witaminy C?
Przykład. Badamy zmienność tymotki. Wykonano pomiary długości naj-
wyższego liścia oraz kłosa kwiatostanu w próbie losowej o liczności 30 kwit-
nących pędów i otrzymano następujące wyniki:
Nr pędu 1 2 3 4 5 6 7 8 9 10
Liść (cm) 23, 4 22, 0 25, 0 18, 1 18, 9 25, 0 19, 1 27, 5 21, 6 14, 3
Kłos (cm) 9, 8 9, 5 12, 2 8, 3 9, 5 9, 2 8, 5 12, 1 10, 4 5, 5
11 12 13 14 15 16 17 18 19 20
28, 0 16, 3 23, 1 17, 4 17, 0 26, 8 12, 5 18, 4 16, 7 24, 0
10, 6 5, 5 10, 5 7, 4 6, 8 11, 7 4, 1 9, 3 6, 2 11, 0
21 22 23 24 25 26 27 28 29 30
24, 2 21, 2 15, 0 20, 0 20, 1 19, 2 21, 0 13, 0 19, 7 26, 0
10, 2 9, 6 5, 0 8, 5 9, 7 7, 0 7, 9 4, 7 8, 3 12, 6
Czy istnieje zależność między długością najwyższego liścia a długością kło-
sa kwiatostanu?
Rachunek prawdopodobieństwa
Doświadczenie losowe to realizacja (rzeczywista bądz myślowa) z góry okre-
ślonym zbiorem wyników.
Np. czas, po którym komórka się podzieli
w wyniku rozmnożenia powstanie osobnik męski czy żeński
ilość osobników
&! przestrzeń zdarzeń elementarnych
Np. &! = [0, +"), &! = {M, K}, &! = {1, 2, . . . }
P(&!) ogół podzbiorów &!, A " &! zdarzenie losowe
Przykład zdarzeń:
A = {czas, po którym komórka się podzieli wynosi 2 min}
A = {liczba osobników większa od 3}
Działania na zdarzeniach: A *" B, A )" B, A , A \ B
Twierdzenie. (A *" B) = A )" B (A )" B) = A *" B
Definicja. A, B " &!, A, B wykluczające się !! A )" B = "
Definicja prawdopodobieństwa B " P(&!) -ciało
Definicja. Prawdopodobieństwem nazywamy funkcję
P : B [0, 1] spełniającą warunki
1. P (&!) = 1
2. P (A *" B) = P (A) + P (B), dla A, B " B, A )" B = "
Twierdzenie. Niech funkcja P : B [0, 1] będzie prawdopodobieństwem.
Wtedy
1. P (") = 0,
2. A, B " B, A " B =! P (A) P (B)
3. A " B, P (A) 1
4. A, B " B, A " B =! P (B \ A) = P (B) - P (A)
5. A1, . . . , An " B, Ai )" Aj = ", i = j,
n
P (A1 *" *" An) = P (A1) + + P (An) = P (Ai)
i=1
6. A " B, P (A) + P (A ) = 1
7. A, B " B, P (A *" B) = P (A) + P (B) - P (A )" B)
Twierdzenie (o prawdopodobieństwie klasycznym). Niech wyniki do-
świadczeń będą jednakowo prawdopodobne i niech możliwych wyników będzie
M ( &! = M). Jeśli zdarzenie A składa się z m elementów ( A = m), to
m
P (A) = .
M
Przykład. Rzut kostką do gry.
1
Przykład. Komórka dzieli się w ciągu minuty z prawdopodobieństwem ,
2
A komórka podzieli się nie pózniej niż po 4 minutach.
1 1 15
P (A) = P ({D})+P ({ND})+P ({NND})+P ({NNND}) = +1+1+16 =
2 4 8 16
Twierdzenie (o prawdopodobieństwie geometrycznym). &! " R2, m
miara Jordana, &! zbiór mierzalny, A " &!. Wtedy
m(A)
P (A) =
m(&!)
Ą
Przykład. P (A) =
4
4 cm
Prawdopodobieństwo warunkowe
P (A)"B)
Definicja. A, B " B, P (A) > 0, P (B|A) =
P (A)
Własności: P (A|A) = 1, P (B|A) = P (B )" A|B)
Twierdzenie. A, B " B, P (A) > 0, P (B) > 0. Wtedy
P (A )" B) = P (B|A) P (A) = P (A|B) P (B)
Definicja. A, B " B,
A, B niezależne !! P (A )" B) = P (A) P (B)
Definicja. A1, . . . , An niezależne !! P (A1 )" )" An) =
P (A1) P (An)
Twierdzenie. P prawdopodobieństwo
1. P (B) > 0, A, B niezależne =! P (A|B) = P (A)
2. P (A) > 0, A, B niezależne =! P (B|A) = P (B)
Twierdzenie (o prawdopodobieństwie całkowitym). Niech
A1, . . . , An " B, B " B. Jeśli
1. Ai )" Aj = "
2. A1 *" *" An = &!
3. P (Ai) > 0, i = 1, . . . , n
Wtedy
n
P (B) = P (A1)P (B|A1)+ +P (An)P (B|An) = P (Ai)P (B|Ai)
i=1
Dowód.
P (B) = P (B)"&!) = P (B)"(A1*" An)) = P ((B)"A1)*" *"(B)"An)) =
= P (B)"A1)+ +P (B)"An) = P (A1)P (B|A1)+ +P (An)P (B|An) =
n
= P (Ai) P (B|Ai)
i=1
Twierdzenie (o schemacie Bernouliego). Wykonano n do-
świadczeń (prób). W każdej próbie prawdopodobieństwo zajścia
zdarzenia (zwane sukcesem) wynosi p. Doświadczenia są nieza-
leżne. Sn ilość sukcesów w n doświadczeniach. Wtedy
n
P (Sn = k) = pk(1 - p)n-k
k
Przykład. Prawdopodobieństwo podzielenia się komórki wynosi
1
. Mamy 10 komórek. Oblicz prawdopodobieństwo, że podziela się
2
dokładnie 4 komórki
10
210
P (S10 = 4) = (1)4(1)6 = .
4 2 2 1024
Zmienne losowe
(&!, B, P ) przestrzeń probabilistyczna,
X : &! R zmienna losowa
D " R, P (X " D) = P ({ : X() " D})
P (a X < b) = P (X " [a, b)) = P ({ : a X() < b})
Przykład. Egzamin: 20 pytań na 15
Gra w totolotka
Wielkość komórki
osobnik męski i żeński
(&!, B, P ), X : &! R
Dystrybuanta zmiennej losowej FX : R R,
FX(x) = P (X < x)
Twierdzenie. FX : R R dystrybuanta zmiennej losowej.
Wtedy
1. 0 FX(x) 1.
2. FX słabo rosnąca x1 x2 =! F (x1) F (x2)
3. FX lewostronnie ciągła,
4. lim FX(x) = 0, lim F (x) = 1
x-" x+"
5. P (a X < b) = F (b) - F (a)
TYPY ZMIENNEJ LOSOWEJ
Zmienna losowa typu dyskretnego
skończona lub przeliczalna liczba wartości
WX = {x1, x2, . . . xn, xn+1, . . . }
P (X = xi) = p(xi) = pi
p(x1) + + p(xn) + = 1
FX(x) = p(xi)
xi
P (X = xi) = p(xi) rozkład zmiennej losowej
P (a X < b) = p(xi)
a xiPrzykład. Dwie komórki dzielą się każda z prawdopodobieństwem
0, 4
X zmienna losowa określająca liczbę podzielonych komórek
P (X = 0) = 0, 6 0, 6 = 0, 36
P (X = 1) = 0, 6 0, 4 + 0, 4 0, 6 = 0, 48
P (X = 2) = 0, 4 0, 4 = 0, 16
Rozkład zmiennej losowej X
xi 0 1 2
p(xi) 0, 36 0, 48 0, 16
Dystrybuanta zmiennej losowej X
ńł
ł0 dla x 0,
ł
ł
ł
ł0, 36 dla 0 < x 1,
F (x) =
ł0, 84 dla 1 < x 2,
ł
ł
ł
ół1 dla 2 < x.
1
0,84
0,36
1 2
Definicja. X : &! R zmienna losowa dyskretna
wartość średnia zmiennej losowej
E(X) = X = xi P (X = xi) = xi p(xi)
mediana x0,5 F (x0,5) 0, 5 '" ">0 F (x0,5 + ) 0, 5
kwantyl rzędu p to taka liczba xp, że
F (xp) p '" ">0 F (xp + ) p
moda to maksimum lokalne wartości p(xi)
2
Wariancja D2X, VX, X X odchylenie standardowe
D2X = E(X - E(X))2
rozkład dyskretny D2X = (xi - E(X))2p(xi)
xi"WX
Przykład. (dyskretny ciąg dalszy) X = E(X) = 0 0, 36 + 1
0, 48 + 2 0, 16 = 0, 8
x0,5 = 1
2
X = D2(X) = (0 - 0, 8)20, 36 + (1 - 0, 8)20, 48 + (2 -
0, 8)0, 16 = 0, 48
Zmienna losowa typu ciągłego
"f : RR ciągła (całkowalna)
b
"-" aa
f gęstość rozkładu
x
FX(x) = f(t) dt
-"
Twierdzenie. X : &! R zmienna losowa typu ciągłego
+"
f(t) dt = 1 P (X = a) = 0
-"
P (a < X < b) = P (a X < b) = P (a < X b) = P (a
X b) = F (b) - F (a)
Twierdzenie. f : R R gęstość zmiennej losowej, f ciągła w
x0. Wtedy
FX(x) = f(x)
2
+ t2 dla 0 < t < 1,
3
Przykład. f(t) =
0 dla t 0 lub t 1.
Dystrybuanta ma postać
ńł
ł0 dla x 0,
ł
1
F (x) =
(2x + x3) dla 0 < x 1
ł3
ół
1 dla 1 < x.
y=F(x)
y=f(t)
1
1
Definicja. X : &! R zmienna losowa o rozkładzie ciągłym
+"
X = E(X) = tf(t) dt
-"
mediana x0,5 F (x0,5) = 0, 5
Kwantyl rzędu p to taka liczba xp, że F (xp) = p
Moda zmiennej X to dowolne maksimum lokalne jej gęstości
2
Wariancja D2X, VX, X X odchylenie standardowe
D2X = E(X - E(X))2
+"
rozkład ciągły D2X = (t - E(X))2f(t) dt
-"
Przykład. (ciągły ciąg dalszy)
+" 1
7
X = E(X) = tf(t) dt = t(2 + t2) dt =
3 12
-" 0
x0,5 H" 0, 63
+" 1
2 7
X = D2X = (t - E(X))2f(t) dt = (t - )2(2 + t2) dt =
12 3
-" 0
59
720
Twierdzenie. X zmienna losowa typu dyskretnego, h : R R
E(h(X)) = h(xi)p(xi)
xi"WX
np. h(x) = x2
Twierdzenie. X zmienna losowa typu ciągłego f : R R
+"
E(h(X)) = h(t)f(t) dt
-"
Twierdzenie. X : &! R zmienna losowa o rozkładzie dys-
kretnym lub ciągłym. Wtedy
E(aX + b) = aE(X) + b
Twierdzenie. X : &! R zmienna losowa o rozkładzie dys-
kretnym lub ciągłym. Wtedy
D2X = E(X2) - (EX)2 D2(aX + b) = a2D2X
Dowód. (Dla zmiennej losowej o rozkładzie ciągłym)
+" +"
D2X = (t-E(X))2f(t) dt = (t2-2tE(X)+E2(X))f(t) dt =
-" -"
+" +" +"
= t2f(t) dt - 2E(X) tf(t) dt + E2(X) f(t) dt =
-" -" -"
= E(X2) - 2E2(X) + E2(X) = E(X2) - E2(X)
Twierdzenie. X, Y : &! R zmienne losowe
E(X + Y ) = E(X) + E(Y )
Twierdzenie. X, Y : &! R niezależne zmienne losowe
D2(X + Y ) = D2(X) + D2(Y )
INNE WIELKOŚCI CHARAKTERYZUJCE ZMIENN LO-
SOW
d1 odchylenie od wartości przeciętnej
d1 = E(|X - E(X)|)
+"
d1 = |xi - E(X)|pi d1 = |t - E(X)|f(t) dt
xi"WX -"
= współczynnik zmienności
EX
momenty wyższych rzędów ąk = E(Xk)
+"
ąk = xk p(xi), ąk = tkf(t) dt
i
xi"Wx -"
momenty centralne
mk = E((X - EX)k)
+"
mk = (xi - EX)kp(xi), mk = (t - EX)kf(t) dt
-"
m3
współczynnik skośności ł =
3
STANDARYZACJA ZMIENNEJ LOSOWEJ
Twierdzenie. X : &! R zmienna losowa o rozkładzie dys-
1
kretnym lub ciągłym, Z = (X - ). Wtedy
E(X) = , D(X) = !! E(Z) = 0, D(Z) = 1
1 1
Dowód. =! E(Z) = E(X - ) = E(X) - = 0
1 1
D2(Z) = D2(X - ) = D2(X) = 1
2
!= X = Z +
E(X) = E(Z + ) = E(Z) + =
D2(X) = D2(Z + ) = 2(D2(Z)) = 2 =! D(X) =
ROZKAADY ZMIENNYCH LOSOWYCH DYSKRETNYCH
Rozkład dwupunktowy
xi 0 1
p(xi) 1 - p p
E(X) = p, D2(X) = p(1 - p)
Prawdopodobieństwo, że nastąpiła mutacja lub nie, białe lub
czarne.
Rozkład dwumianowy
Ilość sukcesów w n doświadczeniach
n
P (X = k) = pk(1 - p)n-k
k
Xi wynik w i-tej próbie X1, . . . , Xn niezależne zmienne lo-
sowe
X = X1 + + Xn
E(X) = E(X1 + + Xn) = E(X1) + + E(Xn) = p + +
p = np
D2(X) = D2(X1) + + D2(Xn) = p(1 - p) + + p(1 - p) =
np(1 - p)
Rozkład geometryczny
Mamy dane pewne zdarzenie losowe z prawdopodobieństwem
p. Przeprowadzamy je wiele razy. Zmienna losowa o rozkładzie
geometrycznym X to liczba prób potrzebnych, aby to zdarzenie
się zrealizowało
P (X = k) = (1 - p)k-1p (bo k - 1 zd. przeciwne i raz zd.
dane)
1-p
1
E(X) = D2(X) =
p p2
Np. X - 1 obsługa masowa jak długo trzeba czekać, aby być
obsłużonym
Rozkład Poissona
P (X = k) = e- k k = 0, 1, 2, . . . EX = D2X =
k!
3 =
Rozkład Poissona opisuje liczbę pewnych zdarzeń w pewnym
określonym przedziale czasowym. Np. ile komórek podzieliło się
w ciągu jakiegoś odcinka czasu, np. w ciągu 1 minuty, 1 godz.
oznacza intensywność danego zjawiska
n
Niech b(n, p, k) = pk(1 - p)n-k
k
Twierdzenie (Prawo małych liczb). Niech pn 0 oraz lim npn =
n"
. Wtedy
e- k
lim b(n, pn, k) = (k = 0, 1, 2, . . . )
n"
k!
npn=
W praktyce stosujemy to twierdzenie, gdy n kilkadziesiąt, 0 <
pn 0, 1, npn nie przekracza kilkunastu
Przykład. Podczas naświetlania komórek pewnej bakterii mutacji
ulega średnio 3 promile komórek. Jakie jest prawdopodobieństwo,
że wśród 1000 komórek: a) dwie ulegną mutacji, b) co najmniej
dwie ulegną mutacji?
p = 0, 003, n = 1000, = np = 3
e-332 9
a) P (X = 2) H" = H" 0, 224
2! 2e3
e-330 e-33
b) P (X 2) = 1-P (X = 0)-P (X = 1) = 1- - =
0! 1!
1 - e3 - 3e-3 H" 0, 8
PODSTAWOWE ROZKAADY TYPU CIGAEGO
Rozkład jednostajny
ńł
ł0 dla x < a,
ł
1
dla x " [a, b],
b-a x-a
f(x) = F (x) =
dla a x b,
b-a
ł
0 dla x " [a, b].
/
ół
1 dla x > b.
(b-a)2
a+b
E(X) = D2(X) =
2 12
Rozkład Cauchy ego
1
f(x) =
Ą 2+(x-)2
EX, D2X nie istnieją
Rozkład wykładniczy
e-x dla x > 0,
f(x) =
0 dla x < 0.
Zmienna o rozkładzie wykładniczym to czas oczekiwania do
wystąpienia pierwszego zdarzenia w rozkładzie Poissona
Rozkład normalny X " N(, )
(x-)2
1
" 22
X to rozkład o gęstości f(x) = e-
2Ą
Twierdzenie. X zmienna o rozkładzie normalnym N(, ) to
X-
EX = , D2X = 2. Ponadto Z = ma rozkład N(0, 1), tzn
EZ = 0, D2Z = 1.
Dla rozkładu normalnego zachodzi tzw. reguła 3
P (|X - | 3) = 1 - P (|X - | < 3) = 1 - P (-3 <
X-
X - < 3) = 1 - P (-3 < < 3) = 1 - P (-3 < Z < 3) =
1 - (Ś(3) - Ś(-3)) = 1 - (0, 99865 - 0, 00135) = 0, 0027
Twierdzenie. Niech X1, . . . , Xn będą zmiennymi losowymi o roz-
kładzie normalnym odpowiednio N(i, i). Wtedy zmienna Z =
2
2
a1X1+ +anXn ma rozkład N(a11+ +ann, a21 + + a2n).
1 n
Twierdzenie. Niech X1, . . . , Xn będą zmiennymi losowymi o tym
1
samym rozkładzie normalnym N(, ). Wtedy zmienna Z = (X1+
n
"
+ Xn) ma rozkład N(, ).
n
Rozkład logarytmiczno-normalny
Zmienna losowa Y ma rozkład logarytmiczno-normalny, gdy
zmienna losowa X = ln Y ma rozkład normalny N(, )
(ln y-)2
1
"
f(y) = e- 22
y 2Ą
Twierdzenie (Nierówność Czebyszewa). X zmienna losowa
o skończonej wartości średniej i skończonej wariancji 2. Wtedy
2
P (|X - | )
2
2 1
np. = a, P (|X - | a) =
a22 a2
Przykład. Średni czas kiełkowania pewnej rośliny wynosi 10 dni
z odchyleniem standardowym 1 dzień. Oszacować prawdopodobień-
stwo, że nasienie, które właśnie posadziliśmy wykiełkuje w czasie
o trzy dni krótszym lub o trzy dni dłuższym niż 10 dni.
1
P (|X - 10| 3) = 0, 11
9
Przykład. Załóżmy, że wiemy, że rozkład zmiennej określającej
czas kiełkowania jest normalny. Wtedy z reguły 3 otrzymujemy
P (|X - 10| 3) = 0, 0027
Twierdzenie (Prawo wielkich liczb). X1, . . . , Xn niezależne
zmienne losowe o tym samym rozkładzie o średniej < ". Niech
n
1
X = Xi. Wtedy
n
i=1
lim P (|X - | < ) = 1
n"
Twierdzenie. X1, . . . , Xn niezależne zmienne losowe o tym sa-
mym rozkładzie o średniej < " i odchyleniu standardowym
n
1
< ". Wtedy zmienna losowa X = Xi o średniej i od-
n
i=1
"
chyleniu standardowym
n
Dowód.
1 1 1
E(X) = E(n(X1 + + Xn)) = (EX1+ +EXn) = (+ +) =
n n
1 1
D2(X) = D2(n(X1 + + Xn)) = (n)2D2(X1 + + Xn)
1 1 1
= (D2(X1) + + D2(Xn)) = (2 + + 2) = 2
n2 n2 n
Wniosek. X1, . . . , Xn niezależne zmienne losowe o tym samym
"
rozkładzie normalnym N(, ), to X ma rozkład N(, ).
n
Twierdzenie (Centralne twierdzenie graniczne Lindeber-
ga-Levy ego). X1, . . . , Xn niezależne zmienne losowe o tym
samym rozkładzie o średniej < " i wariancji 2 < "
1
Wtedy dystrybuanta zmiennej losowej Xn = (X1 + +Xn) jest
n
"
zbieżna do dystrybuanty rozkładu normalnego N(, )
n
X-
tzn. dystrybuanta zmiennej losowej zmierza do dystrybuanty
"
n
rozkładu normalnego N(0, 1).
X-
Wniosek. P a b P (a Z b) = Ś(b) - Ś(a)
"
n
Z ma rozkład N(0, 1) stosujemy n > 25
X1, . . . , Xn niezależne zmienne losowe o rozkładzie dwupunk-
towym, Sn = X1 + + Xn zmienne losowe o rozkładzie dwu-
mianowym, ESn = np, D2Sn = npq
Twierdzenie (de Moivre a-Laplace). Sn ciąg zmiennych lo-
sowych o rozkładzie dwumianowym. Wtedy dystrybuanta zmien-
Sn-np
"
nej losowej zmierza do dystrybuanty rozkładu normalnego
npq
N(0, 1).
Wniosek.
Sn - np
P a b Ś(b) - Ś(a)
"
npq
Populacja i próba
Populacja to zbiór, który badamy
Definicja. Prostą próbą losową o liczności n nazywamy ciąg nie-
zależnych zmiennych losowych X1, . . . , Xn określonych na &! ta-
kich, że każda ma taki sam rozkład.
Realizacja zmiennej losowej to konkretny ciąg wartości zmien-
nych losowych (takie samo prawdopodobieństwo wyboru). Reali-
zacja próby w postaci wartości np. wielkość komórki, liczba po-
działów w jednostce czasu, temperatura, czasu do pierwszego po-
działu komórki
(próba mała n 30, duża n > 30)
Niech x1, . . . , xn będzie realizacją próby. Realizacja próby ma-
łej porządkujemy. Realizacja próby dużej tworzymy szereg roz-
dzielczy
R rozstęp, R = xmax - xmin
"
Dzielimy na klasy, liczba klas k 5 ln n, k = n
R
Długość klasy b =
k
n k
1 1
Średnia arytmetyczna x = xi x = xini
n n
i=1
"i=1
n 1 k
n
Średnia geometryczna g = x1 . . . xn g = xn . . . xn
1 k
n
1
log g = log xi
n
i=1
-1
-1
n k
1 1 1 ni
Średnia harmoniczna h = h =
n xi n xi
i=1 i=1
Mediana (wartość środkowa) me x1 x2 xn
x(n+1)/2, gdy n nieparzyste,
me =
1
(xn/2 + xn/2+1), gdy n parzyste.
2
Wartość modalna (moda, dominanta) m0 próbki x1, . . . , xn o
powtarzających się wartościach to najczęściej powtarzająca się
wartość.
Dla szeregu rozdzielczego
m-1
b n
me = xl + - ni ,
nm 2
i=1
gdzie xl lewy koniec klasy zawierającej medianę, m numer
klasy zawierającej medianę, n liczność próbki, ni liczność i-tej
próbki, b długość klasy.
Mediana środek najliczniejszej klasy.
Miary rozproszenia (rozrzutu, rozsiania)
Wariancja S2 próbki x1, . . . , xn to średnia arytmetyczna kwa-
dratów odchyleń poszczególnych wartości xi od średniej arytme-
tycznej X próbki
n n n
1 1 1
S2 = (xi - x)2 = x2 - x2 S2 = (xi - x)2ni
i
n n n
i=1 i=1 i=1
Odchylenie standardowe S
n n
1 1
S"2 = (xi - x)2 S"2 = ni(xi - x)2
n - 1 n - 1
i=1 i=1
Odchylenie przeciętne d1 od wartości średniej x to średnia aryt-
metyczna wartości bezwzględnych odchyleń poszczególnych war-
tości xi od średniej arytmetycznej x próbki
n k
1 1
d1 = |xi - x| d1 = ni |xi - x|
n n
i=1 i=1
Odchylenie przeciętne d2 od mediany me próbki x1, . . . , xn to
średnia arytmetyczna wartości bezwzględnych odchyleń poszcze-
gólnych wartości xi od mediany me próbki
n k
1 1
d2 = |xi - me| d2 = ni|xi - me|
n n
i=1 i=1
s
v współczynnik zmienności v = 100%
x
Moment zwykły mr rzędu r próbki x1, . . . , xn to średnia aryt-
metyczna r-tych potęg wartości xi
n k
1 1
mr = xr mr = nixr
i i
n n
i=1 i=1
Moment centralny Mr rzędu r próbki x1, . . . , xn to średnia
arytmetyczna r-tych potęg wartości xi od średniej arytmetycznej
x próbki
n k
1 1
Mr = (xi - x)r Mr = ni(xi - x)r
n n
i=1 i=1
Współczynnik skośności (asymetrii)
M3
ł1 =
s3
Współczynnik koncentracji (skupienia)
M4
K =
s4
Przykład. Zmierzono średnice 50 komórek pewnej bakterii i otrzy-
mano następujące wyniki: 3,6; 5,0; 4,0; 4,7; 5,2; 5,9; 4,5; 5,3; 5,5;
3,9; 5,6; 3,5; 5,4; 5,2; 4,1; 5,0; 3,1; 5,8; 4,8; 4,4; 4,6; 5,1; 4,7;
3,0; 5,5; 6,1; 3,8; 4,9; 5,6; 6,1; 5,9; 4,2; 6,4; 5,3; 4,5; 4,9; 4,0; 5,2;
3,3; 5,4; 4,7; 6,4; 5,1; 3,4; 5,2; 6,2; 4,4; 4,3; 5,8; 3,7. Sporządzić
dla danej próbki szereg rozdzielczy.
n = 50, k = 7, xmin = 3, 0, xmax = 6, 4. Stąd R = 3, 4,
R/k = 0, 49.
Szereg rozdzielczy
Grupowanie Liczebności
Nr klasy Klasy wartości próbki Środki klas xi klas ni
1 2,95-3,45 |||| 3,2 4
2 3,45-3,95 ||||| 3,7 5
3 3,95-4,45 ||||| || 4,2 7
4 4,45-4,95 ||||| |||| 4,7 9
5 4,95-5,45 ||||| ||||| || 5,2 12
6 5,45-5,95 ||||| ||| 5,7 8
7 5,95-6,45 ||||| 6,2 5
STATYSTYKI
Statystyka to każda funkcja określona na próbie Śn(X1, . . . , Xn),
1
np. X = (X1 + + Xn)
n
Statystykę Śn(X1, . . . , Xn), którą przyjmujemy jako ocenę nie-
znanego parametru Ś nazywamy estymatorem parametru Ś.
Jakie własności powinien mieć estymator, abyśmy mogli go za-
akceptować?
Niech Śn = Śn(X1, . . . , Xn) estymator parametru Ś
Estymator nazywamy zgodnym, jeżeli
lim P (|Śn - Ś| < ) = 1
n"
n
Uwaga. Śn zgodny =! Śn zgodny (ąnŚn, ąn 1)
n-1
Estymator nazywamy nieobciążonym
EŚn(X1, . . . , Xn) = Ś
Estymator asymptotycznie nieobciążony
lim EŚn(X1, . . . , Xn) = Ś
n"
Może istnieć dużo estymatorów nieobciążonych.
Estymator efektywny to ten spośród estymatorów nieobciążo-
nych, który ma najmniejszą wariancję.
Metody wyznaczania estymatorów:
1) Metoda największej wiarygodności.
2) Metoda momentów polega na porównaniu kolejnych mo-
mentów rozkładu teoretycznego i empirycznego.
ad 1) f gęstość rozkładu tworzy funkcję wiarygodności
n
L(x1, . . . , xn, Ś) = f(xi, Ś)
i=1
obliczamy maksimum.
Metoda wiarygodności daje estymator zgodny asymptotycznie
nieobciążony i efektywny.
Tw. Czebyszewa mówi, że X jest estymatorem zgodnym.
1 1 1
X nieobciążony, bo E(n Xi) = E(Xi) = n =
n n
n
1
S2 = (Xi - X)2 zgodny asymptotycznie nieobciążony
n
i=1
Nieznany parametr Estymator Własności
n
1
Wartość oczekiwa- X = Xi zgodny nieobciążony
n
i=1
na E(X) rozkład dowolny, dla
rozkładu normalnego,
również efektywny
mediana z próby zgodny asymptotycznie
nieobciążony
n
2 1
Wariancja D2(X) S1 = (Xi -E(X))2 zgodny nieobciążony,
n
i=1
dla normalnego również
efektywny
n
1
S2 = (Xi - X)2 zgodny asymptotycznie
n
i=1
nieobciążony
n
1
S" = (Xi - X)2 zgodny nieobciążo-
n-1
i=1
ny asymptotycznie
efektywnie
odchylenie
standardowe s S1, S, S" zgodny
bnS, cnS" zgodny nieobciążony,
asymptotycznie efek-
tywny dla rozkładu
normalnego
k
Ć
wskaznik struktury Ś = dla rozkładu Bernoulie-
n
go zgodny, nieobciążo-
ny, efektywny
"
(n) 2 2(n) 2
n - 1
2 2
bn = cn = =
"
(
n
2(n-1) n
(n - 1)2) n
n
Definicja. Częstość występowania w prostej próbie losowej to sta-
tystyka
n
1
p = Xi,
Ć
n
i=1
gdzie X1, . . . , Xn jest próbą z rozkładem dwupunktowym o warto-
ści 0, 1 i prawdopodobieństwie p.
Twierdzenie. Częstość występowania p pomnożona przez ilość
Ć
prób, czyli np ma rozkład dwumianowy n, p
Ć
2 1
p = p p = p(1 - p)
Ć
Ć
n
Z twierdzenia de Moivre a-Laplace wynika
Twierdzenie. Dla a, b " R
p - p
Ć
P a b Ś(b) - Ś(a)
p(1-p)
n
Twierdzenie. Dla a, b " R
p - p
Ć
P a b Ś(b) - Ś(a)
p(1-p)
Ć Ć
n
Stosujemy, gdy np 5 oraz n(1 - p) 5
Ć Ć
WERYFIKACJA HIPOTEZ
Hipoteza statystyczna to każde przypuszczenie pewnej niezna-
nej cechy populacji np. typ rozkładu, wartość parametru rozkładu.
Równocześnie z hipotezą H wyróżnia się hipotezę alternatywną.
Definicja. Test statystyczny to metoda postępowania, która moż-
liwym realizacjom próby losowej X1, . . . , Xn przypisuje decyzję od-
rzucenia, bądz nie odrzucenia weryfikowanej hipotezy.
Przykład. 1) Rozkład wielkości komórek pewnej bakterii jest roz-
kładem normalnym.
2) Średnia zawartość pewnej witaminy w 100g kukurydzy zmo-
dyfikowanej genetycznie i niezmodyfikowanej jest taka sama.
3) Podczas krzyżowania grochu okrągłego i żółtego z pomarsz-
czonym i zielonym otrzymano stosunki ilości:
pomarszczone zielone : pomarszczone żółte : okrągłe zielone : okrą-
głe żółte =
1 : 3 : 3 : 9
Hipoteza parametryczna dotyczy parametrów
Hipoteza nieparametryczna dotyczy rozkładów
Testowanie hipotez:
1. Przyjęcie założeń.
2. Otrzymanie rozkładu z próby.
3. Wyznaczenie poziomu istotności i obszaru krytycznego.
4. Przeprowadzenie badań i wyliczenie statystyki testowej.
5. Pojęcie decyzji.
Przykład. Badamy czy proporcje samic i samców pewnego bardzo
rzadkiego gatunku wynoszą 1:1, tzn, czy rozkład jest dwumianowy.
X zmienna losowa określająca liczbę samców w wybranych
10 sztukach
10
1
P (X = 0) = (1)10(1)0 = = 0, 000976563
0 2 2 1024
10
1 1 5
P (X = 1) = (1)9(1)1 = 10 = = 0, 009765625
1 2 2 512 2 512
10
1 1 45
P (X = 2) = (1)8(1)2 = 45 = = 0, 043945313
2 2 2 256 4 1024
10
1 1 15
P (X = 3) = (1)7(1)3 = 120 = = 0, 1171875
3 2 2 128 8 128
10
1 1 105
P (X = 4) = (1)6(1)4 = 210 = = 0, 205078125
4 2 2 64 16 512
10
1 1 63
P (X = 5) = (1)5(1)5 = 252 = = 0, 24609375
5 2 2 32 32 256
10
1 1 105
P (X = 6) = (1)4(1)6 = 210 = = 0, 205078125
6 2 2 16 64 512
10
1 1 15
P (X = 7) = (1)3(1)7 = 120 = = 0, 1171875
7 2 2 8 128 128
10
1 1 45
P (X = 8) = (1)2(1)8 = 45 = = 0, 043945313
8 2 2 4 256 1024
10
1 1 5
P (X = 9) = (1)1(1)9 = 10 = = 0, 009765625
9 2 2 2 512 512
10
1
P (X = 10) = (1)0(1)10 = = 0, 000976563
10 2 2 1024
Rozkłady z próby
X1, . . . , Xn próba losowa o rozkładzie normalnym N(, ),
X-
1
X = (X1 + + Xn) Rozważmy zmienną losową t =
S
n
"
n
t nie zależy od , zależy od n
t nazywamy rozkładem t Studenta o n-1 stopniach swo-
body
[(n + 1)/2] x2 -(n+1)/2
f(x) = " 1 + , x " R, n " N
nĄ (n/2) n
gdzie
+"
(r) = xr-1 e-x dx, r > 0
0
X1, . . . , Xn próba losowa o rozkładzie normalnym N(, )
2 2
2 = X1 + + Xn ma rozkład 2 o n stopniach swobody
1 1
1 k-1
2 2
x e- x2, gdy x > 0,
2n/2(n/2)
f(x) =
0, gdy x 0
Twierdzenie. X1, . . . , Xn to prosta próba losowa o średniej i
n
1
odchyleniu standardowym . Wtedy zmienna losowa X = Xi
n
i=1
"
o średniej i odchyleniu standardowym
n
Wniosek. Jeżeli próba ma rozkład normalny N(, ), to X ma
"
rozkład N(, ).
n
Twierdzenie. Jeżeli X1, . . . , Xn jest próbą losową o rozkładzie
n n
1 1
N(, ), X = Xi oraz S2 = (Xi - X)2, to zmienna lo-
n n
i=1
"i=1
X-
sowa V = n - 1 ma rozkład t Studenta o (n-1) stopniach
S
swobody.
Twierdzenie (Centralne tw. graniczne Linberga-Levy ego).
X1, . . . , Xn próba losowa o średniej i wariancji 2 Wtedy dys-
1
trybuanta zmiennej losowej Xn = (X1 + + Xn) jest zbieżna
n
"
do dystrybuanty rozkładu normalnego N(, ) tzn. dystrybuanta
n
X-
zmiennej losowej zmierza do dystrybuanty rozkładu normal-
"
n
nego N(0, 1)
X-
Wniosek. P a b P (a Z b) = Ś(b) - Ś(a)
"
n
Z ma rozkład N(0, 1). stosujemy n > 25
PARAMETRYCZNE TESTY ISTOTNOŚCI
Testy dotyczące wartości przeciętnej.
1) Model I.
Badana cecha X populacji generalnej ma rozkład N(, ) przy
znanym .
H : = 0
H1 : = 0 (H1 : > 0, H1 : < 0)
X-0
Statystyka testowa U = ma rozkład N(0, 1)
"
n
Suma pól =
Suma pól =
H1
H1
0
0
-
u
u u
Obustronny obszar krytyczny
Obustronny obszar krytyczny
0
H1 <
pole=
-
u
lewostronny obszar krytyczny
H1
> 0
pole=
u
prawostronny obszar krytyczny
Przykład. Pewien automat w fabryce czekolady wytwarza ta-
bliczki czekolady o nominalnej wadze 250g. Wiadomo, że rozkład
wagi produkowanych tabliczek jest normalny N(, ), gdzie od-
chylenie standardowe wynosi = 5. Kontrola techniczna w pew-
nym dniu pobrała próbkę losową 16 tabliczek czekolady i otrzy-
mała następujące wyniki (w g): 253; 243; 241; 249; 255; 244; 246;
255; 242; 239; 245; 248; 256; 244; 247. Czy (na poziomie istotno-
ści ą = 0, 05) można stwierdzić, że automat produkuje tabliczki
czekolady o wadze mniejszej niż nominalna?
Hipoteza H0 : = 250g
wobec hipotezy alternatywnej H1 : < 250g
x = 246, 8
"
x-0 246,8-250
uobl = = 16 = -2, 56
5
Wartość uą, dla której P (U uą) wynosi -1, 64
-2,56 -1,64
Ponieważ wartość ta znalazła się w obszarze krytycznym, gdyż
uobl = -2.56 < -1, 64 = uą, więc hipotezę H0 należy odrzucić
na korzyść hipotezy alternatywnej H1. Oznacza to, że z prawdo-
podobieństwem błędu mniejszym niż 0, 05 możemy twierdzić, że
średnia waga tabliczek czekolady jest za niska.
2) Model II.
Badana cecha X populacji generalnej ma rozkład normalny
N(, ) przy nieznanych ,
H : = 0
H1 : = 0 (H1 : > 0, H1 : < 0)
"
X-0
Statystyka testowa t = n - 1 ma rozkład t studenta z
S
n - 1 stopniami swobody
Przykład. Oszacowano zawartość białka (w g/100g s.m.) w na-
sionach fasoli poddanych procesom technologicznym i otrzymano
wyniki: 24, 04; 25, 86; 24, 47; 23, 02; 25, 11; 25, 25; 23, 87; 22, 25;
25, 49; 24, 86; 23, 61; 22, 90; 27, 53; 25, 73; 25, 40; 23, 71. Zakła-
dając, że rozkład zawartości białka jest rozkładem normalnym
N(, ) o nieznanych parametrach , zbadać, czy zawartość
białka wynosi co najmniej 25/100 g s.m.
H0 : = 0 = 25/100gs.m.
H1 : < 0 = 25/100gs.m.
n = 16
1
x = xi = 24, 57
n
1
s2 = (xi - x)2 = 1, 69 s = 1, 3
n
"
"
x-0 24,57-25
tobl = n - 1 = 15 = -1, 28
S 1,3
ttab = t(0, 05; 15) = 1, 75
Nie ma podstaw do odrzucenia hipotezy.
t -1,28
tab
3) Model III.
Badana cecha X ma rozkład dowolny o nieznanej wartości śred-
niej i nieznanym, ale skończonym . Liczebność próby n 50.
"
X-0
Statystyka testowa U = n ma rozkład N(0, 1)
S
Przykład. Długość ziarniaka pszenżyta zmodyfikowanego gene-
tycznie przedstawia tabela (w mm). Zbadać na poziomie istotności
0, 05, czy średnia wielkość ziarniaka wynosi 5 mm.
3, 65 - 3, 85 3, 85 - 4, 05 4, 05 - 4, 25 4, 25 - 4, 45 4, 45 - 4, 65 4, 65 - 4, 85
4 7 8 15 16 20
4, 85 - 5, 05 5, 05 - 5, 25 5, 25 - 5, 45 5, 45 - 5, 65 5, 65 - 5, 85 5, 85 - 6, 05
25 18 17 15 14 10
6, 05 - 6, 25 6, 25 - 6, 45 6, 45 - 6, 65 6, 65 - 6, 85 6, 85 - 7, 05
12 8 7 5 4
H0 : = 5 H1 : = 5
1
x = nixi = 5, 23
n
1
s2 = ni(xi - x)2 = 0, 454
n
"
x-0
uobl = n = 4, 92
S
uą = 1, 96
Ponieważ wartość znalazła się w obszarze krytycznym, gdyż uobl = 4, 92 >
1, 96 = uą, więc hipotezę H0 należy odrzucić na korzyść hipotezy alternatyw-
nej H1. Oznacza to, że z prawdopodobieństwem błędu mniejszym niż 0, 05
możemy twierdzić, że średnia wielkość ziarniaka jest inna niż 5 mm.
przedział ufności
s s
x - uą "n < < x + uą "n
5, 138 < < 5, 322
4,92
-1,96
1,96
ESTYMACJA PRZEDZIAAOWA
Przedziałem ufności dla parametru Ś na poziomie ufności 1-ą
nazywamy przedział (Ś1, Ś2) taki, że:
1. Ś1 = Ś1(X1, . . . , Xn), Ś2 = Ś2(X1, . . . , Xn) zależą od próby
losowej,
2. P (Ś1 < Ś < Ś2) = 1 - ą.
"
X-0
t = n - 1 ma rozkład t studenta
S
P (|t| < ttab) = 1 - ą
" "
-X
P (|X- n - 1| < ttab) = P (-ttab < n - 1 < ttab) =
S S
S S S
P (-ttab "n-1 < - X < ttab "n-1) = P (X - ttab "n-1 < <
S
X + ttab "n-1) = 1 - ą
Inne sytuacje analogicznie
Przykład. Oszacowano zawartość białka g/100gs.m. w nasio-
nach fasoli poddanych procesom technologicznym i otrzymano
wyniki: 24, 04; 25, 86; 24, 47; 23, 02; 25, 11; 25, 25; 23, 87; 22, 25;
25, 49; 24, 86; 23, 61; 22, 90; 27, 53; 25, 73; 25, 40; 23, 71. Wyznacz
na podstawie tej próby 95% realizację przedziału ufności dla nie-
znanej wartości przeciętnej badanej cechy populacji.
n = 16 1 - ą = 0, 95
x = 24, 57 s2 = 1, 69 s = 1, 3
P (|t| < ttab) = 0, 95 P (|t| > ttab) = 0, 05
ttab = 2, 13
przedział ufności (23, 91; 25, 34)
Porównywanie średnich dwóch populacji
Twierdzenie. Jeżeli X1, . . . , Xn jest prostą próbą losową o roz-
1
kładzie N(1, 1) i jeżeli Y1, . . . , Yn jest prostą próbą losową o
2
rozkładzie N(2, 2) oraz jeśli (X1, . . . , Xn ), (Y1, . . . , Yn ) są zmien-
1 2
n1 n2
1 1
nymi niezależnymi, X = Xj, Y = Yj, to zmienna
n1 n2
j=1 j=1
2 2
1 2
Z = X - Y ma rozkład normalny N 1 - 2, + .
n1 n2
2
Twierdzenie. Jeżeli X1 i S1 oznaczają odpowiednio średnią aryt-
metyczną i wariancję z próby złożonej z n1 niezależnych obserwa-
cji wylosowanych z populacji normalnej N(1, ) i jeżeli X2 i
2
S2 oznacza odpowiednio średnią arytmetyczną i wariancję z próby
liczącej n2 niezależnych obserwacji wylosowanych z populacji nor-
malnej N(2, ) oraz jeżeli obie próby są od siebie stochastyczne
niezależne, zmienna losowa
X1 - X2
n1n2
V =
2 2
n1S1+n2S2 n1+n2
n1+n2-2
ma rozkład t Studenta o n1 + n2 - 2 stopniach swobody.
1) Model I.
X " N(1, 1), Y " N(2, 2), 1, 2 znane
1
X1, . . . , Xn próba o liczbie n1 X = Xi
1
n1
1
Y1, . . . , Yn próba o liczbie n2 Y = Yi
2
n2
H0 : 1 = 2
H1 : 1 = 2 (H1 : 1 < 2, H1 : 1 > 2)
Statystyka testowa
(X - Y ) - (1 - 2)
U =
2 2
1 2
+
n1 n2
ma rozkład N(0, 1)
2) Model II.
X " N(1, 1), Y " N(2, 2), 1, 2 nieznane, ale 1 = 2
1
X1, . . . , Xn próba o liczbie n1 X = Xi
1
n1
1
Y1, . . . , Yn próba o liczbie n2 Y = Yi
2
n2
H0 : 1 = 2
H1 : 1 = 2 (H1 : 1 < 2, H1 : 1 > 2)
Statystyka testowa
X - Y
t =
2 2
n1S1+n2S2 1 1
(n + )
n1+n2-2 n2
1
ma rozkład t studenta o n - 2 stopniach swobody
3) Model III.
X " N(1, 1), Y " N(2, 2), 1, 2 nieznane, n1, n2 50
1
X1, . . . , Xn próba o liczbie n1 X = Xi
1
n1
1
Y1, . . . , Yn próba o liczbie n2 Y = Yi
2
n2
H0 : 1 = 2
H1 : 1 = 2 (H1 : 1 < 2, H1 : 1 > 2)
Statystyka testowa
X - Y
U =
2 2
S1 S2
+
n1 n2
ma rozkład N(0, 1)
4) Model IV. Test równości średnich dla par wiązanych
X " N(1, 1), Y " N(2, 2), 1, 2 nieznane, n1 = n2 = n
takie same wartości, oprócz jednego parametru
Z = X - Y ma rozkład normalny Jak model 2 z hipotezą
Z = 0
H0 : 1 = 2 !! H0 : Z = 0
Statystyka testowa
Z - 0"
t = n - 1
SZ
ma rozkład t studenta o n - 1 stopniach swobody
Przykład. Na 11 parach szalek hodowano pewną kulturę bakterii,
przy czym na 11 szalkach dodano pewien antybiotyk. Uzyskano
następujące wyniki przyrostu biomasy (w mg): X : 821, 655, 915,
540, 431, 1050, 408, 408, 724, 795, 928; Y : 810, 642, 890, 540,
439, 1020, 388, 403, 730, 780, 920. Zbadać, czy przyrost biomasy
był identyczny.
ą = 0, 05 Z = X - Y
z = 10, 27 s2 = 133, 47 sZ = 11, 55
Z
"
z
tobl = n - 1 = 2, 81
sZ
tą = 2, 228
Otrzymana wartość tobl jest większa od wartości krytycznej, za-
tem hipotezę odrzucamy.
Przykład. Badamy, która kapusta: biała czy czerwona zawiera
więcej witaminy C. W próbkach po 100 g otrzymano następujące
wyniki (w mg): biała: 45, 50, 64, 38, 66, 43, 49, 58, 31, 49 oraz
czerwona: 70, 68, 55, 61, 62, 74, 52, 71, 56, 61.
H0 : 1 = 2
H1 : 1 < 2
x1 = 49, 3 s2 = 109, 21
1
x2 = 63 s2 = 50, 2
2
x1-x2
tobl = = -3, 256
s2+s2
1 2
n-1
tą = 1, 83
TESTY DLA WARIANCJI
Badana cecha X ma rozkład normalny
2
H : 2 = 0
2 2 2
H1 : 2 = 0 (H1 : 2 > 0, H1 : 2 < 0)
nS2
2 = ma rozkład 2 przy n - 1 stopniach swobody
2
Przykład. W celu oszacowania dokładności pewnego urządzenia
dokonano 8 prób i otrzymano następujące wyniki (w m): 18, 17;
18, 21; 18, 05; 18, 14; 18, 19; 18, 22; 18, 06; 18, 08. Zweryfikować
hipotezę na poziomie istotności ą = 0, 05, że wariancja 2 =
0, 06.
H0 : 2 = 0, 06
H1 : 2 = 0, 06
80,0575
s2 = 0, 0575 2 = = 7, 667
obl
0,06
1
2(1ą, n - 1) = 2(0, 025, 7) = 1, 69 2(1 - ą, n - 1) =
2 2
2(0, 975, 7) = 16, 013
Nie ma podstaw do odrzucenia hipotezy.
1,69 7,6 16,013
Test o równości dwóch wariancji
H0 : 1 = 2
H1 : 1 = 2
n1
2
"2
S1 n1-1S1
F = =
n2
"2 2
S2 n2-1S2
ma rozkład F Snedecora o (n1 - 1, n2 - 1) stopniach swobody
"2 "2
Zakładamy, że S1 > S2
1
F (p, 1, 2) =
F (1 - p, 1, 2)
Przykład. Badano wpływ dodatku inuliny do paszy na stymulację
wzrostu bakterii Bifidobacterium. Kurczaki podzielono losowo na
2 grupy: 11 osobników karmiono paszą z dodatkiem inuliny, a 9
standardową paszą. Po miesiącu kurczaki poddano dekapitacji, a
jelita cienkiego pobrano próbkę mikrobiologiczną. Po wykonaniu
posiewów na szalki Petriego policzono wyrosłe kolonie bakteryjne:
99, 107, 104, 100, 98, 94, 115, 110, 110, 112, 105; standardowa
pasza: 100, 109, 94, 105, 117, 106, 113, 108, 107. Na poziomie
ufności ą = 0, 05 zweryfikować hipotezę o braku wpływu inuliny
na rozwój bakterii Bifidobacterium w jelicie cienkim.
2 2 2 2
H0 : 1 = 2 H1 : 1 = 2 ą = 0, 05
s2 = 39, 54 n1 = 11 s"2 = 43, 49
1 1
s2 = 20, 25 n2 = 9 s"2 = 45, 28
2 2
s"2
1
Fobl = = 1, 04
s"2
2
1
F (1 - ą, n2 - 1, n1 - 1) = F (0, 975; 8; 10) = 3, 07
2
1
obszar krytyczny [F (1- ą, n2-1, n1-1), +") = (3, 07, +")
2
1
Fobl F (1 - ą, n2 - 1, n1 - 1)
2
Nie ma podstaw do odrzucenia hipotezy, czyli można stosować
model 2 przy porównywaniu średnich.
H0 : 1 = 2 nie ma wpływu na rozwój bakterii
H0 : 1 = 2 występuje wpływ na rozwój bakterii
Ponieważ statystyka ma rozkład t Studenta, wartości krytycz-
nej należy szukać w tablicach rozkładu t Studenta.
ą = 0, 05 df = 18 tą = 2, 101
x1 = 1050, s2 = 39, 54
1
x2 = 106, 5 s2 = 40, 25
2
x1-x2
tobl = t = 0, 535
n1s2+n2s2
1 1
1 2
( + )
n1+n2-2
n1 n2
Ponieważ tobl = 0, 532 < tą = 2, 101, z prawdopodobieństwem
0, 95 stwierdzamy, że nie ma podstaw do odrzucenia hipotezy H0.
Hipoteza dotycząca wskaznika struktury
Cecha X ma rozkład dwupunktowy zero-jedynkowy o nieznanym
parametrze Ś
H0 : Ś = Ś0
H1 : Ś1 = Ś0 (H1 : Ś > Ś0, H2 : Ś < Ś0)
1) Gdy n 100 (nŚ0 50), stosujemy statystykę:
m
- Ś0
n
U = ,
Ś0(1-Ś0)
n
która ma w przybliżeniu rozkład N(0, 1).
m
2) Gdy n 100, stosujemy przekształcenie = 2 arc sin .
n
"
1
"
Wówczas ma rozkład N(2 arc sin Ś0, ). Jako statystykę te-
n
stową przyjmujemy
"
m
U = 2 arc sin - 2 arc sin Ś0 n,
n
która ma rozkład N(0, 1).
Przykład. Zbadano siłę kiełkowania pewnej odmiany pszenżyta.
Wysiano 50 nasion, 38 wyrosło. Sprawdzić, czy siła kiełkowania
jest większa niż 75%. ą = 0, 05
H0 : p = 0, 75
H1 : p > 0, 75
n = 50, m = 38
m
= 0, 76, = 2, 1176, 0 = 2, 0944
n
"
uobl = (2, 1176 - 2, 0944) 50 = 0, 1644
utab = 1, 64
Nie ma podstaw do odrzucenia hipotezy, że p = 0, 75.
Hipoteza o równości wskazników struktury dwóch populacji
Cecha X dwóch populacji ma rozkład dwupunktowy zero-jedynkowy,
z parametrami Ś1 i Ś2 odpowiednio.
H0 : Ś1 = Ś2
H1 : Ś1 = Ś2 (H1 : Ś1 > Ś2, H1 : Ś1 < Ś2)
1) Jeśli n1, n2 100, oznaczmy
m1 m2 m1+m2
Ś0 = , Ś0 = , Ś0 =
1
n1 2 n2 n1+n2
Wtedy statystyka
Ś0 - Ś0 n1 n2
1 2
U = , gdzie n = ma rozkład N(0, 1).
n1 + n2
Ś0(1-Ś0)
n
2) Jeśli n1, n2 100, to
n1 n2
m1 m2
U = 2 arc sin - 2 arc sin
n1 n2
n1 + n2
ma rozkład normalny N(0, 1).
Przykład. Badamy siłę kiełkowania dla odmian pszenżyta; dla
odmiany A na 120 ziaren wzeszło 101, dla odmiany B na 100
wzeszło 81. Na poziomie istotności ą = 0, 05 zbadać, czy ich siła
kiełkowania jest identyczna.
H0 : Ś1 = Ś2
H1 : Ś1 = Ś2
101 81 182
Ś0 = = 0, 84 Ś0 = = 0, 81 Ś0 = = 0, 905
1 2
120 100 201
n1n2 12000
n = = = 59, 7
n1+n2 201
Ś0-Ś0
1 2
uobl = = 0, 79
Ś0(1-Ś0)
n
utab = 1, 96
uobl nie należy do obszaru krytycznego, więc nie ma podstaw do
odrzucenia hipotezy H0.
-1,96
0,79 1,96
Testy zgodności (zgodność rozkładu próby z rozkładem teoretycznym)
&! zbiór rozkładów o określonym typie postaci funkcji dystry-
buanty
H0 : F (x) " &! F dystrybuanta rozkładu populacji, r
liczba parametrów obliczanych z próby
k
(ni-npi)2
statystyka teoretyczna 2 = ma rozkład 2 o k -
npi
i=1
r - 1 stopniach swobody
n liczebność próby
pi teoretyczne prawdopodobieństwo przynależności do danej
klasy
ni liczebność klasy
Przykład. Krzyżujemy nasiona okrągłe i żółte z pomarszczonymi
i zielonymi. Otrzymano następujące wyniki: pomarszczone zielo-
ne 32, pomarszczone żółte 101, okrągłe zielone 108, okrągłe żółte
315. Czy stosunek nasion po skrzyżowaniu wynosi 1 : 3 : 3 : 9?
ą = 0, 05
1 3 3 9
Teoretyczne prawdopodobieństwa: , , , .
16 16 16 16
1 3 3 9
(32-556 )2 (102-556 )2 (108-556 )2 (315-556 )2
16 16 16 16
2 = + + + =
obl 1 3 3 9
55616 556 556 556
16 16 16
0, 417
Obszar krytyczny [2 (0, 95, 3), +")
tab
2 (0, 95, 3) = 7, 815 2 " (7, 815, +")
/
obl tab
Nie ma podstaw do odrzucenia hipotezy.
Przykład. Zmierzono pod mikroskopem wielkości pewnych bakte-
rii (w m). Na poziomie istotności ą = 0, 05 zweryfikować hipote-
zę, że zmienna losowa X określająca wielkość bakterii ma rozkład
normalny.
(ni-npi)2
wielkość komórki xi liczba obser- prawdopodobieństwo
npi
wacji ni teoretyczne pi
3, 0 - 3, 6 3, 3 2 0, 0207 0, 177
3, 6 - 4, 2 3, 9 8 0, 0849 0, 836
4, 2 - 4, 8 4, 5 35 0, 2172 1, 62
4, 8 - 5, 4 5, 1 43 0, 3065 0, 25
5, 4 - 6, 0 5, 7 22 0, 2393 2, 667
6, 0 - 6, 6 6, 3 15 0, 1033 0, 184
6, 6 - 7, 2 6, 9 5 0, 0281 0, 5
Ogółem 130 1 6, 23
n = 130 x = 5, 15, s = 0, 76
X " N(5, 15; 0, 76)
X- 4,2-5,15
p2 = P {3, 6 < X < 4, 2} = P {3,6-5,15 < < } =
0,76 0,76
X-
P {-2, 04 < < -1, 25} = Ś(-1, 25)-Ś(-2, 04) = 0, 1056-
0, 0207 = 0, 0849
(ni-npi)2
2 = = 6, 23
npi
Szacowaliśmy 2 parametry z próby, więc liczba stopni swobody
jest równa 7 - 2 - 1 = 4
tab(0, 95; 4) = 9, 49
obl " (9, 49, +")
/
Nie ma podstaw do odrzucenia hipotezy
Pary zmiennych losowych
X, Y zmienne losowe o rozkładzie łącznym,
tzn. X, Y dyskretne WX,Y = {(x1, y1), (x2, y2), . . . }
P (X = xi, Y = yi) = p(xi, yi)
X, Y ciągłe " f : R2 R, f 0
P ((X, Y ) " A) = f(s, t) dsdt
A
y
x
FXY = P (X x, Y y) = f(s, t) dsdt
-" -"
Definicja. X, Y : &! R zmienne losowe
X, Y -niezależne !! "x,y"R P (X < x, Y < y) = P (X < x) P (Y < y)
X, Y zmienne losowe o łącznym rozkładzie
Kowariancja zmiennych losowych X, Y (XY , cov(X, Y ))
XY = E((X - E(X)))(Y - E(Y )))
Zmienna losowa o rozkładzie dyskretnym
XY = (xi - E(X))(yi - E(Y )) p(xi, yi)
(xi,yi)"WXY
Zmienna losowa o rozkładzie ciągłym
+" +"
XY = (x - E(X))(y - E(Y ))f(x, y) dxdy
-" -"
2
XX = X
Twierdzenie. X, Y zmienne niezależne =! cov(X, Y ) = 0
Definicja. Współczynnik korelacji liniowej zmiennych losowych
X, Y
cov(X, Y ) XY
= =
XY XY
Twierdzenie. X, Y zmienne losowe
1. -1 1,
2. a, b stałe, b > 0, Y = a + bX =! = 1,
3. a, b stałe, b < 0, Y = a + bX =! = -1,
4. X, Y niezależne = 0.
(X1, Y1), . . . , (Xn, Yn) próba
Estymatorem zgodnym współczynnika jest współczynnik ko-
relacji liniowej R z próby
n n
1
(Xi - X)(Yi - Y ) (Xi - X)(Yi - Y )
n
i=1 i=1
R = =
SXSY n n
(Xi - X)2 (Yi - Y )2
i=1 i=1
R jest zgodny z estymatorem , ale obciążony E(R) =
R(1-R2)
R + asymptotycznie nieobciążony
2(n-2)
n
1
(Xi-X)(Yi-Y )
n
i=1
Twierdzenie. Jeżeli R = jest współczynnikiem
SXSY
korelacji z próby złożonej z n niezależnych obserwacji i wyloso-
wanej z dwuwymiarowej populacji generalnej normalnej, w której
= 0, wówczas zmienna losowa
"
R
V = " n - 2
1 - R2
ma rozkład t Studenta o n - 2 stopniach swobody.
Wartość r współczynnika korelacji R obliczamy według wzoru:
n n
1
(xi - x)(yi - y) xiyi - xy
n
i=1 i=1
r = =
n n n n
1
2
(xi - x)2 (yi - y)2 x2 - x2 1 yi - y2
i
n n
i=1 i=1 i=1 i=1
Dla danych zgrupowanych w tablicę korelacyjną wartość r współ-
czynnika R obliczamy według wzorów:
l m
1
xi yknik - x y
n
i=1 k=1
r =
l m
1
x2ni - x2 1 y2nk - y2
n i n k
i=1 k=1
l m
1
xi( yknik) - x y
n
i=1 k=1
=
l m
1
x2ni - x2 1 y2nk - y2
n i n k
i=1 k=1
m l
1
yk( xinik) - x y
n
k=1 i=1
=
l m
1
x2ni - x2 1 y2nk - y2
n i n k
i=1 k=1
Kowariancja z próby
1
cov(x, y) = s2 = xiyi - x y
XY
n
l m
1
cov(x, y) = s2 = xi yknik - x y
XY
n
i=1 k=1
cov(x, y) sXY
r = =
sX sY sX sY
1) Model I.
X, Y zmienne o rozkładzie normalnym
n 3
H0 : = 0 H1 : = 0
"
R
"
przy założeniu hipotezy statystyka testowa t = n - 2 ma rozkład
1-R2
t studenta o n - 2 stopniach swobody
2) Model II.
n 100
H0 : = 0 H1 : = 0
"
R
Przy założeniu hipotezy statystyka testu U = n ma rozkład nor-
1-R2
malny N(0, 1)
3) Model III.
n 10
1 + R
1
Z = ln , |R| < 1
2
1 - R
1+
1
ma w przybliżeniu rozkład normalny o średniej EZ = ln + i wa-
2 1- 2n-1
1
riancji D2Z = .
n-3
H0 : = 0 H1 : = 0
Jeśli hipoteza jest prawdziwa, to
"
1 + R 1 + 0
1 1
U = (Z - z0) n - 3, Z = ln , z0 = ln
2 2
1 - R 1 - 0
ma rozkład normalny N(0, 1).
Przedział ufności dla współczynnika korelacji
1 1 1 + 1
1 1
z - " U 1 - < ln < z + " U 1 -
2ą 2ą
2 1 -
n - 3 n - 3
1 1+r
z = ln
2 1-r
Regresja liniowa
Mamy dane realizacje próby (X1, Y1), (X2, Y2), . . . , (Xn, Yn). Szukamy linii
y = ax + b, która będzie najbliżej tych punktów w następującym sensie:
n
S(a, b) = (yi - (axi + b))2 = min MNK
i=1
"S "S
= 0 = 0
"a "b
n n
(xi - x)(yi - y) xiyi - x y
n s2 i=1
i=1
XY
a = = =
n
n s2 n x2 - nx2
X
(xi - x)2
i
i=1 i=1
b = y - ax
n n
(Xi - X)(Yi - Y ) XiYi - X Y
i=1 i=1
A = =
n n
2
(Xi - X)2 Xi2 - nX
i=1 i=1
B = Y - AX
A, B estymatory zgodne i nieobciążone wielkości a, b
yi = axi + b + i
i zmienna losowa
Twierdzenie. i zmienna losowa o rozkładzie N(a, ). Wtedy statystyka
"
A ma rozkład normalny N(a, )
nSX
n
(Yi-(AXi+B))2
2
SY (1-R2)
A-a0 2 i=1
Statystyka t = , gdzie SA = = ma rozkład
2 n
SA SX (n-2)
(n-1) (Xi-X)2
i=1
t Studenta o n - 2 stopniach swobody
Statystyka B ma rozkład normalny
ł ł
1
2
1 X
łb, n łł
N +
n
(Xi-X)2
i=1
B-b0
Statystyka ma rozkład t Studenta o n - 2 stopniach swobody
SB
n
(Yi - (AXi + B))2
n
2
SY (1 - R2)
2
i=1
2 2 2 1
SB = (SX + X ) = SA n Xi2 =
n
2
SX(n - 2)
i=1
(n - 2)n (Xi - X)2
i=1
Wartości obliczane z próby:
x, y, s2 , s2 , sXY = cov(x, y)
X Y
s2 (1-r2)
Y
s2 =
A
s2 (n-2)
X
n
s2 = s2 1 x2
B A i
n
i=1
cov(x,y)
sXY
r = =
sX sY sX sY
sXY
a =
s2
X
b = y - ax
Testy istotności dla współczynników prostej regresji
H0 : a = a0 H1 : a = a0
A-a0
Statystyka testowa t = ma rozkład t Studenta o n - 2 stopniach
SA
swobody
H0 : b = b0 H1 : b = b0
B-b0
Statystyka testowa t = ma rozkład t Studenta o n - 2 stopniach
SB
swobody
Przedziały ufności dla współczynnika a
ą ą
a - sA t(1 - , ) < ć < a + sA t(1 - , )
2 2
= n - 2,
a realizacja z próby współczynnika ć,
sA realizacja z próby odchylenia SA
Przedział ufności dla współczynnika b
ą ą
b - sB t(1 - , ) < b < b + sB t(1 - , )
2 2
= n - 2,
b realizacja z próby współczynnika b
sB realizacja z próby odchylenia SB
Obszar ufności dla krzywej regresji y = ćx + b
Przykład. Badamy zmienność tymotki. Wykonano pomiary długości naj-
wyższego liścia oraz kłosa kwiatostanu w próbie losowej o liczności 30 kwit-
nących pędów i otrzymano następujące wyniki:
Nr pędu 1 2 3 4 5 6 7 8 9 10
Liść (cm) 23, 4 22, 0 25, 0 18, 1 18, 9 25, 0 19, 1 27, 5 21, 6 14, 3
Kłos (cm) 9, 8 9, 5 12, 2 8, 3 9, 5 9, 2 8, 5 12, 1 10, 4 5, 5
11 12 13 14 15 16 17 18 19 20
28, 0 16, 3 23, 1 17, 4 17, 0 26, 8 12, 5 18, 4 16, 7 24, 0
10, 6 5, 5 10, 5 7, 4 6, 8 11, 7 4, 1 9, 3 6, 2 11, 0
21 22 23 24 25 26 27 28 29 30
24, 2 21, 2 15, 0 20, 0 20, 1 19, 2 21, 0 13, 0 19, 7 26, 0
10, 2 9, 6 5, 0 8, 5 9, 7 7, 0 7, 9 4, 7 8, 3 12, 6
Czy istnieje zależność między długością najwyższego liścia a długością kło-
sa kwiatostanu?
ą = 0, 05
1 1
x = xi = 20, 48 sX = (xi - x)2 = 4, 169
n n
1 1
y = yi = 12, 53 sY = (yi - y)2 = 2, 288
n n
1
sXY = (xi - x)(yi - y) = 8, 757
n
sXY
r = = 0, 918
sX sY
I sposób
H0 : = 0" H1 : = 0
R
"
t = n - 2
1-R2
"
r
"
tobl = n - 2 = 12, 415
1-r2
ttab = 2, 048
Hipotezę H0 : = 0 odrzucamy na rzecz hipotezy alternatywnej H1 : = 0
II sposób
H0 : = 0 H1 : = 0
1 1+R
Z = ln
2 1-R
1 1+r
zobl = ln = 1, 589
2 1-r
-2,048 2,048 12,415
1+0
1
z0 = ln = 0
2 1-0
"
uobl = (zobl - z0) n - 3 = 8, 257
Hipotezę H0 : = 0 odrzucamy na rzecz hipotezy alternatywnej H1 : = 0
-1,96
1,96 8,54
Przedział ufności dla współczynnika korelacji
1+
1 1 1 1 1
" "
z - U 1 - < ln < z + U 1 -
n-3 2ą 2 1- n-3 2ą
1+
1
"1 "1
1, 589 - 1, 96 < ln < 1, 589 + 1, 96
2 1-
27 27
1+
1
1, 212 < ln < 1, 966
2 1-
0, 837 < < 0, 962
Prosta regresji
2
SY (1-R2)
2
SA =
2
SX (n-2)
s2 (1-r2)
Y
s2 = = 0, 00165
A
s2 (n-2)
X
n
2
2
SY (1-R2)
2 2 2 1
SB = (SX + X ) = SA n Xi2
2
SX (n-2)
i=1
n
s2 = s2 1 x2 = 1, 554
B A i
n
i=1
H0 : a = 0
H1 : a = 0
A-a0
Statystyka testowa t = ma rozkład t Studenta o n - 2 stopniach
SA
swobody
n
(xi-x)(yi-y)
cov(x,y)
i=1
a = = = 0, 504
n
s2
X
(xi-x)2
i=1
0,504-0
"
tobl = = 12, 41
0,00165
ttab = 2, 048
Hipotezę H0 : a = 0 odrzucamy
Statystyka
B - b0
SB
ma rozkład t Studenta o n - 2 stopniach swobody
b = y - ax = -1, 6
-1,6-0
"
tobl = = -1, 283
1,554
ttab = 2, 048
tobl nie należy do obszaru krytycznego
Przedział ufności dla współczynnika a
ą ą
a - sA t(1 - , ) < ć < a + sA t(1 - , )
2 2
0, 504 - 0, 04 2, 048 < ć < 0, 504 + 0, 04 2, 048
0, 422 < ć < 0, 586
Przedział ufności dla współczynnika b
ą ą
b - sB t(1 - , ) < b < b + sB t(1 - , )
2 2
-1, 6 - 1, 243 2, 048 < b < -1, 6 + 1, 243 2, 048
-4, 146 < b < 0, 946
Wykr. rozrzutu: długość najw yższego liścia (w cm) vs. długość kłosa (w cm) (BD usuw ano przypadk.)
długość kłosa (w cm) = -1,603 + ,50397 * długość najw yższego liścia (w cm)
Korelacja: r = ,91831
13
12
11
10
9
8
7
6
5
4
3
10 12 14 16 18 20 22 24 26 28 30
długość najw yższego liścia (w cm)
95% p.ufności
długość kłosa (w cm)
Wyszukiwarka
Podobne podstrony:
Sopot stat 11 wyklad 9 Analiza kowariancji i ogolny model liniowy
Wyklad MAT BIOL HIPOTEZY
4 Stat niewyz wykład
Wyklad 4 MAT BIOL MODELE DYSKRETNE
mat wykład 2 po 2 szt na str
Met mat i stat w inz chem W 1
Met mat i stat w inz chem W 2
Stat LWZ LZZ wyklad1
Met mat i stat w inz chem W 3
MAT BUD WYKŁAD 5 spoiwa
Mat WIP Wykład21
Stat wyklad2 11 na notatki
Met mat i stat w inz chem W 5
Met mat i stat w inz chem W 4
Stat wyklad3 11 na notatki
wyklad stat 2
Mat Stat WykĹ? 2 ( 2013L)
Mat Stat WykĹ? 3 (2013L)(1)
Mat WIP Wykład16
więcej podobnych podstron