PODSTAWY BIOSTATYSTYKI dla ZM III
dr inż Krzysztof Bryś
Wyk lad 2
Podstawowe teoretyczne rozk lady prawdopodobieństwa zmiennej losowej jednowymiarowej Typu skokowego
1. Rozk lad jednopunktowy.
Funkcja prawdopodobieństwa : P ( X = c) = 1 dla pewnej sta lej c Wartoś˙c oczekiwana: E( X) = c
Wariancja: D 2( X) = 0
Interpretacja: Rozk lad dowolnej sta lej liczbowej X.
2. Rozk lad dwupunktowy (zerojedynkowy).
Funkcja prawdopodobieństwa : P ( X = 1) = p, P ( X = 0) = q = 1 − p Wartoś˙c oczekiwana: E( X) = p
Wariancja: D 2( X) = p · q = p · (1 − p) Interpretacja: Rozk lad dowolnej zmiennej X, która odpowiada na pewne pytanie albo TAK
( X = 1-”sukces”) albo NIE ( X = 0-”porażka”), rozk lad dowolnej cechy ”zero-jedynkowej” (obiekt albo j¸a posiada ( X = 1) albo nie posiada ( X = 0).
3. Rozk lad Bernoulliego (dwumianowy) - B( n, p) Schemat doświadczeń Bernoulliego:
- n niezależnych doświadczeń,
- w każdym doświadczeniu albo sukces z prawdopodobieństwem p albo porażka (z prawdopodobieństwem q = 1 − p);
Interpretacja: Zmienna losowa X ma rozk lad B( n, p) jeśli mówi o liczbie sukcesów w schemacie n niezależnych doświadczeń Bernoulliego z prawdopodobieństwem sukcesu p w każdym z nich. Jest sum¸a n niezależnych zmiennych losowych o rozk ladzie zerojedynkowym.
Funkcja prawdopodobieństwa : P ( X = k) = n pk · qn−k dla k = 0 , 1 , 2 , . . . , n, q = 1 − p.
k
Wartoś˙c oczekiwana: E( X) = np
Wariancja: D 2( X) = n · p · q
4. Rozk lad Poissona - Po( λ)
Funkcja prawdopodobieństwa : P ( X = k) = e−λ · λk dla k = 0 , 1 , 2 , . . .
k!
Wartoś˙c oczekiwana: E( X) = λ
Wariancja: D 2( X) = λ
Interpretacja: Rozk lad graniczny dla rozk laadu B( n, p) przy n → + ∞.
Dla dostatecznie dużych n, zmienna losowa o rozk ladzie B( n, p) ma w przybliżeniu rozk lad Poissona z parametrem λ = n · p.
Typu ci¸ag lego
1. Rozk lad jednostajny na przedziale ( a; b) - U( a, b) Funkcja g¸estości prawdopodobieństwa :
(
1
, dla a < x < b
f ( x) =
b−a
0
, dla pozosta lych x
Wartoś˙c oczekiwana: E( X) = a+ b 2
Wariancja: D 2( X) = ( b−a)2
12
Interpretacja Zmienna losowa X ma rozk lad U( a, b) jeśli przyj¸ecie przez t¸a zmienn¸a dowolnej wartości z przedzia lu ( a; b) jest jednakowo prawdopodobne.
2. Rozk lad normalny (Gaussa) - N( m, σ)
Funkcja g¸estości prawdopodobieństwa : f ( x) =
1
√
· e−( x−m)2
2 σ 2
dla x ∈ R
2 πσ
Wartoś˙c oczekiwana: E( X) = m
Wariancja: D 2( X) = σ 2
Wykresem powyższej funkcji g¸estości prawdopodobieństwa jest krzywa Gaussa Zmienna losowa standaryzowa dla zmiennej losowej o rozk ladzie N( m, σ): X − m
X =
σ
ma rozk lad normalny standardowy N(0 , 1).
Dystrybuanta rozk ladu normalnego standardowego N(0 , 1): Z x
1
Φ( x) =
√
· e−t 22 dt dla x ∈ R
−∞
2 π
Z parzystości funkcji g¸estości prawdopodobieństwa rozk ladu N(0 , 1) wynika, że: Φ( −x) = 1 − Φ( x) .
uα - kwantyl rz¸edu α zmiennej losowej o rozk ladzie N(0 , 1) (tzn. Φ( uα) = α) 3. Rozk lad chi kwadrat o n stopniach swobody
Zmienna losowa χ 2 = X 2 + X 2 + . . . + X 2, gdzie X
1
2
n
1 , X 2 , . . . Xn zmienne o rozk ladzie N (0 , 1) ma rozk lad chi-kwadrat o n stopniach swobody
Wartoś˙c oczekiwana: E( χ 2) = n
Wariancja: D 2( χ 2) = 2 n
Dla dużych n ( n > 40) rozk lad chi-kwadrat o n stopniach swobody można przybliża˙c rozk ladem
√
N( n, 2 n).
χ 2( α, n) = kwantyl rz¸edu 1 − α zmiennej o rozk ladzie chi-kwadrat o n stopniach swobody 4. Rozk lad t-Studenta o n stopniach swobody.
Zmienna losowa T = X
q
, gdzie X zmienna losowa o rozk ladzie N(0 , 1) a zmienna χ 2 ma rozk lad χ 2
n
chi-kwadrat o n stopniach swobody.
Wartoś˙c oczekiwana: E( T ) = 0.
Wariancja: D 2( T ) = n .
n− 2
Dla dużych n ( n > 40) rozk lad t-Studenta o n stopniach swobody można przybliża˙c rozk ladem N(0 , 1).
t( α, n) = kwantyl rz¸edu 1 − α zmiennej o rozk ladzie t-Studenta o n stopniach swobody.
2
Statystyka - poj¸ecia wst¸epne
populacja - ca ly zbiór badanych przedmiotów lub wartości.
próba - skończony podzbiór populacji podlegaj¸acy badaniu.
próba losowa - próba losowana (najcz¸eściej) zgodnie z rozk ladem równomiernym, tzn. wylosowanie każdej próby jest jednakowo prawdopodobne.
cechy: mierzalne, niemierzalne
badana cecha = zmienna losowa X
Poszukiwany: rozk lad cechy w populacji = rozk lad zmiennej losowej X
próba n-elementowa = ci¸ag n niezależnych zmiennych losowych ( X 1 , . . . , Xn) o jednakowym rozk ladzie (takim jak poszukiwany rozk lad zmiennej losowej X).
Etapy badania statystycznego
1) Przygotowanie (formatowanie) badania (określenie celu, rodzaju, potrzebnych parametrów wejściowych badania).
2) Przeprowadzenie badania (wylosowanie próby i określenie wartości badanych cech w próbie).
3) Zebranie uzyskanych podczas badania danych.
4) Opis i wnioskowanie statystyczne (obliczenie parametrów, estymacja, weryfikacja hipotez).
5) Przedstawienie wyników.
Szeregi statystyczne
1) Szereg wyliczaj¸acy uporz¸adkowany: ( x 1 , x 2 , . . . , xn) przy czym x 1 ≤ x 2 ≤ . . . ≤ xn.
2) Szereg rozdzielczy punktowy: ( x 1 , x 2 , . . . , xk), ( n 1 , n 2 , . . . , nk), gdzie x 1 < x 2 < . . . < xk oraz dla każdego i = 1 , 2 , . . . , k: ni-liczba realizacji (obserwacji) wartości xi, P k n
i=1
i = n.
3) Szereg rozdzielczy przedzia lowy: ( y 0; y 1 >, ( y 1; y 2 >, . . . , ( yk− 1; yk), ( n 1 , n 2 , . . . , nk), gdzie y 0 < y 1 < y 2 < . . . < yk− 1 < yk oraz dla każdego i = 1 , 2 , . . . , k: ni-liczba realizacji (obserwacji) P
wartości należ¸acej do przedzia lu ( y
k
i− 1; yi),
n
i=1
i = n.
Wszystkie wartości należ¸ace do przedzia lu ( yi− 1; yi > , i = 1 , 2 , . . . , k utożsamia si¸e z jego środkiem xi.
√
Regu ly wyznaczania liczby przedzia lów (klas): k ≈
n, k ≤ 5 log n.
Parametry empiryczne
Miary po lożenia rozk ladu
1) Średnia z próby x
- dla szeregu wyliczaj¸acego:
1 n
X
x =
x
n
i
i=1
- dla szeregu rozdzielczego:
1 k
X
x =
n
n
i · xi
i=1
2) Dominanta (moda, wartość modalna) D = punkt, w którym funkcja prawdopodobieństwa osi¸aga najwi¸eksz¸a wartość
- dla szeregu wyliczaj¸acego: najcz¸eściej wyst¸epuj¸aca wartość,
- dla szeregu rozdzielczego punktowego: punkt, dla którego liczebność (cz¸estość) osi¸aga najwi¸eksz¸a wartość, - dla szeregu rozdzielczego przedzia lowego (wzór interpolacyjny): n
D = x
d − nd− 1
0 d +
· h
( n
d,
d − nd− 1) + ( nd − nd+1)
gdzie
x 0 d - pocz¸atek przedzia lu zawieraj¸acego dominant¸e (przedzia lu o najwiekszej liczebności), hd - szerokość przedzia lu zawieraj¸acego dominant¸e (przedzia lu o najwiekszej liczebności), nd - liczebność przedzia lu zawieraj¸acego dominant¸e (najwieksza liczebność), nd− 1 - liczebność przedzia lu poprzedzaj¸acego przedzia l zawieraj¸acy dominant¸e, nd+1 - liczebność przedzia lu nast¸epnego po przedziale zawieraj¸acym dominant¸e.
3) Dystrybuanta empiryczna (cz¸estość skumulowana Fn( x)
- dla szeregu wyliczaj¸acego:
1
Fn( x) = |{i : x
n
i < x, i = 1 , . . . , n}|
- dla szeregu rozdzielczego:
X n
F
i
n( x) =
n
i: xi<x
4) Kwantyl empiryczny rz¸edu p xp,n:
(punkt w którym dystrybuanta empiryczna po raz pierwszy osi¸aga wartość niemniejsz¸a niż p)
- dla szeregu wyliczaj¸acego:
xp,n = xdnpe
- dla szeregu rozdzielczego punktowego:
r
X n
x
i
p,n = xq gdzie q = min {r : p ≤
}
n
i=1
- dla szeregu rozdzielczego przedzia lowego (wzór interpolacyjny): X
h
x
p
p,n = x 0 p + ( np −
ni) ·
,
n
xi<x 0 p
p
gdzie
x 0 p - pocz¸atek przedzia lu zawieraj¸acego xp,n (przedzia lu w którym dystrybuanta empiryczna po raz pierwszy osi¸aga wartość niemniejsz¸a niż p),
hp -szerokość przedzia lu zawieraj¸acego xp,n, np -liczebność przedzia lu zawieraj¸acego xp,n, P
x
n
i<x 0 p
i - liczebność skumulowana dla przedzia lu poprzedzaj¸acego przedzia l zawieraj¸acy xp,n (suma liczebności przedzia lów poprzedzaj¸acych)
Mediana: Me = kwantyl rz¸edu 12
Kwartyl dolny: Q 1 = kwantyl rz¸edu 14
Kwartyl górny: Q 3 = kwantyl rz¸edu 3.
4
Miary rozproszenia rozk ladu
5) Wariancja z próby s 2
- dla szeregu wyliczaj¸acego:
1 n
X
s 2 =
( x
n
i − x)2
i=1
- dla szeregu rozdzielczego:
1 k
X
s 2 =
n
n
i · ( xi − x)2
i=1 √
6) Odchylenie standardowe z próby s =
s 2.
7) Wspó lczynnik zmienności V = s · 100%.
x
8) Rozst¸ep R = różnica mi¸edzy najwi¸eksz¸a i najmniejsz¸a wartości¸a w próbie.
9) Wspó lczynnik asymetrii As:
- dla szeregu wyliczaj¸acego:
1
1 n
X
As =
· (
( x
s 3
n
i − x)3)
i=1
- dla szeregu rozdzielczego:
1
1 k
X
As =
· (
n
s 3
n
i · ( xi − x)3)
i=1
10) Kurtoza (wspó lczynnik skupienia) As:
- dla szeregu wyliczaj¸acego:
1
1 n
X
K =
· (
( x
s 4
n
i − x)4)
i=1
- dla szeregu rozdzielczego:
1
1 k
X
K =
· (
n
s 4
n
i · ( xi − x)4)
i=1
11) Wspó lczynnik skośności A 1:
x − D
A 1 =
s