1

PODSTAWY BIOSTATYSTYKI dla ZM III

dr inż Krzysztof Bryś

Wyk lad 2

Podstawowe teoretyczne rozk lady prawdopodobieństwa zmiennej losowej jednowymiarowej Typu skokowego

1. Rozk lad jednopunktowy.

Funkcja prawdopodobieństwa : P ( X = c) = 1 dla pewnej sta lej c Wartoś˙c oczekiwana: E( X) = c

Wariancja: D 2( X) = 0

Interpretacja: Rozk lad dowolnej sta lej liczbowej X.

2. Rozk lad dwupunktowy (zerojedynkowy).

Funkcja prawdopodobieństwa : P ( X = 1) = p, P ( X = 0) = q = 1 − p Wartoś˙c oczekiwana: E( X) = p

Wariancja: D 2( X) = p · q = p · (1 − p) Interpretacja: Rozk lad dowolnej zmiennej X, która odpowiada na pewne pytanie albo TAK

( X = 1-”sukces”) albo NIE ( X = 0-”porażka”), rozk lad dowolnej cechy ”zero-jedynkowej” (obiekt albo j¸a posiada ( X = 1) albo nie posiada ( X = 0).

3. Rozk lad Bernoulliego (dwumianowy) - B( n, p) Schemat doświadczeń Bernoulliego:

- n niezależnych doświadczeń,

- w każdym doświadczeniu albo sukces z prawdopodobieństwem p albo porażka (z prawdopodobieństwem q = 1 − p);

Interpretacja: Zmienna losowa X ma rozk lad B( n, p) jeśli mówi o liczbie sukcesów w schemacie n niezależnych doświadczeń Bernoulliego z prawdopodobieństwem sukcesu p w każdym z nich. Jest sum¸a n niezależnych zmiennych losowych o rozk ladzie zerojedynkowym.

Funkcja prawdopodobieństwa : P ( X = k) = n pk · qn−k dla k = 0 , 1 , 2 , . . . , n, q = 1 − p.

k

Wartoś˙c oczekiwana: E( X) = np

Wariancja: D 2( X) = n · p · q

4. Rozk lad Poissona - Po( λ)

Funkcja prawdopodobieństwa : P ( X = k) = e−λ · λk dla k = 0 , 1 , 2 , . . .

k!

Wartoś˙c oczekiwana: E( X) = λ

Wariancja: D 2( X) = λ

Interpretacja: Rozk lad graniczny dla rozk laadu B( n, p) przy n → + ∞.

Dla dostatecznie dużych n, zmienna losowa o rozk ladzie B( n, p) ma w przybliżeniu rozk lad Poissona z parametrem λ = n · p.

Typu ci¸ag lego

1. Rozk lad jednostajny na przedziale ( a; b) - U( a, b) Funkcja g¸estości prawdopodobieństwa :

(

1

, dla a < x < b

f ( x) =

b−a

0

, dla pozosta lych x

Wartoś˙c oczekiwana: E( X) = a+ b 2

Wariancja: D 2( X) = ( b−a)2

12

Interpretacja Zmienna losowa X ma rozk lad U( a, b) jeśli przyj¸ecie przez t¸a zmienn¸a dowolnej wartości z przedzia lu ( a; b) jest jednakowo prawdopodobne.

2. Rozk lad normalny (Gaussa) - N( m, σ)

2

Funkcja g¸estości prawdopodobieństwa : f ( x) =

1

√

· e−( x−m)2

2 σ 2

dla x ∈ R

2 πσ

Wartoś˙c oczekiwana: E( X) = m

Wariancja: D 2( X) = σ 2

Wykresem powyższej funkcji g¸estości prawdopodobieństwa jest krzywa Gaussa Zmienna losowa standaryzowa dla zmiennej losowej o rozk ladzie N( m, σ): X − m

X =

σ

ma rozk lad normalny standardowy N(0 , 1).

Dystrybuanta rozk ladu normalnego standardowego N(0 , 1): Z x

1

Φ( x) =

√

· e−t 22 dt dla x ∈ R

−∞

2 π

Z parzystości funkcji g¸estości prawdopodobieństwa rozk ladu N(0 , 1) wynika, że: Φ( −x) = 1 − Φ( x) .

uα - kwantyl rz¸edu α zmiennej losowej o rozk ladzie N(0 , 1) (tzn. Φ( uα) = α) 3. Rozk lad chi kwadrat o n stopniach swobody

Zmienna losowa χ 2 = X 2 + X 2 + . . . + X 2, gdzie X

1

2

n

1 , X 2 , . . . Xn zmienne o rozk ladzie N (0 , 1) ma rozk lad chi-kwadrat o n stopniach swobody

Wartoś˙c oczekiwana: E( χ 2) = n

Wariancja: D 2( χ 2) = 2 n

Dla dużych n ( n > 40) rozk lad chi-kwadrat o n stopniach swobody można przybliża˙c rozk ladem

√

N( n, 2 n).

χ 2( α, n) = kwantyl rz¸edu 1 − α zmiennej o rozk ladzie chi-kwadrat o n stopniach swobody 4. Rozk lad t-Studenta o n stopniach swobody.

Zmienna losowa T = X

q

, gdzie X zmienna losowa o rozk ladzie N(0 , 1) a zmienna χ 2 ma rozk lad χ 2

n

chi-kwadrat o n stopniach swobody.

Wartoś˙c oczekiwana: E( T ) = 0.

Wariancja: D 2( T ) = n .

n− 2

Dla dużych n ( n > 40) rozk lad t-Studenta o n stopniach swobody można przybliża˙c rozk ladem N(0 , 1).

t( α, n) = kwantyl rz¸edu 1 − α zmiennej o rozk ladzie t-Studenta o n stopniach swobody.

2

Statystyka - poj¸ecia wst¸epne

populacja - ca ly zbiór badanych przedmiotów lub wartości.

próba - skończony podzbiór populacji podlegaj¸acy badaniu.

próba losowa - próba losowana (najcz¸eściej) zgodnie z rozk ladem równomiernym, tzn. wylosowanie każdej próby jest jednakowo prawdopodobne.

cechy: mierzalne, niemierzalne

badana cecha = zmienna losowa X

Poszukiwany: rozk lad cechy w populacji = rozk lad zmiennej losowej X

próba n-elementowa = ci¸ag n niezależnych zmiennych losowych ( X 1 , . . . , Xn) o jednakowym rozk ladzie (takim jak poszukiwany rozk lad zmiennej losowej X).

Etapy badania statystycznego

1) Przygotowanie (formatowanie) badania (określenie celu, rodzaju, potrzebnych parametrów wejściowych badania).

3

2) Przeprowadzenie badania (wylosowanie próby i określenie wartości badanych cech w próbie).

3) Zebranie uzyskanych podczas badania danych.

4) Opis i wnioskowanie statystyczne (obliczenie parametrów, estymacja, weryfikacja hipotez).

5) Przedstawienie wyników.

Szeregi statystyczne

1) Szereg wyliczaj¸acy uporz¸adkowany: ( x 1 , x 2 , . . . , xn) przy czym x 1 ≤ x 2 ≤ . . . ≤ xn.

2) Szereg rozdzielczy punktowy: ( x 1 , x 2 , . . . , xk), ( n 1 , n 2 , . . . , nk), gdzie x 1 < x 2 < . . . < xk oraz dla każdego i = 1 , 2 , . . . , k: ni-liczba realizacji (obserwacji) wartości xi, P k n

i=1

i = n.

3) Szereg rozdzielczy przedzia lowy: ( y 0; y 1 >, ( y 1; y 2 >, . . . , ( yk− 1; yk), ( n 1 , n 2 , . . . , nk), gdzie y 0 < y 1 < y 2 < . . . < yk− 1 < yk oraz dla każdego i = 1 , 2 , . . . , k: ni-liczba realizacji (obserwacji) P

wartości należ¸acej do przedzia lu ( y

k

i− 1; yi),

n

i=1

i = n.

Wszystkie wartości należ¸ace do przedzia lu ( yi− 1; yi > , i = 1 , 2 , . . . , k utożsamia si¸e z jego środkiem xi.

√

Regu ly wyznaczania liczby przedzia lów (klas): k ≈

n, k ≤ 5 log n.

Parametry empiryczne

Miary po lożenia rozk ladu

1) Średnia z próby x

- dla szeregu wyliczaj¸acego:

1 n

X

x =

x

n

i

i=1

- dla szeregu rozdzielczego:

1 k

X

x =

n

n

i · xi

i=1

2) Dominanta (moda, wartość modalna) D = punkt, w którym funkcja prawdopodobieństwa osi¸aga najwi¸eksz¸a wartość

- dla szeregu wyliczaj¸acego: najcz¸eściej wyst¸epuj¸aca wartość,

- dla szeregu rozdzielczego punktowego: punkt, dla którego liczebność (cz¸estość) osi¸aga najwi¸eksz¸a wartość, - dla szeregu rozdzielczego przedzia lowego (wzór interpolacyjny): n

D = x

d − nd− 1

0 d +

· h

( n

d,

d − nd− 1) + ( nd − nd+1)

gdzie

x 0 d - pocz¸atek przedzia lu zawieraj¸acego dominant¸e (przedzia lu o najwiekszej liczebności), hd - szerokość przedzia lu zawieraj¸acego dominant¸e (przedzia lu o najwiekszej liczebności), nd - liczebność przedzia lu zawieraj¸acego dominant¸e (najwieksza liczebność), nd− 1 - liczebność przedzia lu poprzedzaj¸acego przedzia l zawieraj¸acy dominant¸e, nd+1 - liczebność przedzia lu nast¸epnego po przedziale zawieraj¸acym dominant¸e.

3) Dystrybuanta empiryczna (cz¸estość skumulowana Fn( x)

- dla szeregu wyliczaj¸acego:

1

Fn( x) = |{i : x

n

i < x, i = 1 , . . . , n}|

- dla szeregu rozdzielczego:

X n

F

i

n( x) =

n

i: xi<x

4) Kwantyl empiryczny rz¸edu p xp,n:

(punkt w którym dystrybuanta empiryczna po raz pierwszy osi¸aga wartość niemniejsz¸a niż p)

- dla szeregu wyliczaj¸acego:

xp,n = xdnpe

4

- dla szeregu rozdzielczego punktowego:

r

X n

x

i

p,n = xq gdzie q = min {r : p ≤

}

n

i=1

- dla szeregu rozdzielczego przedzia lowego (wzór interpolacyjny): X

h

x

p

p,n = x 0 p + ( np −

ni) ·

,

n

xi<x 0 p

p

gdzie

x 0 p - pocz¸atek przedzia lu zawieraj¸acego xp,n (przedzia lu w którym dystrybuanta empiryczna po raz pierwszy osi¸aga wartość niemniejsz¸a niż p),

hp -szerokość przedzia lu zawieraj¸acego xp,n, np -liczebność przedzia lu zawieraj¸acego xp,n, P

x

n

i<x 0 p

i - liczebność skumulowana dla przedzia lu poprzedzaj¸acego przedzia l zawieraj¸acy xp,n (suma liczebności przedzia lów poprzedzaj¸acych)

Mediana: Me = kwantyl rz¸edu 12

Kwartyl dolny: Q 1 = kwantyl rz¸edu 14

Kwartyl górny: Q 3 = kwantyl rz¸edu 3.

4

Miary rozproszenia rozk ladu

5) Wariancja z próby s 2

- dla szeregu wyliczaj¸acego:

1 n

X

s 2 =

( x

n

i − x)2

i=1

- dla szeregu rozdzielczego:

1 k

X

s 2 =

n

n

i · ( xi − x)2

i=1 √

6) Odchylenie standardowe z próby s =

s 2.

7) Wspó lczynnik zmienności V = s · 100%.

x

8) Rozst¸ep R = różnica mi¸edzy najwi¸eksz¸a i najmniejsz¸a wartości¸a w próbie.

9) Wspó lczynnik asymetrii As:

- dla szeregu wyliczaj¸acego:

1

1 n

X

As =

· (

( x

s 3

n

i − x)3)

i=1

- dla szeregu rozdzielczego:

1

1 k

X

As =

· (

n

s 3

n

i · ( xi − x)3)

i=1

10) Kurtoza (wspó lczynnik skupienia) As:

- dla szeregu wyliczaj¸acego:

1

1 n

X

K =

· (

( x

s 4

n

i − x)4)

i=1

- dla szeregu rozdzielczego:

1

1 k

X

K =

· (

n

s 4

n

i · ( xi − x)4)

i=1

11) Wspó lczynnik skośności A 1:

x − D

A 1 =

s