Statystyka w analizie i planowaniu eksperymentu
Wykład 2
Rozkład normalny, jednostajny i dwumianowy
Przemysław Biecek
Dla 1 roku studentów Biotechnologii
Rozkład normalny, gaussowski
Najczęściej wykorzystywany rozkład, do modelowania zmienności
w populacji. Parametrami rozkładu są średnia µ i wariancja σ
2
.
Korzystamy z notacji
X ∼ N (µ, σ
2
).
Gęstość rozkładu normalnego wyraża się wzorem
f (x ) =
1
σ
√
2π
e
−(x−µ)2
2σ2
.
Standardowy rozkład normalny, to rozkład normalny o średniej 0
i wariancji 1
X ∼ N (0, 1).
Podstawy rachunku prawdopodobieństwa
2/25
Przekształcenia zmiennej o rozkładzie normalnym
Przyjmijmy, że zmienna X ma rozkład
X ∼ N (0, 1).
Możemy określić nową zmienną Y następująco
(Y − µ)/σ = X ,
tak określona zmienna ma rozkład
Y ∼ N (µ, σ).
Podstawy rachunku prawdopodobieństwa
3/25
Kwantyle zmiennej losowej o rozkładzie normalnym
−3
−2
−1
0
1
2
3
0.0
0.2
0.4
0.6
0.8
1.0
x
pnorm(x)
kwantyl 0.999 = 3.09
kwantyl 0.975 = 1.96
kwantyl 0.95 = 1.64
Podstawy rachunku prawdopodobieństwa
4/25
Przykłady
Przyjmuje się, że współczynnik IQ ma w populacji rozkład
normalny o średniej 100 i odchyleniu standardowym 15.
IQ ∼ N (100, 15).
Ile osób ma IQ większe od 100?
Ile osób ma IQ w przedziale 70 do 130?
Jaki przedział przyjąć by określić 5% osób o największym IQ?
Podstawy rachunku prawdopodobieństwa
5/25
Rozkład dwumianowy
Często wykorzystywany rozkład, do modelowania liczby wystąpień
zjawisk zdarzających się z pewnym prawdopodobieństwem.
Parametrami rozkładu są liczba prób n i prawdopodobieństwo
sukcesu p. Korzystamy z notacji
X ∼ B(p, n).
Średnia wartość wynosi
E (X ) = np
a wariancja
Var (X ) = np(1 − p).
Prawdopodobieństwo wystąpienia k sukcesów
P(X = k) =
n
k
· p
k
· (1 − p)
n−k
.
Podstawy rachunku prawdopodobieństwa
6/25
Przykłady
Przypuśćmy, ze prawdopodobieństwo zdania egzaminu nie ucząc
się wynosi 0.01. Prawdopodobieństwo zdania egzaminu ucząc się
przez tydzień wynosi już 0.7.
Na pierwszym roku wydziału X studenci mają 4 egzaminy.
Opisać rozkład liczby zdanych egzaminów przez
osobę, która nic się nie uczyła,
osobę, która uczyła się tydzień do każdego egzaminu.
Podstawy rachunku prawdopodobieństwa
7/25
Centralne Twierdzenie Graniczne
Rozkład normalny jest ważny, ponieważ jest granicznym
przypadkiem uśredniania zmiennych pochodzących z innych
rozkładów.
Centralne Twierdzenie Graniczne
Średnia n niezależnych ustandaryzowanych zmiennych losowych
z porządnych rozkładów zbiega do rozkładu normalnego N (0, 1/n).
Co to oznacza?
Wiele zjawisk można przybliżyć rozkładem normalnym.
Podstawy rachunku prawdopodobieństwa
8/25
Centralne Twierdzenie Graniczne
−1.0
−0.5
0.0
0.5
1.0
1.5
2.0
0.0
0.1
0.2
0.3
0.4
0.5
liczba sukcesów w 1 próbie
Podstawy rachunku prawdopodobieństwa
9/25
Centralne Twierdzenie Graniczne
0
2
4
6
8
10
0.00
0.05
0.10
0.15
0.20
0.25
liczba sukcesów w 10 próbach
Podstawy rachunku prawdopodobieństwa
10/25
Centralne Twierdzenie Graniczne
20
30
40
50
60
70
80
0.00
0.02
0.04
0.06
0.08
liczba sukcesów w 100 próbach
Podstawy rachunku prawdopodobieństwa
11/25
Centralne Twierdzenie Graniczne
300
400
500
600
700
0.000
0.005
0.010
0.015
0.020
0.025
liczba sukcesów w 1000 próbach
Podstawy rachunku prawdopodobieństwa
12/25
Centralne Twierdzenie Graniczne
0
2
4
6
0.0
0.2
0.4
0.6
0.8
liczba sukcesów w 1 rzuce kostką
Podstawy rachunku prawdopodobieństwa
13/25
Centralne Twierdzenie Graniczne
0
2
4
6
8
10
0.00
0.05
0.10
0.15
0.20
0.25
0.30
liczba sukcesów w 10 rzutach kostką
Podstawy rachunku prawdopodobieństwa
14/25
Centralne Twierdzenie Graniczne
0
10
20
30
40
0.00
0.02
0.04
0.06
0.08
0.10
liczba sukcesów w 100 rzutach kostką
Podstawy rachunku prawdopodobieństwa
15/25
Centralne Twierdzenie Graniczne
100
150
200
250
300
0.000
0.005
0.010
0.015
0.020
0.025
0.030
0.035
liczba sukcesów w 1000 rzutach kostką
Podstawy rachunku prawdopodobieństwa
16/25
Rozkład jednostajny
Często wykorzystywany rozkład, do modelowania zjawisk
zdarzających się z równym prawdopodobieństwem.
Korzystamy z notacji
X ∼ U (a, b).
Średnia wartość zmiennej o rozkładzie jednostajnym wynosi
E (X ) = (a + b)/2
a wariancja
Var (X ) = (b − a)
2
/12.
Najczęściej rozważa się rozkład jednostajny na odcinku [0,1].
Podstawy rachunku prawdopodobieństwa
17/25
Przykłady
Przypuśćmy, że budzimy się w losowej chwili pomiędzy godziną
6:00 a 8:00. Załóżmy, że prawdopodobieństwo obudzenia się nie
zależy od godziny i jest równe w każdej chwili.
Ile wynosi prawdopodobieństwo obudzenia się pomiędzy godziną
7:00 a 7:15?
Po której godzinie jesteśmy obudzeni w 90% przypadków?
Jak by to wyglądało, gdyby chwila obudzenia miała rozkład
normalny o średnim czasie obudzenia 7:00 i wariancji 10 minut.
Podstawy rachunku prawdopodobieństwa
18/25
Dwuwymiarowy rozkład normalny
W praktyce możemy mieć do czynienia z większą liczbą zmiennych
o łącznym rozkładzie normalnym. Najprostszym przypadkiem jest
dwuwymiarowy rozkład normalny. Taki rozkład opisujemy
wektorem średnich (µ
1
, µ
2
) oraz macierzą kowariancji
Σ =
σ
2
1
σ
12
σ
12
σ
2
2
.
Wartość parametru σ
12
określa czy obie zmienne są pozytywnie
zależne, negatywnie zależne czy niezależne.
Podstawy rachunku prawdopodobieństwa
19/25
Dwuwymiarowy rozkład normalny
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
1.5
1.6
1.7
1.8
60
65
70
75
80
85
90
wzrost
waga
Podstawy rachunku prawdopodobieństwa
21/25
Dwuwymiarowy rozkład normalny
Kowariancje pomiędzy dwiema zmiennymi wyznaczyć można ze
wzoru
Cov (X , Y ) =
N
X
i =1
(X
i
− ¯
X )(Y
i
− ¯
Y ).
Korelacje pomiędzy dwiema zmiennymi wyznaczyć można ze wzoru
Cor (X , Y ) =
P
N
i =1
(X
i
− ¯
X )(Y
i
− ¯
Y )
q
P
N
i =1
(X
i
− ¯
X )
2
q
P
N
i =1
(Y
i
− ¯
Y )
2
.
Podstawy rachunku prawdopodobieństwa
22/25
Przykład
Jaka jest kowariancja i korelacja wzrostu i wagi osób siedzących na
sali?
Podstawy rachunku prawdopodobieństwa
23/25
Z jakiego rozkładu pochodzą te dane?
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−2
−1
0
1
−2
−1
0
1
2
kwantyle empiryczne
kwantyle teoretyczne
Podstawy rachunku prawdopodobieństwa
24/25
Co trzeba zapamiętać?
Co wynika z Centralnego Twierdzenia Granicznego?
Czym różni się kowariancja od korelacji?
Jakie parametry ma rozkład normalny?
Jakie parametry ma rozkład dwumianowy?
Jakie parametry ma rozkład jednostajny?
Jaki kształt mają gęstości tych rozkładów?
Podstawy rachunku prawdopodobieństwa
25/25