ROZKŁADY
PRAWDOPODOBIEŃSTW
A
ROZKŁAD NORMALNY
Rozkład normalny
Rozkład normalny (o charakterystycznej krzywej
dzwonowej) wiąże się z nazwiskiem matematyka K.F.
Gaussa (1777-1855) i jest znany jako rozkład Gaussa,
choć pierwsze matematyczne wyprowadzenie tego
rozkładu przedstawił De Moivre w 1733 roku. Rozkład
ten spełnia ważną rolę w statystyce matematycznej.
Obserwacje wielu zjawisk przyrodniczych pozwoliły
stwierdzić, że podlegają one prawu rozkładu
normalnego lub bardzo doń zbliżonego. Powtarzając
wielokrotnie jakiś eksperyment, otrzymamy zawszę
trochę inny wynik, ale wszystkie wyniki będą się
rozkładać w sposób normalny.
Funkcja gęstości
Funkcja gęstości prawdopodobieństwa dla rozkładu normalnego z
wartością oczekiwaną μ i odchyleniem standardowym σ
(równoważnie: wariancją σ
2
) jest funkcją Gaussa.
Jeśli zmienna losowa X ma rozkład normalny zapisujemy to
następująco X ~ N(μ, σ). W praktyce ze zmiennymi losowymi o
rozkładzie normalnym spotykamy się w przypadkach gdy na zmienną
losową ma wpływ duża ilość niezależnie działających czynników z
których każdy ma znikomy wpływ np..przy błędach pomiarów.
Jeśli μ = 0 i σ = 1, rozkład nazywamy standardowym rozkładem
normalnym, którego funkcja gęstości opisana jest wzorem:
Rozkład normalny
Kształt tej funkcji zależy od dwóch parametrów:mi i
sigma . Parametr mi to wartość średnia w
populacji, względem której rozkład jest
symetryczny. Parametr sigma to odchylenie
standardowe stanowiące miarę rozrzutu wokół
średniej mi. Najczęściej nie znamy prawdziwych
wartości tych parametrów, lecz oceniamy je na
podstawie obliczeń średniej i odchylenia
standardowego z próby. Parametr mi decyduje o
położeniu krzywej względem osi poziomej (0-x),
natomiast od parametru sigma zależy
"wysmukłość" krzywej.
We wszystkich rozkładach normalnych funkcja gęstości jest
symetryczna względem wartości średniej rozkładu. Około 68% pola
pod wykresem krzywej znajduje się w odległości jednego odchylenia
standardowego od średniej, około 95,5% w odległości dwóch
odchyleń standardowych i około 99,7% w odległości trzech (reguła
trzech sigm). Punkt przegięcia krzywej znajduje się w odległości
jednego odchylenia standardowego od średniej.
Standaryzowanie zmiennych
losowych o rozkładzie
normalnym
Jeśli X ma rozkład normalny ze średnią μ i
wariancją σ
2
, wtedy:
Z jest zmienną losową o standardowym
rozkładzie normalnym N(0, 1).
Standardowy rozkład normalny został
stablicowany i inne rozkłady normalne są
prostymi transformacjami rozkładu
standardowego. W ten sposób możemy używać
tablic dystrybuanty rozkładu normalnego do
wyznaczenia wartości dystrybuanty rozkładu
normalnego o dowolnych parametrach.
Dystrybuanta
Dystrybuanta jest definiowana jako prawdopodobieństwo tego, że
zmienna X ma wartości mniejsze bądź równe "x"i w kategoriach
funkcji gęstości wyrażana jest (dla rozkładu normalnego) wzorem:
Aby uzyskać wzór na dystrybuantę standardowego rozkładu
normalnego, tradycyjnie oznaczaną jako Φ, wystarczy podstawić pod
ogólny wzór wartości μ = 0 i σ = 1,
Rozkłady wywodzące się z
rozkładu normalnego
standardowego
Bardzo ważną rolę w statystyce odgrywają trzy
rozkłady zmiennych losowych bazujące na
zmiennych
o
rozkładach
normalnych
standardowych. Są to następujące rozkłady:
1.
2
- (Chi-kwadrat)
2. t-Studenta
3. F-Fishera-Snedecora.
Ze statystykami opartymi na tych rozkładach
związane są takie działy statystyki jak:
przedziały ufności, weryfikacja hipotez, analiza
wariancji i regresji.
Rozkład t-Studenta
Drugi bardzo ważny rozkład zmiennej losowej
ciągłej to rozkład t-Studenta (pseudonim
angielskiego statystyka W. Gosseta). Stosowany
jest głównie do testowania małych prób. Pozwala
zaoszczędzić czas, który w przypadku próby o dużej
liczebności byłby długi. Rozkład ten zależy tylko od
jednego parametru (v), zwanego liczbą stopni
swobody, i jest związany z liczbą niezależnych
obserwacji. Krzywa gęstości rozkładu t-Studenta
jest podobna do krzywej standardowego rozkładu
normalnego N(0, 1). Jest ona symetryczna (z osią
symetrii t = 0) i tylko bardziej spłaszczona. Dla
dużej liczby stopni swobody (v > 120) rozkład t jest
praktycznie nieodróżnialny od standardowego
rozkładu normalnego.
Rozkład Studenta
Rozkład t-Studenta stosowany jest często w statystyce
w procedurach testowania hipotez statystycznych i
przy ocenie błędów pomiaru. Przy opracowaniu
wyników pomiarów często powstaje zagadnienie
oszacowania przedziału, w którym leży, z określonym
prawdopodobieństwem, rzeczywista wartość mierzona,
jeśli dysponujemy tylko wynikami n pomiarów, dla
których możemy wyznaczyć takie parametry, jak
średnia i odchylenie standardowe s lub
wariancja s^2 („z próby”), nie znamy natomiast
odchylenia standardowego w populacji. Zagadnienie to
rozwiązał (w 1908r.) W.S.Gosset (pseudonim Student)
podając funkcję zależną od wyników pomiarów X
i
, a
niezależną od .
Rozkład t-Studenta
Zmienna losowa t posiada rozkład Studenta jeżeli jej
funkcja gęstości prawdopodobieństwa opisaną jest
wzorem:
gdzie: Γ(x) to funkcja gamma.
Powyższy wzór określa całą rodzinę rozkładów
prawdopodobieństwa zależną od parametru v – liczby
stopni swobody rozkładu Studenta. Rozkłady te są
symetryczne, jednomodalne, dla dużych wartości v
zmierzają do standardowego rozkładu normalnego
N(0,1). Można przyjąć że dla v >30 rozkład Studenta
pokrywa się ze standardowym rozkładem normalnym.
Rozkład t-Studenta
Poniżej podane są przykładowe wykresy funkcji
gęstości rozkładu t-Studenta dla trzech
wybranych stopni swobody
.
0
0.1
0.2
0.3
0.4
-3
-2
-1
0
1
2
3
v=1
v=4
v=30
Wykres przedstawia gęstości rozkładu Studenta dla kilku
wartości liczby stopni swobody v w zestawieniu z
gęstością standardowego rozkładu normalnego N(0,1).
Rozkład t-Studenta
Można udowodnić, że jeżeli zmienna X posiada
posiada rozkład t-Studenta z liczbą stopni swobody
równą n-1.
Rozkład t-Studenta posiada liczne zastosowania
wynikające z faktu, że funkcje gęstości tego rozkładu nie
zależą od wariancji.
rozkład normalny
to zmienna
n
S
x
t
Rozkład t-Studenta
Duże znaczenie posiadają wartości
prawdopodobieństwa :
t
t
P
Wartości są stablicowane dla różnych wartości alfa
(podawanych w procentach) i różnych wartości stopni
swobody.
t
Tablica rozkładu t-Studenta jest skonstruowana w ten sposób,
że przy danej liczbie stopni swobody k i dla ustalonej wartości
(dla 0<
<1) odczytana wartość spełnia relację
Tablice rozkładu t-Studenta są na ogół budowane dla k<=30.
Jeżeli liczba stopni swobody jest większa od 30, korzystamy z
rozkładu N(0;1).
k
t
,
k
t
t
P
,
Rozkład chi-kwadrat
Rozkład chi-kwadrat został opracowany przez
statystyków A. Abbego (1863), H. Helmerta
(1875) i K. Pearsona (1900). Jest jednym z
najczęściej wykorzystywanych rozkładów. Rozkład
ten i postać funkcji gęstości zależy od parametru
- tzw. liczby stopni swobody. Zmienna losowa o
rozkładzie chi-kwadrat przyjmuje wartości
dodatnie. Dla małych wartości parametru jest to
rozkład silnie asymetryczny, jednak w miarę
wzrostu staje się coraz bardziej symetryczny i
podobny do rozkładu normalnego.
Rozkład Chi-kwadrat
0
2
0
0
)
,
(
dla
dla
2
2
2
1
2
1
x
e
x
x
x
f
x
v
v
v
v
x
D
v
x
E
2
)
(
)
(
2
Zmienna losowa X ma rozkład Chi-kwadrat
Pearsona, jeżeli jej funkcja gęstości
prawdopodobieństwa dana jest wzorem:
Wielkość v występująca w podanym wyżej
wzorze jest jednocześnie wartością
oczekiwaną tej zmiennej, a jej podwojona
wartość jest wariancją zmiennej:
Rozkład Chi-kwadrat (c.d.)
v
i
i
v
x
i
v
2
2
1
1 2
dla
, ,...,
v
2
Jeżeli zmienne x
i
mają wszystkie rozkład
normalny standardowy N(0; 1) i są
niezależne, to zmienna:
ma rozkład chi-kwadrat.
Liczbę v nazywamy liczbą stopni
swobody, wskazuje ona liczbę
niezależnych składników zmiennej , jest
jednocześnie wartością oczekiwaną tej
zmiennej losowej. Wariancja tej zmiennej
jest równa 2v.
Rozkład Chi-kwadrat (c.d.)
Poniżej podane są wykresy funkcji gęstości
prawdopodo-bieństwa zmiennej dla trzech
wybranych stopni swobody
.
0.000
0.010
0.020
0.030
0.040
0.050
v = 2
v = 6
v = 10
Rozkład Chi-kwadrat (c.d.)
Można udowodnić, że jeżeli zmienna losowa ma rozkład
normalny
to statystyka :
ma rozkład
2
z liczbą stopni swobody v = n - 1.
2
2
2
1
(
)
n
s
X N m
~ ( , )
Rozkład Fishera i
Snedecora
Rozkład ten często spotykamy w analizie
wariancji. Zmienna z nim związana została
sformułowana przez Fishera, a jej rozkład opisał
Snedecor. Rozkład ten ma dwa parametry: v1 ,
v2, zwane stopniami swobody.
Rozkład F-Fishera-Snedecora
Zmienna losowa X ma rozkład F-Fishera-Snedecora,
jeżeli jej funkcja gęstości prawdopodobieństwa dana
jest wzorem:
gdzie u i v są parametrami rozkładu zwanymi
liczbami stopni swobody.Parametrami zmiennej
losowej F-Fishera-Snedecora są odpowiednio:
f
x
x
u v
x
ux v
x
u v
u v
u
v
u
v
u
u v
,
( )
(
)
0
0
0
2
2
2
2
2
2
2
1
dla
dla
EF
v
v
v
2
2
dla
D F
v u v
u v
v
v
2
2
2
2
2
2
4
4
(
)
(
) (
)
dla
Rozkład F-Fishera-Snedecora
(c.d.)
Jeżeli zmienne losowe i
są niezależnymi zmiennymi losowymi
o rozkładzie norma-lnym standardowym, to
zmienna:
ma rozkład F-Fishera-Snedecora z liczbami
stopni swobody
u i v.
X X
X
u
1
2
,
,...,
Y Y
Y
v
1
2
, ,...,
1
2
1
1
2
1
u
i
i
u
v
i
i
v
X
Y
Rozkład F-Fishera-Snedecora
(c.d.)
Poniżej podane są przykładowe wykresy funkcji
gęstości rozkładu F-Fischera-Snedecora dla
trzech wybranych par stopni swobody