Kotłowska M Rachunek prawdopodobieństwa i statystyka matematyczna

RACHUNEK PRAWDOPODOBIECSTWA
I STATYSTYKA MATEMATYCZNA
Maria Kotłowska
Przedmiot rachunku prawdopodobieństwa ścisłe ujęcie
częstościowego bądz też statystycznego sensu słowa
prawdopodobnie.
Pojęcie prawdopodobieństwa łączymy z reguły z wynikiem
obserwacji lub eksperymentu bądz to rzeczywistego bądz to
myślowego.
W rachunku prawdopodobieństwa możliwy wynik eksperymentu, o
którego prawdopodobieństwie chcemy mówić nazywamy
zdarzeniem.
Zdarzenia elementarne utożsamiamy z elementami pewnego
podstawowego zbioru, reprezentującego pojedyncze, elementarne,
nierozkładalne na drobniejsze części wyniki rozpatrywanego
eksperymentu.
Przestrzeń zdarzeń elementarnych zbiór elementów stanowiących
wszystkie elementarne, niepodzielne wyniki doświadczeń czy
obserwacji. Oznaczamy ją literą �, a jej elementy zwane
zdarzeniami elementarnymi literą �, ewentualnie ze wskaznikiem.
Ogólnie zdarzeniami w teorii prawdopodobieństwa nazywamy
podzbiory przestrzeni zdarzeń elementarnych czyli zbiory zdarzeń
elementarnych.
1
DZIAAANIA NA ZDARZENIACH
1. Sumą dwóch zdarzeń A i B nazywamy zdarzenie C złożone z tych
wszystkich zdarzeń elementarnych, które należą co najmniej do
jednego ze zdarzeń A , B , co oznaczamy;
A*"B = C
Sumowanie uogólnia się na dowolną liczbę składników.
Tak więc sumą n zdarzeń A1,A2,.....,An nazywamy zdarzenie
n
C = A1 *" A2 *"....*" An = *" Ai
i=1
złożone z tych wszystkich zdarzeń elementarnych, które należą co
najmniej do jednego ze zdarzeń A1,A2,.....,An.
Podobnie definiujemy sumę nieskończonego ciągu zdarzeń.
2. Iloczynem dwóch zdarzeń A i B nazywamy zdarzenie C złożone z
tych zdarzeń elementarnych, które są zawarte jednocześnie i w A i w
B, co oznaczamy:
A)"B = C
Iloczyn większej ilości zdarzeń
n
C = A1 )" A2 )"......)" An = )" Ai
i=1
to zdarzenie C złożone z tych wszystkich zdarzeń elementarnych ,
które należą jednocześnie do każdego ze zdarzeń A1,A2,....,An .
Podobnie definiujemy iloczyn nieskończonego ciągu zdarzeń.
3. Różnicą dwóch zdarzeń A i B nazywamy zdarzenie C złożone z
tych zdarzeń elementarnych, które należą do zdarzenia A , ale nie
należą do zdarzenia B, co oznaczamy
A|B = C
2
4. Dopełnieniem zdarzenia A nazywamy zdarzenie B złożone z tych
wszystkich zdarzeń elementarnych, które nie należą do zdarzenia A.
Dopełnienie oznaczamy A`; A` = B oznacza, że B jest dopełnieniem
A`.
5. Zdarzenie pewne to cala przestrzeń � zdarzeń elementarnych
(reprezentuje wszystkie możliwe wyniki eksperymentu, a więc musi
się zdarzyć wynik należący do �).
6. Zdarzenie niemożliwe oznaczymy przez �, czyli A = � jest
zdarzeniem niemożliwym, a więc nie zawiera żadnego zdarzenia
elementarnego.
7. Zdarzenia A i B są rozłączne wtedy, gdy ich iloczyn jest
zdarzeniem niemożliwym, A)"B =� , co oznacza, że A i B nie
zawierają wspólnych zdarzeń elementarnych.
8. Zdarzenie A zawiera się w zdarzeniu B wtedy, gdy jeśli realizuje
się zdarzenie A, to realizuje się zdarzenie B. Oznaczamy A�"B, czyli
wszystkie zdarzenia elementarne zawarte w A są jednocześnie zawarte
w zdarzeniu B.
9. A*"A` = � , suma zdarzenia A i jego dopełnienia A` jest
zdarzeniem pewnym �.
10. A)"A` = �, iloczyn zdarzenia A i jego dopełnienia A` jest
zdarzeniem niemożliwym, czyli są to zdarzenia rozłączne.
11. A*"A = A
A)"A = A
(A`)` = A
12. A|B = A)"B`, co oznacza, że każde zdarzenie elementarne
należące do A i B` nie należy do B.
Związki między dodawaniem i mnożeniem zdarzeń opisują równości
zwane prawami de Morgana.
3
2 2
1.(A *" B)2 = A )" B
2 2
(A )" B)2 = A *" B
2
2.(A1 *" A2 *"....*" An )2 = A1 )" A22 )"....)" An2
(A1 )" A2 )" ...)" An )2 = A12 *" A22 *"....*" An2
3.(A1 *" A2 *".....)2 = A12 )" A22 )"....
(A1 )" A2 )" .....)2 = A12 *" A22 *"....
Z powyższych praw wynikają następujące związki:
2 2
1.A *" B = (A )" B )2
2 2
A )" B = (A *" B )2
2
�#
2.A1 *" A2 *" ...*" An = A12 )" A22 )"... )" An2 ś#
ś# ź#
�# #
2
�#
A1 )" A2 )" .... )" An = A12 *" A22 *"... *" An2 ś#
ś# ź#
�# #
2
�#
3.A1 *" A2 *".... = A12 )" A22 )"...ś#
ś# ź#
�# #
2
�#
A1 )" A2 )" .... = A12 *" A22 *"...ś#
ś# ź#
�# #
4.A *" � = �
4
5. Jeżeli A�"B, to A)"� = �
6. �)"� = �
7. �` = � , �` = �
Zbiór wszystkich zdarzeń nazywamy ciałem zdarzeń i oznaczamy S.
Jednak nie każdy zbiór zdarzeń elementarnych możemy uważać za
zdarzenie i zaliczyć do zbioru S. Wiąże się to z istnieniem przestrzeni
nieprzeliczalnych. Dlatego w ogólnej teorii zamiast mówić o
zdarzeniach po prostu jako o podzbiorach przestrzeni zdarzeń
elementarnych mając na myśli wszystkie takie podzbiory, wprowadza
się zbiór S wszystkich zdarzeń i formułuje się jedynie postulaty co do
domknięcia zbioru S ze względu na pewne działania na zdarzeniach.
Postulaty dotyczące zbioru S wszystkich zdarzeń
1. Dopełnienie A` każdego zdarzenia A jest zdarzeniem, czyli jeżeli
A " S �! A` " S.
2. Suma każdego skończonego lub przeliczalnego zbioru zdarzeń A i
jest zdarzeniem, czyli jeśli dla każdego i przebiegającego zbiór
skończony lub przeliczalny, Ai " S�! *"Ai "S.
i
Z powyższych postulatów wynikają następujące twierdzenia:
1. Zdarzenie pewne i zdarzenie niemożliwe są elementami zbioru S,
czyli jeśli
� " S '" � " S.
2. Iloczyn dwóch zdarzeń jest zdarzeniem, czyli jeśli
A " S '"B " S �!(A)"B) "S.
3. Iloczyn skończenie lub przeliczalnie wielu zdarzeń jest
zdarzeniem, czyli jeśli dla skończenie lub przeliczalnie wielu i mamy
Ai " S�!)"Ai " S.
i
5
4. Różnica zdarzeń jest zdarzeniem, czyli jeśli
A " S'"B "S�!(A|B)"S.
Zbiór S zdarzeń pokrywa się z klasą wszystkich podzbiorów
przestrzeni zdarzeń elementarnych, gdy przestrzeń zdarzeń
elementarnych składa się ze skończonej bądz przeliczalnej liczby
elementów.
Prawdopodobieństwo odnosimy do eksperymentu, traktując je jako
abstrakcyjny opis jego własności.
DEFINICJE PRAWDOPODOBIECSTWA
I. Aksjomatyczna
II. Oparta na częstości względnej
III. Klasyczna a priori
I. Aksjomatyczna definicja prawdopodobieństwa
Prawdopodobieństwo jest to funkcja, której wartościami są liczby
rzeczywiste, a argumentami zdarzenia i która ma następujące
własności:
1.Prawdopodobieństwo P(A) zdarzenia A przyjmuje wartości od
0 do 1, czyli
0 d" P(A) d" 1 , gdzie A " S
2. Prawdopodobieństwo zdarzenia pewnego � jest równe 1, czyli
P(�) = 1
3. Prawdopodobieństwo jest przeliczalnie addytywne, to znaczy, że
dla każdego ciągu parami rozłącznych zdarzeń A1, A2,.... ze zbioru S
P( A1 *" A2 *" .......) = P(A1) + P(A2) + ......... ,
gdzie
A1, A2 , ....." S.
6
Aksjomat 2 aksjomat unormowania
Aksjomat 3 aksjomat przeliczalnej addytywności
Elementarne własności prawdopodobieństwa wynikające z jego
aksjomatycznej definicji
1. Prawdopodobieństwo zdarzenia niemożliwego równa się zero, czyli
P(�) = 0
2. Jeżeli zdarzenia A1, A2,......., An są parami rozłączne, to
P( A1 *" A2 *" ...... *" An ) = P(A1) + P(A2) +....+ P(An)
Jeżeli dwa zdarzenia A i B się nie wykluczają, to
P( A *" B ) = P(A) + P(B) P( A )" B)
3. Suma prawdopodobieństw zdarzeń przeciwnych równa się
jedności, czyli
P(A) + P(A`) = 1
4. Jeżeli przestrzeń zdarzeń elementarnych � jest co najwyżej
przeliczalna i przy tym określone są prawdopodobieństwa pi
poszczególnych zdarzeń jednoelementowych �#�iŹ#, czyli
P(�#�iŹ#) = pi , pi e" 0
i
p1 + p2 + ...+ pn = 1, gdy przestrzeń � jest skończona
p1 + p2 +........... = 1, gdy przestrzeń � jest przeliczalna,
to prawdopodobieństwo zdarzenia Ai, któremu sprzyjają zdarzenia
elementarne �i1,.....,�ik jest dane równością :
P(Ai) = pi1 +........+ pik.
7
II. Oparta na częstości względnej popularna wśród fizyków
i inżynierów
Rozpatrywane doświadczenie powtarzamy n razy. Jeżeli zdarzenie
A pojawia się nA razy, to jego prawdopodobieństwo P(A) definiuje się
nA
jako granicę częstości względnej zajścia zdarzenia A, czyli
n
nA
P(A) = lim
.
n"
n
III. Definicja klasyczna
Prawdopodobieństwo P(A) zdarzenia A znajdujemy a priori
( bez przeprowadzenia doświadczenia) przez zliczenie ogólnej liczby
N możliwych wyników. Jeżeli zdarzenie A zachodzi w NA wynikach
doświadczenia, to P(A) dane jest wzorem
N
A
P(A) =
N
czyli prawdopodobieństwo P(A) jest równe stosunkowi liczby zdarzeń
sprzyjających do wszystkich możliwych pod warunkiem, że są one
jednakowo możliwe.
Doświadczenie losowe D
Na doświadczenie losowe D składają się:
1. Zbiór � elementów lub wyników czyli przestrzeń zdarzeń
elementarnych
2. Ciało zdarzeń, zbiór zdarzeń S.
3. Liczba P(A) przypisana każdemu zdarzeniu A. Liczba ta jest
prawdopodobieństwem zdarzenia A i podlega aksjomatycznej
definicji prawdopodobieństwa.
8
Przestrzeń probabilistyczna stanowi matematyczny opis
doświadczenia D, czyli zgodnie z powyższym określają ją dla danego
doświadczenia D: przestrzeń zdarzeń elementarnych �,
zbiór S zdarzeń i prawdopodobieństwo P określone na zdarzeniach
należących do S. Oznaczamy ( �,S,P).
Prawdopodobieństwo zdarzeń niezależnych
Dwa zdarzenia A, B " S są niezależne, gdy :
P( A )" B ) = P(A) �" P(B).
Równość ta nie wyklucza sytuacji, gdy P(A) = 0 i P(B) = 0.
Jeżeli P(A) > 0 i P(B) > 0, to wówczas każda z równości
P(A�#B) = P(A) , P(B�#A) = P(B)
stanowi warunek konieczny i wystarczający na to, aby zdarzenia były
niezależne.
Statystyka matematyczna dostarcza metod wnioskowania
o wartości pewnych parametrów opisujących całą populację generalną
czyli cały zbiór wyników na podstawie uzyskanych dla losowo
wybranej części zbioru.
Populacja generalna zwana również zbiorowością statystyczną, to
ogół elementów ( przedmioty, grupy wiekowe, próbki, pomiary
wyróżniające się pewną cechą ilościową i jakościową) będących
przedmiotem naszego zainteresowania, dla których w oparciu
o odpowiednią próbę losową ( losowo wybraną część zbioru) chcemy
oszacować niektóre charakterystyki rozkładu prawdopodobieństwa
jednej lub kilku ich cech.
Rozróżniamy populację skończoną i nieskończoną. Populację
generalną nieskończoną tworzy nieskończony zbiór elementów
np. tworzą wyniki pomiarów pewnej wielkości, a więc te, które
zostały wykonane lub zostaną wykonane.
9
Próba losowa będzie losowo wybranym podzbiorem elementów
i badania statystyczne wykonujemy dla wszystkich elementów próby.
Statystyka matematyczna pozwala rozszerzyć wnioski z badań próby
na całą populację pod warunkiem, że próba jest reprezentatywna,
czyli że jej struktura nie różni się od struktury populacji generalnej.
ZMIENNA LOSOWA
Zmienna losowa przyjmuje wartości, których nie można ustalić przed
doświadczeniem, czyli zależy od zdarzenia elementarnego, które
realizowało się w doświadczeniu.
Definicja zmiennej losowej
Niech ( �,S,P) będzie dowolną przestrzenią probabilistyczną.
Zmienną losową nazywamy dowolną funkcję X określoną na
przestrzeni zdarzeń elementarnych �, o wartościach ze zbioru R liczb
rzeczywistych mającą następujące własności:
dla dowolnej, ustalonej liczby rzeczywistej x zbiór zdarzeń
elementarnych �, dla których spełniona jest nierówność
X(�)< x , jest zdarzeniem,
czyli
�#�: X(�)Gdy przestrzeń zdarzeń elementarnych jest skończona, a zdarzeniami
są wszystkie podzbiory, wtedy powyższy warunek nie stanowi
żadnego ograniczenia i wobec tego każda funkcja X
odwzorowująca zbiór zdarzeń elementarnych � w zbiór R liczb
rzeczywistych jest zmienną losową.
Jeżeli zmienna losowa będzie przyjmowała wartości skończone lub
przeliczalne to nazywamy ją zmienną skokową (dyskretną),
natomiast gdy przyjmuje dowolne wartości z pewnego przedziału
nazywamy ją zmienną losową ciągłą.
10
Rozkłady prawdopodobieństwa zmiennej losowej
Niech będzie dana zmienna losowa X i liczba rzeczywista x, która
może przyjmować dowolną wartość ze zbioru liczb rzeczywistych
R = ( -" ,+" ). Prawdopodobieństwo zajścia zdarzenia �#�: X(�)< xŹ#
jest funkcją x i nazywa się dystrybuantą zmiennej losowej X.
Fx(x) = P[ �#�: X(�)< x Ź#] = P( X< x)
Posiada ona następujące własności:
1. 0 d" F(x) d"1 dla każdego x " R
lim F(x) = 0 ,
lim F(x)= 1
1.
x-"
x+"
2. F(x) jest funkcją niemalejącą
3. F(x) jest funkcją ( co najmniej ) lewostronnie ciągłą, czyli:
F( x0 0 ) = F(x0) dla każdego x " R,
gdzie F( x0 0) oznacza granicę lewostronną funkcji F w punkcie
x0:
F(x0 - 0) = lim F(x)
-
xx0
4. Prawdopodobieństwo P( ad" X < b) przyjęcia przez zmienną
losową X wartości z przedziału dystrybuanty F między punktami a, b:
P( ad"X < b) = F(b) F(a)
5. Prawdopodobieństwo P(X=x0) przyjęcia przez zmienną losową X
dowolnej ustalonej wartości x0 wyraża się za pomocą dystrybuanty F
równością:
11
P ( X= x0) = F( x0 + 0) F( x0),
gdzie F( x0+0) oznacza granicę prawostronną dystrybuanty w punkcie
x0 , czyli:
F(x0 + 0) = lim F(x)
+
x x0
Zmienna losowa skokowa ( dyskretna)
Zmienna losowa X jest typu skokowego, jeżeli istnieje skończony lub
przeliczalny zbiór Wx = { x1, ......, xn,.....} jej wartości x1, ......,
xn , ... taki, że:
P ( X=xi ) = pi > 0, i" N
" pi = 1 ( warunek unormowania )
i=1
gdzie górna granica sumowania wynosi n albo "
stosownie do tego, czy zbiór Wx jest skończony czy przeliczalny,
x1,......,xn - punkty skokowe
p1, ..........,pn - skoki
Rozkład prawdopodobieństwa zmiennej losowej skokowej można
przedstawić za pomocą:
1.funkcji prawdopodobieństwa
2.dystrybuanty
12
1. Funkcja prawdopodobieństwa zmiennej losowej skokowej
Funkcję p określoną na zbiorze Wx równością
p ( xi ) = P(X=xi) a" pi , xi "Wx,
albo co jest równoważne, dwuwierszową tablicą
xi x1 x2 ..... xn
pi P1 p2 ..... pn
i spełniającą warunek unormowania
" pi = 1,
i =1
nazywamy funkcją prawdopodobieństwa zmiennej losowej X.
2. Dystrybuanta zmiennej losowej skokowej
Gdy dana jest funkcja p prawdopodobieństwa zmiennej losowej X, to
prawdopodobieństwo przyjęcia przez tę zmienną wartości ze zbioru
A jest określone równością:
P( X"A) = " pi
x A
"
i
Dystrybuanta zmiennej losowej wyraża się wówczas następująco:
F(x) = P (X < x ) = " pi
x x
-"< <
i
Zmienna losowa ciągła
Zmienna losowa X przyjmująca wartości z pewnego
przedziału, dla której istnieje nieujemna funkcja f taka, że
dystrybuantę F zmiennej losowej X można przedstawić w postaci:
13
x
F(x) = +" f(t) dt dla x" R,
-"
nazywamy zmienną losową ciągłą, a funkcję f jej gęstością
prawdopodobieństwa.
Jeżeli x jest punktem ciągłości gęstości f, to:
dF (x)
F`(x) = = f(x)
dx
przy czym
+"
+" f(x) dx = 1. ( warunek unormowania)
-"
Własności zmiennej losowej ciągłej
P( a d" X'" P(X=c) = 0
c R
"
b
P( ad" X d"b ) = +" f(x) dx = F(b) F(a)
a
Rozkład prawdopodobieństwa zmiennej losowej ciągłej
przedstawiamy za pomocą
1. gęstości prawdopodobieństwa f(x)
2. dystrybuanty F(x)
14
Funkcje zmiennej losowej X
1. Zmienna losowa skokowa
Niech X będzie skokową zmienną losową o zbiorze Wx jej
punktów skokowych xi i funkcji prawdopodobieństwa p. Niech
g będzie dowolną funkcją o wartościach rzeczywistych określoną co
najmniej na zbiorze Wx .
Wówczas równość:
Y =g(X) , czyli Y(�) = g[X(�)] , �"� ,
określona na przestrzeni zdarzeń elementarnych � jest nową skokową
zmienną losową Y, zwaną funkcją zmiennej losowej X,
o punktach skokowych yj, gdzie yj = g(xi ), tworzących pewien zbiór
Wy; gdy g nie jest funkcją różnowartościową, to ten sam punkt
skokowy yj może odpowiadać więcej niż jednemu punktowi
skokowemu xi.
Niech q oznacza funkcję prawdopodobieństwa zmiennej losowej Y.
Funkcja ta jest wyznaczona przez prawdopodobieństwa
pi następującymi równościami:
q a" q(y )= P(Y = y )= p(xi )
j j j "
xi:g(xi )= y
ż# �#
j
�#
xi"Wx , y "Wy Ź#
j
�# �#
2. Zmienna losowa ciągła
Rozważmy zmienną losową Y określoną równością:
Y = g(X), gdzie y = g(x) jest określona co najmniej na zbiorze
wartości zmiennej losowej X. Zmienna losowa X jest zmienną ciągłą
o dystrybuancie F.
Rozkład prawdopodobieństwa zmiennej losowej Y można wyznaczyć
bezpośrednio z definicji dystrybuanty G tej zmiennej.
15
G(y) = P(YGęstość prawdopodobieństwa k zmiennej losowej Y, w przypadku
gdy funkcja g jest ściśle monotoniczna wyznaczamy, korzystając
z następującego twierdzenia.
Twierdzenie
Jeżeli X jest zmienną losową ciągłą o gęstości f skoncentrowanej na
przedziale (a, b) oraz y = g(x) jest funkcją ściśle monotoniczną klasy
C1 o pochodnej g`(x) `" 0 w tym przedziale, przy czym x = h(y) jest
funkcją odwrotną do y = g(x), to gęstość k zmiennej losowej ciągłej
Y =g(X), jest postaci:
ż# f [h(y)]h'(y) dla c)# y)#d
k(y) =
�#
0 dla y d" c y e" d
�#
gdzie c = min(c1 , d1), d= max(c1, d1)
c1= lim g(x) d1 = lim g(x)
x a+ x b-

CHARAKTERYSTYKI LICZBOWE
Charakterystyki liczbowe parametry charakteryzujące rozkład
prawdopodobieństwa zmiennej losowej.
MOMENTY STATYSTYCZNE
W przypadku wyboru funkcji
g(X) = (X- a)l,
wartości oczekiwane
E[g(X)] = E[(X-a)l] =źl,
16
nazywane są l- tymi momentami statystycznymi względem
punktu a.
Jeżeli
a = 0 - momenty bezwzględne
a = E(X) - momenty centralne
1. Zmienna losowa skokowa
źl = " (xi a )l P(X=xi )
x W
"
i x
2. Zmienna losowa ciągła
+"
źl = +" (x- a)l f(x) dx
-"
I. Wartość oczekiwana (przeciętna, średnia) zmiennej losowej
Wartość oczekiwana E(X) zmiennej losowej X jest bezwzględnym
momentem statystycznym pierwszego rzędu,
0
ź1 = E(X).
I.1. Zmienna losowa skokowa
Wartość oczekiwana E(X) jest równa sumie możliwych wartości xi
zmiennej losowej X mnożonych przez ich prawdopodobieństwa pi
E(X ) = xi pi a" P(X = xi )
" "xi
xi"Wx xi"Wx
17
E(Y) = E[g(X)] = "g(xi) P(X=xi)
)
ż#
i j
�#x : g(xi = y �#
�#
�#x "Wx , y "Wy Ź#
�# �#
i j
�# �#
I. 2. Zmienna losowa ciągła
+"
E(X) = +" x f(x) dx
-"
+
"
E(Y) = E[g(X)] = +" g(x) f(x) dx
-"
+"
E(Y) = +" y k(y) dy
-"
Własności wartości oczekiwanych
1. E(cX) = c E(X) c stała
2. E(c) = c
3. E( X + Y ) = E(X) + E(Y)
E(X1 �" X2 �"�"�"�"Xn) = E(X1)�" E(X2)�"�"�"�"E(Xn),
4.
jeżeli zmienne losowe X1, X2 , ......., Xn są niezależne i mają wartości
oczekiwane.
II. Wariancja zmiennej losowej
Moment statystyczny centralny drugiego rzędu
ź2 = E{[ X E(X) ]2} = D2(X)
nazywamy wariancją D2(X) zmiennej losowej X.
Wariancja D2(X) zmiennej losowej X jest miarą szerokości rozkładu
w pobliżu wartości oczekiwanej E(X).
18
D2(X )
Dodatni pierwiastek z wariancji tj. nazywamy
odchyleniem standardowym i jest on miarą średniego odchylenia
wartości zmiennej losowej X od jej wartości oczekiwanej E(X).
II.1. Zmienna losowa skokowa
D2(X) = " [ xi E(X)]2 P(X=xi)
x W
"
i x
II.2. Zmienna losowa ciągła
+"
D2(X) =+" [x-E(X)]2 f(x) dx
- -"
Własności wariancji
1. D2( XąY ) = D2 (X) + D2(Y), gdy X, Y są niezależne.
2. D2(c) = 0 c - stała
3. D2(cX) = c2 D2(X)
4. D2 (X +b) = D2(X)
5. D2(X) =E(X2) [E(X)]2
III. Współczynnik asymetrii
Trzeci moment statystyczny centralny trzeciego rzędu
ź3 = E{[X E(X) ]3}
nazywamy skośnością.
19
Wygodniej jest jednak zdefiniować parametr bezwymiarowy
ź3
ł =
,
D2(X ) D2(X )
który nazywamy współczynnikiem asymetrii rozkładu
prawdopodobieństwa zmiennej losowej X.
Zawiera on informację o możliwych różnicach między dodatnimi
a ujemnymi odchyleniami od wartości oczekiwanej.
IV. Współczynnik spłaszczenia
Moment statystyczny centralny czwartego rzędu pozwala
zdefiniować współczynnik spłaszczenia
ź4
ł `= - 3
2 ,
[D2(X )]
przy czym dla rozkładu normalnego standaryzowanego
ź4 = 3 [D2(X)]2, ł` = 0.
Jeżeli ł`< 0, to krzywa w pobliżu max jest rozmyta w porównaniu
z rozkładem standaryzowanym, a jeżeli ł>0 bardziej wysmukła.
V. Wartość modalna (moda, dominanta)
Wartość modalną xM rozkładu prawdopodobieństwa
definiujemy jako wartość zmiennej losowej X odpowiadającej
maximum:
a) funkcji prawdopodobieństwa p(xi) dla zmiennej skokowej,
p(xM) = P(X=xM ) = max,
czyli będzie to punkt skokowy oprócz punktu xmin i xmax,
20
b) maximum absolutnemu gęstości f(x) dla zmiennej ciągłej,
czyli, jeżeli gęstość f(x) posiada pierwszą i drugą pochodną,
wartość modalna xM odpowiada maximum rozkładu, określone
przez warunki
2
d d
f (x) = 0, f (x))# 0
dx dx2
Jeżeli gęstość f(x) posiada więcej niż jedno maximum, to modą jest ta
wartość zmiennej losowej, która odpowiada maximum absolutnemu
( f(x) przyjmuje tu największą wartość).
Jeżeli rozkład prawdopodobieństwa zmiennej losowej X ma jedno
max, to mówimy, że jest to rozkład jednomodalny, jeżeli więcej to
wielomodalny. Wartość modalna dla rozkładu prawdopodobieństwa
w próbie nazywa się dominantą(D).
VI. Mediana (wartość środkowa)
Medianę x ( dla próby Me ) rozkładu prawdopodobieństwa
0.5
zmiennej losowej X definiujemy jako wartość zmiennej losowej dla
której dystrybuanta przyjmuje wartość równą 0.5,
F(x0.5) = P(X< x ) = 0.5
0.5
VI.1. Zmienna losowa skokowa
F(x0.5 ) = " P(X=xi ) = 0.5
x x
-"< <
0.5
i
VI.2. Zmienna losowa ciągła
x
0.5
F(x0.5) = +" f(x) dx = 0.5
-"
Mediana dzieli cały zakres wartości zmiennej losowej na dwa obszary
o równym prawdopodobieństwie.
21
Dla rozkładu jednomodalnego, symetrycznego, posiadającego
ciągłą gęstość prawdopodobieństwa, wartość modalna, średnia
i mediana są identyczne.
VII. Kwantyle
Definicję mediany można uogólnić wprowadzając
kwantyle(fraktyle) będącymi wartościami xq zmiennej losowej X, dla
których
xq
F(xq) = +" f(x) dx = q 0-"
F(x ) = 0.25 - kwartyl dolny
0.25
F(x ) = 0.75 - kwartyl górny
0,75
x , x , - decyle
0.1 0.2
Definicja ogólna kwantyli
Kwantylem rzędu q, 0o dystrybuancie F(x) nazywamy taką liczbę xq, że
P(X < xq) d" q d" P(X d" xq),
czyli
F(xq) d" q d" F(xq + 0).
WYBRANE ROZKAADY PRAWDOPODOBIECSTWA
I. Zmienna losowa skokowa
I.1. Rozkład dwumianowy(binomialny), Bernouliego
22
Definicja
Zmienna losowa K typu skokowego ma rozkład dwumianowy
z parametrami (n,p), n"N, 0< p < 1, jeżeli jej funkcja
prawdopodobieństwa pk a" P(k; n ,p) = P(K =k), jest postaci :
n
�# ś#
P(k;n, p)= pkqn-k
ś# ź#
, k=0,1,2.....,n i q = 1 p
k
�# #
Zmienna ta przyjmuje z dodatnimi prawdopodobieństwami
( n+1) wartości: 0,1.....,n.
Wśród nich jest jedna albo dwie wartości najbardziej prawdopodobne:
a) gdy (n+1)p jest liczbą całkowitą to tymi wartościami są liczby
k1 = (n+1)p 1, k2 = (n+1)p,
b) gdy ( n+1)p nie jest liczbą całkowitą to wartość najbardziej
prawdopodobna dana jest wzorem
k0 =[(n+1)p],
czyli częścią całkowitą liczby (n+1)p.
E(K) = np, D2(X) = npq ,
1- 2 p
ł =
npq
I.2. Rozkład wielomianowy
Uogólniony na przypadek, gdy w wyniku jednego doświadczenia
może wystąpić l zdarzeń rozłącznych A1 , A2 ,......., Al
i � = A1*"A2*".......*"Al.
Definicja
Niech prawdopodobieństwa zajścia wzajemnie wykluczających
się zdarzeń Aj będą dane przez :
23
l
p = 1.
"
P(Aj) = pj i j
j=1
Każdemu zdarzeniu Aj przyporządkowujemy zmienną losową Kj, tak
{Aj : K (Aj)= k }, to prawdopodobieństwa zajścia k zdarzeń Aj
że
j j
j
w n doświadczeniach
l
n!
j
P{K1 = k1; K2 = k2;.........;Kl = kl}= pk
" j
l
j=1
!
"k j
j=1
E(Kj)=npj , D2(Kj)=npj(1 pj ).
I.3. Rozkład hipergeometryczny
Jest to rozkład dla prób bez zwrotu, tzn. po wylosowaniu danego
elementu zmienia się wzajemna proporcja pozostałych.
Definicja
Zmienna losowa skokowa K ma rozkład hipergeometryczny
z parametrami (N, M, n), gdzie N,M,n liczby naturalne oraz M,nd"N,
jeżeli jej funkcja prawdopodobieństwa
pka" P(k; N,M,n ) = P(K=k) jest postaci:
M N -M
( )( )
k n-k
P(k; N, M , n) =
,
N
( )
n
gdzie k=0,1,....,n n d" N, k d" M, k d"n, n k d" N M
N - n
D2(X ) = npq
E(K)=np, ,
N -1
24
gdzie
M
p =
i q=1 p
N
Możemy powiedzieć, że zmienna losowa K jest możliwą liczbą
elementów mających wyróżnioną cechę A wśród n wylosowanych
bez zwrotu z populacji N elementów wśród których znajdowało się
M elementów cechy A.
M
p
Gdy N", M", tak że , 0N
wtedy
P(k;N,M,n) P(k;n,p)
Powyższy rozkład możemy rozszerzyć na przypadek, gdy
wyróżnionych cech w populacji jest więcej.
Definicja
Niech każde z N elementów naszej populacji posiada jedną
z l cech
N = N1 + N2 +.......+ Nl.
Prawdopodobieństwo wylosowania bez zwrotu kj ( j= 1,2,.......,l)
elementów każdego rodzaju przy n losowaniach
N1 N2 Nl
( )( ).....( )
k1 k2 kl
P(K1 = k1; K2 = k2;.......;Kl = kl ) =
,
N
( )
n
gdzie k1 + k2 +..+kn = n.
I.4. Rozkład Poissona
Stosujemy, gdy n" , a p bardzo małe, = np.
25
Definicja
Zmienna losowa skokowa K ma rozkład Poissona
z parametrem , >0, jeżeli jej funkcja prawdopodobieństwa
pk a" P(k;) = P(K=k) jest postaci:
k
P(k;) = e-
, k"N0=N*"{0}.
k!
W praktyce stosujemy, gdy ne"50, p d" 0.1, npd" 10.
Rozkład Poissona jest granicznym przypadkiem rozkładu
dwumianowego.
Twierdzenie
Jeżeli K1,K2 , ......, Kn,.. jest ciągiem zmiennych losowych
o rozkładzie dwumianowym odpowiednio z parametrami
(1, p 1),..,(n,pn),... oraz npn, >0, gdy n", to:
k

n k
lim( )pn (1- pn)n-k = e- ,
k k"N*"{0}
n"
k!
czyli ciąg rozkładów dwumianowych jest zbieżny do rozkładu
Poissona z parametrem .
n
"
k
ś#
lim�#1- = e- , = e
ś# ź#
"
n"
n k!
�# #
k =0
1
ł =
E(K)=, D2(K) = ,

Rozkład Poissona jest rozkładem o asymetrii prawostronnej .
26
II. Zmienna losowa ciągła
II.1 Rozkład jednostajny
Definicja
Zmienna losowa X ma rozkład jednostajny ( prostokątny )
skoncentrowany na przedziale < a, b> jeżeli jej gęstość
prawdopodobieństwa jest określona wzorem:
1
ż#
�#
dla a d" x d" b
f (x) =
�# - a
b
�#
�#0 dla x)#a lub x*#b
Dystrybuantą tego rozkładu jest funkcja
0 dla x d" a
ż#
�#
x - a
F(x)=
�#b - a dla a)#x d" b
�#
1 dla x*#b
�#
2 2
a + b (b - a) ("x)
E(X ) = , D2(X ) = , D2(X ) = ,
2 12 3
a = xrzecz - "x
b = xrzecz + "x
27
II.2. Rozkład normalny standaryzowany
Twierdzenie Moivrea Laplacea pozwala na przejście
z rozkładu dwumianowego do rozkładu normalnego
standaryzowanego.
Dla ustalonego p, 0< p < 1 i q = 1 p, prawdopodobieństwo
Pn(a,b) =
"P(K = k)
,
np+a npq )#k )#np+b npq
tego, że w serii n prób Bernouliego o prawdopodobieństwie
p zdarzenia sprzyjającego, ilość tych zdarzeń będzie zawarta
np + a npq)#k)#np + b npq
w granicach przy n", będzie dążyć
b u2
-
1
2
lim Pn(a,b) = e du
.
+"
n"
2Ą
a
Zmienna losowa U ma rozkład normalny standaryzowany, jeżeli
jej gęstość � określona jest wzorem
u2
-
1
2
�(u) = e
dla -"2Ą
+" +"
2
1
2 -t2
,
+"t e-t dt = Ą +"e dt = Ą
2
-" -"
+"
2
3
4
+"t e-t dt = Ą
4
-"
28
Dystrybuanta Ś(u) wyraża się następująco:
u u
2
1
Ś(u) = e-t dt
. ( funkcje Laplacea)
+"�(t)dt = +"
2Ą
-" -"
+1
+"�(u)du = Ś(+1)- Ś(-1)= Ś(+1)-[1- Ś(+1)]= 2Ś(+1)-1 =
-1
= 2 �" 0.8413 -1 = 0.6826
+3
+"�(u)du = Ś(+ 3)- Ś(- 3) = 2Ś(+ 3)-1 = 2 �" 0.998650 -1 = 0.9973
-3
II.3. Rozkład normalny
Wprowadzamy zmienną losową X, która jest liniową funkcją
zmiennej U
X=m+�U gdzie m, � są stałymi i �>0
Gęstość f zmiennej losowej X wyznaczymy następująco:
X - m
h(X ) =
X=g(U) U=h(X) ,
�
(x-m)2
-
1
2
2�
2
f (x) = e h (x)
stąd
2Ą
(x-m)2
-
1
2
2�
f (x) = e
� 2Ą
29
Rozkład prawdopodobieństwa zmiennej losowej X określony
gęstością f
(x-m)2
-
1
2
2�
f (x) = e
gdzie -"� 2Ą
nazywamy rozkładem normalnym N(m,�).
Podobnie oznaczamy rozkład normalny standaryzowany, czyli
N(0,1).
E(X)=m, D2(X) = D2(m) + �2D2(U) , D2(X)= �2
punkty przegięcia
x1 = m � , x2 = m+�
Dystrybuanta F(x) ma następującą postać:
(x-m)2
x x
-
1 x - m
2�2
F(x) = f (t)dt = e = Ś(u), gdzie u =
+" +"
�
� 2Ą
-" -"
Zmienną losową X nazywamy zmienną normalną, natomiast
zmienną U normalną standaryzowaną. Powyższe zależności opisują
standaryzację zmiennej losowej X.
P(m-�ponieważ dla
m -� - m
u1 = = -1
x1=m �
�
m + � - m
u2 = = 1
x2=m+�
�
30
P(x �Podobnie możemy pokazać, że
P(m 3�PRÓBA LOSOWA
Najprostszym rodzajem próby statystycznej jest próba prosta.
Definicja
Jeżeli X1 ,X2 , ......., Xn jest ciągiem niezależnych obserwacji
losowych ze zbiorowości, w której dystrybuanta zmiennej losowej X
jest równa F(x) i jeżeli mechanizm doboru obserwacji jest taki, że
każda ze zmiennych losowych Xi ( i=1,2,3..,n) ma dystrybuantę
równą F(x), to ciąg odpowiednich wyników obserwacji x1, x2 ,....,xn
nazywać będziemy statystyczną próbą prostą ze zbiorowości
o dystrybuancie F(x).
Każdą inną próbę nie będącą próbą prostą będziemy nazywać próbą
złożoną.
Próba prosta ( losowanie niezależne, losowanie zwrotne)
Próba złożona ( losowanie zależne, losowanie bezzwrotne)
Losowanie prób prostych
1. Tablice liczb losowych (2,4,6 cyfrowe)
Zostały tak utworzone, że dzieląc liczby w tablicach przez
10r(r=2,4,6) otrzymujemy ciąg niezależnych zmiennych losowych
o rozkładzie jednostajnym w przedziale <0, 1>.
2. Losowanie systematyczne
Jeżeli elementy zbiorowości są w naturalny sposób ponumerowane
i tak wyznaczony porządek nie jest powiązany ze zmienną losową,
wówczas do próby bierzemy co k-ty element, gdzie k jest największą
N
liczbą naturalną nie przekraczającą (N liczebność populacji
n
31
n liczebność próby).
n0d"k n0 , n0+k, n0+2k, ,N
np. N=50 , n0=3 , n= 10
k=5, 3,8,11,14,17,20,23,26,29,32.
Losowanie prób złożonych
A. Kryterium podzielności populacji
a) losowanie nieograniczone (z całej populacji)
b) losowanie warstwowe (elementy z warstw populacji)
B. Jednostki biorące udział w losowaniu
a)losowanie indywidualne
b)losowanie grupowe (grupy charakteryzuje wspólna cecha,
większa ilość elementów)
W przypadku badań eksperymentalnych mamy do czynienia
z populacjami nieskończonymi. Stąd trudno mówić o sposobie
losowania. Sposób losowania nie jest istotny, ponieważ realizacje
zmiennych losowych są znane. Badania statystyczne polegają tu na
wnioskowaniu o dystrybuantach badanych zmiennych losowych.
Często badamy wpływ czynników stabilizowanych, kontrolowanych z
odpowiednim natężeniem na naszą próbę. Jeżeli natężenie czynników
zmienia się w sposób ciągły mamy do czynienia
z modelem regresyjnym, jeżeli skokowo lub nie jest mierzalne
liczbowo z analizą wariancji.
Wstępnym badaniem próby zajmuje się statystyka opisowa, gdzie nie
stosujemy rachunku prawdopodobieństwa.
32
STATYSTYKA OPISOWA
Wstępnym badaniem próby zajmuje się statystyka opisowa.
Rozróżniamy trzy rodzaje prób. W każdej z nich wyznaczamy:
(x)
a) wartość średnią
b) medianę ( Me )
c) dominantę( wartość modalną )(D)
d) miary rozproszenia
d1) najprostszy rozstęp (R = xmax xmin)
'"
�# ś#
d2) odchylenie standardowe ś# S, S ź#
�# #
S
V =
e) współczynnik zmienności
x
f) kwartyl dolny Q1( mediana wartości mniejszych i równych Me )
g) kwartyl górny Q3 ( mediana wartości większych i równych Me)
-
Q Q
3 1
Q =
h) odchylenie ćwiartkowe
2
Rodzaje prób
1. Mamy n różnych wartości xi
n
1
x = xi
"
a)
n
i=1
b) Me = dla n nieparzystego
n +1
x
2
+
n n
x x
+1
2 2
Me = dla n parzystego, przy uporządkowaniu
2
rosnącym
'"
1
2
s =
"(x - x)
i
d2) dla n<30
n -1
33
n
1
2
s =
"(x - x)
i
dla ne" 30
n
i=1
2. Wartości xi powtarzają się ni - krotnie
k k
1
x = xini , gdzie i = n
a) " "n
n
i=1 i=1
b) przed wyznaczeniem wartości Me, musimy znalezć liczebności Ni
skumulowane (ponumerowane obserwacje odpowiadające danej
wartości xi)
Ni = Ni-1 + ni
Wartość mediany odpowiada tej wartości xi dla której
Ni-1 < NMe d" Ni ,
n +1
NMe =
gdzie dla n nieparzystego
2
n
NMe =
dla n parzystego
2
c) dominanta (D) to wartość xi dla ni = max
k
2
"(x - x) ni
i
i=1
s =
d2)
n
34
3. Szeregi rozdzielcze
Wyniki grupujemy i przedstawiamy w postaci klas (przedziałów).
Liczbę k klas możemy ustalić korzystając z następujących
zależności:
k = n
k d" 5 lnn , , k = 1 + 3.322lnn (kmax = 30)
Szerokość przedziału h (h = xi xi-1 ) zależy od ilości klas i wartości
rozstępu R.
R
h e"
k
Dolną granicę pierwszego przedziału przyjmujemy: [ xmin (ą/2) ],
gdzie ą jest dokładnością pomiarów.
xi-1 + xi
0
1
x =
xi0 =
"x ni
i
a) n , gdzie jest środkiem i-tego
2
przedziału, ni jego liczebnością
h
"
Me = x0 + (NMe - N ), gdzie
b)
n0
NMe numer obserwacji odpowiadającej medianie
N* - skumulowana liczba obserwacji przed przedziałem mediany
x0 dolna granica przedziału klasowego mediany
n0 liczebność przedziału mediany
35
c) dominanta wybieramy przedział o ni = max ( przedział
dominanty)
nd - nd -1
D = x0 + h
,
(nd - nd -1) + (nd - nd +1)
x0 dolna granica przedziału dominanty
nd liczebność przedziału dominanty
nd-1 liczebność przedziału przed przedziałem dominanty
nd+1 liczebność przedziału za przedziałem dominanty
k
2
(xi0 - x) ni
"
i=1
s =
d2)
n
Jeżeli n> 1000 lub k > 20 musimy od S2 odjąć poprawkę
1
h2
Shepparda:
12
STATYSTYKI, ROZKAADY
PRAWDOPODOBIECSTWA
Statystyką nazywamy każdą zdefiniowaną funkcję obserwowanych
w próbie zmiennych losowych, która sama jest zmienną losową. Jako
zmienna losowa statystyka ma pewien rozkład prawdopodobieństwa
a ponieważ jest określoną funkcją zmiennych losowych, przeto jej
rozkład jest wyznaczony przez rozkład zmiennych losowych i postać
funkcji.
STATYSTYKI
X
1. Średnia arytmetyczna z próby,
n
1
X = X
" i
n
i=1
36
Twierdzenie
X .
o rozkładzie prawdopodobieństwa zmiennej losowej
Jeżeli X1, X2, ......,Xn jest ciągiem niezależnych zmiennych losowych
o rozkładach normalnych N(m,�) i jeżeli
n
1
X = X
" i
n
i=1
�# � ś#
Nś#m, ź#
X
to zmienna losowa ma rozkład normalny .
ś# ź#
n
�# #
Twierdzenie
X
Niech będzie średnią arytmetyczną niezależnych zmiennych
losowych X1, X2, ......, Xn1 o rozkładach normalnych N (m1,�1) i niech
Y
będzie średnią arytmetyczną niezależnych zmiennych losowych
Y1, Y2, ......, Yn2 o rozkładach normalnych N(m2,�2). Jeżeli zmienne
losowe X1 , X2 ,........,X n1 oraz Y1 , Y2 ,.........,Yn2 są niezależne,
X
wówczas zmienna losowa - Y
ma rozkład normalny
2 2
�# ś#
�1 �
2
ź#
Nś#m1 - m2, +
.
ś#
n1 n2 ź#
�# #
2. Statystyka �2
Niech U1 , U2,......, Uk będzie ciągiem niezależnych zmiennych
standaryzowanych N(0,1). Statystykę
k
2 2
� =
"U
i
i=1
definiujemy jako sumę kwadratów zmiennych losowych U1,
U2,....,Uk. Rozkład prawdopodobieństwa statystyki �2 będziemy
nazywać rozkładem chi-kwadrat, a liczbę niezależnych składników
składających się na �2 nazywamy stopniami swobody k.
4
ł = ,
E(�2) = k , f(�2) = max dla �2 = k 2
k
37
Twierdzenie
Jeżeli zmienne losowe �12 i �22 są niezależne i mają rozkłady chi-
kwadrat o k1 i k2 stopniach swobody, to zmienna losowa
�2 = �12 +�22 ma rozkład chi-kwadrat
o k1 +k2 stopniach swobody.
ROZKAAD PRAWDOPODOBIECSTWA DLA
WARIANCJI I ODCHYLENIA STANDARDOWEGO
Wprowadzamy dwie definicje:
2
n
1
2
S" = gdy znamy m
"(X - m)
i
n
i=1
2
n
1
2
S = (Xi - X) gdy nie znamy m
"
n
i=1
Twierdzenie
Jeżeli X1, X2,.......,Xn jest ciągiem niezależnych zmiennych
2
nS"
losowych o rozkładzie normalnym N(m,�) to zmienna losowa
2
�
ma rozkład chi- kwadrat o n stopniach swobody.
Dowód
2
2
2
n n n
(Xi - m)ś# Xi - m
nS" 1
ś#
2
= n �" = =
ź#
" "�# "Ui
2 2
� n � �
i=1 i=1 �# # i=1
X - m
i
= Ui
ponieważ jest zmienną losową o rozkładzie
�
N(m,�), zmienne są niezależne, ilość stopni swobody równa jest n.
38
2
�# ś#
nS"
2 2
ś# ź#
Eś# 2 ź# = n
E(S" )= �
,
�
�# #
Twierdzenie
Jeżeli X1, X2, ......,Xn jest ciągiem zmiennych losowych o
2
nS
rozkładzie normalnym N(m,�), to zmienna losowa ma rozkład
2
�
chi-kwadrat o n 1 stopniach swobody, ponieważ ostatni składnik
sumy musi spełniać warunek
n
(X - X )= 0
" i .
i=1
3. Statystyka F( Snedecora)
Definicja
2 2
�1 �2
Niech i będą niezależnymi zmiennymi losowymi
o rozkładzie chi-kwadrat i odpowiednio k1 i k2 stopniach swobody,
to statystyka
2
�1 �" k2
F =
,
2
�2 �" k1
ma rozkład F (rozkład Snedecora) o k1 i k2 stopniach swobody.
Rozkład F ma zastosowanie do badania wariancji dwóch populacji.
Twierdzenie
2 2
'" '"
S S
Jeżeli 1 i 2 są wariancjami z prób prostych, pobranych ze
zbiorowości o rozkładach normalnych w których odchylenia
standardowe są jednakowe, i zdefiniowane są następująco:
2
2 n1 2
n2
'" '"
2
1 1
S = (X1 j - X1) S = (X - X )
1 2
" " 2 j 2
,
n1 -1 n2 -1
j=1 j=1
39
2
'"
S
1
2
to gdy obie próby są niezależne zmienna losowa ma rozkład F
'"
S
2
o (n1 1) oraz (n2 1 ) stopniach swobody.
4. Statystyka t-Studenta
Definicja
Niech U będzie zmienną losową standaryzowaną N(0,1) i niech
�2 będzie zmienną losową o rozkładzie chi-kwadrat i k stopniach
swobody. Jeżeli zmienne U i �2 są niezależne, to statystyka
U
t = k
2
�
ma rozkład t-Studenta o k- stopniach swobody.
E(t) = 0, -"Twierdzenie
Ciąg dystrybuant zmiennej losowej o rozkładzie f(t) przy k"
jest zbieżny do dystrybuanty rozkładu normalnego standaryzowanego
N(0,1).
Twierdzenie
Jeżeli X1, X2, .........,Xn jest ciągiem niezależnych zmiennych
losowych o rozkładzie normalnym N(m,�) i mamy określone zmienne
X
losowe , S2, to zmienna losowa
X - m
t = n -1
S
ma rozkład t- Studenta o n 1 stopniach swobody.
40
Twierdzenie
X1
Jeżeli i S1 oznaczają odpowiednio średnią arytmetyczną
i odchylenie standardowe z próby liczącej n1 niezależnych obserwacji
X2
losowych ze zbiorowości o rozkładzie N(m1, �) i jeżeli , S2 to
średnia arytmetyczna oraz odchylenie standardowe z drugiej próby
liczącej n2 niezależnych obserwacji pobranych ze zbiorowości
o rozkładzie N(m2, �) i jeżeli obie próby są niezależne, to zmienna
losowa
X1 - X - (m1 - m2 )
2
t =
2
�# ś#
n1 �" S12 + n2 �" S2 1 1
ś# ź#
+
ś#
n1 + n2 - 2 n1 n2 ź#
�# #
ESTYMACJA
I. ESTYMACJA PUNKTOWA
II. ESTYMACJA PRZEDZIAAOWA
Ad.I Szukanie liczby, która w oparciu o odpowiednie wyniki z próby i
odpowiednie kryteria dokładności będzie najlepszym przybliżeniem
nieznanego, interesującego nas parametru rozkładu zmiennej losowej
dla populacji.
Ad.II Szukanie przedziałów liczbowych takich, by z odpowiednim
prawdopodobieństwem bliskim jedności można oczekiwać, że wartość
szukanego parametru rozkładu(charakterystyki liczbowej) znajdzie się
w tym przedziale.
Parametry rozkładu wielkości stałe, nielosowe
Wyniki próby statystycznej losowe
41
Definicja estymatora
Estymatorem parametru Ś rozkładu prawdopodobieństwa
zmiennej losowej X nazywamy każdą taką funkcję zmiennych
losowych obserwowanych w próbie, że jest ona zmienną losową o
rozkładzie zależnym od Ś i że wnioskowanie o wartości Ś można
oprzeć na zaobserwowanej w próbie wartości funkcji.
Jeżeli przez X1, X2,.......,Xn oznaczymy zaobserwowane w próbie
zmienne losowe to oparty na tych zmiennych estymator będziemy
oznaczać Tn( X1, X2 ,.......,Xn;Ś) a" Tn.
METODY WYZNACZANIA ESTYMATORÓW
1. Metoda momentów Pearsona
Obliczamy momenty z próby i przyrównujemy do odpowiednich
momentów rozkładu, będących funkcjami nieznanych parametrów
rozkładu . Rozwiązujemy równania i znajdujemy wzory na
odpowiednie estymatory.
a) wartość oczekiwana E(X)
n n
1 1
0
ź1 = xi = xi = x
" "
E(X) = ź10
n n
i=1 i=1
b) wariancja D2(X)
D2(X) = ź02 [ź01]2
n n
2 2
2 1 1
0 0 2 2
ź2 -(ź1 ) = -(x) = { - 2xi x + 2xi x }-(x) =
"xi "xi
n n
i=1 i=1
2
n n n n
2 2
�# 1 ś# 2 1 1
2 2
= ś# - 2xi x + x -(x) = (xi2 - 2xi x + x )= (xi - x) = S
ź#
"xi "xi " "
n n n n
�# i=1 # i=1 i=1 i=1
42
2. Metoda najmniejszych kwadratów Gaussa
Niech X1, X2,.....,Xn będzie ciągiem obserwowanych w próbie
zmiennych losowych, których rozkład zależy od parametrów
Ś1,Ś2,....,Śk. Niech h(Ś1,Ś2,......,Śk) będzie liniową funkcją
parametrów Ś1,Ś2,.......,Śk; x1,x2,.....,xn obserwacje zmiennych
losowych X1,X2,....,Xn. Metoda najmniejszych kwadratów polega na
dobraniu takich ocen Ńj parametrów Śj, by spełniony był warunek:
2
n
� = [X - h(Ś1,Ś2,......,Śk )] = min
" j
j=1
Stosowana wtedy, gdy h jest liniową funkcję względem
"�
poszczególnych parametrów i wówczas są pewnymi stałymi
"Śi
niezależnymi od Śi . Z otrzymanych układów równań znajdujemy
wzory na odpowiednie estymatory.
3. Metoda największej wiarygodności Fishera
Metoda ta polega na realizacji zdarzenia (doświadczenia)
o największym prawdopodobieństwie.
W tym celu wprowadzamy pojęcie wiarygodności próby.
Definicja
Niech X1, X2,....,Xn będzie ciągiem obserwacji pobranych do
próby z populacji w której zmienna losowa X ma dystrybuantę F(x)
zależną od k nieznanych parametrów Ś1, Ś2,.....,Śk, które należy
oszacować za pomocą próby.
Zakładamy: n > k . Zmienna X może być ciągła lub dyskretna.
43
Jeżeli zmienna losowa X jest ciągła, to rozkład opisujemy gęstością
prawdopodobieństwa f(x; Ś1, Ś2,......,Śk), a jeżeli skokowa to
funkcją prawdopodobieństwa P(X=x; Ś1,Ś2,....,Śk).
Wyrażenie
n
L = f (xi ;Ś1,Ś2 ,.....,Śk ) dla zmiennej ciągłej
"
i=1
lub
n
L =
"P(X = xi ;Ś1,Ś2 ,......,Śk )dla zmiennej skokowej
i=1
nazywamy wiarygodnością próby.
Jeżeli funkcja L jest dwukrotnie różniczkowalna, to poszukiwanie
ocen czyli estymatorów można przeprowadzić za pomocą rachunku
różniczkowego. Najlepiej szukać max dla ln L, ponieważ dla L>0
L i lnL mają ekstremum w tym samym punkcie, czyli
" ln L
= 0
"Śi
WAASNOŚCI ESTYMATORÓW
Estymatory muszą spełniać trzy podstawowe warunki:
1. muszą być nieobciążone
2. zgodne
3. efektywne
44
ad.1
Estymator Tn parametru Ś nazywamy nieobciążonym, jeżeli
spełniona jest równość:
E(Tn) = Ś.
Różnicę
Bn = E(Tn) Ś
nazywamy obciążeniem estymatora.
Jeżeli
lim Bn = 0
n"
to estymator nazywamy asymptotycznie nieobciążonym.
ad.2
Estymator nazywamy zgodnym, jeżeli spełniona jest relacja
lim P(Tn - Ś )#�)= 1
,
n"
dla dowolnie małej wartości dodatniej �.
Tak więc, zgodność estymatora badamy korzystając z dwóch
warunków:
lim D2(Tn ) = 0
a)
n"
b) estymator jest nieobciążony lub jego obciążenie Bn spełnia
warunek
lim Bn = 0
n"
45
ad.3
Tni
Efektywność estymatora będącego i-tym estymatorem tego
samego parametru populacji Ś, mierzymy miernikiem efektywności
D2(Tn")
Wi =
,
D2(Tni)
gdzie Tn" jest estymatorem o największej efektywności,
0 < W d" 1.
Pierwiastek kwadratowy z wariancji estymatora nieobciążonego
nazywamy błędem średnim szacunku.
W przypadku estymowania jednego parametru, wariancja dowolnego
nieobciążonego estymatora spełnia następującą nierówność, zwaną
nierównością Rao Cramera.
1
D2(Tn ) e"
2
ż# �#
"
nE�#Ą# ln f (X ;Ś)ń# �#
�#ó# Ź#
Ą#
�#Ł#"Ś Ś# �#
�# �#
Nierówność jest spełniona dla wszystkich rozkładów
prawdopodobieństwa oprócz rozkładu jednostajnego.
ESTYMACJA PRZEDZIAAOWA
Polega na budowaniu przedziałów ufności zwanych przedziałami
Neymana.
46
Przedział liczbowy [ Tn(1) , Tn(2) ] spełniający dwa warunki:
1. końce przedziału, czyli wielkości Tn(1) i Tn(2) zależą od wyników
próby i nie zależą w sposób funkcyjny od Ś,
2. prawdopodobieństwo tego, że nieznana wartość Ś należy do tego
przedziału równe jest z góry określonej liczbie 1 ą >0;
nazywać będziemy przedziałem ufności dla parametru Ś.
1 ą nazywamy współczynnikiem ufności.
PRZEDZIAAY UFNOŚCI DLA WARTOŚCI OCZEKIWANEJ
Przyjmujemy dwa założenia .
1. Zmienna losowa X ma rozkład normalny N(m,�), taki że średnia
�# � ś#
Nś#m, ź#
z próby ma rozkład przy dowolnej wielkości próby.
ś# ź#
n
�# #
2. Zmienna losowa X ma rozkład różny od normalnego, ale próba jest
na tyle duża, że można przyjąć, że średnia z próby ma w przybliżeniu
�# � ś#
Nś#m, ź#
rozkład .
ś# ź#
n
�# #
Jeżeli spełnione jest jedno z tych założeń, to wówczas zmienna
X - m
n
losowa ma rozkład N(0,1).
�
A. Znana wariancja
Zgodnie z powyższym, możemy znalezć taki kwantyl ( wartość
krytyczną) uą , że
ż# �#
X - m
P�#- uą )# n)#uą Ź# = 1-ą
�
�# �#
47
Po przekształceniach
ż# � � �#
P�#X - uą )#m)# X + uą Ź# = 1-ą
n n
�# �#
Przedział ten budujemy dla dowolnej liczebności n próby.
B. Wariancja nieznana
1. Jeżeli liczebność n próby jest duża (ne"30), � przybliżamy S
i wówczas
ż# S S �#
P�#X - uą )#m)# X + uą Ź# = 1-ą
n n
�# �#
Wartości kwantyli uą zwane również wartościami krytycznymi
odczytujemy ze stabelaryzowanych wartości dystrybuanty
Ś(uą) =1 ą\2 i Ś(-uą) = ą\2.
2. Liczebność n próby jest mała (n < 30), wówczas przedział ufności
budujemy w oparciu o rozkład t-Studenta, gdzie zmienna losowa
X - m
t = n -1
ma rozkład t-Studenta o n 1 stopniach swobody,
S
czyli możemy znalezć taki kwantyl tą,, że
P{- tą )#t)#tą}= 1-ą
Stąd po podstawieniu mamy
ż# S S �#
P�#X - tą )#m)#X + tą = 1-ą
Ź#
,
n -1 n -1
�# �#
przy czym
48
'"
'"
S S
= = S
x
n -1 n
Wartość krytyczną tą odczytujemy z rozkładu t-Studenta dla
określonej wartości ą i k = n 1 stopni swobody. Z tych tablic
można również odczytać uą , dla określonego ą i k".
Szerokość przedziału możemy ustalać za pomocą wartości
współczynnika ufności lub liczebności próby. Ustalanie za pomocą
liczebności próby przeprowadza się według dwuetapowej
procedury Steina.
S
tą = "
"- ustalona dokładność (połowa
n -1
szerokości przedziału)
2
'"
2
S S
=
n -1 n
Stąd niezbędną liczbę n obserwacji, by szerokość budowanego
przedziału wynosiła 2 ", obliczamy z zależności:
2
'"
2 n0
2
'"
2
1
tą �" S
0
S = (X - X)
n = 0
" i
gdzie ,
n0 -1
"2
i=1
n0 liczebność próby wstępnej.
PRZEDZIAA UFNOŚCI DLA WARIANCJI
Zakładamy , że zmienna losowa X ma rozkład normalny N(m,�),
nie znamy m. Próba jest mała. Przedział ufności budujemy w oparciu
2
nS
o rozkład chi-kwadrat, ponieważ zmienna losowa ma rozkład
2
�
chi-kwadrat o n 1 stopniach swobody.
2 2
�1 �2
Oznacza to, że możemy znalezć takie dwa kwantyle i , że
49
2
ż# �#
nS
2 2
P�#�1 )# )#�2 Ź# = 1-ą
2
�
�# �#
�12
Wartość krytyczną odczytujemy z rozkładu chi-kwadrat dla
"
ą
2 2
f (� )d� = 1-
1 ą\2 i k = n 1 stopni swobody +" , natomiast
2
2
�1
"
�# ś#
ą
2 2
ś# ź#
2
f (� )d� =
�2
dla ą\2 i k = n 1 stopni swobody ś# +"
ź#
2
2
�2
�# #
Po przekształceniach otrzymujemy:
2 2
ż# �#
nS nS
2
P�# 2 )#� )# = 1-ą
Ź#
.
2
�2 �1 �#
�#
Dla odchylenia standardowego przedział budujemy następująco:
2 2
ż# �#
nS nS
�#
P�# )#� )# = 1-ą
�# Ź#
2 2
�2 �1 �#
�#
�# �#
2 2
S S"
Jeżeli jest znana wartość m, to zamiast wstawiamy , a ilość
stopni swobody k = n .
WERYFIKACJA HIPOTEZ STATYSTYCZNYCH
Jest to typ wnioskowania statystycznego polegający na wyrokowaniu
o słuszności lub fałszu pewnych wysuniętych przypuszczeń
dotyczących rozkładu prawdopodobieństwa obserwowanej zmiennej
losowej lub co do wartości określonych parametrów rozkładu.
50
Definicja
Hipotezą statystyczną będziemy nazywać każdy sąd o populacji
generalnej, tj. o rozkładzie prawdopodobieństwa zmiennej losowej X
lub o parametrach rozkładu, o którego prawdziwości lub fałszu można
wnioskować na podstawie losowo pobranej próby, będącej realizacją
tej zmiennej losowej.
Hipotezy dzielimy na parametryczne i nieparametryczne.
Parametryczne dotyczą parametrów rozkładu.
Nieparametryczne dotyczą funkcji rozkładu prawdopodobieństwa
badanej zmiennej losowej, losowości próby.
Hipotezy mogą być fałszywe lub prawdziwe.
Tylko badania wyczerpujące całej populacji mogą powiedzieć, czy
hipoteza jest fałszywa czy prawdziwa. Ponieważ, w szczególności dla
populacji nieskończonych jest to niemożliwe, sprawdzenie hipotez
opieramy na podstawie badań częściowych wykonanych na próbie, co
nazywamy weryfikacją hipotez statystycznych.
Hipotezą sprawdzaną nazywamy hipotezą zerową i oznaczamy H0.
Hipotezę, którą skłonni jesteśmy przyjąć, jeżeli na podstawie
wyników próby statystycznej należy odrzucić hipotezę H0, nazywamy
hipotezą alternatywną do H0 i oznaczamy H1.
Ponieważ weryfikacji dokonujemy na próbie losowej, stąd możliwe
jest popełnienie błędów przy decydowaniu, czy hipotezę H0 uznać za
prawdziwą czy fałszywą.
Rozróżniamy dwa rodzaje błędów.
1) pierwszego rodzaju odrzucenie H0, jeśli jest prawdziwa.
Prawdopodobieństwo popełnienia błędu pierwszego rodzaju
oznaczymy przez ą.
2) drugiego rodzaju przyjęcie H0 , gdy jest ona fałszywa.
Prawdopodobieństwo błędu drugiego rodzaju oznaczymy
przez �.
51
Weryfikacji hipotez dokonujemy za pomocą testów statystycznych.
Definicja
Testem statystycznym, nazywamy regułę postępowania
rozstrzygającą, przy jakich wynikach próby hipotezę sprawdzaną H0
można przyjąć oraz przy jakich wynikach próby należy ją odrzucić.
HIPOTEZY PARAMETRYCZNE
Budowa testu
1. Przyjęcie odpowiednich hipotez
H0: Ś = Ś0
H1: Ś = Ś1
Ś1 `" Ś0 dwustronna
Ś1 > Ś0 jednostronna, prawostronna
Ś1 < Ś0 jednostronna, lewostronna
2. Zakładamy, z góry dopuszczalne prawdopodobieństwo błędu
I-ego rodzaju ą , które nazywamy poziomem istotności testu.
Testy polegające na ustaleniu z góry tylko wartości ą nazywamy
testami istotności.
3. Przyjęcie sprawdzianu Qn testu
Jest to każda statystyka, której wartość w próbie będzie podstawą do
podjęcia decyzji, czy hipotezę H0 należy odrzucić czy też nie ma po
temu dostatecznych podstaw.
4. Budowa obszaru krytycznego testu i obszaru przyjęcia hipotezy H0
Obszar krytyczny testu, to zbiór W takich wartości wybranego
sprawdzianu Qn, że zaobserwowanie w próbie wartości sprawdzianu
należącej do W spowoduje odrzucenie hipotezy H0, czyli
P( Qn " W�#H0 ) = ą .
52
TESTY PARAMETRYCZNE
Przeprowadzimy weryfikację hipotez dotyczących:
A. wartości oczekiwanej m
B. wariancji �2
2 2
�1 ,�
C. równości dwóch wariancji
2
D. różnicy wartości oczekiwanych (m1 m2)
A. Weryfikacja hipotez dotyczących wartości oczekiwanej m
Zakładamy, że realizowana w próbie zmienna losowa X ma
rozkład normalny N(m,�). Losujemy z populacji n elementową
próbę.
1. H0: m = m0
H1: m = m1
m1`" m0
m1> m0
m1< m0
2. P(Qn"W�#H0) = ą
3. Wybór sprawdzianu zależy od informacji o populacji i liczebności
próby.
a) n dowolne, znane �2
X - m0
U = n
�
b) n duże ( ne" 30) , �2 nieznane
X - m0
U = n
S
53
c) n małe ( n < 30) , �2 nieznane
X - m0
t = n -1
S
4. Obszar krytyczny budujemy w zależności od postaci hipotezy
alternatywnej.
a) H1 : m1 `" m0
dla statystyki U
u e" uą
Jeżeli odrzucamy hipotezę H0.
Wartość krytyczną uą odczytujemy z tablicy dystrybuanty Ś(u) dla
danego poziomu istotności ą.
Ś( uą ) = 1 ą\2 lub z rozkładu t-Studenta dla wartości ą i k"
uą = tą( ą ; k ")
dla statystyki t
t e" tą odrzucamy hipotezę H0.
Jeżeli
Wartość krytyczną tą odczytujemy z rozkładu t-Studenta dla poziomu
istotności ą i dla k = n 1 stopni swobody.
b) H1: m1 > m0
dla statystyki U
Jeżeli u e" u2ą odrzucamy hipotezę H0.
Wartość krytyczną u2ą odczytujemy z tablicy Ś(u); Ś(u2ą) = 1 ą lub
z rozkładu t- Studenta dla wartości 2 ą i k" stopni swobody:
uą= tą( ą; k") .
54
dla statystyki t
Jeżeli t e" t2ą odrzucamy hipotezę H0.
Wartość krytyczną t2ą odczytujemy z rozkładu t- Studenta dla
wartości 2ą i k = n 1 stopni swobody.
c) H1: m1 < m0
dla statystyki U
Jeżeli u d" - u2ą hipotezę H0 odrzucamy; Ś(-u2ą) = ą
dla statystyki t
Jeżeli t d" -t2ą odrzucamy hipotezę H0.
Wartości krytyczne u2ą i t2ą odczytujemy jak w przypadku b.
B. Weryfikacja hipotez dotyczących wariancji
1. H0: �2 = �02
H1: �2 = �1
�12 `" �02
�12 > �02
�12 < �02
2. P ( Qn"W|H0 ) = ą
2
nS
2
� =
3. 2
�
0
4.
a) H1: �12 `" �02
55
2 2 2 2
� d" � � e" �ą
ą lub
Jeżeli hipotezę H0 odrzucamy.
1-
2 2
Wartości krytyczne odczytujemy z rozkładu chi-kwadrat:
2 2
� �ą
ą dla wartości 1 ą\2 i k = n 1 stopni swobody, dla
1-
2 2
wartości ą\2 i k = n 1 stopni swobody.
b) H1: �12 > �02
Jeżeli �2 e" �2 hipotezę H0 odrzucamy.
ą
Wartość krytyczną �2 odczytujemy z rozkładu chi-kwadrat dla
ą
wartości ą i k = n 1 stopni swobody.
c) H1: �12 < �02
Jeżeli �2d" �21-ą hipotezę H0 odrzucamy.
Wartość krytyczną �21-ą odczytujemy z rozkładu chi-kwadrat dla
wartości 1 ą i k = n 1 stopni swobody.
C. Weryfikacja hipotez dotyczących równości dwóch wariancji
(test Fishera)
Zakładamy, że zmienna losowa X1 ma rozkład normalny N(m1,�1),
zmienna X2 ma rozkład normalny N(m2,�2 ). Losujemy n1 , n2
elementowe próby.
1. H0: �12 = �22
H1: �12 > �22
2. P ( Qn " W|H0 ) = ą
2
'"
S
1
F = *#1
2
3.
'"
S
2
56
2 n1
'"
2
1
S = (X - X )
1 1
" i1
n1 -1
i=1
2
n2
'"
2
1
S = (X - X )
2 2
" i2
n2 -1
i=1
4. Jeżeli F e" Fą odrzucamy hipotezę H0 na korzyść alternatywnej.
Wartość krytyczną Fą odczytujemy z rozkładu F-Snedecora dla
wartości ą i k1 = n1 1 oraz k2 = n2 1 stopni swobody.
D. Weryfikacja hipotez dotyczących różnicy wartości
oczekiwanych
Zakładamy, że zmienna losowa X1 ma rozkład normalny N( m1,�1),
a zmienna losowa X2 ma rozkład normalny N(m2,�2). Losujemy
odpowiednio n1 i n2 elementowe próby.
1. H0: m1 = m2
H1: m1 `" m2
m1 >m2
m1 2. P ( Qn" W|H0 ) = ą
3.
a) �12 , �22 znane
n1 , n2 dowolne
X - X
1 2
U =
2 2
�1 �
2
+
n1 n2
b) �12, �22 nieznane
57
n1 , n2 duże n1e"30 , n2 e" 30
X - X
1 2
U =
2
S12 S2
+
n1 n2
c) �12 , �22 nieznane
n1 , n2 małe n1< 30 , n2 < 30 ,
Korzystamy ze statystyki t, ale tylko wówczas, gdy wariancje
populacji z których są losowane próby są równe,
czyli �12 = �22 (w tym przypadku musimy najpierw przeprowadzić
test Fishera o równości wariancji).
X - X
1 2
t =
2
n1S12 + n2S2 �# ś#
1 1
ś# ź#
+
ś#
n1 + n2 - 2 n1 n2 ź#
�# #
4.
a) H1: m1 `" m2
Jeżeli |u|e" uą albo |t| e" tą hipotezę H0 odrzucamy na korzyść
alternatywnej.
Wartość krytyczną uą odczytujemy jak w przypadku A, natomiast tą
dla wartości ą i dla k = n1 + n2 2 stopni swobody.
58
b) H1: m1> m2
Jeżeli u e" u2ą albo t e" t2ą odrzucamy hipotezę H0 na korzyść
alternatywnej.
Wartość krytyczną odczytujemy jak w przypadku A, natomiast t2ą dla
wartości 2ą i k = n1 + n2 2 stopni swobody.
c) H1: m1 < m2
Jeżeli u d" - u2ą albo t d" - t2ą odrzucamy hipotezę H0 na korzyść
alternatywnej.
Wartości krytyczne odczytujemy jak wyżej.
WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH
Wśród hipotez nieparametrycznych wyróżnia się dwie zasadnicze
podklasy.
1. Hipotezy głoszące, że rozpatrywana zmienna losowa posiada
rozkład prawdopodobieństwa należący do określonej rodziny
rozkładów. Testy sprawdzające te hipotezy nazywamy testami
zgodności.
Należą do nich między innymi:
a) test zgodności chi-kwadrat
b) test Kołmogorowa-Smirnowa
2. Hipotezy głoszące, że dystrybuanty k (k e" 2 ) zmiennych losowych
są tożsame. Należą do nich między innymi test znaków i test
serii.
59
TEST ZGODNOŚCI CHI KWADRAT
Test chi- kwadrat stosujemy dla próby dużej o liczebności n e" 50.
Służy do sprawdzenia hipotezy H0, że obserwowana zmienna
losowa X posiada określony typ rozkładu. Wyniki próby grupujemy
tu w szereg rozdzielczy.
Załóżmy, że szereg rozdzielczy ma k przedziałów,
o ni liczebności i tego przedziału, przy czym
k
"n = n
i
i=1
i próba ma charakter prosty. Niech pi oznacza prawdopodobieństwo
tego, że jeżeli hipoteza H0 jest prawdziwa, to zmienna losowa X
przyjmie wartość należącą do i-tego przedziału, czyli jeżeli F0(x)
odpowiada sprawdzanej dystrybuancie, to:
pi =
0
+"dF (x).
Ii
Ii oznacza wyróżniony przedział zbudowanego szeregu
rozdzielczego, takiego, że
k
pi =1
"
,
i=1
przy czym npi jest oczekiwaną liczbą obserwacji jakie
w n elementowej próbie zostaną zaklasyfikowane do i tego
przedziału szeregu rozdzielczego.
60
Budowa testu
1. H0: F(x) = F0(x) "FHo ( oznacza to, że należy do klasy
dystrybuant H0)
H1: F(x) `" F0(x)
3. Sprawdzianem testu zaproponowanym przez Pearsona jest
statystyka
2
k
(ni - npi )
Q2 =
"
npi
i=1
i jeżeli próba jest prosta i duża n", to statystyka Q2 ma rozkład
chi-kwadrat z k l 1 stopniami swobody, gdzie l jest liczbą
estymatorów, które należy wstępnie oszacować z próby metodą
największej wiarygodności, aby móc obliczyć prawdopodobieństwa
pi. Ze względu na asymptotyczny rozkład zmiennej losowej �2,
2
�ą
przyjmujemy ni e" 5 i wartości granicznej szukamy dla danej
wartości ą i dla k l 1 stopni swobody.
Jeżeli :
2 2
�ą �ą
P{ Q2 e" } = ą, to gdy Q2 e"
odrzucamy hipotezę H0 na korzyść alternatywnej.
61
Przykład
Na poziomie istotności ą = 0.05, zweryfikować hipotezę, że badana
próba pochodzi z populacji o rozkładzie normalnym.
Wyniki próby są następujące:
xi-1 xi Liczba obserwacji ni
poniżej 4.2 10
4.2 4.8 35
4.8 - 5.4 43
5.4 - 6.0 22
6.0 - 6.6 15
6.6 i więcej 5
Stawiamy hipotezę : H0: F(x) = F0(x) "FN(x)
H1: F(x) `" F0(x)
Wykonujemy standaryzację wartości xi zmiennej losowej X
xi - x
ui =
s
Obliczamy wartości Ż#x i s dla szeregu rozdzielczego
k
2
(xi0 - x) ni
"
k
1
i=1
x = xi0ni s =
"
n n
i=1
gdzie xi0 jest środkiem i tego przedziału, czyli średnią arytmetyczną
jego końców. Środek pierwszego przedziału przyjmujemy: x1 h\2 ,
ostatniego: xk + h\2 , gdzie h jest szerokością przedziału.
62
TEST KOAMOGOROWA SMIRNOWA
Budowa testu
1. H0 : F(x) = F0(x) "FHo(x)
H1 : F(x) `" F0(x)
Test stosujemy dla prób małych (n < 50). Przed przystąpieniem do
testu należy uporządkować próbę przypisując poszczególnym
wartościom xi punktów pomiarowych liczebność skumulowaną Ni.
Wartości xi porządkujemy rosnąco. Następnie wyznaczamy wartości
dystrybuanty empirycznej
Ni Ni-1
Fi = Fi-1 =
, 1d" i d" n
n n
które są rzeczywistą sumą częstości zdarzeń, czyli każdej wartości xi
przyporządkowujemy sumę prawdopodobieństwa.
Dalej odczytujemy wartości dystrybuanty F0(xi) badanego rozkładu
i porównujemy z odpowiednimi wartościami dystrybuanty
empirycznej Fi i Fi-1 .
3. Sprawdzianem weryfikacji testu K-S jest wielkość:
w = max{Fi - F0(xi ) lub Fi-1 - F0(xi )}
4. Następnie dla danego poziomu istotności ą odczytujemy wartość
progową W testu i jeżeli:
w d" W wówczas założenie badanego rozkładu jest prawdziwe,
w > W rozkład badany nie występuje.
63
Przykład
Wykonano pomiary masy pewnego produktu z bieżącej produkcji.
Otrzymano następujące wyniki pomiarów w gramach: 497 , 485 , 498,
504 , 508, 496, 516, 497, 483, 502, 488, 516, 498, 504, 494.
Na poziomie istotności ą = 0.05 zweryfikować hipotezę, że badana
próba pochodzi z populacji w której rozkład prawdopodobieństwa
masy jest normalny.
ROZKAAD PRAWDOPODOBIECSTWA
DWUWYMIAROWEJ ZMIENNEJ LOSOWEJ
Dwuwymiarową zmienną losową wprowadzamy wówczas, gdy
zdarzeniu elementarnemu przyporządkowana jest para liczb
( xi , yi )"R.
Załóżmy, że zmienne losowe X i Y są składowymi dwuwymiarowej
zmiennej losowej (X, Y ) i niech liczby rzeczywiste x, y będące
realizacjami tych zmiennych przyjmują wartości z przedziału
( - " , + " ). Dystrybuantą dwuwymiarowej zmiennej losowej
nazywamy funkcję:
F(x, y) = P(X )#x,Y )# y)
Dla zmiennej skokowej dystrybuanta ma postać:
F(x, y) = (X )= pij
" "P = xi ,Y = y " "
j
,
-")# xi )# x -")# y )# y -")# xi )# x -")# y )# y
j j
64
a dla zmiennej ciągłej
y
x
F(x, y) = f (t, z)dtdz
+" +"
-"-"
Jeżeli funkcja F(x,y) jest ciągła i różniczkowalna to:
"2F(x, y)
f (x, y) =
"x"y
Dalej
b d
P(a)#X )#b,c)#Y)#d ) = f (x, y)dxdy
.
+"+"
a c
Warunek unormowania:
+"+"
+" +"f (x, y)dxdy = 1
-"-"
1. Rozkłady brzegowe
x x
Ą#+" ń#
F(x) = f (t, z)dzĄ#dt = g(t)dt
ó#
+" +" +"
-"Ł#-" Ś# -"
yy
Ą#+" ń#
F(y) = f (t, z)dtĄ#dz =
ó#
+" +" +"h(z)dz
-"Ł#-" Ś# -"
Jeżeli zmienne losowe są niezależne, to:
f(x,y) = g(x) �"h(y)
65
2. Momenty statystyczne dla zmiennej dwuwymiarowej
l s
źls = E[(X - a) (Y - b) ]
źls moment statystyczny rzędu ls względem punktów a,b
Moment statystyczny centralny ź11 nazywamy kowariancją
dwuwymiarowej zmiennej losowej.
Jeżeli a = E(X), b = E(Y), l = s = 1, to:
cov(X,Y) = E{ [X E(X)][Y E(Y)] }
Dla populacji kowariancję oznaczamy �xy, dla próby Sxy .
a) Zmienna skokowa
cov(x, y) =
" "[x - E(X )][y - E(Y)]P(X = xi,Y = y )
i j j
xi"Wx y "Wy
j
b) Zmienna ciągła
+"+"
cov(x, y) =
+" +"[x - E(X )][y - E(Y)] f (x, y)dxdy
-"-"
Jeżeli zmienne X , Y są niezależne, to:
+" +"
cov(x, y)= - E(X )]g(x)dx - E(Y)]h(y)dy
+"[x +"[y
-" -"
czyli
cov(x,y) = 0.
W praktyce miarą współzależności zmiennych losowych X i Y jest
współczynnik korelacji �.
66
cov(X ,Y) SXY
� = R =
dla próby
� �Y SX SY
X
Kowariancja jak i współczynnik korelacji są miarą współzależności
zmiennych X i Y.
Współczynnik korelacji r przyjmuje wartości z przedziału
< -1, 1>.
Dla próby dużej kowariancja wyraża się następująco:
n
1
S = (X - X)(Yi - Y) ,
XY " i
n
i=1
a dla próby małej
n
'"
1
S = (Xi - X)(Yi - Y)
XY
"
n -1
i =1
3. Przedział ufności dla współczynnika korelacji
1- r2 1- r2
r - tą )#�)#r + tą
n n
uą = tą( ą , k" )
67
4. Test dla współczynnika korelacji
1. H0 : � = 0
H1 : � > 0
r
t = n - 2
3.
1- r2
4. t2ą ( 2ą , k = n 2 )
ANALIZA REGRESJI
1. Regresja liniowa
Prosta regresji dla populacji: yi* = ąxi + �, gdzie ą , � nazywamy
współczynnikami regresji liniowej.
'"
yi = axi + b
Prosta regresji dla próby: , yi wynik pomiaru.
Współczynniki a i b są realizacjami w n elementowej próbie
estymatorów A i B parametrów ą i �. Korzystając z metody Gaussa
najmniejszych kwadratów:
2
n
'"
=
ś# ź#
"�# yi - yi ś# min
,
�# #
i=1
możemy wyprowadzić wzory , pozwalające obliczyć wartości
współczynników a i b:
b = y - ax
68
n
�#
ś# yi ź# - nx y
"x ś#
i
�# i=1 #
a =
n
2
�# ś#
2
ś# ź# - n(x)
"xi
�# i=1 #
Wprowadzamy pojęcie odchylenia standardowego
n
'"
'"
1
2
s =
d
di = yi - yi
"d
i
, gdzie ,
n - 2
i=1
co pozwala za pomocą prawa przenoszenia wariancji wyprowadzić
wzory na odchylenia standardowe współczynników a i b.
n
2
Ą# ń#
yi2 - n(y)
"
ó# Ą#
1
i=1
sa = ó# - a2 Ą#
n
2
n - 2
2
ó#
"x - n(x) Ą#
i
ó# Ą#
Ł# i=1 Ś#
n
2
"x
i
sb = sa i=1
n
2. Przedziały ufności dla współczynników regresji
a tąsa < ą < a + tąsa
b tąsb < � < b + tąsb
tą(ą, k= n 2 )
69
3. Testy parametryczne dla współczynników regresji
1. H0: ą = ą0 H0 : � =�0
H1: ą `" ą0 H1: � `" �0
a -ą0 b - �0
t = t =
3.
sa sb
4. k = n 2
4. Estymacja prostej regresji
Estymację prostej regresji graficznie przedstawiamy za pomocą
krzywych ufności, które ograniczają obszar ufności. Współrzędne
punktów krzywych ufności znajdujemy budując odpowiednie
przedziały ufności.
'" '"
yi - tąs )# yi )# yi + tąs
'" '"
gdzie
yi yi
2
'"
2
s
d
2
s2 = +(xi - x) sa
'"
yi
n
Współrzędne punktów tworzących krzywe ufności:
'" '"
�# ś#,�# ś#
xi, yi - tą s xi, yi + tą s
ś# '" ź# ś# '" ź#
yi yi
�# # �# #
70
LITERATURA
1.S.Zubrzycki, Wykłady z rachunku prawdopodobieństwa i statystyki
Matematycznej , PWN Warszawa.
2.S.Brandt, Metody statystyczne i obliczeniowe analizy danych , PWN
Warszawa .
3.Z.Pawłowski, Statystyka matematyczna , PWN Warszawa.
4.J.E.Freund, Podstawy nowoczesnej statystyki , PWE Warszawa.
5.M.Fisz, Rachunek prawdopodobieństwa i statystyka
matematyczna ,PWN Warszawa.
6.R.Tadeusiewicz, A.Izworski, J.Majewski, Biometria , Wydawnictwo
AGH Kraków.
7.A.Strzałkowski, M.Śliżyński, Matematyczne metody opracowania
wyników pomiarów , PWN Warszawa.
8.J.R.Taylor, Wstęp do analizy błędu pomiarowego , PWN Warszawa.
9.Jóżwiak, J.Podgórski, Statystyka od podstaw , PWE Warszawa.
10.H.Szydłowski, Teoria pomiarów , PWN Warszawa.
11.J.Greń, Statystyka matematyczna, modele i zadania , PWN Warszawa.
12.W.Krysicki, J.Bartos, W.Dyczka, K.Królikowska, M.Wasilewski,
Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach ,
część I i część II, PWN Warszawa.
71
ROZKAAD CHI KWADRAT ( �2)
ą
ą
0,99 0,98 0,95 0,90 0,80 0,70 0,50 0,30 0,20 0,10 0,05 0,02 0,01 0,001
k k
1 0,0002 0.0006 0,0039 0,0158 0,0642 0,148 0,455 1,074 1,642 2,706 3,841 5,412 6,635 10,827 1
2 0,0201 0.0404 0,103 0,211 0,446 0,713 1,386 2,408 3,219 4,605 5,991 7,824 9,210 13,815 2
3 0,115 0,185 0,352 0,584 1,005 1,424 2,366 3,665 4,642 6,251 7,815 9,837 11,345 16,268 3
4 0,297 0,429 0,711 1,064 1,649 2,195 3,357 4,878 5,989 7,779 9,488 11,668 13,277 18,465 4
5 0,554 0,752 0,145 1,610 2,343 3,000 4,351 6,064 7,289 9,236 11,070 13,388 15,086 20,517 5
6 0,872 1,134 1,635 2,204 3,070 3,828 5,348 7,231 8,558 10,645 12,592 15,033 16,812 22,457 6
7 1,239 1,564 2,167 2,833 3,822 4,671 6,346 8,383 9,803 12,017 14,067 16,622 18,475 24,322 7
8 1,646 2,032 2,733 3,490 4,594 5,527 7,344 9,524 11,03 13,362 15,507 18,168 20,090 26,125 8
9 2,088 2,532 3,325 4,168 5,380 6,393 8,343 10,656 12,242 14,684 16,919 19,679 21,666 27,877 9
10 2,558 3,059 3,940 4,865 6,179 7,267 9,342 11,781 13,442 15,987 18,307 21,161 23,209 29,588 10
11 3,053 3,609 4,575 5,578 6,989 8,148 10,341 12,899 14,631 17,275 19,675 22,618 24,725 31,264 11
12 3,571 4,178 5,226 6,304 7,807 9,034 11,340 14,011 15,812 18,549 21,026 24,054 26,217 32,909 12
13 4,107 4,765 5,892 7,042 8,634 9,926 12,340 15,119 16,985 19,812 22,362 25,472 27,688 34,528 13
14 4,660 5,368 6,571 7,79 9,467 10,821 13,339 16,222 18,151 21,064 23,685 26,873 29,141 36,123 14
15 5,229 5,985 7,261 8,547 10,307 11,721 14,339 17,322 19,311 22,307 24,996 28,259 30,578 37,697 15
16 5,812 6,614 7,962 9,312 11,152 12,624 15,338 18,418 20,465 23,542 26,296 29,633 32,000 39,252 16
17 6,408 7,255 8,672 10,085 12,002 13,531 16,338 19,511 21,615 24,769 27,587 30,995 33,409 40,790 17
18 7,015 7,901 9,390 10,865 12,857 14,440 17,338 20,601 22,760 25,989 28,869 32,346 34,805 42,312 18
19 7,633 8,567 10,117 11,651 13,716 15,352 18,338 21,689 23,900 27,204 30,144 33,687 36,191 43,820 19
20 8,260 9,237 10,851 12,443 14,578 16,266 19,337 22,775 25,038 28,412 31,410 35,020 37,566 45,315 20
21 8,897 9,915 11,591 13,24 15,445 17,182 20,337 23,858 26,171 29,615 32,671 36,343 38,932 46,797 21
22 9,542 10,600 12,338 14,041 16,314 18,101 21,337 34,939 27,301 30,813 33,924 37,659 40,289 48,268 22
23 10,196 11,293 13,091 14,848 17,187 19,021 22,337 26,018 28,429 32,007 35,172 38,968 41,638 49,728 23
24 10,856 11,992 13,848 15,659 18,062 19,943 23,337 27,096 29,553 33,196 36,415 40,270 42,980 51,179 24
25 11,524 12,697 14,611 16,473 18,940 20,867 24,337 28,172 30,675 34,382 37,652 41,566 44,314 52,620 25
26 12,198 13,409 15,379 17,292 19,820 21,792 25,336 29,246 31,795 35,563 38,885 42,856 45,642 54,052 26
27 12,879 14,125 16,151 18,114 20,703 22,719 26,336 30,319 32,912 36,741 40,113 44,140 46,963 55,476 27
28 13,565 14,847 16,928 18,939 21,588 23,647 27,336 31,391 34,027 37,916 41,337 45,419 48,278 56,893 28
29 14,256 15,574 17,708 19,768 22,475 24,577 28,336 32,461 35,139 39,087 42,557 46,693 49,588 58,302 29
30 14,953 16,306 18,493 20,599 23,364 25,508 29,336 33,530 36,250 40,256 43,773 47,962 50,892 59,703 30
72
WARTOŚCI PROGOWE Wą;n DLA TESTU
KOAMOGOROWA SMIRNOWA
Poziom istotności ą
Liczba
0.1 0.05 0.01
pomiarów n
4 0.352 0.381 0.417
5 0.315 0.337 0.405
6 0.294 0.319 0.364
7 0.276 0.300 0.348
8 0.261 0.285 0.331
9 0.249 0.271 0.311
10 0.239 0.258 0.294
11 0.230 0.249 0.284
12 0.223 0.242 0.275
13 0.214 0.234 0.268
14 0.207 0.227 0.261
15 0.201 0.220 0.257
16 0.195 0.213 0.250
17 0.189 0.206 0.245
18 0.184 0.200 0.239
19 0.179 0.195 0.235
20 0.174 0.190 0.231
25 0.165 0.180 0.203
30 0.144 0.161 0.187
Wzór
0.805 0.886 1.031
przybliżony
n n n
dla n > 30
yródło: H. W. Lilliefors: On the Kolmogorov-Smirnov Test for
Normality with Mean and Variance, Journal of American Statistical
Association 62 (1967) ,
p. 399-402.
73
74

Wyszukiwarka

Podobne podstrony:
Rachunek prawdopodobienstwa i statystyka matematyczna Definicje Twierdzenia Wzory W Kordecki
Lipińska K, Jagiełło D, Maj R Rachunek prawdopodobienstwa i statystyka
eBooks PL Rachunek Prawdopodobienstwa I Statystyka Mat Wojciech Kordecki (osiol NET) www!OSIOLEK!c
Rachunek prawdopodobienstwa Matura Matematyka
Matematyka dyskretna 2004 04 Rachunek prawdopodobieństwa
Rachunek prawdopodobieństwa teoria

więcej podobnych podstron