-"
F(x ) = 0.25 - kwartyl dolny
0.25
F(x ) = 0.75 - kwartyl górny
0,75
x , x , - decyle
0.1 0.2
Definicja ogólna kwantyli
Kwantylem rzędu q, 0o dystrybuancie F(x) nazywamy taką liczbę xq, że
P(X < xq) d" q d" P(X d" xq),
czyli
F(xq) d" q d" F(xq + 0).
WYBRANE ROZKAADY PRAWDOPODOBIECSTWA
I. Zmienna losowa skokowa
I.1. Rozkład dwumianowy(binomialny), Bernouliego
22
Definicja
Zmienna losowa K typu skokowego ma rozkład dwumianowy
z parametrami (n,p), n"N, 0< p < 1, jeżeli jej funkcja
prawdopodobieństwa pk a" P(k; n ,p) = P(K =k), jest postaci :
n
# ś#
P(k;n, p)= pkqn-k
ś# ź#
, k=0,1,2.....,n i q = 1 p
k
# #
Zmienna ta przyjmuje z dodatnimi prawdopodobieństwami
( n+1) wartości: 0,1.....,n.
Wśród nich jest jedna albo dwie wartości najbardziej prawdopodobne:
a) gdy (n+1)p jest liczbą całkowitą to tymi wartościami są liczby
k1 = (n+1)p 1, k2 = (n+1)p,
b) gdy ( n+1)p nie jest liczbą całkowitą to wartość najbardziej
prawdopodobna dana jest wzorem
k0 =[(n+1)p],
czyli częścią całkowitą liczby (n+1)p.
E(K) = np, D2(X) = npq ,
1- 2 p
ł =
npq
I.2. Rozkład wielomianowy
Uogólniony na przypadek, gdy w wyniku jednego doświadczenia
może wystąpić l zdarzeń rozłącznych A1 , A2 ,......., Al
i = A1*"A2*".......*"Al.
Definicja
Niech prawdopodobieństwa zajścia wzajemnie wykluczających
się zdarzeń Aj będą dane przez :
23
l
p = 1.
"
P(Aj) = pj i j
j=1
Każdemu zdarzeniu Aj przyporządkowujemy zmienną losową Kj, tak
{Aj : K (Aj)= k }, to prawdopodobieństwa zajścia k zdarzeń Aj
że
j j
j
w n doświadczeniach
l
n!
j
P{K1 = k1; K2 = k2;.........;Kl = kl}= pk
" j
l
j=1
!
"k j
j=1
E(Kj)=npj , D2(Kj)=npj(1 pj ).
I.3. Rozkład hipergeometryczny
Jest to rozkład dla prób bez zwrotu, tzn. po wylosowaniu danego
elementu zmienia się wzajemna proporcja pozostałych.
Definicja
Zmienna losowa skokowa K ma rozkład hipergeometryczny
z parametrami (N, M, n), gdzie N,M,n liczby naturalne oraz M,nd"N,
jeżeli jej funkcja prawdopodobieństwa
pka" P(k; N,M,n ) = P(K=k) jest postaci:
M N -M
( )( )
k n-k
P(k; N, M , n) =
,
N
( )
n
gdzie k=0,1,....,n n d" N, k d" M, k d"n, n k d" N M
N - n
D2(X ) = npq
E(K)=np, ,
N -1
24
gdzie
M
p =
i q=1 p
N
Możemy powiedzieć, że zmienna losowa K jest możliwą liczbą
elementów mających wyróżnioną cechę A wśród n wylosowanych
bez zwrotu z populacji N elementów wśród których znajdowało się
M elementów cechy A.
M
p
Gdy N", M", tak że , 0N
wtedy
P(k;N,M,n) P(k;n,p)
Powyższy rozkład możemy rozszerzyć na przypadek, gdy
wyróżnionych cech w populacji jest więcej.
Definicja
Niech każde z N elementów naszej populacji posiada jedną
z l cech
N = N1 + N2 +.......+ Nl.
Prawdopodobieństwo wylosowania bez zwrotu kj ( j= 1,2,.......,l)
elementów każdego rodzaju przy n losowaniach
N1 N2 Nl
( )( ).....( )
k1 k2 kl
P(K1 = k1; K2 = k2;.......;Kl = kl ) =
,
N
( )
n
gdzie k1 + k2 +..+kn = n.
I.4. Rozkład Poissona
Stosujemy, gdy n" , a p bardzo małe, = np.
25
Definicja
Zmienna losowa skokowa K ma rozkład Poissona
z parametrem , >0, jeżeli jej funkcja prawdopodobieństwa
pk a" P(k;) = P(K=k) jest postaci:
k
P(k;) = e-
, k"N0=N*"{0}.
k!
W praktyce stosujemy, gdy ne"50, p d" 0.1, npd" 10.
Rozkład Poissona jest granicznym przypadkiem rozkładu
dwumianowego.
Twierdzenie
Jeżeli K1,K2 , ......, Kn,.. jest ciągiem zmiennych losowych
o rozkładzie dwumianowym odpowiednio z parametrami
(1, p 1),..,(n,pn),... oraz npn, >0, gdy n", to:
k
n k
lim( )pn (1- pn)n-k = e- ,
k k"N*"{0}
n"
k!
czyli ciąg rozkładów dwumianowych jest zbieżny do rozkładu
Poissona z parametrem .
n
"
k
ś#
lim#1- = e- , = e
ś# ź#
"
n"
n k!
# #
k =0
1
ł =
E(K)=, D2(K) = ,
Rozkład Poissona jest rozkładem o asymetrii prawostronnej .
26
II. Zmienna losowa ciągła
II.1 Rozkład jednostajny
Definicja
Zmienna losowa X ma rozkład jednostajny ( prostokątny )
skoncentrowany na przedziale < a, b> jeżeli jej gęstość
prawdopodobieństwa jest określona wzorem:
1
ż#
#
dla a d" x d" b
f (x) =
# - a
b
#
#0 dla x)#a lub x*#b
Dystrybuantą tego rozkładu jest funkcja
0 dla x d" a
ż#
#
x - a
F(x)=
#b - a dla a)#x d" b
#
1 dla x*#b
#
2 2
a + b (b - a) ("x)
E(X ) = , D2(X ) = , D2(X ) = ,
2 12 3
a = xrzecz - "x
b = xrzecz + "x
27
II.2. Rozkład normalny standaryzowany
Twierdzenie Moivrea Laplacea pozwala na przejście
z rozkładu dwumianowego do rozkładu normalnego
standaryzowanego.
Dla ustalonego p, 0< p < 1 i q = 1 p, prawdopodobieństwo
Pn(a,b) =
"P(K = k)
,
np+a npq )#k )#np+b npq
tego, że w serii n prób Bernouliego o prawdopodobieństwie
p zdarzenia sprzyjającego, ilość tych zdarzeń będzie zawarta
np + a npq)#k)#np + b npq
w granicach przy n", będzie dążyć
b u2
-
1
2
lim Pn(a,b) = e du
.
+"
n"
2Ą
a
Zmienna losowa U ma rozkład normalny standaryzowany, jeżeli
jej gęstość określona jest wzorem
u2
-
1
2
(u) = e
dla -"2Ą
+" +"
2
1
2 -t2
,
+"t e-t dt = Ą +"e dt = Ą
2
-" -"
+"
2
3
4
+"t e-t dt = Ą
4
-"
28
Dystrybuanta Ś(u) wyraża się następująco:
u u
2
1
Ś(u) = e-t dt
. ( funkcje Laplacea)
+"(t)dt = +"
2Ą
-" -"
+1
+"(u)du = Ś(+1)- Ś(-1)= Ś(+1)-[1- Ś(+1)]= 2Ś(+1)-1 =
-1
= 2 " 0.8413 -1 = 0.6826
+3
+"(u)du = Ś(+ 3)- Ś(- 3) = 2Ś(+ 3)-1 = 2 " 0.998650 -1 = 0.9973
-3
II.3. Rozkład normalny
Wprowadzamy zmienną losową X, która jest liniową funkcją
zmiennej U
X=m+U gdzie m, są stałymi i >0
Gęstość f zmiennej losowej X wyznaczymy następująco:
X - m
h(X ) =
X=g(U) U=h(X) ,
(x-m)2
-
1
2
2
2
f (x) = e h (x)
stąd
2Ą
(x-m)2
-
1
2
2
f (x) = e
2Ą
29
Rozkład prawdopodobieństwa zmiennej losowej X określony
gęstością f
(x-m)2
-
1
2
2
f (x) = e
gdzie -"2Ą
nazywamy rozkładem normalnym N(m,).
Podobnie oznaczamy rozkład normalny standaryzowany, czyli
N(0,1).
E(X)=m, D2(X) = D2(m) + 2D2(U) , D2(X)= 2
punkty przegięcia
x1 = m , x2 = m+
Dystrybuanta F(x) ma następującą postać:
(x-m)2
x x
-
1 x - m
22
F(x) = f (t)dt = e = Ś(u), gdzie u =
+" +"
2Ą
-" -"
Zmienną losową X nazywamy zmienną normalną, natomiast
zmienną U normalną standaryzowaną. Powyższe zależności opisują
standaryzację zmiennej losowej X.
P(m-ponieważ dla
m - - m
u1 = = -1
x1=m
m + - m
u2 = = 1
x2=m+
30
P(xPodobnie możemy pokazać, że
P(m 3PRÓBA LOSOWA
Najprostszym rodzajem próby statystycznej jest próba prosta.
Definicja
Jeżeli X1 ,X2 , ......., Xn jest ciągiem niezależnych obserwacji
losowych ze zbiorowości, w której dystrybuanta zmiennej losowej X
jest równa F(x) i jeżeli mechanizm doboru obserwacji jest taki, że
każda ze zmiennych losowych Xi ( i=1,2,3..,n) ma dystrybuantę
równą F(x), to ciąg odpowiednich wyników obserwacji x1, x2 ,....,xn
nazywać będziemy statystyczną próbą prostą ze zbiorowości
o dystrybuancie F(x).
Każdą inną próbę nie będącą próbą prostą będziemy nazywać próbą
złożoną.
Próba prosta ( losowanie niezależne, losowanie zwrotne)
Próba złożona ( losowanie zależne, losowanie bezzwrotne)
Losowanie prób prostych
1. Tablice liczb losowych (2,4,6 cyfrowe)
Zostały tak utworzone, że dzieląc liczby w tablicach przez
10r(r=2,4,6) otrzymujemy ciąg niezależnych zmiennych losowych
o rozkładzie jednostajnym w przedziale <0, 1>.
2. Losowanie systematyczne
Jeżeli elementy zbiorowości są w naturalny sposób ponumerowane
i tak wyznaczony porządek nie jest powiązany ze zmienną losową,
wówczas do próby bierzemy co k-ty element, gdzie k jest największą
N
liczbą naturalną nie przekraczającą (N liczebność populacji
n
31
n liczebność próby).
n0d"k n0 , n0+k, n0+2k, ,N
np. N=50 , n0=3 , n= 10
k=5, 3,8,11,14,17,20,23,26,29,32.
Losowanie prób złożonych
A. Kryterium podzielności populacji
a) losowanie nieograniczone (z całej populacji)
b) losowanie warstwowe (elementy z warstw populacji)
B. Jednostki biorące udział w losowaniu
a)losowanie indywidualne
b)losowanie grupowe (grupy charakteryzuje wspólna cecha,
większa ilość elementów)
W przypadku badań eksperymentalnych mamy do czynienia
z populacjami nieskończonymi. Stąd trudno mówić o sposobie
losowania. Sposób losowania nie jest istotny, ponieważ realizacje
zmiennych losowych są znane. Badania statystyczne polegają tu na
wnioskowaniu o dystrybuantach badanych zmiennych losowych.
Często badamy wpływ czynników stabilizowanych, kontrolowanych z
odpowiednim natężeniem na naszą próbę. Jeżeli natężenie czynników
zmienia się w sposób ciągły mamy do czynienia
z modelem regresyjnym, jeżeli skokowo lub nie jest mierzalne
liczbowo z analizą wariancji.
Wstępnym badaniem próby zajmuje się statystyka opisowa, gdzie nie
stosujemy rachunku prawdopodobieństwa.
32
STATYSTYKA OPISOWA
Wstępnym badaniem próby zajmuje się statystyka opisowa.
Rozróżniamy trzy rodzaje prób. W każdej z nich wyznaczamy:
(x)
a) wartość średnią
b) medianę ( Me )
c) dominantę( wartość modalną )(D)
d) miary rozproszenia
d1) najprostszy rozstęp (R = xmax xmin)
'"
# ś#
d2) odchylenie standardowe ś# S, S ź#
# #
S
V =
e) współczynnik zmienności
x
f) kwartyl dolny Q1( mediana wartości mniejszych i równych Me )
g) kwartyl górny Q3 ( mediana wartości większych i równych Me)
-
Q Q
3 1
Q =
h) odchylenie ćwiartkowe
2
Rodzaje prób
1. Mamy n różnych wartości xi
n
1
x = xi
"
a)
n
i=1
b) Me = dla n nieparzystego
n +1
x
2
+
n n
x x
+1
2 2
Me = dla n parzystego, przy uporządkowaniu
2
rosnącym
'"
1
2
s =
"(x - x)
i
d2) dla n<30
n -1
33
n
1
2
s =
"(x - x)
i
dla ne" 30
n
i=1
2. Wartości xi powtarzają się ni - krotnie
k k
1
x = xini , gdzie i = n
a) " "n
n
i=1 i=1
b) przed wyznaczeniem wartości Me, musimy znalezć liczebności Ni
skumulowane (ponumerowane obserwacje odpowiadające danej
wartości xi)
Ni = Ni-1 + ni
Wartość mediany odpowiada tej wartości xi dla której
Ni-1 < NMe d" Ni ,
n +1
NMe =
gdzie dla n nieparzystego
2
n
NMe =
dla n parzystego
2
c) dominanta (D) to wartość xi dla ni = max
k
2
"(x - x) ni
i
i=1
s =
d2)
n
34
3. Szeregi rozdzielcze
Wyniki grupujemy i przedstawiamy w postaci klas (przedziałów).
Liczbę k klas możemy ustalić korzystając z następujących
zależności:
k = n
k d" 5 lnn , , k = 1 + 3.322lnn (kmax = 30)
Szerokość przedziału h (h = xi xi-1 ) zależy od ilości klas i wartości
rozstępu R.
R
h e"
k
Dolną granicę pierwszego przedziału przyjmujemy: [ xmin (ą/2) ],
gdzie ą jest dokładnością pomiarów.
xi-1 + xi
0
1
x =
xi0 =
"x ni
i
a) n , gdzie jest środkiem i-tego
2
przedziału, ni jego liczebnością
h
"
Me = x0 + (NMe - N ), gdzie
b)
n0
NMe numer obserwacji odpowiadającej medianie
N* - skumulowana liczba obserwacji przed przedziałem mediany
x0 dolna granica przedziału klasowego mediany
n0 liczebność przedziału mediany
35
c) dominanta wybieramy przedział o ni = max ( przedział
dominanty)
nd - nd -1
D = x0 + h
,
(nd - nd -1) + (nd - nd +1)
x0 dolna granica przedziału dominanty
nd liczebność przedziału dominanty
nd-1 liczebność przedziału przed przedziałem dominanty
nd+1 liczebność przedziału za przedziałem dominanty
k
2
(xi0 - x) ni
"
i=1
s =
d2)
n
Jeżeli n> 1000 lub k > 20 musimy od S2 odjąć poprawkę
1
h2
Shepparda:
12
STATYSTYKI, ROZKAADY
PRAWDOPODOBIECSTWA
Statystyką nazywamy każdą zdefiniowaną funkcję obserwowanych
w próbie zmiennych losowych, która sama jest zmienną losową. Jako
zmienna losowa statystyka ma pewien rozkład prawdopodobieństwa
a ponieważ jest określoną funkcją zmiennych losowych, przeto jej
rozkład jest wyznaczony przez rozkład zmiennych losowych i postać
funkcji.
STATYSTYKI
X
1. Średnia arytmetyczna z próby,
n
1
X = X
" i
n
i=1
36
Twierdzenie
X .
o rozkładzie prawdopodobieństwa zmiennej losowej
Jeżeli X1, X2, ......,Xn jest ciągiem niezależnych zmiennych losowych
o rozkładach normalnych N(m,) i jeżeli
n
1
X = X
" i
n
i=1
# ś#
Nś#m, ź#
X
to zmienna losowa ma rozkład normalny .
ś# ź#
n
# #
Twierdzenie
X
Niech będzie średnią arytmetyczną niezależnych zmiennych
losowych X1, X2, ......, Xn1 o rozkładach normalnych N (m1,1) i niech
Y
będzie średnią arytmetyczną niezależnych zmiennych losowych
Y1, Y2, ......, Yn2 o rozkładach normalnych N(m2,2). Jeżeli zmienne
losowe X1 , X2 ,........,X n1 oraz Y1 , Y2 ,.........,Yn2 są niezależne,
X
wówczas zmienna losowa - Y
ma rozkład normalny
2 2
# ś#
1
2
ź#
Nś#m1 - m2, +
.
ś#
n1 n2 ź#
# #
2. Statystyka 2
Niech U1 , U2,......, Uk będzie ciągiem niezależnych zmiennych
standaryzowanych N(0,1). Statystykę
k
2 2
=
"U
i
i=1
definiujemy jako sumę kwadratów zmiennych losowych U1,
U2,....,Uk. Rozkład prawdopodobieństwa statystyki 2 będziemy
nazywać rozkładem chi-kwadrat, a liczbę niezależnych składników
składających się na 2 nazywamy stopniami swobody k.
4
ł = ,
E(2) = k , f(2) = max dla 2 = k 2
k
37
Twierdzenie
Jeżeli zmienne losowe 12 i 22 są niezależne i mają rozkłady chi-
kwadrat o k1 i k2 stopniach swobody, to zmienna losowa
2 = 12 +22 ma rozkład chi-kwadrat
o k1 +k2 stopniach swobody.
ROZKAAD PRAWDOPODOBIECSTWA DLA
WARIANCJI I ODCHYLENIA STANDARDOWEGO
Wprowadzamy dwie definicje:
2
n
1
2
S" = gdy znamy m
"(X - m)
i
n
i=1
2
n
1
2
S = (Xi - X) gdy nie znamy m
"
n
i=1
Twierdzenie
Jeżeli X1, X2,.......,Xn jest ciągiem niezależnych zmiennych
2
nS"
losowych o rozkładzie normalnym N(m,) to zmienna losowa
2
ma rozkład chi- kwadrat o n stopniach swobody.
Dowód
2
2
2
n n n
(Xi - m)ś# Xi - m
nS" 1
ś#
2
= n " = =
ź#
" "# "Ui
2 2
n
i=1 i=1 # # i=1
X - m
i
= Ui
ponieważ jest zmienną losową o rozkładzie
N(m,), zmienne są niezależne, ilość stopni swobody równa jest n.
38
2
# ś#
nS"
2 2
ś# ź#
Eś# 2 ź# = n
E(S" )=
,
# #
Twierdzenie
Jeżeli X1, X2, ......,Xn jest ciągiem zmiennych losowych o
2
nS
rozkładzie normalnym N(m,), to zmienna losowa ma rozkład
2
chi-kwadrat o n 1 stopniach swobody, ponieważ ostatni składnik
sumy musi spełniać warunek
n
(X - X )= 0
" i .
i=1
3. Statystyka F( Snedecora)
Definicja
2 2
1 2
Niech i będą niezależnymi zmiennymi losowymi
o rozkładzie chi-kwadrat i odpowiednio k1 i k2 stopniach swobody,
to statystyka
2
1 " k2
F =
,
2
2 " k1
ma rozkład F (rozkład Snedecora) o k1 i k2 stopniach swobody.
Rozkład F ma zastosowanie do badania wariancji dwóch populacji.
Twierdzenie
2 2
'" '"
S S
Jeżeli 1 i 2 są wariancjami z prób prostych, pobranych ze
zbiorowości o rozkładach normalnych w których odchylenia
standardowe są jednakowe, i zdefiniowane są następująco:
2
2 n1 2
n2
'" '"
2
1 1
S = (X1 j - X1) S = (X - X )
1 2
" " 2 j 2
,
n1 -1 n2 -1
j=1 j=1
39
2
'"
S
1
2
to gdy obie próby są niezależne zmienna losowa ma rozkład F
'"
S
2
o (n1 1) oraz (n2 1 ) stopniach swobody.
4. Statystyka t-Studenta
Definicja
Niech U będzie zmienną losową standaryzowaną N(0,1) i niech
2 będzie zmienną losową o rozkładzie chi-kwadrat i k stopniach
swobody. Jeżeli zmienne U i 2 są niezależne, to statystyka
U
t = k
2
ma rozkład t-Studenta o k- stopniach swobody.
E(t) = 0, -"Twierdzenie
Ciąg dystrybuant zmiennej losowej o rozkładzie f(t) przy k"
jest zbieżny do dystrybuanty rozkładu normalnego standaryzowanego
N(0,1).
Twierdzenie
Jeżeli X1, X2, .........,Xn jest ciągiem niezależnych zmiennych
losowych o rozkładzie normalnym N(m,) i mamy określone zmienne
X
losowe , S2, to zmienna losowa
X - m
t = n -1
S
ma rozkład t- Studenta o n 1 stopniach swobody.
40
Twierdzenie
X1
Jeżeli i S1 oznaczają odpowiednio średnią arytmetyczną
i odchylenie standardowe z próby liczącej n1 niezależnych obserwacji
X2
losowych ze zbiorowości o rozkładzie N(m1, ) i jeżeli , S2 to
średnia arytmetyczna oraz odchylenie standardowe z drugiej próby
liczącej n2 niezależnych obserwacji pobranych ze zbiorowości
o rozkładzie N(m2, ) i jeżeli obie próby są niezależne, to zmienna
losowa
X1 - X - (m1 - m2 )
2
t =
2
# ś#
n1 " S12 + n2 " S2 1 1
ś# ź#
+
ś#
n1 + n2 - 2 n1 n2 ź#
# #
ESTYMACJA
I. ESTYMACJA PUNKTOWA
II. ESTYMACJA PRZEDZIAAOWA
Ad.I Szukanie liczby, która w oparciu o odpowiednie wyniki z próby i
odpowiednie kryteria dokładności będzie najlepszym przybliżeniem
nieznanego, interesującego nas parametru rozkładu zmiennej losowej
dla populacji.
Ad.II Szukanie przedziałów liczbowych takich, by z odpowiednim
prawdopodobieństwem bliskim jedności można oczekiwać, że wartość
szukanego parametru rozkładu(charakterystyki liczbowej) znajdzie się
w tym przedziale.
Parametry rozkładu wielkości stałe, nielosowe
Wyniki próby statystycznej losowe
41
Definicja estymatora
Estymatorem parametru Ś rozkładu prawdopodobieństwa
zmiennej losowej X nazywamy każdą taką funkcję zmiennych
losowych obserwowanych w próbie, że jest ona zmienną losową o
rozkładzie zależnym od Ś i że wnioskowanie o wartości Ś można
oprzeć na zaobserwowanej w próbie wartości funkcji.
Jeżeli przez X1, X2,.......,Xn oznaczymy zaobserwowane w próbie
zmienne losowe to oparty na tych zmiennych estymator będziemy
oznaczać Tn( X1, X2 ,.......,Xn;Ś) a" Tn.
METODY WYZNACZANIA ESTYMATORÓW
1. Metoda momentów Pearsona
Obliczamy momenty z próby i przyrównujemy do odpowiednich
momentów rozkładu, będących funkcjami nieznanych parametrów
rozkładu . Rozwiązujemy równania i znajdujemy wzory na
odpowiednie estymatory.
a) wartość oczekiwana E(X)
n n
1 1
0
ź1 = xi = xi = x
" "
E(X) = ź10
n n
i=1 i=1
b) wariancja D2(X)
D2(X) = ź02 [ź01]2
n n
2 2
2 1 1
0 0 2 2
ź2 -(ź1 ) = -(x) = { - 2xi x + 2xi x }-(x) =
"xi "xi
n n
i=1 i=1
2
n n n n
2 2
# 1 ś# 2 1 1
2 2
= ś# - 2xi x + x -(x) = (xi2 - 2xi x + x )= (xi - x) = S
ź#
"xi "xi " "
n n n n
# i=1 # i=1 i=1 i=1
42
2. Metoda najmniejszych kwadratów Gaussa
Niech X1, X2,.....,Xn będzie ciągiem obserwowanych w próbie
zmiennych losowych, których rozkład zależy od parametrów
Ś1,Ś2,....,Śk. Niech h(Ś1,Ś2,......,Śk) będzie liniową funkcją
parametrów Ś1,Ś2,.......,Śk; x1,x2,.....,xn obserwacje zmiennych
losowych X1,X2,....,Xn. Metoda najmniejszych kwadratów polega na
dobraniu takich ocen Ńj parametrów Śj, by spełniony był warunek:
2
n
= [X - h(Ś1,Ś2,......,Śk )] = min
" j
j=1
Stosowana wtedy, gdy h jest liniową funkcję względem
"
poszczególnych parametrów i wówczas są pewnymi stałymi
"Śi
niezależnymi od Śi . Z otrzymanych układów równań znajdujemy
wzory na odpowiednie estymatory.
3. Metoda największej wiarygodności Fishera
Metoda ta polega na realizacji zdarzenia (doświadczenia)
o największym prawdopodobieństwie.
W tym celu wprowadzamy pojęcie wiarygodności próby.
Definicja
Niech X1, X2,....,Xn będzie ciągiem obserwacji pobranych do
próby z populacji w której zmienna losowa X ma dystrybuantę F(x)
zależną od k nieznanych parametrów Ś1, Ś2,.....,Śk, które należy
oszacować za pomocą próby.
Zakładamy: n > k . Zmienna X może być ciągła lub dyskretna.
43
Jeżeli zmienna losowa X jest ciągła, to rozkład opisujemy gęstością
prawdopodobieństwa f(x; Ś1, Ś2,......,Śk), a jeżeli skokowa to
funkcją prawdopodobieństwa P(X=x; Ś1,Ś2,....,Śk).
Wyrażenie
n
L = f (xi ;Ś1,Ś2 ,.....,Śk ) dla zmiennej ciągłej
"
i=1
lub
n
L =
"P(X = xi ;Ś1,Ś2 ,......,Śk )dla zmiennej skokowej
i=1
nazywamy wiarygodnością próby.
Jeżeli funkcja L jest dwukrotnie różniczkowalna, to poszukiwanie
ocen czyli estymatorów można przeprowadzić za pomocą rachunku
różniczkowego. Najlepiej szukać max dla ln L, ponieważ dla L>0
L i lnL mają ekstremum w tym samym punkcie, czyli
" ln L
= 0
"Śi
WAASNOŚCI ESTYMATORÓW
Estymatory muszą spełniać trzy podstawowe warunki:
1. muszą być nieobciążone
2. zgodne
3. efektywne
44
ad.1
Estymator Tn parametru Ś nazywamy nieobciążonym, jeżeli
spełniona jest równość:
E(Tn) = Ś.
Różnicę
Bn = E(Tn) Ś
nazywamy obciążeniem estymatora.
Jeżeli
lim Bn = 0
n"
to estymator nazywamy asymptotycznie nieobciążonym.
ad.2
Estymator nazywamy zgodnym, jeżeli spełniona jest relacja
lim P(Tn - Ś )#)= 1
,
n"
dla dowolnie małej wartości dodatniej .
Tak więc, zgodność estymatora badamy korzystając z dwóch
warunków:
lim D2(Tn ) = 0
a)
n"
b) estymator jest nieobciążony lub jego obciążenie Bn spełnia
warunek
lim Bn = 0
n"
45
ad.3
Tni
Efektywność estymatora będącego i-tym estymatorem tego
samego parametru populacji Ś, mierzymy miernikiem efektywności
D2(Tn")
Wi =
,
D2(Tni)
gdzie Tn" jest estymatorem o największej efektywności,
0 < W d" 1.
Pierwiastek kwadratowy z wariancji estymatora nieobciążonego
nazywamy błędem średnim szacunku.
W przypadku estymowania jednego parametru, wariancja dowolnego
nieobciążonego estymatora spełnia następującą nierówność, zwaną
nierównością Rao Cramera.
1
D2(Tn ) e"
2
ż# #
"
nE#Ą# ln f (X ;Ś)ń# #
#ó# Ź#
Ą#
#Ł#"Ś Ś# #
# #
Nierówność jest spełniona dla wszystkich rozkładów
prawdopodobieństwa oprócz rozkładu jednostajnego.
ESTYMACJA PRZEDZIAAOWA
Polega na budowaniu przedziałów ufności zwanych przedziałami
Neymana.
46
Przedział liczbowy [ Tn(1) , Tn(2) ] spełniający dwa warunki:
1. końce przedziału, czyli wielkości Tn(1) i Tn(2) zależą od wyników
próby i nie zależą w sposób funkcyjny od Ś,
2. prawdopodobieństwo tego, że nieznana wartość Ś należy do tego
przedziału równe jest z góry określonej liczbie 1 ą >0;
nazywać będziemy przedziałem ufności dla parametru Ś.
1 ą nazywamy współczynnikiem ufności.
PRZEDZIAAY UFNOŚCI DLA WARTOŚCI OCZEKIWANEJ
Przyjmujemy dwa założenia .
1. Zmienna losowa X ma rozkład normalny N(m,), taki że średnia
# ś#
Nś#m, ź#
z próby ma rozkład przy dowolnej wielkości próby.
ś# ź#
n
# #
2. Zmienna losowa X ma rozkład różny od normalnego, ale próba jest
na tyle duża, że można przyjąć, że średnia z próby ma w przybliżeniu
# ś#
Nś#m, ź#
rozkład .
ś# ź#
n
# #
Jeżeli spełnione jest jedno z tych założeń, to wówczas zmienna
X - m
n
losowa ma rozkład N(0,1).
A. Znana wariancja
Zgodnie z powyższym, możemy znalezć taki kwantyl ( wartość
krytyczną) uą , że
ż# #
X - m
P#- uą )# n)#uą Ź# = 1-ą
# #
47
Po przekształceniach
ż# #
P#X - uą )#m)# X + uą Ź# = 1-ą
n n
# #
Przedział ten budujemy dla dowolnej liczebności n próby.
B. Wariancja nieznana
1. Jeżeli liczebność n próby jest duża (ne"30), przybliżamy S
i wówczas
ż# S S #
P#X - uą )#m)# X + uą Ź# = 1-ą
n n
# #
Wartości kwantyli uą zwane również wartościami krytycznymi
odczytujemy ze stabelaryzowanych wartości dystrybuanty
Ś(uą) =1 ą\2 i Ś(-uą) = ą\2.
2. Liczebność n próby jest mała (n < 30), wówczas przedział ufności
budujemy w oparciu o rozkład t-Studenta, gdzie zmienna losowa
X - m
t = n -1
ma rozkład t-Studenta o n 1 stopniach swobody,
S
czyli możemy znalezć taki kwantyl tą,, że
P{- tą )#t)#tą}= 1-ą
Stąd po podstawieniu mamy
ż# S S #
P#X - tą )#m)#X + tą = 1-ą
Ź#
,
n -1 n -1
# #
przy czym
48
'"
'"
S S
= = S
x
n -1 n
Wartość krytyczną tą odczytujemy z rozkładu t-Studenta dla
określonej wartości ą i k = n 1 stopni swobody. Z tych tablic
można również odczytać uą , dla określonego ą i k".
Szerokość przedziału możemy ustalać za pomocą wartości
współczynnika ufności lub liczebności próby. Ustalanie za pomocą
liczebności próby przeprowadza się według dwuetapowej
procedury Steina.
S
tą = "
"- ustalona dokładność (połowa
n -1
szerokości przedziału)
2
'"
2
S S
=
n -1 n
Stąd niezbędną liczbę n obserwacji, by szerokość budowanego
przedziału wynosiła 2 ", obliczamy z zależności:
2
'"
2 n0
2
'"
2
1
tą " S
0
S = (X - X)
n = 0
" i
gdzie ,
n0 -1
"2
i=1
n0 liczebność próby wstępnej.
PRZEDZIAA UFNOŚCI DLA WARIANCJI
Zakładamy , że zmienna losowa X ma rozkład normalny N(m,),
nie znamy m. Próba jest mała. Przedział ufności budujemy w oparciu
2
nS
o rozkład chi-kwadrat, ponieważ zmienna losowa ma rozkład
2
chi-kwadrat o n 1 stopniach swobody.
2 2
1 2
Oznacza to, że możemy znalezć takie dwa kwantyle i , że
49
2
ż# #
nS
2 2
P#1 )# )#2 Ź# = 1-ą
2
# #
12
Wartość krytyczną odczytujemy z rozkładu chi-kwadrat dla
"
ą
2 2
f ( )d = 1-
1 ą\2 i k = n 1 stopni swobody +" , natomiast
2
2
1
"
# ś#
ą
2 2
ś# ź#
2
f ( )d =
2
dla ą\2 i k = n 1 stopni swobody ś# +"
ź#
2
2
2
# #
Po przekształceniach otrzymujemy:
2 2
ż# #
nS nS
2
P# 2 )# )# = 1-ą
Ź#
.
2
2 1 #
#
Dla odchylenia standardowego przedział budujemy następująco:
2 2
ż# #
nS nS
#
P# )# )# = 1-ą
# Ź#
2 2
2 1 #
#
# #
2 2
S S"
Jeżeli jest znana wartość m, to zamiast wstawiamy , a ilość
stopni swobody k = n .
WERYFIKACJA HIPOTEZ STATYSTYCZNYCH
Jest to typ wnioskowania statystycznego polegający na wyrokowaniu
o słuszności lub fałszu pewnych wysuniętych przypuszczeń
dotyczących rozkładu prawdopodobieństwa obserwowanej zmiennej
losowej lub co do wartości określonych parametrów rozkładu.
50
Definicja
Hipotezą statystyczną będziemy nazywać każdy sąd o populacji
generalnej, tj. o rozkładzie prawdopodobieństwa zmiennej losowej X
lub o parametrach rozkładu, o którego prawdziwości lub fałszu można
wnioskować na podstawie losowo pobranej próby, będącej realizacją
tej zmiennej losowej.
Hipotezy dzielimy na parametryczne i nieparametryczne.
Parametryczne dotyczą parametrów rozkładu.
Nieparametryczne dotyczą funkcji rozkładu prawdopodobieństwa
badanej zmiennej losowej, losowości próby.
Hipotezy mogą być fałszywe lub prawdziwe.
Tylko badania wyczerpujące całej populacji mogą powiedzieć, czy
hipoteza jest fałszywa czy prawdziwa. Ponieważ, w szczególności dla
populacji nieskończonych jest to niemożliwe, sprawdzenie hipotez
opieramy na podstawie badań częściowych wykonanych na próbie, co
nazywamy weryfikacją hipotez statystycznych.
Hipotezą sprawdzaną nazywamy hipotezą zerową i oznaczamy H0.
Hipotezę, którą skłonni jesteśmy przyjąć, jeżeli na podstawie
wyników próby statystycznej należy odrzucić hipotezę H0, nazywamy
hipotezą alternatywną do H0 i oznaczamy H1.
Ponieważ weryfikacji dokonujemy na próbie losowej, stąd możliwe
jest popełnienie błędów przy decydowaniu, czy hipotezę H0 uznać za
prawdziwą czy fałszywą.
Rozróżniamy dwa rodzaje błędów.
1) pierwszego rodzaju odrzucenie H0, jeśli jest prawdziwa.
Prawdopodobieństwo popełnienia błędu pierwszego rodzaju
oznaczymy przez ą.
2) drugiego rodzaju przyjęcie H0 , gdy jest ona fałszywa.
Prawdopodobieństwo błędu drugiego rodzaju oznaczymy
przez .
51
Weryfikacji hipotez dokonujemy za pomocą testów statystycznych.
Definicja
Testem statystycznym, nazywamy regułę postępowania
rozstrzygającą, przy jakich wynikach próby hipotezę sprawdzaną H0
można przyjąć oraz przy jakich wynikach próby należy ją odrzucić.
HIPOTEZY PARAMETRYCZNE
Budowa testu
1. Przyjęcie odpowiednich hipotez
H0: Ś = Ś0
H1: Ś = Ś1
Ś1 `" Ś0 dwustronna
Ś1 > Ś0 jednostronna, prawostronna
Ś1 < Ś0 jednostronna, lewostronna
2. Zakładamy, z góry dopuszczalne prawdopodobieństwo błędu
I-ego rodzaju ą , które nazywamy poziomem istotności testu.
Testy polegające na ustaleniu z góry tylko wartości ą nazywamy
testami istotności.
3. Przyjęcie sprawdzianu Qn testu
Jest to każda statystyka, której wartość w próbie będzie podstawą do
podjęcia decyzji, czy hipotezę H0 należy odrzucić czy też nie ma po
temu dostatecznych podstaw.
4. Budowa obszaru krytycznego testu i obszaru przyjęcia hipotezy H0
Obszar krytyczny testu, to zbiór W takich wartości wybranego
sprawdzianu Qn, że zaobserwowanie w próbie wartości sprawdzianu
należącej do W spowoduje odrzucenie hipotezy H0, czyli
P( Qn " W#H0 ) = ą .
52
TESTY PARAMETRYCZNE
Przeprowadzimy weryfikację hipotez dotyczących:
A. wartości oczekiwanej m
B. wariancji 2
2 2
1 ,
C. równości dwóch wariancji
2
D. różnicy wartości oczekiwanych (m1 m2)
A. Weryfikacja hipotez dotyczących wartości oczekiwanej m
Zakładamy, że realizowana w próbie zmienna losowa X ma
rozkład normalny N(m,). Losujemy z populacji n elementową
próbę.
1. H0: m = m0
H1: m = m1
m1`" m0
m1> m0
m1< m0
2. P(Qn"W#H0) = ą
3. Wybór sprawdzianu zależy od informacji o populacji i liczebności
próby.
a) n dowolne, znane 2
X - m0
U = n
b) n duże ( ne" 30) , 2 nieznane
X - m0
U = n
S
53
c) n małe ( n < 30) , 2 nieznane
X - m0
t = n -1
S
4. Obszar krytyczny budujemy w zależności od postaci hipotezy
alternatywnej.
a) H1 : m1 `" m0
dla statystyki U
u e" uą
Jeżeli odrzucamy hipotezę H0.
Wartość krytyczną uą odczytujemy z tablicy dystrybuanty Ś(u) dla
danego poziomu istotności ą.
Ś( uą ) = 1 ą\2 lub z rozkładu t-Studenta dla wartości ą i k"
uą = tą( ą ; k ")
dla statystyki t
t e" tą odrzucamy hipotezę H0.
Jeżeli
Wartość krytyczną tą odczytujemy z rozkładu t-Studenta dla poziomu
istotności ą i dla k = n 1 stopni swobody.
b) H1: m1 > m0
dla statystyki U
Jeżeli u e" u2ą odrzucamy hipotezę H0.
Wartość krytyczną u2ą odczytujemy z tablicy Ś(u); Ś(u2ą) = 1 ą lub
z rozkładu t- Studenta dla wartości 2 ą i k" stopni swobody:
uą= tą( ą; k") .
54
dla statystyki t
Jeżeli t e" t2ą odrzucamy hipotezę H0.
Wartość krytyczną t2ą odczytujemy z rozkładu t- Studenta dla
wartości 2ą i k = n 1 stopni swobody.
c) H1: m1 < m0
dla statystyki U
Jeżeli u d" - u2ą hipotezę H0 odrzucamy; Ś(-u2ą) = ą
dla statystyki t
Jeżeli t d" -t2ą odrzucamy hipotezę H0.
Wartości krytyczne u2ą i t2ą odczytujemy jak w przypadku b.
B. Weryfikacja hipotez dotyczących wariancji
1. H0: 2 = 02
H1: 2 = 1
12 `" 02
12 > 02
12 < 02
2. P ( Qn"W|H0 ) = ą
2
nS
2
=
3. 2
0
4.
a) H1: 12 `" 02
55
2 2 2 2
d" e" ą
ą lub
Jeżeli hipotezę H0 odrzucamy.
1-
2 2
Wartości krytyczne odczytujemy z rozkładu chi-kwadrat:
2 2
ą
ą dla wartości 1 ą\2 i k = n 1 stopni swobody, dla
1-
2 2
wartości ą\2 i k = n 1 stopni swobody.
b) H1: 12 > 02
Jeżeli 2 e" 2 hipotezę H0 odrzucamy.
ą
Wartość krytyczną 2 odczytujemy z rozkładu chi-kwadrat dla
ą
wartości ą i k = n 1 stopni swobody.
c) H1: 12 < 02
Jeżeli 2d" 21-ą hipotezę H0 odrzucamy.
Wartość krytyczną 21-ą odczytujemy z rozkładu chi-kwadrat dla
wartości 1 ą i k = n 1 stopni swobody.
C. Weryfikacja hipotez dotyczących równości dwóch wariancji
(test Fishera)
Zakładamy, że zmienna losowa X1 ma rozkład normalny N(m1,1),
zmienna X2 ma rozkład normalny N(m2,2 ). Losujemy n1 , n2
elementowe próby.
1. H0: 12 = 22
H1: 12 > 22
2. P ( Qn " W|H0 ) = ą
2
'"
S
1
F = *#1
2
3.
'"
S
2
56
2 n1
'"
2
1
S = (X - X )
1 1
" i1
n1 -1
i=1
2
n2
'"
2
1
S = (X - X )
2 2
" i2
n2 -1
i=1
4. Jeżeli F e" Fą odrzucamy hipotezę H0 na korzyść alternatywnej.
Wartość krytyczną Fą odczytujemy z rozkładu F-Snedecora dla
wartości ą i k1 = n1 1 oraz k2 = n2 1 stopni swobody.
D. Weryfikacja hipotez dotyczących różnicy wartości
oczekiwanych
Zakładamy, że zmienna losowa X1 ma rozkład normalny N( m1,1),
a zmienna losowa X2 ma rozkład normalny N(m2,2). Losujemy
odpowiednio n1 i n2 elementowe próby.
1. H0: m1 = m2
H1: m1 `" m2
m1 >m2
m12. P ( Qn" W|H0 ) = ą
3.
a) 12 , 22 znane
n1 , n2 dowolne
X - X
1 2
U =
2 2
1
2
+
n1 n2
b) 12, 22 nieznane
57
n1 , n2 duże n1e"30 , n2 e" 30
X - X
1 2
U =
2
S12 S2
+
n1 n2
c) 12 , 22 nieznane
n1 , n2 małe n1< 30 , n2 < 30 ,
Korzystamy ze statystyki t, ale tylko wówczas, gdy wariancje
populacji z których są losowane próby są równe,
czyli 12 = 22 (w tym przypadku musimy najpierw przeprowadzić
test Fishera o równości wariancji).
X - X
1 2
t =
2
n1S12 + n2S2 # ś#
1 1
ś# ź#
+
ś#
n1 + n2 - 2 n1 n2 ź#
# #
4.
a) H1: m1 `" m2
Jeżeli |u|e" uą albo |t| e" tą hipotezę H0 odrzucamy na korzyść
alternatywnej.
Wartość krytyczną uą odczytujemy jak w przypadku A, natomiast tą
dla wartości ą i dla k = n1 + n2 2 stopni swobody.
58
b) H1: m1> m2
Jeżeli u e" u2ą albo t e" t2ą odrzucamy hipotezę H0 na korzyść
alternatywnej.
Wartość krytyczną odczytujemy jak w przypadku A, natomiast t2ą dla
wartości 2ą i k = n1 + n2 2 stopni swobody.
c) H1: m1 < m2
Jeżeli u d" - u2ą albo t d" - t2ą odrzucamy hipotezę H0 na korzyść
alternatywnej.
Wartości krytyczne odczytujemy jak wyżej.
WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH
Wśród hipotez nieparametrycznych wyróżnia się dwie zasadnicze
podklasy.
1. Hipotezy głoszące, że rozpatrywana zmienna losowa posiada
rozkład prawdopodobieństwa należący do określonej rodziny
rozkładów. Testy sprawdzające te hipotezy nazywamy testami
zgodności.
Należą do nich między innymi:
a) test zgodności chi-kwadrat
b) test Kołmogorowa-Smirnowa
2. Hipotezy głoszące, że dystrybuanty k (k e" 2 ) zmiennych losowych
są tożsame. Należą do nich między innymi test znaków i test
serii.
59
TEST ZGODNOŚCI CHI KWADRAT
Test chi- kwadrat stosujemy dla próby dużej o liczebności n e" 50.
Służy do sprawdzenia hipotezy H0, że obserwowana zmienna
losowa X posiada określony typ rozkładu. Wyniki próby grupujemy
tu w szereg rozdzielczy.
Załóżmy, że szereg rozdzielczy ma k przedziałów,
o ni liczebności i tego przedziału, przy czym
k
"n = n
i
i=1
i próba ma charakter prosty. Niech pi oznacza prawdopodobieństwo
tego, że jeżeli hipoteza H0 jest prawdziwa, to zmienna losowa X
przyjmie wartość należącą do i-tego przedziału, czyli jeżeli F0(x)
odpowiada sprawdzanej dystrybuancie, to:
pi =
0
+"dF (x).
Ii
Ii oznacza wyróżniony przedział zbudowanego szeregu
rozdzielczego, takiego, że
k
pi =1
"
,
i=1
przy czym npi jest oczekiwaną liczbą obserwacji jakie
w n elementowej próbie zostaną zaklasyfikowane do i tego
przedziału szeregu rozdzielczego.
60
Budowa testu
1. H0: F(x) = F0(x) "FHo ( oznacza to, że należy do klasy
dystrybuant H0)
H1: F(x) `" F0(x)
3. Sprawdzianem testu zaproponowanym przez Pearsona jest
statystyka
2
k
(ni - npi )
Q2 =
"
npi
i=1
i jeżeli próba jest prosta i duża n", to statystyka Q2 ma rozkład
chi-kwadrat z k l 1 stopniami swobody, gdzie l jest liczbą
estymatorów, które należy wstępnie oszacować z próby metodą
największej wiarygodności, aby móc obliczyć prawdopodobieństwa
pi. Ze względu na asymptotyczny rozkład zmiennej losowej 2,
2
ą
przyjmujemy ni e" 5 i wartości granicznej szukamy dla danej
wartości ą i dla k l 1 stopni swobody.
Jeżeli :
2 2
ą ą
P{ Q2 e" } = ą, to gdy Q2 e"
odrzucamy hipotezę H0 na korzyść alternatywnej.
61
Przykład
Na poziomie istotności ą = 0.05, zweryfikować hipotezę, że badana
próba pochodzi z populacji o rozkładzie normalnym.
Wyniki próby są następujące:
xi-1 xi Liczba obserwacji ni
poniżej 4.2 10
4.2 4.8 35
4.8 - 5.4 43
5.4 - 6.0 22
6.0 - 6.6 15
6.6 i więcej 5
Stawiamy hipotezę : H0: F(x) = F0(x) "FN(x)
H1: F(x) `" F0(x)
Wykonujemy standaryzację wartości xi zmiennej losowej X
xi - x
ui =
s
Obliczamy wartości Ż#x i s dla szeregu rozdzielczego
k
2
(xi0 - x) ni
"
k
1
i=1
x = xi0ni s =
"
n n
i=1
gdzie xi0 jest środkiem i tego przedziału, czyli średnią arytmetyczną
jego końców. Środek pierwszego przedziału przyjmujemy: x1 h\2 ,
ostatniego: xk + h\2 , gdzie h jest szerokością przedziału.
62
TEST KOAMOGOROWA SMIRNOWA
Budowa testu
1. H0 : F(x) = F0(x) "FHo(x)
H1 : F(x) `" F0(x)
Test stosujemy dla prób małych (n < 50). Przed przystąpieniem do
testu należy uporządkować próbę przypisując poszczególnym
wartościom xi punktów pomiarowych liczebność skumulowaną Ni.
Wartości xi porządkujemy rosnąco. Następnie wyznaczamy wartości
dystrybuanty empirycznej
Ni Ni-1
Fi = Fi-1 =
, 1d" i d" n
n n
które są rzeczywistą sumą częstości zdarzeń, czyli każdej wartości xi
przyporządkowujemy sumę prawdopodobieństwa.
Dalej odczytujemy wartości dystrybuanty F0(xi) badanego rozkładu
i porównujemy z odpowiednimi wartościami dystrybuanty
empirycznej Fi i Fi-1 .
3. Sprawdzianem weryfikacji testu K-S jest wielkość:
w = max{Fi - F0(xi ) lub Fi-1 - F0(xi )}
4. Następnie dla danego poziomu istotności ą odczytujemy wartość
progową W testu i jeżeli:
w d" W wówczas założenie badanego rozkładu jest prawdziwe,
w > W rozkład badany nie występuje.
63
Przykład
Wykonano pomiary masy pewnego produktu z bieżącej produkcji.
Otrzymano następujące wyniki pomiarów w gramach: 497 , 485 , 498,
504 , 508, 496, 516, 497, 483, 502, 488, 516, 498, 504, 494.
Na poziomie istotności ą = 0.05 zweryfikować hipotezę, że badana
próba pochodzi z populacji w której rozkład prawdopodobieństwa
masy jest normalny.
ROZKAAD PRAWDOPODOBIECSTWA
DWUWYMIAROWEJ ZMIENNEJ LOSOWEJ
Dwuwymiarową zmienną losową wprowadzamy wówczas, gdy
zdarzeniu elementarnemu przyporządkowana jest para liczb
( xi , yi )"R.
Załóżmy, że zmienne losowe X i Y są składowymi dwuwymiarowej
zmiennej losowej (X, Y ) i niech liczby rzeczywiste x, y będące
realizacjami tych zmiennych przyjmują wartości z przedziału
( - " , + " ). Dystrybuantą dwuwymiarowej zmiennej losowej
nazywamy funkcję:
F(x, y) = P(X )#x,Y )# y)
Dla zmiennej skokowej dystrybuanta ma postać:
F(x, y) = (X )= pij
" "P = xi ,Y = y " "
j
,
-")# xi )# x -")# y )# y -")# xi )# x -")# y )# y
j j
64
a dla zmiennej ciągłej
y
x
F(x, y) = f (t, z)dtdz
+" +"
-"-"
Jeżeli funkcja F(x,y) jest ciągła i różniczkowalna to:
"2F(x, y)
f (x, y) =
"x"y
Dalej
b d
P(a)#X )#b,c)#Y)#d ) = f (x, y)dxdy
.
+"+"
a c
Warunek unormowania:
+"+"
+" +"f (x, y)dxdy = 1
-"-"
1. Rozkłady brzegowe
x x
Ą#+" ń#
F(x) = f (t, z)dzĄ#dt = g(t)dt
ó#
+" +" +"
-"Ł#-" Ś# -"
yy
Ą#+" ń#
F(y) = f (t, z)dtĄ#dz =
ó#
+" +" +"h(z)dz
-"Ł#-" Ś# -"
Jeżeli zmienne losowe są niezależne, to:
f(x,y) = g(x) "h(y)
65
2. Momenty statystyczne dla zmiennej dwuwymiarowej
l s
źls = E[(X - a) (Y - b) ]
źls moment statystyczny rzędu ls względem punktów a,b
Moment statystyczny centralny ź11 nazywamy kowariancją
dwuwymiarowej zmiennej losowej.
Jeżeli a = E(X), b = E(Y), l = s = 1, to:
cov(X,Y) = E{ [X E(X)][Y E(Y)] }
Dla populacji kowariancję oznaczamy xy, dla próby Sxy .
a) Zmienna skokowa
cov(x, y) =
" "[x - E(X )][y - E(Y)]P(X = xi,Y = y )
i j j
xi"Wx y "Wy
j
b) Zmienna ciągła
+"+"
cov(x, y) =
+" +"[x - E(X )][y - E(Y)] f (x, y)dxdy
-"-"
Jeżeli zmienne X , Y są niezależne, to:
+" +"
cov(x, y)= - E(X )]g(x)dx - E(Y)]h(y)dy
+"[x +"[y
-" -"
czyli
cov(x,y) = 0.
W praktyce miarą współzależności zmiennych losowych X i Y jest
współczynnik korelacji .
66
cov(X ,Y) SXY
= R =
dla próby
Y SX SY
X
Kowariancja jak i współczynnik korelacji są miarą współzależności
zmiennych X i Y.
Współczynnik korelacji r przyjmuje wartości z przedziału
< -1, 1>.
Dla próby dużej kowariancja wyraża się następująco:
n
1
S = (X - X)(Yi - Y) ,
XY " i
n
i=1
a dla próby małej
n
'"
1
S = (Xi - X)(Yi - Y)
XY
"
n -1
i =1
3. Przedział ufności dla współczynnika korelacji
1- r2 1- r2
r - tą )#)#r + tą
n n
uą = tą( ą , k" )
67
4. Test dla współczynnika korelacji
1. H0 : = 0
H1 : > 0
r
t = n - 2
3.
1- r2
4. t2ą ( 2ą , k = n 2 )
ANALIZA REGRESJI
1. Regresja liniowa
Prosta regresji dla populacji: yi* = ąxi + , gdzie ą , nazywamy
współczynnikami regresji liniowej.
'"
yi = axi + b
Prosta regresji dla próby: , yi wynik pomiaru.
Współczynniki a i b są realizacjami w n elementowej próbie
estymatorów A i B parametrów ą i . Korzystając z metody Gaussa
najmniejszych kwadratów:
2
n
'"
=
ś# ź#
"# yi - yi ś# min
,
# #
i=1
możemy wyprowadzić wzory , pozwalające obliczyć wartości
współczynników a i b:
b = y - ax
68
n
#
ś# yi ź# - nx y
"x ś#
i
# i=1 #
a =
n
2
# ś#
2
ś# ź# - n(x)
"xi
# i=1 #
Wprowadzamy pojęcie odchylenia standardowego
n
'"
'"
1
2
s =
d
di = yi - yi
"d
i
, gdzie ,
n - 2
i=1
co pozwala za pomocą prawa przenoszenia wariancji wyprowadzić
wzory na odchylenia standardowe współczynników a i b.
n
2
Ą# ń#
yi2 - n(y)
"
ó# Ą#
1
i=1
sa = ó# - a2 Ą#
n
2
n - 2
2
ó#
"x - n(x) Ą#
i
ó# Ą#
Ł# i=1 Ś#
n
2
"x
i
sb = sa i=1
n
2. Przedziały ufności dla współczynników regresji
a tąsa < ą < a + tąsa
b tąsb < < b + tąsb
tą(ą, k= n 2 )
69
3. Testy parametryczne dla współczynników regresji
1. H0: ą = ą0 H0 : =0
H1: ą `" ą0 H1: `" 0
a -ą0 b - 0
t = t =
3.
sa sb
4. k = n 2
4. Estymacja prostej regresji
Estymację prostej regresji graficznie przedstawiamy za pomocą
krzywych ufności, które ograniczają obszar ufności. Współrzędne
punktów krzywych ufności znajdujemy budując odpowiednie
przedziały ufności.
'" '"
yi - tąs )# yi )# yi + tąs
'" '"
gdzie
yi yi
2
'"
2
s
d
2
s2 = +(xi - x) sa
'"
yi
n
Współrzędne punktów tworzących krzywe ufności:
'" '"
# ś#,# ś#
xi, yi - tą s xi, yi + tą s
ś# '" ź# ś# '" ź#
yi yi
# # # #
70
LITERATURA
1.S.Zubrzycki, Wykłady z rachunku prawdopodobieństwa i statystyki
Matematycznej , PWN Warszawa.
2.S.Brandt, Metody statystyczne i obliczeniowe analizy danych , PWN
Warszawa .
3.Z.Pawłowski, Statystyka matematyczna , PWN Warszawa.
4.J.E.Freund, Podstawy nowoczesnej statystyki , PWE Warszawa.
5.M.Fisz, Rachunek prawdopodobieństwa i statystyka
matematyczna ,PWN Warszawa.
6.R.Tadeusiewicz, A.Izworski, J.Majewski, Biometria , Wydawnictwo
AGH Kraków.
7.A.Strzałkowski, M.Śliżyński, Matematyczne metody opracowania
wyników pomiarów , PWN Warszawa.
8.J.R.Taylor, Wstęp do analizy błędu pomiarowego , PWN Warszawa.
9.Jóżwiak, J.Podgórski, Statystyka od podstaw , PWE Warszawa.
10.H.Szydłowski, Teoria pomiarów , PWN Warszawa.
11.J.Greń, Statystyka matematyczna, modele i zadania , PWN Warszawa.
12.W.Krysicki, J.Bartos, W.Dyczka, K.Królikowska, M.Wasilewski,
Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach ,
część I i część II, PWN Warszawa.
71
ROZKAAD CHI KWADRAT ( 2)
ą
ą
0,99 0,98 0,95 0,90 0,80 0,70 0,50 0,30 0,20 0,10 0,05 0,02 0,01 0,001
k k
1 0,0002 0.0006 0,0039 0,0158 0,0642 0,148 0,455 1,074 1,642 2,706 3,841 5,412 6,635 10,827 1
2 0,0201 0.0404 0,103 0,211 0,446 0,713 1,386 2,408 3,219 4,605 5,991 7,824 9,210 13,815 2
3 0,115 0,185 0,352 0,584 1,005 1,424 2,366 3,665 4,642 6,251 7,815 9,837 11,345 16,268 3
4 0,297 0,429 0,711 1,064 1,649 2,195 3,357 4,878 5,989 7,779 9,488 11,668 13,277 18,465 4
5 0,554 0,752 0,145 1,610 2,343 3,000 4,351 6,064 7,289 9,236 11,070 13,388 15,086 20,517 5
6 0,872 1,134 1,635 2,204 3,070 3,828 5,348 7,231 8,558 10,645 12,592 15,033 16,812 22,457 6
7 1,239 1,564 2,167 2,833 3,822 4,671 6,346 8,383 9,803 12,017 14,067 16,622 18,475 24,322 7
8 1,646 2,032 2,733 3,490 4,594 5,527 7,344 9,524 11,03 13,362 15,507 18,168 20,090 26,125 8
9 2,088 2,532 3,325 4,168 5,380 6,393 8,343 10,656 12,242 14,684 16,919 19,679 21,666 27,877 9
10 2,558 3,059 3,940 4,865 6,179 7,267 9,342 11,781 13,442 15,987 18,307 21,161 23,209 29,588 10
11 3,053 3,609 4,575 5,578 6,989 8,148 10,341 12,899 14,631 17,275 19,675 22,618 24,725 31,264 11
12 3,571 4,178 5,226 6,304 7,807 9,034 11,340 14,011 15,812 18,549 21,026 24,054 26,217 32,909 12
13 4,107 4,765 5,892 7,042 8,634 9,926 12,340 15,119 16,985 19,812 22,362 25,472 27,688 34,528 13
14 4,660 5,368 6,571 7,79 9,467 10,821 13,339 16,222 18,151 21,064 23,685 26,873 29,141 36,123 14
15 5,229 5,985 7,261 8,547 10,307 11,721 14,339 17,322 19,311 22,307 24,996 28,259 30,578 37,697 15
16 5,812 6,614 7,962 9,312 11,152 12,624 15,338 18,418 20,465 23,542 26,296 29,633 32,000 39,252 16
17 6,408 7,255 8,672 10,085 12,002 13,531 16,338 19,511 21,615 24,769 27,587 30,995 33,409 40,790 17
18 7,015 7,901 9,390 10,865 12,857 14,440 17,338 20,601 22,760 25,989 28,869 32,346 34,805 42,312 18
19 7,633 8,567 10,117 11,651 13,716 15,352 18,338 21,689 23,900 27,204 30,144 33,687 36,191 43,820 19
20 8,260 9,237 10,851 12,443 14,578 16,266 19,337 22,775 25,038 28,412 31,410 35,020 37,566 45,315 20
21 8,897 9,915 11,591 13,24 15,445 17,182 20,337 23,858 26,171 29,615 32,671 36,343 38,932 46,797 21
22 9,542 10,600 12,338 14,041 16,314 18,101 21,337 34,939 27,301 30,813 33,924 37,659 40,289 48,268 22
23 10,196 11,293 13,091 14,848 17,187 19,021 22,337 26,018 28,429 32,007 35,172 38,968 41,638 49,728 23
24 10,856 11,992 13,848 15,659 18,062 19,943 23,337 27,096 29,553 33,196 36,415 40,270 42,980 51,179 24
25 11,524 12,697 14,611 16,473 18,940 20,867 24,337 28,172 30,675 34,382 37,652 41,566 44,314 52,620 25
26 12,198 13,409 15,379 17,292 19,820 21,792 25,336 29,246 31,795 35,563 38,885 42,856 45,642 54,052 26
27 12,879 14,125 16,151 18,114 20,703 22,719 26,336 30,319 32,912 36,741 40,113 44,140 46,963 55,476 27
28 13,565 14,847 16,928 18,939 21,588 23,647 27,336 31,391 34,027 37,916 41,337 45,419 48,278 56,893 28
29 14,256 15,574 17,708 19,768 22,475 24,577 28,336 32,461 35,139 39,087 42,557 46,693 49,588 58,302 29
30 14,953 16,306 18,493 20,599 23,364 25,508 29,336 33,530 36,250 40,256 43,773 47,962 50,892 59,703 30
72
WARTOŚCI PROGOWE Wą;n DLA TESTU
KOAMOGOROWA SMIRNOWA
Poziom istotności ą
Liczba
0.1 0.05 0.01
pomiarów n
4 0.352 0.381 0.417
5 0.315 0.337 0.405
6 0.294 0.319 0.364
7 0.276 0.300 0.348
8 0.261 0.285 0.331
9 0.249 0.271 0.311
10 0.239 0.258 0.294
11 0.230 0.249 0.284
12 0.223 0.242 0.275
13 0.214 0.234 0.268
14 0.207 0.227 0.261
15 0.201 0.220 0.257
16 0.195 0.213 0.250
17 0.189 0.206 0.245
18 0.184 0.200 0.239
19 0.179 0.195 0.235
20 0.174 0.190 0.231
25 0.165 0.180 0.203
30 0.144 0.161 0.187
Wzór
0.805 0.886 1.031
przybliżony
n n n
dla n > 30
yródło: H. W. Lilliefors: On the Kolmogorov-Smirnov Test for
Normality with Mean and Variance, Journal of American Statistical
Association 62 (1967) ,
p. 399-402.
73
74
Wyszukiwarka
Podobne podstrony:
Rachunek prawdopodobienstwa i statystyka matematyczna Definicje Twierdzenia Wzory W Kordecki
Lipińska K, Jagiełło D, Maj R Rachunek prawdopodobienstwa i statystyka
eBooks PL Rachunek Prawdopodobienstwa I Statystyka Mat Wojciech Kordecki (osiol NET) www!OSIOLEK!c
Rachunek prawdopodobienstwa Matura Matematyka
Matematyka dyskretna 2004 04 Rachunek prawdopodobieństwa
Rachunek prawdopodobieństwa teoria
więcej podobnych podstron