IiE, Mat Statystyka,Wyk 4

IiE. Mat. Statystyka.Wykład 4. R. Rempała Materiały Dydaktyczne
Wykład 4. Próba losowa c.d., rozkład empiryczny, model statystyczny,
statystyka, najważniejsze statystyki w modelu normalnym, rozkład Chi-kwadrat,
rozkład t-Studenta, rozkład F Snedecora.
Próba losowa c.d.
�� Niech X1,X2,L�,Xn będzie próbą losową pochodzącą z
pewnego rozkładu (czasami nazywanego rozkładem
teoretycznym).
�� Przypominamy: oznacza to, że zm. los są niezależne i mają takie
same rozkłady jak ten rozkład, z którego pochodzą.
�� Przyjęliśmy, że zmienne tworzące próbę określone są na tej
samej przestrzeni mierzalnej (W�,F)
�� Można przyjąć np, że jest to tzw. przestrzeń kanoniczna.
Oznacza to, że za zbiór W� bierze się przestrzeń obserwacji, a
więc zbiór wartości próbek {x1,x2,& ,xn}. Przyjmuje się, że
wartości poszczególnych obserwacji należą do pewnego zbioru
borelowskiego B�� R . Zatem W� = B�� B��L�� B =� Bn .
Zauważmy, że mamy wtedy
Xi(w�) =Xi(x1,x2,& ,xn) = xi . Za zdarzenia losowe wektora
losowego (X1,X2,L�,Xn ) przyjmuje się podzbiory
borelowskie z Rn ograniczone do zbioru Bn.
�� Zaznaczyliśmy wcześniej, że rozkład prawdopodobieństwa
każdej zmiennej Xi należącej do próby losowej, jest taki jak
rozkład, z którego pochodzi próba. W statystyce rozkład, z
którego pochodzi próba nazywany jest rozkładem
teoretycznym.
Rozkład empiryczny
W poprzednim wykładzie definiowaliśmy dystrybuantę empiryczną.
n
1
Ć
Fn (x,w�) =� 1(Xi (w�)Ł�x) ustalamy x�� R.
��
n
i=�1
1
IiE. Mat. Statystyka.Wykład 4. R. Rempała Materiały Dydaktyczne
�� Dystrybuanta empiryczna przy ustalonym x jest zmienną losową
Ć
F(x) : W� ��[0,1]
Wniosek z MPWL dla schematu Bernoulliego.
1X1Ł�x +�1X2 Ł�x +�L�1Xn Ł�x
Ć
Ponieważ Fn (x) =� , p = F(x). Mamy
n
następujące twierdzenie.
Twierdzenie 1.3 (O zbieżności dystrybuant empirycznych) Jeżeli
ciąg X1, X2, ...,Xn jest prostą próbą losową z rozkładu o dystrybuancie
F, to dla każdego x��R
Ć
Fn (x) �� F(x) przy n�� Ą�.
p.n
Uwaga. Prawdziwy jest mocniejszy wynik (podstawowy w statystyce).
Wyraża go następujące twierdzenie.
Twierdzenie 2.3 Gliwienki Cantellego. ( por. R.Zielioski Siedem
wykładów...,PWN, 1990). Jeżeli ciąg X1, X2, ...,Xn jest prostą próbą
losową z rozkładu o dystrybuancie F, to
Ć
sup | Fn (x) -� F(x) | �� 0 przy n �� Ą�
p.n
-�Ą�<�x<�Ą�
Wniosek. Jeżeli próba może byd dowolnie liczna to dystrybuantę z
rozkładu, z którego pochodzi, można przybliżad z dowolną
dokładnością.
2
IiE. Mat. Statystyka.Wykład 4. R. Rempała Materiały Dydaktyczne
Prawdopodobieostwo empiryczne
Podobnie jak w przypadku dystrybuanty można zdefiniowad
prawdopodobieostwo empiryczne. Rozważmy zbiór borelowski
B��R i próbę losową prostą X1, X2, ...,Xn ~ F(x). Przybliżeniem
nieznanej wartości P(B) jest częstośd obserwacji wpadających do
zbioru B tzn.
n
1
Ć
P(B) =� 1(Xi��B)
��
n
i=�1
Ć Ć
Zauważmy, że P(-�Ą�,a] =� F(a)
Wniosek. Przy wzroście próby prawdopodobieostwo empiryczne
(dystrybuanta empiryczna) przybliżają to prawdopodobieostwo
(dystrybuantę) z którego pochodzą.
Model statystyczny
W praktycznych zagadnieniach rozkład, z którego pochodzą zmienne
obserwowalne, nie jest dokładnie znany. Efektem tego jest
niedokładna znajomość rozkładu zmiennych Xi.
W pewnych przypadkach, już z samej natury zjawiska losowego,
mamy pewne częściowe informacje o rozkładzie teoretycznym.
Znany jest np. typ rozkładu teoretycznego, lecz nie są znane jego
parametry (np. rozkład wykładniczy z nieznanym parametrem l� ).
Zakładamy, że nieznany rozkład teoretyczny, który rządzi
zachowaniem obserwacji (a więc ich rozkładem) zależy od parametru,
i jest indeksowany przez q� ��Q�. (Zbiór Q� może oznaczać zarówno
możliwe parametry liczbowe konkretnego rozkładu, jak i całe rodziny
rozkładów).
3
IiE. Mat. Statystyka.Wykład 4. R. Rempała Materiały Dydaktyczne
Modelem statystycznym nazywamy rodzinę (W�, F, Pq� ) q��Q�
wraz z ciągiem zmiennych losowych X1,X2,L�,Xn określanych
na W�, i nazywanych obserwacjami.
Uwaga Rozkłady, którymi rządzi rodzina rozkładówPq�w naturalny
sposób dziedziczą parametr q�.
a
Np. Fq�(x) =� Pq�(X Ł� x), fq� jest gęstością, jeśli Fq�(a) =� (x)dx .
��f
q�
-�Ą�
Statystyka
Niech X1,X2,L�,Xn będą obserwacjami w ustalonym modelu
statystycznym. Statystyką nazywamy dowolną funkcję obserwacji
T = T(X1,X2,L�,Xn)
Przykłady statystyk:
a) R = max (X1, X2 , ..., Xn) - min(X1, X2 , ..., Xn)
1
b) Z = (X1 +� Xn )
2
n
1
c) X =�
��X ---- średnia arytmetyczna z próby
i
n
i=�1
n
1
d) \2 =� (Xi -� X)2 ---- wariancja z próby ( z daszkiem)
��
n
i=�1
n
1
e) \ =� (Xi -� X)2 ---- odchylenie standardowe z próby
��
n
i=�1
n
1
f) S2 =� (Xi -� X)2 ---- wariancja z próby
��
n -�1i=�1
4
IiE. Mat. Statystyka.Wykład 4. R. Rempała Materiały Dydaktyczne
n
1
g) S =� (Xi -� X)2 ---- odchylenie standardowe z próby
��
(n -�1)
i=�1
�� Zauważmy, że n\2 =� (n -�1)S2, stąd \2 =� [(n -�1)/ n]S2.
n
1
k
h) �k = Xi ---- k-ty moment zwykły z próby
��
n
i=�1
n
k
1
Ć
i) mk = (Xi -� X) ---- k-ty moment centralny z próby
��
n
i=�1
Momenty z próby są odpowiednikami momentów zwykłych i
centralnych z rozkładu. Mamy:
ak = E(Xk) ---- k-ty moment zwykły z rozkładu,
m�k = E(X-E(X))k ---- k-ty moment centralny z rozkładu.
Najważniejsze Statystyki w modelu normalnym
Niech X1,X2,L�,Xn będzie próbą prostą pochodzącą z rozkładu
N(m�,s�)
a) Rozkład średniej: X
Przy założeniach normalności średnia arytmetyczna
n
1 s�
X =� Xi ma rozkład normalny N(m�, )
��
n
n
i=�1
Standaryzacja prowadzi do zmiennej
X -� m�
U =� n , która ma rozkład N(0,1).
s�
Wykorzystaliśmy fakt, znany z rachunku prawdopodobieostwa, że
suma niezależnych zmiennych losowych o rozkładzie normalnym ma
rozkład normalny.
5
IiE. Mat. Statystyka.Wykład 4. R. Rempała Materiały Dydaktyczne
�� Parametry rozkładu łatwo wyliczyd wykorzystując następujące
własności wartości oczekiwanej i wariancji.
a) E(X1+& +Xn)=E(X1)+& +E(Xn) jeśli wartośd E(Xi) jest skooczona.
b) E(aX+b)= aEX+b, a,b��R.
c) Var (aX) = a2Var (X).
d) Jeżeli zm. los. są niezależne (wystarczy nieskorelowane) to
Var (X1+& +Xn) = Var(X1)+& +Var(Xn).
Na rysunku m = m�.
b) Rozkład Chi-kwadrat, z k-stopniami swobody
Jest to rozkład zmiennej losowej
k
2
Y =� Zi
��
i=�1
gdzie Zi i =�1,2,L�,k są niezależnymi zmiennymi losowymi o
rozkładzie N(0,1). (Oznaczenie: Y ~ c�2 (k), k jest liczbą stopni
swobody).
6
IiE. Mat. Statystyka.Wykład 4. R. Rempała Materiały Dydaktyczne
Twierdzenie. 4.1. Rozkład c�2 (k) jest rozkładem Gamma (a�,l�) dla
a� =� k / 2, l� =� 1/ 2.
Dowód pomijamy.
�� Gęstość prawdopodobieństwa dla rozkładu Gamma (a�,l�):
l�a�
f(y)= ya�-�1e-�l�y, y >� 0;
G�(a�)
Ą�
G�(r) =� xr-�1e-�x, r >� 0. Parametry: E(Y) =a� / l�, Var (Y)=a� / l�2.
��
0
�� Zatem dla rozkładu c�2 (k): E(Y)= k, Var (Y)=2k.
Rozkłady asymetryczne.
Kształt gęstości zależy od
liczby stopni swobody.
Przy dużej liczbie stopni
swobody, rozkłady zbliżają się
do rozkładu normalnego.
Rys. Rozklady c�2().
7
IiE. Mat. Statystyka.Wykład 4. R. Rempała Materiały Dydaktyczne
Twierdzenie4.2 W modelu normalnym X i S2 są niezależnymi
zmiennymi losowymi oraz
s�
X ~ N(m�, )
n
n -�1
S2 ~ c�2 (n-1)
s�2
Dowód pomijamy.
Uwaga.
�� Zauważmy, że zarówno X jak i S2są wyznaczone przez tę samą
próbę losową. Fakt, że są niezależne nie jest oczywisty. Okazuje się,
iż istotne jest tu założenie, że próba pochodzi z rozkładu normalnego.
Parametry statystyki S2
2s�4
Stwierdzenie 4.1: E(S2) =� s�2 , Var (S2)= .
n -�1
n -�1 n -�1
Ponieważ E( S2 )= E(S2) =� n -�1 (Na mocy Tw. 4.2 jest to
s�2 s�2
rozkład c�2 (n-1). Zatem wartość oczekiwana = liczbie stopni
swobody). Z ostatniej równości mamy więc: E(S2) =� s�2 .
Rozumując podobnie otrzymujemy:
n -�1 (n -�1)2 2s�4
Var ( S2 ) = Var (S2) =� 2(n -�1)) zatem Var (S2)= .
n -�1
s�2 s�4
c) Rozkład t-Studenta
Rozkład t-Studenta z k stopniami swobody jest to z definicji rozkład
zmiennej losowej
Z
T = ,
Y / k
gdzie Z i Y są niezależnymi zmiennymi losowymi , Z o rozkładzie
N(0,1), Y o rozkładzie Chi-kwadrat, z k-stopniami swobody.
Zapis T~t(k) .
8
IiE. Mat. Statystyka.Wykład 4. R. Rempała Materiały Dydaktyczne
Rozkłady t-Studenta są
indeksowane liczbą stopni
swobody .
Są symetryczne względem
prostej t = 0.
Zwyczajowo wartości
oznacza się literą t .
Każdy rozkład ma gestość
podobną do krzywej
Gaussa ze średnią zero.
E(T) = 0,
Var(T) = /( -� 2).
Stwierdzenie 4.2. Statystyka n(X -� m�) /S ma rozkład t-Studenta z
(n-1) stopniami swobody.
Dowód jest wniosekiem z Twierdzenia 4.2 i definicji statystyki
t-Studenta.
(X -� m�) n n -�1
Niech Z = i niech Y= S2 . Mamy więc
s�
s�2
(X -� m�) n n -�1
T = : S2 =� n(X -� m�) /S.
s�
s�2(n -�1)
Oznacza to, że statystyka
n(X -� m�) /S ma rozkład t-Studenta z (n-1) stopniami swobody.
9
IiE. Mat. Statystyka.Wykład 4. R. Rempała Materiały Dydaktyczne
d) Rozkład F Snedecora z k i m stopniami swobody
Y / k
Jest to rozkład zm. los. R =� , gdzie Y i U są niezależne
U / m
Y ~ c�2 (k) i U ~ c�2 (m)
Zapis R ~ F(k,m).
e) Model dwu próbek
Załóżmy, że mamy dwie niezależne próby losowe X1,X2,L�,Xn
i Y1,Y2,L�,Ym gdzie Xi ~ N(m�X,s�X) Yi ~ N(m�Y,s�Y)
Statystyki X, i S2 określone dla próby X1,X2,L�,Xn oraz
X
Y, i S2 określone dla próby Y1,Y2,L�,Ym
Y
(n -�1)S2
X
(�n -�1)�s�2 S2 s�2
X X Y
Zatem =� ~F(n-1,m-1) .
(m -�1)S2 S2 s�2
Y Y X
(m -�1)s�2
Y
Jeśli założymy, że s�2 =� s�2
X Y
to S2 /S2 ~F(n-1,m-1) co jest pomocne przy testach weryfikujących
X Y
równość wariancji w rozkładach, z których pochodzą próby.
10

Wyszukiwarka

Podobne podstrony:
Mat Bud wyk
Mat Bud wyk
Mat Bud wyk
Mat Bud wyk
Mat WIP Wyk?26
Mat Bud wyk
Mat WIP Wyk?22
Mat WIP Wyk?18
Mat WIP Wyk?25
Mat WIP Wyk?20
Mat WIP Wyk?20
Mat WIP Wyk?23
Mat WIP Wyk?19
Mat WIP Wyk?24
Mat Stat Wyk 8 PrzedziaĹ y(2013L)
Wyk NEHiP 2 mat
Ekon Mat Wyk Równ 13b 2015
eBooks PL Rachunek Prawdopodobienstwa I Statystyka Mat Wojciech Kordecki (osiol NET) www!OSIOLEK!c

więcej podobnych podstron