Materiał dla studentów
Model statystyczny i jego własności
(studium przypadku)
Nazwa przedmiotu: Statystyka matematyczna I, Statystyka, Ekonometria
Kierunek studiów: MIESI
Studia I stopnia/studia II stopnia
Opracowała: dr Elżbieta Getka-Wilczyńska, Zakład Statystyki Matematycznej, Instytut Eko-
nometrii, KAE
Warszawa, 2010
I. Informacje wstępne
(przedstawiające cele oraz kontekst dydaktyczny analizy przypadku, np. czy chodzi o po-
kazanie jak dokonywane są wybory, uświadomienie, co modeluje zachowanie osób w kon-
kretnych sytuacjach, czy też, jakie są możliwe strategie rozwiązywania problemów stoją-
cych przed osobą, grupa społeczną lub organizacją. Informacje powinny też uwzględniać
doświadczenie studentów, ich wiedzę z zakresu dyscypliny naukowej, z perspektywy, której
studium przypadku jest rozważane.)
Studium przypadku Model statystyczny i jego własności jest wprowadzeniem do przedmiotów statystyka, sta-
tystyka matematyczna i zawiera opis oraz zastosowanie podstawowych pojęć takich jak
model statystyczny
losowa próba statystyczna
statystyka i statystyka dostateczna (definicje, kryterium faktoryzacji)
niezbędnych do zrozumienia, konstruowania i wykorzystywania bardziej zaawansowanych metod statystycznych
i ekonometrycznych.
Najogólniej, statystyką nazywamy zbieranie danych liczbowych i wnioskowanie o nich. Wyróżniamy dwa
rodzaje sytuacji, w których zajmujemy się statystyką.
1. Sytuacja, w której nie posiadamy wiedzy a priori o badanym zjawisku (ekonomicznym, społecznym, medycz-
nym, itp.) i na podstawie zebranych danych chcemy dopiero sformułować wstępne teorie o badanym zjawisku.
Tym działem statystyki nazywanym statystyczną analizą danych (statystyką opisową) w studium przypadku nie
zajmujemy się.
2. Sytuacja, gdy posiadamy wiedzę a priori o badanym zjawisku w postaci pewnego modelu probabilistycznego ,
tzn. znamy tylko częściowo rozkład prawdopodobieństwa pewnej obserwowalnej (w pojedynczym doświadcze-
niu losowym lub serii doświadczeń) zmiennej losowej X i na podstawie wyników doświadczenia obserwacji -
posiadaną wiedzę o rozkładzie uzupełniamy (teoria estymacji) lub weryfikujemy (testowanie hipotez statystycz-
nych). Obie teorie są szczególnymi przypadkami ogólnego problemu podejmowania decyzji w warunkach nie-
pewności, który jest rozwiązywany w ramach statystycznej teorii podejmowania decyzji. Tym właśnie działem
statystyki nazywanym statystyką matematyczną zajmujemy się w studium przypadku.
I Model statystyczny
Podstawą wnioskowania statystycznego jest zbiór wyników doświadczenia dokonywanego w celu zbadania in-
teresującego nas zjawiska. Mogą to być dane opisujące zarówno cechy ilościowe jak i jakościowe badanego
zjawiska.
W statystyce matematycznej wyniki doświadczenia obserwacje są interpretowane jako wartości zmiennych lo-
sowych , ,..., , których rozkłady prawdopodobieństwa są przynajmniej częściowo nieznane.
X X X
1 2 n
Obserwacja jest wartością zmiennej losowej X lub wektora losowego X=( , ,..., ), gdzie
X X X
1 2 n
, ,..., są zmiennymi losowymi określonymi na pewnej przestrzeni probabilistycznej .
X X X
1 2 n
Taką zmienną losową (także wektor losowy) nazywa się obserwowalną zmienna losową X, z tym jednak, że
określenie to ma charakter wyłącznie interpretacyjny. Obserwowalna zmienna losowa X jest punktem wyjścia w
konstrukcji modelu statystycznego.
Przestrzeń prób
Zbiór wartości jakie może przyjmować obserwowalna zmienna losowa X oznaczamy przez S i nazywamy prze-
strzenią prób. W studium przypadku przyjmujemy, że S jest zbiorem skończonym lub zbiorem przeliczalnym lub
podzbiorem przestrzeni .
Rn
2
Rodzina rozkładów prawdopodobieństwa obserwowalnej zmiennej losowej X
Problemy statystyczne charakteryzują się tym, ze rozkład prawdopodobieństwa obserwowalnej zmiennej losowej
X jest przynajmniej częściowo nieznany, a posiadane informacje pozwalają jedynie wyróżnić pewną rodzinę
rozkładów prawdopodobieństwa P określoną na przestrzeni prób S, do której ten rozkład należy. Ponieważ ob-
serwowalna zmienna losowa stanowi element modelu matematycznego badanego zjawiska znajomość jej roz-
kładu prawdopodobieństwa jest w praktyce potrzebna do podejmowania właściwych decyzji.
Niech P = {Pq :q Q} będzie rodziną rozkładów prawdopodobieństwa na przestrzeni prób S indeksowaną
pewnym parametrem q przebiegającym zbiór Q .
Dokładniej, P jest rodziną rozkładów prawdopodobieństwa na odpowiednim s -ciele zdarzeń losowych w zbio-
rze wartości S obserwowalnej zmiennej losowej X, ale wobec przyjętych ograniczeń o zbiorze S będzie to s -
ciało wszystkich podzbiorów S, albo s -ciało podzbiorów borelowskich i w dalszej części nie będziemy tego
specjalnie podkreślać.
W studium przypadku definiujemy wyłącznie parametryczną rodzinę rozkładów prawdopodobieństwa oraz pa-
rametryczny model statystyczny.
Definicja 1. Rodzinę rozkładów prawdopodobieństwa P = {Pq :q Q} indeksowaną parametrem q prze-
biegającym zbiór Q nazywamy rodziną parametryczną wtedy i tylko wtedy, gdy Q dla pewnego k cał-
Rk
kowitego i dodatniego i każdy rozkład jest rozkładem znanym, gdy parametr q jest znany. Zbiór Q nazy-
P
q
wamy przestrzenią parametrów, a liczbę k jej wymiarem.
Definicja 2. Przestrzeń prób S z rodziną rozkładów prawdopodobieństwa P = {Pq :q Q} nazywamy mode-
lem statystycznym (używa się również nazwy przestrzeń statystyczna) i zapisujemy
(S, P = ( :q Q)).
P
q
Jeżeli rodzina rozkładów prawdopodobieństwa P = {Pq :q Q} jest rodziną parametryczną, to mówimy o
parametrycznym modelu statystycznym.
Statystyczna próba losowa
Zakładamy, że obserwujemy w pewnym doświadczeniu zmienne losowe , ,..., i przyjmujemy, że
X X X
1 2 n
wyniki doświadczenia obserwacje maja postać skończonego ciągu liczb , ,..., i są realizacjami (war-
x x x
1 2 n
tościami) zmiennych losowych , ,..., tj.
X X X
1 2 n
(w),..., = X (w) dla w W.
x1= X1(w), x2= X xn n
2
Generalnie dopuszczalne są dowolne zależności pomiędzy kolejnymi obserwacjami, ale w studium przypadku
zajmujemy się wyłącznie zmiennymi losowymi niezależnymi. W tym celu wprowadzamy pojęcie próby, nazy-
wanej też prostą próba losową.
Definicja 3. Wektor losowy X=( , ,..., ), gdzie , ,..., są niezależnymi zmiennymi loso-
X X X X X X
1 2 n 1 2 n
wymi o jednakowym rozkładzie prawdopodobieństwa , q Q nazywamy n- elementową próbą z rozkładu
P
q
i stosujemy zapis:
P
q
X=( , ,..., ) jest próbą z rozkładu
X X X P
1 2 n q
(
Funkcję prawdopodobieństwa albo gęstości próby X oznaczamy przez f ,..., ) i na mocy niezależności
x x
1 n
q
zmiennych losowych zachodzi wzór
f ( ) (x1) ( ) ( )
f f f
x1,..., xn = q q x2 q xn
q
3
Przy tych oznaczeniach model statystyczny dla próby X zapisujemy w postaci n - krotnego produktu modelu sta-
tystycznego dla pojedynczej zmiennej losowej z definicji 2:
(S, P = ( :q Q))n
P
q
W każdym problemie praktycznym wybór i budowa modelu statystycznego jest pierwszym etapem analizy do-
świadczenia, którego ten problem dotyczy.
Dla zdefiniowania modelu statystycznego w rozważanym doświadczeniu wystarczy podać
przestrzeń prób S,
rodzinę rozkładów prawdopodobieństwa P = {Pq :q Q} na przestrzeni prób S i
przestrzeń parametrów Q .
Przykład 1.
W każdym tygodniu kierowca powoduje 1 wypadek z prawdopodobieństwem równym q .
Niech X będzie zmienną losową przyjmująca wartość 1, gdy kierowca miał wypadek w tygodniu i wartość 0,
gdy go nie miał.
W tym modelu statystycznym mamy do czynienia tylko z jedną obserwacją i zmienna losowa X przyjmuje dwie
wartości, 0 i 1, więc przestrzeń prób S = {0,1}.
Zmienna losowa X ma rozkład zero- jedynkowy z nieznanym parametrem q
Pq (X = 1) = q , Pq (X = 0) = 1-q , q (0,1)
a gęstość jest postaci
x
f (x)= q (1-q)1-x , x {0,1}, q (0,1). (1)
q
Rodziną rozkładów prawdopodobieństwa P = {Be(1,q) :q Q} jest rodziną rozkładów Bernoulliego indek-
sowana parametrem q (0,1), a przestrzenią parametrów zbiór Q = (0,1).
Model statystyczny ma postać ({0,1}, P ={Be(1,q):q Q}), Q = (0,1).
Rozważmy próbę X=( , ,..., ) z rozkładu zero-jedynkowego o gęstości danej wzorem 1.
X X X
1 2 n
W tym modelu statystycznym przestrzeń prób S jest zbiorem wszystkich n wyrazowych ciągów zer i jedynek,
więc S = {0,1}n .
Aączna gęstość próby X jest postaci
n
n
n xi
i=1
( ,..., )= ( )= q (1-q)n- xi , xi {0,1}, i =1,2,...,n,q (0,1)
f f
x x x
1 n i i=1
q q
i=1
Model statystyczny dla n obserwacji jest dany wzorem ({0,1}, P = {Be(1,q):q Q})n , gdzie Q = (0,1).
Przykład 2.
Poborowy na strzelnicy oddaje 10 strzałów z prawdopodobieństwem trafienia równym q .
Model statystyczny dla liczby celnych trafień konstruujemy w następujący sposób.
Niech X będzie zmienną losową, której wartość jest równa liczbie celnych trafień.
Ponownie mamy czynienia tylko z jedną obserwacją, a zmienna losowa X przyjmuje wartości ze zbioru
S = {0,1,2,...10}.
Zmienna losowa X ma rozkład dwumianowy z nieznanym parametrem q
10
ć
k
Pq (X = k) = q (1-q)10-k , q (0,1), k {0,1,2,...10} (2)
k
Ł ł
Przestrzenia prób jest zbiór S = {0,1,2,...10}.
Rodziną rozkładów prawdopodobieństwa P = {Be(n,q) :q Q} jest rodzina rozkładów dwumianowych
Be(n,q) indeksowana parametrem q (0,1), a przestrzenią parametrów zbiór Q = (0,1).
4
Przykład 3.
Liczba wypadków drogowych w ciągu tygodnia jest zmienną losową X o rozkładzie Poissona
x
q
Pq (X = k) = , k = 0,1,2...
e-q
k!
Niech , ,..., oznaczają wypadki zdarzające się niezależnie w kolejnych tygodniach. Jeżeli sytuacja
X X X
1 2 n
jest stabilna (pogoda jest podobna i nie zaczyna się właśnie okres wakacyjny), to można przyjąć, że każda ze
zmiennych , ,..., ma taki sam rozkład jak zmienna losowa X.
X X X
1 2 n
W ten sposób otrzymujemy próbę losową X=( , ,..., ) z rozkładu Poissona o funkcji prawdopodobień-
X X X
1 2 n
stwa
n
xi
i=1
q
-qn
x1!x2!...xn!
( = x1, = x2,...., X = xn ) = e .
P X X
q 1 2 n
Przestrzenią prób jest zbiór S = {0,1,2,...}n , rodziną rozkładów prawdopodobieństwa jest rodzina rozkładów
Poissona P = {Poiss(q):q > 0} indeksowana parametrem q Q , a przestrzenią parametrów zbiór
Q = (0,Ą).
Przykład 4. Ogólnie, przedmiotem badania jest zbiór składający się z N elementów i zawierający pewną liczbę
M elementów wyróżnionych. Interesuje nas przypadek, gdy N jest ustalone i znane, a M nie jest znane i chcemy
się dowiedzieć jaka jest wartość M.
Sondaż opinii publicznej.
Interesuje nas, jaki procent wyborców popiera partię A.
Zakładamy, ze spośród N wszystkich wyborców M popiera partię A, a N-M wyborców nie popiera partii. M i M
jest wielkością nieznaną.
Jeżeli liczba N wszystkich wyborców jest tak duża, że zbadanie każdego ze względu na preferencje partyjne i
ustalenie liczby M wyborców popierających partię A jest niemożliwe lub nieopłacalne postępuje się w następu-
jący sposób.
Spośród N elementowego zbioru wszystkich wyborców losujemy n- elementowy podzbiór i każdemu wyborcy z
tego podzbioru zadajemy pytanie Czy popierasz partię A ?
Przez X oznaczamy liczbę wyborców popierających partię A w wylosowanym n- elementowym podzbiorze. Je-
żeli losowanie jest wykonane w taki sposób, że każdy n elementowy podzbiór może być wylosowany z jedna-
1
kowym prawdopodobieństwem , to prawdopodobieństwo, że w wylosowanym podzbiorze znajdzie się x
N
ć
n
Ł ł
wyborców popierających partię A jest równe
M N - M
ć ć
x n - x
Ł łŁ ł
P(X = x) = , x = max{0,n - (N - M )},...,min{n,M},
N
ć
n
Ł ł
Zmienna losowa X ma rozkład hipergeometryczny z parametrem M.
W tym modelu statystycznym ustalonymi i znanymi wielkościami jest liczba N wszystkich wyborców i liczeb-
ność n losowanej próbki. Nieznanym parametrem jest M {0,1,..., N}.
Przestrzenią prób jest zbiór S = {0,1,2,...,n}.
Rodziną rozkładów prawdopodobieństwa na przestrzeni prób jest rodzina rozkładów hipergeometrycznych in-
deksowana parametrem M, P ={H(N,M,n) : M {0,1,..., N}, N N,n{1,2,..., N}}.
O wyniku obserwacji, tzn. o zmiennej losowej X wiemy, ze ma pewien rozkład z tej rodziny, ale nie wiemy który
z nich.
5
Przykład 5.
Dokonujemy pomiaru pewnej nieznanej wielkości m (np. długości, masy, wydajności procesu technologiczne-
go). Pomiar zwykle jest obarczony pewnym błędem- oznaczamy ten błąd przez e tak, że wynikiem pomiaru jest
X = m + e . Na podstawie wyniku pomiaru X lub na podstawie serii takich pomiarów
Xi = m + ei , i = 1,2,...,n należy udzielić informacji o nieznanej wielkości m .
Jeżeli przyjmujemy, ze błąd e jest wielkością losową, to mamy do czynienia ze statystyką matematyczną. Róż-
ne i coraz bardziej szczegółowe założenia o probabilistycznej naturze zmiennej losowej e prowadzą do różnych
i coraz węższych, statystycznych modeli pomiaru. Zwykle zakłada się, ze e jest zmienną losową, której rozkład
nie zależy od m .
Jeżeli wykonuje się serię pomiarów , ...X , to najczęściej zakłada się, że ,e 2...en są niezależnymi
X X e
1 2 n 1
2 2
zmiennymi losowymi o jednakowym rozkładzie, np. normalnym N(0,s ) o wariancji s .
Wtedy gęstość łącznego rozkładu pomiarów , ...X jest dana wzorem
X X
1 2 n
n
1 (xi - m)2 .
f (x1,..., xn)= exp
- ż
m,s
2
s 2p
i=1 2s
W tym przykładzie model statystyczny dla pojedynczej obserwacji ma postać
n
ć
(xi - m)2 : m R, s > 0 ,
1
R, (x)= exp
f
- 2 ż ż
m,s
s 2p
2s
ł
Ł
a dla n obserwacji
ć
n
1 (xi - m)2 : m R, s > 0,
Rn , f (x1,..., xn)= exp
- ż ż
m,s
2
s 2p
i=1 2s
ł
Ł
gdzie przestrzenią prób jest zbiór S = R w przypadku pojedynczej obserwacji i zbiór S = Rn w przypadku n
obserwacji, rodziną rozkładów prawdopodobieństwa jest dwuparametryczna rodzina rozkładów normalnych
2 2
P ={N(m,s ): m R,s > 0}, q =(m,s )Q = R R+ .
II Statystyka i statystyka dostateczna
Aby wnioskować na podstawie danych należy zawarte w nich informacje przedstawiać w sposób bardziej zwar-
ty, czyli konstruować funkcje od danych. W tym celu wprowadzone są pojęcia takich funkcji jak statystyka i sta-
tystyka dostateczna. Pojęcie statystyki w statystyce matematycznej jest odpowiednikiem pojęcia zmiennej loso-
wej w rachunku prawdopodobieństwa. W praktyce statystyka służy do wyodrębnienia z danych doświadczalnych
pewnych istotnych charakterystyk tych danych.
Statystyka
Definicja 4. Funkcję próby X=( , ,..., ) postaci T = T( ,..., ) nazywamy statystyką, jeżeli jest
X X X X X
1 2 n 1 n
zmienną losową na (S, F, P).
Statystyka jest funkcją T : S Rn i nie zależy od nieznanego parametru q .
Na przykład, wyrażenie T( ,..., )-q nie jest statystyką, bo zależy od nieznanego parametru q i nie
X X
1 n
można tego wyrażenia obliczyć na podstawie danych. Jeżeli jednak wybierzemy dowolną, ale ustaloną wartość
parametru , to wyrażenie T( ,..., )-q0 jest statystyką.
q X X
0 1 n
Przykłady statystyk:
n
1
a) średnia z próby X = Xi
n
i=1
6
b) wariancja z próby definiowana na trzy różne sposoby
n
1
\2 = (Xi - m)2 , gdy znana jest wartość oczekiwana EX = m
n
i=1
n n
1 ~2 1
2 2
S2 = (Xi - X ) lub S = (Xi - X ) , gdy EX = m jest nieznane
n n -1i=1
i=1
Wiadomo, że próba X=( , ,..., ) dostarcza pewnych informacji o nieznanym rozkładzie obserwowal-
X X X
1 2 n
nej zmiennej losowej. Ale okazuje się, że dla niektórych rodzin rozkładów P = {Pq :q Q} nie jest konieczna
znajomość informacji o nieznanym parametrze rozkładu z całej próby, lecz możliwa jest redukcja danych: cala
informacja o nieznanym rozkładzie jest zawarta w pewnej funkcji próby nazywanej statystyką dostateczną.
Pojęcie statystyki dostatecznej zostało wprowadzone przez R. A. Fishera i jest bardzo ważne w statystyce mate-
matycznej, gdyż statystyka dostateczna umożliwia redukcję danych bez straty informacji o nieznanym parame-
trze rozkładu. Cała informacja o nieznanym parametrze rozkładu jest zawarta w statystyce dostatecznej.
Statystyka dostateczna
Definicja 5. Statystykę T : S Rn nazywamy dostateczną dla rodziny rozkładów P = {Pq :q Q} lub do-
stateczną dla parametru q Q , jeżeli dla każdej wartości t statystyki T rozkład warunkowy próby
X=( , ,..., ) przy ustalonej wartości statystyki T= t nie zależy od parametru q Q
X X X
1 2 n
Aby wyznaczyć statystykę dostateczną z definicji dla dowolnej rodziny rozkładów należy: wyznaczyć
łączną gęstość próby X, prawdopodobieństwa P (X = x, T = t), Pq (T = t) i sprawdzić, czy
q
Pq (X = x, T = t)
Pq (X = x T = t)= rozkład warunkowy próby X =x przy ustalonej wartości statystyki T=t
Pq (T = t)
nie zależy od nieznanego parametru q Q .
Przykład 6.
Niech X=( , ,..., ) będzie próbą z rozkładu zero-jedynkowego o gęstości
X X X
1 2 n
x
f (x)= q (1-q)1-x , x {0,1},q (0,1).
q
Aączna gęstość próby X jest postaci
n
n
xi
(x1,..., i=1
f xn)= q (1-q)n- xi , xi {0,1}, q (0,1)
i=1
q
W tym modelu statystycznym przestrzenią prób jest zbiór wszystkich 2n n wyrazowych ciągów zer i jedynek.
Dla ustalonego zdarzenia ciągu zer i jedynek - próba X zawiera informację o liczbie sukcesów w n doświad-
czeniach Bernoulliego i numerach doświadczeń, w których te sukcesy nastąpiły.
Ze wzoru na łączną gęstość próby X wynika, że informacja o numerach doświadczeń, w których nastąpił sukces
n
jest nieistotna, gdyż tylko liczba sukcesów w n doświadczeniach równa jest podstawą do wnioskowania o
x
i
i=1
n
n
ć
wartości parametru q . Wiadomo również, że jeżeli = k , to każdy z możliwych układów k jedynek
x
i
k
i=1
Ł ł
w próbie ma to samo prawdopodobieństwa wystąpienia, niezależnie od wartości parametru q .
Definiujemy statystykę
n
T(X)= .
X
i
i=1
7
Jest to liczba sukcesów w n doświadczeniach Bernoulliego. Rozkład tej statystyki jest rozkładem dwumianowym
o gęstości
n
ć
Pq (T = t) = qt(1-q)n-t , q (0,1), t = 0,1,...,n
t
Ł ł
Pq (X = x, T = t)
Wyznaczamy Pq (X = x T = t)= .
Pq (T = t)
n
Prawdopodobieństwo w liczniku jest równe zeru z wyjątkiem przypadku, gdy = t i każde jest równe
xi x
i
i=1
zeru lub jedynce.
Wtedy
n
n
xi
t
i=1
Pq (X = x, T = t)= Pq (X = x)= q (1-q)n- xi = q (1-q)n-t
i=1
Stąd
t
q (1-q)n-t = 1
Pq (X = x T = t)= .
n
ć
t
q (1-q)n-t ćn
t t
Ł ł Ł ł
Z tego wzoru wynika, że rozkład warunkowy Pq(X = x T = t) nie zależy od parametru q .
n
ć
Interpretacja: gdy wiemy, że T= t, to informacja o tym, który z punktów przestrzeni prób faktycznie się
t
Ł ł
zrealizował nie wnosi żadnej wiedzy parametrze q . To uzasadnia nazywanie statystyki T dostateczną.
Znalezienie statystyki dostatecznej bezpośrednio z definicji jest niekiedy trudne. Prosty sposób
rozpoznawania, czy dana statystyka jest dostateczna i konstruowania statystyk dostatecznych podaje poniższe
twierdzenie.
Kryterium faktoryzacji Neymana
Statystyka T : S Rn jest dostateczna dla parametru q Q wtedy i tylko wtedy, gdy gęstość łącznego roz-
kładu prawdopodobieństwa próby X= ( , ,..., ) można przedstawić w postaci
X X X
1 2 n
f ( )= (T( )) ),
gq
x1,..., xn x1,..., xn h(x1,..., xn
q
gdzie h( ) jest funkcją, która nie zależy od parametru q Q ,
x1,..., xn
(T(
gq 1,..., )) jest funkcją, która zależy od argumentu x = ( ,..., )T poprzez wartość statystyki T
x x x xn
n 1
i jako funkcja zależy od parametru q Q .
Aby wyznaczyć statystykę dostateczną z kryterium o faktoryzacji dla dowolnej rodziny rozkładów
należy: wyznaczyć łączną gęstość próby X i sprawdzić, czy tę gęstość można przedstawić jako iloczyn dwóch
( (T(
funkcji f ,..., )= gq 1,..., )) h( ,..., ) spełniających warunki z twierdzenia.
x x x x x x
1 n n 1 n
q
Przykład 7.
Niech X=( , ,..., ) będzie próbą z rozkładu zero-jedynkowego o gęstości
X X X
1 2 n
x
f (x)= q (1-q)1-x , x {0,1},q (0,1).
q
Aączna gęstość próby X jest postaci
8
n
n
xi
(x1,..., i=1
f xn)= q (1-q)n- xi , xi {0,1}, q (0,1)
i=1
q
n
Przyjmujemy h( )=1, (T( ,..., ))= qt(1-q)n-t oraz T(X)= .
gq 1 n
x1,..., xn x x X
i
i=1
Wtedy na mocy kryterium statystyka T jest statystyką dostateczną dla parametru q w rozkładzie zero-
jedynkowym.
Z kryterium o faktoryzacji otrzymujemy następujący wniosek.
Wniosek 1. Statystyka T : S Rn jest dostateczna dla parametru q Q wtedy i tylko wtedy, gdy dla do-
wolnych dwóch różnych wartości parametru q, q'Q i q ą q ' iloraz
(
f ,..., )
x x
1 n
q
f ( ,..., ) jest funkcją statystyki T(x) (zależy od x tylko poprzez T(x)).
x x
1 n
q '
Aby wyznaczyć statystykę dostateczną z wniosku 1 dla dowolnej rodziny rozkładów należy: wyznaczyć
(
f ,..., )
x x
1 n
q
łączną gęstość próby X , obliczyć iloraz łącznych gęstości
f ( ,..., ) dla q ą q' i sprawdzić czy zale-
x x
1 n
q '
ży od x tylko poprzez T(x).
Przykład 8.
Niech X=( , ,..., ) będzie próbą z rozkładu zero-jedynkowego o gęstości
X X X
1 2 n
x
(x)=
f q (1-q)1-x , x {0,1},q (0,1).
q
Aączna gęstość próby X jest postaci
n
n
xi
i=1
f (x1,..., xn)= q (1-q)n- xi , xi {0,1}, q (0,1)
i=1
q
n
n- xi
n
i=1
xi
f (x1,..., xn)
q 1-q
ć ć
q
oraz = .
i=1
f (x1,..., xn) '
Łq ł Ł1-q ł
q '
n
Stąd T(X)= jest statystyką dostateczną dla parametru q w rozkładzie zero-jedynkowym.
X
i
i=1
Najważniejsze statystyki w modelu z rodziną normalnych rozkładów prawdopodobieństwa
Twierdzenie 1. Jeżeli X1, X ,...,X jest ciągiem niezależnych zmiennych losowych takich, że
2 n
2
Xk~ N(mk ,s ) dla k=1, 2, ...,n oraz a1,a2 ,...,an , są pewnymi stałymi, to zmienna losowa
k
n n n
ć
2 2
(1) Z = X ~ N mk , s
ak k ak ak k
.
k=1 Ł k=1 k=1 ł
Z twierdzenia 1 można wyciągnąć dwa praktyczne wnioski.
2
Wniosek 2. Jeżeli X ~ N m,s , to
( )
n
1
2
(2) X ~ N(m, n), gdzie X = X jest średnią z próby X.
i
n
i=1
9
2
Wniosek 3. Jeżeli X i Y są niezależnymi zmiennymi losowymi takimi, że X ~ N(m1,1 ) oraz
2
Y ~ N(m2,2 ), X=(X1,..., X ) i Y=(Y1,...,Yn ) są próbami odpowiednio n1 oraz n2 elementowymi z
n1
2
rozkładów zmiennych losowych X i Y, to:
2 2
ć
s1 s
2
(3) X +Y ~ Nm1 + m2, + ,
n1 n2
Ł ł
2 2
ć
s1 s
2
(4) X -Y ~ Nm1 - m2, + ,
n1 n2
Ł ł
n1 n2
1 1
gdzie X = Xi , Y =
Y .
n1 i=1 n2 i=1 i
Definicja 6. (Rozkład chi-kwadrat) Niech X1, ..., Xk będą niezależnymi zmiennymi losowymi, przy czym
k
Xi ~ N(0,1) dla i=1,...,k. Wtedy zmienna losowa Y = Xi2 ma rozkład chi-kwadrat o k stopniach swobo-
i=1
2
dy, co zapisujemy krótko Y ~ (k).
2
Rozkład (k) jest szczególnym przypadkiem rozkładu gamma, w którym p = k 2 oraz b =1 2 . Po pod-
stawieniu tych wielkości do wzorów na wartość oczekiwaną i wariancję zmiennej losowej o rozkładzie gamma
dostajemy
(5) E(2(k))= k oraz D2(2(k))= 2k.
2
Twierdzenie 2. (Fishera). Jeżeli X ~ N(m,s ), to statystyki X i S są niezależne, a ponadto
2
X ~ N(m,s n)
2 2
(6) nS2 s ~ c n - 1 .
( )
Twierdzenie odwrotne jest również prawdziwe. Jeżeli statystyki X i S są niezależne, to oznacza, że próba zo-
stała wylosowana z rozkładu normalnego.
Ze wzorów 5 i 6 wynika następujący wniosek.
Wniosek 4.
2 2
ć ć
nS nS n n -1
2 2 2
(7) E 2 = n -1, E 2 = E(S ) i stąd E(S )= .
2
n
Ł ł Ł ł
Podobnie
2 2
ć ć
nS nS n2 2 2(n -1)
2 4
(8) D2 2 = 2(n -1), D2 2 = D2(S ) i stąd D2(S )=
4
n2
Ł ł Ł ł
2
Twierdzenie 3. Jeżeli Y1,...,Yk są niezależnymi zmiennymi losowymi takimi, że Yi ~ c vi dla i=1,...,k, to
( )
wtedy
k k
ć
2
(9) Y = ~ c .
Yi vi
i=1 Ł i=1 ł
Twierdzenie odwrotne jest również prawdziwe.
2 2
Wniosek 5. Niech zmienne losowe X i Y będą niezależne oraz X ~ N(m1,1 ) Y ~ N(m2,2 ).
10
Niech X=(X1,..., X ) i Y=(Y1,...,Yn ) będą niezależnymi próbami, odpowiednio n1 oraz n2 elementowymi.
n1
2
Wtedy
2 2
n1S1 n2S2
(10) + ~ 2(n1 + n2 - 2),
2 2
1 2
n1
n2
1
1 2 2
2 2
gdzie S1 = (X - X ) , S2 = (Yi -Y ) .
n1 i=1 i n2 i=1
2
Definicja 7. Jeżeli zmienne losowe X i Y są niezależne, X ~ N(0,1) i Y ~ c (v), to zmienna losowa
X
(11) T =
Y
v
ma rozkład t-Studenta o v stopniach swobody (T~t(v)).
Wniosek 6. Jeżeli X=(X1,..., Xn) jest próbą prostą z rozkładu, w którym X ~ N(m,2), to
X ~ N(m,2 n) (wzór 2),
nS2 2 ~ 2(n -1) (wzór 6),
zmienne losowe X i S są niezależne (twierdzenie 2) i wtedy
(X - m) n
X - m
(12) T = = n -1 ~ t(n -1).
2
S
nS
2
n -1
Statystyka
X - m
(13) T = n -1 ~ t(n -1)
S
ma rozkład t-Studenta o n-1 stopniach swobody i nie zależy od nieznanego odchylenia standardowego .
Fakt ten udowodnił w 1908 r. W.S. Gosset (publikujący pod pseudonimem Student).
Wniosek 7. Jeżeli zmienne losowe X i Y są, przy czym X ~ N(m1,2) i Y ~ N(m2,2), to
ć
ć
1 1
2
(14) X - Y ~ Nm1 - m2,s + (wzór 4),
n1 n2 ł
Ł ł
Ł
2 2
n1S1 n2S2 1
2
(15) + = (n1S12 + n2S2 )~ 2(n1 + n2 - 2) (wzór 4)
2 2 2
i stąd
(X -Y )-(m1 - m2)
1 1
+
n1 n2
(X -Y )-(m1 - m2) n1n2
(16) T = = (n1 + n2 - 2) ~ t(n1 + n2 - 2).
2 2 2
1 n1S1 + n2S2 n1S12 + n2S2 n1 + n2
n1 + n2 - 2
11
Definicja 8. Jeżeli zmienne losowe X i Y są niezależne oraz X ~ 2(v1) i Y ~ 2(v2), to zmienna losowa
X
v1
(17) F = ~ F(v1, v2)
Y
v2
ma rozkład F-Snedecora z v1 i v2 stopniami swobody.
Z powyższego wzoru wynika, że zmienna losowa G =1 F ~ F(2,1)
2 2
Wniosek 8. Jeżeli zmienne losowe X i Y są niezależne oraz X ~ N(m1,s1 ) i Y ~ N(m2,s2 ), a ponadto
X=(X1,..., X ) i Y=(Y1, ...,Yn ) są próbami z rozkładów zmiennych losowych odpowiednio X i Y, to
n1
2
n1S12
2
1
n1 -1
(18) F = ~ F(n1 -1,n2 -1).
2
n2S2
2
2
n2 -1
~
n1(n2 -1)S12 S12
2 2 2
W szczególności, gdy 1 = 2 = , to F = = ,
2
n2(n1 -1)S2 ~
S22
gdzie
n1 n2
~ 1 ~2 1
(19) S12 = (Xi - X )2, S2 = (Yi - Y )2 .
n1 -1i=1 n2 -1i=1
Z wniosku 4 wynika następujący wniosek.
2
Wniosek 9. Jeżeli X=(X1, ..., Xn) jest próbą z rozkładu, w którym X ~ N(m,s ), to zachodzą równości
4
~2 2 ~2 2
(20) E(S )= oraz D2(S )= ,
n -1
gdzie
n
~2 1 2 n
2
(21) S = (Xi - X ) = S .
n -1 n -1
i=1
Twierdzenie 4. Jeżeli X=(X1,L, Xn)T jest próbą prostą, przy czym zmienna losowa X ma dowolny rozkład o
skończonych momentach do czwartego rzędu włącznie i
4
2
(22) E(X ) = m, D2(X ) = ź2 = oraz E(X - m) = ź4 ,
to
2 4
~2 2 ~2 n - 3
ć ,
(23) E(X )= m; D2(X)= ; E(S )= oraz D2(S )= 2 -
n n n -1
Ł ł
gdzie 2 = ź4 / 4 .
2 4
Wniosek 10. Jeżeli X ~ N(m,s ), to ź4 = 3 i stąd 2 = 3. Zatem (por. wniosek 9)
4
~2 2
(24) D2(S )= .
n -1
12
III ARKUSZ TESTOWY
I. Definicje. Podkreśl właściwą odpowiedz:
A. Modelem statystycznym jest
a) przestrzeń zdarzeń elementarnych W b) rodzina rozkładów R = {Pq :q Q}
c) uporządkowana trójka (S, F,R)
B. Dziedziną funkcji nazywanej statystyką jest: a) przestrzeń zdarzeń elementarnych W
b) przestrzeń prób S c) rodzina rozkładów R = {Pq :q Q}
n
X1
C. Która z podanych funkcji nie jest statystyką: a)T1 = Xk b) T2 = X2 +q , c) T1 =
X2
k =1
II. Budowa modelu statystycznego. Uzupełnij tabelę 1 dla 5 wybranych przykładów.
Tabela 1
Numer Przestrzeń prób S Rodzina rozkładów prawdopodobień- Przestrzeń parame-
stwa P = {Pq :q Q}na przestrzeni
trów Q
przykła-
du prób S
S = {0,1,2,...} P = {Ge(q) :q Q}-rodzina roz- Q = (0,1)
kładow geometrycznych
2
P ={N(m,s ): m R,s > 0} Q = R R+
S = Rn
S = {0,1}n P = {Be(1,q) :q Q} Q = (0,1)
S = {0,1,2,...}n P ={NBe(m,q) : mQ} -rodzina Q = (N {0}) R+
rozkładów ujemnych dwumianowych
S = max{0,10 - (50 - M )},...,
P ={H(50,M,10): M Q} Q = {0,...,50}
min{10,M}
S = (0,Ą) P = {Gamma(10,q) :q Q} Q = (0,Ą)
S = {0,1,2,...}n P = {Poiss(q):q > 0} Q = (0,Ą)
S = {O, R} P = {Be(1,q) :q Q} Q = (0,1)
S = (0,Ą) P = {E(q) :q Q}-rodzina rozkła- Q = (0,Ą)
dów wykładniczych
13
Przykład 1. Statystyczna kontrola jakości.
Producent chce się dowiedzieć, jaki procent wywarzanych przez niego wyrobów jest wadliwych i bada n
elementową partię wyrobów.
Niech będzie zmienną losową przyjmująca wartość 1, gdy wyrób jest wadliwy i 0, gdy jest prawidłowy.
X
i
Zmienna losowa ma rozkład zero- jedynkowy z nieznanym parametrem q
X
i
Pq (X i = 1) = q , Pq (X i = 0) = 1-q .
Producenta interesuje procent sztuk wadliwych wśród wszystkich wyrobów.
W tej sytuacji obserwacje , ,..., badanej n-elementowej partii wyrobów mają postać ciągów zer i je-
X X X
1 2 n
n
dynek (wyrób prawidłowy lub wadliwy), a liczba wadliwych wyrobów jest zmienną losową X = o roz-
X
i
i=1
kładzie Bernoulliego z nieznanym parametrem q ,
n
ć
k
Pq (X = k) = q (1-q)n-k , k = 1,2,...,n
k
Ł ł
Na podstawie wyników doświadczenia (obserwacji , ,..., ) producent chce sformułować pewne
X X X
1 2 n
wnioski o nieznanej wartości parametru q .
Przykład 2. Komis samochodowy Jak nowy oferuje w chwili obecnej 50 pojazdów, przy czym M spośród po-
chodzi z kradzieży. Policja sprawdza 10 losowo wybranych samochodów. Wielkością obserwowaną jest liczba
samochodów pochodzących z kradzieży wśród 10 sprawdzanych.
Przykład 3. Niech X oznacza liczbę roszczeń pojedynczego klienta w ciągu roku w firmie ubezpieczeniowej.
Zakładamy, ze X jest zmienną losową o rozkładzie Poissona z parametrem l o funkcji prawdopodobieństwa
lx
Pr(X = k) =
e-l , k = 0,1,2...
k!
Ubezpieczyciel na podstawie historii klienta , ...X (znane z poprzednich lat liczby roszczeń) chce wy-
X X
1 2 n
znaczyć odpowiednią składkę, której wartość zależy od parametru l .
Przykład 4. Obserwujemy , ...X - dzienne stopy zwrotu pewnego instrumentu finansowego. Dla ce-
X X
1 2 n
lów modelowania przyjmujemy założenie, że pochodzą one z rozkładu normalnego N(m,s 2). Na podstawie
zaobserwowanych danych chcemy sprawdzić, czy założenie o rozkładzie normalnym można zaakceptować.
Przykład 5. Wykonujemy ciąg niezależnych doświadczeń, z których każde kończy się sukcesem z nieznanym
prawdopodobieństwem q lub porażką z prawdopodobieństwem 1-q . Doświadczenia wykonujemy tak długo,
aż uzyskamy m sukcesów. Zakładamy, że wyniki poszczególnych eksperymentów są niezależnymi zmiennymi
losowymi.
Przykład 6. Jacek dysponujący niesymetryczną monetą gra n krotnie gra z Pawłem. Pojedyncza gra polega na
1- krotnym rzucie monetą, przy czym jeśli wypadnie orzeł, to Jacek otrzymuje 100 PLM od Pawła, a jeśli wy-
padnie reszka, to Paweł otrzymuje 100 PLN od Jacka. Obserwowanymi zmiennymi losowymi są kolejne rzuty
monetą.
Przykład 7. Żółwiowi udaje się szczęśliwie przejść na drugą stronę szosy z prawdopodobieństwem q . W ciągu
swojego życia żółw przekroczy szosę X razy. Zakładamy, ze żółw, o ile nie zginie pod kolami samochodu, żyje
nieskończenie długo.
Przykład 8. W żyrandolu jest 10 żarówek. Czas życia każdej żarówki ma rozkład wykładniczy z nieznanym pa-
(x)=
rametrem q o gęstości f q exp{-qx} dla x ł 0 . Skonstruować model statystyczny dla czasu do
q
przepalenia się pierwszej żarówki.
Przykład 9. Korytarz oświetlony jest przez jedną żarówkę. W zapasie mamy 10 żarówek i po przepaleniu się ak-
tualnie świecącej, wkręcamy kolejną. Czas życia każdej żarówki ma rozkład wykładniczy z nieznanym parame-
trem q . Skonstruować model statystyczny dla czasu do przepalenia się ostatniej żarówki.
14
III. Zastosowanie kryterium o faktoryzacji. Uzupełnij poniższe zdania.
2 2
A. Niech X=( , ,..., ) będzie próbą z rozkładu normalnego N(m,s 0), gdy m R , wariancja
X X X s
1 2 n
0
jest znana.
Aączna gęstość próby X jest postaci
n
n n
ć
ć
ć
1 1 m nm2
2
f (x1,..., xn)=
m
s 2p exp- 2s o i=1xi 2 2
2 exp i=1xi - 2s
s
Ł ł
Ł 0 ł 0 0
Ł ł
Korzystając z kryterium o faktoryzacji przyjmujemy, że funkcja
h( )=& & & & & & & & & & & .
x1,..., xn
jest funkcją, która nie zależy od parametru m R , funkcja
(T( ,..., ))= & & & & & & & & .&
gm 1 n
x x
jest funkcją, która zależy od argumentu x = ( ,..., )T poprzez wartość statystyki T i jako funkcja jest zależ-
x xn
1
na od parametru m R .
Wtedy statystyka
T(X1,..., )= & & & & & & & & & & & &
X
n
2 2
jest statystyką dostateczną dla parametru m R w rozkładzie normalnym N(m,s 0) ze znaną wariancją .
s
0
B. Niech X=( , ,..., ) będzie próbą z rozkładu normalnego N(m0,s 2), gdy wartość oczekiwana mo
X X X
1 2 n
jest znana, wariancja s > 0 . Aączna gęstość próby X jest postaci
n
ć
n
1
ć 1 2
f (x1,..., xn)= exp- ( - m)
x
s
2s 2 i=1 i
s 2p
Ł ł
Ł ł
Korzystając z kryterium o faktoryzacji przyjmujemy, że funkcja
h( )=& & & & & & & & & & & & & ..
x1,..., xn
jest funkcją, która nie zależy od parametru s > 0 , funkcja
(T(
gs 1,..., ))=& & & & & & & & & & &
x x
n
jest funkcją, która zależy od argumentu x = ( ,..., )T poprzez wartość statystyki T i jako funkcja jest zależ-
x xn
1
na od parametru s > 0 .
Wtedy statystyka
T(X1,..., )= & & & & & & & & & & & .
X
n
jest statystyką dostateczną dla parametru s > 0 w rozkładzie normalnym N(m0,s 2) ze znaną wartość ocze-
kiwana mo .
C. Niech X=( , ,..., ) będzie próbą z rozkładu normalnego N(m,s 2), gdy parametr q = (m,s ),
X X X
1 2 n
m R , s > 0 jest nieznany. Aączna gęstość próby X jest postaci
n
ć
n
1
ć 1 2
f (x1,..., xn)= exp- ( - x) + n(x - m)2
x
q
2s 2 i=1 i
s 2p
Ł ł
Ł ł
Korzystając z kryterium o faktoryzacji przyjmujemy, że funkcja
15
h( )=& & & & & & & & & & & & & & & & .
x1,..., xn
jest funkcją, która nie zależy od parametru q = (m,s ), funkcja
gq (t1,t2)=& & & & & & & & & & & & & & & & & .., = .......... = ..........
t t
1 2
jest funkcją, która zależy od argumentu x = ( ,..., )T poprzez wartość statystyki T i jako funkcja jest zależ-
x xn
1
na od parametru q = (m,s ).
Wtedy statystyka T = ( ,T2),
T
1
gdzie T1(X1,..., )= ..................
X
n
T2(X1,..., )= ................
X
n
jest statystyką dostateczną dla parametru q = (m,s ) w rozkładzie normalnym N(m0,s 2) z nieznanym para-
metrem q = (m,s ).
IV. Rozkłady wybranych statystyk. Uzupełnij Tabelę 2.
Tabela 2
Próba Rozkład prawdopodo- Statystyka T Rozkład prawdopodo-
bieństwa próby bieństwa statystyki T
X=( , ,..., ) N(0,1)
T(X )= X
X X X
1 2 n
2
X=( , ,..., )
T(X )= X
X X X
1 2 n N(m,s )
n
X=( , ,..., ) N(m,1)
X X X
1 2 n
T(X )= ( - X )2
X
i
i=1
2
X=( , ,..., ) X - m
X X X
1 2 n N(m,s )
T(X )= n
S
2
X=( , ,..., )
X X X
1 2 m N(mx,s ) S2
X
T(X ,Y)=
2
Y=( , ,...,Y n)
Y X 2
1 2 SY
N(my,s )
X
N(0,1) X
T(X ,Y )=
2
Y
Y c (u)
u
2
X( , ,..., )
T(X ,Y)= X -Y
X X X
1 2 N(mx,s )
n1
x
Y=( , ,..., ) 2
X X X
1 2
n2
N(my,s )
y
X
X
c2(u1)
u1
Y
c2(u2)
T(X ,Y) =
Y
u2
16
V. Wyznaczanie statystyki dostatecznej. Uzupełnij Tabelę 3.
Tabela 3
= (X = x T = t) lub
P
q
Rozkład próby f (x)= h(x) (T(x)) lub Statystyka dostateczna T
gq
q
X=( , ,..., )
X X X
1 2 n
f (x)
q
f ((x))dla q ą q'
q '
rozkład Poissona Poiss(q )
z parametrem q
rozkład wykładniczy E(q )
z parametrem q
rozkład dwumianowy ujemny
NB(r, p) z parametrem p
rozkład gamma G(a,l)
z parametrami a, l
17
II. Harmonogram/scenariusz realizacji/kolejność działań
1. Indywidualne zapoznanie się z opisem problemów/ zadań zawartych w częściach I-II
materiałów.
2. Praca w grupach nad rozwiązywaniem problemów/zadań z części III materiałów.
3. Dyskusja w grupach, a następnie na forum ogólnym nad odpowiedziami na postawio-
ne pytania.
4. Komentarz prowadzącego.
III. Opis przypadku/sytuacji (w tym np. opis ról odgrywanych przez studentów; tło
przypadku film, kroniki; materiały liczbowe: tabele z danymi, arkusze kalkulacyjne;, arku-
sze decyzyjne; oprogramowanie obliczeniowe, wyszukujące lub prezentujące, itd.)
W częściach I- II materiałów są opisane podstawowe pojęcia statystyki matematycznej:
losowa próba statystyczna
model statystyczny (przestrzeń statystyczna)
statystyka i statystyka dostateczna (definicje, kryterium faktoryzacji),
konieczne do rozwiązania problemów/zadań zawartych w części III (arkusze testowe)
Część III materiałów zawiera problemy/ zadania, które należy rozwiązać stosując pojęcia
wprowadzone w częściach I- II.
IV. Wymagane rezultaty pracy i ich forma
Rezultatem Twojej pracy, a następnie w grupach jest
skonstruowanie poprawnego modelu statystycznego dla podanych eksperymentów lo-
sowych
poprawne wyznaczanie statystyk dostatecznych dla rodzin rozkładów prawdopodo-
bieństwa w skonstruowanych modelach statystycznych
poprawne zastosowanie wprowadzonych statystyk w modelu z rodziną normalnych
rozkładów prawdopodobieństwa.
18
Wyszukiwarka
Podobne podstrony:
Wstępna analiza danych Materiał statystyczny i jego porządkowanie Szeregi statystyczneModel kształcenia wielostronnego i jego charakterystyka(1)Rzutparteru Model (1)model ekonometryczny zatrudnienie (13 stron)Klucz Odpowiedzi Chemia Nowej Ery III Węgiel i jego związki z wodoremwykład 2 zdrowie i mierniki jego oceny,Modelowanie i symulacja systemów, Model dynamicznyAnaliza zależności dwóch cech statystycznych ilościowychJęazykoznawsto ogólne model sens tekst15 własności magnet materson rise?v model 3 PL poziomodroga Model (4)więcej podobnych podstron