STATYSTYKA jest nauką zajmującą się badaniem prawidłowości występujących w zjawiskach, czyli takich, które mogą teoretycznie niezliczoną ilość Przedmiotem badania statystycznego jest zbiór obiektów powiązanych ze sobą logicznie lecz nie identycznych z punktu widzenia badanych cech. Zbiór ten nazywa się zbiorowością statystyczną, a jego elementy jednostkami statystycznymi. Należy zauważyć, że w badaniu statystycznym nie mają znaczenia same elementy badanego zbioru obiektu, a tylko pewne cechy tych elementów zwane cechami statystycznymi. Z tego powodu niekiedy w statystyce elementy utożsamia się z cechami.
STATYSTYKA OPISOWA zajmuje się badaniem zbiorowości statystycznych na podstawie obserwacji całkowitej, obejmującej wszystkie jednostki zbiorowości zwanej też populacją generalną. Badanie całkowite nie zawsze jest możliwe, zdarza się, że:
1. zbiorowość statystyczna jest bardzo duża lub nieskończona
2. badanie jednostki statystycznej powoduje jej zniszczenie np.: badanie wytrzymałości na rozciąganie
3. badanie jednostek jest kosztowne lub pracochłonne
W takich wypadkach trzeba się ograniczyć do badania częściowego obejmującego tylko pewien podzbiór populacji generalnej zwany próbą.Często na podstawie danych z próby chcemy coś wnioskować o rozkładzie danej cechy w całej populacji. Podstawowym warunkiem poprawności takiego wnioskowania jest to, aby elementy próby wybrane zostały w drodze losowania, wówczas taką próbę traktujemy jako miniaturę populacji macierzystej. Charakterystyki obliczone z tej próby powinny być w przybliżeniu równe analogicznym charakterystykom w całej populacji.
Istnieją różne schematy losowania elementów do próby. Nauka zajmująca się tym zagadnieniem nazywa się metodą reprezentacyjną.
STATYSTYKA MATEMATYCZNA jest nauką o metodach wnioskowania o rozkładach cech statystycznych (zmiennej losowej) na podstawie wyników badania częściowego, w którym wybór jednostki jest losowy.Zasadniczym aparatem jakim się posługuje statystyka matematyczna jest rachunek prawdopodobieństwa. W statystycznych zastosowaniach rachunku prawdopodobieństwa pojęcie zmiennej losowej używa się w kontekście: dana jest populacja złożona z dużej liczby elementów, interesujemy się jakąś cechą charakteryzującą elementy tej zbiorowości. Przypuśćmy, że do badania ma być losowo jeden element, wówczas nieznaną jeszcze wartość cechy na tym elemencie traktujemy jako pewną zmienną losową X, o pewnym nieznanym rozkładzie reprezentowanym przez dystrybuantę F(X). Gdy element zostanie wylosowany , a wartość cechy na tym elemencie zmierzona, wówczas wartość tę traktujemy jako realizację tej zmiennej losowej i oznaczamy X(ω) lub x dla pewnego ustalonego zdarzenia elementarnego ω, przy czym zdarzenie to jest tu teoretycznym odpowiednikiem elementów jakie mogą zostać wylosowane. Gdy do badania ma być wylosowanych n elementów to podobnie jak wyżej wartość cechy na tych nie wylosowanych elementach traktujemy jako n zmiennych losowych X1, X2, . . . Xn. Natomiast wartości cechy uzyskane dla konkretnych wylosowanych elementów jako realizację losowych X1(ω), X2(ω), . . . Xn(ω) lub x1,x2,...xn tych zmiennych losowych. W tym przypadku zdarzenie elementarne jest odpowiednikiem wszelkich możliwych układów n elementów jakie mogą zostać wylosowane.
Zbiór wszystkich możliwych realizacji tej próby nazywać będziemy przestrzenią próby.
Przykład zastosowania ststystyki matemj:
Na potrzeby przemysłu obuwniczego przeprowadza się pomiary długości stóp losowej grupy osób i na tej podstawie wnioskuje się zapotrzebowanie rynku na poszczególne rozmiary obuwia. W tym przykładzie populację generalną stanowi ogół potencjalnych nabywców obuwia, próbę tworzy wybrana losowo grupa osób podlegająca badaniu. Cechą statystyczną jest długość stopy.
Podstawowym pojęciem w statystyce matematycznej jest pojęcie statystyki czyli zmiennej losowej będącej funkcją elementów próby losowej X1, X2, . . . Xn np.:
WNIOSKOWANIE STATYSTYCZNE
Wyróżniamy dwa główne kierunki wnioskowania statystycznego:
estymacja
punktowa
przedziałowa
weryfikacja hipotez statystycznych
Problemy statystyczne charakteryzują się tym, że rozkład prawdopodobieństwa danej cechy nie jest zwykle znany, a posiadane informacje pozwalają jedynie wyróżnić pewną rodzinę rozkładów
do której ten rozkład należy.
Rozkłady z rodziny P indeksowane są parametrem
należącego do zbioru
zwanego przestrzenią parametrów. Przykładem takiej rodziny rozkładów jest rodzina rozkładów normalnych, którą można zapisać:
i dlatego w tym przykładzie
, natomiast przestrzeń parametrów
.
Celem wnioskowania statystycznego jest wyróżnienie najbardziej wiarygodnej wartości
(jest to zadaniem estymacji punktowej) lub przynajmniej takiego podzbioru przestrzeni
, o którym można powiedzieć, że zawiera
(jest to zadaniem estymacji przedziałowej i testowania hipotez statystycznych). Rozkłady statystyk z próby (średniej, wariancji, frakcji lub wskaźnika struktury), znajomość rozkładów różnych statystyk jest wykorzystywana przy budowie reguł wnioskowania statystycznego.
Tw. Niech X1, X2, . . . Xn będzie ciągiem zmiennych losowych niezależnych, o jednakowym rozkładzie normalnym z parametrami
wówczas statystyka
ma rozkład normalny z parametrami
co zapisujemy w skrócie
Tw. <Twierdzenie Fishera> Jeżeli X1, X2, . . . Xn są niezależnymi zmiennymi losowymi o jednakowym rozkładzie normalnym z parametrami
, to:
zmienne losowe postaci:
zmienna losowa
ma rozkład chi-kwadrat o n-1 stopniach swobody, co zapisujemy w skrócie
zmienna losowa postaci
ma rozkład studenta o n-1 stopniach swobody, co zapisujemy w skrócie
: Sn-1
Tw. (twierdzenia tego używa się do testowania) Jeżeli X1, X2, . . . Xn1 oraz Y1, Y2, . . . Yn2 są niezależnymi zmiennymi losowymi o jednakowym rozkładzie normalnym przy czym:
dla k = 1,2...n1
dla l = 1,2...n2, to: zmienna postaci
,
gdzie
ma rozkład studenta o
stopniach swobody co zapisujemy
Tw. Jeżeli X1, X2, . . . Xn1 oraz Y1, Y2, . . . Yn2 są niezależnymi zmiennymi losowymi o jednakowych rozkładach normalnych z wariancjami
(wartości oczekiwane mogą być dowolne), to zmienna losowa postaci
- wariancja w całej zbiorowosci
ma rozkład Fishera-Snedecora o n1-1, n2-1 stopniach swobody , gdzie
- wariancja z próby, skorygowana (jest zmienną losową)
Tw.Jeżeli X1, X2, . . . Xn są niezależnymi zmiennymi losowymi o rozkładzie normalnym z parametrami
, to zmienne losowe S2 oraz S mają asymptotyczne rozkłady normalne (czyli rozkłady zbieżne do rozkładu normalnego dla
) z następującymi parametrami:
TEORIA ESTYMACJI
Zajmuję się metodami szacowania parametrów rozkładu populacji (tzn. parametrów rozkładu badanej cechy populacji) lub szacowania postaci funkcyjnej określającej ten rozkład np.: szacowanie dystrybuanty.
Estymacja parametryczna to szacowanie nieznanych parametrów rozkładu populacji w przypadku gdy wiemy do jakiej rodziny należy rozkład badanej cechy np.: wiemy, że badana cecha ma rozkład normalnymi chcemy oszacować parametry tego rozkładu.
Estymacja nieparametryczna jeżeli nie znamy klasy rozkładów do której należy rozkład badanej cechy to procesy szacowania parametrów bądź postaci funkcyjnej rozkładu zaliczamy do estymacji nieparametrycznej.
Estymacja punktowa polega na podaniu jednej wartości będącej oszacowaniem danego, interesującego nas parametru populacji. Liczba ta nazywana jest oceną parametru i jest wartością pewnej statystyki, której własności upoważniają nas do wykorzystania jej w celu oszacowania danego parametru. Nosi ona nazwę estymatora tego parametru.
Def. Estymatorem parametru
nazywamy dowolną statystykę, służącą do oszacowania parametru
, której rozkład zależy od tego parametru.
Estymowanie służy do przybliżania prawdziwej wartości parametru. Spośród estymatorów tego samego parametru wybieramy te, które charakteryzują, się pewnymi pożądanymi własnościami. Do własności tych należą:
nieobciążoność
zgodność
efektywność
dostateczność
niezmienniczość
Def. Estymator Tn parametru
jest estymatorem nieobciążonym jeśli zachodzi równość E(Tn)=
Własność nieobciążoności zapewnia otrzymanie ocen parametrów wolnych od błędu systematycznego jeżeli E(Tn)≠
to estymator Tn jest estymatorem obciążonym, a różnica E(Tn) -
to obciążenie estymatora
Jeśli obciążenie jest dodatnie to estymator daje oceny przeciętnie zawyżone w stosunku do rzeczywistej wartości parametru
.
Jeżeli obciążenie jest ujemne to estymator daje oceny przeciętnie zaniżone w stosunku do rzeczywistej wartości parametru
.
Def. Estymatorem asymptotycznie nieobciążonym nazywamy taki estymator Tn parametru
, dla którego zachodzi:
Def. Estymator Tn parametru
, jest estymatorem zgodnym jeśli spełniony warunek:
Oznacza to, że estymator Tn jest stochastycznie zbieżny, czyli zbieżny według prawdopodobieństwa do parametru
(
).
Wynika z tego, że im większa jest próba tym większe jest prawdopodobieństwo dowolnie małej różnicy między wartością estymatora a szacowanym parametrem.
Tw. Jeżeli estymator Tn jest estymatorem niobciążonym lub asymptotycznie nieobciążonym i jeżeli warianvcja tego estymatora spełnia warunek
to estymator Tn jest estymatorem zgodnym.
Własność nioebciążoności i zgodności estymatora parametru
zapewniają oscylowanie wartości estymatora wokół rzeczywistej wartości parametru, ważna jest jednak także wariancja tego estymatora. Związana jest z tym własność efektywności estymatora.
Def.Niech
i
będą nieobciążonymi estymatorami tego samego parametru
. Mówimy, że są one tak samo efektywne jeżeli wariancje tych estymatorów są równe:
Estymator
jest bardziej efektywny od estymatora
, jeżeli zachodzi nierówność:
Twierdzenie < Rao - Cramera >(do badania efektywności estymatorów)
Jeżeli Tn jest estymatorem nieobciążonym parametru
rozkładu populacji, którego funkcja gęstości lub funkcja prawdopodobieństwa jest dwukrotnie różniczkowalna ze względu na parametr
, to
gdzie „f” oznacza funkcję gęstości w przypadku, gdy badana cecha ma rozkład ciągły w populacji, lub funkcję prawdopodobieństwa, gdy cecha ma w populacji rozkład skokowy.
Def.Estymator nieobciążony
jest estymatorem najefektywniejszym parametru
jeżeli w klasie estymatorów nieobciążonych tego parametru ma on najmniejszą wariancję, tzn.:
gdzie
jest dowolnym nieob. est. θ.
------------------------------------------------------
Jeżeli w klasie estymatorów nieobciążonych danego parametru
znany jest estymator najefektywniejszy
oraz jego wariancja
, to można porównywać efektywność dowolnego nieobciążonego estymatora
parametru
z efektywnością estymatora
.
Współczynnik
jest miarą efektywności estymatora Tn
Łatwo zauważyć, że
dla estymatora najefektywniejszego.
Natomiast dla dowolnego innego estymatora nieobciążonego współczynnik ten zawiera się w przedziale <0;1>
------------------------------------------------------
Def. Estymator
parametru
nazywamy estymatorem asymptotycznie najefektywniejszym, jeżeli
Def. Estymator
parametru
nazywamy estymatorem dostatecznym jeżeli funkcja gęstości postaci:
łącznego rozkładu próby X1,X2...Xn można rozłożyć na następujący iloczyn:
KRYTERIUM FAKTORYZACJI
,
gdzie
- jest funkcją wyników próby zależną od wartości estymatora
ale niezależną od szacowanego parametru
.
- jest funkcją gęstości estymatora
W przypadku rozkładu skokowego definicja jest analogiczna. Tylko
oznacza łączną funkcję rozkładu prawdopodobieństwa próby, a
- funkcję rozkładu prawdopodobieństwa estymatora.
W przypadku próby prostej wzór
możemy zapisać
Def. Estymator
parametru
nazywamy estymatorem niezmienniczym względem rodziny przekształceń G, jeżeli dla
spełniony jest warunek:
Przykład:
Średnia arytmetyczna z próby
będąca estymatorem wartości oczekiwanej badanej cechy z populacji generalnej jest estymatorem niezmienniczym względem wszystkich permutacji ciągu X1....Xn ponieważ
METODY WYZNACZANIA ESTYMATORÓW
metoda momentów
metoda najmniejszych kwadratów (MNK)
metoda największej wiarygodności (MNW)
metoda bayessowska
metoda minimaksowa
Metoda momentów
To najstarsza z metod wyznaczania estymatorów. Polega na przyjęciu momentu z próby za oszacowanie odpowiedniego momentu populacji generalnej. Inaczej: Jeżeli szacujemy parametr
, który jest momentem k-tego rzędu badanej cechy populacji generalnej, to za estymator tego parametru przyjmujemy moment tego samego rzędu z próby. Np.: dla oszacowaniamomentu zwykłego pierwszego rzędu badanej cechy w populacji generalnej czyli parametru E(X) bierzemy estymator tego parametru, którym jest pierwszy moment zwykły z próby czyli
. Dla oszacowania k-tego momentu zwykłego cechy X w populacji generalnej, czyli parametru E(Xk) bierzemy odpowiedni k-ty moment zwykły z próby czyli estymator postaci
Metoda momentów daje estymatory zgodne , ale często mało efektywne, a nawet mające małą efektywność asymptotyczną.
Metoda najmniejszych kwadratów
Jest stosowane do wyznaczan iaestymtorów
parametrów funkcji określających zależność
między zmiennymi losowymi (cechami)
Niech h(x;
)będzie funkcją określającą zależności między cechą Y a cechami (X1, X2,...Xp)=X.
Niech ciąg (x1,y1)( x2,y2) ....( xn,yn) stanowi realizację n - elementowej próby prostej pobranej z populacji.
Estymatorem parametru
otrzymanym metodą najmniejszych kwadratów nazywamy taki estymator parametru
,którego wartość (ozn.
) minimalizuje następującą funkcję:
,
tzn, że jeśli wstawię
, to funkcja osiągnie minimum
Własności estymatorów znalezionych tą metodą zależą od postaci funkcji h. Jeżeli jest to funkcja liniowa, to estymatory te są nieobciążone, zgodne i najefektywniejsze w klasie estymatorów liniowych.
Metoda największej wiarygodności.
Estymatorem najwiarygodniejszym (uzyskanym metodą największej wiarygodności) parametru
, jest taka statystyka, dla której tzw. funkcja wiarygodności próby osiąga maksimum.
Funkcją wiarygodności dla n - elementowej próby prostej nazywamy funkcję postaci:
gdzie
f - funkcja gęstości
p - funkcja prawdopodobieństwa
Wynika stąd, że estymatory największej wiarygodności możemy wyznaczyć tylko wtedy, gdy wiemy, do jakiej klasy rozkładów należy rozkład badanej cechy, tzn. znamy ogólną postać funkcji „f” lub „p”, lae nie znamy jej parametru
od którego ta funkcja zależy.
Metoda największej wiarygodności opiera się na spostrzeżeniu, że bardziej prawdopodobne realizują się częściej. Można więc przypuszczać, że zaobserwowane wyniki próby x1,x2,...xn to realizacje najbardziej prawdopodobnego zdarzenia przy danym
.
Szukamy więc takiej wartości
, dla której funkcja wiarygodności osiąga maksimum.
W praktyce zamiast wyznaczać maximum funkcji „L” wyznaczamy maximum funkcji „lnL” (ponieważ obie funkcje maję te same punkty stacjonarne(to samo maximum) a lnL jest łatwiejsza do policzenia).
Własności MNW- estymatorów: są asymptotycznie nieobciążone, zgodne i asymptotycznie najefektywniejsze. Ponadto MNW- estymatory mają rozkład asymptotycznie normalny z parametrami:
Tw. Jeżeli istnieje najefektywniejszy oraz dostateczny estymator parametru
to można go otrzymać metodą MNW
------------------------------------------------------
Estymację punktowa polega na podaniu jednej liczby, zwanej oceną szacowanego parametru, będącej wartością estymatora tego parametru o możliwie dobrych własnościach. Estymacja punktowa jest obarczona z reguły pewnym błędem. Ponieważ najczęściej w praktycznych zastosowaniach estymator Tn badanego parametru
jest zmienną losową ciągłą z czego wynika
(prawdopodobieństwo, że Tn będzie równy
równe jest 0 ).
------------------------------------------------------
ESTYMACJA PRZEDZIALOWA
W estymacji przedziałowej podaje się nie jedną ale pewien zbiór ocen szacowanego parametru, inaczej mówiąc jest to przedział liczbowy, który z zadanym prawdopodobieństwem pokrywa (obejmuje) szacowany parametr
.
Prawdopodobieństwo, że wyznaczony przedział pokrywa szacowany parametr
jest zadawane z góry i określone jest mianem współczynnika ufności oznaczonego symbolem
.Najczęściej
przyjmuje wartość 0,99, nigdy poniżej 0,9)
Jest oczywiste, że im większy przyjmiemy współczynnik ufności, tym większe jest prawdopodobieństwo, że szacowany parametr znajduje się w wyznaczonym przedziale liczbowym (zwanym przedziałem ufności), tym szerszy jest również przedział ufności, tzn. pogarsza się precyzja estymacji przedziałowej.
Dowodzi się, że przeciętnie na krótsze, przy danej liczebności próby, przedziały ufności otrzymuje się gdy wykorzystuje się przy budowie przedziału estymator o największej wiarygodności.
Aby skonstruować przedział ufności dla konkretnego parametru rozkładu populacji, trzeba posłużyć się właściwym dla danego parametru estymatorem Tn o znanym rozkładzie prawdopodobieństwa reprezentowanym przez funkcję prawdopodobieństwa h(tn;
). Przedziały ufności można budować zarówno na podstawie małych prób, gdy znamy dokładny rozkład estymatora Tn jak i na podstawie dużych prób wykorzystując do tego celu rozkład graniczny estymatora Tn.
PRZEDZIAŁ UFNOSCI DLA WARTOSCI SREDNIEJ
Stosunkowo najczęściej szacowanym parametrem rozkładu cechy X w populacji generalnej jest wartość oczekiwana (wartość średnia, E(X),
). Jak wiadomo za najlepszy estymator parametru
jest średnia arytmetyczna z próby. Jest to dla każdego rozkładu populacji estymator nieobciążony i zgodny parametru
. Dokładny rozkład prawdopodobieństwa tego estymatora zależy od rozkładu badanej cechy w populacji generalnej. Natomiast rozkład graniczny (tj. dla dużych prób
) jest jednakowy, niezależny od typu rozkładu cechy X w populacji. Dla dużych prób prostych średnia arytmetyczna
ma zawsze asymptotyczny rozkład normalny z parametrami
, gdzie n - liczebność próby,
- odchylenie standardowe cechy X w populacji generalnej. Na tym granicznym rozkładzie estymatora
opiera się budowę przedziału ufności z dużej próby dla parametru
. Natomiast dla małych prób przedziały ufności dla parametru
buduje się opierając się na dokładnym rozkładzie tego estymatora.
------------------------------------------------------------------------------------------------------------
Wyznaczanie wzoru na przedzial ufnosci dla wartosci sredniej n<30, σ-znana
Załóżmy, że cecha X ma w populacji generalnej rozkład
, gdzie
- jest znane. Srednia arytmetyczna z próby prostej
pobranej z tej populacji ma również rozkład normalny
=
, natomiast statystyka
ma rozkład N(0;1), jest to dokładny (nie graniczny) rozkład tej statystyki.
Przypuśćmy, że chcemy wyznaczyć przedział ufności dla parametru
w tym modelu, przyjmując określoną z góry wartość współczynnika ufności [1-α]. Ponieważ zmienna losowa U ma rozkład normalny standaryzowany więc z tablic tego rozkładu odczytujemy taką liczbę
, aby zachodziło
Podstawmy :
i mamy, że
Otrzymaliśmy wzór na przedział ufności dla parametru
, tj. średniej wartości cechy w populacji o rozkładzie normalnym. Krańce tego przedziału określone są przez następujące zmienne losowe:
- lewy kraniec przedziału
- prawy kraniec przedziału
Warto zauważyć, że przedział ufności ma przy zadanym współczynniku ufności stałą długość równą
. Widać stąd, że przy zwiększaniu współczynnika ufności długość przedziału ufności rośnie, co jest niekorzystnym zjawiskiem (pogorszenie precyzji oszacowania). Może się zdarzyć, że dla stosunkowo małej liczebności próby otrzymany przedział ufności będzie tak szeroki, że starci praktycznie wartość estymacyjną. Można jednak poprawić precyzję oszacowania, zwiększając odpowiednio liczebność próby, ponieważ długość przedziału ufności jest odwrotnie proporcjonalna do liczebności próby..
Zagadnienie wyznaczania minimalnej liczebności próby potrzebnej do otrzymania ustalonej z góry precyzji estymacji przedziałowej dla parametru c rozwiązuje się następująco:
Należy znaleźć taką ;liczebność próby n aby długość przedziału ufności nie przekraczała z góry zadanej liczby, którą oznacza się 2d.
liczbę d nazywamy maksymalnym błędem szacunku.
Przekształcając powyższą nierówność otrzymujemy:
Wyznaczanie wzoru na przedzial ufnosci dla wartosci sredniej n≥30, μ,S-nieznane
Niech X1....Xn będzie próbą prostą pobraną z populacji o rozkładzie
o nieznanych
. Z twierdzenia Fishera wiemy, że statystyka :
, gdzie
;
ma rozkład Studenta o n-1stopniach swobody. Oznaczmy., przez
kwantyl rzędu
tego rozkładu, to jest taką liczbę, dla której:
Wówczas mamy:
- gdzie
jest zadane z góry
1)
Przedział ufności dla parametru
:
(2)
Przedział ten pokrywa parametr
z prawdopodobieństwem
.
Korzystając z faktu, że:
, gdzie
- wariancja skorygowana, stąd równoważny zapis do (1) postaci:
(3)
i równoważny do (2) przedział ufności parametru
jest postaci:
(4)
Rozpiętość przedziału ufności określonego (2) wynosi
, a połowa rozpiętości
. Wielkość tę nazywamy maksymalnym błędem oszacowania. Na podstawie tego wzoru można określić (przynajmniej w przybliżeniu) niezbędną liczebność próby potrzebną, by oszacować parametr
w taki sposób aby maksymalny błąd oszacowania nie przekroczył z góry zadanej wartości d , wymaga to rozwiązania równości :
stąd:
(5)
Stosując analogiczny sposób postępowania w odniesieniu do zapisu (4) otrzymamy następującą nierówność:
(6)
Zauważmy, że wyznaczenie niezbędnej liczebności próby na podstawie nierówności (5) lub (6) wymaga określenia:
wartości kwantyla
wartości warincji z próby
(
).
Obliczeń tych dokonuje się na podstawie
elementowej próby wstępnej.
Wyznaczanie wzoru na przedzial ufnosci dla wartosci sredniej n<30, μ,σ-nieznane
Załóżmy, że badana cecha ma w populacji generalnej dowolny rozkład o nieznanej wartości oczekiwanej
i nieznanej wariancji
. Niech dana będzie próba prosta X1,....,Xn pobrana z tej populacji. Z twierdzenia Lindeberga - Levy'ego wiemy, że zmienna losowa
ma graniczny (standardowy) rozkład N(0;1). Oznacza to, że dla dostatecznie dużej próby rozkład zmiennej losowej U jest w przybliżeniu normalny
. W praktyce przyjmuje się , że przybliżenie to jest zadowalające już dla
. Ponadto ponieważ statystyka
jest estymatorem zgodnym parametru
więc dla dużych n parametr
możemy zastąpić przez
i dalej postępować podobnie jak w MODELU 1. W rezultacie otrzymujemy:
,
gdzie
jest kwantylem rzędu
rozkładu normalnego standaryzowanego N:(0;1) innymi słowy
jest taką liczbą, dla której:
Stąd przedział ufności dla parametru
jest w tym modelu następujący:
================================================================
Wyznaczanie wzoru na przedzial ufnosci dla wariancji ( odchylenia standardowego ) n<30, S2-nieznane
Niech X1,....,Xn będzie próbą prostą z populacji o rozkładzie
, gdzie
są nieznane. Z twierdzenia Fishera wiadomo, że statystyka
ma rozkład chi-kwadrat o n-1 stopniach swobody. Oznaczmy, przez c1 kwantyl rzędu
, a przez c2 kwantyl
tego rozkładu. Innymi słowy c1 jest taką liczbą, dla której:
a c2 , taką, dla której
Liczby c1 , c2 odczytuje się z tablic rozkładu chi-kwadrat. Wówczas mamy:
Z=nS2/σ2 (podstawiamy)
(7)
Korzystając z tego , że
otrzymujemy równoważny do (7) zapis:
stąd przedział ufności dla parametru σ2 jest postaci
lub
Przedział ten pokrywa parametr σ2 z prawdopodobieństwem
.
------------------------------------------------------------------------------------------------------------
Wyznaczanie wzoru na przedzial ufnosci dla wariancji ( odchylenia standardowego ) n≥30, S-znane
Niech X1,....,Xn będzie próbą prostą z populacji o rozkładzie
, gdzie
są znane. Z twierdzenia 9 (drugi wykład) wiadomo, że statystyka S ma asymptotyczny rozkład normalny z parametrami
, co zapisujemy
. Oznacza to, że dla dostatecznie dużej próby
statystyka S ma w przybliżeniu rozkład
, a co za tym idzie statystyka
ma w przybliżeniu N(0;1). Wówczas
Ostatecznie więc przedział ufności dla parametru
(czyli odchylenia standardowego w populacji) jest postaci:
Przedział ten pokrywa parametr
z prawdopodobieństwem
================================================================
Wyznaczanie wzoeu na przedzial ufnosci dla frakcji (wskaźnika struktury)
Rozważmy następujący przykład. Załóżmy, że pewna frakcja „p” wyborców jest zdecydowana poprzeć dane ugrupowanie w najbliższych wyborach. Wartość parametru „p” nie jest jednak znana. Wiemy tylko, że znajduje się w przedziale domkniętym <0;1>.
W celu oszacowania parametru „p” przeprowadzamy ankietę wśród „n” losowo wybranych osób. Ankieta przewiduje odpowiedzi TAK i Nie na pytanie „Czy będziesz na nich głosował?”. Przyporządkowując dla TAK „1” oraz „0” dla NIE. Ciąg zer i jedynek zaobserwowanych w próbie możemy potraktować jako realizację „n” - niezależnych zmiennych losowych X1,X2, . . . Xn , każda o jednakowym rozkładzie zerojedynkowym z parametrem „p”
. Niech „k” oznacza liczbę jedynek w próbie zauważmy, że k jest zmienną losową obrazującą liczbę sukcesów w serii n niezależnych doświadczeń ( serii n losowań ). Zatem k ma rozkład dwumianowy z parametrami n i p.
Tym samym zmienna losowa
ma rozkład dwumianowy postaci:
, co można sprawdzić:
;
Rozkład dwumianowy jest rozkładem dokładnym statystyki
, natomiast jej rozkładem granicznym jest dla
jak wiemy rozkład normalny z tymi samymi parametrami co zapisujemy:
Oznacza to, że statystyka
ma graniczny rozkład normalny N(0,1) co zapisujemy
. Oznacza to innymi słowy, że dla dostatecznie dużej próby (n>100) rozkład zmiennej losowej możemy dostatecznie dobrze przybliżyć do rozkładu normalnego standaryzowanego. Wyznaczymy przedział ufności dla parametru „p” opierając się na rozkładzie granicznym statystyki „U”.
Niech
oznacza kwantyl rzędu
rozkładu normalnego standaryzowanego, tj. taką liczbę, że
mamy więc
po podstawieniu wartości statystyki U mamy, że
Zauważmy, że wyrażenie
jest wariancją statystyki
. W przypadku dużej próby iloraz ten możemy dobrze przybliżyć oszacowaniem próbą:
mamy więc po przekształceniu wzoru powyższego wyrażenie:
stąd przedział ufności
Przedział ten pokrywa parametr „p” z prawdopodobieństwem
. Niezbędną liczebność próby potrzebną do oszacowania parametru „p” z zadanym maksymalnym błędem oszacowania możemy wyznaczyć ze wzoru:
, gdzie
oznaczają przybliżone wartości parametrów p i q ..
W przypadku, gdy wielkości te nie są znane za
przyjmuje się wartość maksymalną
mamy wówczas:
DYSTRYBUANTA EMPIRYCZNA I JEJ PRZEDZIAL UFNOSCI
Niech X będzie zmienną losową o rozkładzie z ciągłą dystrybuantą F(X).
Dystrybuantą empiryczną Fn(X) - odpowiadającą próbie prostej z populacji o ciągłym rozkładzie z dystrybuantą F(X) nazywamy funkcję
gdzie:
oznaczają wartości zrealizowane w próbie, uporządkowane w kolejności niemalejącej
k - oznacza łączną liczbę obserwacji w próbie, które są mniejsze od danej wartości
Funkcja Fn(X) - jest
niemalejąca
lewostronnie ciągła
A więc posiada takie same własności jak dystrybuanta rozkładu prawdopodobieństwa. Dlatego też nazywamy tę funkcję dystrybuantą. Przymiotnik „empiryczna” wskazuje na fakt, że jest zbudowana na podstawie wyników eksperymentu, z więc próby. Dla ustalonej wartości „x” funkcja Fn(X) jest zmienną losową, gdyż dla danego „x” w próbie może być, 0,1,2...n wartości mniejszych od „x”.
W związku z powyższym zmienna losowa Fn(X) ma rozkłąd dwumianowy o funkcji prawdopodobieństwa postaci:
k=1...n
F(x) - prawdopodobieństwo, że pojedyncza obserwacja w próbie jest mniejsza od „x”. Przy budowie obszaru krytycznego korzystamy z twierdzenia Gliwienki.
Tw.Gliwienki: Załóżmy, że populacja generalna jest badana ze względu na cechę X o ciągłej dystrybuancie F(x). Z populacji tej wylosowano próbę prostą x 1 .....x n, której odpowiada ciąg dystrybuant empirycznych Fn(x). Wówczas ciąg dystrybuant empirycznych
przy
jest jednostajnie zbieżny do dysrybuanty F(x) z prawdopodobieństwem 1. Co zapisujemy :
,
gdzie:
- maksymalna odległość między funkcjami.
Rozkład zmiennej
(rozkład dokładny i graniczny) jest znany i stablicowany. Możemy więc tę statystykę wykorzystać do budowy przedziału ufności dystrybuanty F(x). Niech
będzie kwantylem rzędu
rozkładu granicznego statystyki
czyli takiej liczby , dla której:
, mamy więć
a więc:
inaczej można to przedstawić:
Otrzymaliśmy wzór na obszar ufności (pas ufności) dla dystrybuanty F(x). Brzegi tego obszaru są funkcjami schodkowymi.
UWAGA: Jeżeli przy wyznaczaniu przedziału ufności otrzymamy lewy kraniec mniejszy od zera , to przyjmujemy jego wartość równą zero. Natomiast jeśli otrzymamy prawy koniec większy od jedynki, to przyjmujemy za jego wartość jeden.
to są statystyki
są niezależnymi zm. los.