Wykłady Trzpiot, statystyka matematyczna(1)


Próba jest taką częścią populacji, że rozkład wartości cechy w próbie reprezentatywnej jest zbliżony do rozkładu wartości cechy w populacji.

Próba jest reprezentatywna, jeżeli struktura jednostkowa statystyki w próbie odpowiada strukturze populacji.

Rozkładem populacji generalnej nazywamy rozkład badanej cechy populacji.

Próbą prostą o liczebności n-elementowej wylosowaną ze skończonej lub nieskończonej populacji nazywa się próbę losową, której wyniki są niezależnymi zmiennymi losowymi o jednakowych rozkładach identycznych z rozkładem populacji.

Twierdzenie Gliwienki

Niech F(x) oznacza dystrybuantę teoretyczne natomiast Gn(x) dystrybuantę wart. Cechy w n-elementowej próbie. Jeżeli wyniki losowania elementów do próby są zdarzeniami niezależnymi wówczas:

0x01 graphic

Próba prosta to n-wymairowa zmienna losowa (wektor losowy) X=(X1,X2,...,Xn) taka, że:

  1. X1,...,Xn są niezależnymi zmiennymi losowymi

  2. Każda zmienna losowa Xi (i-ty wynik w próbce) ma rozkład identyczny z rozkładem populacji.

Realizacją próby X nazwiemy wektor x realizacji zmiennej losowej X1,...,Xn tworzących próbę:

Zakładamy, że przestrzeń prób X jest mierzalna:

- można zbudować z jej elementów ciało zd. A

- można określić na nim miarę parabilistyczną P charakteryzującą rozkład prób.

Z przestrzenią prób wiążemy przestrzeń propabilistyczną (X,A,P), na której możemy określić zmienne losowe zwane statystykami.

0x08 graphic

ROZKŁAD GAMMA

0x01 graphic
dla x>0, b,p>0

0x01 graphic
Wartości tej całki są stablicowane. Wiadimo, że:

0x01 graphic

0x01 graphic

Dla rozkładu Gamma zachodzi tw. o addytywności - suma niezależnych zmiennych losowych o rozkładach Gamma ma rozkład Gamma

Dla szczególnych wartości parametrów:

1) 0x01 graphic
oraz 0x01 graphic
mamy: rozkład wykładniczy 0x01 graphic
0x01 graphic
>0, x>0

2) 0x01 graphic
oraz 0x01 graphic
(k0x01 graphic
N) mamy: rozkład Chi2

ROZKŁAD CHI2

Niech Z1,...,Zn ~ N(0,1) i są niezależne, wówczas każda zmienna losowa będąca sumą ich kwadratów ma rozkład χ2 o n-stopniach swobody.

0x01 graphic
dla χ2 > 0

0x01 graphic
rozkład prawostronnie symetryczny

Siła asymetrii f. gęstości maleje wraz ze wzrostem stopni swobody.

Twierdzenie

Rozkład χ2 przy dużej liczbie swobody (n→∞) jest zbieżny do rozkładu normalnego:

0x01 graphic
gdy n→∞

Jeżeli U jest wektorem o n-wymiarowym rozkładzie normalnym N(O,I) to forma kwadratowa UTAU ma rozkład χ2 o liczbie stopni swobody równej rzędowi r(A).

Dla rozkładu χ2 zachodzi tw. o addytywności.

0x08 graphic

ROZKŁAD t-STUDENTA

Zmienną losową o rozkładzie t-Studenta o n stopniach swobody definiujemy jako:

0x01 graphic

gdzie Z-N(0,1) oraz X2- χ2 o n-stopniach swobody. Zmienne Z i X są niezależne:

0x01 graphic

Rozkład symetryczny: 0x01 graphic

Dla szczególnej wartości parametru n=1 mamy: rozkład CAUCHEGO

0x01 graphic
- nie istnieją momenty skończone tego rozkładu!!!

0x08 graphic

ROZKŁAD F.SNEDECORA

Zmienne losowe o rozkładzie F.Snedecora o n i p stopniach swobody to:

0x01 graphic
gdzie: X,Y χ2 o n i p stopniach swobody

Zmienne X i Y są niezależne.

0x01 graphic
rozkład prawostronnie asymetryczny

Jeżeli zmienna t ma rozkład Studenta z k-stopniami swobody to zmienna losowa F=t2, ma rozkład F.Snedecora o n=1 i p=k stopniach swobody.

Jeżeli p→∞ to zmienna losowa nF ma graniczny rozkład χ2 o n-stopniach swobody.

Z definicji rozkładu F.Snedecora wiemy, że zmienna: 0x01 graphic
ma rozkład F.Snedecora o p i n stopniach swobody.

Twierdzenie graniczne np. Lindberga - Levy'ego

Jeżeli dana ciągła zmienna losowa X ma rozkład o funkcji gęstości f(x) i jeżeli g(x) jest pewną monotoniczną i różniczkowalną funkcją, a h jest funkcją do niej odwrotną, to zmienna losowa Y=g(x) ma rozkład określony funkcją:

0x01 graphic
, gdzie x=h(y)

0x08 graphic

ESTYMACJA

Niech X=(X1,...,Xn) będzie n-elementową próbą prostą wylosowaną z populacji o rozkładzie F(x;Θ). Niech Tn = g(x) będzie dowolną statystyką. Estymatorem nazwiemy taką statystykę, której rozkład zależy od szacowanego parametru:

Tn(X1,X2,...,Xn; Θ)

Ocena parametru Θ to wartość estymatora Tn dla próby statystycznej x1,...,xn

Tn(x1,...,xn)=tn

Błąd szacunku - zmienna losowa:

Tn(X1,X2,...,Xn; Θ)- Θ =...

Standardowy błąd szacunku:

0x01 graphic

Wynik estymacji:

tn ± D(Tn)

Własności estymatorów gwarantujące małe błędy szacunku:

- nieobciążoność

- efektywność

- zgodność

- dostateczność

Estymator nieobciążony jest najefektywniejszy, jeżeli wśród wszystkich estymatorów nieobciążonych tego parametru ma najmniejszą wariancję.

Odwrotność wariancji estymatora nazywa się jego precyzją.

Błąd średniokwadratowy estymatora

MSE(Tn) = D2(Tn) + [B(Tn)]2

MSE(Tn) = E(Tn - Ө)2 - błąd średniokwadratowy estymatora (ang. Mean Square Error)

0x01 graphic
jest miara estymacji i informuje, o ile przeciętnie wartości estymatora odchylają się od rzeczywistej wartości estymatora.

Czym mniejszy MSE (pierwiastek z MSE) tym większa dokładność.

D2(Tn) = E(Tn - E(Tn))2 - wariancja estymatora (0x01 graphic
- średni błąd szacunku estymatora)

D(Tn) jest miarą precyzji estymacji i informuje, o ile przeciętnie wartości estymatora odchylają się od wartości oczekiwanej estymatora.

Czym mniejsza wariancja (średni błąd szacunku) tym większa precyzja.

B(Tn) = E(Tn) - Ө - obciążenie estymatora

Gdy obciążenie estymatora wynosi zero to estymator jest nieobciążony, czyli oszacowania nie są obciążone błędem systematycznym.

UWAGA!!!

Jeśli estymator Tn jest nieobciążony (czyli gdy E(Tn) = Y) wówczas MSE(tn) = D2(Tn) i przy interpretacji błędu szacunku D(tn) można skorzystać z interpretacji pierwiastka błędu średniokwadratowego 0x01 graphic
.

Własności estymatorów

Estymator nazywa się nieobciążonym, jeśli E(Tn) = Ө (czyli B(Tn) = 0).

Estymator nazywa się asymptotycznie nieobciążonym, jeśli 0x01 graphic

Estymator nazywa się zgodnym, jeśli 0x01 graphic
przy każdej dowolnie małej wartości є.

Nieobciążony estymator Tn* nazywamy efektywnym jeśli ma najmniejszą wariancję ze wszystkich estymatorów należących do klasy estymatorów nieobciążonych.

Wskaźnik efektywności estymatora Tn (gdzie Tn* jest estymatorem efektywnym):

0x01 graphic

0x08 graphic

Twierdzenie. Nierówność Rao-Cramera.

Jeżeli Tn jest estymatorem nieobciążonym parametru Θ rozkładu populacji spełniającego warunek regularności (różniczkowalność względem Θ przynajmniej 2 rzędu) to jego wariancja D2(Tn) spełnia nierówność:

0x01 graphic

dla rozkładu ciągłego populacji z funkcją gęstości f(x,Θ) lub

0x01 graphic

dla skokowego rozkładu populacji z funkcją prawdopodobieństwa p(x, Θ)

Prawa strona określa wariancję estymatora najefektywniejszego (kres dolny zbioru).

0x08 graphic

Estymator Tn parametru Θ nazywa się dostatecznym jeżeli można ze względu na niego dokonać faktoryzacji (rozłożenia na iloczyn) łącznej funkcji gęstości f(x) wektora wyników próby x=(x1,…,xn).

f(x, Θ) = h(Tn, Θ) * g(x, Tn)

gdzie g(x, Tn) jest funkcją niezależną od parametru Θ.

Najczęściej łączną funkcję gęstości dla prób prostych zapisujemy jako:

0x01 graphic

wówczas dla estymatora dostatecznego zachodzi:

0x01 graphic

Funkcja informacyjna (Fishera) rozkładu zmiennej losowej Y określonej funkcją gęstości Φ(y) nazywamy wyrażenie:

0x01 graphic

Równość faktoryzacyjną po zlogarytmizowaniu można zapisać:

0x01 graphic

różniczkując po Θ mamy:

0x01 graphic

Estymator dosteczny skupia wszystkie informacje o pararametrze Θ zawarte w próbie losowej.

Twierdzenie.

Warunkiem koniecznym na to, by estymator nieobciążony Tn parametru Θ był estymatorem najefektywniejszym jest, by był to estymator dostateczny parametru Θ.

Warunkiem dostatecznym jest zachodzenie równości:

0x01 graphic
gdzie, c nie zależy od Θ.

0x08 graphic

Metody estymacji:

    1. Metoda momentów

    2. Metoda największej wiarygodności

    3. Metoda najmniejszych kwadratów

METODA MOMENTÓW - dla dużych prób!

Estymator parametru Θ będącego pewnym momentem rzędu r populacji jest odpowiednim momentem z próby.

Estymatory uzyskiwane tą metodą są: zgodne, obciążone, nieefektywne.

METODA NAJWIĘKSZEJ WIARYGODNOŚCI (MNW)

Pozwala na znalezienie parametrów w takich rozkładach populacji, których postać funkcyjna jest znana.

Wiarygodnością (funkcją wiarygodności) n-elementowej próby prostej nazywamy wyrażenie postaci:

0x01 graphic

f(xi, Θ) - jest funkcją gęstości

p(xi, Θ) - jest funkcją prawdopodobieństwa

Θ - jest pojedynczym parametrem lub wektorem parametrów

Estymatorem najwiarygodniejszym nazywamy taki estymator Tn= Θ parametru Θ, że jego wartości maksymalizuje wiarygodność próby.

0x01 graphic

W praktyce znajdujemy ekstremum funkcji ln α (ekstremum jest w tym samym punkcie, co dla α, a różniczkowanie jest łatwiejsze)

- dla próby prostej α, to iloczyn ln α jest sumą.

Twierdzenie

Jeżeli istnieje najefektywniejszy oraz dostateczny estymator parametru Θ, to można je otrzymać MNW.

Twierdzenie.

Jeżeli Tn jest najwiarygodniejszym estymatorem parametru Θ w ciągłym rozkładzie populacji, to estymator ten (dla dużych prób) ma rozkład asymptotycznie normalny.

0x01 graphic

Twierdzenie.

Jeżeli 0x01 graphic
jest najwiarygodniejszym estymatorem parametru Θ, a Q=g(Θ) jest innym parametrem, będącym monotonicznym przekształceniem parametru Θ, to najwiarygodniejszym jego estymatorem jest 0x01 graphic

Własności estymatorów uzyskiwanych MNW:

- asymptotyczna nieobciążoność

- zgodność

- asymptotyczne efektywność

- niezmienność względem monotonicznych przekształceń

METODA NAJMNIEJSZYCH KWADRATÓW

Stosowana do estymacji parametrów funkcji wyrażających różne zależności pomiędzy zmiennymi losowymi, których łączne obserwacje stanowią wyniki próby z wielowymiarowej populacji.

Metoda ta polega na takim dobraniu szacowanych parametrów, że suma kwadratów odchyleń empirycznych wartości danej funkcji od jej szacowanych wartości była minimalna.

Niech g(x, Θ) będzie pewną funkcją w wielowymiarowym rozkładzie wektora losowego, którego obserwacje (xi,yi) dla i=1,2,…,n elementową próbę prostą.

Estymatorem otrzymanym MNK nazywamy taki estymator wektora Θ funkcji g, którego wartości, czyli wektor:

0x01 graphic

Należy rozwiązać układ równań

0x01 graphic
układ równań minimalnych w MNK.

Najczęściej MNK stosowana jest do szacowania parametrów takiej funkcji g, że jest ona funkcją regresji Y względem wektora zmiennych X w wielowymiarowym rozkładzie (Y,X).

Do liniowej funkcji g estymatory uzyskane MNK są:

zgodne, nieobciążone, najefektywniejsze (w klasie estymatorów liniowych).

0x08 graphic