Elementy rachunku prawdopodobieństwa.
Zdarzenie losowe, częstość względna, prawdopodobieństwo, działania na zdarzeniach.
Prawdopodobieństwo warunkowe, prawdopodobieństwo łączne, zdarzenia niezależne.
Zmienne losowe, zmienne ciągłe i dyskretne, rozkład prawdopodobieństwa, dystrybuanta, gęstość prawdopodobieństwa.
Momenty zmiennej losowej ciągłej i dyskretnej, wartość oczekiwana a wartość najbardziej prawdopodobna, wariancja / odchylenie standardowe.
Rozkład normalny, rozkład równomierny, rozkład wykładniczy, parametry rozkładów.
Wielowymiarowe zmienne losowe, gęstość, dystrybuanta, momenty.
Zmienne losowe nieskorelowane, kowariancja, kowariancja unormowana, macierz kowariancji.
Proces stochastyczny, realizacja procesu stochastycznego, gęstość prawdopodobieństwa, wartość oczekiwana, wariancja / dyspersja.
Funkcje korelacji własnej, wzajemnej, unormowana funkcja korelacji wzajemnej procesów stochastycznych.
Stacjonarny proces stochastyczny, własności.
Procesy ergodyczne, hipoteza ergodyczna, własności stochastyczne po czasie i po zbiorze.
Średnie po czasie: wartość oczekiwana, wariancja, funkcja autokorelacji, funkcja korelacji wzajemnej.
Elementy statystyki matematycznej.
Populacja generalna (zbiorowość generalna) - zbiorowość, której elementy (realizacje) obserwujemy.
Próba (zbiorowość próbna) - zaobserwowany zespół elementów zbiorowości generalnej.
Próba losowa - utworzona w sposób losowy zabezpiecza przed tendencyjnością próby.
Statystyka matematyczna - wnioskowanie o (cechach) zbiorowości generalnej na podstawie znajomości próby (dzielimy na estymacje i weryfikacje hipotez statystycznych). Wnioski te są słuszne tylko wtedy, gdy próba jest podobna do zbiorowości generalnej, czyli gdy próba jest reprezentatywna (w przeciwieństwie do tendencyjnej).
Teoria estymacji (szacowania) - wnioskowanie o własnościach rozkładu prawdopodobieństwa zbiorowości generalnej na podstawie próby. Postuluje się znajomość klasy rozkładów, do której należy nieznany rozkład badanej zbiorowości generalnej i na podstawie próby ocenia się, z którym konkretnie rozkładem z zadanej klasy rozkładów mamy doczynienia w badanej zbiorowości generalnej.
Estymacja parametryczna - elementy klasy możliwych rozkładów zbiorowości generalnej mogą różnić się tylko wartościami parametrów, estymuje się wówczas te wartości parametrów.
Estymacja nieparametryczna - elementy klasy możliwych rozkładów zbiorowości generalnej mogą się różnić nie tylko wartościami parametrów lecz także postacią funkcyjną rozkładu, estymacji podlega wówczas cała funkcja rozkładu.
Estymacja punktowa - określa się pewną funkcję próby i wartości tej funkcji przyjmuje się za najlepsze oszacowanie prawdziwej wartości parametru zbiorowości generalnej.
Estymacja przedziałowa - na podstawie próby znajduje się pewien przedział liczbowy, który zawiera w sobie prawdziwą wartości parametru zbiorowości generalnej z przyjętym z góry prawdopodobieństwem.
Zadania weryfikacji hipotez statystycznych - tworzenie reguł umożliwiających rozstrzygnięcie czy dana hipoteza statystyczna jest słuszna czy nie.
Hipoteza statystyczna - przypuszczenie dotyczące nieznanego rozkładu zbiorowości generalnej.
Hipoteza prosta (pojedyncza) - dotyczy jednego konkretnego rozkładu prawdopodobieństwa.
Hipoteza złożona - obejmuje więcej niż jeden rozkład prawdopodobieństwa.
Testy statystyczne wynikają z weryfikacji hipotez, dzielimy je na: parametryczne i nieparametryczne.
Testy parametryczne - do weryfikacji hipotez o nieznanych parametrach rozkładu o znanej postaci funkcyjnej.
Testy nieparametryczne - do weryfikacji hipotez, w których nie ma założeń o postaci funkcyjnej rozkładu.
Przestrzeń prób - zbiór punktów w przestrzeni N-wymiar., gdzie punkt w przestrzeni to próba losowa (x1, x2, ... , xN).
Statystyka (zmienna losowa) - zmienna losowa S będąca funkcją obserwowanej zmiennej losowej wielowymiarowej (X1, X2, ... , XN), której realizacją jest próba (x1, x2, ... , xN): S = f (X1, X2, ... , XN).
Statystyka służy do szacowania parametrów zbiorowości generalnej na podstawie próby. Najważniejsze parametry z próby to wartość oczekiwana z próby i wariancja z próby.
Wartość oczekiwana z próby -
Wariancja z próby -
Rozkład chi-kwadrat
Zmienna losowa
- suma kwadratów N niezależnych zmiennych losowych Xi (i=1,...,N) o jednakowych rozkładach normalnych N(0,1) - zmienne o rozkładzie chi-kwadrat o N stopniach swobody.
Jeden parametr charakterystyczny rozkładu - liczba stopni swobody N. Dla N>>1 rozkład chi-kwadrat upodabnia się do rozkładu normalnego. E (χ2) = N var (χ2) = 2N
Zmienna losowa utworzona z ciągu N niezależnych zmiennych losowych normalnych X1, X2, ... , XN o jednakowych rozkładach N(m, δ) o znanych parametrach m i δ
ma rozkład chi-kwadrat o N stopniach swobody.
Rozkład t-studenta
Zmienna losowa
, przy czym U i
są zmiennymi losowymi niezależnymi stochastycznie, U ma rozkład normalny N(0,1), a
ma rozkład chi-kwadrat o N stopniach swobody , nazywa się zmienną losową t-studenta o N stopniach swobody.
Gęstość prawdopodobieństwa SN(x) zmiennej losowej t-studenta jest zbliżona do gęstości rozkładu normalnego (jest bardziej spłaszczona). Dla N>30 rozkład t-studenta upodabnia się do rozkładu normalnego N(0,1).
Zmienna losowa
ma rozkład t-studenta o (N-1) stopniach swobody.
Rozkład F-Sendecora
Zmienna losowa
, przy czym
i
są zmiennymi losowymi niezależnymi stochstycznie o rozkładach chi-kwadrat odpowiednio o M i N stopniach swobody, ma rozkład F-Sendecora.
Rozkład F-Sendecora ma 2 parametry: M i N.
Estymacja punktowa i przedziałowa, estymator, estymata, estymator nieobciążony i obciążony.
Estymacja punktowa
Rozkład rozpatrywanej zbiorowości generalnej X jest scharakteryzowany za pomocą dystrybuanty F(x; q1,q2,...,qK) o nieznanych parametrach q1,q2,...,qK (np. parametry q1 = m, q2= σ2). Dla próby losowej (x1,x2,...,xk) tworzymy statystyki S1,S2,...,Sk będące funkcjami zmiennej losowej (X1,X2,...,XN) (której realizacją jest próba losowa) Sk = fk(X1,X2,...,XN) =
k=1,...,K
-estymator parametru qk
Wartości statystyk - estymaty parametrów qk
sk=fk(x1, x2,….,xN)=
k-1,…,K
-estymata (ocean) parametru qk
Estymator
- nieobciążony jeśli E(
)=qk
Estymator
-obciążony E(
)
qk
Obciążenie estymatora
:
Estymatory wartości oczekiwanej, wariancji z próby - wersja offline.
Estymator wartości oczekiwanej m zbiorowości generalnej X o dystrybuanci F(x,m):
estymator
-wartość oczekiwana z próby
- estymator nieobciążony wartości oczekiwanej m
E(
)=
estymator wariancji
zbiorowości generalnej X o dystrybuancie F(x,
).
- estymator obciążony
obciążenie:
- obciążenie ujemne ->estymator daje przeciętnie zbyt małe oszacowania parametru
estymator nieobciążony wariancji
uwaga: jeśli wartość oczekiwana m=E(X) jest znana (a nie estymowana jako
) to estymator wariancji
jest nieobciążony.
Estymator
- efektywny jeśli ma małą wariancję (rozrzut ocen
parametru qk jest mały)
Przedział ufności, poziom ufności, szacowanie przedziału ufności dla wartości oczekiwanej i wariancji.
Estymacja przedziałowa
Przedział ufności dla parametru qk - taki przedział liczbowy domknięty o którym z założonym z góry prawdopodobieństwem (1-α) można twierdzić, że zawiera on parametr qk. Dla przedziału ufności :
gdzie α=const. Zwykle α=0.05 lub α=0.01.
Prawdopodobieństwo (1-α) - poziom ufności.
Konkretnej realizacji (x1,x2,….,xN) zmiennej losowej (X1,X2,…,XN) przy zadanym przedziale ufności (1-α) odpowiada przedział
. Innej realizacji będzie odpowiadał na ogół odpowiedni inny przedział. Granice przedziału dla oszacowania parametru qk są zmiennymi losowymi.
długość przedziału ufności
dla parametru qk także jest zmienną losową.
Jeżeli poziom ufności (1-α) bliski 1 to duże prawdopodobieństwo, że w przedziale ufności jest zawarta prawdziwa wartość parametru qk.
α - prawdopodobieństwo popełnienia błędu.
Im większa liczba obserwacji N w próbie, tym węższe są przedziały ufności.
Szacowanie przedziału ufności dla wartości oczekiwanej zbiorowości generalnej X o rozkładzie normalnym N(m,σ).
Wartość średnia
ma rozkład normalny
. Zmienna losowa unormowana
ma rozkład normalny N(0,1).
Z tablic dystrybuanty rozkładu normalnego N(0,1) można znaleźć K takie, że:
Przedział ufności dla wartości oczekiwanej m na poziomie ufności (1-α) :
- gdy znamy dystrybuantę σ lub gdy N jest bardzo duże i można zamiast σ przyjmować ocenę dyspersji SN.
Jeśłi tak nie jest - można wyznaczyć przedział ufności posługując się zmienną losową
o rozkładzie Studenta o (N-1) stopniach swobody.
Szacowanie przedziału ufności dla wariancji σ2 zbiorowości generalnej X o rozkładzie normalnym N(m,σ) - w oparciu o zmienną losową
która ma rozkład chi kwadrat o (N-1) stopniach swobody.
Na podstawie tablic dystrybuanty rozkładu chi-kwadrat o (N-1) st.swob. - wyznacza się dwie liczby K1 i K2 (patrz rysunek) takie, że:
przy czym zwykle przyjmuje się
(**)
Przedział ufności dla estymatora o rozkładzie chi kwadrat na poziomie istotności α
Po przekształceniu (**) otrzymujemy przedział ufności dla wariancji σ2 na poziomie ufności (1-α)
.
Testy statystyczne, hipoteza zerowa, hipoteza alternatywna.
Weryfikacja hipotez statystycznych polega na podjęciu decyzji o przyjęciu lub odrzuceniu hipotezy.
Hipoteza zerowa - sprawdzana hipoteza mówiąca, że wartość nieznanego parametru q rozkładu zbiorowości generalnej X wynosi q0
H0 : q=q0
Hipotezy przciwstawne - hipotezy alternatywne H1 : q=q1
Hipoteza zerowa - sprawdzana na podstawie N-elementowej próby (x1, x2,..., xN), będącej realizacją zmiennej losowej (X1, X2, ... XN).
Tworzymy statystykę
-estymator nieznanego parametru q.
Jeżeli wartość
(estymata) - niewiele różna od wartości q0 , to hipoteza jest bardzo wiarygodna. Jeżeli
znacznie odbiega od q0 - hipoteza mało wiarygodna.
Test - pewna funkcja określona na przestrzenie próby; wartościami tej funkcji są decyzje d0 i d1 orzekające „przyjąć hipotezę H0” lub „odrzucić hipotezę H0”.
Statystyka
przekształca wielowymiarową przestrzeń próby w jednowymiarową przestrzeń statystyki. Przestrzeń statystyki można podzielić na dwa dopełniające się obszary Ω0 i Ω1. Zbiór Ω0 wartości
bliskich wartości q0 - obszar przyjęcia hipotezy H0 ; zbiór Ω1 wartości
odległych od wartości q0 - obszar odrzucenia hipotezy H0 , albo obszarem krytycznym.. Decyzja d o przyjęciu lub odrzuceniu hipotezy H0 - zgodnie ze wzorem:
Wartość
-została wyznaczona na podstawie próby losowej, dlatego przy podejmowaniu decyzji możliwe jest popełnienie błędu.
Błąd I rodzaju, błąd II rodzaju, moc testu, poziom istotności testu.
Błąd I rodzaju - polega na odrzuceniu prawdziwej hipotezy zerowej. Jego prawdopodobieństwo wynosi:
Inaczej jest to prawdopodobieństwo przyjęcia decyzji o hipotezie H1 przy hipotezie prawdziwej H0
Błąd II rodzaju - błąd polegający na przyjęciu fałszywej hipotezy alternatywnej, a jego prawdopodobieństwo wynosi:
Jednoczesna minimalizacja opbu prawdopodobieństw błędów jest niemożliwa, dlatego zwykle z góry ustalamy prawdopodobieństwo α na ustalonym poziomie 0.05 lub 0.01 i następnie spośród możliwych obszarów krytycznych Ω1 spełniających warunek
wybieramy taki obszar, dla którego prawdopodobieństwo α popełnienia błędu II rodzaju będzie mniejsze.
gdzie Ω=Ω0 + Ω1 (przestrzeń statystyki)
Moc testu - prawdop. odrzucenia sprawdzonej hipotezy H0 w przypadku gdy jest prawdziwa hipoteza alternatywna H1, czyli prawdop. przyjęcia hipotezy alternatywnej H1 gdy jest ona prawdziwa :
Najleprzy test - najmocniejszy.
Poziom istotności testu - prawdop. α, określające prawdopodobieństwo przypadkowego odrzucenia prawdziwej hipotezy zerowej H0
Testy istotności, testy parametryczne, testy nieparametryczne.
Estymatory rekursywne (online) wartości oczekiwanej i wariancji z próby.
Estymatory adaptacyjne wartości oczekiwanej i wariancji z próby.
Analiza regresywna.
Zależność stochastyczna, korelacja, regresja, funkcja regresji I i II rodzaju.
Regresja liniowa - przykłady liniowych funkcji regresji dla obiektów liniowych i nieliniowych.
Metoda najmniejszych kwadratów - wersja offline.
Obciążenie estymatora według metody najmniejszych kwadratów, macierz kowariancji, wybuch macierzy kowariancji.
Badanie istotności statystycznej modelu.
Metoda uogólnionych najmniejszych kwadratów - wersja offline.
Estymator rekursywny (online) według metody najmniejszych kwadratów, „nasycenie estymatora”.
Estymator adaptacyjny według metody najmniejszych kwadratów, adaptacja przez zapominanie wykładnicze.
U
K
-K
1-α
1-α
α/2
α/2
x
hN(x)