Empiryczny rozkład prawdopodobieństwa
Statystyka matematyczna
Próba
Statystyka
Rozkład χ2
Statystyka t Studenta
Rozkłady graniczne momentów z próby
Częstość
Dystrybuanta empiryczna
Histogram empiryczny, szereg rozdzielczy
Statystyka matematyczna
Statystyka matematyczna używa teorii prawdopodobieństwa do wnioskowania o własnościach całej zbiorowości zwanej populacja generalną na podstawie wyników uzyskanych z próby stanowiącej zaobserwowaną część badanej zbiorowości.
Próba
Wybieramy z populacji generalnej n elementów i obserwujemy wartości x1, x2, …, xn interesującej nas cechy np. wagę złowionych ryb.
Cecha X elementów populacji generalnej jest zmienną losową. Wybrane n elementów tworzy wektor losowy [X1,X2,…,Xn] którego wartościami są wszystkie możliwe n-elementowe zbiory wartości obserwacji xk.
Wszystkie możliwe wektory losowe [X1,X2,…,Xn] tworzą przestrzeń prób losowych, próba losowa x1, x2, …, xn to punkt w tej przestrzeni.
Próby otrzymane losową metoda wyboru nazywamy próbami losowymi,
Statystyka
Statystyką nazywamy zmienna losową będącą funkcją obserwowanego wektora losowego [X1,X2,…,Xn] np. średnia
$$\overset{\overline{}}{X} = \frac{1}{n}\sum_{i = 0}^{n}X_{i}$$
Wyznaczenie dokładnego rozkładu statystyki ma znaczenie dla małych prób, dla dużych prób wyznaczamy rozkład graniczny n → ∞
Statystyka $\overset{\overline{}}{X} = \frac{1}{n}\sum_{i = 0}^{n}X_{i}$
średnia arytmetyczna n niezależnych zmiennych Xi i = 1, 2, …, n o identycznych rozkładach normalnych N(m, σ) jest zmienną losową o rozkładzie normalnym $\mathbf{N}\left( \mathbf{m,\ \sigma/}\sqrt{\mathbf{n}} \right)$
Rozkład χ2 (chi kwadrat)
Suma kwadratów n niezależnych zmiennych losowych Xi i = 1, 2, …, n o identycznych rozkładach N(0,1) ma rozkład χn2 Helmerta ( rozkład Chi-kwadrat o n stopniach swobody)
$\chi_{n}^{2} = \sum_{i = 1}^{n}{X_{i}^{2};}\text{\ \ E}\left( \chi_{n}^{2} \right) = n;\ \ \ \ D^{2}\left( \chi_{n}^{2} \right) = 2$
Wyznaczymy rozkład statystyki Y będącej średnim kwadratem n niezależnych zmiennych losowych Xi i = 1, 2, …, n o rozkładach N(0,σ)
$$Y = \frac{1}{n}\sum_{i = 1}^{n}X_{i}^{2} = \frac{\sigma^{2}}{n}\chi_{n}^{2};\ \ E\left( Y \right) = \sigma^{2};\ \ D^{2}\left( Y \right) = \frac{{2\sigma}^{4}}{n}$$
Zmienna losowa $\sqrt{2\chi_{n}^{2}}$ ma rozkład asymptotyczny normalny $N\left( \sqrt{2n - 1,1} \right)$
Niecentralny χn, δ2
Niech Xi i = 1, 2, …, n będą niezależnymi zmiennymi losowymi o rozkładach N(mi,1) wówczas zmienna losowa
$$U = \sum_{i = 1}^{n}X_{i}^{2}$$
ma rozkład niecentralny χn, δ2 o n stopniach swobody i parametrze niecentralności $\delta^{2} = \sum_{i = 1}^{n}m_{i}^{2}$
Można wykazać, że zmienna losowa U jest sumą dwóch niezależnych zmiennych losowych U = Y2 + Z
gdzie zmienna Y ma rozkład N(δ,1) a zmienna Z ma rozkład χn − 12
E(U) = n + δ2 D2(U) = 2n + 4δ2
Łączy rozkład statystyk $\overset{\overline{}}{\mathbf{X}}\mathbf{,S}$
$$\overset{\overline{}}{X} = \frac{1}{n}\sum_{i = 0}^{n}X_{i};\ \ \ \ S^{2} = \frac{1}{n}\sum_{i = 1}^{n}\left( X_{i} - \overset{\overline{}}{X} \right)^{2}$$
Jeżeli niezależne zmienne losowe Xi i = 1, 2, …, n o mają identyczne rozkłady normalne N(m, σ) to zmienne losowe $\overset{\overline{}}{\mathbf{X}}\mathbf{,S}$ są niezależne: zmienna $\overset{\overline{}}{\mathbf{X}}$ ma rozkład $\mathbf{N}\left( \mathbf{m,\ \sigma/}\sqrt{\mathbf{n}} \right)$ a zmienna S2/σ2 ma rozkład χn − 12
Zauważmy, że praktyczne stosowanie tych rozkładów wymaga znajomości parametrów populacji m oraz σ.
Statystyka t Studenta
$$t = \frac{\overset{\overline{}}{X} - m}{S}\sqrt{n - 1}$$
Statystyka t-Studenta zastępuje $\overset{\overline{}}{\mathbf{X}}$ gdy znamy wartość m a nie znamy wartości σ
Rozkłady graniczne momentów z próby
Niech X1, X2, …, Xn będą niezależnymi zmiennymi losowymi o tym samym rozkładzie.
Momentem zwykłym z próby nazywamy
$$\mathbf{A}_{\mathbf{k}}\mathbf{=}\frac{\mathbf{1}}{\mathbf{n}}\sum_{\mathbf{i = 1}}^{\mathbf{n}}\mathbf{X}_{\mathbf{i}}^{\mathbf{k}}$$
$$\mathbf{E}\left( \mathbf{A}_{\mathbf{k}} \right)\mathbf{=}\frac{\mathbf{1}}{\mathbf{n}}\sum_{\mathbf{i = 1}}^{\mathbf{n}}{\mathbf{E}\left( \mathbf{X}_{\mathbf{i}}^{\mathbf{k}} \right)}\mathbf{=}\frac{\mathbf{1}}{\mathbf{n}}\sum_{\mathbf{i = 1}}^{\mathbf{n}}{\mathbf{E}\left( \mathbf{X}^{\mathbf{k}} \right)\mathbf{=}\mathbf{m}_{\mathbf{k}}}$$
Momentem centralym z próby nazywamy
$$\mathbf{B}_{\mathbf{k}}\mathbf{=}\frac{\mathbf{1}}{\mathbf{n}}\sum_{\mathbf{i = 1}}^{\mathbf{n}}\left( \mathbf{X}_{\mathbf{i}}\mathbf{-}\mathbf{A}_{\mathbf{1}} \right)^{\mathbf{k}}$$
$$\mathbf{E}\left( \mathbf{B}_{\mathbf{k}} \right)\mathbf{=}\frac{\mathbf{1}}{\mathbf{n}}\sum_{\mathbf{i = 1}}^{\mathbf{n}}{\mathbf{E}\left( \left( \mathbf{X}_{\mathbf{i}}\mathbf{- E}\left( \mathbf{A}_{\mathbf{1}} \right) \right)^{\mathbf{k}} \right)}\mathbf{= =}\frac{\mathbf{1}}{\mathbf{n}}\sum_{\mathbf{i = 1}}^{\mathbf{n}}{\mathbf{E}\left( \left( \mathbf{X -}\mathbf{m}_{\mathbf{1}} \right)^{\mathbf{k}} \right)\mathbf{=}\mathbf{\mu}_{\mathbf{k}}}$$
Częstość
Stosunek m/n liczby przypadków sprzyjających (np. należących do zbioru zdarzeń elementarnych odpowiadającemu badanemu zdarzeniu) do ogólnej liczby przypadków n
Jest empirycznym analogiem wyznaczania prawdopodobieństwa według klasycznej definicji.
Dystrybuanta empiryczna Sn(x)
przedstawia częstość wystąpienia xi < x
Sn(x) jest dla każdego x zmienną losową.
Jeżeli wartości próby uporządkujemy x1 ≤ x2 ≤ … ≤ xn
to Sn(x≤x1) = 0 Sn(x>xn) = 1
w pozostałych punktach $S_{n}\left( x \right) = \frac{m}{n}$ gdzie m jest najwyższym wskaźnikiem dla którego zachodzi xm < x
Histogram empiryczny, szereg rozdzielczy
Punktowy – zmienna dyskretna ( rozkład empiryczny )
Przedziałowy – zmienna ciągła
5<Liczba przedziałów klasowych<20