Statystyka matematyczna posługuje się rachunkiem prawdopodobieństwa i tworzy metody uzyskiwania, gromadzenia i przetwarzania danych statystycznych w celu otrzymania wniosków naukowych i praktycznych. W statystyce występują dwa główne kierunki badań: statystyka opisowa i statystyka indukcyjna. Statystyka opisowa zajmuje się gromadzeniem, systematyzacją i przedstawianiem danych w wymaganej formie. Statystyka indukcyjna na podstawie danych pozwala ocenić ich parametry oraz sformułować określone wnioski względem obiektów które charakteryzują zebrane dane.
Przykład 1. W próbie losowej prostej zawierającej n=200 elementów Xi Xmax = 50, 970 a Xmin = 50, 927. Obliczy długość klasy. R = Xmax − Xmin = 0, 043 $\left( i \right) = \frac{R}{1 + 3,2lgn}$
Przykład 2. Woltomierzem którego błąd systematyczny jest w praktyce równy zeru, wykonano 5 niezależnych pomiarów napięcia U. Wyznaczyć estymaty odchylenia standardowego wyników pomiaru U dla: a) U=Uo=2800mV b) nieznanej wartości mierzonej U z wykorzystaniem nieobciążonego estymatora wariancji SU2 Pierwsza sytuacja:
$\sigma_{U} = \sqrt{\frac{1}{n}\sum_{i = 1}^{n}\left( u_{i} - u_{0} \right)^{2}}$ $\sigma_{U} = \sqrt{\frac{1}{5}\sum_{i = 1}^{n}\left( u_{i} - 2800 \right)^{2}} = 35,9mV$ Druga sytuacja: $\overset{\overline{}}{u} = \frac{1}{5}\sum_{i = 1}^{5}{u_{i} = 2809mV}$ $S_{U} = \sqrt{\frac{1}{n - 1}\sum_{i = 1}^{n}\left( u_{i} - \overset{\overline{}}{u} \right)^{2}} = \sqrt{\frac{1}{4}\sum_{i = 1}^{5}\left( u_{i} - 2809 \right)^{2}} = 38,8mV$
Przykład 3. Z generalnej zbiorowości małej liczności N=100 o parametrach μx = 100 i σ2x = 25 należy pobrać bez zwracania próbkę losową o liczności n, aby odchylenie standardowe estymatora wartości oczekiwanej nie przekraczało 1% wartości oczekiwanej. Należy obliczyć n. $\frac{S_{\overset{\overline{}}{x}}}{\mu_{x}} = 0,01\ \ \ \ \ \ \ \ S_{\overset{\overline{}}{x}} = 0,01*\mu_{x} = 1\ \ \ \ \ \ n = \frac{N*{\sigma_{x}}^{2}}{{S_{\overset{\overline{}}{X}}}^{2}\left( N - 1 \right) + \sigma^{2}x} = 21$
Przykład 4. Dla rozkładu dwupunktowego cechy X, podczas badania n-elementowej próby otrzymano k wartości X1 i n − k wartosci X2. Należy wyznaczyć estymator parametru p metodą największej wiarygodności.
Funkcja wiarygodności przyjmuje postać: L(p) = pk(1 − p)n − k
$\frac{d\lbrack lnL\left( p \right)\rbrack}{\text{dp}} = \frac{d}{\text{dp}}\left\lbrack klnp + \left( n - k \right)\ln\left( 1 - p \right) \right\rbrack = \frac{k}{p} - \frac{n - k}{1 - p}$ $\hat{p} = \frac{k}{n}$
Przykład 5. W n-elementowej próbie losowej pobranej z populacji generalnej o rozkładzie N(x; μx; σx) otrzymano wartości x1,x2...xn. Należy wyznaczyć estymatory parametrów μx i σx
L(x; μx; σx)=$\frac{1}{\sigma_{x}^{n}{(\sqrt{2\pi})}^{n}}\exp\left\lbrack - \frac{1}{2\sigma_{x}^{n}}\sum_{i = 1}^{n}\left( x_{i} - \mu_{x} \right)^{2} \right\rbrack$ $\text{lnL}\left( x;\mu_{x};\sigma_{x} \right) = - \text{nln}\sigma_{x} - \text{nln}\sqrt{2\pi} - \frac{1}{2{\sigma_{x}}^{2}}\sum_{i = 1}^{n}\left( x_{i} - \mu_{x} \right)^{2}$
$\frac{\partial lnL(x;\mu_{x};\sigma_{x})}{\partial\mu_{x}}$=0, $\frac{\partial lnL(x;\mu_{x};\sigma_{x})}{\partial\sigma_{x}} = 0$ $\sum_{i = 1}^{n}{\left( x_{i} - \mu_{x} \right) = 0}$ $\frac{1}{{\sigma_{x}}^{2}}\sum_{i = 1}^{n}{{(x_{i} - \mu_{x})}^{2} = n}$ ${\hat{\mu}}_{x} = \frac{1}{n}\sum_{i = 1}^{n}x_{i} = \overset{\overline{}}{X}$ ${{\hat{\sigma}}_{X}}^{2} = \frac{1}{n}\sum_{i = 1}^{n}{{(x_{i} - {\hat{\mu}}_{x})}^{2} = S^{2}\text{xo}}$
Estymacja przedziałowa Estymacja przedziałowa to grupa metod statystycznych służących do oszacowania parametrów rozkładu zmiennej losowej w populacji generalnej. Wynikiem oszacowania nie jest tutaj ocena punktowa, tak jak w przypadku metod estymacji punktowej. Można zauważyć, że w przypadku rozkładu ciągłego, prawdopodobieństwo, że ocena punktowa parametru przyjmie wartość równą wartości szacowanego parametru jest bliskie zeru. W metodach estymacji przedziałowej oceną parametru nie jest konkretna wartość, ale pewien przedział, do którego z określonym prawdopodobieństwem należy szacowana wartość parametru. Charakteryzuje dokładność estymacji punktowej i pozwala na ocenę granic przedziału, który z zadanym i zadowalającym prawdopodobieństwem zawiera rzeczywistą wartość estymowanego parametru. Przedziałem ufności jest przedział $(\hat{\phi_{1}} < \phi < \hat{\phi_{2}})$, którego granice i długość są wielkościami losowymi i który z określonym (bliskim 1) prawdopodobieństwem 1-α, zwanym poziomem ufności, zawiera (obejmuje) rzeczywistą wartość nieznanego parametru populacji. Przykłady estymacji przedziału ufności dla wartości oczekiwanej: Model 1: Próba liczna (n≥30) wzięta z populacji o dowolnym rozkładzie oraz o nieznanej μx i znanym σx. Statystyka $\overset{\overline{}}{X}$ zgodnie z centralnym twierdzeniem granicznym ma rozkład normalny N($\overset{\overline{}}{x};\mu_{x};\sigma_{x}/\sqrt{n}$). Zmienna standaryzowana: $Z = \frac{\overset{\overline{}}{X} - \mu_{x}}{\sigma_{x}}\sqrt{n}$ ma rozkład N(z;0;1). Poziom ufności określony jest wzorem: $\Pr\left( \overset{\overline{}}{X} - z_{\frac{\alpha}{2}}\frac{\sigma_{x}}{\sqrt{n}} < \mu_{x} < \overset{\overline{}}{x} + z_{\frac{\alpha}{2}}\frac{\sigma_{x}}{\sqrt{n}} \right) = p$ Model 2: Próba mało liczna (n<30), wzięta z populacji o rozkładzie normalnym oraz nieznanych μx i σx. Korzystamy z rozkładu Studenta: $T = \frac{\overset{\overline{}}{X} - \mu_{x}}{S_{X0}}\sqrt{n - 1} = \frac{\overset{\overline{}}{X} - \mu_{x}}{S_{X}}\sqrt{n}$.$\text{\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ Pr}\left( \overset{\overline{}}{X} - t_{v,\frac{\alpha}{2}}\frac{S_{x}}{\sqrt{n}} < \mu_{x} < \overset{\overline{}}{x} + t_{v,\frac{\alpha}{2}}\frac{S_{x}}{\sqrt{n}} \right) = p$ Model 3: (n≥30) wzięta z populacji o dowolonym rozkładzie oraz o nieznanych μx i σx. Nieznane odchylenie standardowe σx niech będzie ocenione za pomocą nieobciążonego estymatora odchylenia standardowego SX. Dla odpowiednio dużych wartości n rozkład statystyki $\overset{\overline{}}{X}$ z wystarczającą dokładnością może być opisany rozkładem N$\left( \overset{\overline{}}{x};\mu_{x};\frac{S_{x}}{\sqrt{n}} \right)$ a zmienna standaryzowana Z rozkładem N(z;0,1). W tedy przedział ufności $\left( \overset{\overline{}}{X} - Z_{\frac{\alpha}{2}}\frac{S_{x}}{\sqrt{n}} < \mu_{x} < \overset{\overline{}}{x} + z_{\frac{\alpha}{2}}\frac{S_{x}}{\sqrt{n}} \right)$
Celem uzyskania próby losowej prostej gęstość n- wymiarowa musi spełniać następujące dwa warunki: 1) poszczególne zmienne losowe Xi muszą być niezależne 2) poszczególne gęstości muszą być jednakowe i identyczne z gęstością prawdopodobieństwa p(x) cechy X w całej populacji generalnej
Rozkłady w statystyce 1) Rozkład normalny N(z;0,1). $Z = \frac{\overset{\overline{}}{X} - \mu_{x}}{\sigma_{x}}$. Funkcja p(z;0,1) jest jednomodalną gęstością, monotonicznie i symetrycznie zmienną w obydwie strony od maksimum dla z=0, z punktami przegięcia +-1. 2)Rozkład chi-kwadrat - suma kwadratów v niezależnych zmiennych losowych Xi o jednakowych rozkładach N(0,1) tworzy zmienną losową o rozkładzie X2 i o v stopniach swobody. 2) Rozkład studenta - Rozkład t studenta stosujemy tylko w sytuacji gdy odchylenie standardowe populacji jest nieznane, a rozmiar próby(ilość obserwacji) jest mniejsza niż 30. W przypadku gdy rozmiar próby jest większy lub równy 30 wtedy zamiast brać rozkład t bierzemy rozkład normalny. Wynika to z faktu, że rozkład t studenta dla n≥30 jest bardzo podobny do rozkładu normalnego. Dla n < 30 rozkład studenta jest „szerszy”, tzn. bardziej prawdopodobne są wartości mocno odbiegające od średniej niż w przypadku rozkładu normalnego. $T = \frac{Z}{\sqrt{\frac{\text{Xv}^{2}}{v}}}$ gdzie zmienna losowa Z ma rozkład normalny N(z;0,1), a zmienna losowa Xv2ma rozkład X2 i o v stopniach swobody. 3) Rozkład Fishera-Snedecora jeżeli U i V są niezależnymi zmiennymi losowymi posiadającymi rozkłady X2 o stopniach swobody odpowiednio V1i V2to zmienna:
Przedział ufności niech cecha X ma rozkład w populacji z nieznanym parametrem θ. Z populacji wybieramy próbę losową (X1, X2, ..., Xn). Przedziałem ufności o współczynniku ufności 1 − α nazywamy taki przedział (θ1, θ2), który spełnia warunek: P(θ1< θ < θ2)=1-α gdzie θ1 i θ2 są funkcjami wyznaczonymi na podstawie próby losowej.
Przedział ufności dla średniej:
1) Znane odchylenie standardowe σ $P\left( \overset{\overline{}}{X} - u_{\alpha}\frac{\sigma}{\sqrt{n}} < m < \overset{\overline{}}{X} + u_{\alpha}\frac{\sigma}{\sqrt{n}} \right) = 1 - 2\alpha$ 2) Nieznane odchylenie standardowe $P\left( \overset{\overline{}}{X} - t_{1 - \frac{\alpha}{2}}\frac{S}{\sqrt{n}} < m < \overset{\overline{}}{X} + t_{1 - \frac{\alpha}{2}}\frac{S}{\sqrt{n}} \right) = 1 - \alpha$
3)Nieznane odchylenie standardowe duza proba (n>3) $P\left( \overset{\overline{}}{X} - u_{1 - \frac{\alpha}{2}}\frac{S}{\sqrt{n}} < m < \overset{\overline{}}{X} + u_{1 - \frac{\alpha}{2}}\frac{S}{\sqrt{n}} \right) = 1 - \alpha$
4) Przedział ufności dla wariancji
Estymacja - to dział wnioskowaniastatystycznego będący zbiorem metod pozwalających na uogólnianie wyników badania próbylosowej na nieznaną postać i parametry rozkładuzmiennej losowej całej populacji oraz szacowanie błędów wynikających z tego uogólnienia.