PODSTAWOWE POJĘCIA STATYSTYKI
Mówiąc bardzo ogólnie, statystyka matematyczna zajmuje się metodami wnioskowania o całej zbiorowości statystycznej (tzw. populacji generalnej) na podstawie zbadania pewnej jej części, zwanej próbką lub próbą.
Przez populację generalną rozumiemy tu dowolny zbiór elementów, które różnią się od siebie pod względem badanej cechy (lub - skończonego - układu badanych cech). Próbka -jest to pewien (skończony) podzbiór populacji, podlegający badaniu ze względu na ustaloną cechę (lub cechy), w celu wyciągnięcia wniosków na temat kształtowania się tej cechy (tych cech) w populacji generalnej.
Konieczność takiego podejścia wynika z niemożliwości przeprowadzenia badań na wszystkich elementach populacji - z racji ich liczby (może być praktycznie nieskończona), kosztów takiego badania, lub też niszczącego charakteru takiego badania (np. badanie jakości konserw mięsnych). Zwykle jako próbkę pobieramy drogą losowania, tzn. otrzymujemy tzw. próbę losową (o zakwalifikowaniu elementu do próby decyduje jedynie przypadek). Możemy mieć do czynienia z losowaniem niezależnym (ze zwracaniem - wtedy dany element może wystąpić więcej niż jeden raz w próbie), albo zależnym (bez zwracania). Jeżeli liczebność populacji jest duża w porównaniu z liczebnością próby, to nawet biorąc do próby różne elementy możemy założyć, że losowanie jest niezależne - co upraszcza większość rozważań, ponieważ wtedy rozkład badanej cechy jest dla wszystkich elementów próby jednakowy.
Zajmijmy się na razie przypadkiem badania tylko jednej, ustalonej cechy populacji generalnej. Przyjmujemy, że ta cecha jest zmienną losową - o pewnym rozkładzie, zwykle -posiadającym przynajmniej wartość oczekiwaną i wariancję. Jeżeli rozważamy dużą próbkę (o liczebności n>30), to w pewnych zagadnieniach możemy poza istnieniem m i a nic więcej nie zakładać o postaci rozkładu. Jeżeli rozważamy małą próbkę, to musimy założyć samą postać rozkładu (ewentualnie z dokładnością do nieznanych parametrów) - w większości zagadnień przyjmujemy, że rozkład badanej cechy w populacji jest normalny (chyba że bardziej naturalne jest przyjęcie innego rozkładu, jak np. dwumianowego lub Poissona).
Przy powyższym założeniu, dla każdego (wylosowanego) elementu populacji rozkład na nim badanej cechy jest taki sam, jak w całej populacji. Dlatego łączny rozkład wartości badanej cechy na elementach n-elementowej próby możemy utożsamiać z układem (Xi, X2,...,Xn) niezależnych zmiennych losowych o jednakowym rozkładzie takim jak rozkład zmiennej X - opisującej rozkład badanej cechy w populacji. Konkretna próbka - powiedzmy (xj, X2,...,Xn), jest więc zaobserwowaną wartością tej n-wymiarowej zmiennej losowej. Każda wielkość, którą obliczamy na podstawie tej próbki (np. średnia z próbki : (xi+ X2+...+xn)/n) jest zaobserwowaną wartością pewnej zmiennej losowej - w tym przypadku (Xi+ X2+... +Xn)/n.
Statystyka matematyczna zajmuje się między innymi:
1) sporządzaniem ocen w postaci przedziałów dla wybranych cech populacji - takich jak jej wartość oczekiwana lub też wariancja - a równoważnie odchylenie standardowe, lub przedziałów dla wybranych parametrów rozkładu - jak np. parametru Xdla rozkładu Poissona, parametru p dla rozkładu dwumianowego itp.; chodzi tu o przedział, który z zadanym - dość dużym prawdopodobieństwem, zwanym poziomem ufności (np. l-a=0,9 lub 0,95, lub 0,98, lub np. 0,999) pokrywa nieznaną wartość cechy lub parametru populacji generalnej; przedział ten nazywamy właśnie przedziałem ufności;
2) testowaniem hipotez statystycznych:
2a) tzw. parametrycznych postaci np.(Ho:m=mo) (hipoteza, że nieznana wartość średnia w populacji jest równa z góry zadanej wartości), przeciwko tzw. hipotezie alternatywnej (w tym
2