Statystyka opisowa zajmuje się metodami statystycznymi za pomocą których opisujemy i charakteryzujemy w sposób sumaryczny badane zbiorowości. Zaliczamy tutaj między innymi miary: średnie, dyspersji, asymetrii i koncentracji.
Statystyka matematyczna zajmuje się metodami wnioskowania statystycznego, które polegają na tym, że na podstawie wyników uzyskanych z próby formułujemy wnioski o całej zbiorowości. Wnioskowanie statystyczne obejmuje estymację i weryfikację hipotez statystycznych.
Estymacja to szacowanie wartości parametrów lub postaci funkcji rozkładu prawdopodobieństwa w populacji generalnej na podstawie wyników próby.
Weryfikacja hipotez statystycznych to sprawdzanie pewnych założeń wysuniętych w odniesieniu do parametrów lub rozkładów populacji generalnej na podstawie wyników próby.
Estymacja
Podstawowe pojęcia:
- parametr - charakterystyka określająca całą populację,
Tn - estymator - pewna funkcja określona na próbie, która służy do oszacowania nieznanej wartości parametru
,
T - ocena parametru
, jest to konkretna wartość liczbowa, którą przyjmuje estymator.
Estymator jest zmienną losową i ma pewien rozkład. Można obliczyć jego wartość oczekiwaną - E(Tn) i odchylenie standardowe - D(Tn) nazywane średnim błędem szacunku.
Własności estymatorów:
1. Nieobciążoność: E(Tn) =
odchylenia wartości estymatora od wartości parametru nie mają tendencyjnego charakteru (nie ma błędu systematycznego).
2. Zgodność:
dla dowolnego
wraz ze wzrostem liczby obserwacji wzrasta dokładność szacunku.
3. Efektywnością estymatora nieobciążonego Tn parametru
nazywamy iloraz:
gdzie:
- oznacza estymator najefektywniejszy,
- to estymator badany.
Estymator jest najefektywniejszy jeżeli jest nieobciążony i ma najmniejszą wariancję.
Wyróżniamy estymację punktową i przedziałową.
Estymacja punktowa polega na tym, że za ocenę parametru przyjmuje się konkretną liczbę otrzymaną na podstawie próby losowej:
= T
zwykle dodajemy
= T
D(Tn)
Estymacja przedziałowa polega na tym, że konstruuje się pewien przedział (zwany przedziałem ufności), o którym możemy powiedzieć, iż z określonym prawdopodobieństwem 1-
pokryje wartość szacowanego parametru. Prawdopodobieństwo 1-
jest nazywane współczynnikiem ufności.
gdzie: kd -jest to dolna granica przedziału, kg - górna granica przedziału ufności.
Jeżeli estymator ma rozkład normalny to przedział ufności można zapisać w następujący sposób:
Na ćwiczeniach będziemy zajmowali się estymacją dla średniej (wartości oczekiwanej), wskaźnika struktury i wariancji.
Weryfikacja hipotez statystycznych
Testy istotności - jest to taki rodzaj testów, w których na podstawie wyników próby losowej podejmuje się jedynie decyzje odrzucenia hipotezy sprawdzanej lub stwierdza się, że brak jest podstaw do jej odrzucenia.
Wyróżniamy:
- parametryczne testy istotności (dotyczące wartości parametrów rozkładu)
- nieparametryczne testy istotności (pozostałe testy)
Parametryczne testy istotności:
test dla wartości średniej populacji generalnej, test dla dwóch średnich, test dla wskaźnika struktury (procentu), test dla dwóch wskaźników struktury, test dla wariancji, test dla dwóch wariancji.
Test dla wartości średniej (Przykładowe zadanie)
Zad 2.2, str. 61, Greń J., Statystyka matematyczna.
Zbadano w 81 wylosowanych zakładach pewnej gałęzi przemysłowej koszty materiałowe przy produkcji pewnego wyrobu i otrzymano średnią 540 zł oraz odchylenie standardowe 150 zł. Na poziomie istotności równym 0,05 zweryfikować hipotezę, że średnie koszty materiałowe przy produkcji tego wyrobu wynoszą 600 zł.
Dane:
= 540, s(x) = 150, n = 81, = 0,05 - poziom istotności jest to prawdopodobieństwo popełnienia błędu I rodzaju, czyli odrzucenia hipotezy prawdziwej
Najpierw zapisujemy hipotezy:
H0 : m = 600 (w hipotezie zerowej zawsze musi być równość)
H1 : m
600 (w hipotezie alternatywnej:
,< , >)
Znak w hipotezie alternatywnej zależy od treści zadania. Jeżeli w treści zadania nie jest sprecyzowane, czy dany parametr ma być większy lub mniejszy od określonej wartości, to stawiamy zawsze znak
. Jeżeli w hipotezie alternatywnej występuje znak
to w teście występuje dwustronny obszar krytyczny. Gdy hipoteza alternatywna ma postać: < , > to stosujemy test z jednostronnym obszarem krytycznym. Znak > oznacza prawostronny, a znak < lewostronny obszar krytyczny.
Uwaga: Oznaczenia w hipotezach dotyczą populacji a nie próby, dlatego nie wolno zapisywać H0 :
= 600
Ponieważ mamy dużą próbę i nie znamy odchylenia standardowego w populacji
obliczamy statystykę u:
m0 - wartość którą weryfikujemy
Występuje dwustronny obszar krytyczny, Z tablic odczytujemy u (wartość krytyczna statystyki)
Jeżeli:
to odrzucamy H0, na korzyść hipotezy alternatywnej, jeżeli
<
to nie ma podstaw do odrzucenia hipotezy H0. = 0,05 u = 1,96
= 3,6 > 1,96 = u odrzucamy H0
Przy przyjętym poziomie istotności = 0,05 odrzucamy H0, czyli średnie koszty materiałowe przy produkcji tego wyrobu istotnie różnią się od 600 zł.
Nieparametryczne testy istotności
służą do sprawdzania hipotez nieparametrycznych (czyli takich, które nie dotyczą parametrów). Można podzielić na trzy zasadnicze grupy:
- testy zgodności
- testy losowości - weryfikujące hipotezę, że próba ma charakter losowy, np. test serii
- testy niezależności - sprawdzające hipotezę o niezależności dwóch zmiennych losowych, np. test niezależności
.
Testy zgodności można podzielić na dwie grupy:
1) testy służące do weryfikacji hipotez o postaci funkcyjnej rozkładu populacji generalnej (sprawdza się zgodność rozkładu empirycznego z próby z rozkładem hipotetycznym).
Wśród tych testów można wyróżnić grupę testów służących do weryfikacji hipotezy, że populacja generalna ma rozkład normalny. Są to testy normalności rozkładu, np. test Cramera - Smirnowa, Shapiro - Wilka.
2) testy służące do weryfikacji hipotez, że dystrybuanty dwóch lub więcej zmiennych losowych są identyczne (sprawdza się zgodność dwóch lub więcej rozkładów empirycznych z próby).
Testy zgodności przerabiane na ćwiczeniach:
- test zgodności
- test
- Kołmogorowa
- Kołmogorowa - Smirnowa.
Zagadnienia teoretyczne na kolokwium (estymacja i weryfikacja)
Na czym polega estymacja i weryfikacja hipotez statystycznych, definicja i własności estymatorów, na czym polega estymacja punktowa i przedziałowa, co to jest współczynnik ufności, przedział ufności, poziom istotności, błąd I i II rodzaju, hipoteza statystyczna, parametryczna, nieparametryczna, zerowa, alternatywna.