Szacowanie wartości parametrów lub rozkładu zmiennej losowej w populacji generalnej na podstawie rozkładu empirycznego, uzyskanego z próby losowej pobranej z tej populacji, nazywa się estymacją.
Metody estymacji parametrycznej:
punktowa
przedziałowa
W estymacji punktowej za ocenę wartości parametru przyjmuje się wartość estymatora, otrzymaną na podstawie wyników próby
Estymacja przedziałowa to szacowanie wartości parametru Θ za pomocą tzw. przedziału ufności.
Przedziałem ufności nazywamy taki przedział, który z zadanym z góry prawdopodobieństwem (1-α) zwanym poziomem ufności, pokrywa nieznaną wartość szacowanego parametru Θ.
Przy wielokrotnym pobieraniu prób n-elementowych i wyznaczaniu na ich podstawie granic przedziałów ufności średnio w (1-α)*100% przypadków otrzymujemy przedziały pokrywające nieznaną wartość Θ.
(1-α): 0,9; 0,95; 0,98; 0,99.
Podstawą konstrukcji przedziału ufności dla danego parametru Θ jest „dobry” estymator tego parametru, spełniający wymienione wcześniej własności.
F(x)
x
Przy zadanym poziomie ufności im większa jest liczebność, tym krótszy przedział ufności.
Przy ustalonej liczebności próby wraz ze wzrostem poziomu ufności rośnie rozpiętość przedziału ufności.
Im krótszy przedział, tym mniejszy błąd szacunku, co oznacza większą precyzje oszacowania
W przypadku wartości przeciętnej m do konstrukcji przedziału ufności wykorzystuje się średnią arytmetyczną z próby.
Dla wariancji σ2 - wariancję z próby.
Dla wskaźnika struktury p - częstość wystąpienia danego zdarzenia.
Sposób konstrukcji przedziału ufności związany jest z rozkładem odpowiedniego estymatora. Rozkład ten zależy od założeń dotyczących rozkładu cechy w zbiorowości generalnej oraz od liczebności próby.
Przedział ufności dla wartości średniej
Przedział ufności dla wariancji
Przedział ufności dla wskaźnika struktury
Przedział ufności dla współczynnika korelacji liniowej r
Minimalna liczebność próby
Połowa długości przedziału ufności - maksymalny błąd szacunku - nie powinien przekraczać ustalonej z góry wartości d
Np. dla estymacji wartości średniej
dla estymacji wskaźnika struktury
Testowanie hipotez statystycznych
Hipotezą statystyczną nazywamy każdy sąd (przypuszczenie) dotyczące populacji generalnej wydany bez przeprowadzenia badania wyczerpującego.
Sądy te mogą dotyczyć:
postaci funkcji rozkładu populacji (hipotezy nieparametryczne)
wartości parametrów rozkładu (hipotezy parametryczne)
Wiedza a priori o populacji generalnej ogranicza zbiór możliwych hipotez i wyznacza tzw. zbiór hipotez dopuszczalnych
Hipotezę którą sprawdzamy nazywamy hipotezą zerową i oznaczamy symbolem H0
Tworzymy również hipotezę alternatywną H1, która jest odpowiednim zaprzeczeniem hipotezy zerowej.
Hipotezy statystyczne weryfikujemy konfrontując wyniki z próby losowej z treścią danej hipotezy przy pomocy testu statystycznego.
Testem statystycznym nazywamy regułę postępowania, która każdej losowej próbie przyporządkowuje decyzję przyjęcia lub odrzucenia sprawdzanej hipotezy.
Błąd I rodzaju (poziom istotności - α): odrzucamy hipotezę zerową choć jest prawdziwa
Błąd II rodzaju (β): przyjmujemy H0 chociaż jest fałszywa.
Zbiorem krytycznym (obszarem odrzucenia) nazywamy zbiór tych wartości sprawdzianu testu, które przemawiają za odrzuceniem hipotezy H0
Zbiór krytyczny może być w zależności od postaci hipotezy alternatywnej zbiorem jednostronnym (prawo lub lewostronnym)lub dwustronnym.
Rozkład sprawdzianu hipotezy określa z jakich tablic należy odczytać wartość krytyczną, wyznaczającą zbiór krytyczny.
Obszar ten zależy więc również od liczebności próby n, od poziomu istotności α i od tego czy znamy parametry rozkładu w zbiorowości generalnej.
Etapy w budowie testów istotności:
Określenie hipotezy H0 i H1;
Przyjęcie poziomu istotności α (0,1- 0,001);
Wybór sprawdzianu testu;
Wybór obszaru krytycznego (odrzucenia) na podstawie rozkładu sprawdzianu testu i przyjętego poziomu istotności.
Podjęcie decyzji o odrzuceniu lub braku podstaw do odrzucenia hipotezy H0 w zależności od tego, czy wartość sprawdzianu testu znajdzie się w obszarze krytycznym czy nie.
Przykład empiryczny.
Przypuszcza się, że młodsze osoby łatwiej decydują się na zakup nowych nieznanych produktów. Badanie przeprowadzone wśród przypadkowych 20 nabywców nowego produktu i 22 nabywców znanego już wyrobu pewnej firmy dostarczyły informacji o wieku nabywców:
Nowego produktu starego produktu
Średnia 27,7 lat 32,1 lat
Odchylenie st. 5,5 lat 6,3 lat
Zweryfikować to przypuszczenie na poziomie istotności 0,05.
Zakłada się, że rozkład wieku w obu grupach kupujących jest normalny i charakteryzuje się tym samym zróżnicowaniem.
H0: m1 = m2;
H1: m1 < m2;
α =0,05
Obszar odrzucenia
(z tablic) t0,1;40 = 1,684
Testy nieparametryczne nie wymagają założeń co do postaci rozkładu zbiorowości generalnej z której pobierana jest próba.
Podział:
Testy zgodności (weryfikują hipotezę o postaci funkcyjnej rozkładu populacji generalnej lub o tym, że dystrybuanty dwóch lub więcej zmiennych losowych są identyczne)
Testy losowości (weryfikują hipotezę, że próba ma charakter losowy)
Testy niezależności (sprawdzają hipotezę o niezależności dwóch zmiennych losowych)
Wnioskowanie statystyczne
Estymacja punktowa i przedziałowa parametrów rozkładu
Zagadnienie minimalnej liczebności próby
Parametryczne testy istotności
Nieparametryczne testy istotności
Zakłada się, że miesięczne wydatki na odzież i obuwie w rodzinach czteroosobowych mają rozkład N(m,σ). Oszacować przeciętną wartość tych wydatków, jeśli na podstawie budżetów 10 losowo wybranych gospodarstw w pewnym osiedlu otrzymano średnią =156 zł i odchylenie =30 zł. Przyjąć poziom ufności =0,98.
Miesięczne wydatki na odbitki kserograficzne (w zł) ogółu studentów SGH mają rozkład N(m,3). Badanie 5 losowo wybranych studentów ze względu na odbitki dostarczyło następujących danych: 10, 12, 8, 15, 10. Ilu co najmniej studentów należy wybrać do próby, aby przy poziomie ufności 0,95 oszacować średnie wydatki ogółu studentów, otrzymując przedział o długości nie przekraczającej 4 zł?
H0: m1 = 5;
H1: m1 > 5;
α =0,05
Zb. generalna ma rozkład nieznany.
Próba: n=125, s = 3, średnia = 4,5
u0,05=1,64
H0: σ21 = σ22;
H1: σ21 > σ22;
α =0,05
Badane populacje mają rozkład normalny.
Próba: n1=8, n2=10 s21 = 3, s22 = 5
1
17