Estymacja
i testowanie hipotez
Podstawowe pojęcia statystyczne
zbiorowość statystyczna, populacja generalna – zbiór
jednostek statystycznych mających przynajmniej jedną cechę
stałą oraz pewną liczbę cech zmiennych
próba, populacja próbna – wyodrębniona za pomocą
odpowiedniej metody statystycznej część populacji
generalnej
jednostka statystyczna – obiekt wyodrębniony na potrzeby
badania statystycznego
cecha statystyczna – właściwość jednostek statystycznych
podlegająca badaniu
jakościowa
ilościowa
ciągła
skokowa
2
Podstawowe pojęcia
Badania pełne (wyczerpujące),
obejmujące całą populacje
generalną nie są często wykorzystywane z kilku
powodów:
wysokie koszty badania, związane z liczebnością badanej
zbiorowości, z koniecznością zaangażowania dużej liczby osób
o odpowiednich kwalifikacjach;
trudności z dostępem do niektórych elementów populacji;
pracochłonność − długi czas potrzebny na opracowanie
wyników;
niszczenie materiału badawczego w trakcie badania jakości
wyprodukowanych przedmiotów.
Podstawowe pojęcia
Badanie częściowe, wyrywkowe, obejmujące próbę
reprezentacyjne polegające na losowaniu próby
ze zwracaniem
bez zwracania
warstwowe
etapowe
systematyczne
subiektywne, nielosowe
łatwości dostępu
próba uznaniowa
kuli śniegowej
celowe
kwotowe
Wnioskowanie statystyczne
to zbiór reguł uogólniania wyników z próby
losowej na populację generalną
obejmuje
estymację
punktową (parametryczną)
przedziałową (nieparametryczną)
testowanie hipotez
parametrycznych
nieparametrycznych
5
Estymacja a weryfikacja
estymacja
to metody szacowania (estymacji)
nieznanego rozkładu lub nieznanych parametrów
rozkładu badanej cechy X w populacji generalnej
weryfikacja hipotez
to metody testowania
(sprawdzania) dowolnego przypuszczenia
dotyczącego nieznanego rozkładu lub nieznanych
parametrów rozkładu badanej cechy X w
populacji generalnej.
6
Estymacja punktowa
estymacja punktowa
polega na wyborze „dobrego” estymatora
(czyli przybliżenia) dla szacowanego parametru i obliczeniu
jego wartości liczbowej będącej oszacowaniem tego parametru
estymacja punktowa
oznacza, że dla każdego parametru
populacji znajduje się jedną liczbę (na podstawie realizacji
próby), tak aby była ona możliwie najlepszym przybliżeniem
nieznanego parametru.
Estymatorem (statystyką) parametru nazywa się funkcję próby,
której rozkład prawdopodobieństwa zależy od szacowanego
parametru, np. estymatorem średniej z próby jest funkcja:
7
x
n
x
i
i
n
=
=
∑
1
1
Estymacja punktowa - przykłady
Analiza danych pozwala uzyskać informacje na temat
pewnych ich charakterystyk czyli
estymacji
pewnych
parametrów rozkładu
ś
redniej dziennej stopy zwrotu z indeksu WIG
ś
rednich dochodów konsumentów
ryzyka związanego z inwestycją w akcje pewnej spółki
procentu osób popierających działania rządu
korelacji między poziomem sprzedaży a wysokością cen
tempa dynamiki w zmianach cen mieszkań
8
Estymacja przedziałowa
polega na konstrukcji przedziału liczbowego o takiej własności, że
z ustalonym z góry prawdopodobieństwem 1-α (
poziom ufności
) w
przedziale tym zawiera się estymowany parametr
im wyższy poziom ufności tym przedział szerszy
im większa próba tym przedział węższy
9
P(a < θ < b) = 1−α
gdzie a i b to dolna i górna granica przedziału ufności a
prawdopodobieństwo 1−α (poziom ufności) jest dane z góry i
przyjmuje najczęściej wartość: 0,90; 0,95; 0,99
Granice przedziału ufności są losowe, a więc dla konkretnych
prób można uzyskać różne wartości.
Otrzymany konkretny przedział interpretuje się następująco:
w 1-
α
procentach przypadków przedział (a, b) pokrywa
nieznaną wartość parametru
θ
.
Oznacza to jednocześnie, że średnio w
α
procentach
przypadków wyznaczony przedział
nie pokrywa
szacowanego
parametru.
Prawdopodobieństwo
α
, które jest ryzykiem takiego błędu, to
poziom istotności
.
10
Estymacja przedziałowa
Przedział ufności dla średniej (wartości oczekiwanej)
11
A zatem
po wylosowaniu n-elementowej próby prostej z populacji o
rozkładzie normalnym o znanej wariancji σ
2
buduje się przedział
ufności dla wartości oczekiwanej korzystając ze wzoru
czyli
Przedział ufności dla średniej (wartości oczekiwanej)
12
Dla dużej próby – gdy n > 30
i σ – parametry wyznaczone z próby
t
α
– wartość odczytana z tablic rozkładu normalnego T~N(m,σ) dla
Przedział ufności dla średniej (wartości oczekiwanej)
13
Dla małej próby – gdy n < 30
i σ – parametry wyznaczone z próby
t
α,n-1
– wartość odczytana z tablic rozkładu Studenta dla α i n-1 stopni
swobody
Tablice
rozkładu
Studenta –
fragment
14
Przedział ufności dla frakcji (udziału,
prawdopodobieństwa)
X – liczba zdarzeń sprzyjających
n – liczebność próbki (liczb wszystkich zdarzeń)
t
α
– wartość odczytana z tablic rozkładu normalnego
T~N(m,σ) dla
15
Minimalna liczebność próby
Różnica między wartością oczekiwaną a średnią z próby to
tolerancja
(błąd oszacowania = połowie długości przedziału
ufności)
16
n
σ
t
d
m
X
α
=
=
-
stąd po przekształceniu otrzymuje się wzór na
minimalną
liczebność próby
2
2
2
=
d
σ
t
n
α
Minimalna liczebność próby dla frakcji
17
ustalenie wielkości próby dla
wskaźnika struktury
(frakcji, odsetka, procentu, prawdopodobieństwa
sukcesu), gdzie p − jest frakcją elementów wyróżnionych
w populacji
2
2
=
d
pq
t
n
α
Jeśli nie jest znany rząd wielkości szacowanego parametru p
wtedy zakłada się, że p = q = 1/2 a wzór przybiera postać:
2
2
4
=
d
t
n
α
Dziękuję za uwagę
18