METODY STATYSTYCZNE
Metody wnioskowania statystycznego
Wnioskowanie statystyczne składa się z 2 części:
1/ estymacja statystyczna - szacowanie parametrów populacji generalnej na podstawie próby losowej
2/ weryfikacja hipotez dotyczących populacji generalnej na podstawie próby.
Wnioskowanie hipotez to:
I. Prawdopodobieństwo
1/ prawdopodobieństwem zdarzenia A nazywamy iloraz liczby zdarzeń elementarnych n(A) sprzyjających zajściu zdarzenia A do liczby n wszystkich zdarzeń elementarnych
A-PRIORI
2/ definicja aksjomatyczna - prawdopodobieństwem nazywamy funkcję P odwzorowującą ciało zdarzeń Z w zbiór liczb rzeczywistych P:Z →[0,1] posiadającą następujące właściwości
- dla każdego zdarzenia A
Z prawdopodobieństwo P(A) tego zdarzenia spełnia nierówność
0≤P(A)≤1
- prawdopodobieństwo zdarzenia pewnego jest równe 1
- dla każdego ciągu
zdarzeń rozłącznych mamy
3/ definicja statystyczna - prawdopodobieństwem zdarzenia A nazywamy granicę ilorazu liczby doświadczeń n'(A) sprzyjających zdarzeniu A do liczby n wszystkich doświadczeń
P (A) =
A-POSTERIORI
Jeżeli każdemu zdarzeniu elementarnemu ze zbioru zupełnego zdarzeń elementarnych przyporządkujemy dokładnie jedną liczbę rzeczywistą to, na zbiorze zdarzeń elementarnych zostanie określona funkcja zwana zmienną losową.
Jeżeli zmienna losowa przyjmuje skończoną lub przeliczalną ilość wartości nosi nazwę zmiennej losowej skokowej.
Rozkładem prawdopodobieństwa zmiennej losowej skokowej nazywamy następującą funkcję
Dystrybuantą zmiennej losowej skokowej X nazywamy funkcję określoną wzorem:
a więc
Rozkłady statystyk z prób losowych
Przez próbę o wartościach x1, x2...xn należy rozumieć obserwacje wektora losowego
x = ( x1, x2...xn), gdzie wszystkie zmienne losowe x1, x2...xn mają ten sam rozkład.
Statystyką będziemy nazywali zmienną losową, która jest funkcją wektora X lub innymi słowy, funkcją obserwowanych wartości w próbie
np.
lub
Twierdzenie:
Jeżeli zmienne losowe x1, x2...xn są niezależne i mają jednakowy rozkład normalny.
ESTYMATORY I ICH WłASNOŚCI
Estymacja jest to szacowanie parametrów bądź postaci rozkładu populacji generalnej na podstawie wyników próby losowej.
Statystyki służące do szacowania parametrów populacji generalnej nazywamy estymatorami.
Każdą jednoznacznie określoną funkcję wyników obserwacji dokonywanych na zmiennej losowej X, za pomocą której wnioskujemy o wartości parametru
nazywamy estymatorem parametru
. Konkretnie wyliczoną na podstawie estymatora wartość z próby nazywamy oceną parametru.
Estymator jest zmienną losową. Ocena parametru jest liczbą. (najlepsza jest średnia arytmetyczna)
WłASNOŚCI ESTYMATORÓW
1. Nieobciążoność estymatora
Estymator
parametru
nazywa się nieobciążonym, jeżeli spełnia on relację:
(estymator nieobciążony daje wyniki bez błędu systematycznego , nie zawyża i nie zaniża wyniku)
Obciążenie estymatora wynosi:
(daje wyniki z błędem)
Estymatorem asymptotycznie nieobciążonym nazywamy estymator spełniający relację:
(granica prawdopodobieństwa)
Estymator - zmienna losowa wzięta z próby
2. Zgodność estymatora
Estymator Zn parametru
nazywa się zgodnym, jeżeli przy dowolnie małym
spełnia następującą relację:
(im wyższą weźmiemy próbę, tym różnica będzie mniejsza i wynik dokładniejszy)
Jeżeli estymator Zn jest estymatorem parametru
nieobciążonym lub asymptotycznie nieobciążonym i spełnia warunek:
to estymator Zn jest zgodny.
3. Efektywność estymatora
Jeżeli estymator jest nieobciążony, to wariancja estymatora D2(Zn) jest miarą rozrzutu wartości estymatora w kolejnych próbach dokoła prawdziwej
wartości parametru (najlepszy jest taki, który ma najmniejszy rozrzut wyniku).
D(Zn) nosi nazwę błędu standardowego szacunku i określa o ile średnio różnią się wartości estymatora od wartości parametru.
Estymator, który jest nieobciążony posiada najmniejszą wariancję spośród wszystkich
nieobciążonych estymatorów danego parametru, wyznaczonych z prób n-elementowych, nazywa się estymatorem najefektywniejszym.
Estymatory średniej:
(mi) - średnia z populacji
- średnia arytmetyczna
Me - mediana
Dla średniej z populacji generalnej
najlepszym estymatorem jest średnia z próby. Estymator ten jest nieobciążony, zgodny i najbardziej efektywny.
Błąd standardowy tego estymatora
- jeżeli próba jest duża
- jeżeli próba jest mała
Estymator wariancji
- estymator zgodny, ale obciążony, nie jest najbardziej efektywny, asymptotycznie nieobciążony - przy zwiększaniu próby obciążenie znika n<30
lub
- zapis czysto teoretyczny, w praktyce nie występuje
lub
- estymator zgodny i nieobciążony n>30
Dla wskaźnika struktury p estymatorem będzie
(stosowane bardzo duże próby - zgodny i nieobciążony).
Estymacja punktowa i przedziałowa:
1/ punktowa parametru
polega na
- wylosowaniu próby
- wyborze estymatora
- obliczeniu oceny parametru szacunku
- obliczeniu błędu standardowego szacunku
2/ przedziałowa polega na zbudowaniu przedziału nazywanego przedziałem ufności, który z prawdopodobieństwem równym 1-α obejmuje nam szacowaną wartość parametru.
postępowanie:
- losowanie próby
- zakładamy współczynnik ufności (zwykle 0,95 = 95% przedziałów ma być dobrych)
- obliczamy maksymalny błąd standardowy szacunku mnożąc odczytaną wartość z tablic dystrybuanta rozkładu normalnego, wartość Z dla wskaźnika struktury oraz średniej dla dużej próby. Przy średniej i małej próbie odczytujemy z tablic T-studenta wartość t i mnożymy przez błąd standardowy szacunku.
Przedział interpretujemy następująco:
1/ przedział o końcach dolny...górny przy współczynniku ufności 1-α obejmuje nieznaną szacunkową wartość parametru
2/ np. 1-α = 0,95
interpretacja:
Gdybyśmy wielokrotnie budowali przedział ufności przy tym współczynniku 0,95, to 95% przedziałów byłoby dobrych, a 5% byłoby złych (nie obejmowały szacowanego parametru).
Przedziały ufności dla średniej arytmetycznej
A. Populacja ma rozkład
, znane jest
odchylenie standardowe w populacji
, liczebność próby jest dowolna.
B. Rozkład populacji dowolny, odchylenie standardowe w populacji jest nieznane, próba duża tzn. n>30:
- z tablic
S - odchylenie standardowe
- liczebność z próby
C. Populacja ma rozkład
, odchylenie
standardowe w populacji jest nieznane, liczebność prób n<30:
Przedział ufności dla (wskaźnika struktury) p
Praktyczne efekty daje szacowanie wskaźnika struktury tylko w oparciu o bardzo dużą próbę (n=kilkadziesiąt jednostek). Wówczas rozkład estymatora jest asymptotycznie normalny, a przedział ufności ma postać:
Zadanie1
W celu zbadania przeciętnych wyników z testu w skali 100-punktowej wylosowano 26 studentów i uzyskano średnią ilość punktów wynoszącą 72 i odchylenie standardowe równe 12, przy współczynniku ufności 0,95 dokonać estymacji:
1/ podać jakiego parametru dotyczy zadanie
2/ określić co będzie estymatorem szacowanego parametru
3/ podać własności estymatora i jego rozkład
4/ czym z punktu widzenia estymacji jest 26, 72, 12.
5/ obliczyć błąd standardowy szacunku
6/ obliczyć maksymalny błąd standardowy szacunku
7/ przeprowadzić estymację punktową i przedziałową
n = 26
= 72
S = 12
= 0,95
1/ dotyczy - parametrem będzie średnia arytmetyczna
2/ estymatorem - średnia z próby
3/ estymator - zgodny, nieobciążony i najbardziej efektywny
rozkład T-studenta, bo próba jest mała
4/
26 - liczebność próby (mała)
72 - ocena średniej arytmetycznej w populacji wyliczana z próby
12 - ocena odchylenia standardowego wyliczona z próby
= 0,95 - współczynnik ufności
5/
- o ile średnio możemy się mylić szacując próbę
6/
- do tego wyliczenia mamy zaufanie dla 0,95
7/
estymacja punktowa:
estymacja przedziałowa:
Zadanie 2
Wylosowano do próby 49 studentów i zbadano na tej podstawie wyniki testu w skali 100 punktowej
n = 49
= 76 pkt
S = 12 pkt. (błąd statystyczny)
= 0,95
Oszacować metodą punktową i przedziałową przeciętny wynik testu.
1/ jakiego rodzaju dotyczy estymacja?
2/ co będzie estymatorem szacowanego parametru?
3/ jakie właściwości posiada ten parametr?
4/ czym z punktu widzenia estymacji jest 49, 76, 12?
5/ co to jest
= 0,95?
6/ oblicz średni błąd szacunku
7/ oblicz maksymalny błąd szacunku
8/ przeprowadzić estymację punktową
9/ przeprowadzić estymację przedziałową
Zakładając, że wylosowana próba jest próbą pilotażową, obliczyć minimum liczebności próby tak aby maksymalny błąd szacunku był nie większy niż 2 pkt.
1/ dotyczy średniej arytmetycznej
2/ estymatorem - średnia z próby
3/ estymator - zgodny, nieobciążony, najbardziej efektywny
rozkład T-studenta, który przy dużej próbie (powyżej 30 jednostek) przechodzi w rozkład normalny
4/
49 - liczebność próby (duża)
76 - ocena średniej arytmetycznej w populacji wyliczana z próby
12 - ocena odchylenia standardowego wyliczona z próby
5/
= 0,95 - współczynnik ufności - gdybyśmy wielokrotnie budowali przedział to 5% przedziałów będzie złych, a 95% przedziałów dobrych
6/
- o ile średnio możemy się mylić szacując próbę
przy dużej próbie nie ma (n-1) tylko samo „n”
średnie z prób 76-elementowych będą się różnić średnio od rzeczywistej średnio o 1,714 pkt.
7/ Ponieważ rozkład estymatora jest rozkładem asymptotycznie normalnym, więc dla założonego współczynnika ufności z tablic dystrybuanty rozkładu normalnego odczytujemy wartość Zα.
jest to błąd standardowy szacunku po uwzględnieniu współczynnika ufności
8/ estymacja punktowa:
w estymacji punktowej zakładamy, że średnia z estymacji jest równa średniej z próby przy błędzie 1,714
9/ estymacja przedziałowa:
przedział o końcach 72,6 i 79,4, przy współczynniku ufności 0,95 obejmuje nam szacowną średnią ilość punktów dla całej populacji
minimalna liczebność próby
(z tablic)
(zaokrąglamy zawsze w górę)
- liczba o którą ma nie być maksymalnie większy błąd szacunkowy
d - dokładność do iluś punktów, max błąd szacunku
aby oszacować średnią z max błędem nie większym niż 2 pkt należy wylosować co najmniej 146 studentów.
Trzy najbardziej typowe współczynniki ufności
1-α |
Zα |
0,90 |
1,64 |
0,95 |
1,96 |
0,99 |
2,58 |
Zadanie 3
Na podstawie 600 elementowej próby przeprowadzono badanie poparcie dla kandydata X
n = 600
p = 23% (poparcie)
1-α = 0,95
1/ czym z punktu widzenia estymacji jest 23%
2/ jaki rozkład ma estymator i jakie właściwości
3/ obliczyć błąd standardowy szacunku
4/ obliczyć maksymalny błąd standardowy
5/ przeprowadzić estymację punktową i przedziałową
6/ obliczyć minimum liczebności próby, aby maksymalny błąd szacunku był nie większy niż:
a/ 5%
b/ 2%
c/ 1%
Przy obliczeniach wszystkie procenty należy zamieniać na wskaźniki, np. 23% = 0,23
1/
m= 0,23 * 600 = 138 osób poparło kandydata
p - ocena wskaźnika z próby
2/
- estymatorem jest wskaźnik struktury z próby nazywany częstością zmiennej
- estymator zgodny nieobciążony, najbardziej efektywny
- posługujemy się dużą próbą i korzystamy z układu normalnego
(układ Bernoueliego, czyli dwumianowy)
3/
4/
d*100% = 3,37%
przy próbie max 600 błąd wynosi
3,37%
5/
estymacja punktowa
wskaźnik poparcia = 23% przy błędzie standardowym zwykłym 1,7 (0,017)
estymacja przedziałowa
6/ minimalna liczebność próby
- gdy wartość „p” jest w przybliżeniu znana
- gdy wartość „p” jest nieznana
w tym przypadku „p” jest znana
a/ 5% = 0,05
błąd nie większy niż 5% - należy wylosować 273 osoby
b/ 2% = 0,02
błąd nie większy niż 2% - należy wylosować 1701 osoby
c/ 1%=0,01
błąd nie większy niż 1% - należy wylosować 6804 osoby
WERYFIKACJE HIPOTEZ STATYSTYCZNYCH
Wnioskowanie statystyczne
a/ estymacja
b/ weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych - sprowadzanie hipotez dotyczących populacji generalnej na podstawie wyników próby. Jeżeli hipotezy dotyczą parametrów to będą to hipotezy parametryczne i stosować będziemy do tych hipotez testy parametryczne, a jeżeli dotyczy rozkładów populacji generalnej to będą to hipotezy i testy nieparametryczne.
W teorii weryfikacji stawia się 2 hipotezy:
1/ zerową - stawiamy w sposób pozytywny tzn. że coś od czegoś nie różni się, że wyniki testu studentów i studentek są takie same, czyli zerowe, że stężenie powietrza jest w normie.
2/alternatywną - stawiamy tak, żeby umożliwiło to sprawdzenie tego czego chcemy.
Decyzje i ich konsekwencje w teście sprawdzającym
Sytuacja |
Decyzja |
|
|
Przyjęcie |
Odrzucenie |
|
decyzja prawidłowa |
błąd I rodzaju
|
|
błąd II rodzaju |
decyzja prawidłowa |
- poziom istotności
Błąd I rodzaju - odrzucenie
, gdy jest prawdziwa
Błąd II rodzaju - odrzucenie
, gdy jest fałszywa
Poziom istotności - prawdopodobieństwo popełnienia błędu I rodzaju, czyli odrzucenia hipotezy prawdziwej.
Przebieg procedury weryfikacyjnej:
1/ sformułowanie
i
2/ wybór statystyki testowej
3/ określenie poziomu istotności
4/ wyznaczenie obszaru krytycznego testu (z tablic)
5/ obliczenie statystyki na podstawie próby
6/ podjęcie decyzji
a/ nie odrzucamy
- wnioskujemy, że
może być prawdziwa
b/ odrzucamy
- wnioskujemy, że
jest prawdziwa
W testach istotności nie ma decyzji „hipotezę zerową przyjmujemy”
Decyzje są dwie:
1/
odrzucamy i przyjmujemy
z prawdopodobieństwem
=0,05
2/ nie ma podstaw do odrzucenia
Zadanie 4:
W celu sprawdzenia czy automat wsypujący cukier do torebek 1 kg. działa prawidłowo wylosował 49 torebek cukru i uzyskano średnią równą 997 gram. Odchylenie standardowe 3 gramy.
n = 49
= 997 g.
S = 3 g.
= 0,05
(bo próba jest duża)
wartość krytyczna z tablic rozkładu normalnego
wartość wyliczona testu znajduje się w obszarze krytycznym testu
odrzucamy
na rzecz
- ciężar woreczków znacznie różni się od wzorca (wynik z próby znacznie odbiega od próby).
12