Wartość ćwiartkowa 1 - wartość jednostki, która dzieli szereg w ten sposób, że ¼ jednostek ma od niej wartość nie większą, a ¾ - wartość nie mniejszą
Wartość ćwiartkowa 3 - wartość jednostki, która dzieli szereg w ten sposób, że ¾ jednostek ma od niej wartość nie większą, a ¼ - wartość nie mniejszą
gdzie: xd - dolna granica przedziału, w którym znajduje się kwartyl
N/4, 3N/4 - pozycje kwartyli
cum n-1 - skumulowana liczebność przedziałów poprzedzających przedział kwartyla
C0 - rozpiętość przedziału kwartyla
n0 - liczebność przedziału kwartyla
MIARY DYSPERSJI (ZMIENNOŚCI, ROZPROSZENIA) |
zadaniem miar dyspersji jest wskazanie w jakim stopniu poszczególne wartości jednostek zbiorowości statystycznej koncentrują się wokół wartości centralnej
miary zmienności należą do charakterystyk opisujących rozkład cechy
pozwalają mierzyć zróżnicowanie wartości zmiennej w ramach danej zbiorowości, a więc informują jak duże są różnice między poszczególnymi wartościami jednostek zbiorowości a przeciętną
im mniejszy stopień zmienności, tym większe jest znaczenie danej średniej
Miary zmienności klasyczne
Odchylenie przeciętne
jest średnia arytmetyczna bezwzględnych wartości odchyleń poszczególnych wartości zbiorowości statystycznej od średniej arytmetycznej
w szeregu prostym: w szeregu rozdzielczym:
Wariancja
jest średnią arytmetyczną kwadratów odchyleń poszczególnych wartości jednostek zbiorowości od ich średniej arytmetycznej (przyjmuje tylko wartości dodatnie)
w szeregu prostym: w szeregu rozdzielczym:
Odchylenie standardowe
pierwiastek kwadratowy ze średniej arytmetycznej kwadratów odchyleń poszczególnych wartości jednostek zbiorowości od ich średniej arytmetycznej (czyli pierwiastek kwadratowy z wariancji)
w szeregu prostym:
w szeregu rozdzielczym:
Własności odchylenia standardowego:
oblicza się je na podstawie wszystkich wartości szeregu
można je obliczyć, gdy liczebności szeregu są podane w liczbach względnych
dodanie lub odjęcie od wszystkich wartości zmiennej w szeregu jakiejkolwiek (tej samej) liczby nie zmienia wartości odchylenia standardowego
jeżeli wszystkie wartości szeregu pomnożymy lub podzielimy przez jakąkolwiek tę samą liczbę, odchylenie standardowe będzie również tylokrotnie mniejsze lub większe
odchylenie standardowe ma sens statystyczny dopiero wówczas, gdy znamy wartość średniej arytmetycznej, od której było obliczone
Reguła trzech sigm:
W przypadku rozkładu normalnego lub zbliżonego do normalnego blisko 1/3 wszystkich obserwowanych wartości zmiennej różni się od średniej arytmetycznej o więcej niż o
, w przybliżeniu 1 na 20 obserwacji przekracza tę średnią o wielkość równą
, a tylko 1 na 370 obserwacji przekracza tę średnią o
.
σ - odchylenie standardowe populacji generalnej
Typowy obszar zmienności
w obszarze tym mieści się około 2/3 wszystkich jednostek zbiorowości
konstruuje się go na podstawie średniej arytmetycznej i odchylenia standardowego:
Współczynnik zmienności (względna miara dyspersji)
wartość niemianowana
jest to stosunek odchylenia standardowego do średniej arytmetycznej:
Vx ≤ 35% - dyspersja mała - średnia arytmetyczna dobrze charakteryzuje średni poziom badanego zjawiska; można uznać, że badana zbiorowość jest jednorodna
35% < Vx ≤ 60% - dyspersja umiarkowana - średnia arytmetyczna dość dobrze charakteryzuje średni poziom badanego zjawiska
60% < Vx ≤ 75% - dyspersja duża - średnia arytmetyczna ma małą wartość poznawczą
75% < Vx ≤ 100% - dyspersja bardzo duża - średnia arytmetyczna nie jest miarą dobrze charakteryzującą tendencję centralną; zbiorowość jest niejednorodna
Miary zmienności pozycyjne
Obszar zmienności
jest to różnica między wartością największą i najmniejszą w badanej zbiorowości:
stosujemy w statystykach płac, cen, w kontroli jakości
opiera się na dwóch skrajnych wartościach - jest miarą niedoskonałą
Odchylenie ćwiartkowe
jest to połowa różnicy między kwartylem III a I:
stosujemy w szeregach z przedziałami otwartymi
Pozycyjny współczynnik zmienności
wartość niemianowana
jest względną miarą dyspersji
jest to stosunek odchylenia ćwiartkowego do mediany:
12-03-2001
Typy rozkładów empirycznych
Rozkład empiryczny zmiennej - to przyporządkowanie kolejnym wartościom zmiennej odpowiadających im liczebności;
rozkład odzwierciedla strukturę badanej zbiorowości z punktu widzenia badanej cechy;
jest ustalany na podstawie konkretnych obserwacji.
Rozkład, którego krzywa liczebności ma tylko jedno maksimum to rozkład jednomodalny.
Wśród rozkładów jednomodalnych wyróżniamy:
rozkłady symetryczne - liczebności rozkładają się proporcjonalnie po obu stronach liczebności największej,
rozkłady umiarkowanie asymetryczne,
rozkłady skrajnie asymetryczne.
Rozkład symetryczny o 1 maksimum jest rozkładem normalnym.
Uwaga: Każdy rozkład normalny jest rozkładem symetrycznym, ale nie każdy rozkład symetryczny jest rozkładem normalnym.
np. rozkład spłaszczony - r. symetryczny, ale nie normalny
rozkład wysmukły - r. symetryczny, ale nie normalny
ni
r. leptokurtyczny (wysmukły)
r. normalny
r. platokurtyczny (spłaszczony)
xi
Rozkład bimodalny - to rozkład posiadający dwa maksima.
Rozkład wielomodalny - rozkład posiadający wiele maksimów.
Przykłady rozkładów dla cechy ciągłej
ni r. bimodalny ni r. wielomodalny
xi xi
rozkłady umiarkowanie asymetryczne
ni lewostronnie ni prawostronnie ni siodłowy
xi xi xi
rozkłady skrajnie asymetryczne
ni lewostronnie ni prawostronnie
xi xi
Przykłady rozkładów dla cechy skokowej
ni r. jednomodalny ni r. bimodalny ni r. wielomodalny
xi xi xi
rozkłady umiarkowanie asymetryczne
ni
ni ni
lewostronnie prawostronnie siodłowy
xi xi xi
rozkłady skrajnie asymetryczne rozkład symetryczny
ni
ni ni
lewostronnie prawostronnie
xi xi xi
MIARY ASYMETRII |
pozwalają nam zbadać jak układają się w szeregu wartości zmiennej wokół średniej arytmetycznej
szereg nazywamy symetrycznym - gdy liczebności rozkładają się proporcjonalnie po obu stronach średniej arytmetycznej
szereg nazywamy asymetrycznym - gdy liczebności nie rozkładają się proporcjonalnie po obu stronach średniej arytmetycznej; szereg może być asymetryczny prawostronnie lub lewostronne
miary asymetrii dzielimy na miary absolutne i miary względne:
miary absolutne - pozwalają określić kierunek asymetrii:
- szereg symetryczny
- szereg asymetryczny lewostronnie
- szereg asymetryczny prawostronnie
miary względne:
(stosujemy dla szeregów otwartych lub o nierównych przedziałach klasowych)
gdy As = 0 - szereg symetryczny
gdy As > 0 - szereg asymetryczny prawostronnie
gdy As < 0 - szereg asymetryczny lewostronnie
MIARY KONCENTRACJI |
Współczynnik koncentracji
(wzór stosujemy dla szeregów rozdzielczych wielostopniowych)
gdy K = 3 - szereg normalny
gdy K > 3 - szereg wysmukły
gdy K < 3 - szereg spłaszczony
Rachunek momentów
tylko dla szeregów rozdzielczych zamkniętych o równych przedziałach klasowych
Moment dowolnego stopnia - średnia arytmetyczna z odchyleń wartości zmiennej od dowolnej liczby podniesionej do dowolnej potęgi
gdzie: xi - wartości zmiennej
x0 - dowolna liczba
r - dowolna potęga
ni - liczebności cząstkowe
N - liczebność ogólna
momenty dzielimy na zwykłe i centralne
Momenty zwykłe - momentem zwykłym nazywamy sumę odchyleń od dowolnej liczby podniesioną do dowolnej potęgi
jeśli za dowolną liczbę przyjmiemy 0, to moment zwykły:
cztery momenty zwykłe:
Momenty centralne - momentem centralnym nazywamy średnią arytmetyczną z odchyleń wartości zmiennej od ich średniej arytmetycznej podniesionych do dowolnej potęgi
ogólna postać:
cztery momenty centralne:
μ1 = 0 jest miarą dyspersji stanowi podstawę stanowi podstawę
- jest to wariancja konstrukcji klasycz. konstrukcji wsp.
wsp. asymetrii koncentracji
Związki między momentami zwykłymi a centralnymi:
współczynnik asymetrii współczynnik koncentracji
ANALIZA STRUKTURY obejmuje wyznaczenie parametrów statystycznych:
gdy szereg jest zamknięty i ma równe przedziały klasowe:
, S(x) , xtyp , V(x) , As , D
(można zastosować rachunek momentów)
gdy szereg jest otwarty lub ma nierówne przedziały klasowe:
Me , Q1 , Q2 , R , Q , VMe , As
STATYSTYKA MATEMATYCZNA
Statystykę dzielimy na: opisową i matematyczną.
Statystyka opisowa:
analiza struktury,
analiza współzależności,
analiza dynamiki.
Statystyka matematyczna:
estymacja,
testy.
a. ESTYMACJA (SZACOWANIE)
polega na tym, że na podstawie niekompletnych danych ze zbioru pochodzących z próby wnioskuje się o wartościach liczbowych zbioru, a otrzymane w ten sposób wnioski służą za podstawę podejmowania decyzji
rozróżniamy dwie metody estymacji:
punktową - stosując metodę estymacji punktowej obliczamy pojedynczą liczbę dla każdego nieznanego parametru zbioru
np. estymatorem średniej arytmetycznej populacji generalnej jest średnia arytmetyczna próby; estymatorem wariancji populacji generalnej jest wariancja z próby
przedziałową - polega na dokonaniu szacunku parametru w postaci takiego przedziału, zwanego przedziałem ufności, który z dużym prawdopodobieństwem obejmuje prawdziwą wartość parametru
dobry estymator powinien być:
nieobciążony (tzn. wartość oczekiwana estymatora powinna być równa parametrowi z próby)
zgodny z Prawem Wielkich Liczb (prawdopodobieństwo, że estymator jest zgodny z Prawem Wielkich Liczb rośnie wraz ze wzrostem ilości prób)
efektywny (czyli posiadać możliwie małą wariancję)
każdy estymator jest zmienną losową posiadającą określony rozkład prawdopodobieństwa
Estymacja przedziałowa
Przyjmujemy oznaczenia:
- średnia arytmetyczna obliczona na podstawie próby
m - średnia arytmetyczna populacji generalnej
S(x) - odchylenie standardowe obliczone na podstawie próby
σ - odchylenie standardowe populacji generalnej
n - liczebność próby
Przedział ufności dla średniej arytmetycznej
Model 1
Założenia:
populacja generalna ma rozkład normalny o średniej m i odchyleniu standardowym σ (tzn. N(m, σ)), przy czym średnia populacji m nie jest znana
znane jest odchylenie standardowe populacji σ
z populacji tej pobieramy próbę o liczebności n elementów wylosowanych niezależnie
gdzie: uα - wartość zmiennej losowej standaryzowanej u odczytana z tablic dystrybuanty rozkładu normalnego (dla danego współczynnika α)
1-α - współczynnik ufności (prawdopodobieństwo przyjęte z góry subiektywnie jako dowolnie duże - jest miarą zaufania do przeprowadzonego szacunku)
w praktyce przyjmuje się najczęściej: 1-α = 0,95 , 1-α = 0,90 lub 1-α = 0,99
(współczynnik ufności 0,95 oznacza, że w 95 przypadkach na 100 szacowany parametr mieści się w oszacowanym przez nas przedziale)
niektóre ważniejsze wartości uα :
Wartość współczynnika 1-α |
Wartość bezwzględna zmiennej standaryzowanej uα |
0,99 0,95 0,90 |
2,58 1,96 1,64 |
1-α = 0,95 im większy będzie przedział ufności, tym większą mamy pewność, że parametr mieści się w oszacowanych granicach, a to z kolei oznacza, że przeprowadzony szacunek jest mniej dokładny
- ∞ - uα uα ∞
pozostała część to margines błędny, który jest rozłożony po obu stronach równomiernie (po 2,5%)
Model 2
Założenia:
populacja generalna ma rozkład normalny o średniej m i odchyleniu standardowym σ
(tzn. N(m, σ)), przy czym średnia populacji m nie jest znana
nie znane jest również odchylenie standardowe populacji σ
z populacji tej pobieramy małą próbę o liczebności n (n≤30) elementów wylosowanych niezależnie
gdzie: tα - statystyka t-studenta odczytana z tablic przy α-poziomie istotności i n-1 stopniach swobody
n-1 - liczba stopni swobody - liczba niezależnych obserwacji niezbędnych do oszacowania nieznanego parametru populacji generalnej
Model 3
Założenia:
populacja generalna ma rozkład normalny lub do niego zbliżony, o średniej m i odchyleniu standardowym σ (tzn. N(m, σ)), przy czym średnia populacji m nie jest znana
nie znane jest również odchylenie standardowe populacji σ
z populacji tej pobieramy dużą próbę o liczebności n (n>30) elementów wylosowanych niezależnie
(oznaczenia: jak wyżej)
Przedział ufności dla wskaźnika struktury (frakcji)
nie zawsze badanie statystyczne prowadzone jest ze względu na cechę mierzalną, czasem badana cecha ma charakter niemierzalny (jakościowy) - wówczas z badania próbnego uzyskujemy jedynie informację o tym, czy dany element populacji generalnej posiada badaną cechę, czy też jej nie posiada
elementy populacji generalnej w przypadku analizy ze względu na cechę niemierzalną możemy podzielić na dwie klasy: elementy wyróżnione w populacji i elementy nie wyróżnione w populacji
podstawowym parametrem szacowanym w przypadku badań ze względu na cechę niemierzalną jest frakcja (lub po pomnożeniu przez 100 - procent elementów wyróżnionych w populacji) - wskaźnik struktury populacji, którego wartość jest ułamkiem właściwym, oznaczany symbolem p
najlepszym estymatorem parametru p jest wskaźnik struktury z próby, który wyrażamy przez:
gdzie: m - liczba elementów wyróżnionych znalezionych w losowej próbie o liczebności n
przedział ufności dla frakcji otrzymuje się z odpowiedniego rozkładu estymatora parametru
Założenia:
populacja generalna ma rozkład dwupunktowy z parametrem p, tzn. elementy populacji podzielone są na dwie klasy (wyróżnione, nie wyróżnione)
z populacji tej wylosowano niezależnie n (n>100) elementową próbę
gdzie: uα - wartość zmiennej losowej standaryzowanej u odczytana z tablic dystrybuanty rozkładu normalnego (dla danego współczynnika α)
Wyznaczanie niezbędnej liczebności próby
Model 1
Założenia:
populacja generalna ma rozkład normalny lub do niego zbliżony
znana jest wariancja populacji generalnej σ2 (odchylenie standardowe populacji do kwadratu)
chcemy oszacować średnią wartość populacji generalnej na podstawie próby złożonej z n elementów
jeśli żądamy, by przy ustalonym współczynniku ufności 1-α maksymalny błąd nie przekraczał z góry danej wartości d, to niezbędną liczebność próby wyznaczamy wg wzoru:
gdzie: σ2 - wariancja populacji
uα - wartość zmiennej losowej standaryzowanej u odczytana z tablic dystrybuanty rozkładu normalnego (dla danego współczynnika α)
d - dopuszczalny, z góry przyjęty maksymalny błąd szacunku
Model 2
Założenia:
populacja generalna ma rozkład normalny
nieznana jest wariancja populacji generalnej σ2
z populacji pobieramy wstępną próbę o liczebności n0 elementów i na podstawie tej wstępnej próby wyznaczamy wariancję Sx2 wg wzoru:
jeśli żądamy, by przy ustalonym współczynniku ufności 1-α maksymalny błąd nie przekraczał z góry danej wartości d, to niezbędną liczebność próby wyznaczamy wg wzoru:
gdzie: Sx2 - wariancja próby wstępnej
tα - wartość krytyczna odczytana z tablicy rozkładu t-studenta dla danego współczynnika ufności 1-α i n0-1 stopni swobody
d - dopuszczalny, z góry przyjęty maksymalny błąd szacunku
Jeżeli liczebność właściwej próby n spełnia nierówność: n < no , to liczebność próby wstępnej n0 jest wystarczająca. Jeżeli natomiast n > no to należy dolosować do właściwej próby jeszcze n - no elementów.
Model 3 - dla cech niemierzalnych
Założenia:
populacja generalna ma rozkład dwupunktowy z parametrem p
należy oszacować metodą przedziałową parametr p tak, by przy współczynniku ufności 1-α maksymalny błąd szacunku wskaźnika struktury p nie przekraczał z góry przyjętej wartości d
wyróżniamy tu dwa przypadki:
jeśli znamy spodziewany rząd wielkości szacowanej frakcji, to niezbędną liczebność próby wyznaczamy wg wzoru:
gdzie: p - spodziewany rząd wielkości szacowanego wskaźnika struktury
q = 1 - p
d - maksymalny dopuszczalny błąd szacunku
jeśli nie znamy rzędu wielkości szacowanego wskaźnika struktury p, to niezbędną liczebność próby wyznaczamy wg wzoru:
19-03-2001
b. TESTOWANIE HIPOTEZ STATYSTYCZNYCH
Drugi dział statystyki matematycznej to testy statystyczne, czyli weryfikacja hipotez statystycznych.
Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu zmiennej losowej. Dzielimy je na:
parametryczne - dotyczą określonych parametrów populacji generalnej,
nieparametryczne - dotyczą właściwości rozkładu populacji generalnej wg badanej cechy lub cech.
Zarówno w przypadku hipotez parametrycznych, jak i nieparametrycznych wyróżniamy:
hipotezę zerową H0 - ma miejsce wówczas, gdy zakładamy, że pomiędzy estymatorem i parametrem lub rozkładem empirycznym i teoretycznym nie ma różnic (H0 zawiera zawsze znak równości), np. H0: m = m0 (m0 - wartość hipotetyczna średniej populacji generalnej)
hipotezę alternatywną H1 - dopuszcza istnienie różnic pomiędzy estymatorem a parametrem; możemy ją zapisać w trojaki sposób:
H1: m ≠ m0 (dwustronny obszar krytyczny)
H1: m > m0 (prawostronny obszar krytyczny)
H1: m < m0 (lewostronny obszar krytyczny)
Weryfikacja hipotez statystycznych polega na zastosowaniu określonego testu statystycznego.
Test statystyczny - to pewna reguła postępowania, która na podstawie wyników próby może doprowadzić do podjęcia decyzji przyjęcia lub odrzucenia postawionej hipotezy zerowej.
Przy weryfikacji hipotez statystycznych zakładamy pewien poziom istotności - jest to prawdopodobieństwo popełnienia błędu I-go rodzaju:
błąd I-go rodzaju - to błąd w postępowaniu testującym hipotezę polegający na odrzuceniu hipotezy mimo że była ona w rzeczywistości prawdziwa
błąd II-go rodzaju - polega na przyjęciu hipotezy fałszywej.
Poziom istotności oznacza się zwykle symbolem α i obiera się go z góry jako małe prawdopodobieństwo - najczęściej stosowany poziom istotności to: α = 0,1 , α = 0,05 , α = 0,01:
przyjęcie poziomu istotności α = 0,05 oznacza, że ryzyko popełnienia błędu I-go rodzaju wynosi tylko 5%, a więc inaczej mówiąc w co najwyżej 5 przypadkach na 100 popełniamy błąd i-go rodzaju.
W zależności od postaci postawionej hipotezy zerowej (tzn. hipotezy bezpośrednio sprawdzanej) oraz od postaci hipotezy alternatywnej (tzn. hipotezy konkurencyjnej w stosunku do hipotezy zerowej) sposób budowy testu jest różny. Istota rzeczy przy budowie każdego testu polega na tym, aby uchronić się przed popełnieniem błędów I-go i II-go rodzaju.
Test istotności - to taki test, w którym na podstawie wyników próby losowej podejmuje się decyzje odrzucenia hipotezy zerowej lub stwierdza się, że nie ma podstaw do jej odrzucenia.
Wyróżniamy dwa rodzaje testów istotności:
test istotności parametryczny - to taki test, który weryfikuje H0 precyzującą wartość parametru, w ustalonym typie rozkładu populacji generalnej,
test istotności nieparametryczny - to taki test, który weryfikuje H0 precyzującą ustalony typ lub postać rozkładu populacji generalnej.
Do najczęściej stosowanych testów istotności parametrycznych należą:
test dla wartości średniej populacji generalnej,
test dla dwóch średnich,
test dla frakcji,
test dla dwóch frakcji,
test dla wariancji,
test dla dwóch wariancji.
Do najczęściej stosowanych testów istotności nieparametrycznych należą:
test zgodności σ2,
test niezależności σ2,
testy serii.
Formułowanie i weryfikacja hipotez statystycznych obejmuje kilka etapów:
zapisanie hipotezy zerowej,
sformułowanie hipotezy alternatywnej,
wybranie testu statystycznego, który pozwoli na weryfikację hipotezy,
wylosowanie próby,
wykonanie obliczeń wynikających z testu,
założenie poziomu istotności - a tym samym wyznaczenie obszaru krytycznego testu,
wyliczenie wartości statystyki na podstawie próby,
odczytanie z tablic wartości krytycznej danej statystyki dla założonego poziomu istotności,
porównanie dwóch wartości (wyliczonej i odczytanej z tablic)
sformułowanie wniosku końcowego.
Obszar krytyczny hipotezy zerowej - to tzw. obszar odrzuceń hipotezy zerowej:
jeśli wartość statystyki z próby znajdzie się w tym obszarze, to hipotezę zerową odrzucamy na korzyść hipotezy alternatywnej,
gdy otrzymamy z próby wartość statystyki nie należącą do obszaru krytycznego, to nie ma podstaw do odrzucenia hipotezy zerowej.
W zależności od przyjętej hipotezy mamy różne obszary odrzuceń, np.
H1: m ≠ m0 → dwustronny obszar krytyczny
½α = 0,025 ½α = 0,025
α = 0,05
Pole powierzchni pod krzywą normalną wynosi 1,0 ,
czyli: 1,00 - 0,025 = 0,975
stąd: u0,05 = 1,96 - ∞ - uα uα ∞
α = 0,10 ½α = 0,05 1,00 - 0,05 = 0,95 u0,10 = 1,64
α = 0,01 ½α = 0,005 1,00 - 0,005 = 0,995 u0,01 = 2,58
H1: m > m0 → prawostronny obszar krytyczny
α = 0,05
α = 0,05
1,00 - 0,05 = 0,95 u0,05 = 1,64
- ∞ uα ∞
α = 0,10 1,00 - 0,10 = 0,90 u0,10 = 1,28
α = 0,01 1,00 - 0,01 = 0,99 u0,01 = 2,33
H1: m < m0 → lewostronny obszar krytyczny
α = 0,05
α = 0,05 1,00 - 0,05 = 0,95 u0,05 = 1,64
- ∞ - uα ∞
α = 0,10 1,00 - 0,10 = 0,90 u0,10 = 1,28
α = 0,01 1,00 - 0,01 = 0,99 u0,01 = 2,33
Test dla wartości średniej populacji generalnej - test parametryczny
Należy na podstawie wyników próby losowej o liczebności n elementów sprawdzić hipotezę zerową, że średnia populacji generalnej m jest równa wartości hipotetycznej m0 , wobec hipotezy alternatywnej, że średnia populacji generalnej nie jest równa wartości hipotetycznej średniej:
H0: m = m0 H1: m ≠ m0
m - średnia populacji generalnej mamy więc dwustronny obszar krytyczny
m0 - hipotetyczna wartość średniej
Model 1
Założenia:
populacja generalna ma rozkład normalny, przy czym odchylenie standardowe populacji (σ) jest znane; średnia populacji (m) nie jest znane
wybieramy n elementową próbę i w oparciu o jej wyniki weryfikujemy H0
Obliczamy statystykę u:
gdzie:
- średnia arytmetyczna obliczona na podstawie próby
σ - odchylenie standardowe populacji generalnej
n - liczebność próby
Wartość statystyki u porównujemy z wartością uα odczytaną z tablic:
jeżeli |u| ≥ uα (dwustronny obszar krytyczny) - hipotezę zerową odrzucamy,
jeżeli |u| < uα (jest poza dwustronnym obszarem krytycznym) - nie ma podstaw do odrzucenia hipotezy zerowej.
|u| ≥ uα |u| ≥ uα u ≥ uα u ≥ uα
|u| < uα u < uα u > uα
- ∞ - uα uα ∞ - ∞ uα ∞ - ∞ - uα ∞
H1: m ≠ m0 H1: m > m0 H1: m < m0
Model 2
Założenia:
populacja generalna ma rozkład normalny, przy czym odchylenie standardowe populacji (σ) i średnia populacji (m) nie są znane
z populacji tej pobieramy małą n elementową próbę (n≤30) i w oparciu o jej wyniki weryfikujemy H0
Obliczamy statystykę t:
gdzie:
- średnia arytmetyczna obliczona na podstawie próby
Sx - odchylenie standardowe obliczone na podstawie próby
n - liczebność próby
Wartość statystyki t porównujemy z wartością tα (odczytaną z tablic rozkładu t-studenta przy poziomie istotności α i n-1 stopniach swobody):
jeżeli wartość statystyki t znajduje się w obszarze krytycznym - hipotezę zerową odrzucamy,
jeżeli wartość statystyki t znajduje się poza obszarem krytycznym - nie ma podstaw do odrzucenia hipotezy zerowej.
Model 3
Założenia:
populacja generalna ma rozkład normalny lub dowolnie inny, przy czym odchylenie standardowe populacji (σ) i średnia populacji (m) nie są znane
z populacji tej pobieramy dużą n elementową próbę (n>30) i w oparciu o jej wyniki weryfikujemy H0
Obliczamy statystykę u:
gdzie:
- średnia arytmetyczna obliczona na podstawie próby
Sx - odchylenie standardowe obliczone na podstawie próby
n - liczebność próby
Wartość statystyki u porównujemy z wartością krytyczną uα :
jeżeli wartość statystyki u znajduje się w obszarze krytycznym - hipotezę zerową odrzucamy,
jeżeli wartość statystyki u znajduje się poza obszarem krytycznym - nie ma podstaw do odrzucenia hipotezy zerowej.
Test dla dwóch średnich - test parametryczny
Należy na podstawie wyników dwóch niezależnych prób losowych o liczebnościach n1 i n2 elementów sprawdzić hipotezę zerową, że średnie w dwóch populacjach generalnych m1 i m2 są sobie równe, wobec hipotezy alternatywnej, że średnie te są różne:
H0: m1 = m2 H1: m1 ≠ m2
m1 , m2 - (nieznane) średnie w dwóch populacjach generalnych
Model 1
Założenia:
badamy dwie populacje generalne mające rozkłady normalne, przy czym odchylenia standardowe tych populacji (σ1, σ2) są znane
z populacji tych pobieramy dwie niezależne próby o liczebnościach n1 i n2 elementów i w oparciu o ich wyniki weryfikujemy H0
Obliczamy statystykę u:
gdzie:
- średnie arytmetyczne obliczone na podstawie prób
σ1, σ2 - odchylenia standardowe populacji generalnych
n1, n2 - liczebności prób
Wartość statystyki u porównujemy z wartością krytyczną uα odczytaną dla danego poziomu istotności:
jeżeli wartość statystyki u znajduje się w obszarze krytycznym - hipotezę zerową odrzucamy,
jeżeli wartość statystyki u znajduje się poza obszarem krytycznym - nie ma podstaw do odrzucenia hipotezy zerowej.
Model 2
Założenia:
badamy dwie populacje generalne mające rozkłady normalne, przy czym odchylenia standardowe tych populacji (σ1, σ2) nie są znane
z populacji tych pobieramy dwie niezależne małe próby o liczebnościach n1 i n2 elementów i w oparciu o ich wyniki weryfikujemy H0
Obliczamy statystykę t:
gdzie:
- średnie arytmetyczne obliczone na podstawie prób
S1, S2 - odchylenia standardowe obliczone na podstawie prób
n1, n2 - liczebności prób
Wartość statystyki t porównujemy z wartością krytyczną tα (odczytaną z tablicy rozkładu t-studenta dla danego poziomu istotności i n1+ n2-2 stopniach swobody:
jeżeli wartość statystyki t znajduje się w obszarze krytycznym - hipotezę zerową odrzucamy,
jeżeli wartość statystyki t znajduje się poza obszarem krytycznym - nie ma podstaw do odrzucenia hipotezy zerowej.
Mamy tu szczególny przypadek:
Czasem w praktyce zdarza się, że wyniki obu prób możemy traktować jako wyniki pomiarów na tym samym elemencie populacji (wyniki stanowią przyporządkowane sobie pary liczb). Typowym przypadkiem jest tu wynik X przed jakąś sytuacją oraz wynik Y po niej.
Możemy wówczas analizować wyniki obu prób jako wyniki jednej próby biorąc pod uwagę różnicę:
i wówczas zamiast testu z modelu 2 używa się testu dla średniej różnicy.
Stawiamy hipotezy:
H0:
= 0 (średnia przed i po jakiejś sytuacji H1:
≠ 0
nie uległa zmianie)
przy czym:
Wówczas statystyka t ma postać:
Model 3
Założenia:
badamy dwie populacje generalne mające rozkłady normalne lub dowolnie inne, przy czym odchylenia standardowe tych populacji (σ1, σ2) nie są znane
z populacji tych pobieramy dwie niezależne duże próby o liczebnościach n1 i n2 elementów i w oparciu o ich wyniki weryfikujemy H0
Obliczamy statystykę u:
gdzie:
- średnie arytmetyczne obliczone na podstawie prób
S1, S2 - odchylenia standardowe obliczone na podstawie prób
n1, n2 - liczebności prób
Wartość statystyki u porównujemy z wartością krytyczną uα (odczytaną z tablicy rozkładu normalnego dla danego poziomu istotności):
jeżeli wartość statystyki u znajduje się w obszarze krytycznym - hipotezę zerową odrzucamy,
jeżeli wartość statystyki u znajduje się poza obszarem krytycznym - nie ma podstaw do odrzucenia hipotezy zerowej.
45