Statystyka opisowa
Podstawowe pojęcia statystyki opisowej
Populacja generalna zbiorowość statystyczna, tzn. zbiór dowolnych elementów, nieidentycznych z punktu widzenia badanej
cechy.
Próba, próbka część, tj. podzbiór populacji, podlegający bezpośrednio badaniu ze względu na ustaloną cechę, w celu
wyciągnięcia wniosków o kształtowaniu się tej cechy w populacji.
Liczebność próby liczba jednostek elementów populacji generalnej wybranej do próby. Liczebność próby oznacza się zwykle
przez n. Gdy n<30, mówi się często o małej próbie.
Próba losowa próba, której dobór z całej populacji dokonany był w drodze losowania (np. za pomocą tablicy liczb
losowych), tzn. w taki sposób, że jedynie przypadek decyduje o tym, kktóry element populacji generalnej wchodzi do
próby, a który nie.
Próba reprezentacyjna próba, której struktura pod względem badanej cechy nie różni się istotnie od struktury populacji
generalnej. Próba reprezentacyjna jest jak gdyby miniaturą populacji generalnej, daje więc podstawę do wysuwania
prawidłowych o niej wniosków. Uzyskiwaniu prób reprezentacyjnych sprzyja dobór właściwego schematu losowania
próby.
Schemat losowania próby praktyczny sposób losowania elementów populacji generalnej do próby, uwzględniający
możliwości techniczne, koszt i efektywność uzyskiwanych wyników. Metoda reprezentacyjna zajmuje się szczegółowo
różnymi schematami losowania próby.
Losowanie niezależne schemat losowania próby ze zwracaniem każdego wylosowanego elementu w trakcie losowania, tak,
że jeden element może zostać wylosowany do próby więcej niż jeden raz.
Losowanie zależne schemat losowania próby bez zwracania każdego wylosowanego elementu populacji generalnej, tak że
jeden element populacji może zostać wylosowany do próby tylko jeden raz.
Wyniki próby zaobserwowane wartości badanej cechy u tych elementów populacji generalnej, które zostały wybrane do
próby. Wyniki próby losowej o liczebności n stanowią wartości n-wymiarowej zmiennej losowej (n-wymiarowego
wektora losowego). Wyniki dużej próby grupuje się zwykle w klasy, tworząc tzw. szereg rozdzielczy.
Przestrzeń próby zbiór wszystkich możliwych wyników próby o liczebności n.
Rozkład populacji rozkład wartości badanej cechy statystycznej w całej zbiorowości.
Parametry populacji parametry rozkładu badanej cechy w populacji. Charakteryzują one ten rozkład. Do najczęściej
używanych parametrów należą tzw. momenty. Parametry dzielimy zwykle na następujące grupy:
a) miary skupienia (np. średnia arytmetyczna, mediana),
b) miary rozproszenia, rozrzutu (np. wariancja, odchylenie standardowe),
c) miary asymetrii,
d) miary korelacji (przy badaniu populacji ze względu na wiele cech).
Statystyka z próby zmienna losowa będąca dowolną funkcją wyników próby losowej, np. średnia arytmetyczna wyników
próby x , statystyka pozycyjna rzędu 0,5, czyli mediana.
Rozkład statystyki teoretyczny rozkład prawdopodobieństwa zmiennej losowej będącej statystyką. Rozkład ten zależy zwykle
od rozkładu populacji i schematu losowania n-elementowej próby.
Asymptotyczny rozkład statystyki graniczny rozkład prawdopodobieństwa zmiennej losowej będącej statystyką, wyznaczony
przy założeniu, że liczebność losowej próby n " .
1
Charakterystyki w próbie.
Szereg statystyczny Szereg rozdzielczy
n n
Wartość średnia
1
1
x = xi
x = "n
"x i
i
n
n i=1
i=1
n n n
Wariancja
1
1 1
2
S2 = (xi - x)2
S2 = - x)2 = - x2 "n
"(x "x i
i i
n
n n i=1
i=1 i=1
Odchylenie standardowe
S = S2
Współczynnik zmienności
S
V = Å"100%
x
Oznaczenia:
x1, x2, ..., xn kolejne wyniki doświadczenia, wyniki pomiaru interesującej nas cechy w kolejnych elementach próby losowej
n liczebność próby
c ilość klas
ni liczebność i-tego przedziału klasowego
Szereg rozdzielczy.
Jeżeli liczność próby dotyczącej jednej cechy mierzalnej jest duża, to pierwszym etapem jej opracowania jest dokonanie
grupowania, czyli klasyfikacji. Grupowanie polega na podziale próby na podzbiory zwane grupami i zastąpieniu
poszczególnych jednostek próby każdej z grup jedną wartością reprezentującą wszystkie obserwacje z tej grupy, tzw. średnią
grupy. Grupy powstające w wyniku grupowania noszą nazwę przedziałów klasowych lub krótko klas, a wartością
reprezentującą poszczególne klasy są ich środki. Przedziały klasowe oraz ich liczności, czyli liczby jednostek próby należące
do danej klasy, tworzÄ… razem tzw. szereg rozdzielczy.
f& Aby utworzyć szereg rozdzielczy należy:
1) ustalić obszar zmienności badanej cechy, czyli przedział ograniczony największym i najmniejszym elementem próby,
2) podzielić obszar zmienności na klasy i ustalić reprezentację klasy (środek klasy) oraz końce przedziałów klasowych,
3) policzyć, ile elementów próby należy do każdej klasy, czyli określić liczebność każdej z nich.
f& Wyznaczanie liczby przedziałów klasowych c:
1) liczba przedziałów klasowych nie powinna być mniejsza od 7 i większa niż 15;
2) liczba przedziałów klasowych c powinna spełniać nierówność:
0,5 n d" c d" n
3) według Huntsberga: c = 1+3,3 lg n
4) De Brooks i Carruthers proponujÄ…: c < 5 lg n .
f& Szereg rozdzielczy przedstawia się graficznie za pomocą: histogramu, krzywej liczności ( krzywej częstości).
f& Wyznaczanie charakterystyk szeregu rozdzielczego za pomocą momentów.
K-ty moment centralny Mk zmiennej xi wyliczymy ze wzoru:
c
1
Mk = Å" (xi - x)k k = 1, 2, 3, 4, ...
"n
i
n
i=1
Wówczas korzystać możemy ze wzorów
2
S2 = M2
M3
A =
S3
M4
E = - 3
S4
gdzie zdefiniowano dwie nowe charakterystyki szeregu rozdzielczego: A współczynnik asymetrii, E współczynnik
spłaszczenia (eksces), pozostałe oznaczenia jak poprzednio.
Interpretacja charakterystyk liczbowych szeregu
Średnia arytmetyczna informuje wokół jakiej wartości oscyluje większość próbek.
Odchylenie standardowe S w przedziale (x - S, x + S) znajduje się większość wartości próbek, są one skupione w tym
przedziale. Więc im większe S, to częściej odnotowywane są większe odchylenia od średniej arytmetycznej.
c
1
Zauważmy, że gdy S = 0, to S2 = 0 = (yi - x)2 , czyli musiałoby być yi = x dla każdego i = 1, ..., c, co
"n
i
n
i=1
oznacza, ze wszystkie wyniki próby są równe wartości średniej arytmetycznej.
Współczynnik zmienności W informuje o stosunku odchylenia standardowego do średniej arytmetycznej (wyrażonym w %),
co pozwala porównywać ze sobą dwie różne próby.
Współczynnik asymetrii A informuje o rozłożeniu wyników próby w przedziale zmienności. Gdy A>0 mówimy o asymetrii
dodatniej wtedy liczniejsze są przedziały klasowe o wartościach większych od średniej, gdy A<0 o asymetrii
ujemnej; liczniejsze są wówczas przedziały klasowe o wartościach mniejszych niż średnia arytmetyczna. W przypadku,
gdy A=0, mówimy o rozkładzie symetrycznym.
Współczynnik spłaszczenia (eksces) E miara odchylenia się skupienia szeregu od skupienia w szeregu reprezentatywnym
dla populacji o rozkładzie normalnym. Jest to charakterystyka liczbowa skupienia jednostek wokół średniej
arytmetycznej.
3
Statystyka matematyczna
Statystyka matematyczna jest działem probabilistyki ściśle związanym z rachunkiem prawdopodobieństwa. Punkt
widzenia statystyki jest jednakże inny. W rachunku prawdopodobieństwa mówiąc o zmiennej losowej zakłada się, że jej
rozkład jest znany i, wykorzystując ten fakt, wyznacza się prawdopodobieństwa różnych zdarzeń. W statystyce natomiast nie
zakłada się pełnej znajomości rozkładu zmiennej, interpretowanej w praktycznych zastosowaniach jako cech statystyczna
elementów badanej zbiorowości (populacji generalnej). Punktem wyjścia badania statystycznego jest wylosowanie z całej
populacji pewnej skończonej liczby n elementów i zbadanie ich ze względu na zmienną losową (cechę). Uzyskane w ten
sposób wartości x1, x2, ..., xn badanej cechy X są zaobserwowanymi wartościami n-elementowej próby.
W statystyce opisowej ograniczyliśmy się do opisu uzyskanych wyników w próbie bez wyciągania wniosków o całej
populacji. W statystyce matematycznej natomiast, na podstawie wyników badania próbnego, będziemy się starali wyciągnąć
wnioski dotyczące badanej cechy w całej populacji. Do najważniejszych form wnioskowania statystycznego należą: estymacja
(ocena) nieznanych parametrów bądz ich funkcji, które charakteryzują rozkład badanej cechy populacji oraz weryfikacja
postawionych hipotez statystycznych (badanie ich prawdziwości).
Dowolne dwie n-elementowe próbki z tej samej populacji są na ogół różne. Wygodnie jest zatem traktować ciąg liczbowy x1,
x2, ..., xn jako realizację ciągu X1, ..., Xn, gdzie Xi, i=1, ..., n, jest zmienną losową, której zbiorem możliwych wartości są
wartości i-tego spośród n wylosowanych elementów. Ciąg tych zmiennych losowych X1, ..., Xn będziemy nazywali n-
elementową próbą losową, natomiast jeżeli zmienne X1, ..., Xn są niezależne i każda z nich ma rozkład taki jak rozkład
badanej cechy populacji, to próbę nazywamy próbą prostą. Ciąg liczb x1, x2, ..., xn będziemy nazywali zaobserwowaną
próbą losową bądz po prostu próbką.
RozkÅ‚ad Ç2 (chi-kwadrat) - po raz pierwszy zastosowany w 1876 r. przez R. Helmerta, a ponownie odkryty przez
Ç
Ç
Ç
znakomitego statystyka K. Persona w 1900 r.
RozkÅ‚adem Ç2 o n stopniach swobody nazywamy rozkÅ‚ad zmiennej losowej, która jest sumÄ… n niezależnych zmiennych
Ç
Ç
Ç
losowych o standardowym rozkładzie normalnym:
n
2
Yn = ( Xk ma rozkład N(0,1) )
"X
k
k=1
GÄ™stość prawdopodobieÅ„stwa zmiennej losowej o rozkÅ‚adzie Ç2 wyraża siÄ™ wzorem
Å„Å‚0
dla y d" 0
ôÅ‚
ôÅ‚
fn (y) =
òÅ‚
1
ôÅ‚
y(n-2) / 2e-y / 2 dla y > 0
n / 2
ôÅ‚
ół2 “(n / 2)
Jej wykres dla kilku wartości n:
n=1
n=2
n=6
n=8
Można udowodnić, że EYn = n oraz S2Yn = 2n.
4
Rozkład Studenta
Rozkład nazwano tak na cześć matematyka angielskiego W. Gosseta, który prace swe ogłaszał pod pseudonimem Student .
TWIERDZENIE: Jeśli zmienna losowa Y ma rozkład normalny N(0,1), zaś zmienna losowa Z jest od Y niezależna i Z2 ma
Y n
rozkÅ‚ad Ç2 o n stopniach swobody, to zmienna losowa t = ma gÄ™stość prawdopodobieÅ„stwa
Z
n + 1
n+1
“ëÅ‚ öÅ‚ -
ìÅ‚ ÷Å‚
ëÅ‚ öÅ‚
2 t2 2
íÅ‚ Å‚Å‚
f (t) = ìÅ‚ ÷Å‚ ,gdzie - " < t < " .
ìÅ‚1 + ÷Å‚
n n
íÅ‚ Å‚Å‚
“ëÅ‚ öÅ‚ nÄ„
ìÅ‚ ÷Å‚
2
íÅ‚ Å‚Å‚
O zmiennej losowej t mówimy, że ma rozkład Studenta o n stopniach swobody.
Ciąg gęstości prawdopodobieństwa fn zmiennych losowych o rozkładzie Studenta przy liczbie stopni swobody rosnącej
nieograniczenie, dąży do gęstości prawdopodobieństwa zmiennej losowej o rozkładzie normalnym N(0,1). Dlatego przy
liczbie stopni swobody n przewyższającej 20 możemy posługiwać się tablicami rozkładu normalnego; popełniamy wówczas
błąd nie przewyższający 0,001.
W zastosowaniach szczególną rolę odgrywają przedziały, dla których P( t < tp) = p. Wartości tp rozkładu Studenta dla n stopni
swobody podane sÄ… w tablicach.
Rozkład Xn.
Udowodniono ( w oparciu o twierdzenie Lindeberga Levy ego), że ciąg średnich arytmetycznych Xn z prób n-elemento-
wych z populacji o dowolnym rozkładzie, mającym wartości oczekiwane m i wariancje skończone S2 e" 0, dąży według praw-
ëÅ‚ öÅ‚
S
ìÅ‚ ÷Å‚
dopodobieÅ„stwa do zmiennej losowej o rozkÅ‚adzie normalnym NìÅ‚m, .
÷Å‚
n
íÅ‚ Å‚Å‚
Wyznaczanie przedziałów ufności parametrów.
PrzedziaÅ‚em ufnoÅ›ci dla parametru ¸ na poziomie ufnoÅ›ci 1 - Ä… ( 0 < Ä… < 1 ) nazywamy przedziaÅ‚ (¸1, ¸2) speÅ‚niajÄ…cy
¸ Ä…
¸ Ä…
¸ Ä…
warunki:
- jego koÅ„ce ¸1 = ¸1(X1, ..., Xn), ¸2 = ¸2(X1, ..., Xn) sÄ… funkcjami próby losowej i nie zależą od szacowanego parametru ¸;
- prawdopodobieÅ„stwo pokrycia przez ten przedziaÅ‚ nieznanego parametru ¸ jest równe 1 - Ä…, tzn.
P( ¸1(X1, ..., Xn) < ¸ < ¸2(X1, ..., Xn) ) = 1 - Ä…
Liczbę 1 - ą nazywamy współczynnikiem ufności, a liczbę ą - poziomem ufności. Jak widać z definicji powyższej końce
przedziaÅ‚u ufnoÅ›ci sÄ… zmiennymi losowymi. Nieznana wartość parametru ¸ może wiÄ™c być pokryta przez ten przedziaÅ‚ lub nie.
Jeżeli jednak dla różnych zaobserwowanych próbek losowych znajdziemy wiele realizacji przedziału ufności, to częstość tych,
które bÄ™dÄ… zawierać rzeczywistÄ… wartość parametru ¸ w dużej liczbie tych realizacji, bÄ™dzie w przybliżeniu równa 1 - Ä….
Najczęściej przyjmowanymi wartościami liczby 1 - ą są liczby: 0,90; 0,95; 0,99.
Przedział ufności dla wartości średniej m populacji.
Będziemy tutaj rozpatrywać przedziały ufności symetryczne względem x . Czyli będą to przedziały postaci (x - d, x + d),
gdzie d jest tzw. półprzedziałem ufności, który wylicza się różnie dla różnych modeli.
Zauważmy, że wówczas długość przedziału ufności wynosi 2d.
MODEL I.
Populacja ma rozkład N(m,b), wartość przeciętna m nieznany parametr, odchylenie standardowe b parametr znany.
5
Z populacji pobrano próbę o liczności n elementów i obliczono średnią arytmetyczną x .
n
1 ëÅ‚ X - m
Wiemy, że X = ìÅ‚ ÷Å‚ . Natomiast U = n otrzymana w wyniku standaryzacji ma rozkÅ‚ad
i
"X ma rozkÅ‚ad NìÅ‚m, S öÅ‚
÷Å‚
n b
n
íÅ‚ Å‚Å‚
i=1
N(0,1) którego rozkład nie zależy od szacowanego parametru m. Więc możemy wykorzystać ten rozkład do wyznaczenia
przedziału ufności.
Ä… öÅ‚
b Ä… öÅ‚
Obliczmy d = uëÅ‚1 - ÷Å‚ ìÅ‚
Å" , gdzie uëÅ‚1- ÷Å‚
jest wartością odczytaną z tablicy kwantyli rozkładu N(0,1). Przedziałem
ìÅ‚
2 2
íÅ‚ Å‚Å‚ n íÅ‚ Å‚Å‚
ufności dla parametru m na poziomie ufności 1 - ą jest przedział (x - d, x + d).
MODEL II.
Populacja ma rozkład N(m,b), m, b nieznane parametry.
n
1
2
Z populacji pobrano próbę małoliczną, tzn. n d" 30 i obliczono średnią arytmetyczną x oraz S2 =
i
"(x - x) .
n
i=1
Gęstość rozkładu studenta jest funkcją zależną jedynie od wartości n, nie zależy od m i b.
Ä… S Ä…
ëÅ‚1- Ä… öÅ‚
Wzór na półprzedziaÅ‚ ufnoÅ›ci: d = tëÅ‚1 - ,n -1öÅ‚ Å" , gdzie tëÅ‚1- ,n -1öÅ‚ jest wartoÅ›ciÄ… kwantyla rzÄ™du
ìÅ‚ ÷Å‚ ìÅ‚ ÷Å‚ ìÅ‚ ÷Å‚
2 2 2
íÅ‚ Å‚Å‚ n -1 íÅ‚ Å‚Å‚ íÅ‚ Å‚Å‚
rozkładu Studenta o n-1 stopniach swobody (są to wartości podane w tablicach).
MODEL III.
Populacja ma rozkład N(m,b) bądz dowolny inny o średniej m i o wariancji skończonej S2 = b2, m, b nieznane parametry.
n
n 1
2
Z populacji pobrano próbę liczną, tzn. n > 30 i obliczono średnią arytmetyczną x oraz S*2 = S2 =
i
"(x - x) .
n -1 n -1
i=1
Ä… öÅ‚
S* Ä… öÅ‚
Tutaj d = uëÅ‚1- ÷Å‚ ìÅ‚
Å" , gdzie uëÅ‚1- ÷Å‚
jest wartością odczytaną z tablicy kwantyli rozkładu N(0,1).
ìÅ‚
2 2
íÅ‚ Å‚Å‚ n íÅ‚ Å‚Å‚
Przedział ufności dla wariancji i odchylenia standardowego b populacji.
Dana jest populacja generalna o rozkładzie normalnym N(m,b); parametry m i b są nieznane. Należy oszacować wariancję
n
1
2
populacji b2. Z populacji generalnej wybieramy losowo próbkę n elementów i obliczamy x oraz S2 =
i
"(x - x) .
n
i=1
MODEL I. Gdy n d" 30.
KonstrukcjÄ™ przedziaÅ‚u ufnoÅ›ci oprzemy na rozkÅ‚adzie Ç2 o n-1 stopniach swobody.
Przedział ufności na poziomie ufności 1 - ą
" dla wariancji
ëÅ‚ öÅ‚
ìÅ‚ ÷Å‚
nS2 nS2 ÷Å‚
ìÅ‚
,
ìÅ‚ ÷Å‚
Ä… Ä…
Ç2 ëÅ‚1
ìÅ‚ ìÅ‚ - , n -1öÅ‚ Ç2 ëÅ‚ , n -1öÅ‚
÷Å‚ ìÅ‚ ÷Å‚ ÷Å‚
2 2
íÅ‚ Å‚Å‚ íÅ‚ Å‚Å‚
íÅ‚ Å‚Å‚
" dla odchylenia standardowego
ëÅ‚ öÅ‚
ìÅ‚ ÷Å‚
n n
ìÅ‚
S , S÷Å‚
ìÅ‚ ÷Å‚
Ä… Ä…
ìÅ‚ Ç2 ëÅ‚1- ,n -1öÅ‚ Ç2 ëÅ‚ , n -1öÅ‚ ÷Å‚
ìÅ‚ ÷Å‚ ìÅ‚ ÷Å‚
ìÅ‚ ÷Å‚
2 2
íÅ‚ Å‚Å‚ íÅ‚ Å‚Å‚
íÅ‚ Å‚Å‚
Ä… Ä…
gdzie Ç2 ëÅ‚1 - ,n -1öÅ‚ oraz Ç2 ëÅ‚ , n -1öÅ‚ sÄ… odpowiednimi kwantylami rozkÅ‚adu Ç2 o n-1 stopniach swobody (z tablic).
ìÅ‚ ÷Å‚ ìÅ‚ ÷Å‚
2 2
íÅ‚ Å‚Å‚ íÅ‚ Å‚Å‚
6
MODEL II. Gdy n > 30.
nS2 S
W przypadku tego modelu można wykorzystać fakt, że 2Ç2 = 2 = 2n ma w przybliżeniu rozkÅ‚ad N( 2n - 3,1)
b2 b
Zatem przedział ufności dla parametru b odchylenia standardowego ma postać:
ëÅ‚ öÅ‚
ìÅ‚ ÷Å‚
S 2n S 2n
ìÅ‚ ÷Å‚
,
ìÅ‚ ÷Å‚
Ä… öÅ‚
Ä… öÅ‚
2n 2n
ìÅ‚ - 3 + uëÅ‚1 - ÷Å‚ - 3 - uëÅ‚1 - ÷Å‚ ÷Å‚
ìÅ‚ ìÅ‚
2 2
íÅ‚ Å‚Å‚ íÅ‚ Å‚Å‚
íÅ‚ Å‚Å‚
Ä… öÅ‚
gdzie uëÅ‚1 - ÷Å‚
jest kwantylem rzÄ™du 1 ½ Ä… rozkÅ‚adu N(0,1) (z tablic).
ìÅ‚
2
íÅ‚ Å‚Å‚
Minimalna wielkość próby potrzebna do oszacowania parametru m z żądaną z góry dokładnością.
Szacowanie parametru m metodą przedziałową może doprowadzić w przypadku małej próby do wyniku, który daje tak duży
błąd szacunku wartości d, że otrzymany przedział ufności nie ma żadnego praktycznego znaczenia. Aby zapewnić sobie z góry
dobrą dokładność szacunku, należy przeprowadzić doświadczenie na dostatecznie dużej próbie.
Szukamy na danym poziomie ufności 1 ą takiej minimalnej liczby prób, aby otrzymać przedział ufności dla wartości
przeciętnej o długości nie większej niż 2k. Zakładając, że badana populacja ma rozkład N(m,b), gdzie m i b są nieznanymi
parametrami, pobieramy wstępną próbę o liczności n0 i obliczamy:
n0 n0
1
2
x0 =
"x oraz S2 = 1 "(x - x)
n0 i=1 i n0 i=1 i
Następnie wyznaczamy wartość
2
ëÅ‚ Ä… S öÅ‚
r = ìÅ‚ tëÅ‚1 - , n0 -1öÅ‚ ÷Å‚ + 1
ìÅ‚ ÷Å‚
ìÅ‚ ÷Å‚
2 k
íÅ‚ Å‚Å‚
íÅ‚ Å‚Å‚
Jeżeli r d" n0, to możemy pozostać przy wybranej próbce o liczności n0. Jeżeli r > n0, to do próbki wstępnej dobieramy jeszcze
n1 elementów, gdzie n1 = [r] - n0 +1. ( [r] oznacza wartość całkowitą liczby r ).
W przypadku, gdy znamy wartość b rozkładu populacji, możemy wyznaczyć liczność próby n bezpośrednio z nierówności
2d d" 2k
Gdzie d jest takie jak w Modelu I, a 2k jest obraną długością przedziału ufności na poziomie 1 ą.
Ostatecznie nasza nierówność, z której należy wyznaczyć n ma postać:
Ä… öÅ‚
b
uëÅ‚1- ÷Å‚
Å" d" k
ìÅ‚
2
íÅ‚ Å‚Å‚ n
Czyli
2
ëÅ‚ Ä… öÅ‚b öÅ‚
ìÅ‚ uëÅ‚1 - ÷Å‚
÷Å‚
ìÅ‚
2
ìÅ‚ íÅ‚ Å‚Å‚ ÷Å‚
n e"
ìÅ‚ ÷Å‚
k
ìÅ‚ ÷Å‚
íÅ‚ Å‚Å‚
7
Hipotezy statystyczne
Hipotezami statystycznymi będziemy określać formułowane przez badaczy założenia dotyczące rodzaju rozkładu
zmiennej losowej (wtedy mówimy o hipotezach nieparametrycznych) lub jego parametrów (hipotezy parametryczne).
Najczęściej spotykane w praktyce hipotezy statystyczne mają postać:
" Wartość oczekiwana lub wariancja cechy populacji ogólnej jest równa pewnej liczbie (mniejsza od pewnej liczby, większa
od pewnej liczby).
" Wartości oczekiwane (wariancje lub inne parametry) dwóch populacji są równe; wartość oczekiwana w populacji
pierwszej jest większa od wartości oczekiwanej w populacji drugiej.
" Pewien rozkład teoretyczny jest modelem rozkładu cechy w populacji ogólnej.
Wśród hipotez statystycznych wyróżniamy hipotezy zerowe H0 oraz hipotezy alternatywne H1.
Przykład: Interesuje nas wartość oczekiwana zmiennej losowej X, czyli EX = m, która jest parametrem nieznanym.
Sformułowanie hipotezy zerowej może być następujące:
H0: EX = m0
wobec wykluczających się trzech możliwości postawienia hipotez alternatywnych:
H1: EX < m0 lub H1: EX `" m0 lub H1: EX > m0
Poszczególne warianty powyższych hipotez alternatywnych są określane jako lewostronna, dwustronna oraz prawostronna. Do
sformułowanej hipotezy zerowej dołącza się tylko jedną postać hipotezy alternatywnej.
Istota omawianego sposobu wnioskowania statystycznego polega na orzeczeniu, czy hipoteza jest słuszna czy też nie,
po uzyskaniu odpowiednich informacji z próby. Postępowanie takie nazywa się weryfikacją lub testowaniem hipotezy.
Statystyczna procedura weryfikacji hipotez zerowych oparta jest na specjalnych narzędziach zwanych testami. Przez test staty-
styczny rozumiemy postępowanie statystyczne, w którego wyniku przyjmujemy lub odrzucamy weryfikowaną hipotezę
statystyczną. W zależności od rodzaju hipotezy zerowej możemy wyróżnić testy zgodności (użyteczne do weryfikacji
nieparametrycznych H0) oraz testy istotności (użyteczne do weryfikacji parametrycznych H0).
Przy statystycznej weryfikacji hipotez zerowych możemy popełnić dwa rodzaje błędów losowych, którym
odpowiadają określone, najczęściej różne prawdopodobieństwa:
- błąd losowy I ego rodzaju polegający na odrzuceniu prawdziwej hipotezy zerowej, przy czym prawdopodobieństwo
popełnienia błędu losowego I ego rodzaju oznaczane jest jako ą i nazywane poziomem istotności;
- błąd losowy II ego rodzaju polegający na przyjęciu fałszywej hipotezy zerowej, przy czym prawdopodobieństwo
popeÅ‚nienia bÅ‚Ä™du losowego II ego rodzaju jest oznaczane przez ², 1 - ² jest nazywane mocÄ… zastosowanego testu
statystycznego.
Hipoteza H0 jest: prawdziwa fałszywa
Decyzja:
Przyjęcie decyzja trafna błąd II ego rodzaju
prawdopodobieÅ„stwo = ²
Odrzucenie błąd I ego rodzaju decyzja trafna
prawdopodobieństwo = ą
Prawdopodobieństwa popełnienia błędów I ego lub II ego rodzaju są przyjmowane jako założenia weryfikacyjne. Poziom
istotności ą przyjmowany jest zwykle na niskich poziomach; 0,10, 0,05, 0,01.
8
W postępowaniu badawczym związanym z weryfikacją hipotez statystycznych wyodrębnić można cztery etapy:
Etap I, w którym formułowana jest właściwa hipoteza zerowa oraz odpowiadająca jej hipoteza alternatywna.
Etap II, w którym wybierany jest odpowiedni do sformułowanej hipotezy zerowej test zgodności lub istotności. Polega
to na wyborze odpowiedniej funkcji testowej (jest to zmienna losowa: normalna standaryzowana, t Studenta lub inna, która
jest funkcją charakterystyk próby takich jak: liczność próby n, wartość średnia x , wariancja z próby S2, czasami także
parametrów populacji m wartość oczekiwana lub b odchylenie standardowe). Stosując funkcję testową wyliczamy wartość
liczbową tego testu dla danej próby.
Etap III, w którym przyjmowany jest poziom istotności ą i wyznaczane są obszary krytyczne hipotezy zerowej. Obszar
krytyczny jest to zbiór tych wartości funkcji testowej, dla których hipotezę H0 odrzucamy. Rozróżniamy obszary krytyczne
jednostronne (prawo- lub lewostronne) oraz dwustronne.
Etap IV, w którym podejmowana jest na ustalonym poziomie istotności decyzja odrzucenia (wtedy, kiedy wartość
testu zawiera się w obszarze krytycznym) lub nieodrzucenia (wtedy, gdy wartość testu jest poza obszarem krytycznym) danej
hipotezy zerowej.
Analiza korelacji i regresji dla układu dwóch cech
Daną populację ogólną badać możemy ze względu na różnorodne cechy. Pomiędzy niektórymi z nich da się zauważyć
pewien związek. Zajmiemy się teraz analizą statystycznej zależności pomiędzy dwiema cechami. Modelem populacji ogólnej
badanej ze względu na dwie cechy jest zmienna losowa dwuwymiarowa. Podstawowymi pojęciami służącymi do analizy
własności takiej zmiennej losowej są korelacja i regresja. Korelacja wyraża stopień zależności między zmiennymi losowymi,
regresja jest odzwierciedleniem tej zależności w postaci funkcyjnej. Inaczej: korelacja mówi o sile zależności między
zmiennymi losowymi, regresja o kształcie tej zależności.
Badamy populację na podstawie próby dwucechowej czyli zbioru par: {(x1,y1), (x2,y2), ..., (xn,yn)}, gdzie n wielkość próby
(liczba elementów w próbie), x1, ...,xn wartości pomiaru pierwszej cechy kolejnych elementów z próby; y1, ..., yn wartości
pomiaru drugiej cechy kolejnych elementów z próby. Przedstawienie próby dwucechowej jako zbioru punktów na
płaszczyznie jest tzw. diagramem punktowym (korelacyjnym). Wyniki pomiaru próby dwucechowej często przedstawia się w
postaci tablicy korelacyjnej (in. dwudzielczej).
W pierwszej kolejności zajmiemy się pojęciem korelacji. Przyjmijmy oznaczenia:
- Á - współczynnik korelacji pomiÄ™dzy zmiennymi losowymi stanowiÄ…cymi model populacji ogólnej, zwany czasem
teoretycznym współczynnikiem korelacji;
- r - ocena współczynnika korelacji Á wyliczona z próby, tzw. empiryczny współczynnik korelacji; r obliczamy ze wzoru:
n
"(x - x)(yi - y)
SXY i=1 i
r = =
n
SXSY n
"(x - x)2 "(y - y)2
i i
i=1 i=1
Wielkość SXY jest to tzw. kowariancja zmiennych losowych X i Y. Przez SX oraz SY oznaczyliśmy wariancje zmiennych
losowych X i Y odpowiednio wyliczone z próby; x oraz y oznaczają tak jak poprzednio średnie arytmetyczne z próby.
Powyższy wzór jest równoważny następującemu (który jest wygodniejszy w wyliczeniach):
n n n
"x yi - 1 "x Å""y
i i i
n
i=1 i=1 i=1
r =
2 2
n n n n
ëÅ‚ öÅ‚ ëÅ‚ öÅ‚
2 2
ìÅ‚
ìÅ‚ ÷Å‚ ìÅ‚ ÷Å‚
"x - 1 ëÅ‚"x öÅ‚ ÷Å‚ Å" ìÅ‚"y - 1 ëÅ‚"y öÅ‚ ÷Å‚
i i i i
ìÅ‚ ÷Å‚ ìÅ‚ ÷Å‚
n n
i=1 íÅ‚ Å‚Å‚ íÅ‚ Å‚Å‚
i=1 i=1 i=1
íÅ‚ Å‚Å‚ íÅ‚ Å‚Å‚
9
Współczynnik korelacji jest liczbą z przedziału [-1, 1].
Jeżeli: |r| = 1 to obie zmienne X i Y są liniowo zależne.
0,7 d" |r| < 1 to cechy są silnie skorelowane (istnieje między nimi duże współzależność).
0,3 d" |r| < 0,7 to cechy są średnio skorelowane.
0 < |r| < 0,3 to cechy są słabo skorelowane.
r = 0 brak korelacji (zależności) między badanymi cechami X i Y.
Jeżeli r > 0 to cechy są dodatnio skorelowane; wzrostowi wartości X towarzyszy wzrost wartości Y. W przeciwnym
przypadku mówimy o korelacji ujemnej: wzrostowi wartości zmiennej X towarzyszy malenie wartości Y.
Zajmijmy się teraz regresją liniową. Jeżeli między badanymi cechami X i Y istnieje co najmniej średnia korelacja, to
możemy próbować określić kształt tej zależności. Jeżeli można przypuszczać, że między zmiennymi X i Y zachodzi zależność
liniowa (wartość bezwzględna współczynnika r jest bliska wartości 1), to wyznaczyć możemy
równanie prostej regresji zmiennej losowej Y względem X: y = a1x + b1
i równanie prostej regresji zmiennej losowej X względem Y: x = a2y + b2
gdzie współczynniki a1, a2, b1, b2 wyliczamy ze wzorów:
n
1
"(x - x)(yi - y)
SXY i=1 i
n
a1 = = b1 = y - a1x
n
1
S2
X
"(x - x)2
i
n
i=1
n
1
"(x - x)(yi - y)
SXY i=1 i
n
a2 = = b2 = x - a y
2
S2 1 n - y)2
Y
"(y
i
n
i=1
Znając równanie prostej regresji np. zmiennej losowej Y względem X, możemy przewidywać jaką wartość przyjmie cecha Y
(tzn. jakie będzie yi) gdy znamy już wartość cechy X, czyli wartość xi, dla danego i-tego elementu próby.
Zazwyczaj prosta regresji Y względem X nie pokrywa się z prostą regresji X względem Y. Przecinają się w punkcie (x, y) .
Proste te są sobie równe tylko w przypadku, gdy |r| = 1.
10
Wyszukiwarka
Podobne podstrony:
Statystyka teoria i zadnia z rozwiązaniami (15 stron)statystyka teoria przykladystatystyka teoriaTeoria Definicje StatystykaStatystyka matematyczna i teoria estymacjiOpracowana teoria statystykaTeoria statystykastatystyka opisowa teoriapawlikowski, fizyka, szczególna teoria względnościTeoria i metodologia nauki o informacjiteoria produkcjiCuberbiller Kreacjonizm a teoria inteligentnego projektu (2007)Teoria B 2Awięcej podobnych podstron