To jest strona 0
Drukować od strony 1 (wskutek jakiegoś błędu, przy drukowaniu 2 stron na jednej kartce papieru, wydruk źle wychodzi - drukuje się najpierw oddzielnie strona 1, potem strony 2 i 3 itd). Jako strony do drukowania wskazać 1-8.
PODSTAWOWE POJĘCIA STATYSTYKI
Mówiąc bardzo ogólnie, statystyka matematyczna zajmuje się metodami wnioskowania o całej zbiorowości statystycznej (tzw. populacji generalnej) na podstawie zbadania pewnej jej części, zwanej próbką lub próbą.
Przez populację generalną rozumiemy tu dowolny zbiór elementów, które różnią się od siebie pod względem badanej cechy (lub - skończonego - układu badanych cech). Próbka - jest to pewien (skończony) podzbiór populacji, podlegający badaniu ze względu na ustaloną cechę (lub cechy), w celu wyciągnięcia wniosków na temat kształtowania się tej cechy (tych cech) w populacji generalnej.
Konieczność takiego podejścia wynika z niemożliwości przeprowadzenia badań na wszystkich elementach populacji - z racji ich liczby (może być praktycznie nieskończona), kosztów takiego badania, lub też niszczącego charakteru takiego badania (np. badanie jakości konserw mięsnych). Zwykle jako próbkę pobieramy drogą losowania, tzn. otrzymujemy tzw. próbę losową (o zakwalifikowaniu elementu do próby decyduje jedynie przypadek). Możemy mieć do czynienia z losowaniem niezależnym (ze zwracaniem - wtedy dany element może wystąpić więcej niż jeden raz w próbie), albo zależnym (bez zwracania). Jeżeli liczebność populacji jest duża w porównaniu z liczebnością próby, to nawet biorąc do próby różne elementy możemy założyć, że losowanie jest niezależne - co upraszcza większość rozważań, ponieważ wtedy rozkład badanej cechy jest dla wszystkich elementów próby jednakowy.
Zajmijmy się na razie przypadkiem badania tylko jednej, ustalonej cechy populacji generalnej. Przyjmujemy, że ta cecha jest zmienną losową - o pewnym rozkładzie, zwykle - posiadającym przynajmniej wartość oczekiwaną i wariancję. Jeżeli rozważamy dużą próbkę (o liczebności n≥30), to w pewnych zagadnieniach możemy poza istnieniem m i σ nic więcej nie zakładać o postaci rozkładu. Jeżeli rozważamy małą próbkę, to musimy założyć samą postać rozkładu (ewentualnie z dokładnością do nieznanych parametrów) - w większości zagadnień przyjmujemy, że rozkład badanej cechy w populacji jest normalny (chyba że bardziej naturalne jest przyjęcie innego rozkładu, jak np. dwumianowego lub Poissona).
Przy powyższym założeniu, dla każdego (wylosowanego) elementu populacji rozkład na nim badanej cechy jest taki sam, jak w całej populacji. Dlatego łączny rozkład wartości badanej cechy na elementach n-elementowej próby możemy utożsamiać z układem (X1, X2,...,Xn) niezależnych zmiennych losowych o jednakowym rozkładzie takim jak rozkład zmiennej X - opisującej rozkład badanej cechy w populacji. Konkretna próbka - powiedzmy (x1, x2,...,xn), jest więc zaobserwowaną wartością tej n-wymiarowej zmiennej losowej. Każda wielkość, którą obliczamy na podstawie tej próbki (np. średnia z próbki : (x1+ x2+...+xn)/n) jest zaobserwowaną wartością pewnej zmiennej losowej - w tym przypadku (X1+ X2+...+Xn)/n.
Statystyka matematyczna zajmuje się między innymi:
1) sporządzaniem ocen w postaci przedziałów dla wybranych cech populacji - takich jak jej wartość oczekiwana lub też wariancja - a równoważnie odchylenie standardowe, lub przedziałów dla wybranych parametrów rozkładu - jak np. parametru λ dla rozkładu Poissona, parametru p dla rozkładu dwumianowego itp.; chodzi tu o przedział, który z zadanym - dość dużym prawdopodobieństwem, zwanym poziomem ufności (np. 1-α=0,9 lub 0,95, lub 0,98, lub np. 0,999) pokrywa nieznaną wartość cechy lub parametru populacji generalnej; przedział ten nazywamy właśnie przedziałem ufności;
2) testowaniem hipotez statystycznych:
2a) tzw. parametrycznych postaci np.(H0:m=m0) (hipoteza, że nieznana wartość średnia w populacji jest równa z góry zadanej wartości), przeciwko tzw. hipotezie alternatywnej (w tym przypadku zwykle jedna z następujących: H1:m≠m0, H1':m<m0, H1”:m>m0); możliwe stwierdzenia tutaj to albo: “Nie ma podstaw do odrzucenia H0 na korzyść H1”, albo: “Odrzucamy H0 na korzyść H1” (dlaczego tak, zostanie wyjaśnione później); podobnie możemy się spotkać z hipotezą że σ=σ0 (odchylenie standardowe); we wnioskowaniu zawsze podany jest tzw. poziom istotności testu np. α=0,01 (lub 0,02, lub 0,05, lub 0,1 itp.), będący prawdopodobieństwem błędu pierwszego rodzaju, tzn. błędu polegającego na odrzuceniu hipotezy H0, gdy w istocie jest ona prawdziwa; analogicznie, błąd drugiego rodzaju polega na przyjęciu hipotezy zerowej, gdy w istocie jest ona fałszywa); ponieważ w teście istotności normuje się jedynie błąd pierwszego rodzaju, a nie określa się prawdopodobieństwa popełnienia błędu drugiego rodzaju - to w wyniku tego testu albo możliwa jest decyzja o odrzuceniu hipotezy zerowej, albo nie ma podstaw do jej odrzucenia (natomiast nie oznacza to automatycznie, że hipotezę zerową przyjmujemy);
2b) nieparametrycznych - np. że rozkład badanej cechy w populacji jest danym konkretnym rozkładem lub, ogólniej, rozkładem z danej klasy rozkładów - np. że jest to rozkład Poissona (z jakimś, nieznanym λ), lub normalny (z nieznanymi m i σ);
W przypadku badania np. dwóch cech możemy m.in.:
3) konstruować przedział ufności dla:
3a) współczynnika korelacji dwóch zmiennych losowych;
3b) współczynnika regresji liniowej jednej z badanych cel względem drugiej;
4) testować hipotezy odnośnie:
4a) niezależności badanych cech (odpowiednich zmiennych) w populacji;
4b) nieskorelowania badanych cech w populacji (H0: ρ=0, gdzie ρ - współczynnik korelacji badanych cech w populacji).
Wreszcie, jeżeli mamy dwie próbki (lub więcej) pobrane z dwóch (lub więcej) populacji, to możemy weryfikować hipotezę np. że średnie (lub wariancje) w obu (odpowiednio - we wszystkich) populacjach są sobie równe.
DEFINICJE PODSTAWOWYCH ROZKŁADÓW,
WYSTĘPUJĄCYCH W STATYSTYCE MATEMATYCZNEJ
Definicja 1. Niech X1, X2, ..., Xn będą niezależnymi zmiennymi losowymi o rozkładzie normalnym N(0,1). Wtedy rozkład zmiennej losowej
χn2 = X12 + X22 +...+ Xn2
nazywamy rozkładem chi kwadrat o n stopniach swobody. Można wykazać, że gęstość tego rozkładu wyraża się wzorem
(dowodzi się najpierw, że rozkład Xi2 jest szczególnym przypadkiem rozkładu gamma i korzysta z twierdzenia o dodawaniu dla rozkładu gamma).
Własności rozkładu chi kwadrat:
1. E(χn2)=n; D2(χn2)=2n.
2. Jeżeli X ma rozkład chi kwadrat o n stopniach swobody, Y ma rozkład chi kwadrat o m stopniach swobody oraz zmienne X i Y są niezależne, to zmienna X+Y ma rozkład chi kwadrat o n+m stopniach swobody. (Twierdzenie to jest konsekwencją definicji i uogólnia się w oczywisty sposób na sumę dowolnej ilości zmiennych.)
3. Rozkład zmiennej losowej
dąży przy
do rozkładu normalnego N(0,1) (jest to bezpośredni wniosek z centralnego twierdzenia granicznego).
4. (Fisher, 1926) Rozkład zmiennej losowej
dąży przy
do rozkładu normalnego N(0,1).
Definicja 2. Niech teraz Y, X1, X2, ..., Xn będą niezależnymi zmiennymi losowymi o rozkładzie normalnym N(0,1), lub też - równoważnie - Y i Z będą niezależnymi zmiennymi, przy czym Y ma rozkład normalny N(0,1), zaś Z ma rozkład chi kwadrat o n stopniach swobody. Wtedy rozkład zmiennej losowej
nazywamy rozkładem t Studenta o n stopniach swobody. Można wykazać, że gęstość tego rozkładu wyraża się wzorem:
, u∈R.
Własności rozkładu t Studenta:
E(tn)=0 (wynika z symetrii), D2(tn)=n/(n-2); tn→N(0,1) przy n→∞.
Definicja 3. Niech X i Y będą niezależnymi zmiennymi losowymi, przy czym X ma rozkład chi kwadrat o n1 stopniach swobody, zaś Y ma rozkład chi kwadrat o n2 stopniach swobody. Wtedy rozkład zmiennej losowej
nazywamy rozkładem Fishera - Snedecora o (n1, n2) stopniach swobody. Można wykazać, że gęstość tego rozkładu wyraża się wzorem:
Własności: dla rozkładu F Fishera - Snedecora o (n1, n2) stopniach swobody mamy:
.
JEDNA POPULACJA GENERALNA
Twierdzenie 1. Niech X1, X2, ..., Xn będą niezależnymi zmiennymi losowymi o rozkładzie normalnym N(m,σ). Niech
Wtedy:
1) Zmienna
ma rozkład normalny
[lub, równoważnie,
ma rozkład normalny N(0,1)].
2)
.
3) Zmienne
i
są niezależne.
4) Zmienna
ma rozkład chi kwadrat o n-1 stopniach swobody. (Mianowicie:
tak więc B=A+C, A i C są niezależne, B ma rozkład chi kwadrat o n stopniach swobody, C ma rozkład chi kwadrat o jednym stopniu swobody; można wykazać, że stąd wynika, iż A ma rozkład chi kwadrat o n-1 stopniach swobody.)
5) Zmienna T ma rozkład t Studenta o n-1 stopniach swobody, w szczególności rozkład ten nie zależy od σ. (Wynika to z tego, że
oraz
również są niezależne oraz
- zob. definicję rozkładu t Studenta).
Punkt 4) (zmienną W) stosujemy do testowania hipotezy o wariancji oraz znajdowania przedziału ufności dla wariancji.
Punkt 5) (zmienną T) stosujemy do testowania hipotezy o średniej i znajdowania przedziału ufności dla średniej.
DWIE JEDNAKOWE POPULACJE GENERALNE
Twierdzenie 2. Niech X1, X2, ...,
oraz Y1, Y2, ...,
będą niezależnymi zmiennymi losowymi o jednakowym rozkładzie normalnym N(m, σ). Niech następnie
Wtedy:
1) Zmienna
ma rozkład normalny
zmienna
ma rozkład normalny
przy czym zmienne
i
są niezależne. (Wobec powyższego,
2) Zmienna Z ma rozkład normalny N(0,1).
3) Zmienne S12 i S22 są niezależne (podobnie te z daszkami).
4) Zmienna W ma rozkład chi kwadrat o n1+n2-2 stopniach swobody.
5) Zmienne Z i W są niezależne.
6) Zmienna U ma rozkład t Studenta o n1+n2-2 stopniach swobody.
7) Zmienna F ma rozkład Fishera - Snedecora o (n1-1, n2-1) stopniach swobody (w szczególności, jej rozkład nie zależy od σ).
Punkt 7), tzn. zmienną F wykorzystujemy przy testowaniu hipotezy, że wariancje w dwóch populacjach są sobie równe.
Punkt 6), tzn. zmienną U wykorzystujemy przy testowaniu hipotezy, że średnie w dwóch populacjach są sobie równe, przy założeniu wszakże, że wariancje w tych populacjach sobie równe (co może być albo znane na podstawie dużych prób pobranych wcześniej z tych samych populacji, albo potwierdzone tym, że nie ma podstaw do odrzucenia hipotezy o równości wariancji w teście wykonanym na podstawie zmiennej z punktu 7).
DWIE POPULACJE GENERALNE - NIECO OGÓLNIEJ
Twierdzenie 3. Niech X1, X2, ..., Xn1 oraz Y1, Y2, ..., Yn2 będą niezależnymi zmiennymi losowymi, przy czym Xi~N(m1,σ1), Yj~N(m2,σ2). Wtedy:
1) Zmienna
ma rozkład normalny N(0,1).
W szczególności, jeżeli m1=m2, to
i zmienna ta ma rozkład jak wyżej.
2) Jeżeli σ1=σ2, to zmienna
ma rozkład t Studenta o n1+n2-2 stopniach swobody. W szczególności, jeżeli ponadto m1=m2, to
i zmienna ta ma rozkład jak wyżej.
3) Zmienna
ma rozkład Fishera - Snedecora o (n1-1, n2-1) stopniach swobody.
W szczególności, jeżeli σ1=σ2, to
i zmienna ta ma rozkład jak wyżej.
BADANIE ZWIĄZKU DWÓCH CECH W POPULACJI GENERALNEJ (REGRESJA, KORELACJA)
Niech (X1 ,Y1), (X2 ,Y2),...,(Xn ,Yn) będzie ciągiem niezależnych zmiennych losowych o jednakowym (dwuwymiarowym) rozkładzie normalnym o parametrach (m1 , m2 , σ1 , σ2 , ρ), tzn. określonym funkcją gęstości
,
gdzie m1 i m2 są wartościami oczekiwanymi, σ1 i σ2 odchyleniami standardowymi odpowiednich rozkładów brzegowych, zaś ρ jest współczynnikiem korelacji pomiędzy Xi oraz Yi. Rozpatrzmy statystyki:
Wtedy:
1) zmienne (
,
) oraz (S1 ,S2 ,R) są niezależne;
2) zmienna (
,
) ma dwuwymiarowy rozkład normalny o parametrach
;
3) jeżeli ρ=0, to zmienna t ma rozkład t Studenta o n-2 stopniach swobody.
Punkt 3) wykorzystujemy do badania hipotezy o zerowej korelacji między dwiema cechami w populacji generalnej (odrzucenie tej hipotezy oznacza, że między danymi cechami istnieje związek).
Przy założeniach jak poprzednio, rozważmy jeszcze następujące statystyki, związane z prostymi regresji:
oraz statystyki
.
Wtedy:
1) zmienne (
,
) oraz A są niezależne;
2)
;
3)
(przybliżenie to otrzymujemy pomijając wyrazy rzędu mniejszego niż 1/n);
4) statystyka t ma rozkład t Studenta o n-1 stopniach swobody (niestety, parametrów σ1 , σ2 , ρ populacji generalnej na ogół nie znamy, a więc nie możemy wykorzystać tej statystyki bezpośrednio);
5) statystyka t1 ma rozkład t Studenta o n-2 stopniach swobody; przy założeniu, że współczynnik regresji ρσ2/σ1 jest równy 0, można obliczyć jej wartość i w konsekwencji przetestować hipotezę, że nachylenie prostej regresji jest równe zeru.
TEST ZGODNOŚCI CHI KWADRAT PEARSONA.
W celu przetestowania hipotezy o tym, że rozkład pewnej cechy w populacji jest rozkładem ustalonego typu (konkretnym lub rozkładem z pewnej jedno-, dwu- lub więcej-parametrowej rodziny rozkładów stosujemy następującą metodę.
Przedział (-∞,∞) na dzielimy na l części - podprzedziałów, o numerach j=1,2,...,l. Pobieramy dużą próbkę o liczebności n. Niech nj - ilość tych elementów w pobranej próbce, dla których badana cecha trafia do j-tego przedziału. Niech pj - prawdopodobieństwo, że przy założeniu, iż badana hipoteza o postaci rozkładu jest prawdziwa, element trafi do przedziału o numerze j. npj będzie więc tzw. liczebnością teoretyczną, a nj - zaobserwowaną. Niech
.
Istnieje twierdzenie, że przy n dążącym do nieskończoności, dystrybuanta zmiennej losowej Yl dąży do dystrybuanty rozkładu chi kwadrat o l-1-k stopniach swobody, gdzie k jest ilością parametrów rozkładu, szacowanych z próbki (dokładniej, szacowanych z próbki tzw. metodą największej wiarygodności). W praktyce korzystamy z tego rozkładu granicznego przy n>30, zaś n1,nl≥5 (liczebności przedziałów skrajnych), n2,n3,...,nl-1≥10 (liczebności pozostałych przedziałów). (Jeżeli te ostatnie warunki nie są spełnione, to pewne przedziały łączymy ze sobą w jeden przedział, tak aby te warunki były spełnione.)
8