03 Wykład - Statystyka WZ, PODSTAWOWE POJĘCIA STATYSTYKI


To jest strona 0

Drukować od strony 1 (wskutek jakiegoś błędu, przy drukowaniu 2 stron na jednej kartce papieru, wydruk źle wychodzi - drukuje się najpierw oddzielnie strona 1, potem strony 2 i 3 itd). Jako strony do drukowania wskazać 1-8.

PODSTAWOWE POJĘCIA STATYSTYKI

Mówiąc bardzo ogólnie, statystyka matematyczna zajmuje się metodami wnioskowania o całej zbiorowości statystycznej (tzw. populacji generalnej) na podstawie zbadania pewnej jej części, zwanej próbką lub próbą.

Przez populację generalną rozumiemy tu dowolny zbiór elementów, które różnią się od siebie pod względem badanej cechy (lub - skończonego - układu badanych cech). Próbka - jest to pewien (skończony) podzbiór populacji, podlegający badaniu ze względu na ustaloną cechę (lub cechy), w celu wyciągnięcia wniosków na temat kształtowania się tej cechy (tych cech) w populacji generalnej.

Konieczność takiego podejścia wynika z niemożliwości przeprowadzenia badań na wszystkich elementach populacji - z racji ich liczby (może być praktycznie nieskończona), kosztów takiego badania, lub też niszczącego charakteru takiego badania (np. badanie jakości konserw mięsnych). Zwykle jako próbkę pobieramy drogą losowania, tzn. otrzymujemy tzw. próbę losową (o zakwalifikowaniu elementu do próby decyduje jedynie przypadek). Możemy mieć do czynienia z losowaniem niezależnym (ze zwracaniem - wtedy dany element może wystąpić więcej niż jeden raz w próbie), albo zależnym (bez zwracania). Jeżeli liczebność populacji jest duża w porównaniu z liczebnością próby, to nawet biorąc do próby różne elementy możemy założyć, że losowanie jest niezależne - co upraszcza większość rozważań, ponieważ wtedy rozkład badanej cechy jest dla wszystkich elementów próby jednakowy.

Zajmijmy się na razie przypadkiem badania tylko jednej, ustalonej cechy populacji generalnej. Przyjmujemy, że ta cecha jest zmienną losową - o pewnym rozkładzie, zwykle - posiadającym przynajmniej wartość oczekiwaną i wariancję. Jeżeli rozważamy dużą próbkę (o liczebności n≥30), to w pewnych zagadnieniach możemy poza istnieniem m i σ nic więcej nie zakładać o postaci rozkładu. Jeżeli rozważamy małą próbkę, to musimy założyć samą postać rozkładu (ewentualnie z dokładnością do nieznanych parametrów) - w większości zagadnień przyjmujemy, że rozkład badanej cechy w populacji jest normalny (chyba że bardziej naturalne jest przyjęcie innego rozkładu, jak np. dwumianowego lub Poissona).

Przy powyższym założeniu, dla każdego (wylosowanego) elementu populacji rozkład na nim badanej cechy jest taki sam, jak w całej populacji. Dlatego łączny rozkład wartości badanej cechy na elementach n-elementowej próby możemy utożsamiać z układem (X1, X2,...,Xn) niezależnych zmiennych losowych o jednakowym rozkładzie takim jak rozkład zmiennej X - opisującej rozkład badanej cechy w populacji. Konkretna próbka - powiedzmy (x1, x2,...,xn), jest więc zaobserwowaną wartością tej n-wymiarowej zmiennej losowej. Każda wielkość, którą obliczamy na podstawie tej próbki (np. średnia z próbki : (x1+ x2+...+xn)/n) jest zaobserwowaną wartością pewnej zmiennej losowej - w tym przypadku (X1+ X2+...+Xn)/n.

Statystyka matematyczna zajmuje się między innymi:

1) sporządzaniem ocen w postaci przedziałów dla wybranych cech populacji - takich jak jej wartość oczekiwana lub też wariancja - a równoważnie odchylenie standardowe, lub przedziałów dla wybranych parametrów rozkładu - jak np. parametru λ dla rozkładu Poissona, parametru p dla rozkładu dwumianowego itp.; chodzi tu o przedział, który z zadanym - dość dużym prawdopodobieństwem, zwanym poziomem ufności (np. 1-α=0,9 lub 0,95, lub 0,98, lub np. 0,999) pokrywa nieznaną wartość cechy lub parametru populacji generalnej; przedział ten nazywamy właśnie przedziałem ufności;

2) testowaniem hipotez statystycznych:

2a) tzw. parametrycznych postaci np.(H0:m=m0) (hipoteza, że nieznana wartość średnia w populacji jest równa z góry zadanej wartości), przeciwko tzw. hipotezie alternatywnej (w tym przypadku zwykle jedna z następujących: H1:m≠m0, H1':m<m0, H1”:m>m0); możliwe stwierdzenia tutaj to albo: “Nie ma podstaw do odrzucenia H0 na korzyść H1”, albo: “Odrzucamy H0 na korzyść H1” (dlaczego tak, zostanie wyjaśnione później); podobnie możemy się spotkać z hipotezą że σ=σ0 (odchylenie standardowe); we wnioskowaniu zawsze podany jest tzw. poziom istotności testu np. α=0,01 (lub 0,02, lub 0,05, lub 0,1 itp.), będący prawdopodobieństwem błędu pierwszego rodzaju, tzn. błędu polegającego na odrzuceniu hipotezy H0, gdy w istocie jest ona prawdziwa; analogicznie, błąd drugiego rodzaju polega na przyjęciu hipotezy zerowej, gdy w istocie jest ona fałszywa); ponieważ w teście istotności normuje się jedynie błąd pierwszego rodzaju, a nie określa się prawdopodobieństwa popełnienia błędu drugiego rodzaju - to w wyniku tego testu albo możliwa jest decyzja o odrzuceniu hipotezy zerowej, albo nie ma podstaw do jej odrzucenia (natomiast nie oznacza to automatycznie, że hipotezę zerową przyjmujemy);

2b) nieparametrycznych - np. że rozkład badanej cechy w populacji jest danym konkretnym rozkładem lub, ogólniej, rozkładem z danej klasy rozkładów - np. że jest to rozkład Poissona (z jakimś, nieznanym λ), lub normalny (z nieznanymi m i σ);

W przypadku badania np. dwóch cech możemy m.in.:

3) konstruować przedział ufności dla:

3a) współczynnika korelacji dwóch zmiennych losowych;

3b) współczynnika regresji liniowej jednej z badanych cel względem drugiej;

4) testować hipotezy odnośnie:

4a) niezależności badanych cech (odpowiednich zmiennych) w populacji;

4b) nieskorelowania badanych cech w populacji (H0: ρ=0, gdzie ρ - współczynnik korelacji badanych cech w populacji).

Wreszcie, jeżeli mamy dwie próbki (lub więcej) pobrane z dwóch (lub więcej) populacji, to możemy weryfikować hipotezę np. że średnie (lub wariancje) w obu (odpowiednio - we wszystkich) populacjach są sobie równe.

DEFINICJE PODSTAWOWYCH ROZKŁADÓW,

WYSTĘPUJĄCYCH W STATYSTYCE MATEMATYCZNEJ

Definicja 1. Niech X1, X2, ..., Xn będą niezależnymi zmiennymi losowymi o rozkładzie normalnym N(0,1). Wtedy rozkład zmiennej losowej

χn2 = X12 + X22 +...+ Xn2

nazywamy rozkładem chi kwadrat o n stopniach swobody. Można wykazać, że gęstość tego rozkładu wyraża się wzorem

0x01 graphic

(dowodzi się najpierw, że rozkład Xi2 jest szczególnym przypadkiem rozkładu gamma i korzysta z twierdzenia o dodawaniu dla rozkładu gamma).

Własności rozkładu chi kwadrat:

1. E(χn2)=n; D2n2)=2n.

2. Jeżeli X ma rozkład chi kwadrat o n stopniach swobody, Y ma rozkład chi kwadrat o m stopniach swobody oraz zmienne X i Y są niezależne, to zmienna X+Y ma rozkład chi kwadrat o n+m stopniach swobody. (Twierdzenie to jest konsekwencją definicji i uogólnia się w oczywisty sposób na sumę dowolnej ilości zmiennych.)

3. Rozkład zmiennej losowej 0x01 graphic
dąży przy 0x01 graphic
do rozkładu normalnego N(0,1) (jest to bezpośredni wniosek z centralnego twierdzenia granicznego).

4. (Fisher, 1926) Rozkład zmiennej losowej 0x01 graphic
dąży przy 0x01 graphic
do rozkładu normalnego N(0,1).

Definicja 2. Niech teraz Y, X1, X2, ..., Xn będą niezależnymi zmiennymi losowymi o rozkładzie normalnym N(0,1), lub też - równoważnie - Y i Z będą niezależnymi zmiennymi, przy czym Y ma rozkład normalny N(0,1), zaś Z ma rozkład chi kwadrat o n stopniach swobody. Wtedy rozkład zmiennej losowej

0x01 graphic

nazywamy rozkładem t Studenta o n stopniach swobody. Można wykazać, że gęstość tego rozkładu wyraża się wzorem:

0x01 graphic
, u∈R.

Własności rozkładu t Studenta:

E(tn)=0 (wynika z symetrii), D2(tn)=n/(n-2); tn→N(0,1) przy n→∞.

Definicja 3. Niech X i Y będą niezależnymi zmiennymi losowymi, przy czym X ma rozkład chi kwadrat o n1 stopniach swobody, zaś Y ma rozkład chi kwadrat o n2 stopniach swobody. Wtedy rozkład zmiennej losowej

0x01 graphic

nazywamy rozkładem Fishera - Snedecora o (n1, n2) stopniach swobody. Można wykazać, że gęstość tego rozkładu wyraża się wzorem:

0x01 graphic

Własności: dla rozkładu F Fishera - Snedecora o (n1, n2) stopniach swobody mamy:

0x01 graphic
.

JEDNA POPULACJA GENERALNA

Twierdzenie 1. Niech X1, X2, ..., Xn będą niezależnymi zmiennymi losowymi o rozkładzie normalnym N(m,σ). Niech

0x01 graphic

Wtedy:

1) Zmienna 0x01 graphic
ma rozkład normalny 0x01 graphic
[lub, równoważnie, 0x01 graphic
ma rozkład normalny N(0,1)].

2) 0x01 graphic
.

3) Zmienne 0x01 graphic
i 0x01 graphic
są niezależne.

4) Zmienna 0x01 graphic
ma rozkład chi kwadrat o n-1 stopniach swobody. (Mianowicie: 0x01 graphic
tak więc B=A+C, A i C są niezależne, B ma rozkład chi kwadrat o n stopniach swobody, C ma rozkład chi kwadrat o jednym stopniu swobody; można wykazać, że stąd wynika, iż A ma rozkład chi kwadrat o n-1 stopniach swobody.)

5) Zmienna T ma rozkład t Studenta o n-1 stopniach swobody, w szczególności rozkład ten nie zależy od σ. (Wynika to z tego, że 0x01 graphic
oraz 0x01 graphic
również są niezależne oraz 0x01 graphic
- zob. definicję rozkładu t Studenta).

Punkt 4) (zmienną W) stosujemy do testowania hipotezy o wariancji oraz znajdowania przedziału ufności dla wariancji.

Punkt 5) (zmienną T) stosujemy do testowania hipotezy o średniej i znajdowania przedziału ufności dla średniej.

DWIE JEDNAKOWE POPULACJE GENERALNE

Twierdzenie 2. Niech X1, X2, ..., 0x01 graphic
oraz Y1, Y2, ..., 0x01 graphic
będą niezależnymi zmiennymi losowymi o jednakowym rozkładzie normalnym N(m, σ). Niech następnie

0x01 graphic

0x01 graphic

Wtedy:

1) Zmienna0x01 graphic
ma rozkład normalny 0x01 graphic

zmienna 0x01 graphic
ma rozkład normalny 0x01 graphic

przy czym zmienne 0x01 graphic
i 0x01 graphic
są niezależne. (Wobec powyższego, 0x01 graphic

2) Zmienna Z ma rozkład normalny N(0,1).

3) Zmienne S12 i S22 są niezależne (podobnie te z daszkami).

4) Zmienna W ma rozkład chi kwadrat o n1+n2-2 stopniach swobody.

5) Zmienne Z i W są niezależne.

6) Zmienna U ma rozkład t Studenta o n1+n2-2 stopniach swobody.

7) Zmienna F ma rozkład Fishera - Snedecora o (n1-1, n2-1) stopniach swobody (w szczególności, jej rozkład nie zależy od σ).

Punkt 7), tzn. zmienną F wykorzystujemy przy testowaniu hipotezy, że wariancje w dwóch populacjach są sobie równe.

Punkt 6), tzn. zmienną U wykorzystujemy przy testowaniu hipotezy, że średnie w dwóch populacjach są sobie równe, przy założeniu wszakże, że wariancje w tych populacjach sobie równe (co może być albo znane na podstawie dużych prób pobranych wcześniej z tych samych populacji, albo potwierdzone tym, że nie ma podstaw do odrzucenia hipotezy o równości wariancji w teście wykonanym na podstawie zmiennej z punktu 7).

DWIE POPULACJE GENERALNE - NIECO OGÓLNIEJ

Twierdzenie 3. Niech X1, X2, ..., Xn1 oraz Y1, Y2, ..., Yn2 będą niezależnymi zmiennymi losowymi, przy czym Xi~N(m11), Yj~N(m22). Wtedy:

1) Zmienna 0x01 graphic
ma rozkład normalny N(0,1).

W szczególności, jeżeli m1=m2, to 0x01 graphic
i zmienna ta ma rozkład jak wyżej.

2) Jeżeli σ12, to zmienna 0x01 graphic
ma rozkład t Studenta o n1+n2-2 stopniach swobody. W szczególności, jeżeli ponadto m1=m2, to 0x01 graphic
i zmienna ta ma rozkład jak wyżej.

3) Zmienna 0x01 graphic
ma rozkład Fishera - Snedecora o (n1-1, n2-1) stopniach swobody.

W szczególności, jeżeli σ12, to 0x01 graphic
i zmienna ta ma rozkład jak wyżej.

BADANIE ZWIĄZKU DWÓCH CECH W POPULACJI GENERALNEJ (REGRESJA, KORELACJA)

Niech (X1 ,Y1), (X2 ,Y2),...,(Xn ,Yn) będzie ciągiem niezależnych zmiennych losowych o jednakowym (dwuwymiarowym) rozkładzie normalnym o parametrach (m1 , m2 , σ1 , σ2 , ρ), tzn. określonym funkcją gęstości

0x01 graphic
,

gdzie m1 i m2 są wartościami oczekiwanymi, σ1 i σ2 odchyleniami standardowymi odpowiednich rozkładów brzegowych, zaś ρ jest współczynnikiem korelacji pomiędzy Xi oraz Yi. Rozpatrzmy statystyki:

0x01 graphic

Wtedy:

1) zmienne (0x01 graphic
,0x01 graphic
) oraz (S1 ,S2 ,R) są niezależne;

2) zmienna (0x01 graphic
,0x01 graphic
) ma dwuwymiarowy rozkład normalny o parametrach 0x01 graphic
;

3) jeżeli ρ=0, to zmienna t ma rozkład t Studenta o n-2 stopniach swobody.

Punkt 3) wykorzystujemy do badania hipotezy o zerowej korelacji między dwiema cechami w populacji generalnej (odrzucenie tej hipotezy oznacza, że między danymi cechami istnieje związek).

Przy założeniach jak poprzednio, rozważmy jeszcze następujące statystyki, związane z prostymi regresji:

0x01 graphic

oraz statystyki

0x01 graphic
.

Wtedy:

1) zmienne (0x01 graphic
,0x01 graphic
) oraz A są niezależne;

2) 0x01 graphic
;

3) 0x01 graphic

(przybliżenie to otrzymujemy pomijając wyrazy rzędu mniejszego niż 1/n);

4) statystyka t ma rozkład t Studenta o n-1 stopniach swobody (niestety, parametrów σ1 , σ2 , ρ populacji generalnej na ogół nie znamy, a więc nie możemy wykorzystać tej statystyki bezpośrednio);

5) statystyka t1 ma rozkład t Studenta o n-2 stopniach swobody; przy założeniu, że współczynnik regresji ρσ21 jest równy 0, można obliczyć jej wartość i w konsekwencji przetestować hipotezę, że nachylenie prostej regresji jest równe zeru.

TEST ZGODNOŚCI CHI KWADRAT PEARSONA.

W celu przetestowania hipotezy o tym, że rozkład pewnej cechy w populacji jest rozkładem ustalonego typu (konkretnym lub rozkładem z pewnej jedno-, dwu- lub więcej-parametrowej rodziny rozkładów stosujemy następującą metodę.

Przedział (-∞,∞) na dzielimy na l części - podprzedziałów, o numerach j=1,2,...,l. Pobieramy dużą próbkę o liczebności n. Niech nj - ilość tych elementów w pobranej próbce, dla których badana cecha trafia do j-tego przedziału. Niech pj - prawdopodobieństwo, że przy założeniu, iż badana hipoteza o postaci rozkładu jest prawdziwa, element trafi do przedziału o numerze j. npj będzie więc tzw. liczebnością teoretyczną, a nj - zaobserwowaną. Niech 0x01 graphic
.

Istnieje twierdzenie, że przy n dążącym do nieskończoności, dystrybuanta zmiennej losowej Yl dąży do dystrybuanty rozkładu chi kwadrat o l-1-k stopniach swobody, gdzie k jest ilością parametrów rozkładu, szacowanych z próbki (dokładniej, szacowanych z próbki tzw. metodą największej wiarygodności). W praktyce korzystamy z tego rozkładu granicznego przy n>30, zaś n1,nl≥5 (liczebności przedziałów skrajnych), n2,n3,...,nl-1≥10 (liczebności pozostałych przedziałów). (Jeżeli te ostatnie warunki nie są spełnione, to pewne przedziały łączymy ze sobą w jeden przedział, tak aby te warunki były spełnione.)

8



Wyszukiwarka