Pomoc matematyczna

Statystyka jest nauką traktującą o ilościowych metodach badania zjawisk (procesów) masowych.

Zjawiska masowe dotyczą dużej liczby jednostek. Prawidłowości, które można ujawnić w drodze obserwacji zjawisk masowych nazywamy PRAWODŁOWOŚCIAMI STATYSTYCZNYMI.

POPULACJA (zbiorowość generalna) na którą składają się wszystkie jednostki tworzące wyodrębnioną całość statystyczną i będące przedmiotem badania statystycznego. Każda jednostka ma takie same prawdopodobieństwo dostania się do próby.

POPULACJA SKOŃCZONA zbiór elementów populacji jest skończony np. ludność polski, osoby na tej sali

POPULACJA NIESKOŃCZONA posiada nieskończoną liczbę elementów (zbiorowość, rzuty monetą)

PRÓBA STATYSTYCZNA -jednostki wybrane w określony sposób z populacji.*

*próba powinna być reprezentatywna!(Wszystkie jednostki mają taką samą możliwość/prawdopodobieństwo znalezienia się w próbie.

Rodzaje badań statystycznych:

PEŁNE- obejmuje wszystkie elementy zbiorowości generalnej np. spis powszechny.

CZĘŚCIOWE - obejmuje tylko pewną część zbiorowości.

Przyczyny prowadzenia badań częściowych:

- Populacja jest nieskończona (leki)

- Badania mają charakter niszczący (badanie wytrzymałości)

- Skończona, ale bardzo liczna populacja (szacunkowe wyniki wyborów)

STATYSTYKA OPISOWA - zajmuje się opracowaniem danych dotyczących zbiorowości czy próby bez posługiwania się rachunkiem prawdopodobieństwa (deterministyczne)

STATYSTYKA MATEMATYCZNA - wnioskowanie statystyczne - pozwala ustalić prawidłowości i podejmować decyzje dot. całej zbiorowości na postawie próby dobranej w sposób losowy (o znalezieniu się danej jednostki populacji w próbie decyduje przypadek) przy zastosowaniu rachunku prawdopodobieństwa.

Cechy statystyczne

Niemierzalne (jakościowe) Mierzalne (ilościowe)

Cech jakościowych nie można mierzyć lecz tylko wyrazić słownie : płeć kierunek studiów kolor oczu

Cechy ilościowe można mierzyć i mogą być wyrażone za pomocą licz lub w różnych miarach np. wzrost cena, wiek

Cechy mierzalne - skokowe - quasi osiągalne - ciągłe

Zmienne skokowe mogą wyrażać się tylko określonymi liczbami zmieniającymi się w sposób skokowy bez wartości pośrednich.

Zmienne ciągłe mogą przyjmować każdą wartość z określonego przedziału liczbowego (temperatura)

Quasi osiągalne -> ceny -> coś jest skokowe, ale może przyjąć wiele wartości.

Biorąc pod uwagę liczbę cech podanych w badaniu zbiorowości, statystycznie możemy podzielić na jednowymiarowe (jedno-cechowe) i wielowymiarowe (wielo-cechowe).

Zmienna losowa i jej rozkład

Niech E będzie zbiorem zdarzeń elementarnych pewnego doświadczenia. Funkcje X(e) przyporządkowującą każdemu zdarzeniu elementarnemu e ϵ E i tylko jedną liczbę X(e)=x nazywamy ZMIENNĄ LOSOWĄ. Zmienna losowa jest przekształceniem zdarzenia losowego w wartość liczbową.

Przykład: rzucamy dwoma monetami, jeżeli wypadnie orzeł wygrywamy 1 zł, jeśli reszka nic nie wygrywamy. Zbiór zdarzeń elementarnych i wartości wygranej (0;0)=2, (0;R)=1, (R;0)=1, (R;R)=0.

Rozkładem prawdopodobieństwa skokowej zmiennej losowej nazywamy zbiór par z {(xi,pi)}=1,2….ni, gdzie xi jest wartością zmiennej zaś pi prawdopodobieństwem, z jakim zmienna X przybiera wartości xi.

0 1 2
0,25 0,5 0,25

Wartość zmiennej losowej (xi)

Prawdopodobieństwa (pi)

Wartość dystrybuanty zmiennej losowej to prawdopodobieństwo, że zmienna losowa przyjmie wartość nie większą od określonego poziomu F(xi)= P(X ≤ xi)

Wartość zmiennej losowej(xi)

0 1 2
0,25 0,5 0,25
0,25 0,75 1

Prawdopodobieństwo (pi)

Wartość dystrybuanty F(xi)

F(1) = P (X ≤ 1) = 0,75

F(2) = P (X ≤ -2) = 0

F(3) = P (X ≤ 10) = 1

Momenty rozkładu prawdopodobieństwa zmiennej losowej skokowej.

O Moment zwykły rzędu r: E(Xr) = $\sum_{i = 1}^{k}{\text{xi}\ \text{pi} = \text{mr}}$

m- wartość oczekiwana

Średnia

O Moment centralny rzędu r:

µr = E[X-(X)]r= $\sum_{i = 1}^{k}{(\text{xi} - m)^{r}\text{pi}}$

Wariancja – średnia zróżnicowania; Pi – prawdopodobieństwo, że X=xi

Moment zwykły rzędu pierwszego to wartość oczekiwana E(X) zmiennej losowej X.

E(X) = $\sum_{i = 1}^{k}{\text{xi},\text{pi}}$

Moment centralny drugiego rzędu to wariancja D2X

D2(X) = $\sum_{i = 1}^{k}{\left( \text{xi} - m \right)2\ \text{pi}}$ = E(X2) – E(X)2= m2 – m12

Odchylenie standardowe jest pierwiastkiem kwadratowym z wariancji – D(X) = $\sqrt{D^{2}(X)}$

Własności wartości oczekiwanej

1. Jeśli c jest stałą wartością to:
E(c)= c

E(cx)= cE (X)

2. Jeżeli X1 i X2 są dwiema zmiennymi losowymi, każda o wartości oczekiwanej wnoszącej odpowiednio E(X1) i E(X2) to zachodzi:

E(X1 + X2) = E(X1) + E(X2)

Własność wariancji

Jeżeli c jest stałą wartością to:

D2(c) = 0,

D2(x+c) = D2(X),

D2(cX) = c2D2

Dominanta to taka wartość zmiennej losowej, której wystąpienie jest najbardziej prawdopodobne.
P(x) = xd = max {p}

Mediana i kwartale

Medianą zmiennej losowej nazywamy wartość M zmiennej losowej X spełniającej nierówność:

P(X ≤ M) ≥ $\frac{1}{2}$ i P(X ≥ M) ≥ $\frac{1}{2}$

F(Q1) = P(X ≤ Q1) = 0,25

M= F(M)= P(X ≤ M) = 0,5 M=Q2

F(Q3) = P (X ≤ Q3) = 0,75

Współczynnik skośności

AS = $\frac{E\left( X \right) - \ \text{xd}}{D(X)}$

AS = $\frac{1 - 1}{0,71}$ = 0 -> rozkład symetryczny

Współczynnik asymetrii

A(X) = $\frac{u^{3}}{D^{3\ (x)}}$ D(x) – odchylenie


$$S^{2}\left( x \right) = \frac{1}{n}\sum_{i = 1}^{n}{(x_{i} - \overset{\overline{}}{x}})^{2}$$


$$E\left( S^{2}\left( X \right) \right) = \frac{n - 1}{n}$$


D2(X)≠D2(X)

Obciążenie to wynosi


$$\sigma_{n} = \frac{n - 1}{n}D^{2}\left( X \right) - D^{2}\left( X \right) = - \frac{1}{n}D^{2}(X)$$

Czyli wariancja z próby daje zaniżone oszacowania wariancji w populacji. Obciążenie to wraz ze wzrostem liczebności próby maleje do zera.


$$\hat{S^{2}}\left( x \right) = \frac{1}{n - 1}\sum_{i = 1}^{n}{(x_{i}} - \overset{\overline{}}{x})^{2}$$


$$\hat{S^{2}}\left( x \right) = \frac{n}{n - 1}S^{2}(x)$$

Efektywność
Spośród nieobciążonych estymatorów Tn(1), Tn(2) parametru θ, najefektywniejszy jest ten, którego wariancja jest mniejsza

Zgodność
Estymator Tn jest zgodny z estymatorem parametru θ, jeżeli dla dowolnie małego ε>0:


=P(|Tn − θ|) < ϵ = 1

Dokonujemy wnioskowania o całej populacji na podstawie próby wybranej w sposób losowy. Podstawa wnioskowania statystycznego jest wiedza fragmentaryczna o populacji. Dlatego metody wnioskowania statystycznego nie określają własności populacji z całkowitą pewnością. Można jednak określić precyzję prowadzonego wnioskowania. Jednym elementów wnioskowania statystycznego jest estymacja punktowa, Polega ona na wyznaczeniu konkretnych wartości parametru rozkładu cechy statystycznej na podstawie próby losowej.

Miary precyzji estymacji punktowej
Średni błąd szacunku parametru – błąd względny $\hat{D}(T_{n)}$
Sposób obliczania zależy od tego, jaki parametr jest szacowany
Błąd względny $\hat{V}\left( T_{n} \right) = \frac{D(T_{n)}}{T_{n}}$

Błąd względny określa precyzję estymacji – precyzję oszacowania parametru


$$\hat{V}\left( T_{n} \right) \leq 7,5\%\ \text{wysoce}\ \text{precyzyjne}$$


$$7,5\% < \hat{V}\left( T_{n} \right) < 15\%\ \text{dostateczne}$$


$$\hat{V}\left( T_{n} \right) > 15\%\ \text{nie}\ \text{precyzyjne}$$

Estymacja wskaźnika struktury

Wskaźnik struktury $w = \frac{m}{n}$ m – liczba elementów wyróżnionych, n – liczebność zbiorowości

Średni błąd szacunku parametru $\hat{D}\left( w \right) = \sqrt{\frac{w(1 - w)}{n}}$

Średni błąd szacunku średniej
- próba duża n>30 $\hat{D}\left( \overset{\overline{}}{x} \right) = \frac{S(x)}{\sqrt{n}}$
- próba mała pobrana z populacji o rozkładzie normalnym n<30 $\hat{D}\left( \overset{\overline{}}{x} \right) = \frac{S(x)}{\sqrt{n - 1}}$

Estymacja przedziałowa
Stosując estymację punktową otrzymujemy jedną liczbę, która jest proponowaną wartością oszacowanego parametru. Stosując estymację przedziałową otrzymujemy przedział liczbowy, z którego każda wartość stanowi propozycję dla szacowanego parametru. Zbudowany przedział powinien gwarantować wysokie prawdopodobieństwo trafnego oszacowania nieznanej wartości parametru. Prawdopodobieństwo to powinno być bliskie 1. Częstość błędnych oszacowań „α” jest wtedy niewielka, nazywamy ją poziomem istotności. Natomiast P=1-α nazywamy poziomem ufności

- przy ustalonej liczebności próby przyjęte prawdopodobieństwo P=1-α wpływa na to, jaka będzie rozpiętość zbudowanego przedziału liczbowego. Im większy poziom ufności, czyli częstość poprawnych oszacowań, tym otrzymujemy przedział o większej rozpiętości. Uzyskujemy więc większe zaufanie do wyniku, ale kosztem utraty precyzji oszacowania
- ważne jest żeby stosować „dobre estymatory”. Estymatory nieobciążone i wysoce efektywne, a więc o małej wariancji będą przy tym samym poziomie ufności dawały węższe przedziały. Otrzymamy więc wyższą precyzję oszacowań
- również zwiększenie liczebności próby wpływa na zmniejszenie rozpiętości przedziału

Przedział ufności dla frakcji


$$< w - u_{\alpha} \bullet \sqrt{\frac{w\left( 1 - w \right)}{n}};w + u_{\alpha} \bullet \sqrt{\frac{w\left( 1 - w \right)}{n}} >$$


$$P\left( - u_{\alpha} < U < u_{\alpha} \right) = 1 - \alpha\ \text{czyli}\ F\left( u_{\alpha} \right) = 1 - \frac{\alpha}{2}$$

Przedział wartości dla średniej
- próba duża n>30 $< \overset{\overline{}}{x} - u_{\alpha}\frac{S(x)}{\sqrt{n}};\overset{\overline{}}{x} + u_{\alpha}\frac{S(x)}{\sqrt{n}} > \text{dla}\ \alpha 0,5$
- próba mała n<30 $< \overset{\overline{}}{x} - t_{\alpha,n - 1}\frac{S(x)}{\sqrt{n - 1}};\ \overset{\overline{}}{x} + t_{\alpha,n - 1}\frac{S(x)}{\sqrt{n - 1}} > \text{dla}\ \alpha$

Precyzję oszacowania możemy mierzyć błędem maksymalnym wynoszącym połowę przedziału ufności

Minimalna liczebność próby dla frakcji
- $d = u_{\alpha} \bullet \sqrt{\frac{w\left( 1 - w \right)}{n}}$
- $d^{2} = u_{\alpha}^{2} \bullet \frac{w\left( 1 - w \right)}{n}$
- $n = u_{\alpha}^{2} \bullet \frac{w(1 - w)}{d^{2}}$

Minimalna liczebność próby dla średniej
- próba duża n>30 $d = u_{\alpha}\frac{S(x)}{\sqrt{n}}$ $n = u_{\alpha}^{2}\frac{S^{2}(x)}{d^{2}}$

Weryfikacja
- weryfikacja (testowanie) hipotez statystycznych, to sprawdzanie określonych przypuszczeń (założeń) wysuniętych co do parametrów lub rozkładów danej cechy w populacji, na podstawie wyników otrzymanych z próby losowej
- hipotezy parametryczne dotyczą wartości konkretnych parametrów
- hipotezy nieparametryczne dotyczą postaci rozkładu

Hipoteza zerowa (H0) jest zawsze w postaci twierdzenia lub równości

Dla hipotez parametrycznych występują trzy rodzaje hipotez alternatywnych
- hipoteza alternatywna jest zaprzeczeniem hipotezy zerowej
- wartość parametru jest niższa od wartości założonej w hipotezie zerowej
- wartość parametru jest wyższa od wartości założonej w hipotezie zerowej

Hipotezy statystyczne weryfikujemy konfrontując wyniki próby losowej z treścią danej hipotezy. Narzędziem do weryfikacji hipotezy jest test statystyczny, będący procedurą prowadzoną do przyjęcia bądź odrzucenia hipotezy zerowej.

Przy weryfikacji hipotez występują dwa rodzaje błędów

Hipoteza zerowa jest prawdziwa Hipoteza zerowa jest fałszywa
Przyjęcie hipotezy zerowej Słuszna decyzja Błąd II rodzaju
Odrzucenie hipotezy zerowej Błąd I rodzaju Słuszna decyzja

Prawdopodobieństwo popełnienia błędu I rodzaju nazywamy poziomem istotności α.
Prawdopodobieństwo popełnienia błędu II rodzaju, określamy jako β, 1-β określa prawdopodobieństwo przyjęcia H0, kiedy jest ona prawdziwa, nazywamy mocą testu

SPOSÓB POSTĘPOWANIA

  • Ustalamy, na jakim poziomie ma być α i minimalizujemy β.

  • Rozstrzygamy tylko kwestię czy odrzucić H0 czy nie ma podstaw do jej odrzucenia. Przy takim postępowaniu nie popełnimy błędu II rodzaju, ponieważ w żadnym przypadku nie przyjmujemy H0W taki sposób zbudowane są testy istotności, które wykorzystuje się przy weryfikacji hipotez, statystycznych

Zasady budowy testów istotności:

W populacji generalnej badana jest cecha X. H0 dotyczy rozkładu tej cechy. Na podstawie próby losowej prostej X1,...,Xn należy sprawdzić hipotezę H0. Budowa testu najogólniej ujmując jest następująca:

Xd = E(X) = M – rozkład symetryczny modalny

Xd < M < E(X) E(X)< M < xd

Rozkład zero-jedynkowy

Rozkład ten opisuje zjawisko dwu stanowe, w którym jeden ze stanów umownie jest określany jako „sukces”, drugi jako „porażka”. Symbolizuje je odpowiednio liczby 1 i 0.

xi 0 1
pi q p

Dystrybuanta jest postaci

0 dla x< 0

F(X) = q dla 0≤ x < 1

p dla x ≥ 1

E(x) = 0*q + 1*p= p

D2(x) = (0-p)2q + (1-p)2q= pq

N – liczna prób p= co jest sukcesem?, q= co jest porażką? Jakie jest prawdopodobieństwo p + q=1!

Ile razy występuje sukces (k) ? n- małe np. 5, 0,15, „p” duże np. 0,5 0,2 0,005) => Schemat Bernoulliego

N – duże np. 200, 1000 , „p” małe no 0,001 => Schemat Poisson

Rozkład Bernoulliego

Nazywamy je także rozkładem dwumianowym, opisuje wielokrotne (n-krotne) występowanie tego samego zjawiska dwustanowego. Rezultatem jest pewna liczba K (k≤n) „sukcesów” oraz liczba (n-k) porażek.

P(x = k) = ($\ \frac{n}{k}\ $) *pk * qn-k

Podstawowe parametry w rozkładzie Bernoulliego E(x)=np.; D2(x)= np.

Rozkład Poissona

Jest to rozkład dostosowany do małych prawdopodobieństw otrzymania sukcesu w pojedynczym doświadczeniu i dużej liczby doświadczeń.

P(x = k) = $\frac{{(\text{np})}^{k}}{k!}$* e(-np.)

Podstawowe parametry w rozkładzie Poissona: E(x) = np = λ; D2(x) = np. = λ

Rozkład zmiennej losowej ciągłej

Dla zmiennej losowej ciągłej niemożliwe jest przypisanie wszystkim jej wartościom odpowiednich prawdopodobieństw, gdyż wartości tych jest nieskończenie wiele.

Rozkład zmiennej losowej ciągłej można przedstawić za pomocą:
- funkcji gęstości
- dystrybuanty
- parametrów rozkładu

f(x) <- funkcja gęstości tylko dla zmiennej losowej ciągłej
F(x) <- dystrybuanta

Zmienna losowa typu ciągłego przyjmuje wielkości liczbowe, które nie są przeliczalne; są opisywane za pomocą przedziałów liczbowych. Stąd, mimo, że xo jest możliwą wartością zmiennej losowej ciągłej zachodzi warunek.

^ P(X =xo) =0

xo €R

Natomiast można określić prawdopodobieństwo, że zmienna losowa przyjmie wartości z określonego przedziału <x1;x2>.

P(x1 ≤X ≤ x2) = P(X≤ x2) – P(X≤x1) = F(X2) – F(X1)

Funlcja gęstości opisuje przyrastanie wartości dystrybuanty wraz ze wzrostem wartości zmiennej, jest ona pochodną dystrybuanty:

f(x) = F’(x) = Δx$\frac{\lim}{\text{Δx}}$> 0 $\frac{F\left( x + \ \text{Δx} \right) - \ F(x)}{\text{Δx}}$

Wartości funkcji gęstości:

f (x) ≥ 0


+f(x)dx = 1

Dystrybuanta

Suma zmiennych o rozkładzie normalnym jest zawsze zmienną również o rozkładzie normalnym.

Podstawowe wzory rachunku całkowego

dla

Podstawowe parametry rozkładu zmiennej losowej ciągłej

  • Moment zwykły rzędu k:

  • Moment centralny rzędu k

  • Dominanta jest to taka wartość zmiennej losowej X, dla której funkcja gęstości osiąga maksimum:

  1. Wybieramy pewną statystykę Zn i obliczamy jej wartość na podstawie próby losowej, Zn zwaną statystyką testową.

  2. Wybieramy liczbę αϵ(0,1) zwaną poziomem istotności testu. Liczba ta powinna być bliska 0 gdyż oznacza prawdopodobieństwo odrzucenia hipotezy H0, gdy jest ona prawdziwa.

  3. Wyznaczamy zbiór K zwany zbiorem krytycznym (odrzuceń hipotezy H0) taki, że prawdopodobieństwo, iż statystyka Zn przyjmuje wartości z tego zbioru przy założeniu, że H0 jest prawdziwa, wynosi α.

Statystyka testująca dla jednej frakcji:

Rozkład dwupunktowy, wnioskowanie na podstawie dużej próby (n>120)

Statystyka ta ma rozkład N(0,1)

Przykład. Z przygotowanej do sprzedaży partii skrzynek z jabłkami w pewnej hurtowni wybrano losowo 200 skrzynek jabłek i 146 z nich zakwalifikowano jako I gatunek. Możemy podpisać umowę na dostawę jabłek, jeżeli jabłka pierwszego gatunku stanowią więcej niż 70% prawdopodobieństwem 0,95.

H0: odsetek jabłek I gatunku wynosi 0,7
H0: p= 0,7:

H1: odsetek jabłek I gatunku jest wyższy niż 0,7:

H1: P> 0,7

Weryfikacja hipotezy o równości dwóch wskaźników struktury

Cecha X ma w dwóch populacjach rozkład dwupunktowy , wnioskowanie na podstawie dużych prób n1 ≥120 i n2 ≥120,

gdzie:

Funkcja testująca ma rozkład N(0,1)

Przykład? Czy można stwierdzić że w hurtowni I odsetek jabłek I gatunku jest niższy niż w II na poziomie istotności α= 0,05.

H0: Odsetek jabłek I gatunku jest taki sam w hurtowni I i w hurtowni II

H0: P1= P2

H1: Odsetek jabłek I gatunku jest niższy w hurtowni I niż hurtowni II

H1: P1 <P2

Weryfikacja hipotezy o wartości średniej w populacji

Cecha posiada rozkład normalny, wnioskowanie na podstawie próby małej n<30,

Funkcja testująca ma rozkład T-Studenta o v= n - 1 stopniach swobody

Próba duża n>30.

Funkcja testująca ma rozkład N(0,1)

Weryfikacja hipotezy o wartości średniej w dwóch populacjach

Cecha X ma w obu populacjach rozkłady normalne, występują małe próby n < 30

Funkcja testująca rozkład t-Studenta z (n1+n2 – 2) stopniami swobody.

Cecha X ma dowolny rozkład i występują duże próby n > 30.

Funkcja testująca ma rozkład N(0,1)

  • Mediana jest to taka wartość zmiennej losowej dla której zachodzi warunek:

Średni czas oczekiwania

Średnio czas oczekiwania wynosi dwie i pół minuty

Wyznaczanie mediany

Najważniejsze rozkłady ciągłe

1. Rozkład normalny
2. Rozkład t-studenta
3. Rozkład chi-kwadrat

Rozkład normalny

dla

Standaryzacja

Każdą zmienną o dowolnym rozkładzie prawdopodobieństwa, z wartością oczekiwaną E(X) oraz wariancją D2(x) można przekształcić do takiej postaci, aby utworzona nowa zmienna posiadała wartość oczekiwaną równa 0 oraz wariancję równą 1

Reguła standaryzacji:

Twierdzenie Crammera

Rozważmy ciąg niezależnych zmiennych losowych {x1, x2, x3…, xn}, każda o rozkładzie normalnym o parametrach (mi, σi) dla i=1,2…,n. Zmienna powstała przez sumowanie tych zmiennych, czyli losowa

$Y = \ \sum_{i = 1}^{n}x_{1}$


$$m = \sum_{i = 1}^{n}m_{j}$$

Suma zmiennych o rozkładzie normalnym jest zawsze zmienna

Prawa wszelkich liczb oraz twierdzenia graniczne mówią co dzieje się z prawdopodobieństwami zdarzeń, gdy liczba doświadczeń jest bardzo duża. Określają one prawidłowości stochastyczne, czyli dotyczące zdarzeń masowych.

Prawa wielkich liczb mówią o zbieżności stochastycznej ciągu zmiennych losowych.

Złote twierdzenie Bernoulliego określa zbieżność stochastyczną ciągu liczb $\frac{k}{n}$ do liczby p. Przy dostatecznie dużym n odchylenie pomiędzy częścią występowania danego zdarzenia a prawdopodobieństwem zaistnienia tego zdarzenia jest bardzo małe $\operatorname{}{\mathrm{(|}\frac{k}{n}}\mathrm{-}\mathrm{p}\mathrm{| < \varepsilon}\mathrm{) = 1}$ (złudzenie d’Alemberta).

Twierdzenia graniczne
- twierdzenie lokalne – dotyczą funkcji prawdopodobieństwa lub funkcji gęstości
- twierdzenie integralne – dotyczą wartości dystrybuanty

Przykładem twierdzenia lokalnego jest przybliżenie Poissona. Gdy wraz ze wzrostem liczby doświadczeń maleje prawdopodobieństwo pojedynczego „sukcesu” i n∙p=λ to prawdopodobieństwo w rozkładzie dwumianowym można przybliżać prawdopodobieństwami z rozkłady Piossona.

Przykładem rozkładu integralnego jest twierdzenie Moivre’a-Laplace’a. Gdy wraz ze wzrostem liczby doświadczeń prawdopodobieństwo pojedynczego „sukcesu” nie ulega zmianie to dystrybuanta graniczna rozkładu dwumianowego jest dystrybuanta rozkładu normalnego o parametrach N(np, $\sqrt{\text{npq}}$ ).

Jeżeli zmienna losowa Tn= $\sum_{i = l}^{n}x_{i}$ , gdzie xi są zmiennymi losowymi o identycznych rozkładach z E(X)=m i D2(X)=σ2 to dystrybuanta rozkładu normalnego o parametrach (n∙m, $\sqrt{n}$∙σ) jest dystrybuantą graniczną zmiennej losowej Tn.

Na tej podstawie wyznacza się graniczny rozkład średniej n niezależnych losowych o dowolnych jednakowych rozkładach Vn=$\frac{T_{n}}{n}\text{.\ }$Vn ma graniczny rozkład normalny N(m, $\frac{\sigma}{\sqrt{n}}$).

Wnioskowanie statystyczne
Rozkład cechy statystycznej stosowany na podstawie badania pełnego, czyli obejmującego wszystkie jednostki populacji jest tożsamy z rozkładem prawdopodobieństwa zmiennej losowej.

Wnioskowanie statystyczne dotyczy zasad i metod uogólnienia wyników otrzymanych z próby losowej na całą populację, w której ta próba została pobrana.

Wnioskowanie nieparametryczne dotyczy kształtu rozkładu. Wnioskowanie parametryczne dotyczy jedynie konkretnych wartości parametrów opisujących dany rozkład.

Wyróżnia się dwie podstawowe metody wnioskowania statystycznego:
- estymację, czyli szacowanie wartości parametrów lub postaci rozkładu zmiennej losowej w populacji na podstawie informacji uzyskanych z próby losowej
- weryfikacje hipotez statystycznych, czyli sprawdzanie określonych przypuszczeń wysuniętych co do parametrów populacji na podstawie wyników z próby losowej.

Statystyczna próba losowa
- próba powinna być reprezentatywna
- próba jest reprezentatywna, gdy jej struktura ze względu na badane cechy statystyczne jest zbliżona do struktury populacji, z której ona pochodzi
- warunkiem otrzymania próby reprezentatywnej jest:
* losowy dobór próby
* odpowiednio duża liczebność
- podstawowym schematem losowania jest losowanie proste
- losowanie określa się jako proste, jeśli wszystkie elementy populacjo mają jednakowe prawdopodobieństwo dostania się do próby i prawdopodobieństwo to nie zmienia się w trakcie losowania. Odpowiada to losowaniu ze zwracaniem. Zachowanie stałego prawdopodobieństwa wyboru elementów w trakcie losowania jest warunkiem niezależności losowania, wtedy prawdopodobieństwo wylosowania określonej jednostki z populacji nie zależy od wyników wcześniejszych etapów losowania.

Największe prawdopodobieństwo wystąpienia mają próby o strukturze zbliżonej do populacji.

Teoria estymacji
Narzędziem wnioskowania jest estymator, czyli statystyka zbudowana na wynikach próby.

Własności estymatorów
- nieobciążoność
statystyka Tn jest nieobciążonym estymatorem parametru θ, jeśli E(Tn)= θ
Oznacza to, że wartość oczekiwana estymatora jest równa szacowanemu parametrowi. Różnica pomiędzy wartością oczekiwaną estymatora a wartością parametru to obciążenie estymatora σn=E(Tn)-θ.

Weryfikacja hipotezy o różnicy średnich dla dwóch prób zależnych

Porównujemy średni poziom pewnej cechy przed i po pewnym dodatkowym działaniu na elementach tej samej populacji. Z populacji losujemy n-elementową próbę i dla każdej wylosowanej jednostki mamy parę wyników:xi, yi. Takich par wyników nie można traktować jak dwóch prób losowych. Gdyż wyniki mogą być ze sobą skorelowane, np. waga tych samych losowo wybranych osób przed i po diecie. W teście tym bada się różnice wartości cechy przed i po eksperymencie:

Ho: Eksperyment nie wpłynął na średni poziom badanej cechy, średnia różnic wynosi0

H0: mz = 0

Funkcja testująca:

Funkcja testująca rozkład t-studenta o v= n – 1 stopniach swobody. Nieparametryczne testy istotności – testy zgodności.

Testy zgodności weryfikują hipotezy dotyczące postaci rozkładu populacji generalnej. Celem testu jest weryfikacja hipotezy zerowej zakładającej określoną postać dystrybuanty rozkładu cechy statystycznej, co zapisujemy:

H0: F(x) = F0(x).

Wobec hipotezy alternatywnej, która może mieć jedynie postać:

H1: F(x) ≠ F0(x), gdzie F0(x) jest dystrybuantą hipotetycznego rozkładu prawdopodobieństwa.

Jeżeli cecha statystyczna ma rozkład zbieżny lub zbliżony do założonego, to rozkład empiryczny cechy otrzymany na podstawie próby losowej, nie powinien różnic się znacznie od rozkładu hipotetycznego.

Najczęściej stosowane tety nieparametryczne we wnioskowaniu o rozkładzie populacji:
- test Chi-kwadrat
- test λ- Kołmogorowa
- Kołmogorowa – Smirnowa

Test Chi-kwadrat oraz test λ-Kołmogorowa pozwalają sprawdzić, czy rozkład cechy jest podobny do jednego ze znanych rozkładów prawdopodobieństwa. Test zgodności λ-Kołmogorowa stosowany jest jedynie do rozkładów typu ciągłego.

Natomiast test Kołmogorowa–Smirnowa pozwala zbadać zgodność dwóch rozkładów cechy statystycznej, bez konieczności ustalania postaci tych rozkładów.

Test zgodności Chi-kwadrat (X2 )

- Można stosować do rozkładów ciągłych i skokowych

- Losujemy dużą próbę

- Budujemy szereg rozdzielczy z k klasami,

- Liczebność empiryczna i hipotetyczna dowolnej i-tej klasy ni powinna wynosić, co najmniej 8, (5) jeśli warunek ten nie jest spełniony to łączymy sąsiadujące klasy.

Budowa testu

Określamy hipotezę zerową i alternatywną:

H0:F(x) = F0(x).

H1: F(x) ≠ F0(x),

Zakładając prawdziwość hipotezy zerowej obliczamy prawdopodobieństwa teoretyczne pi, że zmienna losowa X przyjmuje wartości z i-tej klasy, czyli:

Pi = F0(xi) – F0(xi-1). Wyznaczamy liczebności teoretyczne i-tej klasy: ni = np.

Obliczamy miarę rozbieżności pomiędzy rozkładem hipotetycznym dotyczącym populacji generalnej a rozkładem empirycznym, zaobserwowanym w próbie. Badane są różnice pomiędzy liczebnościami empirycznymi i teoretycznymi za pomocą testu

X2

,statystyka ta ma rozkład X2 z v= k – r - 1stopniami swobody, gdzie r jest liczbą oszacowanych parametrów z próby.

Z tablic rozkładu X2 odczytujemy wartość krytyczną X2 α.

podejmujemy decyzję:

jeżeli X2 ≥X wówczas odrzucamy H0 na korzyść H1,

jeżeli X2 < X2 α wówczas zachodzi brak podstaw do odrzucenia H0.

Test zgodności Kołmogorowa-Smirnowa

Pozwala ustalić czy istnieje zgodność rozkładów cechy statystycznej w dwóch różnych populacjach, bez konieczności ustalania postaci tych rozkładów. Procedura weryfikacyjna jest podobna do testu λ-Kołmogorowa.

Hipotezy

H0: G1(X) = G2(X)

H1: G1(X) ≠G2(X)

Funkcja testowa

gdzie:


Wyszukiwarka

Podobne podstrony:
pomoc matematyczna
Wahadlo matematyczne, Studia, pomoc studialna, Fizyka- sprawozdania
Jak pomóc w przezwyciężaniu trudności w uczeniu się matematyki – Cześć III
Matematyka w obrazkach w praktycznym kartonie pomoc dydaktyczna
matematyka ii, Pomoc maturalna @
Wahadlo matematyczne, Studia, pomoc studialna, Fizyka- sprawozdania
Jak pomóc w przezwyciężaniu trudności w uczeniu się matematyki – Cześć III
Kombinatoryka matematyka
PIERWSZA POMOC J L
01 Pomoc i wsparcie rodziny patologicznej polski system pomocy ofiarom przemocy w rodzinieid 2637 p
Zatrucia pierwsza pomoc(1)
PIERWSZA POMOC PRZEDMEDYCZNA
PIERWSZA POMOC

więcej podobnych podstron