WNIOSKOWANIE STATYSTYCZNE
Wykład 1. Wnioskowanie statystyczne 02.10.2012 r.
Wnioskowanie statystyczne jest to dział statystyki zajmujący się wnioskowaniem o zbiorowości generalnej (ogólnej) na podstawie informacji uzyskanych z próby statystycznej.
Wyróżnić można dwa działy wnioskowania statystycznego:
- estymację – procedury wyznaczania nieznanych parametrów populacji generalnej na podstawie próby;
- weryfikację hipotez – sprawdzanie przypuszczeń dotyczących danego rozkładu lub parametrów.
Rachunek prawdopodobieństwa – jest działem matematyki służącym do wykrywania prawidłowości w zakresie zdarzeń losowych (Fisz 1969).
Doświadczenie losowe – jest to czynność, która może zakończyć się kilkoma nieprzewidywalnymi wynikami, np. rzut kostką do gry.
Zdarzenie elementarne – wynik doświadczenia losowego.
Przestrzeń zdarzeń elementarnych – jest zbiorem wszystkich możliwych wyników eksperymentu losowego.
Podstawowe własności prawdopodobieństwa:
Prawdopodobieństwo zdarzenia niemożliwego jest równe zero:
P ( Ø ) = 0
Prawdopodobieństwo zdarzenia pewnego jest równe jedności:
P ( Ω ) = 1
Przestrzeń zdarzeń elementarnych dzieli się na:
- zbiór skończony
- zbiór nieskończony
ZMIENNA LOSOWA I JEJ RODZAJE
Zmienna losowa X jest funkcją, która przyporządkowuje każdemu zdarzeniu ze zbioru zdarzeń elementarnych liczbę rzeczywistą. Suma prawdopodobieństw wszystkich wartości zmiennej losowej musi być równa jedności.
Zmienne losowe oznaczamy dużymi literami: X, Y, Z.
Ze względu na liczebności zbioru wartości przyjmowanych przez zmienne losowe, zmienne losowe dzielimy na:
- skokowe (dyskretne) – zbiór wartości zmiennej jest skończony lub nieskończony, ale przeliczany, np. liczba dzieci w rodzinie;
- ciągłe – zbiór wartości zmiennej losowej jest nieskończony (jest przedziałem lub suma przedziałów), np. wzrost, wiek, waga, czas.
Przyporządkowanie wszystkim możliwym wartościom zmiennej losowej X odpowiadających ich (sumujących się do jedności) prawdopodobieństw nazywamy funkcją rozkładu prawdopodobieństwa lub rozkładem prawdopodobieństwa.
Dla zmiennej losowej skokowej:
P (X = Xi) = Pi (i=1,2,…,n)
Jeżeli zmienna losowa X przyjmuje wartości z przedziału nieskończonego (- ∞ , + ∞) lub skończonego (a, b) to funkcja gęstości jest funkcją spełniającą warunki:
b
f (x) ≥ 0 , ∫f (xi dx = 1 lub ∫f (xi dx = 1
a
PARAMETRY ROZKŁADU ZMIENNEJ LOSOWEJ
n
- skokowej E(X) = ∑ xi pi
i = 1
- ciągła E(X) = ∫ xf (x) dx
WARIANCJA:
D2 (X) = E(X2) – [E(X)]2
n
m2 = ∑ xi * pi – jest to moment zwykły II rzędu
i = 1
n
m1 = ∑ xi * pi = E(X) – jest to moment zwykły I rzędu
i = 1
D2 (X) = m2 - m12
ODCHYLENIE STANDARDOWE:
D(X) = $\sqrt{D\text{\ \ }\left( X \right)}$
W celu scharakteryzowania rozkładu prawdopodobieństwa używana jest funkcja zwana dystrybuantą.
Dystrybuantę oznaczamy symbolem F(X) i jest to funkcja określająca prawdopodobieństwo, że zmienna losowa X przyjmuje wartości mniejsze od ustalonego X, czyli:
F(X) = P (X < x), x € R
Dystrybuantę można zapisać również jako:
F(X) 0 dla x ≤ x
p1 dla x1 < x ≤ x2
p 1+ p2 dla x2 < x ≤ x3
… … …
p1+ p2 + … + pn = 1 dla x > xn
Wartości dystrybuanty:
0 ≤ F (x) ≤ 1
Jest funkcją niemalejącą i przedziałami stałą.
Jest funkcją lewostronnie ciągłą.
F (- ∞) = 0, F (+∞) = 1
* P (a ≤ X < b) = F (b) – F (a)
Rozkład zmiennej losowej skokowej charakteryzuje:
Rozkład prawdopodobieństwa
Dystrybuanta
Parametry rozkładu
Rozkład prawdopodobieństwa zmiennej losowej skokowej:
xi | x1 | x2 | … | xk |
---|---|---|---|---|
Pi = p (xi) | p1 | p2 | … | pk |
k
∑ Pi = 1
i = 1
ROZKŁAD DWUMIAROWY (BERNOULLIEGO)
Eksperyment Bernoulliego – polega na przeprowadzeniu n (min. 2) niezależnych doświadczeń ( to znaczy wynik poprzedniego nie ma wpływu na wynik następnego), którego rezultatem może być sukces (prawdopodobieństwo P) lub porażka (prawdopodobieństwo q = 1 – p).
Zakłada się przy tym, że prawdopodobieństwo sukcesu jest takie samo w kolejnych doświadczeniach.
P(X = k) = (nk ) p k (1 – p) n – k
Gdzie:
(nk) = $\frac{n!}{k!\left( n - k \right)\ !}$ , a n! = 1,2,3…
k – liczba sukcesów
n – liczba doświadczeń
p – prawdopodobieństwo sukcesu
F(X) : np
D2 (X) = npq
ROZKŁAD POISSONA
Rozkład wykorzystujemy, gdy prawdopodobieństwo sukcesu jest małe (p < 0,2), n > 100 oraz gdy iloczyn ƛ = np. jest wielkością stałą.
Ze względu na małe prawdopodobieństwo sukcesu rozkład ten nazywa się rozkładem rzadkich zdarzeń.
P (X = k) = $\frac{l\text{\ \ \ }}{k!}$ e – k , k = 0,1,2,…
E (X) = D2 (X) = np. = ƛ
ROZKŁAD ZEROJEDYNKOWY
Zmienna losowa X ma rozkład zerojedynkowy (dwupunktowy) jeżeli jej funkcja rozkładu określona jest wzorem:
P (X = 1) = p
P (X = 0) = 1 – p = q przy czym p + q = 1
Funkcja rozkładu prawdopodobieństwa jest następująca:
xi | 0 | 1 |
---|---|---|
pi | 1 – p = q | p |
Wartość oczekiwana i wariancja jest równa:
E (X) = p , D2(X) = pq
Wykład 2. 16.10.2012
PARAMETRY ROZKŁADU ZMIENNEJ LOSOWEJ CIĄGŁEJ
Zmienna losowa ciągła
E(x) =∫−∞+∞xf(x)dx
D2 = ∫−∞+∞[x − E(x)]2 f(x) = ∫x2f(x) − [E(x)]2
f- funkcja gęstości
Wybrane rozkłady zmiennej losowej ciągłej
-rozkład jednostajny
-rozkład normalny
-rozkład t-Studenta
-rozkład chi-kwadrat
-rozkład F
Rozkład normalny (krzywa Gaussa –Laplace’a)
Mówimy że zmienna losowa ciągła X ma rozkład normalny o wartości oczekiwanej m i odchyleniu standardowym σ
X ~ N (m, σ)
Funkcja gęstości w rozkładzie normalnym o postaci:
f(x) = $\frac{1}{\sigma\sqrt{2\pi}}e(\frac{\left( x - \mu \right)^{2}}{2\sigma})$
Określona została dla wszystkich rzeczywistych wartości zmiennej X.
Własności rozkładu normalnego:
-jest symetryczny względem prostej x = m
-w punkcie x = m osiąga wartość maksymalną
-ramiona funkcji mają punkty przegięcia dla x = m - σ oraz x = m + σ
- kształt funkcji gęstości zależy od wartości parametrów µ i m. Parametr m decyduje o przesunięciu krzywej natomiast parametr σ decyduje i smukłości krzywej.
Standaryzacja polega na sprowadzeniu dowolnego rozkładu normalnego o danych parametrach m i σ do rozkładu standaryzowanego (modelowego) o wartości oczekiwanej m = 0 i odchyleniu standardowym σ = 1.
Zmienną losową X zastępujemy zmienną standaryzowaną U, która ma rozkład N(0,1)
U =$\ \frac{x - m}{\sigma}$
Własności dystrybuanty standaryzowanego rozkładu normalnego:
P(U ≤ u) = Fu (u)
P(U ≤ -u) = Fu (-u) = 1- Fu (u)
P(U > u) = 1-P (U ≤ u) = 1- Fu (u)
P(U > -u) = Fu (u)
P(u1≤ U ≤ u2) = Fu (u2) – Fu (u1)
X=$\sum_{n = 1}^{k}U_{i}^{2}$
Prawo wielkich liczb („złote twierdzenie Bernouliego”)
Przy dostatecznie dużej liczbie powtórzeń eksperymentu losowego, z których każdy może zakończyć się sukcesem lub porażką, częstość wystąpienia sukcesu będzie bardzo mało różniła się od jego prawdopodobieństwa i że zachodzić to będzie z prawdopodobieństwem bliskim jedności.
(im więcej prób prawdopodobieństwo sukcesu wzrasta)
Statystyką nazywamy zmienną losową będącą funkcją zaobserwowanej łącznie zmiennej losowej
$$\overset{\overline{}}{x} = \frac{1}{n}\sum_{i = 1}^{n}X_{i}$$
Statystykami są następujące funkcje:
$s^{2} = \frac{1}{n}$ $\sum_{i = 1}^{n}{{(x}_{i} -}\overset{\overline{}}{x})^{2}$
${\hat{s}}^{2} = \frac{1}{n - 1}$ $\sum_{i = 1}^{n}{{(x}_{i} -}\overset{\overline{}}{x})^{2}$
Estymacja dzieli się na estymację punktową i przedziałową.
Estymacja przedziałowa
Polega na budowie przedziału zwanego przedziałem ufności, który z określonym prawdopodobieństwem będzie zawierał nieznaną wartość szacowanego parametru
P{g1 < Tn < g2}=1 − a
Gdzie:
Tn- nieznany parametr populacji generalnej
g1,g2- końce przedziałów (dolna i górna granica przedziału)
I-u współczynnik ufności- z prawdopodobieństwem (1- ) przedział ufności pokrywa nieznaną wartość szacowanego parametru populacji generalnej.
UWAGA!
Im krótsza przedział (różnica między górną i dolną granicą przedziału) tym bardziej precyzyjna jest estymacja przedziałowa. Im wyższa jest wartość współczynnik ufności tym większa jest długość przedziału.
Przedział ufności dla średniej w populacji o rozkładzie normalnym ze znanym odchyleniem standardowym:
P{$\overset{\overline{}}{X} - u_{a}\frac{\sigma}{\sqrt{n}} < m < \overset{\overline{}}{X} - u_{a}\frac{\sigma}{\sqrt{n}}\} = 1 - a$
ua Wartość odczytana z tablic rozkładu normalnego dla danego poziomu istotności u
σ Odchylenie standardowe w populacji generalnej
wzór na prawdopodobieństwo wg Bernoulliego
wartość oczekiwana i wariancja w rozkładzie Ber.
Wartość oczekiwana i wariancja w rozkładzie Poissona
Wartość oczekiwana zmienna skokowa
Schemat doboru próby:
Zdefiniowanie populacji
Określenie operatu losowania
Dobór techniki wyboru próby
Określenie wielkości próby
Przeprowadzenie doboru próby
Estymacja
-estymacja punktowa –wyznaczane są konkretne wartości, będące oszacowaniem nieznanych parametrów zbiorowości generalnej
-estymacja przedziałowa- wyznaczanie przedziału liczbowego, który z określonym prawdopodobieństwem będzie zawierał nieznaną wartość przedziału parametru populacji generalnej.
Dokładność estymacji zależy od współczynnika ufności oraz od liczebności próby.
Problem minimalnej liczebności próby
Minimalna liczebność próby- taka liczebność próby, która zapewni wymaganą dokładność (precyzję) oszacowania przy danym poziomie wiarygodności (prawdopodobieństwa).
Jeżeli n <= n0, to próbę wstępną traktujemy jaką próbę właściwą. Jeżeli n> n0 to musimy próbę powiększyć o n - n0
WERYFIKACJA HIPOTEZ STATYSTYCZNYCH
Hipotezy statystyczne:
-parametryczne testy istotności
-nieparametryczne testy istotności- orzekają o trybie rozkładu.
-testy zgodności sprawdzają hipotezę, że populacja ma określony typ rozkładu
-testy sprawdzające czy 2 próby pochodzą z jednej populacji