plik

Wstęp

1.1

Statystyka zajmuje się opisywaniem i analizą zjawisk masowych, badniem prawidłowości występujących w zbiorowościach

elementów zróżnicowanych ze względu na badane cechy (populacjach statystycznych).

Badania statystyczne dzielą się na

• badania pełne

• badania częściowe.

Wyróżniamy:

• statystykę opisowa

• statystykę matematyczną

Statystyka matematyczna pozwala wyciągać wnioski dotyczące badanej cechy w całej populacji na podstawie wyników

badania próbnego. Wnioskowanie powyższe jest możliwe dzięki użyciu metod i narzędzi rachunku prawdopodobieństwa.

Badanie statystyczne: obserwujemy wartości pewnej cechy dla wybranych elementów populacji i na tej podstawie chcemy

odpowiedzieć na jedno z pytań, dotyczących konkretnego parametru tej cechy (na przykład jej wartości średniej). Typowe
problemy, które dają się rozwiązać metodami wnioskowania statystycznego.

1. Ile wynosi parametr (na przykład średnia) naszej cechy w całej populacji? Estymacja punktowa

2. W jakim zakresie (zbiorze) znajduje się ten parametr? Estymacja przedziałowa

3. Czy prawdą jest, że nasz parametr należy do określonego zbioru? Testowanie hipotez statystycznych

Populacją nazywamy zbiór (skończony lub nieskończony) elementów podlegających badaniu ze względu na jedną albo

wiele cech.

Z populacji pobieramy do badania próbę statystyczną, skończony podzbiór populacji, którego elementy

losujemy.

Losowość próby oznacza, że jej wyniki możemy traktować jako realizacje zmiennych losowych o rozkładzie identycznym

z rozkladem badanej cechy.

Różne schematy losowania:

• losowania niezależne (ze zwracaniem) i zależne (bez zwracania)

• losowania indywidualne i zespołowe

• losowania jednostopniowe i wileostopniowe

• losowania nieograniczone i ograniczone

Próbą prostą wylosowaną z pewnej ustalonej populacji nazywa się taką próbę losową, której wyniki są niezależnymi

zmiennymi losowymi o jednakowych rozkładach identycznych z rozkładem badanej cechy.

X - badana cecha - zmienna losowa
(X

, . . . , X

) - n-elementowa próba prosta - wektor losowy

, . . . , x

) - wyniki badania (dane) - realizacja wektora losowego

Każdą funkcję g(X

, . . . , X

) będącą funkcją próby losowej nazywamy statystyką.

Przykłady statystyk:

X =

i=1

, ¯

i=1

− ¯

, S

n − 1

i=1

− ¯

Ich realizacje:

x =

i=1

, ¯

i=1

− ¯

, s

n − 1

i=1

− ¯

Przykład 1 Badano czas pracy baterii pewnego typu. Z populacji baterii pobrano próbę 50-elementową i otrzymano

następujące wyniki:

Parametry empiryczne

Definicja Średnią arytmetyczną nazywamy statystykę

X =

i=1

Miara tendencji centralnej.
Realizację staystyki ¯

X obliczamy z próby.

W przykładzie z bateriami

x =

i=1

· 113, 32 = 2, 26648.

Dla szeregu rozdzielczego (średnia ważona):

x =

i=1

W przykładzie z bateriami

0,48

1,47

2,55

3,40

4,43

5,34

6,43

7,54

8,22

0,32

0,22

0,18

0,12

0,06

0,04

0,02

x =

i=1

= 2, 27

Inną miarą tendencji centralnej jest tak zwana mediana. Dla danego ciągu liczb x

, . . . , x

, określamy ciąg x

(1)

, . . . , x

(n)

który powstaje przez jego niemalejące uporządkowanie, czyli:

(1)

≤ x

(2)

≤ · · · ≤ x

(n)

Definicja Medianą cechy X, przyjmującej wartości x

, . . . , x

, nazywamy środkowy wyraz ciągu x

(1)

, . . . , x

(n)

, gdy n jest

liczbą nieparzystą, lub średnią arytmetyczną dwóch wyrazów środkowych, gdy n jest liczbą parzystą,

me =

(

(k+1)

dla

n = 2k + 1

(k)

(k+1)

dla

n = 2k.

W przykładzie z bateriami

me =

+ x

) =

(1, 725 + 1, 702) = 1, 7135

Przykład
Wskazać miary tendencji centralnej wynagrodzeń pracowniczych, na podstawie poniższej listy płac pewnego zakładu

liczącego dziesięciu pracowników:

850 zł

870 zł

950 zł

1000 zł

1050 zł

1080 zł

1090 zł

2700 zł

2900 zł

7200 zł

Średnia:

x =

850 + 870 + . . . + 2900 + 7200

= 1969 zł.

Mediana:

me =

1050 + 1080

= 1065 zł.

Jak widać, w naszym przykładzie wartość średnia różni się znacznie od mediany. Wyobraźmy sobie sytuację, że osoby

o niskich pensjach w przedstawionej firmie będą dążyć do uzyskania podwyżki. Poinformują na pewno, że średni zarobek
w firmie to tylko 1065 złotych. Osoby lepiej zarabiające będą opierały się na innych obliczeniach i stwierdzą, że zarobki są
wysokie i wynoszą średnio 1969 złotych. I kto mówi prawdę? Jedni i drudzy.

Miary rozproszenia

Rozstęp

R = X

max

− X

min

Definicja Wariancja z próby

i=1

− ¯

∗

n − 1

i=1

− ¯

Jeśli znamy wartość oczekiwaną m cechy X, to

i=1

− m)

Równoważne wzory:

i=1

− ¯

i=1

− a)

− ( ¯

X − a)

dla dowolnego a ∈ R.

Dla szeregu rozdzielczego:

i=1

(¯

− ¯

W przykładzie z bateriami

= 3, 67,

∗

= 3, 74,

s = 1, 935.

Inne parametry:

• odchylenie standardowe

S =

√

• odchylenie od wartości średniej

b =

i=1

− ¯

• moment centralny rzędu k

i=1

− ¯

• współczynnik asymetrii

• współczynnik koncentracji

− 3

Estymacja punktowa

Załóżmy, że rozkład badanej cechy X zależy od nieznanego parametru θ. Będziemy szacować θ w oparciu o n-elementową

próbę prostą (X

, . . . , X

Otrzymaną na podstawie konkretnej realizacji próby wartość nazywamy oceną (oszacowaniem) parametru θ. Każdą

statystykę, której wartościami są oceny parametru θ nazywamy estymatorem parametru θ i oznaczamy parametru ¯

θ.

Na przykład

X =

i=1

jest estymatorem parametru EX.

W przykładzie z bateriami ¯

x = 2, 266.

Jeśli przyjąć, że cecha X ma rozkład wykładniczy z parametrem λ =

1
2

, to EX =

= 2.

Dla danego parametru można utworzyć wiele estymatorów. Powstaje więc problem, jaki estymator należy stosować w kon-

kretnej sytuacji. Rozwiązuje się go w ten sposób, że wprowadza się kilka kryteriów, które powinien spełniać ”dobry

estymator,

a następnie bada się, czy rozpatrywany przez nas estymator spełnia te kryteria. Istnieją też sposoby porównywania między
sobą estymatorów tego samego parametru.

W dalszej części podajemy dwa kryteria oceny jakości estymatorów parametrów liczbowych.
Niech (X

, . . . , X

) będzie próbką prostą z populacji, w której badana jest cecha X.

Definicja Estymator ˆ

θ nazywamy estymatorem zgodnym parametru θ, jeżeli

−→ θ.

−→ θ ⇐⇒ ∀ε > 0 lim

n→∞

P (|ˆ

θ − θ| ≥ ε) = 0

Przykład Średnia ¯

X jest estymatorem zgodnym wartości oczekiwanej.

Wniosek ze słabego prawa wielkich liczb.
Niech (X

, . . . , X

) będzie próbką prostą z populacji, w której badana jest cecha X.

Definicja Estymator ˆ

θ nazywamy estymatorem nieobciążonym parametru θ, jeżeli

θ = θ.

Estymator, który nie jest nieobciążony nazywamy estymatorem obciążonym.
Przykład Średnia arytmetyczna jest estymatorem nieobciążonym wartości oczekiwanej EX.

Rzeczywiście,

) = E

+ · · · + X

E(X

+ · · · + X

)

nE(X) = E(X).

Przykład Statystyka S

jest nieobciążonym estymatorem wariancji D

Rzeczywiście,

= E

i=1

− m)

i=1

E((X

− m)

)

(X) = D

Przykład Statystyka S

jest obciążonym estymatorem wariancji D

E(S

) = E

i=1

− ¯

nE((X

− ¯

)

= E

−

+ · · · + X

= E

n − 1

−

+ · · · + X

= E

n − 1

− m) −

− m) + · · · + (X

− m)

E(S

) = E

n − 1

− m) −

− m) + · · · + (X

− m)

(n − 1)

E((X

− m)

) + E((X

− m)

) + . . .

+E((X

− m)

)

(n − 1)

(X) + (n − 1)D

(X)

(n − 1)(n − 1 + 1)D

(X) =

n − 1

(X).

Mimo, że estymator S

jest obciążony, jest on często używany, gdyż dla dużej próbki

n − 1

≈ 1.

Inaczej mówiąc, obciążenie tego estymatora jest dla dużych n nieistotne. Estymatory o takiej własności nazywa się

estymatorami asymptotycznie nieobciążonymi.

Przykład Statystyka S

∗

jest obciążonym estymatorem wariancji D

E(S

∗

) =

n − 1

E(S

) = D

(X).

MNW

Jedna z najczęściej stosowanych metod estymacji punktowej - metoda największejwiarygodności.
Przykład
Spośród studentów informatyki pewnego elitarnego wydziału wybrano losowo i niezależnie od siebie 50 osób, a następnie

każdą z nich spytano, czy kiedykolwiek w trakcie studiów otrzymała ocenę niedostateczną. Okazało się, iż 14 osób odpowie-
działo ”TAK”, natomiast pozostałe odpowiedziały “NIE”. Pytamy teraz: jaki procent studentów informatyki otrzymał w
trakcie swoich studiów ocenę niedostateczną.

Mamy tutaj zaobserwowaną próbkę prostą (x

, . . . , x

, n = 50, z rozkładu dwupunktowego: 0 interpretujemy jako “NIE”,

zaś 1 - jako ”TAK”. Naszym zadaniem jest wskazanie parametru p. Oczywiście, nie potrafimy tego zrobić dokładnie na
podstawie samej tylko próbki, natomiast możemy możliwie najlepiej przybliżyć jego nieznaną wartość w następujący sposób:

obliczamy prawdopodobieństwo wylosowania naszej próbki w zależności od p, a następnie uznajemy, że najlepszym

przybliżeniem nieznanego parametru będzie taka wartość p, dla której obliczone właśnie prawdopodobieństwo jest największe.

Korzystając z niezależności zmiennych losowych X

, . . . , X

otrzymujemy:

P (X

= x

, . . . , X

= x

) = P (X

= x

) · · · · · P (X

= x

Zauważmy, że:

P (X

= x

) =

gdy x

= 1

1 − p,

gdy x

= 0.

Z treści zadania wiemy, że x

= 1 dla dokładnie 14 wartości i .

P (X

= x

, . . . , X

= x

) = p

(1 − p)

Pozostaje nam wyznaczyć największą wartość funkcji l : [0, 1] −→ R, zadanej wzorem:

l(p) = p

(1 − p)

funkcja (największej) wiarygodności.

W celu wyznaczenia ˆ

p wykorzystamy powszechnie używaną metodę upraszczającą obliczenia - rozważymy mianowicie

funkcję

L(p) = ln l(p),

która przyjmuje wartość największą dokładnie w tych samych punktach, co funkcja l.

L(p) = 14 ln p + 36 ln(1 − p).

(p) =

−

1 − p

(p) = 0,

−

1 − p

= 0,

p =

= 0, 28.

Otrzymany w ten sposób estymator nazywa się estymatorem największej wiarygodności parametru p.
Metoda największej wiarygodności polega więc na skonstruowaniu funkcji wiarygodności odpowiadającej zaobserwo-

wanemu zdarzeniu, zależnej od szukanych (estymowanych) parametrów, a następnie na znalezieniu takich wartości tych
parametrów, dla których funkcja ta osiąga największą wartość.

• Jeśli zmienna losowa X ma rozkład dyskretny, P (X = w) = p(w, θ

, . . . , θ

), to

l(θ

, . . . , θ

) = p(x

, θ

, . . . , θ

) · . . . · p(x

, θ

, . . . , θ

• Jeśli zmienna losowa X ma rozkład absolutnie ciągły gęstości f , zależnej od parametrów θ

, . . . , θ

R 3 x → f (x, θ

, . . . , θ

) ∈ [0, ∞),

l(θ

, . . . , θ

) = f (x

, θ

, . . . , θ

) · . . . · f (x

, θ

, . . . , θ

Przykład
Rozważmy próbkę prostą (X

, . . . , X

) z rozkładu wykładniczego X o parametrze λ > 0. Znajdziemy estymator najwięk-

szej wiarygodności dla tego parametru.

f (x) =

dla x < 0

λe

−λx

dla x ≥ 0.

Funkcja wiarygodności:

l(λ) = λe

−λx

· . . . · λe

−λx

= λ

−λ

n
i=1

= λ

−λn¯

L(λ) = ln l(λ) = n ln λ − λn¯

(λ) =

− n¯

(λ) = 0 ⇐⇒ ˆ

λ =

który jest właśnie szukanym estymatorem parametru λ.