notatki z wykładów od J Pudełko, statystyka nota1

background image

1

Wstęp

1.1

Statystyka zajmuje się opisywaniem i analizą zjawisk masowych, badniem prawidłowości występujących w zbiorowościach

elementów zróżnicowanych ze względu na badane cechy (populacjach statystycznych).

Badania statystyczne dzielą się na

• badania pełne

• badania częściowe.

Wyróżniamy:

• statystykę opisowa

• statystykę matematyczną

Statystyka matematyczna pozwala wyciągać wnioski dotyczące badanej cechy w całej populacji na podstawie wyników

badania próbnego. Wnioskowanie powyższe jest możliwe dzięki użyciu metod i narzędzi rachunku prawdopodobieństwa.

Badanie statystyczne: obserwujemy wartości pewnej cechy dla wybranych elementów populacji i na tej podstawie chcemy

odpowiedzieć na jedno z pytań, dotyczących konkretnego parametru tej cechy (na przykład jej wartości średniej). Typowe
problemy, które dają się rozwiązać metodami wnioskowania statystycznego.

1. Ile wynosi parametr (na przykład średnia) naszej cechy w całej populacji? Estymacja punktowa

2. W jakim zakresie (zbiorze) znajduje się ten parametr? Estymacja przedziałowa

3. Czy prawdą jest, że nasz parametr należy do określonego zbioru? Testowanie hipotez statystycznych

Populacją nazywamy zbiór (skończony lub nieskończony) elementów podlegających badaniu ze względu na jedną albo

wiele cech.

Z populacji pobieramy do badania próbę statystyczną, skończony podzbiór populacji, którego elementy

losujemy.

Losowość próby oznacza, że jej wyniki możemy traktować jako realizacje zmiennych losowych o rozkładzie identycznym

z rozkladem badanej cechy.

Różne schematy losowania:

• losowania niezależne (ze zwracaniem) i zależne (bez zwracania)

• losowania indywidualne i zespołowe

• losowania jednostopniowe i wileostopniowe

• losowania nieograniczone i ograniczone

Próbą prostą wylosowaną z pewnej ustalonej populacji nazywa się taką próbę losową, której wyniki są niezależnymi

zmiennymi losowymi o jednakowych rozkładach identycznych z rozkładem badanej cechy.

X - badana cecha - zmienna losowa
(X

1

, . . . , X

n

) - n-elementowa próba prosta - wektor losowy

(x

1

, . . . , x

n

) - wyniki badania (dane) - realizacja wektora losowego

Każdą funkcję g(X

1

, . . . , X

n

) będącą funkcją próby losowej nazywamy statystyką.

Przykłady statystyk:

¯

X =

1

n

n

X

i=1

X

i

, ¯

S

2

=

1

n

n

X

i=1

(X

i

− ¯

X)

2

, S

2

=

1

n − 1

n

X

i=1

(X

i

− ¯

X)

2

.

Ich realizacje:

¯

x =

1

n

n

X

i=1

x

i

, ¯

s

2

=

1

n

n

X

i=1

(x

i

− ¯

x)

2

, s

2

=

1

n − 1

n

X

i=1

(x

i

− ¯

x)

2

.

Przykład 1 Badano czas pracy baterii pewnego typu. Z populacji baterii pobrano próbę 50-elementową i otrzymano

następujące wyniki:

1

background image

Histogram

Przy dużych próbach wartości grupuje się w klasach, najczęściej jednakowej długości, przyjmując założenie, że wszystkie

wartości w danej klasie są identyczne ze środkiem klasy ¯

x

i

, i = 1, . . . , k.

Metody ustalania liczby klas:

liczba klas k

liczba pomiarów

30-60

6-8

60-100

7-10

100-200

9-12

200-500

11-17

500-1500

16-25

k =

n

k ≤ 5 ln n.

Liczbę wartości należących do i-tej klasy nazywamy licznością i-tej klasy, n

i

.

k

X

i=1

n

i

= n.

Ciąg par (¯

x

i

, n

i

)

i=1,...,k

nazywamy szeregiem rozdzielczym.

2

background image

2

Parametry empiryczne

Definicja Średnią arytmetyczną nazywamy statystykę

¯

X =

1

n

n

X

i=1

X

i

.

Miara tendencji centralnej.
Realizację staystyki ¯

X obliczamy z próby.

W przykładzie z bateriami

¯

x =

1

50

n

X

i=1

x

i

=

1

50

· 113, 32 = 2, 26648.

Dla szeregu rozdzielczego (średnia ważona):

¯

x =

1

n

k

X

i=1

n

i

¯

x

i

.

W przykładzie z bateriami

¯

x

i

0,48

1,47

2,55

3,40

4,43

5,34

6,43

7,54

8,22

n

i

n

0,32

0,22

0,18

0,12

0,06

0,04

0,02

0,02

0,02

¯

x =

1

50

k

X

i=1

n

i

¯

x

i

= 2, 27

Inną miarą tendencji centralnej jest tak zwana mediana. Dla danego ciągu liczb x

1

, . . . , x

n

, określamy ciąg x

(1)

, . . . , x

(n)

,

który powstaje przez jego niemalejące uporządkowanie, czyli:

x

(1)

≤ x

(2)

≤ · · · ≤ x

(n)

.

Definicja Medianą cechy X, przyjmującej wartości x

1

, . . . , x

n

, nazywamy środkowy wyraz ciągu x

(1)

, . . . , x

(n)

, gdy n jest

liczbą nieparzystą, lub średnią arytmetyczną dwóch wyrazów środkowych, gdy n jest liczbą parzystą,

me =

(

x

(k+1)

dla

n = 2k + 1

x

(k)

+x

(k+1)

2

dla

n = 2k.

W przykładzie z bateriami

me =

1

2

(x

25

+ x

26

) =

1

2

(1, 725 + 1, 702) = 1, 7135

Przykład
Wskazać miary tendencji centralnej wynagrodzeń pracowniczych, na podstawie poniższej listy płac pewnego zakładu

liczącego dziesięciu pracowników:

1

850 zł

2

870 zł

3

950 zł

4

1000 zł

5

1050 zł

6

1080 zł

7

1090 zł

8

2700 zł

9

2900 zł

10

7200 zł

Średnia:

¯

x =

850 + 870 + . . . + 2900 + 7200

10

= 1969 zł.

Mediana:

me =

1050 + 1080

2

= 1065 zł.

Jak widać, w naszym przykładzie wartość średnia różni się znacznie od mediany. Wyobraźmy sobie sytuację, że osoby

o niskich pensjach w przedstawionej firmie będą dążyć do uzyskania podwyżki. Poinformują na pewno, że średni zarobek
w firmie to tylko 1065 złotych. Osoby lepiej zarabiające będą opierały się na innych obliczeniach i stwierdzą, że zarobki są
wysokie i wynoszą średnio 1969 złotych. I kto mówi prawdę? Jedni i drudzy.

Miary rozproszenia

3

background image

Rozstęp

R = X

max

− X

min

.

Definicja Wariancja z próby

S

2

=

1

n

n

X

i=1

(X

i

− ¯

X)

2

S

2

=

n

n − 1

S

2

=

1

n − 1

n

X

i=1

(X

i

− ¯

X)

2

Jeśli znamy wartość oczekiwaną m cechy X, to

S

2

0

=

1

n

n

X

i=1

(X

i

− m)

2

Równoważne wzory:

S

2

=

1

n

n

X

i=1

X

2

i

− ¯

X

2

=

1

n

n

X

i=1

(X

i

− a)

2

− ( ¯

X − a)

2

dla dowolnego a ∈ R.

Dla szeregu rozdzielczego:

s

2

=

1

n

k

X

i=1

x

i

− ¯

x)

2

n

i

W przykładzie z bateriami

s

2

= 3, 67,

s

2

= 3, 74,

s = 1, 935.

Inne parametry:

• odchylenie standardowe

S =

S

2

• odchylenie od wartości średniej

b =

1

n

n

X

i=1

|X

i

− ¯

X|

• moment centralny rzędu k

M

k

=

1

n

n

X

i=1

(X

i

− ¯

X)

k

• współczynnik asymetrii

M

3

S

3

• współczynnik koncentracji

M

4

S

4

− 3

3

Estymacja punktowa

Załóżmy, że rozkład badanej cechy X zależy od nieznanego parametru θ. Będziemy szacować θ w oparciu o n-elementową

próbę prostą (X

1

, . . . , X

n

).

Otrzymaną na podstawie konkretnej realizacji próby wartość nazywamy oceną (oszacowaniem) parametru θ. Każdą

statystykę, której wartościami są oceny parametru θ nazywamy estymatorem parametru θ i oznaczamy parametru ¯

θ.

Na przykład

¯

X =

1

n

n

X

i=1

X

i

jest estymatorem parametru EX.

4

background image

W przykładzie z bateriami ¯

x = 2, 266.

Jeśli przyjąć, że cecha X ma rozkład wykładniczy z parametrem λ =

1
2

, to EX =

1

λ

= 2.

Dla danego parametru można utworzyć wiele estymatorów. Powstaje więc problem, jaki estymator należy stosować w kon-

kretnej sytuacji. Rozwiązuje się go w ten sposób, że wprowadza się kilka kryteriów, które powinien spełniać ”dobry

,

estymator,

a następnie bada się, czy rozpatrywany przez nas estymator spełnia te kryteria. Istnieją też sposoby porównywania między
sobą estymatorów tego samego parametru.

W dalszej części podajemy dwa kryteria oceny jakości estymatorów parametrów liczbowych.
Niech (X

1

, . . . , X

n

) będzie próbką prostą z populacji, w której badana jest cecha X.

Definicja Estymator ˆ

θ nazywamy estymatorem zgodnym parametru θ, jeżeli

ˆ

θ

P

−→ θ.

ˆ

θ

P

−→ θ ⇐⇒ ∀ε > 0 lim

n→∞

P (|ˆ

θ − θ| ≥ ε) = 0

Przykład Średnia ¯

X jest estymatorem zgodnym wartości oczekiwanej.

Wniosek ze słabego prawa wielkich liczb.
Niech (X

1

, . . . , X

n

) będzie próbką prostą z populacji, w której badana jest cecha X.

Definicja Estymator ˆ

θ nazywamy estymatorem nieobciążonym parametru θ, jeżeli

E

ˆ

θ = θ.

Estymator, który nie jest nieobciążony nazywamy estymatorem obciążonym.
Przykład Średnia arytmetyczna jest estymatorem nieobciążonym wartości oczekiwanej EX.

Rzeczywiście,

E(

¯

X

n

) = E

 X

1

+ · · · + X

n

n



=

1

n

E(X

1

+ · · · + X

n

)

=

1

n

nE(X) = E(X).

Przykład Statystyka S

2

0

jest nieobciążonym estymatorem wariancji D

2

X.

Rzeczywiście,

ES

2

0

= E

1

n

n

X

i=1

(X

i

− m)

2

!

=

1

n

n

X

i=1

E((X

i

− m)

2

)

=

1

n

nD

2

(X) = D

2

X.

Przykład Statystyka S

2

jest obciążonym estymatorem wariancji D

2

X.

E(S

2

) = E

1

n

n

X

i=1

(X

i

− ¯

X)

2

=

1

n

nE((X

1

− ¯

X)

2

)

= E



X

1

X

1

+ · · · + X

n

n



2

!

= E

 n − 1

n

X

1

X

2

+ · · · + X

n

n



2

!

= E

 n − 1

n

(X

1

− m) −

(X

2

− m) + · · · + (X

n

− m)

n



2

!

E(S

2

) = E

 n − 1

n

(X

1

− m) −

(X

2

− m) + · · · + (X

n

− m)

n



2

!

=

1

n

2

(n − 1)

2

E((X

1

− m)

2

) + E((X

2

− m)

2

) + . . .

+E((X

n

− m)

2

)

 =

1

n

2

(n − 1)

2

D

2

(X) + (n − 1)D

2

(X)



=

1

n

2

(n − 1)(n − 1 + 1)D

2

(X) =

n − 1

n

D

2

(X).

5

background image

Mimo, że estymator S

2

jest obciążony, jest on często używany, gdyż dla dużej próbki

n − 1

n

≈ 1.

Inaczej mówiąc, obciążenie tego estymatora jest dla dużych n nieistotne. Estymatory o takiej własności nazywa się

estymatorami asymptotycznie nieobciążonymi.

Przykład Statystyka S

2

jest obciążonym estymatorem wariancji D

2

X.

E(S

2

) =

n

n − 1

E(S

2

) = D

2

(X).

4

MNW

Jedna z najczęściej stosowanych metod estymacji punktowej - metoda największejwiarygodności.
Przykład
Spośród studentów informatyki pewnego elitarnego wydziału wybrano losowo i niezależnie od siebie 50 osób, a następnie

każdą z nich spytano, czy kiedykolwiek w trakcie studiów otrzymała ocenę niedostateczną. Okazało się, iż 14 osób odpowie-
działo ”TAK”, natomiast pozostałe odpowiedziały “NIE”. Pytamy teraz: jaki procent studentów informatyki otrzymał w
trakcie swoich studiów ocenę niedostateczną.

Mamy tutaj zaobserwowaną próbkę prostą (x

1

, . . . , x

n

, n = 50, z rozkładu dwupunktowego: 0 interpretujemy jako “NIE”,

zaś 1 - jako ”TAK”. Naszym zadaniem jest wskazanie parametru p. Oczywiście, nie potrafimy tego zrobić dokładnie na
podstawie samej tylko próbki, natomiast możemy możliwie najlepiej przybliżyć jego nieznaną wartość w następujący sposób:

obliczamy prawdopodobieństwo wylosowania naszej próbki w zależności od p, a następnie uznajemy, że najlepszym

przybliżeniem nieznanego parametru będzie taka wartość p, dla której obliczone właśnie prawdopodobieństwo jest największe.

Korzystając z niezależności zmiennych losowych X

1

, . . . , X

n

otrzymujemy:

P (X

1

= x

1

, . . . , X

n

= x

n

) = P (X

1

= x

1

) · · · · · P (X

n

= x

n

).

Zauważmy, że:

P (X

i

= x

i

) =



p,

gdy x

i

= 1

1 − p,

gdy x

i

= 0.

Z treści zadania wiemy, że x

i

= 1 dla dokładnie 14 wartości i .

P (X

1

= x

1

, . . . , X

n

= x

n

) = p

14

(1 − p)

36

.

Pozostaje nam wyznaczyć największą wartość funkcji l : [0, 1] −→ R, zadanej wzorem:

l(p) = p

14

(1 − p)

36

funkcja (największej) wiarygodności.

W celu wyznaczenia ˆ

p wykorzystamy powszechnie używaną metodę upraszczającą obliczenia - rozważymy mianowicie

funkcję

L(p) = ln l(p),

która przyjmuje wartość największą dokładnie w tych samych punktach, co funkcja l.

L(p) = 14 ln p + 36 ln(1 − p).

L

0

(p) =

14

p

36

1 − p

,

L

0

(p) = 0,

14

p

36

1 − p

= 0,

ˆ

p =

14

50

= 0, 28.

Otrzymany w ten sposób estymator nazywa się estymatorem największej wiarygodności parametru p.
Metoda największej wiarygodności polega więc na skonstruowaniu funkcji wiarygodności odpowiadającej zaobserwo-

wanemu zdarzeniu, zależnej od szukanych (estymowanych) parametrów, a następnie na znalezieniu takich wartości tych
parametrów, dla których funkcja ta osiąga największą wartość.

6

background image

• Jeśli zmienna losowa X ma rozkład dyskretny, P (X = w) = p(w, θ

1

, . . . , θ

k

), to

l(θ

1

, . . . , θ

k

) = p(x

1

, θ

1

, . . . , θ

k

) · . . . · p(x

n

, θ

1

, . . . , θ

k

).

• Jeśli zmienna losowa X ma rozkład absolutnie ciągły gęstości f , zależnej od parametrów θ

1

, . . . , θ

k

,

R 3 x → f (x, θ

1

, . . . , θ

k

) ∈ [0, ∞),

to

l(θ

1

, . . . , θ

k

) = f (x

1

, θ

1

, . . . , θ

k

) · . . . · f (x

n

, θ

1

, . . . , θ

k

).

Przykład
Rozważmy próbkę prostą (X

1

, . . . , X

n

) z rozkładu wykładniczego X o parametrze λ > 0. Znajdziemy estymator najwięk-

szej wiarygodności dla tego parametru.

f (x) =



0

dla x < 0

λe

−λx

dla x ≥ 0.

Funkcja wiarygodności:

l(λ) = λe

−λx

1

· . . . · λe

−λx

n

= λ

n

e

−λ

P

n
i=1

x

i

= λ

n

e

−λn¯

x

L(λ) = ln l(λ) = n ln λ − λn¯

x.

L

0

(λ) =

n

λ

− n¯

x

L

0

(λ) = 0 ⇐⇒ ˆ

λ =

1

¯

x

,

który jest właśnie szukanym estymatorem parametru λ.

7


Wyszukiwarka

Podobne podstrony:
notatki z wykładów od J.Pudełko statystyka nota1
notatki z wykladow od J Pudelko Nieznany
GLEBOZNAWSTWO wykłady od 3 6 notatka
Notatka o przestepstwie z wykladow od Angeli, Studia PO i PR, prawo rodzinne i opiekuńcze
egzamin wykłady od sylwii, sggw, semestr III, statystyka
ZAGADNIENIA do egzaminu 2009 MARKETING, zootechnika UPH Siedlce, 4 rok 1 semest, Notatki, Marketing
Wsbif-Wyklad4-Statystyka, notatki ze studiów rok1, statystyka
Wsbif-Wyklad2-Statystyka, notatki ze studiów rok1, statystyka
Wsbif-Wyklad6-Statystyka, notatki ze studiów rok1, statystyka
zachomikowane notatki i wyklady, Estetyka - przedmiot nauki, Estetyka jako nauka funkcjonuje od XVII
notatki z wykładów statystyka informa marketing, zarządzanie i inżynieria produkcji
Finanse zaległe od Ewy, Finanse i rachunkowość UMK notatki wykłady pytania egzaminy, II część, Finan
Wsbif-Wyklad7-Statystyka, notatki ze studiów rok1, statystyka
Wsbif-Wyklad1-Statystyka, notatki ze studiów rok1, statystyka
testystata5, Finanse i rachunkowość UMK notatki wykłady pytania egzaminy, II część, Statystyka, Stat
Wsbif-Wyklad5-Statystyka, notatki ze studiów rok1, statystyka
Wykład 2 od profesora Biniaka
Prawo cywilne notatki z wykładów prof Ziemianin
prof łaszczyca przwo administracyjne notatki z wykładów5

więcej podobnych podstron