kombinatoryka Statystyka id 737 Nieznany

background image

Szkice do wykładu ze Statystyki matematyczne

dla II roku matematyki finansowej

1

dr Jarosław Kotowicz

5 czerwca 2003 roku

1

c

Copyright J.Kotowicz

background image

Spis treści

1

2003.02.18 /2h

6

1.1

Elementy statystyki opisowej

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6

1.2

Analiza struktury badanej zbiorowości . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

2

2003.02.25 /2h

9

2.1

Analiza struktury badanej zbiorowości c.d. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9

2.2

Rozkład średniej i różnicy średnich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9

2.2.1

Rozkład średniej dla populacji normalnej

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10

2.2.2

Rozkład różnicy średnich dla dwóch populacji normalnych . . . . . . . . . . . . . . . . . . . . . . . . .

10

3

2003.03.04 /2h

11

3.1

Rozkład wariancji i ilorazu wariancji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11

3.1.1

Rozkład wariancji dla populacji normalnej . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11

3.1.2

Rozkład ilorazu wariancji dla dwóch populacji normalnych . . . . . . . . . . . . . . . . . . . . . . . . .

11

3.2

Rozkłady graniczne niektórych statystyk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11

4

2003.03.11 /2h

13

4.1

Podstawy teorii estymacji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

13

4.2

Rodzaje estymatorów

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

13

5

2003.03.18 /2h

15

5.1

Metody konstrukcji estymatorów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

15

5.1.1

Metoda momentów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

15

5.1.2

Metoda największej wiarygodności . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

15

5.1.3

Metoda najmniejszych kwadratów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

17

6

2003.03.25 /2h

18

6.1

Estymacja przedziałowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

18

7

2003.04.01 /2h

20

7.1

Estymacja przedziałowa – problem minimalizacji próby . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20

7.2

Testowanie hipotez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20

7.3

Parametryczne testy istotności

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

22

7.3.1

Test istotności dla wartości średniej populacji generalnej . . . . . . . . . . . . . . . . . . . . . . . . . .

22

8

2003.04.08 /2h

23

8.1

Parametryczne testy istotności

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

23

8.1.1

Test istotności dla wartości średniej populacji generalnej c.d. . . . . . . . . . . . . . . . . . . . . . . .

23

8.1.2

Test istotności dla wartości dwóch średnich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

24

8.1.3

Test istotności dla wariancji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

25

8.1.4

Test istotności dla dwóch wariancji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

25

2

background image

9

2003.04.15 /2h

27

9.1

Nieparametryczne testy istotności . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27

9.1.1

Test zgodności χ - kwadrat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27

9.1.2

Test zgodności λ - Kołmogorowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

28

10 2003.05.06 /2h

30

10.1 Rozkłady dwuwymiarowe – podstawowe pojęcia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

30

10.2 Badanie zależności dwóch cech

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

30

10.2.1 Dwuwymiarowy rozkład empiryczny i jego parametry

. . . . . . . . . . . . . . . . . . . . . . . . . . .

30

10.2.2 Test niezależności χ

2

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

32

11 2003.05.13 /2h

34

11.1 Badanie zależności dwóch cech c.d. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

34

11.1.1 Empiryczne krzywe regresji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

34

11.1.2 Stosunki korelacyjne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

34

11.1.3 Współczynnik korelacji (Pearsona) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

35

11.1.4 Wnioskowanie statystyczne dotyczące współczynnika korelacji w populacji generalnej . . . . . . . . . .

36

11.1.5 Współczynnik korelacji rang Spearmana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

36

11.2 Klasyczny model regresji liniowej . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

36

12 2003.05.13 /2h (za 20 maja)

38

12.1 Klasyczny model regresji liniowej c.d. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38

12.1.1 Estymacja parametrów α i β funkcji regresji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38

12.1.2 Estymacja σ

2

, D(

b

α) i D( b

β) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

39

13 2003.05.27 /2h

41

13.1 Klasyczny model regresji liniowej c.d. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

13.1.1 Dokładność dopasowania prostej metodą najmniejszych kwadratów . . . . . . . . . . . . . . . . . . . .

41

13.1.2 Wnioskowanie o klasycznym modelu normalnej regresji liniowej . . . . . . . . . . . . . . . . . . . . . .

42

13.1.3 Analiza wariancji w modelu regresji

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

42

14 2003.06.03 /2h

44

14.1 Macierzowe ujęcie modelu regresji liniowej . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

44

14.2 Szeregi czasowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

45

14.3 Wyrównywanie szeregów czasowych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

46

14.3.1 Średnie ruchome i średnie ruchome scentrowane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

46

14.3.2 Wyrównywanie wykładnicze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

47

15 2003.06.10 /2h

48

15.1 Wyrównywanie szeregów czasowych c.d. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

48

15.1.1 Dopasowywanie krzywych MNK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

48

15.2 Analiza wahań okresowych szeregów czasowych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

48

15.2.1 Wskaźnik wahań okresowych dla szeregu rozdzielczego bez trendu

. . . . . . . . . . . . . . . . . . . .

48

15.2.2 Wskaźnik wahań okresowych dla szeregu rozdzielczego z trendem . . . . . . . . . . . . . . . . . . . . .

49

15.2.3 Eliminacja wahań okresowych i prognozowanie zjawiska dla przyszłych okresów . . . . . . . . . . . . .

50

16 Egzamin teoretyczny

51

16.1 Zagadnienia na egzamin teoretyczny . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

51

3

background image

Program wykładu

Plan wykładu kursowego Statystyka matematyczna w roku akademickim 2002/2003

II rok matematyka finansowej

30 godzin wykładów prowadzący dr J. Kotowicz

1. Podstawowe pojęcia statystyczne.

1 godz.

2. Analiza struktury badanej zbiorowości

2 godz.

(a) Miary średnie

(b) Miary zmienności

(c) Miary asymetrii

(d) Miary koncentracji.

3. Rozkłady

3 godz.

(a) Rozkład średniej i różnicy średnich.

(b) Rozkład średniej dla populacji normalnej.

(c) Rozkład różnicy średnich dla dwóch populacji normalnych.

(d) Rozkład wariancji dla populacji normalnej

(e) Rozkład ilorazu wariancji dla dwóch populacji normalnych.

(f) Rozkłady graniczne niektórych statystyk.

4. Podstawy teorii estymacji – podstawowe pojęcia i ich rodzaje

1 godz.

5. Estymatory.

2 godz.

(a) Nierówność Rao - Cramera.

(b) Metoda momentów konstrukcji estymatorów.

(c) Metoda największej wiarygodności konstrukcji estymatorów.

(d) Metoda najmniejszych kwadratów konstrukcji estymatorów.

6. Estymacja przedziałowa.

3 godz.

(a) Przedział ufności dla średniej m w populacji normalnej ze znanym odchyleniem standardowym.

(b) Przedział ufności dla średniej m w populacji normalnej z nieznanym odchyleniem standardowym.

(c) Przedział ufności dla średniej m w populacji nieznanym rozkładzie

(d) Przedział ufności dla wariacji σ

2

dla populacji normalnej o nieznanych wartości oczekiwanej i odchylenia standar-

dowego.

(e) Przedział ufności dla parametru p w rozkładzie Bernoulliego.

7. Estymacja przedziałowa – problem minimalizacji próby.

1 godz.

8. Testowanie hipotez.

4

background image

9. Parametryczne testy istotności.

3 godz.

(a) Test istotności dla wartości średniej populacji generalnej (ze znana wartością oczekiwaną).

(b) Test istotności dla wartości średniej populacji generalnej (ze nieznana wartością oczekiwaną).

(c) Test istotności dla wartości dwóch średnich.

(d) Test istotności dla wariancji.

(e) Test istotności dla dwóch wariancji

10. Nieparametryczne testy istotności.

2 godz.

(a) Klasyfikacja

(b) Test zgodności χ - kwadrat.

(c) Test zgodności λ - Kołmogorowa.

11. Rozkłady dwuwymiarowe – podstawowe pojęcia.

12. Badanie zależności dwóch cech

3 godz.

(a) Dwuwymiarowy rozkład empiryczny i jego parametry.

(b) Test niezależności χ

2

.

(c) Empiryczne krzywe regresji.

(d) Stosunki korelacyjne.

(e) Współczynnik korelacji (Pearsona).

(f) Wnioskowanie statystyczne dotyczące współczynnika korelacji w populacji generalnej.

(g) Współczynnik korelacji rang Spearmana.

13. Klasyczny model regresji liniowej.

6 godz.

(a) Sformułowanie modelu

(b) Estymacja parametrów α i β funkcji regresji.

(c) Estymacja σ

2

, D(

b

α) i D( b

β).

(d) Dokładność dopasowania prostej metodą najmniejszych kwadratów.

(e) Wnioskowanie o klasycznym modelu normalnej regresji liniowej.

(f) Analiza wariancji w modelu regresji.

(g) Macierzowe ujęcie modelu regresji liniowej.

14. Szeregi czasowe

3 godz.

(a) Pojęcie szeregu czasowego.

(b) Wyrównywanie szeregów czasowych.

(c) Średnie ruchome i średnie ruchome scentrowane.

(d) Wyrównywanie wykładnicze.

(e) Dopasowywanie krzywych MNK.

(f) Wskaźnik wahań okresowych dla szeregu rozdzielczego bez trendu.

(g) Wskaźnik wahań okresowych dla szeregu rozdzielczego z trendem.

(h) Eliminacja wahań okresowych i prognozowanie zjawiska dla przyszłych okresów.

Literatura podstawowa:

1. J. Jóźwiak, J. Podgórski, Statystyka od podstaw, Państwowe Wyd. Ekonomiczne, Warszawa 1998

5

background image

Wykład 1

2003.02.18 /2h

1.1

Elementy statystyki opisowej

Podstawowe pojęcia statystyczne

1. Zbiorowość statystyczna – zbiór dowolnych elementów objętych badaniem

(a) jednowymiarowe (jednocechowe)

(b) wielowymiarowe (wielocechowe)

2. Jednostka statystyczna – element zbiorowości statystycznej

3. Cecha statystyczna

(a) mierzalna (ilościowe)

(b) niemierzalna (jakościowe)

Badanie statystyczne

1. pełne – wszystkie jednostki danej zbiorowości (spis statystyczne, rejestr statystyczny itp.)

2. częściowe (ankietowe, monograficzne, reprezentacyjne)

3. szacunki

(a) interpolacyjne (szacowanie nieznanych wartości cechy na podstawie znanych wartości sąsiednich)

(b) ekstrapolacyjne (szacowanie wartości wykraczających poza przedział wartości znanych)

Organizacja badania statystycznego

1. Programowanie badania.

2. Obserwacja statystyczna.

3. Opracowanie i prezentacja materiału statystycznego.

4. Opis lub wnioskowanie statystyczne.

Ad 1. Ustalenie celu badania, metody, określenie zbiorowości statystycznej.

Ad 2. Materiał statystyczny pierwotny i wtórny.

Ad 3. Prezentacja danych (tabelaryczna, opisowa, graficzna).

6

background image

1.2

Analiza struktury badanej zbiorowości

Opisowe charakterystyki rozkładów:

1. Miary średnie (miary położenia, przeciętne).

(a) Klasyczne

• średnia arytmetyczna x =

1

n

n

P

i=1

x

i

(b) Pozycyjne

• dominanta (do) – wartość najczęściej się powtarzająca

• kwartyle (Q

1

, Q

2

= M e i Q

3

) i ogólniej kwantyle.

• Mediana – kwartyl drugi

2. Miar zmienności (rozproszenie, dyspersja).

(a) Klasyczne

• odchylenie przeciętne d =

1

n

n

P

i=1

|x

i

− x|

• wariancja s

2

=

1

n

n

P

i=1

(x

i

− x)

21

• odchylenie standardowe s =

s

2

• współczynnik zmienności V

s

=

s

x

• typowy obszar zmienności x

typ

∈]x − s, x + s[

(b) Pozycyjne

• rozstęp próby (różnica największej i najmniejszej wartości)

• odchylenie ćwiartkowe Q =

Q

3

−Q−1

2

.

3. Miary asymetrii (skośności).

(a) Klasyczne

• współczynnik asymetrii A =

m

3

s

3

, gdzie m

3

=

1

n

n

P

i=1

(x

i

− x)

3

• współczynnik skośności A

1

=

x−do

s

(b) Pozycyjne

• współczynnik asymetrii A

2

=

(Q

3

−me)−(me −Q

1

)

2Q

4. Miary koncentracji.

Ad 1. Służą do określenia tej wartości zmiennej opisanej przez rozkład wokół której skupiają się wszystkie pozostałe

wartości zmiennej.

Obliczanie kwartyli z szeregu punktowego (dane pojedyncze)

Q

1

=

( x

[

n+1

4

]

dla

n+1

4

∈ N

x[

n+1

4

]

+1

dla

n+1

4

6∈ N

(1.1)

Q

2

= me =

x[

n+1

2

]

dla

n+1

2

∈ N

x

[

n+1

2

]

+x

[

n+1

2

]

+1

2

dla

n+1

2

6∈ N

(1.2)

Q

3

= x

3(n+1)

4



(1.3)

Ad 2. Służą do badania stopnia zróżnicowania wartości zmiennej.

Ad 3. Służą do badania kierunku zróżnicowania wartości zmiennej.

1

Będziemy korzystać z następującego wzoru na wariancję s

2

=

1

n−1

n

P

i=1

(x

i

− x)

2

i poprzedni oznaczać przez ˜

s

2

.

7

background image

Wyznaczanie średniej, odchylenia przeciętnego i wariancji dla szeregu rozdzielczego przedziałowego.

x =

1

n

n

X

i=1

˙

x

i

(1.4)

d =

1

n

n

X

i=1

| ˙

x

i

− x|

(1.5)

s

2

=

1

n

n

X

i=1

( ˙

x

i

− x)

2

(1.6)

gdzie

˙

x

i

– środek klasy (przedziału).

Wyznaczanie mediany, kwantyla rzędu p i dominanty na podstawie szeregu rozdzielczego przedziałowego.

me = x

0m

+

h

n

2

− n(x

0m

)

i

h

m

n

m

,

(1.7)

gdzie

x

0m

– granica dolna przedziału w którym znajduje się mediana,

n(x

0m

) – liczebność skumulowana dla dolnej granicy przedziału mediany,

h

m

– rozpiętość przedziału mediany,

n

m

– liczebność przedziału mediany.

czas obsługi

liczebność

liczebność skumulowana

częstotliwość

0-20

3

3

0,12

20-40

9

12

0,36

40-60

6

18

0,24

60-80

5

23

0,20

80-100

2

25

0,08

P

25

1,00

Dla szeregu rozdzielczego zadanego tablicą mamy

me = 40 + (12, 5 − 12)

20

6

= 41, 67

8

background image

Wykład 2

2003.02.25 /2h

2.1

Analiza struktury badanej zbiorowości c.d.

Będziemy korzystać z następujących wzorów interpolacyjnych dla kwantyli i dominanty dla szeregu rozdzielczego przedzia-

łowego

κ

p

= x

0p

+ [p − n(x

0p

)]

h

p

n

p

,

(2.1)

gdzie

x

0p

– granica dolna przedziału w którym znajduje się kwantyl rzędu p,

n(x

0p

) – liczebność skumulowana dla dolnej granicy przedziału kwantyl rzędu p,

h

p

– rozpiętość przedziału w którym znajduje się kwantyl rzędu p,

n

p

– liczebność przedziału w którym znajduje się kwantyl rzędu p.

do = x

od

+

n

d

− n

d−1

(n

d

− n

d−1

) + (n

d

− n

d+1

)

h

d

,

(2.2)

gdzie

n

i

liczebność przedziału i - tego,

x

0d

– granica dolna przedziału w którym znajduje się dominanta,

h

d

– rozpiętość przedziału w którym znajduje się dominanta.

Mamy wtedy

Q

1

= 20 + (0, 25 − 0, 12)

20

0, 36

= 27, 2

Q

3

= 60 + (0, 75 − 0, 72)

20

0, 20

= 63

do = 20 +

9 − 3

(9 − 3) + (9 − 6)

20 = 43, 3

2.2

Rozkład średniej i różnicy średnich

Definicja 2.1 Próbą losową prostą (n - elementową) nazywamy ciąg n niezależnych zmiennych losowych (X

1

, . . . , X

n

) o

jednakowych rozkładach identycznych jak rozkład zmiennej losowej X w populacji generalnej.

Uwaga 2.1 Realizację zmiennych losowych oznaczamy (x

1

, . . . , x

n

).

Definicja 2.2 Przestrzenią próby zmiennej losowej (X

1

, . . . , X

n

) nazywamy zbiór wszystkich realizacji (x

1

, . . . , x

n

).

Definicja 2.3 Statystyką z próby nazywamy zmienną losową Z

n

będącą funkcją zmiennych losowych X

1

, . . . , X

n

stanowią-

cych próbę losową tzn. Z

n

= f (X

1

, . . . , X

n

).

9

background image

Przykład 2.1 Średnią z próby definiujemy jako

X

n

def

=

1

n

n

X

i=1

X

i

.

Przykład 2.2 Wariancję z próby definiujemy jako

s

2
n

def

=

1

n − 1

n

X

i=1

(X

i

− X

n

)

2

.

Uwaga 2.2 Rozkładem statystyki z próby Z

n

= f (X

1

, . . . , X

n

) nazywamy rozkładem z próby.

2.2.1

Rozkład średniej dla populacji normalnej

Przykład 2.3 Dana jest populacja generalna mająca rozkład normalny N (m, σ) z danymi wszystkimi parametrami. Pobie-

ramy losowo próbę prostą n - elementową (X

1

, . . . , X

n

). Wtedy za statystykę z próby przyjmujemy średnią arytmetyczną z

próby

X

n

def

=

1

n

n

X

i=1

X

i

.

Ma ona własności E(X

n

) = m oraz D

2

(X

n

) =

σ

2

n

. A więc na podstawie faktów z rachunku prawdopodobieństwa średnia

arytmetyczna z próby ma rozkład normalny N (m,

σ

n

.

Przykład 2.4 Dana jest populacja generalna mająca rozkład normalny N (m, σ) z daną wartością oczekiwana i niewiadomą

wariancją. Pobieramy losowo próbę prostą n - elementową (X

1

, . . . , X

n

). Wtedy za statystykę z próby przyjmujemy

t

def

=

X

n

− m

s

n,

gdzie s =

s

2

, a s

2

jest wariancją z próby. Gęstość tego rozkładu wyraża się wzorem

f (t) =

Γ

ν+1

2



νπΓ Γ

ν
2





1 +

t

2

ν



ν+1

2

,

(2.3)

gdzie ν = n − 1. Rozkład ten nazywamy rozkładem t - Studenta o n − 1 stopniach swobody. Ma ona rozkład niezależny od σ

oraz ma własności E(t) = 0 oraz D

2

(X

n

) =

q

n−1
n−3

. Rozkład ten jest stablicowany.

2.2.2

Rozkład różnicy średnich dla dwóch populacji normalnych

Przykład 2.5 Dane są dwie populacje generalne mająca rozkłady normalny N (m

1

, σ

1

) i N (m

2

, σ

2

) z danymi wszystkimi

parametrami. Pobieramy losowo próby proste n

1

- elementową i n

2

- elementową. Wtedy za statystykę z próby przyjmujemy

różnice średnich arytmetycznych z próby

X

1

n

− X

2

n

.

Na podstawie faktów z rachunku prawdopodobieństwa ma ona rozkład normalny N (m

1

− m

2

,

q

σ

2
1

n

1

+

σ

2
2

n

2

).

Przykład 2.6 Dane są dwie populacje generalne mająca rozkłady normalny N (m

1

, σ) i N (m

2

, σ) z danymi wartościami

oczekiwanymi i niewiadomymi, ale jednakowymi wariancjami. Pobieramy losowo próby proste n

1

- elementową i n

2

- ele-

mentową. Wtedy za statystykę z próby przyjmujemy

t

def

=

X

1

n

− X

2

n

− (m

1

− m

2

)

s

2

p



1

n

1

+

1

n

2



n,

gdzie s

2

p

=

(n

1

−1)s

2
1

+(n

2

−1)s

2
2

n

1

+n

2

−2

, a s

2
i

jest wariancją z próby dla i = 1, 2. Rozkład ten jest rozkładem t - Studenta o n

1

+ n

2

− 2

stopniach swobody.

10

background image

Wykład 3

2003.03.04 /2h

3.1

Rozkład wariancji i ilorazu wariancji

3.1.1

Rozkład wariancji dla populacji normalnej

Dana jest populacja o rozkładzie cechy N (m, σ). Pobieramy losową n - elementową próbę (X

1

, . . . , X

n

). Budujemy statystykę

s

2

=

1

n−1

n

P

i=1

(X

i

− X

n

)

2

.

O wariancji σ

2

populacji generalnej będziemy wnioskować w oparciu o statystykę χ

2

=

(n−1)s

2

σ

2

. Ma ona gęstość zadaną

wzorem

f (r) =

( (

1
2

)

ν
2

Γ(

ν
2

)

r

ν
2

−1

e

r2

2

dla r > 0

0

dla r ¬ 0

,

(3.1)

gdzie ν = n − 1. Rozkład ten nazywamy chi-kwadrat o n − 1 stopniach swobody.

Rozkład ten posiada tablice. Mamy ponadto E(χ

2

) = n − 1 oraz D

2

2

) = 2(n − 1). Stąd otrzymujemy (po raz pierwszy)

E(s

2

) = σ

2

oraz D

2

(s

2

) =

4

n−1

.

3.1.2

Rozkład ilorazu wariancji dla dwóch populacji normalnych

Dane są dwie niezależne populacje normalne o dowolnych wartościach oczekiwanych oraz wariancjach równych σ

2

1

i σ

2

2

.

Pobieramy niezależnie z każdej populacji próby n

1

i n

2

elementowe. Budujemy statystyki s

2

1

oraz s

2

2

.

O ilorazie wariancji będziemy wnioskować ze statystyki

F =

s

2
1

σ

2
1

s

2
2

σ

2
2

.

Ma ona gęstość zadaną wzorem

f (F ) =

ν

ν1

2

1

ν

ν2

2

2

Γ(

ν1+ν2

2

)

Γ(

ν1

2

)Γ(

ν2

2

)

F

ν
2

−1

1

F +ν

2

)

ν1+ν2

2

dla F > 0

0

dla F ¬ 0

,

(3.2)

gdzie ν

1

= n

1

− 1 oraz ν

2

= n

2

− 1. Statystykę tą nazywamy statystyką F - Snedecora. Mamy dla niej E(F ) =

ν

2

ν

2

−2

oraz

D

2

(F ) =

2

2

1

2

−2

ν

1

2

−2)

2

2

−4)

.

3.2

Rozkłady graniczne niektórych statystyk

Rzeczywistość – populacja nie ma rozkładu normalnego, bądź nie znana jest postać rozkładu.

Praktyka – stosujemy graniczne rozkłady statystyk

Warunek – duża liczebność próby.

11

background image

Przykład 3.1 X ma rozkład Bernoulliego z parametrami n i p. Stosujemy statystykę (częstotliwościową) Ω =

X

n

. Mamy

wtedy P {ω : Ω(ω) =

k
n

}

 = P ({ω : X(ω) = k}) dla k = 0, 1, . . . , n. Ponadto E(Ω) = p oraz D

2

(Ω) =

p(1−p)

n

Na podstawie

twierdzenia Moivre’a - Laplace’a granicznym rozkładem statystyki Ω jest rozkład normalny N (p,

q

p(1−p)

n

).

Przykład 3.2 Zmienne losowe X

1

i X

2

mają rozkład Bernoulliego z parametrami n

1

, p

1

i n

2

, p

2

Rozkład różnicy statystyk

częstotliwości Ω

1

− Ω

2

zbiega go rozkładu normalnego N (p

1

− p

2

,

q

p

1

(1−p

1

)

n

1

+

p

2

(1−p

2

)

n

2

).

Przykład 3.3 Zmienna losowa o dowolnym rozkładzie ze średnią m i odchyleniem standardowym σ. Rozkład średnie z próby

X z twierdzenia Lindeberga - Levy’ego

1

zbiega go rozkładu normalnego N (m,

σ
n

).

Przykład 3.4 Zmienne losowe X

1

i X

2

mają dowolne rozkłady z parametrami m

1

, σ

1

i m

2

, σ

2

Rozkład różnicy średnich z

próby X

1

− X

2

z twierdzenia Lindeberga - Levy’ego zbiega go rozkładu normalnego N (m

1

− m

2

,

q

σ

2
1

n

1

+

σ

2
2

n

2

).

1

Zobacz książka Jakubowski, Sztencel Wstęp do rachunku prawdopodobieństw

12

background image

Wykład 4

2003.03.11 /2h

4.1

Podstawy teorii estymacji

Definicja 4.1 Estymacja to zbiór metod pozwalających na wnioskowanie o postaci rozkładu populacji generalnej na podstawie

obserwacji uzyskanych w próbie losowej.

Estymacje dzielimy na

1. parametryczną – szacowanie wartości parametrów rozkładu populacji generalnej;

(a) punktowa – za ocenę wartości parametru przyjmujemy jedną konkretną wartość otrzymaną na podstawie wyników

próby;

(b) przedziałowa – wyznaczamy pewien liczbowy przedział w którym z określonym prawdopodobieństwem zawiera się

wartość szacowanego parametru;

2. nieparametryczną szacowanie również postaci funkcyjnej rozkładu populacji generalnej.

4.2

Rodzaje estymatorów

Założymy, że rozkład zmiennej losowej X w populacji generalnej jest opisany za pomocą dystrybuant F (x, Θ), gdzie Θ jest

parametrem od którego zależy dystrybuanta. Będziemy szacować na podstawie n - elementowej próby (X

1

, . . . , X

n

)nieznaną

wartość parametru Θ.

Definicja 4.2 Estymatorem T

n

parametru Θ rozkładu populacji generalnej nazywamy statystykę z próby T

n

= t(X

1

, . . . , X

n

),

która służy do oszacowania wartości tego parametru.

Uwaga 4.1 Estymator to zmienna losowa.

Ponadto ponieważ każda ze zmiennych X

i

dla i = 1, . . . , n ma taki sam rozkład, jak zmienna X w populacji generalnej,

więc mają też taką samą dystrybuantę.

Definicja 4.3 Mówimy, że estymator T

n

parametru Θ jest nieobciążony wtedy i tylko wtedy, gdy E(T

n

) = Θ.

Jeżeli równość ta nie zachodzi, to wielkość E(T

n

) − Θ nazywamy obciążeniem estymatora T

n

i oznaczamy ją b(T

n

).

Przykład 4.1 Nieobciążonym estymatorem wartości oczekiwanej jest średnia arytmetyczną X

n

.

Przykład 4.2 Obciążonym estymatorem wariancji jest statystyka wariancja z próby postaci ˜

s

2

=

1

n

n

P

i=1

(X

i

− X

n

)

2

, gdyż

E(˜

s

2

) =

n−1

n

D

2

(X). Wtedy b(˜

s

2

= −

1

n

D

2

(X).

Przykład 4.3 Nieobciążonym estymatorem wariancji jest statystyka wariancja z próby postaci s

2

=

1

n−1

n

P

i=1

(X

i

− X

n

)

2

.

Definicja 4.4 Mówimy, że estymator T

n

parametru Θ jest asymptotycznie nieobciążony wtedy i tylko wtedy, gdy lim

n→∞

b(T

n

) =

0.

13

background image

Przykład 4.4 Estymator ˜

s

2

jest asymptotycznie nieobciążony.

Definicja 4.5 Mówimy, że estymator T

n

parametru Θ jest zgodny jeśli jest zbieżny według prawdopodobieństwa to parametru

Θ

Twierdzenie 4.1 Jeżeli estymator T

n

parametru Θ jest zgodny, to jest asymptotycznie nieobciążony.

Twierdzenie 4.2 Jeżeli estymator T

n

parametru Θ jest nieobciążony (asymptotycznie nieobciążony) oraz lim

n→∞

D

2

(T

n

) = 0,

to T

n

jest zgodny.

Definicja 4.6 Dany jest zbiór wszystkich nieobciążonych estymatorów T

1

,

n

, . . . , T

r

n

parametru Θ. Estymator T

?

n

z tego zbioru

o własności D

2

(T

?

n

) ¬ D

2

(T

i

n

) dla i = 1, . . . , r nazywamy najefektywniejszym estymatorem parametru Θ.

Natomiast wielkość

e(T

i

n

) =

D

2

(T

?

n

)

D

2

(T

i

n

)

(4.1)

efektywnością estymatora T

i

n

parametru Θ.

Twierdzenie 4.3 (Nierówność Rao - Cramera)

D

2

(T

n

) ­

1

nE





∂ ln f (x,Θ)

∂Θ



2

 = D

2

(T

?

n

)

(4.2)

Przykład 4.5 Udowodnimy, że średnia arytmetyczna z próby jest estymatorem najefektywniejszym dla wartości oczekiwanej.

Dowód przeprowadzimy dla populacji generalnej o rozkładzie normalnym N (m, σ).

Mamy

f (x, m) =

1

2πσ

exp



(x − m)

2

2



.

Wtedy

ln f (x, m) = − ln(

2πσ) −

(x − m)

2

2

.

Stąd

∂ ln f (x, Θ)

∂Θ

=

x − m

σ

2

,

a więc

E

"

 ∂ ln f (x, Θ)

∂Θ



2

#

=

1

σ

2

.

I ostatecznie

D

2

(T

?

n

) =

1

nE





∂ ln f (x,Θ)

∂Θ



2

 =

σ

2

n

.

Ponieważ D

2

(X

n

) =

σ

2

n

, więc dowód jest zakończony.

Definicja 4.7 Mówimy, że estymator T

n

parametru Θ jest asymptotycznie najefektowniejszy wtedy i tylko wtedy, gdy zachodzi

równość lim

n→∞

e(T

n

) = 1.

14

background image

Wykład 5

2003.03.18 /2h

5.1

Metody konstrukcji estymatorów

5.1.1

Metoda momentów

Momenty zwykłe i centralne można przedstawić jako pewne funkcje parametrów rozpatrywanego układu. Otrzymujemy układ

równań

η

1

= g

1

1

, . . . , Θ

r

)

η

2

= g

2

1

, . . . , Θ

r

)

. . .

η

r

= g

r

1

, . . . , Θ

r

)

,

(5.1)

gdzie η

i

dla i = 1, . . . , r są momentami zwykłymi lub centralnymi tak dobranymi aby układ ten miał jednoznaczne rozwiązanie

względem parametrów Θ

1

, . . . , Θ

r

. Ponadto za η

i

podstawiamy momenty z próby.

Przykład 5.1 Niech populacja generalna ma rozkład wykładniczy f (x, λ) = λe

−λx

I

]0,+∞[

dla λ > 0. Wyznaczymy metodą

momentów estymator parametru λ.

Ponieważ mamy tylko jeden parametr, więc bierzemy dokładnie jedno równanie. Ponieważ m

1

= E(X) =

1

λ

. Wtedy

m

P

1

=

1

n

n

P

i=1

X

i

= X, a stąd

ˆ

λ =

1

X

.

Przykład 5.2 Niech populacja generalna ma rozkład normalny N (m, σ). Wyznaczymy metodą momentów estymatory para-

metrów m i σ.

Zauważmy, że m

1

= E(X) oraz m

2

= µ

2

+ m

2

1

, gdzie µ

2

jest momentem centralnym rzędu 2. Układamy układ równań.

m

P

1

= X

m

P

2

=

1

n

n

P

i=1

X

2

i

.

Wtedy

ˆ

m = m

P
1

= X

ˆ

σ

2

=

1

n

n

X

i=1

X

2

i

− (X)

2

≡ ˜

s

2

Uwaga 5.1 Wadą tej metody jest niemożliwość określenia własności estymatorów.

5.1.2

Metoda największej wiarygodności

Niech funkcja prawdopodobieństwa zależy od nieznanych parametrów Θ

1

, . . . , Θ

r

Mamy p(x, Θ

1

, . . . , Θ

r

) i f (x, Θ

1

, . . . , Θ

r

).

15

background image

Definicja 5.1 Funkcją wiarygodności dla zmiennej dyskretnej nazywamy funkcję postaci

L((x

1

, . . . , x

n

; Θ

1

, . . . , Θ

r

) =

n

Y

i=1

p(x

i

, Θ

1

, . . . , Θ

r

).

(5.2)

Funkcją wiarygodności dla zmiennej ciągłej nazywamy funkcję postaci

L((x

1

, . . . , x

n

; Θ

1

, . . . , Θ

r

) =

n

Y

i=1

p(x

i

, Θ

1

, . . . , Θ

r

).

(5.3)

Etapy konstruowania estymatorów

1. Określenie funkcji L.

2. Wyznaczenie ln L.

3. Obliczanie

∂ ln L

∂Θ

i

dla i = 1, . . . , n.

4. Rozwiązanie układu równań

∂ ln L

∂Θ

i

= 0 dla i = 1, . . . , n.

Przykład 5.3 Zmienna losowa ma rozkład Bernoulliego. Stosując metodę największej wiarygodności wyznaczymy estymator

parametru p.

Przyjmiemy konwencję x = (x

1

, . . . , x

n

). Mamy

L(x, p) =

n

Y

i=1

 n

x

i



p

x

i

(1 − p)

n−x

i

ln L(x, p) =

n

X

i=1

ln

 n

x

i



+

n

X

i=1

x

i

ln p +

n

X

i=1

(n − x

i

) ln(1 − p)

∂ ln L

∂p

=

1

p

n

X

i=1

x

i

1

1 − p

n

X

i=1

(n − x

i

)

Rozwiązując równanie otrzymujemy

ˆ

p =

X

n

.

(5.4)

Przykład 5.4 Populacja generalna ma rozkład normalny N (m, σ). Metodą największej wiarygodności wyznaczymy estyma-

tory parametrów m i σ.

Mamy

L(x, p) =

1

2π)

n

exp

1

2

n

X

i=1

(x

i

− m)

2

!

ln L(x, p) = −n ln

σ

2

− n ln

2π −

1

2

n

X

i=1

(x

i

− m)

2

∂ ln L

∂m

=

1

σ

2

n

X

i=1

x

i

n · m

σ

2

∂ ln L

∂σ

2

=

−n

2

+

n

P

i=1

(x

i

− m)

2

2(σ

2

)

2

Rozwiązując układ równań otrzymujemy

ˆ

m =

1

n

n

X

i=1

X

i

= X

(5.5)

ˆ

σ

2

=

1

n

n

X

i=1

(X

i

− X)

2

.

(5.6)

Własności estymatorów otrzymanych metodą największej wiarygodności

16

background image

1. Są zgodne.

2. Mają asymptotyczny rozkład normalny o wartości oczekiwanej Θ i wariancji nE





∂ ln f (x,Θ)

∂Θ



2



.

3. Są co najmniej asymptotycznie nieobciążone.

4. Jeżeli istnieje estymator najefektywniejszy, to jest otrzymywany tą metodą.

5. Jeżeli ˆ

Θ jest estymatorem otrzymanym tą metodą, to estymator g( ˆ

Θ) otrzymamy metodą największej wiarygodności

dla parametru g(Θ).

5.1.3

Metoda najmniejszych kwadratów

Szacując wartość średnią na podstawie próby możemy zapisać

X

i

= m − 

i

.

Jako estymator średniej bierzemy taką wartość ˆ

m, dla której wyrażenie

n

X

i=1



2
i

=

n

X

i=1

(x

i

− m)

2

(5.7)

jest najmniejsze.

Wtedy obliczając pochodną względem m otrzymujemy

ˆ

m =

1

n

n

X

i=1

X

i

.

17

background image

Wykład 6

2003.03.25 /2h

6.1

Estymacja przedziałowa

Niech cecha X ma w populacji rozkład z nieznanym parametrem Θ. Załóżmy, że na podstawie losowej próby (X

1

, . . . , X

n

)

pochodzącej z tej populacji można wyznaczyć dwie funkcje Θ(X

1

, . . . , X

n

) i Θ(X

1

, . . . , X

n

) takie, że dla każdej realizacji

(x

1

, . . . , x

n

) mamy

Θ < Θ

oraz dla z góry przyjętego prawdopodobieństwa 1 − α, gdzie α ∈]0, 1[ mamy

P ({Θ(X

1

, . . . , X

n

) < Θ < Θ(X

1

, . . . , X

n

)}) = 1 − α.

Wtedy losowy przedział ]Θ, Θ[ nazywamy przedziałem ufności parametru Θ, zaś liczbę 1−α współczynnikiem (poziomem)

ufności.

Będziemy budować i rozważać przedziały ufności w następujących sytuacjach

1. Przedział ufności dla średniej m w populacji normalnej ze znanym odchyleniem standardowym.

2. Przedział ufności dla średniej m w populacji normalnej z nieznanym odchyleniem standardowym.

3. Przedział ufności dla średniej m w populacji nieznanym rozkładzie

(a) w przypadku nieznanej wartości oczekiwanej i znanej odchylenia standardowego.

(b) w przypadku nieznanych wartości oczekiwanej i odchylenia standardowego.

4. Przedział ufności dla wariacji σ

2

dla populacji normalnej o nieznanych wartości oczekiwanej i odchylenia standardowego.

5. Przedział ufności dla parametru p w rozkładzie Bernoulliego.

Ad 1. Dany jest rozkład cechy N (m, σ). Estymator wartości oczekiwanej jest średnią arytmetyczną z próby tzn. ˆ

m =

1

n

n

P

i=1

X

i

= X. Jak wiemy rozkład estymatora jest rozkładem normalnym z parametrami m i

σ

n

. Dokonując standaryzacji

zmiennej losowej X tzn. U =

X−m

σ

n otrzymujemy

P ({X −

u

α

σ

n

< m < X +

u

α

σ

n

}) = 1 − α,

(6.1)

gdzie u

α

jest takie, że Φ(u

α

) = 1 −

α

2

.

Ad 2. Dany jest rozkład cechy N (m, σ). Estymator wartości oczekiwanej jest średnią arytmetyczną z próby tzn. ˆ

m =

1

n

n

P

i=1

X

i

= X. Statystyką, którą tu stosujemy jest statystyka t - Studenta tzn. t =

X−m

s

n, gdzie s

2

=

1

n−1

n

P

i=1

(X

i

− X)

2

.

Otrzymujemy

P ({X −

t

α,n−1

σ

n

< m < X +

t

α,n−1

σ

n

}) = 1 − α,

(6.2)

gdzie t

α,n−1

jest takie, że P ({−t

α,n−1

< t < t

α,n−1

}) = 1 − α}.

18

background image

Uwaga 6.1 Dla n > 120 wartości t

α,n−1

zastępuje się u

α

.

Uwaga 6.2 Zwykle długość przedziału w przypadku pierwszym jest mniejsza niż w przypadku drugim.

Ad 3a. Rozkładem granicznym estymatora wartości oczekiwanej jest średnią arytmetyczną z próby jest rozkład normal-

nym z parametrami m i

σ

n

. Dokonując standaryzacji jak w przypadku 1 otrzymujemy

P ({X −

u

α

σ

n

< m < X +

u

α

σ

n

}) = 1 − α,

(6.3)

dla dostatecznie dużych n tj. dla n > 120.

Ad 3b. Dla n > 120 przyjmujemy σ = s i sprowadzamy do przypadku 3a. Otrzymujemy

P ({X −

u

α

σ

n

< m < X +

u

α

σ

n

}) ∼ 1 − α.

(6.4)

Ad 4. Dany jest rozkład cechy N (m, σ). Estymator wariancji jest wariancja z próby s

2

=

1

n−1

n

P

i=1

(X

i

− X)

2

. Statystyką,

którą tu stosujemy jest statystyka χ

2

tzn. χ

2

=

(n−1)s

2

σ

2

. Mamy wtedy

P ({χ

2

­ χ

2

α

2

,n−1

} =

α

2

P ({χ

2

­ χ

2
1−

α

2

,n−1

} = 1 −

α

2

Otrzymujemy wtedy

P

(

(n − 1)s

2

χ

2

α

2

,n−1

< σ

2

<

(n − 1)s

2

χ

2
1−

α

2

,n−1

)!

= 1 − α.

(6.5)

Ad 5. Stosujemy statystykę ˆ

p =

X

p

. Rozkładem granicznym dla tej statystyki jest rozkład normalny N (p,

q

p(1−p)

n

.

Dokonując jego standaryzacji i wykorzystując rozkład normalny oraz dla odpowiedni dużych n zastępując

p(1−p)

n

przez

ˆ

p(1− ˆ

p)

n

otrzymujemy

P ({ˆ

p − u

α

r

ˆ

p(1 − ˆ

p)

n

< m < ˆ

p + u

α

r

ˆ

p(1 − ˆ

p)

n

}) ∼ 1 − α.

(6.6)

19

background image

Wykład 7

2003.04.01 /2h

7.1

Estymacja przedziałowa – problem minimalizacji próby

Cel – kształtowanie warunków estymacji przedziałowej, aby otrzymać oszacowanie o żądanej dokładności.

1. Populacja o rozkładzie normalnym cech (N (m, σ)) ze znanymi parametrami.

2. Populacja o rozkładzie dwumianowym.

Ad. 1. Mamy wtedy przedział ufności X −

u

α

σ

n

< m < X +

u

α

σ

n

o długości

2u

α

σ

n

. Dokładnością estymacji są końce

przedziału ufności. Dokładność można zwiększać poprzez

• poziom współczynnika ufności

• liczebność próby

W przypadku pierwszym skracanie przedziału może powodować zmniejszenie prawdopodobieństwa pokrycia parametru.

W przypadku drugim zakładamy, że

u

α

σ

n

¬ d, gdzie d jest zadaną z góry liczbą. Stąd n ­

u

2
α

σ

2

d

2

.

Ad. 2. Mamy wtedy przedział ufności ˆ

p − u

α

q

ˆ

p(1− ˆ

p)

n

< m < ˆ

p + u

α

q

ˆ

p(1− ˆ

p)

n

. Analogicznie jak w punkcie pierwszym

zakładamy, że u

α

q

ˆ

p(1− ˆ

p)

n

¬ d, gdzie d jest zadaną z góry liczbą. Stąd n ­

u

2
α

(1−p)p

d

2

. Należy podkreślić, że jeżeli nie jest

znany rząd wielkości parametru p, to ustalamy, że p =

1
2

.

7.2

Testowanie hipotez

Definicja 7.1 Hipotezą statystyczną nazywamy dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci

funkcyjnej lub wartości parametrów).

Uwaga 7.1 Prawdziwość hipotezy statystycznej jest oceniana na podstawie wyników próby losowej.

Definicja 7.2 Zbiorem hipotez dopuszczalnych nazywamy zbiór wszystkich możliwych rozkładów, które mogą charakteryzować

populację. Będziemy ten zbiór oznaczać przez O.

Uwaga 7.2 Hipotezę statyczną oznaczać będziemy następująco

H : F (x) ∈ ω ∧ ω ⊆ O,

gdzie F (x) jest dystrybuantą rozkładu zmiennej losowej w populacji generalnej. Widać z tego, że hipoteza statystyczna jest

podzbiorem zbioru hipotez dopuszczalnych.

Podział hipotez ze względu na ilość rozkładów jakie może przyjmować hipoteza

1. prosta – podzbiór ω jest jednoelementowy – hipoteza jednoznacznie wyznacza rozkład;

20

background image

2. złożona – podzbiór ω jest więcej niż jednoelementowy – hipoteza niejednoznacznie wyznacza rozkład.

Podział hipotez ze względu czego dotyczą

1. parametryczna – dotyczy wartości parametrów rozkładu;

2. nieparametryczna – dotyczy postaci rozkładu.

Przykład 7.1 Zmienna losowa ma w populacji rozkład skokowy. Wtedy O zawiera wszystkie możliwe rozkłady skokowe.

H

1

– populacja ma rozkład Poissona – nieparametryczna i złożona.

H

2

– populacja ma rozkład Poissona z parametrem λ = 1 nieparametryczna i prosta.

H

3

– populacja ma rozkład z wartością oczekiwaną m = 1 parametryczna i złożona.

H

4

– populacja ma rozkład Poissona z wartością oczekiwaną m = 1 parametryczna i prosta.

Przykład 7.2 Zmienna losowa ma w populacji rozkład normalny. Wtedy O zawiera wszystkie możliwe rozkłady normalne

N (m, σ).

H

1

– populacja ma rozkład z wartością oczekiwaną m = 1 – parametryczna i złożona.

H

2

– populacja ma rozkład z parametrami m = 1 i σ = 1 parametryczna i prosta.

Definicja 7.3 Testem statystycznym nazywamy regułę postępowania, która każdej możliwej próbie przyporządkowuje decyzję

przyjęcia lub odrzucenia hipotezy.

Uwaga 7.3 Test statystyczny rozstrzyga, jakie wyniki próby pozwalają uznać sprawdzaną hipotezę za prawdziwą, a jakie za

fałszywą.

Testy statystyczne dzielimy na

1. parametryczne

2. nieparametryczne.

Etapy konstrukcji testy statystycznego

1. Formułowanie hipotezy podlegającej weryfikacji tzw. hipotezy zerowej (H

0

: F (x) ∈ ω

0

∧ ω

0

⊆ O, ).

2. Formułowanie hipotezy alternatywnej, będącej zaprzeczeniem hipotezy zerowej. Przyjmiemy ją za prawdziwą w przy-

padku odrzucenia hipotezy zerowej (H

1

F (x) ∈ ω

1

∧ ω

1

⊆ O, ).

3. Określenie obszaru odrzucenia (krytycznego) hipotezy

Ad 3. Niech W będzie przestrzenią próby, w

n

= (x

1

, . . . , x

n

), zaś przez w oznaczmy obszar krytyczny. Wtedy jeżeli

w

n

∈ W , to hipotezę zerową odrzucamy. Natomiast jeśli w

n

∈ W \ w, to hipotezę zerową przyjmujemy.

Błędy testowania hipotez

1. Błąd I - go rodzaju (oznaczamy do α(w)) – odrzucenie na podstawie wyników z próby hipotezy zerowej, która jest

prawdziwa.

2. Błąd II - go rodzaju (oznaczamy do β(w)) – przyjęcie na podstawie wyników z próby hipotezy zerowej, która jest

fałszywa.

Ad 1. Mamy

α(w) = P ({w

n

∈ W }|H

0

).

(7.1)

Ad 2. Mamy

β(w) = P ({w

n

∈ W \ w}|H

1

).

(7.2)

Testy konstruuje się tak, aby przy ustalonym α(w) minimalizować β(w).

Definicja 7.4 Testem najmocniejszym nazywamy taki, że jego moc (M (w)) była największa tzn. przy ustalonym α(w) praw-

dopodobieństwo odrzucenia fałszywej hipotezy zerowej i przyjęcia w to miejsce prawdziwej hipotezy alternatywnej było naj-

większe.

21

background image

Uwaga 7.4 Zauważmy, że M (w) = 1 − β(w).

Ogólne zasady konstrukcji testów istotności

1. Formułujemy hipotezę zerową i alternatywną.

2. Na podstawie próby losowej (X

1

, . . . , X

n

) wyznaczamy statystykę Z

n

(sprawdzian hipotezy), której rozkład określamy

przy założeniu, że prawdziwa jest hipoteza zerowa.

3. Dla ustalonego z góry ”małego” prawdopodobieństwa α wyznaczamy obszar Λ tak, aby

P ({Z

n

∈ Λ}) = α.

4. Jeżeli konkretna realizacja próby należy do Λ, to hipotezę zerową odrzucamy, w przeciwnym wypadku nie ma podstaw

do odrzucenia hipotezy zerowej.

Uwaga 7.5 Λ jest to obszar krytyczny, zaś α poziom istotności (prawdopodobieństwo popełnienia błędu I - go rodzaju. W

praktyce α ∈ [0, 01; 0, 1].

7.3

Parametryczne testy istotności

7.3.1

Test istotności dla wartości średniej populacji generalnej

Przypadek I

Populacja ma rozkład normalny N (m, σ) ze znaną wartością oczekiwaną i nieznanym odchyleniem standardowym.

H

0

: m = m

0

H

1

: m 6= m

0

Sprawdzian hipotezy - statystyka – średnia arytmetyczna z próby X. Jeżeli hipoteza zerowa jest prawdziwa, to X ma

rozkład N (m

0

,

σ

n

). Niech U =

X−m

0

σ

n. Wtedy dla poziomu istotności α mamy

P ({|U | ­ u

α

}) = α.

Obszar krytyczny |u| ­ u

α

, u

α

wartość krytyczna.

H

0

: m = m

0

H

1

: m > m

0

Sprawdzian hipotezy - statystyka – średnia arytmetyczna z próby X. Jeżeli hipoteza zerowa jest prawdziwa, to X ma

rozkład N (m

0

,

σ

n

). Niech U =

X−m

0

σ

n. Wtedy dla poziomu istotności α mamy

P ({U ­ u

}) = α.

Obszar krytyczny u ­ u

.

H

0

: m = m

0

H

1

: m < m

0

Sprawdzian hipotezy - statystyka – średnia arytmetyczna z próby X. Jeżeli hipoteza zerowa jest prawdziwa, to X ma

rozkład N (m

0

,

σ

n

). Niech U =

X−m

0

σ

n. Wtedy dla poziomu istotności α mamy

P ({U ¬ −u

}) = α.

Obszar krytyczny u ¬ −u

.

22

background image

Wykład 8

2003.04.08 /2h

8.1

Parametryczne testy istotności

8.1.1

Test istotności dla wartości średniej populacji generalnej c.d.

Przypadek II

Populacja ma rozkład normalny N (m, σ) z nieznanymi wartością oczekiwaną i odchyleniem standardowym.

H

0

: m = m

0

H

1

: m 6= m

0

Sprawdzian hipotezy - statystyka – t - Studenta. Jeżeli hipoteza zerowa jest prawdziwa, to t =

X−m

0

s

n. Wtedy dla

poziomu istotności α mamy

P ({|t| ­ t

α

}) = α.

Obszar krytyczny |t| ­ u

α

, t

α

wartość krytyczna.

H

0

: m = m

0

H

1

: m > m

0

Sprawdzian hipotezy - statystyka – t - Studenta. Jeżeli hipoteza zerowa jest prawdziwa, to t =

X−m

0

s

n. Wtedy dla

poziomu istotności α mamy

P ({t ­ t

}) = α.

Obszar krytyczny u ­ u

.

H

0

: m = m

0

H

1

: m < m

0

Sprawdzian hipotezy - statystyka – t - Studenta. Jeżeli hipoteza zerowa jest prawdziwa, to t =

X−m

0

s

n. Wtedy dla

poziomu istotności α mamy

P ({t ¬ −t

}) = α.

Obszar krytyczny t ¬ −t

.

Przypadek III Populacja ma dowolny rozkład z nieznanymi parametrami (dla dużych prób)

H

0

: m = m

0

H

1

: m 6= m

0

X – średnia z próby ma asymptotyczny rozkład normalny N (m

0

,

s

n

),

1

natomiast statystyka U =

X−m

0

s

n ma asymp-

totyczny rozkład normalny standardowy.

Mamy

P ({|U | ­ u

α

}) = α

i obszar krytyczny testu |u| ­ u

α

.

Przykład 8.1 Czas montowania elementu T w automatycznej pralce bębenkowej jest zmienną losową o rozkładzie normal-

nym. Norma techniczna przewiduje na tę czynność 6 minut. Natomiast wśród jej wykonawców panuje pogląd, że ten czas

1

s jest odchyleniem standardowym z próby i jest asymptotycznie zbieżne do odchylenia standardowego z populacji.

23

background image

jest zbyt krótki. Zweryfikujemy tą hipotezę na poziomie istotności α = 0, 05, przy założeniu, że standardowe odchylenie czasu

montowania wynosi σ = 1, 5 minuty. Badanie przeprowadzono w grupie 25 robotników i ich średni czas montowania przez

nich wynosił

X = 6

1
3

minuty.

H

0

: m = 6

H

0

: m > 6

u =

X − m

0

σ

n =

6

1
3

− 6

1, 5

25 ≈ 1, 1.

Mamy doczynienia z prawostronnym obszarem krytycznym

P ({U ­ u

0,1

}) = 0, 05,

gdzie Φ(u

0,1

) = 1, 65, a więc nie ma podstaw do odrzucenia hipotezy zerowej.

Przykład 8.2 Plony żyta na powierzchniach uprawianych w pewnym województwie maja rozkład normalny o nieznanych

parametrach. Przyjmując, że średni plon z tych powierzchni wynosi 28 kwintali. Sprawdzimy słuszność hipotezy, przy założeniu,

że dla 20 powierzchni otrzymano średni plon 25 kwintali z odchyleniem standardowym 4,5 kwintala. Przyjmiemy poziom

istotności α = 0, 01.

H

0

: m = 28

H

0

: m 6= 28

t =

X − m

0

s

n =

25 − 28

4, 5

20 ≈ −2, 981.

Mamy doczynienia z obustronnym obszarem krytycznym

P ({|t| ­ t

0,01

}) = 0, 01,

gdzie jest 19 stopni swobody i t

0,01;19

= 2, 861 oraz |t| = 2, 981 > t

0,01;19

. Wartość statystyki z próby znalazła się w obszarze

krytycznym, więc odrzucamy hipotezę zerową na korzyść hipotezy alternatywnej.

8.1.2

Test istotności dla wartości dwóch średnich

Przypadek I Badamy dwie populacje normalne o rozkładach N (m

1

, σ

1

) i N (m

2

, σ

2

).

Nieznane są wartości oczekiwane i znane są odchylenia standardowe.

H

0

: m

1

= m

2

H

1

: m

1

6= m

2

Z każdej populacji losujemy próbę losową o liczebnościach równych odpowiednio n

1

i n

2

. Sprawdzianem hipotezy H

0

jest

różnica średnich X

1

− X

2

o rozkładzie N (m

1

− m

2

,

q

σ

2
1

n

1

+

σ

2
2

n

2

).

Przy założeniu prawdziwości hipotezy zerowej statystyka

U =

X

1

− X

2

q

σ

2
1

n

1

+

σ

2
2

n

2

ma rozkład normalny standaryzowany. Analogicznie mamy P ({|U | ­ u

α

}) = α i obszar krytyczny testu |u| ­ u

α

.

Przypadek II Badamy dwie populacje normalne o rozkładach N (m

1

, σ

1

) i N (m

2

, σ

2

).

Nieznane są wartości oczekiwane i odchylenia standardowe.

H

0

: m

1

= m

2

H

1

: m

1

6= m

2

.

Jeżeli σ

1

= σ

2

= σ (chociaż σ) nie jest znana), to możemy wykorzystać statystykę t - studenta o n

1

+ n

2

− 2 stopniach

swobody

t =

(X

1

− X

2

) − (m

1

− m

2

)

r

s

2

p



1

n

1

+

1

n

2



,

gdzie s

2

p

jest wariancją prób połączonych. Przy założeniu prawdziwości hipotezy zerowej mamy t =

(X

1

−X

2

)

q

s

2

p

1

n1

+

1

n2



oraz

P ({|t| ­ t

α

}) = α.

24

background image

Przypadek III Rozkłady obu badanych populacji nie są znane, ale rozważamy duże próby o liczebnościach n

1

i n

2

,

H

0

: m

1

= m

2

H

1

: m

1

6= m

2

.

Statystyka U =

X

1

−X

2

q

σ2

1

n1

+

σ2

2

n2

, przy założeniu prawdziwości hipotezy zerowej, ma asymptotyczny rozkład normalny N (0, 1).

Tak więc jest P ({|U | ­ u

α

}) = α i obszar krytyczny testu |u| ­ u

α

.

Przykład 8.3 Przypuszcza się, że młodsze osoby łatwiej decydują się na zakup nowych, nieznanych produktów. Badanie

przeprowadzone wśród przypadkowych 20 nabywców nowego produktu i 22 nabywców znanego już wyrobu pewnej firmy dostar-

czyło następujących informacji o wieku klientów

kupujący nowy produkt: średnia 27,7; odchylenie 5,5

kupujący znany produkt: średnia 32,1; odchylenie 6,3.

Zweryfikować hipotezę, że średni wiek kupujących nowy produkt (m

1

) jest równy średniemu wiekowi (m

2

) kupujących

znany produkt, przy poziome istotności α = 0, 05.

H

0

: m

1

= m

2

H

1

: m

1

< m

2

.

Zakładamy, że rozkład wieku obu zbiorowości jest normalny i charakteryzuje się tym samym odchyleniem standardowym.

Stosując statystykę t =

(X

1

−X

2

)

q

s

2

p

1

n1

+

1

n2



otrzymujemy s

2

p

= 35, 206, t =

27,7−32,1

p

35,206

(

1

20

+

1

22

)

= −2, 4. Lewostronny obszar krytyczny

określa równość P {t ¬ −t

}) = α. W naszym wypadku t

= t

0,1;40

= −1, 684. Wartość statystyki z próby znalazła się w

obszarze krytycznym, więc odrzucamy hipotezę zerową na korzyść hipotezy alternatywnej.

8.1.3

Test istotności dla wariancji

Załóżmy, że badana populacja ma rozkłada normalny N (n, σ) z nieznanymi parametrami. Należy zweryfikować hipotezę, że

wariancja σ

2

w tej populacji ma ustaloną wartość σ

2

0

.

H

0

: σ

2

= σ

2

0

H

1

: σ

2

> σ

2

0

(większe zróżnicowanie).

Sprawdzianem hipotezy zerowej jest wariancja z próby s

2

. Stosujemy statystykę chi - kwadrat (χ

2

=

(n−1)s

2

σ

2

) o n − 1 -

stopniach swobody. Obszar krytyczny, dla poziomu istotności α, wyznacza równość P ({χ

2

­ χ

2

α,n−1

}) = α. Jeżeli wartość

statystyki z próby przekroczy wartość krytyczną, to odrzucamy hipotezę zerową na korzyść alternatywnej. W przeciwnym

wypadku nie ma podstaw do odrzucenia hipotezy zerowej.

Przykład 8.4 Chcemy sprawdzić czy odchylenie standardowe w rozkładzie czasu montowania elementu T w pralce automa-

tycznej rzeczywiście wynosi σ = 1, 5. Przyjąć poziom istotności α = 0, 1.

H

0

: σ

2

= 2, 25,

H

1

: σ

2

> 2, 25. W badanej grupie 25 robotników otrzymano wariancję z próby s

2

= 2, 8. Obliczając statystykę otrzymujemy

χ

2

=

25−1)·2,8

2,25

= 29, 87. Otrzymujemy χ

2

0,1;24

= 33, 196. Tak więc wartość statystyki z próby znalazła się poza obszarem

krytycznym, więc nie ma podstaw do odrzucenia hipotezy zerowej.

Uwaga 8.1 Dla n − 1 > 30 obszar krytyczny testu wariancji należy budować na podstawie rozkładu normalnego.

8.1.4

Test istotności dla dwóch wariancji

Badamy dwie populacje normalne o rozkładach N (m

1

, σ

1

) i N (m

2

, σ

2

). Nieznane są wartości oczekiwane i odchylenia stan-

dardowe.

H

0

: σ

2

1

= σ

2

2

H

1

: σ

2

1

6= σ

2

2

.

Alternatywnie hipotezę zerową i alternatywą można sformułować:

H

0

:

σ

2
1

σ

2
2

= 1

H

1

:

σ

2
1

σ

2
2

6= 1.

25

background image

Do weryfikacji hipotezy zerowej używamy wariancji s

2

1

i s

2

2

, obliczanych z dwóch niezależnych prób, o liczebnościach

równych odpowiednio n

1

i n

2

. Stosujemy statystykę F - Snedecora F =

s2

1

σ2

1

s2

2

σ2

2

o n

1

− 1 i n

2

− 1 stopniach swobodny.

Przy założeniu prawdziwości hipotezy zerowej mamy F =

s

2
1

s

2
2

. Prawostronna część obszaru krytycznego opisana jest

zależnością

P ({F ­ F

α

2

}) =

α

2

.

Natomiast lewostronna część obszaru krytycznego ma postać

P ({F ¬ F

α

2

}) =

α

2

.

Uwaga 8.2 W tablicach jest tylko F

α

2

, zatem w statystyce F w liczniku umieszczamy większą z wariancji obu prób. Obliczoną

tak wartość F porównujemy z F

α

2

. Jeżeli jest spełniona nierówność F ­ F

α

2

, to odrzucamy hipotezę zerową.

Jeżeli

H

0

: σ

2

1

= σ

2

2

H

1

: σ

2

1

> σ

2

2

, to

F =

s

2

1

s

2

2

.

Natomiast jeżeli

H

0

: σ

2

1

= σ

2

2

H

1

: σ

2

1

< σ

2

2

, to

F =

s

2

2

s

2

1

.

W obu przypadkach mamy prawostronny obszar krytyczny P ({F ­ F

α

}) = α.

Przykład 8.5 Sprawdzić, czy słuszne jest założenie o równości odchyleń standardowych wieku w populacji kupujących wyroby

nowe i znane, dla poziomu istotności α = 0, 05. Wtedy

alpha

2

= 0, 025. Ponadto mamy

H

0

: σ

2

1

= σ

2

2

,

H

1

: σ

2

1

6= σ

2

2

,

F =

s

2
2

s

2
1

=

39,69
30,25

= 1.31

F

0,024;21;19

= 2, 49.

Tak wiec brak jest podstaw do odrzucenia hipotezy zerowej (1, 31 < 2, 49).

26

background image

Wykład 9

2003.04.15 /2h

9.1

Nieparametryczne testy istotności

Nieparametryczne testy istotności dzielimy na

1. testy losowości (weryfikacja hipotezy, że próba ma charakter losowy)

2. testy niezależności (sprawdzają hipotezę o niezależności dwóch zmiennych losowych)

3. testy zgodności ( weryfikują hipotezę o postaci funkcyjnej rozkładu populacji generalnej)

4. inne.

Test zgodności sprawdza zgodność rozkładu empirycznego z próby z rozkładem hipotetycznym lub też zgodność dwóch

lub więcej rozkładów empiryczny z próby.

9.1.1

Test zgodności χ - kwadrat

Test ten zbudowany jest na podstawie statystyki χ

2

. Mamy

H

0

: F (x) = F

0

(x) (populacja generalna ma rozkład określony pewna dystrybuantą F

0

(x)

H

0

: F (x) 6= F

0

(x).

Zasady przeprowadzania testu

1. Losujemy z populacji dużą próbę (będziemy wykorzystywać rozkład graniczny statystyki).

2. Budujemy szereg rozdzielczy – tworzymy r rozłącznych klas wartości badanej zmiennej w próbie (liczebność i - tej klasy

wynosi n

i

).

3. Zakładamy prawdziwość hipotezy zerowej.

4. Obliczamy prawdopodobieństwa p

i

tego, że badana zmienna losowa przyjmie wartości z i - tej klasy. Przy założeniu

prawdziwości hipotezy zerowej liczebności poszczególnych klas powinny wynosić np

i

dla i = 1, . . . r, gdzie n liczebność

próby.

Podstawą konstrukcji miary zgodności rozkładu empirycznego z hipotetycznym jest różnica miedzy liczebnościami zaob-

serwowanymi n

i

, a liczebnościami hipotetycznymi np

i

. Do oceny zgodności stosujemy statystykę

χ

1

=

r

X

i=1

(n

i

− np

i

)

2

np

i

,

która przy założeniu prawdziwości hipotezy zerowej ma asymptotyczny rozkład χ

2

o r − k − 1 stopniach swobody, gdzie k

jest liczbą parametrów rozkładu, które zostały oszacowane na podstawie próby metodą największej wiarygodności. Jeżeli

prawdziwa jest hipoteza zerowa, to dla poziomu istotności α mamy P ({χ

2

­ χ

2

α

}) = α.

Jeżeli wartość statystyki z próby jest nie mniejsza niż wartość krytyczna (odpowiada to temu, że różnica między rozkładem

empirycznym, a hipotetycznym jest statystycznie istotna), to hipotezę zerową odrzucamy.

27

background image

Przykład 9.1 Przez 300 dni obserwowano pracę pewnej maszyny, rejestrując liczbę uszkodzeń w ciągu dnia. Otrzymano

następujące dane

liczba uszkodzeń (x

i

)

liczba dni (n

i

)

0

140

1

110

2

30

3

10

4

10

Zweryfikujemy hipotezę, że liczba uszkodzeń ma rozkład Poissona.

Określamy wartość parametru λ dla rozkładu Poissona. Estymatorem λ otrzymanym MNW jest średnia arytmetyczna z

próby X. Wynosi ona x = 0, 8 Mamy

P ({X = k}) =

(0, 8)

k

k!

e

−0,8

, dla k = 0, 1, 2, 3, 4.

Konstruujemy tablicę roboczą. Z rozkładu asymptotycznego musi być tak, że np

i

­ 5, więc łączymy dwie ostatnie klasy.

i

x

i

n

i

p

i

np

i

(n

i

− np

i

)

2

(n

i

−np

i

)

2

np

i

1

0

140

0, 449

134, 7

28, 09

0, 209

2

1

110

0, 359

107, 7

5, 29

0, 049

3

2

30

0, 144

43, 2

174, 24

4, 033

4

­ 3

20

0, 048

14, 4

31, 36

2, 178

P

300

1

300

χ

2

= 6, 469

Przyjmując poziom istotności α = 0, 05 i mając r − k − 1 = 4 − 1 − 1 = 2 więc χ

2

0,05;2

= 5, 991. Na podstawie danych

odrzucamy hipotezę zerową.

Uwaga 9.1 Gdyby dany był parametr λ, to wartość krytyczną należałoby określić dla r − 1 stopni swobody.

9.1.2

Test zgodności λ - Kołmogorowa

Test ten może być stosowany tylko w przypadku ciągłej dystrybuanty empirycznej.

Definicja 9.1 Dystrybuantą empiryczną F

n

nazywamy funkcję określoną na podstawie danych (x

i

, ω

i

) dla i = 1, . . . , k

wzorem

F

n

(x) =

X

i:x

i

¬x

ω

i

,

(9.1)

gdzie ω

i

=

n

i

n

są wagami x

i

.

Definicja 9.2 Wartość standaryzowana odpowiadająca obserwacji x wyraża się wzorem

u =

x − x

s

.

(9.2)

Zasady konstrukcji testu

1. Formułujemy hipotezę zerową i alternatywną

H

0

: F (x) = F

0

(x)

H

1

: F (x) 6= F

0

(x)

2. Losujemy dużą próbę n - elementową oraz budujemy szereg przedziały z dużą ilością wąskich klas.

3. Wyznaczamy dystrybuantę empiryczną.

28

background image

4. Przy założeniu prawdziwości hipotezy zerowej różnice między dystrybuanta empiryczna, a hipotetyczną nie powinny

być duże. Miarą zgodności obu dystrybuant jest statystyka λ = D

n, gdzie D = sup

x

|F

n

(x) − F

0

(x)|. Przy założeniu

prawdziwości hipotezy zerowej statystyka λ ma asymptotyczny rozkład λ - Kołmogorowa z obszarem krytycznym

wyznaczonym przez równość P ({λ ­ λ

α

}) = α z poziomem istotności α. Jeżeli na podstawie próby otrzymamy wartość

nie mniejszą niż wartość krytyczna (λ ­ λ

α

) to hipotezę zerową odrzucamy.

Przykład 9.2 Przypuśćmy, że jednostkowe koszty produkcji danego wyrobu mają rozkład normalny. W celu weryfikacji tego

przypuszczenia zbadano próbę 200 zakładów produkujących ten wyrób otrzymując następujące dane

i

koszty jednostkowe

liczba zakładów (n

i

)

1

2,50 – 3,50

5

2

3,50 – 4,50

10

3

4,50 – 5,50

35

4

5,50 – 6,50

80

5

6,50 – 7,50

50

6

7,50 – 8,50

10

7

8,50 – 9,50

10

Zweryfikujemy hipotezę, że rozkład jednostkowego kosztu produkcji tego wyrobu ma rozkład normalny.

Standaryzujemy górne granice klas, gdyż potrzebujemy m i σ, które oszacujemy na podstawie próby m = x = 6, 15 i

σ = s = 1, 216.

Etapy obliczania statystyki D (budowanie pomocniczej tablicy).

i

x

Φ(u) = F

0

(x)

ω

i

F

n

(x)

F

n

(x) − F

0

(x)

u

1

3, 50

0, 015

0, 025

0, 025

0, 010

−2, 18

2

4, 50

0, 087

0, 050

0, 075

0, 012

−1, 36

3

5, 50

0, 295

0, 175

0, 250

λ = 0, 045

−0, 54

4

6, 50

0, 614

0, 400

0, 650

0, 036

0, 29

5

7, 50

0, 867

0, 250

0, 900

0, 033

1, 11

6

8, 50

0, 973

0, 050

0, 950

0, 023

1, 93

7

9, 50

0, 997

0, 050

1, 000

0, 003

2, 76

Σ

1

Mamy D = 0, 045 oraz λ = 0, 045 ·

200 = 0, 637. Dla poziomu istotności α = 0, 05 mamy λ

α

= 1, 36. Tak więc nie ma

podstaw do odrzucenia hipotezy zerowej.

Uwaga 9.2 Tablice rozkładu λ - Kołomogorowa podają wartość dystrybuant K(λ). λ

α

otrzymujemy z warunku K(λ

α

) = 1−α.

29

background image

Wykład 10

2003.05.06 /2h

10.1

Rozkłady dwuwymiarowe – podstawowe pojęcia

Porównanie pojęć dla rozkładu jednowymiarowego i dwuwymiarowego.

Rozkład

jednowymiarowy

dwuwymiarowy

dyskretny

ciągły

dyskretny

ciągły

Rozkład

(x

i

, p

i

)

gęstość f (x)

(x

i,j

, p

ij

)

gęstość f (x, y)

Dystrybuanta F (x) = P ({X ¬ x})

F (x) =

P

i:x

i

¬x

p

i

F (x) =

x

R

−∞

f (t)dt

F (x, y) =

P

i:x

i

¬x

P

j:y

j

¬y

p

ij

F (x, y) =

x

R

−∞

y

R

−∞

f (s, t)dtds

Wartość oczekiwana E(X)

E(X) =

P

x

i

x

i

p

i

E(X) =

+∞

R

−∞

xf (x)dx

Wariancja

D

2

(X) = E(X

2

) − (E(X))

2

Rozkłady brzegowe

(x

i

, p

), p

=

P

j

p

ij

f

X

(x) =

+∞

R

−∞

f (x, t)dt

(y

j

, p

·j

), p

·j

=

P

i

p

ij

f

Y

(y) =

+∞

R

−∞

f (s, y)ds

Kowariancja cov(X, Y )

E((X − E(X))(Y − E(Y )))

10.2

Badanie zależności dwóch cech

10.2.1

Dwuwymiarowy rozkład empiryczny i jego parametry

Przyjmujemy, że populacja generalna jest badana jednocześnie pod względem dwóch cech X i Y . Odpowiada to sytuacji

w rachunku prawdopodobieństwa, że na zbirze zdarzeń elementarnych została określona dwuwymiarowa zmienna losowa

(X, Y ).

Niech cecha X przyjmuje k wartości tj. x

1

, . . . , x

k

, zaś cecha Y przyjmuje l wartości y

1

, . . . , y

l

. Dla każdej cechy (oddzielnie)

można określić jednowymiarowy rozkład empiryczny tzn. uporządkować w postaci szeregu rozdzielczego punktowego. W celu

określenia łącznego rozkładu obu cech należy ustalić, ile jednostek zbiorowości przyjmuje możliwe pary wartości (x

i

, y

j

). Tę

ilość oznaczamy n

ij

, gdzie i = 1, . . . , k; j = 1, . . . , l.

Definicja 10.1 Empiryczny dwuwymiarowy rozkład cechy (X, Y ) (empiryczny łączny rozkład cech X, Y ) określają liczebności

n

ij

, gdzie i = 1, . . . , k; j = 1, . . . , l, odpowiadające parom wartości (x

i

, y

j

).

30

background image

Uwaga 10.1 Przyjmujemy

k

X

i=1

l

X

j=1

n

ij

= n.

Definicja 10.2 Rozkład brzegowy cechy X wyznaczają liczebności n

=

l

P

j=1

n

ij

, dla i = 1, . . . , k.

Definicja 10.3 Rozkład brzegowy cechy Y wyznaczają liczebności n

·j

=

k

P

i=1

n

ij

, dla j = 1, . . . , l.

Rozkład dwuwymiarowy przedstawiamy postaci tablicy korelacyjnej

y

1

y

2

. . .

y

l

x

1

n

11

n

12

. . .

n

1l

n

x

2

n

21

n

22

. . .

n

2l

n

..

.

. . .

..

.

x

k

n

k1

n

k2

. . .

n

kl

n

n

·1

n

·2

. . .

n

·l

n

Ostatni wiersz określa rozkład brzegowy cechy Y , zaś ostatnia kolumna określa rozkład brzegowy cechy X.

Można określić również częstotliwości względne rozkładu łącznego

ω

ij

=

n

ij

n

jak i częstotliwości względne rozkładów brzegowych

ω

=

n

n

ω

·j

=

n

·j

n

W rozkładzie empirycznym dwuwymiarowym można określić rozkłady warunkowe tj. Rozkłady jednej zmiennej przy

ustalonej drugiej zmiennej.

W tablicy korelacyjnej warunkowe Rozkłady zmiennej X są to kolejne kolumn tablicy. Natomiast warunkowe Rozkłady

zmiennej Y to są kolejne wiersz tablicy korelacyjnej.

Rozkłady brzegowe cechy X:

1. Średnia

x =

1

n

k

X

i=1

x

i

· n

2. Wariancja

s

2
X

=

1

n − 1

k

X

i=1

(x

i

− x)

2

· n

Rozkłady brzegowe cechy Y :

1. Średnia

y =

1

n

l

X

j=1

y

j

· n

·j

2. Wariancja

s

2
Y

=

1

n − 1

l

X

j=1

(y

j

− y)

2

· n

·j

31

background image

Rozkłady warunkowy cechy X dla j = 1, . . . , l:

1. Średnia

x

j

=

1

n

·j

k

X

i=1

x

i

· n

ij

2. Wariancja

s

2
j,X

=

1

n

·j

− 1

k

X

i=1

(x

i

− x)

2

· n

ij

Rozkłady warunkowy cechy Y dla i = 1, . . . , k:

1. Średnia

y

i

=

1

n

l

X

j=1

y

j

· n

ij

2. Wariancja

s

2
i,Y

=

1

n

− 1

l

X

j=1

(y

j

− y)

2

· n

ij

Definicja 10.4 Kowariancją dwuwymiarowego rozkładu empirycznego, oznaczaną cov(x, y) nazywamy nieobciążony estyma-

tor kowariancji w populacji wyrażający się wzorem

cov(x, y) =

1

n − 1

k

X

i=1

l

X

j=1

(x

i

− x)(y

j

− y) · n

ij

.

(10.1)

Uwaga 10.2 Mamy następująca zależność

−s

X

s

Y

¬ cov(x, y) ¬ s

X

s

Y

,

(10.2)

gdzie s

X

oraz s

Y

są odchyleniami standardowymi zmiennych X i Y .

Kowariancję wykorzystujemy do oceny stopnia współzależności zmiennych.

Przypadki

1. Jeżeli cov(x, y) < 0, to na ogół niskim wartościom jednej cechy odpowiadają wysokie wartości drugiej i na odwrót.

2. Jeżeli cov(x, y) > 0, to niskim (wysokim) wartościom jednej cechy odpowiadają niskie (wysokie) wartości drugiej.

3. Jeżeli cov(x, y) ≈ 0, to przy różnych wartościach jednej cechy poziom wartości drugiej pozostaje (w przybliżeniu) ten

sam.

10.2.2

Test niezależności χ

2

Uwaga 10.3 Zmienne losowe są niezależne (stochastycznie) wtedy i tylko wtedy, gdy rozkłady warunkowe każdej ze zmien-

nych są identyczne i takie same jak rozkład brzegowy, niezależnie od wartości przyjmowanych przez drugą zmienną.

Formalna definicja zmiennych niezależnych wygląda następująco:

Definicja 10.5 Niech (X, Y ) będzie dwuwymiarową zmienną skokową. Zmienne losowe są niezależne wtedy i tylko wtedy,

gdy dla każdej pary wartości (x

i

, y

j

) mamy

P ({(X, Y ) = (x

i

, y

j

)}) = P ({X = x

i

})P ({Y = y

j

}).

Definicja 10.6 Niech (X, Y ) będzie dwuwymiarową zmienną ciągłą. Zmienne losowe są niezależne wtedy i tylko wtedy, gdy

dla każdej pary wartości (x, y) mamy

f (x, y) = f

X

(x)f

Y

(y).

32

background image

Będziemy sprawdzać niezależność zmiennych losowych Stawiamy hipotezę zerową i alternatywną

H

0

: p

ij

= p

· p

·j

dla wszystkich par wskaźników i, j

H

1

: p

ij

6= p

· p

·j

dla niektórych par wskaźników i, j.

Gdyby prawdopodobieństwa p

i p

·j

były znane, to można byłoby wyznaczyć p

ij

( przy założeniu prawdziwości hipotezy

zerowej), a następnie obliczyć oczekiwana liczność rozkładu dwuwymiarowego

c

n

ij

= n · p

ij

.

W celu podjęcia decyzji odnośnie hipotezy zerowej należałoby porównać liczebność rozkładu rzeczywistego n

ij

z liczebno-

ścią rozkładu hipotetycznego

c

n

ij

za pomocą testy χ

2

. Jednak sformułowana hipoteza zerowa nie precyzuje wartości nieznanych

k + l prawdopodobieństw rozkładów brzegowych. Z zależności

X

i

p

=

X

j

= p

·j

= 1

można wyznaczyć dwie nieznane wartości. Zostaje wtedy k + l − 2 nieznane parametry.

Przy stosowaniu testu χ

2

nieznane prawdopodobieństwa brzegowe należy szacować za pomocą częstotliwości względnych

c

p

=

n

n

dla i = 1, . . . k − 1

(10.3)

c

p

·j

=

n

·j

n

dla j = 1, . . . l − 1

(10.4)

Oczekiwane liczebności w tablicy korelacyjnej przy założeniu prawdziwości hipotezy zerowej wynoszą ˆ

n

ij

= n· ˆ

p

· ˆ

p

·j

=

n

·n

·j

n

.

Test zgodności wykorzystuje statystykę

χ

2

=

k

X

i=1

l

X

j=1

(n

ij

− ˆ

n

ij

)

2

ˆ

n

ij

,

gdzie

• Próba musi być duża: ˆ

n

ij

­ 5.

• Liczba stopni swobody wynosi: kl − (k + l − 2) − 1 = (k − 1)(l − 1).

Obszar krytyczny, dla poziomu istotności α, opisuje zależność

P ({χ

2

­ χ

2
α,(k−1)(l−1)

}) = α.

Jeżeli wartości obliczona jest nie mniejsza nisz wartość hipotetyczna, to hipotezę zerową odrzucamy.

33

background image

Wykład 11

2003.05.13 /2h

11.1

Badanie zależności dwóch cech c.d.

11.1.1

Empiryczne krzywe regresji

Do oceny współzależności zmiennych może być użyta analiza rozkładów warunkowych zmiennych określonych w tablicy

korelacyjnej

Porównanie średnich warunkowych

1. Jeżeli

x

1

= . . . = x

l

= x, to zmienna Y nie wpływa na zmienną X.

2. Jeżeli y

1

= . . . = y

k

= y, to zmienna X nie wpływa na zmienną Y .

Jeśli cechy są skorelowane, to średnie warunkowe zmiennej uznanej za zależną będą różne. Zależność jest tym silniejsza,

im mocniej różne wartości przyjmowane przez cechę niezależną różnicują średni poziom wartości cechy zależnej.

Uwaga 11.1 Średnie warunkowe cechy zależnej możemy traktować jako funkcje wartości cechy niezależnej (funkcje regresji

I rodzaju).

Definicja 11.1 Funkcją regresji I rodzaju zmiennej X względem zmiennej Y nazywamy warunkową wartość oczekiwaną

wyrażoną wzorem

E(X|Y = y

j

) = m

1

(y) dla zmiennej Y dyskretnej

(11.1)

E(X|Y = y) = m

1

(y) dla zmiennej Y ciągłej

(11.2)

Funkcją regresji I rodzaju zmiennej Y względem zmiennej X nazywamy warunkową wartość oczekiwaną wyrażoną wzorem

E(Y |X = x

i

) = m

2

(x) dla zmiennej X dyskretnej

(11.3)

E(Y |X = x) = m

2

(x) dla zmiennej X ciągłej

(11.4)

Uwaga 11.2 Empiryczna krzywa regresji cechy X względem cechy Y jest to łamana łącząca punkty (x

j

, y

j

) dla j = 1, . . . , l.

Empiryczna krzywa regresji cechy Y względem cechy X jest to łamana łącząca punkty (x

i

, y

i

) dla i = 1, . . . , k.

11.1.2

Stosunki korelacyjne

Stosunki korelacyjne badamy w celu stwierdzenia, czy istnieje zależność między cechami i określenia jej siły. Dla zmiennej

uznanej za zależną można przeprowadzić analizę wariancji.

Dla zmiennej X.

Dokonujemy podziału całkowitej sumy kwadratów odchyleń od średniej na sumę kwadratów międzygrupową i wewnątrz

grupową tj.

k

X

i=1

(x

i

− x)

2

· n

=

l

X

j=1

(x

j

− x)

2

· n

·j

+

l

X

j=1

k

X

i=1

(x

i

− x

j

)

2

· n

ij

.

(11.5)

34

background image

Pierwszy składnik tej sumy jest to zróżnicowanie wyjaśniające regresje.

Dla zmiennej Y .

l

X

j=1

(y

j

− y)

2

· n

·j

=

k

X

i=1

(y

i

− y)

2

· n

+

k

X

i=1

l

X

j=1

(y

j

− y

i

)

2

· n

ij

.

(11.6)

Definicja 11.2 Wskaźnikiem korelacji e

xy

zmiennej zależnej X względem zmienne Y nazywamy stosunek

e

2
xy

=

l

P

j=1

(x

j

− x)

2

· n

·j

k

P

i=1

(x

i

− x)

2

· n

(11.7)

Definicja 11.3 Wskaźnikiem korelacji e

yx

zmiennej zależnej Y względem zmienne X nazywamy stosunek

e

2
yx

=

k

P

i=1

(y

i

− y)

2

· n

l

P

j=1

(y

j

− y)

2

· n

·j

(11.8)

Uwaga 11.3 Ponieważ e

2

xy

∈ [0, 1] i e

2

yx

∈ [0, 1], więc e

xy

, e

yx

∈ [0, 1].

11.1.3

Współczynnik korelacji (Pearsona)

Dla zmiennych losowych współczynnik korelacji definiujemy równością

ρ =

cov(X, Y )

D(X)D(Y )

.

(11.9)

Przyjmuje on wartości z przedziału [−1, 1].

Definicja 11.4 Współczynnikiem korelacji w rozkładzie empirycznym nazywamy wielkość

r =

cov(x, y)

s

X

s

Y

,

(11.10)

gdzie cov(x, y) jest kowariancją rozkładu empirycznego, s

X

, s

Y

są odchyleniami standardowymi w rozkładach brzegowych.

Uwaga 11.4 Współczynnik może być rozpatrywany jako estymator współczynnika korelacji ρ w populacji generalnej.

Własności r

1. r ∈ [−1, 1];

2. r = 0, gdy cechy są liniowo nieskorelowane;

3. |r| = 1 wtedy i tylko wtedy, gdy związek między cechami jest funkcją liniową.

Uwaga 11.5 Należy podkreślić, że warunek zerowania się współczynnika korelacji może oznaczać bark korelacji, jak i korelację

nieliniową.

W przypadku nieliniowej zależności wartość współczynnika korelacji jest niższa niż powinno to wynikać z siły związku między

cechami.

Miarą siły korelacji nieliniowej są stosunki korelacyjne:

d

m

xy

= e

2
xy

− r

2

(11.11)

d

m

yx

= e

2
yx

− r

2

,

(11.12)

gdzie

d

m

xy

,

d

m

yx

∈ [0, 1]. Im bliższe jedności są wartości tych wskaźników, tym bardziej związki między cechami odchylają się

od zależności liniowej.

35

background image

11.1.4

Wnioskowanie statystyczne dotyczące współczynnika korelacji w populacji generalnej

Załóżmy, że dwuwymiarowy rozkład zmiennych losowa X i Y w populacji generalnej jest normalny. Testujemy hipotezę

H

0

: ρ = 0

H

1

: ρ 6= 0.

Jeżeli prawdziwa jest hipoteza zerowa, to statystyka

t =

r

1 − r

2

n − 2,

gdzie r jest współczynnikiem korelacji z próby ma rozkład t - Studenta o n − 2 stopniach swobody.

Obszar krytyczny, dla poziomu istotności α, zadaje równość

P ({|t| ­ t

α

}) = α.

11.1.5

Współczynnik korelacji rang Spearmana

Współczynnik ten jest wykorzystywany do badania cech niemierzalnych.

Uwaga 11.6 W rachunku prawdopodobieństwa mamy w takim wypadku doczynienie ze zmienna losową, która zdarzeniom

przypisuje arbitralna wartość.

Gdy badane cechy niemierzalne mają charakter porządkowy, możliwe jest nadanie wariantom tych cech rang tzn. umow-

nych liczbowych wartości (np. numerów miejsc w ciągu). Badanie zależności między cechami niemierzalnymi może polegać

wtedy na badaniu korelacji między rangami przyporządkowanymi wariantom tych cech tzn. na badaniu stopnia odpowied-

niości między rangami.

Definicja 11.5 Niech a

i

będzie rangą przyporządkowaną i - tej obserwacji z pierwszego ciągu oraz b

i

będzie rangą przypo-

rządkowaną i - tej obserwacji z drugiego ciągu. Wtedy współczynnik korelacji rang Spearmana określa równość

r

d

= 1 −

6

n

P

i=1

d

2
i

n(n

2

− 1)

,

(11.13)

gdzie d

i

= a

i

− b

i

i w zbiorze danych nie ma obserwacji powiązanych, czyli nie dających się uporządkować.

Współczynnik korelacji rang Spearmana ma następujące własności:

1. r

d

∈ [−1, 1].

2. Jeżeli r

d

= 1, to występuje idealna zgodność rang.

3. Jeżeli r

d

= −1, to występuje maksymalna niezgodność rang (najwyższej randze w jednym ciągu odpowiada najniższa

ranga w drugim).

4. Jeżeli r

d

= 0, to rangi w obu ciągach są niezależne (losowe kojarzenie rang w obu ciągach).

11.2

Klasyczny model regresji liniowej

Klasyczny model regresji liniowej wyjaśnia w sposób analityczny kształtowanie się wartości zmiennej losowej pod wpływem

innej lub innych zmiennych.

Model: Dla każdej ustalonej wartości jednej zmiennej losowej (np. X) druga zmienna losowa (Y ) ma warunkowy rozkład

w wartością oczekiwaną

E(Y |X = x) = αx + β,

(11.14)

gdzie funkcja regresji I rodzaju zmiennej Y względem zmiennej X jest liniowa oraz stałą wariancję

D

2

(Y |X = x) = σ

2

.

36

background image

Zmienna Y traktujemy jako zmienną zależną, a zmienną X jako niezależną. Współczynnik α regresji liniowej jest wielkością

o jaką zmienia się warunkowa wartość oczekiwana zmiennej zależnej Y , gdy x wzrasta o jednostkę.

Z klasycznym modelem normalnej regresji liniowej mamy doczynienia wtedy, gdy rozkłady zmiennej Y są normalne, tzn.

Y dla X = x ma rozkład N (αx + β, σ).

Niech ciąg par (x

1

, Y

1

), (x

2

, Y

2

), . . . , (x

n

, Y

n

) będzie n - elementową próbą losową z populacji dwuwymiarowej, stanowiącą

podstawę estymacji parametrów badanej zależności (wartości zmiennej X są w próbie ustalone).

Kształtowanie się wartości Y

i

w próbie można wyjaśnić następująco

Y

i

= E(Y |X = x

i

) + 

i

= αx

i

+ β + 

i

,

(11.15)

gdzie i = 1, . . . , n i 

i

są zmiennymi losowymi takimi, że

E(

i

) = 0

(11.16)

D

2

(

i

) = σ

2

(11.17)

cov(

i

, 

j

) = 0 dla i 6= j.

(11.18)

Jest to alternatywne sformułowanie klasycznego modelu regresji liniowej Y względem X.

Jeżeli uzupełnimy podane warunki o założenie, że 

i

maja rozkład N (0, σ), to otrzymujemy klasyczny model normalnej

regresji liniowej zmiennej y względem zmiennej X.

37

background image

Wykład 12

2003.05.13 /2h (za 20 maja)

12.1

Klasyczny model regresji liniowej c.d.

Równoważność warunków modeli.

E(Y

i

) = E(αx

i

+ β + 

i

) = αx

i

+ β + E(

i

) = αx

i

+ β

D

2

(Y

i

) = E [Y

i

− E(Y

i

)]

2

= E [Y

i

− αx

i

+ β]

2

= E(

2
i

) = σ

2

Parametry modelu, czyli α, β oraz wariancji składnika losowego σ

2

są nieznanymi wielkościami odnoszącymi się do po-

pulacji generalnej, a więc podlegają estymacji z próby losowej.

12.1.1

Estymacja parametrów α i β funkcji regresji

Załóżmy, że w populacji dwuwymiarowej (X, Y ) pobieramy n - elementową próbę (x

1

, Y

1

), (x

2

, Y

2

), . . . , (x

n

, Y

n

). Wyniki

konkretnej próby (x

1

, y

1

), (x

2

, y

2

), . . . , (x

n

, y

n

) można przedstawić w układzie współrzędnych otrzymując w ten sposób wy-

kres rozrzutu punktów empirycznych. Szukamy wykresy prostej ”najlepiej dopasowanej” do otrzymanych punktów, stosując

metodę najmniejszych kwadratów.

Będziemy minimalizować funkcję

S ≡ S(α, β) =

n

X

i=1



2
i

=

n

X

i=1

[Y

i

− (αx

i

+ β)]

2

(12.1)

Licząc pochodne cząstkowe i przyrównując je do zera ( warunek konieczny istnienia ekstremum) otrzymujemy

∂S
∂α

= −2

n

P

i=1

x

i

(Y

i

− αx

i

− β) = 0

∂S
∂β

= −2

n

P

i=1

(Y

i

− αx

i

− β) = 0

n

P

i=1

x

i

Y

i

=

b

α

n

P

i=1

x

2
i

+ b

β

n

P

i=1

x

i

)

n

P

i=1

Y

i

=

b

α

n

P

i=1

x

i

+ n b

β

n

P

i=1

x

i

Y

i

=

b

α

n

P

i=1

x

2
i

+

1

n



n

P

i=1

x

i

 

n

P

i=1

Y

i



b

α

1

n



n

P

i=1

x

i



2

b

β = Y −

b

αx

b

α =

n

P

i=1

x

i

Y

i

1

n



n

P

i=1

x

i



n

P

i=1

Y

i



n

P

i=1

x

2
i

b

α

1

n



n

P

i=1

x

i



2

b

β = Y −

b

αx

38

background image

b

α =

n

P

i=1

(x

i

−x)(Y

i

−Y )

n

P

i=1

(x

i

−x)

2

b

β = Y −

b

αx

(

b

α =

cov(x,Y )

s

2
X

b

β = Y −

b

αx

Twierdzenie 12.1 (Gaussa - Markowa) W klasycznym modelu regresji liniowej najefektywniejszym nieobciążonym esty-

matorami współczynników regresji są estymatory uzyskane metodą najmniejszych kwadratów.

Odchylenia standardowe znalezionych estymatorów wynoszą

D(

b

α) =

v
u
u
u
t

σ

2

n

P

i=1

(x

i

− x)

2

(12.2)

D( b

β) =

v
u
u
u
u
u
t

σ

2

n

P

i=1

x

2
i

n

n

P

i=1

(x

i

− x)

2

(12.3)

Uwaga 12.1 Obie wielkości zależą od σ

2

i mogą być oszacowane dopiero po oszacowaniu σ

2

.

Liniowa funkcja regresji po oszacowaniu parametrów wyraża się wzorem

b

Y

i

=

b

αx

i

+ b

β.

(12.4)

Reszty modelu e

i

def

= Y

i

− b

Y

i

. Biorąc równanie

n

X

i=1

Y

i

=

b

α

n

X

i=1

(x

i

+ n b

β,

widzimy, że

n

X

i=1

Y

i

=

n

X

i=1

b

Y

i

.

(12.5)

Stąd suma reszt model spełnia równanie

n

X

i=1

e

i

= 0.

(12.6)

Rozważając równanie estymatora b

β otrzymujemy, że wykres funkcji regresji z próby przechodzi przez punkty (x, Y ).

12.1.2

Estymacja σ

2

, D(

b

α) i D(

b

β)

Podstawą estymacji wariancji składników losowych σ

2

są reszty e

i

= Y

i

− b

Y

i

.

Obliczając

E(

n

X

i=1

e

2
i

) = E(

n

X

i=1

Y

2

i

n

X

i=1

Y

i

b

Y

i

+

n

X

i=1

b

Y

i

2

) = . . . = σ

2

(n − 2).

Tak więc nieobciążonym estymatorem parametru σ

2

jest wariancja reszt

S

2

e

=

n

P

i=1

e

2
i

n − 2

.

(12.7)

Natomiast odchylenie standardowe reszt

S

e

=

v
u
u
u
t

n

P

i=1

e

2
i

n − 2

39

background image

można wykorzystać do estymacji standardowych błędów ocen parametrów α i β, czyli D(

b

α) i D( b

β). Otrzymujemy wtedy

S

b

α

=

v
u
u
u
t

S

2

e

n

P

i=1

(x

i

− x)

2

(12.8)

S

b

β

=

v
u
u
u
u
u
t

S

2

e

n

P

i=1

x

2
i

n

n

P

i=1

(x

i

− x)

2

.

(12.9)

Dokładność estymacji parametrów α i β jest tym większa, im mniejsza jest wariancja reszt oraz i większa jest próba i

większy zakres zmienności zmiennej niezależnej X.

40

background image

Wykład 13

2003.05.27 /2h

13.1

Klasyczny model regresji liniowej c.d.

13.1.1

Dokładność dopasowania prostej metodą najmniejszych kwadratów

Odchylenie obserwowane wartości Y

i

od średniej Y może być przedstawione, jako suma dwóch składników, z których pierwszy

jest wyjaśniany regresją liniową Y względem X i reszt (e

i

) tzw. losowej części odchylenia nie wyjaśnianej regresją. Zapisujemy

to

Y

i

− Y = ( b

Y

i

− Y ) + (Y

i

− b

Y

i

).

(13.1)

Podnosząc obie strony równości do kwadratu, a następnie sumując po i otrzymujemy równanie

n

X

i=1

(Y

i

− Y )

2

=

n

X

i=1

( b

Y

i

− Y )

2

+ 2

n

X

i=1

( b

Y

i

− Y )(Y

i

− b

Y

i

) +

n

X

i=1

(Y

i

− b

Y

i

)

2

.

(13.2)

Udowodnimy, że środkowy składnik sumy równa się zero. Skorzystamy w tym celu z warunków

(

b

β = Y −

b

αx

b

Y

i

=

b

αx

i

+ b

β

Stąd

b

Y

i

− Y =

b

α(x

i

− x).

Mamy wtedy

n

X

i=1

( b

Y

i

− Y )(Y

i

− b

Y

i

) =

b

α

"

n

X

i=1

(x

i

− x)(Y

i

− Y ) −

b

α

n

X

i=1

(x

i

− x)

2

]

#

.

Wstawiając wartość estymatora

b

α otrzymujemy żądaną tezę. Stąd ostatecznie otrzymujemy równanie

n

X

i=1

(Y

i

− Y )

2

=

n

X

i=1

( b

Y

i

− Y )

2

+

n

X

i=1

(Y

i

− b

Y

i

)

2

.

(13.3)

Miarą dokładności dopasowania prostej jest współczynnik deterministyczny, który definiujemy jedna z równości

r

2 def

=

n

P

i=1

( b

Y

i

− Y )

2

n

P

i=1

(Y

i

− Y )

2

≡ 1 −

n

P

i=1

(Y

i

− b

Y

i

)

2

n

P

i=1

(Y

i

− Y )

2

(13.4)

Współczynnik ten ma następujące własności

• r

2

∈ [0, 1].

• r

2

= 1 wtedy, gdy między zmiennymi X i Y zachodzi zależność liniowa (wszystkie punkty empiryczne leżą na prostej).

• r

2

= 0, gdy

b

α = 0, czyli b

Y

i

= b

β = Y (znajomość wartości zmiennej X nie dostarcza żadnych informacji na temat

wartości zmiennej zależnej Y ).

41

background image

13.1.2

Wnioskowanie o klasycznym modelu normalnej regresji liniowej

Załóżmy, że warunkowe rozkłady zmiennej zależnej są normalne (Składniki losowe modelu 

i

mają rozkład N (0, σ)). Para-

metry

b

α i b

β mają rozkłady N (α, D(

b

α)) i N (β, D( b

β)). Konstruujemy statystyki dla nich

t = b

α−α

s

b

α

t = b

β−β

s

b

β

(13.5)

Są one rozkładami t - Studenta o n − 2 stopniach swobody. Dla współczynnika ufności 1 − γ odpowiadające im przedział

ufności wynoszą

]

b

α − t

γ,n−2

S

b

α

,

b

α + t

γ,n−2

S

b

α

[

(13.6)

] b

β − t

γ,n−2

S

b

β

, b

β + t

γ,n−2

S

b

β

[.

(13.7)

Testy do weryfikacji hipotez.

H

0

: α = α

0

H

1

: α 6= α

0

Przy założeniu prawdziwości hipotezy zerowej statystka ma postać t = b

α−α

0

s

b

α

, zaś obszar krytyczny dla poziomu istotności

γ opisany jest równaniem P ({|t| ­ t

γ,n−2

}) = γ.

Uwaga 13.1 Najczęściej stosowaną wersją testu istotności dla α jest α

0

= 0.

H

0

: β = β

0

H

1

: β 6= β

0

Przy założeniu prawdziwości hipotezy zerowej statystka ma postać t = b

β−β

0

s

b

β

, zaś obszar krytyczny dla poziomu istotności

γ opisany jest równaniem P ({|t| ­ t

γ,n−2

}) = γ.

Uwaga 13.2 Najczęściej hipotezę dotyczącą wyrazu wolnego pomijamy.

13.1.3

Analiza wariancji w modelu regresji

Podstawą analizy wariancji jest równanie

n

X

i=1

(Y

i

− Y )

2

=

n

X

i=1

( b

Y

i

− Y )

2

+

n

X

i=1

(Y

i

− b

Y

i

)

2

.

(13.8)

Otrzymujemy z niego tzw. tablicę analizy wariancji

Źródło

Suma

stopnie

Średni

Statystyka

zmienności

kwadratów

swobody

kwadrat

F

Regresja

n

P

i=1

( b

Y

i

− Y )

2

1

n

P

i=1

(

b

Y

i

−Y )

2

1

n

P

i=1

(

b

Y

i

−Y )

2

S

2

e

Reszta

n

P

i=1

(Y

i

− b

Y

i

)

2

n − 2

n

P

i=1

(Y

i

b

Y

i

)

2

n−2

Całkowita

n

P

i=1

(Y

i

− Y )

2

n − 1

Hipoteza testowana to:

H

0

: α = 0

H

1

: α 6= 0.

42

background image

Statystyka z jaką mamy doczynienia, to statystyka F - Snedecora

n

P

i=1

( b

Y

i

− Y )

2

n

P

i=1

(Y

i

b

Y

i

)

2

n−2

z liczbą stopni swobody licznika 1 i mianownika n − 2. Obszar krytyczny przy poziomie istotności γ zadaje równość

P ({F

1,n−2

­ F

γ;1,n−2

}) = γ.

Można udowodnić, że F

1,n−2

= t

2

n−2

.

43

background image

Wykład 14

2003.06.03 /2h

14.1

Macierzowe ujęcie modelu regresji liniowej

Klasyczne model regresji liniowej może być zapisany w następującej postaci macierzowej





Y

1

Y

2

..

.

Y

n





=





x

1

1

x

2

2

..

.

..

.

x

n

n





"

β

1

β

2

#

+







1



2

..

.



n





,

(14.1)

gdzie zamiast parametrów α i β użyliśmy parametrów β

1

i β

2

. W skróconym zapisie macierzowym mamy

Y = Xβ + ,

(14.2)

gdzie

Y jest wektorem obserwacji zmiennej losowej Y o wymiarach n × 1;

X jest macierzą obserwacji dla zmiennej niezależnej X o wymiarach n × 2;

β jest wektorem współczynników o wymiarach 2 × 1;

 jest wektorem składników losowych o wymiarach n × 1.

Założenia klasycznego modelu regresji liniowej mają postać

E = 0(0 ≡ Θ)

(14.3)

E(

T

) = σ

2

I,

(14.4)

gdzie zero w pierwszym równaniu jest wektorem zerowym o wymiarze n × 1, zaś I jest macierzą jednostkową stopnia n, a T

jest transponowaniem macierzy.

Uwaga 14.1 Macierz E(

T

) nazywamy macierzą kowariancji składników losowych.

Aby ustalić wartość współczynników występujących w regresji liniowej musimy założyć, że rząd macierzy X jest równy

2, co odpowiada założeniu, że w próbie są co najmniej dwie obserwacje dokonane dla różnych wartości x.

W ujęciu macierzowym wyrażenie podlegające minimalizacji metodą najmniejszy kwadratów jest postaci

S = 

T

 = (Y − Xβ)

T

(Y − Xβ).

(14.5)

Różniczkując względem wektora β otrzymujemy

∂S

∂β

= −2X

T

Y + 2X

T

Xβ.

(14.6)

Korzystając z warunku koniecznego istnienia ekstremum otrzymujemy równanie

X

T

X b

β = X

T

Y,

(14.7)

44

background image

które można zapisać w jawnej postaci macierzowej

"

P x

2
i

P x

i

P x

i

n

# "

c

β

1

c

β

2

#

=

"

P x

i

Y

i

P Y

i

#

(14.8)

Wyznaczając z równania (14.7) wektor b

β otrzymujemy

b

β = (X

T

X)

−1

X

T

Y,

(14.9)

gdzie macierz (X

T

X)

−1

jest postaci


1

P

(x

i

−x)

2

P

x

i

n

P

(x

i

−x)

2

P

x

i

n

P

(x

i

−x)

2

P

x

2
i

n

P

(x

i

−x)

2


.

(14.10)

Na podstawie wyznaczonej z próby wektora b

β wyznaczamy wektor b

Y teoretycznych wartości zmiennej losowej Y i wektor

reszt e

b

Y = X b

β

(14.11)

e = Y − b

Y

(14.12)

Ponieważ sumę kwadratów reszt można przedstawić wzorem

n

X

i=1

e

2
i

= e

T

e,

więc nieobciążony estymator wariacji jest postaci

S

2

e

=

e

T

e

n − 2

.

(14.13)

Macierz kowariancji wektora losowego b

β definiujemy

V ( b

β) = E(( b

β − β)

T

( b

β − β)) ≡

"

D

2

(c

β

1

)

cov(c

β

1

, c

β

2

)

cov(c

β

1

, c

β

2

)

D

2

(c

β

2

)

#

(14.14)

Stwierdzenie 14.1 W klasycznym modelu regresji liniowej macierz V ( b

β) jest postaci σ

2

(X

T

X)

−1

.

Na podstawie tego mamy

V ( b

β) =


σ

2

P

(x

i

−x)

2

−σ

2

P

x

i

n

P

(x

i

−x)

2

−σ

2

P

x

i

n

P

(x

i

−x)

2

−σ

2

P

x

2
i

n

P

(x

i

−x)

2


.

(14.15)

Nieobciążonym estymatorem macierzy V ( b

β) jest macierz

b

V ( b

β) = s

2
e

(X

T

X)

−1

(14.16)

14.2

Szeregi czasowe

Szeregiem czasowym nazywamy zbiór wartości badanej cechy, zaobserwowany w różnych momentach (przedziałach) czasu.

Jest on uporządkowany chronologicznie.

Uwaga 14.2 W rachunku prawdopodobieństwa odpowiednikiem szeregu czasowego jest łańcuch Markowa, będący szczególnym

przypadkiem procesu stochastycznego.

Niech t = 1, . . . , n będą momentami czasu (przedziałami), natomiast y

t

wynikami obserwacji. Wtedy szereg czasowy jest

zbiorem

{y

t

: t = 1, . . . , n} ≡ {(t, y

t

) : t = 1, . . . , n}.

Można go przedstawić jako tablicę

1

, bądź jako wykresy – punkty o współrzędnych (t, y

t

).

1

Zobacz dowolny rocznik statystyczny

45

background image

Niech teraz {Y

t

: t = 1, . . . , n} będzie ciągiem zmiennych losowych, zaś {y

t

: t = 1, . . . , n} konkretną tego ciągu. Wtedy

szereg czasowy jest ciągiem zmiennych losowych

{(t, Y

t

) : t = 1, . . . , n}

o określonym rozkładzie łącznym.

Składniki szeregu czasowego

1. tendencja rozwojowa (trend);

2. wahania okresowe (sezonowe);

3. wahania koniunkturalne;

4. wahania przypadkowe.

Ad. 1 Trendem nazywamy własność szeregu ujawniającą się poprzez systematyczne, jednokierunkowe zmiany (wzrost

lub spadek) poziomu badanego zjawiska w długim okresie czasu. W wypadku trendu na zjawisko oddziaływuje stale pewien

zbiór wyników nazywany przyczynami głównymi.

Ad. 2 Wahaniem okresowym nazywamy rytmiczne wahania o określonym cyklu, często pod wpływem czynników przy-

rodniczych.

Ad. 3 Wahania koniunkturalne to falowe wahania rozwoju gospodarki obserwowane w dłuższych od roku okresach. Ich

analiza wymaga długoletnich obserwacji.

14.3

Wyrównywanie szeregów czasowych

Szereg czasowy o znacznych wahaniach okresowych i przypadkowych poddaje się wyrównywaniu, w celu otrzymania szeregu

w którym dobrze widoczny jest trend rozwojowy.

Metody wyrównywania szeregów

1. średnie

(a) ruchome;

(b) ruchome scentrowane;

2. wyrównywanie wykładnicze;

3. dopasowanie krzywych metodą najmniejszych kwadratów;

14.3.1

Średnie ruchome i średnie ruchome scentrowane

Obliczamy średnie ruchome i zastępujemy nimi pierwotne wyrazy szeregu czasowego. Średnie ruchome obliczamy zazwyczaj

z nieparzystej ilości sąsiadujących ze sobą wyrazów szeregu, aby uzyskany wynik móc przyporządkować całkowitej wartości

t znajdującej się w środku przedziału.

Wyrażają się one wzorem

y

t

=

1

2q + 1

q

X

n=−q

y

t+n

.

(14.17)

Tak wiec mamy średnie ruchome 3 - okresowe dla q = 1, średnie ruchome 5 - okresowe dla q = 2 itd.

Uwaga 14.3 Nowy szereg czasowy złożony z obliczonych średnich ruchomych jest krótszy od pierwotnego o 2q wyrazów.

Uwaga 14.4 Im większą liczbę wyrazów bierzemy do obliczenia średnich ruchomych, tym silniej wyrównanym szereg.

Przy parzystej liczbie okresów stosujemy średnie ruchome scentrowane. Wyrażają się one wzorem

y

t

=

1

2q

"

1

2

y

t−q

+

q−1

X

n=−q+1

y

t+n

+

1

2

y

t+q

#

,

(14.18)

gdzie q =

d
2

, a d jest (parzysta) liczba podokresów w cyklu wahań.

46

background image

14.3.2

Wyrównywanie wykładnicze

Oznaczmy przez S

t

dla t = 1, . . . , n, wyrównane wartości szeregu czasowego.

Konstruujemy je w następujący sposób. Niech α ∈]0, 1[ będzie ustalona. Wtedy

S

1

= y

1

(14.19)

S

t

= αy

t

+ (1 − α)S

t−1

dla 2 ¬ t ¬ n.

(14.20)

α i 1 − α występujące w równaniu (14.20) są wagami, S

t

jest średnią ważoną. Zachodzi następujące zależność

Stwierdzenie 14.2 Średnie ważone S

t

dla t = 2, . . . , n wyrażają się wzorem

S

t

=

t−2

X

j=0

α(1 − α)

j

y

t−j

+ (1 − α)

t−1

y

1

.

(14.21)

Uwaga 14.5 Z powodu malejących wag obserwacje nowsze mają większy wpływ na wartość wyrównywaną niż obserwacje

starsze.

Przy dobieraniu stałej α kierujemy się następującymi zasadami

• Jeżeli jest duży udział wahań losowych, to do ich skutecznego wyeliminowania należy stałą przyjąć bliską zeru.

• Jeżeli udział wahań losowych jest bardzo mały, to stałą dobieramy bliską jedynce otrzymując w ten sposób szereg

dobrze odzwierciedlający trend.

Uwaga 14.6 W praktyce wystarczy brać α ∈ [0, 1; 0, 3].

47

background image

Wykład 15

2003.06.10 /2h

15.1

Wyrównywanie szeregów czasowych c.d.

15.1.1

Dopasowywanie krzywych MNK

Dopasowanie krzywych metodą najmniejszych kwadratów prowadzimy w celu uzyskania opisu trendu zjawiska za pomocą

funkcji.

Stosowane są najczęściej następujące typy funkcji

1. funkcja liniowa y = αt + β;

2. funkcja potęgowa y = αt

β

;

3. funkcja wykładnicza y = αβ

t

;

4. funkcja kwadratowa y = α + βt + γt

2

;

5. funkcja logistyczna y =

α

1+βe

−γt

.

Estymacje parametrów α i β dla funkcji liniowej prowadzimy tak, jak w analizie regresji liniowej. Stosujemy wzory

zastępując x

i

przez zmienną czasową t. Pozostałe funkcje, za wyjątkiem logistycznej, transformujemy do postaci liniowej i

następnie stosujemy metodę najmniejszych kwadratów.

15.2

Analiza wahań okresowych szeregów czasowych

Wahania okresowe można zaobserwować w szeregach czasowych złożonych z obserwacji prowadzonych w okresach krótszych

niż rok (np. szereg wieloletni i dane miesięczne).

W przypadku szeregu wieloletniego i danych miesięcznych mówimy o rocznym cyklu wahań z 12 podokresami. Występują

również wahania tygodniowe i dobowe (np. zużycie energii).

Miarą wahań okresowych są wskaźniki wahań okresowych zwane wskaźnikami sezonowości.

Sposób konstrukcji wskaźników uzależniony jest od siły trendu szeregu czasowego (silny, umiarkowany lub nie występujący

w ogóle) oraz od tego, w jaki sposób wahania okresowe rozkładają się na trend (addytywnie, czy multiplikatywnie).

15.2.1

Wskaźnik wahań okresowych dla szeregu rozdzielczego bez trendu

W tym przypadku wielkość wahań określa się porównując średnie wartości badanej zmiennej obliczone dla poszczególnych

podokresów, ze średnią wartością tej zmiennej.

Niech {y

(i)

t

: t = 1, . . . , n; i = 1, . . . , d} będzie n - elementowym szeregiem czasowy, gdzie

• t - bieżący numer obserwacji;

• i - numer podokresu cyklu;

48

background image

• N

i

- liczba numerów obserwacji, dotyczących i - tego podokresu cyklu, czyli

N

i

= {t : t = 1, . . . , n ∧ t = i + kd ∧ k = 0, 1, 2 . . .}.

• n

i

- liczebność zbioru N

i

.

Określamy średnią wartość badanej zmiennej w i - tym podokresie cyklu

y

i

=

1

n

i

X

t∈N

i

y

(i)

t

,

(15.1)

dla i = 1, . . . , d. Niech y będzie średnią z całego szeregu czasowego tzn.

y =

1

n

n

X

t=1

y

t

.

Mamy wtedy

y =

1

n

d

X

i=1

y

i

n

i

.

Definicja 15.1 Wskaźnik wahań okresowych O

i

dla szeregu czasowego bez trendu definiujemy jako wielkość

O

i

=

y

i

y

,

(15.2)

gdzie i = 1, . . . , d.

Wyrażany jest on często procentowo

Uwaga 15.1 Można mówić, że na skutek wahań okresowych wielkość zjawiska w i - tym podokresie jest o (O

i

− 1) wyższa

lub niższa od średniego poziomu zjawiska w całym okresie. Zachodzi ponadto warunek

d

X

i=1

(O

i

− 1) = 0.

(15.3)

Można również dokonywać pomiary wielkości wahań okresowych za pomocą miar absolutnych wyrażających się wzorem

S

i

= y

i

− y.

(15.4)

15.2.2

Wskaźnik wahań okresowych dla szeregu rozdzielczego z trendem

W przypadku, gdy występuje wyraźny trend, to średnia arytmetyczna nie reprezentuje dobrze poziomu badanego zjawiska.

Wielkość wahań okresowych ocenia się porównując pierwotny szereg czasowy z szeregiem wyrównanym.

Przypadek wahań multiplikatywnych.

Mamy tutaj

1. indywidualne wskaźniki sezonowości

y

t

y

t

dla tych t dla których są określone średnie ruchome.

2. surowe wskaźniki wahań okresowych O

0

i

O

0

i

=

1

n

i

− 1

X

t∈N

i

y

t

y

t

,

gdzie i = 1, . . . , d (d – liczba cykli). Jeżeli szereg obejmuje dużą liczbę cykli, to przy obliczaniu średnich można pominąć

skrajne wartości (Wskaźniki najmniejsze i największe) uznając je za nietypowe.

3. Oczyszczone wskaźniki wahań okresowych.

O

i

= O

0

i

d

d

P

i=1

O

0

i

,

(15.5)

gdzie i = 1, . . . , d. Wtedy

d

P

i=1

O

i

= d.

49

background image

Wartość wyrażenia O

i

− 1 informuje o ile wartości zjawiska obserwowanego w i - tym podokresie cyklu są, na skutek

wahań okresowych wyższe lub niższe od poziomu zjawiska określanego przez trend.

Przypadek wahań addytywnych. Stała amplituda wahań.

1. indywidualne różnice y

t

− y

t

.

2. średnich różnic dla jednoimiennych podokresów S

0

i

S

0

i

=

1

n

i

− 1

X

t∈N

i

y

t

− y

t

.

Miara ta wyraża wielkość wahań okresowych w poszczególnych podokresach w jednostkach absolutnych. Aby suma

odchyleń okresowych w obrębie cyklu miała wartość zero koryguje się je wzorem

S

i

= S

0

i

1

d

d

X

i=1

S

0

i

.

15.2.3

Eliminacja wahań okresowych i prognozowanie zjawiska dla przyszłych okresów

Przypadek wahań multiplikatywnych.

Procedura eliminacji wahań okresowych

e

y

t

=

y

t

O

i

,

(15.6)

gdzie t ∈ N

i

.

Prognoza dla t = T otrzymujemy według wzoru

y

P

t

=

c

y

T

× O

i

,

(15.7)

gdzie

c

y

T

∈ N

i

i jest wartością oszacowanej funkcji trendu dla t = T .

Przypadek wahań addytywnych.

Procedura eliminacji wahań okresowych

e

y

t

= y

t

− S

i

,

(15.8)

gdzie t ∈ N

i

.

Prognoza dla t = T otrzymujemy według wzoru

y

P

t

=

c

y

T

+ O

i

,

(15.9)

gdzie

c

y

T

∈ N

i

i jest wartością oszacowanej funkcji trendu dla t = T .

W obu przypadkach szereg czasowy o elementach

e

y

t

jest określony tylko przez trend zjawiska i odchylenia przypadkowe.

Na podstawie tego szeregu metoda najmniejszych kwadratów można wyznaczyć funkcje trendu.

50

background image

Wykład 16

Egzamin teoretyczny

16.1

Zagadnienia na egzamin teoretyczny

1. Podstawowe pojęcia statystyczne.

2. Analiza struktury badanej zbiorowości

(a) Miary średnie

(b) Miary zmienności

(c) Miary asymetrii

(d) Miary koncentracji.

3. Rozkłady

(a) Rozkład średniej i różnicy średnich.

(b) Rozkład średniej dla populacji normalnej.

(c) Rozkład różnicy średnich dla dwóch populacji normalnych.

(d) Rozkład wariancji dla populacji normalnej

(e) Rozkład ilorazu wariancji dla dwóch populacji normalnych.

(f) Rozkłady graniczne niektórych statystyk.

4. Podstawy teorii estymacji – podstawowe pojęcia i ich rodzaje

5. Estymatory.

(a) Nierówność Rao - Cramera.

(b) Metoda momentów konstrukcji estymatorów.

(c) Metoda największej wiarygodności konstrukcji estymatorów.

(d) Metoda najmniejszych kwadratów konstrukcji estymatorów.

6. Estymacja przedziałowa.

(a) Przedział ufności dla średniej m w populacji normalnej ze znanym odchyleniem standardowym.

(b) Przedział ufności dla średniej m w populacji normalnej z nieznanym odchyleniem standardowym.

(c) Przedział ufności dla średniej m w populacji nieznanym rozkładzie

(d) Przedział ufności dla wariacji σ

2

dla populacji normalnej o nieznanych wartości oczekiwanej i odchylenia standar-

dowego.

(e) Przedział ufności dla parametru p w rozkładzie Bernoulliego.

51

background image

7. Estymacja przedziałowa – problem minimalizacji próby.

8. Testowanie hipotez.

9. Parametryczne testy istotności.

(a) Test istotności dla wartości średniej populacji generalnej (ze znana wartością oczekiwaną).

(b) Test istotności dla wartości średniej populacji generalnej (ze nieznana wartością oczekiwaną).

(c) Test istotności dla wartości dwóch średnich.

(d) Test istotności dla wariancji.

(e) Test istotności dla dwóch wariancji

10. Nieparametryczne testy istotności.

(a) Klasyfikacja

(b) Test zgodności χ - kwadrat.

(c) Test zgodności λ - Kołmogorowa.

11. Rozkłady dwuwymiarowe – podstawowe pojęcia.

12. Badanie zależności dwóch cech

(a) Dwuwymiarowy rozkład empiryczny i jego parametry.

(b) Test niezależności χ

2

.

(c) Empiryczne krzywe regresji.

(d) Stosunki korelacyjne.

(e) Współczynnik korelacji (Pearsona).

(f) Wnioskowanie statystyczne dotyczące współczynnika korelacji w populacji generalnej.

(g) Współczynnik korelacji rang Spearmana.

13. Klasyczny model regresji liniowej.

(a) Sformułowanie modelu

(b) Estymacja parametrów α i β funkcji regresji.

(c) Estymacja σ

2

, D(

b

α) i D( b

β).

(d) Dokładność dopasowania prostej metodą najmniejszych kwadratów.

(e) Wnioskowanie o klasycznym modelu normalnej regresji liniowej.

(f) Analiza wariancji w modelu regresji.

(g) Macierzowe ujęcie modelu regresji liniowej.

14. Szeregi czasowe

(a) Pojęcie szeregu czasowego.

(b) Wyrównywanie szeregów czasowych.

(c) Średnie ruchome i średnie ruchome scentrowane.

(d) Wyrównywanie wykładnicze.

(e) Dopasowywanie krzywych MNK.

(f) Wskaźnik wahań okresowych dla szeregu rozdzielczego bez trendu.

(g) Wskaźnik wahań okresowych dla szeregu rozdzielczego z trendem.

(h) Eliminacja wahań okresowych i prognozowanie zjawiska dla przyszłych okresów.

52


Wyszukiwarka

Podobne podstrony:

więcej podobnych podstron