ROZDZIAŁ 8


ROZDZIAŁ 8.

WERYFIKACJA HIPOTEZ STATYSTYCZNYCH W RACHUNKU KORELACJI I REGRESJI

8.1. Wstęp

Rachunek korelacji i regresji zajmuje się, jak wiadomo, badaniem zależności między zmiennymi. W rachunku tym testy statystyczne mogą więc być stosowane do weryfikacji następującego rodzaju hipotez:

Do weryfikacji wymienionych hipotez można wykorzystać wiele testów. Należą do nich:

Wśród tych testów, jak można zauważyć, są zarówno testy parametryczne, jak i nie-parametryczne.

8.2. Testy istotności dla współczynnika korelacji liniowej i współczynnika regresji liniowej

Testy te stosujemy w przypadku, gdy zbiorowość analizowana jest ze względu na dwie zmienne, między którymi badamy zależność. W szczególności interesuje nas, czy jest to zależność liniowa.

W przypadku testu dla współczynnika korelacji sprawdzamy hipotezę, że zmienne X i Y nie są skorelowane. Miarą tej zależności jest współczynnik korelacji liniowej oznaczany dla populacji generalnej symbolem ρ , stąd hipoteza zerowa ma postać:

0x01 graphic
, (8.1)

wobec hipotezy alternatywnej, która przyjmuje jedną z trzech możliwych postaci:

0x01 graphic
lub 0x01 graphic
lub 0x01 graphic
(8.2)

W celu weryfikacji hipotezy zerowej z populacji generalnej losujemy próbę liczącą n elementów i liczymy współczynnik korelacji z próby r według wzoru:

0x01 graphic
. (8.3)

Następnie liczymy wartość sprawdzianu hipotezy zerowej zgodnie ze wzorem:

0x01 graphic
(8.4)

Statystyka ta, przy założeniu prawdziwości hipotezy zerowej, ma rozkład t-Studenta o n-2 stopniach swobody.

Z tablic rozkładu t-Studenta, dla założonego poziomu istotności i n-2 stopni swobody odczytujemy wartość krytyczną t.

W zależności od postaci hipotezy alternatywnej możemy tu mieć do czynienia z dwu-stronnym, prawostronnym lub lewostronnym obszarem krytycznym.

Gdy hipoteza alternatywna ma postać: 0x01 graphic
(dwustronny obszar krytyczny), to odczytujemy 0x01 graphic
, a H0 odrzucamy na rzecz H1 gdy: 0x01 graphic

W przypadku, gdy 0x01 graphic
(obszar krytyczny prawostronny), odczytujemy: 0x01 graphic
, to H0 odrzucamy na rzecz H1, gdy: 0x01 graphic
natomiast gdy 0x01 graphic
(lewostronny obszar krytyczny) odczytujemy wartość 0x01 graphic
, nadajemy jej znak „minus” a hipotezę zerową odrzucamy, gdy spełniona jest nierówność: 0x01 graphic

Odrzucenie hipotezy zerowej oznacza, że zależność między badanymi zmiennymi jest statystycznie istotna.

O tym, czy zależność między dwiema badanymi zmiennymi jest istotna można też wnioskować wykorzystując test istotności dla współczynnika regresji liniowej.

W teście tym stawiamy hipotezę zerową, że współczynnik regresji w populacji generalnej jest równy pewnej postulowanej wartości, czyli hipoteza brzmi:

0x01 graphic
(8.5)

wobec hipotezy alternatywnej, która, podobnie jak w poprzednim teście, może mieć trzy postaci:

0x01 graphic
lub 0x01 graphic
lub 0x01 graphic
(8.6)

Dla weryfikacji hipotezy zerowej z populacji generalnej losujemy n-elementową próbę, na podstawie której szacujemy funkcję regresji liniowej:

0x01 graphic
(8.7)

Następnie liczymy sprawdzian hipotezy zerowej według wzoru:

0x01 graphic
(8.8)

We wzorze tym Su oznacza odchylenie standardowe składnika resztowego funkcji regresji liczone według wzoru:

0x01 graphic
, (8.9)

gdzie:

yi - empiryczne wartości zmiennej objaśnianej dla i = 1, 2, …, n,

0x01 graphic
- teoretyczne wartości zmiennej objaśnianej dla i = 1, 2, …, n.

Statystyka t, przy założeniu prawdziwości hipotezy zerowej, ma rozkład t-Studenta o n-2 stopniach swobody.

Wartość tej statystyki porównujemy z wartością t według takich samych zasad jak poprzednio (w teście istotności dla współczynnika korelacji).

8.3. Test na liniowość funkcji regresji dwóch zmiennych

Populację generalną badamy z uwagi na dwie zmienne: X i Y. Z populacji tej losujemy próbę, która liczy n elementów. Na podstawie wyników tej próby mamy zweryfikować hipotezę, że funkcja regresji Y względem X w populacji generalnej jest liniowa.

Stawiamy hipotezę zerową:

0x01 graphic
, (8.10)

oraz hipotezę alternatywną:

0x01 graphic
(8.11)

Na podstawie wyników z próby szacujemy funkcję regresji liniowej postaci:

0x01 graphic
. (8.12)

Parametry tej funkcji liczymy według wzorów:

0x01 graphic
0x01 graphic
(8.13)

Następnie obliczamy wartości funkcji regresji 0x01 graphic
dla wszystkich ustalonych dla próby wartości zmiennej objaśniającej xi (i = 1, 2, … , n).

W tablicy roboczej porządkujemy rosnąco, według wartości zmiennej objaśniającej, dane
z trzech kolumn, które zawierają: xi, yi oraz 0x01 graphic
.

Porównujemy wartości yi oraz 0x01 graphic
.

Jeżeli 0x01 graphic
to takiej relacji przypisujemy symbol a. Jeśli zaś 0x01 graphic
to symbol b.

Otrzymujemy ciąg symboli a oraz b. Ustalamy liczbę serii w tym ciągu i oznaczamy ją przez k. Jest ona sprawdzianem hipotezy zerowej.

Porównujemy ją z wartością krytyczną liczby serii k odczytaną z tablic rozkładu liczby serii dla założonego poziomu istotności oraz na (liczba symboli a w ciągu) i nb (liczba symboli b w ciągu).

Gdy zajdzie relacja: 0x01 graphic
to stwierdzamy, że nie ma podstaw do odrzucenia hipotezy zerowej, że funkcja regresji Y względem X w populacji generalnej jest liniowa.

Przykład 8.1

W celu zbadania zależności między wydajnością pracy i stażem pracy pracowników pewnego zakładu przemysłowego wylosowano próbę 10 pracowników i otrzymano dla nich następujące dane:

Staż pracy - xi

1

2

3

8

5

6

7

8

9

10

Wydajność pracy - yi (sztuki/godz.)

10

15

13

22

23

20

18

25

27

22

Źródło: dane umowne.

Przyjmując = 0,05 zweryfikuj następujące hipotezy:

  1. czy między wydajnością pracy a stażem pracy występuje statystycznie istotna zależność liniowa?

  2. Czy wzrost stażu o 1 rok pociąga za sobą przeciętny wzrost wydajności pracy o więcej niż 1,3 szt./godz?

  3. Czy funkcja regresji wydajności pracy względem stażu pracy jest liniowa?

Rozwiązanie:

Ad. a) Należy zastosować test istotności dla współczynnika korelacji liniowej.

Stawiamy hipotezę zerową i alternatywną:

0x01 graphic
(8.14)

Sprawdzian hipotezy zerowej ma postać:

0x01 graphic
(8.15)

Stąd musimy najpierw wyliczyć współczynnik korelacji z próby.

Potrzebne obliczenia wykonujemy w tabeli roboczej 8.1.1.

Tabela robocza 8.1.1.

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

1

2

3

8

5

6

7

8

9

10

10

15

13

22

23

20

18

25

27

22

10

30

39

176

115

120

126

200

243

220

1

4

9

64

25

36

49

64

81

100

100

225

169

484

529

400

324

625

729

484

59

195

1279

433

4069

Źródło: obliczenia własne.

Liczymy średnie i odchylenia standardowe obu zmiennych:

0x01 graphic
; 0x01 graphic
;

0x01 graphic

0x01 graphic
.

Następnie liczymy współczynnik korelacji liniowej z próby:

0x01 graphic
.

Teraz możemy wyliczyć wartość sprawdzianu hipotezy zerowej:

0x01 graphic

W tablicach rozkładu t-Studenta dla = 0,05 oraz n-2 stopni swobody odczytujemy wartość krytyczną t: 0x01 graphic
.

Odpowiedź:

Ponieważ 0x01 graphic
wobec tego hipotezę zerową odrzucamy na korzyść hipotezy alternatywnej. Oznacza to, że liniowa zależność między stażem pracy a wydajnością pracy jest statystycznie istotna.

Ilustracja graficzna:

0x01 graphic

Ad. b) Zastosujemy test istotności dla współczynnika regresji liniowej.

Stawiamy hipotezę zerową i alternatywną:

0x01 graphic
(8.16)

Na podstawie wyników próby szacujemy funkcję regresji liniowej: 0x01 graphic

Wykorzystując obliczenia wykonane w tabeli roboczej 1 wyznaczamy wartości para-metrów tej funkcji:

0x01 graphic
,

0x01 graphic
.

Funkcja ma więc postać: 0x01 graphic
.

Liczymy wartości teoretyczne0x01 graphic
, a następnie odchylenie standardowe składnika resztowego funkcji regresji Su. Konieczne obliczenia zamieszczone są w tabeli roboczej 8.1.2.

Tabela robocza 8.1.2.

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

Symbole

1

2

3

4

5

6

1

2

3

8

5

6

7

8

9

10

10

15

13

22

23

20

18

25

27

22

12,11

13,62

15,13

22,68

18,15

19,66

21,17

22,68

24,19

25,70

4,4521

1,9044

4,5369

0,4634

23,5225

0,1156

10,0489

5,3824

7,8961

13,6900

24,01

15,21

8,41

4,41

0,81

0,01

1,21

4,41

9,61

16,81

a

b

a

a

b

b

a

b

b

a

59

195

X

72,0113

84,90

X

Źródło: obliczenia własne.

0x01 graphic

Liczymy wartość sprawdzianu hipotezy zerowej:

0x01 graphic

Z tablic rozkładu t-Studenta odczytujemy wartość krytyczną t dla n -2 stopni swobody oraz założonego poziomu istotności. Obszar krytyczny jest prawostronny, stąd odczy-tujemy: 0x01 graphic
.

Odpowiedź:

Ponieważ 0x01 graphic
, więc nie ma podstaw do odrzucenia H0.

Oznacza to, że nie jest prawdą, że wzrost stażu o rok wiąże się ze wzrostem wydajności o więcej niż 1,3 szt./godz.

Ilustracja graficzna:

0x01 graphic

Ad. c) Stosujemy test serii.

Stawiamy hipotezę zerową i alternatywną:

0x01 graphic
(8.17)

Obserwacje z próby są z założenia uporządkowane rosnąco według wartości cechy X.

W tabeli roboczej 8.1.2 zostały też wyliczone wartości 0x01 graphic
, stąd możemy przystąpić do nadawania symboli a i b. Jest to wykonane w kolumnie 6 tabeli roboczej 8.1.2.

Liczba serii w ciągu wynosi 7. Jest to sprawdzian hipotezy zerowej.

Z tablic rozkładu liczby serii odczytujemy wartość krytyczną k dla założonego poziomu istotności = 0,05 oraz dla na = 5 oraz nb = 5 wynosi ona 0x01 graphic

Odpowiedź:

Ponieważ 0x01 graphic
, nie ma więc podstaw do odrzucenia H0.

Można w związku z tym przyjąć, że funkcja regresji wydajności pracy względem stażu pracy jest liniowa.

8.4. Test niezależności

Test ten stosujemy do weryfikacji hipotezy, że dwie zmienne w populacji generalnej są niezależne. Ma on zastosowanie, gdy przynajmniej jedna z tych zmiennych jest niemierzalna.

Zmienne są niezależne, gdy dla dystrybuant zachodzi równość 0x01 graphic
. Stąd hipotezy w tym teście można zapisać:

0x01 graphic
0x01 graphic
, (8.18)

H1: 0x01 graphic
. (8.19)

Sprawdzianem hipotezy zerowej jest statystyka:

0x01 graphic
, (8.20)

gdzie:

0x01 graphic
- liczebności empiryczne znajdujące się na przecięciu i-tego wiersza i j-tej kolumny w tablicy kontyngencji,

0x01 graphic
- liczebności teoretyczne znajdujące się na przecięciu i-tego wiersza i j-tej kolumny w tablicy kontyngencji.

Liczebności teoretyczne liczone są według wzoru:

0x01 graphic
dla i = 1, 2, ,,,, w ; j = 1, 2, …, k. (8.21)

gdzie:

0x01 graphic
- liczebność brzegowa obliczona dla i-tego wiersza po wszystkich kolumnach tablicy kontyngencji,

0x01 graphic
- liczebność brzegowa obliczona dla j-tej kolumny po wszystkich wierszach tablicy kontyngencji.

Statystyka ma, przy założeniu prawdziwości hipotezy zerowej, rozkład o (k-1)(w-1) stopniach swobody. Jej wartość porównujemy więc z wartością krytyczną 0x01 graphic
odczytaną z tablic tego rozkładu dla założonego poziomu istotności i (k-1)(w-1) stopni swobody. Jeśli 0x01 graphic
, to H0 odrzucamy na korzyść H1, czyli między badanymi zmiennymi występuje zależność.

Żeby omawiany test zastosować trzeba zbudować tablicę kontyngencji, która ma następującą postać:

Warianty

Warianty cechy Y

ni.

cechy X

y1

y2

...

yk

x1

n11

n12

...

n1k

n1.

x2

n21

n22

...

n2k

n2.

...

...

...

...

...

...

xw

nw1

nw2

...

nwk

nw.

n.j

n.1

n.2

...

n.k

n

Przykład 8.2

Postawiono hipotezę, że istnieje zależność między wielkością firmy (małe i mikro) a jej wynikiem finansowym. W celu sprawdzenia tej hipotezy wylosowano 100 firm, wśród których było 70 mikro-firm. Spośród wylosowanych, zysk w badanym okresie osiągnęło 60 firm, zaś stratę poniosło 20 firm małych.

Czy hipoteza jest prawdziwa? Przyjmij = 0,05.

Rozwiązanie:

Stosujemy test niezależności 2.

Stawiamy hipotezę zerową i alternatywną:

0x01 graphic
(8.22)

Budujemy tablicę kontyngencji:

Wynik finansowy

( xi )

Typ firmy ( yi )

ni.

mikro

mała

Zysk

50

10

60

Strata

20

20

40

n.j

70

30

100

Źródło: dane z przykładu 8.2.

Obliczamy liczebności teoretyczne 0x01 graphic
:

0x01 graphic
, 0x01 graphic
,

0x01 graphic
, 0x01 graphic
.

Zestawiamy w tabeli roboczej 8.2. liczebności empiryczne i teoretyczne, a następnie liczymy statystykę 2.

Tabela robocza 8.2.

i, j

0x01 graphic

0x01 graphic

0x01 graphic

1,1

1,2

2,1

2,2

50

10

20

20

42

18

28

12

1,52

3,56

2,29

5,33

Ogółem

100

100

12,70

Źródło: obliczenia własne.

Mamy, że 0x01 graphic

Z tablic rozkładu 2 odczytujemy wartość krytyczną dla = 0,05 oraz 0x01 graphic
=1 stopni swobody. Wynosi ona: 0x01 graphic

Odpowiedź:

Ponieważ 0x01 graphic
wobec tego H0 odrzucamy na rzecz H1.

Oznacza to, że pomiędzy badanymi zmiennymi występuje istotna zależność.

Ilustracja graficzna:

0x01 graphic

    1. Weryfikacja hipotez w rachunku korelacji i regresji wielorakiej

W przypadku, gdy badamy zależność między zmienną Y a ciągiem zmiennych objaśniających Xj (j = 1, 2, … , k), to otrzymujemy wówczas model regresji wielokrotnej postaci:

0x01 graphic
. (8.23)

Zależność badamy najczęściej opierając się na wynikach uzyskanych dla próby losowej pobranej z populacji generalnej.

W takim przypadku najczęściej weryfikujemy hipotezy dotyczące:

  1. istotności wpływu poszczególnych zmiennych objaśniających na zmienną objaśnianą,

  2. istotności współczynnika korelacji wielorakiej R*, określającego łączny wpływ wszystkich zmiennych objaśniających na zmienną objaśnianą.

Dla weryfikacji hipotezy o istotności współczynników regresji cząstkowej j wykorzystujemy test t-Studenta.

Stawiamy hipotezę zerową: 0x01 graphic
wobec 0x01 graphic
.

Następnie stosując KMNK szacujemy, na podstawie wyników próby, parametry modelu regresji wielokrotnej otrzymując oceny parametrów tego modelu aj.

Sprawdzian hipotezy zerowej w tym teście liczymy według wzoru:

0x01 graphic
, (8.24)

gdzie:

D (aj) - średni błąd szacunku parametru o numerze j (j = 1, 2, … , k).

Sprawdzian ten, przy założeniu prawdziwości hipotezy zerowej ma rozkład t-Studenta o n-k stopniach swobody. Stąd jego wartość porównujemy z wartością krytyczną t odczytaną z tablic rozkładu t-Studenta dla założonego oraz n - k stopni swobody, gdzie k jest liczbą parametrów modelu łącznie z wyrazem wolnym.

Jeśli okaże się, że 0x01 graphic
, to hipotezę zerową odrzucamy na korzyść H1. Oznacza to, że zmienna Xj istotnie wpływa na zmiany zmiennej objaśnianej.

Dla weryfikacji z kolei hipotezy zerowej o istotności współczynnika korelacji wielokrotnej R* wykorzystujemy test F.

Stawiamy H0: R* = 0 wobec H1: R* > 0.

Na podstawie próby liczącej n elementów obliczamy współczynnik korelacji wielokrotnej R, a następnie liczymy sprawdzian hipotezy zerowej, który ma postać:

0x01 graphic
. (8.25)

Sprawdzian ten, przy założeniu prawdziwości hipotezy zerowej, ma rozkład F Fishera-Snedecora o (n-k) oraz (k-1) stopniach swobody. Odczytujemy więc wartość krytyczną F z tablic tego rozkładu dla założonego poziomu istotności i wspomnianej liczby stopni swobody.

Jeśli F > F , to H0 odrzucamy ma korzyść H1. Oznacza to, że zależność między zmienną Y a zmiennymi X1, X2,…, Xk jest statystycznie istotna.

Przykład 8.3

Z populacji generalnej pobrano próbę liczącą 25 elementów i na jej podstawie oszacowano model regresji wielokrotnej.

0x01 graphic
.

Przyjmując = 0,05 sprawdź istotność parametru 1 tego modelu oraz istotność współczynnika korelacji R*, który wyniósł dla próby 0,85.

Rozwiązanie:

Dla sprawdzenia hipotezy o istotności parametry 1 zastosujemy test t-Studenta. Stawiamy hipotezę zerową i hipotezę alternatywną:

0x01 graphic
0x01 graphic
. (8.26)

Liczymy wartość sprawdzianu hipotezy zerowej:

0x01 graphic
.

Z tablic rozkładu t-Studenta odczytujemy dla = 0,05 oraz n - k = 25 - 3 = 22 stopni swobody wartość krytyczną t = 2,074.

Odpowiedź:

Ponieważ zachodzi: 0x01 graphic
, więc H0 odrzucamy ma korzyść H1.

Oznacza to, że zmienna X1 w sposób istotny wpływa na zmienną objaśnianą Y.

Ilustracja graficzna:

0x01 graphic

Dla weryfikacji z kolei hipotezy o istotności współczynnika korelacji wielokrotnej stosujemy test F - Fishera. Stawiamy H0 i H1:

H0: R* = 0 H1: R* > 0. (8.27)

Liczymy sprawdzian hipotezy zerowej:

0x01 graphic

Z tablic rozkładu F - Fishera odczytujemy następnie dla założonego poziomu istotności oraz 22 i 2 stopni swobody wartość krytyczną F = 3,44.

Odpowiedź:

Ponieważ 0x01 graphic
, więc hipotezę zerową odrzucamy na korzyść hipotezy alternatywnej. Oznacza to, że łączny wpływ wszystkich zmiennych objaśniających na zmienną objaśnianą jest statystycznie istotny.

Ilustracja graficzna:

0x01 graphic

    1. Zadania

Zadanie 8.1

W roku akademickim 2007/2008 na II roku studiów dziennych jednego z wydziałów pewnej uczelni w Poznaniu było 500 studentów, w tym 180 mężczyzn. Letnią sesję egzaminacyjną bez poprawek zaliczyło 350 studentów, w tym 100 mężczyzn.

Czy istnieje zależność między wynikami sesji a płcią studentów ? (Przyjmij α = 0,05).

Zadanie 8.2

Zamieszczona tabela wielodzielcza przedstawia zaobserwowane liczebności warunkowe dotyczące zawodów ojca i syna w 250 rodzinach pracowniczych.

Zawód ojca

Zawód syna

nauczyciel

ekonomista

inżynier

Nauczyciel

30

10

40

Ekonomista

20

40

20

Inżynier

10

30

50

Źródło: dane umowne.

Czy można na tej podstawie stwierdzić, że wybór zawodu przez syna zależy od zawodu ojca (α = 0,01)?

Zadanie 8.3

W roku 2008 przedsiębiorstwo żeglugowe A posiadało 80 statków zatrudnionych w żegludze regularnej i 10 statków zatrudnionych w trampingu, natomiast przedsiębiorstwo B odpowiednio 40 statków zatrudnionych w żegludze regularnej i 20 w trampingu.

Sprawdź czy występuje współzależność między typem przedsiębiorstwa a charakterem zatrudnienia floty? (Przyjmij α = 0,10).

Zadanie 8.4

Zbadano 200 gospodarstw domowych w powiecie „Z” w celu określenia, czy występuje współzależność między liczbą osób w gospodarstwie domowym a przynależnością do grupy społeczno-ekonomicznej.

Wyniki badania zestawiono w poniższej tabeli wielodzielczej.

Grupa społeczno-

Liczba osób w gospodarstwie

-ekonomiczna

1

2

3 i więcej

Pracowników

2

50

20

Rolników

2

8

30

Pracujących na własny rachunek

10

4

12

Emerytów i rencistów

40

20

2

Źródło: dane umowne.

Zweryfikuj hipotezę, że związek między wyróżnionymi zmiennymi jest statystycznie istotny (α = 0,05).

Zadanie 8.5

W pewnym przedsiębiorstwie przeprowadzono badanie zależności między wydajnością pracy robotników [szt./godz.] a ich stażem pracy [lata].

Na podstawie wyników otrzymanych dla 100-osobowej próby robotników ustalono, że: