korelacja Wykład 4, Nauka, Statystyka Opisowa


Wykład 4

Analiza współzależności

s. 68 -88

Analiza współzależności pozwala określić czy między wybranymi cechami (zmiennymi lub zjawiskami) istnieje zależność tzn. czy jedna cecha wpływa na drugą.

Wyróżnia się następujące metody badania współzależności:

  1. Metoda graficzna

  1. Metoda tabelaryczna

  2. Metody formalne:

Ad. I). Metoda graficzna

- polega na wzrokowej ocenie diagramu korelacyjnego

Diagram korelacyjny to wykres punktowy umieszczony w układzie współrzędnych .

Diagram można sporządzić dla danych zapisanych w postaci szeregów statystycznych. Na wykresie zaznacza się punkty o współrzędnych (xi ; yi), gdzie:

Y (tys. szt.) - wielkość sprzedaży pewnego produktu

X - w tys. zł - wydatki na reklamę tego produktu

Lp. (i)

1

2

3

4

5

6

7

8

9

10

xi

35

50

10

45

55

25

30

40

20

50

yi

100

150

50

130

175

90

100

110

70

155

Ad II.) Metoda tabelaryczna

- najczęściej polega na analizie rozkładów w tablicy korelacyjnej

W tablicy korelacyjnej wyróżnia się następujące typy rozkładów:

  1. Rozkład łączny - symbol nij lub fij

  1. Rozkłady brzegowe - symbol nj oraz ni

  1. Rozkłady warunkowe - symbol xyj oraz yxi

Przykład: Pracowników pewnej firmy w Jeleniej Górze zbadano ze względu na średnie miesięczne wynagrodzenie otrzymywane w 2002 r. (cecha Y - wynagrodzenie podane zostało w $) oraz poziom wykształcenia (cecha X). Uzyskano następujące wyniki (źródło: dane umowne):

Lp.

1

2

3

4

5

6

7

8

9

10

11

xi

W

Ś

W

Ś

W

Z

W

Z

W

Z

W

yi

570,28

300

550,9

490,32

400

200

620,59

250,83

643,75

285,21

500

lp.

12

13

14

15

16

17

18

19

20

21

22

xi

Ś

W

Ś

Z

W

Ś

W

W

Ś

W

Z

yi

350,76

530,48

470,99

300

699,95

450,7

680,88

599,99

420,4

580,39

237

lp.

23

24

25

26

27

28

29

30

31

32

xi

Ś

W

W

W

Z

Ś

Z

W

Ś

W

yi

400,15

600

450,64

670,94

258,61

390

226

590,33

325,43

480,62

gdzie: Z - wykształcenie zawodowe, Ś - wykształcenie średnie, W - wykształcenie wyższe.

Ocenić zależność między cechami na podstawie analizy rozkładów w tablicy korelacyjnej.

Ad. III) Metody formalne - Miary współzależności

Podział miar współzależności:

  1. Miary nieparametryczne

  1. Miary parametryczne

Podział miar współzależności:

Miary nieparametryczne

Miary parametryczne

współczynnik korelacji liniowej Spearmana - rs

Idealna miara współzależności powinna posiadać następujące własności:

Metoda nieparametryczna polega na badaniu podobieństwa rozkładów warunkowych w tablicy korelacyjnej.

Jeżeli rozkłady warunkowe cechy zależnej tzw. zmiennej objaśnianej są identyczne (lub proporcje między nimi są takie same) oznacza to, że między cechami nie ma związku stochastycznego.

Studenci III roku WWSZiP ze względu na płeć i poziom inteligencji

0x08 graphic
poziom

inteligencji

płeć

wysoki

bardzo wysoki

Razem (ni)

kobieta

50

70

120

mężczyzna

50

70

120

Razem (nj)

100

140

240

Źródło: dane umowne

Studenci III roku WWSZiP ze względu na płeć i poziom inteligencji

0x08 graphic
poziom

inteligencji

płeć

wysoki

bardzo wysoki

Razem (ni)

kobieta

60

100

160

mężczyzna

30

50

80

Razem (nj)

90

150

240

Źródło: dane umowne

Współczynnik zależności Hellwiga - dH

oblicza się dla tablicy korelacyjnej

Własności miary Hellwiga:

zalety:

dH = 0 - niezależność stochastyczna,

dH (0; 0,34) - zależność słaba,

dH <0,34; 0,67) - zależność średnia,

dH <0,67; 1) - zależność silna,

dH = 1 - zależność ścisła (funkcyjna),

wady:

Współczynnik zależności Hellwiga

- oblicza się dla danych w tablicy korelacyjnej

wzór:

0x01 graphic

fij - częstość w rozkładzie łącznym,

fi , fj - częstości brzegowe,

min(k,l) - minimum z liczby wariantów

cechy X i Y

Kolejność obliczeń:

  1. w tablicy zamienić liczebności na częstości - (fij, fi, fj)

  2. obliczyć iloczyn częstości brzegowych dla każdego pola w rozkładzie łącznym tablicy - (fi fj),

  3. od częstości w rozkładzie łącznym odjąć iloczyn częstości brzegowych - dla każdego pola w rozkładzie łącznym tablicy - (fij - fi fj),

  1. zaznaczyć pola z różnicami dodatnimi (fij-fifj 0),

  2. zsumować z zaznaczonych pół częstości w rozkładzie łącznym

( fij),

  1. zsumować z zaznaczonych pół iloczyny częstości brzegowych

( fifj ),

  1. podstawić sumy do wzoru.

Przykład obliczania współczynnika Hellwiga:

Na podstawie tablicy korelacyjnej zbadać zależność wydajności pracy pracowników pewnego działu produkcyjnego (cecha Y - w szt./ godz.) od typu zmiany (cecha X).

Rozwiązanie:

Dla ułatwienia obliczeń pierwsze cztery działania można wykonać w tablicy (wyniki zostały podane z dokładnością do trzeciego miejsca po przecinku):

0x08 graphic
Wydajność

Typ zmiany

190 - 250

250 - 310

310 - 370

ni

(fi)

I zmiana

6

(6/50)= 0,12

(0,60,18)= 0,108

(0,12 - 0,108)= + 0,012

9

(9/50)= 0,18

(0,60,28)= 0,168

(0,18 - 0,168)= + 0,012

15

(15/50)= 0,3

(0,60,54)= 0,324

(0,12 - 0,108)= - 0,024

30

0,6

II zmiana

3

(3/50)= 0,06

(0,40,18)= 0,072

(0,06 - 0,072)= - 0,012

5

(5/50)= 0,1

(0,40,28)= 0,112

(0,1 - 0,112)= - 0,012

12

(12/50)= 0,24

(0,40,54)= 0,216

(0,24 - 0,216)= + 0,024

20

0,4

nj

(fj)

9

0,18

14

0,28

27

0,54

N = 50

F=1

działanie 5: ქ( + ) fij = 0,12 + 0,18 + 0,24 = 0,54

działanie 6: ქ( + ) fifj = 0,108 + 0,168 + 0,216 = 0,492

0x08 graphic
działanie 7: ponieważ cecha X ma 2 warianty (k = 2), a cecha Y - 3 warianty (l = 3), to w mianowniku za wyrażenie min(k,l) należy podstawić mniejszą liczbę wariantów tj. 2

Zależność wydajności pracy od typu zmiany jest słaba (dH჎<0; 0,34)

Metoda parametrycznego badania współzależności

Jeżeli parametry rozkładów warunkowych cechy zależnej są identyczne, to nie ma zależności w sensie korelacyjnym.

Jeżeli natomiast parametry poszczególnych rozkładów różnią się - istnieje zależność korelacyjna.

Przykład 1.6. W celu ustalenia czy liczba posiadanego rodzeństwa wpływa w dorosłym życiu na preferencje kobiet co do ilości dzieci, zapytano 100 losowo wybranych kobiet o ilość dzieci, które chciałyby wychować (cecha Y) oraz o liczbę rodzeństwa (cecha X). Na podstawie danych przedstawionych w poniższej tablicy zbadać czy istnieje zależność korelacyjna między liczbą rodzeństwa kobiet a preferowaną przez kobiety liczbą dzieci.

0x08 graphic
0x08 graphic
0x08 graphic

1

2

3

ni

0-1

19

18

3

40

2-3

22

12

6

40

4 i więcej

10

8

2

20

nj

51

38

11

100

Rozwiązanie: Aby zbadać czy istnieje zależność korelacyjna należy obliczyć np. średnie arytmetyczne z rozkładów warunkowych (tzw. średnie warunkowe) cechy zależnej. W tym przypadku cechą zależną (czyli skutkiem w badanej zależności) jest preferowana przez kobietę liczba dzieci - Y (ponieważ może ona zależeć od liczby rodzeństwa tej kobiety). W tablicy występują 3 rozkłady warunkowe cechy Y (ponieważ można nałożyć 3 warunki na cechę X). Należy więc obliczyć 3 średnie warunkowe cechy Y:

0x08 graphic

Takie same wartości średnich warunkowych wskazują, że niezależnie od ilości rodzeństwa średnia preferowana liczba dzieci nie zmienia się, co oznacza niezależność korelacyjną między cechami. Przykład 1.6. pozwala zauważyć wzajemne powiązania metody stochastycznego i korelacyjnego badania współzależności. Metoda stochastyczna jest bardziej rygorystyczna ponieważ, aby istniała niezależność stochastyczna, liczebności w rozkładach warunkowych muszą być identyczne. W metodzie korelacyjnej rozkłady nie muszą być identyczne, aby istniała niezależność korelacyjna - wystarczy jeśli obliczone z nich parametry (np. średnie warunkowe) były takie same.

Dlatego też niezależność w sensie stochastycznym zawsze oznacza również niezależność w sensie korelacyjnym (parametry np. średnie warunkowe obliczone z identycznych rozkładów warunkowych będą zawsze jednakowe). Natomiast niezależność korelacyjna nie zawsze oznacza niezależność stochastyczną (może oznaczać - jeśli rozkłady warunkowe są takie same, ale nie musi - jeśli rozkłady różnią się, a parametry są identyczne - patrz przykład 1.6.)

Współczynnik korelacji liniowej Pearsona

Własności rp:

zalety:

rP = 0 niezależność korelacyjna, rP (0; 0,34) zależność słaba

rP <0,34; 0,67) średnia,

rP <0,67; 1) silna,

rP = 1 lub rP= -1 zależność funkcyjna

rP < 0 kierunek zależności ujemny

rP > 0 kierunek zależności dodatni,

wady:

Współczynnik korelacji liniowej Pearsona

- rp - wzór teoretyczny:

0x01 graphic
0x01 graphic

gdzie:

cov (X,Y) - kowariancja

S(X) - odchylenie standardowe cechy X

S(Y) - odchylenie standardowe cechy Y

Licznik wzoru Pearsona, czyli kowariancja decyduje o kierunku zależności

Wzór dla tablicy korelacyjnej:

0x01 graphic

gdzie:

xi - wartości cechy X,

yj - wartości cechy Y,

nij - liczebności w rozkładzie łącznym

nj - liczebność cechy Y,

ni - liczebność cechy X

0x08 graphic
x - - średnia arytmetyczna cechy X

0x08 graphic
y - średnia arytmetyczna cechy Y

0x01 graphic
0x01 graphic

Przykład

Pracowników pewnego przedsiębiorstwa zbadano ze względu na liczbę uzyskanych upomnień w 2001 r. (cecha X) oraz staż pracy (cecha Y - w latach). Wyniki przedstawiono w tablicy korelacyjnej. Należy zbadać siłę i kierunek zależności między cechami.

0x08 graphic
X Y

1-3

3-5

5-7

7-9

1

-

-

-

9

3

-

2

9

1

5

1

8

2

-

7

8

-

-

-

Rozwiązanie:

W tym przypadku zastosowanie miary Pearsona jest możliwe ponieważ obie cechy są mierzalne, a kierunek zależności można uznać za prostoliniowy (liczebności skupiają się na głównej przekątnej; pola tworzące główną przekątną tablicy zostały zacieniowane).

Należy zwrócić uwagę, że warianty cechy Y zostały przedstawione w postaci przedziałów. We wszystkich wzorach zamiast wartości cechy Y -“yi” należy wprowadzić środek przedziału - “”.

Kolejność obliczeń:

0x08 graphic
y = 5,1 (lat) [(29+410+611+810)/40=(18+40+66+80)/40 = 204/40]

0x08 graphic
x = 3,9 (upomnień) [(19+ 312+511+78)/ 40 = (9+36+55+56)/40 = 156/40]

Większość obliczeń można wykonać w tablicy:

ქ (xi - x) (yi - y) nij = -75,69+1,98-7,29-2,61-3,41-9,68+1,98-76,88 = -171,6

0x08 graphic
Yj Xi

1-3

3-5

5-7

7-9

ni

0x01 graphic

0x01 graphic

0x01 graphic

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
1

-

(-2,9თ -3,1თ 0)=

-

-

9

(-2,9თ 2,9თ 9)=

9

- 2,9

8,41

75,69

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
3

-

2

(-0,9თ-1,1თ2)=

9

(-0,9თ0,9თ9)=

1

(-0,9თ 2,9თ1)=

12

-0,9

0,81

9,72

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
5

1

(1,1თ -3,1თ1)=

8

(1,1თ -1,1თ8)=

2

(1,1თ 0,9თ 2)=

-

11

1,1

1,21

13,31

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
7

8

(3,1თ -3,1თ 8)=

-

-

-

8

3,1

9,61

76,88

nj

9

10

11

10

40

=175,6

0x01 graphic

2

4

6

8

0x01 graphic

-3,1

(2-5,1)

-1,1

(4-5,1)

0,9

(6-5,1)

2,9

(8-5,1)

0x01 graphic

9,61

(-3,1)2

1,21

(-1,1)2

0,81

(0,9)2

8,41

(2,9)2

0x01 graphic

86,49

(9,619)

12,1

(1,2110)

8,91

(0,8111)

84,1

(8,4110)

= 191,6

(86,49+12,1+8,91+84,1)

cov(X,Y) = -171,6/ 40 = -4,29 (upomnień lat)

S2(X) = 175,6 / 40 = 4,39 (upomnień)2 S(X) = 2,1 (upomnień)

S2(Y) = 191,6 / 40 = 4,79 (lat)2 S(Y) = 2,19 (lat)

rP = -4,29/2,1 2,19 = -4,29/ 4,6 = -0,93 zależność liczby upomnień od stażu pracy jest silna, o kierunku ujemnym tzn. że w miarę wzrostu stażu pracy silnie maleje liczba upomnień.

Wzór dla szeregów statystycznych:

0x01 graphic
0x01 graphic

gdzie:

0x01 graphic
0x01 graphic
0x01 graphic

Kolejność obliczeń:

  1. obliczyć średnie arytmetyczne cechy X i Y

  2. obliczyć różnice: 0x01 graphic
    oraz 0x01 graphic

  3. obliczyć iloczyny 0x01 graphic
    i zsumować

  4. podnieść do kwadratu różnice: 0x01 graphic
    i zsumować

  5. podnieść do kwadratu różnice: 0x01 graphic
    i zsumować,

  6. odpowiednie sumy podstawić do wzoru.

Przykład

Pracowników produkcyjnych pewnego działu zbadano ze względu na staż pracy (Y - w latach) oraz średnią wydajność (X - w szt/h). Na podstawie zebranych danych zbadać zależność między cechami:

Lp.

1

2

3

4

5

6

7

8

9

10

X

2

8

9

6

5

7

5

3

6

7

Y

10

17

18

14

14

15

13

12

15

16

Rozwiązanie:

Informacje przedstawione są w szeregach statystycznych (ponieważ liczebność badanej zbiorowości jest mała: N = 10), obie cechy są mierzalne, a z wykresu korelacyjnego wynika, że zależność jest prostoliniowa - to oznacza, że spełnione są wszystkie warunki wykorzystania wzoru Pearsona dla szeregów statystycznych.

Większość obliczeń można wykonać w tabeli. Dla wygody informacje można przedstawić pionowo (w kolejnych kolumnach):

Lp.

xi

yi

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

1

2

10

-3,8 (2-5,8)

-4,4 (10-14,4)

16,72 (-3,8Ⴔ-4,4)

14,44 (-3,8)2

19,36 (-4,4)2

2

8

17

2,2

2,6

5,72

4,84

6,76

3

9

18

3,2

3,6

11,52

10,24

12,96

4

6

14

0,2

-0,4

-0,08

0,04

0,16

5

5

14

-0,8

-0,4

0,32

0,64

0,16

6

7

15

1,2

0,6

0,72

1,44

0,36

7

5

13

-0,8

-1,4

1,12

0,64

1,96

8

3

12

-2,8

-2,4

6,72

7,84

5,76

9

6

15

0,2

0,6

0,12

0,04

0,36

10

7

16

1,2

1,6

1,92

1,44

2,56

Razem

ქ = 58

ქ= 144

ქ = 44,8

ქ = 41,6

ქ = 50,4

średni staż pracy wynosi: 5,8 (lat), średnia wydajność wynosi: 14,4 (szt./h)

cov(X,Y) = 44,8/ 10 = 4,48 (szt/h lat)

S2(X) = 41,6 / 10 = 4,16 (szt/h)2 S(X) = 2,04 (szt/h)

S2(Y) = 50,4 / 10 = 5,04 (lat)2 S(Y) = 2,25 (lat)

rP = 4,48 / 2,04 2,25 = 4,48/ 4,59 = 0,98 zależność wydajności pracy od stażu pracy jest silna, o kierunku dodatnim.

Stosunek korelacyjny

zalety:

unormowana w przedziale: <0,1>; Interpretacja:

rk = 0 niezależność korelacyjna,

rk (0; 0,34) zależność słaba,

rk <0,34; 0,67) zależność średnia,

rk <0,67; 1) zależność silna,

rk =1 zależność ścisła tzw. funkcyjna

wady:

oraz dla układu cech: mierzalna - niemierzalna, ale tylko wtedy, gdy cecha mierzalna jest cechą zależną.

Stosunek korelacyjny jest ilorazem odchylenia standardowego średnich warunkowych cechy zależnej oraz odchylenia standardowego cechy zależnej:

rk =

odchylenie standardowe średnich warunkowych cechy zależnej

odchylenie standardowe cechy zależnej

Dlatego też najważniejszym zadaniem jest ustalenie która z cech jest cechą zależną oraz gdzie zostały umieszczone jej warianty - w główce czy też w boczku tablicy. Położenie cechy zależnej w tablicy decyduje o wyborze wzoru, z którego oblicza się rk.

W przypadku zależności dwustronnej należy obliczyć dwa stosunki korelacyjne:

Zależność cechy Y od X oblicza się z wzoru (gdy cecha Y znajduje się w główce tablicy):

0x01 graphic

gdzie:

yj - wartość cechy Y

0x08 graphic
y - średnia arytmetyczna cechy Y - obliczona z rozkładu brzegowego cechy Y według wzoru:

0x01 graphic

0x08 graphic
yxi - średnia warunkowa cechy Y - obliczana z rozkładu warunkowego cechy Y według wzoru:

0x01 graphic

Zależność cechy X od Y służy wzór (gdy cecha X znajduje się w boczku tablicy):

0x01 graphic
0x01 graphic

gdzie:

xi - wartość cechy X

0x08 graphic
x - średnia arytmetyczna cechy X - obliczona z rozkładu brzegowego cechy X według wzoru:

0x01 graphic

0x08 graphic
xyj - średnia warunkowa cechy X - obliczana z rozkładu warunkowego cechy X według wzoru:

0x01 graphic

Przykład

Uczniów pewnej klasy Liceum Ekonomicznego zapytano o wysokość otrzymywanego co miesiąc kieszonkowego (cecha X w zł) oraz miesięczny dochód na jedną osobę w rodzinie ucznia (cecha Y - w zł). Na podstawie wyników przedstawionych w tablicy korelacyjnej zbadać zależność między cechami wykorzystując metodę korelacyjną.

0x08 graphic
X Y

600-900

9000-1200

1200-1500

ni

30-180

5

5

4

14

180-330

2

4

9

15

330-480

2

2

7

11

nj

9

11

20

40

Rozwiązanie:

Ponieważ należy zbadać zależności metodą korelacyjną, to nie można wykorzystać miar nieparametrycznych. Nie można również wykorzystać współczynnika korelacji liniowej Pearsona (miara omówiona w punkcie 1.2.2.) ponieważ z układu liczebności w tablicy wynika, że zależność nie jest prostoliniowa. Nie da się również zastosować miary Spearmana (miara omówiona w punkcie 1.2.3.), ponieważ informacje przedstawione są w postaci tablicy.

Można natomiast zastosować stosunek korelacyjny, ponieważ obie cechy są mierzalne. Należy ustalić, która cecha jest cechą zależną: oraz określić położenie cechy zależnej w tablicy. W analizowanym przykładzie cechą zależną jest kieszonkowe (może zależeć od dochodu); cecha zależna znajduje się w boczku tablicy, co oznacza, że należy wykorzystać wzór rkxy (zależność cechy X od Y - gdy X umieszczone jest w boczku).

Kolejność działań jest następująca:

średnie miesięczne kieszonkowe ucznia w tej klasie wynosi: 243,75 zł [10514+25515+40411/40] = [1470+3825+4455/40]=[9750/40]

Średnie warunkowe ułożyły się rosnąco, co oznacza, że można uznać domyślny kierunek zależności za dodatni (wzrost dochodu powoduje wzrost kieszonkowego).

Kolejne obliczenia wykonano w tablicy:

0x08 graphic
0x08 graphic
yj

xi

600-900

900-1200

1200-1500

ni

x*i

0x08 graphic

(x*i -x)

(x*i -x)2

0x08 graphic

(x*i -x)2ni

30-180

5

5

4

14

105

138,75

(105-243,75)

19.251,56

(138,75)2

269.521,84

(19.251,56·14)

180-330

2

4

9

15

255

11,25

(255-243,75)

126,56

(11,25)2

1898,4

(126,56·15)

330-480

2

2

7

11

405

161,25

(405-243,75)

26.001,56

(161,25)2

286.017,16

(26.001,56·11)

nj

9

11

20

40

557.437,4

0x08 graphic
0x08 graphic
0x08 graphic

xyj

205

214,09

277,5

0x08 graphic

(xyj- x)

-38,75

(205-143,75)

-29,66

(214,09-243,75

33,75

277,5-243,75

0x08 graphic

(xyj- x)2

1501,56

(-38,75)2

879,72

(-29,66)2

1139,06

(33,75)2

0x08 graphic

(xyj- x)2nj

13.514,04

(1501,56·9)

9.676,92

(879,72·11)

22.781,2

(1139,06·20)

= 45.972,16

(13.514,04+9.676,92+22.781,2)

[obliczenia z pełnego wzoru: S2(Y) = 557.437,4/40=13935,94 zł2; S(Y) =118,05 zł

S2(xyj) = 45.972,16/40=1149,3 zł2; S(xyj) =33,9 zł

rkxy = 33,9/ 118,05 = 0,29]

Zadania z odpowiedziami

Zad. 25. W 2001 r. zbadano losowo wybraną grupę podatników ze względu na wiek (Y - w latach oraz wysokość dochodów uzyskanych poza pierwszym miejscem pracy (X - w tys zł). Zbadać zależność między cechami:

X Y

0-8

8-16

16-24

18-24

15

11

10

24-30

8

-

6

30-36

1

7

15

36-42

5

18

19

(odp. rkxy = 0,36. Zależność X od Y jest średnia - kierunku nie można określić; średnie warunkowe: 10,89 tys.zł, 16,87 tys.zł, 14,67 tys.zł).

Zad. 27. Pracowników firmy “A” zbadano ze względu na dwie cechy: wykształcenie (cecha X) oraz wynagrodzenie brutto w $ w lipcu 1998 r. (cecha Y). Otrzymano następujące wyniki:

Lp.

1

2

3

4

5

6

7

8

9

10

X

w

ś

w

z

p

p

z

p

ś

p

Y

690

510

699

460

300

310

370

300

420

310

Lp.

11

12

13

14

15

16

17

18

19

20

X

ś

z

p

ś

w

p

z

p

w

z

Y

399

400

320

550

570

310

370

310

580

420

Przedstawić wyniki w postaci tablicy statystycznej.

Zad. 1. W restauracjach miasta „A” zebrano dane dotyczące oceny jakości usług (wystawionej przez klientów - cecha Y w punktach) oraz średniej miesięcznej liczby klientów (cecha X). Wyniki przedstawiono w tablicy korelacyjnej:

Y X

50-100

100-150

150-200

ni

2-4

7

1

-

8

4-6

-

9

-

9

6-8

-

2

6

8

nj

7

12

6

25

Zad. 21. Uzupełnij tablicę tak, aby między cechami występowała zależność funkcyjna. Uzasadnij.

X Y

y1

y2

y3

ni

x1

5

x2

x3

nj

10

30

Zad.2. W 30 wybranych losowo gospodarstwach indywidualnych zebrano dane dotyczące rocznej wielkości plonów pszenicy w q/ha ( cecha X ) oraz zużycia nawozów mineralnych w kg/ha (cecha Y). Wyniki przedstawiono w tablicy korelacyjnej:

X Y

40-45

45-50

50-55

ni

20-30

9

3

-

12

30-40

-

8

-

8

40-50

-

2

8

10

nj

9

13

8

30

Zad.3. Pracowników pewnego działu zbadano ze względu na staż pracy (X - w latach) oraz % braków w miesiącu maju'2005 (Y - w %). Scharakteryzować zależność między cechami. Uzasadnić wybór miary.

Lp.

X

Y

1

2

3

4

5

6

7

8

9

10

11

1

1,5

4

4

2

3

5

2

3

3,5

3

4

3,5

1

2

2,5

3

1

3

2

2

3,5

Odp. rp = -0,86. Zależność silna o kierunku ujemnym tzn., że pracownicy z wyższym stażem pracy „produkują” mniej braków. Uzasadnienie: obie cechy są mierzalne, zależność można uznać za prostoliniową (wykres), rp można wykorzystywać do informacji przestawionych w szeregach.

Zad. 24. W 25 województwach zebrano dane dotyczące liczby miejsc noclegowych (X - w tys.) oraz występujących na terenie województwa naturalnych walorów wypoczynkowych (Y - w punktach). Zbadać zależność między cechami wykorzystując miarę niesymetryczną.

X Y

5-15

15-25

25-35

0-10

2

1

-

10-20

2

3

-

20-30

3

4

1

30-40

4

2

3

(odp. rkxy = 0,36. Zależność X od Y jest średnia - kierunku nie można określić; średnie warunkowe: 23,18 tys., 22 tys. 32,5 tys.).

Zad. 4 Która z podanych wartości nie może być wynikiem miary Pearsona: 0,68; - 0,9; 1.05; - 1,5. Odpowiedź uzasadnić. (1,05 oraz -1,5 ponieważ wynik rp ჎ <-1; >).

Zad.5 Wybraną losowo grupę modelek zbadano ze względu na wzrost ( Y ) oraz wiek (cecha X). Wyniki przedstawiono w tablicy korelacyjnej:

X Y

wysoki

bardzo

wysoki

ni

16-20

80

20

100

20-24

70

80

150

nj

150

100

250

Zad. 6. Pracowników pewne firmy zbadano z względu na płeć (X) oraz stosunek o pracy (Y). Zbadać zależność między cechami

X Y

dobry

zły

kobieta

30

10

mężczyzna

32

8

(odp. dH = 0,22 )

Zad. 13. Pracowników pewnego działu zbadano ze względu na staż pracy (X - w latach) oraz % braków w miesiącu maju'99 (Y - w %). Scharakteryzować zależność między cechami.

Lp.

X

Y

1

2

3

4

5

6

7

8

9

10

0,5

2

1

2

3

5

7,5

3

4

4

6

4

5

3,5

3

2

0,5

2

3

4

Odp. Można wykorzystać albo rp albo rs. rp = -0,88; rs = -0,78 - zależność silna, o kierunku ujemnym tzn., że im dłuższy staż pracy, tym mniejszy procent braków w miesiącu.

Zad. 7 Pracowników pewnej firmy zbadano z względu na rodzaj wykształcenia (X) oraz częstość spóźnień do pracy (Y). Zbadać zależność między cechami

X Y

dobry

zły

zawodowe

14

15

średnie

15

14

wyższe

14

15

(odp. dH = 0,17 - zależność słaba).

2008-10-11 Wykład 4 Analiza Współzależności

8

-76,88

0

0

0

0

-3,41

1,98

-9,68

0

1,98

-7,29

-2,61

0

0

0

-75,69

Średnie warunkowe ułożyły się rosnąco

0x01 graphic

Y

X

0x01 graphic



Wyszukiwarka