6342


Analiza dwóch zmiennych

Spis treści

1. Wprowadzenie

W lipcu 2002 roku będąc osobą bezrobotną zarejestrowaną w Powiatowym Urzędzie Pracy w Białymstoku otrzymałam w ramach pracy interwencyjnej pewne zlecenie. Moim zadaniem było spisywanie stanów wodomierzy w blokach na osiedlu Kraszewskiego z miesięcy: kwiecień, maj i czerwiec.

Dane z jednego z bloków postanowiłam wykorzystać w niniejszej pracy. Stan wodomierzy z trzech miesięcy będzie pierwszą zmienną, którą zamierzam przeanalizować.

Do wybranego bloku poszłam niedawno po raz drugi z zapytaniem do mieszkańców ile osób zamieszkuje poszczególne mieszkania. Będzie to moja druga zmienna przydatna do analizy.

Celem pracy jest zbadanie czy wzrost liczby mieszkańców wpływa na ilość zużycia wody.

Dane przedstawia poniższa tabela:

Nr mieszkania

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

Zużycie wody w m3

13

13

14

15

15

15

16

17

17

10

17

10

17

18

11

11

18

18

11

18

Liczba mieszkańców

3

3

2

2

5

2

5

4

5

2

5

3

5

7

2

4

6

5

2

2

Nr mieszkania

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

Zużycie wody w m3

18

14

14

15

15

17

17

14

14

14

14

13

15

15

15

13

13

17

15

18

Liczba mieszkańców

3

4

2

4

3

5

5

3

2

4

5

3

3

4

3

5

4

4

3

6

Nr mieszkania

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

Zużycie wody w m3

15

16

16

18

19

19

19

16

15

15

10

19

16

10

20

16

11

17

17

11

Liczba mieszkańców

3

6

3

3

5

3

6

5

3

3

3

5

3

2

7

3

3

4

5

3

Nr mieszkania

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

Zużycie wody w m3

16

16

16

12

12

12

17

13

13

19

13

16

13

19

19

20

19

20

19

19

Liczba mieszkańców

2

4

4

2

4

3

4

5

3

4

3

6

3

5

6

5

4

7

7

6

Nr mieszkania

81

82

83

84

85

86

87

88

89

90

Zużycie wody w m3

20

10

20

11

20

12

18

14

14

14

Liczba mieszkańców

5

3

5

5

3

2

4

4

2

2

2. Analiza zmiennej X

Szereg przedziałowy dla zmiennej x:

Zużycie wody w m3

(x0i-x1i>

Liczba mieszkań

ni

Częstości

fi

Częstości skumulowane

fisk

10-12

15

0,167

0,167

12-14

19

0,211

0,378

14-16

22

0,244

0,622

16-18

18

0,2

0,822

18-20

16

0,178

1

Razem

90

1

x

0x01 graphic

Wykres 1. Histogram częstości zmiennej å

Za pomocą histogramu można odczytać jaki odsetek mieszkań zawiera się w poszczególnych przedziałach zużycia wody.

0x01 graphic

Wykres 2. Histogram częstości skumulowanych zmiennej x

2.1. Miary średnie

Średnia arytmetyczna

Zużycie wody w m3

(x0i-x1i>

Liczba mieszkań

ni

Środek przedziału

0x01 graphic
i

0x01 graphic
i* ni

10-12

15

11

165

12-14

19

13

247

14-16

22

15

330

16-18

18

17

306

18-20

16

19

304

Razem

90

x

1352

Do wyliczenia średniej arytmetycznej w szeregu przedziałowym stosuje się następujący wzór:

0x01 graphic

tak więc po podstawieniu do wzoru danych z tabeli średnia arytmetyczna wyniesie:

0x01 graphic

Średnie zużycie wody przypadające na każde z badanych mieszkań wynosi około 15 m3.

Średnie pozycyjne

Zużycie wody w m3

(x0i-x1i>

Liczba mieszkań

ni

nisk

10-12

15

15

Q1 12-14

19

34

D, Q2 14-16

22

56

Q3 16-18

18

74

18-20

16

90

Razem

90

x

Dominanta jest to wartość cechy którą posiada największa liczba jednostek badanej zbiorowości i w przypadku szeregu przedziałowego wylicza się ją za pomocą wzoru:

0x01 graphic

gdzie:

x0D- dolna granica przedziału w którym znajduje się dominanta,

nD- liczebność przedziału dominanty,

nd-1- liczebność przedziału poprzedzającego przedział dominanty,

nD+1- liczebność przedziału następnego po przedziale dominanty,

hD- rozpiętość przedziału dominanty.

Analizując dane z powyższej tabeli można stwierdzić, iż dominanta znajduje się w przedziale 14-16 m3 zużycia wody, a wskazać ją dokładnie po podstawieniu danych do powyższego wzoru:

0x01 graphic

Dominantę obrazuje wykres 3.

0x01 graphic

Wykres 3. Graficzna prezentacja dominanty

Wykres prezentuje nam w którym przedziale zawiera się dominanta.

Znając dominantę można stwierdzić, iż w badanych mieszkaniach najczęściej spotykane zużycie wody wyniosło 14,857 m3.

Kwartyle

Z pośród kwartyli wyróżnia się kwartyl pierwszy, kwartyl drugi (inaczej mediana), kwartyl trzeci.

Kwartyl pierwszy dzieli zbiorowość uporządkowaną na dwie części w ten sposób,że 25% jednostek ma wartości cechy niższe a 75% wyższe od kwartyla pierwszego.

Mediana dzieli zbiorowość uporządkowaną na dwie równe części w ten sposób, że 50% ma wartości cechy niższe i 50 % wyższe od mediany.

Natomiast w przypadku kwartyla trzeciego 75% przybiera wartości niższe a 25% wyższe od kwartyla trzeciego.

Żeby wyliczyć kwartyle w szeregach przedziałowych trzeba najpierw wskazać pozycje kwartyli. Wylicza się to w następujący sposób:

0x01 graphic
, 0x01 graphic
, 0x01 graphic
.

Znając kolejne pozycje korzysta się dalej z danych poszczególnych przedziałów odpowiadającym kwartylom i podstawia się do wzorów:

0x01 graphic
,

0x01 graphic
,

0x01 graphic
,

gdzie:

x...- dolna granica przedziału...,

N- ogólna liczba liczebności,

0x01 graphic
- suma liczebności od przedziału 1-go do tego, w którym znajdują się odpowiednio Q1, Me, Q3,

n...- liczebności przedziałów...,

h...- odpowiednie rozpiętości przedziałów.

0x01 graphic
, 0x01 graphic
, 0x01 graphic
.

0x01 graphic
,

0x01 graphic
,

0x01 graphic
.

W 25% mieszkań zużycie wody wyniosło mniej niż 12,789 m3, a w 75% mieszkań zużycie było większe od 12,789 m3. O tym mówi kwartyl pierwszy.

Na podstawie mediany w 50% mieszkań zaobserwowano zużycie wody poniżej m3, zaś w pozostałych 50% mieszkań więcej niż 15 m3.

Kwartyl trzeci podaje, że zużycie wody w 75% mieszkań kształtowało się poniżej 17,278 m3. Na 25% mieszkań przypada zużycie wody powyżej 17,278 m3.

2.2. Miary zmienności

Zużycie wody w m3 (x0i-x1i>

Liczba mieszkań ni

0x01 graphic

0x01 graphic
-0x01 graphic

(0x01 graphic
-0x01 graphic
)ni

(0x01 graphic
-0x01 graphic
)2

(0x01 graphic
-0x01 graphic
)2ni

10-12

15

11

-4,022

-60,33

16,176

242,64

12-14

19

13

-2,022

-38,418

4,088

77,672

14-16

22

15

-0,022

-0,484

0,001

0,022

16-18

18

17

1,978

35,604

3,912

70,416

18-20

16

19

3,978

63,648

15,824

253,184

Razem

90

x

x

0,02

x

643,934

Odchylenie przeciętne

Za pomocą odchylenia przeciętnego określa się, o ile wszystkie jednostki różnią się średnio ze względu na wartość zmiennej od średniej arytmetycznej tej zmiennej. Odchylenie przeciętne oblicza się następująco:

0x01 graphic

Zużycie wody różni się średnio ze względu na wartość zmiennej od średniej arytmetycznej o 0,0002 m3.

Odchylenie ćwiartkowe

Odchylenie ćwiartkowe bada poziom zróżnicowania tylko części jednostek badanej zbiorowości (po odrzuceniu 25% jednostek o wartościach najniższych oraz 25% o wartościach najwyższych). Odchylenie ćwiartkowe mierzy więc średnią w połowie obszaru zmienności.

0x01 graphic

Zużycie wody w połowie obszaru zmienności wynosi 2,245 m3.

Wariancja

Wariancja jest miarą zróżnicowania. Im zbiorowość jest bardziej zróżnicowana tym wyższa jest wartość wariancji.

0x01 graphic

Odchylenie standardowe

Odchylenie standardowe określa, o ile wszystkie jednostki różnią się średnio od średniej arytmetycznej badanej zmiennej.

0x01 graphic

Odchylenie standardowe precyzyjniej obrazuje dane i podaje dokładniejsze wartości niż na przykład odchylenie ćwiartkowe ponieważ obliczane jest na podstawie wszystkich obserwacji. Dlatego też odchylenie standardowe używane jest najczęściej do wyznaczania miar zmienności.

W tym przypadku odchylenie standardowe wynosi 2,675 co oznacza, że zużycie wody różni się przeciętnie od średniego zużycia wody o 2,675 m3.

Współczynnik zmienności

Na podstawie odchylenia standardowego oraz średniej arytmetycznej liczony jest współczynnik zmienności, który wykazuje zróżnicowanie wartości w procentach.

0x01 graphic
0x01 graphic

Zróżnicowanie zużycia wody jest niewielkie.

0x01 graphic
Typowy obszar zmienności

0x01 graphic
,

(15,022-2,675,15,022+2,675),

(12,347;17,697).

Typowe zużycie wody mieści się w przedziale od 12,347 m3 do 17,697 m3.

2.3. Miary asymetrii

Oceniając asymetrię (skośność) rozkładu badamy czy przeważająca liczba jednostek znajduje się powyżej czy poniżej przeciętnego poziomu badanej cechy.

0x01 graphic

Powyższy wynik wykazuje, że asymetria jest prawostronna bardzo słaba. W większości badanych mieszkań zużycie wody było trochę niższe od średniego zużycia wody.

O tym, że asymetria jest prawostronna decyduje zależność: 0x01 graphic
>Me>D.w tym przypadku zależność ta została spełniona czyli 15,022>15>14,857.

Rozkład asymetrii można też zaprezentować na wykresie lecz w tym przypadku byłby mało czytelny.

2.4. Miary koncentracji

Koncentracja jest rozumiana jako nierównomierny podział zjawiska w zbiorowości oraz koncentrację zbiorowości wokół średniej (kurtoza).

Do obliczania siły koncentracji stosuje się dwie metody: graficzną i analityczną. Graficzna metoda polega na wykreśleniu „wieloboku koncentracji Lorenza”.

Zużycie wody w m3

(x0i-x1i>

Liczba mieszkań

ni

Łączne zużycie wody

zi

Częstości

względne

Skumulowane częstości względne

Liczby mieszkań

Łącznego zużycia wody

Liczby mieszkań

Łącznego zużycia wody

10-12

15

164

16,7

11,8

16,7

11,8

12-14

19

257

21,1

18,6

37,8

30,4

14-16

22

340

24,4

24,5

62,2

54,9

16-18

18

314

20

22,7

82,2

77,6

18-20

16

310

17,8

22,4

100

100

Razem

90

1385

100

100

x

x

0x01 graphic

Wykres 4. Wielobok koncentracji Lorenza dla zmiennej x.

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

a=5000-P=509,96

0x01 graphic

Zużycie wody w m3 (x0i-x1i>

Liczba mieszkań

ni

0x01 graphic

0x01 graphic
-0x01 graphic

(0x01 graphic
-0x01 graphic
)4

(0x01 graphic
-0x01 graphic
)4ni

10-12

15

11

-4,022

261,679

3925,185

12-14

19

13

-2,022

16,716

317,604

14-16

22

15

-0,022

0,001

0,022

16-18

18

17

1,978

15,308

275,544

18-20

16

19

3,978

250,414

4006,624

Razem

90

x

x

x

8524,979

Kurtoza

0x01 graphic

0x01 graphic

Koncentracja zużycia wody wokół śreniej wynosi 1,364 m3.

3. Analiza zmiennej y

Szereg punktowy dla zmiennej y

Liczba mieszkańców

yj

Liczba mieszkań

nj

Częstości

fj

Częstości skumulowane

fjsk

2

15

0,167

0,167

3

27

0,3

0,467

3

18

0,2

0,667

5

20

0,222

0,889

6

6

0,067

0,956

7

4

0,044

1

Razem

90

1

x

0x01 graphic

Wykres 5. Histogram częstości zmiennej y

Histogram prezentuje ile badanych mieszkań zamieszkuje poszczególna liczba mieszkańców.

0x01 graphic

Wykres 6. Histogram częstości skumulowanych zmiennej y

3.1. Miary średnie

Średnia arytmetyczna

Liczba mieszkańców

yj

Liczba mieszkań

nj

yj*nj

2

15

30

3

27

81

3

18

72

5

20

100

6

6

36

7

4

28

Razem

90

347

0x01 graphic

Biorąc pod uwagę ilość mieszkańców na każde mieszkanie średnio przypada 3,856 mieszkańca.

Średnie pozycyjne

Liczba mieszkańców

yj

Liczba mieszkań

nj

njsk

2

15

15

3

27

42

3

18

60

5

20

80

6

6

86

7

4

90

Razem

90

x

0x01 graphic

Wykres 7. Dominanta zmiennej y

Przy powyższych danych przedstawionych w tabeli nie da się obliczyć dominanty. Z wykresu 6 wiadomo, iż jest on dwumodalny ponieważ widać dwa górujące słupki. Nie da się określić jaka liczba mieszkańców zamieszkujących poszczególne mieszkania występuje najczęściej.

Kwartyle

W szeregach punktowych oblicza się pozycję kwartyla, następnie odczytuje się wartości cech badanej zbiorowości.

Pozycje kwartyli:

0x01 graphic
, 0x01 graphic
, 0x01 graphic
.

Wartości kwartyli:

Q1=3, Q2=Me=4, Q3=5.

Q1- W 25% mieszkań mieszka 3 osoby lub mniej, a 75% mieszkań zamieszkuje powyżej 3 osób.

Me- 50% badanych mieszkań zamieszkuje 4 lub mniej osób, zaś kolejne 50% mieszkań zamieszkuje 5, 6 lub 7 osób.

Q3- Liczba osób zamieszkujących 75% mieszkań jest mniejsza lub równa 5, a w 25 mieszkań liczba mieszkańców jest większa od 5.

3.2. Miary zmienności

Liczba mieszkańców

yj

Liczba mieszkań

nj

yj-0x01 graphic
0x01 graphic

(yj-0x01 graphic
)2

(yj-0x01 graphic
)2nj

2

15

-1,856

3,445

51,675

3

27

-0,856

0,733

19,791

4

18

0,144

0,021

0,378

5

20

1,144

1,309

26,18

6

6

2,144

4,597

27,582

7

4

3,144

9,885

39,54

Razem

90

x

x

165,146

Wariancja

0x01 graphic

Odchylenie standardowe

0x01 graphic

Ilość mieszkańców różni się średnio od średniej arytmetycznej ilości mieszkańców przypadających na jedno mieszkanie o 1,355 osoby.

Współczynnik zmienności

0x01 graphic

Współczynnik zmienności wykazuje średni stopień zróżnicowania mieszkań pod względem ilości mieszkańców.

Typowy obszar zmienności

0x01 graphic
,

(3,856-1,355;3,856+1,355),

(2,501;5,211).

Typowa liczba mieszkańców w badanych mieszkaniach mieści się w przedziale od 2,501 do 5,211 osoby.

3.3. Miary asymetrii

W przypadku rozkładów dwumodalnych, gdy nie da się obliczyć dominanty do obliczenia współczynnika asymetrii stosuje się klasyczny wzór współczynnika skośności:

0x01 graphic
, gdzie 0x01 graphic

Liczba mieszkańców

yj

Liczba mieszkań

nj

yj-0x01 graphic
j

(yj-0x01 graphic
j)3

(yj-0x01 graphic
j)3nj

2

15

-1,856

-6,393

-95,895

3

27

-0,856

-0,627

-16,929

4

18

0,144

0,003

0,054

5

20

1,144

1,497

29,94

6

6

2,144

9,855

59,13

7

4

3,144

31,078

124,312

Razem

90

x

x

100,612

0x01 graphic
, s=1,355, s3=2,488.

0x01 graphic

Asymetria jest umiarkowana i prawostronna. Przeważają mieszkania o liczbie mieszkańców mniejszej od średniej mieszkańców przypadających na jedno mieszkanie.

3.4. Miary koncentracji

Liczba mieszkańców

yj

Liczba mieszkań

nj

Łączna liczba mieszkańców

zj

Częstości względne

Skumulowane częstości względne

Liczby mieszkań

Łącznej liczby mieszkańców

Liczby mieszkań

Łącznej liczby mieszkańców

2

15

30

16,7

8,6

16,7

8,6

3

27

81

30

23,3

46,7

31,9

4

18

72

20

20,7

66,7

52,6

5

20

100

22,2

28,8

88,9

81,4

6

6

36

6,7

10,4

95,6

91,8

7

4

28

4,4

8,2

100

100

Razem

90

374

100

100

x

x

0x01 graphic

Wykres 8. Wielobok koncentracji Lorenza dla zmiennej y

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

a=5000-P=986,11

0x01 graphic

Liczba mieszkańców

yj

Liczba mieszkań

nj

yj-0x01 graphic
j

(yj-0x01 graphic
j)4

(yj-0x01 graphic
j)4nj

2

15

-1,856

11,866

177,99

3

27

-0,856

0,537

14,499

4

18

0,144

0,001

0,018

5

20

1,144

1,713

34,26

6

6

2,144

21,129

126,774

7

4

3,144

97,708

390,832

Razem

90

x

x

744,373

0x01 graphic

0x01 graphic

Koncentracja liczby mieszkańców wokół średniej wynosi 2,454 osoby.

4. Analiza dwóch zmiennych

Celem badania związków korelacyjnych jest stwierdzenie, czy między badanymi zmiennymi zachodzą jakieś zależności, jaka jest ich siła, jaki jest ich kształt i kierunek. Ponieważ zużycie wody jest związane z osobami je zamieszkującymi można uznać za celowe analizę związków pomiędzy nimi.

W celu stwierdzenia istnienia lub braku związku korelacyjnego konstruujemy tablicę korelacyjną.

Zużycie wody w m3

Liczba mieszkańców

Razem

2

3

4

5

6

7

10-12

6

6

2

1

0

0

15

12-14

5

7

4

3

0

0

19

14-16

3

10

5

3

1

0

22

16-18

1

2

5

7

2

1

18

18-20

0

2

2

6

3

3

16

Razem

15

27

18

20

6

4

90

Na podstawie tej tablicy możemy wstępnie stwierdzić, że pomiędzy zmiennymi zachodzi dodatnia korelacja liniowa. Świadczy o tym skupienie największych wartości na przekątnej tablicy korelacyjnej.

W tablicy korelacyjnej możemy wydzielić dwa rodzaje rozkładów:

1. Rozkład brzegowy- na jego podstawie możemy określić jak kształtują się wartości jednej zmiennej, bez względu na zmianę wartości drugiej zmiennej

2.Rozkład warunkowy- pozwala przeanalizować w jaki sposób zmienia się wartość zużycia wody, pod warunkiem, że mieszkanie zamieszkuje określona ilość mieszkańców, lub odwrotnie.

Podstawowymi wielkościami charakteryzującymi rozkład warunkowy są średnia arytmetyczna i wariancja (lub odchylenie standardowe), których wyliczenia znajdują się w poniższych tabelach:

Z powodu wcześniejszego rozpatrywania obu zmiennych jako niezależnych badanie rozkładu brzegowego zostaje pominięte.

Rozkłady warunkowe

x dla y=2

x/y1

x0i-x1i

ni

0x01 graphic

0x01 graphic
*ni

x2

x2*ni

10-12

6

11

66

121

726

12-14

5

13

65

169

845

14-16

3

15

45

225

675

16-18

1

17

17

289

289

18-20

-

19

0

361

0

Razem

15

x

193

x

2535

0x01 graphic

0x01 graphic

0x01 graphic

x dla y=3

x/y2

x0i-x1i

ni

0x01 graphic

0x01 graphic
*ni

x2

x2*ni

10-12

6

11

66

121

726

12-14

7

13

91

169

1183

14-16

10

15

150

225

2250

16-18

2

17

34

289

578

18-20

2

19

38

361

722

Razem

27

x

379

x

5459

0x01 graphic

0x01 graphic

x dla y=4

x/y3

x0i-x1i

ni

0x01 graphic

0x01 graphic
*ni

x2

x2*ni

10-12

2

11

22

121

242

12-14

4

13

52

169

676

14-16

5

15

75

225

1125

16-18

5

17

85

289

1445

18-20

2

19

38

361

722

Razem

18

x

272

x

4210

0x01 graphic

0x01 graphic

x dla y=5

x/y4

x0i-x1i

ni

0x01 graphic

0x01 graphic
*ni

x2

x2*ni

10-12

1

11

11

121

121

12-14

3

13

39

169

507

14-16

3

15

45

225

675

16-18

7

17

119

289

2023

18-20

6

19

114

361

2166

Razem

20

x

328

x

5492

0x01 graphic

0x01 graphic

x dla y=6

x/y5

x0i-x1i

ni

0x01 graphic

0x01 graphic
*ni

x2

x2*ni

10-12

0

11

0

121

0

12-14

0

13

0

169

0

14-16

1

15

15

225

225

16-18

2

17

34

289

578

18-20

3

19

57

361

1083

Razem

6

x

106

x

1886

0x01 graphic

0x01 graphic

x dla y=7

x/y6

x0i-x1i

ni

0x01 graphic

0x01 graphic
*ni

x2

x2*ni

10-12

0

11

0

121

0

12-14

0

13

0

169

0

14-16

0

15

0

225

0

16-18

1

17

17

289

289

18-20

3

19

57

361

1083

Razem

4

x

74

x

1372

0x01 graphic

0x01 graphic

y dla x=10-12

y/x1

y0j-y1j

Nj

0x01 graphic
*nj

y2j

y2j*nj

2

6

12

4

24

3

6

18

9

54

4

2

8

16

32

5

1

5

25

25

6

0

0

36

0

7

0

0

49

0

Razem

15

43

x

135

0x01 graphic

0x01 graphic

y dla x=12-14

y/x2

y0j-y1j

Nj

0x01 graphic
*nj

y2j

y2j*nj

2

5

10

4

20

3

7

21

9

63

4

4

16

16

64

5

3

15

25

75

6

0

0

36

0

7

0

0

49

0

Razem

19

62

x

222

0x01 graphic

0x01 graphic

y dla x=14-16

y/x3

y0j-y1j

Nj

0x01 graphic
*nj

y2j

y2j*nj

2

3

6

4

12

3

10

30

9

90

4

5

20

16

80

5

3

15

25

75

6

1

6

36

36

7

0

0

49

0

Razem

22

77

x

293

0x01 graphic

0x01 graphic

y dla x=16-18

y/x4

y0j-y1j

Nj

0x01 graphic
*nj

y2j

y2j*nj

2

1

2

4

4

3

2

6

9

18

4

5

20

16

80

5

7

35

25

175

6

2

12

36

72

7

1

7

49

49

Razem

18

82

x

398

0x01 graphic

0x01 graphic

y dla x=18-20

y/x5

y0j-y1j

Nj

0x01 graphic
*nj

y2j

y2j*nj

2

0

0

4

0

3

2

6

9

18

4

2

8

16

32

5

6

30

25

150

6

3

18

36

108

7

3

21

49

147

Razem

16

83

x

455

0x01 graphic

0x01 graphic

Z powyższych wyników możemy wywnioskować, że istnieje korelacja dodatnia pomiędzy zużyciem wody, a ilością osób je zamieszkujących, gdyż wraz ze wzrostem wartości średnich warunkowych jednej zmiennej obserwujemy wzrost wartości średnich warunkowych drugiej zmiennej.

0x01 graphic

12,867<14,04<15,111<16,4<17,667<18,5

0x01 graphic

2,867<3,26<3,5<4,5<5,18

Wiedząc, że zachodzi korelacja pomiędzy badanymi zmiennymi porównujemy wariancje warunkowe. Porównując je możemy stwierdzić, że wraz ze wzrostem ilości mieszkańców zamieszkujących określone mieszkanie wzrasta prawdopodobieństwo zużycia większej ilości wody. Jeżeli zostanie zaobserwowane większe zużycie wody w mieszkaniu zwiększa się prawdopodobieństwo, że zamieszkuje w nim więcej osób.

s2/x1≠ s2/x2≠ s2/x3≠s2/x4 ≠s2/x5

0,78≠1,05≠1,06≠1,86≠1,605

s2/y1≠ s2/y2≠ s2/y3≠s2/y4 ≠s2/y5≠s2/y6

3,44≠5,06≠5,054≠5,64≠2,21≠0,75

Aby określić rodzaj zależności porównujemy różnice między średnimi wartościami danej zmiennej, obliczanymi dla konkretnych wariantów drugiej zmiennej.

0x01 graphic

0x01 graphic

Na podstawie otrzymanych wyników nie można stwierdzić liniowego związku pomiędzy zmiennymi, gdyż nie zachodzą następujące równości:

0x01 graphic

0x01 graphic

4.1. Kowariancja

W celu dokładnego określenia rodzaju oraz siły zależności stosowany jest współczynnik korelacji Pearsona. Aby go wyznaczyć należy obliczyć kowariancję.

0x01 graphic

0x01 graphic

-1,856

-0,856

0,144

1,144

2,144

3,144

-4,022

6

6

2

1

0

0

-2,022

5

7

4

3

0

0

-0,022

3

10

5

3

1

0

1,978

1

2

5

7

2

1

3,978

0

2

2

6

3

3

cov(x,y)=cov(y,x)=0x01 graphic
=2,123

Kowariancja przyjęła wartość dodatnią, świadczy to o tym, że pomiędzy zmiennymi zachodzi korelacja dodatnia.

4.2. Współczynnik korelacji liniowej Pearsona oraz wskaźnik korelacji Pearsona

Na podstawie kowariancji nie można określić natężenia współzależności liniowej, z tego powodu obliczamy współczynnik korelacji liniowej Pearsona oraz wskaźnik korelacji Pearsona.

0x01 graphic

Wartość bezwzględna współczynnika korelacji liniowej może przyjmować wartości z zakresu <0,1>, w tym przypadku wynosi 0,542. Na tej podstawie można stwierdzić znaczną zależność pomiędzy dwiema cechami.

0x01 graphic

0x01 graphic

0x01 graphic

Stosunku korelacyjnego eyx nie ma sensu tu obliczać, gdyż zależność przyczynowo skutkowa między zmiennymi jest jednostronna. Zużycie wody w mieszkaniu jest zależne od liczby osób je zamieszkujących.

4.3. Stopień krzywoliniowości

Z otrzymanych wyników współczynnika korelacji liniowej Pearsona oraz wskaźnika korelacji Pearsona obliczamy stopień krzywoliniowości.

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic
0x01 graphic

Obliczony powyżej stopień krzywoliniowości x względem y wynosi 0,044. Regresję między zmiennymi można uznać za liniową, ponieważ jest on mniejszy od 0,2

5. Podsumowanie

Na podstawie tablicy korelacyjnej stwierdziłam liniowość zależności, jednak po obliczeniu średnich warunkowych okazało się, że zależność ta nie jest liniowa. Aby uzyskać dokładne informacje o rodzaju i stopniu zależności wyliczyłam współczynnika korelacji liniowej Pearsona, wskaźnika korelacji Pearsona oraz stopień krzywoliniowości.

Dokonana przeze mnie wszechstronna analiza dwóch zmiennych , którymi są zużycie wody w m3 i osób zamieszkujących poszczególne mieszkania wskazuje, że istnieje dodatnia liniowa zależność między tymi cechami. Oznacza to, że im więcej osób zamieszkuje poszczególne mieszkanie tym na dane mieszkanie przypada większe zużycie wody.



Wyszukiwarka

Podobne podstrony:
6342
6342
6342
6342
6342
6342
06 Ochrona atmosferyid 6342 Nieznany (2)
6342
6342

więcej podobnych podstron