Analiza dwóch zmiennych
Spis treści
1. Wprowadzenie
W lipcu 2002 roku będąc osobą bezrobotną zarejestrowaną w Powiatowym Urzędzie Pracy w Białymstoku otrzymałam w ramach pracy interwencyjnej pewne zlecenie. Moim zadaniem było spisywanie stanów wodomierzy w blokach na osiedlu Kraszewskiego z miesięcy: kwiecień, maj i czerwiec.
Dane z jednego z bloków postanowiłam wykorzystać w niniejszej pracy. Stan wodomierzy z trzech miesięcy będzie pierwszą zmienną, którą zamierzam przeanalizować.
Do wybranego bloku poszłam niedawno po raz drugi z zapytaniem do mieszkańców ile osób zamieszkuje poszczególne mieszkania. Będzie to moja druga zmienna przydatna do analizy.
Celem pracy jest zbadanie czy wzrost liczby mieszkańców wpływa na ilość zużycia wody.
Dane przedstawia poniższa tabela:
Nr mieszkania |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
15 |
16 |
17 |
18 |
19 |
20 |
Zużycie wody w m3 |
13 |
13 |
14 |
15 |
15 |
15 |
16 |
17 |
17 |
10 |
17 |
10 |
17 |
18 |
11 |
11 |
18 |
18 |
11 |
18 |
Liczba mieszkańców |
3 |
3 |
2 |
2 |
5 |
2 |
5 |
4 |
5 |
2 |
5 |
3 |
5 |
7 |
2 |
4 |
6 |
5 |
2 |
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Nr mieszkania |
21 |
22 |
23 |
24 |
25 |
26 |
27 |
28 |
29 |
30 |
31 |
32 |
33 |
34 |
35 |
36 |
37 |
38 |
39 |
40 |
Zużycie wody w m3 |
18 |
14 |
14 |
15 |
15 |
17 |
17 |
14 |
14 |
14 |
14 |
13 |
15 |
15 |
15 |
13 |
13 |
17 |
15 |
18 |
Liczba mieszkańców |
3 |
4 |
2 |
4 |
3 |
5 |
5 |
3 |
2 |
4 |
5 |
3 |
3 |
4 |
3 |
5 |
4 |
4 |
3 |
6 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Nr mieszkania |
41 |
42 |
43 |
44 |
45 |
46 |
47 |
48 |
49 |
50 |
51 |
52 |
53 |
54 |
55 |
56 |
57 |
58 |
59 |
60 |
Zużycie wody w m3 |
15 |
16 |
16 |
18 |
19 |
19 |
19 |
16 |
15 |
15 |
10 |
19 |
16 |
10 |
20 |
16 |
11 |
17 |
17 |
11 |
Liczba mieszkańców |
3 |
6 |
3 |
3 |
5 |
3 |
6 |
5 |
3 |
3 |
3 |
5 |
3 |
2 |
7 |
3 |
3 |
4 |
5 |
3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Nr mieszkania |
61 |
62 |
63 |
64 |
65 |
66 |
67 |
68 |
69 |
70 |
71 |
72 |
73 |
74 |
75 |
76 |
77 |
78 |
79 |
80 |
Zużycie wody w m3 |
16 |
16 |
16 |
12 |
12 |
12 |
17 |
13 |
13 |
19 |
13 |
16 |
13 |
19 |
19 |
20 |
19 |
20 |
19 |
19 |
Liczba mieszkańców |
2 |
4 |
4 |
2 |
4 |
3 |
4 |
5 |
3 |
4 |
3 |
6 |
3 |
5 |
6 |
5 |
4 |
7 |
7 |
6 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Nr mieszkania |
81 |
82 |
83 |
84 |
85 |
86 |
87 |
88 |
89 |
90 |
|
|
|
|
|
|
|
|
|
|
Zużycie wody w m3 |
20 |
10 |
20 |
11 |
20 |
12 |
18 |
14 |
14 |
14 |
|
|
|
|
|
|
|
|
|
|
Liczba mieszkańców |
5 |
3 |
5 |
5 |
3 |
2 |
4 |
4 |
2 |
2 |
|
|
|
|
|
|
|
|
|
|
2. Analiza zmiennej X
Szereg przedziałowy dla zmiennej x:
Zużycie wody w m3 (x0i-x1i> |
Liczba mieszkań ni |
Częstości fi |
Częstości skumulowane fisk |
10-12 |
15 |
0,167 |
0,167 |
12-14 |
19 |
0,211 |
0,378 |
14-16 |
22 |
0,244 |
0,622 |
16-18 |
18 |
0,2 |
0,822 |
18-20 |
16 |
0,178 |
1 |
Razem |
90 |
1 |
x |
Wykres 1. Histogram częstości zmiennej å
Za pomocą histogramu można odczytać jaki odsetek mieszkań zawiera się w poszczególnych przedziałach zużycia wody.
Wykres 2. Histogram częstości skumulowanych zmiennej x
2.1. Miary średnie
Średnia arytmetyczna
Zużycie wody w m3 (x0i-x1i> |
Liczba mieszkań ni |
Środek przedziału
|
|
10-12 |
15 |
11 |
165 |
12-14 |
19 |
13 |
247 |
14-16 |
22 |
15 |
330 |
16-18 |
18 |
17 |
306 |
18-20 |
16 |
19 |
304 |
Razem |
90 |
x |
1352 |
Do wyliczenia średniej arytmetycznej w szeregu przedziałowym stosuje się następujący wzór:
tak więc po podstawieniu do wzoru danych z tabeli średnia arytmetyczna wyniesie:
Średnie zużycie wody przypadające na każde z badanych mieszkań wynosi około 15 m3.
Średnie pozycyjne
Zużycie wody w m3 (x0i-x1i> |
Liczba mieszkań ni |
nisk |
10-12 |
15 |
15 |
Q1 12-14 |
19 |
34 |
D, Q2 14-16 |
22 |
56 |
Q3 16-18 |
18 |
74 |
18-20 |
16 |
90 |
Razem |
90 |
x |
Dominanta jest to wartość cechy którą posiada największa liczba jednostek badanej zbiorowości i w przypadku szeregu przedziałowego wylicza się ją za pomocą wzoru:
gdzie:
x0D- dolna granica przedziału w którym znajduje się dominanta,
nD- liczebność przedziału dominanty,
nd-1- liczebność przedziału poprzedzającego przedział dominanty,
nD+1- liczebność przedziału następnego po przedziale dominanty,
hD- rozpiętość przedziału dominanty.
Analizując dane z powyższej tabeli można stwierdzić, iż dominanta znajduje się w przedziale 14-16 m3 zużycia wody, a wskazać ją dokładnie po podstawieniu danych do powyższego wzoru:
Dominantę obrazuje wykres 3.
Wykres 3. Graficzna prezentacja dominanty
Wykres prezentuje nam w którym przedziale zawiera się dominanta.
Znając dominantę można stwierdzić, iż w badanych mieszkaniach najczęściej spotykane zużycie wody wyniosło 14,857 m3.
Kwartyle
Z pośród kwartyli wyróżnia się kwartyl pierwszy, kwartyl drugi (inaczej mediana), kwartyl trzeci.
Kwartyl pierwszy dzieli zbiorowość uporządkowaną na dwie części w ten sposób,że 25% jednostek ma wartości cechy niższe a 75% wyższe od kwartyla pierwszego.
Mediana dzieli zbiorowość uporządkowaną na dwie równe części w ten sposób, że 50% ma wartości cechy niższe i 50 % wyższe od mediany.
Natomiast w przypadku kwartyla trzeciego 75% przybiera wartości niższe a 25% wyższe od kwartyla trzeciego.
Żeby wyliczyć kwartyle w szeregach przedziałowych trzeba najpierw wskazać pozycje kwartyli. Wylicza się to w następujący sposób:
,
,
.
Znając kolejne pozycje korzysta się dalej z danych poszczególnych przedziałów odpowiadającym kwartylom i podstawia się do wzorów:
,
,
,
gdzie:
x...- dolna granica przedziału...,
N- ogólna liczba liczebności,
- suma liczebności od przedziału 1-go do tego, w którym znajdują się odpowiednio Q1, Me, Q3,
n...- liczebności przedziałów...,
h...- odpowiednie rozpiętości przedziałów.
,
,
.
,
,
.
W 25% mieszkań zużycie wody wyniosło mniej niż 12,789 m3, a w 75% mieszkań zużycie było większe od 12,789 m3. O tym mówi kwartyl pierwszy.
Na podstawie mediany w 50% mieszkań zaobserwowano zużycie wody poniżej m3, zaś w pozostałych 50% mieszkań więcej niż 15 m3.
Kwartyl trzeci podaje, że zużycie wody w 75% mieszkań kształtowało się poniżej 17,278 m3. Na 25% mieszkań przypada zużycie wody powyżej 17,278 m3.
2.2. Miary zmienności
Zużycie wody w m3 (x0i-x1i> |
Liczba mieszkań ni |
|
|
( |
( |
( |
10-12 |
15 |
11 |
-4,022 |
-60,33 |
16,176 |
242,64 |
12-14 |
19 |
13 |
-2,022 |
-38,418 |
4,088 |
77,672 |
14-16 |
22 |
15 |
-0,022 |
-0,484 |
0,001 |
0,022 |
16-18 |
18 |
17 |
1,978 |
35,604 |
3,912 |
70,416 |
18-20 |
16 |
19 |
3,978 |
63,648 |
15,824 |
253,184 |
Razem |
90 |
x |
x |
0,02 |
x |
643,934 |
Odchylenie przeciętne
Za pomocą odchylenia przeciętnego określa się, o ile wszystkie jednostki różnią się średnio ze względu na wartość zmiennej od średniej arytmetycznej tej zmiennej. Odchylenie przeciętne oblicza się następująco:
Zużycie wody różni się średnio ze względu na wartość zmiennej od średniej arytmetycznej o 0,0002 m3.
Odchylenie ćwiartkowe
Odchylenie ćwiartkowe bada poziom zróżnicowania tylko części jednostek badanej zbiorowości (po odrzuceniu 25% jednostek o wartościach najniższych oraz 25% o wartościach najwyższych). Odchylenie ćwiartkowe mierzy więc średnią w połowie obszaru zmienności.
Zużycie wody w połowie obszaru zmienności wynosi 2,245 m3.
Wariancja
Wariancja jest miarą zróżnicowania. Im zbiorowość jest bardziej zróżnicowana tym wyższa jest wartość wariancji.
Odchylenie standardowe
Odchylenie standardowe określa, o ile wszystkie jednostki różnią się średnio od średniej arytmetycznej badanej zmiennej.
Odchylenie standardowe precyzyjniej obrazuje dane i podaje dokładniejsze wartości niż na przykład odchylenie ćwiartkowe ponieważ obliczane jest na podstawie wszystkich obserwacji. Dlatego też odchylenie standardowe używane jest najczęściej do wyznaczania miar zmienności.
W tym przypadku odchylenie standardowe wynosi 2,675 co oznacza, że zużycie wody różni się przeciętnie od średniego zużycia wody o 2,675 m3.
Współczynnik zmienności
Na podstawie odchylenia standardowego oraz średniej arytmetycznej liczony jest współczynnik zmienności, który wykazuje zróżnicowanie wartości w procentach.
Zróżnicowanie zużycia wody jest niewielkie.
Typowy obszar zmienności
,
(15,022-2,675,15,022+2,675),
(12,347;17,697).
Typowe zużycie wody mieści się w przedziale od 12,347 m3 do 17,697 m3.
2.3. Miary asymetrii
Oceniając asymetrię (skośność) rozkładu badamy czy przeważająca liczba jednostek znajduje się powyżej czy poniżej przeciętnego poziomu badanej cechy.
Powyższy wynik wykazuje, że asymetria jest prawostronna bardzo słaba. W większości badanych mieszkań zużycie wody było trochę niższe od średniego zużycia wody.
O tym, że asymetria jest prawostronna decyduje zależność:
>Me>D.w tym przypadku zależność ta została spełniona czyli 15,022>15>14,857.
Rozkład asymetrii można też zaprezentować na wykresie lecz w tym przypadku byłby mało czytelny.
2.4. Miary koncentracji
Koncentracja jest rozumiana jako nierównomierny podział zjawiska w zbiorowości oraz koncentrację zbiorowości wokół średniej (kurtoza).
Do obliczania siły koncentracji stosuje się dwie metody: graficzną i analityczną. Graficzna metoda polega na wykreśleniu „wieloboku koncentracji Lorenza”.
Zużycie wody w m3 (x0i-x1i> |
Liczba mieszkań ni |
Łączne zużycie wody zi |
Częstości względne |
Skumulowane częstości względne |
||
|
|
|
Liczby mieszkań |
Łącznego zużycia wody |
Liczby mieszkań |
Łącznego zużycia wody |
10-12 |
15 |
164 |
16,7 |
11,8 |
16,7 |
11,8 |
12-14 |
19 |
257 |
21,1 |
18,6 |
37,8 |
30,4 |
14-16 |
22 |
340 |
24,4 |
24,5 |
62,2 |
54,9 |
16-18 |
18 |
314 |
20 |
22,7 |
82,2 |
77,6 |
18-20 |
16 |
310 |
17,8 |
22,4 |
100 |
100 |
Razem |
90 |
1385 |
100 |
100 |
x |
x |
Wykres 4. Wielobok koncentracji Lorenza dla zmiennej x.
a=5000-P=509,96
Zużycie wody w m3 (x0i-x1i> |
Liczba mieszkań ni |
|
|
( |
( |
10-12 |
15 |
11 |
-4,022 |
261,679 |
3925,185 |
12-14 |
19 |
13 |
-2,022 |
16,716 |
317,604 |
14-16 |
22 |
15 |
-0,022 |
0,001 |
0,022 |
16-18 |
18 |
17 |
1,978 |
15,308 |
275,544 |
18-20 |
16 |
19 |
3,978 |
250,414 |
4006,624 |
Razem |
90 |
x |
x |
x |
8524,979 |
Kurtoza
Koncentracja zużycia wody wokół śreniej wynosi 1,364 m3.
3. Analiza zmiennej y
Szereg punktowy dla zmiennej y
Liczba mieszkańców yj |
Liczba mieszkań nj |
Częstości fj |
Częstości skumulowane fjsk |
2 |
15 |
0,167 |
0,167 |
3 |
27 |
0,3 |
0,467 |
3 |
18 |
0,2 |
0,667 |
5 |
20 |
0,222 |
0,889 |
6 |
6 |
0,067 |
0,956 |
7 |
4 |
0,044 |
1 |
Razem |
90 |
1 |
x |
Wykres 5. Histogram częstości zmiennej y
Histogram prezentuje ile badanych mieszkań zamieszkuje poszczególna liczba mieszkańców.
Wykres 6. Histogram częstości skumulowanych zmiennej y
3.1. Miary średnie
Średnia arytmetyczna
Liczba mieszkańców yj |
Liczba mieszkań nj |
yj*nj |
2 |
15 |
30 |
3 |
27 |
81 |
3 |
18 |
72 |
5 |
20 |
100 |
6 |
6 |
36 |
7 |
4 |
28 |
Razem |
90 |
347 |
Biorąc pod uwagę ilość mieszkańców na każde mieszkanie średnio przypada 3,856 mieszkańca.
Średnie pozycyjne
Liczba mieszkańców yj |
Liczba mieszkań nj |
njsk |
2 |
15 |
15 |
3 |
27 |
42 |
3 |
18 |
60 |
5 |
20 |
80 |
6 |
6 |
86 |
7 |
4 |
90 |
Razem |
90 |
x |
Wykres 7. Dominanta zmiennej y
Przy powyższych danych przedstawionych w tabeli nie da się obliczyć dominanty. Z wykresu 6 wiadomo, iż jest on dwumodalny ponieważ widać dwa górujące słupki. Nie da się określić jaka liczba mieszkańców zamieszkujących poszczególne mieszkania występuje najczęściej.
Kwartyle
W szeregach punktowych oblicza się pozycję kwartyla, następnie odczytuje się wartości cech badanej zbiorowości.
Pozycje kwartyli:
,
,
.
Wartości kwartyli:
Q1=3, Q2=Me=4, Q3=5.
Q1- W 25% mieszkań mieszka 3 osoby lub mniej, a 75% mieszkań zamieszkuje powyżej 3 osób.
Me- 50% badanych mieszkań zamieszkuje 4 lub mniej osób, zaś kolejne 50% mieszkań zamieszkuje 5, 6 lub 7 osób.
Q3- Liczba osób zamieszkujących 75% mieszkań jest mniejsza lub równa 5, a w 25 mieszkań liczba mieszkańców jest większa od 5.
3.2. Miary zmienności
Liczba mieszkańców yj |
Liczba mieszkań nj |
yj- |
(yj- |
(yj- |
2 |
15 |
-1,856 |
3,445 |
51,675 |
3 |
27 |
-0,856 |
0,733 |
19,791 |
4 |
18 |
0,144 |
0,021 |
0,378 |
5 |
20 |
1,144 |
1,309 |
26,18 |
6 |
6 |
2,144 |
4,597 |
27,582 |
7 |
4 |
3,144 |
9,885 |
39,54 |
Razem |
90 |
x |
x |
165,146 |
Wariancja
Odchylenie standardowe
Ilość mieszkańców różni się średnio od średniej arytmetycznej ilości mieszkańców przypadających na jedno mieszkanie o 1,355 osoby.
Współczynnik zmienności
Współczynnik zmienności wykazuje średni stopień zróżnicowania mieszkań pod względem ilości mieszkańców.
Typowy obszar zmienności
,
(3,856-1,355;3,856+1,355),
(2,501;5,211).
Typowa liczba mieszkańców w badanych mieszkaniach mieści się w przedziale od 2,501 do 5,211 osoby.
3.3. Miary asymetrii
W przypadku rozkładów dwumodalnych, gdy nie da się obliczyć dominanty do obliczenia współczynnika asymetrii stosuje się klasyczny wzór współczynnika skośności:
, gdzie
Liczba mieszkańców yj |
Liczba mieszkań nj |
yj- |
(yj- |
(yj- |
2 |
15 |
-1,856 |
-6,393 |
-95,895 |
3 |
27 |
-0,856 |
-0,627 |
-16,929 |
4 |
18 |
0,144 |
0,003 |
0,054 |
5 |
20 |
1,144 |
1,497 |
29,94 |
6 |
6 |
2,144 |
9,855 |
59,13 |
7 |
4 |
3,144 |
31,078 |
124,312 |
Razem |
90 |
x |
x |
100,612 |
, s=1,355, s3=2,488.
Asymetria jest umiarkowana i prawostronna. Przeważają mieszkania o liczbie mieszkańców mniejszej od średniej mieszkańców przypadających na jedno mieszkanie.
3.4. Miary koncentracji
Liczba mieszkańców yj |
Liczba mieszkań nj |
Łączna liczba mieszkańców zj |
Częstości względne |
Skumulowane częstości względne |
||
|
|
|
Liczby mieszkań |
Łącznej liczby mieszkańców |
Liczby mieszkań |
Łącznej liczby mieszkańców |
2 |
15 |
30 |
16,7 |
8,6 |
16,7 |
8,6 |
3 |
27 |
81 |
30 |
23,3 |
46,7 |
31,9 |
4 |
18 |
72 |
20 |
20,7 |
66,7 |
52,6 |
5 |
20 |
100 |
22,2 |
28,8 |
88,9 |
81,4 |
6 |
6 |
36 |
6,7 |
10,4 |
95,6 |
91,8 |
7 |
4 |
28 |
4,4 |
8,2 |
100 |
100 |
Razem |
90 |
374 |
100 |
100 |
x |
x |
Wykres 8. Wielobok koncentracji Lorenza dla zmiennej y
a=5000-P=986,11
Liczba mieszkańców yj |
Liczba mieszkań nj |
yj- |
(yj- |
(yj- |
2 |
15 |
-1,856 |
11,866 |
177,99 |
3 |
27 |
-0,856 |
0,537 |
14,499 |
4 |
18 |
0,144 |
0,001 |
0,018 |
5 |
20 |
1,144 |
1,713 |
34,26 |
6 |
6 |
2,144 |
21,129 |
126,774 |
7 |
4 |
3,144 |
97,708 |
390,832 |
Razem |
90 |
x |
x |
744,373 |
Koncentracja liczby mieszkańców wokół średniej wynosi 2,454 osoby.
4. Analiza dwóch zmiennych
Celem badania związków korelacyjnych jest stwierdzenie, czy między badanymi zmiennymi zachodzą jakieś zależności, jaka jest ich siła, jaki jest ich kształt i kierunek. Ponieważ zużycie wody jest związane z osobami je zamieszkującymi można uznać za celowe analizę związków pomiędzy nimi.
W celu stwierdzenia istnienia lub braku związku korelacyjnego konstruujemy tablicę korelacyjną.
Zużycie wody w m3 |
Liczba mieszkańców |
Razem |
|||||
|
2 |
3 |
4 |
5 |
6 |
7 |
|
10-12 |
6 |
6 |
2 |
1 |
0 |
0 |
15 |
12-14 |
5 |
7 |
4 |
3 |
0 |
0 |
19 |
14-16 |
3 |
10 |
5 |
3 |
1 |
0 |
22 |
16-18 |
1 |
2 |
5 |
7 |
2 |
1 |
18 |
18-20 |
0 |
2 |
2 |
6 |
3 |
3 |
16 |
Razem |
15 |
27 |
18 |
20 |
6 |
4 |
90 |
Na podstawie tej tablicy możemy wstępnie stwierdzić, że pomiędzy zmiennymi zachodzi dodatnia korelacja liniowa. Świadczy o tym skupienie największych wartości na przekątnej tablicy korelacyjnej.
W tablicy korelacyjnej możemy wydzielić dwa rodzaje rozkładów:
1. Rozkład brzegowy- na jego podstawie możemy określić jak kształtują się wartości jednej zmiennej, bez względu na zmianę wartości drugiej zmiennej
2.Rozkład warunkowy- pozwala przeanalizować w jaki sposób zmienia się wartość zużycia wody, pod warunkiem, że mieszkanie zamieszkuje określona ilość mieszkańców, lub odwrotnie.
Podstawowymi wielkościami charakteryzującymi rozkład warunkowy są średnia arytmetyczna i wariancja (lub odchylenie standardowe), których wyliczenia znajdują się w poniższych tabelach:
Z powodu wcześniejszego rozpatrywania obu zmiennych jako niezależnych badanie rozkładu brzegowego zostaje pominięte.
Rozkłady warunkowe
x dla y=2
x/y1
x0i-x1i |
ni |
|
|
x2 |
x2*ni |
10-12 |
6 |
11 |
66 |
121 |
726 |
12-14 |
5 |
13 |
65 |
169 |
845 |
14-16 |
3 |
15 |
45 |
225 |
675 |
16-18 |
1 |
17 |
17 |
289 |
289 |
18-20 |
- |
19 |
0 |
361 |
0 |
Razem |
15 |
x |
193 |
x |
2535 |
x dla y=3
x/y2
x0i-x1i |
ni |
|
|
x2 |
x2*ni |
10-12 |
6 |
11 |
66 |
121 |
726 |
12-14 |
7 |
13 |
91 |
169 |
1183 |
14-16 |
10 |
15 |
150 |
225 |
2250 |
16-18 |
2 |
17 |
34 |
289 |
578 |
18-20 |
2 |
19 |
38 |
361 |
722 |
Razem |
27 |
x |
379 |
x |
5459 |
x dla y=4
x/y3
x0i-x1i |
ni |
|
|
x2 |
x2*ni |
10-12 |
2 |
11 |
22 |
121 |
242 |
12-14 |
4 |
13 |
52 |
169 |
676 |
14-16 |
5 |
15 |
75 |
225 |
1125 |
16-18 |
5 |
17 |
85 |
289 |
1445 |
18-20 |
2 |
19 |
38 |
361 |
722 |
Razem |
18 |
x |
272 |
x |
4210 |
x dla y=5
x/y4
x0i-x1i |
ni |
|
|
x2 |
x2*ni |
10-12 |
1 |
11 |
11 |
121 |
121 |
12-14 |
3 |
13 |
39 |
169 |
507 |
14-16 |
3 |
15 |
45 |
225 |
675 |
16-18 |
7 |
17 |
119 |
289 |
2023 |
18-20 |
6 |
19 |
114 |
361 |
2166 |
Razem |
20 |
x |
328 |
x |
5492 |
x dla y=6
x/y5
x0i-x1i |
ni |
|
|
x2 |
x2*ni |
10-12 |
0 |
11 |
0 |
121 |
0 |
12-14 |
0 |
13 |
0 |
169 |
0 |
14-16 |
1 |
15 |
15 |
225 |
225 |
16-18 |
2 |
17 |
34 |
289 |
578 |
18-20 |
3 |
19 |
57 |
361 |
1083 |
Razem |
6 |
x |
106 |
x |
1886 |
x dla y=7
x/y6
x0i-x1i |
ni |
|
|
x2 |
x2*ni |
10-12 |
0 |
11 |
0 |
121 |
0 |
12-14 |
0 |
13 |
0 |
169 |
0 |
14-16 |
0 |
15 |
0 |
225 |
0 |
16-18 |
1 |
17 |
17 |
289 |
289 |
18-20 |
3 |
19 |
57 |
361 |
1083 |
Razem |
4 |
x |
74 |
x |
1372 |
y dla x=10-12
y/x1
y0j-y1j |
Nj |
|
y2j |
y2j*nj |
2 |
6 |
12 |
4 |
24 |
3 |
6 |
18 |
9 |
54 |
4 |
2 |
8 |
16 |
32 |
5 |
1 |
5 |
25 |
25 |
6 |
0 |
0 |
36 |
0 |
7 |
0 |
0 |
49 |
0 |
Razem |
15 |
43 |
x |
135 |
y dla x=12-14
y/x2
y0j-y1j |
Nj |
|
y2j |
y2j*nj |
2 |
5 |
10 |
4 |
20 |
3 |
7 |
21 |
9 |
63 |
4 |
4 |
16 |
16 |
64 |
5 |
3 |
15 |
25 |
75 |
6 |
0 |
0 |
36 |
0 |
7 |
0 |
0 |
49 |
0 |
Razem |
19 |
62 |
x |
222 |
y dla x=14-16
y/x3
y0j-y1j |
Nj |
|
y2j |
y2j*nj |
2 |
3 |
6 |
4 |
12 |
3 |
10 |
30 |
9 |
90 |
4 |
5 |
20 |
16 |
80 |
5 |
3 |
15 |
25 |
75 |
6 |
1 |
6 |
36 |
36 |
7 |
0 |
0 |
49 |
0 |
Razem |
22 |
77 |
x |
293 |
y dla x=16-18
y/x4
y0j-y1j |
Nj |
|
y2j |
y2j*nj |
2 |
1 |
2 |
4 |
4 |
3 |
2 |
6 |
9 |
18 |
4 |
5 |
20 |
16 |
80 |
5 |
7 |
35 |
25 |
175 |
6 |
2 |
12 |
36 |
72 |
7 |
1 |
7 |
49 |
49 |
Razem |
18 |
82 |
x |
398 |
y dla x=18-20
y/x5
y0j-y1j |
Nj |
|
y2j |
y2j*nj |
2 |
0 |
0 |
4 |
0 |
3 |
2 |
6 |
9 |
18 |
4 |
2 |
8 |
16 |
32 |
5 |
6 |
30 |
25 |
150 |
6 |
3 |
18 |
36 |
108 |
7 |
3 |
21 |
49 |
147 |
Razem |
16 |
83 |
x |
455 |
Z powyższych wyników możemy wywnioskować, że istnieje korelacja dodatnia pomiędzy zużyciem wody, a ilością osób je zamieszkujących, gdyż wraz ze wzrostem wartości średnich warunkowych jednej zmiennej obserwujemy wzrost wartości średnich warunkowych drugiej zmiennej.
12,867<14,04<15,111<16,4<17,667<18,5
2,867<3,26<3,5<4,5<5,18
Wiedząc, że zachodzi korelacja pomiędzy badanymi zmiennymi porównujemy wariancje warunkowe. Porównując je możemy stwierdzić, że wraz ze wzrostem ilości mieszkańców zamieszkujących określone mieszkanie wzrasta prawdopodobieństwo zużycia większej ilości wody. Jeżeli zostanie zaobserwowane większe zużycie wody w mieszkaniu zwiększa się prawdopodobieństwo, że zamieszkuje w nim więcej osób.
s2/x1≠ s2/x2≠ s2/x3≠s2/x4 ≠s2/x5
0,78≠1,05≠1,06≠1,86≠1,605
s2/y1≠ s2/y2≠ s2/y3≠s2/y4 ≠s2/y5≠s2/y6
3,44≠5,06≠5,054≠5,64≠2,21≠0,75
Aby określić rodzaj zależności porównujemy różnice między średnimi wartościami danej zmiennej, obliczanymi dla konkretnych wariantów drugiej zmiennej.
Na podstawie otrzymanych wyników nie można stwierdzić liniowego związku pomiędzy zmiennymi, gdyż nie zachodzą następujące równości:
4.1. Kowariancja
W celu dokładnego określenia rodzaju oraz siły zależności stosowany jest współczynnik korelacji Pearsona. Aby go wyznaczyć należy obliczyć kowariancję.
|
|
|||||
|
-1,856 |
-0,856 |
0,144 |
1,144 |
2,144 |
3,144 |
-4,022 |
6 |
6 |
2 |
1 |
0 |
0 |
-2,022 |
5 |
7 |
4 |
3 |
0 |
0 |
-0,022 |
3 |
10 |
5 |
3 |
1 |
0 |
1,978 |
1 |
2 |
5 |
7 |
2 |
1 |
3,978 |
0 |
2 |
2 |
6 |
3 |
3 |
cov(x,y)=cov(y,x)=
=2,123
Kowariancja przyjęła wartość dodatnią, świadczy to o tym, że pomiędzy zmiennymi zachodzi korelacja dodatnia.
4.2. Współczynnik korelacji liniowej Pearsona oraz wskaźnik korelacji Pearsona
Na podstawie kowariancji nie można określić natężenia współzależności liniowej, z tego powodu obliczamy współczynnik korelacji liniowej Pearsona oraz wskaźnik korelacji Pearsona.
Wartość bezwzględna współczynnika korelacji liniowej może przyjmować wartości z zakresu <0,1>, w tym przypadku wynosi 0,542. Na tej podstawie można stwierdzić znaczną zależność pomiędzy dwiema cechami.
Stosunku korelacyjnego eyx nie ma sensu tu obliczać, gdyż zależność przyczynowo skutkowa między zmiennymi jest jednostronna. Zużycie wody w mieszkaniu jest zależne od liczby osób je zamieszkujących.
4.3. Stopień krzywoliniowości
Z otrzymanych wyników współczynnika korelacji liniowej Pearsona oraz wskaźnika korelacji Pearsona obliczamy stopień krzywoliniowości.
Obliczony powyżej stopień krzywoliniowości x względem y wynosi 0,044. Regresję między zmiennymi można uznać za liniową, ponieważ jest on mniejszy od 0,2
5. Podsumowanie
Na podstawie tablicy korelacyjnej stwierdziłam liniowość zależności, jednak po obliczeniu średnich warunkowych okazało się, że zależność ta nie jest liniowa. Aby uzyskać dokładne informacje o rodzaju i stopniu zależności wyliczyłam współczynnika korelacji liniowej Pearsona, wskaźnika korelacji Pearsona oraz stopień krzywoliniowości.
Dokonana przeze mnie wszechstronna analiza dwóch zmiennych , którymi są zużycie wody w m3 i osób zamieszkujących poszczególne mieszkania wskazuje, że istnieje dodatnia liniowa zależność między tymi cechami. Oznacza to, że im więcej osób zamieszkuje poszczególne mieszkanie tym na dane mieszkanie przypada większe zużycie wody.