Spis treści:
Zbiór danych..............................................................................................................................2
Statystyka opisowa................ ....................................................................................................7
Charakterystyki liczbowe prób.................................................................................................12
Analiza dwóch zmiennych........................................................................................................17
Podsumowanie..........................................................................................................................26
Bibliografia...............................................................................................................................27
Wstęp
Celem mojego projektu jest zbadanie zależności między dwoma zmiennymi: zmienną X- ilość wizyt na serwerze www.polskietatry.pl a zmienną Y- ilość wizyt na serwerze www.bukowinatatrzanska.pl w przeciągu roku 2004 (dane z każdego nieparzystego dnia miesiąca w celu uzyskania informacji z całego roku).
Dane do projektu wzięłam z Internetu.
Na początku zajęłam się statystyką opisową obu zmiennych, tzn. zbadałam miary położenia, miary rozproszenia i miary asymetrii zmiennych. Następnie zbadałam zależność między tymi zmiennymi i siłę związku między nimi.
Strony te są o podobnej tematyce, jednak różnią się między sobą przede wszystkim szatą graficzną i informacjami, które zawierają. Moim zdaniem strona www.bukowinatatrzanska.pl jest bardziej ciekawsza i bogatsza, zapewne ma to duży wpływ na to, że strona ta cieszy się większą oglądalnością. Wpływ na wysokie notowania wizyt na tej stronie w porównaniu z www.polskietatry.pl ma to że jest ona typową stroną turystyczną, kiedy to ta druga jest stroną poświęconą biurom turystycznym.
Dane:
lp |
data |
Polskie Tatry |
Bukowina Tatrzańska |
|
|
X |
Y |
|
|
wizyty |
wizyty |
1 |
01-sty-04 |
200 |
283 |
2 |
03-sty-04 |
205 |
312 |
3 |
05-sty-04 |
325 |
527 |
4 |
07-sty-04 |
435 |
514 |
5 |
09-sty-04 |
321 |
429 |
6 |
11-sty-04 |
232 |
415 |
7 |
13-sty-04 |
316 |
517 |
8 |
15-sty-04 |
271 |
437 |
9 |
17-sty-04 |
889 |
323 |
10 |
19-sty-04 |
494 |
444 |
11 |
21-sty-04 |
342 |
452 |
12 |
23-sty-04 |
261 |
421 |
13 |
25-sty-04 |
248 |
341 |
14 |
27-sty-04 |
271 |
491 |
15 |
29-sty-04 |
287 |
447 |
16 |
31-sty-04 |
289 |
302 |
17 |
01-lut-04 |
315 |
358 |
18 |
03-lut-04 |
333 |
485 |
19 |
05-lut-04 |
339 |
493 |
20 |
07-lut-04 |
323 |
349 |
21 |
09-lut-04 |
455 |
656 |
22 |
11-lut-04 |
364 |
541 |
23 |
13-lut-04 |
230 |
431 |
24 |
15-lut-04 |
208 |
321 |
25 |
17-lut-04 |
289 |
352 |
26 |
19-lut-04 |
249 |
336 |
27 |
21-lut-04 |
178 |
245 |
28 |
23-lut-04 |
229 |
367 |
29 |
25-lut-04 |
209 |
354 |
30 |
27-lut-04 |
222 |
306 |
31 |
29-lut-04 |
181 |
270 |
32 |
01-mar-04 |
253 |
343 |
33 |
03-mar-04 |
241 |
399 |
34 |
05-mar-04 |
242 |
295 |
35 |
07-mar-04 |
208 |
241 |
36 |
09-mar-04 |
151 |
284 |
37 |
11-mar-04 |
148 |
238 |
38 |
13-mar-04 |
84 |
165 |
39 |
15-mar-04 |
160 |
253 |
40 |
17-mar-04 |
121 |
248 |
41 |
19-mar-04 |
112 |
228 |
42 |
21-mar-04 |
81 |
162 |
43 |
23-mar-04 |
126 |
189 |
44 |
25-mar-04 |
137 |
223 |
45 |
27-mar-04 |
61 |
172 |
46 |
29-mar-04 |
143 |
184 |
47 |
31-mar-04 |
124 |
200 |
48 |
01-kwi-04 |
131 |
191 |
49 |
03-kwi-04 |
88 |
124 |
50 |
05-kwi-04 |
121 |
164 |
51 |
07-kwi-04 |
109 |
169 |
52 |
09-kwi-04 |
113 |
163 |
53 |
11-kwi-04 |
50 |
80 |
54 |
13-kwi-04 |
124 |
144 |
55 |
15-kwi-04 |
141 |
135 |
56 |
17-kwi-04 |
72 |
103 |
57 |
19-kwi-04 |
124 |
138 |
58 |
21-kwi-04 |
117 |
142 |
59 |
23-kwi-04 |
122 |
113 |
60 |
25-kwi-04 |
102 |
139 |
61 |
27-kwi-04 |
153 |
195 |
62 |
29-kwi-04 |
106 |
140 |
63 |
01-maj-04 |
99 |
105 |
64 |
03-maj-04 |
96 |
168 |
65 |
05-maj-04 |
129 |
141 |
66 |
07-maj-04 |
117 |
154 |
67 |
09-maj-04 |
102 |
152 |
68 |
11-maj-04 |
133 |
119 |
69 |
13-maj-04 |
3 |
10 |
70 |
15-maj-04 |
61 |
119 |
71 |
17-maj-04 |
3 |
8 |
72 |
19-maj-04 |
115 |
155 |
73 |
21-maj-04 |
136 |
184 |
74 |
23-maj-04 |
87 |
197 |
75 |
25-maj-04 |
136 |
191 |
76 |
27-maj-04 |
150 |
145 |
77 |
29-maj-04 |
87 |
133 |
78 |
31-maj-04 |
150 |
205 |
79 |
01-cze-04 |
172 |
164 |
80 |
03-cze-04 |
170 |
165 |
81 |
05-cze-04 |
113 |
128 |
82 |
07-cze-04 |
234 |
192 |
83 |
09-cze-04 |
170 |
205 |
84 |
11-cze-04 |
115 |
139 |
85 |
13-cze-04 |
133 |
118 |
86 |
15-cze-04 |
165 |
198 |
87 |
17-cze-04 |
184 |
192 |
88 |
19-cze-04 |
106 |
158 |
89 |
21-cze-04 |
203 |
210 |
90 |
23-cze-04 |
146 |
186 |
91 |
25-cze-04 |
151 |
193 |
92 |
27-cze-04 |
112 |
200 |
93 |
29-cze-04 |
172 |
219 |
94 |
01-lip-04 |
201 |
230 |
95 |
03-lip-04 |
163 |
200 |
96 |
05-lip-04 |
207 |
266 |
97 |
07-lip-04 |
220 |
268 |
98 |
09-lip-04 |
177 |
296 |
99 |
11-lip-04 |
180 |
254 |
100 |
13-lip-04 |
200 |
292 |
101 |
15-lip-04 |
225 |
318 |
102 |
17-lip-04 |
106 |
231 |
103 |
19-lip-04 |
197 |
275 |
104 |
21-lip-04 |
253 |
261 |
105 |
23-lip-04 |
149 |
271 |
106 |
25-lip-04 |
144 |
242 |
107 |
27-lip-04 |
254 |
343 |
108 |
29-lip-04 |
188 |
316 |
109 |
31-lip-04 |
118 |
187 |
110 |
01-sie-04 |
134 |
247 |
111 |
03-sie-04 |
232 |
333 |
112 |
05-sie-04 |
162 |
314 |
113 |
07-sie-04 |
121 |
230 |
114 |
09-sie-04 |
203 |
344 |
115 |
11-sie-04 |
220 |
372 |
116 |
13-sie-04 |
231 |
387 |
117 |
15-sie-04 |
158 |
267 |
118 |
17-sie-04 |
219 |
263 |
119 |
19-sie-04 |
221 |
218 |
120 |
21-sie-04 |
126 |
188 |
121 |
23-sie-04 |
175 |
202 |
122 |
25-sie-04 |
155 |
165 |
123 |
27-sie-04 |
180 |
194 |
124 |
29-sie-04 |
118 |
160 |
125 |
31-sie-04 |
193 |
169 |
126 |
01-wrz-04 |
203 |
195 |
127 |
03-wrz-04 |
177 |
211 |
128 |
05-wrz-04 |
101 |
196 |
129 |
07-wrz-04 |
212 |
256 |
130 |
09-wrz-04 |
247 |
255 |
131 |
11-wrz-04 |
111 |
187 |
132 |
13-wrz-04 |
198 |
258 |
133 |
15-wrz-04 |
181 |
220 |
134 |
17-wrz-04 |
206 |
181 |
135 |
19-wrz-04 |
136 |
152 |
136 |
21-wrz-04 |
207 |
284 |
137 |
23-wrz-04 |
190 |
296 |
138 |
25-wrz-04 |
140 |
233 |
139 |
27-wrz-04 |
227 |
300 |
140 |
29-wrz-04 |
319 |
400 |
141 |
01-paź-04 |
185 |
236 |
142 |
03-paź-04 |
183 |
233 |
143 |
05-paź-04 |
248 |
330 |
144 |
07-paź-04 |
219 |
353 |
145 |
09-paź-04 |
171 |
319 |
146 |
11-paź-04 |
289 |
494 |
147 |
13-paź-04 |
192 |
342 |
148 |
15-paź-04 |
239 |
278 |
149 |
17-paź-04 |
167 |
336 |
150 |
19-paź-04 |
265 |
336 |
151 |
21-paź-04 |
265 |
332 |
152 |
23-paź-04 |
182 |
271 |
153 |
25-paź-04 |
277 |
495 |
154 |
27-paź-04 |
271 |
407 |
155 |
29-paź-04 |
217 |
307 |
156 |
31-paź-04 |
160 |
223 |
157 |
01-lis-04 |
212 |
302 |
158 |
03-lis-04 |
257 |
399 |
159 |
05-lis-04 |
275 |
329 |
160 |
07-lis-04 |
283 |
400 |
161 |
09-lis-04 |
351 |
406 |
162 |
11-lis-04 |
279 |
379 |
163 |
13-lis-04 |
267 |
405 |
164 |
15-lis-04 |
362 |
509 |
165 |
17-lis-04 |
366 |
402 |
166 |
19-lis-04 |
452 |
654 |
167 |
21-lis-04 |
301 |
649 |
168 |
23-lis-04 |
369 |
503 |
169 |
25-lis-04 |
362 |
567 |
170 |
27-lis-04 |
373 |
477 |
171 |
29-lis-04 |
419 |
627 |
172 |
01-gru-04 |
586 |
721 |
173 |
03-gru-04 |
412 |
508 |
174 |
05-gru-04 |
451 |
510 |
175 |
07-gru-04 |
430 |
635 |
176 |
09-gru-04 |
587 |
648 |
177 |
11-gru-04 |
401 |
586 |
178 |
13-gru-04 |
538 |
683 |
179 |
15-gru-04 |
481 |
697 |
180 |
17-gru-04 |
518 |
696 |
181 |
19-gru-04 |
619 |
718 |
182 |
21-gru-04 |
655 |
783 |
183 |
23-gru-04 |
571 |
672 |
184 |
25-gru-04 |
695 |
763 |
185 |
27-gru-04 |
756 |
999 |
186 |
29-gru-04 |
698 |
849 |
187 |
31-gru-04 |
434 |
562 |
Statystyka opisowa
Szereg rozdzielczy
Liczba przedziałów i szerokość przedziałów:
k- liczba przedziałów
n- liczba przypadków (n=187)
b- szerokość przedziału
R- rozstęp
|
X |
Y |
X max |
889 |
999 |
X min |
3 |
8 |
R |
886 |
991 |
n |
187 |
|
k |
6,84<k<13,67 |
|
b |
64,8<b<129,5 |
72,5<b<144,9 |
Dla obu zmiennych przyjmuję liczbę klas 10 i szerokość przedziałów 100.
Tabele rozdzielcze:
Zmienna X- serwer Polskie Tatry
nr klasy |
klasa |
środek klasy |
liczność |
częstość |
liczebność skumulowana |
częstość skumulowana |
i |
<a,b) |
xi |
ni |
fi=ni/n |
cni:=Σ ni |
Fi:=cni/n |
1 |
<0,100) |
50 |
13 |
0,07 |
13 |
0,07 |
2 |
<100,200) |
150 |
79 |
0,42 |
92 |
0,49 |
3 |
<200,300) |
250 |
56 |
0,30 |
148 |
0,79 |
4 |
<300,400) |
350 |
17 |
0,09 |
165 |
0,88 |
5 |
<400,500) |
450 |
11 |
0,06 |
176 |
0,94 |
6 |
<500,600) |
550 |
5 |
0,03 |
181 |
0,97 |
7 |
<600,700) |
650 |
4 |
0,02 |
185 |
0,99 |
8 |
<700,800) |
750 |
1 |
0,01 |
186 |
0,99 |
9 |
<800,900) |
850 |
1 |
0,01 |
187 |
1,00 |
10 |
<900,1000) |
950 |
0 |
0,00 |
187 |
1,00 |
Zmienna Y- serwer Bukowina Tatrzańska
nr klasy |
klasa |
środek klasy |
liczność |
częstość |
liczebność skumulowana |
częstość skumulowana |
i |
<a,b) |
xi |
ni |
fi=ni/n |
cni:=Σ ni |
Fi:=cni/n |
1 |
<0,100) |
50 |
3 |
0,02 |
3 |
0,02 |
2 |
<100,200) |
150 |
54 |
0,29 |
57 |
0,30 |
3 |
<200,300) |
250 |
48 |
0,26 |
105 |
0,56 |
4 |
<300,400) |
350 |
35 |
0,19 |
140 |
0,75 |
5 |
<400,500) |
450 |
20 |
0,11 |
160 |
0,86 |
6 |
<500,600) |
550 |
11 |
0,06 |
171 |
0,91 |
7 |
<600,700) |
650 |
10 |
0,05 |
181 |
0,97 |
8 |
<700,800) |
750 |
4 |
0,02 |
185 |
0,99 |
9 |
<800,900) |
850 |
1 |
0,01 |
186 |
0,99 |
10 |
<900,1000) |
950 |
1 |
0,01 |
187 |
1,00 |
Histogramy:
Wykresy liczebności skumulowanej:
Charakterystyki liczbowe prób
MIARY POŁOŻENIA
Średnia ważona
c- dowolna stała. Przyjęłam ją jako Dominantę, czyli środek klasy najbardziej licznej.
n- liczba prób
xi- środki przedziałów klasowych
ni- liczność poszczególnych klas
Mediana- kwartyl środkowy Q2
xL- dolna granica klasy medianowej z numerem i=iME
b- szerokość klasy medianowej
niME- liczebność klasy medianowej
Σni- liczebność w klasach przed medianową
Dominanta
DO= środek tej klasy, która ma największą liczebność
Kwartyl dolny
xLQ0,25- dolna granica klasy z numerem i=iQ0,25
b- szerokość tej klasy
niQ0,25- liczebność tej klasy
Σni- liczebność w klasach przed tą zawierającą numer i=iQ0,25
Kwartyl górny
xLQ0,75- dolna granica klasy z numerem i=iQ0,75
b- szerokość tej klasy
niQ0,75- liczebność tej klasy
Σni- liczebność w klasach przed tą zawierającą numer i=iQ0,75
MIARY ROZPROSZENIA
Rozstęp
xmax- największa wartość zmiennej
xmin- najmniejsza wartość zmiennej
Wariancja
Odchylenie standardowe
Współczynnik zmienności
Odchylenie przeciętne
Odchylenie ćwiartkowe
MIARY ASYMETRII
Wskaźnik skośności
Współczynnik skośności
Współczynnik asymetrii
gdzie:
Kurtoza- współczynnik koncentracji
gdzie:
Tabele pomocne do obliczenia charakterystyk liczbowych prób:
POLSKIE TATRY
xi-c |
(xi-c)2 |
ni(xi-c) |
ni(xi-c)2 |
│xi-x│ |
│xi-x│ni |
xi-x |
(xi-x)3*ni |
(xi-x)4*ni |
|
|
|
|
|
|
|
|
|
-100 |
10000 |
-1300 |
130000 |
187,17 |
2433,155 |
-187,17 |
-85235922,48 |
15953247523 |
0 |
0 |
0 |
0 |
87,17 |
6886,096 |
-87,17 |
-52319680,70 |
4560485537 |
100 |
10000 |
5600 |
560000 |
12,83 |
718,7166 |
12,83 |
118385,07 |
1519380,568 |
200 |
40000 |
3400 |
680000 |
112,83 |
1918,182 |
112,83 |
24421451,21 |
2755575511 |
300 |
90000 |
3300 |
990000 |
212,83 |
2341,176 |
212,83 |
106051565,00 |
22571402604 |
400 |
160000 |
2000 |
800000 |
312,83 |
1564,171 |
312,83 |
153078001,25 |
47888037824 |
500 |
250000 |
2000 |
1000000 |
412,83 |
1651,337 |
412,83 |
281440810,45 |
1,16188E+11 |
600 |
360000 |
600 |
360000 |
512,83 |
512,8342 |
512,83 |
134874858,45 |
69168443451 |
700 |
490000 |
700 |
490000 |
612,83 |
612,8342 |
612,83 |
230159567,76 |
1,4105E+11 |
800 |
640000 |
0 |
0 |
712,83 |
0 |
712,83 |
0,00 |
0 |
suma |
16300 |
5010000 |
suma |
18638,5 |
suma |
4238444,04 |
2246720700 |
BUKOWINA TATRZAŃSKA
xi-c |
(xi-c)2 |
ni(xi-c) |
ni(xi-c)2 |
│xi-x│ |
| xi-x | ni |
xi-x |
(xi-x)3*ni |
(xi-x)4*ni |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
-100 |
10000 |
-300 |
30000 |
264,71 |
794,1176 |
-264,71 |
-55643191,53 |
14729080112 |
0 |
0 |
0 |
0 |
164,71 |
8894,118 |
-164,71 |
-241279869,73 |
39740213838 |
100 |
10000 |
4800 |
480000 |
64,71 |
3105,882 |
-64,71 |
-13003867,29 |
841426707,1 |
200 |
40000 |
7000 |
1400000 |
35,29 |
1235,294 |
35,29 |
1538774,68 |
54309694,57 |
300 |
90000 |
6000 |
1800000 |
135,29 |
2705,882 |
135,29 |
49529818,85 |
6701093138 |
400 |
160000 |
4400 |
1760000 |
235,29 |
2588,235 |
235,29 |
143293303,48 |
33716071407 |
500 |
250000 |
5000 |
2500000 |
335,29 |
3352,941 |
335,29 |
376944840,22 |
1,26387E+11 |
600 |
360000 |
2400 |
1440000 |
435,29 |
1741,176 |
435,29 |
329919804,60 |
1,43612E+11 |
700 |
490000 |
700 |
490000 |
535,29 |
535,2941 |
535,29 |
153383065,34 |
82105052621 |
800 |
640000 |
800 |
640000 |
635,29 |
635,2941 |
635,29 |
256403826,58 |
1,62892E+11 |
suma |
30800 |
10540000 |
suma |
25588,24 |
suma |
5353403,77 |
3266195872 |
Tabela charakterystyk liczbowych prób:
Polskie Tatry X |
||
Miary położenia |
||
średnia |
xn |
237,17 |
mediana |
ME |
202,68 |
dominanta |
DO=c |
150 |
kwartyl dolny |
Q1 |
142,72 |
kwartyl górny |
Q3 |
286,16 |
kwartyl środkowy |
Q2 |
ME |
Miary rozproszenia |
||
rozstęp |
R |
886 |
wariancja |
sn2 |
19296,76 |
odchylenie standardowe |
sn |
138,91 |
współczynnik zmienności |
Vs |
58,57 |
odchylenie przeciętne |
d |
99,67 |
odchylenie ćwiartkowe |
Q |
71,72 |
Miary asymetrii |
||
wskaźnik skośności |
Ws |
87,17 |
współczynnik skośności |
As |
0,63 |
współczynnik asymetrii |
As |
1,58 |
kurtoza |
K |
6,04 |
Podsumowanie:
Na podstawie zebranych obliczeń, które dotyczą wizyt na dwóch serwerach: www.polskietatry.pl i www.bukowinatatrzanska.pl w 2004 roku możemy stwierdzić że:
W obu przypadkach dobowy bilans liczby wizyt na serwerach najczęściej przypada na przedziały 100-200.
Z histogramu widać że rozkład empiryczny jest asymetryczny prawostronnie.
W obu przypadkach zmiennych współczynniki asymetrii mają wartość dodatnią co również świadczy o prawostronnej asymetrii rozkładów.
Dodatnie wartości kurtozy wskazują na kształt spiczasty rozkładu.
Porównując współczynniki zmienności Vs z obu rozkładów można wnioskować, że w przypadku serwera polskietatry jest niewiele większe względne zróżnicowanie wizyt.
Analiza dwóch zmiennych
Współzależność
Badanie niezależności - test chi-kwadrat χ2 :
Test ten należy do najważniejszych testów badania niezależności statystycznej.
Przeprowadzając ten test stawiamy hipotezę:
H0: cechy X i Y są niezależne
H1: istnieje zależność między badanymi cechami
gdzie:
jest to liczebność teoretyczna
n.i- suma liczebności i-tego wiersza
nj.- suma liczebności j-tej kolumny
n- ogólna liczebność próby
nij- liczebność obserwowana w polu o indeksach i,j
Tabela korelacyjna:
|
Y |
|||||||||||
X |
|
0-100 |
100-200 |
200-300 |
300-400 |
400-500 |
500-600 |
600-700 |
700-800 |
800-900 |
900-1000 |
razem |
|
0-100 |
3 |
10 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
13 |
|
100-200 |
0 |
41 |
33 |
5 |
0 |
0 |
0 |
0 |
0 |
0 |
79 |
|
200-300 |
0 |
3 |
15 |
27 |
11 |
0 |
0 |
0 |
0 |
0 |
56 |
|
300-400 |
0 |
0 |
0 |
2 |
8 |
6 |
1 |
0 |
0 |
0 |
17 |
|
400-500 |
0 |
0 |
0 |
0 |
1 |
5 |
5 |
0 |
0 |
0 |
11 |
|
500-600 |
0 |
0 |
0 |
0 |
0 |
0 |
4 |
1 |
0 |
0 |
5 |
|
600-700 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
3 |
1 |
0 |
4 |
|
700-800 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1 |
1 |
|
800-900 |
0 |
0 |
0 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
1 |
|
900-1000 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
|
razem |
3 |
54 |
48 |
35 |
20 |
11 |
10 |
4 |
1 |
1 |
187 |
Tabela liczebności teoretycznej:
i/j |
X |
||||||||||
Y |
|
0-100 |
100-200 |
200-300 |
300-400 |
400-500 |
500-600 |
600-700 |
700-800 |
800-900 |
900-1000 |
|
0-100 |
0,21 |
3,75 |
3,34 |
2,43 |
1,39 |
0,76 |
0,70 |
0,28 |
0,07 |
0,07 |
|
100-200 |
1,27 |
22,81 |
20,28 |
14,79 |
8,45 |
4,65 |
4,22 |
1,69 |
0,42 |
0,42 |
|
200-300 |
0,90 |
4,33 |
14,37 |
10,48 |
5,99 |
3,29 |
2,99 |
1,20 |
0,30 |
0,30 |
|
300-400 |
0,27 |
4,91 |
4,36 |
3,18 |
1,82 |
1,00 |
0,91 |
0,36 |
0,09 |
0,09 |
|
400-500 |
0,18 |
3,18 |
2,82 |
2,06 |
1,18 |
0,65 |
0,59 |
0,24 |
0,06 |
0,06 |
|
500-600 |
0,08 |
1,44 |
1,28 |
0,94 |
0,53 |
0,29 |
0,27 |
0,11 |
0,03 |
0,03 |
|
600-700 |
0,06 |
1,16 |
1,03 |
0,75 |
0,43 |
0,24 |
0,21 |
0,09 |
0,02 |
0,02 |
|
700-800 |
0,02 |
0,29 |
0,26 |
0,19 |
0,11 |
0,06 |
0,05 |
0,02 |
0,01 |
0,01 |
|
800-900 |
0,02 |
0,29 |
0,26 |
0,19 |
0,11 |
0,06 |
0,05 |
0,02 |
0,01 |
0,01 |
|
900-1000 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
Przykładowe obliczenia:
=13*3/187 = 0,21
13 i 3 są to liczby z tablicy korelacyjnej- suma w pierwszym wierszu i w pierwszej kolumnie.
Wartości statystyki chi-kwadrat
i/j |
X |
|||||||||||
Y |
|
0-100 |
100-200 |
200-300 |
300-400 |
400-500 |
500-600 |
600-700 |
700-800 |
800-900 |
900-1000 |
razem |
|
0-100 |
37,07 |
10,42 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
47,49 |
|
100-200 |
0,00 |
14,51 |
7,98 |
6,48 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
28,97 |
|
200-300 |
0,00 |
0,41 |
0,03 |
26,04 |
4,19 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
30,67 |
|
300-400 |
0,00 |
0,00 |
0,00 |
0,44 |
20,98 |
25,00 |
0,01 |
0,00 |
0,00 |
0,00 |
46,43 |
|
400-500 |
0,00 |
0,00 |
0,00 |
0,00 |
0,03 |
29,11 |
32,96 |
0,00 |
0,00 |
0,00 |
62,10 |
|
500-600 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
51,53 |
7,20 |
0,00 |
0,00 |
58,73 |
|
600-700 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
94,09 |
48,02 |
0,00 |
142,11 |
|
700-800 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
98,01 |
98,01 |
|
800-900 |
0,00 |
0,00 |
0,00 |
3,45 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
3,45 |
|
900-1000 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
|
razem |
37,07 |
25,34 |
8,01 |
36,41 |
25,20 |
54,11 |
84,50 |
101,29 |
48,02 |
98,01 |
517,96 |
Przykładowe obliczenia:
=
= 37,07
Otrzymany wynik: χ2 = 517,96
Liczba stopni swobody: (r-1)*(k-1) gdzie:
r- liczba wierszy a k- liczba kolumn tablicy korelacyjnej
W rozpatrywanym przypadku liczba stopni swobody wynosi 9*9=81 a więc w celu weryfikacji hipotezy zerowej o niezależności zmiennych losowych X i Y stosujemy statystykę:
Podstawiając do wzoru otrzymujemy: z = 19,49
Obszar krytyczny:
Wartość zα odczytujemy z tablic dystrybuanty rozkładu normalnego N(0,1) dla α=0,05
więc zα = 1,96
Ponieważ z = 19,49 > 1,96 = zα więc obliczona wartość krytyczna „z” próby znalazła się w obszarze krytycznym tj. <1,96;+∞) to odrzucamy hipotezę zerową H0 na korzyść alternatywnej H1 mówiącej o istnieniu zależności między badanymi cechami X i Y.
Współczynnik zbieżności Czuprowa Txy :
Współczynnik ten jest miernikiem siły korelacji dwóch zmiennych. Jest on miarą symetryczną: Txy = Tyx. Przyjmuje wartości w zakresie od 0 do 1:
T
[0,1]
niezależność stochastyczna
zależność funkcyjna
Wielkością pochodną współczynnika Czuprowa jest współczynnik determinacji, który oblicza się w następujący sposób:
Współczynnik ten określa w ilu procentach zamienność zmiennej zależnej wynika ze zmienności zmiennej niezależnej.
Współczynnik korelacji liniowej Pearsona. Kowariancja:
Współczynnik Pearsona jest miarą siły związku prostoliniowego między dwiema cechami mierzalnymi.
Wzór na jego obliczanie jest wyznaczany poprzez standaryzację kowariancji.
Kowariancja jest to średnia arytmetyczna iloczynu odchyleń wartości zmiennych X i Y od ich średnich arytmetycznych.
jeżeli: cov(X,Y)=0 to jest brak zależności korelacyjnej
cov(X,Y)<1 to jest ujemna zależność korelacyjna
cov(X,Y)>1 to jest dodatnia zależność korelacyjna
Tabela pomocnicza do obliczenia kowariancji
|
Y |
|||||||||||
X |
|
0-100 |
100-200 |
200-300 |
300-400 |
400-500 |
500-600 |
600-700 |
700-800 |
800-900 |
900-1000 |
razem |
|
0-100 |
148637 |
308288 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
456925 |
|
100-200 |
0 |
588669 |
186145 |
-15381,1 |
0 |
0 |
0 |
0 |
0 |
0 |
759432,9 |
|
200-300 |
0 |
-6339,7 |
-12453 |
12224,8 |
19093,5 |
0 |
0 |
0 |
0 |
0 |
12525,2 |
|
300-400 |
0 |
0 |
0 |
7963,5 |
122118,2 |
159287 |
37831 |
0 |
0 |
0 |
327199,3 |
|
400-500 |
0 |
0 |
0 |
0 |
28793,8 |
250384 |
356799 |
0 |
0 |
0 |
635976,7 |
|
500-600 |
0 |
0 |
0 |
0 |
0 |
0 |
419555 |
136172 |
0 |
0 |
555726,9 |
|
600-700 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
539102 |
220984 |
0 |
760086,1 |
|
700-800 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
325796 |
325795,8 |
|
800-900 |
0 |
0 |
0 |
21626,8 |
0 |
0 |
0 |
0 |
0 |
0 |
21626,8 |
|
900-1000 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
|
razem |
148637 |
890617 |
173692 |
26434 |
170005,5 |
409671 |
814185 |
675274 |
220984 |
325796 |
3855294,7 |
Przykładowe obliczenia:
=
= 148637
cov(X,Y) = 20616,5
Kowariancja wynosi 20616,5 więc jest dodatnia zależność korelacyjna.
Wadą kowariancji jest brak unormowania (nie można jej wykorzystać do bezpośrednich porównań).
Unormowanym miernikiem współzależności liniowej dwóch zmiennych mierzalnych jest:
Współczynnik korelacji liniowej Pearsona:
s(x) = 138,91
s(y) = 171,44
Współczynnik ten zmienia się w zakresie od -1 do 1, przy czym przyjmuje się że:
jeżeli:
to korelacja jest niewyraźna
to korelacja jest średnia
to korelacja jest duża
jeżeli:
to występuje brak korelacji
to występuje zależność funkcyjna.
W rozpatrywanym przypadku:
Wartość współczynnika jest dodatnia, więc mamy do czynienia z dodatnim skorelowaniem zmiennych. Korelacja jest duża.
Miarą pochodną współczynnika korelacji liniowej Pearsona jest:
Współczynnik determinacji
Im bliższy jedności jest współczynnik determinacji tym rozkład zmiennej koncentruje się bardziej wokół prostej regresji.
Korelacja liniowa dodatnia
Prosta regresji:
Prostą regresji będę wyznaczać według wzoru:
gdzie:
a i b to nieobciążone estymatory parametrów α i β.
Do obliczenia a i b wykorzystuję wzory:
i
współczynnik regresji liniowej zmiennej X względem zmiennej Y
wyraz wolny
s2(X) = 19296,76
= 314,71
= 237,17
a = 1,068
b = 61,412
Równanie prostej regresji po podstawieniu:
y = 1,068 x + 61,412
Istotność współczynnika korelacji liniowej Pearsona:
Ocenę istotności współczynnika korelacji liniowej Pearsona stosujemy w celu upewnienia się czy przeprowadzone wcześniej obliczenia są prawidłowe.
We wcześniejszych obliczeniach współczynnik korelacji wynosił 0,87.
Hipotezę będę weryfikować na poziomie istotności α=0,05
H0- cechy są nieskorelowane czyli r=0
H1- występuje zależność korelacyjna pomiędzy cechami X i Y, r≠0, r>0
Do weryfikacji hipotezy stosuje wzór dla licznej próby:
rozkład t-studenta z n- 2 stopniami swobody
r = 0,87 więc t = 24
Φ(tα) = 1-α/2 = 0,975,
Z tablic dystrybuanta rozkładu normalnego N(0,1) odczytuję wartość tα = 1,96
Obszar krytyczny:
Wartość t=24 znajduje się w obszarze krytycznym zatem odrzucamy hipotezę zerową mówiącą o niskorelowaniu cech na korzyść alternatywnej mówiącej o istnieniu korelacji cech.
Podsumowanie:
Analizę dwóch zmiennych zaczęłam od testu niezależności chi-kwadrat, po przeprowadzeniu tego testu stwierdziłam że cechy są od siebie zależne.
W dalszych etapach analizy zajęłam się głównie siłą zależności badanych cech. Obliczyłam współczynnik zbieżności Czuprowa T, który przyjmuje wartości w zakresie od 0 do 1, w moim przypadku wyniósł on 0,55.
Dalej obliczyłam współczynnik korelacji liniowej Pearsona, po drodze obliczyłam kowariancję, której wartość wyszła dodatnia, więc jest dodatnia zależność korelacyjna. Współczynnik korelacji liniowej Pearsona wyniósł 0,87 co świadczy o dużej korelacji. Miarą pochodna temu współczynnikowi jest współczynnik determinacji, który wyniósł 0,75, im bliższy jedności jest ten współczynnik tym rozkład zmiennej koncentruje się bardziej wokół prostej regresji. Dodatkowo na wykresie rozrzutu można zauważyć, że dane koncentrują się mocno wokół prostej regresji.
Po przeprowadzeniu obliczeń można stwierdzić iż cechy X- wizyty na serwerze www.polskietatry.pl i Y- wizyty na serwerze www.bukowinatatrzanska.pl są od siebie zależne.
Bibliografia:
Internet
Program Statistica 6,0
„Statystyka” Władysław Sobczyk
www.stiudent.pl Projekt ze statystyki
27
- 27 -
Bukowina Tatrzańska Y |
||
Miary położenia |
||
średnia |
xn |
314,71 |
mediana |
ME |
276,04 |
dominanta |
DO=c |
150 |
kwartyl dolny |
Q1 |
181,02 |
kwartyl górny |
Q3 |
400,71 |
kwartyl środkowy |
Q2 |
ME |
Miary rozproszenia |
||
rozstęp |
R |
991 |
wariancja |
sn2 |
29392,79 |
odchylenie standardowe |
sn |
171,44 |
współczynnik zmienności |
Vs |
54,48 |
odhcylenie przeciętne |
d |
136,84 |
odchylenie ćwiartkowe |
Q |
109,85 |
Miary asymetrii |
||
wskaźnik skośności |
Ws |
164,71 |
współczynnik skośności |
As |
0,96 |
współczynnik asymetrii |
As |
1,06 |
kurtoza |
K |
3,78 |