232709Statystyka-projekt, Dane:


Spis treści:

Zbiór danych..............................................................................................................................2

Statystyka opisowa................ ....................................................................................................7

Charakterystyki liczbowe prób.................................................................................................12

Analiza dwóch zmiennych........................................................................................................17

Podsumowanie..........................................................................................................................26

Bibliografia...............................................................................................................................27

Wstęp

Celem mojego projektu jest zbadanie zależności między dwoma zmiennymi: zmienną X- ilość wizyt na serwerze www.polskietatry.pl a zmienną Y- ilość wizyt na serwerze www.bukowinatatrzanska.pl w przeciągu roku 2004 (dane z każdego nieparzystego dnia miesiąca w celu uzyskania informacji z całego roku).

Dane do projektu wzięłam z Internetu.

Na początku zajęłam się statystyką opisową obu zmiennych, tzn. zbadałam miary położenia, miary rozproszenia i miary asymetrii zmiennych. Następnie zbadałam zależność między tymi zmiennymi i siłę związku między nimi.

Strony te są o podobnej tematyce, jednak różnią się między sobą przede wszystkim szatą graficzną i informacjami, które zawierają. Moim zdaniem strona www.bukowinatatrzanska.pl jest bardziej ciekawsza i bogatsza, zapewne ma to duży wpływ na to, że strona ta cieszy się większą oglądalnością. Wpływ na wysokie notowania wizyt na tej stronie w porównaniu z www.polskietatry.pl ma to że jest ona typową stroną turystyczną, kiedy to ta druga jest stroną poświęconą biurom turystycznym.

Dane:

lp

data

Polskie Tatry

Bukowina Tatrzańska

X

Y

wizyty

wizyty

1

01-sty-04

200

283

2

03-sty-04

205

312

3

05-sty-04

325

527

4

07-sty-04

435

514

5

09-sty-04

321

429

6

11-sty-04

232

415

7

13-sty-04

316

517

8

15-sty-04

271

437

9

17-sty-04

889

323

10

19-sty-04

494

444

11

21-sty-04

342

452

12

23-sty-04

261

421

13

25-sty-04

248

341

14

27-sty-04

271

491

15

29-sty-04

287

447

16

31-sty-04

289

302

17

01-lut-04

315

358

18

03-lut-04

333

485

19

05-lut-04

339

493

20

07-lut-04

323

349

21

09-lut-04

455

656

22

11-lut-04

364

541

23

13-lut-04

230

431

24

15-lut-04

208

321

25

17-lut-04

289

352

26

19-lut-04

249

336

27

21-lut-04

178

245

28

23-lut-04

229

367

29

25-lut-04

209

354

30

27-lut-04

222

306

31

29-lut-04

181

270

32

01-mar-04

253

343

33

03-mar-04

241

399

34

05-mar-04

242

295

35

07-mar-04

208

241

36

09-mar-04

151

284

37

11-mar-04

148

238

38

13-mar-04

84

165

39

15-mar-04

160

253

40

17-mar-04

121

248

41

19-mar-04

112

228

42

21-mar-04

81

162

43

23-mar-04

126

189

44

25-mar-04

137

223

45

27-mar-04

61

172

46

29-mar-04

143

184

47

31-mar-04

124

200

48

01-kwi-04

131

191

49

03-kwi-04

88

124

50

05-kwi-04

121

164

51

07-kwi-04

109

169

52

09-kwi-04

113

163

53

11-kwi-04

50

80

54

13-kwi-04

124

144

55

15-kwi-04

141

135

56

17-kwi-04

72

103

57

19-kwi-04

124

138

58

21-kwi-04

117

142

59

23-kwi-04

122

113

60

25-kwi-04

102

139

61

27-kwi-04

153

195

62

29-kwi-04

106

140

63

01-maj-04

99

105

64

03-maj-04

96

168

65

05-maj-04

129

141

66

07-maj-04

117

154

67

09-maj-04

102

152

68

11-maj-04

133

119

69

13-maj-04

3

10

70

15-maj-04

61

119

71

17-maj-04

3

8

72

19-maj-04

115

155

73

21-maj-04

136

184

74

23-maj-04

87

197

75

25-maj-04

136

191

76

27-maj-04

150

145

77

29-maj-04

87

133

78

31-maj-04

150

205

79

01-cze-04

172

164

80

03-cze-04

170

165

81

05-cze-04

113

128

82

07-cze-04

234

192

83

09-cze-04

170

205

84

11-cze-04

115

139

85

13-cze-04

133

118

86

15-cze-04

165

198

87

17-cze-04

184

192

88

19-cze-04

106

158

89

21-cze-04

203

210

90

23-cze-04

146

186

91

25-cze-04

151

193

92

27-cze-04

112

200

93

29-cze-04

172

219

94

01-lip-04

201

230

95

03-lip-04

163

200

96

05-lip-04

207

266

97

07-lip-04

220

268

98

09-lip-04

177

296

99

11-lip-04

180

254

100

13-lip-04

200

292

101

15-lip-04

225

318

102

17-lip-04

106

231

103

19-lip-04

197

275

104

21-lip-04

253

261

105

23-lip-04

149

271

106

25-lip-04

144

242

107

27-lip-04

254

343

108

29-lip-04

188

316

109

31-lip-04

118

187

110

01-sie-04

134

247

111

03-sie-04

232

333

112

05-sie-04

162

314

113

07-sie-04

121

230

114

09-sie-04

203

344

115

11-sie-04

220

372

116

13-sie-04

231

387

117

15-sie-04

158

267

118

17-sie-04

219

263

119

19-sie-04

221

218

120

21-sie-04

126

188

121

23-sie-04

175

202

122

25-sie-04

155

165

123

27-sie-04

180

194

124

29-sie-04

118

160

125

31-sie-04

193

169

126

01-wrz-04

203

195

127

03-wrz-04

177

211

128

05-wrz-04

101

196

129

07-wrz-04

212

256

130

09-wrz-04

247

255

131

11-wrz-04

111

187

132

13-wrz-04

198

258

133

15-wrz-04

181

220

134

17-wrz-04

206

181

135

19-wrz-04

136

152

136

21-wrz-04

207

284

137

23-wrz-04

190

296

138

25-wrz-04

140

233

139

27-wrz-04

227

300

140

29-wrz-04

319

400

141

01-paź-04

185

236

142

03-paź-04

183

233

143

05-paź-04

248

330

144

07-paź-04

219

353

145

09-paź-04

171

319

146

11-paź-04

289

494

147

13-paź-04

192

342

148

15-paź-04

239

278

149

17-paź-04

167

336

150

19-paź-04

265

336

151

21-paź-04

265

332

152

23-paź-04

182

271

153

25-paź-04

277

495

154

27-paź-04

271

407

155

29-paź-04

217

307

156

31-paź-04

160

223

157

01-lis-04

212

302

158

03-lis-04

257

399

159

05-lis-04

275

329

160

07-lis-04

283

400

161

09-lis-04

351

406

162

11-lis-04

279

379

163

13-lis-04

267

405

164

15-lis-04

362

509

165

17-lis-04

366

402

166

19-lis-04

452

654

167

21-lis-04

301

649

168

23-lis-04

369

503

169

25-lis-04

362

567

170

27-lis-04

373

477

171

29-lis-04

419

627

172

01-gru-04

586

721

173

03-gru-04

412

508

174

05-gru-04

451

510

175

07-gru-04

430

635

176

09-gru-04

587

648

177

11-gru-04

401

586

178

13-gru-04

538

683

179

15-gru-04

481

697

180

17-gru-04

518

696

181

19-gru-04

619

718

182

21-gru-04

655

783

183

23-gru-04

571

672

184

25-gru-04

695

763

185

27-gru-04

756

999

186

29-gru-04

698

849

187

31-gru-04

434

562

  1. Statystyka opisowa

Szereg rozdzielczy

Liczba przedziałów i szerokość przedziałów:

0x01 graphic

k- liczba przedziałów

n- liczba przypadków (n=187)

0x01 graphic

b- szerokość przedziału

R- rozstęp

 

X

Y

X max

889

999

X min

3

8

R

886

991

n

187

k

6,84<k<13,67

b

64,8<b<129,5

72,5<b<144,9

Dla obu zmiennych przyjmuję liczbę klas 10 i szerokość przedziałów 100.

Tabele rozdzielcze:

Zmienna X- serwer Polskie Tatry

nr klasy

klasa

środek klasy

liczność

częstość

liczebność skumulowana

częstość skumulowana

i

<a,b)

xi

ni

fi=ni/n

cni:=Σ ni

Fi:=cni/n

1

<0,100)

50

13

0,07

13

0,07

2

<100,200)

150

79

0,42

92

0,49

3

<200,300)

250

56

0,30

148

0,79

4

<300,400)

350

17

0,09

165

0,88

5

<400,500)

450

11

0,06

176

0,94

6

<500,600)

550

5

0,03

181

0,97

7

<600,700)

650

4

0,02

185

0,99

8

<700,800)

750

1

0,01

186

0,99

9

<800,900)

850

1

0,01

187

1,00

10

<900,1000)

950

0

0,00

187

1,00

Zmienna Y- serwer Bukowina Tatrzańska

nr klasy

klasa

środek klasy

liczność

częstość

liczebność skumulowana

częstość skumulowana

i

<a,b)

xi

ni

fi=ni/n

cni:=Σ ni

Fi:=cni/n

1

<0,100)

50

3

0,02

3

0,02

2

<100,200)

150

54

0,29

57

0,30

3

<200,300)

250

48

0,26

105

0,56

4

<300,400)

350

35

0,19

140

0,75

5

<400,500)

450

20

0,11

160

0,86

6

<500,600)

550

11

0,06

171

0,91

7

<600,700)

650

10

0,05

181

0,97

8

<700,800)

750

4

0,02

185

0,99

9

<800,900)

850

1

0,01

186

0,99

10

<900,1000)

950

1

0,01

187

1,00

Histogramy:

0x01 graphic

0x01 graphic

0x01 graphic

Wykresy liczebności skumulowanej:

0x01 graphic

0x01 graphic

Charakterystyki liczbowe prób

MIARY POŁOŻENIA

Średnia ważona

0x01 graphic

c- dowolna stała. Przyjęłam ją jako Dominantę, czyli środek klasy najbardziej licznej.

n- liczba prób

xi- środki przedziałów klasowych

ni- liczność poszczególnych klas

Mediana- kwartyl środkowy Q2

0x01 graphic

xL- dolna granica klasy medianowej z numerem i=iME

b- szerokość klasy medianowej

niME- liczebność klasy medianowej

Σni- liczebność w klasach przed medianową

Dominanta

DO= środek tej klasy, która ma największą liczebność

Kwartyl dolny

0x01 graphic

xLQ0,25- dolna granica klasy z numerem i=iQ0,25

b- szerokość tej klasy

niQ0,25- liczebność tej klasy

Σni- liczebność w klasach przed tą zawierającą numer i=iQ0,25

Kwartyl górny

0x01 graphic

xLQ0,75- dolna granica klasy z numerem i=iQ0,75

b- szerokość tej klasy

niQ0,75- liczebność tej klasy

Σni- liczebność w klasach przed tą zawierającą numer i=iQ0,75

MIARY ROZPROSZENIA

Rozstęp

0x01 graphic

xmax- największa wartość zmiennej

xmin- najmniejsza wartość zmiennej

Wariancja

0x01 graphic

Odchylenie standardowe

0x01 graphic

Współczynnik zmienności

0x01 graphic

Odchylenie przeciętne

0x01 graphic

Odchylenie ćwiartkowe

0x01 graphic

MIARY ASYMETRII

Wskaźnik skośności

0x01 graphic

Współczynnik skośności

0x01 graphic

0x01 graphic

Współczynnik asymetrii

0x01 graphic

gdzie: 0x01 graphic

Kurtoza- współczynnik koncentracji

0x01 graphic

gdzie: 0x01 graphic

Tabele pomocne do obliczenia charakterystyk liczbowych prób:

POLSKIE TATRY

xi-c

(xi-c)2

ni(xi-c)

ni(xi-c)2

xi-x

xi-xni

xi-x

(xi-x)3*ni

(xi-x)4*ni

-100

10000

-1300

130000

187,17

2433,155

-187,17

-85235922,48

15953247523

0

0

0

0

87,17

6886,096

-87,17

-52319680,70

4560485537

100

10000

5600

560000

12,83

718,7166

12,83

118385,07

1519380,568

200

40000

3400

680000

112,83

1918,182

112,83

24421451,21

2755575511

300

90000

3300

990000

212,83

2341,176

212,83

106051565,00

22571402604

400

160000

2000

800000

312,83

1564,171

312,83

153078001,25

47888037824

500

250000

2000

1000000

412,83

1651,337

412,83

281440810,45

1,16188E+11

600

360000

600

360000

512,83

512,8342

512,83

134874858,45

69168443451

700

490000

700

490000

612,83

612,8342

612,83

230159567,76

1,4105E+11

800

640000

0

0

712,83

0

712,83

0,00

0

suma

16300

5010000

suma

18638,5

suma

4238444,04

2246720700

BUKOWINA TATRZAŃSKA

xi-c

(xi-c)2

ni(xi-c)

ni(xi-c)2

xi-x

| xi-x | ni

xi-x

(xi-x)3*ni

(xi-x)4*ni

-100

10000

-300

30000

264,71

794,1176

-264,71

-55643191,53

14729080112

0

0

0

0

164,71

8894,118

-164,71

-241279869,73

39740213838

100

10000

4800

480000

64,71

3105,882

-64,71

-13003867,29

841426707,1

200

40000

7000

1400000

35,29

1235,294

35,29

1538774,68

54309694,57

300

90000

6000

1800000

135,29

2705,882

135,29

49529818,85

6701093138

400

160000

4400

1760000

235,29

2588,235

235,29

143293303,48

33716071407

500

250000

5000

2500000

335,29

3352,941

335,29

376944840,22

1,26387E+11

600

360000

2400

1440000

435,29

1741,176

435,29

329919804,60

1,43612E+11

700

490000

700

490000

535,29

535,2941

535,29

153383065,34

82105052621

800

640000

800

640000

635,29

635,2941

635,29

256403826,58

1,62892E+11

suma

30800 

10540000 

suma

25588,24

suma

5353403,77

3266195872

Tabela charakterystyk liczbowych prób:

0x08 graphic

Polskie Tatry X

Miary położenia

średnia

xn

237,17

mediana

ME

202,68

dominanta

DO=c

150

kwartyl dolny

Q1

142,72

kwartyl górny

Q3

286,16

kwartyl środkowy

Q2

ME

Miary rozproszenia

rozstęp

R

886

wariancja

sn2

19296,76

odchylenie standardowe

sn

138,91

współczynnik zmienności

Vs

58,57

odchylenie przeciętne

d

99,67

odchylenie ćwiartkowe

Q

71,72

Miary asymetrii

wskaźnik skośności

Ws

87,17

współczynnik skośności

As

0,63

współczynnik asymetrii

As

1,58

kurtoza

K

6,04

Podsumowanie:

Na podstawie zebranych obliczeń, które dotyczą wizyt na dwóch serwerach: www.polskietatry.pl i www.bukowinatatrzanska.pl w 2004 roku możemy stwierdzić że:

  1. Analiza dwóch zmiennych

Współzależność

Badanie niezależności - test chi-kwadrat χ2 :

Test ten należy do najważniejszych testów badania niezależności statystycznej.

Przeprowadzając ten test stawiamy hipotezę:

H0: cechy X i Y są niezależne

H1: istnieje zależność między badanymi cechami

0x01 graphic

gdzie:

0x01 graphic
jest to liczebność teoretyczna

n.i- suma liczebności i-tego wiersza

nj.- suma liczebności j-tej kolumny

n- ogólna liczebność próby

nij- liczebność obserwowana w polu o indeksach i,j

Tabela korelacyjna:

 

Y

X

 

0-100

100-200

200-300

300-400

400-500

500-600

600-700

700-800

800-900

900-1000

razem

0-100

3

10

0

0

0

0

0

0

0

0

13

100-200

0

41

33

5

0

0

0

0

0

0

79

200-300

0

3

15

27

11

0

0

0

0

0

56

300-400

0

0

0

2

8

6

1

0

0

0

17

400-500

0

0

0

0

1

5

5

0

0

0

11

500-600

0

0

0

0

0

0

4

1

0

0

5

600-700

0

0

0

0

0

0

0

3

1

0

4

700-800

0

0

0

0

0

0

0

0

0

1

1

800-900

0

0

0

1

0

0

0

0

0

0

1

900-1000

0

0

0

0

0

0

0

0

0

0

0

razem

3

54

48

35

20

11

10

4

1

1

187

Tabela liczebności teoretycznej:

i/j

X

Y

 

0-100

100-200

200-300

300-400

400-500

500-600

600-700

700-800

800-900

900-1000

0-100

0,21

3,75

3,34

2,43

1,39

0,76

0,70

0,28

0,07

0,07

100-200

1,27

22,81

20,28

14,79

8,45

4,65

4,22

1,69

0,42

0,42

200-300

0,90

4,33

14,37

10,48

5,99

3,29

2,99

1,20

0,30

0,30

300-400

0,27

4,91

4,36

3,18

1,82

1,00

0,91

0,36

0,09

0,09

400-500

0,18

3,18

2,82

2,06

1,18

0,65

0,59

0,24

0,06

0,06

500-600

0,08

1,44

1,28

0,94

0,53

0,29

0,27

0,11

0,03

0,03

600-700

0,06

1,16

1,03

0,75

0,43

0,24

0,21

0,09

0,02

0,02

700-800

0,02

0,29

0,26

0,19

0,11

0,06

0,05

0,02

0,01

0,01

800-900

0,02

0,29

0,26

0,19

0,11

0,06

0,05

0,02

0,01

0,01

900-1000

0,00

0,00

0,00

0,00

0,00

0,00

0,00

0,00

0,00

0,00

Przykładowe obliczenia:

0x01 graphic
=13*3/187 = 0,21

13 i 3 są to liczby z tablicy korelacyjnej- suma w pierwszym wierszu i w pierwszej kolumnie.

Wartości statystyki chi-kwadrat

i/j

X

Y

 

0-100

100-200

200-300

300-400

400-500

500-600

600-700

700-800

800-900

900-1000

razem

0-100

37,07

10,42

0,00

0,00

0,00

0,00

0,00

0,00

0,00

0,00

47,49

100-200

0,00

14,51

7,98

6,48

0,00

0,00

0,00

0,00

0,00

0,00

28,97

200-300

0,00

0,41

0,03

26,04

4,19

0,00

0,00

0,00

0,00

0,00

30,67

300-400

0,00

0,00

0,00

0,44

20,98

25,00

0,01

0,00

0,00

0,00

46,43

400-500

0,00

0,00

0,00

0,00

0,03

29,11

32,96

0,00

0,00

0,00

62,10

500-600

0,00

0,00

0,00

0,00

0,00

0,00

51,53

7,20

0,00

0,00

58,73

600-700

0,00

0,00

0,00

0,00

0,00

0,00

0,00

94,09

48,02

0,00

142,11

700-800

0,00

0,00

0,00

0,00

0,00

0,00

0,00

0,00

0,00

98,01

98,01

800-900

0,00

0,00

0,00

3,45

0,00

0,00

0,00

0,00

0,00

0,00

3,45

900-1000

0,00

0,00

0,00

0,00

0,00

0,00

0,00

0,00

0,00

0,00

0,00

razem

37,07

25,34

8,01

36,41

25,20

54,11

84,50

101,29

48,02

98,01

517,96

Przykładowe obliczenia:

0x01 graphic
= 0x01 graphic
= 37,07

Otrzymany wynik: χ2 = 517,96

Liczba stopni swobody: (r-1)*(k-1) gdzie:

r- liczba wierszy a k- liczba kolumn tablicy korelacyjnej

W rozpatrywanym przypadku liczba stopni swobody wynosi 9*9=81 a więc w celu weryfikacji hipotezy zerowej o niezależności zmiennych losowych X i Y stosujemy statystykę:

0x01 graphic

Podstawiając do wzoru otrzymujemy: z = 19,49

Obszar krytyczny: 0x01 graphic

Wartość zα odczytujemy z tablic dystrybuanty rozkładu normalnego N(0,1) dla α=0,05

0x01 graphic
więc zα = 1,96

Ponieważ z = 19,49 > 1,96 = zα więc obliczona wartość krytyczna „z” próby znalazła się w obszarze krytycznym tj. <1,96;+∞) to odrzucamy hipotezę zerową H0 na korzyść alternatywnej H1 mówiącej o istnieniu zależności między badanymi cechami X i Y.

Współczynnik zbieżności Czuprowa Txy :

Współczynnik ten jest miernikiem siły korelacji dwóch zmiennych. Jest on miarą symetryczną: Txy = Tyx. Przyjmuje wartości w zakresie od 0 do 1:

T0x01 graphic
[0,1]

  1. niezależność stochastyczna

  2. zależność funkcyjna

0x01 graphic

0x01 graphic

Wielkością pochodną współczynnika Czuprowa jest współczynnik determinacji, który oblicza się w następujący sposób:

0x01 graphic

Współczynnik ten określa w ilu procentach zamienność zmiennej zależnej wynika ze zmienności zmiennej niezależnej.

Współczynnik korelacji liniowej Pearsona. Kowariancja:

Współczynnik Pearsona jest miarą siły związku prostoliniowego między dwiema cechami mierzalnymi.

Wzór na jego obliczanie jest wyznaczany poprzez standaryzację kowariancji.

Kowariancja jest to średnia arytmetyczna iloczynu odchyleń wartości zmiennych X i Y od ich średnich arytmetycznych.

0x01 graphic

jeżeli: cov(X,Y)=0 to jest brak zależności korelacyjnej

cov(X,Y)<1 to jest ujemna zależność korelacyjna

cov(X,Y)>1 to jest dodatnia zależność korelacyjna

Tabela pomocnicza do obliczenia kowariancji

 

Y

X

 

0-100

100-200

200-300

300-400

400-500

500-600

600-700

700-800

800-900

900-1000

razem

0-100

148637

308288

0

0

0

0

0

0

0

0

456925

100-200

0

588669

186145

-15381,1

0

0

0

0

0

0

759432,9

200-300

0

-6339,7

-12453

12224,8

19093,5

0

0

0

0

0

12525,2

300-400

0

0

0

7963,5

122118,2

159287

37831

0

0

0

327199,3

400-500

0

0

0

0

28793,8

250384

356799

0

0

0

635976,7

500-600

0

0

0

0

0

0

419555

136172

0

0

555726,9

600-700

0

0

0

0

0

0

0

539102

220984

0

760086,1

700-800

0

0

0

0

0

0

0

0

0

325796

325795,8

800-900

0

0

0

21626,8

0

0

0

0

0

0

21626,8

900-1000

0

0

0

0

0

0

0

0

0

0

0

razem

148637

890617

173692

26434

170005,5

409671

814185

675274

220984

325796

3855294,7

Przykładowe obliczenia:

0x01 graphic
= 0x01 graphic
= 148637

0x01 graphic

cov(X,Y) = 20616,5

Kowariancja wynosi 20616,5 więc jest dodatnia zależność korelacyjna.

Wadą kowariancji jest brak unormowania (nie można jej wykorzystać do bezpośrednich porównań).

Unormowanym miernikiem współzależności liniowej dwóch zmiennych mierzalnych jest:

Współczynnik korelacji liniowej Pearsona:

0x01 graphic

s(x) = 138,91

s(y) = 171,44

Współczynnik ten zmienia się w zakresie od -1 do 1, przy czym przyjmuje się że:

jeżeli: 0x01 graphic
to korelacja jest niewyraźna

0x01 graphic
to korelacja jest średnia

0x01 graphic
to korelacja jest duża

jeżeli: 0x01 graphic
to występuje brak korelacji

0x01 graphic
to występuje zależność funkcyjna.

W rozpatrywanym przypadku: 0x01 graphic

Wartość współczynnika jest dodatnia, więc mamy do czynienia z dodatnim skorelowaniem zmiennych. Korelacja jest duża.

Miarą pochodną współczynnika korelacji liniowej Pearsona jest:

Współczynnik determinacji 0x01 graphic

0x01 graphic

Im bliższy jedności jest współczynnik determinacji tym rozkład zmiennej koncentruje się bardziej wokół prostej regresji.

0x01 graphic

Korelacja liniowa dodatnia

Prosta regresji:

Prostą regresji będę wyznaczać według wzoru:

0x01 graphic

0x01 graphic

gdzie:

a i b to nieobciążone estymatory parametrów α i β.

Do obliczenia a i b wykorzystuję wzory:

0x01 graphic
i 0x01 graphic

  1. współczynnik regresji liniowej zmiennej X względem zmiennej Y

  2. wyraz wolny

s2(X) = 19296,76

0x01 graphic
= 314,71

0x01 graphic
= 237,17

a = 1,068

b = 61,412

Równanie prostej regresji po podstawieniu:

y = 1,068 x + 61,412

Istotność współczynnika korelacji liniowej Pearsona:

Ocenę istotności współczynnika korelacji liniowej Pearsona stosujemy w celu upewnienia się czy przeprowadzone wcześniej obliczenia są prawidłowe.

We wcześniejszych obliczeniach współczynnik korelacji wynosił 0,87.

Hipotezę będę weryfikować na poziomie istotności α=0,05

H0- cechy są nieskorelowane czyli r=0

H1- występuje zależność korelacyjna pomiędzy cechami X i Y, r≠0, r>0

Do weryfikacji hipotezy stosuje wzór dla licznej próby:

0x01 graphic

rozkład t-studenta z n- 2 stopniami swobody

r = 0,87 więc t = 24

Φ(tα) = 1-α/2 = 0,975,

Z tablic dystrybuanta rozkładu normalnego N(0,1) odczytuję wartość tα = 1,96

Obszar krytyczny:

0x01 graphic

Wartość t=24 znajduje się w obszarze krytycznym zatem odrzucamy hipotezę zerową mówiącą o niskorelowaniu cech na korzyść alternatywnej mówiącej o istnieniu korelacji cech.

Podsumowanie:

Analizę dwóch zmiennych zaczęłam od testu niezależności chi-kwadrat, po przeprowadzeniu tego testu stwierdziłam że cechy są od siebie zależne.

W dalszych etapach analizy zajęłam się głównie siłą zależności badanych cech. Obliczyłam współczynnik zbieżności Czuprowa T, który przyjmuje wartości w zakresie od 0 do 1, w moim przypadku wyniósł on 0,55.

Dalej obliczyłam współczynnik korelacji liniowej Pearsona, po drodze obliczyłam kowariancję, której wartość wyszła dodatnia, więc jest dodatnia zależność korelacyjna. Współczynnik korelacji liniowej Pearsona wyniósł 0,87 co świadczy o dużej korelacji. Miarą pochodna temu współczynnikowi jest współczynnik determinacji, który wyniósł 0,75, im bliższy jedności jest ten współczynnik tym rozkład zmiennej koncentruje się bardziej wokół prostej regresji. Dodatkowo na wykresie rozrzutu można zauważyć, że dane koncentrują się mocno wokół prostej regresji.

Po przeprowadzeniu obliczeń można stwierdzić iż cechy X- wizyty na serwerze www.polskietatry.pl i Y- wizyty na serwerze www.bukowinatatrzanska.pl są od siebie zależne.

Bibliografia:

www.stiudent.pl Projekt ze statystyki

27

- 27 -

Bukowina Tatrzańska Y

Miary położenia

średnia

xn

314,71

mediana

ME

276,04

dominanta

DO=c

150

kwartyl dolny

Q1

181,02

kwartyl górny

Q3

400,71

kwartyl środkowy

Q2

ME

Miary rozproszenia

rozstęp

R

991

wariancja

sn2

29392,79

odchylenie standardowe

sn

171,44

współczynnik zmienności

Vs

54,48

odhcylenie przeciętne

d

136,84

odchylenie ćwiartkowe

Q

109,85

Miary asymetrii

wskaźnik skośności

Ws

164,71

współczynnik skośności

As

0,96

współczynnik asymetrii

As

1,06

kurtoza

K

3,78



Wyszukiwarka

Podobne podstrony:
Reduktor - projekt 2, projekt, Dane
Przekładnia zebata - projekt 4, 5, Dane
Przekładnia zebata - projekt 4, 5, Dane
Przekładnia zebata - projekt 4, 6, Dane
referat ziel gora, Studia pomieszany burdel, UNIESZKODLIWIANIE PROJEKT DANE
PROJEKT A dane
Reduktor - Projekt 3, projekt, Dane
Przekładnia zebata - projekt 4, 7, Dane
PROJEKT B dane
kompostowanie odpadow organicznych, Studia pomieszany burdel, UNIESZKODLIWIANIE PROJEKT DANE
cz 2 projektu dane
Przekładnia zebata - projekt 4, 3, Dane
mech gr projekt 2 dane
projekt 3 dane grupa poniedzialek

więcej podobnych podstron