288


STATYSTYKA

Wykładowca - dr Muzalewska

Statystyka - nauka o metodach badania zjawisk masowych

Zbiór nieskończoności _______________________________

Im zbór bardziej liczny tym prawidłowość wyraźniejsza

Zjawiska masowe - zbiorowość statystyczna lub populacja generalna - jest to zbiór jednorodnych elementów objętych badaniem statystycznym

Skład zbiorowości statystycznej :

Jednostki statystyczne występują w dwóch rodzajach :

  1. jednostki proste - są niepodzielnie, nie mogące utworzyć nowej

zbiorowości

  1. jednostki złożone - są podzielne - mogące utworzyć nową zbiorowość

statystyczną ( np. województwa Polski w 2003r. -

można wyodrębnić np. miasta i powiaty )

Liczebność - N - jest to liczba jednostek wchodzących w skład

zbioru

CECHY - są to właściwości charakteryzujące jednostki badanej zbiorowości .


0x08 graphic

0x08 graphic
0x08 graphic

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic


OKREŚLANIE PRAWIDŁOWOŚCI

( tylko dla cech zmiennych statystycznych )

Cechy stałe służą do dokładnego określania danej zbiorowości .

przykład :

pracownicy wg wynagrodzenia

0x08 graphic

____________________________________________________

0x08 graphic

____________________________________________________

społeczeństwo ubogie

0x08 graphic

___________________________________________________

społeczeństwo bogate

(x), (y), (z) itp. - zmienne , które można zmierzyć

wariant zmiennej - jest to odmiana zmiennej

zmienna płeć - kobieta lub mężczyzna

zmienna marka samochodu - fiat, mercedes, audi itp.

WARUNKI WYODREBNIANIA ZBIOROWOŚCI STATYSTYCZNEJ

Aby grupę osób, zwierząt lub przedmiotów lub zdarzeń można było nazwać zbiorowością statystyczną muszą być spełnione następujące warunki :

  1. Zbiór musi być dostatecznie liczny ( liczebność określa prawo wielkich liczb )

  2. Musi występować cecha stała w ujęciu rzeczowym , czasowym, przestrzennym ( trzeba określić kto lub co jest przedmiotem , kiedy i gdzie występuje )

  3. Musi występować przynajmniej jedna cecha zmienna ( statystyczna) aby można było dla niej określić prawidłowości

Grupowanie statystyczne wg zmiennej jakościowej niemierzalnej

- grupowanie statystyczne polega na podziale jednostek statystycznych wg przyjętego

kryterium zmienności ( zmienna jakościowa)

Schemat klasyfikacyjny zmiennej jakościowej musi spełniać następujące warunki :

  1. przejrzystości - nazwy wariantów muszą być podane w sposób czytelny i zrozumiały dla odbiorcy,

  2. rozłącznego podziału - nazwy wariantów w schemacie klasyfikacyjnym muszą wykluczać się wzajemnie

0x08 graphic
0x08 graphic

muszą wykluczać się wzajemnie

0x08 graphic
0x08 graphic

0x08 graphic
=

musi występować brak stosunku zamienności pojęć

W schemacie klasyfikacyjnym nie może mieć miejsca stosunek nadrzędności

i podrzędności

np. A- wojewoda

B - urzędnik

tzn. wojewoda jest urzędnikiem, ale nie każdy urzędnik jest wojewodą

  1. wyczerpującego podziału - wszystkie jednostki budowanej zbiorowości muszą mieścić się w podanym schemacie klasyfikacyjnym . Jeśli nie mieszczą się w wymienionych nazwach należy wprowadzić wariant tzw. „otwarty” np. „inne” , „pozostałe”

Przykład tabelaryczny

wykształcenie

pracowników

Odsetek pracowników

Podstawowe

8

10,2

Zasadnicze zawodowe

12

15,4

Średnie techniczne*

7

Średnie

29

46,2

Wyższe zawodowe*

13

Wyższe

9

28,2

ogółem

78

100 = suma musi być równa 100!!!

* musimy wykreślić te wiersze gdyż nie spełniają one warunku rozłączności podziału - wykształcenie np. wyższe zawodowe zawiera się w zawodowym

Pod tabelą umieszczamy :

Źródło : dane umowne , ćwiczeniowe np. badania własne

CHARAKTERYSTYKA PRZEDMIOTU BADANIA :

„i” - numer wariantu od ni do nk

„k” - ostatni numer wariantu

na liczebność zbioru złożyła się suma ∑ liczebności cząstkowych

k

N = ni

i=1

Wskaźnik struktury :

tj. Odsetka liczebności

ni

Ws = N x 100 %

Graficzna prezentacja zmiennej jakościowej :

  1. Wykres kołowy

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic

legenda : N = 78 - 360o

ni = 8 - x

x = 37%


GRUPOWANIE STATYSTYCZNE WG ZMIENNEJ ILOŚCIOWEJ - MIERZALNEJ

    1. część logiczna - celem jest budowa schematu klasyfikacyjnego zmiennej ilościowej (x)

    1. Określenie zbiorowości statystycznej oraz jednostki

    2. Określenie cechy zmiennej ilościowej za kryterium klasyfikacji oraz wskazanie postaci liczbowej

    3. Określenie liczebności zbioru

    4. Obliczenie obszaru zmienności ( rozstęp) R = xmax - xmin

    5. Wybór metody grupowania statystycznego :

      1. metoda grupowania WARIANCYJNEGO ( wariacyjna) - polega na podziale wartości zmiennych na równe co do wielkości przedziały klasowe dołem i górą zamknięte , w oparciu o przesłanki , w oparciu o przesłanki formalno-matematyczne

np. koszty administracyjne 10-13 tys. zł

14-17 tys. zł

18-21 tys. zł

22-25 tys. zł ( co 4 tys. zł)

klasy te są zamknięte górą i dołem oraz są równej wielkości .

      1. metoda grupowania TYPOLOGICZNEGO - polega na podziale wartości zmiennych na nierówne typowe klasy w oparciu o przesłanki społeczno-ekonomiczne

np. wiek ludności (x)

poniżej 18 lat - wiek przedprodukcyjny

18 - 65 lat - wiek produkcyjny

65 lat i więcej - wiek poprodukcyjny

    1. Pojęcia i rodzaje przedziałów klasowych oraz zasady ich budowy

przedział klasowy - ( klasa) jest to liczbowa postać wariantów zmiennej ilościowej ( np. 18-65 )

Rodzaje klas :

a)

a.1. wielowariantowe - buduje się dla zmiennej ilościowej ciągłej oraz dla

zmiennej skokowej o bardzo dużym rozstępie

a.2. jednowariantowe - buduje się dla zmiennej ilościowej skokowej o małym

rozstępie

np. ilość popełnionych błędów w teście :

1.............

2.............

3............. w jednej klasie tylko jeden wariant

R= 3-1 = 2

a.3. mieszane - buduje się dla zmiennej ilościowej skokowej o dużym rozstępie

np. (x) - absencja chorobowa 2,3,4,5dni, 6-15dni,16-40 dni - przedziały

mieszane - obok przedziałów jednowartościowych przedziały o jakimś rozstępie

b) pojęcia związane z przedziałem klasowym wielowariantowym :

b.1. dolna granica klasy xDi

i - numer klasy = 1 .....k ( aż po „k-tą” klasę )

b.2. górna granica klasy xGi

jest to zmienna, która kończy , zamyka klasę

b.3. środek klasy x'i

jest to zmienna, która znajduje się dokładnie w środku klasy

b.4. wielkość klasy Ci

jest to rozpiętość między granicami klas ( nie jest to różnica tylko

rozpiętość)

c) zasady budowy przedziałów klasowych wielowariantowych :

c.1. zasada statystyczna : tworzy się granice wynikowe, które cechują się tym ,

że górna granica przedziału klasowego poprzedniego nie jest taka sama jak

dolna granica przedziału następnego . Granice wynikowe służą do

tabelarycznego przedstawiania danych

Obliczanie środka klasy X`i

i wielkości klasy Ci dla zmiennej ilościowej ciągłej

XDi + XDi+1

X'i = ____________

2

Ci =XDi+1- XDi

Lp

X'i

Ci

1

10-13

12

4

2

14-17

16

4

3

18-21

20

4

4

22-25

24

4

Obliczenie : X'i Ci

1 (10+14 ):2=12 14-10=4

2 (14+18 ):2=16 18-14=4

3 (18+22 ):2=20 22-18=4

4 (22+26 ):2=24 26-22=4

Obliczanie środka klasy Xi'

i wielkości klasy Ci dla zmiennej ilościowej skokowej

XDi + XGi

X'i = ____________

2

Ci =XDi+1- XD

Lp

Liczba zatr. pracowników

X'i

Ci

1

1-7

4

7

2

8-14

11

7

3

15-21

18

7

4

22-28

25

7

Obliczenie : X'i Ci

1 (7+1 ):2=4 8-1=7

2 (8+14 ):2=11 15-8=7

3 (15+21 ):2=18 22-15=7

4 (22+28 ):2=25 29-22=7

c.2. zasada matematyczna - tworzy granice dokładne ( matematyczne) , które cechują się tym, że górna granica przedziału klasowego poprzedniego musi być taka sama jak dolna granice przedziału następnego .

Granice dokładne służą do graficznej prezentacji wyniku grupowania oraz do analizy statystycznej.

Obliczanie środka klasy Xi'

i wielkości klasy Ci dla zmiennej ilościowej skokowej i ciągłej

XDi + XGi

X'i = ____________

2

Ci =XGi- XDi

Lp

Koszty adm.w tys. zł

X'i

Ci

1

10-14

12

4

2

14-18

16

4

3

18-22

20

4

4

22-26

24

4

Obliczenie : X'i Ci

1 (10+14 ):2=12 14-10=4

2 (14+18 ):2=16 18-14=4

3 (18+22 ):2=20 22-18=4

4 (22+26 ):2=25 26-22=4

7 .Określenie liczby klas „k” oraz obliczenie wielkości klasy Ci ( przedziały klasowe

jeszcze nie zostały utworzone)

Liczba klas k - zależy od liczebności zbioru N oraz od żądanej dokładności wyników

opracowania

4 < k < 5 log N

liczba klas powinna być większa lub co najmniej równa 4 ( minimalna liczba klas dla ustalenia szeregu statystycznego) i mniejsza lub równa 5 logarytmów dziesiętnych liczebności zbioru K = N

R ( rozstęp)

Ci = ______

k ( zaproponowana liczba klas)

    1. Obliczenie dolnej granicy pierwszego przedziału klasowego X Di

Xmin > XDi > Xmin - ½ Ci

Np. xmin = 10

Ci = 4

10-1/2 x4 < XDi < 10

8 < XDi< 10

XDi =  8,9,10 

    1. Wykorzystując ustalenia i obliczenia punktów 1-8 budujemy przedziały klasowe tj. schemat klasyfikacyjny zmiennej ilościowej

II . CZĘŚĆ TECHNICZNA :

      1. Budowa makiety tablicy roboczej w oparciu o zbudowany schemat klasyfikacyjny zmiennej ilościowej .

      2. Zaliczanie i zliczanie jednostek w poszczególnych przedziałach klasowych

      3. Budowa tablicy wynikowej tj. szeregu rozdzielczego o cesze ilościowej

      4. Graficzna prezentacja wyników grupowania za pomocą histogramu i diagramów

0x08 graphic
y

0x08 graphic
0x08 graphic
0x08 graphic

0x08 graphic
0x08 graphic
0x08 graphic

0x08 graphic
0x08 graphic
0x08 graphic

0x08 graphic
0x08 graphic

0x08 graphic
0 5 10 15 20 x

wykres słupkowy

Budowę szeregu akceptujemy wówczas, gdy rozkład liczebności cząstkowych n zbliżony jest do rozkładu normalnego tzn. posiada jedno maximum zlokalizowane mniej więcej w środku szeregu .

0x08 graphic

Akceptujemy

0x08 graphic
0x08 graphic

Nie akceptujemy gdy :

0x08 graphic
0x08 graphic

0x08 graphic

0x08 graphic

0x08 graphic
0x08 graphic

0x08 graphic
0x08 graphic

K, Ci , XDi - są to elementy , które mogą ulegać zmianie , aby uzyskać rozkład zbliżony do

normalnego

SZEREGI STATYSTYCZNE I ICH KLASYFIKACJA

Z PUNKTU WIDZENIA BUDOWY

Szereg statystyczny - zawiera informacje o jednej zbiorowości statystycznej wg jednego kryterium zmienności

Szeregi statystyczne wg budowy

0x08 graphic
0x08 graphic

szereg statystyczny prosty szereg statystyczny rozdzielczy

( szczegółowy, wyliczający) ( strukturalny )

- taki, w którym kolejno wyszczególnione - taki, który powstał w wyniku grupowania

są wszystkie jednostki zbioru od jednostki statystycznego , przedstawia strukturę zbioru

0x08 graphic
0x08 graphic
pierwszej po ostatnią n-tą

0x08 graphic
0x08 graphic
np. 1

2

3

.

.

.

n-ta

jakościowy ilościowy jakościowy ilościowy

0x08 graphic
0x08 graphic
0x08 graphic
- każdej jednostce - każdej jednostce

statyst. przyporząd- statyst. przyporządko-

kowany jest jeden wany jest wariant

wariant zmiennej zmiennej ilościowej

jakościowej

np. 1 - LO 1.- 28 lat jednowariantowy mieszany

2 - Technikum 2.- 32 lata

3 - LO 3 - 18 lat

. . wielowariantowy

0x08 graphic
0x08 graphic
. .

n-ta - LO n-ta - 19 lat

wariancyjny typologiczny

- zbudowany metodą grupowania - zbudowany metodą

0x08 graphic
0x08 graphic
wariancyjnego grupowania typolo-

gicznego

0x08 graphic
0x08 graphic

w oparciu o zasadę w oparciu o zasadę w oparciu o zasadę w oparciu o zasadę

matematyczną statystyczną matematyczną statystyczną

Przykłady szeregów statystycznych w oparciu o budowę

Przyklad 1.

Banki w Szczecinie wg ilości oddziałów na dzień 1 .09.2003r.

Banki

ilość oddziałów Xi

1

2

3

4

5

6

2

4

5

3

2

2

źródło : dane ćwiczeniowe

Charakterystyka przedmiotu badania :

  1. zbiorowość statystyczna - banki w Szczecinie stan nadzień 01.09.2003r.

  2. jednostka statystyczna - bank - jednostka złożona

  3. liczebność zbioru N=6

  4. zmienna xi - ilość oddziałów - zmienna ilościowa skokowa

  5. budowa szeregu - szereg prosty ilościowy

Przykład 2

Banki w Warszawie wg ilości oddziałów na dzień 30.06.2003r.

ilość oddziałów xi

liczba banków ni

skumulowane liczebności ni

1

2

3

4

5

6

2

4

5

3

2

2

2

6

11

14

16

18

ogółem :

18

źródło : dane ćwiczeniowe

Charakterystyka przedmiotu badania :

  1. zbiorowość statystyczna - banki w Warszawie na dzień 30.06.2003r.

  2. jednostka statystyczna - bank - jednostka złożona - ni

  3. liczebność zbioru - N = 18

  4. zmienna - xi - ilość oddziałów - zmienna ilościowa skokowa

  5. budowa szeregu - szereg rozdzielczy ilościowy jednowariantowy

Przykład 3.

Nakłady inwestycyjne spółek jawnych powiatu poznańskiego w pierwszym półroczu 2003r.

nakłady inwestycyjne w tys. zł xi

odsetki spółek jawnych

ni

środek klasy

xi'

wielkość klasy

ci

skumulowane liczebności

ni

1

2

3

4

5

31 - 36

37 - 42

43 - 48

49 - 54

55 - 60

8

12

30

35

15

34

40

46

52

58

6

6

6

6

6

8

20

50

85

100

ogółem :

N = 100

źródło : dane ćwiczeniowe

Polecenie :

  1. Przeprowadzić charakterystykę przedmiotu badania

  2. Obliczyć środki klas i wielkości klas

  3. skumulować liczebności cząstkowe i przedstawić je graficznie.

ad. 1.

Charakterystyka przedmiotu badania :

  1. zbiorowość statystyczna - spółki jawne powiatu poznańskiego w I półroczu 2003r.

  2. jednostka statystyczna - spółka jawna - jednostka złożona

  3. liczebność zbioru N= 100

  4. zmienna - nakłady inwestycyjne - zmienna ilościowa ciągła

  5. budowa szeregu - szereg rozdzielczy ilościowy wielowariantowy wariancyjny grupowany w oparciu o zasadę statystyczną ( tzn. dolna granica przedziału następnego jest większa od górnej granicy przedziału poprzedzającego - patrz rubryka 1 tabeli)

ad 2.

Obliczenia środków klas dla zmiennej ilościowej ciągłej :

XDi + XDi+1

Xi'= -----------------

2

środek klasy dla zmiennej ilościowej ciągłej = suma dolnej granicy umownego przedziału i dolnej granicy przedziału następnego - podzielona przez dwa

(31 + 37 ) : 2 = 34

(37 + 43) : 2 = 40

( 43 + 49) : 2 = 46

( 49 + 55) : 2 = 52

( 55 + 61*) : 2 = 58

* 61 - dolna granica następnego przedziału umownie otwartego

Obliczenia wielkości klas dla zmiennej ilościowej ciągłej :

Ci = XDi+1 - XDi

wielkość klasy dla zmiennej ilościowej ciągłej = różnicy dolnej granicy umownego przedziału i dolnej granicy przedziału go poprzedzającego

37 - 31 = 6

43-37 = 6

49-43 = 6

55 - 49 = 6

61* - 55 = 6

* 61 - dolna granica następnego przedziału umownie otwartego

ad 3. Graficzne przedstawienie skumulowanych odsetek sp. jawnych

0x08 graphic
l. skum

odsetek

0x08 graphic
0x08 graphic
0x08 graphic
sp. jawn. 100

0x08 graphic
0x08 graphic
0x08 graphic
85

0x08 graphic
0x08 graphic
0x08 graphic
50

0x08 graphic
0x08 graphic
0x08 graphic
20

0x08 graphic
0x08 graphic
8

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic

0 31 37 43 55 61 nakłady inwestycyjne

źródło : tabela wynikowa

uwagi techniczne :

na osi OX - umownie przerywamy przedział 0 - 31

  1. na osi OX - oznaczamy dolne granice przedziałów , jako ostatnia oznaczamy dolną granicę przedziału umownie otwartego tj. 61

  2. punkty zaznaczamy na końcach przedziałów tj. 37 - 8

43- 20

55 - 50 itd.

3. punkty łączymy krzywą

Przykład 4.

Pracownicy sp. jawnej w miejscowości A wg stażu pracy na koniec 2003r.

staż pracy w latach xi

liczba prac. ni

wielkość klasy ci

uwagi

0 - 5

3

5

zasada matematyczna

5-0=5

5 - 12

8

8

zasada statystyczna

13 - 5 = 8

13 - 20

15

7

zasada matematyczna

20 - 13 = 7

20 - 30

6

10

zasada matematyczna

30 - 20 = 10

30 i więcej

4

wielkości klasy nie można obliczyć , gdyż jest to przedział górą otwarty

ogółem :

36

źródło : dane ćwiczeniowe

Polecenie : Przeprowadzić charakterystykę przedmiotu badania

  1. zbiorowość statystyczna - pracownicy spółki jawnej w miejscowości A na koniec 2003r.

  2. jednostka statystyczna - pracownik - jednostka prosta

  3. liczebność zbioru - N= 36

  4. zmienna - staż pracy - zmienna ilościowa ciągła ( staż pracy stale wzrasta )

  5. budowa szeregu - szereg statystyczny rozdzielczy ilościowy wielowariantowy typologiczny ( klasy mieszane tj. budowane w oparciu o zasadę matematyczną i zasadę statystyczną - trzeba obliczyć wielkości klas zgodnie z zasadą w oparciu której była one budowane )

ci - dla zasady matematycznej dla zmiennej ilościowej ciągłej

Ci = XGi - XDi

ci - dla zasady statystycznej dla zmiennej ilościowej ciągłej

Ci= XDi+1 - XDi

ANALIZA STRUKTURY :

07.03.2004 - wykład

Analiza struktury - dotyczy jednej zbiorowości statystycznej wg jednego kryterium zmienności

Szeregi proste :

- analiza przeciętna

- analiza dyspersji ( zmienności lub zróżnicowania)

0x08 graphic

- rozkład normalny

___________________________________________

analiza rozkładu ( asymetrii) - o ile nasz rozkład różni się od rozkładu normalnego

Szeregi rozdzielcze :

- analiza przeciętna

- analiza dyspersji

- analiza rozkładu

Analiza struktury szeregów prostych

Miary analizy struktury stosowane w szeregach prostych ( miary proste )

zakres analizy

szeregi proste ilościowe

analiza przeciętna

średnie klasyczne

___

X , Ch

przeciętne pozycyjne

Me, D

analiza dyspersji ( zmienności )

miary absolutne

R , s

miary względne

V

średnie klasyczne - obliczane są w oparciu o wszystkie wartości zmienne badanej populacji

( jest ich bardzo wiele)

___

a) X - średnia arytmetyczna ( X „ z daszkiem”)

N

∑ xi

___ i=1....n

X = --------------

N N - liczebność zbioru

b) Ch - średnia chronologiczna

- stosowana do określania poziomu średniego jednostek czasowych

1/2 x1+ x2+ .........+1/2 xn

Ch = --------------------------------

N - 1

Przeciętne pozycyjne - uwzględniają wartości zmienne, stojące na określonych pozycjach , miejscach

a) Me - mediana - jest to ta zmienna, która znajduje się na pozycji środkowej , znajduje się w środku

0x08 graphic
0x08 graphic

_________ Me___________

wartości < Me < wartości

mniejsze/równe większe/równe

Aby wyznaczyć medianę w szeregach prostych należy uporządkować rosnąco lub malejąco wartości zmienne a następnie wyznaczyć numer ( miejsce) mediany

- w szeregu o nieparzystej liczbie jednostek znajduje się tylko jedna zmienna - ma tylko 1 numer

N + 1

Nr mediany Nr Me = -------

2

Medianą będzie ta wartość zmienna x, która znajduje się w szeregu uporządkowanym na tym właśnie miejscu

Me = X N+1

2

- w szeregu o parzystej liczbie jednostek w środku znajdują się dwie zmienne - wyznaczamy dwa numery

N

Nr 1 i Nr 2 mediany Nr 1 Me = ------

2

N

Nr 2 Me = ------ + 1

2

Mediana - to średnia arytmetyczna zmiennych z miejsc Nr1 i Nr2

XN + X N +1

2 2

Me =----------------------

2

W szeregu uporządkowanym parzystym - średnia arytmetyczna dwóch zmiennych , które są dokładnie w pierwszym ( Nr 1 ) i drugim ( Nr 2) miejscu

b) D - dominanta - modalna - jest to ta zmienna , która znajduje się na pozycji dominującej tzn. zmienna , która jest najczęściej najliczniej spotykana

MIARY ABSOLUTNE

      1. R = X max - X min rozstęp

b) s - odchylenie standardowe

- najdokładniejsza miara

- określa absolutne zróżnicowanie wartości zmiennych ( empirycznych)

w porównaniu ze średnią arytmetyczną

- ma zawsze wartość dodatnią

0x08 graphic
0x08 graphic

0x08 graphic
N

∑ xi2

i=1....n __

s = -------------- - ( x )2

N

MIARY WZGLĘDNE

V - współczynnik zmienności

s

V = ------- x 100 %

X

V - współczynnik zmienności informuje o (%) procentowym zróżnicowaniu wartości zmiennych w stosunku do średniej arytmetycznej oraz o stopniu jednorodności badanej zbiorowości

V < 35 % - populacja jest jednorodna

35 % < V < 65 % - populacja jest średniojednorodna

V > 65 % - populacja nie jest jednorodna

Przykłady na analizę struktury w szeregach prostych :

Przykład 1.

Przestępstwa drogowe w 2002r. w podregionach województwa wielkopolskiego

podregiony

liczba przestępstw drogowych - xi

uporządkowane xi

( xi)2

pilski

poznański

kaliski

koniński

Miasto Poznań

206

612

431

222

336

206

222

336=Me

431

612

42 436

374 544

185 761

49 284

112 896

1 807

x

764 921

Przeprowadzić analizę kompleksową liczby przestępstw drogowych w podregionach województwa wielkopolskiego

Charakterystyka przedmiotu analizy :

zbiorowość statystyczna - podregiony województwa wielkopolskiego w 2002r.

jednostka statystyczna - podregion - jednostka złożona

liczebność zbioru : n = 5

zmienna - liczba przestępstw drogowych - jest to zmienna ilościowa skokowa

budowa szeregu - jest to szereg prosty ilościowy

cel analizy : analiza kompleksowa liczby przestępstw drogowych w podregionach woj.

wielkopolskiego

cele szczegółowe -

  1. Analiza przeciętna liczby przestępstw drogowych w woj. wielkopolskim

  2. Analiza dyspersji - zróżnicowania liczby przestępstw drogowych w wielkopolsce

Miary analizy :

ad 1. X, Me, D

ad 2. s, V

ad. 1 .

N

∑ xi

___ i=1....n

X = --------------

N

__ 1807

X = -------- = 361,4 = 361

5

komentarz : średnio w podregionie woj. wielkopolskiego w 2002r. popełniono

361 przestępstw drogowych

N + 1

Nr Me = -------

2

Nr Me =6/2=3

tj. Me = x3= 336

komentarz : w połowie podregionów woj. wielkopolskiego popełniono 336 przestępstw

drogowych i mniej, a w połowie podregionów woj. wielkopolskiego popełniono

336 przestępstw i więcej.

D - dominanty wyznaczyć nie można , ponieważ żadna wartość zmiennej nie wystąpiła więcej niż 1 raz.

Ad 2.

0x08 graphic
0x08 graphic
s

0x08 graphic
N

∑ xi2

i=1....n __

s = ------------ - ( x )2

N

0x08 graphic
0x08 graphic

0x08 graphic
764 921

S = -------------- - ( 361,4 )2 = 149,58 ( tylko dla celów interpretacji

5 możemy tę liczbę zaokrąglić do 150)

komentarz : liczba przestępstw drogowych popełnionych w podregionach województwa wielkopolskiego w 2002 r. różniła się średnio od średniej liczby przestępstw drogowych tj. średniej arytmetycznej o 150 przestępstw drogowych

V

s

V = ------- x 100 %

X

149,58

V = ------- x 100 % = 41,39 % 35% < 41,39 < 65%

361

komentarz : Podregiony województwa wielkopolskiego ze względu na liczbę przestępstw drogowych stanowiły populację średniojednorodną , ponieważ procentowe zróżnicowanie liczby przestępstw drogowych w stosunku do średniej liczby przestępstw drogowych wynosiło 41,39%

Przykład 2

Produkcja w spółce jawnej KORA w koninie w latach 1993-1999 kształtowała się następująco :

lata

produkcja w mln ton

1993

1994

1995

1996

1997

1998

1999

38

34

31

33

36

40

42

Obliczyć średnią produkcję w roku w badanej spółce

Charakterystyka przedmiotu analizy :

  1. zbiorowość statystyczna - lata 1993-1999 w spółce KORA w Koninie

  2. jednostka statystyczna - 1 rok - jednostka złożona

  3. liczebność zbioru N= 7

  4. zmienna - produkcja w mln ton - zmienna ilościowa ciągła

  5. budowa szeregu - szereg prosty ilościowy

cel analizy - obliczenie średniej rocznej produkcji w badanej spółce za lata 1993-99

miara analizy - jednostki są jednostkami czasowymi

Ch - średnia chronologiczna

1/2 x1+ x2+ .........+1/2 xn

Ch = --------------------------------

N - 1

˝ x 38+34+31+33+36+40+1/2x42

Ch= ----------------------------------------- = 35,67 mln t

7 - 1

komentarz : średnia roczna wielkość produkcji w badanej spółce w latach 1993-99 wynosiła 35,67 mln t

Przykład 3

Gminy północne woj.wielkopolskiego wg miesięcznych wydatków na kulturę w tys. zł w styczniu 2000r.

gminy

miesięczne wydatki na kulturę w tys.zł - xi

uporządkowane xi

A

B

C

D

E

F

G

H

18

20

17

21

15

17

19

17

15

17

17 D=17

17

18

19

20

21

polecenie :

Przeprowadzić analizę przeciętną za pomocą miar przeciętnych pozycyjnych w zakresie miesięcznych wydatków na kulturę

Charakterystyka przedmiotu analizy :

  1. zbiorowość statystyczna - gminy północne województwa wielkopolskiego w 2000r.

  2. jednostka statystyczna - gmina - jednostka złożona

  3. liczebność zbioru N= 8

  4. zmienna - miesięczne wydatki na kulturę - zmienna ilościowa ciągła xi

budowa szeregu - szereg prosty ilościowy

cel analizy : określenie poziomu przeciętnego miesięcznych wydatków na kulturę

miary analizy : Me,

Me N 8

Nr 1 i Nr 2 mediany Nr 1 Me = ----= --- = 4

2 2

N 8

Nr 2 Me = ------ + 1= ------ +1= 5

x4 + x5 17 +18

Me = ------------------ = ----------- = 17,5 tys. zł

komentarz : w połowie gmina północnych województwa wielkopolskiego wydatki na kulturę w styczniu 200r. wynosiły 17,5 zł i mniej, a połowie gmin 17,5 tys. zł i więcej

D = 17 tys. zł

komentarz : dominującą kwotą przeznaczoną na kulturę w gminach północnych woj. wielkopolskiego to 17 tys. zł ( tylko jedna wartość może dominować !!!)

ANALIZA STRUKTURY SZEREGÓW ROZDZIELCZYCH

Miary analizy struktury stosowane w szeregach rozdzielczych ( miary ważone)

Zakres analizy

Szeregi rozdzielcze ilościowe

  • z przedziałami jednowartościowymi

  • z przedziałami wielowartościowymi-wariancyjne

  • typologiczne(wielowariantowe)

  • z przedziałami mieszanymi

analiza przeciętna

średnie klasyczne

____

X - ważona

średnie klasyczne

------------------*

przeciętne pozycyjne

Me, Q1, Q3, D

przeciętne pozycyjne #

Me, Q1,Q3 , D*

analiza dyspersji

( zmienności, zróżnicowania)

miary absolutne

s

miary absolutne

Q

miary względne

s

V = ------ x 100%

X

miary względne

Q

V = --------- x 100%

Me

analiza rozkładu

(asymetrii)

__

X - D

As = -----------

S

Q1 + Q3 - 2 Me

As = ------------------------

2 Q

* żadna

X - średnia arytmetyczna ważona

wagami są odpowiadające liczebności cząstkowe , które wskazują ile razy dana wartość zmienna się powtórzyła

xi

wagi

n

x1

x2

.

.

.

xK

n1

n2

.

.

.

nK

i = 1, ..... k

wartość zmienna x1 powtórzyła się n1 razy

średnia arytmetyczna ważona :

k

xi . ni

i=1....k

X = --------------

N

0x08 graphic
N

Me - mediana

0x08 graphic
0x08 graphic
¾ ¼

0x08 graphic
0x08 graphic
½ Me ½

______ _______________________________

0x08 graphic
0x08 graphic
1/4 3/4

Mediana należy do grupy miar zwartych :

kwartyle ( z łac. kwarta - ¼)

Q1- kwartyl I - dzieli zbiór na ¼ i ¾ ¼ < Q1 < ¾

Q3 - kwartyl III - znajduje się na pozycji ¾ ¾ < Q3 < ¼

decyl -dzieli zbiór na części dziesiąte

centyl - dzieli zbiór na części setne

Aby wyznaczyć medianę i kwartyle w szeregu rozdzielczym należy skumulować liczebności cząstkowe a następnie wyznaczyć pozycję parametrów

N

pozycja Q1 = -------

4

N

pozycja Me = -----

2

3N

pozycja Q3= ------

4

nie ma w tym szeregu znaczenia czy N jest parzyste czy nie

*W szeregu rozdzielczym ilościowym z przedziałami jednowartościowymi

medianą Me i Q1, Q3 kwartylami są te wartości zmienne, które odpowiadają skumulowanym liczebnościom zawierającym pozycję parametrów

*W szeregu rozdzielczym ilościowym wielowariantowym wariancyjnym

medianę Me i Q1, Q3 kwartyle należy oszacować wzorami interpolacynymi szacunkowymi

N - skumulowana liczebność n -1

2

Me = XDo + ------------------------------------------------------------------------- x Co

( lub XDi- dolna no

granica przedziału mediany)

skumulowana liczebność n -1

no - liczebność przedziału mediany

Do - dolna granica przedziału mediany

N

skumulowana liczebność poprzedzająca przedział mediany

no - liczebność przedziału mediany

co- wielkość przedziału mediany

Wzór interpolacyjny na Q1 i Q3

N - n-1,1 ( tj. skumulowaną liczebność poprzedzającą przedział klasowy,

4 w którym znajduje się Q1)

Q1= XD1 + ---------------------------------------------------------------- . C1

n1

3 N - n-1,3 ( tj. skumulowaną liczebność poprzedzającą przedział klasowy,

4 w którym znajduje się Q3)

Q3= XD3 + ---------------------------------------------------------------- . C3

n1

Graficzne wyznaczenie mediany i kwartyli

Aby wyznaczyć graficznie medianę i kwartyle należy sporządzić wykres skumulowanych liczebności :

0x08 graphic
0x08 graphic
skum.

ni

0x08 graphic
40

0x08 graphic
30 -------------------------------------------

0x08 graphic
20 ---------------------------

0x08 graphic
10------------

0x08 graphic
0 Q1 4 Me 8 Q3 12 16 x

N 40

poz. Me = ---- = -------= 20

N 40

poz. Q1 = ---- = -------= 10

4 4

3 N 3 x 40

poz. Q3 = ---- = -------= 30

4 4

D - dominanta - w szeregu rozdzielczym ilościowym jednowariantowym dominantą jest ta wartość zmienna , która powtórzyła się w zbiorowości najwięcej razy tzn. odpowiada największej liczebności cząstkowej.

- w szeregu rozdzielczym ilościowym z przedziałami wielowariantowymi dominantę należy oszacować wzorem interpolacyjnym ( szacunkowym) :

no - n -1

D = XDo + ----------------------------- . Co

( no - n1 ) + ( no - n +1)

XDo - dolna granica przedziału dominującego

no - liczebność przedziału dominującego

n -1 - liczebność przedziału poprzedzającego przedział dominujący

n +1 - liczebność przedziału następnego po przedziale dominującym

co - wielkość przedziału dominującego

Dominantę można wyznaczyć graficznie

Graficzne wyznaczanie dominanty

0x08 graphic

n

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic

0x08 graphic
0x08 graphic
0x08 graphic

0x08 graphic
0x08 graphic

0x08 graphic
0x08 graphic

D

n - liczebności cząstkowe

najwyższy słupek - słupek dominujący

z jego wierzchołków wyprowadzamy przekątne do wierzchołków sąsiadujących - punkt ich przecięcia - prostopadła do osi x - UWAGA !!! - dominanta znajduje się na osi x ( to jest wartość zmiennej na osi X)

ANALIZA DYSPERSJI

Miary absolutne

s - odchylenie standardowe ważone

0x08 graphic
0x08 graphic

0x08 graphic
k

∑ x12 . n1

i = 1 ----

s = --------------------- - ( X) 2

N

Miary względne

s

V = ----- . 100 % ( wzór znajduje się też w tablicy )

X

Analiza rozkładu asymetrii

As - średnia asymetryczna

0x08 graphic
0x08 graphic

-

W rozkładzie normalnym średnia arytmetyczna = dominanta = mediana

As= Me = D

As = 0 jeśli nie ma symetrii

0x08 graphic
0x08 graphic
0x08 graphic
As < 0 ( ujemny)

0x08 graphic

0x08 graphic

0x08 graphic
0x08 graphic
Me

- X < D

rozkład lewostronny - po lewej stronie znajduje się większa część powierzchni pola

0x08 graphic
0x08 graphic

0x08 graphic
0x08 graphic
0x08 graphic
As > 0 ( dodatni )

0x08 graphic

0x08 graphic

Me

- D < X

- rozkład prawostronny - po prawej stronie większa część powierzchni po prawej stronie

# dominantę w szeregach rozdzielczych ilościowych z przedziałami wielowariantowymi typologicznymi i mieszanymi stosujemy wówczas, gdy wielkość przedziału dominującego i dwóch sąsiadujących jest tej samej wielkości

x1

ni

5-10

3

c-1 = 6

11-16

10

co= 6

17-22

5

c+1= 6

23 i więcej

4

11- 16 przedział dominujący - można wyznaczyć dominantę

x1

ni

1-5

1

c-1 = 7

6-12

3

co= 3

13-15

4

c+1= ?

16 i powyżej

2

13-15 przedział dominujący - dominanty nie można wyznaczyć

Miary absolutne

Q - odchylenie ćwiartkowe

-informuje o przeciętnym zróżnicowaniu wartości zmiennych w porównaniu z medianą tj. wartością środkową

Q3 - Q1

0x08 graphic
Q =

2

Miary względne

Q

V = --------- . 100 %

Me

Analiza rozkładu

Q1 + Q2 - 2 Me

As = ----------------------

2Q

Przykłady na analizę struktury w szeregach rozdzielczych

Przykład I

Biblioteki w powiecie złotowskim z podziałem na gminy wg stanu na dzień 30.09.2003r.

Liczba xi

bibliotek

odsetek gmin w % ni

Xi . ni

skumulowane

ni

Xi2

Xi2 . ni

3

8

24

8

9

72

4=Q1

23

92

31

16

368

D=5=Me

34

170

65

25

850

6=Q3

21

126

86

36

756

7

14

98

100

49

686

Ogółem

100=N

510

x

x

2732

Przeprowadzić analizę kompleksową liczby bibliotek w gminach powiatu złotowskiego na dzień 30.09.2003r.

Charakterystyka :

zbiorowość statystyczna - Gminy powiatu złotowskiego na dzień 30.09.2003r.

jednostka statystyczna - Gmina - jednostka złożona- liczebność zbioru N = 100

zmienna - liczba bibliotek - zmienne ilościowa skokowa

budowa szeregu - jest to szereg rozdzielczy ilościowy jednowariantowy ( ponieważ w jednej

klasie - tylko jeden wariant)

cel analizy - analiza kompleksowa liczby bibliotek w gminach powiatu złotowskiego

cel szczegółowy analizy :

  1. analiza przeciętna liczby bibliotek w gminach powiatu złotowskiego

  2. analiza dyspersji - zróżnicowania liczby bibliotek w gminach powiatu złotowskiego

  3. analiza rozkładu gmin wg liczby bibliotek

Miary analizy :

__

X - średnia arytmetyczna ważona

ad.1 - Me, Q1 , Q3 , D

ad 2 - s V

ad. 3 - As

___

ad1. X

k

xi . ni

i=1....k 510

X = -------------- = -------- = 5,1 ( zmienna skokowa do interpretacji można ja zaokrąglić)

N 100

komentarz : średnio w gminach powiatu złotowskiego było 5 bibliotek ( stan na dzień

30.09.2004r)

Me

N 100 (sprawdzamy w skumulowanych liczebnościach i przyrównujemy do

Me = ---- = ----- = 50 wartości Xi)

2 2 Me = 5

komentarz : W połowie gmin powiatu złotowskiego było 5 bibliotek i mniej , a w połowie

gmin 5 bibliotek i więcej

Q1

N 100 ( lokalizujemy w skumulowanych liczebnościach

poz. Q1 = ---- = -------= 20 i przyrównujemy do wartości Xi)

Q1= 4 biblioteki

komentarz : W jednej czwartej gmin powiatu złotowskiego były 4 biblioteki i mniej , a w ¾ gmin były 4 biblioteki i więcej

3 N 3 x 100

poz. Q3 = ---- = -------= 75 ( postępujemy j.w.)

Q3 = 6 bibliotek

komentarz : W ¾ gmin powiatu złotowskiego było 6 i mniej bibliotek ,a w ¼ gmin było 6 bibliotek i więcej

D

( sprawdzić w tabeli - rubryka liczebności cząstkowych )

Najwięcej razy powtórzyło się 5 bibliotek

D = 5

komentarz : Najwięcej razy w gminach powiatu złotowskiego było 5 bibliotek

ANALIZA DYSPERSJI :

s

0x08 graphic
0x08 graphic

0x08 graphic
k

∑ x12 . n1

i = 1 ----

s = --------------------- - ( X) 2

N

0x08 graphic
0x08 graphic

0x08 graphic
2732

s = --------------------- - ( 5,1) 2 = 1,14 bibl. ( zmienna skokowa do interpretacji można ją

100 zaokrąglić )

komentarz : Liczba bibliotek w gminach powiatu złotowskiego różniła się średnio od średniej

liczby bibliotek w gminach tj. średniej arytmetycznej o około 1 bibliotekę

V współczynnik zmienności

Q

V = --------- . 100 %

Me

1,14

V = --------- . 100 % = 22,35 %

5,1

komentarz : Gminy powiatu złotowskiego ze względu na liczbę działających bibliotek stanowiły zbiorowość ( populację ) jednorodną , ponieważ średnie procentowe zróżnicowanie liczby bibliotek w stosunku do średniej arytmetycznej liczby bibliotek wynosiło 22,35%

As miara rozkładu

__

X - D

As = -----------

S

5,1 + 5

As = --------- = 0,09 = 0,1 As > 0

1,14

0x08 graphic
0x08 graphic

________________________________________________

__

D = 5 X =5,1

5< 5,1

Rozkład gmin powiatu złotowskiego ze względu na liczbę bibliotek jest nieznacznie prawostronny, co oznacza, że dominująca liczba gmin miała bibliotek mniej niż średnia liczba bibliotek

ANALIZA KORELACJI - WSPÓŁZALEŻNOŚCI

zmienne X , Y

związek korelacyjny - jest to niepełny związek przyczynowo-skutkowy ,

który cechuje się tym , że wartościom jednej zmiennej

przyporządkowane są średnie wartości drugiej zmiennej

Rodzaje związków korelacyjnych :

1 Związek zgodności - korelacja dodatnia

0x08 graphic

y

0x08 graphic

0x08 graphic
0x08 graphic
y2

y1

0x08 graphic
0x08 graphic

0x08 graphic
x1 x2

Pasmo punktów rozrzutu pochylone jest w kierunku prawym

zmienna X - maleje - to następuje średni spadek zmiennej Y

zmienna X - wzrasta - to następuje średni wzrost zmiennej Y

obliczony współczynnik korelacji będzie dodatki

0x08 graphic
0x08 graphic
0x08 graphic
X X Y

0x08 graphic
0x08 graphic
0x08 graphic

Y X Y

2. związek niezgodności - przeciwieństwa - korelacja ujemna

- wzrostowi zmiennej X towarzyszy średni spadek zmiennej Y

0x08 graphic

y

0x08 graphic

0x08 graphic
0x08 graphic
0x08 graphic
y4

0x08 graphic
0x08 graphic
0x08 graphic
y3

0x08 graphic
0x08 graphic
y2

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
y1

0x08 graphic

x4 x3 x2 x1

pasmo punktów rozrzutu pochylone jest w kierunku lewym

zmienna X maleje - następuje średni wzrost zmiennej Y

zmienna X rośnie - to następuje średni spadek zmiennej Y

obliczony współczynnik korelacji będzie ujemny

0x08 graphic
0x08 graphic
0x08 graphic

X X Y

0x08 graphic
0x08 graphic
0x08 graphic
Y X Y

  1. związek niezależności - zmienna X i Y nie maja ze sobą nic wspólnego

0x08 graphic

y

0x08 graphic

0x08 graphic

x

Pasmo rozrzutu praktycznie nie istnieje - układ punktów rozrzutu jest koncentryczny

0x08 graphic
X nie mają żadnego punktu styczności

0x08 graphic
Y

METODY ANALIZY KORELACJI

1. Współczynnik r Pearsona

i analiza regresji

Współczynnik r Pearsona - stosuje się dla dwóch zmiennych ilościowych , gdy pasmo punktów rozrzutu wygładza funkcja prostoliniowa

0x08 graphic

y

0x08 graphic

0x08 graphic

x

dwie zmienne są ilościowe i wygładza pasmo rozrzutu linia prosta

to współczynnik r Pearsona :

1

------ Σ x y - x y

N

r (x,y) = r (y,x) = ---------------------------------------------

sx sy

Współczynnik korelacji przyjmuje wartości z przedziału :

<( -1 ; 1)>

r (x,y) = 1 - jest to korelacja doskonała , idealna , pełna

0x08 graphic
punkty rozrzutu na linii prostej pochylonej w stronę prawą

0x08 graphic

r=1

0x08 graphic

45o

0x08 graphic
45o

0x08 graphic
pasmo na linii prostej pochylone w kierunku lewym

0x08 graphic

0x08 graphic
450 r = - 1

0x08 graphic

0x08 graphic
450

r (x,y) = 0 - zmienne są niezależne

0x08 graphic
0x08 graphic
0, 7 < r (x,y) < 1 - jest to bardzo silna korelacja

gdy „-„ bardzo silna korelacja ujemna

gdy „+” bardzo silna korelacja dodatnia

0x08 graphic
0x08 graphic
0, 5 < r (x,y) < 0,7 - jest to silna korelacja

gdy „-„ silna korelacja ujemna

gdy „+” silna korelacja dodatnia

0x08 graphic
0x08 graphic
0, 3 < r (x,y) < 0,5 - jest to słaba korelacja

gdy „-„ słaba korelacja ujemna

gdy „+” słaba silna korelacja dodatnia

0x08 graphic
0x08 graphic
0 < r (x,y) < 0,3 - jest to bardzo słaba niewyraźna korelacja

gdy „-„ bardzo słaba niewyraźna korelacja ujemna

gdy „+” bardzo słaba niewyraźna korelacja dodatnia

Współczynnik determinacji d :

d= r(x,y) 2 . 100 %

przeciwieństwem determinacji jest :

Współczynnik indeterminacji i :

i = 100 % - d

Współczynnik korelacji liniowej Pearsona informuje o charakterze i sile związku między badanymi zmiennymi natomiast nie pozwala określić jaki będzie poziom jednej zmiennej przy określonym poziomie wartości drugiej zmiennej . Nie określa również o ile średnio zmienia się wartość jednej zmiennej, gdy druga zmienna wzrośnie o jednostkę.

Na te pytania odpowiedzi udziela ANALIZA REGRESJI

tj. ANALIZA REGRESJI - określa jaki będzie poziom jednej zmiennej przy określonym poziomie wartości drugiej zmiennej , określa o ile średnio zmienia się wartość jednej zmiennej , gdy druga zmienna wzrasta o jednostkę .

y'- teoretyczna wartość zmiennej y , przy znanej wartości zmiennej x

y'(x) = ay + by . x

sy

parametr kierunkowy by by = r(x,y) . -----

sx

0x08 graphic
0x08 graphic
wyraz wolny ay ay = y - by . x

standardowy błąd szacunku regresji zmiennej y przy znanej zmiennej x

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic

sy/x = sy 1 - r(x,y) 2

x'(y) - teoretyczna wartość zmiennej x przy znanej zmiennej y

x'(y) = ax + bx . y

sx

parametr kierunkowy bx bx = r(x,y) . -----

sy

0x08 graphic
0x08 graphic
wyraz wolny ax ax = x - bx . y

standardowy błąd szacunku regresji zmiennej x względem y

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic

sx/y = sx 1 - r(x,y) 2

Przykład :

Rodziny w Kaliszu w ramach badania budżetów rodzinnych wg dochodów miesięcznych na członka rodziny i wydatków na zakup prasy w I 2003r.

Tablice dwóch szeregów prostych :

Rodziny

dochód na 1 osobę x

wydatki na zakup prasy y

x . y

x2

rodzina1

320

4,50

1440

102400

rodzina2

240

4,00

960

57600

rozdina3

380

3,50

1330

144400

rodzina4

690

6,30

4347

476100

rodzina5

920

10,50

9660

846400

rodzina6

390

3,80

1482

152100

rodzina7

1100

12,20

13420

1210000

todzina8

750

6,90

5175

562500

rodzina9

830

7,20

5976

688900

rodzina10

630

4,00

2520

396900

rodzina11

670

14,40

9715

448900

ogółem

6620

77,40

56025

5086200

Polecenie :

Wykorzystując podane informacje :

  1. Zbadać zależność między dochodami i wydatkami na prasę badanej grupie rodzin

  2. Określić w jakim stopniu wydatki na prasę wyjaśnione są uzyskiwanymi dochodami

  3. Oszacować wydatki i dochody dla zmiennych minimalnych i maxymalnych oraz wyznaczyć linię regresji

  4. Oszacować wydatki na prasę, gdy dochody na członka rodziny wynoszą 200 zł

  5. Obliczyć standardowy błąd oszacowania dochodów i wydatków

Charakterystyka przedmiotu analizy :

  1. Zbiorowość statystyczna - rodziny objęte badaniem budżetów rodzinnych w Kaliszu w I 2003r.

  2. Jednostka statystyczna - rodzina - jednostka złożona

  3. Liczebność zbioru N=11

  4. Zmienne :

1 - dochody na osobę - zmienne ilościowa ciągła X

2. wydatki na prasę - zmienna ilościowa ciągła Y

  1. Budowa tablicy - tablica zespołu dwóch szeregów prostych

Cel analizy zawarty w poleceniach .

ad.1 - sporządzamy pasmo punktów rozrzutu

0x08 graphic
Y

25

15

12 Y' - teoretyczna wartość

0x08 graphic
0x08 graphic
0x08 graphic
zmiennej Y dla zmiennej X = 1100

9

6

3

0x08 graphic

200 400 600 800 1000 1100 1200 X

Współczynnik korelacji będzie dodatni

1

------ Σ x y - x y

N

r (x,y) = r (y,x) = ---------------------------------------------

sx sy

1 1

------ = ----------

N 11

Σ x y = 56.025

__ Σ x 6620

X = ------ = ---------- = 601,82

N 11

__ Σ y 77,70

Y = ------ = ---------- = 7,04

N 11

0x08 graphic
0x08 graphic

0x08 graphic
Σ x2

Sx = ------------------ - ( X )2 =

N

0x08 graphic
0x08 graphic

0x08 graphic
5.086.200

Sx = ------------------ - ( 601,82 )2 = 316,54

11

Sy= 3,60

r (x,y) = 0,75

Komentarz : Między dochodami na osobę , a wydatkami na zakup prasy zachodziła bardzo silna korelacja dodatnia co oznaczało, że rosnącym dochodom odpowiadały średnio wyższe wydatki na zakup prasy .

ad. 2 - wyznaczamy współczynnik determinacji :

d = ( 0,57)2 x 100 % = 56,25%

i = 100 - 56,25 % = 43,75 %

komentarz : Wydatki na zakup prasy w 56,25% wyjaśnione były dochodami na osobę w rodzinie , natomiast na poziom wydatków na zakup prasy 43,75 % wpłynęły inne zmienne, które w tym badaniu nie wystąpiły

ad. 3 -

y'x=min= 240 = ay +by . 240

sy 3,60

by = r(x,y) . -------- = 0,75 . ------- = 0,0085

sx 316,54

__ __

ay = y - by x = 7,04 - 0,0085 . 601,82 = 1,92

y'x=240 = 1,92 + 0,0085 . 240 = 3,96 y'x=max=1100 = 11,27 ( obliczenie j.w.)

Obliczyć : x'y=max , x'y=min ( linie muszą się przeciąć)

Obliczyć standardowe błędy oszacowania

KORELACJA DWÓCH ZMIENNYCH JAKOŚCIOWYCH

  1. współczynnik zbieżności φ ( fi) Pearsona

I zmienna

II zmienna

Σ

1

2

1

0x08 graphic
0x08 graphic
a

b

a+b

2

c

d

c+d

Σ

a+c

b+d

N = liczebność zbioru

a . d - b . c

0x08 graphic
0x08 graphic
0x08 graphic
φ = ------------------------------

( a+b)(c+d)(a+c)(b+d)

0x08 graphic
0x08 graphic
φ - przyjmuje wartości - 1 < φ < +1

nie interpretuje się kierunku ( znaku ) przy zmiennej jakościowej tylko siłę związku

2. współczynnik kontyngencji C

n - liczba cząstkowa

I zmienna

II zmienna

Σ

1

2

3

1

n1,1

n1,2

n1,3

k=3

Σ =n1,j

j=1

2

n2,1

n2,2

n2,3

k

Σ =n2,j

j=1

Σ

2

Σ =ni,1

i=1

2

Σ =ni,2

i=1

2

Σ =ni,3

i=1

N

numery wierszy = i= 1,......r

numery kolumn = j = 1,.......k

N - liczebność zbioru

0x08 graphic
0x08 graphic

0x08 graphic
χ2

C = ---------------

χ2 + N

χ2( hi) - wartość statystyki ( nie jest liczbą )

χ2 = Σ ( ni,j - n'i,j)2

n'

ni,j - liczebności empiryczne i-tego wiersza j-tej kolumny (konkretne wartości n z tablicy)

n'i,j - liczebności teoretyczne i-tego wiersza

Liczebności teoretyczne - oblicza się w oparciu o sumy brzegowe wierszy , sumy brzegowe kolumn oraz liczebność zbioru

Cs- skorygowany współczynnik kontyngencji

C

Cskor = -----------

Cmax ( współczynnik kontyngencji maxymalny)

Cmax r + Cmax k

Cmax = -----------------------

2

0x08 graphic
0x08 graphic
0x08 graphic
r - 1

Cmax r = --------

r

0x08 graphic
0x08 graphic
0x08 graphic
k - 1

Cmax k = --------

k

0x08 graphic
0x08 graphic
0 < Cskor < 1 ( nie mówimy o korelacji dodatniej- nie interpretuje się kierunku tylko siłę związku dla zmiennej jakościowej )

Przykład 1 .

Zbadano 1240 osób odwiedzających Urząd Miasta w Koninie w ciągu pierwszego tygodnia marca 2003r.. Wyniki tego badania przedstawiono w tablicy :

Ocena pracy

urzędu

wiek odwiedzających urząd

Σ

młodzi

dojrzali i starsi

pozytywna

610 a

50 b

660

negatywna

200 c

380 d

580

Σ

810

430

1240

Zbadać zależność oceny pracy urzędu od wieku osób korzystających z usług tego urzędu :

a . d - b . c

0x08 graphic
0x08 graphic
0x08 graphic
φ = ------------------------------

( a+b)(c+d)(a+c)(b+d)

610 . 380 - 50 . 200

0x08 graphic
0x08 graphic
0x08 graphic
φ = ------------------------------ = 0,61 - współczynnik zbieżności

( 660)(580)(810)(430)

Ocena pracy urzędu przez petentów zależy od wieku petentów w stopniu silnym , bo

φ = 0,61 tj. wiek petenta w silnym stopniu decyduje o ocenie pracy urzędu

Przykład 2

Studentów pewnego kierunku AB poddano badaniu w zakresie wyników sesji egzaminacyjnej i metody przygotowania się do sesji , wyniki były następujące :

wynik sesji

egzaminacyjnej

metoda nauki

Σ

przed egzam.

system

brak stałej metody

pozytywny

7 1,1

35 1,2

10 1,3

52

negatywny

16 2,1

5 2,2

6 2,3

27

Σ

23

40

16

79

Zbadać zależność między wynikami sesji egzaminacyjnej a metodą nauki :

0x08 graphic
0x08 graphic

0x08 graphic
χ2

C = ---------------

χ2 + N

χ2 = Σ ( ni,j - n'i,j)2

n'i,j

nr wierszy i kolumn

ni,j

n'i,j

( ni,j - n'i,j)2

( ni,j - n'i,j)2

n'i,j

1,1

7

15,1

-8,1

4,3450

1,2

35

26,3

8,7

2,8779

1,3

10

10,5

-0,5

0,0238

2,1

16

7,9

8,1

8,3051

2,2

5

13,7

-8,7

5,5248

2,3

6

5,5

0,5

0,0455

Σ

79 =

79

0x08 graphic
0

21,1221

musi = 0

Obliczenie : n'i,j

n'1,1 = ( 52x23) : 79 = 15,1

n'1,2 = ( 52 x 40):79= 26,3

n'1,3 = ( 52x16):79= 10,5

n'2,1 = (27x23):79= 7,9

n'2,2 = (27x40):79= 13,7

n'2,3= (27x16):79= 5,5

suma n i,j = sumie n'i,j suma empirycznych liczebności jest taka sama jak suma liczebności teoretycznych

( 8,1)2 : 15,1 = 4,3450

wartość statystyki χ2 = 21,1221

0x08 graphic
0x08 graphic
0x08 graphic
χ2

C = --------------- = 0,4593

χ2 + N

C 0,4593

Cskor = ----------- = ------------------ = 0,60

Cmax 0,7615

Obliczenie :

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
r - 1 2-1

Cmax r = -------- = ------------- = 0,707

r 2

0x08 graphic
0x08 graphic

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
k - 1 3 - 1

Cmax k = -------- = ------------- = 0,816

k 3

współczynnik kontyngencji maxymalny

Cmax r + Cmax k 0,707 + 0,816

Cmax = ----------------------- = ------------------- = 0,7615

2 2

Komentarz :

Wynik sesji egzaminacyjnej badanej populacji studentów w silnym stopniu zależał od metody przygotowywania się do sesji egzaminacyjnej.

Zastosowanie współczynnika korelacji punktowodwuseryjnej

rp bis

rp bis - stosuje się dla dwóch zmiennych przy czym zmienna jakościowa posiada dwa warianty, natomiast zmienna ilościowa występuje w postaci przedziałów jednowariantowych lub wielowariantowych wariancyjnych

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
rp bis = x p - x q . p . q

sx gdy : p + q = 1

N p - liczba jednostek wariantu pierwszego

p = -------

N - liczba jednostek całej zbiorowości statystycznej

N q - liczba jednostek wariantu drugiego

q = -------

N - liczba jednostek całej zbiorowości statystycznej

Przyjmuje wartości z przedziału :

0x08 graphic
0x08 graphic
- 1 < rp bis < +1

Przykład 1.

Bezrobotni zarejestrowani w powiatowym urzędzie pracy w miejscowości A w lutym 2003r. wg płci i wieku :

Zbadać zależność pomiędzy wiekiem i płcią bezrobotnych .

Charakterystyka :

zmienna ilościowa x