background image

Charakterystyki Liczbowe

Celem statystyki opisowej jest wyznaczenie pewnych 
charakterystyk liczbowych opisujących właściwości 
rozkładu badanej cechy.

Statystyką

Statystyką zwie się taką cechę rozkładu, która 
została wyznaczona z danych próby losowej.

Parametrem

Parametrem zwie się taka cechę rozkładu, która 
została wyznaczona z danych pełnej populacji.

Charakterystyki statystyczne dotyczą 3 aspektów 

rozkładów:

poziomu

poziomu cechy, 

zróżnicowania

zróżnicowania cechy, i 

asymetrii 

asymetrii 

rozkładu.

background image

Miary położenia rozkładu

Miary tendencji centralnej

Średnią arytmetyczną

Średnią arytmetyczną w rozkładzie empirycznym 
nazywamy wyrażenie:

 gdzie x

j

  (j=1,...,n) są indywidualnymi 

obserwacjami w zbiorze danych, zaś n jest liczbą 
obserwacji.

1

1

n

i

i

x

x

n

=

=

x

0

2

4

6

8

10

12

14

16

Li

cz

ba

 o

bs

er

w

ac

ji

0

5

10

15

20

25

30

35

Dwa identyczne 
rozkłady 
zmiennej x 
różniące się 
położeniem

background image

Jeśli dane o rozkładzie są przedstawione w postaci 
szeregu rozdzielczego , średnia może być policzona 
tak

1

1

k

i i

i

x

xn

n

=

=

 gdzie n

i

 to liczebność w klasie i .

Liczba braków

(kategoria)

Liczba partii 

produktu
(częstość 

bezwzględna)

Częstość partii 

produktu
(częstość 

względna)

0

5

0.25

1

8

0.40

2

4

0.20

3

3

0.15

20

1.00

Przykład. Szereg rozdzielczy prezentuje rozkład

 o wartości średniej

0 5 1 8 2 4 3 3 20 125

( *

*

*

* )/

.

=

+

+

+

=

background image

Własności średniej arytmetycznej

1

n

j

j

xn

x

=

=

- iloczyn średniej i liczebności n jest równy łącznej 
wartości zmiennej ( sumie)

- suma odchyleń zmiennej od wartości średniej 
jest równa zeru

(

)

1

0

n

i

i

x x

=

-

=

- suma kwadratów odchyleń od pewnej stałej C jest 
najmniejsza, gdy C jest równe średniej

(

)

2

1

  gdy 

min

n

i

i

x C

C x

=

-

=

=

background image

Medianą rozkładu

Medianą rozkładu empirycznego nazywamy taką 
wartość cechy x, że co najmniej połowa jednostek 
zbiorowości ma wartość cechy nie większą od niej, 
oraz równocześnie co najmniej połowa jednostek ma 
wartość cechy nie mniejszą od tej wartości.

Jeśli wartości cechy uporządkujemy rosnąco to 
mediana przyjmuje wartość (n+1)/2 pozycji w tym 
ciągu (nieparzyste n) . Dla wartości parzystej n , 
mediana jest średnią z pozycji n/2 i (n+2)/2

Przykład.

Przykład.

Próbka statystyczna zawiera następujące wartości 

cechy x:

35,37,39,6,9,15,40,43,46,21,24,29

Oblicz średnią i medianę

Średnia = 28.6(6)    ;    mediana = 32

Medianę stosujemy do charakteryzowania rozkładu 
gdy średnia arytmetyczna zawodzi z powodu 
niejednorodności rozkładu, lub przy trudnościach z 
obliczeniem średniej (przedziały krańcowe są 
otwarte).

Mediana

background image

Kwantylem rzędu p ( gdzie 0<p<1) nazywamy taka 
wartość cechy k

p

, dla której (jako pierwszej) 

dystrybuanta empiryczna spełnia warunek

( )

n

p

F k

p

Kwantyle 0.25 (25%), 0.5 (50%), 0.75(75%) to 

kwartyle

kwartyle.

UWAGI:
Kwartyl 25% oddziela 25% obserwacji o 
wartościach niższych od niego. 
Kwartyl 50% to mediana.
W zbiorowości uporządkowanej rosnąco kwartyle 
dzielą zbiorowość na 4 części liczące po 25% 
obserwacji.

Kwantyl

background image

Obliczanie kwartyli 25% i 75%:

-uporządkuj rosnąco zbiorowość
- pozycja (n+1)/4 to kwartyl 25% a 3(n+1)/4 to 
kwartyl 75%

- dla cechy skokowej jeśli obliczone numery pozycji 
nie są całkowite, zaokrąglij ( 0.5 dla kwartla 25% 
zaokrąglamy w górę, a dla kwartyla 75% w dół)

- dla cechy ciągłej, jeśli obliczone numery pozycji nie 
są całkowite, uśredniaj najbliższe wartości cechy.

Przykład.

Przykład. Próbka statystyczna zawiera następujące wartości cechy x:

35,37,39,6,9,15,40,43,46,21,24,29. Oblicz kwartyle 25% i 75%.

  

1     2       3        4         5       6         7         8        9        10       11      12

6, 9, 15, 21, 24, 29, 35, 37, 39, 40, 43, 46

(12+1)/4=3.25  - zatem kwartyl 25% to 15 (cecha skokowa)

3(n+1)/4=3*13/4=9.75 – zatem kwartyl 75% to 40 (cecha skokowa)

Jeśli założymy , że cecha ma rozkład ciągły, to kwartyle są:

25% = (15+21)/2=18    ;   75% = (39+40)/2=39.5

background image

Box & Whisker Plot

Wykres pudelko i drut

 Median = 32
 25%-75% 
= (18, 39.5)
 Min-Max 
= (6, 46)

Var1

0

5

10

15

20

25

30

35

40

45

50

Wykres pudełko i drut

50% 
wartości 
mniejszy
ch od 
mediany

50% 
wartości 
większyc
h od 
mediany

50% 
wartoś
ci 
wokół 
media
ny

background image

Dominanta

Dominantą

Dominantą w rozkładzie empirycznym nazywamy 
wartość występującą w rozkładzie najczęściej, czyli 
wartość o największej liczebności

x

0

2

4

6

8

10

12

14

16

Li

cz

eb

no

sc

 o

bs

er

w

ac

ji

0

5

10

15

20

25

30

35

DOMINANT
A

    x            n

i

1.0000

  

2.0000
2.0000

  

5.0000
3.0000
12.0000
4.0000
19.0000
5.0000
29.0000
6.0000
12.0000
7.0000
13.0000
8.0000
33.0000
9.0000
14.0000
10.000   
5.0000
11.000   
2.0000

background image

Miary zróżnicowania 

cechy

Dyspersja = zróżnicowanie

x

0

2

4

6

8

10

12

14

16

Li

cz

eb

no

sc

 o

bs

er

w

ac

ji

0

5

10

15

20

25

30

35

x

0

2

4

6

8

10

12

14

16

Li

cz

eb

no

sc

 o

bs

er

ac

ji

0

10

20

30

40

50

background image

Wariancją dla zbioru danych x

1

,x

2

,...,x

n

 nazywamy 

wyrażenie:

2

2

1

1

1

(

)

n

i

i

s

x x

n

=

=

-

-

 gdzie      jest średnią arytmetyczną .

x

Jest  to  średnia  arytmetyczną  kwadratów  odchyleń 
cechy  x  od  średniej  arytmetycznej  cechy  x  w  tym 
zbiorze. Dzielnie przez (n-1)  ( a nie przez n) wynika z 
bardziej  zaawansowanych  rozważań  (  z  jakimi 
zapoznamy  się  nieco  później  –  obciążenie  tzw. 
estymatorów).  Przy  dużych  wartościach  n,  nie  ma  to 
istotnego znaczenia.

Wariancja jest zatem pewną miarą 
zróżnicowania wartości cechy, im większe 
zróżnicowanie tym większa wariancja.
 Jednostką 
pochodną jest tzw. 

odchylenie standardowe

odchylenie standardowe

2

s

s

=

 które wyraża zróżnicowanie w jednostkach zmiennej 
(cechy) x .

background image

Przykład.

Przykład.

Przykład. Próbka statystyczna zawiera następujące 
wartości cechy x:
35,37,39,6,9,15,40,43,46,21,24,29. Oblicz wariancję i 

odchylenie standardowe.
 n=12
Rozwiązanie :
 s

2

 = 183.5152   

s = 13.547

Box & Whisker Plot

Wykres pudelko i drut, (srednia + odch. standardowe)

 Mean = 28.6667
 ±SE 
= (24.756, 32.5773)
 ±SD 
= (15.1199, 42.2134)

Var1

10

15

20

25

30

35

40

45

s

średnia

background image

Standaryzacja rozkładu zmiennej (cechy) 

Standaryzacja rozkładu zmiennej (cechy) 

x

x

Niech x będzie obserwacją należącą do zbioru 
danych o średniej   i odchyleniu standardowym s . 

Wartością standaryzowaną

Wartością standaryzowaną odpowiadającą 
obserwacji x jest wartość u otrzymana ze wzoru:

(

)

x

u

s

m

-

=

Po dokonaniu standaryzacji, wielkość u wskazuje o ile 
odchyleń standardowych różni się wartość cechy x od 
wartości średniej. 

Jeśli |u| <  to można powiedzieć, że x mieści się w 

przedziale

 - *s < x <  + *s 

Relacja ta ma b. istotne znaczenie przy interpretacji 
pomiarów, gdyż najczęściej przyjmuje się następującą 
tezę:

Jeśli pomiar różni się o więcej niż  odchyleń 

standardowych od wartości hipotetycznej (np. 
oczekiwanej) to pomiar reprezentuje inną wielkość 
fizyczną niż sądzimy . (zwykle  =2,3,..)

background image

Przykład.

Przykład. Próbka statystyczna zawiera następujące 
wartości cechy x:
35,37,39,6,9,15,40,43,46,21,24,29.
Wykonaj standaryzację rozkładu, i wyznacz te 
elementy próbki, które różnią się od średniej o więcej 
niż jedno odchylenie standardowe.

Wartości izolowane w statystyce to takie wartości x w 
badanym rozkładzie empirycznym , które cechuje |u|
>3 (różnią się od średniej o więcej niż 3 odchylenia 
standardowe).

background image

Frakcja  dowolnego  rozkładu  ,  która  leży  wewnątrz 
pasa  rozciągającego  się  wokół  średniej  na  k 
standardowych odchyleń wynosi przynajmniej        

1-1/k

2

  

gdzie  k  jest  liczba  większą  od  1.  Dotyczy  to 
wszystkich rozkładów.

W obszarze 2 standardowych odchyleń wokół średniej 
(k=2) leży co najmniej 75% danych rozkładu, bowiem

1-1/k

2

 = 1-1/4=3/4=75%

W obszarze 3 standardowych odchyleń wokół średniej 
(k=3) leży co najmniej 89% danych rozkładu, bowiem

1-1/k

2

 = 1-1/9=8/9=89%

Teoremat Czebyszewa

background image

Współczynnik zmienności

Przy 

porównywaniu 

stopnia 

zróżnicowania 

rozkładów  x,  zwykle  posługujemy  się  miarą 
zróżnicowania  względnego,  jakim  jest 

współczynnik 

współczynnik 

zmienności

zmienności:

 gdzie s – odchylenie standardowe,  - średnia.

s

V

m

=

Współczynnik zmienności wyraża się w %. Im wyższa 
jego wartość tym większe jest względne 
zróżnicowanie cechy w rozkładzie.

Do  pomiaru  zróżnicowania  używa  się  także  rozstęp. 

Rozstępem

Rozstępem  jest  różnica  między  największą  i 
najmniejszą wartością cechy x w zbiorze.

background image

Przykład.

Przykład. Weźmy rozkład zmiennej x w dwóch 
próbkach ( A i B) , tabela rozdzielcza rozkładów w 
próbkach przedstawiona poniżej. Porównaj oba 
rozkłady, stosując miary położenia i dyspersji 
rozkładów.

    x             A ( n

i

)        

B( n

i

 )

1.0000 2.0000
0.0000
2.0000 5.0000
0.0000
3.0000 12.0000

8.0000

4.0000 19.0000

25.0000

5.0000 29.0000

40.0000

6.0000 12.0000

20.0000

7.0000 13.0000

10.0000

8.0000 33.0000

5.0000

9.0000 14.0000

2.0000

10.0000
5.0000 0.0000
11.0000
2.0000 0.0000
12.0000
0.0000 0.0000

 =? , mediana=?, k

25%

=, 

k

75%

=

 s

2

 = ? , s = ?, V = ?

x

0

2

4

6

8

10

12

14

16

Li

cz

eb

no

sc

 o

bs

er

w

ac

ji

0

5

10

15

20

25

30

35

x

0

2

4

6

8

10

12

14

16

Li

cz

eb

no

sc

 o

bs

er

ac

ji

0

10

20

30

40

50

A

B

background image

Asymetria rozkładu

x

0

2

4

6

8

10

12

Li

cz

eb

no

sc

 o

bs

er

w

ac

ji

0

2

4

6

8

10

12

14

16

18

x

0

2

4

6

8

10

12

Li

cz

eb

no

sc

 o

bs

er

w

ac

ji

0

2

4

6

8

10

12

14

16

18

Rozkład symetryczny A

Rozkład niesymetryczny B

background image

Mówimy, że 

rozkład jest symetryczny

rozkład jest symetryczny, jeśli każdej 

wartości cechy       x

<   odpowiada wartość x

>  

taka, że spełnione są warunki:

 - x

i

 = x

-    oraz  n

i

 = n

m

W przeciwnym wypadku rozkład jest asymetryczny

Rozkład jest symetryczny, jeżeli jego histogram ma oś 
symetrii dla wartości średniej rozkładu. 

Box & Whisker Plot

 Mean 
 ±SE 
 ±SD 

A

B

-2

0

2

4

6

8

10

12

14

Box & Whisker Plot

 Median 
 25%-75% 
 Min-Max 

A

B

-2

0

2

4

6

8

10

12

14

16

18

Rozkłady A i B (Med., 

K25%,K75% )

Rozkłady A i B (, sd, se )

background image

Miary asymetrii

Klasyczną  miarą  asymetrii  rozkładu  empirycznego 
cechy  x  jest 

trzeci  moment  centralny

trzeci  moment  centralny  rozkładu, 

obliczany  jako  suma  trzecich  potęg  odchyleń  od 
wartości średniej cechy  dzielona przez (n-1) :

(

)

3

3

1

1

1

'

n

i

i

M

x

n

m

=

=

-

-

M’

3

=0 dla układów symetrycznych, M’

3

 < 0 dla 

asymetrycznych lewostronnie (lewe ramie 
wydłużone) , M’

3

 > 0 dla asymetrycznych 

prawostronnie (wydłużone prawe ramię ).

Miara stopnia i kierunku asymetrii jest współczynnik 
asymetrii ( jednostka odpowiada jednostce cechy, s – 
jest odchyleniem standardowym rozkładu 
empirycznego) :

3

3

'

M

A

s

=

background image

Współczynnik skośności

Najczęściej stosowaną miarą asymetrii jest 
współczynnik skośności A

1

 , który oblicza się 

korzystając z miar położenia ( dominanty D

o

 i średniej 

 )

1

O

D

A

s

m-

=

Współczynnik jest niemianowany, nadaje się do 
porównywania układów o różnej dyspersji. Tylko 
przy dużej asymetrii współczynnik (bezwzględna 
wart) przekracza wartość 1.

x

0

2

4

6

8

10

12

Li

cz

eb

no

sc

 o

bs

er

w

ac

ji

0

2

4

6

8

10

12

14

16

18

x

0

2

4

6

8

10

12

Li

cz

eb

no

sc

 o

bs

er

w

ac

ji

0

2

4

6

8

10

12

14

16

18

 

D

O

 

D

O

A

1

0

A

1

<0

background image

Miara spłaszczenia- 

kurtoza

Kurtoza (eksces) jest miara spłaszczenia rozkładu, 
wyrażoną przez

 

 gdzie M’

4

 jest czwartym momentem rozkładu, zaś s

2

 

wariancją.

( )

4

2

2

2

3

'

M

s

=

-

Wartość odjemnej 3 pojawia się, by kurtoza rozkładu 
Gauss’a była równa zeru.

Rozkłady bardziej płaskie niż Gauss’a, kurtoza jest 
ujemna.

background image

3

1

1

2

(

)(

)

n

i

n

x

A

n

n

s

m

=

-

=

-

-

STATISTICA i EXCEL oblicza wartość współczynnika 
skośności i kurtozę ze wzorów:

4

2

2

1

1

1

3

1

2

3

2

3

(

)

(

)

(

)(

)(

)

(

)(

)

n

i

n n

x

n

n

n

n

s

n

n

m

g

=

+

-

-

=

-

-

-

-

-

-

background image

Przykład.

Przykład. Dla 2 próbek empirycznych A i B rozkładu 
zmiennej x dokonaj analizy statystycznej rozkładu 
(wyznacz średnią,medianę, odchylenie standardowe, 
skośność, kurtozę). Dane w tabeli.

 i       A (x

i

)  B 

(x

i

)

1

2

0

2

8

2

3

12

4

4

16

8

5

12

12

6

8

16

7

2

10

8

0

6


Document Outline