Wprowadzenie do cw1A

background image

Charakterystyki Liczbowe

Celem statystyki opisowej jest wyznaczenie pewnych
charakterystyk liczbowych opisujących właściwości
rozkładu badanej cechy.

Statystyką

Statystyką zwie się taką cechę rozkładu, która
została wyznaczona z danych próby losowej.

Parametrem

Parametrem zwie się taka cechę rozkładu, która
została wyznaczona z danych pełnej populacji.

Charakterystyki statystyczne dotyczą 3 aspektów

rozkładów:

poziomu

poziomu cechy,

zróżnicowania

zróżnicowania cechy, i

asymetrii

asymetrii

rozkładu.

background image

Miary położenia rozkładu

Miary tendencji centralnej

Średnią arytmetyczną

Średnią arytmetyczną w rozkładzie empirycznym
nazywamy wyrażenie:

gdzie x

j

(j=1,...,n) są indywidualnymi

obserwacjami w zbiorze danych, zaś n jest liczbą
obserwacji.

1

1

n

i

i

x

x

n

=

=

x

0

2

4

6

8

10

12

14

16

Li

cz

ba

o

bs

er

w

ac

ji

0

5

10

15

20

25

30

35

Dwa identyczne
rozkłady
zmiennej x
różniące się
położeniem

background image

Jeśli dane o rozkładzie są przedstawione w postaci
szeregu rozdzielczego , średnia może być policzona
tak

1

1

k

i i

i

x

xn

n

=

=

gdzie n

i

to liczebność w klasie i .

Liczba braków

(kategoria)

Liczba partii

produktu
(częstość

bezwzględna)

Częstość partii

produktu
(częstość

względna)

0

5

0.25

1

8

0.40

2

4

0.20

3

3

0.15

20

1.00

Przykład. Szereg rozdzielczy prezentuje rozkład

o wartości średniej

0 5 1 8 2 4 3 3 20 125

( *

*

*

* )/

.

x =

+

+

+

=

background image

Własności średniej arytmetycznej

1

n

j

j

xn

x

=

=

- iloczyn średniej i liczebności n jest równy łącznej
wartości zmiennej ( sumie)

- suma odchyleń zmiennej od wartości średniej
jest równa zeru

(

)

1

0

n

i

i

x x

=

-

=

- suma kwadratów odchyleń od pewnej stałej C jest
najmniejsza, gdy C jest równe średniej

(

)

2

1

gdy

min

n

i

i

x C

C x

=

-

=

=

background image

Medianą rozkładu

Medianą rozkładu empirycznego nazywamy taką
wartość cechy x, że co najmniej połowa jednostek
zbiorowości ma wartość cechy nie większą od niej,
oraz równocześnie co najmniej połowa jednostek ma
wartość cechy nie mniejszą od tej wartości.

Jeśli wartości cechy uporządkujemy rosnąco to
mediana przyjmuje wartość (n+1)/2 pozycji w tym
ciągu (nieparzyste n) . Dla wartości parzystej n ,
mediana jest średnią z pozycji n/2 i (n+2)/2

Przykład.

Przykład.

Próbka statystyczna zawiera następujące wartości

cechy x:

35,37,39,6,9,15,40,43,46,21,24,29

Oblicz średnią i medianę

Średnia = 28.6(6) ; mediana = 32

Medianę stosujemy do charakteryzowania rozkładu
gdy średnia arytmetyczna zawodzi z powodu
niejednorodności rozkładu, lub przy trudnościach z
obliczeniem średniej (przedziały krańcowe są
otwarte).

Mediana

background image

Kwantylem rzędu p ( gdzie 0<p<1) nazywamy taka
wartość cechy k

p

, dla której (jako pierwszej)

dystrybuanta empiryczna spełnia warunek

( )

n

p

F k

p

Kwantyle 0.25 (25%), 0.5 (50%), 0.75(75%) to

kwartyle

kwartyle.

UWAGI:
Kwartyl 25% oddziela 25% obserwacji o
wartościach niższych od niego.
Kwartyl 50% to mediana.
W zbiorowości uporządkowanej rosnąco kwartyle
dzielą zbiorowość na 4 części liczące po 25%
obserwacji.

Kwantyl

background image

Obliczanie kwartyli 25% i 75%:

-uporządkuj rosnąco zbiorowość
- pozycja (n+1)/4 to kwartyl 25% a 3(n+1)/4 to
kwartyl 75%

- dla cechy skokowej jeśli obliczone numery pozycji
nie są całkowite, zaokrąglij ( 0.5 dla kwartla 25%
zaokrąglamy w górę, a dla kwartyla 75% w dół)

- dla cechy ciągłej, jeśli obliczone numery pozycji nie
są całkowite, uśredniaj najbliższe wartości cechy.

Przykład.

Przykład. Próbka statystyczna zawiera następujące wartości cechy x:

35,37,39,6,9,15,40,43,46,21,24,29. Oblicz kwartyle 25% i 75%.

1 2 3 4 5 6 7 8 9 10 11 12

6, 9, 15, 21, 24, 29, 35, 37, 39, 40, 43, 46

(12+1)/4=3.25 - zatem kwartyl 25% to 15 (cecha skokowa)

3(n+1)/4=3*13/4=9.75 – zatem kwartyl 75% to 40 (cecha skokowa)

Jeśli założymy , że cecha ma rozkład ciągły, to kwartyle są:

25% = (15+21)/2=18 ; 75% = (39+40)/2=39.5

background image

Box & Whisker Plot

Wykres pudelko i drut

Median = 32
25%-75%
= (18, 39.5)
Min-Max
= (6, 46)

Var1

0

5

10

15

20

25

30

35

40

45

50

Wykres pudełko i drut

50%
wartości
mniejszy
ch od
mediany

50%
wartości
większyc
h od
mediany

50%
wartoś
ci
wokół
media
ny

background image

Dominanta

Dominantą

Dominantą w rozkładzie empirycznym nazywamy
wartość występującą w rozkładzie najczęściej, czyli
wartość o największej liczebności

x

0

2

4

6

8

10

12

14

16

Li

cz

eb

no

sc

o

bs

er

w

ac

ji

0

5

10

15

20

25

30

35

DOMINANT
A

x n

i

1.0000

2.0000
2.0000

5.0000
3.0000
12.0000
4.0000
19.0000
5.0000
29.0000
6.0000
12.0000
7.0000
13.0000
8.0000
33.0000
9.0000
14.0000
10.000
5.0000
11.000
2.0000

background image

Miary zróżnicowania

cechy

Dyspersja = zróżnicowanie

x

0

2

4

6

8

10

12

14

16

Li

cz

eb

no

sc

o

bs

er

w

ac

ji

0

5

10

15

20

25

30

35

x

0

2

4

6

8

10

12

14

16

Li

cz

eb

no

sc

o

bs

er

ac

ji

0

10

20

30

40

50

background image

Wariancją dla zbioru danych x

1

,x

2

,...,x

n

nazywamy

wyrażenie:

2

2

1

1

1

(

)

n

i

i

s

x x

n

=

=

-

-

gdzie jest średnią arytmetyczną .

x

Jest to średnia arytmetyczną kwadratów odchyleń
cechy x od średniej arytmetycznej cechy x w tym
zbiorze. Dzielnie przez (n-1) ( a nie przez n) wynika z
bardziej zaawansowanych rozważań ( z jakimi
zapoznamy się nieco później – obciążenie tzw.
estymatorów). Przy dużych wartościach n, nie ma to
istotnego znaczenia.

Wariancja jest zatem pewną miarą
zróżnicowania wartości cechy, im większe
zróżnicowanie tym większa wariancja.
Jednostką
pochodną jest tzw.

odchylenie standardowe

odchylenie standardowe

2

s

s

=

które wyraża zróżnicowanie w jednostkach zmiennej
(cechy) x .

background image

Przykład.

Przykład.

Przykład. Próbka statystyczna zawiera następujące
wartości cechy x:
35,37,39,6,9,15,40,43,46,21,24,29. Oblicz wariancję i

odchylenie standardowe.
n=12
Rozwiązanie :
s

2

= 183.5152

s = 13.547

Box & Whisker Plot

Wykres pudelko i drut, (srednia + odch. standardowe)

Mean = 28.6667
±SE
= (24.756, 32.5773)
±SD
= (15.1199, 42.2134)

Var1

10

15

20

25

30

35

40

45

s

średnia

background image

Standaryzacja rozkładu zmiennej (cechy)

Standaryzacja rozkładu zmiennej (cechy)

x

x

Niech x będzie obserwacją należącą do zbioru
danych o średniej  i odchyleniu standardowym s .

Wartością standaryzowaną

Wartością standaryzowaną odpowiadającą
obserwacji x jest wartość u otrzymana ze wzoru:

(

)

x

u

s

m

-

=

Po dokonaniu standaryzacji, wielkość u wskazuje o ile
odchyleń standardowych różni się wartość cechy x od
wartości średniej.

Jeśli |u| <  to można powiedzieć, że x mieści się w

przedziale

 - *s < x <  + *s

Relacja ta ma b. istotne znaczenie przy interpretacji
pomiarów, gdyż najczęściej przyjmuje się następującą
tezę:

Jeśli pomiar różni się o więcej niż  odchyleń

standardowych od wartości hipotetycznej (np.
oczekiwanej) to pomiar reprezentuje inną wielkość
fizyczną niż sądzimy . (zwykle  =2,3,..)

background image

Przykład.

Przykład. Próbka statystyczna zawiera następujące
wartości cechy x:
35,37,39,6,9,15,40,43,46,21,24,29.
Wykonaj standaryzację rozkładu, i wyznacz te
elementy próbki, które różnią się od średniej o więcej
niż jedno odchylenie standardowe.

Wartości izolowane w statystyce to takie wartości x w
badanym rozkładzie empirycznym , które cechuje |u|
>3 (różnią się od średniej o więcej niż 3 odchylenia
standardowe).

background image

Frakcja dowolnego rozkładu , która leży wewnątrz
pasa rozciągającego się wokół średniej na k
standardowych odchyleń wynosi przynajmniej

1-1/k

2

gdzie k jest liczba większą od 1. Dotyczy to
wszystkich rozkładów.

W obszarze 2 standardowych odchyleń wokół średniej
(k=2) leży co najmniej 75% danych rozkładu, bowiem

1-1/k

2

= 1-1/4=3/4=75%

W obszarze 3 standardowych odchyleń wokół średniej
(k=3) leży co najmniej 89% danych rozkładu, bowiem

1-1/k

2

= 1-1/9=8/9=89%

Teoremat Czebyszewa

background image

Współczynnik zmienności

Przy

porównywaniu

stopnia

zróżnicowania

2

rozkładów x, zwykle posługujemy się miarą
zróżnicowania względnego, jakim jest

współczynnik

współczynnik

zmienności

zmienności:

gdzie s – odchylenie standardowe,  - średnia.

s

V

m

=

Współczynnik zmienności wyraża się w %. Im wyższa
jego wartość tym większe jest względne
zróżnicowanie cechy w rozkładzie.

Do pomiaru zróżnicowania używa się także rozstęp.

Rozstępem

Rozstępem jest różnica między największą i
najmniejszą wartością cechy x w zbiorze.

background image

Przykład.

Przykład. Weźmy rozkład zmiennej x w dwóch
próbkach ( A i B) , tabela rozdzielcza rozkładów w
próbkach przedstawiona poniżej. Porównaj oba
rozkłady, stosując miary położenia i dyspersji
rozkładów.

x A ( n

i

)

B( n

i

)

1.0000 2.0000
0.0000
2.0000 5.0000
0.0000
3.0000 12.0000

8.0000

4.0000 19.0000

25.0000

5.0000 29.0000

40.0000

6.0000 12.0000

20.0000

7.0000 13.0000

10.0000

8.0000 33.0000

5.0000

9.0000 14.0000

2.0000

10.0000
5.0000 0.0000
11.0000
2.0000 0.0000
12.0000
0.0000 0.0000

=? , mediana=?, k

25%

=,

k

75%

=

s

2

= ? , s = ?, V = ?

x

0

2

4

6

8

10

12

14

16

Li

cz

eb

no

sc

o

bs

er

w

ac

ji

0

5

10

15

20

25

30

35

x

0

2

4

6

8

10

12

14

16

Li

cz

eb

no

sc

o

bs

er

ac

ji

0

10

20

30

40

50

A

B

background image

Asymetria rozkładu

x

0

2

4

6

8

10

12

Li

cz

eb

no

sc

o

bs

er

w

ac

ji

0

2

4

6

8

10

12

14

16

18

x

0

2

4

6

8

10

12

Li

cz

eb

no

sc

o

bs

er

w

ac

ji

0

2

4

6

8

10

12

14

16

18

Rozkład symetryczny A

Rozkład niesymetryczny B

background image

Mówimy, że

rozkład jest symetryczny

rozkład jest symetryczny, jeśli każdej

wartości cechy x

i

<  odpowiada wartość x

m

> 

taka, że spełnione są warunki:

 - x

i

= x

m

-  oraz n

i

= n

m

W przeciwnym wypadku rozkład jest asymetryczny

Rozkład jest symetryczny, jeżeli jego histogram ma oś
symetrii dla wartości średniej rozkładu.

Box & Whisker Plot

Mean
±SE
±SD

A

B

-2

0

2

4

6

8

10

12

14

Box & Whisker Plot

Median
25%-75%
Min-Max

A

B

-2

0

2

4

6

8

10

12

14

16

18

Rozkłady A i B (Med.,

K25%,K75% )

Rozkłady A i B (, sd, se )

background image

Miary asymetrii

Klasyczną miarą asymetrii rozkładu empirycznego
cechy x jest

trzeci moment centralny

trzeci moment centralny rozkładu,

obliczany jako suma trzecich potęg odchyleń od
wartości średniej cechy  dzielona przez (n-1) :

(

)

3

3

1

1

1

'

n

i

i

M

x

n

m

=

=

-

-

M’

3

=0 dla układów symetrycznych, M’

3

< 0 dla

asymetrycznych lewostronnie (lewe ramie
wydłużone) , M’

3

> 0 dla asymetrycznych

prawostronnie (wydłużone prawe ramię ).

Miara stopnia i kierunku asymetrii jest współczynnik
asymetrii ( jednostka odpowiada jednostce cechy, s –
jest odchyleniem standardowym rozkładu
empirycznego) :

3

3

'

M

A

s

=

background image

Współczynnik skośności

Najczęściej stosowaną miarą asymetrii jest
współczynnik skośności A

1

, który oblicza się

korzystając z miar położenia ( dominanty D

o

i średniej

 )

1

O

D

A

s

m-

=

Współczynnik jest niemianowany, nadaje się do
porównywania układów o różnej dyspersji. Tylko
przy dużej asymetrii współczynnik (bezwzględna
wart) przekracza wartość 1.

x

0

2

4

6

8

10

12

Li

cz

eb

no

sc

o

bs

er

w

ac

ji

0

2

4

6

8

10

12

14

16

18

x

0

2

4

6

8

10

12

Li

cz

eb

no

sc

o

bs

er

w

ac

ji

0

2

4

6

8

10

12

14

16

18

D

O

D

O

A

1

0

A

1

<0

background image

Miara spłaszczenia-

kurtoza

Kurtoza (eksces) jest miara spłaszczenia rozkładu,
wyrażoną przez

gdzie M’

4

jest czwartym momentem rozkładu, zaś s

2

wariancją.

( )

4

2

2

2

3

'

M

s

g =

-

Wartość odjemnej 3 pojawia się, by kurtoza rozkładu
Gauss’a była równa zeru.

Rozkłady bardziej płaskie niż Gauss’a, kurtoza jest
ujemna.

background image

3

1

1

2

(

)(

)

n

i

n

x

A

n

n

s

m

=

-

=

-

-

STATISTICA i EXCEL oblicza wartość współczynnika
skośności i kurtozę ze wzorów:

4

2

2

1

1

1

3

1

2

3

2

3

(

)

(

)

(

)(

)(

)

(

)(

)

n

i

n n

x

n

n

n

n

s

n

n

m

g

=

+

-

-

=

-

-

-

-

-

-

background image

Przykład.

Przykład. Dla 2 próbek empirycznych A i B rozkładu
zmiennej x dokonaj analizy statystycznej rozkładu
(wyznacz średnią,medianę, odchylenie standardowe,
skośność, kurtozę). Dane w tabeli.

i A (x

i

) B

(x

i

)

1

2

0

2

8

2

3

12

4

4

16

8

5

12

12

6

8

16

7

2

10

8

0

6


Document Outline


Wyszukiwarka

Podobne podstrony:
Wykład 1 inżynierskie Wprowadzenie do zarządzania operacyjnego
Wprowadzenie do medycyny rozwojowej 1
PD W1 Wprowadzenie do PD(2010 10 02) 1 1
Wprowadzenie do psychologii
Wprowadzenie do filozofii
(1) Wprowadzenie do nauki o finansach 1id 778 ppt
wprowadzenie do systemu win i podst sieci
wprowadzenie do psychologii społecznej
1 Wprowadzenie do psychologii pracy (14)id 10045 ppt
MWB 1 Wprowadzenie do modelowania wymagań w bezpieczeństwie
Wprowadzenie do Kryptografii
Wprowadzenie do pomocy społecznej
ZZL USWyklad 1 Wprowadzenie do tematyki
Wprowadzenie do psychologii religii
Wprowadzenie do odwarstwienia siatkówki (RD)

więcej podobnych podstron