Charakterystyki Liczbowe
Celem statystyki opisowej jest wyznaczenie pewnych
charakterystyk liczbowych opisujących właściwości
rozkładu badanej cechy.
Statystyką
Statystyką zwie się taką cechę rozkładu, która
została wyznaczona z danych próby losowej.
Parametrem
Parametrem zwie się taka cechę rozkładu, która
została wyznaczona z danych pełnej populacji.
Charakterystyki statystyczne dotyczą 3 aspektów
rozkładów:
poziomu
poziomu cechy,
zróżnicowania
zróżnicowania cechy, i
asymetrii
asymetrii
rozkładu.
Miary położenia rozkładu
Miary tendencji centralnej
Średnią arytmetyczną
Średnią arytmetyczną w rozkładzie empirycznym
nazywamy wyrażenie:
gdzie x
j
(j=1,...,n) są indywidualnymi
obserwacjami w zbiorze danych, zaś n jest liczbą
obserwacji.
1
1
n
i
i
x
x
n
=
=
�
x
0
2
4
6
8
10
12
14
16
Li
cz
ba
o
bs
er
w
ac
ji
0
5
10
15
20
25
30
35
Dwa identyczne
rozkłady
zmiennej x
różniące się
położeniem
Jeśli dane o rozkładzie są przedstawione w postaci
szeregu rozdzielczego , średnia może być policzona
tak
1
1
k
i i
i
x
xn
n
=
=
�
gdzie n
i
to liczebność w klasie i .
Liczba braków
(kategoria)
Liczba partii
produktu
(częstość
bezwzględna)
Częstość partii
produktu
(częstość
względna)
0
5
0.25
1
8
0.40
2
4
0.20
3
3
0.15
20
1.00
Przykład. Szereg rozdzielczy prezentuje rozkład
o wartości średniej
0 5 1 8 2 4 3 3 20 125
( *
*
*
* )/
.
x =
+
+
+
=
Własności średniej arytmetycznej
1
n
j
j
xn
x
=
=
�
- iloczyn średniej i liczebności n jest równy łącznej
wartości zmiennej ( sumie)
- suma odchyleń zmiennej od wartości średniej
jest równa zeru
(
)
1
0
n
i
i
x x
=
-
=
�
- suma kwadratów odchyleń od pewnej stałej C jest
najmniejsza, gdy C jest równe średniej
(
)
2
1
gdy
min
n
i
i
x C
C x
=
-
=
=
�
Medianą rozkładu
Medianą rozkładu empirycznego nazywamy taką
wartość cechy x, że co najmniej połowa jednostek
zbiorowości ma wartość cechy nie większą od niej,
oraz równocześnie co najmniej połowa jednostek ma
wartość cechy nie mniejszą od tej wartości.
Jeśli wartości cechy uporządkujemy rosnąco to
mediana przyjmuje wartość (n+1)/2 pozycji w tym
ciągu (nieparzyste n) . Dla wartości parzystej n ,
mediana jest średnią z pozycji n/2 i (n+2)/2
Przykład.
Przykład.
Próbka statystyczna zawiera następujące wartości
cechy x:
35,37,39,6,9,15,40,43,46,21,24,29
Oblicz średnią i medianę
Średnia = 28.6(6) ; mediana = 32
Medianę stosujemy do charakteryzowania rozkładu
gdy średnia arytmetyczna zawodzi z powodu
niejednorodności rozkładu, lub przy trudnościach z
obliczeniem średniej (przedziały krańcowe są
otwarte).
Mediana
Kwantylem rzędu p ( gdzie 0<p<1) nazywamy taka
wartość cechy k
p
, dla której (jako pierwszej)
dystrybuanta empiryczna spełnia warunek
( )
n
p
F k
p
�
Kwantyle 0.25 (25%), 0.5 (50%), 0.75(75%) to
kwartyle
kwartyle.
UWAGI:
Kwartyl 25% oddziela 25% obserwacji o
wartościach niższych od niego.
Kwartyl 50% to mediana.
W zbiorowości uporządkowanej rosnąco kwartyle
dzielą zbiorowość na 4 części liczące po 25%
obserwacji.
Kwantyl
Obliczanie kwartyli 25% i 75%:
-uporządkuj rosnąco zbiorowość
- pozycja (n+1)/4 to kwartyl 25% a 3(n+1)/4 to
kwartyl 75%
- dla cechy skokowej jeśli obliczone numery pozycji
nie są całkowite, zaokrąglij ( 0.5 dla kwartla 25%
zaokrąglamy w górę, a dla kwartyla 75% w dół)
- dla cechy ciągłej, jeśli obliczone numery pozycji nie
są całkowite, uśredniaj najbliższe wartości cechy.
Przykład.
Przykład. Próbka statystyczna zawiera następujące wartości cechy x:
35,37,39,6,9,15,40,43,46,21,24,29. Oblicz kwartyle 25% i 75%.
1 2 3 4 5 6 7 8 9 10 11 12
6, 9, 15, 21, 24, 29, 35, 37, 39, 40, 43, 46
(12+1)/4=3.25 - zatem kwartyl 25% to 15 (cecha skokowa)
3(n+1)/4=3*13/4=9.75 – zatem kwartyl 75% to 40 (cecha skokowa)
Jeśli założymy , że cecha ma rozkład ciągły, to kwartyle są:
25% = (15+21)/2=18 ; 75% = (39+40)/2=39.5
Box & Whisker Plot
Wykres pudelko i drut
Median = 32
25%-75%
= (18, 39.5)
Min-Max
= (6, 46)
Var1
0
5
10
15
20
25
30
35
40
45
50
Wykres pudełko i drut
50%
wartości
mniejszy
ch od
mediany
50%
wartości
większyc
h od
mediany
50%
wartoś
ci
wokół
media
ny
Dominanta
Dominantą
Dominantą w rozkładzie empirycznym nazywamy
wartość występującą w rozkładzie najczęściej, czyli
wartość o największej liczebności
x
0
2
4
6
8
10
12
14
16
Li
cz
eb
no
sc
o
bs
er
w
ac
ji
0
5
10
15
20
25
30
35
DOMINANT
A
x n
i
1.0000
2.0000
2.0000
5.0000
3.0000
12.0000
4.0000
19.0000
5.0000
29.0000
6.0000
12.0000
7.0000
13.0000
8.0000
33.0000
9.0000
14.0000
10.000
5.0000
11.000
2.0000
Miary zróżnicowania
cechy
Dyspersja = zróżnicowanie
x
0
2
4
6
8
10
12
14
16
Li
cz
eb
no
sc
o
bs
er
w
ac
ji
0
5
10
15
20
25
30
35
x
0
2
4
6
8
10
12
14
16
Li
cz
eb
no
sc
o
bs
er
ac
ji
0
10
20
30
40
50
Wariancją dla zbioru danych x
1
,x
2
,...,x
n
nazywamy
wyrażenie:
2
2
1
1
1
(
)
n
i
i
s
x x
n
=
=
-
-
�
gdzie jest średnią arytmetyczną .
x
Jest to średnia arytmetyczną kwadratów odchyleń
cechy x od średniej arytmetycznej cechy x w tym
zbiorze. Dzielnie przez (n-1) ( a nie przez n) wynika z
bardziej zaawansowanych rozważań ( z jakimi
zapoznamy się nieco później – obciążenie tzw.
estymatorów). Przy dużych wartościach n, nie ma to
istotnego znaczenia.
Wariancja jest zatem pewną miarą
zróżnicowania wartości cechy, im większe
zróżnicowanie tym większa wariancja. Jednostką
pochodną jest tzw.
odchylenie standardowe
odchylenie standardowe
2
s
s
=
które wyraża zróżnicowanie w jednostkach zmiennej
(cechy) x .
Przykład.
Przykład.
Przykład. Próbka statystyczna zawiera następujące
wartości cechy x:
35,37,39,6,9,15,40,43,46,21,24,29. Oblicz wariancję i
odchylenie standardowe.
n=12
Rozwiązanie :
s
2
= 183.5152
s = 13.547
Box & Whisker Plot
Wykres pudelko i drut, (srednia + odch. standardowe)
Mean = 28.6667
±SE
= (24.756, 32.5773)
±SD
= (15.1199, 42.2134)
Var1
10
15
20
25
30
35
40
45
s
średnia
Standaryzacja rozkładu zmiennej (cechy)
Standaryzacja rozkładu zmiennej (cechy)
x
x
Niech x będzie obserwacją należącą do zbioru
danych o średniej i odchyleniu standardowym s .
Wartością standaryzowaną
Wartością standaryzowaną odpowiadającą
obserwacji x jest wartość u otrzymana ze wzoru:
(
)
x
u
s
m
-
=
Po dokonaniu standaryzacji, wielkość u wskazuje o ile
odchyleń standardowych różni się wartość cechy x od
wartości średniej.
Jeśli |u| < to można powiedzieć, że x mieści się w
przedziale
- *s < x < + *s
Relacja ta ma b. istotne znaczenie przy interpretacji
pomiarów, gdyż najczęściej przyjmuje się następującą
tezę:
Jeśli pomiar różni się o więcej niż odchyleń
standardowych od wartości hipotetycznej (np.
oczekiwanej) to pomiar reprezentuje inną wielkość
fizyczną niż sądzimy . (zwykle =2,3,..)
Przykład.
Przykład. Próbka statystyczna zawiera następujące
wartości cechy x:
35,37,39,6,9,15,40,43,46,21,24,29.
Wykonaj standaryzację rozkładu, i wyznacz te
elementy próbki, które różnią się od średniej o więcej
niż jedno odchylenie standardowe.
Wartości izolowane w statystyce to takie wartości x w
badanym rozkładzie empirycznym , które cechuje |u|
>3 (różnią się od średniej o więcej niż 3 odchylenia
standardowe).
Frakcja dowolnego rozkładu , która leży wewnątrz
pasa rozciągającego się wokół średniej na k
standardowych odchyleń wynosi przynajmniej
1-1/k
2
gdzie k jest liczba większą od 1. Dotyczy to
wszystkich rozkładów.
W obszarze 2 standardowych odchyleń wokół średniej
(k=2) leży co najmniej 75% danych rozkładu, bowiem
1-1/k
2
= 1-1/4=3/4=75%
W obszarze 3 standardowych odchyleń wokół średniej
(k=3) leży co najmniej 89% danych rozkładu, bowiem
1-1/k
2
= 1-1/9=8/9=89%
Teoremat Czebyszewa
Współczynnik zmienności
Przy
porównywaniu
stopnia
zróżnicowania
2
rozkładów x, zwykle posługujemy się miarą
zróżnicowania względnego, jakim jest
współczynnik
współczynnik
zmienności
zmienności:
gdzie s – odchylenie standardowe, - średnia.
s
V
m
=
Współczynnik zmienności wyraża się w %. Im wyższa
jego wartość tym większe jest względne
zróżnicowanie cechy w rozkładzie.
Do pomiaru zróżnicowania używa się także rozstęp.
Rozstępem
Rozstępem jest różnica między największą i
najmniejszą wartością cechy x w zbiorze.
Przykład.
Przykład. Weźmy rozkład zmiennej x w dwóch
próbkach ( A i B) , tabela rozdzielcza rozkładów w
próbkach przedstawiona poniżej. Porównaj oba
rozkłady, stosując miary położenia i dyspersji
rozkładów.
x A ( n
i
)
B( n
i
)
1.0000 2.0000
0.0000
2.0000 5.0000
0.0000
3.0000 12.0000
8.0000
4.0000 19.0000
25.0000
5.0000 29.0000
40.0000
6.0000 12.0000
20.0000
7.0000 13.0000
10.0000
8.0000 33.0000
5.0000
9.0000 14.0000
2.0000
10.0000
5.0000 0.0000
11.0000
2.0000 0.0000
12.0000
0.0000 0.0000
=? , mediana=?, k
25%
=,
k
75%
=
s
2
= ? , s = ?, V = ?
x
0
2
4
6
8
10
12
14
16
Li
cz
eb
no
sc
o
bs
er
w
ac
ji
0
5
10
15
20
25
30
35
x
0
2
4
6
8
10
12
14
16
Li
cz
eb
no
sc
o
bs
er
ac
ji
0
10
20
30
40
50
A
B
Asymetria rozkładu
x
0
2
4
6
8
10
12
Li
cz
eb
no
sc
o
bs
er
w
ac
ji
0
2
4
6
8
10
12
14
16
18
x
0
2
4
6
8
10
12
Li
cz
eb
no
sc
o
bs
er
w
ac
ji
0
2
4
6
8
10
12
14
16
18
Rozkład symetryczny A
Rozkład niesymetryczny B
Mówimy, że
rozkład jest symetryczny
rozkład jest symetryczny, jeśli każdej
wartości cechy x
i
< odpowiada wartość x
m
>
taka, że spełnione są warunki:
- x
i
= x
m
- oraz n
i
= n
m
W przeciwnym wypadku rozkład jest asymetryczny
Rozkład jest symetryczny, jeżeli jego histogram ma oś
symetrii dla wartości średniej rozkładu.
Box & Whisker Plot
Mean
±SE
±SD
A
B
-2
0
2
4
6
8
10
12
14
Box & Whisker Plot
Median
25%-75%
Min-Max
A
B
-2
0
2
4
6
8
10
12
14
16
18
Rozkłady A i B (Med.,
K25%,K75% )
Rozkłady A i B (, sd, se )
Miary asymetrii
Klasyczną miarą asymetrii rozkładu empirycznego
cechy x jest
trzeci moment centralny
trzeci moment centralny rozkładu,
obliczany jako suma trzecich potęg odchyleń od
wartości średniej cechy dzielona przez (n-1) :
(
)
3
3
1
1
1
'
n
i
i
M
x
n
m
=
=
-
-
�
M’
3
=0 dla układów symetrycznych, M’
3
< 0 dla
asymetrycznych lewostronnie (lewe ramie
wydłużone) , M’
3
> 0 dla asymetrycznych
prawostronnie (wydłużone prawe ramię ).
Miara stopnia i kierunku asymetrii jest współczynnik
asymetrii ( jednostka odpowiada jednostce cechy, s –
jest odchyleniem standardowym rozkładu
empirycznego) :
3
3
'
M
A
s
=
Współczynnik skośności
Najczęściej stosowaną miarą asymetrii jest
współczynnik skośności A
1
, który oblicza się
korzystając z miar położenia ( dominanty D
o
i średniej
)
1
O
D
A
s
m-
=
Współczynnik jest niemianowany, nadaje się do
porównywania układów o różnej dyspersji. Tylko
przy dużej asymetrii współczynnik (bezwzględna
wart) przekracza wartość 1.
x
0
2
4
6
8
10
12
Li
cz
eb
no
sc
o
bs
er
w
ac
ji
0
2
4
6
8
10
12
14
16
18
x
0
2
4
6
8
10
12
Li
cz
eb
no
sc
o
bs
er
w
ac
ji
0
2
4
6
8
10
12
14
16
18
D
O
D
O
A
1
0
A
1
<0
Miara spłaszczenia-
kurtoza
Kurtoza (eksces) jest miara spłaszczenia rozkładu,
wyrażoną przez
gdzie M’
4
jest czwartym momentem rozkładu, zaś s
2
wariancją.
( )
4
2
2
2
3
'
M
s
g =
-
Wartość odjemnej 3 pojawia się, by kurtoza rozkładu
Gauss’a była równa zeru.
Rozkłady bardziej płaskie niż Gauss’a, kurtoza jest
ujemna.
3
1
1
2
(
)(
)
n
i
n
x
A
n
n
s
m
=
-
�
�
=
�
�
-
-
�
�
�
STATISTICA i EXCEL oblicza wartość współczynnika
skośności i kurtozę ze wzorów:
4
2
2
1
1
1
3
1
2
3
2
3
(
)
(
)
(
)(
)(
)
(
)(
)
n
i
n n
x
n
n
n
n
s
n
n
m
g
=
+
-
-
�
�
=
-
�
�
-
-
-
-
-
�
�
�
Przykład.
Przykład. Dla 2 próbek empirycznych A i B rozkładu
zmiennej x dokonaj analizy statystycznej rozkładu
(wyznacz średnią,medianę, odchylenie standardowe,
skośność, kurtozę). Dane w tabeli.
i A (x
i
) B
(x
i
)
1
2
0
2
8
2
3
12
4
4
16
8
5
12
12
6
8
16
7
2
10
8
0
6