Elementy statystyki opisowej
Izolda Gorgol
wyciąg z prezentacji (wykład I)
Populacja statystyczna, badanie statystyczne
— Statystyka matematyczna zajmuje się opisywaniem i analizą zjawisk masowych za pomocą metod rachunku praw-
dopodobieństwa. Celem badań statystycznych jest poznanie prawidłowości ilościowych i jakościowych w masowych
zjawiskach losowych i opisywanie ich za pomocą liczb.
— Badane zbiory nazywamy populacjami statystycznymi.
— Badać można wszystkie elementy danej populacji statystycznej, zwanej też populacją (zbiorowością) generalną,
albo tylko ich część, zwaną próbką statystyczną (próbką).
— W pierwszym przypadku badanie jest kompletne i nie ma potrzeby używania elementów rachunku praw-
dopodobieństwa.
— W drugim przypadku badanie jest częściowe.
Próbka losowa
— Zadaniem statystyki jest wnioskowanie o własnościach całej populacji Z na podstawie informacji o tych własnoś-
ciach elementów pewnego skończonego podzbioru Z
1
tej populacji (Z
1
⊂ Z), zwanego próbką.
— Próbka Z
1
powinna stanowić reprezentację populacji Z, tzn. częstość występowania w próbce każdej z badanych
cech nie powinna znacznie różnić się od częstości występowania tych cech w populacji generalnej. Elementy próbki
Z
1
zazwyczaj losuje się spośród elementów populacji Z.
— Otrzymana próbka nosi nazwę próbki losowej.
— Próbka losowa prosta n-elementowa to próbka n-elementowa wylosowana z populacji, przy czym każdy
n-elementowy podzbiór populacji generalnej ma takie same szanse (takie samo prawdopodobieństwo) wylosowania.
Cechy statystyczne
— Elementy populacji generalnej mogą mieć różne właściwości, które podlegają obserwacji statystycznej.
— Nazywamy je cechami statystycznymi.
— Niektóre cechy mają charakter ilościowy (np. wiek, waga, wzrost) i nazywamy je cechami mierzalnymi, inne
posiadają charakter jakościowy (np. płeć, kolor oczu, zawód) i nazywamy je cechami niemierzalnymi.
— W przypadku cechy niemierzalnej zazwyczaj przypisuje się badanym elementom wartości liczbowe (np. numerujemy
kolory) i wtedy cecha niemierzalna staje się cechą mierzalną.
Zadanie statystyki opisowej
— Badana cecha X jest zmienną losową, której rozkład, zwany rozkładem cechy w populacji jest najczęściej nieznany.
Statystyka ogranicza się do badania próbki losowej wylosowanej z populacji generalnej.
— Statystyka opisowa zajmuje się wstępnym opracowaniem próbki bez posługiwania się rachunkiem prawdopodobieństwa.
Empiryczny rozkład cechy
— Podstawą badań statystycznych skończonej zbiorowości jest określenie empirycznego, tzn. zaobserwowanego w tej
zbiorowości, rozkładu zaobserwowanej cechy.
— Rozkład empiryczny to rozkład cechy w próbie. Określenie empirycznego rozkładu polega na przyporządkowaniu
kolejnym wartościom przyjmowanym przez cechę odpowiednio zdefiniowanych częstości ich występowania.
— Parametry rozkładu empirycznego nazywamy parametrami empirycznymi, zaś parametry rozkładu cechy X parame-
trami teoretycznymi.
— Badanie statystyczne rozpoczyna się od wyznaczenia rozkładu empirycznego.
Szereg rozdzielczy
— Rozkład empiryczny bada się najczęściej tworząc tzw. szereg rozdzielczy.
— Szeregiem rozdzielczym uporządkowany wg wielkości zbiór wartości badanej cechy w próbie.
1
— Szereg rozdzielczy szczegółowy tworzy się poprzez grupowanie powtarzających się wartości badanej cechy
w próbie.
— Gdy liczba obserwacji jest duża (n
> 30), to szereg rozdzielczy przedziałowy tworzy się poprzez grupowanie
zaobserwowanych wartości w tzw. klasach.
— Klasy są przedziałami, najczęściej jednakowej długości, które tworzy się przyjmując upraszczające założenie, że
wszystkie wartości znajdujące się w danej klasie są identyczne z tzw. środkiem klasy.
Ustalanie liczby klas
— Istnieje kilka reguł ustalania orientacyjnie liczby k klas w zależności od liczności n próbki:
k 6 5 ln n lub k = 1 + 3, 322 ln n lub k =
√
n.
— Można również korzystać z poniższych orientacyjnych danych:
liczba pomiarów n
liczba klas k
30 − 60
6 − 8
60 − 100
7 − 10
100 − 200
9 − 12
200 − 500
11 − 17
500 − 1500
16 − 25
— Nawet przy dużo liczniejszej próbce nie stosuje się większej liczby klas niż 30.
Rozstęp, długość klasy
— Niech x
1
, x
2
, . . . , x
n
będzie n-elementową próbką prostą o zadanych wartościach.
— Rozstępem badanej cechy X w tej próbce nazywamy liczbę
R = x
max
− x
min
,
gdzie x
max
, x
min
oznaczają, odpowiednio, największą i najmniejszą liczbę w ciągu x
1
, x
2
, . . . , x
n
.
— Rozstęp jest zatem długością najkrótszego przedziału, w którym mieszczą się wszystkie wartości próbki.
— Jeżeli R jest rozstępem próbki, zaś k liczbą klas, to jako długość klasy przyjmuje się
b ≈
R
k
, tak jednak, by bk > R.
Dokładność przy ustalaniu granic klas
— Punkty stanowiące granice poszczególnych klas ustala się zwykle z dokładnością do
1
2
α, gdzie α oznacza dokładność,
z jaką wyznaczono wartości w próbce.
— Jeśli więc dla jednakowo dokładnych wartości w próbce dane liczbowe są podawane jako całkowite wielokrotności
największej liczby a, to należy przyjąć jako granice klas liczby postaci la +
1
2
α, gdzie l są liczbami całkowitymi.
— Dolną granicę pierwszej klasy otrzymujemy wg wzoru x
min
−
1
2
α.
— Liczbę wartości próbki zawartych w i-tej klasie nazywamy licznością (liczebnością) i-tej klasy i oznaczamy
symbolem n
i
. Oczywiście
k
X
i
n
i
= n.
— Jeżeli liczność n próbki x
1
, x
2
, . . . , x
n
kwalifikuje ją do podziału na klasy, to dokonuje się grupowania. Otrzymuje
się szereg rozdzielczy przedziałowy, który stanowią pary liczb: środki kolejnych klas ˙
x
i
oraz ich liczności n
i
, gdzie
i ∈ {1, 2, . . . , k}.
— Szereg rozdzielczy można również przedstawić w postaci histogramu. Na osi poziomej zaznacza się środki klas,
albo też granice poszczególnych klas, a na osi pionowej liczności klas n
i
albo częstości klas w
i
=
n
i
n
.
2
Miary średnie
— Miary średnie pozwalają określić tzw. tendencję centralną, czyli przeciętny poziom.
— Miary średnie (wartości przeciętne) służą do określania tej wartości zmiennej, wokół której skupiają się wszystkie
pozostałe wartości zmiennej.
— Miary średnie dzielą się na:
— średnie klasyczne (średnia arytmetyczna, średnia harmoniczna, średnia geometryczna);
— średnie pozycyjne (mediana, moda).
Średnia arytmetyczna
— Średnią arytmetyczną x liczb x
1
, x
2
, . . . , x
n
nazywamy liczbę określoną wzorem x =
1
n
n
X
i=1
x
i
.
— Jeżeli wynik pomiaru x
i
wystąpił n
i
razy, gdzie i ∈ {1, 2, . . . , k} oraz
k
X
i=1
n
i
= n, to średnią arytmetyczną
ważoną nazywamy liczbę x =
1
n
k
X
i=1
x
i
n
i
.
— Jeżeli dane są pogrupowane w szeregu rozdzielczym przedziałowym, to x =
1
n
k
X
i=1
˙
x
i
n
i
.
Średnia harmoniczna
— Średnią harmoniczną h różnych od zera liczb x
1
, x
2
, . . . , x
n
nazywamy liczbę określoną wzorem
h =
1
n
n
X
i=1
1
x
i
!
−1
, o ile
n
X
i=1
1
x
i
6= 0.
— Jeżeli wynik pomiaru x
i
wystąpił n
i
razy, gdzie i ∈ {1, 2, . . . , k} oraz
k
X
i=1
n
i
= n, to średnią harmoniczną
ważoną nazywamy liczbę
h =
1
n
k
X
i=1
n
i
x
i
!
−1
.
Średnia geometryczna
— Średnią geometryczną g liczb dodatnich x
1
, x
2
, . . . , x
n
nazywamy liczbę określoną wzorem
g =
n
v
u
u
t
n
Y
i=1
x
i
.
— Jeżeli wynik pomiaru x
i
wystąpił n
i
razy, gdzie i ∈ {1, 2, . . . , k} oraz
k
X
i=1
n
i
= n, to średnią geometryczną
ważoną nazywamy liczbę
g =
n
q
x
n
1
1
· · · x
n
k
k
.
Mediana
— Medianą (wartością środkową) M e próbki x
1
, x
2
, . . . , x
n
nazywamy środkową liczbę w uporządkowanej niemale-
jąco próbce x
(1)
6 x
(2)
6 · · · 6 x
(n)
, gdy n jest liczbą nieparzystą, albo średnią arytmetyczną dwóch środkowych
liczb, gdy n jest liczbą parzystą, tzn.
M e =
x(
n+1
2
),
gdy n jest nieparzyste,
x
(
n
2
)
+x
(
n
2
+1
)
2
,
gdy n jest parzyste.
3
Mediana
— Jeżeli dane są pogrupowane w szeregu rozdzielczym przedziałowym, to
M e = x
l
+
b
n
m
n
2
−
m−1
X
i=1
n
i
!
,
gdzie
x
l
- lewy koniec klasy zawierającej medianę,
m - numer klasy zawierającej medianę,
n - liczność próbki,
n
i
- liczność i-tej klasy,
b - długość klasy.
Moda
— Modą (dominantą, wartością najczęstszą) M o próbki x
1
, . . . , x
n
o powtarzających się wartościach nazywamy
najczęściej powtarzającą się wartość, o ile istnieje i nie jest to x
min
ani x
max
.
— Jeżeli dane są pogrupowane w szeregu rozdzielczym przedziałowym, to
M o = x
l
+
n
l
− n
l−1
(n
l
− n
l−1
) + (n
l
− n
l+1
)
b,
gdzie
x
l
- dolna granica klasy modalnej (klasy, w której znajduje się moda),
n
l
- liczność klasy modalnej,
n
l−1
, n
l+1
- liczności sąsiednich klas,
b - długość klasy.
— Moda zależy od sposobu podziału na klasy.
Miary rozproszenia
— Miary rozproszenia (zmienności) służą do badania zróżnicowania wartości, czyli tzw. dyspersji.
— Podstawowe miary rozproszenia to:
— rozstęp,
— wariancja,
— odchylenie standardowe.
Rozstęp
— Rozstępem w próbce o wartościach x
1
, . . . , x
n
nazywamy liczbę
R = x
max
− x
min
.
Wariancja
— Wariancją s
2
próbki x
1
, . . . , x
n
nazywamy średnią arytmetyczną kwadratów odchyleń poszczególnych wartości x
i
od średniej aryt-
metycznej x
i
próbki, tzn.
s
2
=
1
n
n
X
i=1
(x
i
− x)
2
.
— Jeżeli wynik pomiaru x
i
wystąpił n
i
razy, gdzie i ∈ {1, 2, . . . , k} oraz
k
X
i=1
n
i
= n, to
s
2
=
1
n
k
X
i=1
(x
i
− x)
2
n
i
.
— Jeżeli dane są pogrupowane w szeregu rozdzielczym przedziałowym, to s
2
=
1
n
k
X
i=1
( ˙
x
i
− x)
2
n
i
.
— Praktyczny wzór do obliczeń: s
2
= x
2
− (x)
2
.
4
Odchylenie standardowe
— Odchyleniem standardowym nazywamy liczbę s =
√
s
2
.
— Odchylenie standardowe określa w przybliżeniu, o ile wszystkie jednostki statystyczne danej populacji różnią się
średnio od wartości średniej arytmetycznej badanej zmiennej.
Inne charakterystyki
— współczynnik zmienności
— typowy obszar zmienności
Współczynnik zmienności
Współczynnikiem zmienności nazywamy liczbę
v =
s
x
· 100%.
Typowy obszar zmienności
— Typowy obszar zmienności cechy statystycznej to obszar, w którym mieści się około
2
3
wszystkich jednostek badanej
populacji. Typowy obszar zmienności określa wzór
x − s < x
typ
< x + s.
— Znając typowy obszar zmienności można podzielić jednostki danej populacji na typowe (tzn. występujące sto-
sunkowo często) i nietypowe (tzn. występujące stosunkowo rzadko).
5