Gorgol I Elementy statystyki opisowej

Elementy statystyki opisowej
Izolda Gorgol
wyciąg z prezentacji (wykład I)
Populacja statystyczna, badanie statystyczne
Statystyka matematyczna zajmuje się opisywaniem i analizą zjawisk masowych za pomocą metod rachunku praw-
dopodobieństwa. Celem badań statystycznych jest poznanie prawidłowości ilościowych i jakościowych w masowych
zjawiskach losowych i opisywanie ich za pomocą liczb.
Badane zbiory nazywamy populacjami statystycznymi.
Badać można wszystkie elementy danej populacji statystycznej, zwanej też populacją (zbiorowością) generalną,
albo tylko ich część, zwaną próbką statystyczną (próbką).
W pierwszym przypadku badanie jest kompletne i nie ma potrzeby używania elementów rachunku praw-
dopodobieństwa.
W drugim przypadku badanie jest częściowe.
Próbka losowa
Zadaniem statystyki jest wnioskowanie o własnościach całej populacji Z na podstawie informacji o tych własnoś-
ciach elementów pewnego skończonego podzbioru Z1 tej populacji (Z1 �" Z), zwanego próbką.
Próbka Z1 powinna stanowić reprezentację populacji Z, tzn. częstość występowania w próbce każdej z badanych
cech nie powinna znacznie różnić się od częstości występowania tych cech w populacji generalnej. Elementy próbki
Z1 zazwyczaj losuje się spośród elementów populacji Z.
Otrzymana próbka nosi nazwę próbki losowej.
Próbka losowa prosta n-elementowa to próbka n-elementowa wylosowana z populacji, przy czym każdy
n-elementowy podzbiór populacji generalnej ma takie same szanse (takie samo prawdopodobieństwo) wylosowania.
Cechy statystyczne
Elementy populacji generalnej mogą mieć różne właściwości, które podlegają obserwacji statystycznej.
Nazywamy je cechami statystycznymi.
Niektóre cechy mają charakter ilościowy (np. wiek, waga, wzrost) i nazywamy je cechami mierzalnymi, inne
posiadają charakter jakościowy (np. płeć, kolor oczu, zawód) i nazywamy je cechami niemierzalnymi.
W przypadku cechy niemierzalnej zazwyczaj przypisuje się badanym elementom wartości liczbowe (np. numerujemy
kolory) i wtedy cecha niemierzalna staje się cechą mierzalną.
Zadanie statystyki opisowej
Badana cecha X jest zmienną losową, której rozkład, zwany rozkładem cechy w populacji jest najczęściej nieznany.
Statystyka ogranicza się do badania próbki losowej wylosowanej z populacji generalnej.
Statystyka opisowa zajmuje się wstępnym opracowaniem próbki bez posługiwania się rachunkiem prawdopodobieństwa.
Empiryczny rozkład cechy
Podstawą badań statystycznych skończonej zbiorowości jest określenie empirycznego, tzn. zaobserwowanego w tej
zbiorowości, rozkładu zaobserwowanej cechy.
Rozkład empiryczny to rozkład cechy w próbie. Określenie empirycznego rozkładu polega na przyporządkowaniu
kolejnym wartościom przyjmowanym przez cechę odpowiednio zdefiniowanych częstości ich występowania.
Parametry rozkładu empirycznego nazywamy parametrami empirycznymi, zaś parametry rozkładu cechy X parame-
trami teoretycznymi.
Badanie statystyczne rozpoczyna się od wyznaczenia rozkładu empirycznego.
Szereg rozdzielczy
Rozkład empiryczny bada się najczęściej tworząc tzw. szereg rozdzielczy.
Szeregiem rozdzielczym uporządkowany wg wielkości zbiór wartości badanej cechy w próbie.
1
Szereg rozdzielczy szczegółowy tworzy się poprzez grupowanie powtarzających się wartości badanej cechy
w próbie.
Gdy liczba obserwacji jest duża (n 30), to szereg rozdzielczy przedziałowy tworzy się poprzez grupowanie
zaobserwowanych wartości w tzw. klasach.
Klasy są przedziałami, najczęściej jednakowej długości, które tworzy się przyjmując upraszczające założenie, że
wszystkie wartości znajdujące się w danej klasie są identyczne z tzw. środkiem klasy.
Ustalanie liczby klas
Istnieje kilka reguł ustalania orientacyjnie liczby k klas w zależności od liczności n próbki:
"
k 5 ln n lub k = 1 + 3, 322 ln n lub k = n.
Można również korzystać z poniższych orientacyjnych danych:
liczba pomiarów n liczba klas k
30 - 60 6 - 8
60 - 100 7 - 10
100 - 200 9 - 12
200 - 500 11 - 17
500 - 1500 16 - 25
Nawet przy dużo liczniejszej próbce nie stosuje się większej liczby klas niż 30.
Rozstęp, długość klasy
Niech x1, x2, . . . , xn będzie n-elementową próbką prostą o zadanych wartościach.
Rozstępem badanej cechy X w tej próbce nazywamy liczbę
R = xmax - xmin,
gdzie xmax, xmin oznaczają, odpowiednio, największą i najmniejszą liczbę w ciągu x1, x2, . . . , xn.
Rozstęp jest zatem długością najkrótszego przedziału, w którym mieszczą się wszystkie wartości próbki.
Jeżeli R jest rozstępem próbki, zaś k liczbą klas, to jako długość klasy przyjmuje się
R
b H" , tak jednak, by bk R.
k
Dokładność przy ustalaniu granic klas
1
Punkty stanowiące granice poszczególnych klas ustala się zwykle z dokładnością do ą, gdzie ą oznacza dokładność,
2
z jaką wyznaczono wartości w próbce.
Jeśli więc dla jednakowo dokładnych wartości w próbce dane liczbowe są podawane jako całkowite wielokrotności
1
największej liczby a, to należy przyjąć jako granice klas liczby postaci la + ą, gdzie l są liczbami całkowitymi.
2
1
Dolną granicę pierwszej klasy otrzymujemy wg wzoru xmin - ą.
2
Liczbę wartości próbki zawartych w i-tej klasie nazywamy licznością (liczebnością) i-tej klasy i oznaczamy
k

symbolem ni. Oczywiście ni = n.
i
Jeżeli liczność n próbki x1, x2, . . . , xn kwalifikuje ją do podziału na klasy, to dokonuje się grupowania. Otrzymuje
się szereg rozdzielczy przedziałowy, który stanowią pary liczb: środki kolejnych klas �i oraz ich liczności ni, gdzie
i " {1, 2, . . . , k}.
Szereg rozdzielczy można również przedstawić w postaci histogramu. Na osi poziomej zaznacza się środki klas,
ni
albo też granice poszczególnych klas, a na osi pionowej liczności klas ni albo częstości klas wi = .
n
2
Miary średnie
Miary średnie pozwalają określić tzw. tendencję centralną, czyli przeciętny poziom.
Miary średnie (wartości przeciętne) służą do określania tej wartości zmiennej, wokół której skupiają się wszystkie
pozostałe wartości zmiennej.
Miary średnie dzielą się na:
średnie klasyczne (średnia arytmetyczna, średnia harmoniczna, średnia geometryczna);
średnie pozycyjne (mediana, moda).
Średnia arytmetyczna
n

1
Średnią arytmetyczną x liczb x1, x2, . . . , xn nazywamy liczbę określoną wzorem x = xi.
n
i=1
k

Jeżeli wynik pomiaru xi wystąpił ni razy, gdzie i " {1, 2, . . . , k} oraz ni = n, to średnią arytmetyczną
i=1
k

1
ważoną nazywamy liczbę x = xini.
n
i=1
k

1
Jeżeli dane są pogrupowane w szeregu rozdzielczym przedziałowym, to x = �ini.
n
i=1
Średnia harmoniczna
Średnią harmoniczną h różnych od zera liczb x1, x2, . . . , xn nazywamy liczbę określoną wzorem
-1
n n

1 1 1
h = , o ile = 0.

n xi xi
i=1 i=1
k

Jeżeli wynik pomiaru xi wystąpił ni razy, gdzie i " {1, 2, . . . , k} oraz ni = n, to średnią harmoniczną
i=1
ważoną nazywamy liczbę
-1
k

1 ni
h = .
n xi
i=1
Średnia geometryczna
Średnią geometryczną g liczb dodatnich x1, x2, . . . , xn nazywamy liczbę określoną wzorem

n

n

g = xi.
i=1
k

Jeżeli wynik pomiaru xi wystąpił ni razy, gdzie i " {1, 2, . . . , k} oraz ni = n, to średnią geometryczną
i=1
ważoną nazywamy liczbę

n
1 k
g = xn � � � xn .
1 k
Mediana
Medianą (wartością środkową) Me próbki x1, x2, . . . , xn nazywamy środkową liczbę w uporządkowanej niemale-
jąco próbce x(1) x(2) � � � x(n), gdy n jest liczbą nieparzystą, albo średnią arytmetyczną dwóch środkowych
liczb, gdy n jest liczbą parzystą, tzn.
ńł
x( n+1 gdy n jest nieparzyste,
�ł
),
�ł 2
Me =
�ł x
n n
ół +1
( )+x( )
2 2
, gdy n jest parzyste.
2
3
Mediana
Jeżeli dane są pogrupowane w szeregu rozdzielczym przedziałowym, to

m-1

b n
Me = xl + - ni ,
nm 2
i=1
gdzie
xl - lewy koniec klasy zawierającej medianę,
m - numer klasy zawierającej medianę,
n - liczność próbki,
ni - liczność i-tej klasy,
b - długość klasy.
Moda
Modą (dominantą, wartością najczęstszą) Mo próbki x1, . . . , xn o powtarzających się wartościach nazywamy
najczęściej powtarzającą się wartość, o ile istnieje i nie jest to xmin ani xmax.
Jeżeli dane są pogrupowane w szeregu rozdzielczym przedziałowym, to
nl - nl-1
Mo = xl + b,
(nl - nl-1) + (nl - nl+1)
gdzie
xl - dolna granica klasy modalnej (klasy, w której znajduje się moda),
nl - liczność klasy modalnej,
nl-1, nl+1 - liczności sąsiednich klas,
b - długość klasy.
Moda zależy od sposobu podziału na klasy.
Miary rozproszenia
Miary rozproszenia (zmienności) służą do badania zróżnicowania wartości, czyli tzw. dyspersji.
Podstawowe miary rozproszenia to:
rozstęp,
wariancja,
odchylenie standardowe.
Rozstęp
Rozstępem w próbce o wartościach x1, . . . , xn nazywamy liczbę
R = xmax - xmin.
Wariancja
Wariancją s2 próbki x1, . . . , xn nazywamy średnią arytmetyczną kwadratów odchyleń poszczególnych wartości xi od średniej aryt-
metycznej xi próbki, tzn.
n
1
s2 = (xi - x)2.
n
i=1
k
Jeżeli wynik pomiaru xi wystąpił ni razy, gdzie i " {1, 2, . . . , k} oraz ni = n, to
i=1
k
1
s2 = (xi - x)2ni.
n
i=1
k
1
Jeżeli dane są pogrupowane w szeregu rozdzielczym przedziałowym, to s2 = (�i - x)2ni.
n
i=1
Praktyczny wzór do obliczeń: s2 = x2 - (x)2.
4
Odchylenie standardowe
"
Odchyleniem standardowym nazywamy liczbę s = s2.
Odchylenie standardowe określa w przybliżeniu, o ile wszystkie jednostki statystyczne danej populacji różnią się
średnio od wartości średniej arytmetycznej badanej zmiennej.
Inne charakterystyki
współczynnik zmienności
typowy obszar zmienności
Współczynnik zmienności
Współczynnikiem zmienności nazywamy liczbę
s
v = � 100%.
x
Typowy obszar zmienności
2
Typowy obszar zmienności cechy statystycznej to obszar, w którym mieści się około wszystkich jednostek badanej
3
populacji. Typowy obszar zmienności określa wzór
x - s < xtyp < x + s.
Znając typowy obszar zmienności można podzielić jednostki danej populacji na typowe (tzn. występujące sto-
sunkowo często) i nietypowe (tzn. występujące stosunkowo rzadko).
5

Wyszukiwarka

Podobne podstrony:
10 Elementy statystyki opisowej
1 wprowadzenie do statystyki statystyka opisowa
2 Statystyka opisowa S
Statystyka opisowa
Statystyki opisowe
Statystyka opisowa rozwiązane kolowkia
Statystyka opisowa
4 Statystyka opisowa i rozkład normalny
Statystyka opisowa
STATYSTYKA OPISOWA
Statystyka opisowa i ekonomiczna Wykład 1
statystyka opisowa 11

więcej podobnych podstron