Elementy statystyki opisowej
Izolda Gorgol
wyciąg z prezentacji (wykład I)
Populacja statystyczna, badanie statystyczne
Statystyka matematyczna zajmuje siÄ™ opisywaniem i analizÄ… zjawisk masowych za pomocÄ… metod rachunku praw-
dopodobieństwa. Celem badań statystycznych jest poznanie prawidłowości ilościowych i jakościowych w masowych
zjawiskach losowych i opisywanie ich za pomocÄ… liczb.
Badane zbiory nazywamy populacjami statystycznymi.
Badać można wszystkie elementy danej populacji statystycznej, zwanej też populacją (zbiorowością) generalną,
albo tylko ich część, zwaną próbką statystyczną (próbką).
W pierwszym przypadku badanie jest kompletne i nie ma potrzeby używania elementów rachunku praw-
dopodobieństwa.
W drugim przypadku badanie jest częściowe.
Próbka losowa
Zadaniem statystyki jest wnioskowanie o własnościach całej populacji Z na podstawie informacji o tych własnoś-
ciach elementów pewnego skoÅ„czonego podzbioru Z1 tej populacji (Z1 ‚" Z), zwanego próbkÄ….
Próbka Z1 powinna stanowić reprezentację populacji Z, tzn. częstość występowania w próbce każdej z badanych
cech nie powinna znacznie różnić się od częstości występowania tych cech w populacji generalnej. Elementy próbki
Z1 zazwyczaj losuje się spośród elementów populacji Z.
Otrzymana próbka nosi nazwę próbki losowej.
Próbka losowa prosta n-elementowa to próbka n-elementowa wylosowana z populacji, przy czym każdy
n-elementowy podzbiór populacji generalnej ma takie same szanse (takie samo prawdopodobieństwo) wylosowania.
Cechy statystyczne
Elementy populacji generalnej mogą mieć różne właściwości, które podlegają obserwacji statystycznej.
Nazywamy je cechami statystycznymi.
Niektóre cechy mają charakter ilościowy (np. wiek, waga, wzrost) i nazywamy je cechami mierzalnymi, inne
posiadają charakter jakościowy (np. płeć, kolor oczu, zawód) i nazywamy je cechami niemierzalnymi.
W przypadku cechy niemierzalnej zazwyczaj przypisuje się badanym elementom wartości liczbowe (np. numerujemy
kolory) i wtedy cecha niemierzalna staje siÄ™ cechÄ… mierzalnÄ….
Zadanie statystyki opisowej
Badana cecha X jest zmienną losową, której rozkład, zwany rozkładem cechy w populacji jest najczęściej nieznany.
Statystyka ogranicza się do badania próbki losowej wylosowanej z populacji generalnej.
Statystyka opisowa zajmuje się wstępnym opracowaniem próbki bez posługiwania się rachunkiem prawdopodobieństwa.
Empiryczny rozkład cechy
Podstawą badań statystycznych skończonej zbiorowości jest określenie empirycznego, tzn. zaobserwowanego w tej
zbiorowości, rozkładu zaobserwowanej cechy.
Rozkład empiryczny to rozkład cechy w próbie. Określenie empirycznego rozkładu polega na przyporządkowaniu
kolejnym wartościom przyjmowanym przez cechę odpowiednio zdefiniowanych częstości ich występowania.
Parametry rozkładu empirycznego nazywamy parametrami empirycznymi, zaś parametry rozkładu cechy X parame-
trami teoretycznymi.
Badanie statystyczne rozpoczyna się od wyznaczenia rozkładu empirycznego.
Szereg rozdzielczy
Rozkład empiryczny bada się najczęściej tworząc tzw. szereg rozdzielczy.
Szeregiem rozdzielczym uporządkowany wg wielkości zbiór wartości badanej cechy w próbie.
1
Szereg rozdzielczy szczegółowy tworzy się poprzez grupowanie powtarzających się wartości badanej cechy
w próbie.
Gdy liczba obserwacji jest duża (n 30), to szereg rozdzielczy przedziałowy tworzy się poprzez grupowanie
zaobserwowanych wartości w tzw. klasach.
Klasy są przedziałami, najczęściej jednakowej długości, które tworzy się przyjmując upraszczające założenie, że
wszystkie wartości znajdujące się w danej klasie są identyczne z tzw. środkiem klasy.
Ustalanie liczby klas
Istnieje kilka reguł ustalania orientacyjnie liczby k klas w zależności od liczności n próbki:
"
k 5 ln n lub k = 1 + 3, 322 ln n lub k = n.
Można również korzystać z poniższych orientacyjnych danych:
liczba pomiarów n liczba klas k
30 - 60 6 - 8
60 - 100 7 - 10
100 - 200 9 - 12
200 - 500 11 - 17
500 - 1500 16 - 25
Nawet przy dużo liczniejszej próbce nie stosuje się większej liczby klas niż 30.
Rozstęp, długość klasy
Niech x1, x2, . . . , xn będzie n-elementową próbką prostą o zadanych wartościach.
Rozstępem badanej cechy X w tej próbce nazywamy liczbę
R = xmax - xmin,
gdzie xmax, xmin oznaczają, odpowiednio, największą i najmniejszą liczbę w ciągu x1, x2, . . . , xn.
Rozstęp jest zatem długością najkrótszego przedziału, w którym mieszczą się wszystkie wartości próbki.
Jeżeli R jest rozstępem próbki, zaś k liczbą klas, to jako długość klasy przyjmuje się
R
b H" , tak jednak, by bk R.
k
Dokładność przy ustalaniu granic klas
1
Punkty stanowiące granice poszczególnych klas ustala się zwykle z dokładnością do ą, gdzie ą oznacza dokładność,
2
z jaką wyznaczono wartości w próbce.
Jeśli więc dla jednakowo dokładnych wartości w próbce dane liczbowe są podawane jako całkowite wielokrotności
1
największej liczby a, to należy przyjąć jako granice klas liczby postaci la + ą, gdzie l są liczbami całkowitymi.
2
1
DolnÄ… granicÄ™ pierwszej klasy otrzymujemy wg wzoru xmin - Ä….
2
Liczbę wartości próbki zawartych w i-tej klasie nazywamy licznością (liczebnością) i-tej klasy i oznaczamy
k
symbolem ni. Oczywiście ni = n.
i
Jeżeli liczność n próbki x1, x2, . . . , xn kwalifikuje ją do podziału na klasy, to dokonuje się grupowania. Otrzymuje
siÄ™ szereg rozdzielczy przedziaÅ‚owy, który stanowiÄ… pary liczb: Å›rodki kolejnych klas ‹i oraz ich licznoÅ›ci ni, gdzie
i " {1, 2, . . . , k}.
Szereg rozdzielczy można również przedstawić w postaci histogramu. Na osi poziomej zaznacza się środki klas,
ni
albo też granice poszczególnych klas, a na osi pionowej liczności klas ni albo częstości klas wi = .
n
2
Miary średnie
Miary średnie pozwalają określić tzw. tendencję centralną, czyli przeciętny poziom.
Miary średnie (wartości przeciętne) służą do określania tej wartości zmiennej, wokół której skupiają się wszystkie
pozostałe wartości zmiennej.
Miary średnie dzielą się na:
średnie klasyczne (średnia arytmetyczna, średnia harmoniczna, średnia geometryczna);
średnie pozycyjne (mediana, moda).
Åšrednia arytmetyczna
n
1
Średnią arytmetyczną x liczb x1, x2, . . . , xn nazywamy liczbę określoną wzorem x = xi.
n
i=1
k
Jeżeli wynik pomiaru xi wystąpił ni razy, gdzie i " {1, 2, . . . , k} oraz ni = n, to średnią arytmetyczną
i=1
k
1
ważoną nazywamy liczbę x = xini.
n
i=1
k
1
Jeżeli dane sÄ… pogrupowane w szeregu rozdzielczym przedziaÅ‚owym, to x = ‹ini.
n
i=1
Åšrednia harmoniczna
Średnią harmoniczną h różnych od zera liczb x1, x2, . . . , xn nazywamy liczbę określoną wzorem
-1
n n
1 1 1
h = , o ile = 0.
n xi xi
i=1 i=1
k
Jeżeli wynik pomiaru xi wystąpił ni razy, gdzie i " {1, 2, . . . , k} oraz ni = n, to średnią harmoniczną
i=1
ważoną nazywamy liczbę
-1
k
1 ni
h = .
n xi
i=1
Åšrednia geometryczna
Średnią geometryczną g liczb dodatnich x1, x2, . . . , xn nazywamy liczbę określoną wzorem
n
n
g = xi.
i=1
k
Jeżeli wynik pomiaru xi wystąpił ni razy, gdzie i " {1, 2, . . . , k} oraz ni = n, to średnią geometryczną
i=1
ważoną nazywamy liczbę
n
1 k
g = xn · · · xn .
1 k
Mediana
Medianą (wartością środkową) Me próbki x1, x2, . . . , xn nazywamy środkową liczbę w uporządkowanej niemale-
jÄ…co próbce x(1) x(2) · · · x(n), gdy n jest liczbÄ… nieparzystÄ…, albo Å›redniÄ… arytmetycznÄ… dwóch Å›rodkowych
liczb, gdy n jest liczbÄ… parzystÄ…, tzn.
Å„Å‚
x( n+1 gdy n jest nieparzyste,
ôÅ‚
),
òÅ‚ 2
Me =
ôÅ‚ x
n n
ół +1
( )+x( )
2 2
, gdy n jest parzyste.
2
3
Mediana
Jeżeli dane są pogrupowane w szeregu rozdzielczym przedziałowym, to
m-1
b n
Me = xl + - ni ,
nm 2
i=1
gdzie
xl - lewy koniec klasy zawierajÄ…cej medianÄ™,
m - numer klasy zawierajÄ…cej medianÄ™,
n - liczność próbki,
ni - liczność i-tej klasy,
b - długość klasy.
Moda
Modą (dominantą, wartością najczęstszą) Mo próbki x1, . . . , xn o powtarzających się wartościach nazywamy
najczęściej powtarzającą się wartość, o ile istnieje i nie jest to xmin ani xmax.
Jeżeli dane są pogrupowane w szeregu rozdzielczym przedziałowym, to
nl - nl-1
Mo = xl + b,
(nl - nl-1) + (nl - nl+1)
gdzie
xl - dolna granica klasy modalnej (klasy, w której znajduje się moda),
nl - liczność klasy modalnej,
nl-1, nl+1 - liczności sąsiednich klas,
b - długość klasy.
Moda zależy od sposobu podziału na klasy.
Miary rozproszenia
Miary rozproszenia (zmienności) służą do badania zróżnicowania wartości, czyli tzw. dyspersji.
Podstawowe miary rozproszenia to:
rozstęp,
wariancja,
odchylenie standardowe.
Rozstęp
Rozstępem w próbce o wartościach x1, . . . , xn nazywamy liczbę
R = xmax - xmin.
Wariancja
Wariancją s2 próbki x1, . . . , xn nazywamy średnią arytmetyczną kwadratów odchyleń poszczególnych wartości xi od średniej aryt-
metycznej xi próbki, tzn.
n
1
s2 = (xi - x)2.
n
i=1
k
Jeżeli wynik pomiaru xi wystąpił ni razy, gdzie i " {1, 2, . . . , k} oraz ni = n, to
i=1
k
1
s2 = (xi - x)2ni.
n
i=1
k
1
Jeżeli dane sÄ… pogrupowane w szeregu rozdzielczym przedziaÅ‚owym, to s2 = (‹i - x)2ni.
n
i=1
Praktyczny wzór do obliczeń: s2 = x2 - (x)2.
4
Odchylenie standardowe
"
Odchyleniem standardowym nazywamy liczbÄ™ s = s2.
Odchylenie standardowe określa w przybliżeniu, o ile wszystkie jednostki statystyczne danej populacji różnią się
średnio od wartości średniej arytmetycznej badanej zmiennej.
Inne charakterystyki
współczynnik zmienności
typowy obszar zmienności
Współczynnik zmienności
Współczynnikiem zmienności nazywamy liczbę
s
v = · 100%.
x
Typowy obszar zmienności
2
Typowy obszar zmienności cechy statystycznej to obszar, w którym mieści się około wszystkich jednostek badanej
3
populacji. Typowy obszar zmienności określa wzór
x - s < xtyp < x + s.
Znając typowy obszar zmienności można podzielić jednostki danej populacji na typowe (tzn. występujące sto-
sunkowo często) i nietypowe (tzn. występujące stosunkowo rzadko).
5
Wyszukiwarka
Podobne podstrony:
10 Elementy statystyki opisowej1 wprowadzenie do statystyki statystyka opisowa2 Statystyka opisowa SStatystyka opisowaStatystyki opisoweStatystyka opisowa rozwiązane kolowkiaStatystyka opisowa4 Statystyka opisowa i rozkład normalnyStatystyka opisowaSTATYSTYKA OPISOWAStatystyka opisowa i ekonomiczna Wykład 1statystyka opisowa 11więcej podobnych podstron