Statystyka - TEORIA
Zbiorowością
statystyczną nazywamy ogół elementów podlegających
badaniu statystycznemu.
Poszczególne elementy tej
zbiorowości nazywamy jednostkami statystycznymi i dla tych
jednostek definiujemy cechy statystyczne.
Klasyfikacja cech statystycznych
Cechy statystyczne dzielimy na: cechy stałe -
nie podlegają badaniu statystycznemu, ale w precyzyjny
sposób opisują przynależność jednostki do danej
zbiorowości, tj.:
cechy rzeczowe -
określają zakres badania,
cechy czasowe -
określają czas przeprowadzenia badania,
cechy przestrzenne - określają miejsce
przeprowadzanego badania,
cechy zmienne, tj.:
cechy jakościowe - zwane inaczej niemierzalnymi, są to cechy, które opisane są
słownie np. wykształcenie, pochodzenie, kolor oczu.
cechy
ilościowe - zwane inaczej mierzalne podane są w postaci liczb.
Dzielą się na:
skokowe - jest
to cecha statystyczna o skończonej, z reguły małej
liczbie realizacji (np. ilość dzieci, ilość
członków rodziny na utrzymaniu ilość izb w
mieszkaniu). Pomiędzy wartościami ilościowymi nie ma
wartości pośrednich.
ciągłe -
cecha ciągła przyjmuje swoje realizacje wewnątrz
pewnego, z góry określonego przedziału liczbowego,
przy czym każda realizacja z tego zbioru może być
przyjęta ( np. wzrost, wysokość, wynagrodzenie w
zakładzie pracy - jest to najbardziej interesujący zakres badań.
cechy quasi ilościowe
- porządkujące - pozwalają na przedstawienie w
postaci uporządkowanych rozłącznych podzbiorów całej zbiorowości np. podział studentów według ocen, a
następnie uporządkowanie. Dla cech ilościowych
wyróżniamy następujące rodzaje szeregów statystycznych:
szeregi szczegółowe
- wyliczające - są to uporządkowane w sposób
monotoniczny wszystkie realizacje cechy łącznie z
powtórzeniami. Uzyskujemy go z tzw. Surowego szeregu
statystycznego ( czyli szeregu zebranego w bezpośrednich
badaniach empirycznych) przez monotoniczne
uporządkowanie tych wyrazów.
szeregi punktowe - konstruowane przede
wszystkim dla cechy skokowej - przyporządkowujące dla każdej
realizacji cechy skokowej jej liczebność cząstkową,
czyli liczbę jej wystąpień- jej powtórzeń- np.
liczba dzieci - (xi) realizacje
xi
ni
0
10
1
15
2
3
3
1
4
1
szeregi rozdzielcze (przedziałowe - strukturalne)
konstruujemy przeważnie dla cech o charakterze ciągłym,
w którym poszczególne
realizacje (rodzaje ?) cechy statystycznej zostały
pogrupowane w poszczególne przedziały klasowe o z góry
ustalonych końcach.
Liczba przedziałów klasowych -
k
Liczba elementów zbiorowości
statystycznej - N
Liczebność cząstkowa - ni
Wzory na liczbę
przedziałów klasowych zbiorowości statystycznej
k= 1 + 3,322log N
k ~ vN
k - należy dobierać w
płynny sposób w zależności od liczebności grup.
N
k
40<
N<60
5 ÷ 7
60<
N<100
6 ÷ 9
100<
N<200
8 ÷ 12
200<
N<500
12 ÷ 17
Wzór na długość
przedziałów
D xi
@
xmax - xmin
k
Zapis
przedziałów
xi
ni
(x1d 1 x1g)
n1
(x2d 1 x2g)
n2
(x3d 1 x3g)
n3
.
.
.
.
(xkd 1 xkg)
nk
Ogółem
N
(sumacyjny wiersz kontrolny)
Wzór na
obliczenie długości przedziału
D xi =
x ig -xid
HISTOGRAM
Szeregi rozdzielcze
przedziałowe możemy konstruować w zapisie
częstościowym, gdy liczebność zastąpiona jest częstością
wi =
ni
N Częstość
W przypadku, gdy w skonstruowanym
szeregu nie wszystkie przedziały mają tę samą długość
liczebności i częstości zastępujemy gęstością lub inaczej
natężeniem.
Wzór na natężenie
przedziału
gi
=
ni
D xi
Definicja histogramu
Histogramem nazywamy zbiór
przylegających prostokątów, których podstawy odpowiadają
długości kolejnych przedziałów klasowych. Natomiast
wysokości odpowiadają liczebnością lub częstością
cząstkowym.
Uwaga jeżeli
przedziały nie są równej długości zastępujemy histogram
liczebności histogramem gęstości.
Definicja diagramu
Diagramem albo wielobokiem
liczebności lub częstości nazywamy łamaną łączącą punkty
o współrzędnych:
(°xi ;ni),
(°xi ;wi),
(°xi ;gi).
°xi(lub ^ xi ) oznacza środek diagramu
liczony według wzoru °xi= 1 (xid + xig)
“Wygładzenie” diagramu daje
nam tzw. krzywą liczebności lub krzywą
częstości, której kształt opisuje nam rozkład cechy
statystycznej.
W przypadku, w którym krzywa
liczebności zawiera 1 ekstremum typu maksymalnego rozkład
nazywamy jednomodalnym.
W przypadku, w którym
krzywa liczebności zawiera więcej ekstremum rozkład nazywamy
wielomodalnym.
Jedno lub wielomodalność
rozkładu jest podstawą doboru mierników statystycznych
opisujących daną cechę statystyczną.
Miary klasyczne wymagają
jednomodalności.
Kumulacja
Szeregiem skumulowanym lub zsumowanym nazywamy szereg, w którym odpowiedniemu przedziałowi
klasowemu przyporządkowana jest liczebność tego przedziału i
wszystkich przedziałów poprzedzających.
ni cum
xi
ni
cum
x1d,x1g
n1
x2d,x2g
n1 +
n2
x3d,x3g
n1 +
n2 + n3
.
.
xkd,xkg
n1 +
n2 + n3 +.............+ nk = N
wi cum
=
ni
cum
N
Szereg wielkości skumulowanych nazywamy
dystrybuantą empiryczną.
Szereg w postaci skumulowanej
zarówno w liczebności jak i częstości jest podstawą do
wyznaczania pozycyjnych miar struktury.
Na podstawie histogramu
skumulowanego wyznaczamy diagram skumulowany, który jest
łamaną łączącą punkty o współrzędnych ( xig,
nicum lub wicum)
Diagram skumulowany
wykreślamy praktycznie jako łamaną łącząca prawe
ograniczenia każdego ze słupków.
Podstawowe mierniki statystyczne:
klasyczne,
pozycyjne.
Mierniki klasycznewykorzystujemy, gdy dysponujemy wszystkimi realizacjami cechy
statystycznej, czyli gdy cecha przedstawiona jest w postaci
szeregu przedziałowego o podomykanych wszystkich przedziałach
klasowych.
Mierniki klasyczne
opierają swą konstrukcję o środki przedziałów
klasowych.
Miary pozycyjne wykreślamy
w przypadku, gdy nie dysponujemy pełnymi informacjami o
realizacjach próby statystycznej, czyli gdy w szeregu
przedziałowym skrajne przedziały klasowe podane są w postaci
opisu słownego typu:
od - do,
powyżej - poniżej,
mniej lub więcej.
Uwaga
Miary absolutne są to
miary, które zachowują mianowanie cechy statystycznej.
Miary względne są miarami
pomijającymi mianowanie cechy. Interpretujemy je w postaci
procentowej lub wartości ułamkowych.
Analizę struktury zjawisk
statystycznych dzielimy na kilka “płaszczyzn”:
miary średnie
- miary położenia lub miary przeciętne,
miary zmienności,
dyspersji, rozrzutu, rozproszenia,
asymetrii -
skośności.
Szereg szczegółowy-
wyliczający - miary przeciętne
— x
- średnia arytmetyczna
— x = 1/N S ci
Szereg punktowy - miary
przeciętne
— x = 1/N S ci × ni
.
Szereg przedziałowy -
miary przeciętne
— x = 1/N S ki=1 c°i
× ni
W przypadku, gdy realizacje
cechy statystycznej są podane w przeliczeniu na inną wartość
średni poziom zjawiska ustalamy nie za pomocą średniej
arytmetycznej lecz za pomocą średniej harmonicznej.
Średnia harmonicznajest odwrotnością średniej arytmetycznej odwrotności
realizacji cech.
Wzór na średnią
harmoniczną
`cH = N/( S 1/xi
)
Przykłady wykorzystania
Gdy analizujemy :
prędkość - km/h
gęstość zaludnienia -
osoby/km2
ceny - zł/kg
spożycie - kg/osobę
wydajność - szt./h
Przykład liczbowy:
W ciągu 8h obserwowano pracę 3
osób, robotnik A zużywał na wykonanie 1 elementu 4 minuty,
robotnik B zużywał na wykonanie 1 elementu 6 minut, robotnik C
zużywał na wykonanie 1 elementu 12 minut.
Określić ile czasu średnio
zużywają robotnicy na wykonanie 1 elementu.
`cH = N/( S 1/xi )
`cH = 3/(1/4+ 1/6+1/12)= 3/(6/12)=
3/(1/2)=3×2/1= 6
Średnia Geometryczna
Jest pierwiastkiem stopnia n-1 z iloczynu wszystkich
realizacji cechy statystycznej.
`cG = n-1vx1×x2×.........×xn
Średnią geometryczną
wykorzystujemy do wyznaczenia średniego tempa zmian zjawiska w
przypadku szeregów czasowych tzn. szeregów, dla których
realizacje jednej cechy statystycznej pobierane są w równych
odstępach czasu.
Ogólnie miary struktury dzielimy na:
klasyczne,
pozycyjne.
Miary klasyczne wykorzystujemy wtedy, gdy dysponujemy wszystkimi
realizacjami cechy statystycznej. Są one przedstawione w postaci
szeregu punktowego lub szeregu rozdzielnego o podomykanych
skrajnych przedziałach klasowych.
Miary pozycyjne wykorzystujemy, gdy informacja o realizacji cechy nie
jest pełna, czyli, gdy dysponujemy szeregiem rozdzielnym o niedomknientych skrajnych przedziałach klasowych podanych w
postaci opisu słownego typu :
od-do
poniżej - powyżej,
mniej lub więcej.
Miary struktury:
klasyczne:
miary średnie -
położenia:
średnia arytmetyczna,
średnia harmoniczna,
średnia geometryczna,
miary rozproszenia (dyspersji
lub zmienności):
odchylenie standardowe,
współczynnik zmienności,
typowy przedział
zmienności,
miary asymetrii -
skośności:
współczynnik asymetrii
Pearsone a
pozycyjne:
dominanta, kwartyle
rzędu I, II i III,
odchylenia ćwiartkowe
pozycyjne, współczynnik zmienności , typowy przedział
zmienności,
współczynnik asymetrii
Yull` a-Kendala. Pozycyjne miary
położenia:
Dominanta (modalna,
moda, wartość najczęstrza), czyli wartość
cechy statystycznej występująca najliczniej w całej zbiorowości.
Dla szeregu punktowego jest tą realizacją cechy statystycznej,
której przyporządkowano największą liczebność
(najwyższa liczba wystąpień).
Dla szeregu rozdzielczego
wyznaczamy ją na podstawie wzoru interpolacyjnego
postaci:
D = xD + (nD - nD-1)/(( nD - nD-1) + (nD - nD+1)) × DxD
D - symbol
oznaczenia dominanty (wartość modalna - moda
Mo),
xD - początek
przedziału dominanty, czyli przedziału o
największej liczebności w danej zbiorowości,
nD - liczebność
przedziału dominanty,
nD-1 - liczebność
przedziału poprzedzającego przedział
dominanty,
nD+1 - liczebność
przedziału następującego po przedziale
dominanty,
DxD - długość
przedziału dominanty.
Uwaga
Warunkiem koniecznym
liczenia dominanty jest równa długość wszystkich
przedziałów klasowych lub co najmniej 3 przedziałów klasowych
- przedziału dominanty i przedziałów sąsiednich.
W przypadku, gdy warunek ten
nie jest spełniony dominantę można obliczyć w oparciu o tzw.
Wzór gęstościowy, czyli wzór, w którym liczebność
przedziałów zastąpiono ich gęstościami.
Tak uzyskana wartość
dominanty jest mniej dokładna.
Kwantyle
Kwantyle definiuje
się jako wartości cechy badanej zbiorowości przedstawionej w
postaci szeregu statystycznego, które dzielą zbiorowość na określone części pod względem liczby jednostek. Części te
pozostają do siebie w określonych proporcjach.
Do najczęściej stosowanych kwantyli
należą kwartyle, a w przypadku analizy struktury
zbiorowości bardzo licznych decyle.
Kwantyle są wartościami
cechy statystycznej dzielącymi badaną zbiorowość na części
pod względem liczebności pozostające między sobą w ściśle
określonym stosunku.
Najczęściej stosowane
kwantyle to kwartyle, czyli wartości dzielące zbiorowość pod
względem liczebności na ćwiartki.
Najprostszym kwartylem jest
kwartyl rzędu drugiego - zwany również medianą lub
wartością środkową - dzielący zbiorowość na dwie równoliczne części.
W przypadku szeregu
wyliczającego mediany wyznaczamy następująco:
dla N parzystego
mediana jest to średnia arytmetyczna
realizacji cechy o numerze xN/2 i xN/2 + 1
Me=( xN/2 + xN/2 + 1)/2
dla N nieparzystego mediana
jest równa wyrazowi o numerze xN+1/2,
Me = xN+1/2
Np. dla N = 10
2,2,3,3,3|4,4,5,5,6
Me = ( xN/2 + xN/2
+ 1)/2 = (3+4)/2 = 3,5
Np. dla N = 11
2,2,3,3,4|4|5,6,6,6,7
Me = 4, (co
interpretujemy nie mniej nie więcej niż ...)
Dla szeregu rozdzielczego
wartość mediany obliczamy za pomocą wzoru:
Me = xMe + (N/2 - nicum-1)/
nMe× DxMe
xMe - początek przedziału
mediany,
N/2 - oznacza
pozycję mediany - Me,
nicum-1 - jest to skumulowana
liczebność przedziałów poprzedzających przedział mediany,
nMe - liczebność przedziału
mediany,
DxMe długość przedziału
mediany.
Kwartyl rzędu pierwszegojest wartością cechy statystycznej dzielącą próbę pod
względem liczebności na dwie części pozostające w stosunku
1/3.
Czyli jest wartością cechy
wydzielająca 1 część stanowiącą 25% elementów.
Dla szeregu wyliczającego
kwartyl rzędu pierwszego jest to mediana 1 połówki.
Dla szeregu rozdzielczego
kwartyl rzędu pierwszego wyznaczamy ze wzoru:
QI= xQI+ (N/4 - nicum-1)/nQI×DxQI
xQI - początek przedziału kwartyla,
N/4 - pozycja miernika,
nicum-I - skumulowana liczebność
przedziałów poprzedzających przedział kwartyla,
nQI - liczebność przedziału
kwartyla,
DxQI - długość przedziału
kwartyla .
Kwartyl rządu trzeciego
jest wartością cechy statystycznej dzielącą całą próbę
pod względem liczebności na dwie części pozostające w
stosunku 3/1 (kwartyl rzędu trzeciego wydziela 3 pierwsze
ćwiartki).
Wzór
QIII= xQIII+ (3N/4 - nicum-1)/nQIII×DxQIII
Graficzna interpretacja
pozycyjnych miar średnich
Dominantę wyznaczamy
na podstawie histogramu prostego( jest to punkt przecięcia się
odcinków łączących prawy “róg” przedziału poprzedzającego przedział dominanty z prawym “rogiem”
przedziału dominanty oraz lewy “róg” przedziału dominanty
z lewym “rogiem” przedziału następnego).
Miary położenia
wyznaczamy na podstawie histogramu skumulowanego (Me, QI,
QIII).
Miary rozproszenia -
dyspersji, zmienności
Miary rozproszenia
określają stopień wewnętrznego zróżnicowania zbiorowości
statystycznej, jest to połowa różnicy QIII- QI.
Wzór
Q = (QIII - QI)/2
Pozycyjne miary rozproszenia
informują nas o ile dowolnie wybrany element z części
zbiorowości statystycznej, która pozostanie po odrzuceniu 25%
realizacji o wartościach najmniejszych i po odrzuceniu 25%
realizacji o wartościach najwyższych różni się o ±wartości środkowej.
Ćwiartkowy współczynnik
odchylenia jest to iloraz odchylenia i mediany pomnożony przez
100%.
VQ=Q/Me × 100%
Ćwiartkowy współczynnik
odchylenia określa jaką część mediany stanowi odchylenie
ćwiartkowe.
Gdy wartość
odchylenia jest niższa od:
15% - to
zbiorowość jest mało zróżnicowana wewnętrznie, czyli jest
mocno skupiona wokół wartości środkowej - jest to
dobry reprezentant zbiorowości,
15 -35% -
zbiorowość jest zróżnicowana w sposób umiarkowany.
powyżej 35% -
zbiorowość jest silnie zróżnicowana, czyli realizacje cechy
statystycznej są silnie rozproszone. Wartość środkowa jest
słabym reprezentantem zbiorowości.
VQ= (Q/Me)×100% (VQ - pozycyjny współczynnik
zmienności)
Me -QL xtypL Me +
Q - typowy obszar zmienności cechy.
Klasyczne mierniki
zmienności
Odchylenie
przeciętne
Odchylenie
przeciętne określa, o ile wszystkie jednostki danej
zbiorowości różnią się od średniej arytmetycznej tej
zmiennej:
dla szeregu
wyliczającego
d = 1/N ĺki=1 | xi - `c |
dla szeregu punktowego
d = 1/N ĺki=1 | xi - `c | × ni
dla szeregu rozdzielczego
d = 1/N ĺki=1 | ^ xi - `c | × ni
Odchylenie standardowe liczone
jako pierwiastek z wariancji, gdzie wariancja jest średnią
arytmetyczną kwadratów odchyleń realizacji cechy statystycznej
od wartości średniej.
1. Dla szeregu wyliczającego-
szczegółowego
S2 = 1/N ĺki=1
|xi - `c |2
2. Dla szeregu punktowego
S2 = 1/N ĺki=1
|xi - `c |2 ni
2. Dla szeregu rozdzielczego
S2 = 1/N ĺki=1
| c° - `c |2 × ni
Uwaga
Wariancja nie ma
bezpośredniej interpretacji statystycznej. Wykorzystujemy ją
tylko jako podstawę do wyznaczenia odchylenia standartowego.
S = v S2
Własności wariancji
Wariancja wartości
zmiennej jest różnicą pomiędzy średnią
arytmetyczną kwadratów wartości zmiennej, a kwadratem średniej arytmetycznej.
S2 = `c2
- (`c)2
`c = ĺ xi2 × ni
(`c)2 = (ĺ xi
× ni)2
Jeżeli badaną zbiorowość
podzielimy na k rozłącznych grup to wariancja dla całej grupy
(wariancja ogólna) jest sumą dwóch składników:
średniej arytmetycznej
wewnątrz grupowej wartości zmiennej
oraz
międzygrupowej ( wariancji
średnich grupowych wartości tej zmiennej.
S2og = ` S2i +
S2 (`ci )
` S2i - ( ĺ S2i
× ni)/N
(wewnątrzgrupowa)
S2 (`ci ) - (ĺ (`ci
- `cog )2 ni)/N (międzygrupowa)
Uwaga
W każdej grupie należy
obliczyć wariancję dla grupy i średnią dla grupy.
K - liczba grup.
`cog = ( ĺ ` xi × ni)/N
S2i - wewnętrzna wartość grupy,
ni - liczebność grupy,
`ci -
`cog - wariancja ogólnogrupowa.
Wariancja ogólna jest podstawą
do liczenia poziomu zmienności w dużych - licznych grupach
statystycznych.
Z wariancji ogólnej wyznaczamy ogólne odchylenie
standardowe.
Odchylenie standardowe jest
absolutnym miernikiem zmienności, czyli zachowuje mianowanie
analizowanej cechy statystycznej i informuje o ile ± dowolnie
wybrany element grupy różni się
od poziomu średniego, czyli wartości średniej.
Iloraz odchylenia
standardowego i wartości średniej nazywamy klasycznym
współczynnikiem zmienności.
VZ= S/`c) ×
100%
Współczynnik
zmienności określa poziom wewnętrznego zróżnicowania próby
statystycznej.
Współczynnik
zmienności należy do grupy mierników tzw. absolutnych, czyli
mierników nie zachowujących mianowania cechy wyrażanych w
postaci zależności ułamkowych i procentowych i pozwalających
na porównywanie zbiorowości statystycznych dla różnoimiennych cech.
Na podstawie
wartości średnich i odchylenia standardowego wyznaczamy typowy
przedział zmienności i podobnie jak poprzednia dolna granica
tego przedziału jest
`c - S< xtyp < `c + S
Asymetria i jej miary
Asymetria, czyli skośność
jest to skłonność rozkładu cechy do nierównomiernego
rozkładu liczebności próby w stosunku do dominanty
Wartość jej oceniamy poprzez
porównanie dominanty, mediany i wartości średniej.
Asymetria prawostronna
`c > Me>D (krzywa
liczebności wydłużona z prawej strony)
Asymetria lewostronna
`c < Me<D (krzywa
liczebności wydłużona z lewej strony)
Najprostszym miernikiem
asymetrii jest wskaźnik asymetrii będący różnicą pomiędzy
wartością średnią, a dominantą
Ws = `c - D
Ws = 0 - cecha ma
rozkład symetryczny,
Ws < 0 - cecha ma
rozkład o asymetrii ujemnej - asymetria lewostronna,
Ws > 0 - cecha ma
rozkład o asymetrii dodatniej - asymetria prawostronna.
Jest to określenie kierunku
asymetrii. Oprócz kierunku asymetrii określamy jej siłę,
służy do tego współczynnik asymetrii.
Klasyczny
współczynnik asymetrii - Pearsone` a
As = ( `c - D) /S
Wyznaczamy go wtedy, gdy mamy do czynienia z miernikami
klasycznymi.
Dla szeregów w opisie pozycyjnym stosujemy miary pozycyjne
Yulle` a Kendala)
AQ = ((QIII -Me)- (Me - QI))/(QIII.
- QI)
Praktycznie liczymy
AQ = (QIII + QI
- 2Me)/2Q
Współczynnik
asymetrii spełnia następujący warunek, jego wartość mieści
się w przedziale -1< As< 1
Na podstawie wartości
bezwzględnej współczynnika asymetrii określamy jej siłę,
gdy:
|As| < 0,3 - jest to słaba
asymetria,
0,3 < |As| < 0,6 - jest to asymetria o umiarkowanej
sile,
|As| > 0,6 - jest to asymetria silna.
(c) MiM Bednarz '99