1
Wskaźnik natężenia.
Wskaźnikiem natężenia dla określonej wartości badanej cechy xi nazywamy stosunek liczebności (wielkości) odpowiadający tej wartości w dwóch zbiorowościach pozostających w przyczynowym lub logicznym związku.
i
n
i
w =
(np. stopa bezrobocia liczona jako liczba bezrobotnych /liczbę i
m
aktywnych zawodowo).
Miary tendencji centralnej.
Miary tendencji centralnej służą do opisywania i porównywania średniej wartości w szeregu. Ogólnie dzielą się na:
1. klasyczne – obliczane ze wszystkich wyrazów szeregu; 2. pozycyjne – wyznaczone z niektórych wyrazów szeregu wybranych ze względu na pozycję, jaką w tym szeregu zajmują.
Miary klasyczne: średnia arytmetyczna, średnia harmoniczna.
Średnia arytmetyczna jest to ta wartość zmiennej X, jaką by miały wszystkie jednostki danej zbiorowości, gdyby nie było między nimi różnic ze względu na poziom danej cechy.
Średniej arytmetycznej nie liczymy, gdy: 1. przedziały skrajne są otwarte;
2. występują wartości nietypowe (np. wzrost: 175, 169, 172, ..., 215); 3. zbiorowość jest niejednorodna (np. widownia teatru dla dzieci analizowana ze względu na wiek – widownię stanowią i dzieci i dorośli).
2
Własności średniej arytmetycznej: n
1. x * n = ∑ x - iloczyn średniej i liczebności jest równy łącznej wartości i
i=1
cechy w zbiorze;
n
2. ∑( x − x) = 0- suma odchyleń wartości cechy od średniej jest równa zeru; i
i 1
=
n
3. ∑( x − C)2 =
min gdy C
= x .
i
i=1
∑ xi
• szereg szczegółowy - x i
=
, gdzie N – liczebność zbiorowości;
N
∑ ix i
n
• szereg rozdzielczy o klasach jednostkowych -
n
x = i
lub gdy w = i
∑
i
i
n
∑ i
n
i
i
- x = ∑ ix i
w - ważona postać średniej, gdyż poszczególne wartości cechy i
są mnożone przez liczebności (częstości) ich występowania (czyli są ważone liczebnościami lub częstościami ich występowania).
o
∑ ix i
n
• szereg rozdzielczy o przedziałach klasowych - x = i
- w tym
∑ i
n
i
przypadku nie otrzymujemy dokładnej wartości tylko wynik przybliżony.
Średnia harmoniczna: odwrotność średniej arytmetycznej policzona z odwrotności wartości zmiennych. Stosuje się ją gdy wartości zmiennej są podane w jednostkach względnych np. w km/ h, w zł/ szt. Zatem stosujemy ją do obliczania przeciętnej prędkości pojazdów (w km/ h), gęstości zaludnienia (w os./ km2), ceny towarów (w zł/ szt).
∑ xi i
n
* szereg szczegółowy -
= n
x
x = i
h
* szereg rozdzielczy -.
n 1
h
x n
∑
∑ i i
i=1 i
x
i
xi
3
Miary pozycyjne: mediana i dominanta.
Mediana – to wartość zmiennej X, która zajmuje środkową pozycję w szeregu statystycznym uporządkowanym wg poziomu zmiennej X.
Inaczej – jest to taka wartość cechy, że co najmniej połowa jednostek zbiorowości ma wartość cechy nie większą od niej i równocześnie co najmniej połowa jednostek ma wartość cechy nie mniejszą od tej wartości.
x( n+
liczby
ej
nieparzyst
dla
jednostek
)
1 / 2
• szereg szczegółowy:
Me = 1
( x
+ x
liczby
parzystej
dla
)
jednostek
n / 2
( n+
2
2) / 2
• szereg rozdzielczy – stosujemy tzw. interpolacyjny wzór na medianę: 0
h
Me = x +
( N
−
)
0
Me
nsk 1
− , gdzie:
n 0
x0 – dolna granica przedziału mediany; h0 – rozpiętość przedziału mediany; n0 – liczebność przedziału mediany; NMe – numer mediany (dla N
parzystego NMe=N/2, dla N – nieparzystego NMe=(N+1)/2); nsk-1 –
liczebność skumulowana dla przedziału poprzedzającego numer mediany.
Mediana jest tu oczywiście wartością przybliżoną. Wzór ten daje najlepsze wyniki, gdy zbiór danych jest odpowiednio liczny a przedziały klasowe mają niewielkie rozpiętości. Me stosujemy, gdy średnia arytmetyczna zawodzi ze względu na znaczną niejednorodność rozkładu lub nie można jej liczyć z powodu otwartych przedziałów.
4
Dominanta – ta wartość zmiennej X, której odpowiada w szeregu największa liczba obserwacji.
Wzór interpolacyjny na dominantę: h ( n − n )
0
0
1
−
Do = x +
0
, gdzie:
( n − n ) + ( n − n ) 0
1
−
0
1
+
x0 – dolna granica przedziału dominanty; h0 – rozpiętość przedziału dominanty; n0 – liczebność przedziału dominanty; n-1 – liczebność przedziału poprzedzającego przedział dominanty; n+1 – liczebność przedziału następującego po przedziale dominanty.
Dominanty nie można liczyć, gdy:
• zbiorowość nie jest jednorodna;
• największa liczebność znajduje się w pierwszym lub ostatnim przedziale;
• rozpiętości przedziałów dominanty, poprzedzającego i następnego są różne.
Dla cechy ciągłej nie należy się spodziewać aby którakolwiek z wartości występowała częściej niż inne, zatem Do w takim rozkładzie interpretuje się jako wartość, wokół której grupują się elementy badanej zbiorowości.
Wyznaczanie dominanty ma sens, gdy występuje jedno wyraźnie zaznaczone maksimum liczebności. W przypadku występowania większej liczby lokalnych maksimów (rozkład wielomodalny) należałoby określić więcej niż jedną dominantę. Przypadek taki wskazuje na niejednorodność zbioru danych wynikającą z połączenia różnych populacji.
5
Ogólne cechy średnich:
Średnie są wartościami mianowanymi i posiadają takie samo miano jak badana zmienna. Wszystkie średnie spełniają warunek: ich wartość mieści się między największą a najmniejszą wartością zmiennej X w badanym szeregu.
Miary klasyczne są dokładniejsze, bo biorą pod uwagę wszystkie wyrazy w szeregu. Me powinno się obliczać, gdy zbiorowość jest bardzo zróżnicowana, albo gdy w szeregu występują wartości nietypowe. Przy mocno zróżnicowanej zbiorowości obliczamy średnie pozycyjne lub dzielimy zbiorowość na bardziej jednorodne podzbiory i obliczamy średnie klasyczne dla każdego z tych podzbiorów osobno.
Zależność Pearsona:
Odległość średniej arytmetycznej od dominanty jest w przybliżeniu równa 3
odległościom średniej od mediany:
x − Do ≅ 3* ( x − Me)
Kwartyle: dzielą zbiorowość na 4 części.
Kwartyl I – Q1 – oddziela 25% obserwacji o wartościach niższych i 75%
obserwacji o wartościach wyższych od niego.
Kwartyl II – Me.
Kwartyl III – Q3 – oddziela 75% obserwacji o wartościach niższych i 25% o wartościach wyższych od niego.
Wzory interpolacyjne:
h 1
Q
N
Q = x +
( N
− n
gdzie
)
=
1
Q
Q
sk 1
N
1
1
−
1
n
Q
4
1
Q
h 3
Q
3 N
Q = x +
( N
− n
gdzie
)
=
3
Q
Q
sk 1
N
3
3
−
3
n
Q
4
3
Q