STATYSTYKA OPISOWA – WYKŁADY
25.03.2013
8.04.2013
1. Miary położenia:
a) Klasyczne:
- Średnia arytmetyczna,
- Średnia harmoniczna,
- Średnia geometryczna,
- Inne.
b) Pozycyjne:
- Dominanta,
- Kwantyle:
* Kwartyl pierwszy,
* Dominanta,
* Kwartyl trzeci,
* Decyle,
* Inne.
2. Podział miar położenia:
a) Miary przeciętne, które charakteryzują średni lub typowy poziom wartości cechy, wartości wokół których skupiają się wszystkie pozostałe wartości analizowanej cechy.
b) Kwantyle zdefiniowane jako wartości cechy badanej zbiorowości przedstawionej w postaci szeregu statystycznego, które dzielą zbiorowość na określone części pod względem liczby jednostek (części te pozostają do siebie w określonych proporcjach).
3. Średnia arytmetyczna:
a) Dla szeregu szczegółowego:
$$srednia = \frac{x_{1} + x_{2} + \ldots + x_{n}}{n} = \frac{1}{n}\sum_{i = 1}^{n}x_{i}$$
b) Dla szeregu rozdzielczo punktowego:
$$srednia = \frac{x_{1}*\ n_{1} + x_{2}*n_{2} + \ldots + x_{k} + n_{k}}{n} = \frac{1}{n}\sum_{i = 1}^{k}{x_{i}*n_{i}}$$
$$n = \sum_{i = 1}^{k}n_{i}$$
c) Dla szeregu rozdzielczo przedziałowego:
$$srednia = \frac{x_{1}*n_{1} + x_{2}*n_{2} + \ldots + x_{k}*n_{k}}{n} = \frac{1}{n}\sum_{i = 1}^{k}{x_{i}*n_{i}}$$
$$n = \sum_{i = 1}^{k}n_{i}$$
4. Własności średniej arytmetycznej:
- Suma wartości cechy jest równa iloczynowi średniej arytmetycznej i liczebności zbiorowości,
$$n*srednia = \sum_{i = 1}^{n}{x_{i}\ \ \ \ \ \ n*srednia = \sum_{i = 1}^{k}{x_{i}*n_{i}}}$$
- Średnia arytmetyczna spełnia warunek:
xmin ≤ srednia ≤ xmax
- Suma odchyleń poszczególnych wartości cechy od średniej równa się zero,
$$\sum_{i = 1}^{n}{\left( x_{i} - srednia \right)n_{i} = 0}$$
$$\sum_{i = 1}^{k}{\left( x_{i} - srednia \right)n_{i} = 0}$$
- Suma kwadratów odchyleń poszczególnych wartości cechy od średniej jest minimalna.
$$\sum_{i = 1}^{n}{{(x_{i} - srednia)}^{2} = min}$$
$$\sum_{i = 1}^{k}{{(x_{i} - srednia)}^{2}n_{i} = min}$$
5. Średnia harmoniczna:
a) Dla szeregu szczegółowego:
$${srednia}_{H} = \frac{n}{\sum_{i = 1}^{n}\frac{1}{x_{i}}}$$
b) Dla szeregu rozdzielczo punktowego:
$${srednia}_{H} = \frac{n}{\sum_{i = 1}^{k}\frac{n_{i}}{x_{i}}}$$
c) Dla szeregu rozdzielczo przedziałowego:
$${srednia}_{H} = \frac{n}{\sum_{i = 1}^{k}\frac{n_{i}}{x_{i}}}$$
6. Średnia geometryczna:
a) Dla szeregu szczegółowego:
$${srednia}_{G} = \sqrt[n]{x_{1}*x_{2}*\ldots*x_{n}} = \sqrt[n]{\prod_{i = 1}^{n}x_{i}}$$
b) Dla szeregu rozdzielczo punktowego:
$${srednia}_{G} = \sqrt[n]{x_{1}^{n_{1}}*x_{2}^{n_{2}}*\ldots*x_{k}^{n_{k}} = \sqrt[n]{\prod_{i = 1}^{k}x_{i}^{n_{i}}}}$$
c) Dla szeregu rozdzielczo przedziałowego:
$${srednia}_{G} = \sqrt[n]{x_{1}^{n_{1}}*x_{2}^{n_{2}}*\ldots*x_{k}^{n_{k}} = \sqrt[n]{\prod_{i = 1}^{k}x_{i}^{n_{i}}}}$$
7. Średnie klasyczne:
- Średnia średnich:
$srednia\ sredniach = \frac{1}{n}\sum_{i = 1}^{k}{srdnia*n_{i}}$
- Średnia harmoniczna – jest stosowana, gdy wartości cechy podane są w przeliczeniu na stałą jednostkę innej zmiennej, czyli w postaci wskaźników natężenia (liczebności w szeregu są wyrażone w jednostkach licznika jednostek cechy) – np. xi [kg/szt.] a ni [kg], xi [km/h] a ni [km] lub xi [l/m2] a ni [l],
- Średnia geometryczna – ma zastosowanie przy badaniu średniego tempa zmian zjawisk (zjawiska ujmowane są dynamicznie).
8. Dominanta (wartość najczęstsza, moda, modalna) – wartość cechy statystycznej występująca najczęściej w danym rozkładzie empirycznym. Wartość najczęściej występująca w szeregu statystycznym.
- W szeregach szczegółowych i rozdzielczych punktowych jest to wartość cechy, której odpowiada największa liczebność,
- W szeregach rozdzielczych przedziałowych oblicza się przybliżoną wartość ze wzoru interpolacyjnego (lub graficznie wyznacza się z histogramu).
$$D = x_{0D} + \frac{n_{D} - n_{D -}}{\left( n_{D} - n_{D -} \right) + (n_{D} - n_{D +})}*x_{0D}$$
9. Kwantyle – to wartości cechy badanej zbiorowości, które dzielą zbiorowość na określone części pod względem liczby jednostek.
a) Kwartyl pierwszy – dzieli zbiorowość na dwie części w ten sposób, że 25% jednostek zbiorowości ma wartości nie wyższe niż kwartyl pierwszy, a 75% jednostek zbiorowości ma wartości nie niższe niż kwartyl pierwszy.
b) Kwartyl drugi (mediana, wartość środkowa) – dzieli zbiorowość na dwie części w ten sposob, że połowa jednostek zbiorowości ma wartości nie wyższe niż mediana, a połowa jednostek zbiorowości ma wartości nie niższe niż mediana.
c) Kwartyl trzeci – dzieli zbiorowość na dwie części w ten sposób, że 75% jednostek zbiorowości ma wartości nie wyższe niż kwartyl pierwszy, a 25% jednostek zbiorowości ma wartości nie niższe niż kwartyl pierwszy.
10. Obliczanie kwantyli:
p ∈ (0;1)
$$Q_{\frac{1}{4}} = Q_{1}$$
$$Q_{\frac{1}{2}} = \ Q_{2} = Me$$
$$Q_{\frac{3}{4}} = Q_{3}$$
a) Dla szeregu szczegółowego i rozdzielczo punktowego:
$$Q_{p} = \left\{ \begin{matrix}
x_{\lbrack np + 1\rbrack}\ \ \ \ \ \ np \notin C \\
\frac{1}{2}\left( x_{\text{np}} + x_{np + 1} \right)\ \ np \in C \\
\end{matrix} \right.\ $$
b) Dla szeregu rozdzielczo przedziałowego:
$$Q_{p} = x_{Q} + \frac{np - cum*n_{i}^{-}}{n_{Q}}x_{Q}$$
11. Miary zmienności:
a) Klasyczne:
- Współczynnik zmienności,
- Odchylenie przeciętne,
- Wariancja i odchylenie standardowe.
b) Pozycyjne:
- Rozstęp,
- Odchylenie ćwiartkowe,
- Współczynnik zmienności.
12. Wariancja – jest to średnia arytmetyczna kwadratów odchyleń poszczególnych wartości od średniej arytmetycznej zbiorowości.
a) Dla szeregu szczegółowego:
$$s^{2} = \frac{1}{n}\sum_{i = 1}^{n}{(x_{i} - srednia)}^{2}$$
b) Dla szeregu rozdzielczo punktowego:
$$s^{2} = \frac{1}{n}\sum_{i = 1}^{k}{{(x_{i} - srednia)}^{2}n_{i}}$$
c) Dla szeregu rozdzielczo przedziałowego:
$$s^{2} = \frac{1}{n}\sum_{i = 1}^{k}{{(x_{i} - srednia)}^{2}n_{i}}$$
13. Odchylenie standardowe – określa przeciętne zróżnicowanie poszczególnych wartości cechy od średniej arytmetycznej. O ile wartości cechy różnią się średnio od wartości średniej.
$$s = \sqrt{s^{2}}$$
14. Typowy obszar zmienności – obejmuje około 2/3 jednostek zbiorowości:
srednia − s < xtyp < srednia + s
15. Odchylenie przeciętne – o ile jednostki danej zbiorowości różnią się średnio względem wartości badanej cechy od średniej arytmetycznej:
a) Dla przedziału szczegółowego:
$$d = \frac{1}{n}\sum_{i = 1}^{n}{|x_{i} - srednia|}$$
b) Dla przedziału rozdzielczo punktowego:
$$d = \frac{1}{n}\sum_{i = 1}^{k}{|x_{i} - srednia|n_{i}}$$
c) Dla przedziału rozdzielczo przedziałowego:
$$d = \frac{1}{n}\sum_{i = 1}^{k}{|x_{i} - s\text{rednia}|n_{i}}$$
16. Wariancja ogólna – jest sumą wariancji wewnątrzgrupowej i międzygrupowej:
Równość wariancyjna:
s2 = sw2 + sm2
$$s_{w}^{2} = \frac{1}{n}\sum_{i = 1}^{k}{s_{i}^{2}*n_{i}}$$
$$s_{m}^{2} = \frac{1}{n}\sum_{i = 1}^{k}{{(srednia - srednia\ srednich)}^{2}n_{i}}$$
17. Współczynnik zmienności:
$$V_{s} = \frac{s}{srednia}*100\%$$
$$V_{d} = \frac{d}{srednia}*100\%$$
18. Rozstęp:
R = xmax − xmin
19. Odchylenie ćwiartkowe:
$$Q = \frac{Q_{3} - Q_{1}}{2}$$
20. Typowy obszar zmienności:
Me − Q < xtyp < Me + Q
21. Współczynnik zmienności I:
$$V_{Q} = \frac{Q}{\text{Me}}*100\%$$
22. Współczynnik zmienności II:
$$V_{Q_{1},Q_{3}} = \frac{Q_{3} - Q_{1}}{Q_{3} + Q_{1}}*100\%$$
23. Klasyczno-pozycyjny wskaźnik skośności:
Wsk = srednia − D
24. Pozycyjny wskaźnik skośności:
Wsp = (Q3−Me) − (Me−Q1)
25. Asymetria prawostronna:
D ≤ Me ≤ srednia
26. Asymetria lewostronna:
srednia ≤ Me ≤ D
27. Klasyczno-pozycyjny współczynnik asymetrii (skośności):
$$A_{s} = \frac{srednia - D}{s}$$
$$A_{d} = \frac{srednia - D}{d}$$
28. Klasyczny współczynnik asymetrii (skośności) – moment centralny trzeciego rzędu:
$$A = \frac{m_{3}}{s^{3}}$$
29. Moment centralny rzędu r:
$$m_{r} = \frac{1}{n}\sum_{i = 1}^{n}\left( x_{i} - srednia \right)^{r}$$
$$m_{r} = \frac{1}{n}\sum_{i = 1}^{k}{\left( x_{i} - srednia \right)^{r}*n_{i}}$$
30. Pozycyjny współczynnik asymetrii (skośności):
$$A_{Q} = \frac{\left( Q_{3} - Me \right) - (Me - Q_{1})}{\left( Q_{3} - Me \right) + (Me - Q_{1})} = \frac{Q_{3} + Q_{1} - 2Me}{2Q}$$
31. Miary koncentracji:
- Koncentracja wartości cechy wokół średniej
- Im większe zróżnicowanie, tym mniejsza koncentracja
- Współczynnik skupienia (kurtoza):
$$K = \frac{m_{4}}{s^{4}}$$
$$K^{'} = \frac{m_{4}}{s^{4}} - 3$$
- Krzywa koncentracji Lorenza
- Współczynnik koncentracji Lorenza:
$$K_{L} = \frac{a}{5000} = \frac{5000 - b}{5000}$$