Szeregi czasowe
Zbiór obserwacji danej cechy przeprowadzonych w kolejnych momentach {xt}, gdzie t – 1, 2 … t numer obserwacji,
t – liczba obserwacji.
Elementy szeregu czasowego x1, x2, x3, x4, x5, x6, …, xt, xt+1, …, xT
Np. Stypendia studenckie w kolejnych latach 2000 – 2008 w zł
180 , 180, 190, 195, 200, 220, 220, 250
Dane w szeregach czasowych
W postaci liczb w poziomach (200zł)
W postaci miar względnych $\frac{\text{warto}sc\ \text{cec}hy\ w\ \text{poziomac}h}{\begin{matrix} \text{punkt}\ \text{odniesienia} \\ \end{matrix}}$
Np. 300zł/rok; 300zł/studenta; lub
Wskaźniki dynamiki – klasa miar względnych
Podstawowe to:
Stopy wzrostu (indeksy – szersza kategoria);
Tempa wzrostu.
Pojęcia wstępne:
Absolutne różnice cechy xt = xt − xt − i
Różnice absolutne łańcuchowe X2-x1, x3-x2, x4-x3, x5-x4, x6-x5
Różnice absolutne jednopodstawowe X2-x1, x3-x1, x4-x1, x5-x1, x6-x1
Stopy wzrostu
Są to stosunkowe różnice cechy It/t-i = $\frac{x_{t}}{x_{t - i}}$
Przykład: $I_{\frac{1982}{1980}} = \frac{\text{DN}_{1982}}{\text{DN}_{1980}} = \frac{4,6\text{bln}\ zl}{5,5\text{bln}\ zl} = 0,8364 \rightarrow 83,64\%$
Stopy wzrostu – rodzaje
Jednopodstawowe $I_{\frac{2}{1}} = \frac{x_{2}}{x_{1}}$ , $I_{\frac{3}{1}} = \frac{x_{3}}{x_{1}}$, $I_{\frac{4}{1}} = \frac{x_{4}}{x_{1}}$, $I_{\frac{5}{1}} = \frac{x_{5}}{x_{1}}$
Łańcuchowe $I_{\frac{2}{1}} = \frac{x_{2}}{x_{1}}$, $I_{\frac{3}{2}} = \frac{x_{3}}{x_{2}}$, $I_{\frac{4}{3}} = \frac{x_{4}}{x_{3}}$, $I_{\frac{5}{4}} = \frac{x_{5}}{x_{4}}$,
Tempa wzrostu
Oparte o przyrosty jednopodstawowe – rzadko używane $r_{1} = \frac{x_{2} - x_{1}}{x_{1}}$ $r_{2} = \frac{x_{3} - x_{2}}{x_{1}}$ $r_{3} = \frac{x_{4} - x_{3}}{x_{1}}$
Oparte o przyrosty łańcuchowe $r_{1} = \frac{x_{2} - x_{1}}{x_{1}}$ $r_{2} = \frac{x_{3} - x_{2}}{x_{2}}$ $r_{3} = \frac{x_{4} - x_{3}}{x_{3}}$
Związek między indeksem łańcuchowym a tempem wzrostu r = $\frac{x_{t} - x_{t - 1}}{x_{t - 1}} = \frac{x_{t}}{x_{t - 1}} - \frac{x_{t - 1}}{x_{t - 1}} = I_{\frac{t}{t - 1}} - 1$
czyli r=$I_{\frac{t}{t - 1}} - 1$ lub w ujęciu procentowym r=$I_{\frac{t}{t - 1}} - 100$
Statystyka opisowa
Miary przeciętne
Miary zmienności
Miary asymetrii
Miary koncentracji
Przyrosty
Indeksy
Analiza zależności dwóch zmiennych
Średnia arytmetyczna – nieważona (z szeregu prostego)
$\overset{\overline{}}{x} = \ \frac{\sum_{i = 1}^{n}x_{i}}{n}$ gdzie x1, …, xn są obserwacjami pewnej zmiennej X, a n liczbą tych obserwacji
Średnia arytmetyczna – ważona (z szeregu rozdzielczego punktowego)
x | n |
---|---|
x1 | n1 |
… | … |
xk | nk |
∑ | N |
x | fi |
x1 | f1 |
… | … |
xk | fk |
Średnia arytmetyczna – ważona (z szeregu rozdzielczego przedziałowego)
x | ni |
---|---|
x0-x1 | n1 |
… | … |
xk-1-xk | nk |
∑ | N |
Średnia harmoniczna
Zadanie: w kolejnych kilometrowych odcinkach drogi zaobserwowano następujące prędkości samochodu: 105 110 90 95 100. Jaka była średnia prędkość samochodu?
Rozwiązanie: średnia prędkość jest jednakową prędkością, z jaką poruszałby się samochód w tym samym czasie po tej samej drodze.
Czas przejazdu: $t = \frac{1}{105} + \frac{1}{110} + \frac{1}{90} + \frac{1}{95} + \frac{1}{100}$
Średnia prędkość: $v_{sr} = \frac{5\text{km}}{\frac{1\text{km}}{105\text{km}/h} + \frac{1}{110} + \frac{1}{90} + \frac{1}{95} + \frac{1}{100}}$
Dla szeregu prostego (średnia nieważona)
Dla szeregu rozdzielczego punktowego (średnia ważona)
Uwaga: dla szeregów rozdzielczych przedziałowych należy zastąpić każde xi odpowiednim środkiem klasowym.
Średnia geometryczna
Zadanie: Przez kolejnych 5 lat zaobserwowano następujące stopy wzrostu kapitału: 1.05 1.10 0.90 0.95 1.20. Jaka jest średnioroczna stopa wzrostu naszego kapitału?
Rozwiązanie: średnioroczna stopa wzrostu jest jednakowa we wszystkich badanych latach i daje po pięciu latach ten sam wynik z tego samego kapitału początkowego.
Ki – kapitał po i latach. Wówczas: Ki=Ki-1ri gdzie ri oznacza stopę wzrostu w roku i.
Otrzymujemy:
$\left. \ \begin{matrix} K_{1} = 1.05*K_{0} \\ K_{2} = 1.10*K_{1} \\ K_{3} = 0.90*K_{2} \\ K_{4} = 0.95*K_{3} \\ K_{5} = 1.20*K_{4} \\ \end{matrix} \right\}$ K5 = 1.05 * 1.10 * 0.90 * 0.95 * 1.20 * K0
Gdyby w każdym roku stopa wzrostu była równa r, to
K5=r5*K0 czyli r5=1.05*1.10*0.90*0.95*1.20
$$r = \sqrt[5]{1.05*1.10*0.90*0.95*1.20} - 1$$
Dla szeregu prostego (średnia nieważona)
Dla szeregu rozdzielczego punktowego (średnia ważona)
Dla szeregu rozdzielczego przedziałowego (średnia ważona)
$$\overset{\overline{}}{x_{g}} = \sqrt[{\sum_{i = 1}^{k}n_{i}}]{\prod_{i = 1}^{k}x_{i}^{{0\ n}_{i}}}$$
Związki między średnimi
$$\frac{1}{\overset{\overline{}}{x}H} = \frac{\sum_{i = 1}^{k}\frac{n_{i}}{x_{i}}}{\sum_{i = 1}^{k}n_{i}} = \frac{\sum_{i = 1}^{n}{n_{i}\frac{1}{x_{i}}}}{\sum_{i = 1}^{k}n_{i}} = \overset{\overline{}}{\left( \frac{1}{x} \right)}$$
$$\frac{1}{\overset{\overline{}}{x}H} = \overset{\overline{}}{\left( \frac{1}{x} \right)}$$
Średnia arytmetyczna – własności
$$\overset{\overline{}}{\left( x + y \right)} = \frac{\sum_{i = 1}^{k}{n_{i}\left( x + y \right)_{i}}}{\sum_{i = 1}^{k}n_{i}} = \frac{\sum_{i = 1}^{k}{n_{i}\left( x_{i} + y_{i} \right)}}{\sum_{i = 1}^{k}n_{i}} = \frac{\sum_{i = 1}^{k}\left( n_{i}x_{i} + {n_{i}y}_{i} \right)}{\sum_{i = 1}^{k}n_{i}} = \frac{\sum_{i = 1}^{k}{n_{i}x_{i}}}{\sum_{i = 1}^{k}n_{i}} + \frac{\sum_{i = 1}^{k}{n_{i}y}_{i}}{\sum_{i = 1}^{k}n_{i}} = \overset{\overline{}}{x} + \overset{\overline{}}{y}$$
Niech c ɛ R
$$\overset{\overline{}}{(c*x)} = \frac{\sum_{i = 1}^{k}{n_{i}\left( c*x \right)_{i}}}{\sum_{i = 1}^{k}n_{i}} = \frac{\sum_{i = 1}^{k}{n_{i}\text{cx}_{i}}}{\sum_{i = 1}^{k}n_{i}} = c\frac{\sum_{i = 1}^{k}{n_{i}x_{i}}}{\sum_{i = 1}^{k}n_{i}} = c*\overset{\overline{}}{x}$$
$$\overset{\overline{}}{c} = \frac{\sum_{i = 1}^{k}c}{n} = \frac{\text{nc}}{n} = c$$
$$\overset{\overline{}}{(x - \overset{\overline{}}{x})} = \overset{\overline{}}{x} - \overset{\overline{}}{x} = 0$$
Średnie pozycyjne – dominanta
Dominantą zamiennej skokowej jest jej wartością najczęściej się powtarzającą, czyli wartość o największej liczebności lub częstości
Dominantą zmiennej ciągłej jest liczba wokół której skupiona jest lokalnie największa liczba obserwacji tej zmiennej
Dominanta - geometria
Dominanta – algebra
D = x0D + z
$$\frac{z}{h_{D} - z} = \frac{n_{D} - n_{D - 1}}{n_{D} - n_{D + 1}}$$
z(nD−nD + 1) = (hD−z)(nD − nD − 1)
z(nD−nD + 1+nD−nD − 1) = hD(nD − nD − 1)
$$z = h_{D}\frac{n_{D} - n_{D - 1}}{\left( n_{D} - n_{D - 1} \right) + (n_{D} - n_{D + 1})}$$
$$D = x_{0D} + h_{D}\frac{n_{D} - n_{D - 1}}{\left( n_{D} - n_{D - 1} \right) + (n_{D} - n_{D + 1})}$$
Średnia arytmetyczna – problemy
Dobra miara, gdy zbiorowość jest w miarę jednorodna względem badanej cechy, czyli poszczególne jednostki nie różnią się od siebie zbytnio, średnia jest punktem, wokół którego skupiają się wartości cechy większości jednostek zbiorowości
Jest wrażliwa na skrajne wartości
Gdy szereg jest wielostopniowy przyjęcie środka przedziału zamiast średniej w przedziale powoduje, że popełniamy błąd In minus (nie doszacujemy sumy wartości cechy) w przedziałach przed średnią, In plus za średnią
Średnie opierają się o wartości cechy dla każdej jednostki statystycznej. Brak danych o jakiejkolwiek wartości cechy wyklucza w zasadzie możliwości obliczenia średniej. Poważnym problemem zatem staje się szereg z otwartymi przedziałami skrajnymi
Dominanta – problemy
Nie można jej używać gdy cecha nie wykazuje tendencji do skupiania się jednostek wokół jakiejkolwiek wartości lub wykazuje tendencję do skupiania się wokół kilku wartości (szeregi wielomodalne)
Szereg wielostopniowy musi mieć równe przedziały klasowe, jeśli nie ma musimy stosować wzór z przekształconymi przedziałami
Nie należy jej używać gdy szereg jest skrajnie asymetryczny, a nie da się policzyć sla szeregu wielostopniowego skrajnie asymetrycznego o otwartych przedziałach klasowych
W przypadku mało licznych przedziałów klasowych szeregu rozdzielczego dominanta może być przypadkową wartością, należy więc być bardzo ostrożnym przy jej obliczaniu i interpretacji, zwłaszcza w przypadku szeregów cechy ciągłej
Kwantyle rzędu Ө (Өɛ(o,1))
Kwantylem rzędu Ө zmiennej X nazywamy liczbę qӨ taką, że częstość obserwacji mniejszych od qӨ jest ≤ Ө, natomiast częstość obserwacji niewiększych od qӨ jest ≥ Ө
Kwantylem rzędu Ө zmiennej ciągłej X nazywamy liczbę qӨ taką, że częstość obserwacji mniejszych odd qӨ jest =Ө, zatem Fx(qӨ)=Ө. Gdzie Fx jest dystrybuantą zmiennej X
Kwantyl rzędu Ө-qӨ
x | Licz. | l.sk. |
---|---|---|
0-10 | 5 | 5 |
10-20 | 15 | 20 |
20-30 | 30 | 50 |
30-40 | 60 | 110 |
40-50 | 55 | 165 |
50-60 | 45 | 210 |
60-70 | 40 | 250 |
70-80 | 30 | 280 |
80-90 | 20 | 300 |
Kwantyle rzędu q(q∈(0,1))
$$q_{\theta} = x_{0q} + z = x_{0q} + h\frac{\theta N - n_{0q}^{\text{sk}}}{n_{q}}$$
Kwartyle – MEDIANA
$Me = x_{0q} + h\frac{\frac{2}{4}N - n_{0q}^{\text{sk}}}{n_{q}}$ cecha ciągła
q0.5 - mediana – Me
Liczba obserwacji mniejszych od mediany (Me) jest równa połowie wszystkich obserwacji
50% Me 50%
MEDIANA cechy skokowej
$$Me = \left\{ \begin{matrix}
x_{\frac{N + 1}{2}\ },\ \ \ dla\ N\ nieparzystych \\
\frac{x_{\frac{N}{2}} + x_{\frac{N + 1}{2}}}{2},\ dla\ N\ parzystych \\
\end{matrix} \right.\ $$
q0.25 – kwartyl pierwszy – Q1
Liczba obserwacji mniejszych od kwartyla pierwszego (Q1) jest równa jednej czwartej wszystkich obserwacji
25% Q1 75%
q0.75 – kwartyl trzeci – Q3
Liczba obserwacji mniejszych od kwartyla pierwszego (Q3) jest równa trzem czwartych wszystkich obserwacji
75% Q1 25%
Decyle
$$q_{\frac{6}{10}} = x_{0q} + h\frac{\frac{6}{10}N - n_{0q}^{\text{sk}}}{n_{q}}$$
q0.6 - decyl szósty – d6
Liczba obserwacji mniejszych od decyla szóstego (d6) jest równa sześciu dziesiątym wszystkich obserwacji
60% d6 40%
Centyle
$$q_{\frac{7}{100}} = x_{0q} + h\frac{\frac{7}{100}N - n_{0q}^{\text{sk}}}{n_{q}}$$
q0.07 – centyl siódmy – p7
Liczba obserwacji mniejszych od centyla siódmego (p7) jest równa siedmiu setnym wszystkich obserwacji
7% p7 93%
Miary zmienności
Zakres zmienności = xmax-xmin
Odchylenie przeciętne
$$d = \left\{ \begin{matrix}
\sum_{i = 1}^{n}\left| x_{i} \right.\ - \overset{\overline{}}{x}|/n \\
\sum_{i = 1}^{k}n_{i}\left| x_{i} \right.\ - \overset{\overline{}}{x}|/\sum_{i = 1}^{k}n_{i} \\
\sum_{i = 1}^{k}n_{i}\left| x_{i}^{0} \right.\ - \overset{\overline{}}{x}|/\sum_{i = 1}^{k}n_{i} \\
\end{matrix} \right.\ $$
d ≥ 0
d = 0 V X = c c ∈ R
Wariancja
$$s^{2} = \left\{ \begin{matrix}
\sum_{i = 1}^{n}{(x_{i} - \overset{\overline{}}{x})}^{2}/n \\
\sum_{i = 1}^{k}{n_{i}(x_{i} - \overset{\overline{}}{x})}^{2}/\sum_{i = 1}^{k}n_{i} \\
\sum_{i = 1}^{k}{n_{i}(x_{i}^{0} - \overset{\overline{}}{x})}^{2}/\sum_{i = 1}^{k}n_{i} \\
\end{matrix} \right.\ $$
Własności wariancji
sx2 ≥ 0 sx2 = 0 V X = r r∈R
$s_{x}^{2} = \overset{\overline{}}{{(r - \overset{\overline{}}{r})}^{2}} = \overset{\overline{}}{{(r - r)}^{2}} =$(0)2=0
$$s_{X + r}^{2} = \overset{\overline{}}{\left( \left( X + r \right) - \overset{\overline{}}{X + r} \right)^{2}} = \overset{\overline{}}{\left( \left( X + r \right) - \overset{\overline{}}{X} - r \right)^{2}} = \overset{\overline{}}{\left( X - \overset{\overline{}}{X} \right)^{2}} = s_{X}^{2}$$
$$s_{\text{rX}}^{2} = \overset{\overline{}}{{(rX - \overset{\overline{}}{\text{rX}})}^{2}} = \overset{\overline{}}{{(rX - r\overset{\overline{}}{X})}^{2}} = \overset{\overline{}}{{(r(X - \overset{\overline{}}{X}))}^{2}} = \overset{\overline{}}{{r^{2}(X - \overset{\overline{}}{X})}^{2}} = r^{2}{(X - \overset{\overline{}}{X})}^{2} = r^{2}s_{X}^{2}$$
$$s_{X}^{2} = \overset{\overline{}}{\left( X - \overset{\overline{}}{X} \right)^{2}} = \overset{\overline{}}{({X^{2} - 2X\overset{\overline{}}{X} + \overset{\overline{}}{X}\ }^{2})} = \overset{\overline{}}{X^{2}} - \overset{\overline{}}{2X\overset{\overline{}}{X}} + \overset{\overline{}}{{\overset{\overline{}}{X}}^{2}} = \overset{\overline{}}{X^{2}} - 2\overset{\overline{}}{X}\overset{\overline{}}{X} + {\overset{\overline{}}{X}}^{2} = \overset{\overline{}}{X^{2}} - {\overset{\overline{}}{X}}^{2}$$
Odchylenie standardowe - s - jest to pierwiastek kwadratowy z wariancji. Stanowi miarę zróżnicowania o mianie zgodnym z mianem badanej cechy, określa przeciętne zróżnicowanie poszczególnych wartości cechy od średniej arytmetycznej
Własności: sX ≥ 0 sX = 0 V X = r r ∈ R
$$s_{X + r} = \sqrt{s_{X + r}^{2}} = \sqrt{s_{X}^{2}} = s_{X}$$
$$s_{\text{rX}} = \sqrt{s_{\text{rX}}^{2}} = \sqrt{r^{2}s_{X}^{2}} = |r|s_{X}$$
Odchylenie ćwiartkowe - Q - jest to parametr określający odchylenie wartości cechy od mediany. Mierzy poziom zróżnicowania tylko części jednostek; po odrzuceniu 25% jednostek o wartościach najmniejszych i 25% jednostek o wartościach największych
Typowe obszary zmienności – $\left( \overset{\overline{}}{x} - s_{X},\ \overset{\overline{}}{x} + s_{X} \right)$ (Me-Q, Me+Q)
Współczynniki zmienności (miary względne) –
$$V_{d} = \frac{d_{X}}{\overset{\overline{}}{x}}*100\%$$
$$V_{Q} = \frac{Q_{X}}{\text{Me}}*100\%$$
$$V_{Q_{1}Q_{3}} = \frac{Q_{3} - Q_{1}}{Q_{3} + Q_{1}}*100\%$$