$$k \approx \sqrt{n},\ k \leq 5\ \log n\backslash n$$
Długość przedziału klasowego (h):
$$h \geq \frac{x_{\max} - x_{\min}}{k}$$
Średnia arytmetyczna $\left( \overset{\overline{}}{x} \right)$:
$$\overset{\overline{}}{x} = \frac{1}{n}\sum_{i = 1}^{n}x_{i}$$
Mediana (Me):
$$Me = \left\{ \begin{matrix}
X_{\frac{n + 1}{2},\ \ \ \ gdy\ nieparzyste} \\
\frac{1}{2}\left( X_{\frac{n}{2}} + X_{\frac{n}{2} + 1} \right),\ \ \ gdy\ parzyste \\
\end{matrix} \right.\ $$
Modalna – najczęstsza wartość, dominanta
Kwartyle (Q) i kwantyle (q):
Q1=q0,25
Q2=Me
Q3=q0,75
Wariancja (S2) i odchylenie standardowe (S):
$$S^{2} = \frac{1}{n}\sum_{i = 1}^{n}\left( x_{i} - \overset{\overline{}}{x} \right)^{2}$$
$$S = \sqrt{S^{2}}$$
Współczynnik zmienności (V) – powyżej 20% jest duża zmienność:
$$V = \frac{S*100\%}{\overset{\overline{}}{x}}$$
Asymetria/skośność (As):
$$As = \frac{\overset{\overline{}}{x} - Mo}{S}$$
$$As = \frac{\left( Q_{3} - Q_{2} \right) - \left( Q_{2} - Q_{1} \right)}{Q_{3} - Q_{1}}$$
$$As = \frac{3\left( \overset{\overline{}}{x} - Me \right)}{S}$$
Średnia ważona $\left( \overset{\overline{}}{x} \right)$:
$$\overset{\overline{}}{x} = \frac{1}{n}\sum_{i = 1}^{k}{x_{i}*n_{i}}$$
Środek przedziału klasowego:
$$x_{i}^{'} = \frac{x_{i}^{-} + x_{i}^{+}}{2}$$
Średnia ważona dla środka przedziału klasowego:
$$\overset{\overline{}}{x} = \frac{1}{n}\sum_{i = 1}^{k}{x_{i}^{'}*n_{i}}$$
(Niewiadoma)
$$q_{p} = x_{q}^{-} + \frac{h_{q}}{n_{q}}\left( n*p - \sum_{i = 1}^{q - 1}n_{i} \right)$$
xq- - dolna granica z przedziału z kwantylem
hq – długość przedziału
nq – liczebność przedziału
Modalna (Mo):
$$Mo = X_{\text{Mo}}^{-} + \frac{\left( n_{\text{Mo}} - n_{Mo - 1} \right)*h}{\left( n_{\text{Mo}} - n_{Mo - 1} \right) + \left( n_{\text{Mo}} - n_{Mo + 1} \right)}$$
nMo – liczebność modalnej
Średnia harmoniczna $\left( \overset{\overline{}}{x_{H}} \right)$:
$$\overset{\overline{}}{x_{H}} = \frac{n}{\sum_{i = 1}^{k}\frac{n_{i}}{x_{i}}}$$
Kowariancja (cov):
$$\text{cov}\left( x,y \right) = \frac{1}{n}\sum_{i = 1}^{n}\left( x_{i} - \overset{\overline{}}{x} \right)\left( y_{i} - \overset{\overline{}}{y} \right)$$
$$\text{cov}\left( y,y \right) = \frac{1}{n}\sum_{i = 1}^{n}\left( y_{i} - \overset{\overline{}}{y} \right)^{2} = S^{2}$$
Jeżeli cov „+”, to wraz ze wzrostem czegoś, rośnie coś innego
Jeżeli cov „-”, to wraz ze wzrostem czegoś, maleje coś innego
Współczynnik korelacji (r):
$$r = \frac{\text{cov}\left( x,y \right)}{S_{x}*S_{y}}$$
$$r = \frac{\sum_{}^{}{\left( x_{i} - \overset{\overline{}}{x} \right)\left( y_{i} - \overset{\overline{}}{y} \right)}}{\sqrt{\sum_{}^{}{\left( x_{i} - \overset{\overline{}}{x} \right)^{2}*\sum_{}^{}\left( y_{i} - \overset{\overline{}}{y} \right)^{2}}}}$$
Model regresyjny:
y = ax + b
y – zmiana zależna
x – zmiana niezależna
a,b – parametry modelu
$$\mathbf{a} = \frac{\text{cov}\left( x,y \right)}{S_{x}^{2}} = \frac{\sum_{}^{}{\left( x_{i} - \overset{\overline{}}{x} \right)\left( y_{i} - \overset{\overline{}}{y} \right)}}{\sum_{}^{}\left( x_{i} - \overset{\overline{}}{x} \right)^{2}} = r*\frac{S_{y}}{S_{x}}$$
$$\mathbf{b} = \overset{\overline{}}{y} - a\overset{\overline{}}{x}$$
Wariancja reszt (Se2):
$$S_{e}^{2} = \frac{1}{n}\sum_{i = 1}^{n}\left( y_{i} - \hat{y_{i}} \right)^{2}$$
Se – odchylenie standardowe reszt
^ - wartości teoretyczne, czyli wynikające z regresji
Współczynnik zbieżności (φ2)(fi):
$$\varphi^{2} = \frac{\sum_{}^{}\left( y_{i} - \hat{y_{i}} \right)^{2}}{\sum_{}^{}\left( y_{i} - \hat{y} \right)^{2}}$$
Współczynnik determinacji (R2):
R2 = 1 − φ2
Przyjmuje wartości <0;1>
Współczynnik korelacji rang Spearman’a (rs):
$$r = 1 - \frac{6\sum_{i = 1}^{n}d_{i}^{2}}{n\left( n^{2} - 1 \right)}$$
di – różnica między rangami danej obserwacji
di = yir − xir
€ <-1;1>
y | x | ∑ |
---|---|---|
x1 | x2 | |
y1 | a | b |
y2 | c | d |
∑i |
a+c | b+d |
Chi (χ2):
$$\chi^{2} = \frac{n\left( ad - bc \right)^{2}}{\left( a + c \right)\left( b + d \right)\left( a + b \right)(c + d)}$$
Współczynnik V-Cramera
$$V = \sqrt{\frac{\chi^{2}}{n*min(k - 1;s - 1)}}$$
k-1 – kolumna
s-1 – wiersz
(Niewiadoma)
$$\chi^{2} = \sum_{i = 1}^{k}{\sum_{j = 1}^{s}\frac{{(n_{\text{ij}} - {\hat{n}}_{\text{ij}})}^{2}}{{\hat{n}}_{\text{ij}}}}$$
nij – liczebność realna
^nij – liczebność teoretyczna
$${\hat{n}}_{\text{ij}} = \frac{n_{i}*n_{j}}{n}$$
ni• - wiersze
n•j – kolumny
Kowariancja (inna) (cov):
$$cov(x,y) = \frac{1}{n}\sum_{i = 1}^{k}{\sum_{j = 1}^{s}{\left( x_{i} - \overset{\overline{}}{x} \right)\left( y_{j} - \overset{\overline{}}{y} \right)n_{\text{ij}}}}$$
Macierze kowariancji i korelacji
$$C = \begin{bmatrix}
\text{yy} & \text{yx} & \text{yz} \\
\text{xy} & \text{xx} & \text{xz} \\
\text{zy} & \text{zx} & \text{zz} \\
\end{bmatrix}$$
$$R = \begin{bmatrix}
\text{yy} & \text{yx} & \text{yz} \\
\text{xy} & xx & \text{xz} \\
\text{zy} & \text{zx} & \text{zz} \\
\end{bmatrix}$$
Korelacja (inna)(r):
$$r_{\text{yx.z}} = \frac{r_{\text{yx}} - r_{\text{yz}}*r_{\text{xz}}}{\sqrt{\left( 1 - r_{\text{yz}}^{2} \right)\left( 1 - r_{\text{xz}}^{2} \right)}}$$
ryx.z , ryz.x , rxz.y
Współczynnik ĩ (tau) Kendal’a (rĩ):
$$r_{i} = \frac{2R}{\frac{1}{2}n(n - 1)} - 1$$
Dystrybuanta:
F(x) = P(X < x)
P(a≤X<b) = F(b) − F(a)
F(xp) ≤ p ≤ F(xp) + 0
F(xp) – patrzenie od -
F(xp)+0 – patrzenie od +
Rozkład Bernulliego:
X ∼ B(n, p)
n – liczba niezależnych doświadczeń
p – prawdopodobieństwo sukcesu
$$P\left( X = k \right) = \left( \frac{n}{k} \right)p^{k}{(1 - p)}^{n - k}$$
E(X) = n * p
D2(X) = n * p * q
q = 1-p
Rozkład Poissona:
X ∼ P(λ)
λ = n * p
E(X) = λ - wartość oczekiwana
D2(X)=λ
$$P\left( X = k \right) = \frac{\lambda^{k}}{k!}*e^{- \lambda}$$
e ≈ 2, 718
Funkcja gęstości rozkładu normalnego
$$f\left( x \right) = \frac{1}{\sigma\sqrt{2\pi}}\exp\left\lbrack - \frac{{(X - \mu)}^{2}}{2\sigma^{2}} \right\rbrack$$
-(inf) < X < +(inf)
Standaryzacja
$$U = \frac{X - \mu}{\sigma}$$
E(X) = U(albo μ)=Me = Mo
D2(X) = σ2
ϕ(−u) = 1 − ϕ(u)