Współczynnik korelacji liniowej Pearsona
1. Wzór:
C(X,Y) - kowariancja między cechami X i Y,

 - wariancja cechy X,

 - wariancja cechy Y,

 - odchylenie standardowe cechy X,

  - odchylenie standardowe cechy Y.
Powyższy wzór zawiera trzy warianty zapisu współczynnika korelacji Pearsona:
Pierwszy zapis wykorzystujemy w sytuacji, gdy mamy już policzoną kowariancję w zadaniu oraz dwie wariancje - cechy X i Y.
Drugi zapis dotyczy sytuacji, gdy nic nie jest policzone, a tylko są dane wartości w tabeli. Wówczas rozpisujemy tabelę na kolejne kolumny i szukamy sum, które potem podstawiamy do wzoru środkowego.
Trzeci wariant stosujemy wtedy, gdy mamy policzoną kowariancję oraz odchylenia standardowe cech X i Y.
Interpretacja współczynnika korelacji:
♦ jeżeli 
 - nie ma związku liniowego między cechami,
♦ jeżeli 
 - niska (słaba) zależność liniowa,
♦ jeżeli 
 - umiarkowana (średnia) zależność korelacyjna,
♦ jeżeli 
 - znacząca (silna) zależność liniowa,
♦ jeżeli 
 - bardzo silna zależność liniowa,
♦ jeżeli 
 - zależność funkcyjna (1 - funkcja liniowa rosnąca; -1 - funkcja liniowa malejąca),
♦ jeżeli 
 - brak jakiejkolwiek zależności między cechami.
REGRESJA LINIOWA
I linia regresji II linia regresji

                                                               
  

                              
                                 

                                                                      
   
gdzie: gdzie:
x- zmienna objaśniana (zależna), x- zmienna objaśniająca (niezależna),
y - zmienna objaśniająca (niezależna),

 - parametr linii regresji (współczynnik kierunkowy prostej),
b - drugi parametr linii regresji.
y - zmienna objaśniana (zależna),
                                                                                        
 - parametr linii regresji,
b - drugi parametr linii regresji.
W pierwszej linii regresji mamy sytuację, w której zmienna y ma wpływ ma kształtowanie się zmiennej x. Interpretacja parametrów a i b jest następująca:
Parametr a - jeżeli zmienna y wzrośnie o jednostkę, to zmienna x wzrośnie lub spadnie o a.
Parametr b - nie interpretuje się tego parametru, gdyż nie ma on sensu ekonomicznego.
Druga linia regresji:
Parametr a - jeżeli zmienna x wzrośnie o jednostkę, to zmienna y wzrośnie lub spadnie o a.
Parametr b - nie interpretuje się tego parametru, gdyż nie ma on sensu ekonomicznego.
	wyznaczymy dwie linie regresji, a konkretnie dwa współczynniki regresji 
 oraz 
, wówczas możemy obliczyć współczynnik korelacji Pearsona, według wzoru:

współczynnik determinacji
Im bliżej 1, tym lepsze dopasowanie modelu do rzeczywistości.
| X | Y | 
 | 
 | 
 | 
 | 
 | 
Model trendu liniowego:

y - zmienna objaśniana (zależna),
t - zmienna czasowa (objaśniająca, niezależna),
a, b - parametry linii trendu.
Model trendu liniowego jest szczególnym przypadkiem regresji liniowej, gdzie jedyną zmienną objaśniającą jest czas.

                        
        
Interpretacja parametru a: jeżeli okres rośnie o jednostkę, to y rośnie lub maleje średnio o a.
Interpretacja parametru b: w okresie poprzedzającym pierwszy badany (t=0) wartość y wynosiła b.
| 
 
 | Zużycie energii 
 | 
 | 
 | 
 | 
ANALIZA DYNAMIKI - INDEKSY PROSTE
Indeksy dynamiki określa się następująco:

  lub  
gdzie : 
 - poziom zjawiska w pewnym okresie,

 - poziom zjawiska w okresie odniesienia.

,
mówi o ile procent poziom zjawiska w okresie n-tym jest wyższy lub niższy niż w okresie 0-owym.
Indeksy jednopodstawowe informują, jakie zmiany nastąpiły w poziomie zjawiska w kolejnych okresach w stosunku do okresu przyjętego jako podstawa (bazowego).

Indeksy łańcuchowe (o podstawie zmiennej) informują, jakie zmiany nastąpiły w poziomie zjawiska w kolejnym okresie w stosunku do okresu go poprzedzającego.

Średniookresowe tempo zmian w czasie określa średniookresowy wzrost lub spadek badanego zjawiska, przypadający na analizowaną jednostkę czasu:


 - średniookresowe tempo zmian w czasie,

 - średniookresowy indeks łańcuchowy.
na podstawie wartości analizowanego zjawiska dla pierwszego i ostatniego okresu:

na podstawie indeksów łańcuchowych:

► korzystając z indeksów o podstawie stałej dla pierwszego i ostatniego okresu mamy:

ROZKŁADY ZMIENNYCH LOSOWYCH SKOKOWYCH
Dystrybuanta zmiennej losowej X jest to następująca funkcja:
F(x)=P(X<x)
Własności dystrybuanty:
(a)  
(b) F(x) jest funkcją niemalejącą
(c)  
  oraz    
Parametry zmiennej losowej skokowej:
1.  Wartość oczekiwana (przeciętna):

  wartości zmiennej losowej skokowej,

 prawdopodobieństwa odpowiadające określonym wartościom zmiennej losowej.
Przy czym:     
2.  Wariancja:
3.  Odchylenie standardowe:
Czyli odchylenie standardowe jest pierwiastkiem z wariancji.
| Liczba usterek 
 | Prawdopodobieństwa 
 | 
 | 
 | 
 | 
 | 
Rozkład zero-jedynkowy:
Zmienna losowa X ma rozkład zero-jedynkowy, jeśli przyjmuje wartość 0 lub 1:
P(X=1)=p
P(X=0)=q
Gdzie: p+q=1
p- prawdopodobieństwo sukcesu,
q- prawdopodobieństwo porażki.
Dystrybuanta zmiennej losowej o rozkładzie zero-jedynkowym jest następująca:

Rozkład dwumianowy:

n - liczba prób (doświadczeń),
k - liczba sukcesów w n próbach,
p - prawdopodobieństwo sukcesu w pojedynczym doświadczeniu,
q - prawdopodobieństwo porażki w pojedynczym doświadczeniu,
przy czym: p+q=1
P(X=k) - prawdopodobieństwo, że zmienna losowa X osiągnie sukces k,

Są to kombinacje k-elementowe z n-elementów.
Definicja silni: n! = 1⋅2⋅3⋅...⋅n 0! = 1
Rozkład Poissona:
Rozkład ten jest szczególnym przypadkiem rozkładu dwumianowego, przy czym:
prawdopodobieństwo sukcesu musi być małe, tzn. p<0,02,
liczba doświadczeń musi być duża, tzn. n >20.
Aby znaleźć odpowiednie prawdopodobieństwo P(X=k) korzystamy z tablic rozkładu Poissona.
Określamy także wartość oczekiwaną        
Schemat szukania prawdopodobieństw:
(a)                               
(b)                                         
(c)                                      
Pierwsza kolumna jest podzielona na dwie części:
k - oznacza liczbę sukcesów (od 0 do 15),
ROZKŁADY ZMIENNYCH LOSOWYCH CIĄGŁYCH
Rozkład normalny:
Np. waga, wzrost, wynagrodzenia, wiek.
Zmienna losowa X ma rozkład normalny z wartością oczekiwaną (średnią) równą m i odchyleniem standardowym równym σ :

W celu obliczenia prawdopodobieństwa P(a < X ≤ b) należy skorzystać z operacji nazywanej standaryzacją. Jeśli zmienna losowa X ma rozkład 
 to zmienna standaryzowana 
ma rozkład N(0,1). Na tej podstawie można wyznaczyć:

TWIERDZENIA GRANICZNE
Twierdzenie Moivre'a - Laplace'a:
Niech 
 będzie ciągiem zmiennych losowych o rozkładzie dwumianowym. Wtedy:

    oraz    
n- liczba doświadczeń,
p - prawdopodobieństwo sukcesu,
q - prawdopodobieństwo porażki,
m - wartość oczekiwana (średnia),
V(X) - wariancja.
Jeżeli liczba doświadczeń będzie większa od 30, czyli n>30, wówczas rozkład dwumianowy można przybliżyć rozkładem normalnym, na mocy twierdzenia Moivre'a - Laplace'a:

np=m - wartość oczekiwana,

- odchylenie standardowe.
Twierdzenie Lindeberga - Levy'ego (centralne twierdzenie graniczne):
Wartość oczekiwana: 
Wariancja: 
Odchylenie standardowe: 
Nowa zmienna losowa ma w przybliżeniu rozkład normalny o parametrach:

Twierdzenie to mówi, że jeśli n jest duże, to rozkład zmiennej losowej Zn można przybliżać rozkładem normalnym z wartością oczekiwaną 
 i odchyleniem standardowym 
.
Wniosek z centralnego twierdzenia granicznego:
Mamy ciąg niezależnych zmiennych losowych o jednakowym rozkładzie:

Obliczamy nową zmienną losową równą średniej arytmetycznej tych zmiennych:

Wobec tego:

czyli: wartość oczekiwana wynosi m, a odchylenie standardowe wynosi 
.
Nowa zmienna losowa równa średniej arytmetycznej wszystkich zmiennych ma w przybliżeniu rozkład normalny z wartością oczekiwaną m i odchyleniem standardowym 
 :


 zwanym poziomem ufności lub współczynnikiem ufności, pokrywa nieznaną wartość szacowanego parametru. 
 to poziom istotności
Jeżeli mamy dużą próbę (n>30) oraz cecha X ma rozkład normalny X ~ N(m, 
) , wówczas przedział ufności dla parametru m ma postać:


 - średnia arytmetyczna,

 - odchylenie standardowe,    założenie (
)
n- liczebność próby,
m - wartość oczekiwana (przeciętna),

- wartość krytyczna odczytana z tablic rozkładu normalnego, gdzie: 
| 
 | 
 | 
 | 
 | 
 | 
 | 
 | 
Najpierw obliczamy średnią arytmetyczną dla szeregu rozdzielczego przedziałowego:

Następnie obliczamy wariancję S2:

Teraz obliczamy odchylenie standardowe, czyli pierwiastek z wariancji:

Następnie z tablic rozkładu normalnego odczytujemy wartość 
, przy czym 
 
Podstawiamy wszystko do wzoru:

Hipoteza zerowa H0 - hipoteza sprawdzana (testowana, weryfikowana).
Hipoteza alternatywna H1 - hipoteza, którą można przyjąć, gdy zostanie odrzucona hipoteza zerowa H0.
Jeżeli 
jest znane i 
 lub 
znane i n>30 lub 
nieznane i n>30 (wtedy 
), wtedy sprawdzianem hipotezy zerowej jest statystyka: o rozkładzie normalnym N(0,1)
