Współczynnik korelacji liniowej Pearsona
1. Wzór:
C(X,Y) - kowariancja między cechami X i Y,
- wariancja cechy X,
- wariancja cechy Y,
- odchylenie standardowe cechy X,
- odchylenie standardowe cechy Y.
Powyższy wzór zawiera trzy warianty zapisu współczynnika korelacji Pearsona:
Pierwszy zapis wykorzystujemy w sytuacji, gdy mamy już policzoną kowariancję w zadaniu oraz dwie wariancje - cechy X i Y.
Drugi zapis dotyczy sytuacji, gdy nic nie jest policzone, a tylko są dane wartości w tabeli. Wówczas rozpisujemy tabelę na kolejne kolumny i szukamy sum, które potem podstawiamy do wzoru środkowego.
Trzeci wariant stosujemy wtedy, gdy mamy policzoną kowariancję oraz odchylenia standardowe cech X i Y.
Interpretacja współczynnika korelacji:
♦ jeżeli
- nie ma związku liniowego między cechami,
♦ jeżeli
- niska (słaba) zależność liniowa,
♦ jeżeli
- umiarkowana (średnia) zależność korelacyjna,
♦ jeżeli
- znacząca (silna) zależność liniowa,
♦ jeżeli
- bardzo silna zależność liniowa,
♦ jeżeli
- zależność funkcyjna (1 - funkcja liniowa rosnąca; -1 - funkcja liniowa malejąca),
♦ jeżeli
- brak jakiejkolwiek zależności między cechami.
REGRESJA LINIOWA
I linia regresji II linia regresji
gdzie: gdzie:
x- zmienna objaśniana (zależna), x- zmienna objaśniająca (niezależna),
y - zmienna objaśniająca (niezależna),
- parametr linii regresji (współczynnik kierunkowy prostej),
b - drugi parametr linii regresji.
y - zmienna objaśniana (zależna),
- parametr linii regresji,
b - drugi parametr linii regresji.
W pierwszej linii regresji mamy sytuację, w której zmienna y ma wpływ ma kształtowanie się zmiennej x. Interpretacja parametrów a i b jest następująca:
Parametr a - jeżeli zmienna y wzrośnie o jednostkę, to zmienna x wzrośnie lub spadnie o a.
Parametr b - nie interpretuje się tego parametru, gdyż nie ma on sensu ekonomicznego.
Druga linia regresji:
Parametr a - jeżeli zmienna x wzrośnie o jednostkę, to zmienna y wzrośnie lub spadnie o a.
Parametr b - nie interpretuje się tego parametru, gdyż nie ma on sensu ekonomicznego.
wyznaczymy dwie linie regresji, a konkretnie dwa współczynniki regresji
oraz
, wówczas możemy obliczyć współczynnik korelacji Pearsona, według wzoru:
współczynnik determinacji
Im bliżej 1, tym lepsze dopasowanie modelu do rzeczywistości.
X |
Y |
|
|
|
|
|
Model trendu liniowego:
y - zmienna objaśniana (zależna),
t - zmienna czasowa (objaśniająca, niezależna),
a, b - parametry linii trendu.
Model trendu liniowego jest szczególnym przypadkiem regresji liniowej, gdzie jedyną zmienną objaśniającą jest czas.
Interpretacja parametru a: jeżeli okres rośnie o jednostkę, to y rośnie lub maleje średnio o a.
Interpretacja parametru b: w okresie poprzedzającym pierwszy badany (t=0) wartość y wynosiła b.
|
Zużycie energii
|
|
|
|
ANALIZA DYNAMIKI - INDEKSY PROSTE
Indeksy dynamiki określa się następująco:
lub
gdzie :
- poziom zjawiska w pewnym okresie,
- poziom zjawiska w okresie odniesienia.
,
mówi o ile procent poziom zjawiska w okresie n-tym jest wyższy lub niższy niż w okresie 0-owym.
Indeksy jednopodstawowe informują, jakie zmiany nastąpiły w poziomie zjawiska w kolejnych okresach w stosunku do okresu przyjętego jako podstawa (bazowego).
Indeksy łańcuchowe (o podstawie zmiennej) informują, jakie zmiany nastąpiły w poziomie zjawiska w kolejnym okresie w stosunku do okresu go poprzedzającego.
Średniookresowe tempo zmian w czasie określa średniookresowy wzrost lub spadek badanego zjawiska, przypadający na analizowaną jednostkę czasu:
- średniookresowe tempo zmian w czasie,
- średniookresowy indeks łańcuchowy.
na podstawie wartości analizowanego zjawiska dla pierwszego i ostatniego okresu:
na podstawie indeksów łańcuchowych:
► korzystając z indeksów o podstawie stałej dla pierwszego i ostatniego okresu mamy:
ROZKŁADY ZMIENNYCH LOSOWYCH SKOKOWYCH
Dystrybuanta zmiennej losowej X jest to następująca funkcja:
F(x)=P(X<x)
Własności dystrybuanty:
(a)
(b) F(x) jest funkcją niemalejącą
(c)
oraz
Parametry zmiennej losowej skokowej:
1. Wartość oczekiwana (przeciętna):
wartości zmiennej losowej skokowej,
prawdopodobieństwa odpowiadające określonym wartościom zmiennej losowej.
Przy czym:
2. Wariancja:
3. Odchylenie standardowe:
Czyli odchylenie standardowe jest pierwiastkiem z wariancji.
Liczba usterek
|
Prawdopodobieństwa
|
|
|
|
|
Rozkład zero-jedynkowy:
Zmienna losowa X ma rozkład zero-jedynkowy, jeśli przyjmuje wartość 0 lub 1:
P(X=1)=p
P(X=0)=q
Gdzie: p+q=1
p- prawdopodobieństwo sukcesu,
q- prawdopodobieństwo porażki.
Dystrybuanta zmiennej losowej o rozkładzie zero-jedynkowym jest następująca:
Rozkład dwumianowy:
n - liczba prób (doświadczeń),
k - liczba sukcesów w n próbach,
p - prawdopodobieństwo sukcesu w pojedynczym doświadczeniu,
q - prawdopodobieństwo porażki w pojedynczym doświadczeniu,
przy czym: p+q=1
P(X=k) - prawdopodobieństwo, że zmienna losowa X osiągnie sukces k,
Są to kombinacje k-elementowe z n-elementów.
Definicja silni: n! = 1⋅2⋅3⋅...⋅n 0! = 1
Rozkład Poissona:
Rozkład ten jest szczególnym przypadkiem rozkładu dwumianowego, przy czym:
prawdopodobieństwo sukcesu musi być małe, tzn. p<0,02,
liczba doświadczeń musi być duża, tzn. n >20.
Aby znaleźć odpowiednie prawdopodobieństwo P(X=k) korzystamy z tablic rozkładu Poissona.
Określamy także wartość oczekiwaną
Schemat szukania prawdopodobieństw:
(a)
(b)
(c)
Pierwsza kolumna jest podzielona na dwie części:
k - oznacza liczbę sukcesów (od 0 do 15),
ROZKŁADY ZMIENNYCH LOSOWYCH CIĄGŁYCH
Rozkład normalny:
Np. waga, wzrost, wynagrodzenia, wiek.
Zmienna losowa X ma rozkład normalny z wartością oczekiwaną (średnią) równą m i odchyleniem standardowym równym σ :
W celu obliczenia prawdopodobieństwa P(a < X ≤ b) należy skorzystać z operacji nazywanej standaryzacją. Jeśli zmienna losowa X ma rozkład
to zmienna standaryzowana
ma rozkład N(0,1). Na tej podstawie można wyznaczyć:
TWIERDZENIA GRANICZNE
Twierdzenie Moivre'a - Laplace'a:
Niech
będzie ciągiem zmiennych losowych o rozkładzie dwumianowym. Wtedy:
oraz
n- liczba doświadczeń,
p - prawdopodobieństwo sukcesu,
q - prawdopodobieństwo porażki,
m - wartość oczekiwana (średnia),
V(X) - wariancja.
Jeżeli liczba doświadczeń będzie większa od 30, czyli n>30, wówczas rozkład dwumianowy można przybliżyć rozkładem normalnym, na mocy twierdzenia Moivre'a - Laplace'a:
np=m - wartość oczekiwana,
- odchylenie standardowe.
Twierdzenie Lindeberga - Levy'ego (centralne twierdzenie graniczne):
Wartość oczekiwana:
Wariancja:
Odchylenie standardowe:
Nowa zmienna losowa ma w przybliżeniu rozkład normalny o parametrach:
Twierdzenie to mówi, że jeśli n jest duże, to rozkład zmiennej losowej Zn można przybliżać rozkładem normalnym z wartością oczekiwaną
i odchyleniem standardowym
.
Wniosek z centralnego twierdzenia granicznego:
Mamy ciąg niezależnych zmiennych losowych o jednakowym rozkładzie:
Obliczamy nową zmienną losową równą średniej arytmetycznej tych zmiennych:
Wobec tego:
czyli: wartość oczekiwana wynosi m, a odchylenie standardowe wynosi
.
Nowa zmienna losowa równa średniej arytmetycznej wszystkich zmiennych ma w przybliżeniu rozkład normalny z wartością oczekiwaną m i odchyleniem standardowym
:
zwanym poziomem ufności lub współczynnikiem ufności, pokrywa nieznaną wartość szacowanego parametru.
to poziom istotności
Jeżeli mamy dużą próbę (n>30) oraz cecha X ma rozkład normalny X ~ N(m,
) , wówczas przedział ufności dla parametru m ma postać:
- średnia arytmetyczna,
- odchylenie standardowe, założenie (
)
n- liczebność próby,
m - wartość oczekiwana (przeciętna),
- wartość krytyczna odczytana z tablic rozkładu normalnego, gdzie:
|
|
|
|
|
|
|
Najpierw obliczamy średnią arytmetyczną dla szeregu rozdzielczego przedziałowego:
Następnie obliczamy wariancję S2:
Teraz obliczamy odchylenie standardowe, czyli pierwiastek z wariancji:
Następnie z tablic rozkładu normalnego odczytujemy wartość
, przy czym
Podstawiamy wszystko do wzoru:
Hipoteza zerowa H0 - hipoteza sprawdzana (testowana, weryfikowana).
Hipoteza alternatywna H1 - hipoteza, którą można przyjąć, gdy zostanie odrzucona hipoteza zerowa H0.
Jeżeli
jest znane i
lub
znane i n>30 lub
nieznane i n>30 (wtedy
), wtedy sprawdzianem hipotezy zerowej jest statystyka: o rozkładzie normalnym N(0,1)