statystyka, wzory, Współczynnik korelacji liniowej Pearsona

Współczynnik korelacji liniowej Pearsona

1. Wzór: 0x01 graphic

C(X,Y) - kowariancja między cechami X i Y,

- wariancja cechy X,

- wariancja cechy Y,

- odchylenie standardowe cechy X,

- odchylenie standardowe cechy Y.

Powyższy wzór zawiera trzy warianty zapisu współczynnika korelacji Pearsona:

Pierwszy zapis wykorzystujemy w sytuacji, gdy mamy już policzoną kowariancję w zadaniu oraz dwie wariancje - cechy X i Y.
Drugi zapis dotyczy sytuacji, gdy nic nie jest policzone, a tylko są dane wartości w tabeli. Wówczas rozpisujemy tabelę na kolejne kolumny i szukamy sum, które potem podstawiamy do wzoru środkowego.
Trzeci wariant stosujemy wtedy, gdy mamy policzoną kowariancję oraz odchylenia standardowe cech X i Y.

Interpretacja współczynnika korelacji:

♦ jeżeli
- nie ma związku liniowego między cechami,

♦ jeżeli
- niska (słaba) zależność liniowa,

♦ jeżeli
- umiarkowana (średnia) zależność korelacyjna,

♦ jeżeli
- znacząca (silna) zależność liniowa,

♦ jeżeli
- bardzo silna zależność liniowa,

♦ jeżeli
- zależność funkcyjna (1 - funkcja liniowa rosnąca; -1 - funkcja liniowa malejąca),

♦ jeżeli
- brak jakiejkolwiek zależności między cechami.

REGRESJA LINIOWA

I linia regresji II linia regresji

0x01 graphic

gdzie: gdzie:

x- zmienna objaśniana (zależna), x- zmienna objaśniająca (niezależna),

y - zmienna objaśniająca (niezależna),

- parametr linii regresji (współczynnik kierunkowy prostej),

b - drugi parametr linii regresji.

y - zmienna objaśniana (zależna),

- parametr linii regresji,

b - drugi parametr linii regresji.

W pierwszej linii regresji mamy sytuację, w której zmienna y ma wpływ ma kształtowanie się zmiennej x. Interpretacja parametrów a i b jest następująca:

Parametr a - jeżeli zmienna y wzrośnie o jednostkę, to zmienna x wzrośnie lub spadnie o a.

Parametr b - nie interpretuje się tego parametru, gdyż nie ma on sensu ekonomicznego.

Druga linia regresji:

Parametr a - jeżeli zmienna x wzrośnie o jednostkę, to zmienna y wzrośnie lub spadnie o a.

Parametr b - nie interpretuje się tego parametru, gdyż nie ma on sensu ekonomicznego.

wyznaczymy dwie linie regresji, a konkretnie dwa współczynniki regresji
oraz
, wówczas możemy obliczyć współczynnik korelacji Pearsona, według wzoru:

współczynnik determinacji

Im bliżej 1, tym lepsze dopasowanie modelu do rzeczywistości.

Model trendu liniowego:

y - zmienna objaśniana (zależna),

t - zmienna czasowa (objaśniająca, niezależna),

a, b - parametry linii trendu.

Model trendu liniowego jest szczególnym przypadkiem regresji liniowej, gdzie jedyną zmienną objaśniającą jest czas.

0x01 graphic

Interpretacja parametru a: jeżeli okres rośnie o jednostkę, to y rośnie lub maleje średnio o a.

Interpretacja parametru b: w okresie poprzedzającym pierwszy badany (t=0) wartość y wynosiła b.

Zużycie energii

ANALIZA DYNAMIKI - INDEKSY PROSTE

Indeksy dynamiki określa się następująco:

lub

gdzie :
- poziom zjawiska w pewnym okresie,

- poziom zjawiska w okresie odniesienia.

mówi o ile procent poziom zjawiska w okresie n-tym jest wyższy lub niższy niż w okresie 0-owym.

Indeksy jednopodstawowe informują, jakie zmiany nastąpiły w poziomie zjawiska w kolejnych okresach w stosunku do okresu przyjętego jako podstawa (bazowego).

Indeksy łańcuchowe (o podstawie zmiennej) informują, jakie zmiany nastąpiły w poziomie zjawiska w kolejnym okresie w stosunku do okresu go poprzedzającego.

Średniookresowe tempo zmian w czasie określa średniookresowy wzrost lub spadek badanego zjawiska, przypadający na analizowaną jednostkę czasu:

- średniookresowe tempo zmian w czasie,

- średniookresowy indeks łańcuchowy.

na podstawie wartości analizowanego zjawiska dla pierwszego i ostatniego okresu:

0x01 graphic

na podstawie indeksów łańcuchowych:

► korzystając z indeksów o podstawie stałej dla pierwszego i ostatniego okresu mamy:

0x01 graphic

ROZKŁADY ZMIENNYCH LOSOWYCH SKOKOWYCH

Dystrybuanta zmiennej losowej X jest to następująca funkcja:

F(x)=P(X<x)

Własności dystrybuanty:

(a)

(b) F(x) jest funkcją niemalejącą

Parametry zmiennej losowej skokowej:

1. Wartość oczekiwana (przeciętna):

wartości zmiennej losowej skokowej,

prawdopodobieństwa odpowiadające określonym wartościom zmiennej losowej.

Przy czym:

2. Wariancja:

3. Odchylenie standardowe:

Czyli odchylenie standardowe jest pierwiastkiem z wariancji.

Liczba usterek

Prawdopodobieństwa

Rozkład zero-jedynkowy:

Zmienna losowa X ma rozkład zero-jedynkowy, jeśli przyjmuje wartość 0 lub 1:

P(X=1)=p

P(X=0)=q

Gdzie: p+q=1

p- prawdopodobieństwo sukcesu,

q- prawdopodobieństwo porażki.

Dystrybuanta zmiennej losowej o rozkładzie zero-jedynkowym jest następująca:

0x01 graphic

Rozkład dwumianowy:

0x01 graphic

n - liczba prób (doświadczeń),

k - liczba sukcesów w n próbach,

p - prawdopodobieństwo sukcesu w pojedynczym doświadczeniu,

q - prawdopodobieństwo porażki w pojedynczym doświadczeniu,

przy czym: p+q=1

P(X=k) - prawdopodobieństwo, że zmienna losowa X osiągnie sukces k,

0x01 graphic

Są to kombinacje k-elementowe z n-elementów.

Definicja silni: n! = 1⋅2⋅3⋅...⋅n 0! = 1

Rozkład Poissona:

Rozkład ten jest szczególnym przypadkiem rozkładu dwumianowego, przy czym:

prawdopodobieństwo sukcesu musi być małe, tzn. p<0,02,
liczba doświadczeń musi być duża, tzn. n >20.

Aby znaleźć odpowiednie prawdopodobieństwo P(X=k) korzystamy z tablic rozkładu Poissona.

Określamy także wartość oczekiwaną

Schemat szukania prawdopodobieństw:

(a)

(b)

(c)

Pierwsza kolumna jest podzielona na dwie części:

k - oznacza liczbę sukcesów (od 0 do 15),

ROZKŁADY ZMIENNYCH LOSOWYCH CIĄGŁYCH

Rozkład normalny:

Np. waga, wzrost, wynagrodzenia, wiek.

Zmienna losowa X ma rozkład normalny z wartością oczekiwaną (średnią) równą m i odchyleniem standardowym równym σ :

W celu obliczenia prawdopodobieństwa P(a < X ≤ b) należy skorzystać z operacji nazywanej standaryzacją. Jeśli zmienna losowa X ma rozkład
to zmienna standaryzowana
ma rozkład N(0,1). Na tej podstawie można wyznaczyć:

TWIERDZENIA GRANICZNE

Twierdzenie Moivre'a - Laplace'a:

Niech
będzie ciągiem zmiennych losowych o rozkładzie dwumianowym. Wtedy:

oraz

n- liczba doświadczeń,

p - prawdopodobieństwo sukcesu,

q - prawdopodobieństwo porażki,

m - wartość oczekiwana (średnia),

V(X) - wariancja.

Jeżeli liczba doświadczeń będzie większa od 30, czyli n>30, wówczas rozkład dwumianowy można przybliżyć rozkładem normalnym, na mocy twierdzenia Moivre'a - Laplace'a:

np=m - wartość oczekiwana,

- odchylenie standardowe.

Twierdzenie Lindeberga - Levy'ego (centralne twierdzenie graniczne):

Wartość oczekiwana:

Wariancja:

Odchylenie standardowe:

Nowa zmienna losowa ma w przybliżeniu rozkład normalny o parametrach:

Twierdzenie to mówi, że jeśli n jest duże, to rozkład zmiennej losowej Z_n można przybliżać rozkładem normalnym z wartością oczekiwaną
i odchyleniem standardowym
.

Wniosek z centralnego twierdzenia granicznego:

Mamy ciąg niezależnych zmiennych losowych o jednakowym rozkładzie:

Obliczamy nową zmienną losową równą średniej arytmetycznej tych zmiennych:

Wobec tego:

0x01 graphic

czyli: wartość oczekiwana wynosi m, a odchylenie standardowe wynosi
.

Nowa zmienna losowa równa średniej arytmetycznej wszystkich zmiennych ma w przybliżeniu rozkład normalny z wartością oczekiwaną m i odchyleniem standardowym
:

0x01 graphic

zwanym poziomem ufności lub współczynnikiem ufności, pokrywa nieznaną wartość szacowanego parametru.
to poziom istotności

Jeżeli mamy dużą próbę (n>30) oraz cecha X ma rozkład normalny X ~ N(m,
) , wówczas przedział ufności dla parametru m ma postać:

- średnia arytmetyczna,

- odchylenie standardowe, założenie (
)

n- liczebność próby,

m - wartość oczekiwana (przeciętna),

- wartość krytyczna odczytana z tablic rozkładu normalnego, gdzie:

Najpierw obliczamy średnią arytmetyczną dla szeregu rozdzielczego przedziałowego:

Następnie obliczamy wariancję S²:

0x01 graphic

Teraz obliczamy odchylenie standardowe, czyli pierwiastek z wariancji:

0x01 graphic

Następnie z tablic rozkładu normalnego odczytujemy wartość
, przy czym

Podstawiamy wszystko do wzoru:

0x01 graphic

Hipoteza zerowa H₀ - hipoteza sprawdzana (testowana, weryfikowana).

Hipoteza alternatywna H₁ - hipoteza, którą można przyjąć, gdy zostanie odrzucona hipoteza zerowa H₀.

Jeżeli
jest znane i
lub
znane i n>30 lub
nieznane i n>30 (wtedy
), wtedy sprawdzianem hipotezy zerowej jest statystyka: o rozkładzie normalnym N(0,1)

Wyszukiwarka