statystyka, wzory, Współczynnik korelacji liniowej Pearsona


Współczynnik korelacji liniowej Pearsona

1. Wzór:0x01 graphic

C(X,Y) - kowariancja między cechami X i Y,

0x01 graphic
- wariancja cechy X,

0x01 graphic
- wariancja cechy Y,

0x01 graphic
- odchylenie standardowe cechy X,

0x01 graphic
- odchylenie standardowe cechy Y.

Powyższy wzór zawiera trzy warianty zapisu współczynnika korelacji Pearsona:

  1. Pierwszy zapis wykorzystujemy w sytuacji, gdy mamy już policzoną kowariancję w zadaniu oraz dwie wariancje - cechy X i Y.

  2. Drugi zapis dotyczy sytuacji, gdy nic nie jest policzone, a tylko są dane wartości w tabeli. Wówczas rozpisujemy tabelę na kolejne kolumny i szukamy sum, które potem podstawiamy do wzoru środkowego.

  3. Trzeci wariant stosujemy wtedy, gdy mamy policzoną kowariancję oraz odchylenia standardowe cech X i Y.

Interpretacja współczynnika korelacji:

♦ jeżeli 0x01 graphic
- nie ma związku liniowego między cechami,

♦ jeżeli 0x01 graphic
- niska (słaba) zależność liniowa,

♦ jeżeli 0x01 graphic
- umiarkowana (średnia) zależność korelacyjna,

♦ jeżeli 0x01 graphic
- znacząca (silna) zależność liniowa,

♦ jeżeli 0x01 graphic
- bardzo silna zależność liniowa,

♦ jeżeli 0x01 graphic
- zależność funkcyjna (1 - funkcja liniowa rosnąca; -1 - funkcja liniowa malejąca),

♦ jeżeli 0x01 graphic
- brak jakiejkolwiek zależności między cechami.

REGRESJA LINIOWA

I linia regresji II linia regresji

0x01 graphic
0x01 graphic

0x01 graphic
0x01 graphic

0x01 graphic
0x01 graphic

gdzie: gdzie:

x- zmienna objaśniana (zależna), x- zmienna objaśniająca (niezależna),

y - zmienna objaśniająca (niezależna),

0x01 graphic
- parametr linii regresji (współczynnik kierunkowy prostej),

b - drugi parametr linii regresji.

y - zmienna objaśniana (zależna),

0x01 graphic
- parametr linii regresji,

b - drugi parametr linii regresji.

W pierwszej linii regresji mamy sytuację, w której zmienna y ma wpływ ma kształtowanie się zmiennej x. Interpretacja parametrów a i b jest następująca:

Parametr a - jeżeli zmienna y wzrośnie o jednostkę, to zmienna x wzrośnie lub spadnie o a.

Parametr b - nie interpretuje się tego parametru, gdyż nie ma on sensu ekonomicznego.

Druga linia regresji:

Parametr a - jeżeli zmienna x wzrośnie o jednostkę, to zmienna y wzrośnie lub spadnie o a.

Parametr b - nie interpretuje się tego parametru, gdyż nie ma on sensu ekonomicznego.

wyznaczymy dwie linie regresji, a konkretnie dwa współczynniki regresji 0x01 graphic
oraz 0x01 graphic
, wówczas możemy obliczyć współczynnik korelacji Pearsona, według wzoru:

0x01 graphic

współczynnik determinacji0x01 graphic

Im bliżej 1, tym lepsze dopasowanie modelu do rzeczywistości.

X

Y

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

Model trendu liniowego:

0x01 graphic

y - zmienna objaśniana (zależna),

t - zmienna czasowa (objaśniająca, niezależna),

a, b - parametry linii trendu.

Model trendu liniowego jest szczególnym przypadkiem regresji liniowej, gdzie jedyną zmienną objaśniającą jest czas.

0x01 graphic
0x01 graphic

Interpretacja parametru a: jeżeli okres rośnie o jednostkę, to y rośnie lub maleje średnio o a.

Interpretacja parametru b: w okresie poprzedzającym pierwszy badany (t=0) wartość y wynosiła b.

0x01 graphic

 

Zużycie energii

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

ANALIZA DYNAMIKI - INDEKSY PROSTE

Indeksy dynamiki określa się następująco:

0x01 graphic
lub 0x01 graphic

gdzie : 0x01 graphic
- poziom zjawiska w pewnym okresie,

0x01 graphic
- poziom zjawiska w okresie odniesienia.

0x01 graphic
,

mówi o ile procent poziom zjawiska w okresie n-tym jest wyższy lub niższy niż w okresie 0-owym.

Indeksy jednopodstawowe informują, jakie zmiany nastąpiły w poziomie zjawiska w kolejnych okresach w stosunku do okresu przyjętego jako podstawa (bazowego).

0x01 graphic

Indeksy łańcuchowe (o podstawie zmiennej) informują, jakie zmiany nastąpiły w poziomie zjawiska w kolejnym okresie w stosunku do okresu go poprzedzającego.

0x01 graphic

Średniookresowe tempo zmian w czasie określa średniookresowy wzrost lub spadek badanego zjawiska, przypadający na analizowaną jednostkę czasu:

0x01 graphic

0x01 graphic
- średniookresowe tempo zmian w czasie,

0x01 graphic
- średniookresowy indeks łańcuchowy.

na podstawie wartości analizowanego zjawiska dla pierwszego i ostatniego okresu:

0x01 graphic

na podstawie indeksów łańcuchowych:

0x01 graphic

► korzystając z indeksów o podstawie stałej dla pierwszego i ostatniego okresu mamy:

0x01 graphic

ROZKŁADY ZMIENNYCH LOSOWYCH SKOKOWYCH

Dystrybuanta zmiennej losowej X jest to następująca funkcja:

F(x)=P(X<x)

Własności dystrybuanty:

(a) 0x01 graphic

(b) F(x) jest funkcją niemalejącą

(c) 0x01 graphic
oraz 0x01 graphic

Parametry zmiennej losowej skokowej:

1. Wartość oczekiwana (przeciętna):0x01 graphic

0x01 graphic
wartości zmiennej losowej skokowej,

0x01 graphic
prawdopodobieństwa odpowiadające określonym wartościom zmiennej losowej.

Przy czym: 0x01 graphic

2. Wariancja:0x01 graphic

3. Odchylenie standardowe:0x01 graphic

Czyli odchylenie standardowe jest pierwiastkiem z wariancji.

Liczba usterek

0x01 graphic

Prawdopodobieństwa

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

Rozkład zero-jedynkowy:

Zmienna losowa X ma rozkład zero-jedynkowy, jeśli przyjmuje wartość 0 lub 1:

P(X=1)=p

P(X=0)=q

Gdzie: p+q=1

p- prawdopodobieństwo sukcesu,

q- prawdopodobieństwo porażki.

Dystrybuanta zmiennej losowej o rozkładzie zero-jedynkowym jest następująca:

0x01 graphic

Rozkład dwumianowy:

0x01 graphic

n - liczba prób (doświadczeń),

k - liczba sukcesów w n próbach,

p - prawdopodobieństwo sukcesu w pojedynczym doświadczeniu,

q - prawdopodobieństwo porażki w pojedynczym doświadczeniu,

przy czym: p+q=1

P(X=k) - prawdopodobieństwo, że zmienna losowa X osiągnie sukces k,

0x01 graphic

Są to kombinacje k-elementowe z n-elementów.

Definicja silni: n! = 123...n 0! = 1

Rozkład Poissona:

Rozkład ten jest szczególnym przypadkiem rozkładu dwumianowego, przy czym:

Aby znaleźć odpowiednie prawdopodobieństwo P(X=k) korzystamy z tablic rozkładu Poissona.

Określamy także wartość oczekiwaną 0x01 graphic

Schemat szukania prawdopodobieństw:

(a) 0x01 graphic

(b) 0x01 graphic

(c) 0x01 graphic

Pierwsza kolumna jest podzielona na dwie części:

k - oznacza liczbę sukcesów (od 0 do 15),

ROZKŁADY ZMIENNYCH LOSOWYCH CIĄGŁYCH

Rozkład normalny:

Np. waga, wzrost, wynagrodzenia, wiek.

Zmienna losowa X ma rozkład normalny z wartością oczekiwaną (średnią) równą m i odchyleniem standardowym równym σ :

0x01 graphic

W celu obliczenia prawdopodobieństwa P(a < X ≤ b) należy skorzystać z operacji nazywanej standaryzacją. Jeśli zmienna losowa X ma rozkład 0x01 graphic
to zmienna standaryzowana 0x01 graphic
ma rozkład N(0,1). Na tej podstawie można wyznaczyć:

0x01 graphic

TWIERDZENIA GRANICZNE

Twierdzenie Moivre'a - Laplace'a:

Niech 0x01 graphic
będzie ciągiem zmiennych losowych o rozkładzie dwumianowym. Wtedy:

0x01 graphic
oraz 0x01 graphic

n- liczba doświadczeń,

p - prawdopodobieństwo sukcesu,

q - prawdopodobieństwo porażki,

m - wartość oczekiwana (średnia),

V(X) - wariancja.

Jeżeli liczba doświadczeń będzie większa od 30, czyli n>30, wówczas rozkład dwumianowy można przybliżyć rozkładem normalnym, na mocy twierdzenia Moivre'a - Laplace'a:

0x01 graphic

np=m - wartość oczekiwana,

0x01 graphic
- odchylenie standardowe.

Twierdzenie Lindeberga - Levy'ego (centralne twierdzenie graniczne):

Wartość oczekiwana: 0x01 graphic

Wariancja: 0x01 graphic

Odchylenie standardowe: 0x01 graphic

Nowa zmienna losowa ma w przybliżeniu rozkład normalny o parametrach:

0x01 graphic

Twierdzenie to mówi, że jeśli n jest duże, to rozkład zmiennej losowej Zn można przybliżać rozkładem normalnym z wartością oczekiwaną 0x01 graphic
i odchyleniem standardowym 0x01 graphic
.

Wniosek z centralnego twierdzenia granicznego:

Mamy ciąg niezależnych zmiennych losowych o jednakowym rozkładzie:

0x01 graphic

Obliczamy nową zmienną losową równą średniej arytmetycznej tych zmiennych:

0x01 graphic

Wobec tego:

0x01 graphic

czyli: wartość oczekiwana wynosi m, a odchylenie standardowe wynosi 0x01 graphic
.

Nowa zmienna losowa równa średniej arytmetycznej wszystkich zmiennych ma w przybliżeniu rozkład normalny z wartością oczekiwaną m i odchyleniem standardowym 0x01 graphic
:

0x01 graphic

0x01 graphic
zwanym poziomem ufności lub współczynnikiem ufności, pokrywa nieznaną wartość szacowanego parametru. 0x01 graphic
to poziom istotności

Jeżeli mamy dużą próbę (n>30) oraz cecha X ma rozkład normalny X ~ N(m, 0x01 graphic
) , wówczas przedział ufności dla parametru m ma postać:

0x01 graphic

0x01 graphic
- średnia arytmetyczna,

0x01 graphic
- odchylenie standardowe, założenie (0x01 graphic
)

n- liczebność próby,

m - wartość oczekiwana (przeciętna),

0x01 graphic
- wartość krytyczna odczytana z tablic rozkładu normalnego, gdzie: 0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

Najpierw obliczamy średnią arytmetyczną dla szeregu rozdzielczego przedziałowego:

0x01 graphic

Następnie obliczamy wariancję S2:

0x01 graphic

Teraz obliczamy odchylenie standardowe, czyli pierwiastek z wariancji:

0x01 graphic

Następnie z tablic rozkładu normalnego odczytujemy wartość 0x01 graphic
, przy czym 0x01 graphic

Podstawiamy wszystko do wzoru:

0x01 graphic

Hipoteza zerowa H0 - hipoteza sprawdzana (testowana, weryfikowana).

Hipoteza alternatywna H1 - hipoteza, którą można przyjąć, gdy zostanie odrzucona hipoteza zerowa H0.

Jeżeli 0x01 graphic
jest znane i 0x01 graphic
lub 0x01 graphic
znane i n>30 lub 0x01 graphic
nieznane i n>30 (wtedy 0x01 graphic
), wtedy sprawdzianem hipotezy zerowej jest statystyka: o rozkładzie normalnym N(0,1)

0x01 graphic



Wyszukiwarka