STATYSTYKA (WYKŁAD 16

„ANALIZA KORELACJI I REGRESJI”

Regresja (model regresyjny) jeśli między dwoma cechami występuje związek, to w następnym etapie buduje się model.

Współczynnik korelacji liniowej Pearsona.

gdzie cov(x,y) to kowariancja - miara wspólzmienności:

przyjmująca wartości z przedziału [-s(x)s(y); +s(x)s(y)]

Współczynnik korelacji mówi o sile i kierunku związku między zmiennymi. Przyjmuje wartości z przedziału

Wartość współczynnika mówi o sile związku. Im jest bliższa zera tym słabszy związek im bliżej 1 lub -1 tym silniejszy. Wartość 1 oznacza idealny związek liniowy.

Znak współczynnika korelacji mówi o kierunku związku „+” oznacza związek dodatni, tj. wzrost (spadek) wartości jednej cechy powoduje wzrost (spadek) wartości drugiej. „ - ” kierunek ujemny, tj. wzrost (spadek) wartości cechy powoduje spadek (wzrost) wartości drugiej.

Przyjmuje się następujące oceny siły związku (pamiętając o odpowiedniej liczebności próby)

od 0,3 do 0,5 średnia

powyżej 0,5 wyraźna

Wykres rozrzutu (diagram korelacyjny)

0x08 graphic
dochody miesięczne

Linia (model) regresji

0x08 graphic
Y względem X (X Y)

-teoretyczna wartość y

gdzie metodą najmniejszych kwadratów (MNK) można wyznaczyć wartość parametrów „a” i „b”

Parametr „a” można także obliczyć korzystając ze wzoru:

Interpretacja parametrów prostej regresji.

a>0 jeśli „x” wzrośnie o 1 jednostkę, to „y” wzrośnie średnio o „a” jednostek.

A<0 jeśli „x” wzrośnie o 1 jednostkę, to „y” spadnie średnio o „a” jednostek.

Linia model regresji

0x08 graphic
X względem Y (y x)

gdzie wartość parametrów można wyznaczyć:

Parametr „c” można także obliczyć korzystająć ze wzoru:

(r a c ) - muszą mieć taki sam znak

Pomiędzy współczynnikami prostych regresji „a” i „c” zachodzi związek:

Im proste regresji leżą bliżej siebie, tym silniejszy związek korelacji.

Dokładność funkcji regresji.

Ocenia dopasowanie modelu do danych empirycznych. Jej pomiar opiera się na obliczaniu reszt tj. różnic:

-to wartość empiryczna cechy y

-to wartość teoretyczna obliczona na podstawie funkcji regresji

Reszta określa niedokładność szacunku i-tej wartości cechy.

Syntetycznym miernikiem jakości modelu jest tzw. Wariancja resztowa:

Która ocenia rozproszenie wartości empirycznych wokół teoretycznych.

S(n) to odchylenie standartowe reszt, które mówi o tym jakie jest przeciętne odchylenie wartości empirycznych od wartości teoretycznych. Im bliższe jest 0 tym lepsza funkcja (model) regresji

Dokładność lim regresji

Współczynnik zbierzności

przyjmuje wartości w przedziale [0,100%]. Ocenia w jakiej części zmiany cechy „y” nie są wyjaśnione zmianami cechy „x” Im bliżej 0 tym lepsza funkcja regresji (model)

Współczynnik determinacji:

Przyjmuje wartości z przedziału [0.100%] informuje o tym jaka część zmian cechy „y” jest wyjaśniona przez funkcję regresji (model). Im bliższa 100% tym lepszy model. Zachodzi zależność:

Praca pochodzi z serwisu www.e-sciagi.pl