„ANALIZA KORELACJI I REGRESJI”
Regresja (model regresyjny) jeśli między dwoma cechami występuje związek, to w następnym etapie buduje się model.
Współczynnik korelacji liniowej Pearsona.
gdzie cov(x,y) to kowariancja - miara wspólzmienności:
przyjmująca wartości z przedziału [-s(x)s(y); +s(x)s(y)]
Współczynnik korelacji mówi o sile i kierunku związku między zmiennymi. Przyjmuje wartości z przedziału
r [-1;1]
Wartość współczynnika mówi o sile związku. Im jest bliższa zera tym słabszy związek im bliżej 1 lub -1 tym silniejszy. Wartość 1 oznacza idealny związek liniowy.
Znak współczynnika korelacji mówi o kierunku związku „+” oznacza związek dodatni, tj. wzrost (spadek) wartości jednej cechy powoduje wzrost (spadek) wartości drugiej. „ - ” kierunek ujemny, tj. wzrost (spadek) wartości cechy powoduje spadek (wzrost) wartości drugiej.
Przyjmuje się następujące oceny siły związku (pamiętając o odpowiedniej liczebności próby)
do 0,3 słaba
od 0,3 do 0,5 średnia
powyżej 0,5 wyraźna
Wykres rozrzutu (diagram korelacyjny)
wydatki
na żywność
x x
x x x
x x
x
x
dochody miesięczne
Linia (model) regresji
Y względem X (X Y)
-teoretyczna wartość y
gdzie metodą najmniejszych kwadratów (MNK) można wyznaczyć wartość parametrów „a” i „b”
Parametr „a” można także obliczyć korzystając ze wzoru:
Interpretacja parametrów prostej regresji.
a>0 jeśli „x” wzrośnie o 1 jednostkę, to „y” wzrośnie średnio o „a” jednostek.
A<0 jeśli „x” wzrośnie o 1 jednostkę, to „y” spadnie średnio o „a” jednostek.
Linia model regresji
X względem Y (y x)
gdzie wartość parametrów można wyznaczyć:
Parametr „c” można także obliczyć korzystająć ze wzoru:
(r a c ) - muszą mieć taki sam znak
Pomiędzy współczynnikami prostych regresji „a” i „c” zachodzi związek:
Im proste regresji leżą bliżej siebie, tym silniejszy związek korelacji.
Nie ma związku
Dokładność funkcji regresji.
Ocenia dopasowanie modelu do danych empirycznych. Jej pomiar opiera się na obliczaniu reszt tj. różnic:
-to wartość empiryczna cechy y
-to wartość teoretyczna obliczona na podstawie funkcji regresji
Reszta określa niedokładność szacunku i-tej wartości cechy.
Syntetycznym miernikiem jakości modelu jest tzw. Wariancja resztowa:
Która ocenia rozproszenie wartości empirycznych wokół teoretycznych.
S(n) to odchylenie standartowe reszt, które mówi o tym jakie jest przeciętne odchylenie wartości empirycznych od wartości teoretycznych. Im bliższe jest 0 tym lepsza funkcja (model) regresji
Dokładność lim regresji
y=ax+b
x
x x
x x x
x x x
xx x
xx
Współczynnik zbierzności
przyjmuje wartości w przedziale [0,100%]. Ocenia w jakiej części zmiany cechy „y” nie są wyjaśnione zmianami cechy „x” Im bliżej 0 tym lepsza funkcja regresji (model)
Współczynnik determinacji:
Przyjmuje wartości z przedziału [0.100%] informuje o tym jaka część zmian cechy „y” jest wyjaśniona przez funkcję regresji (model). Im bliższa 100% tym lepszy model. Zachodzi zależność: