„ANALIZA KORELACJI I REGRESJI”
Regresja (model regresyjny) jeli midzy dwoma cechami wystpuje zwizek, to w nastpnym etapie buduje si model.
Wspóczynnik korelacji liniowej Pearsona.
gdzie cov(x,y) to kowariancja - miara wspólzmiennoci:
przyjmujca wartoci z przedziau [-s(x)s(y); +s(x)s(y)]
Wspóczynnik korelacji mówi o sile i kierunku zwizku midzy zmiennymi. Przyjmuje wartoci z przedziau
r [-1;1]
Warto wspóczynnika mówi o sile zwizku. Im jest blisza zera tym sabszy zwizek im bliej 1 lub -1 tym silniejszy. Warto 1 oznacza idealny zwizek liniowy.
Znak wspóczynnika korelacji mówi o kierunku zwizku „+” oznacza zwizek dodatni, tj. wzrost (spadek) wartoci jednej cechy powoduje wzrost (spadek) wartoci drugiej. „ - ” kierunek ujemny, tj. wzrost (spadek) wartoci cechy powoduje spadek (wzrost) wartoci drugiej.
Przyjmuje si nastpujce oceny siy zwizku (pamitajc o odpowiedniej liczebnoci próby)
do 0,3 saba
od 0,3 do 0,5 rednia
powyej 0,5 wyrana
Wykres rozrzutu (diagram korelacyjny)
wydatki
na ywno
x x
x x x
x x
x
x
dochody miesiczne
Linia (model) regresji
Y wzgldem X (X Y)
-teoretyczna warto y
gdzie metod najmniejszych kwadratów (MNK) mona wyznaczy warto parametrów „a” i „b”
Parametr „a” mona take obliczy korzystajc ze wzoru:
Interpretacja parametrów prostej regresji.
a>0 jeli „x” wzronie o 1 jednostk, to „y” wzronie rednio o „a” jednostek.
A<0 jeli „x” wzronie o 1 jednostk, to „y” spadnie rednio o „a” jednostek.
Linia model regresji
X wzgldem Y (y x)
gdzie warto parametrów mona wyznaczy:
Parametr „c” mona take obliczy korzystaj ze wzoru:
(r a c ) - musz mie taki sam znak
Pomidzy wspóczynnikami prostych regresji „a” i „c” zachodzi zwizek:
Im proste regresji le bliej siebie, tym silniejszy zwizek korelacji.
Nie ma zwizku
Dokadno funkcji regresji.
Ocenia dopasowanie modelu do danych empirycznych. Jej pomiar opiera si na obliczaniu reszt tj. rónic:
-to warto empiryczna cechy y
-to warto teoretyczna obliczona na podstawie funkcji regresji
Reszta okrela niedokadno szacunku i-tej wartoci cechy.
Syntetycznym miernikiem jakoci modelu jest tzw. Wariancja resztowa:
Która ocenia rozproszenie wartoci empirycznych wokó teoretycznych.
S(n) to odchylenie standartowe reszt, które mówi o tym jakie jest przecitne odchylenie wartoci empirycznych od wartoci teoretycznych. Im blisze jest 0 tym lepsza funkcja (model) regresji
Dokadno lim regresji
y=ax+b
x
x x
x x x
x x x
xx x
xx
Wspóczynnik zbierznoci
przyjmuje wartoci w przedziale [0,100%]. Ocenia w jakiej czci zmiany cechy „y” nie s wyjanione zmianami cechy „x” Im bliej 0 tym lepsza funkcja regresji (model)
Wspóczynnik determinacji:
Przyjmuje wartoci z przedziau [0.100%] informuje o tym jaka cz zmian cechy „y” jest wyjaniona przez funkcj regresji (model). Im blisza 100% tym lepszy model. Zachodzi zaleno: