Metody analizy korelacji i regresji
Wykonała Aleksandra Rybakowska (206800)
Mechanika i Budowa Maszyn
Rok I, sem. II
Pojęcie korelacji
Korelacja (współzależność cech) określa wzajemne powiązania pomiędzy wybranymi zmiennymi.
Charakteryzując korelację dwóch cech podajemy dwa czynniki: kierunek oraz siłę.
Rodzaje korelacji
Ze względu na sposób analizy oraz charakter analizowanych zmiennych wyróżniamy:
korelację prostą – badającą związek zachodzący pomiędzy dwoma cechami lub zjawiskami
korelację cząstkową – informującą o związku dwóch cech z wyłączeniem trzeciej zmiennej
korelację wieloraką – informującą o związku jednej cechy z kilkoma ujętymi łącznie.
Interpretacja wyników korelacji
Wyrazem liczbowym korelacji jest współczynnik korelacji (r lub R), zawierający się w przedziale [-1; 1].
korelacja dodatnia (wartość współczynnika korelacji od 0 do 1) – informuje, że wzrostowi wartości jednej cechy towarzyszy wzrost średnich wartości drugiej cechy,
korelacja ujemna (wartość współczynnika korelacji od -1 do 0) - informuje, że wzrostowi wartości jednej cechy towarzyszy spadek średnich wartości drugiej cechy.
Korelacja mieszana (wartość współczynnika korelacji wynosi 0) informuje, że nie ma zależności pomiędzy jedną cechą a drugą.
Siła związków korelacyjnych
poniżej 0,2 - korelacja słaba (praktycznie brak związku)
0,2 – 0,4 - korelacja niska (zależność wyraźna)
0,4 – 0,6 - korelacja umiarkowana (zależność istotna)
0,6 – 0,8 - korelacja wysoka (zależność znaczna)
0,8 – 0,9 - korelacja bardzo wysoka (zależność bardzo duża)
0,9 – 1,0 - zależność praktycznie pełna
NAJWAŻNIEJSZA JEST ISTOTNOŚĆ KORELACJI
Współczynnik korelacji Pearsona
Dla zmiennych ilościowych, mierzony przy pomocy skali przedziałowej lub ilorazowej do określenia współzależności najczęściej wykorzystuje się współczynnik korelacji liniowej Pearsona (zakładają, że zależność ma charakter liniowy). Aby obliczyć współczynnik korelacji liniowej, zwykle wcześniej musimy wyznaczyć tzw. Kowariancję.
Kowariancja – miara współzależności, wyznacza jako średnia arytmetyczna iloczynu odchyleń wartości zmiennych X i Y od średnich arytmetycznych. Kowariancję oznaczamy symbolem cov(x,y).
cov(x,y)= cov(y,x)= $\frac{1}{n}\sum_{i = 1}^{n}{(x_{i} - \overset{\overline{}}{x})(y_{i} - \overset{\overline{}}{y})}$,
gdzie:
cov(x,y) -kowariancja dla zmiennych X I Y
n - liczba obserwacji
xi, yi -wartość i-tej obserwacji dla zmiennych X i Y
$\overset{\overline{}}{x},\overset{\overline{}}{y}$ - średnia arytmetyczna dla wartości zmiennych X i Y
Współczynnik korelacji liniowej Pearsona – związkiem prostoliniowym nazywamy taka zależność, w której jednostkowym przyrostem jednej zmiennej towarzyszy średnio stały przyrost drugiej zmiennej.
Współczynnik korelacji liniowej Pearsona liczymy przez standaryzację kowariancji, w sposób następujący
Wskaźnik determinacji liniowej
Na podstawie wyliczonego współczynnika korelacji obliczyć można tzw. Wskaźnik determinacji liniowej, informujący o procencie wyjaśnionej liniowo zmienności zmiennej zależnej przez zmienną niezależną. Wskaźnik ten oblicza się na podstawie wzoru:
WD = rxy2 100%
Pojęcie regresji liniowej
Regresja liniowa –daje możliwość oszacowania (estymacji) wartości jednej cechy (zmiennej zależnej, objaśnianej) na podstawie wartości przyjmowanych przez drugą cechę (zmienną niezależną, objaśniającą)
Funkcja regresji
(…) której parametry można oszacować przy pomocy metody najmniejszych kwadratów (MNK). Równanie opisujące związek statystyczny między zmiennymi nazywa się równaniem lub modelem regresji.
Mamy do czynienia tylko z jedną zmienną niezależną X.
Zależność pomiędzy zmienną niezależną X a zmienną zależną Y ma charakter liniowy.
Naszym zadaniem jest wyznaczenie liniowej funkcji regresji, o ogólnej postaci: y = a + bx
Gdzie:
y - wartość przewidywana na podstawie wartości x
a - parametr a jest nazywany wyrazem wolnym i odpowiada wartości funkcji y dla argumentu x = 0
b - współczynnik kierunkowy, który decyduje o tym, czy funkcja jest rosnąca, czy malejąca oraz jak szybko następują zmiany (jeśli b jest dodatnie, to funkcja jest rosnąca – to znaczy, im większe wartości zmiennej x, tym większe wartości funkcji, czyli y)
Do wyznaczenia parametrów tej funkcji (a i b) wykorzystuje się metodę najmniejszych kwadratów.
Współczynnik regresji liniowej szacuję się za pomocą najmniejszych kwadratów w ten sposób, aby suma kwadratów odchyleń wartości teoretycznych i zaobserwowanych jest najmniejsza. Parametry a i b dla liniowej funkcji regresji możemy obliczyć korzystając z następujących wzorów:
Przykład
Dla sześciu studentów zmierzono czas pisania egzaminu oraz uzyskaną liczbę punktów. Obliczenia rozpoczynamy od ustalenia średnich dla zmiennej X (czas pisania) oraz Y (liczba punktów):
Następnie uzyskany wynik dzielimy przez liczbę obserwacji uzyskując wartość kowariancji
Cov(x,y)= -244,83/6 = -40,81
Wartość kowariancji wskazuje na ujemną zależność korelacyjną pomiędzy czasem pisania egzaminu a liczbą otrzymanych punktów.
Następnie wyznaczamy odchylenie standardowe dla zmiennych X i Y
S(x)= 5,73
S(y)=7,78
Współczynnik korelacji liniowej Pearsona obliczamy dzieląc kowariancję przez iloczyn odchyleń standardowych:
rxy= -10,81/(5,37 * 7,78)= -0,9778
Wartość współczynnika korelacji liniowej Pearsona wskazuje na bardzo wyraźną ujemną zależność korelacyjną pomiędzy czasem pisania egzaminu a liczbą otrzymanych punktów