5 Analiza korelacji i regresji (30 03)

Analiza korelacji i regresji

Badanie populacji: jednostki charakteryzujemy zazwyczaj za pomocą więcej niż jednej cechy i bardzo często interesują nas powiązania, jakie zachodzą pomiędzy analizowanymi zmiennymi.

Korelacja- zajmuje się siłą i kierunkiem zależności

Regresja- zajmuje się kształtem zależności

Jeżeli ustalimy, że między zmiennymi istnieje jakaś korelacja (niezbyt słaba) szukamy funkcji regresji, która opisuje tę zależność!

Współzależność między zmiennymi może być:

  1. Funkcyjna

    • Zmiana wartości zmiennej X powoduje ściśle określoną zmianę wartości zmiennej Y

    • Określonej wartości zmiennej X odpowiada jedna (!) i tylko jedna wartość Y

X- zmienna niezależna (objaśniająca)

Y- zmienna zależna (objaśniana)

  1. Stochastyczna (probabilistyczna)

    • Wraz ze zmianą wartości jednej zmiennej zmienia się rozkład prawdopodobieństwa drugiej zmiennej

    • Szczególnym przypadkiem takiej zależności jest zależność korelacyjna (statystyczna):

Wartości xi odpowiada ściśle określona średnia rozkładu Yi

Można więc ustalić, jak „średnio” zmieni się wartość zmiennej zależnej Y w zależności od wartości zmiennej niezależnej X.

Związki statystyczne są możliwe do wykrycia i ilościowego opisu, tylko gdy ilość obserwacji jest dostatecznie duża

Istotny związek między dwoma zmiennymi może być wyrazem działania co najmniej czterech mechanizmów:

  1. X i Y są zmiennymi, których zmienność kształtuje czynnik A. Przykładem jest nasłonecznienie oddziaływujące na temperaturę wody i temperaturę powietrza.

  2. Z powoduje zmianę Y, ale również Y powoduje zmianę X; mamy więc dwustronne powiązanie. Na przykład temperatura wpływa na występowanie pokrywy śnieżnej, a pokrywa śnieżna wpływa na temperaturę.

  3. X i Y są powiązane za pośrednictwem jednej lub więcej zmiennych Ai i tworzą łańcuch przyczynowy. Na przykład promieniowanie UV (X) wpływa na ozon( A1), ozon na cyrkulację (A2), a cyrkulacja na temperaturę (Y)

  4. Występuje 1-kierunkowa zależność przyczynowa, taka jak zakładana w analizie regresji. Na przykład zmniejszenie porowatości wraz z głębokością.

Związki pomiędzy zmiennymi mogą przyjmować postać:

Badania zawsze rozpoczynamy od sporządzania wykresu rozrzutu wartości zmiennych X i Y i określamy „na oko” czy związek może być liniowy.

Przeciętna iloczynów odchyleń dwóch zbiorów danych od ich średnich to kowariancja

Cov (X,Y) = 1/n ∑ (xi- x.śr.)(yi-y.śr.)

Wady – ograniczenia:

  1. Wartość kowariancji zależy od rozmiarów zmienności zmiennej

  2. W konsekwencji trudno jest oszacować „ważność kowariancji”

Jeżeli zmienność X i Y jest mała to również maksymalna możliwa COV jest niewielka, jeżeli zmienność X i Y jest duża, to największa możliwa kowariancja jest również duża

Dlatego celem jest oszacowanie wielkości COV względem poziomu zmienności X i Y standaryzacja kowariancji.

Współczynnik korelacji liniowej Pearsona (współczynnik korelacji wg momentu iloczynowego)

R= cov(X,Y)/σXσY

r- współczynnik korelacji dla próby

p- współczynnik korelacji dla całej populacji

r=1 ścisła zależność w postaci funkcji liniowej

r=0 zmienne nieskorelowane

Znak korelacji informuje o kierunku zależności

Moduł informuje o sile zależności. Im bardziej zbliżony do 1 tym silniejsza.

Współczynnik determinacji r2- jest jedną z podstawowych miar jakości dopasowanie modelu.

Informuje o tym, jaka część zmienności zmiennej objaśnianej (Y) została wyjaśniona przez model. Jest on wiec miarą stopnia, w jakim model wyjaśnia kształtowanie się zmiennej Y.

Można również powiedzieć, że r2 opisuje tę część zmienności zmiennej Y, która wynika z jej zależności od uwzględnionych w modelu zmiennych objaśniających (X).

Dopasowanie modelu jest tym lepsze im r2 bliższe 1.

r2ε[0;1]

Współczynnik zbieżności φ2 (braku determinacji)

φ2 = 1 – r2

Określa jaka część zmienności zmiennej Y nie została wyjaśniona przez model. Jest więc miarą stopnia, w jakim model nie wyjaśnia kształtowania się zmiennej Y.

Można również powiedzieć, że φ2 opisuje tę część zmienności zmiennej Y, która wynika z jej zależności od innych czynników niż uwzględnione w modelu.

Dopasowanie modelu jest tym lepsze im wartość φ2 jest bliższa zeru. Także wartość φ2 przyjmować wartości od 0 do 1.

Na przykład korelacja 0,92 oznacza że 86,64% zmienności jest determinowane przez analizowany czynnik. Pozostałe 15,36% jest determinowane przez inne czynniki.

Analiza korelacji musi być stosowana w powiązaniu z innymi metodami, ponieważ korelacja nie jest równa zależności przyczynowej.

Na podstawie prostej analizy korelacji nie powinno się wyciągać wniosków przyczynowych, gdyż związek dwóch zmiennych może wystąpić z różnych powodów

Współczynnik korelacji r (z próby) stanowi ocenę współczynnika korelacji p w populacji należy użyć parametru istotności statystycznej.

Analiza regresji

Regresja prostoliniowa (dla dwóch zmiennych):

Linia regresji- daje nam najlepszą aproksymację istniejącej zależności między zmiennymi.

Funkcja regresji opisywana jest zależnościami

f(x)= a + bx

Yi= a + bxi

b- współczynnik regresji informuje o tym, o ile zmienia się wartość funkcji przy wzroście x o wartość jednostkową.

a- Wyraz wolny, informuje o wartości funkcji gdy x=0

Jak oszacować parametry liniowej funkcji regresji:

Można wyznaczyć:

Y=f(x)= a0=a1x

X = g(y) = c0 = c1x

Parametry równania szacuje się metodą najmniejszych kwadratów - suma kwadratów odchyleń poszczególnych wartości yi od linii jest minimalna

Jeżeli bezwzględne r =1 suma =0

Jeżeli bezwzględne r < 1 istnieje tylko jedno położenie linii, przy którym suma jest minimalna.

Kąt jaki tworzą ze sobą proste regresji odzwierciedla względną wielkość r !

Jeżeli r=1 linie pokrywają się, jeżeli r=0 proste są do siebie prostopadłe.

Regresja liniowa- gdy obie zmienne mają rozkład normalny!

Zależnośći nieliniowe:

Regresja krzywoliniowa:

  1. Proste funkcje (rosnące lub malejące) dwu zmiennych: wykładnicze, potęgowe, logarytmiczne

  2. Wielomiany różnego stopnia (ich fragmenty)

  3. Funkcja potęgowa wielu zmiennych

Aby można było stosować metodę najmniejszych kwadratów, funkcje te muszą być sprowadzone do postaci liniowej.

Funkcję można sprowadzić do postaci liniowej np. przez logarytmowanie.


Wyszukiwarka

Podobne podstrony:
Analiza korelacji i regresji 3, STATYSTYKA (WYK?AD 16
Analiza korelacji i regresji 3, STATYSTYKA (WYK?AD 16
Elementy analizy korelacji i regresji
ANALIZA KORELACJI I REGRESJI-wzory, Statystyka, statystyka(3)
Analiza korelacji i regresji, studia, statystyka
Algorytm analizy korelacji i regresji liniowej, Statystyka opisowa
Analiza korelacji i regresji, Statystyka opisowa i matematyczna
STATYSTYKA - analiza korelacji i regresji, ŚCIĄGI Z RÓŻNYCH DZIEDZIN, Statystyka
ANALIZA KORELACJI I REGRESJI”, Statystyka, statystyka(3)
analiza korelacji i regresji
Analiza korelacji i regresji
Analiza korelacji i regresji
Analiza korelacji i regresji, „ANALIZA KORELACJI I REGRESJI”

więcej podobnych podstron