wykład 11
Funkcje regresji:
są formalnym zapisem związków zachodzących między zjawiskami lub cechami,
wpływu jaki wywiera zmienna, będąca „przyczyną” na zmienną, która jest „skutkiem”.
Określają sposób przyporządkowania wartości zmiennej zależnej określonym wartościom zmiennej niezależnej.
Analiza regresji jest wykorzystywana do:
rozpoznania wielkości wpływu jednej z cech na drugą w związkach przyczynowo-skutkowych;
objaśniania zmienności jednej cechy zmiennością drugiej, co ma szczególne znaczenie przy badaniu współwystępowania zjawisk;
szacowania nieznanych wartości jednej cechy na podstawie znanych lub założonych wartości drugiej cechy.
© Tomasz Jurkiewicz
Statystyka
wykład 11
Funkcje regresji cd.:
Funkcja regresji:
matematyczna funkcja określonego typu, która jest przybliżeniem (aproksymantą) faktycznej zależności między zmiennymi.
Postać funkcji ustalamy na podstawie zaobserwowanych wartości zmiennych, np. za pomocą wykresu korelacyjnego.
Zaobserwowane wartości zmiennej zależnej będą się odchylały od funkcji pod wpływem zmiennych nie uwzględnionych w badaniu oraz na skutek działania czynników przypadkowych.
© Tomasz Jurkiewicz
1
wykład 11
Funkcje regresji cd.:
W zależności od rodzaju związku funkcje regresji mogą przybrać postać liniową lub krzywoliniową:
liniowy związek między zmiennymi (funkcja liniowa)
oznacza, że jednakowym przyrostom zmiennej niezależnej towarzyszą jednakowe co do siły i kierunku (wzrost lub spadek) zmiany zmiennej zależnej;
związek krzywoliniowy (np. funkcja kwadratowa, hiperboliczna, wykładnicza, potęgowa itp.)
wystąpi w sytuacji, gdy jednakowym przyrostom zmiennej niezależnej będą odpowiadać różne co do siły lub siły i kierunku zmiany zmiennej zależnej.
© Tomasz Jurkiewicz
Statystyka
wykład 11
Funkcje regresji cd.:
Zapis modelu regresji liniowej:
y = a + bx + ξ
Postać funkcji regresji:
yˆ = a + bx
Kryterium:
2
2
∑( y − ˆ y) = ∑( y − a − bx) = min Rozwiązanie:
1
∑ xy − ∑ x∑ y
∑ − ∑
n
y b
x
b =
a =
1
∑
n
x − (∑ x)2
2
n
© Tomasz Jurkiewicz
2
wykład 11
Dopasowanie funkcji regresji:
Różnice pomiędzy zaobserwowanymi wartościami cechy zależnej i odpowiadającymi im wartościami określonymi funkcją regresji są nazywane resztami:
e = y − ˆ y
Reszty są obrazem odchyleń od prawidłowości opisywanej przez funkcję regresji.
Odchylenia te są tym większe, im silniejsze będzie działanie czynników przypadkowych oraz innych zmiennych
zniekształcających obserwowany związek.
© Tomasz Jurkiewicz
Statystyka
wykład 11
Dopasowanie funkcji regresji cd.:
Miarą wahań przypadkowych jest wariancja resztowa: 2
∑( y − ˆ y )
i
i
2
i
Se =
n − k
k
liczba parametrów funkcji, w przypadku funkcji liniowej k = 2
Odchyleniem standardowym składnika resztowego nazywamy pierwiastek kwadratowy z wariancji resztowej.
2
Se = Se
Informuje on, o ile średnio odchylają się wartości zaobserwowane od oszacowanych za pomocą funkcji regresji;
nazywany jest średnim błędem szacunku.
© Tomasz Jurkiewicz
3
wykład 11
Dopasowanie funkcji regresji cd.:
Natężenie wahań przypadkowych ocenia się obliczając współczynnik zmienności przypadkowej:
Se
Ve =
⋅100%
y
Współczynniki indeterminacji (zbieżności) i determinacji:
∑(
2
y − ˆ y
∑( ˆ y − y
i
)
i
i )2
2
2
i
i
ϕ =
R =
∑(
2
y − y
∑( y − y
i
)
i
)2
i
i
Współczynniki przyjmują wartości z przedziału 〈0 ; 1〉
Informują, jaka część zmienności cechy zależnej Y nie jest wyjaśniana a jaka jest wyjaśniana zmianami cechy niezależnej X.
Indeks korelacji określa siłę współzależności między zmiennymi 2
2
R = R = 1−ϕ
W przypadku związku liniowego jest on równy współczynnikowi korelacji liniowej Pearsona.
© Tomasz Jurkiewicz
Statystyka
wykład 11
Dopasowanie funkcji regresji cd. – analiza wariancji: y i
$ y = a + b ⋅ x
zmienność
całkowita
y
zmienność
przypadkowa
zmienność
wyjaśniona
x i
© Tomasz Jurkiewicz
4
wykład 11
Dopasowanie funkcji regresji cd. – analiza wariancji : 2
2
2
∑( y − y) =∑( ˆ y − y) +∑( y − ˆ y ) i
i
i
i
i
i
i
zmienność
zmienność
zmienność
całkowita =
wyjaśniona
+ nie wyjaśniona
przez regresję
przez regresję
CSK =
WSK
+ NSK
2
2
∑( ˆ y − y) ∑( y − ˆ y ) i
i
i
1
i
i
=
+
2
2
∑( y − y) ∑( y − y) i
i
i
i
2
2
1 = R +ϕ
© Tomasz Jurkiewicz
Statystyka
wykład 11
Dopasowanie funkcji regresji cd. – analiza wariancji : 1
CSK = ∑( y − y) = ∑ y − (∑ y)2
2
2
n
NSK = CSK – WSK
DLA FUNKCJI LINIOWEJ JEDNEJ ZMIENNEJ:
2
1
∑ xy
− ∑ x∑ y
1
n
WSK = b ∑( x − x) = b ∑ x
−
∑ x =
i
( )2
2
2
2
2
n
1
i
∑ x − (∑ x)2
2
n
© Tomasz Jurkiewicz
5
wykład 11
Dopasowanie funkcji regresji cd. – analiza wariancji :
Analiza wariancji do weryfikacji istotności regresji
Zmienność
Suma kwadratów
Stopnie
Estymator wariancji
swobody
Całkowita
∑( y y 2
)
n – 1
x
i −
i
Wyjaśniona
∑( yˆ y 2
)
2
b ∑ ( x
x
i −
)2
i −
=
i
1
i
= b 2 ∑( x x 2
)
1
i −
i
Nie
∑( y y 2
ˆ )
n – 2
2
∑( y − ˆ y )
i −
i
i
i
wyjaśniona
i
i
2
= S
n − 2
e
© Tomasz Jurkiewicz
Statystyka
wykład 11
Dopasowanie funkcji regresji cd. – analiza wariancji : H : β = β = β = ... = 0;
0
0
1
2
H : β ≠ 0.
1
i
Statystyka F, jako iloraz wariancji wyjaśnionej i niewyjaśnionej ma postać:
WSK / k
2
b
F =
2
F =
∑( x − x)
NSK /( n − k −1)
2
i
Se i
F ~ F-Snedecora o liczbie stopni swobody v = k i v = n – k – 1.
1
2
Obszar krytyczny jest prawostronny.
Jeżeli F ≥ Fα, to odrzucamy hipotezę zerową.
Jeżeli F < Fα, oznacza brak podstaw do odrzucenia hipotezy zerowej.
© Tomasz Jurkiewicz
6
wykład 11
Test liniowości regresji:
300
250
200
150
100
50
0
0
20
40
60
80
100
120
140
160
© Tomasz Jurkiewicz
Statystyka
wykład 11
Test liniowości regresji cd.:
H : E( Y | X = x) = α + β x; 0
H : E( Y | X = x) ≠ α + β x.
1
Dla każdej zaobserwowanej wartości y oblicza się wartość teoretyczną.
i
Różnicom przyporządkowuje się odpowiedni symbol: a dla ( y − ˆ y )
i
i
> 0;
b dla ( y − ˆ y )
i
i
< 0; reszty równe 0 usuwa się z próby.
W uporządkowanym według rosnących wartości x ciągu wyznacza się i
liczbę serii k.
Wartość krytyczną testu kα odczytuje się z tablic rozkładu liczby serii.
Obszar krytyczny w tym teście jest lewostronny.
Jeżeli k ≤ kα, odrzucamy hipotezę zerową.
Jeżeli k > kα, nie ma podstaw do odrzucenia hipotezy zerowej.
© Tomasz Jurkiewicz
7