Statystyka

wykład 11

Funkcje regresji:

są formalnym zapisem związków zachodzących między zjawiskami lub cechami,

wpływu jaki wywiera zmienna, będąca „przyczyną” na zmienną, która jest „skutkiem”.

Określają sposób przyporządkowania wartości zmiennej zależnej określonym wartościom zmiennej niezależnej.

Analiza regresji jest wykorzystywana do:

rozpoznania wielkości wpływu jednej z cech na drugą w związkach przyczynowo-skutkowych;

objaśniania zmienności jednej cechy zmiennością drugiej, co ma szczególne znaczenie przy badaniu współwystępowania zjawisk;

szacowania nieznanych wartości jednej cechy na podstawie znanych lub założonych wartości drugiej cechy.

© Tomasz Jurkiewicz

Statystyka

wykład 11

Funkcje regresji cd.:

Funkcja regresji:

matematyczna funkcja określonego typu, która jest przybliżeniem (aproksymantą) faktycznej zależności między zmiennymi.

Postać funkcji ustalamy na podstawie zaobserwowanych wartości zmiennych, np. za pomocą wykresu korelacyjnego.

Zaobserwowane wartości zmiennej zależnej będą się odchylały od funkcji pod wpływem zmiennych nie uwzględnionych w badaniu oraz na skutek działania czynników przypadkowych.

© Tomasz Jurkiewicz

1

Statystyka

wykład 11

Funkcje regresji cd.:

W zależności od rodzaju związku funkcje regresji mogą przybrać postać liniową lub krzywoliniową:

liniowy związek między zmiennymi (funkcja liniowa)

oznacza, że jednakowym przyrostom zmiennej niezależnej towarzyszą jednakowe co do siły i kierunku (wzrost lub spadek) zmiany zmiennej zależnej;

związek krzywoliniowy (np. funkcja kwadratowa, hiperboliczna, wykładnicza, potęgowa itp.)

wystąpi w sytuacji, gdy jednakowym przyrostom zmiennej niezależnej będą odpowiadać różne co do siły lub siły i kierunku zmiany zmiennej zależnej.

© Tomasz Jurkiewicz

Statystyka

wykład 11

Funkcje regresji cd.:

Zapis modelu regresji liniowej:

y = a + bx + ξ

Postać funkcji regresji:

yˆ = a + bx

Kryterium:

2

2

∑( y − ˆ y) = ∑( y − a − bx) = min Rozwiązanie:

1

∑ xy − ∑ x∑ y

∑ − ∑

n

y b

x

b =

a =

1

∑

n

x − (∑ x)2

2

n

© Tomasz Jurkiewicz

2

Statystyka

wykład 11

Dopasowanie funkcji regresji:

Różnice pomiędzy zaobserwowanymi wartościami cechy zależnej i odpowiadającymi im wartościami określonymi funkcją regresji są nazywane resztami:

e = y − ˆ y

Reszty są obrazem odchyleń od prawidłowości opisywanej przez funkcję regresji.

Odchylenia te są tym większe, im silniejsze będzie działanie czynników przypadkowych oraz innych zmiennych

zniekształcających obserwowany związek.

© Tomasz Jurkiewicz

Statystyka

wykład 11

Dopasowanie funkcji regresji cd.:

Miarą wahań przypadkowych jest wariancja resztowa: 2

∑( y − ˆ y )

i

i

2

i

Se =

n − k

k

liczba parametrów funkcji, w przypadku funkcji liniowej k = 2

Odchyleniem standardowym składnika resztowego nazywamy pierwiastek kwadratowy z wariancji resztowej.

2

Se = Se

Informuje on, o ile średnio odchylają się wartości zaobserwowane od oszacowanych za pomocą funkcji regresji;

nazywany jest średnim błędem szacunku.

© Tomasz Jurkiewicz

3

Statystyka

wykład 11

Dopasowanie funkcji regresji cd.:

Natężenie wahań przypadkowych ocenia się obliczając współczynnik zmienności przypadkowej:

Se

Ve =

⋅100%

y

Współczynniki indeterminacji (zbieżności) i determinacji:

∑(

2

y − ˆ y

∑( ˆ y − y

i

)

i

i )2

2

2

i

i

ϕ =

R =

∑(

2

y − y

∑( y − y

i

)

i

)2

i

i

Współczynniki przyjmują wartości z przedziału 〈0 ; 1〉

Informują, jaka część zmienności cechy zależnej Y nie jest wyjaśniana a jaka jest wyjaśniana zmianami cechy niezależnej X.

Indeks korelacji określa siłę współzależności między zmiennymi 2

2

R = R = 1−ϕ

W przypadku związku liniowego jest on równy współczynnikowi korelacji liniowej Pearsona.

© Tomasz Jurkiewicz

Statystyka

wykład 11

Dopasowanie funkcji regresji cd. – analiza wariancji: y i

$ y = a + b ⋅ x

zmienność

całkowita

y

zmienność

przypadkowa

zmienność

wyjaśniona

x i

© Tomasz Jurkiewicz

4

Statystyka

wykład 11

Dopasowanie funkcji regresji cd. – analiza wariancji : 2

2

2

∑( y − y) =∑( ˆ y − y) +∑( y − ˆ y ) i

i

i

i

i

i

i

zmienność

zmienność

zmienność

całkowita =

wyjaśniona

+ nie wyjaśniona

przez regresję

przez regresję

CSK =

WSK

+ NSK

2

2

∑( ˆ y − y) ∑( y − ˆ y ) i

i

i

1

i

i

=

+

2

2

∑( y − y) ∑( y − y) i

i

i

i

2

2

1 = R +ϕ

© Tomasz Jurkiewicz

Statystyka

wykład 11

Dopasowanie funkcji regresji cd. – analiza wariancji : 1

CSK = ∑( y − y) = ∑ y − (∑ y)2

2

2

n

NSK = CSK – WSK

DLA FUNKCJI LINIOWEJ JEDNEJ ZMIENNEJ:

2



1



∑ xy



− ∑ x∑ y



1

 

n



WSK = b ∑( x − x) = b ∑ x



−

∑ x  =

i

( )2

2

2

2

2



n

1



i

∑ x − (∑ x)2

2

n

© Tomasz Jurkiewicz

5

Statystyka

wykład 11

Dopasowanie funkcji regresji cd. – analiza wariancji :

Analiza wariancji do weryfikacji istotności regresji

Zmienność

Suma kwadratów

Stopnie

Estymator wariancji

swobody

Całkowita

∑( y y 2

)

n – 1

x

i −

i

Wyjaśniona

∑( yˆ y 2

)

2

b ∑ ( x

x

i −

)2

i −

=

i

1

i

= b 2 ∑( x x 2

)

1

i −

i

Nie

∑( y y 2

ˆ )

n – 2

2

∑( y − ˆ y )

i −

i

i

i

wyjaśniona

i

i

2

= S

n − 2

e

© Tomasz Jurkiewicz

Statystyka

wykład 11

Dopasowanie funkcji regresji cd. – analiza wariancji : H : β = β = β = ... = 0;

0

0

1

2

H : β ≠ 0.

1

i

Statystyka F, jako iloraz wariancji wyjaśnionej i niewyjaśnionej ma postać:

WSK / k

2

b

F =

2

F =

∑( x − x)

NSK /( n − k −1)

2

i

Se i

F ~ F-Snedecora o liczbie stopni swobody v = k i v = n – k – 1.

1

2

Obszar krytyczny jest prawostronny.

Jeżeli F ≥ Fα, to odrzucamy hipotezę zerową.

Jeżeli F < Fα, oznacza brak podstaw do odrzucenia hipotezy zerowej.

© Tomasz Jurkiewicz

6

Statystyka

wykład 11

Test liniowości regresji:

300

250

200

150

100

50

0

0

20

40

60

80

100

120

140

160

© Tomasz Jurkiewicz

Statystyka

wykład 11

Test liniowości regresji cd.:

H : E( Y | X = x) = α + β x; 0

H : E( Y | X = x) ≠ α + β x.

1

Dla każdej zaobserwowanej wartości y oblicza się wartość teoretyczną.

i

Różnicom przyporządkowuje się odpowiedni symbol: a dla ( y − ˆ y )

i

i

> 0;

b dla ( y − ˆ y )

i

i

< 0; reszty równe 0 usuwa się z próby.

W uporządkowanym według rosnących wartości x ciągu wyznacza się i

liczbę serii k.

Wartość krytyczną testu kα odczytuje się z tablic rozkładu liczby serii.

Obszar krytyczny w tym teście jest lewostronny.

Jeżeli k ≤ kα, odrzucamy hipotezę zerową.

Jeżeli k > kα, nie ma podstaw do odrzucenia hipotezy zerowej.

© Tomasz Jurkiewicz

7