STATYSTYKA - wykłady
08.05.2010
ANALIZA REGRESJI
Analiza regresji prowadzona jest dodatkowo w połączeniu z analizą korelacji.
Prowadzimy ją wtedy, gdy pomiędzy zmiennymi mamy zależność przyczynowo-skutkową.
Celem tej analizy jest wyznaczenie funkcji regresji, która opisuje badaną zależność.
y
y
X x
Przykład nr 1 Przykład nr 2
Funkcję regresji wyznaczamy wykorzystując metodę najmniejszych kwadratów.
METODA NAJMNIEJSZYCH KWADRATÓW (MNK)
Polega na wyznaczeniu regresji tak, aby suma kwadratów odchyleń wartości empirycznych od teoretycznych była minimalna.
200 (xi, yi)
180
160 zmienność resztowa
yi 140 zmienność ogólna
(z daszkiem) 120 zmienność wyjaśniona regresją
100
wartość 80
średnia 60
40
20
(zaznaczyć kilka punktów, aby tworzyło
5 10 15 20 25 coś na kształt przykładu nr 1)
Zmienność ogólna = zmienność wyjaśniona regresją + zmienność niewyjaśniona regresją
daszek daszek
Y - yi = (Y - yi) + (yi - yi)
Zad 1/
Dla opisu wpływu zmian wartości cechy x dla zmiany wartości cechy y w przypadku zależności liniowej funkcja regresji ma równanie :
daszek
y = a1x + a0
xi y i
x1 y 1
x2 y 2
. .
. .
xn y n
n daszek n
W = Ʃ (yi - yi)² = Ʃ (yi - a0 - a1xi)² minimum
i=1 i=1
Niewiadome współczynniki równania regresji : a1, a0 wyznaczamy rozwiązując układ równań normalnych.
n n
na0 + a1 Ʃ xi = Ʃ yi
i=1 i=1
n n n
a0 Ʃ xi + a1 Ʃ xi² = Ʃ yi xi
i=1 i=1 i=1
ważne słowo - zawsze pisać!!!
Interpretujemy wartość współczynnika a1 , który informuje jak średnio zmienia się wartość cechy y jeżeli cecha x rośnie o jedną jednostkę.
Odp. Cecha x ma wpływ na cechę y.
Zad 2/
Dla opisu wpływu zmian wartości cechy y na zmiany wartości cechy x w przypadku zależności liniowej funkcja regresji będzie miała równanie :
daszek
x = b1y + b0
n daszek n
W = Ʃ (xi - xi)² = Ʃ (xi - b0 - b1yi)² minimum
i=1 i=1
Niewiadome współczynniki równania regresji : b1, b0 wyznaczamy rozwiązując układ równań normalnych.
n n
nb0 + b1 Ʃ yi = Ʃ xi
i=1 i=1
n n n
b0 Ʃ yi + b1 Ʃ yi² = Ʃ yi xi
i=1 i=1 i=1
Interpretujemy współczynnik kierunkowy b1 , który informuje jak średnio zmienia się wartość cechy x jeżeli cecha y rośnie o jedną jednostkę.
Cecha po lewej stronie równania - zmienna objaśniana
Cecha po lewej stronie równania - zmienna objaśniająca
Przykład : Obliczanie parametrów funkcji regresji opisującej wpływ liczby zatrudnionych osób (xi) na obroty w tys. zł. (yi) w sklepach branży spożywczej.
|
xi |
yi |
xi² |
xi yi
|
yi² |
xi yi
|
y =6,91xi+1,99 |
|
x =0,124yi+1,33 |
|
|
23 |
149 |
529 |
3427 |
22201 |
3427 |
160,9 |
141,61 |
19,80 |
10,24 |
|
4 |
35 |
16 |
140 |
1225 |
140 |
29,6 |
29,16 |
|
|
|
12 |
69 |
144 |
828 |
4761 |
828 |
84,9 |
252,81 |
|
|
|
3 |
33 |
9 |
99 |
1089 |
99 |
22,7 |
106,09 |
|
|
|
17 |
119 |
289 |
2023 |
14161 |
2023 |
119,5 |
0,25 |
|
|
|
2 |
6 |
4 |
12 |
36 |
12 |
15,8 |
96,04 |
|
|
|
21 |
176 |
441 |
3696 |
30976 |
3696 |
147,1 |
835,21 |
|
|
|
9 |
98 |
81 |
882 |
9604 |
882 |
64,2 |
1142,44 |
|
|
|
7 |
48 |
49 |
336 |
2304 |
336 |
50,4 |
5,76 |
|
|
|
12 |
47 |
144 |
564 |
2209 |
564 |
84,9 |
1436,41 |
|
|
suma |
|
780 |
1706 |
12007 |
88566 |
12007 |
|
4045,78 |
|
71,91 |
n=10 yi 4045,78 71,91
narysować wykres s(u) = 10-2 = 22,49 s(z)= 10-2 =2,99
xi
10 a0 + 110a1 = 780
110a0 + 1706a1 = 12007
780 110
a0 = 12007 1706
10 110
110 1706 a1 = 6,91
a0 = 1,99
10 780
a1 = 110 12007
10 110
110 1706
daszek
Równanie regresji ma postać : y = 6,91xi + 1,99
Współczynnik regresji informuje, że wraz ze zwiększeniem zatrudnienia o 1 osobę wielkość obrotów średnio rośnie o 6,91 tys. zł.
Obliczanie parametrów funkcji regresji opisującej wpływ wielkości obrotów w tys. zł. (yi) na liczbę zatrudnionych osób (xi) w sklepach branży spoż.
10 b0 + 780b1 = 110
780b0 + 88566b1 = 12007
b1 = 0,124
b0 = 1,33 zamiast 1 jest 10 tys.
daszek
Równanie regresji ma postać : x = 0,124 yi + 1,33
Współczynnik regresji informuje, że wraz ze zwiększeniem obrotów o 10 tys. zatrudnienie rośnie średnio o 1 osobę.
Związek współczynników regresji i współczynnika korelacji.
s(y)
a1 = s(x) r = a1 b1
s(x)
b1 = s(y)
1/ Zależność korelacyjna liniowa dodatnia
Współczynnik korelacji r > 0 a1 > 0 , b1 > 0
współczynniki kierunkowe
y
linia regresji
x
2/ Zależność korelacyjna liniowa ujemna
Współczynnik korelacji r < 0 a1 < 0 , b1 < 0
y
linia regresji
x
3/ Brak zależności korelacyjnej daszek daszek
Współczynnik korelacji r = 0 a1 = 0 , b1 = 0 y = a0 , x = b0
y
a0 linia regresji
b0 x
Jeżeli zmienne są niezależne, to linie regresji są prostopadłe.
Siłę zależności korelacyjnej opisujemy wielkością kąta pomiędzy funkcjami regresji :
- im większa siła tym mniejszy kąt pomiędzy funkcjami regresji.
- im mniejsza siła tym większy kąt pomiędzy funkcjami regresji.
Mnożymy równania stronami a1 b1 = r ² - współczynnik determinacji
r = a1 b1
Współczynnik korelacji jest średnią geometryczną ze współczynników kierunkowych linii regresji.
Wylicz współczynnik korelacji
2
a1= - = 0,2
10
8
b1= - = 0,8
10
0,2 . 0,8 = 0,16 r = 0,16 = 0,4
Miary dopasowania linii degresji do danych :
Współczynnik determinacji r ² ma być jak największy
Współczynnik zbieżności φ² = 1 - r ² ma być jak najmniejszy
Wariancja resztowa 1 = r ² + φ²
Dla funkcji regresji Y względem X wariancję resztową określamy wzorem :
n n daszek
Ʃ ui ² Ʃ (yi - yi)²
i=1 i=1
s² (u) = =
n - k n - k
daszek
Reszta yi - yi = ui
Dla funkcji regresji X względem Y wariancję resztową określamy wzorem :
n n daszek
Ʃ zi ² Ʃ (xi - xi)²
i=1 i=1
s² (z) = =
n - k n - k
daszek
Reszta xi - xi = zi
gdzie : n - liczba elementów w próbie
k - liczba szacowanych elementów
(dla funkcji liniowej k =2)
Interpretujemy wartości odchyleń standardowych rozkładu reszt:
Im mniejsza wartość tym mniejszy błąd MNK
Obliczanie odchylenia standardowego składnika resztowego funkcji regresji opisującej wpływ liczby zatrudnionych osób (xi) na obroty w tys. zł. (yi) w sklepach spoż.
n n daszek
Ʃ ui ² Ʃ (yi - yi)²
i=1 i=1
s² (u) = =
n - k n - k
n = 10
k = 2
Wartość teoretyczna dla cechy y wyznaczamy wykorzystując równanie regresji:
daszek
y = 6,91xi + 1,99 (wróć do tabelki - są to kolumny 7 i 8)
Oznacza to, że faktycznie zaobserwowane obroty w badanych sklepach różnią się od poziomu szacowanego za pomocą funkcji regresji o 22,5 tys. zł.
Oblicz odchylenie standardowe (yi) - wielkość obrotów, (xi) - liczba zatrudnionych
Wróć do tab. - 2 ostatnie kolumny Odp. Nie wiem jak ma brzmieć!
ANALIZA DYNAMIKI
Indeksy proste
Szereg czasowy
ti y i
czas rzeczywisty t1 y 1 obserwacje jednej cechy w czasie rzeczywistym
t2 y 2
. .
. .
tn y n
Analiza struktury Analiza regresji Analiza dynamiki
Δ xi ni xi ni ti yi
Histogram
ni yi yi
xi xi xi
Szereg rozdzielczy Funkcja regresji Szereg czasowy
Przedziałowy Wykres liniowy względem cza (zmiennej względem czasu)
Proste miary opisu dynamiki :
1/ przyrosty absolutne
2/ przyrosty względne
3/ indeksy indywidualne
1/ Przyrosty absolutne :
- ciąg przyrostów o podstawie stałej
Za podstawę porównań przymniemy wybrany okres badawczy (wartość z okresu k)
Δ y t/k = yt - yk t = 1,2,….,n
Przyrosty o podstawie stałej informują o ile zmieniła się wartość badanej cechy w porównaniu z wartością z okresu k.
- ciąg przyrostów o podstawie łańcuchowej
Δ y t/t-1 = yt - yt-1 t = 2,….,n
Przyrosty o podstawie łańcuchowej informują o ile zmieniła się wartość badanej cechy w porównaniu z wartością w okresie poprzednim.
Przyrosty absolutne mają jednostkę taką jak badana cecha.
2/ Przyrosty względne
- ciąg przyrostów o podstawie stałej
Za podstawę porównań przymniemy wartość z okresu k
yt - yk
P t/k = yk t = 1,2,….,n
Przyrosty względne o podstawie stałej informują o ile zmieniła się wartość badanej cechy
w stosunku do wartości z okresu k.
- ciąg przyrostów o podstawie łańcuchowej
yt - yt-1
P t/t-1 = yt-1 t = 2,….,n
Przyrosty względne łańcuchowe informują o ile zmieniła się wartość badanej cechy
w stosunku do wartości w okresie poprzednim.
Są to mierniki bez jednostki własnej i interpretujemy te wyniki zamieniając je na %.
3/ Indeksy indywidualne
- ciąg indeksów o podstawie stałej
Za podstawę porównań przymniemy wartość z okresu k
yt
i t/k = yk t = 1,2,….,n
Indeksy o podstawie stałej informują ile razy zmieniła się wartość badanej cechy
w porównaniu z wartością z okresu k.
np. 0,2 - wzrost o 20%
- 0,3 - spadek o 30%
- ciąg indeksów o podstawie łańcuchowej
Za podstawę porównań przymniemy wartość z okresu k
yt
i t/t-1 = yt-1 t = 2,….,n
Indeksy łańcuchowe informują ile razy zmieniła się wartość badanej cechy
w porównaniu z wartością w okresie poprzednim.
Są to liczby, które własnej jednostki nie mają, przy interpretacji zamienimy je na %.
np. 1,3 - wzrost o ???
-0,8 - spadek o 20%
Przyrosty względne :
yt - yk yt - yk
P t/k = yk = yk yk = i t/k - 1 (indeks minus 1)
1
Indeksy indywidualne : p= i -1
yt - yt-1 yt - yt-1 p + 1 = i
P t/t-1 = yt-1 = yt-1 yt-1 = i t/t-1 - 1
Zad. 1/ Ludność woj. śląskiego (w tys. osób)
porównanie, którego roku
badanie dotyczy z roku na rok
|
ti |
yi |
yi - y98 |
yi - yi -1
|
y98 |
yi -1 |
y98 |
yi -1 |
|
1998 |
4882,4 |
0,0 (brak zmiany) |
- (brak infor.) |
0,0 |
- |
1 |
- |
|
1999 |
|
-9,7 |
|
-0,002 |
-0,002 (-9,7:4882,4) |
0,998 |
0,998 |
|
2002 |
4863,3 |
-19,1 |
|
-0,004 |
-0,002 (-9,4:4872,8) |
0,996 |
0,998 |
|
|
4855,3 |
-27,1 |
|
-0,006 |
-0,002 (-0,8:4863,3) |
0,994 |
0,998 |
|
|
4848,2 |
|
+ -7,2 |
-0,007 |
-0,001 (-7,2:4855,3) |
0,993 |
0,999 |
jak dodamy
te wart.to wyjdzie
1/ Wyznacz przyrosty absolutne o podstawie stałej z r.98.
2/ Wyznacz przyrosty absolutne łańcuchowe.
3/ Wyznacz przyrosty względne o podstawie stałej z r.98.
4/ Wyznacz przyrosty względne łańcuchowe.
Porównujemy : rok 2001 do 98 (wartość -27,1 i wartość -0,006)
W roku 2001 w porównaniu z 98 zaobserwowano odpływ ludności z woj. Śląskiego na poziomie 27,1 tys. osób, co stanowiło 0,6% liczby ludności z 98 r.
Porównujemy : rok 2002 do 2001 (wartość -7,2 i wartość -0,001)
W roku 2002 w porównaniu z rokiem poprzednim nastąpił dalszy spadek ludności
o 7,2 tys. osób, co stanowiło 0,1 liczby ludności z rokiem 2001.
5/ Wyznacz indeksy o podstawie stałej z r.98.
6/ Wyznacz indeksy o podstawie łańcuchowej.
Stopa zwrotu z inwestycji musi być ilorazem - wtedy jest to przyrost względnie łańcuchowy.
Średnie tempo zmian informuje jak średnio zmienia się badana cecha statystyczna z okresu na okres.
n-1
i = i 2/1 . i3/2 . …….i n/n-1
Średni indeks - średnia geometryczna z ciągu indeksów łańcuchowych
n-1
i = y2 . y3 . y4 . y n skracamy
y1 y2 y3 ......... yn-1
wartość z okresu poprzedniego
Wynik interpretujemy jak indeks (zamieniamy na % i określamy czy jest poniżej czy powyżej 100%).
n-1
i = i n/n-1
n-1
i = y n
y1
Jak wyliczyć średnie temp zmian jeżeli punktem wyjścia są względne przyrosty o podstawie stałej?
Po pierwsze dodaj 1 - otrzymamy indeksy o podst. stałej.
Po drugie zamień indeksy o podst.stałej na indeksy łańcuchowe.
Przykład :
Wskaźniki cen towarów i usług konsumpcyjnych w Polsce w latach 93-96 wg tabeli:
Rok |
1993 |
1994 |
1995 |
1996 |
Wskaźniki cen towarów i usług konsump. (rok poprzedni = 100) |
135,2 |
132,3 |
128,0 |
|
w domyśle są to %
Wyznaczyć indeksy o podst.stałej przyjmując za podstawę roki :
a/ 1992
b/ 1995
Wyznaczyć średnie tempo zmian
4
i g= y96 . y95 . y94 . y93
y95 y94 y93 y92
średnia geometryczna
4
i g= 1,199 . 1,28 . 1,323 . 1,352 =1,287 = 28,7%
czemu tyle wyszło ???
Odp. Ceny towarów i usług konsump. w latach 92-96 przeciętnie z roku na rok rosły
o ok.28,7 %.
dot. a/ Indeksy o podst. stałej - r.92
y93 y93 y93
y92 = y92 y92 = 1,352
y94 y93 . y94 y94
y92 = y92 y93 y92 = 1,352 . 1,323 = 1,789
y95 y93 . y94 . y95 y95
y92 = y92 y93 y94 y92 = 1,352 . 1,323 . 1,28 = 2,29
y96 y93 . y94 . y95 . y96 y96
y92 = y92 y93 y94 y95 y92 = 1,352 . 1,323 . 1,28 . 1,199 = 2,745
bo zaczynamy od 100% jako podstawa
Odp. Ceny towarów i usług konsump. w latach 96 w stosunku do 92 wzrosły o 174,5%.
dot. b/ Indeksy o podst. stałej - r.95
Wybieramy jeden punkt ze środka (nie wiem o co chodzi z tym punktem!)
y92 1 y92 1
y95 = y93 . y94 . y95 y95 = 1,352 . 1,323 . 1,28 = 0,437
y92 y93 y94 Ceny towarów i usług konsump.w 92 r. były o 56,3% niższe
w porównaniu do 95r. (bo 100-43,7 = 56,3)
y93 1 y93 1
y95 = y94 . y95 y95 = 1,323 . 1,28 = 0,591 ile brakuje do 100%?
y93 y94 Odp. 40,9%
y94 1 y94 1
y95 = y95 y95 = 1,28 = 0,781 ile brakuje do 100%?
y94 Odp. 21,9% - wynik dla 94 r.
y95 y95
y95 = 1
y95 = 1
y96 y96 y96
y95 = y95
y95 = 1,119
W powyższym przykładzie przekształcone zostały indeksy łańcuchowe na indeksy
o podstawie stałej.
Celem przekształcenia indeksów o podstawie stałej na indeksy łańcuchowe należy dany indeks o podstawie stałej podzielić przez poprzedni indeks o podstawie stałej.
Zad. 2/ Wyznaczyć indeksy o podstawie stałej z dn. 19.02. dysponując danymi :
Indeksy o podst.stałej z dn.19.02.200X
Data |
Dni tyg. |
AMICA |
yk/y1
|
yk/yk-1
|
200X-02-19 |
Pn |
25,9 |
1,000=25,90:25,90 |
- |
200X-02-20 |
Wt |
25,5 |
0,985=25,50:25,90 |
0,985=0,985:1,000 |
200X-02-21 |
Śr |
24,6 |
0,950=24,60:25,90 |
0,965=0,950:0,985 |
200X-02-22 |
Czw |
23,7 |
0,915=23,70:25,90 |
0,963=0,915:0,950 |
200X-02-23 |
Pt |
24,00 |
0,927=24,00:25,90 |
1,013=0,927:0,915 |
Przekształcić indeksy o podstawie stałej z dn. 19.02 na indeksy łańcuchowe
(ind.łańuchowe są potrzebne do średniej geometrycznej)