Materiały do ćwiczeń z przedmiotu Statystyka, mgr Oskar Knapik
Analiza zależności dwóch cech statystycznych ilościowych.
Analiza korelacji i regresji liniowej
Zagadnienia:
diagram korelacyjny,
kowariancja,
współczynnik korelacji liniowej Pearsona i jego interpretacja,
funkcja regresji liniowej dwóch zmiennych,
metoda najmniejszych kwadratów,
miary dobroci dopasowania funkcji regresji do danych empirycznych: odchylenie standardowe
składnika resztowego, współczynnik zmienności reszt, współczynnik zbieżności i współczynnik de-
terminacji liniowej.
Dokładność obliczeń: 4 miejsca po przecinku.
Zad. 1.
Zbadano zależność między liczbą reklam pewnego wyrobu emitowanego dziennie w telewizji a
wysokością obrotów (w mln zł) otrzymując następujące dane:
Liczba reklam (
i
x )
3
5
4
5
7
Wielkość obrotów (w mln
zł) (
i
y )
10
13
14
16
15
a) Narysować diagram korelacyjny. Co można stwierdzić na jego podstawie?
b) Obliczyć i zinterpretować kowariancję.
c) Obliczyć i zinterpretować współczynnik korelacji liniowej Pearsona.
d) Oszacować i zinterpretować parametry liniowej funkcji regresji opisującej zależność pomiędzy
liczba reklam i wielkość obrotów.
e) Zbadać dopasowanie funkcji regresji do danych empirycznych, przy pomocy odpowiednich miar
dopasowania
f) Dla ambitnych: Jak wykonać powyższą analizę w pakiecie R?
Lp.
i
x
i
y
i
x
x
i
y
y
2
(
)
i
x
x
2
(
)
i
y
y
(
)(
)
i
i
x
x y
y
1
2
3
4
5
Suma
Średnia
Miary dopasowania:
Wariancja reszt:
2
2
1
1
ˆ
2
n
e
i
i
i
s
y
y
n
Odchylenie standardowe reszt:
2
e
e
s
s
Interpretacja...............
Materiały do ćwiczeń z przedmiotu Statystyka, mgr Oskar Knapik
Współczynnik zmienności reszt:
100%
e
e
s
V
y
Interpretacja...............
Współczynnik zbieżności:
2
2
1
2
1
ˆ
n
i
i
i
n
i
i
y
y
y
y
Interpretacja...............
Współczynnik determinacji liniowej:
2
2
1
R
Interpretacja...............
g) Jakiej wielkości obrotów należy spodziewać się przy liczbie reklam wynoszącej 7?
h) Jak zmieni się wielkość obrotów, gdy liczba reklam wzrośnie o 2, a jak gdy spadnie o 3?
Zad. 2. Tabela przedstawia dane dotyczące kosztów poniesionych na reklamę ( X w mln zł) przez 6 kon-
cernów i wyniki ich sprzedaży (Y w mln zł)
Lp.
i
x
i
y
i
x
x
i
y
y
2
(
)
i
x
x
2
(
)
i
y
y
(
)(
)
i
i
x
x y
y
1
1,0
3,0
-1
-2
1
4
2
2
2,0
4,5
0
-0,5
0
0,25
0
3
2,6
6,0
0,6
1
0,36
1
0,6
4
1,0
2,5
-1
-2,5
1
6,25
2,5
5
3,0
7,5
1
2,5
1
6,25
2,5
6
2,4
6,5
0,4
1,5
0,16
2,25
0,6
Suma
12
30
Średnia
-
-
a) Narysować diagram korelacyjny.
b) Oblicz kowariancję między badanymi zmiennymi.
c) Obliczyć i zinterpretować współczynnik korelacji liniowej między badanymi zmiennymi.
d) Oszacować i zinterpretować parametry liniowej funkcji regresji opisującej zależność pomiędzy
kosztami poniesionymi na reklamę i wynikami sprzedaży.
e) Zbadać dopasowanie funkcji regresji do danych empirycznych, przy pomocy odpowiednich miar
dopasowania.
Materiały do ćwiczeń z przedmiotu Statystyka, mgr Oskar Knapik
Lp.
i
y
ˆ
i
y
ˆ
i
i
y
y
2
ˆ
(
)
i
i
y
y
2
(
)
i
y
y
1
3.0
2
4.5
3
6.0
4
2.5
5
7.5
6
6.5
Suma
Miary dopasowania:
Wariancja reszt:
2
2
1
1
ˆ
2
n
e
i
i
i
s
y
y
n
Odchylenie standardowe reszt:
2
e
e
s
s
Interpretacja...............
Współczynnik zmienności reszt:
100%
e
e
s
V
y
Interpretacja...............
Współczynnik zbieżności:
2
2
1
2
1
ˆ
n
i
i
i
n
i
i
y
y
y
y
Interpretacja...............
Współczynnik determinacji liniowej:
2
2
1
R
Interpretacja...............
f) Jakich wyników sprzedaży należy spodziewać się przy nakładach na reklamę równych 1,5 i 2,5
mln zł?
g) Jak zmieni się wielkość sprzedaży, gdy nakłady na reklamę wzrosną o 2 mln zł., a jak gdy spadną
o 1,7 mln zł.?
h) Dla ambitnych: Jak wykonać powyższą analizę w pakiecie R?
Materiały do ćwiczeń z przedmiotu Statystyka, mgr Oskar Knapik
Zad. 3 Tabela przedstawia dane dotyczące ceny metra kwadratowego Y [w tys. zł] 6 wystawionych na
sprzedaż mieszkań w Krakowie i ich odległości X [w km] od Rynku Głównego.
Lp.
i
x
i
y
2
i
x
2
i
y
i
i
x y
1
9
3,0
2
5
3,5
3
2
4,5
4
13
1,5
5
11
2,5
6
8
3,0
Suma
Średnia
-
-
a) Narysować diagram korelacyjny.
b) Oblicz kowariancję między badanymi zmiennymi.
c) Obliczyć i zinterpretować współczynnik korelacji liniowej między badanymi zmiennymi.
d) Oszacować i zinterpretować parametry liniowej funkcji regresji opisującej zależność pomiędzy
ceną metra kwadratowego mieszkań i ich odległością od Rynku Głównego.
e) Zbadać dopasowanie funkcji regresji do danych empirycznych, przy pomocy odpowiednich miar
dopasowania.
Lp.
i
y
ˆ
i
y
ˆ
i
i
y
y
2
ˆ
(
)
i
i
y
y
2
(
)
i
y
y
2
(
)
i
y
y
1
3,0
2
3,5
3
4,5
4
1,5
5
2,5
6
3,0
Suma
Miary dopasowania:
Wariancja reszt:
2
2
1
1
ˆ
2
n
e
i
i
i
s
y
y
n
Odchylenie standardowe reszt:
2
e
e
s
s
Interpretacja...............
Współczynnik zmienności reszt:
100%
e
e
s
V
y
Interpretacja...............
Materiały do ćwiczeń z przedmiotu Statystyka, mgr Oskar Knapik
Współczynnik zbieżności:
2
2
1
2
1
ˆ
n
i
i
i
n
i
i
y
y
y
y
Interpretacja...............
Współczynnik determinacji liniowej:
2
2
1
R
Interpretacja...............
f) Jakiej przeciętnej ceny metra kwadratowego należy się spodziewać dla mieszkań odległych o 12
km od Rynku i 6 km od Rynku?
g) Jak zmieni się cena metra kwadratowego, gdy odległość od Rynku wzrośnie o 3 km, a jak gdy
spadnie o 2,5 km?
h) Dla ambitnych:
Jak wykonać powyższą analizę w pakiecie R?
Zad. 4 Losowo wybrano 6 zakładów produkcyjnych i zbadano je ze względu na wartość produkcji w mln
PLN (Y) i zatrudnienie w dziesiątkach osób (X). Otrzymano następujące wyniki:
Lp.
i
x
i
y
1
3
7
2
4
7
3
5
8
4
5
7
5
6
8
6
7
9
Suma
Średnia
a) Narysować diagram korelacyjny.
b) Oblicz kowariancję między badanymi zmiennymi.
c) Obliczyć i zinterpretować współczynnik korelacji liniowej między badanymi zmiennymi.
d) Oszacować i zinterpretować parametry liniowej funkcji regresji opisującej zależność produkcji od
zatrudnienia.
e) Zbadać dopasowanie funkcji regresji do danych empirycznych, przy pomocy odpowiednich miar
dopasowania.
f) Ile przeciętnie może wynosić produkcja zakładu zatrudniającego 15 osób?
g) Dla ambitnych: Jak wykonać powyższą analizę w pakiecie R?
Materiały do ćwiczeń z przedmiotu Statystyka, mgr Oskar Knapik
Zad. 5 Fabryka mebli analizując kwartalną sprzedaż (w mln zł) oraz wydatki na reklamę (w tys. zł) uzy-
skała następujące informacje:
Kwartalne wy-
datki na rekla-
mę (w
tys. zł)
Wielkość sprze-
daży kwartalnej
(w mln zł)
a) narysuj korelacyjny diagram rozrzutu,
b) oblicz współczynnik korelacji liniowej Pearso-
na,
c) wyznacz rachunkowo i graficznie obydwa rów-
nania regresji,
d) oceń stopień dopasowania funkcji regresji do
danych empirycznych,
e) oszacuj wielkość sprzedaży kwartalnej, jeśli
wydatki na reklamę będą kształtowały się na po-
ziomie 4 tys. zł.
1.8
2.3
2.6
2.4
2.8
26
31
28
30
34
Zad. 6 Pewne biuro nieruchomości w Krakowie jest zainteresowane zbadaniem zależności pomiędzy
powierzchnią sprzedawanych przez nich mieszkań (w
2
m ) a ich ceną rynkową (w tys. zł). Uzyskany ma-
teriał empiryczny przedstawia poniższy szereg statystyczny:
Powierzchnia
(w
2
m )
Cena
(w tys. zł)
a) narysuj korelacyjny diagram rozrzutu,
b) oblicz współczynnik korelacji liniowej Pearsona,
c) wyznacz rachunkowo i graficznie obydwa rów-
nania regresji,
d) oceń stopień dopasowania funkcji regresji do
danych empirycznych,
e) Nowy klient chce sprzedać mieszkanie o po-
wierzchni 76
2
m . Oszacuj cenę rynkową tego
mieszkania.
80
70
64
50
64
340
315
325
300
317
Zad. 7 W banku Z zbadano zależność między stażem pracy zatrudnionych pracowników w latach (X) a
wysokością ich zarobków w zł (Y). Uzyskano następujące informacje: przeciętny staż pracy wynosił 5
lat, przeciętny zarobek 1200 zł. Współczynnik zmienności stażu pracy wynosił 20%. Współczynnik
zmienności płac – 30%. Z kolei współczynnik korelacji pomiędzy stażem pracy a wysokością płac 0.75.
Na podstawie tych informacji:
a) wyznacz rachunkowo teoretyczne linie regresji,
b) oszacuj wysokość płacy dla dziesięcioletniego stażu pracy,
c) czy prawdą jest, ze staż pracy w 90% kształtuje zmienność zarobków zatrudnionych pracowni-
ków?
Zad. 8 Badanie działalności handlowej dostarczyły min. następujących informacji o powierzchni i wiel-
kości utargu:
Powierzchnia
(w m kw.)
Dzienny utarg
(w tys. zł)
a) wyznacz parametry teoretycznej funkcji regre-
sji liniowej w zależności od powierzchni oraz
odchylenie standardowe reszt modelu,
b) sklep ma powierzchnię 120 m kw. Na podsta-
wie wyznaczonego równania regresji oszacuj
możliwy utarg tego sklepu.
c) Sklep uzyskał dzienny w wysokości 7 tys. zł.
Określ powierzchnię sklepu.
d) Współczynnik korelacji między liczbą sprze-
dawców a utargiem wynosi 0,7. Która z cech
w większym stopniu wyjaśnia wielkość utargu:
liczba sprzedawców czy powierzchnia sklepu?
20
30
35
40
45
3.5
4.8
4.5
3.0
5.0
Materiały do ćwiczeń z przedmiotu Statystyka, mgr Oskar Knapik
Zad. 9 W zakładach odzieżowych przeprowadzono badania w celu ustalenia zależności między długością
serii produkcji w tys. sztuk (X) a jednostkowym kosztem produkcji wyrobu w zł (Y). W rezultacie otrzy-
mano następujące teoretyczne równania regresji:
i
i
y
x
x
y
003
,
0
7
,
1
ˆ
270
5160
ˆ
a) podaj interpretację współczynników regresji,
b) co można powiedzieć o kierunku i sile zależności między tymi cechami?
c) W jakim procencie zmienna X wyjaśnia zmienną Y?
d) Jaki jest teoretyczny poziom kosztu jednostkowego przy serii o długości 10 tys. sztuk?
Zad. 10 Spółka zajmująca się sprzedaż różnego rodzaju kserokopiarek chce ustalić wpływ wydatków na
reklamę własnego produktu (w tys. zł) na wielkość sprzedaży (w mln zł). W tym celu zebrano informacje
dotyczące ostatnich pięciu lat (dane roczne):
132
5
1
i
i
x
,
3502
5
1
2
i
i
x
,
96
5
1
i
i
y
1870
5
1
2
i
i
y
2553
5
1
i
i
i
y
x
.
Na podstawie tych informacji:
a) oblicz współczynnik korelacji liniowej Pearsona,
b) wyznacz rachunkowo i graficznie obydwa równania regresji,
c) oszacuj „dobroć” dopasowania równania regresji opisującego zależność sprzedaży kserokopiarek od
wydatków ponoszonych na reklamę w tym przedsiębiorstwie,
d) oszacuj wartość sprzedaży przyjmując, że wydatki na reklamę wynoszą 30 tys. zł rocznie.
Zad. 11. Losowo wybrano 8 zakładów przemysłowych i zbadano je ze względu na wielkość produkcji w
tysiącach ton (Y) i poziom zatrudnienia w tysiącach osób (X). Otrzymano następujące wyniki:
Zatrudnienie (w tys. osób)
0,9
1,0
1,2
1,2
1,4
1,4
1,5
1,6
Produkcja (w tys. ton)
2,0
2,3
2,6
2,5
3,0
3,1
3,2
3,4
Obliczenia pomocnicze:
8
1
2
,
10
i
i
x
;
8
1
1
,
22
i
i
y
;
8
1
29
i
i
i
y
x
;
8
1
2
42
,
13
i
i
x
;
8
1
2
71
,
62
i
i
y
;
0519
,
0
2
x
s
;
2073
,
0
2
y
s
;
8
1
2
0286
,
0
)
ˆ
(
i
i
i
y
y
;
8
1
2
6588
,
1
)
(
i
i
y
y
.
a) Obliczyć i zinterpretować kowariancję oraz współczynnik korelacji liniowej Pearsona.
b) Oszacować parametry liniowego modelu regresji (opisującego zależność produkcji od zatrudnienia)
wykorzystując obliczone wcześniej wartości współczynników kowariancji lub korelacji.
c) Oszacować parametry liniowego modelu regresji (produkcji względem zatrudnienia) wykorzystując
układ równań normalnych (rozwiązać go metodą wyznaczników).
d) Metodą macierzową oszacować parametry równania regresji produkcji względem zatrudnienia.
e) Zinterpretować współczynnik regresji liniowej.
f) Ocenić dopasowanie wyznaczonego modelu regresji do danych empirycznych za pomocą: wariancji
resztowej, odchylenia standardowego składnika resztowego, współczynnika zmienności resztowej,
współczynnika zbieżności, współczynnika determinacji.
g) Jak zmieni się wielkość produkcji gdy zatrudnienie wzrośnie o 0,5 tysiąca osób?
h) Jak zmieni się wielkość produkcji gdy zatrudnienie spadnie o 3 tysiące osób?
i) Ile przeciętnie może wynosić wielkość produkcji zakładu zatrudniającego 2.5 tysiąca osób?
Materiały do ćwiczeń z przedmiotu Statystyka, mgr Oskar Knapik
Zad. 12. Wiadomo, że długość drogi hamowania samochodu (Y) zależy od jego prędkości (X). Przepro-
wadzono test na suchej nawierzchni i otrzymano następujące dane:
Prędkość samochodu (w km/h)
20
40
60
80
100
Droga hamowania (w metrach)
5
15
30
50
80
Obliczenia pomocnicze:
5
1
300
i
i
x
;
5
1
180
i
i
y
;
5
1
14500
i
i
i
y
x
;
5
1
2
22000
i
i
x
;
5
1
2
10050
i
i
y
;
800
2
x
s
;
714
2
y
s
.
a) Oszacować parametry liniowego modelu regresji (zinterpretować współczynnik regresji liniowej).
b) Ocenić dopasowanie wyznaczonego modelu regresji do danych empirycznych za pomocą: wariancji
resztowej, odchylenia standardowego składnika resztowego, współczynnika zmienności resztowej,
współczynnika zbieżności, współczynnika determinacji.
c) Jak zmieni się droga hamowania gdy prędkość samochodu wzrośnie o 8 km/h?
d) Jaka będzie droga hamowania przy prędkości 63 km/h?
Zad. 13. W jednowskaźnikowym modelu Sharpe’a przyjmuje się, że stopa zwrotu akcji danej spółki
giełdowej R spełnia równanie
I
R
R
gdzie
I
R oznacza stopę zwrotu indeksu giełdowego,
jest błędem losowym o wartości oczekiwanej
zero, zaś
i
są współczynnikami, które należy oszacować. Równanie
I
R
R
nazywa się linią
charakterystyczną akcji. W poniższej tabeli podano stopy zwrotu akcji R i indeksu giełdowego
I
R w
ciągu sześciu tygodni.
Tydzień
Akcja
Indeks rynku
1
8.36%
9.23%
2
4.95%
7.10%
3
-1.29%
3.12%
4
0.10%
4.65%
5
-2.05%
1.16%
6
0%
2.20%
Użyć metody najmniejszych kwadratów do oszacowania linii charakterystycznej akcji i narysować wy-
kres linii wraz ze stopami zwrotu. Sprawdzić czy akcja jest defensywna (tzn.
0
1
), czy agresywna
(tzn.
1
).
Zad. 14. Oszacować metodą najmniejszych kwadratów współczynniki
0
ln
i
1
w modelu Cobba-
Douglasa
1
0
W
Y
x e
po zlogarytmowaniu obu stron powyższego równania. Dane zmieszczono w następującej tabeli:
Tydzień
Wielkość produkcji Y
Wielkość nakładów x
1
12.1
5
2
15.5
7
3
18.3
9
4
20.1
11
5
18.9
10
Materiały do ćwiczeń z przedmiotu Statystyka, mgr Oskar Knapik
Numer
zadania
Odpowiedzi
1
2
3
4
5
6
7
8
9
10
11
a) cov( , )
0.1028
X Y
; ( , )
0.9913
r X Y
; b), c), d)
0.2355
a
;
1.9819
b
;
ˆ
0.2355 1.9819
i
i
y
x
;
f)
2
0.0048
e
S
;
0.0691
e
S
;
0.025
e
V
;
2
0.0173
;
2
0.9827
R
; g) wzrośnie o
0.991 tys. ton;
h) spadnie o 5.9458 tys. ton; i) 5.1904 tys. ton
12
a)
19.5
a
;
0.925
b
; ˆ
19.5
0.925
i
i
y
x
; b)
2
49.1667
e
S
;
7.0119
e
S
;
0.1948
e
V
;
2
0.0413
;
2
0.9587
R
; c) wydłuży się o 7.4 metra; d) 38.775 metra
13
14