Analiza i wizualizacja danych
Laboratorium nr 2
Prowadzący: dr Jarosław Olejniczak
Wykonał: Marcin Kulesza
Grupa: I2A4S1
Zadanie 1
Zakład wytwarza trzy produkty (A, B i C). Jak można przewidzieć koszt działania zakładu na podstawie znajomości wielkości produkcji ?
Dane zawierają informacje o koszcie funkcjonowania zakładu w ciągu 19 miesięcy, jak również o wypuszczonej co miesiąc liczbie produktów A, B i C. Proszę znaleźć najlepszą prognozę miesięcznego kosztu operacyjnego .
Iteracja 1:
Call:
lm(formula = Cost ~ ., data = a)
Residuals:
Min 1Q Median 3Q Max
-2266.9 -712.9 277.3 819.6 2048.3
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 34986.807 1883.957 18.571 2.93e-11 ***
Month -39.495 62.342 -0.634 0.5366
A.Made 2.234 1.720 1.299 0.2150
B.Made 4.013 1.735 2.313 0.0364 *
C.Made 5.376 2.047 2.627 0.0199 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1279 on 14 degrees of freedom
Multiple R-squared: 0.6553, Adjusted R-squared: 0.5569
F-statistic: 6.655 on 4 and 14 DF, p-value: 0.003229
Iteracja 2 (zmienne objaśniające: B Made i C Made) :
Call:
lm(formula = Cost ~ B.Made + C.Made, data = a)
Residuals:
Min 1Q Median 3Q Max
-2129.7 -972.6 342.9 997.4 1860.1
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 35475.303 1842.861 19.250 1.72e-12 ***
B.Made 5.321 1.429 3.723 0.00185 **
C.Made 5.417 1.745 3.104 0.00683 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1274 on 16 degrees of freedom
Multiple R-squared: 0.6091, Adjusted R-squared: 0.5602
F-statistic: 12.46 on 2 and 16 DF, p-value: 0.0005456
Wnioski:
Przy pierwszej iteracji tworzenia modeli regresji liniowej istotność zmiennych objaśniających „Month” oraz „A Made” osiągnęły wartość większą niż 0.15, oznacza to że te zmienne objaśniające nie miały istotnego wpływu na model.
Ponownie wykonałem metodą regresji liniowej za pomocą środowiska R obliczenia, dla tylko dwóch zmiennych objaśniających: „B Made” oraz „ C Made”. Obydwie zmienne osiągnęły wystarczająco mały test istotności dla metody regresji liniowej, współczynnik determinacji ( R2 ), w drugiej iteracji osiągnął wartość 0.6091, jest to wynik zadowalający (większy nic 0.3).
Zadanie 2
Przez 12 kolejnych tygodni badaliśmy wielkość sprzedaży puszek z pomidorami (w sztukach) w sklepie Mr. Ds Supermarket . Z każdego tygodnia mamy następujące dane:
- Czy na wszystkich wózkach sklepowych była umieszczona ulotka o promocyjnej sprzedaży puszek z pomidorami?
- Czy były rozdawane kupony na puszki z pomidorami?
- Czy była obniżona cena (o 0, 1 lub 2 centy)?
Wykorzystując te dane proszę ustalić wpływ tych czynników na sprzedaż. Proszę przewidzieć wielkość sprzedaży puszek z pomidorami w tygodniu, w którym na wózkach umieszczona jest ulotka o promocji, są rozdawane kupony, a cena jest obniżona o 1 cent.
Iteracja 1:
Call:
lm(formula = Sales ~ ., data = a)
Residuals:
Min 1Q Median 3Q Max
-6.0417 -3.3229 -0.0625 3.3125 6.2083
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 14.042 3.089 4.545 0.001887 **
Cart.Notice.Yes 20.167 2.913 6.923 0.000122 ***
Coupon.Yes -1.167 2.913 -0.401 0.699248
Price.Reduction. 6.375 1.784 3.574 0.007251 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 5.045 on 8 degrees of freedom
Multiple R-squared: 0.8838, Adjusted R-squared: 0.8403
F-statistic: 20.29 on 3 and 8 DF, p-value: 0.0004268
Iteracja 2 (zmienna objaśniająca nie jest już „Cuppon”) :
Call:
lm(formula = Sales ~ CartNotice + PriceReduction, data = a)
Residuals:
Min 1Q Median 3Q Max
-6.3750 -2.7396 -0.6458 2.7292 6.7917
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 13.458 2.594 5.187 0.000574 ***
CartNoticeYes 20.167 2.774 7.271 4.71e-05 ***
PriceReduction 6.375 1.698 3.753 0.004531 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.804 on 9 degrees of freedom
Multiple R-squared: 0.8815, Adjusted R-squared: 0.8552
F-statistic: 33.48 on 2 and 9 DF, p-value: 6.786e-05
Obliczenie przewidywanej wielkości sprzedaży dla danych z zadnia:
Sales = 1 * 20.167 + 1*6.375 + 13.458
Sales = 40
Przewidywana sprzedaż wynosi 40 puszek.
Wnioski:
Przy pierwszej iteracji tworzenia modeli regresji liniowej istotność zmiennych objaśniających „Cuppon” osiągnęła wartość mniejszą niż 0.15, oznacza to że ta zmienna objaśniająca nie miała znaczącego wpływu na model regresji liniowej.
Ponownie wykonałem metodą regresji liniowej za pomocą środowiska R obliczenia, dla pozostałych zmiennych objaśniających. Zmienne osiągnęły wystarczająco mały test istotności dla metody regresji liniowej, współczynnik determinacji ( R2 ), w drugiej iteracji osiągnął wartość 0.8815, jest to wynik zadowalający (większy nic 0.3).