I2A4S1 ArturPiersa LAB1i2

Analiza i wizualizacja danych

Laboratorium nr 1

Prowadzący: dr Jarosław Olejniczak

Wykonał: Artur Piersa

Grupa: I2A4S1

Zadanie 1

Firma Chandler Enterprises produkuje mikrochipy. Znanych jest pięć rodzajów występujących uszkodzeń (oznaczanych cyframi od 1 do 5). Chipy są produkowane przez cztery urządzenia (1-4) kontrolowane przez dwóch operatorów (A i B). Dysponujemy próbką danych na temat uszkodzeń, obejmującą typ uszkodzenia, operatora, numer maszyny i dzień tygodnia. Korzystając z tych danych proszę nakreślić kierunek działań, które trzeba podjąć jak najszybciej, aby poprawić jakość produkcji. W tym celu należy użyć Kreatora tabeli przestawnej i uporządkować wszystkie uszkodzenia według rodzaju, dnia tygodnia, użytej maszyny i operatora. Można nawet uporządkować dane według maszyny, operatora i tak dalej. Proszę założyć, że każdy operator wyprodukował tyle samo chipów. Zasada ta dotyczy również każdej maszyny.

Suma z Defect Machine      
Defect 1 2 3 4
1 24 12 16 13
2 28 22 20 16
3 36 21 18 21
4 40 12 16 16
5 5 5 5 5
Suma końcowa 133 72 75 71

Wnioski:

Maszyna pierwsza najczęściej uszkadza microchipy. Aby usprawnić produkcję i zmniejszyć liczbę uszkodzeń należałoby naprawić lub wymienić maszynę nr 1. Nie widzę zależności między ilością uszkodzeń, a dniem tygodnia.

Zadanie 2

Ocenić jakość opieki nad pacjentami po zawale serca przebywającymi na sali reanimacyjnej w klinice (ER) i w szpitalu dla najuboższych (CH). Dysponujemy następującymi danymi pacjentów z ostatniego miesiąca:

Licznik z Outcome   Outcome    
Hospital Risk Category Die Live Suma końcowa
CH High 31,82% 68,18% 100,00%
  Low 14,92% 85,08% 100,00%
CH Suma   16,75% 83,25% 100,00%
ER High 20,00% 80,00% 100,00%
  Low 7,50% 92,50% 100,00%
ER Suma   17,50% 82,50% 100,00%
Suma końcowa   17,12% 82,88% 100,00%

Wnioski:

Jak można zauważyć w tabeli procentowa ilość zgonów w szpitalu ER jest mniejsza zarówno w wysokim jak i niskim stopniu ryzyka, tym samym procentowa ilość pacjentów, którzy przeżyli w szpitalu ER jest większa niż w szpitalu CH.

Należy wybrać szpital ER.

Zadanie 3

Dysponujemy informacjami o poziomie indeksu Dow Jones w larach 1947-1992. Czy dane te wskazują jakiekolwiek nietypowe zmiany sezonowe w przychodach z akcji?

Suma z Return  
Month Suma
sty 0,875329117
lut 0,230922187
mar 0,440698494
kwi 0,562323009
maj 0,166102775
cze 0,037498294
lip 0,252703386
sie 0,196061841
wrz -0,006999203
paź -0,144953831
lis 0,162769998
gru 0,473119792
Suma końcowa 3,245575859

Wnioski:

Co roku w miesiącu październiku występują straty.

LAB 2

Zadanie 1

Zakład wytwarza trzy produkty (A, B i C). Jak można przewidzieć koszt działania zakładu na podstawie znajomości wielkości produkcji?

Dane zawierają informacje o koszcie funkcjonowania zakładu w ciągu 19 miesięcy, jak również o wypuszczonej co miesiąc liczbie produktów A, B i C. Proszę znaleźć najlepszą prognozę miesięcznego kosztu operacyjnego.

Iteracja 1:

Call:

lm(formula = Cost ~ ., data = a)

Residuals:

Min 1Q Median 3Q Max

-2266.9 -712.9 277.3 819.6 2048.3

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 34986.807 1883.957 18.571 2.93e-11 ***

Month -39.495 62.342 -0.634 0.5366

A.Made 2.234 1.720 1.299 0.2150

B.Made 4.013 1.735 2.313 0.0364 *

C.Made 5.376 2.047 2.627 0.0199 *

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1279 on 14 degrees of freedom

Multiple R-squared: 0.6553, Adjusted R-squared: 0.5569

F-statistic: 6.655 on 4 and 14 DF, p-value: 0.003229

Iteracja 2 (zmienne objaśniające: B Made i C Made):

Call:

lm(formula = Cost ~ B.Made + C.Made, data = a)

Residuals:

Min 1Q Median 3Q Max

-2129.7 -972.6 342.9 997.4 1860.1

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 35475.303 1842.861 19.250 1.72e-12 ***

B.Made 5.321 1.429 3.723 0.00185 **

C.Made 5.417 1.745 3.104 0.00683 **

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1274 on 16 degrees of freedom

Multiple R-squared: 0.6091, Adjusted R-squared: 0.5602

F-statistic: 12.46 on 2 and 16 DF, p-value: 0.0005456

Wnioski:

Przy pierwszej iteracji tworzenia modeli regresji liniowej istotność zmiennych objaśniających „Month” oraz „A Made” osiągnęły wartość większą niż 0.15. Wartość ta oznacza, że zmienne nie mają znaczącego wpływu na model.

Prz ponowenej iteracji dla dwóch zmiennych objaśniających: „B Made” oraz „ C Made” obydwie zmienne osiągnęły wystarczająco mały test istotności dla metody regresji liniowej. Współczynnik determinacji (R2), w drugiej iteracji osiągnął wartość 0.6091. Jest to wynik zadowalający.

Zadanie 2

Przez 12 kolejnych tygodni badaliśmy wielkość sprzedaży puszek z pomidorami (w sztukach) w sklepie Mr. Ds Supermarket. Z każdego tygodnia mamy następujące dane:

- Czy na wszystkich wózkach sklepowych była umieszczona ulotka o promocyjnej sprzedaży puszek z pomidorami?

- Czy były rozdawane kupony na puszki z pomidorami?

- Czy była obniżona cena (o 0, 1 lub 2 centy)?

Wykorzystując te dane proszę ustalić wpływ tych czynników na sprzedaż. Proszę przewidzieć wielkość sprzedaży puszek z pomidorami w tygodniu, w którym na wózkach umieszczona jest ulotka o promocji, są rozdawane kupony, a cena jest obniżona o 1 cent.

Iteracja 1:

Call:

lm(formula = Sales ~ ., data = a)

Residuals:

Min 1Q Median 3Q Max

-6.0417 -3.3229 -0.0625 3.3125 6.2083

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 14.042 3.089 4.545 0.001887 **

Cart.Notice.Yes 20.167 2.913 6.923 0.000122 ***

Coupon.Yes -1.167 2.913 -0.401 0.699248

Price.Reduction. 6.375 1.784 3.574 0.007251 **

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 5.045 on 8 degrees of freedom

Multiple R-squared: 0.8838, Adjusted R-squared: 0.8403

F-statistic: 20.29 on 3 and 8 DF, p-value: 0.0004268

Iteracja 2 (zmienna objaśniająca nie jest już „Cuppon”):

Call:

lm(formula = Sales ~ CartNotice + PriceReduction, data = a)

Residuals:

Min 1Q Median 3Q Max

-6.3750 -2.7396 -0.6458 2.7292 6.7917

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 13.458 2.594 5.187 0.000574 ***

CartNoticeYes 20.167 2.774 7.271 4.71e-05 ***

PriceReduction 6.375 1.698 3.753 0.004531 **

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.804 on 9 degrees of freedom

Multiple R-squared: 0.8815, Adjusted R-squared: 0.8552

F-statistic: 33.48 on 2 and 9 DF, p-value: 6.786e-05

Obliczenie przewidywanej wielkości sprzedaży dla danych z zadnia:

Sales = 1 * 20.167 + 1*6.375 + 13.458

Sales = 40

Przewidywana sprzedaż wynosi 40 puszek.

Wnioski:

Przy pierwszej iteracji tworzenia modeli regresji liniowej istotność zmiennych objaśniających „Cuppon” osiągnęła wartość mniejszą niż 0.15. Oznacza to, że zmienna nie ma istotnego wpływu na model.Ponownie wykonałem metodą regresji liniowej za pomocą środowiska R obliczenia, dla pozostałych zmiennych objaśniających. Zmienne osiągnęły wystarczająco mały test istotności dla metody regresji liniowej, współczynnik determinacji (R2), w drugiej iteracji osiągnął wartość 0.8815, jest to wynik zadowalający (większy nic 0.3).


Wyszukiwarka

Podobne podstrony:
I2A4S1 ArturPiersa LAB1i2
I2A4S1 ArturPiersa LAB3
I2A4S1 ArturPiersa LAB5
I2A4S1 ArturPiersa LAB4
I2A4S1 ArturPiersa LAB3
ArturPiersaI2Y3S1IO
I2A4S1 KuleszaMarcin LAB1
I2A4S1 KuleszaMarcin LAB2
ArturPiersaI2Y3S1IO
lab1i2

więcej podobnych podstron