I2A4S1 ArturPiersa LAB1i2

Analiza i wizualizacja danych



Laboratorium nr 1









Prowadzący: dr Jarosław Olejniczak

















Wykonał: Artur Piersa

Grupa: I2A4S1



Zadanie 1



Firma Chandler Enterprises produkuje mikrochipy. Znanych jest pięć rodzajów występujących uszkodzeń (oznaczanych cyframi od 1 do 5). Chipy są produkowane przez cztery urządzenia (1-4) kontrolowane przez dwóch operatorów (A i B). Dysponujemy próbką danych na temat uszkodzeń, obejmującą typ uszkodzenia, operatora, numer maszyny i dzień tygodnia. Korzystając z tych danych proszę nakreślić kierunek działań, które trzeba podjąć jak najszybciej, aby poprawić jakość produkcji. W tym celu należy użyć Kreatora tabeli przestawnej i uporządkować wszystkie uszkodzenia według rodzaju, dnia tygodnia, użytej maszyny i operatora. Można nawet uporządkować dane według maszyny, operatora i tak dalej. Proszę założyć, że każdy operator wyprodukował tyle samo chipów. Zasada ta dotyczy również każdej maszyny.



Suma z Defect

Machine

 

 

 

Defect

1

2

3

4

Suma końcowa

1

24

12

16

13

65

2

28

22

20

16

86

3

36

21

18

21

96

4

40

12

16

16

84

5

5

5

5

5

20

Suma końcowa

133

72

75

71

351







Wnioski:

Maszyna pierwsza najczęściej uszkadza microchipy. Aby usprawnić produkcję i zmniejszyć liczbę uszkodzeń należałoby naprawić lub wymienić maszynę nr 1. Nie widzę zależności między ilością uszkodzeń, a dniem tygodnia.











Zadanie 2



Ocenić jakość opieki nad pacjentami po zawale serca przebywającymi na sali reanimacyjnej w klinice (ER) i w szpitalu dla najuboższych (CH). Dysponujemy następującymi danymi pacjentów z ostatniego miesiąca:



Licznik z Outcome

 

Outcome

 

 

Hospital

Risk Category

Die

Live

Suma końcowa

CH

High

31,82%

68,18%

100,00%

 

Low

14,92%

85,08%

100,00%

CH Suma

 

16,75%

83,25%

100,00%

ER

High

20,00%

80,00%

100,00%

 

Low

7,50%

92,50%

100,00%

ER Suma

 

17,50%

82,50%

100,00%

Suma końcowa

 

17,12%

82,88%

100,00%











Wnioski:

Jak można zauważyć w tabeli procentowa ilość zgonów w szpitalu ER jest mniejsza zarówno w wysokim jak i niskim stopniu ryzyka, tym samym procentowa ilość pacjentów, którzy przeżyli w szpitalu ER jest większa niż w szpitalu CH.

Należy wybrać szpital ER.

Zadanie 3

Dysponujemy informacjami o poziomie indeksu Dow Jones w larach 1947-1992. Czy dane te wskazują jakiekolwiek nietypowe zmiany sezonowe w przychodach z akcji?

Suma z Return

 

Month

Suma

sty

0,875329117

lut

0,230922187

mar

0,440698494

kwi

0,562323009

maj

0,166102775

cze

0,037498294

lip

0,252703386

sie

0,196061841

wrz

-0,006999203

paź

-0,144953831

lis

0,162769998

gru

0,473119792

Suma końcowa

3,245575859







Wnioski:

Co roku w miesiącu październiku występują straty.





















LAB 2

Zadanie 1



Zakład wytwarza trzy produkty (A, B i C). Jak można przewidzieć koszt działania zakładu na podstawie znajomości wielkości produkcji?

Dane zawierają informacje o koszcie funkcjonowania zakładu w ciągu 19 miesięcy, jak również o wypuszczonej co miesiąc liczbie produktów A, B i C. Proszę znaleźć najlepszą prognozę miesięcznego kosztu operacyjnego.



Iteracja 1:

Call:

lm(formula = Cost ~ ., data = a)



Residuals:

Min 1Q Median 3Q Max

-2266.9 -712.9 277.3 819.6 2048.3



Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 34986.807 1883.957 18.571 2.93e-11 ***

Month -39.495 62.342 -0.634 0.5366

A.Made 2.234 1.720 1.299 0.2150

B.Made 4.013 1.735 2.313 0.0364 *

C.Made 5.376 2.047 2.627 0.0199 *

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1



Residual standard error: 1279 on 14 degrees of freedom

Multiple R-squared: 0.6553, Adjusted R-squared: 0.5569

F-statistic: 6.655 on 4 and 14 DF, p-value: 0.003229



Iteracja 2 (zmienne objaśniające: B Made i C Made):

Call:

lm(formula = Cost ~ B.Made + C.Made, data = a)



Residuals:

Min 1Q Median 3Q Max

-2129.7 -972.6 342.9 997.4 1860.1



Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 35475.303 1842.861 19.250 1.72e-12 ***

B.Made 5.321 1.429 3.723 0.00185 **

C.Made 5.417 1.745 3.104 0.00683 **

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1



Residual standard error: 1274 on 16 degrees of freedom

Multiple R-squared: 0.6091, Adjusted R-squared: 0.5602

F-statistic: 12.46 on 2 and 16 DF, p-value: 0.0005456











Wnioski:

Przy pierwszej iteracji tworzenia modeli regresji liniowej istotność zmiennych objaśniających „Month” oraz „A Made” osiągnęły wartość większą niż 0.15. Wartość ta oznacza, że zmienne nie mają znaczącego wpływu na model.

Prz ponowenej iteracji dla dwóch zmiennych objaśniających: „B Made” oraz „ C Made” obydwie zmienne osiągnęły wystarczająco mały test istotności dla metody regresji liniowej. Współczynnik determinacji (R2), w drugiej iteracji osiągnął wartość 0.6091. Jest to wynik zadowalający.



Zadanie 2

Przez 12 kolejnych tygodni badaliśmy wielkość sprzedaży puszek z pomidorami (w sztukach) w sklepie Mr. Ds Supermarket. Z każdego tygodnia mamy następujące dane:

- Czy na wszystkich wózkach sklepowych była umieszczona ulotka o promocyjnej sprzedaży puszek z pomidorami?

- Czy były rozdawane kupony na puszki z pomidorami?

- Czy była obniżona cena (o 0, 1 lub 2 centy)?

Wykorzystując te dane proszę ustalić wpływ tych czynników na sprzedaż. Proszę przewidzieć wielkość sprzedaży puszek z pomidorami w tygodniu, w którym na wózkach umieszczona jest ulotka o promocji, są rozdawane kupony, a cena jest obniżona o 1 cent.



Iteracja 1:

Call:

lm(formula = Sales ~ ., data = a)



Residuals:

Min 1Q Median 3Q Max

-6.0417 -3.3229 -0.0625 3.3125 6.2083



Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 14.042 3.089 4.545 0.001887 **

Cart.Notice.Yes 20.167 2.913 6.923 0.000122 ***

Coupon.Yes -1.167 2.913 -0.401 0.699248

Price.Reduction. 6.375 1.784 3.574 0.007251 **

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1



Residual standard error: 5.045 on 8 degrees of freedom

Multiple R-squared: 0.8838, Adjusted R-squared: 0.8403

F-statistic: 20.29 on 3 and 8 DF, p-value: 0.0004268

Iteracja 2 (zmienna objaśniająca nie jest już „Cuppon”):

Call:

lm(formula = Sales ~ CartNotice + PriceReduction, data = a)



Residuals:

Min 1Q Median 3Q Max

-6.3750 -2.7396 -0.6458 2.7292 6.7917



Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 13.458 2.594 5.187 0.000574 ***

CartNoticeYes 20.167 2.774 7.271 4.71e-05 ***

PriceReduction 6.375 1.698 3.753 0.004531 **

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1



Residual standard error: 4.804 on 9 degrees of freedom

Multiple R-squared: 0.8815, Adjusted R-squared: 0.8552

F-statistic: 33.48 on 2 and 9 DF, p-value: 6.786e-05



Obliczenie przewidywanej wielkości sprzedaży dla danych z zadnia:

Sales = 1 * 20.167 + 1*6.375 + 13.458

Sales = 40

Przewidywana sprzedaż wynosi 40 puszek.









Wnioski:

Przy pierwszej iteracji tworzenia modeli regresji liniowej istotność zmiennych objaśniających „Cuppon” osiągnęła wartość mniejszą niż 0.15. Oznacza to, że zmienna nie ma istotnego wpływu na model.Ponownie wykonałem metodą regresji liniowej za pomocą środowiska R obliczenia, dla pozostałych zmiennych objaśniających. Zmienne osiągnęły wystarczająco mały test istotności dla metody regresji liniowej, współczynnik determinacji (R2), w drugiej iteracji osiągnął wartość 0.8815, jest to wynik zadowalający (większy nic 0.3).







9


Wyszukiwarka

Podobne podstrony:
I2A4S1 ArturPiersa LAB1i2
I2A4S1 ArturPiersa LAB3
I2A4S1 ArturPiersa LAB5
I2A4S1 ArturPiersa LAB4
I2A4S1 ArturPiersa LAB3
ArturPiersaI2Y3S1IO
I2A4S1 KuleszaMarcin LAB1
I2A4S1 KuleszaMarcin LAB2
ArturPiersaI2Y3S1IO
lab1i2

więcej podobnych podstron