Analiza i wizualizacja danych
Laboratorium nr 1
Prowadzący: dr Jarosław Olejniczak
Wykonał: Artur Piersa
Grupa: I2A4S1
Zadanie 1
Firma Chandler Enterprises produkuje mikrochipy. Znanych jest pięć rodzajów występujących uszkodzeń (oznaczanych cyframi od 1 do 5). Chipy są produkowane przez cztery urządzenia (1-4) kontrolowane przez dwóch operatorów (A i B). Dysponujemy próbką danych na temat uszkodzeń, obejmującą typ uszkodzenia, operatora, numer maszyny i dzień tygodnia. Korzystając z tych danych proszę nakreślić kierunek działań, które trzeba podjąć jak najszybciej, aby poprawić jakość produkcji. W tym celu należy użyć Kreatora tabeli przestawnej i uporządkować wszystkie uszkodzenia według rodzaju, dnia tygodnia, użytej maszyny i operatora. Można nawet uporządkować dane według maszyny, operatora i tak dalej. Proszę założyć, że każdy operator wyprodukował tyle samo chipów. Zasada ta dotyczy również każdej maszyny.
Suma z Defect | Machine | |||
---|---|---|---|---|
Defect | 1 | 2 | 3 | 4 |
1 | 24 | 12 | 16 | 13 |
2 | 28 | 22 | 20 | 16 |
3 | 36 | 21 | 18 | 21 |
4 | 40 | 12 | 16 | 16 |
5 | 5 | 5 | 5 | 5 |
Suma końcowa | 133 | 72 | 75 | 71 |
Wnioski:
Maszyna pierwsza najczęściej uszkadza microchipy. Aby usprawnić produkcję i zmniejszyć liczbę uszkodzeń należałoby naprawić lub wymienić maszynę nr 1. Nie widzę zależności między ilością uszkodzeń, a dniem tygodnia.
Zadanie 2
Ocenić jakość opieki nad pacjentami po zawale serca przebywającymi na sali reanimacyjnej w klinice (ER) i w szpitalu dla najuboższych (CH). Dysponujemy następującymi danymi pacjentów z ostatniego miesiąca:
Szpital: Gdzie pacjent został przyjęty: ER czy CH.
Stopień ryzyka - wysoki (High) czy niski (Low). Osoby o wysokim stopniu ryzyka mają mniejszą szansę przeżycia niż osoby o niskim stopniu ryzyka.
Stan końcowy pacjenta - żyje (live), zmarł (die)
Licznik z Outcome | Outcome | |||
---|---|---|---|---|
Hospital | Risk Category | Die | Live | Suma końcowa |
CH | High | 31,82% | 68,18% | 100,00% |
Low | 14,92% | 85,08% | 100,00% | |
CH Suma | 16,75% | 83,25% | 100,00% | |
ER | High | 20,00% | 80,00% | 100,00% |
Low | 7,50% | 92,50% | 100,00% | |
ER Suma | 17,50% | 82,50% | 100,00% | |
Suma końcowa | 17,12% | 82,88% | 100,00% |
Wnioski:
Jak można zauważyć w tabeli procentowa ilość zgonów w szpitalu ER jest mniejsza zarówno w wysokim jak i niskim stopniu ryzyka, tym samym procentowa ilość pacjentów, którzy przeżyli w szpitalu ER jest większa niż w szpitalu CH.
Należy wybrać szpital ER.
Zadanie 3
Dysponujemy informacjami o poziomie indeksu Dow Jones w larach 1947-1992. Czy dane te wskazują jakiekolwiek nietypowe zmiany sezonowe w przychodach z akcji?
Suma z Return | |
---|---|
Month | Suma |
sty | 0,875329117 |
lut | 0,230922187 |
mar | 0,440698494 |
kwi | 0,562323009 |
maj | 0,166102775 |
cze | 0,037498294 |
lip | 0,252703386 |
sie | 0,196061841 |
wrz | -0,006999203 |
paź | -0,144953831 |
lis | 0,162769998 |
gru | 0,473119792 |
Suma końcowa | 3,245575859 |
Wnioski:
Co roku w miesiącu październiku występują straty.
LAB 2
Zadanie 1
Zakład wytwarza trzy produkty (A, B i C). Jak można przewidzieć koszt działania zakładu na podstawie znajomości wielkości produkcji?
Dane zawierają informacje o koszcie funkcjonowania zakładu w ciągu 19 miesięcy, jak również o wypuszczonej co miesiąc liczbie produktów A, B i C. Proszę znaleźć najlepszą prognozę miesięcznego kosztu operacyjnego.
Iteracja 1:
Call:
lm(formula = Cost ~ ., data = a)
Residuals:
Min 1Q Median 3Q Max
-2266.9 -712.9 277.3 819.6 2048.3
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 34986.807 1883.957 18.571 2.93e-11 ***
Month -39.495 62.342 -0.634 0.5366
A.Made 2.234 1.720 1.299 0.2150
B.Made 4.013 1.735 2.313 0.0364 *
C.Made 5.376 2.047 2.627 0.0199 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1279 on 14 degrees of freedom
Multiple R-squared: 0.6553, Adjusted R-squared: 0.5569
F-statistic: 6.655 on 4 and 14 DF, p-value: 0.003229
Iteracja 2 (zmienne objaśniające: B Made i C Made):
Call:
lm(formula = Cost ~ B.Made + C.Made, data = a)
Residuals:
Min 1Q Median 3Q Max
-2129.7 -972.6 342.9 997.4 1860.1
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 35475.303 1842.861 19.250 1.72e-12 ***
B.Made 5.321 1.429 3.723 0.00185 **
C.Made 5.417 1.745 3.104 0.00683 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1274 on 16 degrees of freedom
Multiple R-squared: 0.6091, Adjusted R-squared: 0.5602
F-statistic: 12.46 on 2 and 16 DF, p-value: 0.0005456
Wnioski:
Przy pierwszej iteracji tworzenia modeli regresji liniowej istotność zmiennych objaśniających „Month” oraz „A Made” osiągnęły wartość większą niż 0.15. Wartość ta oznacza, że zmienne nie mają znaczącego wpływu na model.
Prz ponowenej iteracji dla dwóch zmiennych objaśniających: „B Made” oraz „ C Made” obydwie zmienne osiągnęły wystarczająco mały test istotności dla metody regresji liniowej. Współczynnik determinacji (R2), w drugiej iteracji osiągnął wartość 0.6091. Jest to wynik zadowalający.
Zadanie 2
Przez 12 kolejnych tygodni badaliśmy wielkość sprzedaży puszek z pomidorami (w sztukach) w sklepie Mr. Ds Supermarket. Z każdego tygodnia mamy następujące dane:
- Czy na wszystkich wózkach sklepowych była umieszczona ulotka o promocyjnej sprzedaży puszek z pomidorami?
- Czy były rozdawane kupony na puszki z pomidorami?
- Czy była obniżona cena (o 0, 1 lub 2 centy)?
Wykorzystując te dane proszę ustalić wpływ tych czynników na sprzedaż. Proszę przewidzieć wielkość sprzedaży puszek z pomidorami w tygodniu, w którym na wózkach umieszczona jest ulotka o promocji, są rozdawane kupony, a cena jest obniżona o 1 cent.
Iteracja 1:
Call:
lm(formula = Sales ~ ., data = a)
Residuals:
Min 1Q Median 3Q Max
-6.0417 -3.3229 -0.0625 3.3125 6.2083
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 14.042 3.089 4.545 0.001887 **
Cart.Notice.Yes 20.167 2.913 6.923 0.000122 ***
Coupon.Yes -1.167 2.913 -0.401 0.699248
Price.Reduction. 6.375 1.784 3.574 0.007251 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 5.045 on 8 degrees of freedom
Multiple R-squared: 0.8838, Adjusted R-squared: 0.8403
F-statistic: 20.29 on 3 and 8 DF, p-value: 0.0004268
Iteracja 2 (zmienna objaśniająca nie jest już „Cuppon”):
Call:
lm(formula = Sales ~ CartNotice + PriceReduction, data = a)
Residuals:
Min 1Q Median 3Q Max
-6.3750 -2.7396 -0.6458 2.7292 6.7917
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 13.458 2.594 5.187 0.000574 ***
CartNoticeYes 20.167 2.774 7.271 4.71e-05 ***
PriceReduction 6.375 1.698 3.753 0.004531 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.804 on 9 degrees of freedom
Multiple R-squared: 0.8815, Adjusted R-squared: 0.8552
F-statistic: 33.48 on 2 and 9 DF, p-value: 6.786e-05
Obliczenie przewidywanej wielkości sprzedaży dla danych z zadnia:
Sales = 1 * 20.167 + 1*6.375 + 13.458
Sales = 40
Przewidywana sprzedaż wynosi 40 puszek.
Wnioski:
Przy pierwszej iteracji tworzenia modeli regresji liniowej istotność zmiennych objaśniających „Cuppon” osiągnęła wartość mniejszą niż 0.15. Oznacza to, że zmienna nie ma istotnego wpływu na model.Ponownie wykonałem metodą regresji liniowej za pomocą środowiska R obliczenia, dla pozostałych zmiennych objaśniających. Zmienne osiągnęły wystarczająco mały test istotności dla metody regresji liniowej, współczynnik determinacji (R2), w drugiej iteracji osiągnął wartość 0.8815, jest to wynik zadowalający (większy nic 0.3).