Analiza i wizualizacja danych
Laboratorium nr 1
Prowadzący: dr Jarosław Olejniczak
Wykonał: Marcin Kulesza
Grupa: I2A4S1
Zadania do samodzielnego wykonania:
Zadanie 1
Firma Chandler Enterprises produkuje mikrochipy. Znanych jest pięć rodzajów występujących uszkodzeń (oznaczanych cyframi od 1 do 5). Chipy są produkowane przez cztery urządzenia (1-4) kontrolowane przez dwóch operatorów (A i B). Dysponujemy próbką danych na temat uszkodzeń, obejmującą typ uszkodzenia, operatora, numer maszyny i dzień tygodnia. Korzystając z tych danych proszę nakreślić kierunek działań, które trzeba podjąć jak najszybciej, aby poprawić jakość produkcji. W tym celu należy użyć Kreatora tabeli przestawnej i uporządkować wszystkie uszkodzenia według rodzaju, dnia tygodnia, użytej maszyny i operatora. Można nawet uporządkować dane według maszyny, operatora i tak dalej. Proszę założyć, że każdy operator wyprodukował tyle samo chipów. Zasada ta dotyczy również każdej maszyny.
Suma z Defect | Machine | |||
---|---|---|---|---|
Defect | 1 | 2 | 3 | 4 |
1 | 24 | 12 | 16 | 13 |
2 | 28 | 22 | 20 | 16 |
3 | 36 | 21 | 18 | 21 |
4 | 40 | 12 | 16 | 16 |
5 | 5 | 5 | 5 | 5 |
Suma końcowa | 133 | 72 | 75 | 71 |
Wnioski:
Maszyna pierwsza najczęściej uszkadza microchipy. Aby usprawnić produkcję i zmniejszyć liczbę uszkodzeń należałoby naprawić lub wymienić maszynę nr 1. Nie widzę zależności między ilością uszkodzeń, a dniem tygodnia.
Jak widać na w.w. tabeli i wykresie maszyna nr 1 popełnia więcej uszkodzeń niż inne maszyny. Aby usprawnić proces produkcji i minimalizować ilość uszkodzeń należy wymienić tę maszynę. Nie należy wysuwać mylnego wniosku, że operator A popełnia więcej błędów niż operator B ponieważ, operator B nie pracuję na maszynie nr 1. Nie zauważyłem zależności pomiędzy ilością uszkodzeń a dniem tygodnia.
Należy naprawić / wymienić maszynę nr 1.
Zadanie 2
Otrzymaliśmy zadanie, aby ocenić jakość opieki nad pacjentami po zawale serca przebywającymi na sali reanimacyjnej w klinice (ER) i w szpitalu dla najuboższych (CH). Dysponujemy następującymi danymi pacjentów z ostatniego miesiąca:
· Szpital. Gdzie pacjent został przyjęty, do ER czy CH.
· Stopień ryzyka - wysoki (High) czy niski (Low). Osoby o wysokim stopniu ryzyka mają mniejszą szansę przeżycia niż osoby o niskim stopniu ryzyka.
· Stan końcowy pacjenta - żyje (live) czy zmarł (die)
Licznik z Outcome | Outcome | |||
---|---|---|---|---|
Hospital | Risk Category | Die | Live | Suma końcowa |
CH | High | 31,82% | 68,18% | 100,00% |
Low | 14,92% | 85,08% | 100,00% | |
CH Suma | 16,75% | 83,25% | 100,00% | |
ER | High | 20,00% | 80,00% | 100,00% |
Low | 7,50% | 92,50% | 100,00% | |
ER Suma | 17,50% | 82,50% | 100,00% | |
Suma końcowa | 17,12% | 82,88% | 100,00% |
Wnioski:
Jak można zauważyć na w.w. tabeli procentowa ilość zgonów w szpitalu ER jest mniejsza zarówno w wysokim jak i niskim stopniu ryzyka, tym samym procentowa ilość pacjentów którzy przeżyli w szpitalu ER jest większa niż w szpitalu CH.
Należy wybrać szpital ER.
Zadanie 3
Dysponujemy informacjami o poziomie indeksu Dow Jones w larach 1947-1992. Czy dane te wskazują jakiekolwiek nietypowe zmiany sezonowe w przychodach z akcji ?
Suma z Return | |
---|---|
Month | Suma |
sty | 0,875329117 |
lut | 0,230922187 |
mar | 0,440698494 |
kwi | 0,562323009 |
maj | 0,166102775 |
cze | 0,037498294 |
lip | 0,252703386 |
sie | 0,196061841 |
wrz | -0,006999203 |
paź | -0,144953831 |
lis | 0,162769998 |
gru | 0,473119792 |
Suma końcowa | 3,245575859 |
Wnioski:
Co roku w miesiącu październiku występują straty.