Metody i narzędzia Informatycznego Wspomagania decyzji
Zaliczenie laboratorium
Zadania teoretyczne:
1. Wylicz współczynnik zaufania oraz wsparcie oraz dla reguły regułę A -> C (jeżeli transakcja zawiera produkt A , to zawiera również produkt C), jeżeli zbiór wszystkich transakcji wygląda następująco:
Id
Produkty
transakcji
2. Dla przykładu z punktu poprzedniego wyznacz
1
AB
analogiczne współczynniki dla reguły: jeżeli w pierwszej
2
ABC
kolejności miało miejsce A, to w dalszej kolejności miało
3
AC
miejsce C, jeżeli produkty wymienione są w kolejności
wystąpienia. (analiza sekwencji).
4
BC
5
CA
3. Wyznacz odległość przedstawionych dwóch skupień metodą najbliższego sąsiedztwa oraz najdalszego sąsiedztwa, odległości środków ciężkości oraz średniej odległości.
4. Wyznacz odchylenia standardowe dla skupień przedstawionych na rysunku powyżej oraz całkowity rozrzut
5. Do którego skupienia będzie po kolejnym kroku algorytmu grupowania metodą K-
średnich należał będzie punkt X2, a do jakiego X4 ?
6. Ile wynosi entropia pod kątem atrybutu Target następującego zbioru danych 7. Zakładając, że powyższe rekordy stanowią węzeł drzewa decyzyjnego, wyznacz atrybut ( X1 czy X2), względem którego nastąpi podział danych znajdujących się w tym węźle
Metody i narzędzia Informatycznego Wspomagania decyzji Zaliczenie laboratorium
X1
X2
TARGET
A
D
T
A
D
T
B
D
N
B
D
N
A
D
T
A
D
T
B
C
T
B
C
T
:
8) Wyznacz równanie regresji liniowej dla następującej zależności ceny samochodu od jego wieku:
X (wiek
1
2
3
4
5
6
7
8
9
samochodu)
Y (cena
60
55
51
48
44
35
28
20
15
samochodu)
9) Wyznacz wartości teoretyczne (prognozowane) za pomocą następującego modelu regresji dla przedstawionych poniżej danych. Wyznacz wariancję resztową i odchylenie standardowe reszt.
Y = 2 + 3 ⋅ X
1
X1
Y
Yˆ
3
12
4
16
1
3
5
16
4
15
10) Zbudowano model predykcyjny w oparciu o analizę regresji dla prognozowania wartości samochodu. Uzyskano następujący model:
Y = 70 – 5*W – 0,05 * P + 10 * S,
Gdzie:
Y – cena samochodu w tys. złotych
W – wiek samochodu w latach
P – przebieg samochodu w tysiącach kilometrów
S – pojemność silnika w litrach.
O ile zmniejszy się wartość samochodu po pierwszym roku użytkowania, jeżeli przejedzie on w tym czasie 40 tys. km?
Metody i narzędzia Informatycznego Wspomagania decyzji Zaliczenie laboratorium
Zadania praktyczne:
1. Wykonaj analizę asocjacji dla danych opisujących transakcje w supermarkecie. (Zbiór SAMPSIO.ASSOCS).
a. Podaj liczbę wszystkich dwuczłonowych reguł, dla których poziom zaufania przekracza 30%.
b. Wskaż dwuczłonową regułę która ma największy poziomo wsparcia. Ile wynoszą pozostałe współczynniki dla tej reguły?
c. Wskaż dwuczłonową regułę o największym poziomie zaufania.
d. Wskaż regułę największym poziomie zaufania wśród reguł trzyczłonowych.
2. Ile wynosi współczynnik wsparcia wyznaczony dla reguły z podpunktu b), jeżeli przyjmiemy że reguła uwzględnia kolejność wkładanych do koszyka produktów ?
(analiza sekwencji).
3. Wykonaj grupowanie graczy z narzuconą liczbą 4 skupień. Wykorzystaj do tego zbiór SAMPSIO.BASEBALL. Jako zmienne wykorzystywane w analizie wykorzystaj wszystkie zmienne ciągłe, ustandaryzowane zakresowo.
a. Na podstawie wykonanej klasteryzacji wybierz najbardziej jednorodne skupienie – podaj wartości wskaźników, które o tym świadczą:
i. …………………………………………………………………………
ii. …………………………………………………………………………
b. Podaj, liczbę graczy zaklasyfikowanych do tego skupienia.
c. Wymień kilka nazwisk graczy, zaklasyfikowanych do tego skupienia d. Podaj średnią wartość płacy gracza w grupie graczy, charakteryzującej się najwyższymi zarobkami.
e. Dla skupienia z punktu d) podaj:
i. Wartość odchylenia standardowego
ii. Promień skupienia (maksymalną odległość obserwacji od środka
ciężkości)
4. Wykonaj analizę regresji dla zbioru SAMPSIO.DMEXA1, zakładając że poszukujemy zależności pomiędzy AMOUNT ( wartość dokonanych zakupów) a zmiennymi: wiek kupującego (AGE), częstotliwość dokonywania zakupów (FREQUENT), wartość gospodarstwa domowego (HOMEVAL), dochód
(INCOME).
a. Na podstawie wyników działania komponentu napisz równanie prostej regresji.
b. Oceń jakość dopasowania modelu. Podaj nazwę i wartość wskaźnika jakim się posłużyłeś.
c. Podaj błąd oszacowania parametru dla zmiennej AGE.
5. Zbuduj drzewo decyzyjne dla zmiennej GOOD_BAD w zbiorze
SAMPSIO.DMAGECR (dane o klientach zaciągających kredyt). .Jako zmienne wejściowe wykorzystaj wszystkie pozostałe zmienne.
a. Jaki atrybut posłużył do podziału w korzeniu drzewa decyzyjnego ?
b. Podaj głębokość uzyskanego drzewa decyzyjnego.
c. Ile obserwacji zawiera najliczniejszy liść ? Jaką wartość przyjmuje dla niego zmienna decyzyjna ?