Metody i narzędzia Informatycznego Wspomagania decyzji
Zaliczenie laboratorium
Zadania teoretyczne:
1.
Wylicz współczynnik zaufania oraz wsparcie oraz dla reguły regułę A -> C (jeżeli
transakcja zawiera produkt A , to zawiera również produkt C), jeżeli zbiór wszystkich
transakcji wygląda następująco:
2.
Dla przykładu z punktu poprzedniego wyznacz
analogiczne współczynniki dla reguły: jeżeli w pierwszej
kolejności miało miejsce A, to w dalszej kolejności miało
miejsce C, jeżeli produkty wymienione są w kolejności
wystąpienia. (analiza sekwencji).
3.
Wyznacz odległość przedstawionych dwóch skupień metodą najbliższego sąsiedztwa
oraz najdalszego sąsiedztwa, odległości środków ciężkości oraz średniej odległości.
4.
Wyznacz odchylenia standardowe dla skupień przedstawionych na rysunku powyżej
oraz całkowity rozrzut
5.
Do którego skupienia będzie po kolejnym kroku algorytmu grupowania metodą K-
ś
rednich należał będzie punkt X2, a do jakiego X4 ?
6.
Ile wynosi entropia pod kątem atrybutu Target następującego zbioru danych
7.
Zakładając, że powyższe rekordy stanowią węzeł drzewa decyzyjnego, wyznacz
atrybut ( X1 czy X2), względem którego nastąpi podział danych znajdujących się w
tym węźle
Id
transakcji
Produkty
1
AB
2
ABC
3
AC
4
BC
5
CA
Metody i narzędzia Informatycznego Wspomagania decyzji
Zaliczenie laboratorium
:
8) Wyznacz równanie regresji liniowej dla następującej zależności ceny samochodu od jego
wieku:
X (wiek
samochodu)
1
2
3
4
5
6
7
8
9
Y (cena
samochodu)
60
55
51
48
44
35
28
20
15
9) Wyznacz wartości teoretyczne (prognozowane) za pomocą następującego modelu regresji
dla przedstawionych poniżej danych. Wyznacz wariancję resztową i odchylenie standardowe
reszt.
1
3
2
X
Y
⋅
+
=
X
1
Y
Yˆ
3
12
4
16
1
3
5
16
4
15
10) Zbudowano model predykcyjny w oparciu o analiz
ę
regresji dla prognozowania warto
ś
ci
samochodu. Uzyskano nast
ę
puj
ą
cy model:
Y = 70 – 5*W – 0,05 * P + 10 * S,
Gdzie:
Y – cena samochodu w tys. złotych
W – wiek samochodu w latach
P – przebieg samochodu w tysi
ą
cach kilometrów
S – pojemno
ść
silnika w litrach.
O ile zmniejszy si
ę
warto
ść
samochodu po pierwszym roku u
ż
ytkowania, je
ż
eli
przejedzie on w tym czasie 40 tys. km?
X1
X2
TARGET
A
D
T
A
D
T
B
D
N
B
D
N
A
D
T
A
D
T
B
C
T
B
C
T
Metody i narzędzia Informatycznego Wspomagania decyzji
Zaliczenie laboratorium
Zadania praktyczne:
1.
Wykonaj analiz
ę
asocjacji dla danych opisuj
ą
cych transakcje w supermarkecie. (Zbiór
SAMPSIO.ASSOCS).
a.
Podaj liczb
ę
wszystkich dwuczłonowych reguł, dla których poziom zaufania
przekracza 30%.
b.
Wska
ż
dwuczłonow
ą
reguł
ę
która ma najwi
ę
kszy poziomo wsparcia. Ile
wynosz
ą
pozostałe współczynniki dla tej reguły?
c.
Wska
ż
dwuczłonow
ą
reguł
ę
o najwi
ę
kszym poziomie zaufania.
d.
Wska
ż
reguł
ę
najwi
ę
kszym poziomie zaufania w
ś
ród reguł trzyczłonowych.
2.
Ile wynosi współczynnik wsparcia wyznaczony dla reguły z podpunktu b), je
ż
eli
przyjmiemy
ż
e reguła uwzgl
ę
dnia kolejno
ść
wkładanych do koszyka produktów ?
(analiza sekwencji).
3.
Wykonaj grupowanie graczy z narzucon
ą
liczb
ą
4 skupie
ń
. Wykorzystaj do tego zbiór
SAMPSIO.BASEBALL. Jako zmienne wykorzystywane w analizie wykorzystaj
wszystkie zmienne ci
ą
głe, ustandaryzowane zakresowo.
a.
Na podstawie wykonanej klasteryzacji wybierz najbardziej jednorodne
skupienie – podaj warto
ś
ci wska
ź
ników, które o tym
ś
wiadcz
ą
:
i.
…………………………………………………………………………
ii.
…………………………………………………………………………
b.
Podaj, liczb
ę
graczy zaklasyfikowanych do tego skupienia.
c.
Wymie
ń
kilka nazwisk graczy, zaklasyfikowanych do tego skupienia
d.
Podaj
ś
redni
ą
warto
ść
płacy gracza w grupie graczy, charakteryzuj
ą
cej si
ę
najwy
ż
szymi zarobkami.
e.
Dla skupienia z punktu d) podaj:
i.
Warto
ść
odchylenia standardowego
ii.
Promie
ń
skupienia (maksymaln
ą
odległo
ść
obserwacji od
ś
rodka
ci
ęż
ko
ś
ci)
4.
Wykonaj analiz
ę
regresji dla zbioru SAMPSIO.DMEXA1, zakładaj
ą
c
ż
e
poszukujemy zale
ż
no
ś
ci pomi
ę
dzy AMOUNT ( warto
ść
dokonanych zakupów) a
zmiennymi: wiek kupuj
ą
cego (AGE), cz
ę
stotliwo
ść
dokonywania zakupów
(FREQUENT), warto
ść
gospodarstwa domowego (HOMEVAL), dochód
(INCOME).
a.
Na podstawie wyników działania komponentu napisz równanie prostej
regresji.
b.
Oce
ń
jako
ść
dopasowania modelu. Podaj nazw
ę
i warto
ść
wska
ź
nika jakim si
ę
posłu
ż
yłe
ś
.
c.
Podaj bł
ą
d oszacowania parametru dla zmiennej AGE.
5.
Zbuduj drzewo decyzyjne dla zmiennej GOOD_BAD w zbiorze
SAMPSIO.DMAGECR (dane o klientach zaci
ą
gaj
ą
cych kredyt). .Jako zmienne
wej
ś
ciowe wykorzystaj wszystkie pozostałe zmienne.
a.
Jaki atrybut posłu
ż
ył do podziału w korzeniu drzewa decyzyjnego ?
b.
Podaj gł
ę
boko
ść
uzyskanego drzewa decyzyjnego.
c.
Ile obserwacji zawiera najliczniejszy li
ść
? Jak
ą
warto
ść
przyjmuje dla niego
zmienna decyzyjna ?