SAS Enterprise Miner Analiza skupień – laboratorium nr 2 - klucz.
Wczytać z pliku NUTRITION.DAT do zbioru NUTRITION dane dotyczące zawartości
składników odżywczych w poszczególnych produktach spożywczych.
Przeprowadzić grupowanie produktów (analiza skupień) przy pomocy narzędzia SAS EM
według następującego scenariusza:
1.
Zbadać statystki opisowe poszczególnych zmiennych oraz zapoznać się z
histogramami.
a)
Która ze zmiennych ma rozkład najbardziej zbliżony do
równomiernego ?
Odp. PROTEIN – zmienna ta posiada najmniejsze odchylenie
standardowe w porównaniu ze średnią (współczynnik zmienności)
b)
Która ze zmiennych ma najbardziej symetryczny rozkład, a której
zmiennej rozkład wartości jest najbardziej skośny ?
Odp. Najbardziej symetryczny rozkład ma zmienna ENERGY –
współczynnik skośności (SKEWNESS) przyjmuje wartość najbliższą 0.
Najbardziej skośny rozkład posiada zmienna CACLIUM ( największa
wartość bezwzględna współczynnika skośności).
2.
Podzielić wszystkie produkty spożywcze na grupy przy następujących
założeniach:
• Zakresowa standaryzacja wszystkich zmiennych
• Automatyczny dobór liczby grup
• Przyjąć metodę grupowania opartą na odległościach środków
ciężkości (CENTROID)
• Ograniczyć maksymalną liczbę wyznaczonych skupień do 10
a)
Ile skupień zostało wyznaczonych ?
Odp. 4 skupienia.
b)
Które skupienie jest najbardziej jednorodne? Które jest najmniej
jednorodne ?
Odp. Najbardziej jednorodnym skupieniem jest skupienie nr. 3, ze
względu na najmniejsze odchylenie standardowe (0.109).
Maksymalna odległość obserwacji od środka skupienia jest niewielka
(0,49) w porównaniu z odpowiednimi odległościami w pozostałych
skupieniach (minimalny promień ma skupienie 2 i wynosi on 0.43).
c)
Jak można scharakteryzować poszczególne skupienia ?
Skupienie nr 4 – niskokaloryczne produkty, bogate w żelazo (owoce
morza)
Skupienie nr 3 – wysokaloryczne, tłuste produkty mięsne.
Skupienie nr 1 – Produkty zawierające dużo wapnia
Skupienie nr 2 – produkty zawierające dużo protein (ryby)
d)
Odczytaj, które produkty zostały przydzielone do których skupień ?
Odp. Skupienie nr 3 zawiera: Braised beef, Hamburger, Roast beef.
Beefsteek, roast lamb leg, roast lamb shoulder, smoke ham etc.
e)
Podaj statystyki poszczególnych skupień: liczbę elementów,
odchylenie wewnątrzskupieniowe, maksymalną odległość od środka
ciężkości (wartości dla wypełnienia tabeli).
f)
Odczytać jaką średnią wartość przyjmują poszczególne zmienne w
poszczególnych skupieniach.
Odp.
Skupienie
nr:
E
le
m
en
ty
p
rz
y
d
zi
el
o
n
e
d
o
s
k
u
p
ie
n
ia
L
ic
zb
a
el
em
en
tó
w
O
d
c
h
y
le
n
ie
w
ew
n
ą
tr
zs
k
u
p
ie
n
io
w
e
M
ak
sy
m
al
n
a
o
d
le
g
ło
ść
o
d
ś
ro
d
k
a
ci
ę
ż
k
o
śc
i
Ś
re
d
n
ia
w
ar
to
ść
z
m
ie
n
n
ej
F
A
T
el
em
en
tó
w
n
al
e
ż
ą
cy
ch
d
o
s
k
u
p
ie
n
ia
Ś
re
d
n
ia
w
ar
to
ść
z
m
ie
n
n
ej
..
.
.
el
em
en
tó
w
O
b
se
rw
ac
ja
za
k
la
sy
fi
k
o
w
a
n
a
d
o
g
ru
p
y
,
n
aj
b
ar
d
zi
ej
„o
d
st
aj
ą
ca
”
CLUSTER 1
Canned beef
Broiled chicken
Canned chicken
…..
12
0.164
0.652
7.417
…
Beef heart
CLUSTER 2
Cannes salmon
Cannes mackarel
Cannes sardines
3
0.188
0.464
7.667
….
Canned sardines
…………….
…….
3.
Dodać do diagramu węzeł SAS_CODE, dla wykonania następujących operacji:
a)
Dodać węzeł SAS_CODE aby w wyniku analizy powstawał zbiór
SASLIB.NUTRITION_GROUPS, z dodatkową kolumną
CLUSTER_ID, w której będzie identyfikator klastra.
b)
Zmodyfikować diagram procesu tak, aby w wyniku powstawał zbiór
SASLIB.NUTRITION_CLUSTERS, tak aby zawierał wszystkie
statystyki poszczególnych grup.