SAS Enterprise Miner Analiza skupień – laboratorium nr 2 .
Wczytać z pliku NUTRITION.DAT do zbioru NUTRITION dane dotyczące zawartości
składników odżywczych w poszczególnych produktach spożywczych.
Przeprowadzić grupowanie produktów (analiza skupień) przy pomocy narzędzia SAS EM
według następującego scenariusza:
1.
Zbadać statystki opisowe poszczególnych zmiennych oraz zapoznać się z
histogramami.
a)
Która ze zmiennych ma rozkład najbardziej zbliżony do
równomiernego ?
b)
Która ze zmiennych ma najbardziej symetryczny rozkład a której
zmiennej rozkład wartości jest najbardziej skośny ?
2.
Podzielić wszystkie produkty spożywcze na grupy przy następujących
założeniach:
• Zakresowa standaryzacja wszystkich zmiennych
• Automatyczny dobór liczby grup
• Przyjąć metodę grupowania opartą na odległościach środków
ciężkości (CENTROID)
• Ograniczyć maksymalną liczbę wyznaczonych skupień do 10.
a)
Ile skupień zostało wyznaczonych ?
b)
Które skupienie jest najbardziej jednorodne? Które jest najmniej
jednorodne ?
c)
Jak można scharakteryzować poszczególne skupienia ?
d)
Odczytaj, które produkty zostały przydzielone do których skupień ?
e)
Podaj statystyki poszczególnych skupień: liczbę elementów,
odchylenie wewnątrzskupieniowe, maksymalną odległość od środka
ciężkości ( wartości dla wypełnienia tabeli).
Skupienie nr:
E
le
m
en
ty
p
rz
y
d
zi
el
o
n
e
d
o
s
k
u
p
ie
n
ia
L
ic
zb
a
el
em
en
tó
w
O
d
c
h
y
le
n
ie
w
ew
n
ą
tr
zs
k
u
p
ie
n
io
w
e
M
a
k
sy
m
al
n
a
o
d
le
g
ło
ść
o
d
śr
o
d
k
a
ci
ę
żk
o
śc
i
Ś
re
d
n
ia
w
ar
to
ść
zm
ie
n
n
ej
X
d
la
e
le
m
en
tó
w
n
al
e
ż
ą
cy
c
h
d
o
O
b
se
rw
ac
ja
za
k
la
sy
fi
k
o
w
a
n
a
d
o
g
ru
p
y
,
n
aj
b
ar
d
zi
ej
„o
d
st
aj
ą
ca
”
CLUSTER 1
CLUSTER 2
…………….
f)
Odczytać jaką średnią wartość przyjmują poszczególne zmienne w
poszczególnych skupieniach.
3.
Dodać do diagramu węzeł SAS_CODE, dla wykonania następujących operacji:
a)
Dodać węzeł SAS_CODE aby w wyniku analizy powstawał zbiór
SASLIB.NUTRITION_GROUPS, z dodatkową kolumną
CLUSTER_ID, w której będzie identyfikator klastra.
b)
Zmodyfikować diagram procesu tak, aby w wyniku powstawał zbiór
SASLIB.NUTRITION_CLUSTERS, tak aby zawierał wszystkie
statystyki poszczególnych grup.