L2 analiza skupień klucz

background image

SAS Enterprise Miner Analiza skupień – laboratorium nr 2 - klucz.

Wczytać z pliku NUTRITION.DAT do zbioru NUTRITION dane dotyczące zawartości
składników odżywczych w poszczególnych produktach spożywczych.


Przeprowadzić grupowanie produktów (analiza skupień) przy pomocy narzędzia SAS EM
według następującego scenariusza:

1.

Zbadać statystki opisowe poszczególnych zmiennych oraz zapoznać się z

histogramami.

a)

Która ze zmiennych ma rozkład najbardziej zbliżony do

równomiernego ?
Odp. PROTEIN – zmienna ta posiada najmniejsze odchylenie
standardowe w porównaniu ze średnią (współczynnik zmienności)


b)

Która ze zmiennych ma najbardziej symetryczny rozkład, a której

zmiennej rozkład wartości jest najbardziej skośny ?

Odp. Najbardziej symetryczny rozkład ma zmienna ENERGY –
współczynnik skośności (SKEWNESS) przyjmuje wartość najbliższą 0.
Najbardziej skośny rozkład posiada zmienna CACLIUM ( największa
wartość bezwzględna współczynnika skośności).



background image

2.

Podzielić wszystkie produkty spożywcze na grupy przy następujących

założeniach:

• Zakresowa standaryzacja wszystkich zmiennych

• Automatyczny dobór liczby grup
• Przyjąć metodę grupowania opartą na odległościach środków

ciężkości (CENTROID)

• Ograniczyć maksymalną liczbę wyznaczonych skupień do 10


a)

Ile skupień zostało wyznaczonych ?

Odp. 4 skupienia.

background image

b)

Które skupienie jest najbardziej jednorodne? Które jest najmniej

jednorodne ?

Odp. Najbardziej jednorodnym skupieniem jest skupienie nr. 3, ze
względu na najmniejsze odchylenie standardowe (0.109).
Maksymalna odległość obserwacji od środka skupienia jest niewielka
(0,49) w porównaniu z odpowiednimi odległościami w pozostałych
skupieniach (minimalny promień ma skupienie 2 i wynosi on 0.43).

c)

Jak można scharakteryzować poszczególne skupienia ?

Skupienie nr 4 – niskokaloryczne produkty, bogate w żelazo (owoce
morza)
Skupienie nr 3 – wysokaloryczne, tłuste produkty mięsne.
Skupienie nr 1 – Produkty zawierające dużo wapnia
Skupienie nr 2 – produkty zawierające dużo protein (ryby)

background image


d)

Odczytaj, które produkty zostały przydzielone do których skupień ?

Odp. Skupienie nr 3 zawiera: Braised beef, Hamburger, Roast beef.
Beefsteek, roast lamb leg, roast lamb shoulder, smoke ham etc.

e)

Podaj statystyki poszczególnych skupień: liczbę elementów,

odchylenie wewnątrzskupieniowe, maksymalną odległość od środka
ciężkości (wartości dla wypełnienia tabeli).

f)

Odczytać jaką średnią wartość przyjmują poszczególne zmienne w

poszczególnych skupieniach.

Odp.

Skupienie
nr:

E

le

m

en

ty

p

rz

y

d

zi

el

o

n

e

d

o

s

k

u

p

ie

n

ia

L

ic

zb

a

el

em

en

w

O

d

c

h

y

le

n

ie

w

ew

n

ą

tr

zs

k

u

p

ie

n

io

w

e

M

ak

sy

m

al

n

a

o

d

le

g

ło

ść

o

d

ś

ro

d

k

a

ci

ę

ż

k

o

śc

i

Ś

re

d

n

ia

w

ar

to

ść

z

m

ie

n

n

ej

F

A

T

el

em

en

w

n

al

e

ż

ą

cy

ch

d

o

s

k

u

p

ie

n

ia

Ś

re

d

n

ia

w

ar

to

ść

z

m

ie

n

n

ej

..

.

.

el

em

en

w

O

b

se

rw

ac

ja

za

k

la

sy

fi

k

o

w

a

n

a

d

o

g

ru

p

y

,

n

aj

b

ar

d

zi

ej

„o

d

st

aj

ą

ca

CLUSTER 1

Canned beef
Broiled chicken
Canned chicken

…..

12

0.164

0.652

7.417

Beef heart

CLUSTER 2

Cannes salmon
Cannes mackarel
Cannes sardines

3

0.188

0.464

7.667

….

Canned sardines

…………….

…….

background image

3.

Dodać do diagramu węzeł SAS_CODE, dla wykonania następujących operacji:

a)

Dodać węzeł SAS_CODE aby w wyniku analizy powstawał zbiór

SASLIB.NUTRITION_GROUPS, z dodatkową kolumną
CLUSTER_ID, w której będzie identyfikator klastra.

b)

Zmodyfikować diagram procesu tak, aby w wyniku powstawał zbiór

SASLIB.NUTRITION_CLUSTERS, tak aby zawierał wszystkie
statystyki poszczególnych grup.


Wyszukiwarka

Podobne podstrony:
L2 analiza skupień
analiza skupien id 61367 Nieznany
ANALIZA TRESCI KLUCZ (II)
analiza skupien
Analiza skupień 2006
analiza skupien
Analiza skupień - podręcznik internetowy, Technika Rolnicza, Metody taksonometrii
ANALIZA TRESCI KLUCZ (II)
Algorytmy analizy skupien e 0c47
Robert Roczniok Zastosowanie analizy skupień w procesie naboru do pływania sportowego
Analiza przeżycia, dyskryminacyjna i skupień

więcej podobnych podstron