background image

Instytut

Podstaw

Konstrukcji

Maszyn

Wydział

Mechaniczny

Technologiczny

Politechnika

Śląska

ul. Konarskiego 18a

44-100 Gliwice

tel. 032 237 14 67

fax. 032 237 13 60

http://ipkm.polsl.pl

Metody Sztucznej

Inteligencji

Rok akademicki 2012/13

Instrukcja do ćwiczeń laboratoryjnych

Temat:

Metody grupowania danych

Opracował: dr inż. S. Rzydzik

Gliwice 2013-02-05

1/14 -

background image

1. Cel ćwiczenia

Celem ćwiczenia jest zapoznanie się z najważniejszymi zagadnieniami związanymi z metodami

przeznaczonymi do grupowania i klasyfikacji danych.

2. Wprowadzenie teoretyczne

Większość materiałów znajdujących się w tej instrukcji została zaczerpnięta ze strony inter-

netowej projektu GRUPOWANIE-KLASYFIKACJA-SELEKCJA dostępnej pod adresem [1]:

http://ipkm.polsl.pl/PROJEKTY/Klas.

Grupowanie i klasyfikacja to zagadnienia związane z rozpoznawaniem wzorców (ang. pattern

recognition). Dotyczą one podziału zbioru elementów na podzbiory zwane grupami (ang. clu-

sters). Intuicyjnie mówiąc, podzbiory te mają tę właściwość, że elementy w tym samym pod

zbiorze są do siebie podobne. Rozpoznawanie wzorców jest obszarem badań, który zajmuje

się działaniem i projektowaniem systemów rozpoznających wzorce w danych. Zawiera takie

poddziedziny jak analiza dyskryminacyjna, selekcja cech, estymacja błędów, analiza grup

(razem nazywane czasem statystycznym rozpoznawaniem wzorców), wnioskowanie grama-

tyczne (czasem nazywane syntaktycznym rozpoznawaniem wzorców). Ważnymi obszarami

zastosowań są: analiza obrazów, rozpoznawanie pisma, analiza mowy, diagnozowanie ludzi i

maszyn, identyfikacja osób oraz badania przemysłowe.

Generalnie algorytmy klasyfikacji i grupowania ze względu na wykorzystywaną miarę

dzieli się na algorytmy wykorzystujące miary odległości i algorytmy wykorzystujące miary

podobieństwa.

2.1. Miary odległości

Odległość elementów x, y ∈ V jest wartością funkcji d(x, y) nazywanej funkcją odległości,

takiej że:

d : V × V → {r ∈ R

1

: r ≥ 0}

(1)

spełniająca warunki:

x,y∈V

[d (x, x) ≤ d (x, y)]

(2)

x,y∈V

[d (x, y) = d (y, x)]

(3)

x,y,z∈V

[d (x, z) ≤ d (x, y) + d (y, z)]

(4)

gdzie: R

1

- zbiór liczb rzeczywistych.

Gliwice 2013-02-05

2/14 -

background image

Najczęściej stosowaną funkcją odległości jest odległość euklidesowa:

d

2
1

(x, y) = (x − y) (x − y)

T

, ∀x, y ∈ V

(5)

Przyjęcie odległości euklidesowej związane jest z niedogodnościami wynikającymi z dużego

wpływu zmian skal współrzędnych na wyniki grupowania elementów przestrzeni cech. W celu

uniknięcia tych niedogodności zaleca się normalizować przestrzeń wartości cech tak, aby

zbiory wartości kolejnych współrzędnych posiadały zerową wartość średnią i jednostkowe

odchylenie standardowe. Ponadto dla uniezależnienia wyników porównania od wyboru układu

współrzędnych można dokonać obrotu układu współrzędnych, ustalając takie jego położenie,

które pokrywać się będzie z kierunkami osi głównych dla rozpatrywanego zbioru elementów

przestrzeni V . Kierunki te odpowiadać będą kierunkom wektorów własnych macierzy ko-

wariancji współrzędnych elementów v. Otrzymana w ten sposób przestrzeń nazywana jest

przestrzenią wartości cech głównych i oznaczana G

m

= π(V

m

).

Dla zróżnicowania wpływu poszczególnych współrzędnych na odległość elementów przestrzeni

V

m

można wprowadzić wagi współrzędnych. W przestrzeni wartości cech wagi współrzędnych

są wagami kolejnych cech. Prowadzi to do odległości Sebestyena:

d

2
2

(x, y) = (x − y) W (x − y)

T

, ∀x, y ∈ V

(6)

gdzie: W jest diagonalną macierzą wag:

W =




w

1

0

...

0

0

w

2

...

0

...

...

...

...

0

0

... w

m




(7)

Jeżeli przyjmuje się celowość zmiany układu współrzędnych przestrzeni V i przeprowadza się

jego obrót do położenia wyznaczonego przez osie główne, a następnie normalizację współ-

rzędnych w tak obróconym układzie, to dla wyznaczenia odległości euklidesowej w tej nowej

przestrzeni G można wykorzystać bezpośrednio współrzędne przestrzeni V i na ich podstawie

wyznaczyć tzw. odległość uogólnioną (Mahalanobisa):

d

2
3

(x, y) = (x − y) C

−1

(x − y)

T

, ∀x, y ∈ V

(8)

gdzie: C

−1

- odwrotna macierz kowariancji:

C =

1

n

n

X

j=1

(v

j

− ¯

v)

T

(v

j

− ¯

v) , v

j

∈ V

(9)

gdzie: n - liczba elementów rozpatrywanego zbioru w przestrzeni V ,

¯

v - średni element rozpatrywanego zbioru:

¯

v =

1

n

n

X

j=1

v

j

(10)

Gliwice 2013-02-05

3/14 -

background image

Odległość uogólniona uwzględnia korelację współrzędnych. Opisane odległości d

1

, d

2

i d

3

po-

siadają niedogodność polegającą na dużej liczbie działań niezbędnych do ich wyznaczania, co

wpływa na czas wykonywania obliczeń podczas realizacji algorytmów grupowania wykorzystu-

jących te miary odległości. Dla zmniejszenia czasu obliczeń zaleca się stosowanie uśrednionej

odległości Hamminga (odległość Manhattan):

d

2
4

(x, y) =

1

m

m

X

i=1

|x [i] − y [i]|, ∀x, y ∈ V

m

(11)

Odmianą odległości Hamminga jest odległość Canbera:

d

2
5

(x, y) =

m

X

i=1

|x [i] − y [i]|

x [i] + y [i]

, ∀x, y ∈ V

m

(12)

2.2. Miary podobieństwa

Podobieństwo elementów x, y ∈ V jest wartością funkcji h(x, y) nazywanej funkcją podobień-

stwa, takiej że:

h : V × V → {r ∈ R

1

: 0 ≥ r ≥ 1}

(13)

spełniająca warunki:

x,y∈V

[h (x, x) ≤ h (x, y)]

(14)

x,y∈V

[h (x, y) = h (y, x)]

(15)

W większości przypadków zakłada się, że:

x∈V

[h (x, x) = 1]

(16)

Funkcja podobieństwa może być określana bezpośrednio lub do jej określenia można wykorzy-

stać funkcję odległości, tzn. można definiować h(d) gdzie d jest wartością funkcji odległości

elementów przestrzeni wartości cech. Tak definiowana funkcja podobieństwa powinna spełniać

warunki:

h (0) = 1

(17)

d

1

,d

2

[d

2

< d

1

⇒ h (d

2

) < h (d

1

)]

(18)

Z porównania różnych postaci funkcji odległości wynika, że w większości przypadków wartości

tych funkcji rosną ze wzrostem liczby wymiarów m przestrzeni V

m

, w której te odległości są

wyznaczane. Dla zmniejszenia wpływu liczby wymiarów przestrzeni wartości cech na wartość

funkcji podobieństwa elementów przeprowadza się skalowanie funkcji odległości przed wyko-

rzystaniem jej do określania funkcji podobieństwa:

• dla d

1

, d

2

i d

3

:

d (x, y) :=

d (x, y)

m

(19)

Gliwice 2013-02-05

4/14 -

background image

• dla d

4

d (x, y) :=

d (x, y)

m

(20)

• dla d

5

d (x, y) := d (x, y)

(21)

Przykładami funkcji podobieństwa mogą być zależności:

h

1

(x, y) =

1

1 + αd (x, y)

β

(22)

h

2

(x, y) = 1 −

d (x, y)

max

(x,y)∈V ×V

(d (x, y))

(23)

h

3

(x, y) = exp (−αd (x, y))

(24)

gdzie: α, β - stałe warunkujące własności funkcji h.

Niezależnie od wprowadzonych wcześniej funkcji odległości d

1

do d

5

można wyznaczyć

funkcję podobieństwa elementów x, y bezpośrednio w postaci cosinusa kąta między

wektorami x, y w przestrzeni V :

h

4

(x, y) =

xy

T

p

xx

T

yy

T

(25)

Powyższa funkcja podobieństwa jest niezależna od obrotu układu współrzędnych i jego skalo-

wania, lecz zależy od ewentualnych przesunięć tego układu.

2.3. Kryteria grupowania elementów

Grupowanie to podział skończonego zbioru V elementów v na L podzbiorów V

k

elementów

podobnych. Podział ten można zapisać w postaci rodziny Q(V ) podzbiorów V

k

zbioru V :

Q (V ) = {V

k

⊂ V : k ∈ [1 : L]}

(26)

Zbiór wszystkich możliwych (lub wszystkich dopuszczalnych) podziałów Q(V ) zbioru V na

L podzbiorów oznaczany jest Q

L

(V ). Podział Q będzie uznany za podział optymalny Q

opt

,

jeżeli funkcja kryterialna e(Q) wynikająca z przyjętego kryterium osiąga dla tego podziału

ekstremum, na przykład wartości minimalne:

Q = Q

opt

⇔ e (Q) = min

Q

j

∈Q

L

(e (Q

j

))

(27)

Najprostsza funkcja kryterialna bazuje na funkcji odległości i ma następującą postać:

e (Q) =

1
¯

¯

V

L

X

k=1

 ¯

¯

V

k

d

k

(28)

Gliwice 2013-02-05

5/14 -

background image

gdzie:

Q - rodzina podzbiorów V

k

,

d

k

- średnia odległość elementów k-tego podzbioru V

k

od reprezentanta tego podzbioru.

Funkcja

podobieństwa

umożliwia

określenie

kryteriów

maksymalizujących

„spójność”

podzbiorów. Jedną z najprostszych funkcji kryterialnych jest:

e (Q) = −

L

X

k=1

X

(x,y)∈V

k

×V

k

h (x, y)

(29)

Szczególną grupę kryteriów stanowią kryteria progowe. Kryteria te mogą być określane przy

pomocy funkcji odległości lub funkcji podobieństwa elementów. Z wielu kryteriów tego typu

wyróżnić można dwa:

• kryterium „najdalszego sąsiada”

V

k

∈Q

opt

x,y∈V

k

[d (x, y) < d

max

]

(30)

• kryterium „najbliższego sąsiada”

V

k

∈Q

opt

x∈V

k

y6=x

y∈V

k

[d (x, y) ≤ d

max

]

(31)

lub podobnie dla h (x, y) ≥ h

min

.

Zaletą tych kryteriów jest ich prostota oraz duża zgodność wyników grupowania opty-

malnego z wynikami grupowania realizowanego arbitralnie przez człowieka. Kryterium

„najbliższego sąsiada” uwypukla podobieństwa par elementów. Kryterium „najdalszego

sąsiada” uwypukla wpływ tzw. „izolowanych elementów” przestrzeni V . Stanowi to pewną

niedogodność ze względu na istnienie odchyleń elementów przestrzeni V wynikających z

określenia położenia tych elementów w tej przestrzeni na podstawie wielkości wyznaczanych

doświadczalnie. Dla częściowego uniezależnienia kryterium „najbliższego sąsiada” od tych

lokalnych odchyleń stosuje się kryterium „n najbliższych sąsiadów”:

V

k

∈Q

opt

x∈V

k

s

n

(x)⊂V

k

y∈s

n

(x)

[d (x, y) ≤ d

max

]

(32)

lub podobnie dla h (x, y) ≥ h

min

.

gdzie: S

n

(x) - n-elementowe otoczenie elementu x.

Liczbę uwzględnianych n najbliższych sąsiadów przyjmuje się w zależności od mocy

przestrzeni V oraz w zależności od liczby L poszukiwanych podzbiorów V

k

. Główną trudnością

związaną z praktycznym wykorzystaniem opisanych kryteriów progowych jest konieczność

przyjmowania wartości progowej h

min

lub d

max

. Przyjęcie tych wartości jest równoważne z

przyjęciem liczby zbiorów, na które dzielona jest przestrzeń V .

Gliwice 2013-02-05

6/14 -

background image

2.4. Wybrane metody grupowania

2.4.1. Metoda najbliższego sąsiada (NN)

Na Rys. 1. pokazano przykład ilustrujący ideę metody najbliższego sąsiada (ang. nearest neigh-

bours, NN). Zakłada się, że nieznany element (oznaczony gwiazdką) zostanie zaklasyfikowany

do tego zbioru od którego dzieli go najkrótszy dystans.

Rysunek 1: Metoda najbliższego sąsiada [4]

Dla algorytmu najbliższego sąsiada sposób postępowania jest następujący:

1. Obliczenie odległości każdego elementu do jego najbliższego sąsiada.

2. Określenie sposobu obliczania wartości progowej (np. obliczenie wartości średniej i od-

chylenia standardowego dla wyników otrzymanych w kroku 1.).

3. Połączenie każdej pary elementów, której odległość jest mniejsza od wartości progowej

(np. gdy wartość jest mniejsza od µ + 3σ, Rys. 2.).

Rysunek 2: Przykład użycia metody NN do podziału zbioru z uwzględnieniem kryterium 3σ

Metoda ta daje dobre rezultaty tylko dla zbiorów elementów, w których można wyróżnić dobrze

rozdzielone podzbiory o stałym rozkładzie gęstości. W przeciwdymnym wypadku podział zbioru

będzie przeprowadzony błędnie (Rys. 3).

Gliwice 2013-02-05

7/14 -

background image

Rysunek 3: Problemy z podziałem zbioru w metodzie NN [4]

2.4.2. Metoda k najbliższych sąsiadów (k-NN)

Na Rys. 4. pokazano przykład ilustrujący ideę metody k najbliższych sąsiadów. Zakłada się, że

nieznany element (oznaczony gwiazdką) zostanie zaklasyfikowany do tego zbioru od którego

dzieli go najkrótszy dystans, przy czym dystans jest liczony jako odległości do k elementów.

Inaczej, buduje się taki grafu połączeń, w którym każdy element jest połączony krawędzią z k

najbliższymi sąsiadami.

Rysunek 4: Metoda k najbliższych sąsiadów [4]

Należy pamiętać, że dobór wartości parametru k ma wpływ na jakość podziału zbioru (Rys. 5.).

Najczęściej przyjmuje się k = 3 lub 4 (Rys. 6.).

Gliwice 2013-02-05

8/14 -

background image

Rysunek 5: Wpływ parametru k ma wpływ na jakość podziału zbioru [4]

Rysunek 6: Metoda k najbliższych sąsiadów. Przykład dla k = 3

2.4.3. Metoda MMD

Metoda MMD (ang. Mean minimum distance) jest podobna do metody najbliższego sąsiada.

Rysunek 7: Metoda MMD. (a) Dane przed grupowaniem. (b) Odszumianie. (c) Dane po
grupowaniu.

Sposób postępowania w tej metodzie jest następujący:

1. Obliczenie odległości każdego elementu do jego najbliższego sąsiada.

2. Obliczenie wartości średniej d

mean

wyników otrzymanych w kroku 1.

3. Usunięcie wszystkich elementów, których odległość do najbliższego sąsiada > k · d

mean

(usunięcie szumu).

Gliwice 2013-02-05

9/14 -

background image

4. Ponowne obliczenie wartości średniej d

mean

dla powstałego w kroku 3. zbioru.

5. Połączenie każdego elementu z jego najbliższym sąsiadem jeżeli ich odległość ≤ k·d

mean

.

Jeżeli brak innych zaleceń należy przyjąć k = 2. Przykład ilustrujący metodę MMD pokazano

na Rys. 7.

2.4.4. Algorytm drzewa minimalnego

Drzewo minimalne jest to taki graf połączeń, w którym każdy element jest połączony z innym,

nie występują obwody zamknięte, a suma długości krawędzi jest minimalna. Na Rys. 8. poka-

zano porównanie ważonego grafu liniowego, drzewa połączeń i drzewa minimalnego.

Rysunek 8: Grafy i drzewa. (a) Ważony graf liniowy. (b) Drzewo połączeń. (c) Drzewo mini-
malne.

Sposób postępowania w tej metodzie jest następujący:

1. Utworzenie drzewa minimalnego.

2. Usunięcie „nieodpowiednich” krawędzi według przyjętego kryterium, np. usuwa się kra-

wędzie, które są dwa razy dłuższe od średniej długości najbliższych krawędzi.

2.5. Ocena wyników procesu grupowania

Jakość podziału zbioru danych można określić:

1. Na podstawie ilorazu średniej odległości elementów w grupie i średniej odległości grup:

o

1

=

1

n

L

P

k=1

mean (d (v

i

, v

j

))

mean (d (V

p

, V

q

))

(33)

2. Na podstawie ilorazu sumy „momentów bezwładności” grup i „momentu bezwładności”

wszystkich elementów:

o

2

=

L

P

k=1

I

k

I

(34)

W przypadku pierwszej oceny wartość powinna wynosić około 0.5, a w przypadku drugiej oceny

około 0.1.

Gliwice 2013-02-05

10/14 -

background image

3. Instrukcja obsługi programu PGrp

Program PGrp został pierwotnie napisany w programie Matlab [2], który jest produktem

komercyjnym. Jednak istnieje możliwość uruchomienia tego programu również w darmowym

środowisku GNU Octave [3]. W tym celu należy pobrać odpowiednią wersję tego środowiska

(program PGrp testowano na wersji 3.6.2) dla odpowiedniego systemu operacyjnego. Stan-

dardowo środowisko GNU Octave jest uruchamiane w wierszu poleceń. Nie jest to wygodny

sposób pracy z tym środowiskiem. Żeby poprawić komfort pracy można zainstalować nakładkę

graficzną o nazwie GUI Octave (ostatnia wersja ma numer 1.5.4).

W pakiecie użyto wybranych funkcji biblioteki KLAS (biblioteka procedur grupowania

i klasyfikacji elementów wielowymiarowych przestrzeni metrycznych) dostępnej pod ad-

resem [1]: http://ipkm.polsl.pl/PROJEKTY/Klas. Do tych funkcji należą: drzewo,

ksasiad, mmd, ocenap, pod, porwn oraz sasiad. Opis tych funkcji zamieszczono w ich

plikach źródłowych oraz na wskazanej stronie. Podczas tworzenia programu PGrp dodano

gotowe, opracowano nowe lub zmodyfikowano istniejące funkcje:

• checkSoft - funkcja sprawdza czy środowiskiem uruchomieniowym jest program Matlab

czy Octave.

• main - główna funkcja programu, równocześnie instrukcja uruchamiająca program.

• ostr2mat - funkcja potrzebna podczas uruchamiania programu w środowisku Octave.

• wykres - zmodyfikowana funkcja wykres dostępna w bibliotece KLAS; modyfikacja po-

legała na dodaniu instrukcji warunkowych z wywołaniem funkcji checkSoft umożliwiając

tym samym rozpoznanie środowiska uruchomieniowego.

Dodatkowo do programu dołączono cztery zbiory danych oznaczonych jako: z01.kig,

z04.kig, z05.kig oraz z06.kig.

Dalsza część tego opisu dotyczy środowiska GNU Octave dla systemu MS Windows

uruchomionego w wierszu poleceń. Zakłada się, że program PGrp znajduje się w katalogu

C:\PGrp. W celu uruchomienia programu PGrp należy:

1. Uruchomić program GNU Octave; plik startowy nazywa się octave.exe; pojawi się okno

z wierszem poleceń

2. Wpisać polecenie cd C:\PGrp i potwierdzić przyciskiem Enter; poleceniem ls można

sprawdzić czy program ma dostęp do katalogu

3. Wpisać polecenie main i potwierdzić przyciskiem Enter; w wierszu poleceń pojawi się

tekst pokazany na Wydruku 1.

Gliwice 2013-02-05

11/14 -

background image

Wydruk 1: Ekran startowy programu PGrp

1

2

∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗

3

ALGORYTM GRUPOWANIA DANYCH

4

∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗

5

6

W y b i e r z dane do g r u p o w a n i a :

7

8

1 :

dane n r 1

9

10

2 :

dane n r 2

11

12

3 :

dane n r 3

13

14

4 :

dane n r 4

15

16

N a c i s n i j o d p o w i e d n i k l a w i s z ( d o m y s l n i e 1 ) :

Wydruk 2: Wybór metody grupowania

1

W y b i e r z a l g o r y t m g r u p o w a n i a :

2

3

1 :

NN

4

5

2 :

k−NN

6

7

3 :

MMD

8

9

4 :

d r z e w a m i n i m a l n e g o

10

11

N a c i s n i j o d p o w i e d n i k l a w i s z ( d o m y s l n i e 1 ) :

Wydruk 3: Kolejne etapy pracy z programem PGrp dla metody k-NN

1

Wprowadz l i c z b e

n a j b l i z s z y c h s a s i a d o w ( d o m y s l n i e k=3) : 3

2

3

3

4

W y b i e r z m i a r e o d l e g l o s c i : 1− e u k l i d e s o w a , 2−Hamminga , 3−Canbera ,

5

4−M a h a l a n o b i s a , 5− p o d o b i e n s t w o " c o s i n u s k a t a m i e d z y w e k t o r a m i x , y " ,

6

6− p o d o b i e n s t w o na p o d s t a w i e f .

o d l e g l o s c i h=1/(1+a ∗ d^b ) ,

7

7− p o d o b i e n s t w o na p o d s t a w i e f .

o d l e g l o s c i h=e x p (−a ∗ d )

8

( d o m y s l n i e r =1) : 1

9

1

10

11

Ocena p r o c e s u g r u p o w a n i a 1 :

12

0 . 4 5 7 5 9

13

Ocena p r o c e s u g r u p o w a n i a 2 :

14

0 . 1 3 9 5 2

15

16

/// KONIEC PROGRAMU ///

Następnie:

1. W oknie pokazanym na Wydruku 1. należy określić zbiór danych, który będzie poddany

procesowi grupowania - należy wybrać z klawiatury odpowiedni numer i potwierdzić

przyciskiem Enter. UWAGA! Otworzy się nowe okno z wykresem dwuwymiarowym ilu-

strującym rozkład wybranych danych.

Gliwice 2013-02-05

12/14 -

background image

2. W oknie pokazanym na Wydruku 2. należy wybrać metodę grupowania wprowadzając

odpowiedni numer z klawiatury i potwierdzić wybór przyciskiem Enter.

3. W kolejnym kroku, w zależności od wybranej metody grupowania, należy podać dodat-

kowy parametr:

(a) NN: nie dotyczy,

(b) k-NN: liczbę najbliższych sąsiadów, parametr k (Wydruk 3.),

(c) MMD: mnożnik wartości progowej, parametr k,

(d) drzewa minimalnego: liczbę grup, parametr L.

4. Następnie, niezależnie od wybranej metody, należy wybrać miarę odległości lub podo-

bieństwa (Wydruk 3.): (1) odległość euklidesowa, (2) odległość Hamminga, (3) odległość

Canbera, (4) odległość Mahalanobisa, (5) podobieństwo „cosinus kąta między wektorami

x, y”, (6) podobieństwo na podstawie funkcji odległości h =

1

1+αd

β

, (7) podobieństwo

na podstawie funkcji odległości h = exp (−αd)

5. Po wprowadzeniu tych danych program wykona następujące czynności (Wydruk 3.):

(a) Przeprowadzi proces grupowania zgodnie z wprowadzonymi danymi.

(b) Zilustruje wynik procesu grupowania w formie wykresu dwuwymiarowego (Rys. 9).

(c) Wyliczy i wypisze w wierszu poleceń wartości ocen jakości procesu grupowania.

(d) Zakończy swoje działanie

0

10

20

30

40

50

0

10

20

30

40

50

Rysunek 9: Przykładowy wynik procesu grupowania

Gliwice 2013-02-05

13/14 -

background image

4. Sposób przeprowadzenia ćwiczenia

Przebieg ćwiczenia jest następujący:

1. Prowadzący wskazuje studentowi dane do grupowania.

2. Prowadzący wskazuje studentowi dwa algorytmy grupowania - metodę 1. i metodę 2.

3. Prowadzący wskazuje studentowi, które parametry należy zmieniać i, o ile jest to możliwe,

w jakim zakresie.

4. Student przeprowadza badania porównawcze polegające na tym, że:

(a) W ramach metody 1. zmieniane są wartości wybranych parametrów. Jako wyniki

odczytywane są wartości ocen jakości grupowania i wykres ilustrujący podział zbioru

wejściowego na grupy. Po przeprowadzeniu testów wyniki są porównywane między

sobą. Rezultaty porównania należy opracować w formie wniosków.

(b) W ramach metody 2. należy wykonać te same operacje jak w metodzie 1.

(c) Ostatni etap badań polega na porównaniu metod 1. i 2. Rezultaty porównania

należy opracować w formie wniosków.

5. Przygotowanie do ćwiczenia

Przygotowanie do ćwiczenia obejmuje zapoznanie się z treścią niniejszej instrukcją oraz pro-

gramem PGrp. Wiadomości z omawianej dziedziny zostaną sprawdzone w ramach kartkowi

sprawdzającej przygotowanie do zajęć.

Literatura

[1] IPKM: Grupowanie-Klasyfikacja-Selekcja. [on-line] http://ipkm.polsl.pl/PROJEKTY/

Klas, ostatni dostęp: luty 2013.

[2] MathWorks: MATLAB. [on-line] http://www.mathworks.com/products/matlab/,

ostatni dostęp: luty 2013.

[3] MathWorks: GNU Octave. [on-line] http://www.gnu.org/software/octave/, ostatni

dostęp: luty 2013.

[4] Tadeusiewicz R., Flasiński M.: Rozpoznawanie obrazów. Wydawnictwo naukowe PWN,

Warszawa, 1991, [on-line] http://winntbg.bg.agh.edu.pl/skrypty/0005/, ostatni

dostęp: luty 2013.

Gliwice 2013-02-05

14/14 -


Document Outline