MetodyGrupowaniaDanych instrukcja 2

background image

Instytut

Podstaw

Konstrukcji

Maszyn

Wydział

Mechaniczny

Technologiczny

Politechnika

Śląska

ul. Konarskiego 18a

44-100 Gliwice

tel. 032 237 14 67

fax. 032 237 13 60

http://ipkm.polsl.pl

Metody Sztucznej

Inteligencji

Rok akademicki 2012/13

Instrukcja do ćwiczeń laboratoryjnych

Temat:

Metody grupowania danych

Opracował: dr inż. S. Rzydzik

Gliwice 2013-02-05

- 1/14 -

background image

1. Cel ćwiczenia

Celem ćwiczenia jest zapoznanie się z najważniejszymi zagadnieniami związanymi z metodami

przeznaczonymi do grupowania i klasyfikacji danych.

2. Wprowadzenie teoretyczne

Większość materiałów znajdujących się w tej instrukcji została zaczerpnięta ze strony inter-

netowej projektu GRUPOWANIE-KLASYFIKACJA-SELEKCJA dostępnej pod adresem [1]:

http://ipkm.polsl.pl/PROJEKTY/Klas.

Grupowanie i klasyfikacja to zagadnienia związane z rozpoznawaniem wzorców (ang. pattern

recognition). Dotyczą one podziału zbioru elementów na podzbiory zwane grupami (ang. clu-

sters). Intuicyjnie mówiąc, podzbiory te mają tę właściwość, że elementy w tym samym pod

zbiorze są do siebie podobne. Rozpoznawanie wzorców jest obszarem badań, który zajmuje

się działaniem i projektowaniem systemów rozpoznających wzorce w danych. Zawiera takie

poddziedziny jak analiza dyskryminacyjna, selekcja cech, estymacja błędów, analiza grup

(razem nazywane czasem statystycznym rozpoznawaniem wzorców), wnioskowanie grama-

tyczne (czasem nazywane syntaktycznym rozpoznawaniem wzorców). Ważnymi obszarami

zastosowań są: analiza obrazów, rozpoznawanie pisma, analiza mowy, diagnozowanie ludzi i

maszyn, identyfikacja osób oraz badania przemysłowe.

Generalnie algorytmy klasyfikacji i grupowania ze względu na wykorzystywaną miarę

dzieli się na algorytmy wykorzystujące miary odległości i algorytmy wykorzystujące miary

podobieństwa.

2.1. Miary odległości

Odległość elementów x, y ∈ V jest wartością funkcji d(x, y) nazywanej funkcją odległości,

takiej że:

d : V × V → {r ∈ R

1

: r ≥ 0}

(1)

spełniająca warunki:

x,y∈V

[d (x, x) ≤ d (x, y)]

(2)

x,y∈V

[d (x, y) = d (y, x)]

(3)

x,y,z∈V

[d (x, z) ≤ d (x, y) + d (y, z)]

(4)

gdzie: R

1

- zbiór liczb rzeczywistych.

Gliwice 2013-02-05

- 2/14 -

background image

Najczęściej stosowaną funkcją odległości jest odległość euklidesowa:

d

2
1

(x, y) = (x − y) (x − y)

T

, ∀x, y ∈ V

(5)

Przyjęcie odległości euklidesowej związane jest z niedogodnościami wynikającymi z dużego

wpływu zmian skal współrzędnych na wyniki grupowania elementów przestrzeni cech. W celu

uniknięcia tych niedogodności zaleca się normalizować przestrzeń wartości cech tak, aby

zbiory wartości kolejnych współrzędnych posiadały zerową wartość średnią i jednostkowe

odchylenie standardowe. Ponadto dla uniezależnienia wyników porównania od wyboru układu

współrzędnych można dokonać obrotu układu współrzędnych, ustalając takie jego położenie,

które pokrywać się będzie z kierunkami osi głównych dla rozpatrywanego zbioru elementów

przestrzeni V . Kierunki te odpowiadać będą kierunkom wektorów własnych macierzy ko-

wariancji współrzędnych elementów v. Otrzymana w ten sposób przestrzeń nazywana jest

przestrzenią wartości cech głównych i oznaczana G

m

= π(V

m

).

Dla zróżnicowania wpływu poszczególnych współrzędnych na odległość elementów przestrzeni

V

m

można wprowadzić wagi współrzędnych. W przestrzeni wartości cech wagi współrzędnych

są wagami kolejnych cech. Prowadzi to do odległości Sebestyena:

d

2
2

(x, y) = (x − y) W (x − y)

T

, ∀x, y ∈ V

(6)

gdzie: W jest diagonalną macierzą wag:

W =




w

1

0

...

0

0

w

2

...

0

...

...

...

...

0

0

... w

m




(7)

Jeżeli przyjmuje się celowość zmiany układu współrzędnych przestrzeni V i przeprowadza się

jego obrót do położenia wyznaczonego przez osie główne, a następnie normalizację współ-

rzędnych w tak obróconym układzie, to dla wyznaczenia odległości euklidesowej w tej nowej

przestrzeni G można wykorzystać bezpośrednio współrzędne przestrzeni V i na ich podstawie

wyznaczyć tzw. odległość uogólnioną (Mahalanobisa):

d

2
3

(x, y) = (x − y) C

−1

(x − y)

T

, ∀x, y ∈ V

(8)

gdzie: C

−1

- odwrotna macierz kowariancji:

C =

1

n

n

X

j=1

(v

j

− ¯

v)

T

(v

j

− ¯

v) , v

j

∈ V

(9)

gdzie: n - liczba elementów rozpatrywanego zbioru w przestrzeni V ,

¯

v - średni element rozpatrywanego zbioru:

¯

v =

1

n

n

X

j=1

v

j

(10)

Gliwice 2013-02-05

- 3/14 -

background image

Odległość uogólniona uwzględnia korelację współrzędnych. Opisane odległości d

1

, d

2

i d

3

po-

siadają niedogodność polegającą na dużej liczbie działań niezbędnych do ich wyznaczania, co

wpływa na czas wykonywania obliczeń podczas realizacji algorytmów grupowania wykorzystu-

jących te miary odległości. Dla zmniejszenia czasu obliczeń zaleca się stosowanie uśrednionej

odległości Hamminga (odległość Manhattan):

d

2
4

(x, y) =

1

m

m

X

i=1

|x [i] − y [i]|, ∀x, y ∈ V

m

(11)

Odmianą odległości Hamminga jest odległość Canbera:

d

2
5

(x, y) =

m

X

i=1

|x [i] − y [i]|

x [i] + y [i]

, ∀x, y ∈ V

m

(12)

2.2. Miary podobieństwa

Podobieństwo elementów x, y ∈ V jest wartością funkcji h(x, y) nazywanej funkcją podobień-

stwa, takiej że:

h : V × V → {r ∈ R

1

: 0 ≥ r ≥ 1}

(13)

spełniająca warunki:

x,y∈V

[h (x, x) ≤ h (x, y)]

(14)

x,y∈V

[h (x, y) = h (y, x)]

(15)

W większości przypadków zakłada się, że:

x∈V

[h (x, x) = 1]

(16)

Funkcja podobieństwa może być określana bezpośrednio lub do jej określenia można wykorzy-

stać funkcję odległości, tzn. można definiować h(d) gdzie d jest wartością funkcji odległości

elementów przestrzeni wartości cech. Tak definiowana funkcja podobieństwa powinna spełniać

warunki:

h (0) = 1

(17)

d

1

,d

2

[d

2

< d

1

⇒ h (d

2

) < h (d

1

)]

(18)

Z porównania różnych postaci funkcji odległości wynika, że w większości przypadków wartości

tych funkcji rosną ze wzrostem liczby wymiarów m przestrzeni V

m

, w której te odległości są

wyznaczane. Dla zmniejszenia wpływu liczby wymiarów przestrzeni wartości cech na wartość

funkcji podobieństwa elementów przeprowadza się skalowanie funkcji odległości przed wyko-

rzystaniem jej do określania funkcji podobieństwa:

• dla d

1

, d

2

i d

3

:

d (x, y) :=

d (x, y)

m

(19)

Gliwice 2013-02-05

- 4/14 -

background image

• dla d

4

d (x, y) :=

d (x, y)

m

(20)

• dla d

5

d (x, y) := d (x, y)

(21)

Przykładami funkcji podobieństwa mogą być zależności:

h

1

(x, y) =

1

1 + αd (x, y)

β

(22)

h

2

(x, y) = 1 −

d (x, y)

max

(x,y)∈V ×V

(d (x, y))

(23)

h

3

(x, y) = exp (−αd (x, y))

(24)

gdzie: α, β - stałe warunkujące własności funkcji h.

Niezależnie od wprowadzonych wcześniej funkcji odległości d

1

do d

5

można wyznaczyć

funkcję podobieństwa elementów x, y bezpośrednio w postaci cosinusa kąta między

wektorami x, y w przestrzeni V :

h

4

(x, y) =

xy

T

p

xx

T

yy

T

(25)

Powyższa funkcja podobieństwa jest niezależna od obrotu układu współrzędnych i jego skalo-

wania, lecz zależy od ewentualnych przesunięć tego układu.

2.3. Kryteria grupowania elementów

Grupowanie to podział skończonego zbioru V elementów v na L podzbiorów V

k

elementów

podobnych. Podział ten można zapisać w postaci rodziny Q(V ) podzbiorów V

k

zbioru V :

Q (V ) = {V

k

⊂ V : k ∈ [1 : L]}

(26)

Zbiór wszystkich możliwych (lub wszystkich dopuszczalnych) podziałów Q(V ) zbioru V na

L podzbiorów oznaczany jest Q

L

(V ). Podział Q będzie uznany za podział optymalny Q

opt

,

jeżeli funkcja kryterialna e(Q) wynikająca z przyjętego kryterium osiąga dla tego podziału

ekstremum, na przykład wartości minimalne:

Q = Q

opt

⇔ e (Q) = min

Q

j

∈Q

L

(e (Q

j

))

(27)

Najprostsza funkcja kryterialna bazuje na funkcji odległości i ma następującą postać:

e (Q) =

1
¯

¯

V

L

X

k=1

¯

¯

V

k

d

k

(28)

Gliwice 2013-02-05

- 5/14 -

background image

gdzie:

Q - rodzina podzbiorów V

k

,

d

k

- średnia odległość elementów k-tego podzbioru V

k

od reprezentanta tego podzbioru.

Funkcja

podobieństwa

umożliwia

określenie

kryteriów

maksymalizujących

„spójność”

podzbiorów. Jedną z najprostszych funkcji kryterialnych jest:

e (Q) = −

L

X

k=1

X

(x,y)∈V

k

×V

k

h (x, y)

(29)

Szczególną grupę kryteriów stanowią kryteria progowe. Kryteria te mogą być określane przy

pomocy funkcji odległości lub funkcji podobieństwa elementów. Z wielu kryteriów tego typu

wyróżnić można dwa:

• kryterium „najdalszego sąsiada”

V

k

∈Q

opt

x,y∈V

k

[d (x, y) < d

max

]

(30)

• kryterium „najbliższego sąsiada”

V

k

∈Q

opt

x∈V

k

y6=x

y∈V

k

[d (x, y) ≤ d

max

]

(31)

lub podobnie dla h (x, y) ≥ h

min

.

Zaletą tych kryteriów jest ich prostota oraz duża zgodność wyników grupowania opty-

malnego z wynikami grupowania realizowanego arbitralnie przez człowieka. Kryterium

„najbliższego sąsiada” uwypukla podobieństwa par elementów. Kryterium „najdalszego

sąsiada” uwypukla wpływ tzw. „izolowanych elementów” przestrzeni V . Stanowi to pewną

niedogodność ze względu na istnienie odchyleń elementów przestrzeni V wynikających z

określenia położenia tych elementów w tej przestrzeni na podstawie wielkości wyznaczanych

doświadczalnie. Dla częściowego uniezależnienia kryterium „najbliższego sąsiada” od tych

lokalnych odchyleń stosuje się kryterium „n najbliższych sąsiadów”:

V

k

∈Q

opt

x∈V

k

s

n

(x)⊂V

k

y∈s

n

(x)

[d (x, y) ≤ d

max

]

(32)

lub podobnie dla h (x, y) ≥ h

min

.

gdzie: S

n

(x) - n-elementowe otoczenie elementu x.

Liczbę uwzględnianych n najbliższych sąsiadów przyjmuje się w zależności od mocy

przestrzeni V oraz w zależności od liczby L poszukiwanych podzbiorów V

k

. Główną trudnością

związaną z praktycznym wykorzystaniem opisanych kryteriów progowych jest konieczność

przyjmowania wartości progowej h

min

lub d

max

. Przyjęcie tych wartości jest równoważne z

przyjęciem liczby zbiorów, na które dzielona jest przestrzeń V .

Gliwice 2013-02-05

- 6/14 -

background image

2.4. Wybrane metody grupowania

2.4.1. Metoda najbliższego sąsiada (NN)

Na Rys. 1. pokazano przykład ilustrujący ideę metody najbliższego sąsiada (ang. nearest neigh-

bours, NN). Zakłada się, że nieznany element (oznaczony gwiazdką) zostanie zaklasyfikowany

do tego zbioru od którego dzieli go najkrótszy dystans.

Rysunek 1: Metoda najbliższego sąsiada [4]

Dla algorytmu najbliższego sąsiada sposób postępowania jest następujący:

1. Obliczenie odległości każdego elementu do jego najbliższego sąsiada.

2. Określenie sposobu obliczania wartości progowej (np. obliczenie wartości średniej i od-

chylenia standardowego dla wyników otrzymanych w kroku 1.).

3. Połączenie każdej pary elementów, której odległość jest mniejsza od wartości progowej

(np. gdy wartość jest mniejsza od µ + 3σ, Rys. 2.).

Rysunek 2: Przykład użycia metody NN do podziału zbioru z uwzględnieniem kryterium 3σ

Metoda ta daje dobre rezultaty tylko dla zbiorów elementów, w których można wyróżnić dobrze

rozdzielone podzbiory o stałym rozkładzie gęstości. W przeciwdymnym wypadku podział zbioru

będzie przeprowadzony błędnie (Rys. 3).

Gliwice 2013-02-05

- 7/14 -

background image

Rysunek 3: Problemy z podziałem zbioru w metodzie NN [4]

2.4.2. Metoda k najbliższych sąsiadów (k-NN)

Na Rys. 4. pokazano przykład ilustrujący ideę metody k najbliższych sąsiadów. Zakłada się, że

nieznany element (oznaczony gwiazdką) zostanie zaklasyfikowany do tego zbioru od którego

dzieli go najkrótszy dystans, przy czym dystans jest liczony jako odległości do k elementów.

Inaczej, buduje się taki grafu połączeń, w którym każdy element jest połączony krawędzią z k

najbliższymi sąsiadami.

Rysunek 4: Metoda k najbliższych sąsiadów [4]

Należy pamiętać, że dobór wartości parametru k ma wpływ na jakość podziału zbioru (Rys. 5.).

Najczęściej przyjmuje się k = 3 lub 4 (Rys. 6.).

Gliwice 2013-02-05

- 8/14 -

background image

Rysunek 5: Wpływ parametru k ma wpływ na jakość podziału zbioru [4]

Rysunek 6: Metoda k najbliższych sąsiadów. Przykład dla k = 3

2.4.3. Metoda MMD

Metoda MMD (ang. Mean minimum distance) jest podobna do metody najbliższego sąsiada.

Rysunek 7: Metoda MMD. (a) Dane przed grupowaniem. (b) Odszumianie. (c) Dane po
grupowaniu.

Sposób postępowania w tej metodzie jest następujący:

1. Obliczenie odległości każdego elementu do jego najbliższego sąsiada.

2. Obliczenie wartości średniej d

mean

wyników otrzymanych w kroku 1.

3. Usunięcie wszystkich elementów, których odległość do najbliższego sąsiada > k · d

mean

(usunięcie szumu).

Gliwice 2013-02-05

- 9/14 -

background image

4. Ponowne obliczenie wartości średniej d

mean

dla powstałego w kroku 3. zbioru.

5. Połączenie każdego elementu z jego najbliższym sąsiadem jeżeli ich odległość ≤ k·d

mean

.

Jeżeli brak innych zaleceń należy przyjąć k = 2. Przykład ilustrujący metodę MMD pokazano

na Rys. 7.

2.4.4. Algorytm drzewa minimalnego

Drzewo minimalne jest to taki graf połączeń, w którym każdy element jest połączony z innym,

nie występują obwody zamknięte, a suma długości krawędzi jest minimalna. Na Rys. 8. poka-

zano porównanie ważonego grafu liniowego, drzewa połączeń i drzewa minimalnego.

Rysunek 8: Grafy i drzewa. (a) Ważony graf liniowy. (b) Drzewo połączeń. (c) Drzewo mini-
malne.

Sposób postępowania w tej metodzie jest następujący:

1. Utworzenie drzewa minimalnego.

2. Usunięcie „nieodpowiednich” krawędzi według przyjętego kryterium, np. usuwa się kra-

wędzie, które są dwa razy dłuższe od średniej długości najbliższych krawędzi.

2.5. Ocena wyników procesu grupowania

Jakość podziału zbioru danych można określić:

1. Na podstawie ilorazu średniej odległości elementów w grupie i średniej odległości grup:

o

1

=

1

n

L

P

k=1

mean (d (v

i

, v

j

))

mean (d (V

p

, V

q

))

(33)

2. Na podstawie ilorazu sumy „momentów bezwładności” grup i „momentu bezwładności”

wszystkich elementów:

o

2

=

L

P

k=1

I

k

I

(34)

W przypadku pierwszej oceny wartość powinna wynosić około 0.5, a w przypadku drugiej oceny

około 0.1.

Gliwice 2013-02-05

- 10/14 -

background image

3. Instrukcja obsługi programu PGrp

Program PGrp został pierwotnie napisany w programie Matlab [2], który jest produktem

komercyjnym. Jednak istnieje możliwość uruchomienia tego programu również w darmowym

środowisku GNU Octave [3]. W tym celu należy pobrać odpowiednią wersję tego środowiska

(program PGrp testowano na wersji 3.6.2) dla odpowiedniego systemu operacyjnego. Stan-

dardowo środowisko GNU Octave jest uruchamiane w wierszu poleceń. Nie jest to wygodny

sposób pracy z tym środowiskiem. Żeby poprawić komfort pracy można zainstalować nakładkę

graficzną o nazwie GUI Octave (ostatnia wersja ma numer 1.5.4).

W pakiecie użyto wybranych funkcji biblioteki KLAS (biblioteka procedur grupowania

i klasyfikacji elementów wielowymiarowych przestrzeni metrycznych) dostępnej pod ad-

resem [1]: http://ipkm.polsl.pl/PROJEKTY/Klas. Do tych funkcji należą: drzewo,

ksasiad, mmd, ocenap, pod, porwn oraz sasiad. Opis tych funkcji zamieszczono w ich

plikach źródłowych oraz na wskazanej stronie. Podczas tworzenia programu PGrp dodano

gotowe, opracowano nowe lub zmodyfikowano istniejące funkcje:

• checkSoft - funkcja sprawdza czy środowiskiem uruchomieniowym jest program Matlab

czy Octave.

• main - główna funkcja programu, równocześnie instrukcja uruchamiająca program.

• ostr2mat - funkcja potrzebna podczas uruchamiania programu w środowisku Octave.

• wykres - zmodyfikowana funkcja wykres dostępna w bibliotece KLAS; modyfikacja po-

legała na dodaniu instrukcji warunkowych z wywołaniem funkcji checkSoft umożliwiając

tym samym rozpoznanie środowiska uruchomieniowego.

Dodatkowo do programu dołączono cztery zbiory danych oznaczonych jako: z01.kig,

z04.kig, z05.kig oraz z06.kig.

Dalsza część tego opisu dotyczy środowiska GNU Octave dla systemu MS Windows

uruchomionego w wierszu poleceń. Zakłada się, że program PGrp znajduje się w katalogu

C:\PGrp. W celu uruchomienia programu PGrp należy:

1. Uruchomić program GNU Octave; plik startowy nazywa się octave.exe; pojawi się okno

z wierszem poleceń

2. Wpisać polecenie cd C:\PGrp i potwierdzić przyciskiem Enter; poleceniem ls można

sprawdzić czy program ma dostęp do katalogu

3. Wpisać polecenie main i potwierdzić przyciskiem Enter; w wierszu poleceń pojawi się

tekst pokazany na Wydruku 1.

Gliwice 2013-02-05

- 11/14 -

background image

Wydruk 1: Ekran startowy programu PGrp

1

2

∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗

3

ALGORYTM GRUPOWANIA DANYCH

4

∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗

5

6

W y b i e r z dane do g r u p o w a n i a :

7

8

1 :

dane n r 1

9

10

2 :

dane n r 2

11

12

3 :

dane n r 3

13

14

4 :

dane n r 4

15

16

N a c i s n i j o d p o w i e d n i k l a w i s z ( d o m y s l n i e 1 ) :

Wydruk 2: Wybór metody grupowania

1

W y b i e r z a l g o r y t m g r u p o w a n i a :

2

3

1 :

NN

4

5

2 :

k−NN

6

7

3 :

MMD

8

9

4 :

d r z e w a m i n i m a l n e g o

10

11

N a c i s n i j o d p o w i e d n i k l a w i s z ( d o m y s l n i e 1 ) :

Wydruk 3: Kolejne etapy pracy z programem PGrp dla metody k-NN

1

Wprowadz l i c z b e

n a j b l i z s z y c h s a s i a d o w ( d o m y s l n i e k=3) : 3

2

3

3

4

W y b i e r z m i a r e o d l e g l o s c i : 1− e u k l i d e s o w a , 2−Hamminga , 3−Canbera ,

5

4−M a h a l a n o b i s a , 5− p o d o b i e n s t w o " c o s i n u s k a t a m i e d z y w e k t o r a m i x , y " ,

6

6− p o d o b i e n s t w o na p o d s t a w i e f .

o d l e g l o s c i h=1/(1+a ∗ d^b ) ,

7

7− p o d o b i e n s t w o na p o d s t a w i e f .

o d l e g l o s c i h=e x p (−a ∗ d )

8

( d o m y s l n i e r =1) : 1

9

1

10

11

Ocena p r o c e s u g r u p o w a n i a 1 :

12

0 . 4 5 7 5 9

13

Ocena p r o c e s u g r u p o w a n i a 2 :

14

0 . 1 3 9 5 2

15

16

/// KONIEC PROGRAMU ///

Następnie:

1. W oknie pokazanym na Wydruku 1. należy określić zbiór danych, który będzie poddany

procesowi grupowania - należy wybrać z klawiatury odpowiedni numer i potwierdzić

przyciskiem Enter. UWAGA! Otworzy się nowe okno z wykresem dwuwymiarowym ilu-

strującym rozkład wybranych danych.

Gliwice 2013-02-05

- 12/14 -

background image

2. W oknie pokazanym na Wydruku 2. należy wybrać metodę grupowania wprowadzając

odpowiedni numer z klawiatury i potwierdzić wybór przyciskiem Enter.

3. W kolejnym kroku, w zależności od wybranej metody grupowania, należy podać dodat-

kowy parametr:

(a) NN: nie dotyczy,

(b) k-NN: liczbę najbliższych sąsiadów, parametr k (Wydruk 3.),

(c) MMD: mnożnik wartości progowej, parametr k,

(d) drzewa minimalnego: liczbę grup, parametr L.

4. Następnie, niezależnie od wybranej metody, należy wybrać miarę odległości lub podo-

bieństwa (Wydruk 3.): (1) odległość euklidesowa, (2) odległość Hamminga, (3) odległość

Canbera, (4) odległość Mahalanobisa, (5) podobieństwo „cosinus kąta między wektorami

x, y”, (6) podobieństwo na podstawie funkcji odległości h =

1

1+αd

β

, (7) podobieństwo

na podstawie funkcji odległości h = exp (−αd)

5. Po wprowadzeniu tych danych program wykona następujące czynności (Wydruk 3.):

(a) Przeprowadzi proces grupowania zgodnie z wprowadzonymi danymi.

(b) Zilustruje wynik procesu grupowania w formie wykresu dwuwymiarowego (Rys. 9).

(c) Wyliczy i wypisze w wierszu poleceń wartości ocen jakości procesu grupowania.

(d) Zakończy swoje działanie

0

10

20

30

40

50

0

10

20

30

40

50

Rysunek 9: Przykładowy wynik procesu grupowania

Gliwice 2013-02-05

- 13/14 -

background image

4. Sposób przeprowadzenia ćwiczenia

Przebieg ćwiczenia jest następujący:

1. Prowadzący wskazuje studentowi dane do grupowania.

2. Prowadzący wskazuje studentowi dwa algorytmy grupowania - metodę 1. i metodę 2.

3. Prowadzący wskazuje studentowi, które parametry należy zmieniać i, o ile jest to możliwe,

w jakim zakresie.

4. Student przeprowadza badania porównawcze polegające na tym, że:

(a) W ramach metody 1. zmieniane są wartości wybranych parametrów. Jako wyniki

odczytywane są wartości ocen jakości grupowania i wykres ilustrujący podział zbioru

wejściowego na grupy. Po przeprowadzeniu testów wyniki są porównywane między

sobą. Rezultaty porównania należy opracować w formie wniosków.

(b) W ramach metody 2. należy wykonać te same operacje jak w metodzie 1.

(c) Ostatni etap badań polega na porównaniu metod 1. i 2. Rezultaty porównania

należy opracować w formie wniosków.

5. Przygotowanie do ćwiczenia

Przygotowanie do ćwiczenia obejmuje zapoznanie się z treścią niniejszej instrukcją oraz pro-

gramem PGrp. Wiadomości z omawianej dziedziny zostaną sprawdzone w ramach kartkowi

sprawdzającej przygotowanie do zajęć.

Literatura

[1] IPKM: Grupowanie-Klasyfikacja-Selekcja. [on-line] http://ipkm.polsl.pl/PROJEKTY/

Klas, ostatni dostęp: luty 2013.

[2] MathWorks: MATLAB. [on-line] http://www.mathworks.com/products/matlab/,

ostatni dostęp: luty 2013.

[3] MathWorks: GNU Octave. [on-line] http://www.gnu.org/software/octave/, ostatni

dostęp: luty 2013.

[4] Tadeusiewicz R., Flasiński M.: Rozpoznawanie obrazów. Wydawnictwo naukowe PWN,

Warszawa, 1991, [on-line] http://winntbg.bg.agh.edu.pl/skrypty/0005/, ostatni

dostęp: luty 2013.

Gliwice 2013-02-05

- 14/14 -


Document Outline


Wyszukiwarka

Podobne podstrony:
Metody - instrukcja dla badaczy STUDIA ZAOCZ 2011, Praca i czas prywatny
Badanie natężenia czynników szkodliwych na stanowisku pracy-hałas, ANALITYCZNE METODY INSTRUMENTALNE
Pytania od dr, Studia, IV rok, IV rok, VIII semestr, Metody instrumentalne
cwiczenie4, Studia, IV rok, IV rok, VIII semestr, Metody instrumentalne
Metody Instrumentalne
PREZENTACJA METODYKA INSTRUKTAŻU STANOWISKOWEGO
Polarografia-woltamperometria, ANALITYCZNE METODY INSTRUMENTALNE
Oznaczanie chromu w ściekach garbarskich metodą z difenylokarbazydem (DFK)-ćwiczenia, ANALITYCZNE ME
Sporządzenie skali wzorców nietrwałych-ćwiczenie, ANALITYCZNE METODY INSTRUMENTALNE
Oznaczanie ChZT i anionów w wodzie, ANALITYCZNE METODY INSTRUMENTALNE
MANGAN I ŻELAZO-AZOTANY-POTENCJOMETRIA-HAŁAS-CHZT-SURFAKTANTY, ANALITYCZNE METODY INSTRUMENTALNE
Kwadrupol, Studia, IV rok, IV rok, VIII semestr, Metody instrumentalne
spektroskop i widma optyczne, Studia, IV rok, IV rok, VIII semestr, Metody instrumentalne
12 ELEMENTY ANALITYKI GEOCHEMICZNEJ d same metody instrumentalneid 13444
Oznaczanie azotanów(V) i azotanów(III) w wodzie, ANALITYCZNE METODY INSTRUMENTALNE
Oznaczanie metali ciężkich w glebie metodą ASA-ćwiczenia, ANALITYCZNE METODY INSTRUMENTALNE

więcej podobnych podstron