Plan wykładu
" Metody oceny jakości sieci neuronowych
problem klasyfikacji
Sztuczne sieci neuronowe metody szacowania jakości klasyfikacji
ocena jakości klasyfikacji
Wykład 6: Ocena jakości sieci neuronowej
" Sieci o radialnych funkcjach bazowych
Sieci RBF
Wprowadzenie do sieci RBF
Porównanie sieci wielowarstwowych i sieci RBF
Teoretyczne podstawy działanie sieci RBF
Małgorzata Krętowska
Katedra Oprogramowania
e-mail: mmac@ii.pb.bialystok.pl
1 2
Sztuczne sieci neuronowe
Problem klasyfikacji Problem dwuklasowy (N=1)
PrzyporzÄ…dkowanie danego wektora cech x do jednej z M klas: K1, K2, .., KM
p(x/K1)
p(x/K1)
0.2 p(x/K2)
0.2 p(x/K2)
{x1, x2, ..., xn}
0.1
0.1
KLASYFIKATOR
0.0
0.0
x
Ki
0 5 10 15
0 5 c 10 15
x
3 4
Sztuczne sieci neuronowe Sztuczne sieci neuronowe
Problem dwuklasowy (N=2) Metody oceny jakości klasyfikacji
" Zbiór uczący i zbiór testowy
" Walidacja krzyżowa (ang. crossvalidation)
" Metoda leave-one-out (Jackknife)
5 6
Sztuczne sieci neuronowe Sztuczne sieci neuronowe
Walidacja krzyżowa (k-punktowa) Leave-one-out
" Przypadek szczególny walidacji krzyżowej
zbiór danych:
" Jeżeli zbiór uczący zawiera p wektorów cech wówczas metoda leave-one-out
jest równoważna p-punktowej walidacji krzyżowej
losowy podział
zbioru danych
zbiór danych:
na k podzbiorów
podzbiór testowy
p
W praktyce : k=10
7 8
Sztuczne sieci neuronowe Sztuczne sieci neuronowe
Ocena jakości klasyfikacji Ocena jakości klasyfikacji (2 klasy)
Jakość klasyfikacji = Liczba poprawnie sklasyfikowanych przypadków /
Liczba wszystkich analizowanych przypadków
Klasa (0, 1)
np. choroba (tak, nie)
Klasa => K1 K2 .......... KM
Decyzja
Tak Nie
K1 n11 n12 n1M
Wynik Tak True positive False Positive
klasyfikacji (TP) (FP) TP+FP
K2 n21 n22 n2M
Nie False negative True negative
...........
(FN) (TN) FN+TN
TP+FN FP+TN
KM nM1 nM2 nMM
Liczno ść n1 n2 ..... nM
Czy jakość klasyfikacji 0,95 jest dobra?
9 10
Sztuczne sieci neuronowe Sztuczne sieci neuronowe
Ocena jakości klasyfikacji (2 klasy) Ocena jakości klasyfikacji (2 klasy)
" Efektywność = TP+TN / TP+FP+FN+TN - frakcja poprawnie
p(x/K1)
p(x/K1)
0.2 p(x/K0)
0.2 p(x/K0)
sklasyfikowanych przypadków
" Czułość = TP / TP+FN - frakcja poprawnie sklasyfikowanych
przypadków choroby
0.1
0.1
TN
TP
" Specyficzność = TN / FP+TN - frakcja poprawnie sklasyfikowanych
przypadków osób zdrowych
FP
FN
0.0
0.0
x
x
0 5 c 10 15
0 5 c 10 15
(ang. accuracy, sensitivity, specificity)
11 12
Sztuczne sieci neuronowe Sztuczne sieci neuronowe
Krzywa ROC Sieci o radialnych funkcjach bazowych
(ang. Receiver Operating Characteristics) (RBF; ang. Radial Basis Functions)
" Krzywa ROC - obrazuje
zależność pomiędzy
czułością metody a
wartością 1-specyficzność
dla różnych wartości
progowych
" Porównanie jakości dwóch
metod klasyfikacji =>
porównanie wielkości
" Sieci dwuwarstwowe ( 1 warstwa ukryta)
obszaru pod krzywÄ… ROC
" Przepływ informacji od wejścia w kierunku warstwy wyjściowej
" Brak wymiany informacji między neuronami w jednej warstwie
13 14
Sztuczne sieci neuronowe Sztuczne sieci neuronowe
Sieci wielowarstwowe a sieci RBF Sieci wielowarstwowe a sieci RBF
Sieci neuronowe wielowarstwowe Sieci RBF
Sieci wielowarstwowe Sieci RBF
" neuron reprezentuje " neuron reprezentuje hipersferÄ™,
" neurony w warstwach ukrytych " wyznaczenie aktywacji, w
hiperpłaszczyznę dokonującą podziału kołowego
spełniały rolę sumatorów impulsów neuronach warstwy ukrytej,
wokół punktu centralnego
dochodzÄ…cych do nich z odbywa siÄ™ na zasadzie
" jedna warstwa ukryta =>
" może być wiele warstw ukrytych
poprzedniej warstwy wyznaczenia wartości tzw. radialnej
uproszczenie uczenia sieci
funkcji bazowej (argumentem jest
odległość ||x-c||)
" rezultat sumowania był następnie
przetwarzany przez tzw. funkcjÄ™
aktywacji i powodował pobudzenie " Warstwa wyjściowa sumuje
neuronu na określonym poziomie aktywacje neuronów warstwy
ukrytej (posługując się swoimi
wagami)
" neuron przekazywał swoją
aktywacjÄ™ - jako bodziec
numeryczny do warstwy następnej " Wynik sumowania jest podawany
lub na wyjście jako wynik działania sieci
15 16
Sztuczne sieci neuronowe Sztuczne sieci neuronowe
Radialne funkcje bazowe Przykłady radialnych funkcji bazowych
ëÅ‚ öÅ‚
r2
G(r) = expìÅ‚ - ÷Å‚
" Funkcja Gaussa
2
ìÅ‚ ÷Å‚
2Ã
íÅ‚ Å‚Å‚
RadialnÄ… funkcjÄ… bazowÄ… (typu RBF) nazywany funkcjÄ™ G(" ) postaci:
G(x; c) = G (r(x,c)), gdzie r(x,c)=||x-c||={(x-c)T(x-c)}1/2
oznacza to, że wartości funkcji - dla danego argumentu x - zależą tylko od
odległości jej argumentu od centrum c będącym parametrem tej funkcji.
(pojedyncza funkcja radialna jest czasem nazywana jÄ…drem (ang. kernel) a
parametr à szerokością jądra).
17 18
Sztuczne sieci neuronowe Sztuczne sieci neuronowe
Przykłady radialnych funkcji bazowych Przykłady radialnych funkcji bazowych
-Ä…
2
2
" Funkcje potÄ™gowe " Funkcja sklejana G(r) = (Ãr) ln(Ãr)
G(r) = (Ã + r2) , Ä… > 0
Ä…=1 i -0.5
19 20
Sztuczne sieci neuronowe Sztuczne sieci neuronowe
Teoretyczne podstawy sieci RBF
Działanie sieci RBF
(aproksymacja)
" W sieciach RBF neurony pierwszej warstwy obliczają - na podstawie " Sieć RBF działa na zasadzie wielowymiarowej interpolacji, której
podanego na wejście wektora cech x, swoje aktywacje jako wartość: zadaniem jest odwzorowanie p różnych wektorów wejściowych xi
(i=1,2,.., p) z N wymiarowej przestrzeni wejściowej w zbiór p liczb
G1(x)=G(x, c1); G2(x)=G(x, c2); ...; GH(x)=G(x,cH)
rzeczywistych di.
" Jest to równoważne określeniu funkcji radialnej F(x), dla której są
gdzie Gh - oznacza funkcję radialną obliczoną względem centrum ch.
spełnione warunki interpolacji:
F(xi) = di
" Obliczone w ten sposób wartości G1, .., GH służą jako dane wejściowe
przy czym funkcja F(x) określona jest wzorem:
dla warstwy wyjściowej, która oblicza z nich ważoną sumę. Przy
p
założeniu jednego neuronu w warstwie wyjściowej otrzymujemy:
F(x) = G( x - xi )
"wi
y(x)=w0+w1G1 (x) +w2G2 (x) + ... + wHGH(x)
i =1
gdzie xi- wartości wektorów i centra funkcji radialnej.
Przy danych centrach c1, c2, ..., cH i parametrze à pozostają nam tylko do
Wybór rodzaju normy może być dowolny, w praktyce najczęściej norma
wyznaczenia wartości wag.
euklidesowa.
21 22
Sztuczne sieci neuronowe Sztuczne sieci neuronowe
Teoretyczne podstawy sieci RBF Sieć RBF - podstawy teoretyczne
" Wprowadzone założenie dotyczące istnienia p neuronów ukrytych
Zakładając p punktów interpolacyjnych można otrzymać układ równań
prowadzi do uzyskania sieci o złych własnościach uogólniających.
liniowych:
îÅ‚G11 G12 G1 p Å‚Å‚îÅ‚W1 Å‚Å‚ îÅ‚d1 Å‚Å‚
" Przy dużej liczbie danych uczących i równej im liczbie funkcji
ïÅ‚G G22 G2 śłïÅ‚W śł ïÅ‚d śł
radialnych sieć będzie się dopasowywała do różnego rodzaju szumów i
21 p 2 2
ïÅ‚ śłïÅ‚ śł ïÅ‚ śł
=
nieregularności występujących w danych.
ïÅ‚ śłïÅ‚ śł ïÅ‚ śł
ïÅ‚G Gp2 Gpp śłïÅ‚W śł ïÅ‚d śł
ïÅ‚ p1 śłïÅ‚ p śł ïÅ‚ p śł
ðÅ‚ ûÅ‚ðÅ‚ ûÅ‚ ðÅ‚ ûÅ‚
" Wprowadzenie czynnika regularyzacji (problem optymalizacji):
gdzie Gji=G(||xj-xi||) dotyczy funkcji radialnej w centrum xi.
p
1 2
2
W postaci macierzowej:
L(F ) =
"(F (xi ) - di) + 1 PF
2 2
GW=d
i =1
RozwiÄ…zanie:
gdzie współczynnik regularyzacji, ||PF|| - czynnik stabilizujący
karzący za brak gładkości funkcji F (duże i często powtarzające się
W=G-1d
zmiany nachyleń funkcji aproksymującej)
23 24
Sztuczne sieci neuronowe Sztuczne sieci neuronowe
Sieć RBF - podstawy teoretyczne
Regularyzacja
(klasyfikacja)
" Twierdzenie Covera (1965)
Złożony problem klasyfikacyjny zrzutowany nieliniowo na przestrzeń
wielowymiarową może być rozdzielony za pomocą separatora
liniowego z większym prawdopodobieństwem niż przy rzutowaniu na
przestrzeń o mniejszej liczbie wymiarów.
Udowodniono, że każdy zbiór wzorców losowo rozmieszczony w
przestrzeni wielowymiarowej jest Õ-separowalny z
prawdopodobieństwem równym jeden, pod warunkiem zastosowania
odpowiednio dużego wymiaru, na który rzutowana jest ta przestrzeń, tj.
przestrzeÅ„ generowana przez funkcje bazowe Õi.
Wpływ regularyzacji na odwzorowanie danych przy nadwymiarowej liczbie
funkcji bazowych: a) brak regularyzacji; b) wynik z regularyzacjÄ…
25 26
Sztuczne sieci neuronowe Sztuczne sieci neuronowe
Sieć RBF - podstawy teoretyczne Sieć RBF
Zatem istnieje taki wektor w, że:
wT Õ(x) e" 0 dla x"A
wT Õ(x) < 0 dla x"B
gdzie wT Õ(x)=0 reprezentuje granicÄ™ pomiÄ™dzy klasami.
W praktyce oznacza to, że zastosowanie dwu warstw sieci, jednej
zawierającej funkcje radialne i wyjściowej warstwy liniowej zapewnia
rozwiÄ…zanie problemu klasyfikacji nieliniowej.
H
ym = (x)wmi
"G
i
i=0
27 28
Sztuczne sieci neuronowe Sztuczne sieci neuronowe
Rodzaje sieci RBF Sieci HRBF
Sieci RBF Sieci HRBF
" Sieci GRBF (ang. Generalized Radial Basis Function)- mniejsza liczba
węzłów niż danych.
" Sieci HRBF (ang. Hyper Radial Basis Function)- pełna macierz obrotów
i skalowania Q (współczynnik wagowy, ze względu na różną zmienność
w każdej osi; Q różne dla różnych centrów):
2
x = (Qx)T (Qx) = xTQTQx
Q
OznaczajÄ…c iloczyn macierzy QTQ jako macierz C otrzymujemy:
p p
2
x = xixj
""Cij
Q
i =1 j=1
W szczególności, jeżeli macierz Q jest diagonalna Q=1, wówczas
wagowa norma Euklidesowa sprowadza siÄ™ do normy klasycznej:
p
2 2
2
x = x =
"xi
Q
i=1
29 30
Sztuczne sieci neuronowe Sztuczne sieci neuronowe
Uczenie sieci RBF Etap I - wybór centrów funkcji bazowych
Uczenie sieci RBF odbywa się w trybie nadzorowanym. Można tu
wyróżnić dwa etapy:
" Losowy wybór centrów funkcji bazowych
" dobór parametrów funkcji bazowych (centra + dyspersje)
" Zastosowanie procesu samoorganizacji
" Wykorzystanie dendrogramów
" Algorytm probabilistyczny (HRBF)
" dobór wag neuronów warstwy wyjściowej
31 32
Sztuczne sieci neuronowe Sztuczne sieci neuronowe
Losowy wybór centrów funkcji bazowych Zastosowanie procesu samoorganizacji
" rozwiÄ…zanie najprostsze, wykorzystywane dla klasycznych sieci " Proces samoorganizacji stosowany do danych uczÄ…cych automatycznie
radialnych dzieli przestrzeń na obszary Voronoia, reprezentujące oddzielne grupy
danych
" losowy wybór centrów:
" centrum klastra jest utożsamiane z centrum odpowiedniej funkcji
w obszarze zmienności wzorców uczących
radialnej
losowy wybór centrów spośród wzorców uczących (prosty i daje dobre
rezultaty)
" liczba tych funkcji równa jest liczbie klastrów i może być korygowana
przez algorytm samoorganizacji
" parametr dyspersji jest jednakowy dla wszystkich funkcji bazowych i
jest określany jako:
d
" Proces podziału danych na klastry może być przeprowadzony przy
à =
2M
użyciu jednej z wersji algorytmu k-średnich
gdzie
" Proces inicjalizacji centrów:
M - jest liczbą wszystkich neuronów warstwie ukrytej;
odbywa się najczęściej losowo, przy założeniu rozkładu równomiernego
d jest maksymalną odległością pomiędzy wybranymi centrami
2
w procesie doboru odpowiednich wektorów x ze zbioru danych uczących,
ëÅ‚
x - ci öÅ‚
" Gaussowska funkcja bazowa przyjmuje postać:
÷Å‚
G( x - ci )= expìÅ‚-
jako centrów.
2
ìÅ‚ ÷Å‚
d K
íÅ‚ Å‚Å‚
33 34
Sztuczne sieci neuronowe Sztuczne sieci neuronowe
Zastosowanie procesu samoorganizacji Zastosowanie procesu samoorganizacji
w przypadku danych uczących reprezentujących funkcję ciągła: wstępne
" Dobór parametru dyspersji funkcji radialnych:
wartości centrów umieszcza się w punktach odpowiadających wartościom
Aby odwzorowanie funkcji realizowane przez sieci radialne było
maksymalnym i minimalnym funkcji. Dane odpowiadajÄ…ce tym centrom
stosunkowo gładkie:
oraz ich najbliższemu otoczeniu są usuwane ze zbioru, a pozostałe centra
" pola recepcyjne wszystkich funkcji radialnych powinny pokrywać
są lokowane równomiernie w obszarze utworzonym przez dane
cały obszar danych wejściowych
pozostajÄ…ce w zbiorze.
" dwa pola mogą pokrywać się tylko w nieznacznym stopniu.
" po zaprezentowaniu k-tego wzorca x(k) ze zbioru uczÄ…cego jest
Proponowane rozwiÄ…zania
wybierane najbliższe centrum, które następnie podlega aktualizacji:
" za wartość Ãj j-tej funkcji radialnej przyjmuje siÄ™ odlegÅ‚ość
euklidesową centrum cj od jego najbliższego sąsiada (tzn. innego
ci (k +1) = ci (k) +·(k)[(x(k) - ci (k)]
centrum)
współczynnik uczenia ·(k) maleje w miarÄ™ wzrostu k, np. (T - staÅ‚a l.
" na wartość Ãj wpÅ‚ywa odlegÅ‚ość j-tego centrum od jego P najbliższych
epok)
sąsiadów (zwykle nie przekracza trzech):
·(k) = ·0 (1+ k T )
P
2
1
à = c - ck
"
j j
" każdy wektor uczący jest prezentowany kilkunastokrotnie, aż do
P
k =1
ustalenia wartości centrów.
35 36
Sztuczne sieci neuronowe Sztuczne sieci neuronowe
Wyszukiwarka
Podobne podstrony:
MatLab Sztuczne sieci neuronowelab6 Sztuczne sieci neuronoweZastosowanie sztucznych sieci neuronowych do szacowania spadków napiecia w sieciach nStatSoft Wprowadzenie do sieci neuronowychNieeuklidesowe sieci neuronoweSIECI NEURONOWEZastosowanie sieci neuronowych w ekonomiSieci neuronowe Skrypt rozdzial 10lab5 Sieci neuronowesieci neuronowe pytaniasieci neuronowe i uczenie maszynowe próba integracji readmesieci neuronowe i uczenie maszynowe próba integracji readmezadanie sieci neuronoweAnaliza skurczu betonu za pomocą sieci neuronowej RBFSieci neuronowe w grachwięcej podobnych podstron