��StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
WYKORZYSTANIE SZTUCZENJ INTELIGENCJI W PROGNOZOWANIU
dr PaweB Lula, Akademia Ekonomiczna w Krakowie
Charakterystyka sieci neuronowych
Sztuczny neuron
W prezentowanym opracowaniu przez sztuczn sie neuronow rozumiana bdzie technika
obliczeniowa wzorowana na strukturze i sposobie dziaBania ukBad�w nerwowych
organizm�w |ywych. Sztuczna sie neuronowa jest zespoBem poBczonych ze
sob element�w przetwarzajcych (neuron�w). Sztuczny neuron (rys. 1) jest to model
swojego rzeczywistego odpowiednika. Jego zasadniczym celem jest przetworzenie
informacji wej[ciowej (dostarczanej w postaci warto[ci x1, x2, ..., xn) w warto[ wyj[ciow
y. Przyjmuje si, |e zar�wno warto[ci wprowadzane na wej[cia neuronu, jak i uzyskiwana
na jego wyj[ciu warto[ wyj[ciowa, maj posta liczb rzeczywistych. Z ka|dym wej[ciem
neuronu zwizany jest wsp�Bczynnik zwany wag. Wsp�Bczynniki wagowe neuronu s
podstawowymi parametrami wpBywajcymi na spos�b funkcjonowania sztucznej kom�rki
nerwowej. Przetwarzanie informacji przez sztuczny neuron skBada si z dw�ch etap�w.
Pierwszym z nich jest agregacja danych wej[ciowych, za[ drugim wyznaczenie warto[ci
wyj[ciowej neuronu.
Rys. 1. Schemat sztucznego neuronu.
Agregacja danych wej[ciowych ma na celu przetworzenie wektora wej[ciowego x = (x1, x2,
..., xn) w pojedyncz warto[ (zagregowan warto[ wej[ciow). Na rezultat tej
transformacji w zasadniczy spos�b wpBywaj warto[ci wag. Spo[r�d wielu sposob�w
agregacji najwiksz popularno[ci cieszy si wyznaczanie warto[ci zagregowanej poprzez
3
Copyright � StatSoft Polska http://www.StatSoft.pl/Czytelnia
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
zsumowanie iloczyn�w warto[ci wej[ciowych i odpowiadajcych im wag. W niekt�rych
zastosowaniach stosowana jest inna formuBa agregacji, prowadzca do obliczenia kwadratu
odlegBo[ci Euklidesa pomidzy wektorem wej[ciowym x i wektorem wag w. Neurony
wyposa|one w pierwszy rodzaj funkcji agregujcej nazywane s neuronami liniowymi, za[
te, kt�re dokonuj agregacji zgodnie z drug z przedstawionych formuB, nazywane
s neuronami radialnymi.
Drugim etapem w funkcjonowaniu neuronu jest wyznaczenie jego warto[ci wyj[ciowej.
Elementem odpowiedzialnym za wykonanie tej czynno[ci jestfunkcja aktywacji. Jest to
funkcja przeksztaBcajca wyznaczon wcze[niej zagregowan warto[ wej[ciow w
warto[ wyj[ciow neuronu.
Rys. 2. Wykresy przykBadowych funkcji aktywacji neuronu.
Najprostszym rodzajem funkcji aktywacji jest funkcja liniowa. Jej zastosowanie powoduje,
|e na wyj[ciu neuronu pojawia si zagregowana warto[ wej[ciowa przemno|ona przez
pewien staBy wsp�Bczynnik. Bardzo du| popularno[ci ciesz si dwie funkcje aktywacji
okre[lane jako funkcje s-ksztaBtne (z uwagi na posta ich wykres�w). Pierwsz z nich
jest funkcja sigmoidalna o warto[ciach z przedziaBu od 0 do 1. Drug funkcj jest funkcja
tangensoidalna, kt�rej wykres (r�wnie| przypominajcy spBaszczon liter "s") rozciga
si w zakresie od minus do plus jedno[ci. W niekt�rych zastosowaniach stosowane
s gaussowskie funkcje aktywacji, kt�re generuj maksymaln warto[ wyj[ciow dla
zerowej warto[ci argumentu; za[ wraz ze zwikszaniem zagregowanej warto[ci wej[ciowej
warto[ wyj[ciowa tak funkcjonujcego neuronu maleje Gaussowskie funkcje aktywacji
4
www.StatSoft.pl Copyright � StatSoft Polska
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
stosowane s najcz[ciej Bcznie z radialnymi funkcjami agregujcymi, za[ funkcji liniowej
lub s-ksztaBtnej towarzyszy zwykle liniowa formuBa agregacji.
Struktura i spos�b dziaBania sztucznej sieci neuronowej
Sztuczna sie neuronowa jest zespoBem poBczonych ze sob neuron�w (rys. 3).
Rys. 3. PrzykBadowa sztuczna sie neuronowa.
Zwykle neurony wchodzce w skBad sieci tworz warstwy, z kt�rych pierwsza nosi
nazw warstwy wej[ciowej, ostatnia warstwy wyj[ciowej, za[ wszystkie warstwy
znajdujce si pomidzy nimi okre[lane s jako warstwy ukryte. Warto[ci wej[ciowe sieci
wprowadzane s na wej[cia neuron�w warstwy wej[ciowej. Nastpnie, poprzez istniejce
poBczenia, warto[ci wyj[ciowe neuron�w jednej warstwy przekazywane s na wej[cia
element�w przetwarzajcych kolejnej warstwy. Warto[ci uzyskane na wyj[ciach neuron�w
ostatniej warstwy s jednocze[nie warto[ciami wyj[ciowymi sieci.
PrawidBowo skonstruowana sie neuronowa mo|e sBu|y do rozwizywania wielu typ�w
zagadnieD. Do najpopularniejszych zastosowaD sieci nale|y zaliczy budowane przy ich
wykorzystaniu modele rozwizujce problemy regresyjne, klasyfikacyjne oraz
prognostyczne. W problemach regresyjnych u|ytkownik modelu neuronowego oczekuje,
|e posiadana przez niego sie bdzie w stanie opisywa zale|no[ci pomidzy zmiennymi,
przy czym zakBada si, |e zmienna obja[niana (zmienne obja[niane) maj charakter cigBy.
W problemach klasyfikacyjnych sie neuronowa stanowi narzdzie umo|liwiajce
zaklasyfikowanie badanych obiekt�w do wBa[ciwych klas. Je|eli wzorce klas s znane
przed rozpoczciem badaD, to rozwizywany problem okre[lany jest mianem klasyfikacji
wzorcowej, w przeciwnym przypadku rozwizywane zagadnienie jest przykBadem
problemu klasyfikacji bezwzorcowej. W problemach klasyfikacyjnych informacja
wyj[ciowa sieci zwykle ma posta zmiennej nominalnej, kt�rej poszczeg�lne warto[ci
reprezentuj klasy, do kt�rych przypisywane s obiekty. W problemach
prognostycznych celem stosowania modeli neuronowych jest wyznaczenie przyszBej
warto[ci szeregu czasowego. Sie rozwizujca zagadnienia tego typu korzysta z bie|cych
oraz przeszBych warto[ci tego samego szeregu jak r�wnie| z bie|cych i przeszBych
warto[ci innych zmiennych.
5
Copyright � StatSoft Polska http://www.StatSoft.pl/Czytelnia
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
Spos�b funkcjonowania sieci neuronowej, gwarantujcy prawidBowe rozwizywanie
postawionych przed ni problem�w, uzale|niony jest od dw�ch podstawowych czynnik�w:
�� warto[ci wsp�Bczynnik�w wagowych neuron�w skBadajcych si na sie,
�� struktury sieci (topologii), kt�ra okre[lana jest przez liczb warstw, liczb
neuron�w w poszczeg�lnych warstwach, spos�b poBczeD (czy Bczony
jest ka|dy neuron jednej warstwy z ka|dym neuronem warstwy nastpnej, czy te|
Bczone s tylko wybrane neurony, czy dozwolone s poBczenia pomidzy
neuronami nie znajdujcymi si w ssiadujcych ze sob warstwach), przyjty
model neuronu (spos�b agregacji danych wej[ciowych, rodzaj zastosowanej
funkcji aktywacji).
Proces majcy na celu okre[lenie prawidBowych warto[ci parametr�w sieci (wag, struktury
sieci) nazywany jest uczeniem sieci neuronowej. Uczenie sieci jest niezbdnym elementem
procesu konstrukcji modelu neuronowego. Proces uczenia realizowany jest przy
wykorzystaniu dostpnych zestaw�w danych, kt�re ilustruj przebieg badanych zjawisk dla
wybranych obiekt�w i/lub przeszBych okres�w czasu. W trakcie uczenia na wej[cia sieci
wprowadzane s zgromadzone warto[ci i obserwowane jest towarzyszce tej operacji
zachowanie sieci. Je|eli zachowanie sieci nie mo|e zosta uznane za w peBni poprawne, to
przeprowadzana jest modyfikacja parametr�w sieci majca na celu popraw jej
funkcjonowania. Spos�b przeprowadzenia modyfikacji okre[lany jest przez
zastosowany algorytm uczenia sieci.
Istniej dwa podstawowe sposoby przeprowadzania uczenia sieci. S nimi uczenie z
nauczycielem oraz uczenie bez nauczyciela.
W przypadku uczenia z nauczycielem zbi�r uczcy zawiera zar�wno warto[ci zmiennych
wej[ciowych jak i odpowiadajce im warto[ci zmiennej (lub zmiennych) wyj[ciowych.
Idea uczenia z nauczycielem przedstawiona zostaBa na rys. 4. Po wprowadzeniu poprzez
neurony wej[ciowe warto[ci zmiennych wej[ciowych wyznaczana jest odpowiedz sieci.
Uzyskana w ten spos�b warto[ por�wnywana jest z rzeczywist warto[ci
przechowywan w zbiorze uczcym. Je[li por�wnywane warto[ci nie s r�wne, to
parametry sieci (wagi) modyfikowane s w taki spos�b, aby odpowiedz sieci upodobniBa
si do warto[ci rzeczywistej.
Rys. 4. Uczenie z nauczycielem.
6
www.StatSoft.pl Copyright � StatSoft Polska
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
Tryb uczenia z nauczycielem stosowany jest przede wszystkim do konstrukcji sieci
rozwizujcych problemy regresyjne, klasyfikacji wzorcowej oraz prognostyczne. Proces
uczenia wymaga zwykle wielokrotnej prezentacji wzorc�w uczcych i odpowiadajcej im
modyfikacji wag. Jednokrotna prezentacja wszystkich wzorc�w uczcych nazywana
jest epok uczenia. Osoba tworzca sie ocenia przebieg uczenia obserwujc zmiany w
warto[ci bBdu uczenia (rys. 5), kt�ry okre[la stopieD niedopasowania warto[ci
rzeczywistych i teoretycznych w spos�b zagregowany dla caBego zbioru uczcego.
Rys. 5. Wykres bBdu uczenia.
Warto[ci znajdujce si na osi OX okre[laj kolejne epoki uczenia. Rysowana na wykresie
krzywa prezentuje zmiany w warto[ci bBdu. W trakcie poprawnej realizacji uczenia
poziom bBdu powinien si zmniejsza.
Stosujc uczenie bez nauczyciela (rys. 6) wykorzystuje si zbi�r uczcy obejmujcy
wyBcznie warto[ci zmiennych wej[ciowych. W tym przypadku zbi�r uczcy nie zawiera
|adnych informacji na temat warto[ci po|danych na wyj[ciach sieci. Celem uczenia jest
osignicie przez sie stanu r�wnowagi.
Rys. 6. Uczenie bez nauczyciela.
Uczenie bez nauczyciela wykorzystywane jest gB�wnie przy tworzeniu modeli
rozwizujcych zagadnienia klasyfikacji bezwzorcowej. W trakcie uczenia sie musi
rozpozna struktur zbioru danych i przypisa poszczeg�lne przypadki do wBa[ciwych klas.
Uczenie koDczy si w chwili, gdy w trakcie kolejnych prezentacji przypadk�w uczcych
nie zachodz zmiany w sposobie przyporzdkowania obiekt�w do wBa[ciwych grup. Brak
7
Copyright � StatSoft Polska http://www.StatSoft.pl/Czytelnia
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
w zbiorze uczcym informacji dotyczcych rzeczywistych warto[ci zmiennej wyj[ciowej
uniemo|liwia wyznaczenie bBdu poprzez por�wnanie wyniku dziaBania sieci z
odpowiedni warto[ci pochodzc ze zbioru uczcego. Stosowana w tym przypadku
definicja bBdu okre[la w jakim stopniu zastosowana sie jest w stanie opisa struktur
zbioru uczcego (w tym celu por�wnuje si wektory wej[ciowe z odpowiadajcymi im
wektorami wsp�Bczynnik�w wagowych).
Przedstawiona charakterystyka stosowanych tryb�w uczenia sieci neuronowych wskazuje,
|e w zagadnieniach modelowania i prognozowania stosowane bd sieci konstruowane w
trybie z nauczycielem, gdy| stanowi one dogodne narzdzie opisu zale|no[ci pomidzy
r�|nymi zmiennymi lub pomidzy oddalonymi w czasie warto[ciami tej samej zmiennej.
Utworzenie prawidBowo funkcjonujcego modelu wymaga zastosowania wBa[ciwie
przygotowanej sieci. Niestety, wyznaczany w trakcie treningu bBd uczenia nie mo|e
stanowi podstawy do oceny sieci, gdy| jego warto[ mo|e zosta sprowadzona do
dowolnie niskiego poziomu poprzez rozbudow cz[ci ukrytej sieci. Zwikszanie liczby
neuron�w ukrytych ma r�wnie| swoje wady - zwiksza liczb parametr�w sieci
szacowanych w czasie uczenia, co czsto w istotny spos�b wpBywa na czas treningu.
Jednak|e najpowa|niejsz konsekwencj stosowania zbyt rozbudowanych struktur
sieciowych jest mo|liwo[ utraty przez sie zdolno[ci do generalizacji. Zdolno[ do
generalizacji przejawia si w posiadanej przez sie umiejtno[ci wyznaczania
prawidBowych odpowiedzi dla takich danych wej[ciowych, kt�re nie byBy prezentowane w
trakcie uczenia. Umiejtno[ ta jest najwarto[ciowsz cech sieci neuronowej. Znaczenie
generalizacji ilustrowa mo|e zamieszczony przykBad numeryczny. ZaB�|my, |e chcemy
opisa zale|no[ zachodzc pomidzy zmienn X1 i X2 przy pomocy sieci neuronowej.
Podstaw do przeprowadzenia uczenia sieci jest zbi�r uczcy skBadajcy si z
przykBadowych realizacji tej zale|no[ci (rys. 7).
Rys. 7. PrzykBadowy zestaw danych.
Oczekujemy, |e sie skonstruowana na podstawie zbioru uczcego posiada bdzie
zdolno[ do generalizacji, kt�ra przejawia si bdzie w tym, |e wyniki obliczone przez
sie bd poprawne nie tylko dla tych warto[ci zmiennej X1, kt�re wystpiBy w zbiorze
uczcym, ale r�wnie| dla tych, kt�re nie byBy wprowadzane na wej[cia w trakcie uczenia
(kt�re znajduj si pomidzy warto[ciami reprezentowanymi w zbiorze uczcym). Rezultat
dziaBania takiej sieci przedstawiono na rys. 8 w postaci linii cigBej. Wyraznie widoczna
jest zdolno[ do generalizacji przejawiajca si generowaniem sensownych danych
wyj[ciowych dla warto[ci X1 nie nale|cych do zgromadzonego zestawu danych.
8
www.StatSoft.pl Copyright � StatSoft Polska
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
Rys. 8. Model posiadajcy zdolno[ do generalizacji.
Je|eli w wyniku zbytniego zwikszenia liczby neuron�w ukrytych sie utraci zdolno[ do
generalizacji, to bdzie ona prawidBowo pracowa po wprowadzeniu warto[ci wej[ciowych
wystpujcych w zbiorze uczcym, lecz bdzie jednocze[nie generowa caBkowicie bBdne
warto[ci zmiennej X2 odpowiadajce tym warto[ciom X1, kt�re nie byBy reprezentowane w
zgromadzonym zbiorze danych. PrzykBad takiego dziaBania sieci przedstawia rys. 9.
Rys. 9. Model nie posiadajcy zdolno[ci do generalizacji.
Postpujcy w trakcie uczenia sieci zanik zdolno[ci do generalizacji nazywany
jest przeuczeniem sieci. W przypadku wystpienia tego zjawiska kontynuacja uczenia
prowadzi wprawdzie do zmniejszania si bBdu sieci wyznaczonego na podstawie zbioru
uczcego, ale towarzyszy temu coraz gorsze dziaBanie sieci dla danych nie nale|cych do
zbioru uczcego (rys. 10).
Rys. 10. Efekt przeuczenia sieci (linia dolna - bBd dla zbioru uczcego, linia g�rna - bBd dla
danych nie uczestniczcych w procesie uczenia).
9
Copyright � StatSoft Polska http://www.StatSoft.pl/Czytelnia
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
Z uwagi na negatywny wpByw przeuczenia na funkcjonowanie sieci nale|y wzbogaci
procedur uczenia o mechanizm odpowiedzialny za wczesne wykrycie zaniku zdolno[ci do
generalizacji. SygnaBy o przeuczeniu nie mog by generowane w oparciu o miary jako[ci
sieci wyznaczone na podstawie zbioru uczcego, gdy| te wskazuj w takiej sytuacji na
coraz lepsze dopasowanie sieci do danych. Podstaw do uzyskania informacji o
przeuczeniu musz by mierniki wyznaczone na podstawie danych nie prezentowanych w
trakcie uczenia. Aby umo|liwi takie dziaBania dostpny zbi�r danych dzielony jest na trzy
cz[ci: om�wiony ju| zbi�r uczcy (prezentowany sieci w trakcie uczenia i sBu|cy do
modyfikacji warto[ci parametr�w), zbi�r walidacyjny (pozwalajcy na monitorowanie
procesu uczenia sieci) oraz zbi�r testowy (sBu|cy do przeprowadzenia ostatecznej oceny
uzyskanej sieci). Mechanizm wykrywajcy przeuczenie sieci korzysta ze zbioru
walidacyjnego. Po zakoDczeniu ka|dej epoki uczenia wyznaczany jest bBd sieci na
podstawie przypadk�w wchodzcych w skBad tego zbioru. Nie s one prezentowane w
trakcie uczenia i nie wpBywaj na modyfikacj wag i dziki temu pozwalaj na ocen
posiadanej przez sie zdolno[ci do generalizacji. O przeuczeniu sieci mo|emy m�wi
w�wczas, gdy bBd wyznaczony na podstawie zbioru uczcego zmniejsza si w kolejnych
epokach, za[ bBd walidacyjny w pocztkowej fazie uczenia maleje, ale nastpnie zaczyna
zwiksza swoj warto[. Zwikszanie si warto[ci bBdu walidacyjnego [wiadczy o
zbytnim dopasowywaniu si sieci do punkt�w uczcych i o utracie zdolno[ci do
uog�lniania zdobytej wiedzy. Zaobserwowanie [wiadczcego o przeuczeniu sieci wzrostu
warto[ci bBdu walidacyjnego mo|e stanowi sygnaB do przerwania uczenia, modyfikacji
struktury sieci polegajcej na zmniejszeniu liczby neuron�w ukrytych i ponownym
zapoczt-kowaniu treningu.
W trakcie uczenia sieci o prawidBowo dobranej strukturze warto[ bBdu uczenia i bBdu
walidacyj-nego powinna zmniejsza si w kolejnych epokach. Poziom bBdu
walidacyjnego jest zwykle nieznacznie wy|szy od warto[ci bBdu uczenia wyznaczonego w
tej samej epoce. Je[li oba bBdy pozostaj na wysokim poziomie, to mo|e to wskazywa na
potrzeb modyfikacji struktury sieci polegajcej na zwikszeniu liczby neuron�w ukrytych.
Problem okre[lania struktury nale|y do najtrudniejszych zadaD stojcych przed
konstruktorem sieci. Jego prawidBowe rozwizanie wymaga wiedzy i do[wiadczenia.
Czsto niezbdne staje si przeprowadzenie szeregu eksperyment�w badawczych. Bardzo
pomocne s w tym zakresie odpowiednio skonstruowane programy komputerowe, kt�re w
oparciu o zaimplementowane heurystyki i przeprowadzone eksperymenty proponuj
wBa[ciw struktur sieci.
Po przeprowadzeniu uczenia, w wyniku kt�rego bBdy dla zbioru uczcego i walidacyjnego
osignBy akceptowalny przez u|ytkownika poziom przeprowadza si ponown
weryfikacj modelu. Tym razem polega ona na obliczeniu miar dopasowania sieci do
danych wchodzcych w skBad zbioru testowego. Niski poziom wyznaczonego bBdu
potwierdza poprawno[ dziaBania sieci, za[ uzyskanie wysokiej warto[ci stanowi powa|ny
sygnaB ostrzegawczy i mo|e [wiadczy o potrzebie powt�rzenia procesu konstrukcji i
uczenia sieci.
10
www.StatSoft.pl Copyright � StatSoft Polska
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
Perceptrony wielowarstwowe
Jednokierunkowe sieci wielowarstwowe (perceptrony wielowarstwowe, sieci MLP -
MultiLayer Perceptrons) nale| do najlepiej poznanych i najcz[ciej wykorzystywanych
architektur sieciowych. Do podstawowych wBasno[ci jednokierunkowych sieci
wielowarstwowych (rys. 11) nale|y zaliczy:
�� posiadaj architektur warstwow - wyr�|nia si warstw wej[ciow, ukryte oraz
wyj[ciow,
�� poBczenia umo|liwiaj komunikacj pomidzy neuronami znajdujcymi si w
ssiadujcych ze sob warstwach,
�� wszystkie neurony wchodzce w skBad sieci dokonuj agregacji danych
wej[ciowych poprzez wyznaczenie sumy wa|onych wej[ (czyli przy pomocy
liniowej formuBy agregacji),
�� funkcja aktywacji neuron�w wej[ciowych ma charakter liniowy, neuron�w
ukrytych nieliniowy (najcz[ciej s-ksztaBtny), za[ neuron�w wyj[ciowych liniowy
bdz nieliniowy,
�� z uwagi na wystpujcy w s-ksztaBtnych funkcjach aktywacji poziom nasycenia
dane przetwarzane przez sie wymagaj odpowiedniego przeskalowania.
Rys. 11. PrzykBadowy perceptron wielowarstwowy.
Charakteryzujc proces uczenia perceptron�w wielowarstwowych, nale|y zauwa|y, |e:
�� uczenie polega na pr�bie wyznaczenia minimum funkcji bBdu; zwykle stosuje si
techniki wyznaczania minimum oparte na gradiencie (metoda wstecznej propagacji
bBd�w i jej modyfikacje), hesjanie (metoda, Newtona, Levenberga-Marquardta)
lub przybli|eniu odwrotno[ci hesjanu (metody quasi-Newtona) - wszystkie te
metody nie s odporne na zatrzymywanie si w minimach lokalnych funkcji bBdu,
�� stosowany jest tryb uczenia z nauczycielem (zbi�r uczcy zawiera przykBadowe
zestawy danych wej[ciowych i odpowiadajcych im danych wyj[ciowych),
�� czas uczenia percetron�w wielowarstwowych jest dBugi w por�wnaniu z nakBadami
czasowymi niezbdnymi do przeprowadzenia uczenia innych typ�w sieci,
�� stosowanie w procesie uczenia globalnych metod optymalizacji jest mo|liwe, lecz
zazwyczaj nieefektywne.
11
Copyright � StatSoft Polska http://www.StatSoft.pl/Czytelnia
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
Modele oparte na jednokierunkowych sieciach wielowarstwowych maj oszczdn
struktur, co powoduje, |e czas ich uruchamiania jest kr�tki i |e wymagaj niewielkich
obszar�w pamici. Do podstawowych problem�w pojawiajcych si w trakcie ich
konstrukcji nale|y zaliczy dob�r wBa[ciwej struktury (liczba warstw i liczba neuron�w w
warstwach ukrytych) oraz unikanie minim�w lokalnych funkcji bBdu w trakcie uczenia.
Perceprony wielowarstwowe posiadaj zdolno[ do ekstrapolacji, co w zale|no[ci od
charakteru rozwizywanego problemu mo|na uzna za zalet lub wad.
Sieci Kohonena Sie zaproponowana przez T. Kohonena ma bardzo prost struktur (rys.
12). W skBad sieci tego typu wchodz dwie warstwy neuron�w: warstwa wej[ciowa i
warstwa wyj[ciowa. Wystpujce w sieci poBczenia maj charakter ka|dy z ka|dym. Sie
Kohonena charakteryzuje si jednokierunkowym przepBywem informacji: od warstwy
wej[ciowej do warstwy wyj[ciowej. Specyficzn cech sieci Kohonena jest
zaproponowany przez jej tw�rc spos�b uporzdkowania neuron�w warstwy wyj[ciowej.
Zwykle nie s one uporzdkowane liniowo (jak w sieci perceptro-nowej), lecz rozlokowane
s w r�|nych punktach dwuwymiarowej pBaszczyzny. Najprostsze rozwizanie polega na
umieszczeniu neuron�w w polach znajdujcych si na przeciciu kolejnych wierszy i
kolumn wyznaczonych na pBaszczyznie. Rysunek 13 przedstawia schemat warstwy
wyj[ciowej sieci Kohonena skBadajcej si z 64 neuron�w, rozmieszczonych na przeciciu
o[miu wierszy i o[miu kolumn.
Rys. 12. Sie Kohonena.
Rys. 13. Schemat warstwy wyj[ciowej sieci Kohonena.
12
www.StatSoft.pl Copyright � StatSoft Polska
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
Na spos�b uczenia i funkcjonowania sieci Kohonena w istotny spos�b wpBywa
pojcie ssiedztwa, kt�re odnosi si do neuron�w warstwy wyj[ciowej. Ssiedztwo danego
neuronu rozumiane jest jako zbi�r ssiadujcych z nim neuron�w. Podstawowym
parametrem ssiedztwa jest jego promieD. Wraz ze wzrostem jego warto[ci zwiksza si
zasig ssiedztwa, a tym samym liczba neuron�w uznawanych za ssiad�w. Rysunek 14
prezentuje ssiedztwo neuronu znajdujcego si na przeciciu czwartego wiersza z trzeci
kolumn (neuron ten zaznaczony jest ciemnym kolorem). Jego ssiedztwo o promieniu
r�wnym jedno[ci obejmuje neurony bezpo[rednio z nim ssiadujce (osiem neuron�w
zaznaczonych ciemnoszarym kolorem). Natomiast ssiedztwo o promieniu r�wnym dwa
obejmuje wszystkie neurony wchodzce w skBad ssiedztwa o promieniu 1 oraz wszystkie
neurony ssiadujce z neuronami tworzcymi ssiedztwo o jednostkowym promieniu (na
rysunku zostaBy one zaznaczone jasnoszarym kolorem). W podobny spos�b mo|na
definiowa ssiedztwa o wikszym promieniu. Natomiast w skBad ssiedztwa o promieniu
r�wnym zero wchodzi tylko jeden neuron - ten, dla kt�rego wyznaczane jest to ssiedztwo
(czyli tzw. neuron centralny).
Rys. 14. Neuron centralny (zaciemniony obszar mapy) i jego ssiedztwa o promieniu r�wnym jeden
(kolor ciemnoszary) i dwa (kolor jasnoszary).
Ka|dy neuron wyj[ciowy posiada wektor wag, w kt�rym liczba element�w jest r�wna
liczbie neuron�w wchodzcych w skBad warstwy wej[ciowej. W trakcie funkcjonowania
sieci wektor warto[ci wej[ciowych (obejmujcy warto[ci wyj[ciowe neuron�w pierwszej
warstwy) por�wny-wany jest z wektorem wag ka|dego neuronu wyj[ciowego. Por�wnanie
to realizowane jest zwykle poprzez obliczenie kwadratu odlegBo[ci Euklidesa pomidzy
wspomnianymi wektorami (funkcj t realizuje radialna funkcji agregacji). Neuron
wyj[ciowy, dla kt�rego tak zdefiniowany miernik przyjmuje warto[ najmniejsz, posiada
wagi najbardziej zbli|one do wektora wej[ciowego i okre[lany jest jako neuron zwyciski.
Uczenie sieci Kohonena odbywa si bez nauczyciela. Podstaw uczenia jest zbi�r uczcy,
kt�rego ka|dy element jest wektorem o liczbie element�w odpowiadajcej liczbie
neuron�w w warstwie wej[ciowej sieci. W pocztkowej fazie uczenia wagi przyjmuj
warto[ci r�wne niewielkim liczbom losowym. Po prezentacji wzorca uczcego obliczana
jest odlegBo[ pomidzy warto[ciami wej[ciowymi a wagami kolejnych neuron�w warstwy
wyj[ciowej (odlegBo[ ta najcz[ciej jest wyra|ana przy pomocy formuBy Euklidesa lub
jako iloczyn skalarny wektora wej[ciowego i wektora wag; w tym drugim przypadku
13
Copyright � StatSoft Polska http://www.StatSoft.pl/Czytelnia
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
konieczne jest wcze[niejsze unormowanie wektor�w wej[ciowych). Warto[ci te s
wzajemnie por�wnywane i wyznaczany jest neuron zwyciski, kt�rego wagi s w
najwikszym stopniu zbli|one do wektora wej[ciowego. Nastpnie wagi neuronu
zwyciskiego s modyfikowane w spos�b zapewniajcy jeszcze wiksze ich upodobnienie
do wektora wej[ciowego.
Cech charakterystyczn sieci Kohonena jest to, |e proces modyfikacji wag neuronu
przeprowa-dzany jest nie tylko dla neuronu zwyciskiego, ale r�wnie| dla wszystkich
neuron�w wchodzcych w obrb ssiedztwa zwycizcy.
Proces uczenia prowadzi do utworzenia mapy topograficznej. Posiada ona zdolno[
odwzorowy-wania zale|no[ci zachodzcych pomidzy obiektami - obiektom podobnym
odpowiada ten sam obszar (neuron) na mapie lub obszary poBo|one blisko siebie. Obiekty
znacznie r�|nice si od siebie powoduj uaktywnienie neuron�w znajdujcych si w
odlegBych od siebie obszarach mapy.
Cechy modeli neuronowych
Sztuczne sieci neuronowe posiadaj szereg cech, dziki kt�rym mog stanowi przydatne
narzdzie modelowania i prognozowania szereg�w czasowych. O przydatno[ci modeli
neuronowych do badania rozwoju zjawisk w czasie decyduj przede wszystkim
nastpujce fakty:
1. Zale|no[ci wystpujce w znacznej liczbie szereg�w czasowych maj charakter
nieliniowy, co stanowi podstawow przesBank do tego, aby do ich modelowania stosowa
modele nieliniowe. Jednym z narzdzi speBniajcych ten warunek s jednokierunkowe sieci
neuronowe. Posiadaj one zdolno[ci do aproksymacji dowolnych zale|no[ci nieliniowych
jak r�wnie| charakteryzuj si zdolno[ciami generalizujcymi.
2. Proces budowy modelu neuronowego polega na eksploracji dostpnych zbior�w danych
i oszacowaniu na tej podstawie modelu opisujcego stwierdzone prawidBowo[ci.
Stosowanie modeli tego typu nie wymaga znajomo[ci postaci funkcji opisujcej istniejc
prawidBowo[. W zwizku z tym modele neuronowe mog znalez zastosowanie wszdzie
tam, gdzie nie jest znane dokBadne prawo opisujce ksztaBtowanie si badanych zale|no[ci.
Nie wyklucza to mo|liwo[ci stosowania sieci w przypadkach, gdy znana jest posta formuB
matematycznych opisujcych badany aspekt rzeczywisto[ci, ale w�wczas nakBady
zwizane z oszacowaniem modelu sieciowego mog by wy|sze ni| nakBady niezbdne do
obliczenia parametr�w danego w postaci r�wnania prawa.
3. Modele neuronowe maj charakter adaptacyjny. Mog sBu|y do opisu zale|no[ci
zmieniajcych si w czasie. W chwili pojawienia si nowych danych przeprowadzony
mo|e zosta proces douczenia sieci, co umo|liwia uwzgldnienie w tworzonym modelu
informacji zawartych w najnowszych obserwacjach.
4. Sie neuronowa mo|e by traktowana nie tylko jako mechanizm opisujcy przebieg
zjawiska i generujcy przyszBe jego warto[ci. Daje ona mo|liwo[ci przeprowadzania
14
www.StatSoft.pl Copyright � StatSoft Polska
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
wszechstronnej analizy badanego fragmentu rzeczywisto[ci. Podstawowe informacje o
systemie uzyska mo|na poprzez zastosowanieanalizy wra|liwo[ci modelu. Pozwala ona
na przedstawienie charakteru zwizku pomidzy badan wielko[ci a poszczeg�lnymi
wpBywajcymi na ni czynnikami. Istniejce metody analizy pozwalaj przy wykorzystaniu
modelu neuronowego dokBadnie analizowa zjawisko we wszelkich wybranych przez
badacza ukBadach.
Stosowanie modeli neuronowych nie zawsze jest uzasadnione. Modele tego typu nie
powinny by stosowane wtedy, gdy:
1. badacz nie dysponuje odpowiedni liczb obserwacji mogcych stanowi podstaw do
oszacowania modelu. Szacowanie sieci posiadajcych stosunkowo du| liczb parametr�w
na podstawie nielicznego zbioru uczcego prowadzi najcz[ciej do powstania modeli
dopasowujcych si do danych uczcych, ale nie posiadajcych zdolno[ci do opisu
og�lnych prawidBowo[ci istniejcych w danych.
2. trudno znalez uzasadnienie dla stosowania modeli neuronowych w sytuacji, w kt�rej
znany jest charakter wystpujcej prawidBowo[ci (np. znana jest posta funkcji opisujcej
analizowane zjawisko). W takim przypadku oszacowanie parametr�w funkcji pociga za
sob mniejsze nakBady i prowadzi do powstania modelu Batwiejszego w interpretacji.
Nawet w�wczas, gdy speBnione s warunki uzasadniajce stosowanie modeli neuronowych
nale|y pamita, |e opr�cz zalet posiadaj one r�wnie| pewne sBabe strony, mogce
przyczynia si do powstawania problem�w na etapie budowy modelu. Do
najistotniejszych minus�w sieci neuronowych nale|y zaliczy:
1. potrzeba odpowiedniego przygotowania danych - uzale|niona od charakteru zmiennych i
zastosowanego rodzaju sieci,
2. problemy zwizane z doborem wBa[ciwej struktury modelu neuronowego (rodzaj sieci,
przyjte modele neuronu, liczba neuron�w i spos�b ich poBczenia),
3. konieczno[ wyboru wBa[ciwego algorytmu uczenia sieci,
4. wysokie nakBady czasowe zwizane z oszacowaniem modelu neuronowego,
5. brak (w wikszo[ci przypadk�w) mo|liwo[ci bezpo[redniej interpretacji poszczeg�lnych
wsp�Bczynnik�w modelu neuronowego.
Etapy budowy neuronowego modelu szeregu czasowego
Proces budowy neuronowego modelu szeregu czasowego ma charakter wieloetapowy.
SkBada si z kilku nastpujcych po sobie etap�w, z kt�rych pierwszy obejmuje wstpn
analiz danych, kolejny polega na skonstruowaniu sieci neuronowej (lub kilku sieci
neuronowych), za[ ostatni zwizany jest zocen uzyskanego modelu.
Wstpna analiza danych (zwana r�wnie| preprocessingiem) obejmuje te czynno[ci, kt�re
poprzedzaj proces konstrukcji i uczenia sieci. Zakres wykonywanych operacji obejmuje
15
Copyright � StatSoft Polska http://www.StatSoft.pl/Czytelnia
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
badanie poprawno[ci i jednorodno[ci danych, operacjonalizacj danych, redukcj zbioru
zmiennych wej[ciowych, dekompozycj szeregu pierwotnego, zdefiniowanie sposobu
reprezentacji danych jako[ciowych oraz skalowanie danych.
Proces konstrukcji sieci obejmuje prace zwizane z zaprojektowaniem struktury i uczeniem
sieci opisujcej zale|no[ci w szeregu powstaBym w czasie wstpnej analizy danych. Je|eli
na etapie preprocessingu przeprowadzono dekompozycj danych, to nale|y stworzy
oddzielne sieci do opisu zale|no[ci wystpujcych we wszystkich wyodrbnionych
skBadowych, oraz zdefiniowa spos�b agregacji wynik�w dostarczanych przy pomocy tak
skonstruowanych modeli czstkowych.
Ostatnim etapem procesu konstrukcji modelu szeregu czasowego jest jego ocena. Ocena
powinna obejmowa zar�wno analiz posiadanych przez model zdolno[ci
aproksymujcych jak i umiejtno[ci generalizacji zgromadzonej wiedzy. Zastosowany
system miernik�w jako[ci modelu powinien by uzale|niony od funkcji, jak model ma
speBnia.
Wymienione powy|ej zasadnicze etapy budowy neuronowego modelu szeregu czasowego
czasami realizowane s wicej ni| jeden raz. Sytuacja taka ma miejsce w�wczas, gdy
podjta pr�ba realizacji kolejnej fazy modelowania koDczy si niepowodzeniem. W�wczas
nale|y zwykle powt�rzy (wszystkie lub tylko wybrane) wcze[niej zrealizowane kroki
analizy.
Wstpna analiza szereg�w czasowych
Przed rozpoczciem budowy modelu szeregu czasowego i przed jego prognozowaniem
zgromadzone dane poddawane s analizie wstpnej (ten etap prac okre[lany jest r�wnie|
mianem preprocessingu). Wstpna analiza danych obejmuje m.in.:
�� badanie poprawno[ci danych,
�� ocen jednorodno[ci danych,
�� przeksztaBcenia danych (operacjonalizacja danych),
�� redukcj zbioru danych wej[ciowych,
�� dekompozycj danych,
�� przyjcie sposobu reprezentacji danych jako[ciowych,
�� skalowanie danych.
Wymienione etapy wstpnej analizy danych bd tematem kolejnych punkt�w bie|cego
rozdziaBu. Wyjtkiem bdzie zagadnienie redukcji zbioru danych wej[ciowych, kt�re
zostanie om�wione w punkcie po[wiconym algorytmom genetycznym.
16
www.StatSoft.pl Copyright � StatSoft Polska
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
Badanie poprawno[ci danych
Stworzenie prawidBowo funkcjonujcego modelu wymaga wykorzystania poprawnych
danych. Realizowane na etapie preprocessingu badanie poprawno[ci ma na celu
identyfikacj i wyeliminowanie warto[ci bBdnych. W wikszo[ci przypadk�w peBne
zagwarantowanie poprawno[ci nie jest mo|liwe, za[ przeprowadzenie procedury
weryfikujcej ma na celu minimalizacj prawdopodobieDstwa wystpienia bBd�w lub
brak�w w danych.
Najlepszym sposobem zwikszenia wiarygodno[ci danych jest por�wnanie informacji
pochodzcych z kilku niezale|nych zr�deB. Jednak|e spos�b weryfikacji bazujcy na
alternatywnym zr�dle danych nie zawsze jest mo|liwy do realizacji, a jego stosowanie
zwizane jest zwykle ze znacznym zwikszeniem nakBad�w czasowych i finansowych. Ten
spos�b weryfikacji nie gwarantuje r�wnie| wykrycia bBd�w powstaBych na etapie pomiaru
danych.
Du|a cz[ metod badania poprawno[ci danych szczeg�ln uwag przywizuje do warto[ci
nietypowych, a wic tych, kt�re w znaczny spos�b odbiegaj od warto[ci
charakterystycznych dla analizowanej zmiennej. Mechaniczne odrzucenie warto[ci
nietypowych nie musi by poprawne, gdy| w[r�d nich mog si znalez zar�wno warto[ci
bBdne jak i anomalie, kt�re mimo swojej niezgodno[ci z typowymi warto[ciami s zgodne
z rzeczywisto[ci i wymagaj specyficznego sposobu ujcia w modelu.
Do podstawowych metod identyfikacji warto[ci nietypowych mo|na zaliczy: metody
graficzne pozwalajce na wizualn ocen szeregu, przeksztaBcenia szeregu uBatwiajce
wykrycie nietypowych zachowaD (np. r�|nicowanie), analiz reguB sterujcych
funkcjonowaniem systemu generujcego dane i podjcie pr�by ich weryfikacji na
podstawie dostpnych obserwacji (np. sprawdzenie, czy kolejne ceny akcji s zgodne z
obowizujcymi reguBami okre[lajcymi maksymalne zmiany cen).
Po wykryciu warto[ci bBdnych nale|y podj decyzj dotyczc sposobu ich traktowania.
Do najpopularniejszych mo|liwo[ci w tym zakresie nale|y zaliczy: zastpienie bBdnej
warto[ci warto[ci pochodzc z alternatywnego zr�dBa danych (jest najlepszy spos�b
postpowania, ale nie zawsze mo|liwy do realizacji), zastpienie bBdnej warto[ci
warto[ci oszacowan (nale|y pamita, |e warto[ oszacowana odbiega zwykle od
warto[ci rzeczywistej) oraz pominicie warto[ci bBdnej (w przypadku szereg�w
czasowych takie postpowanie nie zawsze jest mo|liwe, gdy| usunicie pojedynczej
obserwacji mo|e prowadzi do zaburzenia informacji okre[lajcej przebieg badanego
zjawiska).
Bardzo trudnym problemem jest r�wnie| zagadnienie brak�w danych. W przypadku
szereg�w czasowych warto[ci brakujcych zwykle nie mo|na pomin, gdy| mo|e to
znacznie utrudni p�zniejsz identyfikacj wystpujcych prawidBowo[ci. Podobnie jak w
przypadku warto[ci bBdnych, najcz[ciej zaleca si zastpienie brak�w warto[ciami
pochodzcymi z innych zr�deB lub warto[ciami oszacowanymi.
17
Copyright � StatSoft Polska http://www.StatSoft.pl/Czytelnia
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
Badanie jednorodno[ci danych
Kolejnym etapem wstpnej analizy danych jest badanie ich jednorodno[ci.
Przeprowadzona procedura badawcza ma na celu okre[lenie, czy wszystkie zgromadzone
przypadki tworz jednorodn struktur, czy te| tworz wyraznie wyodrbnione klasy.
Najprostsz, a jednocze[nie bardzo skuteczn, metod badania jednorodno[ci jest
wzrokowa analiza wykres�w rozrzutu danych. Naniesione na wykres punkty pozwalaj
oceni stopieD jednorodno[ci danych. Graficzna prezentacja przypadk�w uczcych mo|e
zosta utrudniona przez wysoki wymiar przestrzeni danych. W takich sytuacjach nale|y
wpierw dokona redukcji liczby zmiennych opisujcych wyr�|nione przypadki.
Nie speBnienie warunku jednorodno[ci mo|e przejawia si przez:
�� wystpienie pojedynczych obserwacji nietypowych,
�� wystpowanie grup obserwacji.
W przypadku stwierdzenia niejednorodno[ci zbioru danych wej[ciowych mo|liwe s
nastpujce strategie postpowania:
�� je|eli zbi�r obserwacji skBada si z kilku jednorodnych grup obserwacji to mo|liwe
jest wydzielenie istniejcych grup i niezale|na analiza ka|dej z nich. Postpowanie
takie prowadzi do budowy niezale|nego modelu dla ka|dej jednorodnej grupy,
�� je|eli w zbiorze danych wystpuj obserwacje nietypowe, to mo|liwe jest
usunicie istniejcych anomalii lub zastpienie ich warto[ciami zmniejszajcymi
stopieD ich nietypowo[ci,
�� Bczna analiza wszystkich danych i stworzenie jednego modelu.
Ka|de z tych podej[ ma swoje wady i zalety. PodziaB danych na jednorodne grupy i
budowa modelu dla ka|dej z nich prowadzi do wykorzystania mniejszych sieci, kt�re
szybciej si ucz i generuj mniejsze bBdy. Wad modeli tego typu jest niewykorzystanie
informacji wynikajcych z Bcznego rozpatrywania obiekt�w nale|cych do r�|nych grup
wydzielonych ze wzgldu na wym�g jednorodno[ci. Wada ta nie ujawnia si w sytuacji,
gdy budowany jest jeden model na podstawie caBego zestawu danych. Ale w takim
przypadku model mo|e nie opisywa pewnych zachowaD o mniejszym nasileniu, wymaga
zastosowania du|ych sieci co pociga za sob dodatkowe problemy zwizane z doborem
odpowiedniej struktury sieci i jej uczeniem. Nie mo|na jednoznacznie powiedzie, kt�re z
prezentowanych podej[ jest lepsze. Jest to uzale|nione od konkretnego przypadku
zastosowaD.
Operacjonalizacja danych
Operacjonalizacja szeregu czasowego polega na przeksztaBceniu jego warto[ci w spos�b
pozwalajcy na wyeksponowanie pewnych, istotnych z punktu widzenia celu analizy, cech
charakterystycznych szeregu.
Operacjonalizacja danych majcych posta szereg�w czasowych mo|e polega
na przeksztaBceniu warto[ci pierwotnych szeregu do postaci:
18
www.StatSoft.pl Copyright � StatSoft Polska
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
1. szeregu r�|nic,
2. szeregu warto[ci -1, 0, +1, kt�re reprezentuj kolejno warto[ci ujemn, r�wn zero i
dodatni,
3. szeregu r�|nic wzgldnych o postaci gdzie q mo|e by r�wne warto[ci x w
okresie t-1 lub w okresie pocztkowym 0 lub te| odchylenie standardowe z szeregu
r�|nic xt-xt-1; obliczone w ten spos�b warto[ci okre[lane s jako przyrosty wzgldne,
4. szeregu warto[ci (indeksy dynamiki),
5. logarytm�w naturalnych z warto[ci szeregu xt,
6. logarytm�w naturalnych z indeks�w dynamiki,
7. pierwiastk�w kwadratowych lub sze[ciennych z warto[ci szeregu,
8. wsp�Bczynnik�w udziaBu okres�w wyra|anych jako iloraz warto[ci szeregu w danym
okresie i sumy warto[ci obliczonej dla wszystkich okres�w.
Opr�cz wymienionych powy|ej uniwersalnych metod operacjonalizacji szereg�w
czasowych zastosowa mo|na r�wnie| metody przeksztaBceD specyficzne dla
rozpatrywanej dziedziny zastosowaD. W przypadku finansowych szereg�w czasowych
przydatnym narzdziem przeksztaBcania danych mo|e by wyznaczenie warto[ci
wskaznik�w technicznych. Dob�r odpowiednich wskaznik�w uzale|niony jest w du|ym
stopniu od celu prowadzonych obliczeD.
Zastosowanie wskaznik�w technicznych zilustrowane zostanie opisem przeksztaBceD
dokonanych na przykBadowym szeregu czasowym skBadajcym si ze stu warto[ci indeksu
WIG pochodzcych z kolejnych sesji gieBdowych w okresie od 12 listopada 1991 do 1
grudnia 1992 roku (rys. 15).
Szereg czasowy okre[lajcy ksztaBtowanie si indeksu WIG staB si podstaw do
wyznaczenia trzech (wybranych w spos�b arbitralny) wskaznik�w
technicznych: ROC, MACD i oscylator stochastyczny. Warto[ci wskaznik�w technicznych
mog trafniej ni| dane pierwotne reprezentowa pewne cechy szeregu (poziom, kierunek
zmian /trend/, tempo zmian).
19
Copyright � StatSoft Polska http://www.StatSoft.pl/Czytelnia
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
Rys. 15. KsztaBtowanie si indeksu WIG w okresie od 12.XI.1991 do 1.XII.1992.
Wskaznik ROC (Rate of Change, wskaznik zmian) por�wnuje bie|c warto[ szeregu z
warto[ci pochodzc sprzed n okres�w. Obliczanie jego warto[ci odbywa si zgodnie ze
wzorem:
Uzyskanie warto[ci wskaznika r�wnej jedno[ci [wiadczy o braku zmian w warto[ciach
szeregu (warto[ jeden wyznacza poziom r�wnowagi wskaznika). Warto[ci ni|sze od
poziomu r�wnowagi wskazuj na spadki, za[ wy|sze na wzrosty warto[ci szeregu
pierwotnego. Wskaznik ROC nie posiada [ci[le okre[lonego przedziaBu zmienno[ci.
Obliczone warto[ci wskaznika ROC przedstawione zostaBy na rys. 16.
Rys. 16. Indeks WIG i obliczony na jego podstawie wskaznik zmian (ROC)
20
www.StatSoft.pl Copyright � StatSoft Polska
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
Innym popularnym wskaznikiem technicznym jest MACD (wskaznik
zbie|no[ci/rozbie|no[ci [rednich ruchomych; MACD - Moving Average
Convergence/Divergence), kt�rego warto[ci bazuj na wielko[ciach wykBadniczych
[rednich ruchomych.
Warto[ wskaznika MACD definiowana jest jako r�|nica pomidzy dwiema
wykBadniczymi [rednimi ruchomymi (zwykle s to [rednie 12 i 26 dniowe), czyli:
gdzie jest pierwsz (kr�tsz) [redni ruchom (np. 12 dniow), za[ jest drug
(dBu|sz) [redni ruchom (np. 26 - dniow).
Zrednie ruchome s filtrem usuwajcym z szeregu wahania o wysokich czstotliwo[ciach.
Wraz z wydBu|aniem okresu, z kt�rego liczona jest [rednia mocniejszy jest stopieD
wygBadzania szeregu. Wskaznik MACD okre[la tempo zmian w szeregu podstawowym.
Dodatnie warto[ci MACD wskazuj na wzrost warto[ci szeregu w okresie uwzgldnionym
przy wyznaczaniu kr�tkiej [redniej ruchomej w por�wnaniu z okresem odpowiadajcym
dBugiej [redniej ruchomej. W przeciwny spos�b interpretowa mo|na ujemne warto[ci
wskaznika.
Budujc model szeregu czasowego nale|y rozwa|y mo|liwo[ uwzgldnienia na jego
wej[ciu zar�wno danych pierwotnych jak i warto[ci wskaznik�w technicznych (np.
wskaznika MACD), gdy| takie postpowanie umo|liwia wykrycie dywergencji
(niezgodno[ci kierunk�w zmian) pomidzy tymi szeregami, co mo|e by zapowiedzi
zmiany trendu. Warto[ci wskaznika MACD obliczone na podstawie analizowanych
warto[ci WIG przedstawia rys. 17.
Rys. 17. KsztaBtowanie si indeksu WIG i wskaznika MACD.
21
Copyright � StatSoft Polska http://www.StatSoft.pl/Czytelnia
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
Trzecim, z wybranych na potrzeby niniejszego opracowania, wskaznikiem technicznym
jest oscylator stochastyczny. Przedstawia on bie|cy poziom indeksu lub ceny na tle
przedziaBu okre[lajcego jego zmienno[ w przyjtym okresie czasu. Zastosowana w
obliczeniach formuBa ma posta:
gdzie:
xt - bie|ca warto[ szeregu,
H(n) - warto[ maksymalna z ostatnich n okres�w,
L(n) - warto[ minimalna z ostatnich n okres�w.
Wyznaczona w podany spos�b warto[ %K okre[la stosunek bie|cej warto[ci szeregu do
zakresu wahaD w n ostatnich jednostkach czasu. Przemno|enie ilorazu przez sto powoduje,
|e charakteryzowany wskaznik unormowany jest do przedziaBu [0; 100]. Wy|sze jego
warto[ci wskazuj, |e aktualny poziom szeregu zbli|a si do swojej warto[ci maksymalnej
osignitej w rozwa|anym przedziale czasu. Wykres warto[ci oscylatora stochastycznego
prezentuje rys. 18.
Rys. 18. KsztaBtowanie si indeksu WIG i warto[ci oscylatora stochastycznego.
Dekompozycja szereg�w czasowych
Obserwowany szereg czasowy jest czsto rezultatem zBo|enia wielu, r�|nicych si
charakterem, skBadowych. ZBo|ona struktura szeregu w wielu przypadkach utrudnia
prawidBowe modelowanie i prognozowanie jego przyszBych warto[ci, gdy| pojedynczy
model nie zawsze jest w stanie prawidBowo odzwierciedla zmiany zachodzce w
22
www.StatSoft.pl Copyright � StatSoft Polska
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
ksztaBtowaniu si skBadowych szeregu. Mo|na oczekiwa, |e precyzja modelowania
wzro[nie w rezultacie wydzielenia skBadowych badanego szeregu, niezale|nego ich
modelowania i agregacji uzyskanych wynik�w.
Takie podej[cie jest czsto stosowane w praktyce, gdy do opisu ksztaBtowania si pewnych
zjawisk wykorzystuje si liniowe funkcje trendu (obrazujce zasadniczy kierunek zmian) i
wsp�Bczynniki sezonowo[ci (wskazujce na odchylenia od trendu majce miejsce w
kolejnych okresach czasu). Podej[cie takie sprawdza si w przypadkach
charakteryzujcych si stabilnym trendem i regularnymi wahaniami sezonowymi
(nakBadanymi na trend w spos�b addytywny lub multiplikatywny). Za przykBad mo|e
sBu|y szereg przedstawiony na rys. 19.
Rys. 19. Dekompozycja przykBadowego szeregu.
Zrednie ruchome usuwaj zmiany kr�tkookresowe (wygBadzaj szereg). W wyniku ich
zastosowania uzyskuje si informacje o zasadniczym kierunku zmian. PrzykBad
zastosowania [rednich ruchomych przedstawia rys. 20.
23
Copyright � StatSoft Polska http://www.StatSoft.pl/Czytelnia
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
Rys. 20. PrzykBadowy szereg czasowy i wyznaczony na jego podstawie szereg [rednich ruchomych.
Cel stosowania operacji r�|nicowania szeregu jest caBkowicie odmienny. PrzeksztaBcenie to
ma doprowadzi do usunicia trendu i pozostawienia informacji wyBcznie o zmianach
kr�tkookre-sowych. Wynik zastosowania tej operacji przedstawia rys. 21.
Rys. 21. PrzykBadowy szereg czasowy i wyznaczony na jego podstawie szereg r�|nic.
24
www.StatSoft.pl Copyright � StatSoft Polska
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
W przypadku szereg�w powstaBych poprzez zBo|enie wikszej (i czsto nieznanej) liczby
skBadowych przedstawione proste metody dekompozycji nie zawsze pozwalaj na
identyfikacj i wydzielenie skBadowych szeregu. W realizacji tego zadania mo|e pom�c
prezentacja danych w dziedzinie czstotliwo[ci, kt�ra ma na celu zobrazowanie nat|enia
poszczeg�lnych skBadowych czstotliwo[ciowych. Najpopularniejszym narzdziem
przej[cia z ujcia czasowego do ujcia czstotliwo[ciowego jest analiza Fouriera.
Rys. 22. Czasowe i czstotliwo[ciowe ujcie przykBadowego szeregu czasowego.
W prezentowanym przykBadzie (rys. 22) analiza czstotliwo[ciowa (po prawej stronie)
wyraznie wskazuje na istnienie wahaD o okresie 12 jednostek czasu (miesicy). Poddawany
badaniom szereg czasowy zostaB wpierw przeksztaBcony poprzez wyeliminowanie trendu i
odjcie warto[ci [redniej. Z tego powodu uzyskane rezultaty uwzgldniaj
charakteryzujce si stosunkowo kr�tkim okresem trwania zmiany sezonowe i nie zostaBy
zdominowane przez informacje o trendzie (zmiany o niskich czstotliwo[ciach czyli
dBugookresowe).
Analiza Fouriera pozwala na identyfikacj skBadowych spektralnych wystpujcych w
szeregu czasowym, ale nie dostarcza informacji dotyczcej ich lokalizacji w czasie - nie
okre[la, czy zidentyfikowane wahania wystpuj na caBej dBugo[ci szeregu, czy te| tylko w
pewnej jego cz[ci. Taki spos�b prowadzenia badaD prowadzi mo|e do bBdnej
interpretacji uzyskanych wynik�w.
25
Copyright � StatSoft Polska http://www.StatSoft.pl/Czytelnia
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
Reprezentacja danych jako[ciowych
Pewne informacje wpBywajce na przyszB warto[ szeregu czasowego maj charakter
jako[ciowy. Informacje o takiej postaci nie mog by wprowadzane na wej[cia sieci
neuronowej, kt�ra przystosowana jest do przetwarzania informacji w postaci ilo[ciowej.
Brak mo|liwo[ci bezpo[redniego przetworzenia danych jako[ciowych przez sie
neuronow wymusza konieczno[ ich wstpnego przeksztaBcenia do postaci numerycznej.
Zastosowany spos�b przeksztaBcenia jest uzale|niony od skali pomiarowej wBa[ciwej do
wyra|enia danych jako[ciowych.
Zmienne dwustanowe (binarne) mog by reprezentowane przy pomocy pojedynczego
neuronu, na wej[cie kt�rego wprowadza si warto[ci numeryczne odpowiadajce
warto[ciom zmiennej binarnej. Zwykle stosuje si jeden z dw�ch popularnych spos�b
kodowania. Pierwszy z nich zakBada, |e warto[ciom binarnym przypisuje si warto[ci 0 i 1,
za[ drugi zaleca kodowanie warto[ci przy pomocy liczb -1 oraz +1.
Zmienne nominalne wielostanowe s reprezentowane przy pomocy metody jeden-z-n.
Stosujc ten spos�b reprezentacji liczba neuron�w odpowiadajca zmiennej jest r�wna
liczbie mo|liwych warto[ci przyjmowanych przez zmienn. Ka|dy neuron odpowiada
jednej warto[ci, za[ dana warto[ reprezentowana jest przez pojawienie si jedynki na
odpowiadajcym jej neuronie i zer na wszystkich pozostaBych neuronach.
Zmienne nominalne wielostanowe mog by r�wnie| reprezentowane przy pomocy
pojedynczego neuronu. W�wczas (podobnie jak w przypadku zmiennych binarnych)
wszystkim warto[ciom zmiennej przyporzdkowywane s numery, kt�re wprowadzane s
na wej[cie neuronu odpowiada-jcego danej zmiennej.
Skalowanie
W wielu przypadkach sie neuronowa nie przetwarza bezpo[rednio oryginalnych warto[ci
zmiennych obja[niajcych i obja[nianych, lecz operuje na warto[ciach przeskalowanych.
Skalowanie dotyczy zar�wno zmiennych numerycznych jak i numer�w porzdkowych
przypisanych poszczeg�lnym warto[ciom nominalnym.
Celem skalowania warto[ci zmiennych wyj[ciowych jest dostosowanie ich warto[ci do
zakresu warto[ci wyj[ciowych neuron�w wyj[ciowych. Skalowanie warto[ci zmiennych
obja[niajcych ma na celu przeksztaBcenie ich warto[ci do takiego przedziaBu, dla kt�rego
stopieD zmienno[ci logistycznych funkcji aktywacji jest najwikszy.
Bardzo popularnym sposobem skalowania jest przeksztaBcenie warto[ci szeregu do
przedziaBu [0; 1] albo do przedziaBu [-1; +1]. Po wykonaniu obliczeD przez sie neuronow
nale|y wykona przeksztaBcenie powrotne, pozwalajce na przej[cie do pierwotnie
stosowanej skali.
26
www.StatSoft.pl Copyright � StatSoft Polska
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
Modele szereg�w czasowych wykorzystujce perceptrony
wielowarstwowe
Wstpna analiza danych prowadzi do uzyskania warto[ci, kt�re mog by przetwarzane
przez sie neuronow. Decydujc si na konstrukcj modelu wykorzystujcego perceptron
wielowarstwowy nale|y podj decyzje okre[lajce:
�� jakie warto[ci nale|y wprowadza na wej[cia sieci,
�� jak zaprojektowa cz[ ukryt sieci,
�� jak przeprowadzi uczenie sieci.
Odpowiedz na postawione powy|ej pytania uzale|niona jest od rzeczywistego charakteru
opisywanej zale|no[ci, od dostpnych informacji i od liczebno[ci posiadanego zbioru
danych.
Wyb�r warto[ci wej[ciowych jest jednym z najwa|niejszych etap�w modelowania.
Konstruujc sieci opisujce zachowanie szereg�w czasowych w charakterze warto[ci
wej[ciowych przyjmuje si zwykle op�znione w stosunku do warto[ci obja[nianej warto[ci
tego samego szeregu jak i op�znione warto[ci innych zmiennych. Nadmierne zwikszanie
liczby wej[ prowadzi do rozbudowy sieci, co z kolei jest powodem zmniejszenia
zdolno[ci do uog�lniania. Projektujc zbi�r wej[ nale|y rozwa|y uwzgldnienie tylko
pewnych, nie ssiadujcych bezpo[rednio z sob warto[ci op�znionych. R�wnie|
pominicie pewnych potencjalnych zmiennych wej[ciowych mo|e polepszy jako[ sieci.
Istotnym elementem wpBywajcym na jako[ modelu jest r�wnie| prawidBowe
zaprojektowanie cz[ci ukrytej sieci. Narzdziem sBu|cym do realizacji tego zadania s
algorytmy konstrukcji sieci, kt�re okre[laj optymaln struktur na drodze poszukiwaD
iteracyjnych. Ze wzgldu na spos�b dziaBania algorytmy konstrukcji sieci neuronowych
podzieli mo|na na trzy grupy:
�� redukujce - punktem wyj[cia jest sie o rozbudowanej strukturze - w trakcie
uczenia zbdne poBczenia i/lub neurony s usuwane z sieci,
�� rozbudowujce - punktem wyj[cia jest sie o prostej strukturze (bez warstw
ukrytych) - w trakcie dziaBania dodawane s niezbdne neurony i/lub poBczenia,
�� przeszukujce - bazujc na zestawie kilku struktur wej[ciowych tworzone s
testowane r�|ne warianty sieci w celu okre[lenia struktury najlepiej
przystosowanej do realizacji stawianych wymagaD.
Je|eli na etapie wstpnej analizy danych przeprowadzono dekompozycj szeregu, to proces
konstrukcji sieci nale|y powt�rzy dla ka|dej wydzielonej skBadowej.
27
Copyright � StatSoft Polska http://www.StatSoft.pl/Czytelnia
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
Sieci Kohonena w analizie szereg�w czasowych
Narzdziem przydatnym w trakcie analizy, modelowania i prognozowania szereg�w
czasowych mo|e by r�wnie| sie Kohonena. Zastosowanie tego narzdzia pozwala
midzy innymi na wydzielenie podobnych fragment�w szeregu czasowego. Celem
zastosowania sieci Kohonena jest przypisanie poszczeg�lnych przypadk�w do
reprezentujcych je skupieD. Po dokonaniu klasyfikacji danych proces budowy modelu
mo|e zosta zrealizowany niezale|nie dla ka|dej klasy.
Spos�b zastosowania sieci Kohonena do klasyfikacji danych tworzcych szereg czasowy
zilustrowany zostanie przykBadem dotyczcym modelowania opisanego wcze[niej szeregu
obejmujcego sto warto[ci indeksu WIG. ZaBo|ono, ze ka|da warto[ szeregu uzale|niona
jest od wskaznik�w technicznych: ROC, MACD oraz oscylatora stochastycznego.
Klasyfikacja przypadk�w realizowana przez sie Kohonena przeprowadzana jest wyBcznie
na podstawie warto[ci przyjtych zmiennych obja[niajcych. Proces tworzenia sieci w
programie STATISTICA Neural Networks przedstawiony jest na rys. 23.
Rys. 23. Konstrukcja sieci Kohonena w programie STATISTICA Neural Networks.
Efektem dziaBania jest sie zaprezentowana na rys. 24.
Rys. 24. Struktura sieci Kohonena wykorzystanej w analizie przykBadowego szeregu czasowego.
Przeprowadzony proces uczenia sieci (zilustrowany wykresem zamieszczonym na rys. 25)
doprowadziB do wydzielenia klas grupujcych poszczeg�lne elementy zbioru uczcego.
28
www.StatSoft.pl Copyright � StatSoft Polska
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
Rys. 25. Zmiana warto[ci bBdu w trakcie uczenia sieci Kohonena.
Liczebno[ poszczeg�lnych klas przedstawia zamieszczona poni|ej tabela.
Tabela 1. Czsto[ci zwycistw poszczeg�lnych neuron�w wchodzcych w skBad mapy Kohonena.
Uruchomienie sieci Kohonena pozwala przypisa ka|dy element przetwarzanego zbioru
danych do jednej z wydzielonych klas (rys. 26).
Rys. 26. Uruchomienie sieci Kohonena umo|liwiajce przypisanie przypadk�w do poszczeg�lnych
klas.
29
Copyright � StatSoft Polska http://www.StatSoft.pl/Czytelnia
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
Interpretacj uzyskanych wynik�w uBatwia naniesienie warto[ci identyfikujcych klasy na
wykres rozwa|anego szeregu czasowego (rys. 27).
Rys. 27. Podobne fragmenty szeregu czasowego wyodrbnione przy pomocy sieci Kohonena.
Sie Kohonena pozwala na charakterystyk uzyskanych klas. Najprostsz metod opisu
wydzielonych grup jest wyznaczenie [redniej warto[ci zmiennej obja[nianej (WIG) dla
poszczeg�lnych skupieD (tabela 2).
Analiz danych zawartych w tabeli 2 uBatwia ich prezentacja graficzna (rys. 28). ZaBo|ono,
|e ciemniejszy kolor fragment�w mapy odpowiada wy|szym warto[ciom indeksu WIG.
Tabela 2. Zrednia warto[ indeksu WIG dla skupieD reprezentowanych przez neurony wchodzce w
skBad utworzonej sieci Kohonena.
Rys. 28. Graficzna prezentacja warto[ci indeksu WIG odpowiadajca obszarom mapy Kohonena.
30
www.StatSoft.pl Copyright � StatSoft Polska
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
Analiza wykresu wskazuje, |e najwy|sze warto[ci indeksu odpowiadaj prawemu,
g�rnemu naro|nikowi mapy. WIG osiga minimalne warto[ci dla przypadk�w
reprezentowanych przez lewy, dolny fragment sieci Kohonena.
Podobny spos�b prezentacji (numeryczny i graficzny) zastosowa mo|na dla [rednich
warto[ci zmiennych obja[niajcych wyznaczonych dla poszczeg�lnych neuron�w
zastosowanej sieci Kohonena.
Por�wnanie wykres�w prezentujcych [rednie warto[ci zmiennych obja[niajcych dla
poszczeg�lnych klas z wykresem przedstawiajcym [redni warto[ WIGu pozwala na
identyfikacj zwizk�w zachodzcych pomidzy zmiennymi.
Sie Kohonena stanowi mo|e r�wnie| narzdzie prognozowania. Je|eli celem predykcji
ma by zmiana warto[ci indeksu WIG w nastpnym okresie, to nale|y przedstawi [rednie
warto[ci zmian zachodzce dla dostpnych przypadk�w (w rozbiciu na wydzielone klasy).
Tabela 3. Zrednia zmiana (procentowa) WIG'u w okresie nastpnym w stosunku do okresu
bie|cego.
Rys. 29. Zrednia zmiana indeksu WIG dla wyodrbnionych klas.
Konstruujc prognoz dla nowego przypadku nale|y przypisa go do wBa[ciwej klasy. Jego
podobieDstwo do element�w wcze[niej zaklasyfikowanych do tej samej grupy mo|e
stanowi podstaw do oczekiwania, |e r�wnie| warto[ zmiennej obja[nianej bdzie si
ksztaBtowa w podobny spos�b. Pr�ba sformalizowania przedstawionej metody polega
mo|e na budowie oddzielnego modelu prognostycznego (wykorzystujcego perceptron
wielowarstwowy) dla ka|dej wydzielonej klasy.
Algorytm genetyczny jako narzdzie optymalizacji neuronowych
modeli szereg�w czasowych
Charakterystyka algorytm�w genetycznych
Algorytmy genetyczne s modelami rozwoju populacji chromosom�w. W klasycznej
wersji algorytmu przez chromosom rozumie si BaDcuch warto[ci binarnych o okre[lonej
31
Copyright � StatSoft Polska http://www.StatSoft.pl/Czytelnia
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
dBugo[ci. Algorytmy genetyczne sBu| do rozwizywania zagadnieD z dziedziny
optymalizacji. Najcz[ciej s to zadania typu:
a wic polegajce na znalezieniu takiego zestawu parametr�w x1, ..., xn (bdcych liczbami
rzeczywistymi), dla kt�rych funkcja celu FC przyjmuje warto[ maksymaln.
Spos�b dziaBania algorytmu genetycznego w trakcie rozwizywania problem�w tego typu
skBada si z nastpujcych etap�w:
1. przyjcie sposobu kodowania rzeczywistych parametr�w funkcji przystosowania w
postaci chromosomu (BaDcucha zer i jedynek) - okre[lenie w jaki spos�b ka|dy parametr
bdzie zamieniany na posta binarn (dw�jkow) i z ilu zer i jedynek bdzie si skBada
binarna reprezentacja liczby rzeczywistej. PoBczone ze sob liczby binarne reprezentujce
kolejne parametry tworz chromosom,
2. okre[lenie postaci funkcji przystosowania - jest to funkcja, kt�rej warto[ uzale|niona
jest od wszystkich parametr�w x1, ..., xn. Funkcja ta sBu|y do oceny analizowanego zestawu
parametr�w, im wy|sza jej warto[, tym lepsze dobrano parametry. Je[li celem algorytmu
genetycznego jest maksymalizacja pewnej funkcji celu FC, to w charakterze funkcji
przystosowania mo|na wykorzysta t sam funkcj FC,
3. losowy dob�r punkt�w startowych - proces poszukiwaD optymalnego zestawu
parametr�w rozpoczyna si od losowego wyboru punkt�w startowych (zestaw�w
parametr�w), przedstawione one zostaBy w kolumnie Parametry; nastpnie ka|dy z tych
zestaw�w kodowany jest w postaci chromosomu (kolumna Populacja w poni|ej
zamieszczonej tabeli); w kolejnym kroku dla ka|dego zestawu parametr�w obliczana jest
warto[ funkcji przystosowania (kolumna FP),
4. selekcja chromosom�w do nowej populacji - dla ka|dego chromosomu okre[la si
prawdopodobieDstwo wej[cia do nowej populacji; jest ono uzale|nione od warto[ci funkcji
przystosowania: im wy|sza warto[ funkcji przystosowania (co oznacza lepsze parametry),
tym wiksze jest prawdopodobieDstwo wej[cia do nowej populacji. Wyb�r osobnik�w do
nowej populacji realizowany jest zgodnie z reguB ruletki - ka|demu osobnikowi
odpowiada wycinek koBa o wielko[ci proporcjonalnej do warto[ci funkcji przystosowania,
a nastpnie wybierany jest w spos�b losowy punkt znajdujcy si na kole i do nowej
populacji przechodzi ten chromosom, kt�remu odpowiadaB wylosowany fragment koBa.
Proces ten jest powtarzany a| do chwili, w kt�rej liczba chromosom�w w nowej populacji
bdzie r�wna liczbie chromosom�w w starej populacji. W trakcie tworzenia nowej
populacji preferowane s lepsze (w sensie zdefiniowanej funkcji przystosowania)
chromosomy.
32
www.StatSoft.pl Copyright � StatSoft Polska
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
Tabela 4. Schemat dziaBania algorytmu genetycznego.
5. w odniesieniu do osobnik�w nowej populacji stosuje si (z pewnymi
prawdopodobieDstwami) operatory genetyczne, z kt�rych najpopularniejsze to:
krzy|owanie oraz mutacja. Spos�b dziaBania tych operator�w przedstawia poni|szy
schemat:
�� Operator krzy|owania - operator dziaBajc na dw�ch chromosomach; wyznacza si
punkt przecicia (oznaczony "^"), a nastpnie tworzy si dwa chromosomy
potomne poprzez poBczenie materiaBu genetycznego pochodzcego z obu
chromosom�w. Spo[r�d chromosom�w potomnych wybiera si w spos�b losowy
jednego osobnika, kt�ry umieszczany jest w nowej populacji. Aby zachowa
liczebno[ populacji usuwany jest z niej jeden osobnik (chromosom przeznaczony
do usunicia wybierany jest losowo, ale preferowane s osobniki gorsze).
C1: [0 1 0 1 1 0 1 1 0 1 1 0 1 0]
C2: [1 0 0 1 0 1 1 0 1 1 1 0 0 0]
^
P1: [0 1 0 1 1 0 1 0 1 1 1 0 0 0]
P2: [1 0 0 1 0 1 1 1 0 1 1 0 1 0]
�� Operator mutacji - zamiana warto[ci jednego (losowo wybranego bitu) na
przeciwny.
C1: [0 1 1 1 0 1 1 0 1 0 1 1 1 0]
^
P1: [0 1 1 1 1 1 1 0 1 0 1 1 1 0]
6. powy|szy schemat postpowania powtarzany jest a| do chwili, w kt�rej warto[ funkcji
przystosowania przyjmie akceptowan przez badacza warto[ lub te| do momentu
zrealizowania zadanej przez u|ytkownika liczby iteracji. Chromosom o najwy|szej
warto[ci funkcji przystosowania zawiera zakodowan posta parametr�w rozwizywanego
zadania.
33
Copyright � StatSoft Polska http://www.StatSoft.pl/Czytelnia
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
7. dekodowanie znalezionego zestawu parametr�w.
Podstawowe wBa[ciwo[ci metody rozwizywania problem�w optymalizacyjnych przy
u|yciu algorytm�w genetycznych to:
�� s metod optymalizacji globalnej, a nie lokalnej - przy wBa[ciwie dobranych
parametrach algorytm genetyczny wyznacza maksimum globalne optymalizowanej
funkcji (w odr�|nieniu od metod gradientowych, kt�re mog zatrzyma si w
maksimum lokalnym),
�� nie przetwarzaj bezpo[rednio parametr�w zadania, lecz ich zakodowan posta,
�� prowadz poszukiwanie, wychodzc nie z pojedynczego punktu, lecz z pewnej ich
populacji,
�� korzystaj tylko z funkcji celu, nie za[ z jej pochodnych lub innych pomocniczych
informacji,
�� stosuj probabilistyczne, a nie deterministyczne reguBy wyboru.
Zastosowanie algorytm�w genetycznych do optymalizacji neuronowych modeli
szereg�w czasowych
W czasie konstrukcji modeli neuronowych badacz musi podj wiele decyzji zwizanych z
tworzonymi narzdziami i majcymi istotny wpByw na prawidBowo[ ich p�zniejszego
dziaBania. Najistotniejsze problemy zwizane s z:
�� okre[leniem zbioru zmiennych wej[ciowych,
�� wyborem wBa[ciwego sposobu preprocessingu danych,
�� doborem wBa[ciwej liczby op�znionych (przeszBych) warto[ci szereg�w
uwzgldnianych w charakterze informacji wej[ciowej,
�� doborem wBa[ciwej struktury sieci (przede wszystkim jej warstwy ukrytej: liczba
poBczeD, przyjty model neuronu, topologia poBczeD).
Narzdziem wspomagajcym dob�r poprawnych warto[ci wspomnianych parametr�w
mo|e by algorytm genetyczny. Jego u|ycie wymaga przyjcia sposobu kodowania
warto[ci poszukiwanych parametr�w w chromosomie.
Informacje o charakterze dwustanowym (uwzgldni dan zmienn czy te| nie;
wprowadzi na wej[cie sieci okre[lon przeszB warto[ szeregu czasowego lub nie;
zastosowa skalowanie danych wej[ciowych czy te| nie) kodowane s zwykle na
pojedynczej pozycji chromosomu (warto[ 1 mo|e by interpretowana jako TAK, warto[ 0
jako NIE).
Po rozwizaniu problemu kodowania parametr�w zadania nale|y okre[li spos�b
wyznaczania warto[ci funkcji przystosowania sBu|cej do okre[lania jako[ci ka|dego
chromosomu. Zwykle w celu oszacowania jako[ci chromosomu przeprowadza si
rozkodowanie parametr�w, a nastpnie buduje si model neuronowy uwzgldniajcy
odczytane informacje i przeprowadza si jego uczenie. BBdy wyznaczone w rezultacie
34
www.StatSoft.pl Copyright � StatSoft Polska
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
zastosowania utworzonego w ten spos�b modelu s wykorzystywane do wyznaczenia
warto[ci funkcji przystosowania. Wz�r okre[lajcy funkcj przystosowania mo|e
uwzgldnia warto[ bBdu sieci wyznaczon na podstawie zbioru uczcego, ale w�wczas
spos�b oceny jako[ci chromosom�w uwzgldnia wyBcznie posiadan przez sie zdolno[
do aproksymacji. W celu uwzgldnienia charakteryzujcej model zdolno[ci do
generalizacji mo|na uwzgldni tak|e warto[ bBdu dla zbioru walidacyjnego.
Czsto funkcja przystosowania uwzgldnia opr�cz bBd�w r�wnie| inne charakterystyki
modelu utworzonego na podstawie informacji przechowywanych w chromosomie.
PrzykBadem mog by wielko[ci opisujce struktur sieci i liczb zmiennych wej[ciowych.
Spos�b uwzgldnienia tych wielko[ci powinien preferowa modele prostsze, posiadajce
mniejsz liczb element�w, gdy| one zwykle posiadaj wiksz zdolno[ do uog�lniania
wiedzy zawartej w zbiorze uczcym.
Nale|y podkre[li, |e proces konstrukcji sieci na podstawie informacji zawartych w
chromosomie i nastpujce po nim uczenie uzyskanego modelu musi by wykonane
ka|dorazowo przy wyznaczaniu jako[ci chromosomu. W czasie dziaBania algorytmu
optymalizacji genetycznej liczba oszacowanych sieci neuronowych jest iloczynem liczby
chromosom�w wchodzcych w skBad populacji oraz liczby rozpatrywanych pokoleD.
Konieczno[ wielokrotnego uczenia sieci zwiksza w znacznym stopniu wymagania
czasowe proponowanej procedury.
W programie STATISTICA Neural Networks u|ytkownik mo|e skorzysta z algorytmu
genetycznego wybierajc zestaw zmiennych wej[ciowych. Wybierajc opcje Uczenie -
Narzdzia dodatkowe - Dob�r cech wy[wietlone zostanie okno pozwalajce na dokonanie
wyboru zmiennych wej[ciowych najlepiej opisujcych ksztaBtowanie si warto[ci zmiennej
wyj[ciowej (w rozpatrywanym przykBadzie byB ni wskaznik WIG).
Rys. 30. Dob�r zmiennych wej[ciowych przy pomocy algorytmu genetycznego w
programie STATISTICA Neural Networks.
Ocena testowanych zestaw�w zmiennych wej[ciowych jest dokonywana na podstawie
bBdu osignitego dla zbioru uczcego lub walidacyjnego (o ile taki zostaB zdefiniowany).
Do bBdu sieci dodawany jest tzw. czBon kary bdcy iloczynem zdefiniowanego
wsp�Bczynnika (Kara jednostkowa) i liczby uwzgldnionych zmiennych. Zdefiniowanie
czBonu kary wyra|a d|enie do minimalizacji zbioru zmiennych wej[ciowych.
35
Copyright � StatSoft Polska http://www.StatSoft.pl/Czytelnia
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
Ocena neuronowych modeli szereg�w czasowych
Skonstruowany model nale|y podda ocenie, kt�ra najcz[ciej realizowana jest poprzez
wyznaczenie warto[ci i interpretacj r�|norodnych miernik�w jako[ci modelu. Stosowane
miary jako[ci podzieli mo|na na dwie grupy:
�� mierniki uniwersalne,
�� mierniki specyficzne dla dziedziny zastosowaD.
Pierwsz z wymienionych klas miernik�w stanowi mierniki uniwersalne, stosowane
czsto do oceny metod prognozowania stosowanych w r�|norodnych dziedzinach
zastosowaD. Mierniki uniwersalne podzieli mo|na na dwie grupy:
�� mierniki bezwzgldne, kt�rych warto[ci bazuj najcz[ciej na u[rednionej warto[ci
r�|nic pomidzy warto[ciami teoretycznymi i rzeczywistymi dla posiadanego
zestawu danych. Warto[ci miernik�w wyznaczane s oddzielnie dla zbioru
uczcego, walidacyjnego i testowego. Dziki temu u|ytkownik mo|e okre[li
zar�wno poprawno[ modelu dla danych wykorzystywanych w procesie
szacowania, jak r�wnie| dla nowych przypadk�w.
�� mierniki wzgldne por�wnujce uzyskane wyniki z rezultatami uzyskanymi przy
pomocy innych metod (przyjtych za punkt odniesienia). W przypadku
zastosowania modeli neuronowych czsto por�wnuje si wyniki generowane przez
sie z prostymi prognozami zakBadajcymi, |e nastpna warto[ szeregu r�wna
bdzie warto[ci bezpo[rednio j poprzedzajcej. Lub te| por�wnuje si rezultaty
uzyskane dziki sieciom o zBo|onej strukturze z wynikami dostarczanymi przez
proste sieci liniowe. Wymienione tu sposoby oceny sieci wskazuj, czy
zastosowanie wyrafinowanych obliczeniowo modeli przynosi rzeczywiste efekty.
Wybrane uniwersalne mierniki jako[ci wyznaczane s przez ka|dy symulator sieci
neuronowych. R�wnie| STATISTICA Neural Networks wyznacza dla utworzonej sieci
szereg statystyk pozwalajcych na ocen skonstruowanego modelu.
Rys. 31. Statystyki regresyjne wyznaczane w programie STATISTICA Neural Networks.
36
www.StatSoft.pl Copyright � StatSoft Polska
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
Je|eli zestaw miernik�w oka|e si niewystarczajcy, to dysponujc warto[ciami
rzeczywistymi jak r�wnie| odpowiadajcymi im warto[ciami wyznaczonymi przez sie,
mo|liwe jest zdefiniowanie warto[ci innych miernik�w.
Przeprowadzajc ocen neuronowych modeli szereg�w czasowych przy pomocy
uniwersalnych miernik�w jako[ci nale|y pamita o:
�� warto[ci wielu miernik�w nie s unormowane co powoduje, |e w wielu
przypadkach trudno oceni jako[ modelu na podstawie wyznaczonej warto[ci. Ta
grupa miernik�w nie pozwala r�wnie| na por�wnanie modeli uzyskanych na
podstawie r�|nych danych;
�� ocena modelu neuronowego powinna uwzgldnia zar�wno umiejtno[
aproksymacji jak i generalizacji. Uwzgldnienie wyBcznie bBd�w uzyskanych dla
zbioru uczcego preferuje zwykle modele rozbudowane, dopasowujce si do
danych uczcych, ale nie posiadajce umiejtno[ci uog�lniania zgromadzonej
wiedzy;
�� niekt�re miary jako[ci modelu s wra|liwe na wykonanie (lub te| na zaniechanie
wykonania) wstpnych przeksztaBceD szeregu czasowego. PrzykBadem mo|e by
skalowanie warto[ci szeregu, usunicie trendu itd.
�� wnioski pBynce z uzyskanych miar jako[ci modelu s uzale|nione od celu
zastosowaD utworzonego modelu (bBd na poziomie 1% bdzie inaczej oceniany
przez przy prognozowaniu cen, a inaczej przy konstrukcji urzdzeD sterujcych
procesem produkcyjnym).
Drug grup miernik�w jako[ci neuronowych modeli prognostycznych stanowi miary
[ci[le dostosowane do specyfiki dziedziny, na potrzeby kt�rej skonstruowano sie. Ich
dziedzinowy charakter pozwala na lepsz ocen przydatno[ci tworzonych modeli do
konkretnej sytuacji. PrzykBadem zwizanym z zastosowaniami finansowymi mo|e by
miernik wskazujcych na odsetek przypadk�w, w kt�rym prawidBowo okre[lono kierunek
(a nie wielko[) zmian cen. Inn metod oceny mo|e by wyra|ony w jednostkach
pieni|nych efekt stosowania modelu prognostycznego w automatycznym systemie
prognostycznym.
Narzdziami pomocnymi w procesie oceny neuronowych modeli prognostycznych mog
by r�wnie| rezultaty analizy graficznej oraz wyniki test�w sprawdzajcych charakter
szeregu reszt.
Prognozy przedziaBowe
Rezultatem dziaBania neuronowego modelu prognostycznego jest zazwyczaj pojedyncza
warto[, generowana przez neuron znajdujcy si w ostatniej warstwie sieci. Taki spos�b
funkcjonowania nie zawsze jest zgodny z oczekiwaniami u|ytkownika, gdy| w wielu
zastosowaniach wiksz u|ytecz-no[ci mog si charakteryzowa metody dostarczajce
prognoz przedziaBowych. Konstruujc prognoz przedziaBow wyznacza si przedziaB
37
Copyright � StatSoft Polska http://www.StatSoft.pl/Czytelnia
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
predykcji, do kt�rego z ustalonym prawdopodobieDstwem nale|e bdzie warto[ zmiennej
prognozowanej.
Perceptron wielowarstwowy nie mo|e generowa w spos�b bezpo[redni prognoz
przedziaBowych. Wyznaczenie prognozy tego typu wymaga znajomo[ci rozkBadu
oczekiwanego bBdu prognozy. W celu oszacowania jego parametr�w mo|na posBu|y
si metod bootstrapow, kt�ra umo|liwia estymacj nieznanego parametru rozkBadu
zmiennej losowej [redni z oszacowaD parametru wyznaczonych na podstawie pr�b
bootstrapowych. Pr�by bootstrapowe generowane s N razy poprzez losowanie ze
zwracaniem element�w z dostpnego zbioru danych. Liczebno[ ka|dej pr�by
bootstrapowej jest r�wna liczbie element�w wchodzcych w skBad pierwotnego zbioru
danych. Schemat postpowania przystosowany do symulacyjnego szacowania
oczekiwanych bBd�w prognoz uzyskiwanych przy pomocy modeli neuronowych
przedstawia poni|szy rysunek.
Rys. 32. Metoda bootstrapowa w modelowaniu neuronowym.
Punktem wyj[cia do prowadzonych obliczeD jest posiadany zbi�r danych, a ich celem jest
oszacowanie parametr�w rozkBadu bBd�w prognoz. W ka|dej z N iteracji z posiadanego
zbioru losowane s (ze zwracaniem) elementy tworzce zbi�r bootstrapowy. Dla ka|dego,
wygenerowanego w ten spos�b zbioru, przeprowadzany jest proces konstrukcji modelu
neuronowego. U[rednione parametry rozkBadu statystyk charakteryzujcych bBdy w
pr�bach bootstrapowych stanowi oszacowanie parametr�w rozkBadu bBd�w prognoz.
Dysponujc oszacowaniami parametr�w rozkBadu bBd�w prognoz uzyskanych przy
pomocy modelu neuronowego mo|na podj pr�b skonstruowania przedziaBu predykcji.
38
www.StatSoft.pl Copyright � StatSoft Polska
StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info@statsoft.pl, www.StatSoft.pl
Wnioski koDcowe
Sztuczne sieci neuronowe stanowi narzdzie modelowania i prognozowania interesujce
zar�wno dla teoretyk�w jak i dla praktyk�w. Mog one opisywa zale|no[ci wystpujce
pomidzy zmiennymi, s narzdziem generowania prognoz, umo|liwiaj badanie struktury
danych.
Wyniki uzyskane dziki zastosowaniu modeli neuronowych wskazuj, |e stanowi one
cenne uzupeBnienie innych metod modelowania.
39
Copyright � StatSoft Polska http://www.StatSoft.pl/Czytelnia
Wyszukiwarka
Podobne podstrony:
Sztuczna inteligencja we wspomaganiu procesu prognozowania w przedsiębiorstwieE FILIPOWICZ I J KWIECIEă ANALIZA MO˝LIWO—CI ZASTOSOWANIA METOD SZTUCZNEJ INTELIGENCJI W MEDYCYNIEsztuczna inteligencja logik rozmyta 0Sztuczna inteligencja wykład cz 1Sztuczna Inteligencja 226 Podstawy filozoficzne sztucznej inteligencjisztuczna inteligencja cw3 synt ukl wnioskujLogiczne podejście do reprezentacji wiedzy w sztucznej inteligencjiMetody sztucznej inteligencjiMarciszewski Czy juz zyjemy w erze sztucznej inteligencji09 Inteligentne prognozowanie w logistyceSztuczna inteligencja wykład cz2sztuczna inteligencja cw2 relacje rozmytewięcej podobnych podstron