4. Modelowanie sygnałów nieselektywnych
umieszczono linię reprezentującą idealną sytuację, w której wartość obserwowana jest równa wartości przewidzianej. Na podstawie rozproszenia próbek wokół tej linii można dokonać wizualnej oceny parametrów dopasowania do danych i przewidywania, które charakteryzują oceniany model. Równomierne rozłożenie próbek włączonych do zbiorów modelowego i testowego na rysunku 16 a) świadczy o dobrym dopasowaniu modelu do danych i jego dobrych właściwościach przewidywania. Podobnie, model przedstawiony na rysunku 16 b) charakteryzuje się dobrym dopasowaniem do próbek zawartych w zbiorze modelowym, zdecydowane oddalenie wszystkich próbek zawartych w zbiorze testowym od idealnej linii dowodzi jego złych właściwościach przewidywania. Mogą one być przyczyną np. nieodpowiedniej kompleksowości modelu lub braku reprezentatywności zbioru modelowego. Rysunek 16c) przedstawia model o dobrych właściwościach dopasowania do danych i przewidywania. W odróżnieniu od modelu przedstawionego na rysunku 16 a) w zbiorze testowym zawarty jest obiekt dla którego model wykazuje gorsze właściwości przewidywania. Taki obiekt nazywany jest obiektem odległym.
4. Modelowanie sygnałów nieselektywnych
a
MM
• zbtfr mod«iowo< ZJ ■ zbtór l«stov/y
?CDO •
Ć 4006-
.5
■5 5000* I MOC-
u woc-5 8®8-
✓
■ A m
b 9000
KOC
1000
y
/*•
C VXO <000 £ >000 C 2000
• zbiór modelowi
• zbiór lestowy i
^'* / •
•odo :c» yjx «oo sok sxc ’xc iooc *cco ORAĆ ob*erwow»r*« [TE)
tępo ---« ■
*0X oto MDO
000 OTO XDO KM 5DOC 0000 OTO 0000 9000
ORAĆ obserwowane [TE)
? 1000*
i
a
U -1000;
O MOO-
I
-XDC
• •
• ?* ■ ^ ■
Obiekt
odległy
MO
1030 1500 OTO 2500
ORAĆ obserwowane [TEJ
JCDO
Rysunek 16 Wykresy ilustrujące modele N-PLS skonstruowane dla fluorescencyjnych obrazów próbek wodnych ekstraktów mięty pieprzowej i informacji o całkowitej zdolności anty oksydacyjnej a) o dobrych właściwościach dopasowania do danych i przewidywania, b) o dobrych właściwościach dopasowania do danych i niesatysfakcjonujących właściwościach przewidywania oraz c) model PLS skonstruowany dla fluorescencyjnych obrazów wodnych ekstraktów kawy i informacji o całkowitej zdolności antyoksydacyjnej, zawierający obiekt odległy włączony do zbioru testowego. Wykresy zostały skonstruowane dla zestawu danych omawianego w publikacji IV.
Model regresyjny konstruowany jest w taki sposób, aby dobrze opisywał informacje
0 wszystkich obiektach użytych do jego konstrukcji. Takie kryterium jest zadowalające
1 efektywne wówczas, gdy w zbiorze modelowanych danych wszystkie obiekty są w sposób równomierny rozproszone w przestrzeni eksperymentalnej. Często, w danych eksperymentalnych, zwłaszcza opisujących próbki pochodzenia naturalnego, zdarzają się obiekty oddalone od większości próbek, zwane obiektami odległymi. Próbki tego typu są wynikiem błędu laboratoryjnego lub unikatowego składu chemicznego próbki. Obecność obiektów odległych negatywnie wpływa na właściwości dopasowania i przewidywania modeli regresyjnych opartych na założeniu minimalizacji sumy kwadratów reszt od modelu. Model ulega „przekrzywieniu” w celu zminimalizowania sumy kwadratów reszt dla wszystkich obiektów, przez co nie opisuje dobrze większości danych (rysunek 17). Błędna estymacja współczynników regresji prowadzi do modeli o złych właściwościach predykcyjnych.
Strona 33