4. Modelowanie sygnałów nieselektywnych
4.2.2.2. Dyskryminacyjny wariant regresji częściowych najmniejszych kwadratów
W pierwszym zamyśle, metoda PLS została zaproponowana do modelowania zależności
liniowych pomiędzy zmiennymi niezależnymi X i zmienną zależną y o charakterze ciągłym.
Później zaczęto stosować tę metodę do modelowania zależności, w których zmienna y ma
charakter dyskretny - binarny (przyjmuje wartości 0 lub 1) lub bipolarny (przyjmuje wartości
1 lub -1)-rysunek 21.
Zmienna zależna Zmienna zależna
ciągła dyskretna
binarna bipolarna
Rysunek 21 Zmienna zależna o charakterze ciągłym i dyskretnym.
W takim przypadku, zmienna zależna zawiera informacje o przynależności opisywanych próbek do jednej z możliwych grup, a model PLS skonstruowany na jej podstawie umożliwia dyskryminację obiektów opisanych przez zmienne niezależne. Uogólniając, zadaniem dyskryminacyjnego wariantu regresji częściowych najmniejszych kwadratów - D-PLS jest konstrukcja modelu regresji w oparciu o nowe zmienne maksymalizujące różnice pomiędzy próbkami przynależącymi do różnych grup.
W moich badaniach metodę D-PLS wykorzystałam do konstrukcji modeli dyskryminujących próbki oleju napędowego ze względu na proceder nielegalnego usunięcia dodatków akcyzowych (barwnika - Solvent Red 19 i znacznika - Solvent Yellow 124), opisaną w publikacji III. Do budowy modeli użyłam fluorescencyjne obrazy zarejestrowane dla próbek oleju napędowego, który został poddany symulacji usunięcia komponentów akcyzowych na drodze sorpcji. Ze względu na obowiązujące w Polsce przepisy prawne i przyjęty plan eksperymentu skonstruowałam cztery bipolarne zmienne dyskretne, zawierające informacje o przynależności do jednej z dwóch możliwych grup - paliwo o obniżonej i o regularnej wysokości podatku akcyzowego. Otrzymane modele dyskryminacyjne umożliwiły rozróżnienie próbek zawartych w niezależnych zbiorach testowych na dwie grupy ze skutecznością od 77% do 100%.
Jakość modelu klasyfikacyjnego lub dyskryminacyjnego oceniana jest na podstawie parametrów uwzględniających liczbę poprawnie (lub niepoprawnie) zakwalifikowanych do danej grupy próbek osobno dla zbiorów modelowego i testowego. Najpopularniejszym parametrem jest stopień poprawnej dyskryminacji (ang. correct discrimination ratę) wyrażający liczbę poprawnie przypisanych do wybranej grupy próbek (najczęściej wyrażaną jako wartość procentowa w odniesieniu do wszystkich ocenianych próbek). Inne parametry