4. Modelowanie sygnałów nieselektywnych
Każdy sygnał instrumentalny powstaje poprzez rejestrację odpowiedzi detektora dla wybranej liczby punktów pomiarowych, zdefiniowanej przez przyjęty krok pomiarowy. Taki sposób prowadzenia pomiaru powoduje, że w większości przypadków pik pojedynczego analitu opisuje kilka punktów pomiarowych. W związku z tym, sygnały instrumentalne zawierają wiele skorelowanych zmiennych, które uniemożliwiają użycie ich do modelowania np. metody regresji wielorakiej (ang. multiple linear regression, MLR) [19], ze względu na jej matematyczne ograniczenia. Wówczas wykorzystuje się zmienne niezależne wybrane z całego sygnału lub skonstruowane na jego podstawie, które w zależności od tego jakie informacje chcemy z sygnału nieselektywnego uzyskać, wykorzystywane są do celów eksploracji, klasyfikacji/dyskryminacji czy kalibracji [6].
Metody używane do uzyskania z sygnałów istotnej chemicznie informacji można podzielić na dwie grupy. W zależności od tego czy używamy wyłącznie sygnałów instrumentalnych czy też równocześnie uwzględniamy dodatkowe informacje o modelowanym układzie, np. pochodzenie, stężenie wybranej/wybranych substancji czy przynależność do zdefiniowanych klas (np. stopień palenia kawy, wysokość podatku akcyzowego nałożonego na olej napędowy, pochodzenie geograficzne próbki) mówimy odpowiednio o metodach modelowania danych bez nadzoru i metodach modelowania danych z nadzorem.
Tę grupę metod wykorzystuje się do eksploracji struktury danych. Jest to najczęściej pierwszy etap interpretacji informacji w nich zawartej. Celem eksploracji jest wizualizacja struktury danych. Umożliwia to ocenę podobieństw próbek i kompleksowości badanego układu (zjawiska), jak również ocenę tego, czy w eksplorowanych danych znajdują się obiekty odległe - oddalone od większości danych (ang. outlying objects). Analiza eksploracyjna determinuje wybór metod modelowania z nadzorem i dalszą interpretację uzyskanych wyników. Podczas pracy z sygnałami nieselektywnymi, które są wieloparametrowe i zawierają zmienne skorelowane, do wizualizacji informacji w nich zawartych, niezbędna jest redukcja ich kompleksowości. Narzędziami eksploracyjnym wykorzystywanymi najczęściej do tego celu są między innymi metody projekcji, tj. analiza czynników głównych, PCA [8] czy współbieżna analiza czynnikowa, PARAFAC [12], dedykowana analizie danych N-modalnych.
4.1.1. Analiza czynników głównych
Analiza czynników głównych to metoda umożliwiająca modelowanie i wizualizację struktury danych wieloparametrowych, zawierających zmienne skorelowane. Wizualizacja danych jest możliwa dzięki konstrukcji nowych zmiennych będących liniową kombinacją oryginalnych zmiennych, nazywanych czynnikami głównymi (ang. principal components, PC). Czynniki główne konstruuje się tak, aby maksymalizowały opis wariancji (zmienności) danych.
Strona 25