Wiele modeli klasyfikacyjnych takich jak te porównane w tej pracy (CPL, SVM, ML) zależą od parametru regularyzacyjnego, który decyduje o tym czy model będzie bardziej dopasowany do danych treningowych czy będzie miał większe właściwości generalizacyjne. Zagadnienie doboru parametrów w taki sposób aby model jak najlepiej zachowywał się na nowych nie widzianych danych jest zagadnieniem kluczowym w budowie modeli prognostycznych. Jest to podstawowy problem, z którym spotyka się każdy badacz. Czy maksymalnie zminimalizować błąd na zbiorze uczącym czy zbudować prosty model, który być może będzie miał lepsze właściwości uogólniające i lepiej zachowa się na nowych danych (ang. bias-variance tradeoff). W przypadku maszyny wektorów wspierających SVM, modelu logistycznego oraz klasyfikatora liniowego CPL możemy o tym decydować poprzez parametr regularyzacyjny. Czym większa wartość parametru A we wzorze (5), tym większe znaczenie w minimalizowanej funkcji będą miały wartości parametrów modelu ti>j,w^. W procesie minimalizacji wartości tej funkcji, niektóre z nich mogą ulec wyzerowaniu. Sterując wartością parametru A możemy sterować złożonością modelu. Zwykle dobór tego parametru następuje poprzez sprawdzenie kilku, kilkunastu jego wartości na skali logarytmicznej, np. w pracy [34] dla klasyfikatora SVM sprawdzane są następujące wartości C = 2-5,2-4,..., 25.
W przypadku klasyfikatora opartego na funkcjach typu CPL dobór wartości parametru regularyzacyjnego może zostać przeprowadzony w taki sposób, aby kolejno zerować wartości współczynników modelu Wi gdzie i — 1..N. Idea takiego rozwiązania została zaproponowana po raz pierwszy przez Bobrowskiego [3] i rozwijana w kolejnych latach [6] owocując implenentacją zrównolegloną w języku C, użytą do obliczeń w niniejszej rozprawie. Metoda ta znana pod nazwą relaksacji liniowej separowalności RLS (ang. relaxed linear separability) jest metodą selekcji cech. Generuje ona podprzestrzenie o coraz mniejszych wymiarach kończąc na przestrzeni jednowymiarowej, eliminując kolejno cechy poprzez odpowiednie zwiększanie wartości parametru A. Podobna metoda selekcji cech dla modeli regresyjnych znana jest pod nazwą LASSO [40] [41].
Metoda ta została wykorzystana do obliczeń w tej pracy w następujący sposób. Został wygenerowany ciąg podprzestrzeni zgodnie z metodą RLS, każda z nich została oceniona za pomocą trafności klasyfikacji acc obliczonej metodą leave-one-out. Dla najlepszej podprzestrzeni został zbudowany klasyfikator CPL z parametrem A = 0,0005/ra, gdzie n liczność zbioru.
7