indywidualne koszty błędnej klasyfikacji dla każdego obiektu z osobna. W przypadku klasyfikatora CPL jest to możliwe poprzez podanie odpowiednich wartości parametrów a.i we wzorze (4) [24]. Wiele innych klasyfikatorów również posiada taką możliwość. Wszystkie sześć klasyfikatorów z pakietu do analizy danych Weka użyte w tej pracy również posiada taką możliwość (implementują interfejs WeightedlnstancesHandler). Przykładowo klasyfikator większościowy ZeroR będzie klasyfikował obiekty nie do klasy najbardziej licznej, a do klasy w której suma kosztów wszystkich jej obiektów będzie największa. Jest to sytuacja, która dokładnie odpowiada tej przy prognozowaniu wzrostów i spadków na giełdzie. Bardziej zależy nam na prawidłowej klasyfikacji (prognozie) wzrostu o 2% niż o 0,1%. Podobnie w przypadku spadków. Jednak zarówno wzrost o 2% jak i spadek o 2% są równoważne, jeżeli przyjmiemy możliwość dokonywania krótkiej sprzedaży. Dlatego też, z każdym z obiektów możemy związać wagę równą wartości bezwzględnej prognozowanej zmiany procentowej. Będziemy chcieli budować takie klasyfikatory, które będą prawidłowo klasyfikować większe zmiany indeksu S&P500 (zarówno wzrosty jak i spadki). Dzięki takiemu zdefiniowaniu kosztów na poziomie obiektów, klasyfikatory będą budowane tak, aby maksymalizowały zdefiniowany wcześniej (13) zysk finansowy. Jest to ciekawa właściwość klasyfikatorów, która nie została jeszcze spopularyzowana dla prognozy notowań giełdowych.
Niewątpliwie najważniejsze z punktu widzenia badanych w tej pracy zastosowań technik eksploracji danych jest osiągnięcie zysku finansowego. Zarówno klasyfikacja jak i regresja zostały zastosowane do podjęcia decyzji o zajęciu odpowiedniej pozycji na giełdzie, czyli została zdefiniowana tzw. strategia inwestycyjna. Postawimy zatem hipotezę zerową HO, iż strategia działająca w oparciu o badane modele jest losowa, czyli zajmuje pozycję długą bądź krótką każdego dnia w sposób losowy (z prawdopodobieństwem 50%). Hipoteza alternatywna HI: użyty model daje wyniki lepsze niż strategia losowa. W celu weryfikacji tak postawionej hipotezy wykonano milion symulacji z użyciem strategii losowej [22]. Otrzymano dzięki temu milion różnych wyników miar jakości. Histogram dla miary z/srok przedstawiono na rysunku 3. Z histogramu możemy odczytać wartości krytyczne testu dla różnych poziomów istotności. Jeżeli model osiągnął zysk większy niż wartość krytyczna, wówczas odrzucamy hipotezę zerową iż jest to strategia losowa. Oznaczmy przez c wartość krytyczną, wówczas:
15