W rozdziale tym. opiszemy przeprowadzone przez nas testy oraz skomentujemy ich wyniki. Projekt naszego autorstwa pozwolił nam na zgromadzenie statystyk wydajnościowych oraz przeanalizowanie poprawności przypisania do kategorii przez klasyfikator kNN oparty na podobieństwie cosinusowym.
4.1.2 Ocena wydajności algorytmów
Tabela 4.1 Zależność czasu wykonania poszczególnych operacji od ilości artykułów
100 artykułów |
250 artykułów |
500 artykułów |
750 artykułów | |
Uczenie słów |
00:02:44 |
00:0521 |
00:09:35 |
00:15:22 |
Kategoryzacja 1 artykułu |
00:00:42 |
00:00:43 |
00:00:42 |
0000:41 |
Folding. kroswalidacja |
00:0803 |
00:1759 |
00:57:03 |
0250:13 |
Zbieranie wynków kros wal kła qi |
00:0037 |
00:0038 |
00:00:41 |
0000:42 |
Uśrednianie wynków kros wal kia qi |
00:0037 |
00:0038 |
00:00:38 |
0000:37 |
Analiza złożoności czasowej algorytmów projektu, pozwala na wyznaczenie operacji, które są najbardziej czasochłonne. Tabela 4.1 zawiera zgromadzone statystyki wydajnościowe da wszystkich przeprowadzanych przez aplikację operacji dla różnej liczby artykułów. Operacje te zostały uruchomione na środowisku składającym się z klastra o 12 komputerach, gdzie 10 z nich to były węzły wykonujące pracę obliczeniową, natomiast 2 z nich zostały skonfigurowane jako węzły zarządzające. Parametr k dla algorytmu kNN ustawiliśmy na wartość równą 50. natomiast walidacja skroś na została wykonana po podziale na 10 podzbiorów.
Analizując tabelę 4.1. można zauważyć, że najbardziej czasochłonną operacją są operacje foldingu i walidacji skrośnęj. Dzieje się tak. ponieważ walidacja skrośna wykonuje bardzo dużo porównań między artykułami. Przykładowo przy analizowanym zbiorze, zawierającym dokładnie 100 artykułów zostanie wykonanych (10 -90) ■ 10 = 9000 porównań. Liczba ta wynika z liczebności zbiorów po podziale, jeżeli zbiór 100 artykułów podzielimy na 10 równych zbiorów, to każdy z nich będzie zawierał po 10 artykułów. Każdy artykuł ze zbioru testującego, czyli zbioiu zawierającego 10 artykułów, porównujemy z każdym artykułem zbioru trenującego, który zawiera 90 artykułów. Taka analiza jest wykonywana 10 razy. przyjmując kolejno każdy z podzbiorów jako zbiór testujący. Z tego wynika, iż złożoność czasowa tej procedury będzie rosła w tempie wyznaczonym przez wzór:
33