badań informacje zostały zachowane oraz aby wektor wejściowy był jak najkrótszy. W niniejszym podrozdziale zostanie przedstawiona szczegółowo metoda normalizacji, standaryzacji oraz selekcja danych. [9]
Wybór i przygotowanie danych wejściowych jest równie ważne jak dalsze przeprowadzane procesy. W przypadku danych ilościowych najczęściej stosowana jest technika skalowania, jaką jest metoda normalizacji. [9]
Normalizacji dokonuje się, aby przedstawić wszystkie wartości zmiennych w przedziale [0,1].
Metodzie tej poddawane są dane testowe oraz treningowe, gdzie używane są takie same
wartości. [10] Normalizacja wyrażana jest wzorem:
xj(i) - min(xj) (1)
xj(0 — r \
max(xjj — mm (xj)
Gdzie
• i - kolejny indeks wektora
• j - indeks cechy (zmiennej)
• max(Xi) - maksymalna wartość zmiennej j
• min(Xj) - minimalna wartość zmiennej j
Standaryzacja, jest to operacja w wyniku, której wartość średnia danej cechy będzie równa 0, zaś odchylenie standardowe równe jest 1. Standaryzację opisuje poniższy wzór[15]:
*/( 0 =
Xj(i) — mean(Xj) std(Xj)
(2)
gdzie:
• i - indeks wektora
• j - indeks cechy (zmiennej)
• mean(xj) - średnia wartość zmiennej j
• std(xj) - odchylenie standardowe zmiennej j
16