Nowe technologie pozwalają na pomiary coraz nowszych wartości, które mogą być źródłem użytecznej wiedzy. Aby wydobyć istotne informacje z coraz większych baz danych, powstają algorytmy automatycznej analizy oraz eksploracji danych.
Eksploracja danych, jest technologią, dzięki której możliwe jest automatyczne, efektywne znajdowanie statystycznych zależności, reguł pomiędzy dużymi zbiorami danych. Dzięki takim metodom jak sieci neuronowe, metody uczenia maszynowego, metody ewolucyjne, logika rozmyta, zbiory przybliżeniowe można uzyskać odwzorowania opisujące nieliniowe relacje, które zachodzą pomiędzy parametrami wejściowymi, a wynikiem procesu. Eksploracja danych jest dziedziną nauki, która rozwija się bardzo szybko ze względu na swoją wartość ekonomiczną; jest wykorzystywana do pomocy przy podejmowaniu złożonych decyzji produkcyjnych, finansowych, marketingowych w przedsiębiorstwach.
Dane, dostarczane przez przedsiębiorstwa charakteryzują się takimi cechami jak błędy pomiarowe, brakujące wartości w zbiorze danych, zniekształcenie podczas próbkowania. Mimo coraz nowszych technologii pomiarowych nie udaje się uzyskać idealnych wyników, dlatego wstępne przetwarzanie danych polega na przekształceniu ich w celu przygotowania do dalszych procesów (eksploracji). Poprawne, jednoznaczne zdefiniowanie danych wejściowych ma również ogromny wpływ na szybkość działania modelu oraz jego uogólnienie. Wstępne przetwarzanie danych jest niezbędne, ponieważ metody obliczeniowe, aby skutecznie działać wymagają poprawnie, jednoznacznie zdefiniowanych danych na wejściu, tak, aby ich błędy nie miały negatywnego wpływu na wynik. Metody, jakimi można posłużyć się do przygotowania danych do procesów ich eksploracji to standaryzacja, normalizacja, dyskretyzacja danych. Standaryzację oraz normalizację stosuje się, gdy przetwarzane dane wykorzystuje się w procesach regresji, w metodach opierających się na odległościach pomiędzy danymi, lub klasyfikacji liniowej. Metody te stosuje się w celu zmniejszenia wpływu zmiennych, których przedział wartości znacznie różnią się od pozostałych, co może mieć negatywny wpływ na wynik końcowy. Zaś przy estymacji rozkładów prawdopodobieństwa wykorzystuje się dyskretyzacje. Wybór metody wstępnego przetwarzania danych jest bardzo ważny, należy zwrócić uwagę, aby wszystkie istotne dla
15