Algorytmy GCNN (ang. generalized condensed nearest neighbour) oraz GENN (ang. generalized editing nearest neighbor rule) bazują na metodach selekcji danych CNN i ENN. Różnią się one tym, iż zostały one zaadaptowane do rozwiązywania problemów regresyjnych. Adaptacja ta polega na wyznaczeniu błędu jako:
IYe(Xj) - Y(Xj)l = e (4)
gdzie
Ye(xj) - wartość wyestymowana za pomocą dowolnego modelu regresyjnego Y(xj) - rzeczywista wartość wyjściowa
a następnie weryfikacji czy tak wyznaczona wartość błędu spełnia warunek e - max_error > 0
Jeśli warunek ten jest spełniony algorytm postępuje podobnie jak w przypadku oryginalnych algorytmów CNN i ENN. Schematy tych algorytmów przestawia rys. 5 i 6.
Ze względu na problemy związane z pomiarem niektórych danych, jak na przykład w hutnictwie, pomiar aktywności tlenu w piecu EAF, dąży się do znalezienia alternatywnych rozwiązań, który zastąpiłyby prace czujników. Predykcja danych daje możliwości zmniejszenia zapotrzebowania na pomiary np. aktywności tlenu. W niniejszym rozdziale zostaną przedstawione różne modele przewidywania danych.
Regresją liniową nazywa się problem estymacji warunkowej wartości oczekiwanej zmiennej y przy znanych wartościach innej zmiennej, lub zmiennych x. Szukaną zmienną y nazywa się zmienną objaśnianą (zależną). Natomiast zmienne x nazywane są zmiennymi objaśniającymi (niezależnymi). W regresji liniowej model zależności pomiędzy zmiennymi objaśnianymi i objaśniającymi jest liniowy i przedstawia je równanie:
y'= f(x 1,...,xm,e) (5)
20