W zasadzie wyróżnić można trzy rodzaje procedur wprowadzania zmiennych do modelu regresji:
— procedurę wszystkich możliwych regresji,
— procedurę eliminacji a posteriori,
— procedurę regresji krokowej.
Procedura wszystkich możliwych regresji jest proceduro bardzo czasochłonno i uciążliwą. Jak sama nazwa wskazuje, wymaga ona przeanalizowania wszystkich możliwych równań regresji. Majoc zatem p zmiennych niezależnych, musimy zbudować i przeanalizować 2P równań (dla p = 4 liczba ta wynosi 16, ale już dla p = 8 jest to 256!). Dysponujoc zestawem wszystkich równań, wybieramy to równanie, które wyjaśnia najwięcej wariancji zmiennej zależnej. Kryterium wyboru stanowi tutaj wartość R 2 — wartość kwadratu współczynnika korelacji wielokrotnej. Zdarzyć się może, że kilka równań posiada tę samo lub zbliżono wartość R 2, a wówczas wybieramy optymalne równanie kierujoc się dodatkowym kryterium , tzn. skorelowaniem zmiennych niezależnych między sobo oraz badajoc średnie kwadraty resztowe. Jeśli weźmie się pod uwagę przyrost równań wraz ze wzrostem ilości zmiennych niezależnych, to wybór równania optymalnego nie wydaje się być sprawo prosto. Praktycznie powyżej kilku zmiennych przestaje się panować nad materiałem uzyskanym z maszyny cyfrowej.
Procedura eliminacji a posteriori nie wymaga już analizowania takiej dużej liczby równań jak procedura wszystkich możliwych regresji. Zasadnicze kroki tej procedury so następujoce:
1. Obliczamy równanie regresji zawierające wszystkie zmienne niezależne.
2. Przeprowadzamy obliczenia częściowego testu F (w sposób omówiony w poprzednim podrozdziale) dla każdej sprawdzanej zmiennej niezależnej, jak gdyby to była ostatnia zmienna niezależna wchodzoca do równania regresji.
3. Porównujemy najmniejszo wartość F z częściowego testu F, powiedzmy Fmin, z wartością dla wstępnie obranego poziomu istotności, powiedzmy Fa,
— jeżeli F mio < Fa, usuwamy z rozważań zmienną niezależną X, z której wynikało Fmin. ponownie obliczamy równanie regresji z pozostałymi zmiennymi niezależnymi i powracamy do kroku 2,
— Jeżeli F min > Fu, przyjmujemy równanie regresji zgodnie z obliczeniem.
Po dokonaniu eliminacji w równaniu zostają tylko te zmienne niezależne, które w sposób istotny wyjaśniają wariancję zmiennej zależnej. Procedura eliminacji a posteriori jest mniej czasochłonna od procedury wszystkich możliwych regresji. Może być ona wykorzystywana z powodzeniem przy większej liczbie zmiennych. Jest to na ogół bardzo korzystna procedura, w szczególności jeśli chcemy widzieć wszystkie zmienne niezależne w jednym równaniu, aby „czegoś nie opuścić”. Jednakże, jeżeli dane wejściowe dają macierz układu równań normalnych, która jest źle uwarunkowana, wtedy ta procedura może prowadzić do niedorzeczności wskutek błędów zaokrąglania. Problem ten nic istnieje jeśli korzystamy z profesjonalnego oprogramowania.
269