mym, czyli „uczeniem bez nauczyciela”. Te dwa rodzaje postępowania nazywane też są czasem „uczeniem z nagradzaniem i bez nagradzania”/
Urządzenia uczące się stosowane są zazwyczaj tam, gdzie nie możemy dać maszynie pełnej informacji a priori. To znaczy tam, gdzie sytuacja nie jest zupełnie klarowna lub, co na jedno wychodzi, zmienia się w czasie. Gdybyś-my ją bowiem mogli przewidzieć dokładnie w trakcie zamierzonego działania, moglibyśmy zaprojektować urządzenie o pożądanych właściwościach. Brak stuprocentowej znajomości celu kompensujemy dodatkowymi informacjami, które zdobywamy podczas pracy maszyny. Proces uczenia się realizowany jest zatem przez algorytmy uzupełniające niedostateczną informację a priori. Te algorytmy iteracyjne mają zwykle charakter statystyczny i mogą być wyrażane w postaci statystycznego równania różnicowego lub różniczkowego. Takie właśnie podejście okazało się konieczne przy pierwszych programach symulujących ruchy szczurów szkolonych w pokonywaniu labiryntu. Zachowanie się szczurów było w dużej mierze przypadkowe i dlatego komputer musiał w odpowiednim momencie zakładać losowo tendencję co do wyboru kierunku (zwrot w lewo, zwrot w prawe). Wprowadzenie w późniejszych eksperymentach elementów przypadku stało się zresztą dla uczących się maszyn niezwykle cenne, bo lepiej odwzorowywało rzeczywistość. Równie istotną okazało się przyjęcie wskaźników jakości nauki, bo pozwalało na wyodrębnianie optymalnych algorytmów edukacji. Zapewniały one przyswajanie największej ilości wiedzy w możliwie najkrótszym czasie. Do klasy układów uczących się włączono też układy adaptacyjne — przystosowujące swoją strukturę do zmian w otoczeniu. Uznano, że
146