PROCESY WARUNKOWANIA
Uczenie się - proces powstawania, poprzez doświadczenie, względnie trwałych zmian w zachowaniu się jednostki.
Podstawowe rodzaje uczenia się:
warunkowanie klasyczne (Pawłowskie): jednostki uczą się przewidywać pojawianie się ważnych wydarzeń w środowisku (takich jak pokarm lub ból) i przygotowywać się na nie.
warunkowanie instrumentalne (sprawcze): jednostki uczą się, które z ich zachowań przynoszą korzystne, a które — niekorzystne (z ich punktu widzenia) zmiany w środowisku; uczą się zatem, które reakcje warto powtarzać, a których lepiej unikać.
Bodźce:
bodziec bezwarunkowy: bodziec, który bez uczenia wywołuje reakcję organizmu. Reakcja bezwarunkowa (odruch bezwarunkowy) to wrodzona reakcja organizmu.
Bodziec warunkowy: bodziec, który w wyniku podawania go z bodźcem bezwarunkowym nabrał zdolności wywoływania podobnej akcji. Reakcja warunkowa (odruch warunkowy) to reakcja wywołana przez ten bodziec.
WARUNKOWANIE KLASYCZNE:
Iwan Pawłow – prekursor badań nad warunkowaniem klasycznym.
Przebieg badań:
wielokrotne podawanie psom pary bodźców:
niespecyficznego, który początkowo nie wywoływał żadnej zmiany w zachowaniu zwierząt (z wyjątkiem reakcji orientacyjnej)
specyficznego, wywołującego wrodzoną, odruchową reakcję (np. pokarmu wywołującego zwiększenie ilości wydzielanej śliny).
Po pewnej liczbie tzw. prób warunkowych, reakcja odruchowa zaczynała pojawiać się od razu po zaprezentowaniu bodźca niespecyficznego. Był to proces nabywania odruchu warunkowego, w którego przebiegu bodziec niespecyficzny stawał się bodźcem warunkowym.
Bodziec specyficzny określany był mianem bodźca bezwarunkowego, a odruchowa reakcja, którą wywoływał — nazywana reakcją bezwarunkową. Zwiększone wydzielanie śliny po zaprezentowaniu bodźca niespecyficznego (warunkowego) to reakcja warunkowa.
Jeśli w kolejnych próbach w ślad za bodźcem warunkowym nic pojawiał się bodziec bezwarunkowy, wówczas reakcja warunkowa stopniowo zanikała - procesem wygaszania odruchu warunkowego.
Jeśli po pewnym czasie, znowu zaprezentuje się organizmowi bodziec warunkowy, to wystąpi po nim także reakcja warunkowa. Zjawisko to określono mianem spontanicznego odnowienia odruchu (reakcji).
Nie tylko stosowany bodziec warunkowy, ale też inne bodźce do niego podobne wywołują podobną reakcję warunkową - zjawisko to określono mianem generalizacji bodźca.
Reakcja warunkowa występowała jedynie w odpowiedzi na bodziec, po którym prezentowany był bodziec bezwarunkowy. W pozostałych wypadkach była wygaszana. Ten proces nazwano różnicowaniem bodźca.
Biologiczne znaczenie warunkowania klasycznego:
Czasem reakcja warunkowa stanowi przeciwieństwo reakcji bezwarunkowej i właśnie dzięki temu spełnia swoją funkcję adaptacyjną.
Ból stanowi ważną informację dla organizmu: mówi o trwających procesach chorobowych, o działaniu na organizm zagrażających, niekorzystnych czynników. Zmniejszenie wrażliwości na ból obniża zdolności adaptacyjne zwierzęcia. Zatem przewidując (na podstawie bodźca warunkowego) wystąpienie tego efektu, organizm broni się poprzez obniżenie progów czucia.
Związki powstające podczas warunkowania klasycznego: czego organizm uczy się podczas warunkowania klasycznego?
uczy się związku między bodźcem warunkowym a bezwarunkowym - teorii S-S (stimulus – stimulus).
uczy się związku między bodźcem warunkowym a reakcją warunkową - S—R (stimulus - response).
Badania wskazujące na tworzenie się związków między bodźcami:
prowadzone są zgodnie ze schematem badawczym określanym mianem sensorycznego przedwarunkowania. W początkowej fazie treningu wytwarza się związek między bodźcami (S-S).
Następnie, gdy jeden z tych bodźców nabiera znaczenia bodźca warunkowego, takiego samego znaczenia nabiera także drugi bodziec.
Badania, których celem jest potwierdzenie teorii S-R:
odbywają się w schemacie badawczym zwanym warunkowaniem drugiego rzędu.
W pierwszej części badania wytwarza się odruch warunkowy na pojedynczy bodziec warunkowy. Następnie stosuje się procedurę podawania go łącznie z innym bodźcem.
W kolejnej fazie badania zmienia się rodzaj reakcji warunkowej dla stosowanego od początku bodźca warunkowego.
konkluzja płynąca z tych badań: w przebiegu procesu warunkowania wytwarzają się związki między bodźcami warunkowymi i reakcjami warunkowymi (S-R).
Relacje czasowe w warunkowaniu klasycznym:
Są one ważnym czynnikiem wpływającym na przebieg warunkowania klasycznego.
Mamy do czynienia z tak zwanym warunkowaniem wstecznym. W przebiegu tej procedury bodziec warunkowy pojawia się po bodźcu bezwarunkowym i z czasem zaczyna wywoływać tak zwane hamowanie warunkowe. (znaki przed i po zakręcie).
Hamowanie warunkowe to aktywne tłumienie reakcji warunkowej. Może być ono stwierdzone tylko w sytuacji, gdy dysponujemy już wytworzoną reakcją warunkową. Wprowadzenie bodźca hamującego powoduje zahamowanie lub zmniejszenie nasilenia wykonywanej aktualnie reakcji warunkowej.
Ten typ hamowania określany jest także mianem hamowania wewnętrznego. Po dłuższym czasie prezentacji bodźca warunkowego, bez następującego po nim bodźca bezwarunkowego, organizm przestaje wykonywać reakcję warunkową, a bodziec warunkowy staje się dla niego bodźcem hamulcowym.
hamowanie zewnętrzne - polega ono na zaprzestaniu wykonywania reakcji warunkowej na skutek działania nowego bodźca. Ten efekt hamulcowy wynika prawdopodobnie z rywalizacji dwóch reakcji: warunkowej i orientacyjnej.
Przestrzeń warunkowania klasycznego:
Omówione do tej pory podstawy warunkowania klasycznego opieraly się w dużej mierze na pionierskich doświadczeniach Pawiowa (1952/1923). Od czasu jego badań wiedza o mechanizmach warunkowania klasycznego bardzo się poszerzyła, a pod wieloma względami zmieniła.
Podstawą nowego spojrzenia na warunkowanie klasyczne jest zwrócenie uwagi na informacyjny charakter bodźca warunkowego. Organizmy dokonują selekcji połączeń, które zostają utrwalone. Ma to ogromne znaczenie dla efektywnego spełniania adaptacyjnej funkcji warunkowania klasycznego.
Połączenia utrwalają się tylko wtedy, gdy określone bodźce warunkowe stanowią jedyne lub najlepsze źródło informacji o mających nastąpić bodźcach bezwarunkowych. W 1967 roku Robert Rescorla jako pierwszy stwierdził, że do powstania odruchu warunkowego niezbędne jest występowanie zależności (contingency) między bodźcem warunkowym a pojawieniem się bodźca bezwarunkowego.
Zależność ta zdeterminowana jest dwoma prawdopodobieństwami: prawdopodobieństwem, że bodziec bezwarunkowy pojawi się po wystąpieniu bodźca warunkowego, oraz prawdopodobieństwem, że bodziec bezwarunkowy wystąpi przy braku zapowiadającego go bodźca warunkowego.
Przestrzeń warunkowania klasycznego: Każda relacja między bodźcem warunkowym F bezwarunkowym lokująca się powyżej przekątnej prowadzi do powstania hamowania warunkowego. Każda relacja między bodźcem warunkowymi bezwarunkowym lokująca się poniżej przekątnej prowadzi do utrwalenia się odruchu warunkowego. Przekątna obrazuje sytuację, w której nie dochodzi do warunkowania.
Najlepsze efekty w postaci szybkiego warunkowania przynosi perfekcyjna, pozytywna zależność między bodźcem warunkowym i bezwarunkowym, czyli sytuacja, gdy bodziec bezwarunkowy prezentowany jest zawsze po bodźcu warunkowym oraz gdy bodziec bezwarunkowy nigdy nie występuje bez zapowiedzi w postaci bodźca warunkowego.
Jednakże do warunkowania dochodzi nie tylko w takich idealnych warunkach, ale zawsze, gdy mamy do czynienia z pozytywną zależnością między bodźcem warunkowym i bezwarunkowym, czyli gdy bodziec bezwarunkowy występuje częściej po bodźcu warunkowym niż bez niego.
W odwrotnej sytuacji, gdy bodziec bezwarunkowy występuje częściej bez bodźca warunkowego niż po nim, czyli gdy mamy do czynienia z tak zwaną negatywną zależnością między bodźcami, bodziec warunkowy nabiera znaczenia hamującego. Gdy oba omawiane prawdopodobieństwa są równe — nie dochodzi do warunkowania.
Innym czynnikiem wpływającym na powstawanie odruchu warunkowego jest tak zwana wyrazistość (salience) bodźca warunkowego. Pokazują to doświadczenia, w których uzyskiwany jest efekt zacieniania (Kamm, 1969).
Jeśli wytworzona zostanie zależność między bodźcem warunkowym i bodźcem bezwarunkowym, to dodanie do bodźca warunkowego drugiego elementu (innego bodźca) nie prowadzi do powstania zależności między drugim bodźcem i bodźcem bezwarunkowym.
Dodany bodziec nie niesie bowiem żadnej ważnej informacji o bodźcu bezwarunkowym, który wciąż zapowiadany jest przez pierwszy bodziec warunkowy. Warto dodać, że jeśli wraz z dodaniem nowego bodźca do istniejącego bodźca warunkowego zmienimy silę bodźca bezwarunkowego, to w tych warunkach dodany bodziec stanie się:
bodźcem warunkowym — jeśli sita bodźca bezwarunkowego wzrośnie
hamulcem warunkowym (conditioned inhibitor), wywołującym hamowanie warunkowe — jeśli sita bodźca bezwarunkowego zostanie zmniejszona.
Efekt blokowania wskazuje na występowanie wyraźnej selekcji tworzących się związków między bodźcami warunkowymi i bezwarunkowymi w wypadku, gdy dwa bodźce warunkowe są jednakowo predyktywne dla tego samego bodźca bezwarunkowego.
Każdy nowy bodziec jest oceniany z punktu widzenia znaczenia informacyjnego dla organizmu: jeśli nie niesie żadnej nowej informacji o bodźcu bezwarunkowym, to połączenie nie powstaje. Jeśli sygnalizuje coś nowego o bodźcu bezwarunkowym — połączenie zostaje utrwalone.
Opisane do tej pory podstawowe zjawiska i prawidłowości związane z warunkowaniem klasycznym wyjaśniane są przez teorię Rescorli-Wagnera (1972). Teoria ta proponuje między innymi pewną matematyczną formułę opisującą przyrost siły związku między bodźcem warunkowym i bezwarunkowym wraz z powtarzającymi się próbami warunkowymi.
Teoria mówi, że zmiana siły związku warunkowego jest proporcjonalna do:
różnicy między maksymalną, możliwą do wytworzenia w danych warunkach silą związku a silą związku występującą w poprzedniej próbie doświadczalnej
stopnia wyrazistości bodźca warunkowego.
Z próby na próbę przyrost siły związku jest coraz mniejszy. W wypadku efektu blokowania wytworzona siła związku między bodźcem warunkowym i bezwarunkowym jest tak duża, że gdy do bodźca warunkowego zostanie dodany nowy element, to kolejne przyrosty siły związku będą znikome.
Oznacza to, że w wypadku dodanego elementu praktycznie nie dochodzi do warunkowania. Zdobywanie wiedzy o środowisku nie ogranicza się jedynie do nabywania umiejętności odczytywania sygnałów umożliwiających przewidywanie wystąpienia określonych zdarzeń, na które należy zareagować w odpowiedni sposób.
Organizmy uczą się także tego, jakie konsekwencje pojawiają się po wykonaniu określonych reakcji (zachowań). Pozwala im to samodzielnie kształtować i zmieniać środowisko, w którym żyją. Dzieje się to poprzez wprowadzenie do repertuaru zachowań nowych sposobów reagowania oraz poprzez modyfikację częstości już wykonywanych reakcji.
Proces nabywania takich umiejętności określany jest mianem warunkowania instrumentalnego, zwanego także warunkowaniem sprawczym.
WARUNKOWANIE INSTRUMENTALNE:
Badaczem, który zapoczątkował prace nad warunkowaniem instrumentalnym, był Edward Thorndike.
W 1898 roku przedstawił on jedno z podstawowych praw psychologii — prawo efektu, które głosi, że zachowanie, które w danej sytuacji wywołuje odczucie zadowolenia (satisfaction), zostaje skojarzone z tą sytuacją i jeśli w przyszłości sytuacja ta się powtórzy, to wzrasta prawdopodobieństwo, iż powtórzone zostanie także to zachowanie.
Jeżeli natomiast w danej sytuacji zachowanie wywoła odczucie dyskomfortu (discomfort), to spada prawdopodobieństwo powtórzenia się tego zachowania w podobnych warunkach w przyszłości.
W Polsce badania nad warunkowaniem instrumentalnym prowadził, między innymi, Jerzy Konorski (1903-1973). Warunkowanie instrumentalne Konorski określał mianem odruchów warunkowych II typu (odruchy warunkowe I typu to, według podziału wprowadzonego przez Konorskiego - Konorski i Miller, 1933; Miller i Konorski, 1969 — klasyczne, Pawłowowskie odruchy warunkowe).
W swych pracach autor ten poświęcał wiele miejsca analizie procesów nerwowych (korowych i podkorowych), będących podłożem powstawania odruchów warunkowych (Konorski, 1948, 1969).
Badania uczonych amerykańskich, zwłaszcza Burrhusa Skinnera (1904-1990), skupiły się na behawioralnym aspekcie powstawania reakcji instrumentalnych oraz na znaczeniu, jakie dla całokształtu zachowania się jednostki ma warunkowanie sprawcze i wszystkie związane z nim zjawiska.
Typy relacji między zachowaniem a jego konsekwencjami:
W przebiegu warunkowania instrumentalnego jednostka uczy się, że — w określonych warunkach — wykonaniu lub powstrzymaniu się od wykonania danej reakcji towarzyszy pojawienie się pewnych konsekwencji. Konsekwencje te mogą być dwojakiego rodzaju:
atrakcyjne
awersyjne.
Atrakcyjne konsekwencje zachowania bywają nazywane nagrodami, awersyjne zaś — karami. W wyniku kolejnych prób, w których jednostka doświadcza relacji zachowania i jego konsekwencji, następuje stopniowe nabywanie odruchu instrumentalnego.
Zależnie od rodzaju relacji jednostka stopniowo zwiększa lub zmniejsza częstość wykonywania tego zachowania w podobnych warunkach środowiskowych. Wyróżniane są cztery podstawowe rodzaje relacji funkcjonalnych, zachodzących między zachowaniem a jego konsekwencjami:
wzmocnienie pozytywne, czyli każda konsekwencja zachowania, która powoduje zwiększenie się prawdopodobieństwa powtórzenia się tego zachowania w przyszłości;
kara, czyli każda konsekwencja zachowania, która zmniejsza prawdopodobieństwo pojawienia się tego zachowania w podobnych warunkach w przyszłości;
wzmocnienie negatywne, czyli takie wykonanie reakcji, które pozwała uniknąć przykrych, awersyjnych konsekwencji, co powoduje zwiększenie się prawdopodobieństwa powtórzenia tej reakcji w przyszłości;
pomijanie, jeśli po wystąpieniu zachowania nie pojawiają się konsek-wencje, które wystąpiłyby w wypadku powstrzymania się od wykonania tej reakcji, i gdy obserwujemy spadek częstości wykonywania zachowania będącego elementem tej zależności. Ta relacja funkcjonalna określana jest także jako wzmacnianie innych zachowań (differential reinforcement of other behavior, DRO), gdyż prowadzi do nasilenia wykonywania przez jednostkę reakcji odmiennych od zachowania będącego elementem relacji pomijania.
W warunkowaniu instrumentalnym często mamy do czynienia z uczeniem jednostki wykonywania nowych (wdanych warunkach) reakcji. Niekiedy trudno jest nakłonić jednostkę do wykonania danej reakcji od razu w oczekiwanej formie. Stosuje się wtedy tak zwane kształtowanie reakcji za pomocą metody kolejnych przybliżeń.
Początkowo nagradzana jest reakcja, która w niewielkim stopniu przypomina ostateczną formę, jaką zamierzamy uzyskać, ale wykazuje z nią jakiś związek (na przykład w klatce doświadczalnej — zwrócenie ciała w kierunku dźwigni, którą zwierzę ma nacisnąć). Następnie bardzo powoli zwiększane są wymagania stawiane wobec zachowania organizmu. Krok po kroku nagradzane są reakcje coraz bliższe oczekiwanej formy reakcji sprawczej.
Przestrzeń zależności instrumentalnych:
Pawłow sądził, że kluczowe znaczenie w warunkowaniu klasycznym ma styczność w czasie (contiguity) bodźca warunkowego i bezwarunkowego.
Podobnie twierdził Thorndike w odniesieniu do warunkowania instrumentalnego, co znalazło swoje odzwierciedlenie w brzmieniu prawa efektu, w którym styczność w czasie reakcji i jej konsekwencji była jedynym warunkiem utrwalenia się reakcji instrumentalnej.
Jednakże, podobnie jak w warunkowaniu klasycznym, kolejne badania wykazały, że również w warunkowaniu instrumentalnym sama styczność w czasie reakcji i jej konsekwencji to za mało, aby wystąpiło uczenie się. Potrzebna jest relacja zależności między reakcją a jej następstwami.
Tak jak w warunkowaniu klasycznym, relację tę można opisać dwoma prawdopodobieństwami:
prawdopodobieństwem pojawienia się nagrody (kary) po wykonaniu określonej reakcji
prawdopodobieństwem pojawienia się nagrody (kary) bez uprzedniego wykonania reakcji.
Przestrzeń zależności instrumentalnych. Każda relacja między zachowaniem i otrzymaniem wzmocnienia lokująca się powyżej przekątnej prowadzi do spadku częstości wykonywania reakcji instrumentalnej. Każda relacja między zachowaniem i otrzymaniem wzmocnienia lokująca się poniżej przekątnej prowadzi do wzrostu częstości wykonywania reakcji instrumentalnej. W szczególnym przypadku gdy stasowanymi wzmocnieniami są kary, przekątna obrazuje sytuację, w której dochodzi do wytworzenia się wyuczonej bezradności.
Podobnie jak w wypadku warunkowania klasycznego, optymalne warunki do uczenia się reakcji instrumentalnych wyznacza perfekcyjna zależność między zachowaniem a jego konsekwencjami.
Jednakże w każdej sytuacji, w której prawdopodobieństwo pojawienia się nagrody (lub kary) po wykonaniu określonej reakcji nie jest równe prawdopodobieństwu pojawienia się nagrody (lub kary)bez uprzedniego wykonania reakcji, nastąpi wyuczenie określonej reakcji sprawczej.
Zaprezentowane zostało kilka problemów wspólnych dla warunkowania klasycznego i warunkowania instrumentalnego. Przyjrzyjmy się teraz, jak na zachowanie się organizmu, wynikające z zależności instrumentalnych, wpływają pojawiające się w środowisku bodźce warunkowe.
Wpływ warunkowania klasycznego na reakcje instrumentalne:
W środowisku, w którym żyjemy wiele naszych zachowań podlega jednoczesnej regulacji poprzez utrwalone związki Pawłowowskie między pojawiającymi się wokół nas sygnałami mających nastąpić zdarzeń oraz poprzez związki instrumentalne, stanowiące przyczynę wykonywanych w danym momencie czynności.
Jedną z najbardziej typowych sytuacji, w której oba rodzaje warunkowania odgrywają rolę w kształtowaniu zachowania jednostki, jest sytuacja prowadząca do warunkowego tłumienia wykonywanej wdanym momencie czynności, zwanego także warunkową reakcją emocjonalną (conditioned emotional response, CER).
Warunkowe tłumienie przejawia się w zahamowaniu wykonywanej reakcji instrumentalnej podczas prezentacji bodźca warunkowego skojarzonego uprzednio z bezwarunkowym bodźcem awersyjnym. Rycina 6 obrazuje podstawowe efekty, jakie na zachowanie wynikające z warunkowania sprawczego wywierają pojawiające się w środowisku bodźce warunkowe.
Wynikiem interakcji obu rodzajów warunkowania może być nasilenie lub osłabienie wykonywanej przez organizm reakcji sprawczej. Bodźce warunkowe wywołują reakcje instrumentalne najprawdopodobniej poprzez wywieranie wpływu na stany motywacyjne, leżące u podstaw wykonywanych reakcji.
Dlatego też bodziec warunkowy wywoła nasilenie wykonywania reakcji instrumentalnej, jeśli obie zależności (Pawlowowska i instrumentalna) będą apetytywne lub awersyjne (okienka 1 i 4 na ryc.6). Wystąpi wtedy bowiem sumowanie stanów motywacyjnych. Jeśli stany motywacyjne są różne, bodziec warunkowy obniży tempo (nasilenie) wykonywanej reakcji instrumentalnej (okienka 2 i 3).
Przedstawione interakcje między warunkowaniem klasycznym i instrumentalnym pokazują, jak różnorodne sygnały płynące ze środowiska mogą wpływać na niezwiązane z nimi zachowania. Nie może więc dziwić fakt, że bodźce bezpośrednio związane z reakcjami instrumentalnymi są niezwykle skuteczną drogą do modyfikacji i kontroli zachowania.
Bodziec, który kontroluje zachowanie, czyli tak zwany bodziec kontrolujący, zmienia prawdopodobieństwo wystąpienia reakcji instrumentalnej. Częstość występowania reakcji sprawczej
w obecności tego bodźca może być większa lub mniejsza niż w wypadku braku bodźca kontrolującego
w środowisku.
Adaptacyjna rola bodźców kontrolujących polega na umożliwieniu jednostce przewidzenia konsekwencji jej działań w określonych warunkach. Wyróżnia się dwa typy bodźców kontrolujących:
bodźce dyskryminacyjne
bodźce wygaszeniowe.
Bodźce dyskryminacyjne informują jednostkę, że po wykonaniu reakcji będzie dostępne określone wzmocnienie lub pojawi się kara, sygnalizują więc, kiedy „warto” wykonać lub powstrzymać się od wykonania reakcji instrumentalnej. Bodźce wygaszeniowe oznaczają brak dostępności wzmocnień.
W ich obecności reakcja instrumentalna nie zostanie wzmocniona. Uczenie dyskryminacji sprawia, że kiedy prezentowany jest bodziec dyskryminacyjny, prawdopodobieństwo wystąpienia danego zachowania rośnie. Kiedy zaś w środowisku pojawia się bodziec wygaszeniowy, prawdopodobieństwo wystąpienia tego zachowania spada.
Na przykład, szczur zamknięty w klatce doświadczalnej wyposażonej w dźwignię, której naciśnięcie powoduje podanie pokarmu, ale tylko wtedy, gdy nad dźwignią pali się lampka, początkowo naciska na dźwignię przez cały okres pobytu w klatce, z czasem jednak zaczyna naciskać na nią jedynie w obecności palącej się lampki (bodźca dyskryminacyjnego), bo tylko wtedy działanie to przynosi efekty, a zwierzę nie marnuje energii na nieprzynoszące efektu zachowania.
Jeśli zmienimy znaczenie palącej się lampki i teraz oznaczać ona będzie brak dostępności pokarmu, to szczur stopniowo zmniejszy częstość reakcji wykonywanych w jej obecności, stanie się ona bowiem bodźcem wygaszeniowym.
Do tej pory analizowaliśmy głównie sytuacje, w których reakcje instrumentalne służyły zdobywaniu nagród (wzmocnień pozytywnych). Zachowania sprawcze mogą jednak pociągać za sobą także negatywne konsekwencje.
Awersyjna kontrola zachowania. Relacje między zachowaniem a nieprzyjemnymi, awersyjnymi wydarzeniami środowiskowymi nie są jednorodne. Wyróżnia się ich trzy główne typy:
karanie - gdy wykonanie reakcji powoduje wystąpienie bodźca awersyjnego,
ucieczka - gdy wykonanie reakcji powoduje eliminację aktualnie działającego bodźca awersyjnego,
unikanie - gdy wykonanie reakcji zapobiega pojawieniu się bodźca awersyjnego.
W wypadku stosowania kar jako konsekwencji wykonania niepożądanych reakcji instrumentalnych oraz w wypadku wykonywania reakcji ucieczki od bodźca awersyjnego dość łatwo można ustalić występujące tam zależności instrumentalne (określić, co jest czynnikiem wzmacniającym).
W wypadku reakcji unikania sytuacja nieco się komplikuje: wzmocnieniem jest brak wystąpienia bodźca awersnego. W typowej sytuacji eksperymentalnej zwierzę uczy się wykonywać pożądaną reakcję po zaobserwowaniu bodźca (bodźca dyskryminacyjnego), sygnalizującego, że za kilka sekund pojawi się bodziec awersyjny (na przykład szok elektryczny).
Dzięki temu może go uniknąć. W początkowej fazie treningu zwierzę wykonuje daną reakcję zbyt późno — dopiero po pojawieniu się bodźca. W tym wypadku reakcja ta jest reakcją ucieczki. W dalszej części eksperymentu, wykonując poprawnie reakcję unikania, zwierzę nigdy już nie doświadcza działania bodźca awersyjnego.
Jak to się dzieje, że brak bodźca awersyjnego może być wzmocnieniem? Aby wyjaśnić to zjawisko, najczęściej przytacza się tak zwaną teorię dwuczynnikową (Rescorla i Solomon, 1967), opartą na POŁĄCZONYM DZIAŁANIU WARUNKOWANIA KLASYCZNEGO I INSTRUMENTALNEGO (tytułowych dwóch czynników).
Teoria ta utrzymuje, że organizm początkowo uczy się reakcji ucieczki przed bodźcem awersyjnym (na przykład przed szokiem). Warunkowanie klasyczne powoduje, że bodziec dyskryminacyjny, podawany przed szokiem, staje się bodźcem warunkowym, zapowiadającym bodziec bezwarunkowy, czyli szok elektryczny.
Po kilku próbach bodziec warunkowy zaczyna wywoływać reakcję warunkową: lęk. Zwierzę zaczyna wykonywać reakcję instrumentalną już przy prezentacji bodźca dyskryminacyjnego, a reakcja ta jest reakcją ucieczki przed lękiem wywołanym prezentacją tego bodźca.
Z drugiej strony ta sama reakcja prowadzi do uniknięcia bodźca bezwarunkowego (szoku). Teoria dwuczynnikowa mówi więc, że reakcja unikania to specyficzna forma reakcji ucieczki: ucieczka przed lękiem wywołanym bodźcem warunkowym (bodźcem dyskryminacyjnym).
Analizowaliśmy mechanizm wzmacniania reakcji unikania, nie wydawał się on bowiem oczywisty. Ale czym w ogóle są wzmocnienia? Sposób rozumienia tego kluczowego dla warunkowania instrumentalnego pojęcia zmieniał się kilkakrotnie od momentu przedstawienia przez Thorndike’a prawa efektu.
Ewolucja definicji pojęcia wzmocnienia
Odpowiedzi na pytanie o mechanizm działania wzmocnień można udzielić, opierając się na teorii redukcji popędu (Hull, 1943).
Zgodnie z tą teorią, wzmocnienie powoduje powrót organizmu do uprzednio zachwianego poziomu homeostazy, a reakcja, która to umożliwia, zostaje wzmocniona, gdyż redukuje awersyjne odczucia towarzyszące popędom.
Ta teoria jednak wyjaśnia jedynie wzmacniający efekt takich bodźców, jak na przykład pokarm i woda, stosowanych wobec głodnych i spragnionych zwierząt. Nie wyjaśnia natomiast, stwierdzanych w licznych eksperymentach, wzmacniających właściwości na przykład włączania światła czy umożliwiania biegania.
Tradycyjne behawioralne definicje wzmocnień, oparte na prawie efektu, mówiły, że wzmocnieniem jest bodziec, który — podany po wykonaniu przez jednostkę określonej reakcji — zwiększa prawdopodobieństwo wykonania tej reakcji w podobnych warunkach w przyszłości.
Definicja ta może być zastosowana w dowolnej sytuacji, jest jednak definicją o charakterze post hoc, ponieważ o tym, że jakiś czynnik jest wzmocnieniem, dowiadujemy się dopiero po jego zadziałaniu. Przedtem nie możemy przewidzieć, jakie wywoła on zachowanie.
Aby poradzić sobie z tym problemem, Meehl (1950) zaproponował transsytuacyjną definicję wzmocnienia. Zgodnie z nią, wzmocnieniem jest bodziec, którego zastosowanie zwiększa prawdopodobieństwo wystąpienia wzmacnianej reakcji w więcej niż jednym wypadku.
Efekt wzmacniający jest zatem pewną cechą charakterystyczną określonej klasy bodźców Jednakże badania Premacka (1962) dowiodły, że nie wszystkie bodźce, które uznawano za wzmocnienia, zawsze spełniają swoją funkcję. Ponadto czasem mogą być wzmocnieniem pozytywnym, a czasem karą.
PREMACK (1965) zaproponował własną teorię wzmocnień, radykalnie zmieniając sposób definiowania pojęcia wzmocnienia. Zamiast analizować wzmacniające możliwości różnorodnych bodźców, zwraca on uwagę na wzmacniający efekt jednych zachowań w relacji do innych zachowań.
Punktem wyjścia Premacka było spostrzeżenie, że reakcje towarzyszące typowym wzmocnieniom (takie jak czynność jedzenia i picia) są bardzo chętnie wykonywane przez jednostki. Organizmy poświęcają tym czynnościom wiele czasu.
Z kolei reakcje instrumentalne, których uczą się zwierzęta (na przykład naciskanie na dźwignię), są reakcjami o niskim prawdopodobieństwie spontanicznego pojawiania się.
Premack twierdził, że to właśnie ta różnica w prawdopodobieństwie spontanicznego zaangażowania się w jakieś czynności (w prawdopodobieństwie wystąpienia określonych reakcji) jest odpowiedzialna za efekt wzmacniający. Przedstawiają to następujące trzy zasady Premacka:
bardziej prawdopodobna reakcja będzie wzmacniać mniej prawdopodobną reakcję;
mniej prawdopodobna reakcja nie wzmocni bardziej prawdopodobnej reakcji;
z efektem karania mamy do czynienia w sytuacji, gdy jednostka, w konsekwencji wykonywania bardziej prawdopodobnej czynności, będzie zmuszana do zaangażowania się w mniej prawdopodobną aktywność.
Efekt wzmocnienia wynika z narzucenia organizmowi pewnych ograniczeń:
aby wykonywać reakcję bardziej prawdopodobną, trzeba najpierw wykonać reakcję mniej prawdopodobną (będzie to prowadziło do wzrostu częstości wykonywania reakcji mniej prawdopodobnej;
w konsekwencji wykonania reakcji bardziej prawdopodobnej należy wykonać reakcję mniej prawdopodobną (będzie to prowadziło do spadku częstości wykonywania reakcji hardziej prawdopodobnej).
Idea uzależnienia możliwości wykonania jakiejś czynności od wykonania innej czynności została rozwinięta w kilku teoriach, określanych wspólnym mianem teorii równowagi. Teorie równowagi wyjaśniają i przewidują wystąpienie efektu wzmocnienia z najlepszą, jak dotąd, dokładnością w najszerszym zakresie sytuacji.
Ich przykładem jest teoria deprywacji zachowania (response deprivation; Timberlake i Allison, 1974). Zakłada ona, że efekt wzmocnienia wywodzi się z narzuconych jednostce ograniczeń, które zaburzają podstawowe, spontaniczne relacje między różnymi, wykonywanymi przez nią zachowaniami.
Jeśli pozostawi się jednostce całkowitą swobodę w rozporządzaniu własną aktywnością, to rozdzieli ona czas poświęcany na różne zachowania w sposób dla niej optymalny, najprzyjemniejszy.
Przy braku ograniczeń obserwowane relacje między jakimiś dwoma zachowaniami utworzą pewien zrównoważony układ, który może być przedstawiony w postaci punktu równowagi na wykresie obrazującym czas poświęcany każdej z czynności (ryc. 7).
Widoczny na tej rycinie punkt B to tak zwany punkt zadowolenia łub błogostanu (Miss point). W różnych warunkach środowiskowych punkt ten może zmieniać swojepołożenie, ale przy zachowaniu podobnych warunków będzie zawsze tak samo umiejscowiony.
Kiedy w środowisko zostają wprowadzone ograniczenia zaburzające równowagę między zachowaniami jednostki, wówczas obserwujemy regulacyjne zmiany w jej aktywności, wynikające z dążenia do przywrócenia równowagi oraz do powrotu relacji między czynnościami do punktu zadowolenia.
Jeśli narzucone ograniczenie powoduje, że preferowane w warunkach swobody natężenie reakcji zależnej nie pozwala na wykonywanie preferowanej częstości reakcji niezależnej, wówczas jednostka oddala się od punktu zadowolenia.
Wywołuje to w efekcie taki wzrost natężenia reakcji zależnej, aby jednostka możliwie najbardziej zbliżyła się do utraconego punktu błogostanu. W ten sposób osiągnięty zostaje efekt wzmocnienia pozytywnego.
Jeśli natomiast ograniczenie powoduje, że preferowane w warunkach swobody natężenie reakcji zależnej zmusza jednostkę do zwiększenia natężenia reakcji niezależnej, wówczas jednostka oddała się od punktu zadowolenia. Wywołuje to taki spadek natężenia reakcji zależnej, by jednostka mogła zbliżyć się do utraconego punktu zadowolenia — występuje więc efekt kary.
W teorii deprywacji zachowania efekt wzmocnienia pozytywnego i efekt kary wynikają z ograniczeń zaburzających równowagę, występującą w warunkach spontanicznych między różnymi rodzajami aktywności, i przynoszą takie dynamiczne zmiany w nasileniu zachowań, które pomogą zbliżyć się do utraconego punktu zadowolenia.
Z tej perspektywy teoretycznej każde zachowanie może służyć jako wzmocnienie lub kara, warunkiem zaś jest włączenie go w specyficzny system ograniczeń, przynoszący niedobór lub nadmiar określonej aktywności poniżej jej poziomu podstawowego lub ponad nim.
Reakcje instrumentalne oraz ich wzmocnienia różnią się tylko przypisaną im, za pomocą narzuconych ograniczeń (zależności instrumentalnych), rolą. Typowym przykładem takich zależności instrumentalnych są rozkłady wzmocnień.
Rozkłady wzmocnień
Rozkłady wzmocnień Są zasadami precyzującymi, jak często i pod jakimi warunkami zachowanie jednostki będzie wzmocnione.
Stanowią zatem ograniczenie dostępności zachowań i bodźców będących wzmocnieniami, ponieważ ich uzyskanie jest uzależnione od odpowiedniego wykonania innych czynności (reakcji instrumentalnych).
Wyróżnia się pięć podstawowych rozkładów wzmocnień:
rozkład ciągły (continuous reinforcement schedule, CRF), w którym wzmacniana jest każda poprawnie wykonana przez organizm reakcja;
rozkład o stałych odstępach czasowych (fixed-interval schedule, FJ), w którym wzmacniana jest pierwsza poprawnie wykonana reakcja po upływie wyznaczonego czasu od otrzymania poprzedniego wzmocnienia;
rozkład o zmiennych odstępach czasowych (variable-interval schedule, VI), w którym wzmacniana jest pierwsza reakcja wykonana po upływie wyznaczonego czasu od otrzymania poprzedniego wzmocnienia, przy czym czas ten imienia się z próby na próbę, ale w przebiegu całego eksperymentu waha się wokół dowolnie przyjętej wartości średniej;
rozkład o stałych proporcjach (fixed-ratio schedule, FR), w którym wzmocnienie podaje się po wykonaniu przez organizm pewnej stałej liczby reakcji;
rozkład o zmiennych proporcjach (variable-ratio schedule, VR), w którym wzmocnienie podaje się po wykonaniu przez jednostkę zmiennej liczby reakcji, liczba ta jednak podczas trwania całego eksperymentu oscyluje wokół określonej wartości średniej.
Rozkłady o stałych i zmiennych proporcjach (FR i VR) powodują utrzymywanie się wysokiego tempa wykonywania reakcji sprawczej. Z kolei rozkład o zmiennych odstępach czasowych (VI) wywołuje umiarkowane tempo reagowania.
Rozkład o stałych odstępach czasowych (FI) także wyzwala umiarkowane tempo reagowania, przy czym przynosi także okresowe przyrosty tempa wykonywania reakcji — gdy zbliża się moment podania wzmocnienia — oraz spadek tempa reagowania — w chwilę po otrzymaniu nagrody.
Stwierdzono ponadto, że do wygaszenia reakcji instrumentalnych wzmacnianych w nieregularny sposób (VR i VI) potrzeba znacznie większej liczby prób wygaszeniowych niż w wypadku reakcji wzmacnianych w sposób regularny (FR i FI), a zwłaszcza wzmacnianych w sposób ciągły (CRF).
Oprócz tych podstawowych rozkładów wzmocnień wprowadzono jeszcze kilka innych, dzięki którym uzyskiwana jest duża regularność pojawiających się reakcji.
Są to tak zwane rozkłady wyrówrnujące tempo reakcji (differential-rate schedules). Określają one trzy zasadnicze typy działań:
wzmacnianie wysokiej częstości reakcji (differential reinforcetnent of high rates, DRH), polegające na tym, że reakcja jest wzmacniana, jeśli pojawi się przed upływem określonego czasu od poprzednio uzyskanego wzmocnienia; jak wskazuje nazwa tego rozkładu, efektem jego stosowania jest stabilne, wysokie tempo reakcji jednostki.
Wzmacnianie niskiej częstości reakcji (differential reinforcement of lowrates, DRL), w której to procedurze reakcja jest nagradzana, jeśli pojawi się po upływie określonego czasu od poprzednio otrzymanego wzmocnienia, przy czym jeśli reakcja pojawi się wcześniej, niż wyznacza to ten rozkład, wówczas odliczanie czasu rozpoczyna się od zera; efektem tego rozkładu wzmocnień jest utrzymujące się niskie tempo reakcji.
Wzmacnianie innych reakcji (differential reinforcement of other behaviors, DRO),
w którego wypadku wzmocnienie podawane jest tylko wtedy, gdy jednostka powstrzyma się od wykonywania określonej reakcji (relacja pomijania); w związku z tym nagradzane są wszystkie, różne od wybranej, reakcje.
Różne rozkłady wzmocnień mogą być łączone w łańcuchy, w których dopiero dopełnienie wymagań ostatniego ogniwa (ostatniego rozkładu wzmocnień) powoduje podanie wzmocnienia (tak zwane rozkłady łańcuchowe, chained schedules, lub rozkłady drugiego rzędu, second-order schedules).
Badanie takich łańcuchów to eksperymentalna analiza sekwencji występujących w zachowaniu. Jedną ze stwierdzonych prawidłowości jest fakt, że sekwencje rozkładów wzmocnień mogą podtrzymywać wykonywanie określonych reakcji tylko pod warunkiem, iż zakończenie każdego z etapów pośrednich łączy się z podaniem sygnału informującego, że organizm zbliża się do celu, czyli do otrzymania wzmocnienia.
Inną typową procedurą, stosowaną w badaniach nad rozkładami wzmocnień, jest procedura konkurencyjnych rozkładów wzmocnień (concurrent schedules of reinforcement).
Polega ona na tym, że w tym samym czasie organizm ma do wyboru dwa (lub więcej) sposoby uzyskiwania wzmocnień — każdy według innego rozkładu wzmocnień (na przykład, szczur umieszczony w kamerze doświadczalnej, w której aby otrzymać pokarm, trzeba nacisnąć dźwignię, ma do wyboru dwie dźwignie, związane z różnymi rozkładami).
Oznacza to, że w kręgu zainteresowań badaczy zajmujących się warunkowaniem sprawczym znalazła się czynność dokonywania wyboru (choice behavior).
Dokonywanie wyboru
Tradycyjne teorie wzmocnień (HuIl, 1943; Skinner, 1995/1938) koncentrowały się na wpływie pojedynczych wzmocnień na pojedyncze reakcje. Niewiele uwagi zwracano na inne wzmocnienia i inne reakcje występujące w danej sytuacji.
Później jednak stwierdzono, że efekt wzmocnienia w dużym stopniu zależy od jego relatywnej wartości w stosunku do innych, dostępnych w danym środowisku wzmocnień. Jako pierwszy opisał to zjawisko w 1961 roku uczeń Skinnera, Richard Hernstein, formułując prawo dopasowania.
Badania dowiodły (Herrnstein, 1961), że reakcje organizmu zachodzące w środowisku, w którym działają konkurencyjne rozkłady wzmocnień o stałych lub zmiennych odstępach czasowych, rozdzielają się pomiędzy te rozkłady wzmocnień proporcjonalnie do częstości uzyskiwania w ich wyniku wzmocnień. Prawo dopasowania wyraża się następującą formułą:
Równanie to mówi, że relatywna częstość reakcji dopasowana jest do relatywnej częstości wzmocnień uzyskiwanych w wyniku tych reakcji.
Stwierdzono, że zgodnie z tym prawem zachowują się różne gatunki zwierząt (od ryb, przez gołębie, szczury, chomiki, aż po człowieka), wybierające między różnymi wzmocnieniami (od pokarmowych po społeczne) (zob. de Villiers, 1977).
Dowodzi to niezwykłej uniwersalności prawa dopasowania. Ale prawo dopasowania jedynie opisuje pewną prawidłowość występującą w zachowaniu ludzi i zwierząt.
Uwaga badaczy skupiona jest teraz na poszukiwaniu mechanizmu tej prawidłowości. Zaproponowano dotychczas kilka teorii próbujących wyjaśnić zjawisko dopasowania. Ogólnie dzielą się one na dwie klasy; teorie:
molarne
molekularne.
Teorie molarne analizują wyniki działania organizmu w dłuższej perspektywie czasowej. Przykładem takiej teorii jest molarna teoria maksymalizacji (maximization), zaproponowana przez Rachlina, Battalio, Kagela i Greena (1981).
Zgodnie z nią, rozłożenie aktywności proporcjonalnie do częstości uzyskiwanych wzmocnień prowadzi do zmaksymalizowania użyteczności otrzymanych nagród.
Teorie molekularne wyjaśniają zjawisko dopasowania na podstawie wyników rozkładu aktywności zwierząt w krótkich odcinkach czasowych.
Skupiają się na analizie czynników kierujących dystrybucją zachowań z chwili na chwilę. Należy do nich teoria ulepszania (melioration), której autorami są Herrnstein i Vaughan (1980).
Zgodnie z jej założeniami, zwierzęta przenoszą swoją aktywność z zachowania związanego z rozkładem wzmocnień A na zachowanie związane z rozkładem B, po to by ulepszyć miejscową (czyli związaną z konkretnym rozkładem; A lub B) częstość wzmocnień (liczba wzmocnień w jednostce czasu), które otrzymują.
Ulepszanie ma na celu zrównanie miejscowej częstości wzmocnień otrzymywanych z rozkładów A i B. W momencie gdy to zrównanie zostanie osiągnięte, okaże się, że rozłożenie aktywności zwierzęcia jest perfekcyjnie dopasowane częstości uzyskiwanych wzmocnień. W ten sposób mechanizm ulepszania prowadzi do efektu dopasowania.