Untitled

WARUNKOWANIE INSTRUMENTALNE

Przedstawione poniżej wiadomości pochodzą z następujących podręczników psychologii:
1. Kozielecki, J. (1998). Koncepcje psychologiczne człowieka. W-wa: Wydawnictwo Akademickie "Żak"
2. Psychologia. Podręcznik akademicki (2000). J. Strelau (red.), Gdańsk: GWP, Tom II.
Treści te nie odnoszą się bezpośrednio do szkolenia psów, ale na pewno można je wykorzystać w pracy ze swoimi potworami.

"Zgodnie z koncepcją behawiorystyczną człowiek jest układem reaktywnym, jego zachowanie jest sterowane całkowicie przez środowisko zewnętrzne. System nagród i kar znajdujący się w otoczeniu decyduje o tym, czego człowiek unika i do czego dąży.
Jednocześnie procesy psychiczne nie odgrywają żadnej roli w sterowaniu ludzkim zachowaniem; pojecie silnej woli jest semantyczna fikcja. Zwolennicy tej koncepcji opracowali system metod i technik zmiany reakcji człowieka, który nazywa się inżynierią behawiorystyczną. Zgodnie z nią manipulując środowiskiem, a głównie stosując odpowiedni repertuar nagród i kar,
można dowolnie modyfikować ludzkie zachowanie. Środowisko jest konfiguracja czy mozaika bodźców (S), zaś bodźce sterują reakcjami człowieka (R). Zachowanie R stanowi funkcje układu zewnętrznych bodźców, czyli R=f(S1,S2...Sn). W tym ujęciu jednostka
jest całkowicie kontrolowana przez zewnętrzne zdarzenia. Środowisko steruje człowiekiem, ale i działanie człowieka wpływa z kolei na zmianę środowiska. Zatem miedzy środowiskiem a zachowaniem istnieje sprzężenie zwrotne. Przy czym środowisko jest UKŁADEM AKTYWNYM, a człowiek jedynie TWOREM REAKTYWNYM.
W tym miejscu zwykle stawiane są pytania: czy rzeczywiście człowiek jest sterowany przez wzmocnienia? i gdzie podziało się jego życie wewnętrzne (świadomość, charakter, postawa)? Behawioryści odpowiadają wówczas: "Fakt, iż zachowanie jest w poważnym stopniu kontrolowane przez swoje konsekwencje, nie jest zjawiskiem wymyślonym przez behawiorystycznych uczonych; podobnie jak prawo grawitacji nie zostało zaprogramowane przez fizyków" (Bandura).
Zachowanie jest zawsze narzędziem czy instrumentem do osiągania pewnych konsekwencji i skutków, jest ono ZACHWANIEM INSTRUMENTALNYM. Konsekwencje zachowania instrumentalnego, które są ważne dla człowieka, które sterują jego działaniem nazywamy WZMOCNIENIEM. Wyróżniamy cztery podstawowe relacje miedzy zachowaniem a jego konsekwencjami:

Wzmocnienie pozytywne (R+)

Wzmocnienie negatywne(R-)

Behawioryści opracowali piec podstawowych procedur stosowania nagród, które mówią o tym jak często i pod jakimi warunkami dane zachowanie zostaje wzmocnione. Są to:

Rozkład ciągły - polega na wzmacnianiu każdej poprawnie wykonanej reakcji.

Procedura stałych odstępów czasowych - zachowanie człowieka jest regularnie nagradzane po upływie określonego czasu np. otrzymywanie płacy co miesiąc.

Procedura stałych proporcji - człowiek otrzymuje nagrodę po wykonaniu określonej pracy np. po wyprodukowaniu zaplanowanej liczby detali.

Procedura zmiennych odstępów czasowych - wzmocnienia są nieregularne. Czas miedzy reakcja a nagroda zmienia się losowo.

Procedura zmiennych reakcji - zmienia się liczba reakcji, po której następuje wzmocnienie, np. gra losowa.

W procesie sterowania ważną rolę odgrywają metody konstruowania reakcji człowieka. Wśród nich szczególne znaczenie posiada METODA KOLEJNYCH PRZYBLIŻEŃ. W początkowym etapie uczenia się nagradzane są zachowania, które są wprawdzie bardzo odległe od pożądanych, ale które zostały już opanowane przez człowieka. Stopniowo kryteria wzmacniania staja się coraz bardziej surowe. W kolejnych etapach nagradzane są jedynie bardziej złożone reakcje, które są zbliżone do reakcji zaplanowanej. Metody konstruowania złożonych zachowań są bardzo skuteczne, chociaż ich stosowanie jest czasochłonne i wymaga olbrzymiego wysiłku ze strony nauczyciela.

Behawioryści wyróżniają następujące błędy sterowania:

Opóźnienie wzmacniania - polega na odroczeniu nagrody, zmniejsza jej znaczenie i obniża poziom ludzkiego wysiłku. Skoro wzmocnienie jest konsekwencja działania instrumentalnego, musi ono następować bezpośrednio po reakcji.

Nagradzanie bierności - polega na nagradzaniu ludzi nie za to, co zrobią, ale za to, ze nic nie robią. Wzmocnienie nie wiąże się więc z zachowaniem.

Zwracanie się ku karze - polega na przekonaniu, ze w procesie kształcenia bodźce nagradzające nie odgrywają większej roli, a
jedynie kary są skutecznym środkiem uczenia.

Behawioryści podważyli zatem przekonanie o znaczeniu kary i przedstawili fakty świadczące o jej ograniczeniach. Przede wszystkim
badania psychologiczne wykazały, ze skuteczność sterowania negatywnego jest znacznie mniejsza niż efektywność sterowania pozytywnego. Łatwiej jest modyfikować zachowanie za pomocą nagrody niż kary. Dowody:

Wzmocnienie negatywne z reguły nie eliminuje zachowań niepożądanych, tylko je tłumi i zahamowuje na pewien okres.

Zastosowanie wzmocnienia negatywnego prowadzi do generalizacji hamowania - polega ono na tym, ze kara tłumi nie tylko reakcje niepożądane lecz również wiele zachowań pożądanych.

Wzmocnienia negatywne mogą wywołać zaburzenia emocjonalne (lek, gniew, agresja, unikanie).

Wzmocnienia negatywne mogą także wywołać unikanie źródła karania - polega ono na unikaniu osób lub miejsc, które wymierzają kary lub się z nimi łączą.

System karania dostarcza negatywnych wzorców karania - proces karania jest jednocześnie procesem uczenia się, w którym osoba karana zapoznaje się z negatywnymi wzorcami zachowania (stosowanie przemocy).

Behawioryści wykazali z jednej strony, ze efekt stosowania kary jest niewielki, jednak wykryli pewne warunki, w których kara może spełnić swoje zadanie. Kara jest skuteczna wtedy, gdy włączona zostanie w całościowy program modyfikacji zachowania. Program ten musi odpowiedzieć na pytanie, jak ukształtować u człowieka nowe reakcje, które zastąpią reakcje niepożądaną i które będą akceptowane społecznie. Nie wystarczy karać, trzeba jednocześnie wskazać ludziom nowe drogi osiągania wzmocnień pozytywnych.

Stosowanie wzmocnień negatywnych z reguły wiąże się z dużym ryzykiem. Bardzo często kary fizyczne i społeczne wywołują uboczne skutki, które są społecznie niepożądane. Te niezaplanowane konsekwencje są nieraz bardziej bolesne niż samo zachowanie, które jest karane.

Poglądy behawiorystów są często krytykowane za odrzucenie świata przeżyć psychicznych człowieka i sprowadzenie go do zachowań regulowanych przez środowisko. Jednak ich metody ze względu na wysoka skuteczność są chętnie stosowane przez psychologów praktyków i pedagogów."

Jola i Paweł Życińscy

Dodatkowy komentarz do procedury zmiennych proporcji polegajacej na wzmacnianiu zmiennej liczby reakcji.

Pawel:
Oto przyklad: w pewnej grze hazardowej przecietnie co 10 los wygrywa, ale jej uczestnik moze otrzymac nagrode juz po wyciagnieciu piewszego losu lub dopiero po zakupieniu losu setnego (tysiecznego, itd). Behawiorysci wykryli, ze rozklad o zmiennych proporcjach jest z reguly najbardziej efektywny. Ludzie pracuja rytmicznie i na wysokich obrotach. Mozna by powiedziec, ze zyja oni nadzieja, iz wczesniej czy pozniej wysilki zostana nagrodzone.
Justyna:
To co w cytowanym podreczniku nazywane jest procedura zmiennych reakcji jest tym, co do tej pory nazywalismy na tej liscie z angielskiego VSR (Variable Schedule of Reinforcement) albo po prostu VR (Variable Reinforcement). Swoista opozycja jest rozklad ciagly, ktory z angielskiego opisywalysmy jako CR (Continuous Reinforcement). VR faktycznie wzmacnia zachowanie, czego dowodza tysiace hazardzistow w kasynach. Nie ma za to zbytnich tlumow przed maszynami z coca-cola, ktore stosuja rozklad ciagly - CR - za kazdym razem kiedy wrzucimy zlotowke wylatuje puszka coli. O ile VR bardzo przyczynia sie do wzmocnienia zachowania, sprawiajac ze staje sie niepodatne na wygaszenie, o tyle stosowanie VR w szkoleniu psow jest bardzo sliska sprawa i moze przyniesc wiecej zlego niz dobrego. Bob Bailey pisze, ze osobiscie korzysta z VR tylko wtedy kiedy musi i uwaza, ze VR jest mocno naduzywane przez szkoleniowcow psow. Niektorym wydaje sie, ze ksztaltujac zachowanie stosuja zmienne nagradzanie (VR), bo nie kazda proba psa jest nagrodzona. Nieprawda. Przed rozpoczeciem sesji ksztaltowania powinnismy bardzo dokladnie ustalic jakie bedzie kryterium nagradzania - co musi zrobic pies, zeby zarobic na k/s. I nagradzamy *kazda* rekacje ktora odpowiada naszemu kryterium. Faktycznie, moga pojawic sie reakcje, ktorych nie nagrodzimy, bo kryterium nie zostanie spelnione, ale to nie zmieni faktu, ze dalej korzystamy z CR (rozkladu ciaglego). Przy ksztaltowaniu brak wzmocnienia jest dla psa informacja, ze musi zmienic
swoje zachowanie. Dlatego przesadne wykorzystanie VR w szkoleniu psa bedzie nam przeszkadzac w ksztaltowaniu. Pies, ktory jest nauczony, ze czasem musi wykonac zachowanie 3 razy, zeby otrzymac wzmocnienie a czasem 15, nie bedzie zmienial zachowania kiedy wzmocnienie zostanie wstrzymane. Wrecz przeciwnie, bedzie energicznie ofiarowal poprzednie zachowanie liczac na to, ze w koncu zadziala. Poza tym, wzmacniajac zachowania przy uzyciu VR wzmacniamy nie tylko to zachowanie, ktore kliknelismy, ale tez wszystkie te, ktore je poprzedzily - nawet jezeli tamte nie odpowiadaly naszym oczekiwaniom. Informacja ktora przekaujemy psu jest taka, ze *wszystkie* jego reakcje byly dla nas satysfakcjonujace. Tak wiec wprowadzajac VR tracimy znacznie na precyzji.
VR sluzy do wzmacnienia zachowania, nie do uczenia zachowania. Dlatego nigdy przenigdy nie powinnismy stosowac VR do zachowan, ktore nie sa idealne wyuczone. Bob pisze, ze on i Marian zawsze stosowali w szkoleniu rozklad ciagly i uwazaja, ze mozna dzieki niemu uzyskac odpowiednio mocne zachowania.