behawior, fizjologia zwierząt


Rozdział 1

Zasady ogólne

A. Dlaczego badamy zachowanie?

Oprócz samoistnego zainteresowania, badanie zachowania się zwierząt jest wyzwaniem intelektualnym i zjawiskiem ważnym w praktyce. Zwierzęta są zdolne do poruszania się i jest to jedna z najważniejszych cech przystosowawczych do środowiska, w którym żyją. Adaptacje te mogą służyć do różnorakich celów, takich jak: poszukiwanie pożywienia, unikanie drapieżnika, wyszukiwanie odpowiednich siedlisk, poszukiwanie partnera płciowego i opieka nad młodymi. Każdy gatunek ma specyficzne wymagania i często te same problemy są rozwiązywane w różny sposób przez różne gatunki.

Pomimo tego, że wiele już wiadomo o adaptacjach i o sposobach, na jakie są one udoskonalane w trakcie zdobywania doświadczenia przez osobniki, dużym wyzwaniem czekającym na zbadanie jest różnorodność i funkcje zachowania.

Zasady zaangażowane w ewolucję coraz bardziej złożonych zachowań i rola, jaką odgrywało dane zachowanie w wytyczaniu kierunku ewolucji nie są jeszcze dostatecznie dobrze zrozumiane. Zrozumienie tego, jak powstały wzory zachowań oraz po co powstały, może zostać wyniesione tylko z badań porównawczych różnych gatunków, oraz przez odniesienie zachowania do warunków społecznych i ekologicznych, w jakich zwierzę żyje.

Co z mechanizmami zachowania? Biologia molekularna i komórkowa poczyniła znaczne postępy w ciągu ostatnich 30 lat. Neurofizjologia i neuroanatomia zaczynają odkrywać działanie systemu nerwowego a długodystansowym celem jest zrozumienie zachowania w kategoriach procesów leżących u jego podstaw, które w końcu zaczęło być osiągalne. Dlaczego więc zajmować się badaniem zachowania (przez które mamy na myśli akcje i reakcje całego organizmu)? Odpowiedź jest zilustrowana przez prostą analogię. Perfekcyjna znajomość tego jak często dana litera pojawia się na tej stronie nie da nam żadnych wytycznych, co do treści, dopóki litery nie zostaną połączone w słowa, a słowa w zdania. Każdy kolejny poziom organizacji ma właściwości, które nie mogą być przewidziane ze znajomości niższego poziomu organizacyjnego. Nawet wówczas, gdy zrozumienie leżących u podstaw procesów elementów neuronowych będzie kompletne, nie będzie możliwe przewidywanie ich działania jako całości, bez wcześniejszego zrozumienia tego, jak zachowują się one jako całość - a to znaczy bez wiedzy o tym, jak zachowuje się cały organizm. Zrozumienie tych podstawowych mechanizmów zachowania wymaga zrozumienia zachowania jako takiego. Dla wszystkich tych wymienionych wyżej powodów, opis i analiza zachowania pozostanie przez długi czas zasadniczą częścią biologii.

B. Zasady ogólne.

Czasami możliwe jest przeprowadzanie badań behawioralnych polegających tylko na opisie tego, co robi podmiot badań. Znaczące badania będą zwykle wymagały zmierzenia przynajmniej pewnych aspektów zachowania. (Przez mierzenie rozumie się analizę ilościową przeprowadzaną przez przypisywanie obserwacjom wartości liczbowych, według ustalonych wcześniej reguł.) Tak więc, mierzenie zachowania, zarówno w terenie jak i w warunkach laboratoryjnych jest potrzebne prawie wszystkim etologom i psychologom. Tutaj będziemy się skupiać na metodach opartych na obserwacjach bezpośrednich, które rozwinęły się jako metody do rejestrowania zachowania gatunków innych niż ludzie. Takie metody znajdują zastosowanie nie tylko w zaawansowanych badaniach naukowych. Mogą również być użyteczne w projektach behawioralnych powszechnych wśród akademickich kursów, oraz coraz częściej - w szkołach. Co więcej, techniki takie mogą znaleźć zastosowanie w pracach badawczych nad zachowaniem człowieka - nawet jeśli nie mają do czynienia z ważnymi kwestiami, takimi jak analiza języka - mają istotne zastosowanie w naukach społecznych i medycznych.

C. Różne podejścia do mierzenia zachowania.

Nie wszyscy naukowcy badają zachowanie w ten sam sposób i nie wszyscy zadają ten sam rodzaj pytań. Historycznie psychologia (która wyrosła ze studiów umysłu ludzkiego) była oddzielona od etologii (biologicznego badania zachowania) w kwestiach metodologicznych, zainteresowań i pochodzenia obu nauk. W ubiegłym wieku psychologia porównawcza i eksperymentalna miała tendencję do skupiania się głownie na proksymalnych (bezpośrednich) przyczynach zachowania (tak zwanych pytaniach: „jak”) badając ogólne procesy zachowania (głównie uczenie się) na kilku gatunkach w warunkach laboratoryjnych. Przeciwnie - etologowie, mający korzenie w naukach biologicznych zadawali pytania nie tylko dotyczące tego jak zachowanie jest kontrolowane, ale również po co dane zachowanie istnieje i dlaczego ewoluowało (pytania: „dlaczego”).

Biolodzy są wyuczeni porównywać i przeciwstawiać sobie różne gatunki. Ich myślenie jest przesiąknięte Darwinowską teorią ewolucji, dlatego wciąż spekulują na temat wartości przystosowawczej różnic pomiędzy i w obrębie gatunków. W rzeczywistości wielu etologów jest zainteresowanych głównie biologicznymi funkcjami zachowania i są ostrożni w przystępowaniu do eksperymentów laboratoryjnych bez wcześniejszego zrozumienia funkcji zachowania i biologicznego kontekstu.

Badania zwierząt w warunkach naturalnych, (ostatnio również ludzi) były ważnym składnikiem etologii i odgrywały ważną rolę w rozwoju charakterystycznych dla tej nauki, a zarazem skutecznych metod obserwacji i pomiaru zachowania. W przeciwieństwie do nich, psychologowie kładą większy nacisk na plan eksperymentu i metody ilościowe. Mimo tego, pomyłką byłoby uznawanie nowoczesnej etologii jako nie-eksperymentalnej.

Badania terenowe, w których wzory zachowania powiązane są z warunkami socjalnymi i ekologicznymi, w których normalnie występują, prowadziły do utworzenia nowej dziedziny nauki - ekologii behawioralnej. Kolejna pod-dyscyplina - socjobiologia wniosła do nauki o zachowaniu pewne ważne pojęcia i metody z biologii populacyjnej, co stymulowało dalsze zainteresowanie badaniami terenowymi nad zachowaniem się zwierząt. Wszystkie te pod-dyscypliny wzajemnie się zazębiają, a etologia, ekologia behawioralna i socjobiologia tworzą razem biologię behawioralną.

Nowoczesna biologia behawioralna styka się z wieloma dziedzinami wiedzy, metody rozwinięte przez etologów są wykorzystywane przez neurobiologów, genetyków behawioralnych, psychologów społecznych i rozwojowych, antropologów, psychiatrów i wielu innych. Wiele metod obserwacyjnych rozwiniętych przez biologów behawioralnych okazało się bardzo skutecznymi w badaniu zachowania dzieci.

D. Cztery ważne problemy:

Należy zdać sobie sprawę z faktu, że istnieje wiele trudnych pytań dotyczących zachowania. Prawdopodobnie najbardziej użyteczna klasyfikacja została sformułowana przez etologa Nico Tinbergena, który wytyczył cztery odrębne problemy podejmowane przez nauki behawioralne:

  1. Czynniki proksymalne (bliższe lub bezpośrednie) lub kontroli (jak to działa?). Jak wewnętrzne i zewnętrzne czynniki ujawniają i kontrolują zachowanie? Na przykład, jakie bodźce stymulują wzór zachowania i jakie są leżące u podstaw mechanizmy neurobiologiczne, psychologiczne lub hormonalne regulujące zachowanie zwierzęcia?

  2. Rozwój czy ontogeneza. Jak zachowanie pojawiło się w czasie trwania życia osobniczego, to znaczy jak pewne zachowania są gromadzone? Jakie czynniki zewnętrzne i wewnętrzne wpływają na rozwój zachowania w czasie życia osobnika i jak działa proces rozwojowy? Jak doświadczenie i geny osobnika współpracują przy „tworzeniu” jego zachowania?

  3. Funkcja. (Po co to jest?) Jakie jest obecne znaczenie lub wartość przystosowawcza danego zachowania? Jak zachowywanie się w pewien sposób pomoże osobnikowi przeżyć i reprodukować się w środowisku fizycznym i społecznym?

  4. Ewolucja czy filogeneza? Jak ewoluowało zachowanie w ciągu historii gatunku? Jakie czynniki mogły być zaangażowane w kształtowaniu zachowania w ciągu historii ewolucyjnej? Zauważ, że pytania ewolucyjne są związane z pochodzeniem historycznym wzorów zachowań, podczas gdy pytania funkcjonalne dotyczą obecnego znaczenia. Te dwa pytania są często mylone. Pytania o znaczenie i ewolucję są często określane jako pytania ultymatywne (dalsze), w przeciwieństwie do pytań proksymalnych.

Te cztery pytania mogą być najlepiej zobrazowane prostym przykładem. Przypuśćmy, że zadajemy pytanie, dlaczego kierowcy zatrzymują się przed czerwonym światłem. Jedną z odpowiedzi będzie, że specyficzny bodziec wzrokowy (czerwone światło) jest dostrzegany a reakcją centralnego systemu nerwowego będzie specyficzna odpowiedź (wciskanie sprzęgła i naciskanie na hamulec). To będzie odpowiedź w kategoriach proksymalnych.

Inną odpowiedzią jest, że każdy kierowca uczy się tej reguły z książek, telewizji i instruktażu jazdy. To jest wyjaśnienie w kategoriach ontogenetycznych.

Funkcjonalne wyjaśnienie to takie, że wszyscy kierowcy, którzy nie zatrzymywali się przed czerwonym światłem prawdopodobnie mieli wypadek, lub co najmniej zostali zatrzymani przez policję. W końcu wyjaśnienie ewolucyjne - będzie miało do czynienia z procesem historycznym, podczas którego czerwone światło zaczęło być używane w większości krajów jako sposób regulowania ruchu ulicznego na skrzyżowaniach.

Cztery problemy Tinbergena są logicznie oddzielne i nie powinny być ze sobą mylone. Mimo tego może być pomocne zadawanie więcej niż jednego typu pytań w tym samym czasie. Na przykład pytanie, po co istnieje określony wzór zachowania (jego funkcja) może czasem pomóc w zasugerowaniu sposobów badania leżącego u jego podstaw mechanizmu.

E. Wybór właściwego poziomu analizy

Forma pomiaru powinna zależeć od rodzaju problemu postawionych pytań. Z drugiej strony, typ zjawiska, które zostanie odkryte przez badania będzie niewątpliwie odzwierciedlać użytą metodę. W mniejszym stopniu wybór kategorii behawioralnych i metody zapisu powinien również brać pod uwagę metody statystyczne, które będą na końcu używane do analizy wyników. Czasem wyniki są żmudnie kolekcjonowane, tylko po to, aby okazało się, że nie pasują do żadnego testu statystycznego niezbędnego do ich analizy. Konsultacja ze statystykiem przed rozpoczęciem zbierania danych jest z reguły mądrym posunięciem. Jeśli to możliwe należy zasięgnąć porady statystyka zaznajomionego z metodami behawioralnymi.

Na wzór wydarzeń, jaki zauważa obserwator zwykle oddziałuje skala przestrzenna. Jeśli jesteśmy bliżej podmiotu zauważamy szczegóły, które nie są widoczne z pewnej odległości. Podobny argument możemy zastosować do skali czasowej pomiaru. Na przykład wartość „zatrzymywania czasu” doceniono w dziewiętnastym wieku, kiedy to wykonano pierwsze fotografie galopujących koni. Dotychczas artyści przedstawiali galopujące konie mające przednie i tylne kończyny wyciągnięte równocześnie. Fotografie wykazały, że w rzeczywistości konie nigdy tak nie robią.

0x01 graphic

Rys.1. Dwa przedstawienia galopującego konia. Dopóki nie wynaleziono fotografii rysunek powyżej był uważany za prawidłowy.

Szczegółowa analiza jest właściwa tylko w celu odpowiedzenia na pewne pytania, a pełne zrozumienie nie zawsze wynika ze szczegółowego opisu i analizy zachowania. Tak jak mikroskop jest bezcennym przyrządem w pewnych okolicznościach, będzie on bezużyteczny do czytania powieści. Innymi słowami: kosztem zdobycia pewnych szczegółów możemy przeoczyć ważniejsze cechy z wyższego poziomu. Na przykład zapis szczegółowego trójwymiarowego wzoru poruszania się każdej kończyny może być pożądany do pewnych celów, lecz zwykle kategorie wyższego rzędu: „chodzenie”, „bieganie” są bardziej na miejscu. Na poziomie najwyższym zapisywanie dużych ilości niepotrzebnych detali może przyćmić szersze problemy po prostu przez przedstawienie badaczowi przytłaczającej ilości danych do zanalizowania i interpretacji.

F. Wybór właściwego gatunku

Dla wielu ludzi wybór gatunku do badań nie stanowi problemu. Na przykład są zainteresowani tylko i wyłącznie badaniami na ludziach; studiują zwierzęta, ponieważ tylko garstka tego określonego gatunku pozostała na ziemi; nie mają innej możliwości niż praca na gatunku, który hodowany jest w laboratoriach; i tak dalej. Niemniej jednak, kiedy wybór jest możliwy warto zwrócić uwagę na wady i zalety szerokiej liczby dostępnych gatunków. Bogactwo i różnorodność materiału zoologicznego jest tak duża, że czas zainwestowany w wybór gatunku odpowiedniego do badania danego problemu prawdopodobnie przyniesie zysk później w czasie badań.

Istnieje cała lista problemów, które należy przemyśleć, ale dla każdego z punktów są osobne wymagania i tylko niektóre punkty mogą być przydatne w danym przypadku.

  1. Czy zwierzę łatwo można zobaczyć w naturalnych warunkach lub czy jest dostępne do badań w hodowli? Jeśli jest to zwierzę pochodzące z innych krajów to, jakie są warunki złowienia ich w rejonie, z którego pochodzą? Czy nastąpi duże opóźnienie z powodu kwarantanny?

  2. Czy zwierzę toleruje obecność człowieka? Czy hoduje się łatwo, jeśli ma być przetrzymywane w niewoli? Czy dobrze rozmnaża się w niewoli? Jeśli ma być trzymane w niewoli, to czy ma specjalne wymagania pokarmowe? Czy jest dostatecznie małe, aby hodowla i karmienie opłacały się finansowo, jeśli potrzebna będzie duża ich liczba? Czy znane są lekarstwa w przypadku ewentualnej choroby?

  3. Jakie są cechy charakterystyczne historii życiowej (life-history) takie jak wiek czas trwania ciąży, wiek odłączenia od matki i dojrzałości płciowej? Czy długość życia wystarczy do wykonania powtarzalnych pomiarów, ale jest wystarczająco krótka by studia były opłacalne?

  4. Czy dużo wiadomo o jego historii naturalnej, anatomii i fizjologii? Czy jest odpowiednio szeroka literatura dostępna dla tego gatunku?

  5. Czy wiadomo cokolwiek o jego genetyce? Czy są możliwe kontrolowane programy rozmnażania?

  6. Czy dużo wiadomo o jego zachowaniu? O jakiej porze dnia jest zwykle aktywne? (Zadziwiająco duża liczba osób bada zwierzęta nocne w czasie, kiedy są najmniej aktywne). Do jakiego stopnia zwierzę jest społeczne lub kolonijne?

  7. Czy zachowanie tego zwierzęcia będzie odpowiednie do badanego problemu? Czy porusza się dostatecznie wolno, aby uczynić obserwacje relatywnie łatwymi, a na tyle szybko aby obserwacje były warte zachodu?

  8. Czy ogólny problem odnosi się do większej ilości gatunków, i czy wybrany gatunek jest odpowiednim modelem? Czy gatunek ma być studiowany dla wiedzy o samym gatunku, czy też badania przyczynią się do zrozumienia zachowania np. ludzi?

  9. Czy są możliwości porównania zachowania tego gatunku z zachowaniem blisko spokrewnionych gatunków?

Źródła informacji

Jeśli nie szukamy pomocy eksperta, na wiele z tych pytań nie może zostać udzielona odpowiedź bez spędzenia dużej ilości czasu w bibliotece. Niektóre podręczniki podają przegląd pewnych grup taksonomicznych gatunek po gatunku. Wiele czasopism podaje indeks gatunkowy a niektóre zawierają przydatne tabele zawierające informacje porównawcze.

G. Antropomorfizm

Ludzie zwykle interpretują zachowanie innych gatunków w kategoriach swoich własnych myśli i intencji, a obserwując zwierzęta łatwo dojść do wniosku, że zwierzęta wiedzą, co robią. Jednakże wiele analiz wykazało, że często złożone i pozornie celowe zachowania mogą być powodowane przez proste mechanizmy, które nie wymagają świadomego myślenia, motywacji czy intencji. Na przykład prosionek będzie poruszał się energicznie, kiedy przebywa w suchym środowisku, a powoli (albo wcale), kiedy znajduje się w miejscu wilgotnym. Zwierzę wydaje się szukać wilgotnego miejsca w sposób celowy, ale jego odpowiedź może być wyjaśniona w kategoriach nie bardziej skomplikowanych niż działanie grzejnika elektrycznego z termostatem.

Używanie myśli i intencji ludzkich jako wyjaśnienia dla działań zwierząt może utrudniać przyszłe wysiłki w celu zrozumienia zachowania. Ogólnie mówiąc, mądrze jest zacząć od wytłumaczenia zachowania w najprostszy możliwy sposób, dopóki nie ma innego powodu aby myśleć inaczej.

Niemniej jednak niewolnicze posłuszeństwo do tej maksymy ogranicza wyobraźnię a jakkolwiek możliwość antropomorfizacji musi być wzięta pod uwagę, jednak przesadne skupianie się na tym niebezpieczeństwie może ograniczyć badania. Badacz, który nigdy nie myśli o zwierzęciu tak, jakby było ono człowiekiem prawdopodobnie straci wiele z bogactwa i złożoności jego zachowania. Jeśli zwierzę jest niezmiennie uważane za kawałek maszynerii, wówczas najciekawsze jego cechy mogą zostać przeoczone.

Ogólnym zaleceniem jest więc wzięcie pod uwagę każdego możliwego typu pomocy mentalnej, w czasie kiedy generuje się pomysły i hipotezy, ale używanie pełnego rygoru i analitycznego myślenia, kiedy się je testuje.

Kolejnym fundamentalnym punktem jest to, że inne gatunki okupują całkiem inny świat postrzegania zmysłowego niż ludzie. W innych słowach, ich zdolności zmysłowe mogą być całkowicie różne od naszych. Na przykład gryzonie komunikują się za pomocą ultradźwięków, niektóre owady mogą wykrywać światło ultrafioletowe, niektóre węże wykrywają swoje ofiary za pomocą podczerwieni, a wiele gatunków ma bardzo dobrze rozwinięte zmysły powonienia. Ludzie okupują świat zmysłowy, który jest zdominowany przez widzenie w kolorze, ale nie jest to prawdą dla wszystkich gatunków. Tak więc, zwierzęta mogą być niewrażliwe na bodźce wzrokowe, które są oczywiste dla człowieka, i wręcz przeciwnie, reagować na bodźce niewidzialne dla nas.

H. Kolejne kroki w badaniu zachowania.

Studiowanie zachowania angażuje wiele powiązanych ze sobą procesów.

  1. Postawienie pytania. Na samym początku badań ważne jest, aby mieć wyraźną ideę co do najważniejszych kategorii które mają być badane. Zanim ważny problem naukowy zostanie zbadany pewne pytania muszą być postawione. Pytanie może być na początku szerokie, powstające z prostej ciekawości, co do gatunku, czy poszczególnych kategorii zachowania, takich jak: „jakie są zwyczaje godowe tego gatunku?” Niezwykła wartość szerokich opisów powstających z czystej ciekawości z pewnością nie może pozostać niedoceniona. Alternatywnie, na początku może być możliwe postawienie bardziej szczegółowego pytania opartego na dotychczasowej wiedzy i teorii, takie jak: „czy duże samce tego gatunku zdobywają więcej partnerek płciowych niż małe?” Nie jest zaskakujące, że problemy badawcze mają tendencję do zawężania się i stawania się coraz bardziej specyficznymi w miarę głębszego odkrywania danego tematu. Na wybór pytania (lub pytań) może mieć wpływ wiele czynników, włączając w to dotychczasową wiedzę eksperymentatora, zainteresowania i obserwacje poczynione w czasie badań.

  2. Zrobienie obserwacji wstępnych i sformułowanie hipotez. Powinno się przedyskutować te dwa procesy razem, ponieważ w praktyce są one często niemożliwe do rozdzielenia i konkurencyjne względem siebie. Hipotezy są szczególnie specyficznymi pytaniami. Formułowanie hipotez to proces twórczy wymagający wyobraźni i wiedzy na temat zaangażowanych w nie kategorii. W niektórych przypadkach potrzebna jest znacząca ilość informacji opisowych, podczas gdy inne problemy wydają się być łatwiejsze, jeśli chodzi o postawienie specyficznych pytań w pierwszej fazie badań. Nie jest możliwe udzielenie dobrej rady jak formułować dobre hipotezy, nie bardziej niż rada na temat pisania dobrej literatury lub namalowania dobrego obrazu. Ogólnie im więcej konkurencyjnych hipotez do sformułowania, tym lepiej. Kłopot z jedną hipotezą polega na tym, że może być trudna do odrzucenia. Okres obserwacji wstępnych ma często znaczenie dla sformułowania ciekawych hipotez i powinien być postrzegany jako kluczowa część badań. Przeskoczenie od razu do zbierania twardych danych nie zawsze jest najlepszym sposobem postępowania.

  3. Poczynienie przewidywań z hipotez. Jasna hipoteza powinna w procesie logicznego rozumowania pozwolić na powstanie jednego lub więcej przewidywań, które mogą być empirycznie testowane. Im bardziej specyficzne przewidywanie tym łatwiej rozróżnić empirycznie pomiędzy konkurującymi hipotezami i zredukować liczbę możliwych sposobów, w jaki wyniki mogą być wyjaśnione.

  4. Zidentyfikowanie, które zmienne behawioralne mają być zmierzone w celu testowania przewidywań. Forma badań i zmienne mierzone powinny być wybrane tak, aby zapewnić najlepszy test przewidywań i pozwolić na odrzucenie hipotezy.

  5. Wybór odpowiedniej metody zapisywania dla mierzonych zmiennych behawioralnych. Żaden obserwator nie może zapisywać zachowania bez wybrania pewnych cech charakterystycznych wydarzeń ciągu wydarzeń a ignorowania innych. Taka selekcja niezmiennie odzwierciedla interesy obserwatora, jego koncepcje wstępne i hipotezy. Po prostu nie jest możliwe zapisywanie wszystkiego, co się dzieje, ponieważ każdy ciąg zachowania może być opisywany na tysiące różnych sposobów. Wybór aspektów do mierzenia i sposobu, w jaki się to robi powinien odzwierciedlać postawione pytania. Wykonanie przejścia od myślenia o problemie i sformułowania hipotez, do testowania ich empirycznie jest postrzegane przez wiele osób jako najtrudniejsza część badań.

  6. Zebranie odpowiedniej ilości danych. Należy zaprzestać zbierania danych, kiedy jest ich wystarczająco dużo, aby udzielić odpowiedzi na pytania. Zaczynając zbierać dane wiele osób ma trudności z zaprzestaniem.

  7. Zaangażowanie odpowiednich narzędzi statystycznych zarówno dla przedstawienia i eksplorowania danych, jak i dla testowania hipotez. Przeprowadzenie analizy danych, aby wyciągnąć z nich maksimum informacji i odkryć niespodziewane wyniki, które generują nowe pytania. Należy używać potwierdzających analiz do testowania hipotez, rozróżniać pomiędzy testowaniem istniejących hipotez a generowaniem nowych. Nie należy wyciągać więcej konkluzji niż sugerują dane, ale próbować formułować listę pytań i pomysłów sugerujących, które dane mogą stanowić podstawę przyszłych badań. Różne procesy zaangażowane w mierzenie zachowania są pokazane na rysunku 1.2. Główny cel badań naukowych to pomoc w rozróżnianiu pomiędzy alternatywnymi hipotezami i zredukowaniu liczby sposobów, w jaki świat naturalny może być postrzegany. Zgodnie z tym, nie ma podstawowego rozróżnienia między badaniami eksperymentalnymi (gdzie zmienne są manipulowane przez badacza) i czysto obserwacyjnymi badaniami, ponieważ oba dostarczają danych empirycznych, które pozwalają na rozróżnienie między konkurencyjnymi hipotezami. Niektóre badania behawioralne są czysto obserwacyjne, ale nie czyni ich to mniej naukowymi. Należy pamiętać, że są pewne obszary nauki jak astronomia i geologia, gdzie konwencjonalne, eksperymenty są rzadkie, (jeśli w ogóle możliwe), ale wciąż dostarczają szczegółowych hipotez ilościowych regularnie formułowanych i testowanych dzięki obserwacjom. Mierzenie zachowania w celu odpowiedzenia na zestaw pytań będzie niezmiennie produkować wyniki, które obrócą się w nowe pytania. W tym sensie badania naukowe mają cykliczną naturę. Naukowiec, który odnosi sukces prawdopodobnie jest takim, który potrafi połączyć celowe podejście do postępowania z zestawem pytań początkowych i zdolnością do rozpoznawania i oportunistycznego odpowiadania na nowe pytania, które powstają w czasie badań. Badania prawdopodobnie nie będą owocne, jeśli pozostaną całkowicie otwarte i nigdy nie będą skupiać się na żadnym wyszczególnionym temacie. Przeciwnie, jeśli problem jest prowadzony w sztywny i mało elastyczny sposób z wyłączeniem wszystkiego, potencjalnie nowe i ważne idee mogą zostać przeoczone.

0x01 graphic

0x01 graphic

Rozdział 2

Plan eksperymentu

  1. Zasady badań naukowych.

Formalne zasady na temat sposobu przeprowadzania badań naukowych często nie są w stanie uchwycić sprytu, intuicji i wrażliwości najlepszych naukowców. Dlatego więc porady na temat organizacji i przeprowadzania badań powinny być podejmowane z ostrożnością. Niektórzy zaczynają badania na określonym gatunku tylko dlatego, iż wydaje im się, że to zwierzę jest interesujące. Inni na początku są bardziej zainteresowani problemem teoretycznym, a jeśli mają odpowiednią wiedzę, wybierają zwierzę, które jest odpowiednie dla studiowanego problemu. Nie jest oczywiste, dlaczego jedno podejście jest lepsze od drugiego, w rzeczywistości często one uzupełniają się wzajemnie.

Jak zostało powiedziane w rozdziale 1, dane empiryczne które pozwalają na rozróżnienie między dwoma konkurującymi hipotezami mogą być zebrane na podstawie obserwacji naturalnej zmienności, jak również mogą zostać uzyskane na drodze eksperymentalnej. Z wielu powodów nie ma powodu, aby wytyczać ścisłe rozróżnienie między badaniami obserwacyjnymi i eksperymentalnymi. Wiele pytań o zachowanie może uzyskać najbardziej poprawną odpowiedź dzięki badaniom obserwacyjnym. Co więcej, aby były efektywne, badania eksperymentalne prawie zawsze muszą być poprzedzone obserwacjami. Wiedza o normalnym zachowaniu zdrowych zwierząt, najlepiej w ich naturalnym środowisku, jest niezbędnym prekursorem badań eksperymentalnych. Jedną z cech wyróżniających podejście etologiczne do badania zachowania jest nacisk na połączenie obserwacji z badaniami eksperymentalnymi.

  1. Efekt obserwatora na podmiot badań.

Obserwator rzadko kiedy jest niewidoczny, a przez to może mieć głęboki wpływ na przedmiot badań, zarówno w terenie jak i w badaniach laboratoryjnych. Nawet osobniki, które nigdy nie reagują gwałtownie na obecność obserwatora ani nie wydają się uciekać od obserwatora, mogą mimo wszystko modyfikować swoje zachowanie w subtelny sposób. Głębokie przekonanie, że obecność obserwatora nie ma wpływu na obiekt badań, może okazać się pomyłką.

W badaniach terenowych zakłócenia mogą zostać zredukowane przez użycie maskujących obserwatora kryjówek i zasłon. Jeśli obserwator nie może zbliżyć się do kryjówki bez zauważenia przez badane osobniki, pewnym rozwiązaniem może być umieszczenie obserwatora w środku a następnie ostentacyjne odejście, choć niektóre zwierzęta nie dają się nabrać na taki podstęp. Oczywiście ograniczenie obserwatora do kryjówki, nawet ruchomej, takiej jak pojazd może oznaczać, że pewne ciekawe aspekty zachowania zwierzęcia zostaną przeoczone. W konsekwencji w wielu badaniach obserwator spędza długie okresy czasu po prostu przyzwyczajając zwierzę do własnej obecności. Jest to strategia, która zwykle działa dobrze. Mimo wszystko, przeświadczenie, że na dobrze przyzwyczajone osobniki nie ma wpływu obecność obserwatora, jest trudne do zweryfikowania i powinno być traktowane z pewnym sceptycyzmem. Ten problem odnosi się w szczególności do badań terenowych.

Obecność obserwatora może wprowadzać subtelne obciążenie wyników, nawet jeśli wydaje się że przedmiot badań wydaje się być przyzwyczajony. Na przykład niektóre czynności (takie jak zabawa, lub zachowania godowe) mogą być bardziej zaburzone obecnością obserwatora. Nawet, jeśli przedmiot badań jest przyzwyczajony do obserwatora, nie muszą być przyzwyczajone jego ofiary lub drapieżniki.

W laboratorium może być zamontowany ekran z półprzejrzystego szkła, lub muślinowa zasłona oddzielająca obserwatora od przedmiotu badań. Taka technika dla zamaskowania obserwatora polega na znacznie jaśniejszym oświetleniu po stronie przedmiotu badań. Inną metodą jest zamontowanie luster pod kątem, znajdujących się nad obserwowanym zwierzęciem, pod warunkiem, że zwierzę nie patrzy w górę i jest obserwowane z miejsca gdzie bezpośredni kontakt wzrokowy nie jest możliwy. Oczywiście, nawet jeśli obserwator jest dla zwierzęcia niewidoczny, może wciąż być słyszalny, lub wyczuwany zmysłem węchu. Trzecią możliwością rozwiązującą problem jest używanie kamery video i obserwowanie zwierzęcia na ekranie. Zdolność uchwycenia szczegółów jest rzadko tak doskonała jak w czasie bezpośrednich obserwacji, ale ta metoda ma równięż tę zaletę, że trwałe nagrania mogą być przechowywane na taśmie video.

W badaniach laboratoryjnych zwykle dobrą metodą jest badanie zwierząt w klatkach, w których zwykle są trzymane. Transport zwierzęcia do obcego środowiska w celu obserwacji często znacząco zaburza jego normalne zachowanie. Jeśli testowanie, czy obserwacja nie jest możliwa w ich własnych klatkach, należy upewnić się, że zwierzę jest dobrze przyzwyczajone do sytuacji, zanim dane zaczną być zbierane.

Psychologowie i socjologowie od wielu dekad wiedzieli, że zmiany w zachowaniu przedmiotów ich badań, często wynikają nie z powodu eksperymentalnej manipulacji, ale po prostu z uwagi, jaką poświęca im eksperymentator. W psychologii i socjologii takie zjawisko nosi nazwę efektu Hawthorne'a

  1. Plan eksperymentu: kontrola, efekt obserwatora, powtórzenia i efekt kolejności.

1. Kontrola. Celem eksperymentu jest stwierdzenie czy zmiana jednego z warunków powoduje konkretny wynik, a przez to zredukowanie liczby alternatywnych hipotez, które mogą być przyczyną uzyskania wyniku. Celem najprostszego eksperymentu jest po prostu zmiana jednego z warunków (zmienna niezależna) i zmierzenie efektów za pomocą jednego lub więcej pomiarów (zmienne zależne), podczas gdy inne warunki pozostają stałe. W bardziej zaawansowanych eksperymentach dwa, lub więcej warunków może zmieniać się jednocześnie a wiele zmiennych zależnych może być mierzonych. Efekt zmiany warunków (tak zwany zabieg) jest mierzony dla jednej grupy zwierząt badawczych (grupa eksperymentalna lub zabiegowa) i porównywany z wynikiem dla grupy kontrolnej, które nie są poddane manipulacji eksperymentalnej, ale we wszystkich innych aspektach traktowane są tak samo.

Na przykład przypuśćmy, że zamierzamy zmierzyć efekt wpływu testosteronu na zachowanie płciowe samców szczurów. Obiekty badawcze otrzymają iniekcję zawierającą pewną dawkę hormonu. Wartość mierzona (lub zmienna zależna) jedna lub kilka, będzie pomiarem zachowań seksualnych. Każdy z efektów zastrzyku może być spowodowany przez hormon, ale może być również wytłumaczony przez czynniki zakłócające, takie jak trzymanie przez eksperymentatora, dyskomfort iniekcji lub substancje, w których hormon jest rozpuszczony (tak zwany nośnik). Brak podania zwierzętom kontrolnym iniekcji nie będzie dobrą kontrolą, ponieważ inne czynniki będą różne dla obu grup. Tak więc, grupa kontrolna powinna również otrzymać iniekcję z samego nośnika.

W eksperymentach behawioralnych zwykle trudno jest zmieniać jeden warunek bez zmieniania jednocześnie czegoś innego. Część sztuki dobrego eksperymentowania polega na a) wybraniu dobrej grupy kontrolnej, b) zrandomizowaniu czynników zakłócających. W ten sposób zaczyna być możliwe rozróżnienie między efektami zmiennych, które w innym wypadku mogłyby zostać pomylone ze sobą.

Wyobraźmy sobie eksperyment zaprojektowany w celu testowania efektów zmiany jednego warunku (X), ale kiedy zmienia się X wówczas zmienia się inny warunek (Z). Każdy z obserwowanych efektów zmiany X, może być również spowodowany zmianą czynnika zakłócającego Z. Może być trudno zmieniać X bez zmiany Z. Na przykład Vauclair i Bateson (1975) badali czy doświadczenie w dziobaniu ziaren (X) pozwala młodym kurczętom dziobać bardziej dokładnie. Jednakże jakakolwiek poprawa dokładności dziobania mogła być również spowodowana niespecyficznymi efektami ekspozycji na rozproszone światło (zmienna zakłócająca Z). Doświadczenie w dziobaniu X jest mylone z oddziaływaniem światła Z, ale sytuacja odwrotna niekoniecznie jest prawdziwa. Tak więc efekty dziobania i ekspozycji na światło zostały rozwiązane poprzez wystawienie grupy kontrolnej na światło, uniemożliwiając im dziobanie. Osobniki bardzo różnią się w zachowaniu i często pożądane jest wyeliminowanie czynników, które pozwalają na odróżnienie jednego osobnika od drugiego. Najprostsza i najbardziej efektywna metoda zrobienia tego jest użycie osobnika jako swojej własnej kontroli, poprzez testowanie tego samego osobnika w warunkach eksperymentalnych i kontrolnych w dwóch różnych okazjach. To zgadza się z modelem par wiązanych, w którym wyniki są różnicami między warunkami eksperymentalnymi i kontrolnymi dla każdego obiektu badań. Jedyny problem z tym modelem jest taki, że zabieg eksperymentalny może mieć długotrwały efekt, tak, że następne pomiary nie muszą odzwierciedlać warunków kontrolnych. W dodatku kolejność, w której warunki eksperymentalne i kontrolne są przeprowadzane musi być wyznaczony losowo, tak, że z grubsza taka sama liczba pomiarów będzie otrzymywać warunki eksperymentalne lub kontrolne najpierw.

2. Efekt eksperymentatora. Naukowcy mają często wysokie oczekiwania wobec wyniku eksperymentu, nawet jeśli nie są tego świadomi. Źródło tego obciążenia może być kontrolowane dzięki upewnieniu się, że osoba, która wykonuje pomiary nie jest świadoma z jakiego zabiegu pochodzi dany osobnik, dopóki eksperyment nie zostanie zakończony. Ta procedura jest nazywana prowadzeniem ślepego eksperymentu. Jeśli eksperymentator nie jest nieświadomy zabiegu, w jakim pomiary są robione, mogą się pojawić dwa rodzaje obciążenia. Po pierwsze eksperymentator może nieświadomie dostarczać obiektowi badań wskazówek, które w określony sposób wpływają na zachowanie. Najsłynniejszym przykładem jest przypadek Clever Hans'a, konia, który wydawał się umieć liczyć. Tylko w czasie eksperymentu w warunkach kodowanych stwierdzono, że koń nie potrafił liczyć, ale w rzeczywistości odpowiadał na subtelne wskazówki podawane mu przez trenera.

Dodatkowo, do bezpośredniego wpływu na zachowanie obiektu badań, efekt eksperymentatora może pojawić się podczas zapisywania lub analizowania danych. Na przykład kilka eksperymentów wyraźnie wykazało, że zabawa poprawia zdolności dzieci w rozwiązywaniu problemów lub myśleniu kreatywnym. Jednakże dokładne przestudiowanie tych eksperymentów wykazało kilka problemów metodologicznych. W wielu eksperymentach ta sama osoba zarządzała różnymi warunkami eksperymentalnymi, badała dzieci i zapisywała ich wyniki, pozwalając na pojawienie się efektu eksperymentatora na wszystkich kolejnych poziomach. Oczywiście, eksperymentator, który był świadomy hipotezy i wierzył, że zabawa może poprawiać zdolności dziecka mógł zarządzać warunkami lub inaczej testować lub wykazać nieświadomie odchylenie w zapisywaniu wyników. W takich typach eksperymentów, tak jak we wszystkich badaniach behawioralnych mierzenie zachowania może zawierać znaczącą ilość interpretacji i osądów dokonanych przez eksperymentatora.

Późniejsze doświadczenia, które kontrolowały efekt eksperymentatora wykazały mały związek między poprawą zdolności rozwiązywania problemów lub kreatywnym myśleniem a zabawą.

Podsumowując, jeśli eksperymentator nie jest nieświadomy, jakiemu zabiegowi zostały poddane obiekty badań, może w sposób nieumyślny wpływać na zachowanie obiektu badań i obciążać wyniki w przewidywanym kierunku. Skumulowany efekt takich małych obciążeń może powodować istotne różnice między grupami eksperymentalną i kontrolną. Te efekty są często większe niż się przypuszcza a jedynym sposobem na ich zminimalizowanie jest być nieświadomym jak obiekty badań były traktowane.

Jeśli obiektem badań jest człowiek, może to również wnieść obciążenie, jeśli jest on świadomy, do jakiej grupy przynależy, lub jakiemu zabiegowi został poddany. Jeśli jest to możliwe (i etycznie dopuszczalne) badane osoby powinny być nieświadome, w której są grupie, aż do zakończenia eksperymentu. Eksperyment, w którym ani osoba wykonująca pomiary ani osoba badana nie jest świadoma, jakiemu zabiegowi zostały poddane poszczególne osoby badane, jest nazywany podwójnie ślepym eksperymentem. Taki typ eksperymentu jest szeroko stosowany na przykład w badaniach klinicznych leków.

3. Powtórzenie (replikacja). Niewłaściwe teorie nie stanowią zagrożenia dla nauki, ponieważ prędko zostanie ukazana ich niezgodność w odniesieniu do rzeczywistości. Jednakże niewłaściwe fakty empiryczne mogą być szeroko akceptowane jako fakty, dopóki nie zostaną podjęte wysiłki zmierzające do powtórzenia badań, które dostarczyły tych faktów. Kiedy fakty empiryczne wpłyną znacząco na daną teorię, zwykłym postępowaniem jest replikacja badań. Jednakże, wewnętrzna różnorodność, zmienność i złożoność zachowań, wraz ze względnym brakiem teorii ilościowych w pewnych dziedzinach nauk behawioralnych sprawiają, że nacisk na powtarzanie badań behawioralnych jest zwykle mały. Wiele z najbardziej spektakularnych badań empirycznych nigdy nie zostało powtórzonych.

Powtórzenie może być wykonane na dwóch poziomach. Po pierwsze, można zduplikować poszczególne eksperymenty dokładnie, używając tych samych gatunków oraz precyzyjnie tych samych pomiarów, procedur i warunków, w celu sprawdzenia czy dane oryginalne były prawidłowe. Jest to nazywane replikacją dokładną. Jedynym problemem jest fakt, że nie ma dwóch prób identycznych osobników, nawet ta sama grupa badana w tych samych warunkach może się różnić pod względem doświadczenia. Co więcej, różne osobniki i różne szczepy tego samego gatunku, mogą znacząco różnić się co do zachowania. Tak więc, dokładna replikacja w naprawdę identycznych warunkach rzadko kiedy jest wykonalna.

Drugim podejściem do replikacji, jest replikacja twórcza, dająca podobne wyniki, które mają za zadanie potwierdzić wyniki początkowych badań, ale używając innych procedur pomiarowych, może też innych pomiarów, warunków eksperymentalnych, lub nawet czasem innych gatunków. W innych słowach, nie jest podejmowany wysiłek, aby zduplikować badania oryginalne w kategoriach procedur eksperymentalnych, zamiast tego, nacisk jest położony na konkluzje, które można potwierdzić empirycznie. Wyniki każdych badań naukowych muszą być zawsze przedstawione z całkowitą uczciwością.

4. Efekt kolejności. Powtarzane zabiegi lub testowanie tego samego obiektu badawczego może mieć wpływ na jego zachowanie. Na przykład 3-dniowe kurczęta odruchowo unikają obcego, poruszającego się obiektu. Za pomocą sukcesywnych prezentacji, jakkolwiek czas spędzony na unikaniu obiektu na początku wydłuża się, a następnie skraca, aż do czasu, kiedy obiekt jest ignorowany, lub nawet zwierzęta podążają za nim. Wiele procesów takich jak: pobudzenie, uwrażliwienie, warunkowanie, zmęczenie i habituacja (przyzwyczajenie) mogą przyczynić się i wzajemnie na siebie oddziaływać, tak, że zmiany w odpowiedzi przedmiotu badań w czasie nie są proste do interpretacji. Takie zmiany mogą być interesujące same w sobie. Jeśli jednak są ignorowane, mogą znaczyć, że ewidentnie identyczne warunki eksperymentalne nie przyniosły takiego samego skutku na obiekt badań, tak więc wykonane w pewnej kolejności pomiary są nieporównywalne. Ważną rzeczą do zapamiętania jest fakt, że raz przetestowany osobnik staje się w pewien sposób innym osobnikiem.

Efekt kolejności może być czasem zrównoważony pomiędzy grupami. Pewne osobniki poddane zostają jednej kolejności prezentacji, podczas gdy inne kolejności odwrotnej, tak, że każdy możliwy porządek jest użyty. Alternatywną opcją jest wyznaczenie porządku losowego zabiegów. Takie środki są możliwe w testach z różnymi osobnikami. Jednakże ewidentnie nie mogą być użyte, kiedy porządek wynika z efektu kontynuowania doświadczenia na obiekt badań, w standardowych warunkach, tak jak w przypadku kurczęcia unikającego nowego obiektu. Problem kolejności jest najbardziej dokuczliwy w przypadku badania zmian rozwojowych, które często wymagają mierzenia zachowania tego samego osobnika wiele razy, w miarę jego dorastania.

  1. Badanie rozwoju.

Badania nad rozwojem behawioralnym są związane z opisywaniem zmian, które następują w trakcie dojrzewania osobników i z analizowaniem procesów, które są zaangażowane w te zmiany. Mierzenie zachowania młodych zwierząt i dzieci wnosi pewne specyficzne problemy, ponieważ sposób ich zachowania zmienia się w trakcie rozwoju. Aktywności, które mogą wyglądać tak samo w różnym wieku, mogą być kontrolowane w różny sposób i posiadać różne funkcje. Na przykład, na ilość czasu jaką spędza młody rezus w kontakcie z brzuszną stroną matki, ma wpływ jego potrzeba ssania mleka w pierwszym okresie życia, oraz schronienie przed niebezpieczeństwem na późniejszych etapach. Pewne czynności, jak ssanie u młodych ssaków, są specjalnymi przystosowaniami do przeżycia wczesnej fazy życia, następnie są zarzucane, kiedy zwierzę uzyska niezależność w zdobywaniu pokarmu. Generalnie warte rozróżnienia jest że: kontrola sposobów zachowywania się i ich funkcja prawdopodobnie zmieniają się znacznie w miarę postępu rozwoju zwierzęcia.

Rozwój behawioralny może być badany poprzez badania międzyklasowe, które wymagają badania różnych osobników w różnym wieku (różne klasy wiekowe), lub przez długotrwałe badania, w których bada się te same osobniki wielokrotnie. Problemem z długotrwałymi badaniami jest fakt, że zmiany rozwojowe związane z wiekiem i doświadczenie związane z sytuacją testowania są niewątpliwie mylone, jeśli ten sam obiekt badań jest testowany wielokrotnie, w miarę jak dojrzewa, bądź starzeje się. Na przykład badania odpowiedzi młodych zwierząt na bodziec mogą wpływać na ich rozwój a tym samym zaburzać wyniki doświadczenia w kolejnych powtórzeniach badań. Tutaj więc ogólny problem efektu kolejności ze względu na powtarzane pomiary na tym samym obiekcie badań jest szczególnie znaczący w badaniach rozwojowych (patrz poprzedni podrozdział).

Eksperymenty międzyklasowe nie są przedmiotem dla działania efektu kolejności, ale związany jest z nimi inny problem. Po pierwsze osobniki w różnym wieku mogą różnić się od siebie w sposób, który nie jest związany tylko z wiekiem i doświadczeniem zdobytym w danym przedziale czasowym, po którym pomiary zostały wykonane. Poszczególne grupy wiekowe mogą różnić się co do wieku, kiedy pierwsza grupa została zbadana. Tak mogło zdarzyć się, jeśli na przykład dostępność pokarmu miała znaczący wpływ na całkowity model zachowania, i zmieniała się z roku na rok.

Kolejnym problemem jest to, ze pomiary oczywiście uśredniają wyniki indywidualnych osobników, które mogły przecież rozwijać się w całkowicie inny sposób. Ten problem jest zilustrowany na rys. 2.1. Tutaj - pomiar Y wzrasta gwałtownie w wąskim przedziale wieku, ale wiek, w którym wzrost ten się rozpoczyna jest różny u różnych osobników. Badania międzyklasowe, które badały różne osobniki w każdej klasie wiekowej wykażą ewidentnie stopniowy wzrost wartości Y, ale proces taki nigdy nie przebiega tak u żadnego osobnika. Aby przedstawić prawdziwy przykład: poziom testosteronu wzrasta znacząco u mężczyzn w stosunkowo krótkim okresie czasu (12-18 miesiecy) w okresie dojrzewania, ale wiek dojrzewania różni się znacząco u różnych osobników nawet o kilka lat. Badania międzyklasowe dałyby błędne wrażenie, że poziom testosteronu wzrasta stopniowo w okresie kilku lat. Niestety pobieranie danych w sposób długotrwały od gatunków długożyjących może zabrać bardzo dużo czasu.

0x01 graphic

Ewidentne jest, że oba: międzyklasowe i długoterminowe eksperymenty mają swoje zalety i oba nastręczają różnych problemów praktycznych i w interpretacji. Idealnie obie metody powinny być używane, tak jak pokazano to w przykładzie rozwoju dziobania u kury domowej wykonanego przez Cruze (1935). Przetrzymywał on kurczęta w ciemnościach, kiedy się wylęgły i karmił je z ręki. Następnie zaczynając od różnego wieku badał dokładność dziobania ziarna. Dany osobnik raz testowany, był testowany ponownie w kolejnych dniach życia. W ten sposób Cruze uzyskał badania międzyklasowe na kurczakach, które były po raz pierwszy testowane w danym wieku, i długoterminowe na kurczakach, które były testowane codziennie. Nie było zaskakujące, ze oba czynniki: wiek i doświadczenie odgrywają rolę w dokładności dziobania ziarna.

Okres wrażliwości w rozwoju jest przedziałem wiekowym, kiedy pewne zdarzenia z dużym prawdopodobieństwem oddziaływają na rozwój osobnika. Procedury eksperymentalne ustaliły, że pewne warunki z większym prawdopodobieństwem wpłyną na rozwój osobniczy w danym wieku, niż w innym (rys. 2.2.) Przedział wiekowy w którym grupa osobników jest eksponowana na warunki zaznaczony jest czarną, grubą linią. Jeśli ekspozycja zaczęła się w różnym wieku i skończyła w tym samym wieku wówczas efekt wieku mógłby zostać pomylony z długością ekspozycji. Każdy obserwowany efekt mógł powstać z powodu ekspozycji osobnika we wcześniejszym wieku, lub z powodu że osobnik był eksponowany dłużej na dany czynnik. Niestety przykład ten nie jest czysto hipotetyczny. Wiele przykładów takiej niejednoznaczności można znaleźć w literaturze.

Bardziej subtelny problem powstaje przez czas testowania. Jeśli czas od końca ekspozycji do testowania nie jest stały, wówczas pewne różnice między grupami mogą powstać ponieważ efekt ekspozycji mógł wcześniej wygasnąć u grup eksponowanych na niego w młodszym wieku. Jednakże, jeśli czas od ekspozycji do badań jest stały (tak jak pokazano na rysunku) wiek i doświadczenie grup są oczywiście różne. Tutaj znowu, aby uzyskać doskonałość należałoby połączyć obie metody dla ustalenia czasu badań.

0x01 graphic

Kiedy eksperymenty nie są wykonalne, obecność okresów wrażliwości może być sugerowana za pomocą metod korelacyjnych. Jednym z podejść jest retrospektywność, spoglądanie wstecz w czasie na to, co mogło być ważnym wydarzeniem w rozwoju. Przeciwnie - prospektywność identyfikuje wszystkie osobniki, które miały określone doświadczenia i bada, co później dzieje się z nimi. Na przykład retrospektywne badania Bowlby (1951) wykazały, że społecznie niedostosowani ludzie z większym prawdopodobieństwem byli pozbawieni kontaktu z matką, we wczesnych stadiach życia. Jednakże, mimo iż pewien typ doświadczeń jest silnie związany z pewnym wynikiem, studia retrospektywne nie mogą wykryć osobników, które miały takie samo doświadczenie, ale nie spowodowało to u nich takiego samego efektu. W rzeczywistości takie przypadki zostałyby wykryte w studiach prospektywnych, gdzie wykazano, że izolacja od matki wcześnie w dzieciństwie powoduje późniejsze anormalności w zachowaniu u ludzi, którzy mają inne problemy socjalne i psychologiczne.

  1. Niezależność pomiarów.

Testy statystyczne zakładają, że analizowane dane pochodzą z próby losowej z populacji a poszczególne dane są statystycznie niezależne jedne od drugich. Założenie niezależności jest często niedotrzymywanie w badaniach behawioralnych.

1. Problem łączenia danych. Powszechnym błędem w badaniach behawioralnych jest traktowanie powtarzanych pomiarów na tym samym osobniku jakby były one niezależne. Praktyka taka została nazwana „pooling fallacy” przez Machlis'a w 1985, który pokazał jak błędne jest uzyskiwanie wielu pomiarów, zamiast pomiarów na dużej liczbie osobników. Kluczowym problemem jest, że uzyskanie dodatkowych danych od tego samego osobnika nie zastępuje wzrostu liczby osobników w badaniach. Najlepiej zilustrowane jest to na przykładzie. Wyobraźmy sobie badacza, który stara się ustalić średnią długość kroku dorosłego geparda. Mierzenie długości kroku zabiera wiele czasu, jest trudne i kosztowne, ponieważ musi być wykonane w laboratorium. Co więcej, liczba dostępnych osobników jest mała. W celu zwiększenia liczebności próby badacz mierzy tak wiele kroków jak to możliwe dla każdego geparda. W końcu uzyskuje sto pomiarów dla 10 dorosłych gepardów, a następnie łączy je uzyskując 1000 pomiarów. W rzeczywistości badacz wpadł w pułapkę łączenia danych. Prawdziwa wielkość próby wynosi 10, nie 1000. Błąd staje się bardziej wyraźny, jeśli zastąpimy długość kroku powiedzmy wagą. Ważenie 10 osobników 100 razy każdego i traktowanie tego jako wielkości próby, tak jakby było ich 1000 będzie oczywiście niewłaściwe. Ten sam błąd jest regularnie powtarzany w badaniach behawioralnych.

Machlis i in. (1985) użyli symulacji komputerowej, aby zbadać statystyczne konsekwencje łączenia danych. Symulacje pokazały, że kiedy dane są złączone prawdopodobieństwo nieprawidłowego odrzucenia prawdziwej hipotezy (to jest wykazanie nieistniejącego efektu) jest wyższe niż założony poziom istotności i w wielu przypadkach przekracza 0.5. W innych słowach, efekt, który wydaje się istotny statystycznie na poziomie 0.05, może w rzeczywistości urosnąć przez błąd pomiarowy więcej niż 10 razy.

Powszechność łączenia danych w badaniach behawioralnych jest często przytaczana przez Machlis'a i współpracowników (1985). Przeglądali oni artykuły publikowane w dwóch najlepszych czasopismach behawioralnych i stwierdzili, że co najmniej 20% artykułów w jednym z nich i 52% w drugim zawiera połączone dane. Ogólnie mówiąc, powtarzane pomiary na tym samym osobniku powinny zostać uśrednione, aby dać pojedynczy punkt do analizy, a liczebność próby powinna być równa liczbie osobników, nie liczbie pomiarów.

Nie zawsze istnieje potrzeba wyrzucania informacji o zmienności dla jednego osobnika. Szczególnie, jeśli wszystkie osobniki były mierzone tyle samo razy. Statystyczne metody takie jak ANOVA mogą być użyte do analiz wewnątrz i między osobnikami.

2. Efekt miotu i inne efekty grupy. Problem z niezależnością pojawia się również, kiedy badamy gatunki mające wiele młodych, na przykład szczury, czy koty, z powodu prawdopodobnej korelacji między pomiarami osobników pochodzących z tego samego miotu, nazywanej też efektem miotu. Jeśli korelacje wewnątrz miotu są ignorowane, istotność statystyczna różnic między grupami badanych osobników, prawdopodobnie będzie zbyt wysoko oszacowana. Na przykład wyobraźmy sobie 6 młodych szczura z tego samego miotu, które zostały zważone, zostały wyznaczone jako grupa eksperymentalna a 6 młodych z innego miotu wyznaczonych zostało jako grupa kontrolna. Jeśli przez przypadek matka grupy eksperymentalnej jest duża, wszystkie młode będą miały tendencje do wyższej masy ciała, zaburzając efekt zabiegu. Wielkość próby w takim przypadku powinna wynosić 1 (miot) a nie 6 (młode). Jeśli zmienność wewnątrz miotu jest znacznie mniejsza niż między miotami, pomiar młodych pochodzących z jednego miotu nie może być uważany za pomiar statystycznie niezależny. Jednym z rozwiązań jest pomiar wybranych losowo osobników z każdego miotu, chociaż w tej procedurze tracimy sporo potencjalnych informacji. Lepszą alternatywą jest mierzenie wszystkich osobników w miocie, ale traktowanie pomiaru jako średniej dla miotu i używanie jej jako pojedynczego pomiaru tak, że wielkość próby (n) jest równa liczbie miotów, a nie liczbie osobników. Trzecim sposobem jest użycie analizy wariancji (ANOVA), aby pozbyć się efektu miotu. To wymaga zrównoważonego planu eksperymentu, w którym jeden lub więcej osobników z każdego miotu (najlepiej równa liczba) należą do każdego zabiegu tak, że efekt zabiegu i zmienności wewnątrz miotu nie mogą zostać pomylone.

Problem zależności nie jest ograniczony tylko do podobieństw pomiędzy osobnikami z jednego miotu i odnosi się do każdej grupy osobników, w której mogą występować systematyczne korelacje wewnątrzgrupowe. Na przykład zwierzęta przetrzymywane w tej samej klatce mogą być bardziej do siebie podobne niż do zwierząt z innych klatek (wspólne środowisko). W badaniach nad zwierzętami społecznymi interakcje między członkami tej samej grupy mogą prowadzić do problemów z niezależnością, nawet jeśli efekty krótkoterminowe takie jak dostosowanie się społeczne, lub długoterminowe jak używanie wspólnego terytorium. W wielu badaniach gatunków społecznych są dobre powody dla argumentowania, że raczej grupy, a nie osobniki powinny być traktowane jako niezależne jednostki.

We wszystkich przypadkach, kiedy mamy wątpliwości, co do niezależności osobników w grupie, takiej jak miot, mieszkańcy tej samej klatki, lub ta sama grupa społeczna, najbezpieczniejszym rozwiązaniem jest użycie średniej dla grupy jako pojedynczego pomiaru.

3. Niezależność kategorii. Inny powszechny problem powstaje, kiedy różne pomiary i kategorie nie są niezależne względem siebie. To może spowodować problem w interpretacji związku zachodzącego pomiędzy pomiarami. Na przykład, dwa pomiary mogą być ze sobą skorelowane, ponieważ istnieje związek między dwoma typami zachowania, lub po prostu te dwie wielkości są dwoma sposobami mierzenia tej samej rzeczy. Na przykład wyobraźmy sobie dwie nie związane z sobą kategorie zachowania, które są ze sobą skorelowane. Jeśli jedna z kategorii (A) odpowiada za znaczącą proporcję czasu obserwacji, wówczas może powstać negatywna korelacja z innym typem zachowania (B) tylko dlatego, że nie było czasu aby mogło się zdarzyć zachowanie B. W efekcie druga kategoria (B) jest postrzegana jako brak A. Dwie odrębne kategorie zachowania, które razem stanowią większą proporcję obserwacji są uważane za negatywnie skorelowane, ale każda korelacja musi być rozpatrywana z ostrożnością.

Kiedy używamy różnych typów pomiarów domierzenia tego samego zachowania ważne jest aby upewnić się, że różne pomiary są niezależne jeden od drugiego. Na przykład przypuśćmy, że pewien typ zachowania jest mierzony na trzy sposoby: jego średnia długość; całkowita liczba zdarzeń i całkowity czas trwania. W tym przypadku te trzy pomiary nie są niezależne, ponieważ średni czas trwania jest równy całkowitemu czasowi trwania, podzielonemu przez liczbę zdarzeń. Mając dwie z tych wielkości możemy wyliczyć trzecią. Tak więc tylko dwa z tych pomiarów mogą być uważane za niezależne opisy zachowania.

  1. Jak wiele informacji należy zebrać.

Jak dotąd, im więcej zgromadzonych danych, tym lepiej, ponieważ moc statystyczna wzrasta poprzez zwiększenie liczebności próby. Jednakże pokusa ciągłego zbierania danych musi być zrównoważona poświęconym na to czasem, ponieważ na pewnym etapie bardziej produktywnie będzie poświęcić się nowym badaniom niż zbierać wciąż dodatkowe dane dla obecnych. Zwiększanie wielkości próby przez kolekcjonowanie coraz większej ilości danych w efekcie obniża moc statystyczną zamiast ją zwiększać. W innych słowach, kiedy dostateczna ilość danych zostanie zebrana dodatkowe wyniki wpływają niewiele, bądź wcale na możliwość wyciągnięcia konkluzji.

1. Wewnętrzna zgodność. Prostą metodą sprawdzenia czy zebraliśmy wystarczającą ilość danych jest podzielenie ich losowo na dwie połowy i analizowanie każdej połowy oddzielnie. Jeśli dwa zestawy dają jasne konkluzje, które są ze sobą zgodne, wówczas prawdopodobnie otrzymano wystarczającą ilość danych. Jeżeli jednak dwa zestawy danych prowadzą do sprzecznych konkluzji lub są niewystarczające do otrzymania jakiejkolwiek konkluzji, wówczas niemal na pewno potrzeba zebrać więcej danych. Bardziej wyrafinowaną metodą jesttest połówkowy (split-half analysis) - podzielenie danych dla poszczególnych kategorii zachowania losowo na dwie połowy i wyliczenie korelacji pomiędzy dwoma zestawami danych. Jeśli współczynnik korelacji jest wystarczająco wysoki (r>0.7) wówczas dane są wiarygodne.

2. Szacowanie wielkości próby. Celem niektórych badań jest wyznaczenie parametrów dla populacji. Na przykład średniego współczynnika wokalizacji gatunku w pewnych warunkach, lub średniego stężenia hormonu we krwi. Wielkość próby potrzebna, aby wyznaczyć średnią, która znajduje się w granicach prawdziwej (populacyjnej) średniej wartości, może być oszacowana wymaga pewnych eksperymentów pilotowych dających oszacowanie populacyjnego odchylenia standardowego.

Aby wyznaczyć minimalną wielkość próby potrzebne są trzy informacje. Po pierwsze oszacowanie populacyjnego odchylenia standardowego (σ), po drugie poziom istotności statystycznej (α) i maksymalnej dopuszczalnej różnicy (D) między średnimi z próby a prawdziwą (populacyjną) średnią (D = |X -μ|. Minimalna wymagana wielkość próby jest wówczas wyliczana z następującego wzoru:

n = σ2 z2α/2/D2

gdzie zα/2 jest krytyczną wartością dla skumulowanej zmiennej z na poziomie istotności α/2. Na przykład przypuśćmy, że obserwator chce wyznaczyć średnią częstość z którą młode rezusa w pewnym wieku przybliża się do matki. Pilotowy eksperyment składający się z sześciu jednogodzinnych okresów obserwacji wykazał następujące niezależne częstości zbliżeń (mierzone w liczbie zbliżeń na godzinę) 9, 12, 7, 15, 13, 4, h-1. Z próby pilotowej odchylenie standardowe dla populacji wynosi 4.10 h-1. Przypuśćmy, że obserwator zakłada maksymalną róznicę międy ewentualną średnią z populacji i prawdziwą (populacyjną) średnią nie większą niż 2h-1 a poziom istotności wynosi 0.05. Innymi słowy, obserwator zakłada być na 95% pewnym, że średnia z próby będzie znajdowała się w granicach 2h-1 prawdziwej wartości. Tablica wartości krytycznych dla zmiennej z na poziomie istotności równym 0.025 (α/2) daje nam z (0.975) = 1.96. (Patrz Łomnicki: „Wprowadzenie do statystyki dla przyrodników” rozdz. 5.2 i dalej). Wówczas minimalna wielkość próby wyliczana jest:

n = (4.102 x 1.962)/ 22 = 16.1

Tak więc, minimalnie 17 niezależnych pomiarów jest wymaganych aby zbliżyć się do poziomu 95% pewności że mierzona średnia (z próby) znajduje się wewnątrz 2h-1 prawdziwej populacyjnej średniej. Zauważ, że n jest zawsze zaokrąglane w górę. Oczywiście informacje potrzebne do wyznaczenia żądanej wielkości próby nie są zawsze od razu dostępne, a nawet jeśli są pożądana wielkość próby może być większa niż jest możliwa do zebrania. Im większa wielkość próby tym większa moc statystyczna testu i akceptowalność badań, ale mniej wykonalne jest to w praktyce. Minimalna wielkość próby może być również wyznaczana w innych sytuacjach niż wyznaczanie parametru.

G. Kiedy prowadzić obserwacje.

Prowadzenie obserwacji zgodnych z wyznaczonym wcześniej schematem jest niezbędnym warunkiem zapobiegającym powstawaniu przekłamań, które mogą pojawić się, jeśli obserwator zapisuje wszystko, co tylko ciekawego lub oczywistego się zdarza. Ogólnie mówiąc, czas, w którym sesja obserwacyjna zaczyna się i kończy powinien być wyznaczony z góry, a nie poprzez to co robi właśnie obiekt badań (jeśli oczywiście celem badań nie jest sprawdzenie co dzieje się w czasie lub po tym kiedy wystąpił określony typ zachowania). Sprawdzenie odpowiedniej pory dnia, w której się obserwuje jest ważnym celem badań. Oczywiście zwierzęta nie są tak samo aktywne podczas 24h okresu czasu tak, że poziom aktywności będzie zależał od pory dnia, w jakiej obiekt badań był obserwowany. Bardziej subtelnym punktem, że nie całkowity poziom, ale także rodzaj zachowania może zmieniać się w zależności od pory dnia. Na przykład badania terenowe goryli wykazaly, że rodzaj ich interakcji socjalnych zmieniał się w zależności od całkowitego poziomu aktywności i co za tym idzie od pory dnia, w której były obserwowane.

Problem może być rozwiązany na dwa sposoby:

  1. Przez zapisywanie zachowania przez okres 24h poprzez obserwacje ciągłe lub w czasie kilku sesji obserwacyjnych o różnych porach dnia. Oczywiście nie jest to praktyczne rozwiązanie w wielu przypadkach, zwłaszcza, jeśli w badania zaangażowany jest jeden obserwator. Kompromisem może być obserwowanie dwa lub trzy razy w ciągu dnia, na przykład wcześnie rano i wczesnym wieczorem. Jeśli uzyskane wyniki o różnych porach dnia są znacząco różne muszą być analizowane oddzielnie. Jeśli nie, mogą być połączone razem, aby wyliczyć z nich średnią dla dnia.

  2. Przez obserwacje o różnych porach dnia każdego dnia, uśrednionych w czasie całych badań tak, że każda pora dnia jest jednakowo reprezentowana w próbce końcowej. Taki sposób nie może być użyty, jeśli jest prawdopodobne, że zachowanie zmienia się systematycznie z dnia na dzień, na przykład podczas obserwacji młodych, rozwijających się zwierząt, lub jeśli zachowanie zmienia się wraz ze zmianami sezonowymi. Mimo dobrych intencji zbierania danych równomiernie w czasie dnia, wielu badaczy stwierdza, że w praktyce ich dane są nierówno rozłożone.

  3. Przez częściowe ignorowanie problemu i obserwowanie o tej samej porze każdego dnia. To jest najbardziej powszechne podejście zwłaszcza w badaniach laboratoryjnych. Ściśle mówiąc, jeśli wszystkie obserwacje są wykonane o jednej porze dnia, wyniki nie mogą być generalizowane dla pozostałych części dnia. To ograniczenie wiarygodności obserwacji nie powinno przedstawiać wielkiego problemu, dopóki pora dnia ściśle nie oddziałuje na wyniki badań - szczególnie jeśli celem badań jest porównanie między grupami osobników tego samego gatunku. Problem może oczywiście powstać, kiedy rytmy aktywności zmieniają się losowo lub jeśli porównujemy zachowanie różnych gatunków z różnymi rytmami aktywności dobowej. Obserwacje powinny być wykonywane wówczas w porze dnia, kiedy interesujące nas zachowanie zdarza się z największym prawdopodobieństwem. Oczywiście badania nad zachowaniem społecznym w czasie, kiedy zwierzęta zwykle śpią, jest bezcelowe.

  4. Przez całkowite ignorowanie problemu i zapisywanie o różnych porach dnia wyznaczonych losowo. To podejście nie ma podstaw merytorycznych, ale czasem jest złem koniecznym przy badaniu zachowania w szczególnie trudnych warunkach.

H. Efekt progowy i pułapowy (Floor and ceiling effects)

Dwie grupy osobników mogą wydawać się takie same, mimo iż w rzeczywistości się różnią, ponieważ wszystkie wyniki zgromadziły się w jednym końcu możliwego zakresu wartości. Prawdziwe różnice będą niewidoczne, jeśli wszystkie osobniki wykazały się minimalnym możliwym wynikiem (efekt progowy) lub wynikiem maksymalnym (efekt pułapowy). Na przykład test zdolności matematycznych zawierający mnożenie przez 2, prawdopodobnie nie pokaże różnic między dorosłymi ludźmi, ponieważ większość osób odpowie na pytania prawidłowo (efekt pułapowy). Oczywiście trudniejszy test wykaże różnice, ale zbyt trudny zaowocuje tym, że większość badanych nie odpowie na ani jedno pytanie prawidłowo (efekt progowy). Mimo iż ten problem wydaje się być oczywisty, często jest pomijany jako możliwe wytłumaczenie negatywnych otrzymanych wyników. Na przykład, gdy dwie grupy osobników nie różnią się istotnie. Efekt progowy i pułapowy odnosi się zarówno do korelacji jak i do różnic, ponieważ dwie wartości mogą wydawać się być nieskorelowane, jeśli jeden zestaw pomiarów znajduje się na granicy zakresu.

Sprawdzanie wyników wstępnych powinno wykazać, czy efekty progowy i pułapowy są prawdopodobne. Jeśli są, problem może być ominięty, poprzez wybór lepszej, związanej zmiennej, która da szerszy rozrzut wyników. Na przykład proste testy wyboru, które w prosty sposób mierzą czy dwa osobniki zbliżają się do siebie, mogą wykazać, że oba osobniki są jednakowo atrakcyjne. Jednakże bardziej skomplikowane testy mierzenia preferencji, takie jak czas do zbliżenia, mogą wykazać różnice w atrakcyjności tych dwóch osobników.

Rozdział 3

Wstęp do mierzenia zachowania

A. Obserwacje wstępne.

Ilościowe badanie zachowania powinno być poprzedzone okresem nieformalnej sesji obserwacyjnej, mającej pomóc w zrozumieniu i opisaniu zarówno obiektu badań jak i zachowania, które zamierzamy mierzyć. Obserwacje wstępne są ważne z dwóch powodów: po pierwsze dostarczają surowego materiału do sformułowania pytań i hipotez, a po drugie pozwalają wybrać właściwe wielkości do mierzenia oraz metody pomiarowe, co wymaga wiedzy o obiekcie badań i jego zachowaniu. Obserwacje wstępne są szczególnie ważne jeśli problem, lub zwierzę są nowe dla badacza.

Hipotezy, które wytyczają kierunek badań rzadko mogą być sformułowane z niczego. Raczej odzwierciedlają istniejącą wiedzę i teorie tak jak i osobiste zainteresowania i podejrzenia badacza. Efektywne badania wymagają więc aby badacz był zaznajomiony z obiektem badań zarówno przez własne obserwacje oraz dzięki literaturze na temat jego biologii i zachowania. Okres obserwacji wstępnych daje cenną możliwość zawężenia pytań i hipotez, praktykowania metod pomiarowych i generowania dodatkowych lub uzupełniających hipotez. Większość biologów może argumentować z twierdzeniem że wstępna faza badań jest kluczowym prekursorem badań ilościowych, jako że zanim pytania zostaną postawione ważne jest aby wiedzieć czy warto te pytania stawiać.

Nie możemy przewartościować doniosłości zwykłego obserwowania zanim zaczniemy systematycznie mierzyć. Początkujący zwykle zaczynają szybko rezygnować, ponieważ spieszy im się, aby otrzymać twarde dane, i nie poświęcają wystarczającej ilości czasu na obserwacje, myślenie i formułowanie interesujących pytań. Nawet doświadczony obserwator musi spędzić pewną ilość czasu na obserwacje wstępne.

Praktyczną wskazówką jest, aby badacze planowali nie włączać danych uzyskanych podczas obserwacji wstępnych do analizy końcowej. W innym wypadku kuszące będzie użycie wszystkich uzyskanych danych , chociaż dane z początku sesji obserwacyjnej mogą być mało wiarygodne, lub nie porównywalne z innymi danymi wskutek dryfu obserwatora, lub zmian w procedurze pomiarowej. Po okresie próbnym kiedy kategorie behawioralne i techniki pomiarowe zostały wypróbowane, dane wstępne powinny zostać przeanalizowane. Na tym właśnie etapie metody i hipotezy powinny być modyfikowane jeśli zachodzi taka konieczność.

B. Opisywanie zachowania.

Zachowanie może być opisane na wiele różnych sposobów. Najprostsze rozróżnienie zachodzi między opisem zachowania w kategoriach jego struktury lub konsekwencji.

  1. Struktura, jest przejawem fizycznej formy lub czasowego wzoru zachowania. Zachowanie opisywane jest w kategoriach pozycji i ruchów obiektu badań.

  2. Konsekwencje są efektem zachowania osobnika na środowisko, na inne osobniki lub na siebie. W tym przypadku zachowanie może być opisane bez odnoszenia się do tego w jaki sposób te efekty są osiągane. Kategorie takie jak „pozyskiwanie pokarmu”, „ucieczka przed drapieżnikiem” są opisami w kategoriach konsekwencji i mogą być notowane niezależnie od aktualnego sposobu zaangażowanych w to ruchów ciała.

Na przykład „włączenie światła” jest opisem w kategoriach konsekwencji, podczas gdy „naciśnięcie guzika za pomocą prawego palca wskazującego” w kategoriach opisu strukturalnego.

Podobnie „przesuwanie końcem dzioba wzdłuż piór skrzydła” jest opisem w kategorii opisu strukturalnego, podczas gdy „muskanie piór” jest opisem poprzez konsekwencje.

Opisywanie zachowania poprzez kategorie strukturalne często dostarcza niepotrzebnych szczegółów i kładzie nacisk na zdolność obserwatora do czynienia subtelnych rozróżnień pomiędzy skomplikowanymi wzorami ruchów. Opisywanie poprzez konsekwencje jest często podejściem mającym większą moc oraz podejściem bardziej ekonomicznym, a dodatkową zaletą jest fakt że konsekwencje często mogą być zapisywane za pomocą automatycznych urządzeń mechanicznych.

Trzecią formą opisu jest opis w kategoriach relacji przestrzennej do elementów środowiska lub innych osobników. W tym przypadku pozycja obiektu we względnej orientacji do czegoś lub kogoś jest kluczową cechą. Inaczej mówiąc nacisk kładziony jest nie na to co robi obiekt badań, ale na to gdzie lub z kim. Na przykład „przybliżanie się” albo „opuszczanie” może być zdefiniowane w kategoriach relacji przestrzennej między dwoma osobnikami.

Dla zachowania nie jest wcale rzadkie to, że jest ono opisywane w kategoriach domniemanych konsekwencji, które później okazują się być błędne. Z powodu tego niebezpieczeństwa najlepiej jest używać neutralnych terminów, dla określenia pewnych kategorii behawioralnych, niż raczej nazw sugerujących fałszywe przesłanki o stanie wewnętrznym zwierzęcia, lub biologicznej funkcji pewnego zachowania. Na przykład, jeśli jakaś kategoria wokalizacji nazwana zostanie krzykiem alarmowym (zamiast użycia neutralnej nazwy np. „pisk”) wówczas obserwator może pokusić się o włączenie wokalizacji, które nie odzwierciedlają ustalonych kryteriów dla tej kategorii, ale są emitowane wówczas, kiedy zwierzę jest ewidentnie zestresowane.

C. Wybór kategorii.

Zachowanie składa się z nieprzerwanego ciągu ruchów i zdarzeń. Ponieważ może ono być mierzone, ciąg ten musi być podzielony na pewne dyskretne jednostki kategorii. W pewnych przypadkach zachowanie przejawia się jako skomponowane z naturalnych jednostek, które są wyraźnie rozróżnialne, względnie stereotypowe wzory zachowania (takie jak dziobanie) a proces podziału będzie częściowo podyktowany przez samo zachowanie. (Bardzo stereotypowe, charakterystyczne dla gatunku wzory zachowania były opisywane przez wczesnych etologów jako „sztywny wzorzec ruchowy” (fixed action patterns). Jednakże termin „plastyczny wzorzec ruchowy” (modal action pattern) lub po prostu „wzorzec ruchowy” jest obecnie preferowany, odkąd wykazano, że nawet w tych typach zachowania występuje pewna zmienność. W dużym stopniu jednak dopasowanie kategorii zależy od postawionego pytania niż od wewnętrznych cech samego zachowania. Rzeczywiście, jak wspomniano w rozdziale 1 kategorie obserwacyjne muszą raczej odzwierciedlać pewien rodzaj bezwzględnej teorii, nie istnieją one same w sobie niezależnie od obserwatora. Trudne jest podanie konkretnej rady, jakie kategorie zachowania wybrać, mimo tego można udzielić pewnych ogólnych wskazówek.

  1. Powinna być użyta wystarczająca ilość kategorii, aby opisać zachowanie z wystarczającą ilością szczegółów i odpowiedzieć na pytania, oraz, jeśli się uda, dostarczyć pewnych dodatkowych informacji.

  2. Każda z kategorii powinna być precyzyjnie zdefiniowana i powinna podsumowywać tak wiele istotnych informacji na temat zachowania jak to tylko możliwe.

  3. Kategorie powinny być niezależne jedna od drugiej, to znaczy dwie lub więcej kategorii nie powinny być innym sposobem mierzenia tej samej rzeczy (zobacz poprzedni rozdział, sekcja E)

  4. Kategorie powinny być homogeniczne, to znaczy wszystkie działania w obrębie kategorii powinny dzielić te same właściwości.

Niedoświadczony obserwator często popełnia błąd próbowania zapisywania zbyt wielu rzeczy. Dany ciąg zachowania może być potencjalnie opisany na nieomal niezliczoną ilość sposobów, w zależności od zadanego pytania, tak więc ważne jest aby być selektywnym. Zdecydowanie najlepiej jest odrzucić kategorie, które są wyraźnie niezwiązane z tematem, lub które wydają się sprzeczne lub trudne do wiarygodnego zmierzenia. Im mniej kategorii zostanie użytych tym większe prawdopodobieństwo, że zostaną bardziej wiarygodnie zmierzone. Należy jednak mieć na uwadze, że obserwator nabiera coraz większego doświadczenia, tak więc dane zebrane pod koniec obserwacji będą bardziej wiarygodne, nawet jeśli te z początku obserwacji nie są. Co więcej, istnieją okoliczności w których lepiej jest zapisywać dużo, polegając w większości na intuicji, niż później żałować iż czegoś się nie zmierzyło. Zbędne lub mało wiarygodne kategorie mogą zawsze zostać odrzucone lub zebrane razem na etapie analizy. Dobrze jest również zbierać dodatkowe informacje, które w przyszłości mogą dostarczyć pożytecznego materiału dla nowych pytań. Jednakże zbieranie szerokiego zakresu danych lub informacji dodatkowych nie powinno przeszkadzać w precyzyjnych pomiarach ważnych wielkości.

Stopień, do jakiego definicje poszczególnych kategorii powinny być specyficzne, raczej niż ogólne zależy od natury problemu. Pytania i hipotezy mają na początku tendencje do bycia raczej szerokimi i do zawężania się z czasem, w miarę jak odkrywany jest poszczególny problem. Im bardziej jasne i precyzyjne na początku jest pytanie początkowe, tym bardziej oczywiste będzie, co należy mierzyć.

Wybierając kategorie czasami pomocne może być posiadanie opisów głównych typów wzorów zachowań, wzorów, które charakteryzują gatunek. W pewnych przypadkach informacje te są dostępne w formie etogramów, które są jakby katalogiem opisów dyskretnych, typowych dla gatunku wzorów zachowania, które budują podstawy repertuaru behawioralnego danego gatunku. Niestety, publikowane etogramy bardzo różnią się w liczbie kategorii behawioralnych i opisanych szczegółów, poza tym etogramy są niedostępne dla wielu powszechnie badanych gatunków laboratoryjnych. Co więcej, użycie etogramów jest ograniczone, ponieważ nie wszystkie osobniki danego gatunku zachowują się w ten sam, typowy dla gatunku sposób. Przeciwnie, osobniki tego samego gatunku mogą zachowywać się w bardzo różny sposób.

D. Definiowanie kategorii.

Każda kategoria zachowania, która ma być mierzona musi być jasno, zrozumiale i jednoznacznie zdefiniowana przy pomocy kryteriów, które mogą być łatwo zrozumiałe przez innego obserwatora. Jeszcze ważniejsze jest aby użyte do zdefiniowania kategorii kryteria mogły jednoznacznie odróżniać ją od innych kategorii, szczególnie od tych, które są do niej najbardziej podobne. Kompletna i szczegółowa definicja każdej kategorii i dołączone metody zapisu powinny zostać zapisane wcześniej, zanim dane użyte w analizie końcowej zostaną zebrane.

Okres obserwacji wstępnych dostarcza okazji do rozwinięcia precyzyjnych kryteriów użytych do zdefiniowania każdej kategorii. Kompletna, satysfakcjonująca i jednoznaczna definicja kategorii rzadko może być sformułowana bez obserwowania zachowania przez pewien czas. Definicje wstępne często nie są w stanie poradzić sobie z nieprzewidzianymi dwuznacznymi przykładami zachowania, które pojawiają się w czasie wstępnych obserwacji i w związku z tym muszą być modyfikowane w świetle doświadczenia.

Oczywiście wszystkie dane z danej kategorii, które zostaną użyte w analizie końcowej muszą być porównywalne. Tak więc dane zebrane przed końcowym zdefiniowaniem kategorii muszą zostać odrzucone. Rozwinięcie zestawu precyzyjnych i jednoznacznych definicji kategorii może być powolnym i długotrwałym procesem.

Zapisanie precyzyjnych definicji kategorii na początku badań jest kluczowe, aby zapobiec ich „dryfowi” w trakcie badań. Zapisane definicje powinny być wystarczająco precyzyjne i szczegółowe, aby umożliwić innemu obserwatorowi zapisywanie dokładnie tej samej rzeczy.

E. Typy pomiarów: latencja, częstotliwość, czas trwania i intensywność.

Obserwacje behawioralne najczęściej odpowiadają czterem podstawowym typom pomiarów.

  1. Latencja. (mierzona w jednostkach czasu, minuty, godziny), jest czasem od pewnego specyficznego zdarzenia (na przykład początek sesji obserwacyjnej, lub prezentacja bodźca) do pierwszego wystąpienia zachowania. Na przykład, jeśli szczur przyciska drążek po raz pierwszy po sześciu minutach po umieszczeniu w skrzynce Skinnera, latencja na przyciśnięcie drążka wynosi 6 min.

  2. Częstotliwość (mierzona w odwrotności jednostki czasu s-1, min-1 lub h-1) jest liczbą wystąpień danego zachowania w jednostce czasu. Częstotliwość jest pomiarem tempa występowania. Na przykład, jeśli szczur przyciska drążek 60 razy w ciągu 30 minutowej sesji obserwacyjnej, częstotliwość naciskania drążka wynosi 2 min-1. W alternatywnym znaczeniu, które jest z pewnością bardziej popularne w literaturze behawioralnej (i statystyce) termin częstotliwość odnosi się do liczby wszystkich zdarzeń. Jednakże jest to mało informacyjne i potencjalnie mylące, dopóki całkowity czas, w którym zachowanie było obserwowane nie zostanie sprecyzowany. Na przykład, stwierdzenie, że częstotliwość zachowania wynosiła 60 jest nic nie znaczące. Czy stało się to 60 razy w ciągu 2 minut, godziny, 3,7 godziny, czy dnia? Większość stwierdzeń dotyczących całkowitej liczby zdarzeń mogłaby równie dobrze odnosić się do tempa, jako że całkowita liczba zdarzeń może być zawsze wyrażona jako tempo (zakładając, że długość okresu obserwacyjnego jest znana). Aby uniknąć niejasności całkowita liczba zdarzeń powinna być jednocześnie do niego odnoszona. Wyrażając częstotliwość w sposób, jaki sugerowano, (liczba na jednostkę czasu) zapobiega wszelkim niejednoznacznościom. Kolejna niejednoznaczność w użyciu terminu częstotliwości powstaje w badaniach akustycznych właściwości wokalizacji, gdzie częstotliwość jest używana w sensie wysokość tonu (mierzona w Hz lub w cyklach na sekundę). W takich badaniach niejednoznaczności najlepiej uniknąć używając częstotliwości w znaczeniu akustycznym i „tempa zdarzeń” (frekwencji zdarzeń) odnosząc się do wystąpienia pewnych zachowań.

  3. Czas trwania (mierzony w jednostkach czasu np. min lub h) jest długością czasu, w jakim trwało pojedyncze zdarzenie pewnego zachowania. Na przykład, jeśli kociak zaczyna ssać i kończy tę czynność 5 minut później wówczas czas trwania okresu ssania wynosił 5 minut. Czas trwania jest również używany w co najmniej dwóch innych znaczeniach w literaturze behawioralnej. Pierwszym jest czas trwania (albo całkowity czas trwania) odnoszący się do całkowitej długości czasu trwania wszystkich zdarzeń danego zachowania trwającego przez wyszczególniony okres czasu, zwykle przez cały czas trwania sesji obserwacyjnej. Całkowity czas trwania jest oczywiście również bez znaczenia, dopóki nie poznamy czasu, w którym zachowanie było obserwowane. Na przykład stwierdzenie, że całkowity czas trwania wynosił 16 minut nie mówi nic. Czy było to 16 minut z 20, 30 minut, godziny, dnia? Aby uniknąć dwuznaczności zaleca się, aby całkowity czas trwania był podawany jako całkowity czas trwania w pewnym wyszczególnionym okresie czasu obserwacji (na przykład 9 minut na 30) i powinien być wyraźnie zaznaczony jako całkowity czas trwania.

Alternatywnie całkowity czas trwania może być podany jako proporcja (lub procent) czasu obserwacji, w takim przypadku powinno być to jasno zaznaczone jako proporcja (lub procent) spędzonego czasu na danym zachowaniu. Na przykład, jeśli kociak spędza całkowity czas 10 minut na ssaniu w czasie 30 minutowej sesji obserwacyjnej wówczas proporcja czasu spędzonego na ssaniu będzie wynosić 10/30 = 0.33. Zauważmy, że proporcja czasu jest jednostką bezwymiarową.

Wyrażając czas trwania jako proporcję lub procent całkowitego czasu pomijamy potencjalnie ważną informację, jaką jest całkowity czas, przez jaki zachowanie było obserwowane. Ba przykład interpretacja oparta na stwierdzeniu, że proporcja czasu spędzona na śnie przez obiekt badań wynosiła 0,1 musi zależeć od tego, na czym ta wartość jest oparta, na przykład na 24 h okresie obserwacyjnym, czy też 30 minutowym?

Czas trwania (lub średni czas trwania) również odnosi się do średniej długości trwania pojedynczego zdarzenia pewnego zachowania mierzonego w jednostkach czasu (s, min lub h). Otrzymujemy go przez zapisywanie czasu trwania każdego zdarzenia zachowania i wyliczenie średniej z tych czasów trwania. Aby uniknąć jakiejkolwiek dwuznaczności sugeruje się, aby ten pomiar był nazywany średnim czasem trwania. Średni czas trwania może być również wyliczony przez podzielenie całkowitego czasu trwania pewnego zachowania przez całkowitą liczbę zdarzeń (to ma taką zaletę, że czas trwania każdego zdarzenia nie musi być zapisywany oddzielnie, obserwator może na przykład używać kumulatywnego stopera, aby zmierzyć całkowity czas trwania i licznika, aby zapisać całkowitą liczbę zdarzeń). Odnosząc się do definicji terminu czasu trwania zdarzenia, średni czas trwania pewnego zachowania jest równoważny do jego średniej długości czasu zdarzenia. Jednakże długość czasu zdarzenia może być definiowana na inne sposoby.

Jako ilustrację do tych wszystkich pomiarów wyobraźmy sobie matkę i młode obserwowane przez 60 minut, podczas których ssanie zdarzyło się 5 razy. Poszczególne czasy trwania zdarzeń ssania wynosiły 3 min, 10 min, 1 min, 1 min i 1 min. Zgodnie z sugerowanymi wcześniej definicjami czasy trwania wynosiły: 3, 10, 1, 1 i 1 min. Całkowity czas trwania ssania wynosił 16 minut na 60 minut. Proporcja czasu ssania wynosiła 0,27 (=16/60) a średni czas trwania wynosił 3,2 (=16/5).

Częstotliwość i czas trwania, które są pomiarami najczęściej używanymi dla opisania zachowania mogą dać różne i uzupełniające się obrazy. Na przykład jak często dwie małpy iskają się wzajemnie (częstotliwość) powie nam coś innego o naturze ich wzajemnej relacji społecznej, niż to jak długi czas spędzają na tej czynności (czas trwania), jako że częstotliwość odnosi się do rozpoczęcia iskania, podczas gdy czas trwania opisuje jego kontynuację. W rzeczywistości badania empiryczne wykazały, że częstotliwość i czas trwania mierzone na tym samym zachowaniu zwykle nie są silnie skorelowane, z czego wynika, że rozsądnie jest mierzyć oba.

  1. Intensywność. Ogólnie, kategorie są najlepiej zdefiniowane w ten sposób, że zachowanie jest po prostu zapisywane, zgodnie z tym czy zdarzyło się czy nie i przez jak długi czas trwało, raczej niż czynienie oszacowań intensywności czy amplitudy. Intensywność, odwrotnie niż atencja, częstotliwość i czas trwania nie ma uniwersalnej definicji. Niemniej jednak może być pomocne lub nawet kluczowe zrobienie oszacowania intensywności czy amplitudy pewnego wzoru zachowania. Na przykład, może być ważne aby zmierzyć intensywność dźwięku wokalizacji, amplitudę ruchu łap lub wysokość skoku, lub oszacować intensywność ekspresji twarzy lub agresywności interakcji społecznych. Intensywność może być czasem mierzona jako obecność lub brak poszczególnych składników aktu zachowania, które może być obecne w wysokiej intensywności, ale nieobecne przy niskiej intensywności. Prosty, ale niosący bardzo wiele informacji wskaźnik intensywności to „lokalne tempo”, pomiar pierwotnie stosowany w psychologii. Lokalne tempo pewnej aktywności (na przykład jedzenia, spacerowania czy iskania) jest zdefiniowane jako liczba komponentów aktu na jednostkę czasu spędzoną na wykonywaniu zachowania. Na przykład wyobraźmy sobie aktywność - jedzenie - które składa się z dyskretnych składających się na nie czynności - przyjmowianiu poszczególnych kęsów pokarmu. Lokalne tempo jedzenia będzie w tym przypadku dane poprzez liczbę kęsów wchłoniętych na jednostkę czasu spędzoną na jedzeniu. Podobnie intensywność chodzenia może być mierzona przez liczbę kroków na jednostkę czasu spędzoną na chodzeniu, a intensywność iskania poprzez liczbę ruchów łapy na jednostkę czasu spędzoną na iskaniu. Lokalne tempo wyłapuje przyspieszone i intensywne zachowania, im bardziej pospiesznie wykonywana czynność tym wyższe jest jego lokalne tempo. Na koniec w kilku przypadkach konsekwencje zachowania mogą być mierzone w kategoriach pewnej wielkości fizycznej odnoszącej się do zachowania, na przykład wagi zjedzonego pokarmu, objętości wypitej wody, liczby złowionych ofiar lub przemierzonego dystansu.

F. Zdarzenia versus stan

Kiedy wybieramy typ pomiaru używany do opisania wzoru zachowania pomocne jest rozróżnienie między dwoma podstawowymi typami zachowania, które leżą na dwóch przeciwległych końcach continuum.

  1. Zdarzenia są behawioralnymi ciągami o stosunkowo krótkim czasie trwania, takie jak dyskretne ruchy ciała lub wokalizacje, które mogą być szacowane w punktach czasowych. Szczególną cechą zdarzeń jest częstotliwość występowania. Na przykład liczba szczęknięć psa w ciągu 1 minuty będzie pomiarem częstotliwości zdarzenia behawioralnego.

  2. Stany są zachowaniami o stosunkowo długim czasie trwania, takie jak przedłużone aktywności, postawy ciała lub podobne pomiary. Szczególną cechą stanów jest czas ich trwania (średni lub całkowity czas trwania, lub proporcja czasu spędzona na wykonywaniu danego zachowania). Na przykład całkowity czas, jaki pies spędza na śnie w 24 h okresie czasu będzie pomiarem całkowitego czasu trwania stanu. (Zauważ, że termin „stan” jest również używany w literaturze behawioralnej w odniesieniu do stanu motywacyjnego, takiego jak głód i pragnienie, tak, że ważne jest aby nie pomylić tych dwóch terminów.) Zakończenie (lub terminacja) stanu behawioralnego może być odnotowane jako zdarzenie i mierzone w kategoriach częstotliwości.

0x01 graphic

0x01 graphic

Rozdział 6

Wiarygodność i dokładność pomiarów

A. Wiarygodność versus dokładność

Mierzenie zachowania, podobnie jak mierzenie czegokolwiek innego, może być wykonane dobrze lub źle. Podczas szacowania jak dobrze zachowanie zostało zmierzone, należy uwzględnić dwa podstawowe kryteria.

1. Wiarygodność oznacza stopień, do jakiego pomiary są powtarzalne i zgodne, to znaczy wolne od błędów losowych. Nieobciążony pomiar składa się z dwóch komponentów: systematycznego, odzwierciedlającego rzeczywistą wartość zmiennej, oraz losowego, zależnego od niedoskonałości w procesie pomiarowym. Im mniejsza wartość błędu, tym bardziej wiarygodny pomiar. Wiarygodne pomiary, czasami określane jako dobre pomiary, są to takie, które określają zmienną precyzyjnie i powtarzalnie. Co najmniej cztery związane ze sobą czynniki określają na ile dobry jest pomiar.

  1. Precyzja. Na ile pomiary wolne są od błędów losowych? Zauważ, że precyzja i dokładność nie są pojęciami synonimicznymi. Precyzja dotyczy błędu systematycznego (obciążenia) i wobec tego może być postrzegana jako aspekt dokładności pomiarów. Zegar może odmierzać czas z dużą precyzją (co do milisekund), ale być niedokładny z powodu ustawienia na zły czas.

  2. Czułość. Czy małe zmiany w wartości rzeczywistej niezmiennie prowadzą do zmian w wartości mierzonej?

  3. Rozdzielczość. Jaka jest najmniejsza zmiana, która może być wykryta?

  4. Stałość. Czy powtarzane pomiary tej samej zmiennej dają takie same rezultaty?

2. Dokładność oznacza stopień, do jakiego pomiar odzwierciedla te cechy, które badacz zamierza mierzyć i dostarcza informacji odnoszących się do zadanego pytania. Dokładność określa relację między zmienną, (taką jak pomiar zachowania) i tym, co ona określa lub przewiduje.

Ważne pomiary, często określane jako dobre pomiary, to takie, które odpowiadają na postawione pytania. Aby zdecydować, który pomiar jest ważny, muszą być wzięte pod uwagę co najmniej dwa założenia.

Dokładność: Jeśli proces pomiarowy nie jest obciążony błędem, jak wartości mierzone odpowiadają prawdziwym wartościom? Pomiary są dokładne, jeśli są względnie wolne od błędów systematycznych (podczas gdy pomiary precyzyjne są wolne od błędów losowych).

Specyficzność: Do jakiego stopnia pomiar opisuje to, co przypuszczamy że opisuje i nic ponad to?

Na przykład wyobraźmy sobie badacza, który ma zamiar sprawdzić jak dużo mleka młody ssak otrzymuje od matki, używając pomiaru behawioralnego - całkowitego czasu ssania - w celu zmierzenia tego. Pomiar behawioralny jest ważny do takiego celu tylko wówczas, gdy jest silna pozytywna korelacja pomiędzy całkowitym czasem ssania i ilością wyssanego mleka. U niektórych gatunków, takich jak szczury i świnie relacja między czasem ssania a poborem mleka jest słaba. Małe prosiaki i szczury spędzają dużo czasu na ssaniu, ale nie otrzymują mleka przez większość czasu ssania. Mleko uwalnia się tylko w krótkich (krótszych niż minuta) przedziałach czasowych, które są oddzielone długimi (20 lub więcej minut) interwałami. Tak, więc czas ssania nie jest dobrym pomiarem dla oceny transferu mleka u tych gatunków, nawet jeśli może to być zmierzone bardzo precyzyjnie i konsekwentnie.

Przykładem, jak pomiar behawioralny może być uprawomocniony jest praca Tena Cate'sa na imprintingu płciowym u zeberek. Doświadczenia na imprintingu płciowym pokazały, że długość czasu śpiewania przez samce w kierunku samicy w czasie krótkich testów wyboru jest pomiarem jego preferencji względem tej samicy, jako że śpiew jest częścią rytuałów godowych. Jednakże dopiero niedawno ten pomiar został uprawomocniony przez Tena Cate'a, który pokazał empirycznie, że ilość śpiewania była rzeczywiście silnie skorelowana z zachowaniami płciowymi i formacją par.

Tak, więc, jest względnie łatwo zaplanować kategorie zachowań, testy, kwestionariusze lub techniki pomiarowe, które mają na celu mierzenie pewnych aspektów zachowania, osobowości lub inteligencji, ale wymaga to dowodów zewnętrznych, aby pokazać, że w rzeczywistości mierzą one to, co zamierzamy mierzyć.

Jest całkiem możliwe uzyskać wysoce wiarygodne (dobre) wyniki, używając obciążonych nieodpowiednich lub pozbawionych znaczenia (złych) pomiarów. Rygor metodologiczny może czasem być poświęcony w interesie mierzenia rzeczy, które naprawdę mają znaczenie. Jeśli zachodzi taka potrzeba, lepiej mierzyć właściwą rzecz w sposób niedoskonały, niż niewłaściwą rzecz w sposób bardzo dokładny.

Dodatkowo, główną różnicą między wiarygodnością a dokładnością (dobre i prawdziwe pomiary) ważnym praktycznym rozróżnieniem jest wykonywalność. Dotyczy to na ile proponowana procedura jest możliwa do wykonania, używalna i warta wykonania. Czy uzyskane informacje usprawiedliwiają koszt i włożony wysiłek? Szacowanie wykonywalności powinno również zawierać komponenty etyczne.

B. Wiarygodność między i w obrębie obserwatora.

Obserwatorzy mogą być postrzegani jako instrumenty do mierzenia zachowania w mniej więcej taki sam sposób jak voltametr jest używany do mierzenia napięcia prądu elektrycznego. Jako instrument pomiarowy może być obciążony lub mało precyzyjny, tak, że błędy w pomiarze zachowania mogą powodować powstawanie zmienności w obrębie lub pomiędzy obserwatorami. Dwa różne pomiary wiarygodności mogą być zastosowane.

1. Wiarygodność w obrębie obserwatora (lub zgodność obserwatora) mierzy stopień, do jakiego pojedynczy obserwator uzyskuje podobne wyniki mierząc to samo zachowanie kilkukrotnie. Na przykład oglądając to samo nagranie video dwa razy)

2. Wiarygodność między obserwatorami - mierzy stopień, do jakiego dwóch lub więcej obserwatorów uzyskuje te same wyniki mierząc to samo zachowanie w tym samym czasie. Jest to pomiar zgodności między różnymi obserwatorami próbującymi mierzyć tę samą rzecz.

W doświadczeniu, w którym biorą udział dwaj lub więcej obserwatorzy, dwie rzeczy muszą być zweryfikowane.

a) każdy obserwator zapisuje w ten sam sposób w różnych doświadczeniach

b) obserwatorzy zapisują w taki sam sposób to samo zachowanie (tak, że wiarygodność między obserwatorami dla każdej kategorii zachowania jest dobra). Oczywiście potrzeba ustalenia dobrej zgodności między obserwatorami również dotyczy doświadczeń, w które zaangażowany jest jeden obserwator.

Nawet w badaniach angażujących jednego obserwatora wykazanie dobrej zgodności między obserwatorami jest wartościowe i przydatne. To oczywiście wymaga zaangażowania drugiego obserwatora na niektóre sesje obserwacyjne. Powód dla mierzenia zgodności między obserwatorami w eksperymencie, w którym bierze udział jeden obserwator, jest taki, że poszczególny obserwator może być wysoko zgodny mierząc złe zachowanie (złe, w odniesieniu do definicji). Dobra zgodność w obrębie obserwatora wykazuje wewnętrzną zgodność, ale nie gwarantuje, że inny obserwator, będzie notował to samo zachowanie. Tak więc, pomimo, że wszystkie pomiary zostały wykonane przez jednego obserwatora, wciąż jest przydatne wykazanie, że inny obserwator będzie dawał podobne wyniki używając tej samej metody.

Aby oszacować zgodność wewnątrz obserwatora, obserwator mierzy tę samą próbkę zachowania w dwóch różnych okazjach. Zwykle używa się do tego celu videofilmowania. Aby oszacować zgodność pomiędzy obserwatorami, próbka zachowania powinna być mierzona jednocześnie przez dwóch, lub więcej obserwatorów, na żywo, lub z taśmy filmowej lub nagrania zachowania. Obie zgodności, wewnątrz i między obserwatora mogą być oszacowane przez wyliczenie stopnia związku (korelacji) lub zgodności (konkordancji) między dwoma zestawami pomiarów.

C. Pomiar wiarygodności za pomocą korelacji.

Wiarygodność jest często wyrażana jako współczynnik korelacji Persona (r) lub Spearmana (rs) (współczynnik korelacji rang). Korelacja o wartości współczynnika +1.0 mówi o idealnym pozytywnym związku między dwoma zestawami danych, podczas gdy korelacja 0 mówi o zupełnym braku jakiejkolwiek zależności liniowej. Korelacja wiarygodności może być obliczona dla każdego pomiaru, lub dla każdej kategorii zachowania.

Aby zmierzyć zgodność w obrębie obserwatora, obserwator koduje każdą z n niezależnych próbek zachowania (na przykład n różnych kaset wideo) przy dwóch różnych okazjach. Wiarygodność dla każdej kategorii zachowania jest wtedy obliczona jako korelacja między n parami pomiarów. Aby zmierzyć zgodność między obserwatorami, dwóch obserwatorów jednocześnie koduje każdą z n niezależnych próbek zachowania (na przykład w czasie dwóch różnych obserwacji). Tak jak poprzednio, wiarygodność jest obliczona jako korelacja n par pomiarów.

Kiedy przytaczamy zgodność, wyniki powinny jasno precyzować, czy jest to korelacja Persona, czy Spearmana, podawać współczynniki korelacji i liczbę par pomiarów (n jest wielkością próby) na jakiej korelacja jest oparta. Zauważ, że pomiar zgodności wymaga niezależnych par pomiarów. To nie jest prawidłowe, aby opierać współczynnik korelacji na jednej próbce zachowania (na przykład na jednej sesji obserwacyjnej lub taśmie video) która została podzielona na kilka krótkich pod-próbek, gdyż wówczas pomiar nie będzie niezależny.

Następny punkt to: próby użyte do testu zgodności. Powinny być jasne (najlepiej losowe) próby zachowania, które jest aktualnie mierzone w doświadczeniu. Byłoby łatwo otrzymać zadziwiająco wysoką zgodność na podstawie analizy próby, w której zachowanie nigdy nie wystąpiło, lub też wystąpiło we wszystkich punktach. W idealnej sytuacji, próbki testowe powinny być wybrane losowo a zgodność mierzona w takich samych warunkach jak w eksperymencie.

Hipotetyczny przykład zgodności między obserwatorami pokazany poniżej. Dwóch obserwatorów A i B zapisywali częstość występowania tego samego zachowania w czasie kilku sesji obserwacyjnych.

Numer sesji

(częstotliwość-1)

1

2

3

4

5

6

7

Obserwator A

23

12

34

17

24

13

37

Obserwator B

18

15

30

22

25

10

41

Wyrażona jako korelacja Persona (n = 7, 5 df) zgodność między obserwatorami wynosi r=+0.92. Wyrażona jako korelacja Spearmana zgodność wynosi rs=+0.93.

Jak wiarygodny musi być pomiar zachowania, aby być akceptowany? Nie istnieje żadna magiczna liczba, powyżej której wszystkie pomiary są akceptowalne, a poniżej żadne.

Akceptowalność zależy od kilku czynników, włączając w to ważność kategorii i łatwość, z jaką pomiary zostają wykonane. Jakkolwiek w przypadku ważnej kategorii, którą trudno jest mierzyć, akceptowalność może wynosić, co najmniej 0,7. (w przypadku korelacji Persona wynoszącej 0,7 blisko 50% zmienności w jednym zestawie jest przypisywanej ze względu na przynależność do zestawu, ponieważ współczynnik determinacji wynosi r2 = 0,72 = 0,49). Trzeba zauważyć, że jest to wskazówka nieformalna, niektórzy będą prawdopodobnie polemizować z wiarygodnością na poziomie 0,7, jako z za niską dla jakiegokolwiek pomiaru, bez znaczenia jak ważnego. Dla kategorii zachowania gdzie pomiar jest przeprowadzany bezpośrednio, zgodność powinna być wyższa niż 0,7.

Na koniec, zauważmy, że poziom istotności statystycznej (wartość p) korelacji mówi niewiele o stopniu zgodności, ponieważ poziom istotności odnosi się zarówno do wielkości próby jak i do siły związku. Tak więc, wielkość współczynnika korelacji a nie jego istotność statystyczna ma znaczenie. Na przykład korelacja o współczynniku r = 0,5 reprezentuje niski poziom zgodności, pomimo iż jest wysoce istotna (p< 0,001) a wielkość próby jest wystarczająca (n = 26 par).

D. Inne sposoby mierzenia zgodności.

1. Indeks zgodności (index of concordance). Innym sposobem mierzenia zgodności, które jest szczególnie przydatne do pomiarów nominalnych i klasyfikujących, jest stwierdzenie czy występuje kategoryczna zgodność, co do występowania każdego przypadku danego zachowania. Na końcu każdej sesji obserwacyjnej obserwatorzy porównują całkowitą liczbę zgodności i niezgodności. Jeden pomiar, zgodności między obserwatorami znany jako indeks zgodności, jest proporcją zgodności wśród wszystkich zdarzeń, jakie nastąpiły i co do wszystkich obydwaj obserwatorzy się zgodzili A/ (A + D). Ten sam współczynnik wyrażony jako procent jest czasami wymieniany jako zgodność procentowa. Inne sposoby wyliczenia tego współczynnika podaje Hollenbeck (1978) i Caro i współpracownicy (1979).

Indeks zgodności bardziej niż korelacja, jest potrzebny w zastosowaniu tylko wówczas, gdy istnieje jakiś powód, dla którego zgodność, co do każdego wystąpienia danego zachowania jest istotna, lub jeśli zachowanie jest mierzone na skali nominalnej (lub klasyfikującej). Jako zasadę generalną, pomiar zgodności powinien być wyliczany używając tego samego typu pomiaru (takiego jak częstotliwość albo całkowity czas) tak jak używany we właściwym doświadczeniu i analizie wyników.

2. Współczynnik Kappa (κ)

Prosty indeks zgodności opisany powyżej nie bierze pod uwagę zgodności, jakie mogły wyniknąć dzięki czystemu przypadkowi. Indeks zgodności między obserwatorami, który pozwala na wykrycie przypadkowych zgodności jest to współczynnik kappa.

κ = (O-C)/(1-C)

Gdzie O to obserwowana proporcja zgodności, (np. indeks zgodności obliczony w sposób podany powyżej) i C - proporcja zgodności która może zostać uzyskana przez przypadek (zobacz Kraemer 1979b; Lehner 1979) Na przykład, przypuśćmy, że dwóch obserwatorów jednocześnie zapisuje wzór zachowania przez 15 min używając metody ciągłego notowania prób co 30 sekund. Obserwator 1 zapisał zachowanie w 16 punktach, podczas gdy obserwator 2 w 13. Obserwatorzy zgodzili się co do wystąpienia zachowania w 25 punktach czasowych, i nie zgodzili się w 5. Obserwowana proporcja zgodności wynosi O = A/(A+D) = 25/30 = 0.83. Przypadkowa proporcja zgodności jest dana przez prawdopodobieństwo, że obaj obserwatorzy zapiszą wystąpienie (lub nie wystąpienie) w tym samym punkcie czasowym, jeśli ich obserwacje są całkowicie losowe. C = (16/30 x 13/30) + (14/30 x 17/30) = 0.23 + 0.26 = 0.49. Co za tym idzie współczynnik kappa będzie wynosił κ = (0.83-0.49)/(1-0.49) = 0.34/0.51 = 0.67. Współczynnik kappa jest znacząco niższy niż zwykły indeks zgodności, pokazując, że pewne zgodności w wynikach mogą pojawiać się dzięki czystemu przypadkowi. Dla przykładu, jak wyliczany jest współczynnik kappa, w przypadku większej liczby kategorii zobacz Hollenbeck 1978.

3. Współczynnik zgodności Kendalla (W)

W doświadczeniach, w których trzech lub więcej obserwatorów mierzy to samo zachowanie, może być używany współczynnik zgodności Kendalla (W) w celu analizy ilościowej całkowitej zgodności między nimi. W jest statystyką nieparametryczną, która wyrażona jest jako stopnień związku pomiędzy dowolną liczbą zestawów rang (zobacz Siegel 1956, rozdz. 9).

E. Czynniki wpływające na wiarygodność

Trzeba zauważyć, że wiele czynników może wpłynąć na to jak dobrze dana kategoria zachowania jest mierzona, a to odnosi się zarówno do techniki pomiarowej jak i do samej natury zachowania. Pomiędzy najważniejszymi czynnikami wpływającymi na wiarygodność, są następujące:

  1. Częstotliwość występowania. Jeśli dane zachowanie zdarza się bardzo gwałtownie, każde jego wystąpienie może być trudne do wiarygodnego zanotowania. Niewiele może tu być zrobione poza nagrywaniem zachowania na video i analizowanie w zwolnionym tempie. Odwrotnie: rzadkie przypadki danego zachowania mogą być całkiem pominięte, jeśli sesje obserwacyjne nie są wystarczająco długie.

  2. Zmęczenie obserwatora. Jeśli sesja obserwacyjna trwa zbyt długo, zdolność obserwatora do prawidłowego notowania będzie zaburzona przez zmęczenie i utratę koncentracji. Obserwator musi zrównoważyć ilość zgromadzonych w każdej sesji danych z ich jakością.

  3. Dokładność definicji. Jednym z ważnych czynników, który często może być poprawiony, jest jak dobrze każda z kategorii zachowania jest zdefiniowana. Jeśli kategoria nie jest czysto i jednoznacznie zdefiniowana, wówczas z pewnością nie może być prawidłowo i wiarygodnie mierzona. Podstawowy problem w przedłużających się badaniach jest taki, że definicje i kryteria mają tendencję do „dryfowania” wraz z upływem czasu i wraz z „oswojeniem” się obserwatora z danym zachowaniem. Często nieświadomie ulepszamy lub wyostrzamy definicje. Jest to opisane jako „dryf obserwatora” i odnosi się do badań angażujących zarówno jednego jak i kilku obserwatorów. Jednym ze sposobów zapobiegania „dryfowi obserwatora” jest mierzenie wiarygodności na początku, podczas badań, oraz na ich końcu. Najprostszym środkiem zapobiegawczym jest zapisanie możliwie najbardziej jasnych definicji i upewnianie się, czy wszyscy obserwatorzy są w pełni zaznajomieni z nimi w czasie badań.

F. Radzenie sobie z mało wiarygodnymi pomiarami

Co zrobić, jeśli ważne pomiary (tylko do ważnych pomiarów taki problem się odnosi) okazują się być niewiarygodne? Jeśli czystość statystyczna byłaby jedynym miernikiem, wówczas wszystkie niejednoznaczne i niewiarygodne pomiary musiałyby zostać automatycznie odrzucone. To powinno stać się z pomiarami, które są niestosowne lub pozbawione wartości informacyjnej. Jednakże mało wiarygodne („Złe”) pomiary często są ważne i czystość statystyczna musi zostać poświęcona na rzecz mierzenia tego, co naprawdę ma znaczenie. Dwie rzeczy są przydatne, aby pomóc w „załagodzeniu problemu” niewiarygodnych pomiarów.

Po pierwsze - niewiarygodne pomiary powinny zostać ponownie zdefiniowane (wyostrzone) lub polepszona technika pomiarowa, aby uczynić je bardziej wiarygodnymi. Na przykład, modyfikacja definicji może wyeliminować dwuznaczne przypadki, które są trudne do kategoryzacji. (Oczywiście dane zebrane przed i po zmianie definicji, muszą być analizowane oddzielnie). Podobnie, jeśli kategoria jest trudna do zanotowania przy użyciu ciągłego zapisu próby czasowe mogą dać bardziej wiarygodny wynik. Dla niektórych trudnych kategorii wiarygodne pomiary wymagają dużej praktyki.

Po drugie, czasami jest możliwe połączenie dwóch lub więcej niewiarygodnych pomiarów, aby stworzyć bardziej wiarygodną, komponowaną wielkość. To rozwiązanie jest kwestią jedynie prób i błędów w indywidualnych przypadkach a sukces nie jest w żaden sposób gwarantowany.

G. Pomiary złożone

Kiedy dwie lub więcej zbliżone kategorie zachowania zostały zmierzone, mogą czasem zostać połączone w momencie analizy aby dać pojedynczy wynik złożony. Może to być pomocne z kilku powodów.

  1. łączenie związanych ze sobą pomiarów eliminuje nadmiar danych i redukuje nadmiar kategorii użytych w końcowej analizie i prezentacji wyników. Również kiedy bezwzględne częstości poszczególnych wyników są niskie i wiele osobników może mieć wyniki równe zero, pomiar łączony może być bardziej wrażliwy niż każdy z elementów, poza tym może być łatwiejszy w analizie statystycznej.

  2. Łączenie kilku mało wiarygodnych pomiarów może czasem dać pojedynczy, wiarygodny wynik.

W obu przypadkach złożony pomiar musi posiadać `nominalną zgodność' każdy oddzielny pomiar musi znaczyć to samo a pomiar złożony musi mieć intuicyjny i biologiczny sens. Poszczególne pomiary muszą zatem opisywać funkcjonalnie podobny wzór zachowania

  1. Poza łączeniem podobnych do siebie pomiarów, czasami dobrze jest połączyć ze sobą obustronnie wykluczające się pomiary, które są alternatywnym przejawem jednej, leżącej u podstaw skłonności. Na przykład, kiedy prezentujemy potencjalnie zagrażający bodziec, zwierzę może zareagować na wiele różnych wykluczających się wzajemnie sposobów (atak, ucieczka, znieruchomienie). Jeśli wykazuje jakiekolwiek z tych alternatywnych zachowań świadczy to o jednym leżącym u podstaw stanie motywacyjnym (strach), wówczas połączenie tych pomiarów ma sens, nawet jeśli nie są jednym wzorcem zachowania i nie są pozytywnie skorelowane ze sobą.

Jeśli zysk z łączenia pomiarów prawdopodobnie przewyższy niedogodności (takie jak odrzucenie potencjalnie przydatnych informacji) jak powinny być wybrane pomiary stanowiące komponenty, a raz wybrane, jak powinny być ze sobą łączone. Wybieranie pomiarów do łączenia jest często robione intuicyjnie albo na bazie innej wiedzy. Bardziej systematycznym podejściem jest sprawdzenie macierzy korelacji pomiar x pomiar, aby sprawdzić, które z pomiarów wydają się być ze sobą skorelowane.

Na bardziej zaawansowanym poziomie technik statystyki wielowymiarowej takich jak: analiza składowych głównych, analiza czynnikowa i analiza skupień można zidentyfikować grupy pomiarów, które są statystycznie połączone ze sobą. Na przykład Halliday (1976) zauważył, że oddzielne pomiary zachowań płciowych u samców traszek wydają się ze sobą korelować. Za pomocą analizy składowych głównych był w stanie znaleźć pojedynczą składową statystyczną, którą nazwał „libido” i która odpowiadała za zmienność w kilku oryginalnych pomiarach zachowania płciowego. Zauważmy, że jakkolwiek techniki wielowymiarowe czynią kilka restrykcyjnych oszacowań, które są nagminnie łamane przez dane behawioralne, muszą więc być brane pod uwagę ze szczególną ostrożnością. Na przykład analiza czynnikowa nie powinna być używana, jeśli liczebność próby jest mała (mniejsza niż trzy razy więcej od liczby zmiennych) lub jeśli zmienne są mało wiarygodne. Pomiary, które mają być połączone, powinny być standaryzowane, tak, aby miały tę samą średnią i wariancję. Jednym sposobem jest wyliczenie dla każdej surowej danej wartości z (wartość indywidualna minus średnia dla próby, podzielona przez odchylenie standardowe). Wyniki zestandaryzowane w taki sposób mają średnią zero i odchylenie standardowe 1. Połączone dane dla osobnika są więc średnią z wartości z poszczególnych pomiarów. Taka procedura daje nam tą samą wagę statystyczną dla każdego pomiaru. Jeśli różne wagi mają być nadane poszczególnym pomiarom najlepiej zrobić to przez pomnożenie wartości z każdego pomiaru przez wartość wyznaczoną. Na przykład pomnożenie składowej głównej wyznaczonej dzięki analizie składowych głównych.

Patrz Krzanowska i in. „Zarys mechanizmów ewolucji” Rozdział 5.1.1



Wyszukiwarka