SKRYPT - zaznaczenia, Studia, Psychologia UW - materiały do zajęć, UWPsych - Podstawy pomiaru psychometrycznego - Psychometria


BOGDAN ZAWADZKI

PSYCHOMETRIA I METODA TESTÓW

KONSPEKT WYKŁADU (30 GODZIN)

PSYCHOMETRIA I METODA TESTÓW

Wykład 1. Test jako narzędzie diagnozy psychologicznej - podstawowe pojęcia: pojęcie testu psychologicznego: definicja, zastosowanie, podstawowe wymogi stawiane testom psychologicznym (standaryzacja, obiektywność, rzetelność, trafność i znormalizowanie); pojęcie cechy - ujęcie psychologiczne i psychometryczne.

Wykład 2. Rodzaje testów psychologicznych - demonstracja wybranych metod: historia testów w zarysie; rodzaje testów psychologicznych; przegląd i demonstracja wybranych metod.

Wykład 3. Podstawowe problemy stosowania testów: diagnoza psychologiczna za pomocą testów: aspekt psychologiczny, psychometryczny, metodologiczny i etyczny, ich charakterystyka i konsekwencje dla diagnozy psychologicznej.

Wykład 4. Pomiar różnicowy w psychologii - podstawowe założenia; rozkład normalny oraz podstawowe miary tendencji centralnej i dyspersji; wynik testowy jako suma wyników poszczególnych zadań: średnia wyników jako suma średnich pozycji oraz wariancja wyniku testowego jako suma wariancji pozycji i ich kowariancji; wynik testowy jako suma ważonych i nieważonych odpowiedzi testowych, zalety i wady ważenia odpowiedzi.

Wykład 5. Rzetelność pomiaru testem - podstawowe pojęcia: źródła błędu przy pomiarze psychologicznym, definicja pojęcia rzetelności pomiaru, dwa aspekty rzetelności: rzetelność jako wiarygodność i rzetelność jako stabilność; podstawy teorii rzetelności testów psychologicznych w ujęciu Gulliksena oraz Lorda i Novicka: pojęcie wyniku otrzymanego, wyniku prawdziwego i błędu pomiaru, standardowy błąd pomiaru (Sbp) i standardowy błąd estymacji wyniku prawdziwego (Sbe) oraz standardowy błąd różnicy (Sbr) i ich zastosowanie przy szacowaniu wyniku prawdziwego oraz ocenie istotności różnic wewnątrzosobniczych;

Wykład 6. Rzetelność pomiaru testem - metody szacowania rzetelności: zgodność wewnętrzna, stabilność względna i bezwzględna oraz metoda testów równoległych; zależność rzetelności od jednorodności próby i długości testu.

Wykład 7. Trafność pomiaru testem: pojęcie trafności pomiaru, trafność a rzetelność, rodzaje trafności: trafność treściowa (oraz trafność fasadowa), trafność kryterialna (diagnostyczna i prognostyczna).

Wykład 8. Trafność pomiaru testem (cd): trafność teoretyczna i metody jej oceny: badanie związków między konstruktem a zachowaniem (metoda różnic międzygrupowych, metoda zmian nieprzypadkowych, badanie procesu rozwiązywania testu) oraz analiza macierzy korelacji testu z innymi testami (metoda badania wewnętrznej struktury testu, analiza korelacji i analiza czynnikowa eksploracyjna i konfirmacyjna - trafność czynnikowa, analiza macierzy Wielu Cech-Wielu Metod: pojęcie trafności zbieżnej i różnicowej).

Wykład 9. Podstawowe problemy konstruowania testów: strategie konstruowania testów: indukcyjna, teoretyczna i kryterialna - ich cele oraz specyfika; procedura konstrukcji testów: zasady generowania pozycji testowych (forma pozycji testowych i liczba opcji odpowiedzi), wstępna selekcja pozycji (analiza logiczno-językowa pozycji, analiza trafności treściowej) oraz instrukcja i klucz testowy.

Wykład 10. Podstawowe problemy konstruowania testów: procedura konstrukcji testów (cd) - dobór pozycji do ostatecznej wersji testu na podstawie wskaźników psychometrycznych: moc dyskryminacyjna - pojęcie mocy dyskryminacyjnej pozycji oraz statystyczne metody szacowania mocy dyskryminacyjnej (współczynniki korelacji biseryjnej, punktowo-biseryjnej punktowo-czteropolowej, tj. phi oraz skorygowany współczynnik korelacji pozycja-skala); ładunek czynnikowy: pojęcie ładunku czynnikowego oraz zasady doboru pozycji - wskaźniki różnicowe; wskaźnik rzetelności a wskaźnik trafności pozycji: testy kryterialne; pojęcie krzywej charakterystycznej oraz jej parametry; założenia IRT i możliwości wykorzystania do konstrukcji testów psychologicznych.

Wykład 11. Czynniki zniekształcające wyniki testowe: czynniki zakłócające pomiar kwestionariuszowy: style odpowiadania, tendencja do symulowania oraz aprobata społeczna - ich pojęcia, uwarunkowania osobowościowe i sytuacyjne oraz sposoby kontrolowania, przykłady skal kontrolnych; czynniki zakłócające pomiar testami zdolności: zgadywanie, kontrolowanie tendencji do zgadywania przez instrukcję testową oraz wprowadzenie poprawki na zgadywanie do korekty wyników indywidualnych.

Wykład 12. Podstawowe problemy adaptowania testów: strategie adaptowania testów: transkrypcja, translacja, trawestacja, parafraza, rekonstrukcja - ich cele, specyfika oraz przykłady testów; pojęcie adaptacji demograficznej (płeć, wiek, rasa, status społeczno-ekonomiczny).

Wykład 13. Normalizacja wyników testu: transformacja liniowa (jednostki standaryzowane "z") i nieliniowa wyników surowych na skale o rozkładzie prostokątnym (skala centylowa i decylowa) oraz znormalizowane skale standardowe (wartości znormalizowane "z", skala stenowa, staninowa, tetronowa, tenowa, dewiacyjny iloraz inteligencji); kryteria wyboru właściwej skali standardowej i porównywanie wyników wyrażonych w jednostkach różnych skal.

Wykład 14. Interpretacja wyników testowych: różnice międzyosobnicze i wewnątrzosobnicze (analiza intraprofilowa oraz interprofilowa), sposoby wnioskowania - kliniczny i statystyczny. Zasady przygotowywania i korzystania z podręczników testowych: informacja o teście zawarta w podręczniku testowym, dokumentacja danych psychometrycznych: procedury i statystyki.

Wykład 15. Użyteczność standardowych metod diagnostycznych w praktyce psychologicznej - wyniki metaanaliz dotyczące wybranych metod oraz podsumowanie wykładów.

LITERATURA OBOWIĄZKOWA DO EGZAMINU:

Ciechanowicz, A., Jaworowska, A. i Szustrowa, T. (1996). Testy Prawo Praktyka. Warszawa: Pracownia Testów Psychologicznych PTP.

Hornowska, E. (2001). Testy psychologiczne. Teoria i praktyka. Warszawa: Wydawnictwo Naukowe Scholar.

Strelau, J. (red.)(2000). Psychologia. Podręcznik akademicki. Gdańsk: GWP (tom I, rodz. 11 i 12).

LITERATURA UZUPEŁNIAJĄCA:

(w języku polskim)

Anastasi, A i Urbina, S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów Psychologicznych Polskiego Towarzystwa Psychologicznego.

Brzeziński, J. (1997). Metodologia badań psychologicznych (wyd. 2). Warszawa: Wydawnictwo Naukowe PWN (rozdz. 6, 15-20)

Magnusson, D. (1981). Wprowadzenie do teorii testów. Warszawa: PWN (rozdz. 5-11,14-16).

Zawadzki, B. (2002). Temperament - geny i środowisko. Porównania wewnątrz - i międzypopulacyjne. Gdańsk: GWP (rozdz. 3).

(w języku angielskim)

Murphy, K. R. & Davidshofer, C. O. (1998). Psychological testing. Principles and applications (IV edition). Upper Saddle River, N.J.: Prentice-Hall, Inc.

Walsh, W. B. & Betz, N. E. (1995). Tests and assessment (IIIrd edition). Englewood Cliffs, N.J.: Prentice-Hall, Inc.

Wykład 1.

DIAGNOZA PSYCHOLOGICZNA ZA POMOCĄ TESTÓW STANDARDOWYCH: PODSTAWOWE POJĘCIA

Przedmiotem wykładu są standardowe metody diagnostyczne. W istocie jednak wykład ten będzie dotyczył problemów diagnostyki psychologicznej, realizowanej za pomocą testów standaryzowanych. Metoda testów standaryzowanych zawsze budziła sporo emocji społecznych i przez wiele lat narosło wokół niej z jednej strony wiele mitów, obaw, uprzedzeń, z drugiej zaś wiele - równie nieuzasadnionych - oczekiwań czy nadziei. Można sądzić, że w postawach tych najmniej jest realnej i obiektywnej wiedzy. Wina za to przypada w dużym stopniu osobom zajmującym się diagnostyką i psychometrią, które mało aktywnie przeciwdziałały negatywnym zjawiskom związanym z nadużywaniem testów i jednocześnie nie kształtowały odpowiedniej kultury diagnozowania za pomocą testów. Jednym z jej przejawów jest fakt autonomizacji testów w świadomości ludzkiej (jeszcze gorzej kiedy dotyczy to psychologów), tj. utożsamiania testu z samym materiałem testowym. Spróbujmy zatem zacząć od początku w dobrej kolejności, tj. najpierw odpowiedzieć sobie na kilka podstawowych pytań: co to są testy? do czego służą?, co mierzą?, jakie wymogi muszą spełniać? jakie są ich rodzaje? oraz zastosowania praktyczne?

Do czego służą testy?

Testy są metodami psychologicznymi, służącymi do zbierania informacji o człowieku. Testy jednak służą czemuś więcej niż tylko zbieraniu danych o ludziach - stosowanie ich musi być związane z próbą udzielenia odpowiedzi na pewne pytania psychologiczne, np. o przyczyny określonego zachowania się człowieka, a uzyskana dzięki nim informacja musi służyć formułowaniu wniosków psychologicznych, np. dotyczących terapii, poradnictwa zawodowego, itp. Nie zbieramy zatem danych o człowieku za pomocą testów, tylko dlatego, żeby dane te zbierać - testów nie stosujemy tylko dlatego, żeby je stosować - bez problemu psychologicznego, uzasadniającego zastosowanie testu i wybór właśnie tego testu, a nie innego. W przeciwnym razie uzyskana dzięki niemu informacja będzie całkowicie bezwartościowa dla psychologa, a może nawet być szkodliwa dla osoby badanej. Należy przy tym pamiętać, że sam wynik testowy jest tylko stwierdzeniem określonego faktu psychologicznego - sam go jednak nie wyjaśnia, ani nie uzasadnia. Diagnoza niskiego poziomu inteligencji jest tylko stwierdzeniem niskiej sprawności umysłowej - nie wyjaśnia jakie są przyczyny obniżenia sprawności (organiczne uszkodzenie mózgu, psychoza, defekt genetyczny czy zaniedbania środowiskowe?). Test nie zastępuje więc myślenia psychologicznego, więcej, wynik testowy sam wymaga przyczynowej interpretacji psychologicznej i może być źródłem dalszych hipotez badawczych i zabiegów diagnostycznych. Innymi słowy testy są narzędziami, służebnymi wobec potrzeb diagnozy psychologicznej - stosowanie ich jest wyznaczone dokładnie poprzez wymagania i problemy procesu diagnostycznego. Takie ujęcie funkcji testów jest zbieżne z celami diagnozy psychologicznej.

Diagnoza psychologiczna jest zazwyczaj definiowana (Paluchowski, 1991) jako proces aktywnego poszukiwania danych potrzebnych do podjęcia decyzji o działaniach, zmierzających do zmiany aktualnego stanu (położenia) psychospołecznego ludzi (w efekcie terapii, porady, itp.). Diagnoza jest więc przetwarzaniem informacji, jakie niosą zachowania człowieka, a nie tylko ich rejestrowaniem, jest sprawdzaniem określonych hipotez, a nie tylko prostym zapisywaniem faktów. Diagnoza jest także modelowaniem poznawczym - modelowaniem osobowości czy intelektu danej osoby oraz modelowaniem konsekwencji działań terapeutycznych, poradniczych, itd. Diagnoza, zmierzając do ustalenia pewnych faktów psychologicznych, musi bazować na użyciu określonych narzędzi, umożliwiających rejestrację tych faktów czy inaczej mówiąc, umożliwiających zbieranie informacji o człowieku. Do narzędzi tych należą testy, należy przy tym jednak zauważyć, że istnieją także inne nietestowe metody pozwalające na zbieranie informacji o człowieku, np. eksperyment patopsychologiczny. Informacja rejestrowana przez testy wykazuje jednak daleko idącą specyfikę - powstaje zatem pytanie, jaką informację zbierają testy, a więc co testy mierzą?

Co mierzą testy?

Testy psychologiczne służą do rejestracji faktów psychologicznych z życia człowieka, tj. informacji o jego zachowaniu: przeszłym lub obecnym, typowym (najczęstszym) lub chwilowym (ograniczającym się do "tu i teraz"). Korzystając z pojęć psychologii różnic indywidualnych, w ramach której wypracowano teoretyczne podstawy testów, można powiedzieć, że mierzą one stany lub cechy osobnicze, przy czym zazwyczaj psychologowie w procesie diagnostycznym koncentrują uwagę na bardziej trwałych właściwościach osobowościowych czy intelektualnych, a zatem na cechach. Na marginesie mówiąc, niektóre rodzaje testów służą do badania nie tylko cech albo stanów, ale całych syndromów cech lub stanów. Do takich konstruktów należą przykładowo stan zdrowia psychicznego czy powodzenie zawodowe w określonym zawodzie. Ich specyfika polega na tym, że badają nie tyle jednorodne cechy (lub stany), ile całe syndromy cech (albo inaczej kryteria). Testy te wykazują daleko idącą specyfikę - dotyczy ona tak wykorzystywanego modelu psychometrycznego w procesie konstrukcji testu, uzyskiwanego rozkładu wyników, jak i własności psychometrycznych testu. Z tego względu te rodzaje testów będziemy traktowali jedynie marginalnie, koncentrując się na podstawowych narzędziach, przeznaczonych do badania jednorodnych cech albo stanów.

Przez stan rozumie się właściwość zachowania, wykazującą międzyosobniczą stałość oraz wewnątrzosobniczą zmienność międzysytuacyjną i czasową, wyznaczaną przez zmienne warunki biologiczne i/lub środowiskowe organizmu (czyli sytuacje). Przez cechę rozumie się natomiast taką właściwość zachowania, która wykazuje międzyosobniczą zmienność oraz wewnątrzosobniczą stałość: międzysytuacyjną i czasową. Mechanizmem warunkującym te formalne własności cechy są pewne stałe warunki biologiczne i/lub środowiskowe organizmu. Cechy mają status opisowy, są efektem istnienia względnej stałości zachowania jednostki w różnych sytuacjach. Cechy są pojęciami psychologicznymi - nie istnieją realnie (są to zmienne latentne, utajone). Odwołując się zatem do pojęć z psychologii różnic indywidualnych można powiedzieć, że testy rejestrują różnice między ludźmi oraz stałość osobniczą: czasową i sytuacyjną w zakresie danej formy zachowania. Testy bazują zatem na wykorzystywaniu różnic w zachowaniu się ludzi oraz na regularnościach tych różnic, tzn. stałości zachowania poszczególnych jednostek.

Przez różnice międzyosobnicze rozumie się zróżnicowanie ludzi pod względem jakiegoś aspektu zachowania (różnice te opisuje krzywa Gaussa - krzywa normalna). Przez różnice wewnątrzosobnicze rozumie się stałość-zmienność zachowania danej jednostki w różnych sytuacjach (stałość-zmienność sytuacyjna) oraz w różnych momentach czasu w tych samych sytuacjach (stałość-zmienność czasowa). Zmienność międzyosobnicza jest przy tym pochodną stałości wewnątrzosobniczej (zmienność między ludźmi jest efektem stałości zachowania poszczególnych jednostek). Zmienność międzyosobnicza i stałość wewnątrzosobnicza: sytuacyjna i czasowa, są ponadto warunkami formalnymi konstytuującymi cechę psychologiczną. Każda zatem cecha - czy to osobowości czy też intelektu - musi te wymagania spełniać, żeby mogła być uznana za cechę.

Testy zatem są metodami do pomiaru cech człowieka (lub okazjonalnie stanów). Testy są metodami rejestrującymi różnice w zachowaniu ludzi oraz stałość czasową i sytuacyjną zachowania danego człowieka. Powstaje w tym kontekście pytanie, czy każda rejestracja zachowania człowieka i czy każdego zachowania jest już testem psychologicznym? W istocie jest to zatem pytanie, co składa się na test i czym się test, jako metoda pozwalająca na pomiar cech człowieka, charakteryzuje, a więc: co to jest test?

Co to jest test?

Standardy Amerykańskiego Towarzystwa Psychologicznego (APA; 1986) definiują test jako procedurę diagnozowania. Może on być zbiorem zadań lub pytań, które - w standardowych warunkach (tj. stałych, jednakowych dla wszystkich) - mają wywoływać - określone rodzaje zachowań i dostarczać wyników o pożądanych własnościach psychometrycznych, tj. posiadających wysoką rzetelność i wysoką trafność. Choynowski (1971) definiuje test natomiast jako przyrząd, zbiór pytań lub sytuacji służących do badania psychologicznych właściwości jednostki lub grup ludzkich przez wywoływanie w nich określonych obserwowalnych reakcji werbalnych lub niewerbalnych, będących w miarę możliwości reprezentatywnymi próbkami ich zachowania się. Testy muszą spełniać szereg kryteriów "dobroci" pomiaru, jak rzetelność, trafność, obiektywność, znormalizowanie, itd. i dostarczać wyników ilościowych. Funkcją testów jest więc stwarzanie standaryzowanych sytuacji bodźcowych wywołujących reakcje, w których wyrażają się interesujące nas cechy. Ponieważ na wszystkie o.b. działają te same bodźce w tej samej sytuacji zakłada się, że zmienność reakcji zależy wyłącznie od cechy osób badanych. Wystąpienie określonego zachowania w sytuacji testowej świadczy zatem o istnieniu określonej cechy - wnioskuje się o niej na podstawie zachowania. Pomiar testowy więc to pomiar zmiennej latentnej (cechy) za pomocą pomiaru zmiennej jawnej - obserwowalnej (zachowania). Podobnie ujmują testy definicje psychometryczne, ale operują one bardziej technicznym językiem, a więc nie będą tu cytowane.

W stosunku do badań eksperymentalnych badania diagnostyczne wykazują pewną istotną specyfikę. W obu rodzajach badań standaryzacja ma celu minimalizację wpływu czynników ubocznych, ale w badaniach diagnostycznych standaryzacja dotyczy także głównej zmiennej niezależnej (materiał testowy, jak i wszystkie inne aspekty procedury testowej są identyczne dla każdej osoby badanej). W badaniach eksperymentalnych z kolei główna zmienna niezależna jest obiektem manipulacji (materiał badawczy albo jakiś inny ważny aspekt procedury badania jest różny dla poszczególnych osób badanych). W efekcie różnice w zachowaniu przypisujemy: w badaniach diagnostycznych - w różnicom wewnątrznym pomiędzy poszczególnymi osobami badanymi, zaś w badaniach eksperymentalnych - różnicom sytuacyjnym (zewnętrznym).

Istotę testu najlepiej charakteryzują elementy wspólne tych wszystkich definicji:

1). test psychologiczny zawiera próbki zadań - czyli określone standardowe bodźce; test psychologiczny jednak to nie tylko materiał testowy (chociaż jest on bardzo ważny), to przede wszystkim sama sytuacja badania: test to specyficzna forma interakcji między osobą badającą a osobą badaną, która to interakcja zachodzi w określonych warunkach czasowych, fizycznych i psychologicznych - jak w definicji Standardów APA: test to procedura diagnozy (procedura, a nie tylko sam materiał). Wynik testowy jest więc zawsze produktem całej sytuacji, a nie tylko materiału testowego.

2). test psychologiczny zawiera skalę lub skale standardowe, rejestrujące wywołane przez bodźce reakcje; nie każde zachowanie jest przy tym przedmiotem rejestracji w teście, a tylko takie które:

a). jest deskrypcją cechy (a więc spełnia określone kryteria teoretyczne i psychometryczne),

b). w teście rejestrowany jest określony aspekt zachowania jednostki, a nie całe jej zachowanie; ta własność zachowania musi spełniać następujące kryteria: (-) jest to aspekt typowy (nawet w przypadku maksymalnego wykonania), (-) jest to aspekt specyficzny dla występującego bodźca, (-) jest to aspekt ilościowy, a nie jakościowy.

3). test psychologiczny dostarcza reguł dochodzenia do wyniku oraz jego oceny, w dwóch aspektach: (a) indywidualnym - informuje o nasileniu danej cechy u danej jednostki (wynik liczbowy, ujmowany na tle grupy odniesienia wraz z szacunkową oceną możliwego błędu) oraz znaczeniu wyniku dla obecnego lub przyszłego zachowania tejże jednostki; (-) pomiarowym - umożliwia zwrotnie oszacowanie parametrów charakteryzujących "dobroć" pomiaru testem.

Testy zatem są skalami pomiarowymi, dostarczającymi informacji o określonych aspektach zachowania, stanowiącej podstawę do ilościowego oszacowania danej cechy psychologicznej u człowieka. Oszacowanie to ujęte jest w postaci wyniku liczbowego danej osoby na tle grupy odniesienia. W testach przeznaczonych do diagnozy wielu cech (tzw. testach wielowymiarowych) uzyskujemy informację w postaci profilu, tj. oszacowania wszystkich cech, mierzonych skalami zawartymi w teście (każda cech jest mierzona przez oddzielną, "własną" skalę). Profile mogą być hierarchiczne (gdy generowany jest wynik globalny, będący sumą wyników poszczególnych skal) lub równorzędne. Na podstawie profilu dokonywana jest diagnoza strukturalna, tj. porównywane jest nasilenie poszczególnych cech i formułowana diagnoza typologiczna (specyficzne konfiguracje cech, tworzące typ psychologiczny) lub różnicowa (ocena różnic w zakresie poszczególnych cech, wskazująca na istnienie określonych problemów psychologicznych). Na podstawie oszacowania cech u danej osoby możliwy jest: a). jej opis psychologiczny, tj. charakterystyka osobowości, zdolności, inteligencji, itp. tej osoby, b). przewidywanie jej powodzenia życiowego (szkolnego, zawodowego) oraz c). przewidywanie jej stanu zdrowia (zaburzeń funkcjonowania).

Nie wszystkie zatem materiały czy zbiory zadań są testami, nawet jeśli ich konstruktorzy bardzo sobie tego życzą. Wniosek ten ma podstawowe znaczenie tak dla oceny testów, jak i ich odpowiedzialnego stosowania. Czym zatem musi charakteryzować się test, jakie musi spełniać warunki, aby mógł być uznany za test?

Jakie wymogi muszą spełniać testy?

Testy muszą być tak skonstruowane, aby ich zastosowanie do pomiaru cech człowieka, charakteryzowało się odpowiednio wysoką rzetelnością, trafnością, obiektywnością, standaryzacją i znormalizowaniem.

Kryterium standaryzacji badania testem wiąże się z taką formą opracowania procedury badania testem, by stosowanie go było za każdym razem identyczne, tj. stałe niezależnie od osoby badającej i osoby badanej. Standaryzacja wymaga więc, by test zawierał ścisłą instrukcję, precyzującą zasady zachowania się osoby badającej w trakcie badania (np. zakres je dopuszczalnych zachowań) oraz wymagania stawiane osobie badanej (np. w jaki sposób ma udzielać odpowiedzi na pytania testowe). Standaryzacja wymaga też by instrukcja testowa określała warunki, w jakich badanie ma być przeprowadzane (np. warunki fizyczne - głośność, oświetlenie) oraz przeznaczenie testu - do jakich celów test może być stosowany, a do jakich nie. Standaryzacja ma na celu zminimalizowanie wpływu czynników ubocznych lub zakłócających (zewnętrznych w stosunku do osoby badanej, np. hałasu lub wewnętrznych, np. jej napięcie emocjonalne, zmęczenie) na wyniki testowe. Standaryzacja ma zagwarantować, że w powtarzalnych warunkach (ten sam cel badania, te same warunki badania) osoba badana będzie uzyskiwała te same wyniki. Należy przy tym odróżnić standaryzację na poziomie zewnętrznym i wewnętrznym. Założenie podstawowe obu pojęć jest takie same - oznacza ono, że dana procedura powinna odwoływać się do identycznych procesów u każdej osoby badanej, które wyznaczają sposób i jakość rozwiązywania testu. Mają one jednak inne znaczenie faktyczne. Standaryzacja zewnętrzna oznacza, że oczekujemy, że efekt ten zostanie osiągnięty w przypadku, gdy wszystkie osoby badane będą pracowały w jednakowych warunkach zewnętrznych. Standaryzacja wewnętrzna z kolei oznacza, że aby efekt ten został osiągnięty, to każda z badanych osób powinna pracować w warunkach dopasowanych do różnych swoich właściwości, a zatem warunkach zewnętrznie zupełnie odmiennych. Standaryzacja na poziomie zewnętrznym nie oznacza, że osiągnięta została standaryzacja na poziomie wewnętrznym (choć zwykle w pewnym substancjalnym stopniu tak właśnie jest). O wystąpieniu niezgodności świadczy przede wszystkim niewystarczająca trafność testu - im bardziej standaryzacja na poziomie wewnętrznym odbiega od standaryzacji na poziomie zenętrznym, tym bardziej pomiar testowy jest nietrafny - badamy rożne zmienne u poszczególnych osób. Z tego względu niekiedy standaryzacja zewnętrzna jest łamana, ale prowadzi to do uzyskania wyniku danej osoby badanej o nieznanych parametrach psychometrycznych, nieporównywalnego z innymi wynikami. Złamanie standaryzacji zewnętrznej określane jest mianem niestandardowego zastosowania standardowej metody diagnostycznej, ale uwagi na trudności porównywania wyników poszczególnych osób jego zastosowanie jest dopuszczalne tylko w wyjątkowych przypadkach diagnostycznych. Wniosek - zamiast łamać procedurę badania w celu uzyskania zgodności między standaryzacją zewnętrzną i wewnętrzną należy raczej konstruować testy, które minimalizują rozbieżności obu aspektów standaryzacji.

Kryterium obiektywności badania testem wiąże się natomiast z taką formą opracowania procedury interpretacji wyników badania testem, by stosowanie jej było za każdym razem identyczne, tj. stałe niezależnie od osoby badającej. Obiektywność wymaga więc, by test zawierał klucz odpowiedzi, precyzujący zasady oceny odpowiedzi osoby badanej oraz zasady przyporządkowywania tym odpowiedziom wyników liczbowych i przekształcania tych wyników na określone wyniki znormalizowane (tj. odnoszenia tych wyników do norm - oceniania jednostki na tle określonej grupy odniesienia). Obiektywność ma na celu zminimalizowanie wpływu osoby badającej na wyniki testowe. Obiektywność ma zagwarantować, że różne osoby badające dokonają identycznej oceny wyników danej osoba badanej.

Kryterium normalizacji wyników badania testem wiąże się natomiast z koniecznością opracowania procedury przekształcania wyników liczbowych, uzyskanych przez osobę badaną w wyniki różnicowe, umożliwiające lokalizację cechy danej osoby na tle reprezentatywnej populacji. W języku technicznym wiąże się to z przeliczaniem tzw. wyników surowych na skale standaryzowane, tj. skale o ustalonej średniej i odchyleniu standardowym, bazujące na rozkładzie normalnym (np. skale stenowe, tenowe, staninowe) lub prostokątnym (np. skale centylowe, decylowe). Normalizacja wymaga więc, by test zawierał odpowiednie normy, tj. wyniki dużej grupy osób, przeliczone na daną skalę standardową, dające możliwość interpretacji ilościowej wyników danej osoby badanej. Normy umożliwiają więc interpretację różnicową wyników osoby badanej - ocenę czy i na ile nasilenie cechy u tej osoby odbiega od średniej (przeciętnej) w populacji (a więc czy i jak bardzo osoba ta różni się pod danym względem od innych, reprezentatywnych dla niej osób). Normalizacja ma na celu zminimalizowanie błędu związanego z oceną faktycznego nasilenia danej cechy u określonej osoby, a więc błędnej diagnozy psychologicznej.

Kryterium rzetelności pomiaru testem wiąże się z wymogiem takiego opracowania testu (materiału testowego i procedury badania), by maksymalizował on dokładność pomiaru cechy badanej przez test. Kryterium rzetelności pomiaru testem (rzetelności pomiaru, a nie testu) ma dwa aspekty:

(a) wiąże się z oczekiwaniem jego stabilności, oznaczającym, że wyniki danej osoby badanej nie będą się zmieniały w czasie -pomiar cechy będzie się charakteryzował stałością czasową, a więc powtarzalnością (powtórny pomiar danej cechy w porównywalnych warunkach powinien prowadzić do uzyskania identycznych wyników); (b) konsystencji (czy inaczej zgodności wewnętrznej) - wiąże się z oczekiwaniem jego precyzji, oznaczającym, że pomiar cechy danej osoby nie jest obciążony błędem, że zmierzono tę cechę z maksymalną dokładnością.

Rzetelność pomiaru testem często nazywa się też wiarygodnością - oznacza bowiem zaufanie, jakim osoba badająca może obdarzyć wyniki testowe, a więc i w konsekwencji pewność, z jaką może formułować diagnozę psychologiczną. Kryterium rzetelności wymaga więc, by test dawał wyniki dokładne i powtarzalne i może być oszacowana matematycznie. Wymóg rzetelności pomiaru testowego ma na celu zminimalizowanie błędu związanego z oceną faktycznego nasilenia danej cechy u określonej osoby, a więc błędnej diagnozy psychologicznej.

Kryterium trafności pomiaru testem wiąże się z wymogiem takiego opracowania testu (materiału testowego i procedury badania), by maksymalizował on stopień, w jakim test mierzy daną cechę. Kryterium trafności pomiaru testowego (trafności pomiaru, a nie testu) ma dwa aspekty: (a) dotyczy tego, co test mierzy i jak dobrze to mierzy - w jakim stopniu (jaka cecha jest mierzona i w jakim stopniu jest mierzona, np. czy mierzone są przy okazji także inne cechy) oraz (b) dotyczy tego, co możemy przewidywać na podstawie wyników testowych (na podstawie cechy, zmierzonej u danego człowieka). Mówiąc inaczej, trafność pomiaru testem stanowi wymóg określający poprawność wniosków, jakie można postawić na podstawie wyników badania testem. Wnioski te mogą dotyczyć przedmiotu pomiaru - cech, jakie wykazuje dany człowiek (trafność teoretyczna pomiaru testem) lub możliwości przewidywania innych zachowań tegoż człowieka na podstawie, zmierzonych u niego danym testem, cech (trafność kryterialna). Ten aspekt trafności odnosi się do możliwości diagnozy innych zachowań (lub cech) człowieka w danym czasie (np. diagnoza problemów szkolnych, diagnoza nerwicy) lub przewidywania tych zachowań w przyszłości (np. wystąpienia problemów zawodowych, symptomów nerwicowych), a więc trafności diagnostycznej i prognostycznej.

Kryterium trafności wymaga więc, by test dawał odpowiednie możliwości interpretacyjne - pozwalał na postawienie trafnej diagnozy psychologicznej, a więc: pozwalał na pełne oszacowanie właśnie tych, a nie innych cech psychologicznych oraz przewidywanie określonych zachowań pozatestowych czy realnych kryteriów, tj. na formułowanie wniosków diagnostycznych o realnym życiu jednostki (zdarzeniach obecnych i przyszłych). Wymóg trafności pomiaru testowego ma na celu zmaksymalizowanie możliwości interpretacyjnych testu.

!Test zatem musi gwarantować możliwość dokonywania maksymalnie rzetelnego, trafnego, obiektywnego, wystandaryzowanego i znormalizowanego pomiaru, by mógł być stosowany, i żeby mógł być nazwany testem. Jakie zatem metody testowe spełniają te kryteria? Jakie są rodzaje testów? Zagadnienia te omówimy na następnym wykładzie.

Wykład 2.

RODZAJE TESTÓW PSYCHOLOGICZNYCH

Jakie są rodzaje testów?

Podział testów zależy od specyfiki badanego konstruktu oraz specyfiki sposobu zbierania informacji. Zazwyczaj testy dzielone są na testy dostarczające próbek zachowań (testy standaryzowane) oraz znaków (informujących o ukrytych procesach wewnętrznych, tzw. testy projekcyjne). Niektórzy zresztą uważają testy projekcyjne za bardziej użyteczne narzędzia diagnostyczne osobowości i zdolności niż techniki ustrukturowane, bo badany nie jest w stanie manipulować wynikiem. Należy przy tym pamiętać, że pomimo wysiłków autorów nie udaje się testów projekcyjnych do końca wystandaryzować - ich stosowanie nadal jest więc sztuką, a nie nauką. W trakcie wykładu skoncentrujemy się zatem na tradycyjnej diagnostyce za pomocą pomocą testów standaryzowanych czy ustrukturowanych.

Pod względem specyfiki zbierania informacji rozróżniamy następujące testy:

1). Test, w którym jednostka wykonuje specyficzne zadanie - test ten wymaga maksymalnego wykonania (testy inteligencji, zdolności, wiadomości, sprawności psychomotorycznej). Testy maksymalnego wykonania mogą być @ testami mocy (wskaźnikiem jest liczba rozwiązanych zadań, bez względu na czas pracy - jednostka ma możliwość dotarcia do wszystkich zadań), @testami szybkości (wskaźnikiem jest czas rozwiązania) lub @testami z ograniczeniem czasowym (wskaźnikiem jest liczba rozwiązanych zadań w określonym czasie - jednostka ma tylko potencjalne szanse dotarcia do wszystkich zadań, zazwyczaj udaje się jej dotrzeć tylko do części zadań). Testy inteligencji i wiadomości różnią się między sobą zakresem badanej sprawności - testy wiadomości są sondażem (w założeniu wyczerpującym) wiedzy z bardzo wąskiej dziedziny, testy inteligencji - wiedzy ogólnej, erudycji w szerokim zakresie lub wręcz sprawności myślenia i działania na materiale sztucznym, nie mającym zastosowania w rzeczywistości. Testy wiadomości dotyczą zawsze materiału i wiedzy realnej, testy inteligencji często zaś materiału abstrakcyjnego, sztucznego, co do którego jednostka nie ma specyficznych doświadczeń. Uważa się, że tylko takie narzędzia zasługują na miano testu - dają one bowiem stosunkowo małą możliwość zniekształcania wyników przez osoby badane (w grę wchodzi tylko symulacja - nie można dysymulować upośledzenia umysłowego, można je tylko symulować - i z taką sytuacją mamy najczęściej do czynienia, gdy o.b. zależy na dobrym wyniku - poza stosunkowo rzadkimi sytuacjami, gdy o. b. zależy na złym wyniku, np. przy ocenie poziomu inteligencji ważnym dla kwalifikacji odpowiedzialności za czyn przestępczy czy możliwości pełnienia służby wojskowej).

2). Test, w którym jednostka sama opisuje swoje zachowanie - test rejestruje samoopis typowego zachowania (inwentarze, ankiety, arkusze biograficzne). Testy osobowości/temperamentu oraz testy stanów - wykorzystujące samoopis - są wysoko standaryzowanymi narzędziami zakładającymi odpowiedź o.b. na szereg pozycji (bodźców) opisujących zwyczajowe zachowania lub samopoczucie w określonej sytuacji. Jak wszystkie metody samopisu uważane są za mniej wartościowe niż testy - stąd określenie inwentarze - bo są podatne na zniekształcenia dwojakiego rodzaju: @możliwość świadomego i nieświadomego manipulowania odpowiedzią, tzn. symulacji i dysymulacji, zależnie od osobistych potrzeb oraz osobistych tendencji oraz zniekształceń związanych z błędami poznawczymi: wadliwą oceną zachowania w kategoriach ilościowych i czasowych, zapominaniem pewnych faktów z biografii, stereotypizacją i powierzchownością sądów rzutującą na odpowiedzi, trudnościami z rozumieniu pytań oraz uogólnieniu zachowania, rzutowaniu emocji na procesy poznawcze, zaangażowaniem obecnego czy typowego zachowania w ocenę zachowania relacjonowanego, itp. Ankiety oraz arkusze biograficzne - również bazują na samoopisie, ale są znacznie mniej wystandaryzowane. Dotyczą nie tyle zachowań, ile przekonań, poglądów oraz danych osobistych, które mogą być sprawdzone (np. przebieg pracy zawodowej czy zamożność gospodarstwa domowego, struktura wydatków, itp).

3). Test, w którym jednostka jest obserwowana w specyficznej sytuacji lub ogólniej w wielu określonych sytuacjach - test rejestruje dane obserwacyjne typowego zachowania lub wykonania zadania w naturalnych warunkach (próbki pracy zawodowej, arkusze ocen, arkusze szacowania cech). Próbki pracy są stosowane najczęściej w postaci symulatorów określonych zadań zawodowych, w trakcie wykonywania których jednostka jest obserwowana i oceniana albo w postaci obserwacji dokonywanej w trakcie realnej pracy zawodowej (obserwacja jest przeprowadzana w losowo wybranych momentach czasu pracy - dla jej trafności jest najlepiej, gdy pracownik nie jest świadom, że jest obserwowany). Należy przy tym odróżnić testy polegające na szacowaniu zachowania od obserwacji zachowania. Obie metody zbierania informacji o osobach badanych różnią się przede wszystkim stopniem sformalizowania procedury. Obserwacja jest metodą zakładającą konieczność celowego, wszechstronnego i systematycznego zbierania informacji przez dłuższy czas i przez specjalnie przeszkolonych obserwatorów, najlepiej psychologów. Szacowanie cech człowieka natomiast odwołuje się do wiedzy osób oceniających o danej osobie, uzyskanej głównie poprzez obserwację jej zachowania w naturalnych, często bardzo specyficznych i mało ustrukturalizowanych warunkach. Wiedza ta odzwierciedla niejako "naturalny" zasób informacji o zachowaniu ocenianych osób, zdobyty poprzez wybiórczą i niesystematyczną obserwację. Do szacowania zwykle wykorzystuje się specjalne skale szacunkowe lub kwestionariusze, w których pytania wyrażono w trzeciej osobie. Oszacowania zbiera się też zazwyczaj od kilku osób (co najmniej od dwóch), ponieważ oceny dokonywane przez pojedyńcze osoby może charakteryzować znaczna subiektywność i stronniczość, wynikająca z niejednorodności warunków obserwacji, jej długotrwałości, zróżnicowania relacji osób szacujących do osób ocenianych, itp.

Prezentacja wybranych testów

Testy maksymalnego wykonania - test Wechslera i test Ravena

Testy samoopisu - inwentarz NEO-FFI oraz skala Depresji Becka

Testy obserwacyjne (szacowania) - skala EAS-TS oraz skala obserwacji ucznia Markowskiej

Testy projekcyjne - test Rorschacha

Testy można klasyfikować także zależnie od specyfiki badanego konstruktu: formalnego - testy badające cechy-stany, psychologiczego - testy inteligencji-osobowości oraz celu diagnozy - testy zdolności-wiadomości. W tym momencie powstaje pytanie, gdzie testy mogą być zastosowane w praktyce?

Zastosowania praktyczne testów?

Metody testowe mają szeroki zakres zastosowania. Wbrew obiegowym opiniom, że testy są wynalazkiem współczesnej cywilizacji są też bardzo stare. Pierwsze informacje o testowaniu pochodzą z Chin z okresu ok. 3 tysięcy lat temu. Testy w postaci łamigłówek, układanek były używane tam do doboru kandydatów do służby państwowej - na stanowiska urzędnicze. W założeniu miały więc pozwalać na dobór osób o określonym poziomie umysłowym. We współczesnej cywilizacji testy inteligencji wiąże się z nazwiskiem !Bineta, który w 1905 roku we Francji opublikował pierwszy test pozwalający na pomiar poziomu umysłowego i diagnozę stopnia opóźnienia dzieci w rozwoju umysłowym, a więc diagnozowania tych dzieci, które nie miały szans na zdobycie wykształcenia w normalnym trybie. Za ojca inwentarzy osobowości uważa się zwykle Woodwortha, który w 1917 opublikował Arkusz Danych Osobistych, przeznaczony do wychwytywania osób neurotycznych przy kwalifikacji poborowych do armii amerykańskiej. Nie jest to jednak prawdą - jako pierwsi inwentarze psychologiczne konstruowali i stosowali holenderscy badacze temperamentu: Heymans i Wiersma. W 1906 roku opublikowali oni listę objawów. Ich osiągnięcia wykorzystał Woodworth w swojej pracy. Testy inteligencji rozpowszechniły się po pierwszej wojnie światowej, a inwentarze w trakcie drugiej wojny światowej w Stanach Zjednoczonych. Uznawany za jeden z najlepszych testów do badania inteligencji osób dorosłych - skala Wechslera - została opublikowana w 1939 roku, Ogólny Test Klasyfikacyjny - masowo używany do badania poborowych - opracowano w trakcie II wojny światowej, a Test Matryc Progresywnych Ravena - na krótko przed wybuchem II wojny. W trakcie wojny w 1943 roku został opublikowany jeden z podstawowych inwentarzy klinicznych MMPI Hathawaya i McKinleya, a w 1949 roku - 16 PF Cattela. Rozkwit testów i ich ekspansja w psychologii przypada na czasy po II wojnie światowej. Testy współcześnie uważa się za podstawowe metody diagnozy psychologicznej - także klinicznej, na co wskazuje fakt, że jeden z podstawowych inwentarzy do diagnozy klinicznej - MMPI wypiera konsekwentnie z użycia testy projekcyjne, a zwłaszcza test Rorschacha.

Testy są szeroko stosowane w badaniach psychologicznych naukowych i praktycznych. Te ostatnie zazwyczaj dotyczą:

a). przydatności zawodowej, która wiąże się z:

- doborem zawodowym - na podstawie wyników testowych są kwalifikowani lub dyskwalifikowani kandydaci do pracy; może to mieć postać selekcji negatywnej (odrzucanie osób nie wykazujących predyspozycji do jakiegoś zawodu) lub doboru (wybór osób wykazujących najlepsze predyspozycje do jakiegoś zawodu); dobór testowy jest prowadzony często w szkolnictwie zawodowym, np. wojskowym, ale także w zakładach pracy;

- poradnictwem zawodowym - na podstawie wyników testowych określających predyspozycje psychologiczne jest wypracowywana porada dotycząca sugestii podjęcia pracy w zawodzie najbardziej dostosowanym do możliwości człowieka lub sugestii o konieczności zmiany zawodu, gdy możliwości człowieka są niedostosowane (zbyt małe lub zbyt duże) do wymagań zawodowych i pracownik nie ma satysfakcjonujących osiągnięć zawodowych.

b). diagnostyce klinicznej - na podstawie wyników testowych stawiana jest diagnoza klasyfikacyjna i różnicowa typu zaburzeń zachowania (np. rodzaj psychozy, lokalizacja organicznego uszkodzenia mózgu), możliwości przystosowania się do wymagań szkolnych (np. w rezultacie upośledzenia umysłowego), podatności na choroby psychosomatyczne (np. obecność patologicznych wzorów zachowania, predysponujących do chorób somatycznych), stopnia odpowiedzialności za czyny przestępcze oraz do oceny możliwej skuteczności terapii wobec jednostki i realnej efektywności terapii w leczeniu zaburzeń zachowania.

c). diagnostyce zdolności specjalnych - na podstawie wyników testowych wybiera się osoby o wybitnych zdolnościach intelektualnych lub specjalnych (np. muzycznych, plastycznych, ruchowych) i kieruje do kształcenia indywidualnego, przyspieszonego.

Inaczej mówiąc - tam, gdzie psycholog podejmuje próbę diagnozy psychologicznej, tam może wykorzystywać testy do jej postawienia. Wobec tak szerokiego zastosowania testów przestały one już dawno być wyłączną własnością psychologów - weszły do świadomości społecznej i stały się jednym z elementów życia społecznego. W praktyce społecznej też testy i testowanie mocno identyfikowane są rolą zawodową psychologa. Z testów żyje też spora grupa psychologów. Można ich poklasyfikować na konstruktorów, adaptatorów, użytkowników oraz obserwatorów. Konstruktorzy tworzą testy i raczej rzadko je stosują w praktyce. Adaptatorzy, mając mniej inwencji twórczej, tłumaczą testy opracowane w innych krajach i przystosowują je do użytku we własnym kraju. Obserwatorzy nie stosują testów w ogóle, ale o nich piszą: teoretycy o tym, jak testy powinny być konstruowane, adaptowane i stosowane w badaniach psychologicznych, zaś etycy o tym, że nie powinny być stosowane, bo prowadzą do dyskryminacji społecznej. Wreszcie użytkownicy są prawdziwymi konsumentami testów, chociaż sami rzadko je konstruują i adaptują. Stosują je do diagnozy psychologicznej (i zazwyczaj są niezadowoleni z ich niedoskonałości diagnostycznej) albo je sprzedają - tworzą organizacje dystrybuujące testy i wyznaczające reguły ich stosowania, w tym respektowania praw autorskich, dzięki czemu są błogosławieni przez konstruktorów i adaptatorów. Zazwyczaj też za tymi zajęciami stoją określone postawy wobec testów: konstruktorzy traktują je jako swoje ukochane dzieci ("może mają wady, ale i tak są najlepsze na świecie"), adaptatorzy jak dzieci przysposobione ("moje, ale jednak cudze, więc nie takie znowu doskonałe"), teoretycy jak użyteczne narzędzia, etycy jak "dzieło szatana", użytkownicy badający testami jak niedoskonałą protezę ("są złe, ale w końcu czymś się muszę posługiwać"), zaś handlarze jak towar ("dobry czy zły - nieważne, ważne żeby się sprzedawał"). Testy mają swych fanatycznych zwolenników i zagorzałych przeciwników, i to nie tylko wśród psychologów. Wynika to z faktu dużej użyteczności testów, ale i dużej możliwości nadużycia diagnozy testowej.

Wykład 3.

PSYCHOLOGICZNY, METODOLOGICZNY, PSYCHOMETRYCZNY I ETYCZNY ASPEKT DIAGNOZY PSYCHOLOGICZNEJ ZA POMOCĄ METOD TESTOWYCH

Diagnostyka psychologiczna, realizowana za pomocą testów standaryzowanych, obejmuje cztery aspekty związane z pomiarem testowym cech: aspekt psychologiczny pomiaru, metodologiczny, psychometryczny oraz etyczny. Aspekt psychologiczny dotyczy tego, jakie treści psychologiczne są mierzone, w jakim celu i do jakich wniosków mogą prowadzić, metodologiczny - odnosi się do procedury dokonywania pomiaru testem i wnioskowania o wynikach, etyczny - konsekwencji życiowych i społecznych wynikających z pomiaru testem (dokładniej z błędu w diagnozie), zaś psychometryczny - wskaźników matematycznych dokumentujących jakość i poprawność pomiaru testem. Aspekty te są ze sobą ściśle powiązane - stanowią niejako "awers i rewers" tej samej monety.

Aspekt psychologiczny diagnozy związany jest z treścią psychologiczną pomiaru - dotyczy tego, co jest mierzone testem, w jakim celu jest mierzone i do jakich prowadzi wniosków? Odnosi się on zatem do:

a). problemu badawczego wyznaczonego przez cel diagnozy - źródłem działań diagnostycznych (pomiaru testem) jest zawsze hipoteza teoretyczna lub praktyczna - a zatem wybór treści pomiaru zależy bezpośrednio od celu diagnozy;

b). koncepcji (czy wiedzy) psychologicznej, precyzującej, jakie cechy psychologiczne są mierzone testem - cechy psychologiczne są ujmowane przez teorie psychologiczne. Testy tworzone są zwykle na podstawie określonych założeń teorii lub wiedzy, zebranej dla potrzeb praktyki psychologicznej, a zatem mają one sens tylko na gruncie tej teorii - poza nią są tylko zbiorem bezsensownych pytań lub zadań. Wybór testu i w konsekwencji treści pomiaru wiąże się przede wszystkim z analizą danego problemu w kategoriach teorii psychologicznej;

c). interpretacji i wniosków psychologicznych formułowanych na podstawie pomiaru testowego - interpretacja wyników testu odbywa się znów na gruncie danej teorii lub wiedzy psychologicznej - teoria dostarcza reguł pozwalających na ocenę wyników pomiaru i ale też jest podstawą do stawiania nowych hipotez diagnostycznych.

Pomiar testowy nie jest zatem pozapsychologiczny. Więcej od sposobu psychologicznego ujęcia problemu badawczego, teoretycznego ujęcia cech i sposobu interpretacji wyników zależą pozostałe aspekty diagnozy psychologicznej za pomocą testów. W węższym znaczeniu aspekt psychologiczny pomiaru testowego odnosi się do treści psychologicznej pomiaru - cech, jakie są mierzone testem. Rozpatrując problem pomiaru testowego będziemy jednak abstrahowali od aspektu psychologicznego - jest to bowiem problem teorii psychologicznych, a te są specyficzne dla poszczególnych testów. Zajmiemy się natomiast aspektami pozostałymi, są bowiem wspólne dla wszystkich metod testowych.

Aspekt metodologiczny diagnozy dotyczy formalnych reguł stosowania testu: procedury badania, obliczania wyników i transformacji na wyniki standaryzowane oraz interpretacji uzyskanych danych, a więc odnosi się do procesu dochodzenia do diagnozy psychologicznej. Aspekt metodologiczny wiąże się więc z wymaganiami standaryzacji, obiektywności i normalizacji testu. W swej podstawowej postaci dotyczy on konieczności przestrzegania instrukcji, przeznaczenia testu i reguł obliczania wyników oraz wnioskowania na ich podstawie. Konieczność respektowania procedury badania jest oczywista - odstępstwo od tych reguł przekreśla wartość testu - obniża jego rzetelność i trafność. Aspekt metodologiczny jest służebny zatem wobec aspektu psychologicznego - sprzyja poprawności i dokładności pomiaru testowego oraz jego interpretacji psychologicznej. Od aspektu metodologicznego zależy bezpośrednio natomiast aspekt psychometryczny i etyczny.

Aspekt metodologiczny pomiaru testowego w szerszym znaczeniu to także organizacja całego procesu badania - fazy wstępnej, tj. rozmowy psychologicznej, w trakcie której zbierane są informacje demograficzne, dokonywana ocena stanu emocjonalnego i psychofizycznego osoby badanej oraz jej motywacji (nastawienia) do badania i przeprowadzana jest ewentualna korekta tych stanów. Aspekt metodologiczny to także stosunek badającego do badanego zarówno w aspekcie emocjonalnym, jak i treściowym (merytorycznym), trwający przez całe badanie oraz faza końcowa, w której następuje obliczanie wyników i ocenianie ich, wymagające rzetelności i dokładności, komunikowanie rezultatów - wymagające zrozumienia i taktu oraz magazynowanie danych w celu aktualizacji norm, by diagnoza różnicowa była jak najdokładniejsza. Te aspekty pomiaru testowego są typowe dla każdej diagnozy psychologicznej, należy jednak zdawać sobie sprawę, że rzutują one także na jakość wyników, uzyskiwanych przy badaniu testowym.

Aspekt etyczny diagnozy testowej odnosi się do konsekwencji życiowych i społecznych dla osoby badanej, wynikających z pomiaru testem. Zazwyczaj na podstawie wyników badania podejmowane są decyzje ważne dla dalszego życia osoby badanej, dotyczące zakwalifikowania do zawodu, szkoły, terapii klinicznej. Od obiektywności i standaryzacji procedury badania, reprezentatywności norm oraz własności psychometrycznych testu - jego rzetelności i trafności - zależy los danego człowieka. Im większym błędem jest zatem obciążony pomiar testowy, tym potencjalnie większe jest ryzyko błędnej diagnozy i szkody, wyrządzonej danemu człowiekowi w efekcie podjęcia nieuzasadnionej decyzji kwalifikacyjnej. Ten problem etyczny, wynikający z małej trafności i obiektywności pomiaru testowego określa się mianem stronniczości (lub faworyzacji). Zjawiska te występują, gdy test mierzy nietrafnie cechy psychologiczne, tj. sugeruje istnienie różnic w nasileniu danej cechy, podczas gdy faktycznie różnice te nie istnieją. Prowadzi to do błędnej diagnozy psychologicznej i wysnuwania fałszywych wniosków psychologicznych. W przypadku, gdy wnioski te pociągają za sobą określone decyzje społeczne, to stronniczość pomiaru prowadzi do dyskryminowania (lub faworyzowania) określonych osób lub grup społecznych. Te zjawiska nierówności społecznej określa się mianem seksizmu, rasizmu, itp. Inny problem etyczny wiąże się z konsekwencjami ujawnienia tajemnicy pomiaru testowego osobom postronnym. Złamanie anonimowości jest naruszeniem praw osobistych, bowiem może prowadzić do negatywnych następstw emocjonalnych i społecznych u badanej osoby. Podobny problem dotyczy komunikowania wyników samej osobie badanej - jest to kwestia samej procedury badania, która wymaga wcześniejszego uprzedzenia o możliwych konsekwencjach badania (np. negatywna kwalifikacja lub możliwość doznania szkody emocjonalnej) oraz dobrowolności udziału, tj. przyznania osobie badanej prawa do odmówienia wzięcia udziału w badaniach (lub rezygnacji z badań nawet w ich trakcie). W przeciwnym razie prowadzi to do naruszenia wolności osobistej. Inne problemy etyczne wynikają z aspektu psychologicznego pomiaru i nastawienia wyłącznie na techniczną stronę badania testowego. Diagnoza pozbawiona jasno określonego celu badawczego i nie uwzględniająca "dobra" osoby badanej prowadzi do tzw. "etykietowania" lub stygmatyzowania (np. przypisywania komuś określeń typu "neurotyk", "wariat" - część psychologów uważa nawet, że pomiar testowy prowadzi nieuchronnie do etykietowania, które jest formą rasizmu). W większości jednak problemy etyczne pomiaru testowego wynikają z ahumanistycznego celu badania, tzn. gdy nie realizuje on dobra danego człowieka.

Aspekt psychometryczny diagnozy dotyczy dwóch kwestii: 1). uwzględniania we wnioskowaniu wskaźników psychometrycznych, charakteryzujących dokładność czy pewność diagnozy; 2). stosowaniu określonych procedur matematycznych do oceny jakości i poprawności pomiaru testowego, wynikających z modeli psychometrycznych i teorii pomiaru. Problem pierwszy wiąże się z faktem probabilistyczności zależności psychologicznych - ich wystąpienie nigdy nie jest pewne - zawsze jest jedynie prawdopodobne. Diagnoza psychologiczna również nigdy nie jest całkowicie pewna, ponieważ pomiar testowy nigdy nie jest całkowicie rzetelny i trafny. Ta niepewność pomiaru testowego musi być uwzględniana w diagnozie. Do tego celu służą wskaźniki psychometryczne, dokumentujące, na ile pomiar testowy jest rzetelny i trafny, jak duży jest błąd pomiaru i błąd przewidywania. Wskaźniki te są praktycznym zastosowaniem procedur matematycznych, pozwalających na oszacowanie wskaźników dobroci pomiaru. Problem drugi, tj. procedur psychometrycznych wynika z twierdzeń teorii pomiaru o niedoskonałości pomiaru, tj. obciążeniu pomiaru błędem wynikającym z niedoskonałości narzędzia pomiarowego i wad procedury pomiarowej. Procedury te służą do oceny własności danego narzędzia - estymacji jego możliwości pomiarowych i w konsekwencji formułowaniu oceny testu. Procedury te są ujmowane przez teorie psychometryczne, które są w teorii pomiaru tym samym, czym koncepcje w psychologii, tj. dostarczają pojęć wyjaśniających podstawowe zjawiska związane z pomiarem i twierdzeń ujmujących sposoby oszacowania własności pomiaru oraz maksymalizacji tych własności - zwiększania rzetelności i trafności pomiaru.

Podsumowując, pomiar testowy wymaga nie tylko znajomości teorii psychologicznych, metodologii prowadzenia badań i świadomości problemów etycznych, związanych z diagnozą. Wymaga także znajomości podstaw teorii pomiaru i podstaw psychometrii. Aspekty te są uniwersalne dla każdej formy użycia testu dla celów diagnozy psychologicznej. Muszą one być brane pod uwagę przez osoby konstruujące testy, bowiem od kontekstu psychologicznego zależy sposób konstrukcji testu, który z kolei rzutuje na własności psychometryczne pomiaru oraz jakość diagnozy, która może powodować stronniczość testu. Podobnie muszą być one brane przez osoby adaptujące testy, a zwłaszcza przez osoby stosujące testy w praktyce psychologicznej. Dla diagnozy psychologicznej za pomocą testów standaryzowanych najbardziej specyficzne są jednak problemy psychometryczne (pozostałe aspekty są wspólne z innymi sferami badań psychologicznych). Z tego powodu pomiar testowy określa się często mianem diagnozy psychometrycznej. Inaczej mówiąc specyfika podejścia testowego polega na tym, że odwołuje się on bezpośrednio do teorii pomiaru, zakładającej ilościowy charakter zjawisk psychologicznych pomiaru oraz modeli matematycznych, pozwalających na oszacowanie własności pomiaru. Tymi zagadnieniami będziemy zajmowali się na najbliższych wykładach.

Wykład 4.

SPECYFIKA POMIARU RÓŻNICOWEGO W PSYCHOLOGII - TESTY JAKO NARZĘDZIA DO BADANIA SPECYFIKI JEDNOSTKI

Dla każdej empirycznej dziedziny wiedzy czynnikiem nadającym jej status nauki jest możliwość weryfikacji jej twierdzeń w praktyce. Aby to było możliwe, dla przedstawicieli tej dyscypliny konieczne jest dokonanie obserwacji określonych zjawisk, inaczej mówiąc rejestracji określonych zmiennych. Do tego celu konieczne jest posiadanie instrumentów pomiarowych. Pomiar najogólniej rzecz biorąc polega na przyporządkowaniu poszczególnym obiektom tworzącym daną populację pewnych liczb, także wtedy gdy służą one wyłącznie prostej kategoryzacji tych obiektów. Dokładność tych instrumentów decyduje o tym, że pomiar jest dokonywany na skalach pomiarowych o różnej „subtelności” badawczej; nominalnych, porządkowych, przedziałowych oraz ilorazowych. To zaś decyduje o precyzji formułowanych wniosków i w konsekwencji o możliwych operacjach statystycznych, dokonywanych na danych. Problemy te znane są już ze statystyki i nie będziemy dłużej nad klasyfikacją Stevensa się zastanawiali.

W psychologii obiektem pomiaru są różne aspekty zachowania człowieka. W odróżnieniu jednak od nauk fizykalnych psychologowie rzadko dysponują możliwością dokonywania pomiaru na skali ilorazowej (poza psychofizyką, w której możliwe jest zastosowanie instrumentów fizyki, np. do pomiaru siły bodźca). W większości wypadków badanie danego zjawiska odbywa się na skali co najwyżej porządkowej - niekiedy (co jest celem diagnozy psychologicznej) - przedziałowej. Wynika to z faktu, że dla zmiennych psychologicznych i zjawisk psychicznych trudno jest wskazać tzw. zero absolutne. W tej sytuacji psychologowie posługują się tzw. zerem względnym - uznając za ten punkt odniesienia średnią grupową i charakteryzują poszczególne jednostki w relacji do tej średniej, za pomocą statystycznych miar rozproszenia. O takim pomiarze mówimy, że ma on charakter różnicowy (określenie jest mało precyzyjne bowiem każdy pomiar fizykalny też służy różnicowaniu, np. pomiar temperatury). W naukach fizykalnych jednak zjawiska fizyczne są charakteryzowane poprzez odniesienie do określonej arbitralnej skali, niezależnej od pomiaru, podobnie jak niezależne od pomiaru są instrumenty badawcze. W psychologii jednak celem pomiaru jest różnicowanie ludzi między sobą - skala jest więc zależna od pomiaru i mierzonego obiektu. Jest ona konstruowana tak, aby służyć jak najlepszemu różnicowaniu poszczególnych jednostek. Podobnie nie są niezależne od pomiaru instrumenty badawcze - testy. Są one budowane tak, by umożliwiać jak najlepsze różnicowanie określonej populacji. W tym znaczeniu zatem fizykalna miara długości może być używana do mierzenia wszystkich obiektów, którym przysługuje cecha „długości” (rozciągłość w przestrzeni). W psychologii natomiast testy mogą być stosowane wyłącznie w odniesieniu do populacji, dla której zostały stworzone. Przykładowo testy zbudowane w jednych warunkach kulturowych muszą być adaptowane do innych warunków kulturowych.

Problem związku między skalą pomiarową a badanymi obiektami ma także inny aspekt- sam fakt testowania wpływa na osoby badane i więcej - kreuje fakty psychologiczne. W najbardziej podstawowej postaci oznacza to, że badane zmienne psychologiczne nie istnieją realnie, niezależnie od pomiaru. W procesie różnicowania ludzi poprzez testy bowiem kreowane są określone zmienne. W tym znaczeniu cechy, np. inteligencja nie jest bytem niezależnym od pomiaru (niezależnie od tego, czy jest badana za pomocą testu czy oceniana na podstawie osiągnięć życiowych, szkolnych lub towarzyskich, a więc metody badania). Z tego względu mówimy, że cechy psychologiczne są zmiennymi latentnymi, bowiem w istocie ludzie tylko zachowują się w określony sposób (tylko zachowanie jest zmienną obserwowalną) - a psychologowie na podstawie charakterystyki tego sposobu zachowania się wnioskują o określonej cesze. W pewnym sensie zatem psychologowie badają zjawiska nie istniejące realnie... To jednak, że badanie ma określony związek z sytuacjami życiowymi (a więc, że nasze obserwacje mają określoną trafność) wynika z tego, że realne sytuacje życiowe działają podobnie jak testy - wywołują określone zachowania, które podlegają zbliżonej weryfikacji i ocenie.

W innej postaci fakt ten oznacza też, że jest możliwe kreowanie rzeczywistości psychologicznej istniejącej wyłącznie w trakcie badania psychologicznego i nie mającej odniesienia do realnych sytuacji życiowych. Przykładowo niekiedy mówimy o postawach wobec badania, rozumiejąc przez to gotowość współpracy osoby badanej z psychologiem czy uruchomioną poprzez fakt badania tendencję do symulacji czy dysymulacji. Mamy wówczas na myśli możliwy fakt, że zjawiska te nie występują w innych warunkach niż badanie psychologiczne. I gdyby do badania nie doszło, to może nigdy fakty te by nie zaistniały. Zatem możliwe jest także, że za pomocą narzędzi psychologicznych prowokowane jest wystąpienie bardzo specyficznych sytuacyjnie zachowań i tworzone są zmienne nie mające żadnego realnego związku z sytuacjami życiowymi osób badanych. Innymi słowy jest możliwe, że psychologowie niekiedy badają cechy czy stany sztucznie wytworzone poprzez badanie psychologiczne.

I wreszcie ostatnią konsekwencją tego faktu, jest to, że sam fakt testowania nie pozostaje bez wpływu na osoby badane. W badaniach fizykalnych zjawisko to niemalże nie występuje (fakt mierzenia stołu nie rzutuje na jego długość, w znaczeniu jej nie zmienia), poza zjawiskami podlegającymi zasadzie nieoznaczoności Heisenberga (mierzenie położenia cząstek elementarnych nie pozwala na precyzyjne określenie ich pędu i odwrotnie). W badaniach psychologicznych samo badanie może nie tylko zmieniać bieżące zachowanie osób badanych, o czym mówiliśmy wcześniej. Może jednak także rzutować na ich przyszłe zachowania - zmieniać ich sposób widzenia rzeczywistości i siebie samych. I co najważniejsze z czysto technicznego punktu widzenia, może zmieniać warunki przyszłych badań. W naukach fizykalnych pomiar jest możliwy wiele razy. W badaniach psychologicznych zazwyczaj tylko raz, bowiem osoby badane pamiętają określone zadania czy są specyficznie uwrażliwione na określone bodźce. To zaś powoduje, że jeden pomiar rzutuje na pomiary kolejne - nie są one zatem niezależne i ich wyniki nie są niezależne.

Podobieństwo pomiaru psychologicznego do nauk fizykalnych wiąże się natomiast z tym, że pomiar fizyczny, jak i psychologiczny jest obciążony pewnym błędem i nie jest zatem doskonały. Inne są jednak uwarunkowania tego błędu - wynikają one nie tylko z wad narzędzi pomiarowych, ale i ze specyfiki badanych obiektów. Są zatem zależne od zachowania osoby badanej - jej fluktuacji uwagi, chwilowych stanów psychofizycznych czy specyficznych zniekształceń występujących w procesie postrzegania czy przetwarzania informacji. A ponadto w psychologii błędy pomiaru mogą mieć nie tylko charakter losowy, ale i systematyczny - co powoduje, że w określonych warunkach test może mierzyć zupełnie inne cechy niż te, do badania których jest przeznaczony.

Podsumowując badania psychologiczne wykazują daleko idącą specyfikę, która wiąże się w głównej mierze z tym, że pomiar psychologiczny ma charakter różnicowy. Jeśli zatem w danej populacji nie istniałoby zróżnicowanie międzyosobnicze, to pomiar różnicowy byłby niemożliwy. Celem pomiaru psychologicznego jest zatem różnicowanie ludzi - określenie ich specyfiki na tle innych jednostek z danej populacji. Taki cel ogólny znalazł w psychologii dwa rozwiązania. Podejście pierwsze znane jest pod określeniem podejścia idiograficznego. Jego celem jest uchwycenie specyfiki jednostki, poprzez przypisanie jej specyficznych cech i określenie specyficznego splotu okoliczności, które doprowadziły do wystąpienia określonych zachowań czy faktów psychologicznych, np. biograficznych. Podejście to ma charakter raczej jakościowy i populacja jest używana w nim wyłącznie jako tło, z którego należy wyróżnić daną jednostkę. Jeśli opis jest dokonywany w kategoriach cech, to tylko takie cechy są brane pod uwagę, które charakteryzują wyłącznie danego człowieka (Allport - cechy specyficzne). Celem drugiego podejścia - znanego pod nazwą podejścia nomotetycznego - jest określenie specyfiki jednostki poprzez wskazanie charakterystycznego dla niej nasilenia właściwości psychologicznych, wspólnych dla określonej populacji. Cechy specyficzne nie brane są zatem pod uwagę, a jedynie te cechy, które są wspólne dla określonej populacji, choć wykazują różne nasilenie dla poszczególnych jednostek (Allport - cechy ogólne). Podejście to zatem z definicji ma charakter ilościowy i populacja służy w nim jako elementarny i niezastępowalny punkt odniesienia. Testy standaryzowane są używane w obu podejściach, chociaż dla podejścia idiograficznego bardziej charakterystyczne są metody nieformalne i testy projekcyjne. Dla podejścia nomotetycznego charakterystyczne jest natomiast stosowanie klasycznych testów standaryzowanych. W istocie też pomiar ilościowy i różnicowy jest właściwy dla tego podejścia i na nim będziemy się zatem koncentrowali.

U podstaw pomiaru ilościowego w psychologii legły obserwacje poczynione przez psychologów różnic indywidualnych. Zaobserwowali oni mianowicie, że w zakresie każdej formy zachowania istnieją wyraźnie zaznaczone różnice międzyosobnicze. Istnienie tej zmienności wydaje się populacyjnie adaptatywne - zwiększa szansę przetrwania określonej populacji w przypadku drastycznych zmian środowiska.

Należy podkreślić, że w psychologii zazwyczaj nie mamy możliwości pomiaru ilorazowego (wyjątkowo rzadko - w odniesieniu do określonych funkcji psychofizjologicznych). Dostępny jest tylko pomiar różnicowy, który wykorzystuje różnice w zachowaniu osób badanych. Z tego względu występuje problem populacji odniesienia dla danej osoby badanej, który ma ważkie konsekwencje diagnostyczne: oznacza konieczność normalizacji wyników testowych oraz konieczność adaptacji kulturowej i demograficznej testów (skonstruowanych do badania innych populacji - nie mogą być w prosty sposób przenoszone z badania jednej populacji do badania innej populacji).

Zaobserwowano również, że w przypadku populacji ludzkich zmienność danej formy zachowania ma kształt rozkładu normalnego. Taki kształt mają zarówno cechy fizyczne, jak wzrost czy waga, ale także cechy psychiczne, jak przykładowo inteligencja. Jeśli celem pomiaru różnicowego w psychologii jest zatem scharakteryzowanie specyfiki jednostki poprzez zróżnicowanie określonej populacji, to jest oczywiste, że różnicowanie to powinno następować w obrębie rozkładu normalnego. Innymi słowy nasze instrumenty pomiarowe powinny być tak zbudowane, by uzyskiwane za ich pomocą wyniki dawały rozkład normalny. Wymagane jest zatem by pomiar był dokonywany na skali przedziałowej (możliwe operacje to sumowania i odejmowania).

Punktem odniesienia dla pomiaru różnicowego jest zatem średnia rozkładu wyników - zero względne, w stosunku do którego, za pomocą miar rozproszenia, charakteryzowane są poszczególne jednostki. Spróbujmy zatem miary te zdefiniować.

Średnia jest średnią arytmetyczną wyników i jest obliczana wg wzoru: Mo= (∑Xi)/ N. Inne znane miary położenia to wartość medialna (wynik środkowy w ciągu wyników uporządkowanych wg wielkości) oraz wartość modalna (wynik najczęstszy w danej populacji). W stosunku do tych wartości centralnych generowane są miary rozproszenia (dyspersji). Do podstawowych z nich należą: odchylenie standardowe (So = √ [∑ (X - Mo)2] / N) oraz wariancja (So2 = √ [∑ (X - Mo)2] / N), ale także odchylenie przeciętne i kwartylowe. Stosowane powszechnie komputerowe pakiety statystyczne wprowadzają w mianowniku estymatory nieobciążone (N-1), ale w psychometrii możliwe jest zastosowanie wzorów dla populacji (a nie wyłącznie prób). Zastosowanie obu postaci wzorów nie wprowadza przy tym żadnych znaczących zmian w algebrze testowej. Stosowanie danych miar położenia i rozproszenia zależy od skali pomiarowej. Medianę i odchylenie kwartylowe stosujemy dla skal porządkowych, średnią arytmetyczną i wariancję oraz odchylenie standardowe wyłącznie dla skali przedziałowej.

Zatem punktem odniesienia dla pomiaru różnicowego jest średnia wyników w określonej populacji, zaś miarą owego zróżnicowania - odchylenie standardowe. Dla wygody psychologowie posługują się jednak częściej wariancją (ze względu na możliwość sumowania wariancji). Co charakteryzuje rozkład normalny:

a). krzywa jest symetryczna: średnia, wartość modalna i medialna występuje w jednym punkcie;

b). średnia jest równa 0,00, odchylenie standardowe (i wariancja) jest równe 1,00, przy czym rozkład obejmuje zarówno wartości ujemne, jak i dodatnie;

c). krzywa jest asymptotyczna do osi poziomej - zbliża się do niej, ale nigdy jej nie osiąga, rozciąga się od minus do plus nieskończoności;

d). zagięcia krzywej znajdują się w granicach jednego odchylenia standardowego powyżej i poniżej średniej;

e). znane są wielkości powierzchni pod krzywą: w granicach jednego odchylenia standardowego powyżej i poniżej średniej mieści się około 2/3 (68%) powierzchni, 15% powierzchni pozostaje poza granicami 1,44 So, zaś 5% poza granicami - 1,96 So i 1% poza granicami 2,58 (jednostronnie wartości te odpowiadają wielkościom So równym odpowiednio: 1,04, 1,65 i 2,33).

Ten idealny rozkład normalny jest przyjmowany w psychologii jako wzorzec rozkładu cech psychologicznych i wyników badań testowych. Przyjmujemy zatem, że punktem odniesienia (zerem względnym) jest średnia wyników testowych, miarą zmienności odchylenie standardowe, zaś powierzchnie pod krzywą odpowiadają częstości występowania określonych wyników w badanej populacji. Przykładowo w zakresie 1 So mieści się około 68% wyników (osób uzyskujących określone wyniki), w zakresie 1,96 - 95% wyników, itd. Zatem charakteryzując wyniki uzyskiwane przez daną osobę w jednostkach odchylenia standardowego od średniej populacyjnej potrafimy jednocześnie określić częstość ich występowania.

Przyjęcie jako wzorca rozkładu normalnego wymaga by skala pomiarowa wykazywała dwie własności: była skalą ciągłą, przyjmującą wiele wartości oraz by poszczególne wartości skali dzieliły równe odległości. Własność pierwsza jest trudna do uzyskania, gdy pozycja stosowana w teście jest oceniana w systemie zero-jedynkowym. Innymi słowy, gdy rejestrujemy tylko fakt rozwiązania lub nierozwiązania danej pozycji (zadania lub pytania). Jest to dopiero możliwe, gdy zastosujemy całą kombinację (baterię) pozycji, których suma informuje o uzyskanym przez osoby badane wyniku. Uzyskiwana skala jest co prawda uskokowiona, bowiem wynik ogólny jest liczbą rozwiązanych pozycji i jest wyrażony w liczbach naturalnych, ale ma może ona przyjmować wiele wartości. Taki system oceny jest najprostszy i najbardziej popularny w psychologii. Zwykle też odpowiedzi na jedną pozycję traktuje się jako pomiar na skali nominalnej, wynik całego testu na skali porządkowej, zaś po normalizacji - na skali przedziałowej (chociaż wielu badaczy uważa, że już dla pozycji uzyskujemy pomiar na skali porządkowej - pomimo rang wiązanych, zaś dla testu - na skali przedziałowej). Konsekwencję takiego sposobu badania jest przede wszystkim fakt, że test musi zawierać wiele pozycji. W przypadku zastosowania skali Likerta do oceny odpowiedzi (np. 5 lub 7 - stopniowej), konieczność różnicowania osób badanych wymaga już mniejszej liczby pozycji.

Innymi słowy, sama konieczność pomiaru ilościowego wymaga zastosowania w teście nie tyle jednej, ile całej baterii pozycji. Konieczność ta ma jednak także swoje uzasadnienie diagnostyczne, a nie tylko pomiarowe. Rozwiązanie danej pozycji (lub nie), podobnie jak zachowanie w określonej sytuacji jest diagnostycznie niejednoznaczne. W sytuacji badania może ono wynikać nie tyle z posiadania przez jednostkę określonych umiejętności, wiedzy czy cech osobowości, ile z prostego faktu zgadywania. W takim wypadku nie potrafilibyśmy odróżnić osób posiadających daną cechę od osób uzyskujących przypadkowe rozwiązania. Nasza diagnoza byłaby obciążona zatem bardzo dużym błędem.

W diagnostyce psychologicznej generalnie mówimy, że rozwiązanie danej pozycji, jak i zachowanie w określonej sytuacji jest uwarunkowane wieloprzyczynowo. Dopiero rozwiązanie wielu pozycji zwiększa prawdopodobieństwo, że jednostka posiada daną cechę. Jeśli wskaźnikiem nerwicy jest wystąpienie szeregu objawów somatycznych, zaburzeń emocjonalnych czy behawioralnych, to nie możemy o tym fakcie wnioskować wyłącznie na podstawie występowania u człowieka jednego objawu. Zaburzenia sercowo-naczyniowe mogą bowiem występować zarówno u pacjentów kardiologicznych (jako efekt wady serca), u osób po zapaleniach płuc, astmatyków, itd. oraz naturalnie u neurotyków. Na podstawie tego jednego objawu wszystkich tych chorych traktowalibyśmy jako neurotyków, co prowadziłoby do totalnie błędnej diagnozy. U neurotyków bowiem współwystępują objawy somatyczne z zaburzeniami behawioralnymi i emocjonalnymi, które to zaburzenia nie występują u innych chorych. Innymi słowy, o diagnozie nerwicy decyduje współwystępowanie (koincyndencja) objawów chorobowych. Każdy z tych objawów może być specyficzny dla wielu różnych chorób, ich kombinacja (współwystępowanie) - jest specyficzne wyłącznie dla nerwicy. Ta diagnostyczna niejednoznaczność decyduje zatem o konieczności zastosowania wielu pozycji w teście niż tylko jednej.

Konieczność ta ma także swoje uzasadnienie na gruncie psychologii różnic indywidualnych. Jeśli chcemy badać przykładowo zdolności werbalne, to stosujemy zadania wymagające wykonywania różnych czynności na materiale werbalnym - rozumienia treści, rozumowania, przekształcania słów, itp. Diagnozowana zdolność ma wówczas charakter ogólny. W przeciwnym razie charakteryzując jednostkę musielibyśmy zejść na poziom elementarny, opisując jej zdolności w kategoriach czynności, np. zdolności mechaniczne poprzez zdolność wbijania gwoździ i zdolność wyciągania ich z deski, itp. Konieczność przyjęcia pewnego poziomu ogólności wymaga zatem zastosowania wielu różnych pozycji, badających różne przejawy danej cechy. O ile zatem zachowania mają charakter elementarny, to cecha jest bytem ogólnym, o której wnioskujemy na podstawie współwystępowania elementarnych zachowań.

!Podsumowując, z istoty diagnozy psychologicznej (konieczność pomiaru ilościowego, niejednoznaczności rozwiązania pojedynczych pozycji oraz elementarności diagnostycznej pojedynczych wskaźników) wynika konieczność stosowania w testach całej baterii pozycji. W sensie statystycznym, test jako całość jest jedną sumą własności pozycji. Każda własność testu jako całości wynika z własności poszczególnych zadań.

Dla zadań z rozwiązaniem zero-jedynkowym średnia arytmetyczna jest równa proporcji osób, które rozwiązały daną pozycję. Inaczej mówiąc odpowiedziały zgodnie z kluczem, a więc zgodnie z arbitralnie przyjętym założeniem jaka odpowiedź jest diagnostyczna dla danej cechy, np. wskazuje na posiadanie danej zdolności lub cechy osobowości. Odchylenie standardowe natomiast jest pierwiastkiem kwadratowym z iloczynu proporcji osób, które udzieliły poprawnej odpowiedzi i proporcji osób, które udzieliły odpowiedzi niepoprawnej. Średnia pozycji jest jednocześnie wskaźnikiem jej trudności. Gdy jest równa 0,50 to zadanie charakteryzujemy jako przeciętnie trudne, gdy jest niska, np. 0,10 - jako trudne, gdy wysoka, np. 90% - jako łatwe. Z punktu widzenia różnicowania danej populacji najbardziej przydatne są zatem zadania o trudności przeciętnej -` pozwalają one bowiem na odróżnienie 50% osób, inne są mniej różnicujące, pozwalają bowiem na odróżnienie tylko małej części osób, pozostałych pozostawiających niezróżnicowanych, np. 90% populacji. W zadaniach ze skalą Likerta średnia i odchylenie standardowe są obliczane jak tradycyjne miary statystyczne.

Średnia całego testu jest sumą średnich poszczególnych pozycji. Wariancja natomiast jest sumą wariancji poszczególnych pozycji i podwojonej kowariancji (nie możemy sumować odchyleń standardowych, stąd posługujemy się wariancjami). W testach, których pozycje odpowiadają wartościom losowym, wyrażenie kowariancyjne jest równe zero, stąd wariancja testu jest prostą sumą wariancji poszczególnych pozycji. W testach psychologicznych natomiast wariancja testu jako całości jest wyższa niż suma wariancji pozycji. Istnieje w nich bowiem dodatkowa wariancja, nie redukowalna do własności poszczególnych pozycji. Wynika ona z istnienia określonych relacji pomiędzy poszczególnymi pozycjami - a mianowicie ich skorelowania. Inaczej mówiąc, wiąże się ona ze współwystępowaniem rozwiązań poszczególnych pozycji - z faktem, że niektóre osoby systematycznie udzieliły większej liczby diagnostycznych odpowiedzi dla danej cechy, a inne mniejszej liczby. W efekcie tego - tzn. koincyndencji zachowań - poszczególne pozycje dodatnio ze sobą korelują. Fakt ten zwiększa zróżnicowanie obserwowalne w teście (wariancję testu wynikającą z sumy wariancji poszczególnych pozycji) o wyrażenie kowariancyjne. Im pozycje silniej ze sobą korelują, tym wyrażenie to jest większe i większy jest jego wkład w wariancję testu jako całości. Uzyskanie tego wyrażenia kowariancyjnego jest jednak możliwe wyłącznie wówczas, gdy stosujemy kilka pozycji w teście, a nie jedną. Mówiąc o korelacji, mam na myśli klasyczny współczynnik Pearsona lub jego odmianę dla skali nominalnej - phi.

Dołączenie do testu pozycji, która nie koreluje z innymi pozycjami (a w konsenkwencji i z wynikiem całego testu) powoduje, że zwiększa ona średnią testu jako całości, a tylko marginalnie zwiększa ona wariancję testu - o wariancję własną, nie wprowadzając wyrażenia kowariancyjnego. Zatem, nie wnosi ona niczego do diagnozy danej cechy, niepotrzebnie tylko wydłużając test (zazwyczaj zwiększając losowo wyniki poszczególnych osób). W sensie diagnostycznym, jest to jak wprowadzenie pytania w teście diagnozującym objawy nerwicowe o fakt nie mający żadnego związku z tym zaburzeniem, np. wielkość obuwia. Nie wnosi ono niczego do diagnozy nerwicy, a prowadzi tylko do niepotrzebnej straty czasu. Podobnie nie ma żadnego sensu wprowadzanie zadań o zerowej zmienności - jeśli jest rozwiązane przez wszystkich, to zwiększa ono wyniki wszystkich osób o stałą wartość lub - jeśli nie jest rozwiązane przez nikogo - to nie dodaje niczego do wyników (a zajmuje tylko miejsce). Gorzej jeśli natomiast zadanie ujemnie koreluje z innymi zadaniami (oraz całym testem). Kowariancja tej pozycji bowiem zmniejsza wtedy zmienność wyników całego testu - wyrażenie kowariancyjne odejmuje się od wariancji całkowitej.

Psychologowie zainteresowani są zatem wprowadzaniem do testu wielu pozycji, ale po warunkiem, że różnicują one poszczególne osoby (ujawniają różnice międzyosobnicze) oraz dodatnio korelują ze sobą - wprowadzają dodatnią kowariancję, dodatkowo różnicującą daną populację. Istnienie kowariancji, wynikającej ze współzmienności zachowań jest kluczowe dla testów psychologicznych - to ono decyduje o możliwości diagnozy danej cechy (konstytuuje cechę) i ono decyduje o rzetelności i trafności pomiaru.

Ideałem byłoby zatem by zadania korelowały całkowicie ze sobą. Fakt ten jest jednak niemożliwy nie tylko ze względu na błąd pomiaru i wieloprzyczynowe uwarunkowania danego zachowania oraz niejednoznaczność diagnostyczną poszczególnych pozycji. Powoduje to, że korelacje są zawsze niższe od jedności. Uzasadnia to konieczność stosowania w teście wielu zadań, w przeciwnym wypadku korelacje całkowite uzasadniałyby używanie tylko jednego zadania. Na podstawie jednego zadania moglibyśmy też przewidywać wyniki wszystkich innych zadań. Pomiar psychologiczny zatem - w moim przekonaniu - ze swej natury nigdy nie będzie doskonały i jednocześnie deterministyczny. Dalekie od jedności interkorelacje pozycji i zachowań powodują, że tylko z określonym prawdopodobieństwem możemy wnioskować o ludzkich cechach.

Druga wymagana własność pomiaru psychologicznego zakłada, by wartości skali pomiarowej dzieliły równe odległości. Matematycznie jest to możliwe do uzyskania poprzez zastosowanie liczb naturalnych: liczbę 2 dzieli od liczby 1 taka sama różnica, jak liczbę 3 od liczby 2. Rzecz jednak w tym, aby odległości te odpowiadały odległościom psychologicznym, a nie tylko matematycznym. Na poziomie poszczególnych zadań wymaga się zatem, aby odległości dzielące poszczególne punkty skali były równe liczbowo, np. w pięciostopniowej skali Likerta wynosiły one 1-2-3-4-5. Niekiedy jednak - ze względu na oczekiwaną trafność przedziały te nie są równe, np. 1-4-5-7 (1 = norma, 4-5 = patologia, 7=ciężka patologia). Wagi takie są jednak specyficzne wyłącznie dla testów kryterialnych i tutaj nie będziemy się nimi bliżej zajmować.

Na poziomie całego testu wymaga się by poszczególne pozycje wnosiły jednakowy wkład do wyniku całkowitego. Innymi słowy, by różnicy między rozwiązaniem 5 a 6 zadań odpowiadał ten sam przedział zdolności, co różnicy między rozwiązaniem 14 i 15 zadań w teście składającym się z 20 zadań (przy założeniu pełnej przechodniości zadań). Założenie to wymaga, by korelacja danej pozycji z innymi pozycjami (lub danej pozycji z całym testem) była identyczna dla wszystkich pozycji oraz by pozycje te miały identyczne wariancje. Wkład danej pozycji do wariancji testu jako całości bowiem jest sumą jego własnej wariancji i sumy kowariancji z innymi pozycjami. W przypadku, gdy wariancje nie są równe lub nieidentyczne są korelacje poszczególnych pozycji, ich wkład nie jest równy. Pozycja z większą wariancją wnosi więcej do wariancji testu niż pozycja z mniejszą wariancją oraz - z uwagi na znaczącą wielkość wyrażenia kowariancyjnego - pozycja silniej skorelowana z pozostałymi pozycjami wnosi znacznie więcej do wariancji całkowitej niż pozycja mniej skorelowana. Powoduje to, że mają one różne znacznie diagnostyczne oraz zaburzają liniowość związku pomiędzy cechą a skalą (równym przedziałom matematycznym skali odpowiadają nierówne przedziały cechy). Przy diagnozie cech osobowości zatem, rozwiązanie zadania 6 może być bardziej znaczące diagnostycznie niż zadania 15 (objaw 6 może być osiowy, objaw 15 raczej marginalny). Podobnie przy diagnozie zdolności rozwiązanie zadania 6 może wymagać znacznie większego poziomu zdolności ponad poziom wymagany dla zadania 5 niż analogiczny przyrost na poziomie zadań 15 i 16.

Psychologowie usiłują uzyskać ten efekt wprowadzając identyczne matematycznie wagi dla wszystkich pozycji, np. za rozwiązanie danego zadania przyznając identyczną wartość równą 1. Jeśli jednak charakterystyka psychometryczna pozycji nie jest identyczna, to efekt ten pozostaje. Z tego względu często postuluje się ważenie pozycji, tj. przypisywanie poszczególnym pozycjom różnych liczbowo wag, np. rozwiązaniu zadania 6 wagi 4punktów, zadania 15 - 2 punktów, a zadaniom 5 i 14 - po jednym punkcie. Wagi te są proporcjonalne albo do trudności zadania albo jego korelacji z innymi zadaniami. W testach kryterialnych wagi tej zazwyczaj są różnicowane zgodnie z korelacją pozycji z kryterium - i odpowiadają wartości diagnostycznej pozycji (dla diagnozy schizofrenii większe znacznie ma fakt występowania halucynacji sensorycznych niż złego samopoczucia). Niestety wagą systemu ważenia jest niestabilność międzypróbkowa wag - przy zmianie grupy osób badanych wagi się zmieniają, stąd psychologowie zazwyczaj wybierają rozwiązanie najprostsze, przyznając jednakowe wagi wszystkim pozycjom.

Podobnie inne statystyki rozkładu wyników, jak przykładowo kształt rozkładu wyników testu jako całości dadzą się wyprowadzić z charakterystyki psychometrycznej pozycji. Idealny rozkład normalny (tzw. mezokurtyczny) może być uzyskany albo z pozycji o dodatnich interkorelacjach i przeciętnej średniej albo o zadaniach o zróżnicowanej trudności i wysokich interkorelacjach. Gdy jednak - w przypadku pierwszym - interkorelacje nadmiernie wzrastają, rozkład spłaszcza się (staje się platokurtyczny) i w dalszej kolejności dwumodalny (kształt litery „U”). Gdy interkorelacje pozycji maleją albo stają się wręcz ujemne, rozkład wyników zaczyna być nadmiernie skoncentrowany wokół średniej (staje się leptokurtyczny) i w dalszej kolejności jednomianowy (wszyscy mają jeden wynik). Interkorelacje pozycji są więc decydujące dla stopnia skupienia wyników wokół średniej, a mianowicie kurtozy.

Dla drugiej statystyki rozkładu, a mianowicie skośności decydujące są natomiast średnie pozycji. Rozkłady skośne są uzyskiwane w przypadku pozycji albo bardzo łatwych albo bardzo trudnych (przy założeniu ich dodatniego skorelowania).

W przypadku opisanych anomalii rozkładu wyników ich związek jest jasny - testy jako skale pomiarowe wykazują zaburzenia liniowości pomiędzy skalą a badaną cechą, a zatem nie pozwalają na odpowiednie różnicowanie w określonych obszarach rozkładu cechy: albo zwiększając nadmiernie różnice międzyosobnicze w określonych obszarach (blisko średniej lub na krańcach) albo wyłącznie w obrębie jednego z krańców. Testy takie mogą mieć co prawda zastosowanie do specyficznych zadań diagnostycznych, ale w większości przypadków optimum diagnostycznym jest uzyskanie normalnego rozkładu wyników.

!!Powtórzmy zatem główne wnioski tego wykładu: test psychologiczny musi zawierać niejako z natury pomiaru psychologicznego szereg pozycji. Własności testu jako całości są sumą własności psychometrycznych pozycji i ich interkorelacji. Zakładamy przy tym, że pozycje testowe są psychometrycznie i diagnostycznie równoważne (mierzą w tym samym stopniu daną cechę i z taką samą dokładnością). Żałożenie to jest jednak ma charakter idealizacyjny - w praktyce jest bardzo trudne znalezienie zbioru pozycji o identycznych własnościach psychometrycznych i diagnostycznych. Efektem tego jest jednak zaburzenie liniowej relacji między cechą a wynikami testu (kształt rozkładu wyników odbiega od idealnego rozkładu normalnego), co może być przezwyciężone jedynie poprzez normalizację wyników testowych.

O możliwościach diagnostycznych testu decydują jednak nie tylko poszczególne zadania, ale także ich interkorelacje. Interkorelacje są też nośnikiem rzetelności i trafności pomiaru. O tym będziemy jednak będziemy mówili na następnym wykładzie.

Wykład 5.

RZETELNOŚĆ POMIARU TESTEM - PODSTAWOWE POJĘCIA

Teoria pomiaru przyjmuje, że przedmiotem wszelkiego pomiaru są takie własności obiektów, które przysługują tym obiektom w różnym stopniu. Własności te określa się mianem cech modalnych - ilościowych. W psychologii, dla której obiektem badania jest człowiek, przedmiotem pomiaru są wartości jego cech psychologicznych: osobowości, temperamentu, zdolności, itp. Każdy pomiar jest jednak obciążony pewnym błędem, wynikającym z samego pomiaru, tj. wad procedury mierzenia lub niedoskonałości (nierzetelności) narzędzia pomiarowego. W psychologii narzędziami pomiarowymi są testy, a zatem ich niedoskonałość jest przyczyną powstawania błędu pomiaru. @Zagadnieniem wnioskowania i oszacowania wielkości błędu przy pomiarze psychologicznym zajmuje się teoria rzetelności pomiaru. Z drugiej strony na podstawie każdego pomiaru można wnioskować o charakterystyce obiektu lub jego możliwych zastosowaniach. Badacz zadaje sobie wówczas pytanie o znaczenie pomiaru. W psychologii również wnioskowanie takie jest przeprowadzane i dotyczy ono możliwości przewidywania rzeczywistości psychologicznej, tj. zachowania człowieka w innych warunkach, zwłaszcza realnych, pozatestowych. Pytanie to brzmi wówczas - jakie znaczenie ma pomiar danej cechy modalnej człowieka, jakie daje możliwości wnioskowania i jak dokładne (trafne) są te możliwości? @Zagadnieniem możliwości wnioskowania na podstawie pomiaru psychologicznego zajmuje się teoria trafności pomiaru. Ze względu jednak na fakt, że w psychologii pomiar nie jest niezależny od testu, teoria trafności pomiaru zadaje także bardziej fundamentalne pytanie o treść pomiaru, tj. rodzaj cechy, będącej przedmiotem pomiaru.

Oba aspekty pomiaru, tj. rzetelność i trafność są własnościami charakteryzującymi jakość pomiaru testem i jak mówiliśmy wcześniej są wymaganiami stawianymi testom. Określa się je mianem własności psychometrycznych pomiaru testowego.

W pierwszej kolejności zajmiemy się twierdzeniami teorii rzetelności pomiaru testowego oraz sposobami oszacowania wielkości błędu przy pomiarze testowym.

Podstawy teorii rzetelności: klasyczna teoria testów w ujęciu Gulliksena oraz Lorda i Novicka

Rzetelność pomiaru testem oznacza dokładność pomiaru cechy badanej przez test. Dokładność ta nigdy nie jest idealna - wiadomo, że w wyniku pomiaru jest zawsze zawarty pewien błąd. Idea ta została po raz pierwszy sformułowana w 1950 roku przez Gulliksena w postaci klasycznej teorii testów psychologicznych. Podstawowym twierdzeniem tej teorii jest teza, że na wynik otrzymany w rezultacie pomiaru testem składa się wynik prawdziwy i błąd pomiaru (Tw. 1: Xo = Xp + Xb). Wynik prawdziwy jest wynikiem idealizacyjnym (nierealnym, abstrakcyjnym, niemierzalnym). Byłby to wynik danej osoby, otrzymany w idealnych warunkach i za pomocą idealnego narzędzia pomiarowego. Wynik prawdziwy jest zakłócony przez błąd pomiaru. Błąd pomiaru również nie jest bezpośrednio obserwowalny, obserwowalne bezpośrednio są tylko wyniki otrzymane. Równanie to nie wnosiłoby niczego istotnego, gdyby nie dalsze aksjomaty, wprowadzone przez Gulliksena. Zakładał on, że błąd ma charakter losowy i nie jest błędem systematycznym, a zatem raz może zwiększać wynik otrzymany, raz zmniejszać (to samo dotyczy różnych osób - niektóre wyniki są niedoszacowane, inne nadszacowane). Zatem jeśli błąd z równym prawdopodobieństwem może przyjmować wartości dodatnie i ujemne, tak u danej osoby, jak i różnych osób, to oznacza to, że wartość oczekiwana błędu (jego średnia) jest równa zero (Aksjomat 1: Mb = 0). Jeśli błąd ma charakter losowy, to jego wartość jest też niezależna od wyniku prawdziwego tej osoby, np. nieprawdą jest, że błąd jest większy dla osób o wysokich wynikach prawdziwych niż o wynikach średnich. Ten aksjomat głosi zatem, że wynik prawdziwy jest nieskorelowany z błędem pomiaru - korelacja ta jest zerowa (Aksjomat 2: Rpb = 0). Wreszcie, jeśli błąd ten jest losowy, to nie ma podstaw do oczekiwania, że przy kolejnym pomiarze pojawi się taki sam błąd (raz może on być dodatni, raz ujemny). Ten aksjomat głosi zatem, że błędy pomiaru są nieskorelowane - ich korelacja jest zerowa (Aksjomat 3: Rbb = 0). Z aksjomatu tego wynika też niezmiernie ważna konsekwencja tak dla teorii rzetelności, jak i teorii trafności, a mianowicie, że za korelacjami wyników otrzymanych kryją się korelacje nie błędów pomiaru, ale korelacje wyników prawdziwych - korelują zatem ze sobą tylko wyniki prawdziwe!!!!!.

Na podstawie tych założeń można sformułować dalsze twierdzenia. Jeśli błąd pomiaru ma charakter losowy i jest odpowiedzialny za fluktuacje wyników obserwowanych (wyniki prawdziwe są niezmienne), to rejestrowana w testach zmienność wewnątrzosobnicza jest zatem efektem błędu pomiaru. Ponadto jeśli na każdy wynik otrzymany składa się błąd pomiaru i wynik prawdziwy, a wartość oczekiwana błędu jest równa zero - błędy pomiaru się wzajemnie znoszą, to średnia wyników otrzymanych musi być równa średniej wyników prawdziwych (Tw. 2: Mo = Mp + Mb = Mp). Wreszcie jeśli na wynik otrzymany składa się błąd pomiaru i wynik prawdziwy, nieskorelowany z błędem, to obserwowana w testach zmienność międzyosobnicza jest zawyżona - jest ona sumą wariancji wyników prawdziwych i wariancji błędu (Tw. 3: So2 = Sp2 + Sb2). Błąd w tym wypadku zwiększa obserwowaną zmienność międzyosobniczą - zmienność wyników prawdziwych jest mniejsza. Należy zwrócić uwagę, że gdy oceniamy statystyki populacyjne, to błąd nie zakłóca średniej, ale właśnie wariancję.

Na podstawie twierdzenia trzeciego można przedstawić teoretyczną definicję rzetelności pomiaru: jest nią stosunek wariancji wyników prawdziwych do wariancji wyników otrzymanych lub jako stosunek wariancji błędu do wariancji wyników otrzymanych (Tw. 4: Rtt = Sp2 / So2) lub Rtt = 1 - Sb2 / So2). Twierdzenie to jest bardzo użyteczne, ponieważ istnieje możliwość oszacowania wielkości błędu oraz wyznaczenia charakterystyki rozkładu wyników otrzymanych. Skoro tak, to istnieje też możliwość oszacowania błędu pomiaru, zniekształcającego wynik otrzymany (Tw. 5: Spb = So √1 - Rtt). Błąd ten jest jednakowy dla wszystkich wyników prawdziwych oraz wyników otrzymanych, stąd nosi on nazwę Standardowego Błędu Pomiaru. SBP jest zatem odchyleniem standardowym rozkładu błędów pomiaru wokół wyniku otrzymanego, stąd jego inna nazwa: standardowy błędy wyników otrzymanych.

Aksjomatyka Gulliksena została przekształcona przez Lorda i Novicka, którzy przyjęli statystyczne podejście do problemu wyników prawdziwych i błędu pomiaru. W ich ujęciu wynik prawdziwy w istocie nie istnieje bez pomiaru - jest on średnią (a zatem i wartością oczekiwaną) rozkładu wyników nieskończonej liczby pomiarów danej cechy u danej osoby danym testem. Zmienność wartości tych pomiarów jest miarą błędu. Autorzy ci zaproponowali też inne rozumienie standardowego błędu pomiaru - jako zależnego od wyniku prawdziwego - błąd ten nosi nazwę standardowego błędu estymacji wyniku prawdziwego. Błąd ten ma rozkład symetryczny wokół wyniku prawdziwego i niesymetryczny wokół wyniku otrzymanego (jest symetryczny tylko dla wyników średnich i skośny dla ekstremalnych).

Przyjmując opisane powyżej założenia co do natury wyniku prawdziwego i błędu pomiaru oraz przekształcając aksjomaty Gulliksena autorzy ci umożliwili empiryczne testowanie klasyfikacji testów wg ich własności psychometrycznych. Klasyfikacja ta dzieli testy na: równoległe (dla których średnie wyników otrzymanych i wariancje są sobie równe oraz testy mają identyczną treść, co oznacza identyczność wyników prawdziwych - testy mierzą to samo i z jednakową dokładnością, z zatem ich korelacje powinny być bardzo wysokie, ograniczone jedynie błędem pomiaru), testy równoważne (dla których wyniki prawdziwe i średnie wyników otrzymanych są sobie równe, ale różne są wariancje - testy mierzą to samo, choć nie z taką samą dokładnością) oraz testy quasi-równoważne (dla których wyniki prawdziwe różnią się o pewną stałą - testy mierzą systematycznie nieco różną treść). Klasyfikacja testów ma znaczenie dla sposobu oszacowania rzetelności pomiaru konkretnego testu - większości przypadków korzystamy z założenia o równoległości testów lub wręcz pozycji testowych.

Wykład 6.

SZACOWANIE RZETELNOŚCI POMIARU TESTEM: METODY I WSKAŹNIKI

Zanim przejdziemy do prezentacji problemu konieczne jest w pierwszej kolejności rozpoznanie źródeł błędu pomiaru. Najczęściej uważa się, że błąd pomiaru wynika z własności samego testu oraz procedury pomiaru - mówi się nawet o rzetelności pomiaru i rzetelności testu, ale faktycznie to są one niepodzielne. Błąd związany z narzędziem wynika w własności pozycji testowych - ich reprezentatywności dla badanej cechy, jednolitości analizowanego obszaru zachowania czy formalnych własności pozycji (np. małej zrozumiałości). Błąd związany z przebiegiem badania wiąże się z oddziaływaniem czynników zewnętrznych na osobę badaną (interakcją z osobą badającą, niedokładnością osoby badającej, czynnikami zakłócającymi, wadami instrukcji oraz specyfiką samej sytuacji badania), samą osobą badaną - jej innymi cechami (np. inteligencją, kompetencją językową, pamięcią) oraz chwilowym stanem jej organizmu (np. zmęczeniem, napięciem emocjonalnym, wahaniami uwagi), czynnikiem zgadywania (przy braku wiedzy niezbędnej do udzielenia właściwej odpowiedzi), małą obiektywnością testu, faktyczną oscylacją wyników prawdziwych i zapamiętywaniem. Niedostatki samego testu rzutują na dokładność pomiaru danej cechy w określonym momencie, wady procedury zaś na stabilność pomiaru. W istocie też te dwa sposoby rozumienia rzetelności pomiaru wykorzystuje się do oszacowania jej - opracowano wiele formuł estymacji rzetelności pomiaru, ale teoretycznie uzasadnione są tylko te dwa. Pierwszy wynika wprost z teoretycznej definicji rzetelności i jest określany mianem zgodności wewnętrznej, drugi wynika z twierdzenia o nieskorelowaniu błędów pomiaru w dwóch kolejnych badaniach (lub testach) i jest określany mianem stabilności.

Najbardziej znanymi metodami oszacowywania zgodności wewnętrznej są metody dzielące test na losowe części i sprawdzające zgodność wyników tych części (w założeniu części te powinny być testami równoległymi, a więc mieć jednakową treść, średnie i wariancje wyników otrzymanych). Należą do nich:

a). metoda zgodności połówkowej - gdy test jest dzielony na dwie części. W metodzie tej wykorzystuje się wzór Rulona mający postać: Rtt = 1 - Sr2/ St2(gdzie St2to wariancja wyników całego testu, a Sr2 to wariancja różnicy wyników obu połówek testowych) albo wzór Guttmana: Rtt = 2 [1 - (Sa2+ Sb2) / St2] (gdzie St2to wariancja wyników całego testu, a Sa2 i Sb2 to wariancje połówek testowych). Oba wzory dają identyczne wyniki.

b). metoda zgodności wewnętrznej przy podziale testu na więcej części. W metodach tych wykorzystuje się wzór się Kudera-Richardsona, tzw. KR-20: Rtt = N /N - 1 (St2-Si2 / St2), przy którym zakłada się, że podział dokonywany jest na dowolną liczbę części, w ostatecznym wypadku na tyle, ile jest pozycji (ang. itemów) testowych (gdzie N - liczba części testu, St2 - to wariancja wyników całego testu, a Si2 to suma wariancji części testu). Przy podziale na tyle części testu, ile jest pozycji, wygodny jest wzór zwany alfą Cronbacha: Rtt = N /N - 1 (1 - Si2 / St2). Przyjmuje się w nim założenie o równoległości pozycji testowych. Alfa daje średnią współczynników połówkowych uzyskanych przy wszystkich możliwych podziałach testu na połowy. Z tego powodu jest uznawana za bardziej od nich rygorystyczną - zależy to jednak faktycznie od „jakości” podziału na połowy;

c). metoda zgodności wewnętrznej wykorzystująca analizę wariancji - najbardziej popularny jest wzór Hoyta, zgodnie z którym: Rtt = (wariancja między osobami - wariancja błędu) / wariancja między osobami. Wzór ten wykorzystuje różne źródła wariancji całkowitej: resztową (błędu, związaną z interakcją osoba x pozycja, a więc różnicami wewnątrzosobniczymi), wariancję między osobami oraz wariancję między pozycjami i daje identyczne efekty obliczeniowe jak alfa Cronbacha. Opracowano liczne odmiany tej metody - są one wyczerpująco prezentowane w pracy Brzezińskiego.

Najbardziej znanymi metodami oszacowywania stabilności są natomiast: stabilność bezwzględna (powtórny pomiar tym samym testem po jakimś czasie) i stabilność względna (powtórny pomiar wersją równoległą danego testu po jakimś czasie). Ich odmianą jest metoda wiarygodności znana też pod nazwą test-retest (dwukrotny pomiar tym samym testem raz po razie). We wszystkich przypadkach miarą rzetelności może być współczynnik korelacji dwóch pomiarów (korelują wyniki prawdziwe, które są stabilne czasowo). Jeśli interesujemy się jednak nie tylko korelacjami, ale także równością wyników otrzymanych, to do tego celu nadaje się wzór Scotta i Wertheimera: Rtt = 1 - (X1- X2)2 / 2N S2(X1,X2), gdzie X1 oraz + X2 to wyniki pierwszego i drugiego badania, N - liczba osób badanych, a S2(X1,X2) - to wariancja wyników w obu badaniach). Wzór ten to współczynnik korelacji wewnątrzklasowej, możliwy do uzyskania także z analizy wariancji, gdzie licznik odpowiada wariancji wewnątrz osób, a mianownik wariancji między osobami.

Obie metody bardzo się różnią teoretycznie - dopuszczają możliwość wystąpienia innego rodzaju błędów. Teoretycznie jest zatem możliwe, by narzędzie było niestabilne, ale precyzyjne (np. jeśli diagnozuje stany) albo nieprecyzyjne, ale stabilne. W praktyce jednak - przy diagnozie cech takie sytuacje nie występują. Zazwyczaj testy o większej zgodności wykazują też większą stabilność i odwrotnie - testy o mniejszej zgodności - mniejszą stabilność. Zwykle też metoda stabilności jest bardziej rygorystyczna - na oszacowanie stabilności rzutuje większa ilość błędów, tak związanych z pomiarem w danym momencie, a więc zgodnością wewnętrzną, jak i występujących w czasie pomiędzy badaniami (np. realne fluktuacje wyników prawdziwych) czy różniących oba badania (np. efekty zapamiętywania). Z tego powodu oszacowania rzetelności na podstawie stabilności czasowej zazwyczaj są niższe niż na podstawie zgodności wewnętrznej.

Metodą łączącą oba podejścia jest metoda testów równoległych: łączy ona zgodność wewnętrzną (niejako połówkową) oraz stabilność czasową w postaci test-retest. W metodzie tej porównuje się wyniki badania wersjami równoległymi testu, zastosowanymi raz po razie (jeśli przerwa jest dłuższa, to daje to oszacowanie stabilności względnej). Wykorzystuje się w niej również współczynniki korelacji do oceny rzetelności pomiaru. Inną metodą wykorzystującą założenie o równoległości testów jest metoda zakładająca wzrost długości testu przez jego rozszerzenie o części będące testami równoległymi - wzór "proroczy" Spearmana-Browna: Rttn = n Rtt / 1 + (n - 1) Rtt, gdzie Rttn - to rzetelność testu po przedłużeniu, N - wielkość (krotność) przedłużenia, a Rtt - rzetelność testu przed przedłużeniem. W miejsce współczynnika rzetelności można też wstawiać współczynnik korelacji między połówkami testowymi, stąd metoda ta jest wykorzystywana również do oceny rzetelności przy podziale testu na połówki lub więcej części (nawet przy podziale na pozycje - konieczne jest wówczas wyznaczenie średniej interkorelacji pozycji testowych).

Ten ostatni wzór ma szczególne znaczenie, pokazuje bowiem najprostszą formułę na zwiększenie rzetelności pomiaru testem - może to odbyć się poprzez rozszerzenie testu o dowolną długość. Wzór ten pokazuje, że wzrost wariancji błędu jest wprost proporcjonalny do krotności przedłużenia, zaś wariancja prawdziwa wzrasta w kwadracie krotności przedłużenia. W efekcie test przedłużony będzie znacznie bardziej rzetelny niż test krótszy. Wzrost rzetelności pomiaru może jednak odbyć się także poprzez specjalny dobór zadań testowych: muszą to być wersje równoległe zadań - wysoko korelujące z zadaniami testowymi (korelacje pomiędzy pozycjami są źródłem wariancji prawdziwej - wnoszą dodatkową wariancję do testu będącą wariancją prawdziwą). Procedura taka prowadzi do wzrostu jednorodności testu (homogeniczności).

Zmiana współczynników rzetelności następuje jednak nie tylko w efekcie manipulowania długością i jakością testu. Wykazuje ona także wahania międzypróbkowe - jest wrażliwa zwłaszcza na obniżenie zmienności cechy w danej próbie. Rzetelność pomiaru może być bowiem wysoka w próbie niejednorodnej (np. kobiet i mężczyzn razem) i ulegać znacznemu pogorszeniu w próbach jednorodnych (np. kobiet i mężczyzn oddzielnie). Dzieje się tak dlatego, że zanika część wariancji prawdziwej związanej z różnicami międzygrupowymi w zakresie badanej cechy. Z tego powodu należy pamiętać, że rzetelność nie jest własnością testu, ale pomiaru i w zmienionych warunkach może wykazywać znaczne pogorszenie (albo poprawę). Z tego powodu też powinna być testowana praktycznie na każdej próbie.

Na podstawie współczynników rzetelności pomiaru można wyznaczyć standardowy błąd pomiaru, który jest oszacowaniem rozkładu błędu pomiaru i jest wykorzystywany do wyznaczania granic przedziału ufności wyników otrzymanych (estymacja przedziałowa wyniku prawdziwego. Sbp służy zatem do wyznaczenia granic, w ramach których - z określoną pewnością - mieści się wynik prawdziwy danej osoby. Wielkość Sbp zależy od odchylenia standardowego wyników otrzymanych i rzetelności pomiaru - wskazuje jaką proporcję odchylenia standardowego wyników otrzymanych stanowi błąd pomiaru. Poziom prawdopodobieństwa na przedziałowe oszacowanie wyniku prawdziwego jest przyjmowany na podstawie rozkładu normalnego: chcąc wnioskować z 99% pewnością należy wielkość Sbp przemnożyć przez 2,58, a przy 95% pewności wielkość Sbp należy przemnożyć przez 1,96 (zazwyczaj przyjmuje się pewność 85%, tj. 15% błąd estymacji i mnożnik równy 1,44). Wielkość tak wyznaczonego przedziału ufności jest zwykle bardzo duża, nawet przy bardzo rzetelnych pomiarach. Stąd uznaje się, że dla testów przeznaczonych do badań naukowych minimalna akceptowalna wielkość współczynników zgodności wewnętrznej wynosi 0,70 (optimum powyżej 0,80), a dla testów przeznaczonych do badań praktycznych - 0,80 (a optimum powyżej 0,90). Za graniczną uznaje się natomiast rzetelność pomiaru, oszacowaną za pomocą współczynników zgodności wewnętrznej równą 0,50 - wykazano empirycznie bowiem, że wartości tej odpowiada punkt przegięcia krzywych opisujących wielkość standardowych błędów pomiaru. Stabilność czasowa natomiast nie powinna być niższa od wielkości współczynnika korelacji 0,70, przy powtórnym pomiarze po minimum półrocznej przerwie. W przeciwnym razie wielkość Sbp jest tak duża, że wyklucza możliwość sensownego stosowania danego testu.

Standardowy błąd pomiaru wyników otrzymanych jest symetryczny wokół wyniku otrzymanego, a asymetryczny wokół wyniku prawdziwego (faktycznie powinno być odwrotnie). Z tego względu w badaniach testowych posługujemy się standardowy błędem estymacji wyniku prawdziwego (symetrycznym wokół wyniku prawdziwego, a asymetrycznym wokół wyniku otrzymanego). Błąd ten jest ujemny dla wyników wysokich oraz dodatni dla niskich i symetryczny jedynie dla wyników przeciętnych. Błąd ten dany jest wzorem: Sbe=sbp Rtt, a wynik prawdziwy Sep = Rtt Xo+(1 - Rtt) Mo; wartość błędu przy wyznaczaniu przedziału ufności należy przemnożyć tak jak Sbp przez wartość 2,58 (99% pewność wnioskowania), 1,96 (a przy 95% pewność) albo 1,44 (pewność 85%, tj. 15% błąd oszacowania).

Analogiczne rozumowanie jest przeprowadzane przy analizie strukturalnej wyników testów (na podstawie profilu testowego) i oszacowaniu rzetelności różnic (pytanie brzmi, jak duża musi być różnica wyników dwóch testów, abyśmy mogli uznać ją za nielosową?). Współczynnik rzetelności różnicy wyników testów jest równy Rrr = (Raa+Rbb / 2) - rab / 1 - rab, gdzie Raa i Rbb to współczynniki rzetelności obu testów, a rab to korelacja pomiędzy nimi (przy założeniu, że wyniki są wyrażone na identycznej skali standardowej). W przypadku skorelowania testów współczynnik korelacji obniża rzetelność różnicy wyników - różnice te bowiem w dużym stopniu wynikają z różnicy błędów pomiaru (różnice wyników prawdziwych są uwęźlone w korelacji). Różnice są zatem najbardziej rzetelne, gdy skale nie są skorelowane, generalnie jednak wyniki różnicowe są bardziej nierzetelne niż wyniki pierwotne. Wzór na Sbr jest identyczny, jak wzór na Sbp, przy czym w równaniu tym znajduje się współczynnik rzetelności różnicy wyników oraz odchylenie standardowe rozkładu różnic wyników otrzymanych. Wnioskowanie na podstawie Sbr jest identyczne, jak w przypadku Sbp. Zazwyczaj Sbr jest bardzo duży i różnica musi też być duża, abyśmy mogli uznać ją za różnicę znaczącą.

W zakończeniu należy wspomnieć o możliwych zastosowaniach metod szacowania rzetelności. Wszystkie omówione współczynniki mogą być stosowane do szacowania rzetelności pomiaru inwentarzy psychologicznych, choć metoda test-retest bywa stosowana generalnie najrzadziej. Stosowanie metod zgodności wewnętrznej przy podziale testu na tyle części, ile jest pozycji, w testach zdolności może już napotykać na trudności, bowiem metoda ta zaniża wyniki, gdy średnia trudności odbiega od wartości 0,50 (testy zdolności zawierają pozycje o różnej trudności). Dla testów tych najbardziej odpowiednie są więc metody połówkowe (podział losowy, np. pozycje parzyste-nieparzyste). W niektórych testach jednak i takie metody zawodzą - dotyczy to tzw. testów szybkości, tzn. gdy test jest wykonywany na czas lub gdy w teście wprowadzono ograniczenie czasowe (część zadań może pozostać nie rozwiązana, a nie tylko rozwiązana błędnie, jak to ma miejsce w testach mocy - bez ograniczenia czasowego). Dla testów tych konieczna jest formuła testów równoległych lub badań retestowych.

!!!!!!Kończąc, przypomnijmy raz jeszcze: rzetelność pomiaru testem oznacza zaufanie, jakim osoba badająca może obdarzyć wyniki testowe, a więc i w konsekwencji pewność, z jaką może formułować diagnozę psychologiczną. Kryterium rzetelności wymaga więc, by test dawał wyniki dokładne i powtarzalne. Wymóg rzetelności pomiaru testowego ma na celu zminimalizowanie błędu związanego z oceną faktycznego nasilenia danej cechy u określonej osoby, a więc błędnej diagnozy psychologicznej. Przy interpretacji wyników badania należy zatem koniecznie uwzględniać wskaźniki psychometryczne, informujące o wielkości popełnianego błędu przy pomiarze.

Wykład 7.

TRAFNOŚĆ POMIARU TESTEM: PODSTAWOWE POJĘCIA ORAZ METODY I WSKAŹNIKI

Drugim parametrem psychometrycznym, ilustrującym jakość czy dobroć pomiaru testem jest trafność. Przez trafność rozumie się: (a) stopień, w jakim test mierzy cechę, jaką ma mierzyć oraz (b) stopień dokładności przewidywania określonych kryteriów praktycznych. Z dwóch podstawowych własności pomiaru testowego: rzetelności i trafności, ta ostatnia wydaje się ważniejsza. W istocie psychologowi chodzi głównie o to, by pomiar testowy dawał jakieś możliwości formułowania sądów o rzeczywistości, zwłaszcza pozatestowej - o realnym życiu. Rzetelność jest tylko warunkiem - podstawą trafności. Test, aby mógł być trafny, musi być także rzetelny. Rzetelność stanowi bowiem górną granicę trafności - jest niemożliwe, by trafność była większa od rzetelności, może być tylko mniejsza. Testy o dużej trafności pomiaru są zarazem i bardzo rzetelne. Ta zależność nie jest jednak odwrotna - są testy dające bardzo rzetelny pomiar i zupełnie pozbawiony trafności. Rzetelność pomiaru idzie zatem w parze z trafnością, ale niekoniecznie odwrotnie - trafność pomiaru nie zawsze towarzyszy rzetelności. Rzetelność pomiaru jest więc warunkiem koniecznym, ale niewystarczającym trafności.

Teoretycznie możliwe jest zbudowanie testu dającego nierzetelny, ale trafny pomiar (analiza przykładu), ale powtórzenie badań spowoduje natychmiast inwalidację. W celu uniknięcia zjawiska inwalidacji testu na kolejnych próbach wprowadza się tzw. walidację krzyżową (konstruowanie testu nie na wyłącznie jednej, ale od razu na kilku - minimum dwóch próbach) i wymaga się, aby trafność pomiaru danym testem weryfikować na kilku odrębnych próbach, a zatem ocenić czy uzyskane rozwiązanie nie jest przypadkowe.

Pojęcie trafności pomiaru daje się wyprowadzić z twierdzeń klasycznej teorii testów. Z faktu, że pomiar dwoma testami jest skorelowany wynika, że mierzą one tę samą cechę (lub cechy). Korelują bowiem ze sobą wyniki prawdziwe - a jeśli tak to korelacja wskazuje, że te wyniki prawdziwe są takie same, a zatem i mierzona treść psychologiczna przez oba testy jest taka sama. To samo dotyczy realnych kryteriów życiowych - fakt skorelowania testu z kryterium świadczy o istnieniu wspólnej treści (identycznych wyników prawdziwych). Skorelowanie zatem jest nośnikiem wariancji prawdziwej testu i nie tylko wpływa na rzetelność pomiaru, ale także i na trafność. Z tego powodu badania nad trafnością praktycznie bazują na procedurach korelacyjnych - o psychometrii mówi się generalnie, że jest nie-eksperymentalna, ale korelacyjna (podział wprowadzony przez Cronbacha o podziale badań psychologicznych na procedury korelacyjne i eksperymentalne).

Wypracowano szereg sposobów rozumienia i metod oszacowania trafności pomiaru testem. Należą do nich: trafność treściowa, trafność teoretyczna, trafność kryterialna (diagnostyczna i prognostyczna). Istnieje też pojęcie trafności fasadowej testu, ale jest ono używane w innym znaczeniu. Poszczególne rodzaje trafności zostaną teraz kolejno omówione.

Trafność treściowa (wewnętrzna) - przez trafność treściową zwykle rozumie się "reprezentatywność danej puli pozycji dla uniwersum pozycji mierzących daną cechę" (Standardy). Pojęcie to zatem odnosi się do stopnia, w jakim treść pozycji odpowiada zakresowi treści wyznaczonej przez definicję danej cechy. Sprowadza się więc do oceny czy wskaźniki spełniają kryteria definicyjne cech, są reprezentatywne dla uniwersum wskaźników mierzących te cechy. Trafność treściowa odnosi się do planu budowy narzędzia i wiąże się z próbą usystematyzowania treści analizowanej przez konstruktora. Trafność treściowa nie może być mierzona, a jedynie oceniana - jest jedynym rodzajem trafności, który nie jest empiryczny. Do badania trafności treściowej zwykle wykorzystuje się ekspertów, specjalistów danej dziedziny wiedzy (np. psychologów, psychiatrów). Warunkiem koniecznym dla oceny trafności jest podanie precyzyjnych definicji cech, które wyznaczają kryteria oceny pozycji. Konieczne jest też wykazanie, że oceny ekspertów są rzetelne (w znaczeniu zgodne wzajemnie). Do tego celu wykorzystuje się korelacyjne współczynniki zgodności ocen, np. W-Kendalla lub inne. Specjalne analizy wykazują, że pozycje o dużej trafności treściowej charakteryzuje też i dobra charakterystyka psychometryczna: są one osiowymi wskaźnikami dla danej cechy ( w tym znaczeniu trafność treściowa wykazuje związek z trafnością wewnętrzną, oceniana poprzez korelacje pozycji z własną skalą). Oceny trafności treściowej mogą zatem same też być trafne i to w dodatku empirycznie. Można sądzić, ze trafność treściowa jest warunkiem koniecznym (choć niewystarczającym) innych rodzajów trafności. Test zawierający niereprezentatywne pozycje, np. o bardzo wąskim zakresie treści nie może gwarantować dużej trafności kryterialnej.

Do pojęcia trafności treściowej zbliżone jest pojęcie trafności fasadowej. Trafność fasadowa jednak jest karykaturą trafności. Przez pojęcie to rozumie się "wrażenie, jakie wywiera test, a które dotyczy przeznaczenia testu". Trafność fasadowa dotyczy zatem wyglądu zewnętrznego testu - jego nazwy, instrukcji czy treści pozycji). Pojęcie to jednak może być także użyteczne. Okazuje się, że osoby badane na podstawie wyglądu testu tworzą osądy odnoszące się do tego, co w ich mniemaniu test faktycznie mierzy (i co jest niezależne od tego, co im zakomunikował psycholog). Sądy te wyznaczają ich zachowanie wobec samej sytuacji badania testowego i testu, zwłaszcza rzutują na prawdomówność (uruchamiają tendencję do dysymulacji lub symulacji). Uważa się, że testy wykazujące dużą trafność fasadową charakteryzuje duża podatność na zniekształcenia - jeśli osoba badana potrafi trafnie odgadnąć przeznaczenie testu, to łatwo może też manipulować wynikami. W tym znaczeniu poznanie trafności fasadowej, a więc wrażenia, jakie wygląd testu wywiera na osobach badanych może być ważne - informuje to bowiem o podatności wyników testowych na zniekształcenia. Dotyczy to wszystkich wypadków - nie tylko takich, kiedy osądy te są trafne, ale i takich, kiedy testowi przypisuje się błędne przeznaczenie. W niektórych wypadkach też psychologowie wykorzystują to zjawisko, celowo zmieniając wygląd testu. Zwykle uwarunkowane jest to względami etycznymi, np. koniecznością zatajenia treści pomiaru, żeby nie powodować u osób badanych szkodliwych dla nich nastawień, np. test do badania psychologicznych uwarunkowań podatności na chorobę wieńcową nazywa się testem do badania wzoru zachowania, test do badania lęku - testem samooceny, zaś skalę psychopatii - skalą P. Należy jednak zawsze pamiętać, że trafność fasadowa nie może być w żadnym wypadku traktowana jako miara faktycznej trafności pomiaru danego testu.

Trafność kryterialna - podstawowy dla psychologii rodzaj trafności pomiaru. Tylko trafność kryterialna decyduje o sensowności i przydatności społecznej testów psychologicznych, bowiem pozwalają one na przewidywanie kryteriów pozatestowych - realnych kryteriów życiowych. Przez trafność kryterialną rozumie się stopień, w jakim test koreluje z określonym kryterium zewnętrznym, np. powodzeniem zawodowym, szkolnym, wypadkowością, diagnozą kliniczną, itp. Dla ustalenia tej trafności konieczne jest posiadanie określonych kryteriów zewnętrznych, charakteryzujących się odpowiednią rzetelnością i trafnością. Znalezienie lub stworzenie takiego kryterium jest największym problem badania trafności kryterialnej testu. Rzadko też zdarza się by mogło być ono jednoznacznie i prosto zdefiniowane oraz mierzalne. Najlepsze kryteria udało się prawdopodobnie wypracować w sporcie - jako miary osiągnięć sportowych, np. sukces sportowy często definiuje się jako zdobycie medalu na ważnej imprezie sportowej - jest to cenione przez środowisko społeczne i całkowicie jednoznaczne. Sport zdecydowanie pozwala na generowanie jednoznacznych kryteriów, bo bazuje na jednoznacznych regułach wartościowania i oceny osiągnięć. W innych dziedzinach życia reguły te są jednak znacznie bardziej skomplikowane, stąd trudno jest znaleźć jednoznaczne kryteria. Przy badaniu powodzenia szkolnego zwykle wykorzystuje się oceny szkolne, ale wiadomo, że są one bardzo przypadkowe i nierzetelne. Przy badaniu powodzenia zawodowego korzysta się z ocen przełożonych (mało rzetelne) oraz realnych osiągnięć zawodowych (wypadkowość, kary, nagrody, awanse), ale często są one mało trafne (wiele wypadków ma charakter losowy, kary pracownik może otrzymać nie tylko za wykroczenia dyscyplinarne, ale także za brak pokory wobec przełożonych). Podobnie w przypadku kryteriów zdrowotnych korzysta się z ocen lekarzy (np. diagnozy psychiatrycznej - ogromnie zmienna i mało rzetelna - wskazują na to chociażby rozbieżności opinii z powszechnie znanych procesów sądowych) lub diagnoz ustalonych fizykalnie, np. wada kręgosłupa stwierdzona na podstawie zdjęcia RTG. Badania przedmiotowe są bardziej obiektywne, ale i one nie są wolne od błędu. Badając trafność kryterialną należy w pierwszej kolejności zatem dokonać analizy odpowiedniego kryterium. Konieczne jest wprowadzenie takiej procedury, by pozwalała ona na oszacowanie rzetelności kryterium. W przypadku ocen i diagnoz stawianych przez ekspertów z danej dziedziny polega to głównie na testowaniu zgodności ocen. Dopiero wtedy można prowadzić badania trafności testu. Miarą trafności kryterialnej pomiaru jest zazwyczaj współczynnik korelacji między wynikiem testowym a kryterium (np. korelacji rangowych z uwagi na słabość pomiarową skali rejestrującej wyniki kryterialne). W przypadku kryteriów jakościowych (np. nominalnych: medalista - nie-medalista, zdrowy - chory) należy korzystać ze współczynników korelacji dla skal nominalnych (np. phi) lub współczynników korelacji dla jednej zmiennej mierzonej na skali przedziałowej, a drugiej na skali nominalnej (np. współczynnik korelacji punktowo-biseryjnej, punktowo-czteropolowej czy biseryjnej). Współczynniki te zostaną omówione później, przy analizie procedury konstrukcji testów i analizie pozycji.

Do badania trafności kryterialnej mogą być także zastosowane testy parametryczne, w których zmienną zależną są wyniki testowe (np. test F bazujący na jednoczynnikowej analizie wariancji lub test różnicy średnich t - Studenta). Istotne statystycznie różnica w wynikach testowych między grupami kryterialnymi wskazuje na trafny pomiar. Ważniejsze są jednak miary uwzględniające siłę związku. Do najlepszych z nich, bo umożliwiających jednoczesne badanie trafności kryterialnej wielu skal z testów wielowymiarowych należy analiza dyskryminacyjna. Nie tylko wskazuje na trafność poszczególnych skal (korelacje z kryterium), ale uwzględnia także ich wzajemne skorelowanie (skala wysoko skorelowana z inną, jest w tym wypadku redundantna - nie wnosi nowych treści pomiarowych - a zatem jest zbędna). Analiza dyskryminacyjna jest przeznaczona do badania trafności testów przy nominalnych kryteriach. W przypadku kryteriów ilościowych uzasadnione jest wprowadzenie wielokrotnej regresji liniowej - uwzględniającej nie tylko skorelowanie testów z kryterium, ale także i wzajemne ich skorelowanie. Metody te pozwalają więc na zbudowanie całej baterii testów zorientowanych na predykcję kryterium, której pomiar charakteryzuje maksymalna trafność i brak treściowej redundancji (wybrane są najlepsze mierniki cech).

Oszacowanie rzetelności kryterium jest wykorzystywane do korygowania współczynników trafności testu - przy mało rzetelnych kryteriach niemożliwą rzeczą jest wykazanie trafności testu. Procedura taka zakłada więc wprowadzenie poprawki na nierzetelność kryterium (możliwa jest poprawka na nierzetelność kryterium i testu, ale prowadzi ona do faworyzowania testu). Wzór taki ma postać: rs-kt = rkt / √ Rtt-k, gdzie rs-kt - współczynnik korelacji skorygowany, rkt - współczynnik korelacji przed skorygowaniem, a Rtt-k współczynnik rzetelności kryterium. Współczynnik skorygowany jest co prawda wskaźnikiem sztucznym (realna jest korelacja nieskorygowana), ale pozwala on na bardziej uzasadnioną merytorycznie ocenę wartości testu (nie obciąża go słabością kryterium).

Przy trafności kryterialnej konieczne jest także oszacowanie rzetelności estymacji wyników kryterium na podstawie wyników testu. Procedura ta bazuje na regresji liniowej i korelacji pomiędzy realnymi wynikami kryterium, a wynikami przewidywanymi (wygenerowanymi na podstawie równania regresji). Wzór na standardowy błąd estymacji (przy założeniu liniowości i homoscedastyczności) ma postać: Sbe = Sk √ 1 - rkt2, gdzie Sk - odchylenie standardowe wyników kryterium, a rkt - współczynnik korelacji testu z kryterium. Błąd ten jest tym większy, im większa jest zmienność wyników kryterium oraz mniejsza trafność testu (niższy współczynnik korelacji testu i kryterium). SBE jest stosowany do oszacowania przedziału ufności dla wyniku estymowanego. Procedura wyznaczania przedziału ufności jest analogiczna, jak w przypadku SBP. Wnioskowanie to ma istotne znaczenie, gdy na podstawie wyników testu musimy dokonywać kwalifikacji osób badanych, np. kwalifikować do zawodu (lub dyskwalifikować). Ocena czy wynik danej osoby oceniany przedziałowo nie przekracza granicy normy ma wtedy podstawowe znaczenie.

Trafność kryterialna pomiaru nie jest własnością trwałą (podobnie jak i inne formy trafności). Każda zmiana kryterium może spowodować zmianę trafności testu. W szczególności następuje to, gdy ograniczeniu ulega zmienność w kryterium - testy trafne przy całej zmienności kryterium, tracą trafność w próbach o zmienności ograniczonej. Testy inteligencji pozwalają na trafną ocenę powodzenia szkolnego, gdy badamy wszystkich uczniów (różnicują najlepszych uczniów od najgorszych), ale są nietrafne, gdy analizujemy tylko uczniów najlepszych (o różnicach w powodzeniu szkolnym wśród najlepszych nie decyduje już wówczas inteligencja). Podobne efekty dla trafności ma redukcja zmienności w teście (zachodząca, np. w efekcie odrzucenia, przy kwalifikowaniu do zawodu, osób badanych o najniższych wynikach). Zmiany trafności testu związane są jednak także z losowymi wahaniami charakterystyki badanej próby osób. Dlatego trafność kryterialna musi być sprawdzana nie tylko na jednej próbie. Przy budowaniu zaś baterii testów zorientowanych na przewidywanie kryterium konieczne jest wprowadzenie kilku (minimum dwóch) prób osób badanych w celu tzw. walidacji krzyżowej. Polega ona na tym, że na próbie pierwszej oblicza się wskaźniki trafności oraz buduje baterię predyktorów, a na drugiej testuje się trafność tak skonstruowanej baterii i dokonuje korekt, które z kolei są sprawdzane na próbie pierwszej. Przy prostym przenoszeniu baterii z próby na próbę zwykle bowiem obserwuje się znaczny spadek trafności. Wynika to z faktu, że statystyki predykcji są zoptymalizowane na danej próbie - wybierane są rozwiązania maksymalizujące możliwości przewidywania kryterium. Rozwiązania te bazują jednak nie tylko na realnych prawidłowościach, ale także na błędach - w istocie na danych otrzymanych. Stąd rozwiązanie takie nazywa się "zyskiwaniem na przypadku", zmiana zaś próby sprowadza współczynniki te do realnej wielkości - zwykle do drastycznego załamania, co określane jest mianem "kurczenia się prognozy". Zjawiskom tym ma przeciwdziałać procedura walidacji krzyżowej, uniezależniająca rozwiązania od losowych wahań charakterystyki próby.

Trafność kryterialna obejmuje dwa zbliżone rodzaje trafności: diagnostyczną i prognostyczną. Pojęcie trafności diagnostycznej odnosi się do stopnia, w jakim wyniki testowe pozwalają na ocenę kryterium (korelują z kryterium), przy założeniu że pomiar kryterium i pomiar testowy jest dokonywany w tym samym (lub zbliżonym) czasie. Pojęcie trafności prognostycznej odnosi się natomiast do stopnia, w jakim wyniki testowe pozwalają na ocenę kryterium, przy założeniu, że pomiar kryterium jest dokonywany znacznie później niż pomiar testowy. Inaczej mówiąc trafność prognostyczna oznacza możliwości przewidywania realnych zdarzeń w przyszłości. Trafność diagnostyczna jest przy tym warunkiem koniecznym, ale niewystarczającym trafności prognostycznej. Testy prognostyczne muszą być także diagnostyczne, ale niekoniecznie odwrotnie - testy diagnostyczne często nie wykazują dużej prognostyczności. Na kolejnym wykładzie omówimy natomiast tzw. trafność teoretyczną.

Wykład 8.

TRAFNOŚĆ POMIARU TESTEM (CD.)

Trafność teoretyczna - pojęcie to oznacza zwykle zgodność treści mierzonej przez test z konstruktem teoretycznym. Z tego powodu ten rodzaj trafności czasami nazywa się trafnością zorientowaną na konstrukt. W rzeczywistości przy badaniu trafności teoretycznej chodzi o stwierdzenie, jaką treść psychologiczną mierzy test (jaką cechę lub cechy). Trafność kryterialna oznacza możliwość przewidywania kryteriów pozatestowych - w krańcowym przypadku badacz może nie wiedzieć, jaką treść psychologiczną mierzy test, ale wystarczy jeśli potrafi wykazać, że test jest użyteczny praktycznie - pozwala na predykcję realnych zdarzeń. W przypadku trafności teoretycznej chodzi natomiast o możliwość przewidywania kryteriów psychologicznych (zachowania w innych badaniach psychologicznych, w tym także w innych testach przeznaczonych do pomiaru danego konstruktu), czyli o ustalenie, jaka treść psychologiczna jest mierzona testem (oraz jaka nie jest mierzona). W przypadku trafności teoretycznej nie jest zazwyczaj możliwe wskazanie pozatestowych kryteriów zewnętrznych, decydującą rolę odgrywa też teoria psychologiczna, traktowana jako źródło hipotez badawczych. Cały proces ustalania trafności teoretycznej polega bowiem na weryfikowaniu - za pomocą testu - hipotez sformułowanych na podstawie teorii psychologicznej (procedura jak w klasycznych badaniach eksperymentalnych). Opracowano szereg metod pozwalających na ocenę trafności teoretycznej. Należą do nich:

1). Metody bazujące na analizie związku pomiędzy konstruktem a zachowaniem. W metodach tych, na podstawie teorii, formułuje się określone hipotezy badawcze, które następnie są weryfikowane empirycznie. Wykazanie, że narzędzie umożliwia weryfikację danej hipotezy, tzn. pozwala na przewidywanie zachowania, jest dowodem trafności teoretycznej testu - mierzy on cechę, która jest zbieżna z konstruktem. Opracowano trzy takie metody. Są to:

a). metoda zmian nieprzypadkowych - do tego celu wykorzystuje się badanie stabilności czasowej; polega ona na tym, że przy powtórnym testowaniu badacz wprowadza celową - uzasadnioną teoretycznie - modyfikację do procedury badania i ocenia czy test tę modyfikację zarejestrował lub nie zarejestrował - zależnie od oczekiwań badawczych; cecha mierzona przez test jest w tym wypadku zmienną zależną; dobrym przykładem takiej analizy są zmiany poziomu ekstrawersji (wychwycone przez test) w rezultacie wzrostu poziomu pobudzenia korowego pod wpływem środków farmakologicznych (kofeina).

b). metoda sprawdzania różnic międzygrupowych - na podstawie teorii jest formułowana hipoteza odnosząca się do zróżnicowania w zakresie cechy pomiędzy różnymi grupami demograficznymi lub wyodrębnionymi na podstawie kryteriów psychologicznych; stwierdzenie, że istotnie różnice te występują (i test je rejestruje) jest dowodem trafności testu; cecha mierzona przez test jest w tym wypadku również zmienną zależną; przykładem mogą tu być badania nad skalami płci psychologicznej - skale te powinny różnicować kobiety i mężczyzn, ale także transwestytów - dopiero ta ostatnia analiza w pełni dokumentuje trafność teoretyczną; inną formą jest tu weryfikowanie hipotez o trafności testu na podstawie badania zachowania w sytuacjach eksperymentalnych osób różniących się nasileniem badanej cechy przez test - wykazanie, że osoby tworzące grupy skrajne pod względem tej cechy różnią się zachowaniem - w kierunku przewidywanym przez teorię jest dowodem trafności testu; cecha mierzona testem jest tym wypadku zmienną niezależną;

c). metoda badania procesu rozwiązywania testu - w metodzie tej sprawdzamy, w jaki sposób test jest rozwiązywany i czy w proces ten są zaangażowane także i inne procesy niż zakładane przez konstruktora, np. testy wyobraźni przestrzennej niekiedy są rozwiązywane matematycznie, co wskazuje, że test jest mało trafny.

2). Metody bazujące na analizie macierzy korelacji pomiędzy testem, a innymi testami przeznaczonymi do badania danego konstruktu. Współcześnie jest to podstawowa metoda badania trafności teoretycznej. W metodach tych, na podstawie teorii, formułuje się określone hipotezy dotyczące tego, jaka cecha jest mierzona testem. Identyfikacja tej cechy następuje poprzez porównanie treści mierzonej przez test z treścią psychologiczną badaną innymi, uznanymi miarami danego konstruktu. Wykazanie, że narzędzie umożliwia weryfikację hipotezy, tzn. wykazuje oczekiwane związki oraz nie wykazuje związków nieoczekiwanych jest dowodem trafności teoretycznej testu - mierzy on cechę, która jest zbieżna z konstruktem. Opracowano trzy takie metody:

a). metoda badania wewnętrznej struktury testu - jest to metoda najprostsza, analizuje się w niej związki pomiędzy różnymi pozycjami testowymi lub pomiędzy podwymiarami cech; jeśli teoria zakłada, że dane podwymiary wchodzą w obręb danej cechy, to ich brak jest wskaźnikiem nietrafności testu (lub teorii); to samo dotyczy struktury poszczególnych cech w testach wielowymiarowych - jeśli teoria zakłada, że dane cechy są związane, to uzyskanie korelacji pomiędzy skalami weryfikuje pozytywnie tę hipotezę i wskazuje na trafność testu;

b). metoda analizy korelacji i analizy czynnikowej danego testu oraz testów, badających ten sam konstrukt. W najprostszej postaci odnosi się to do badania związków między danym testem a innymi testami, badającymi te same lub zbliżone konstrukty teoretyczne. Badacze wykorzystują do tego celu współczynniki korelacji Pearsona. Jest to klasyczna procedura wykazywania, że dany test mierzy to, co ma mierzyć, np. podstawowa w badaniach nad inteligencją (nowe testy koreluje się z uznanymi miarami inteligencji). Ma ona jednak swoje pułapki: zwykle oczekuje się, że korelacja ta będzie wysoka, ale nie zbyt wysoka - brak korelacji wskazuje bowiem, że nowy test jest słabą miarą inteligencji, zbyt wysoka natomiast, że nowy test nie ma własnej specyfiki - wnosi mało nowej treści, nowych informacji - trudno jest zatem uzasadnić, dlaczego był skonstruowany. Metoda ta pozwala na stosunkowo proste określenie, jaką treść mierzy test - jeśli dobrana bateria innych testów obejmuje szeroki zakres treści psychologicznej, to poprzez porównania parami można wychwycić specyfikę pomiarową nowego testu.

W zaawansowanej - a przede wszystkim sformalizowanej - postaci do analizy treści mierzonej przez test, w odniesieniu do treści obejmowanych przez inne testy, wykorzystuje się analizę czynnikową. Analiza czynnikowa jest metodą dekompozycji macierzy korelacji i wyodrębniania bardziej jednorodnych skupień treści psychologicznej. Podstawowe jej założenie głosi, że korelacje testów odzwierciedlają podobieństwo ich treści psychologicznej, więcej że korelacje te wskazują na istnienie zmiennych ukrytych, które są odpowiedzialne za skorelowanie testów. Tych faktycznych źródeł treści jest oczywiście mniej niż testów. W analizie czynnikowej eksploracyjnej zatem następuje taka dekompozycja macierzy korelacji, która prowadzi do podziału wariancji danej zmiennej na dwie lub trzy części: wariancję wspólną z innymi zmiennymi i wariancję specyficzną, w skład której wchodzi też wariancja błędu (w niektórych wariantach analizy czynnikowej możliwe jest wydzielenie jej na podstawie współczynnika rzetelności). Wariancja wspólna odzwierciedla wspólny zakres treści testu i innych testów - gdy jest zerowa oznacza to, że test nie mierzy tej samej treści, co inne testy. W ramach wariancji wspólnej wyodrębnia się w analizie czynnikowej bardziej jednorodne skupienia odpowiadające poszczególnym źródłom treści - generuje się tzw. czynniki - wymiary będące najlepszą miarą poszczególnych rodzajów treści. Czynnik jest zatem reprezentantem danej treści psychologicznej w czystej formie, oddzielonej od innych treści. Każdy test koreluje się ze wszystkimi czynnikami - im wyższa jest jego korelacja (wyższy ładunek czynnikowy) z właściwym mu czynnikiem (o tym, który jest właściwy decyduje teoria psychologiczna), tym lepszą miarą tej treści jest dany test. Im niższa jest natomiast jego korelacja innymi czynnikami, tym gorszymi miarami tej treści jest dany test, i tym lepiej dla jego trafności. W optymalnym przypadku test powinien korelować bardzo wysoko z odpowiadającym mu czynnikiem (i innymi testami mierzącymi tę samą treść) i nie korelować z innymi czynnikami (i testami mierzącymi inną treść). O takim teście mówimy, że jest czystą miarą danej zmiennej - w znaczeniu, że dobrze ją mierzy i że nie jest skażony innymi zmiennymi. Testy takie są zazwyczaj bardzo jednorodne, w przeciwieństwie do testów, które korelują z różnymi czynnikami - mierzą różne treści. Testy jednorodne charakteryzują się zatem dużą trafnością teoretyczną (niekiedy mówi się też, że wykazują one dużą trafność czynnikową).

Analiza czynnikowa pozwala na bardzo precyzyjne rozpoznanie treści psychologicznej mierzonej przez dany test. Uzyskane rozwiązanie jest jednak zależne od zakresu treści uwzględnionej w analizie - żeby oszacowanie takie było miarodajne należy uwzględnić testy mierzące bardzo różną treść i możliwie obejmujące pełen zakres treści, tzn. pełen zakres zdolności intelektualnych, cech osobowości, itd.

Odmianą analizy czynnikowej jest analiza konfirmacyjna. W przeciwieństwie do analizy eksploracyjnej, gdzie czynniki są wyodrębniane empirycznie - w analizie konfirmacyjnej badacz musi dysponować już na wstępie wiedzą o liczbie czynników oraz umieć przyporządkować poszczególne testy poszczególnym czynnikom, a więc musi mieć pełną orientację w treści mierzonej przez testy. Analiza ta dostarcza odpowiedzi, jak bardzo model teoretyczny pasuje do danych empirycznych oraz który punkt jest najsłabszy (gdzie się badacz pomylił w przyporządkowywaniu testów czynnikom). Informuje zatem o tym, jak trafna jest wiedza badacza o danym teście w relacji do innych testów.

c). badanie trafności konwergencyjnej i dyskryminacyjnej (zbieżnej i rozbieżnej) za pomocą analizy macierzy Wielu Cech- Wielu Metod. Podstawowy aspekt badania trafności - sygnalizowany już przy trafności czynnikowej - wiąże się z ustaleniem tzw. trafności konwergencyjnej (zbieżnej). Oznacza to, że w celu wykazania trafności testu należy pokazać, że koreluje on z innymi testami mierzącymi tę samą treść (ten sam konstrukt). Według Campbella i Fiskego to jednak nie wystarcza - żeby w pełni ocenić trafność testu, należy jeszcze wykazać, że test nie koreluje z tymi testami, z którymi nie powinien korelować. Oznacza to, że test nie mierzy tej treści, której dany konstrukt teoretyczny nie obejmuje (pokazuje to specyfikę testu). Ten rodzaj trafności nazywa się trafnością dyskryminacyjną (rozbieżną).

Analizę trafności konwergencyjnej i dyskryminacyjnej można przeprowadzić nieformalnie, np. poprzez analizę macierzy korelacji, ale można też poddać sformalizowanej ocenie. Do tego celu wykorzystuje się tzw. macierz Wielu Cech - Wielu Metod. Skonstruowanie takiej macierzy wymaga dokonania pomiaru kilku cech za pomocą kilku metod, tak aby dana cecha była mierzona przez każdą metodę (minimum dwie, najlepiej przez trzy). W przypadku inwentarzy osobowości oprócz ocenianego kwestionariusza stosuje się szacowanie cech oraz skale ocen. Wykazanie trafności konwergencyjnej wiąże się z uzyskaniem odpowiednio wysokich współczynników korelacji dla danej cechy mierzonej różnymi metodami. Wykazanie trafności dywergencyjnej wymaga zaś, by:

a). współczynniki korelacji danej cechy, mierzonej różnymi metodami były wyższe od współczynników korelacji tej cechy z innymi cechami, mierzonymi tymi samymi metodami (interkorelacjami cech w obrębie poszczególnych metod, tworzących tzw. bloki różnych cech - tych samych metod);

b). współczynniki korelacji danej cechy mierzonej różnymi metodami były wyższe od współczynników korelacji tej cechy z innymi cechami, mierzonymi różnymi metodami (tzw. bloki różnych cech - różnych metod);

c). w poszczególnych blokach ten sam układ i rząd wielkości współczynników korelacji był powtarzalny (spełnienie tego warunku traktuje się często jako nierealne, stąd możliwe jest nieuwzględnianie go w analizie nieformalnej).

Przy zastosowaniu analizy konfirmacyjnej możliwe jest uzyskanie odpowiedzi, jak dobrze taki model pasuje do danych - czy potwierdzają one oczekiwania badacza odnośnie trafności zbieżnej i rozbieżnej testu. Analiza macierzy WCWM kończy rozważania nad metodami szacowania trafności pomiaru danego testu.

!!!!!!Podsumowując, kryterium trafności pomiaru wymaga, by test dawał odpowiednie możliwości interpretacyjne - pozwalał na pełne oszacowanie określonych cech psychologicznych oraz przewidywanie określonych zachowań pozatestowych, tj. na formułowanie wniosków diagnostycznych o realnym życiu jednostki (zdarzeniach obecnych i przyszłych). Przy analizie trafności testu zastosowanie jednej metody zwykle nie jest wystarczające - konieczne wydaje się wykazanie zarówno trafności treściowej, kryterialnej i teoretycznej. Testy inteligencji ocenia się zazwyczaj zarówno pod względem konstrukcyjnym, jak i związków z innymi testami inteligencji oraz możliwości przewidywania realnych kryteriów, zwłaszcza powodzenia szkolnego. Dopiero wtedy badacz dysponuje odpowiednio bogatą wiedzą na temat nowego testu. Kanon zastosowania kilku metod do oszacowania trafności należy traktować jako podstawowy.

Podobny problem wiąże się z liczbą i składem badanych prób, procedurą badania czy warunkami badania - trafność pomiaru podobnie jak rzetelność nie jest przypisana wyłącznie testowi. Zależy tak od samego testu, jak procedury badań (zwłaszcza warunków badania) i badanej próby. W rezultacie analizy otrzymujemy zagregowany wskaźnik będący wypadkową współdziałania wszystkich tych czynników. Uprawnia to do oczekiwania, że powtórzenie badań na zbliżonej próbie, w zbliżonych warunkach powinno prowadzić do otrzymania zbliżonej charakterystyki psychometrycznej pomiaru testu. Zmiana jednak któregoś z tych elementów, np. warunków badania (sytuacja neutralna - sytuacja doboru zawodowego) czy składu próby (np. próba heterogeniczna - próba homogeniczna) może spowodować zmiany charakterystyki psychometrycznej pomiaru. Trafność testu nie będzie wówczas taka sama, trudno jednak powiedzieć czy będzie lepsza czy gorsza - zazwyczaj jest niższa, ale tak naprawdę to efekt ten można ocenić dopiero po odpowiednich badaniach. Zazwyczaj też badacz nie jest pewny, który z elementów badania testowego był decydującą przyczyną zmiany charakterystyki psychometrycznej - stwierdzenie tego wymaga specjalnych analiz. Wniosek z tych rozważań jest następujący - charakterystyka psychometryczna pomiaru testem powinna być testowana nie tylko na jednej próbie. Konieczne jest sprawdzenie jej także na innych próbach, tak zbliżonych liczebnościowo i strukturalnie do próby podstawowej, jak i diametralnie od niej różnych. Podobnie, jeśli zmieniamy procedurę czy warunki badania nie możemy automatycznie oczekiwać, że w zmienionej sytuacji test zachowa dużą trafność pomiaru. Każdorazowo wymaga to sprawdzenia w specjalnych badaniach weryfikacyjnych.

Wykład 9.

STRATEGIE KONSTRUKCJI TESTÓW

W dotychczasowych rozważaniach nad trafnością i rzetelnością testów psychologicznych przebijała się co jakiś czas informacja o pozycjach testowych oraz ich znaczeniu dla charakterystyki całego testu. W rzeczywistości charakterystyka pozycji jest decydująca dla testu - każdy parametr testu jest pochodną parametrów pozycji oraz korelacji pomiędzy nimi. Średnia w teście jest równa sumie średnich pozycji, wariancja sumie wariancji poszczególnych pozycji oraz wariancji, wynikającej z interkorelacji pozycji. Trafność testu wynika z trafności pozycji (i ich interkorelacji), podobnie rzetelność - z interkorelacji pozycji (wariancja pozycji jest traktowana jako błąd). W całym teście nie ma żadnej własności, która byłaby nowa - test jest wyłącznie prostą sumą jego składowych, tj. zadań i jeśli pozycje wykazują wady psychometryczne, to żadne działania statystyczne na poziomie całego testu tego nie poprawią. Z tego powodu należy teraz się zająć specyfiką pomiaru testowego nie na poziomie molarnym, ale molekularnym. Poznanie prawidłowości występujących na tym poziomie pozycji może pomóc w identyfikacji czynników, wyznaczających charakterystykę testu i uzyskać wskazówki co do jego poprawy. W najbliższym czasie zajmiemy się zatem strategią i procedurą konstrukcji testów oraz wpływem przyjętych przez badacza rozwiązań na charakterystykę pozycji i - całego testu.

Wykład rozpoczniemy prezentacją strategii konstruowania testów, później zaś omówimy procedurę konstruowania testów, tj. opis poszczególnych faz pracy nad testem.

Strategie konstruowania testów

Wyróżnia się trzy podstawowe strategie konstruowania testów - wybór jednej z nich jest podyktowany celem badawczym:

a). teoretyczna (dedukcyjna) - celem jest diagnoza cech postulowanych przez daną teorię psychologiczną (stąd dedukcja w nazwie) Punktem wyjścia jest zatem określona koncepcja i hipoteza badawcza dotycząca, np. weryfikacji podstawowych twierdzeń teorii o istnieniu cech czy weryfikacji twierdzeń na jakiejś grupie respondentów (hipotezy uniwersalistyczne), znaczeniu określonych struktur cech, itp. Planowanym przedmiotem pomiaru są więc cechy postulowane przez daną teorię psychologiczną.

b). zewnętrzna (kryterialna) - celem jest diagnoza cech ważnych z punktu widzenia praktyki społecznej, np. diagnoza kliniczna, diagnoza zawodowa. Cechy te - lub zachowania będące podstawą diagnozy - są trudno klasyfikowalne lub nieklasyfikowalne teoretycznie (np. brakuje modeli teoretycznych, są one niewystarczające lub zbyt pracochłonne do operacjonalizacji. Planowanym przedmiotem pomiaru są więc cechy pozwalające na diagnozę lub prognozę określonego realnego (pozapsychologicznego) kryterium (np. choroby, powodzenia szkolnego, zawodowego, itp.).

c). wewnętrzna (indukcyjna) - celem diagnoza cech stanowiących podstawowe wymiary osobowości, temperamentu czy zdolności. Punktem wyjścia jest zatem potrzeba wykrycie podstawowych źródeł zmienności zachowania (stąd indukcja w nazwie). Planowanym przedmiotem pomiaru są więc cechy pozwalające na wyczerpujący opis zachowania człowieka albo struktury osobowości, temperamentu czy zdolności.

Dla lepszego opisu tych strategii porównamy je pod kilkoma aspektami:

(1) Dostępność teorii psychologicznej w strategii:

- teoretyczna ("teoria") - teoria jest podstawą strategii; teoria zawiera definicję konstruktu ogólnego i definicje wymiarów (ich liczba, nazwy, sens psychologiczny).

- kryterialna ("wiedza") - nie ma teorii (są zbyt ezoteryczne, wąskie), raczej "wiedza" psychologiczna, psychiatryczna, zawodoznawcza; możliwa jest definicja konstruktu ogólnego (eklektyczna - określa tylko zakres analizowanych zachowań oraz ich specyfikę na tle innych zachowań, ale często w języku pozapsychologicznym albo zaczerpniętym z różnych teorii), nie ma za to definicji wymiarów (w to miejsce są zazwyczaj definicje kryteriów).

- indukcyjna ("metodologia") - nie ma teorii, często jest nawet źle, gdy jest (bo zasłania pewne obszary zachowań), teorię zastępuje metodologia badań czy modele psychometryczne; możliwe jest sformułowanie definicji konstruktu ogólnego (zwykle bardzo ogólna i niejasna - jest to funkcjonalne względem tej strategii - najlepiej by niczego nie precyzowało poza obszarem poszukiwań), nie ma natomiast definicji wymiarów (pojawiają się one post factum).;

(2) Model psychometryczny zastosowany do konstrukcji testu:

- teoretyczna - analiza pozycji z dominującą korelacją pozycja-skala (inwentarze) oraz wskaźnikiem trudności (testy zdolności) oraz różne jej odmiany; normalizacja wyników - próby quasi losowe, w założeniu reprezentatywne dla populacji.

- zewnętrzna - analizy pozycji z dominującą korelacją pozycja-kryterium oraz dodatkowo pozycja-skala; populacje specyficzne.

- indukcyjna - eksploracyjna analiza czynnikowa; normalizacja wyników - próby quasi losowe, w założeniu reprezentatywne dla populacji.

(3) Efekt finalny

w zakresie psychologicznym

- teoretyczna - może prowadzić do falsyfikacji teorii, ale interpretacja psychologiczna cech jest prosta;

- zewnętrzna - może wzbogacić "wiedzę" na temat zachowania się danej grupy osób, nie prowadzi jednak do rozwoju teorii, w skrajnej postaci prowadzi do czystego empiryzmu i lokalizmu psychologicznego;

- indukcyjna - interpretacja wyników (nazwy cech, ich znaczenie) - intuicyjna, weryfikacja trafności czysto empiryczna, możliwość powstania teorii psychologicznej na drodze prób i błędów w określaniu treści wymiarów i czysto empirycznym oszacowaniu ich znaczenia psychologicznego;

w znaczeniu diagnostycznym

- indukcyjna - test zazwyczaj daje pełny opis osobowości, ale bardzo ogólny - możliwy do zastosowania w celach rozpoznawczych;

- zewnętrzna - test zazwyczaj ujmuje charakterystykę określonych sfer osobowości - bez możliwości rozpoznania podstawowych źródeł zmienności - jest to więc charakterystyka zintegrowana, niejako typologiczna;

- teoretyczna - test zazwyczaj ujmuje pełną charakterystykę wyłącznie danej sfery(sfer) osobowości, ale opis jest bardzo szczegółowy;

w zakresie psychometrycznym

- teoretyczna - homogeniczność cech jest raczej mała (skale wzajemnie redundantne, wysoko skorelowane i czynnikowo niejednorodne, ale współczynniki rzetelności zupełnie satysfakcjonujące); trafność teoretyczna zazwyczaj duża, trafność konwergencyjna lepsza niż dyskryminacyjna, często dobra też trafność kryterialna, słaba trafność czynnikowa; ekonomiczność (długość) skal - raczej duża, mało pozycji zbliżonych treściowo.

- zewnętrzna - homogeniczność żadna, współczynniki rzetelności pomiaru niskie, skale często skorelowane i czynnikowo niejednorodne; ekonomiczność - niska: skale długie (konieczne jest uzyskanie wystarczającej trafności oraz rzetelności); trafność kryterialna zazwyczaj duża, trafność czynnikowa bardzo słaba, trafność teoretyczna niezła;

- indukcyjna - homogeniczność bardzo duża, choć często niereplikowalna międzypróbkowo, współczynniki rzetelności wysokie, ale pozycje redundantne treściowo (bardzo podobne w treści), skale czynnikowo bardzo jednorodne i ortogonalne; ekonomiczność raczej duża - choć długość może zależeć od celu badań - stąd wersje skrócone i pełne (czego nie spotyka się w innych formach testów).

Wnioski: każda strategia ma swoje zalety i wady - nie jest doskonała, ma jednak swoją logikę wewnętrzną i zależnie od typu problemu należy stosować różne strategie.

Wykład 10.

PROCEDURA (PROCES) KONSTRUKCJI TESTÓW

Proces konstrukcji obejmuje szereg etapów, które są wspólne dla wszystkich strategii albo wykazują specyfikę zależną od danej strategii. Etapy te omówimy kolejno.

Na etapie I następuje wybór strategii, który zależy bezpośrednio od celu badawczego. Na etapie II dokonywana jest analiza podstaw teoretycznych narzędzia. Przebieg prac na tym etapie zależy od typu strategii. W strategii teoretycznej konieczna jest analiza definicji badanego konstruktu oraz definicji cech, bowiem określają one zakresy oraz specyfikę zachowań będących ich deskrypcją. Analiza teorii musi prowadzić także do sformułowania hipotez dotyczących: wewnętrznej struktury cech (model cechy powinien mieć budowę hierarchiczną), związków wzajemnych cech, związków cech z innymi wymiarami, obejmowanymi przez inne teorie psychologiczne oraz formalnych własności cech (jak stabilność czasowa, obserwowalność, zróżnicowanie płciowe, wiekowe, itp.).

W strategii indukcyjnej konieczna jest analiza definicji badanego konstruktu oraz staranna analiza metodologii badań - założeń badawczych, procedur badawczych oraz dotychczasowych ustaleń badawczych. Analiza ta prowadzi zazwyczaj do postawienia pytań badawczych, dotyczących liczby, rodzaju oraz wewnętrznej struktury cech.

W strategii zewnętrznej konieczna jest analiza definicji danego kryterium oraz starannej analizy stanu wiedzy o tym kryterium - ujęć i klasyfikacji teoretycznych kryterium, wyodrębnienia i klasyfikacji podstawowych wskaźników związanych z kryterium oraz uznanych sposobów wyodrębniania kryterium i dotychczasowych osiągnięć w tym zakresie.

Na etapie III generowane są wskaźniki będące deskrypcją cech psychologicznych. Sposoby generowania wskaźników cechy polegają zazwyczaj na:

a). zapożyczaniu wskaźników cechy z innych narzędzi, najczęściej badających zbliżone konstrukty - pozycje są wprost lub po poprawkach przenoszone z innych testów. Wariant ten jest najczęstszy przy strategii zewnętrznej.

b). selekcjonowane ze słowników (analizy leksykograficzne) czy leksykonów, które traktuje się jako banki pozycji (zadań), np. do testów słownikowych czy testów przymiotnikowych osobowości lub stanów. Jest to najlepsza procedura dla strategii indukcyjnej (empirycznie zdefiniowany pełny zakres treści).

c). tworzeniu nowych wskaźników przez specjalistów lub niespecjalistów. Zabiegi takie podejmowane są najczęściej i są najbardziej uzasadnione przy strategii teoretycznej - poszukiwane są nowe wskaźniki nowomierzonej cechy.

Na tym etapie zazwyczaj też dokonywana jest ocena trafności treściowej wskaźników (w strategii teoretycznej lub zewnętrznej, w strategii indukcyjnej stosuje się inne procedury).

Na etapie IV dokonuje się zapisania pozycji testowych. Pozycja testowa to sformalizowany wskaźnik danej cechy psychologicznej, a więc zdanie (twierdzenie lub pytanie) opisujące określone zachowanie (lub zadanie wyzwalające określone zachowanie) oraz skala rejestrująca to zachowanie (zawierająca określone opcje odpowiedzi o danym formacie oraz reguła przekształcania odpowiedzi w wynik liczbowy). W przypadku pozycji kwestionariuszowych wymagane jest by były one przede wszystkim nieskomplikowane językowo i zrozumiałe, tzn.: a). raczej krótkie, b). były zdaniami oznajmującymi, w pierwszej osobie (należy unikać negacji i podwójnej negacji, zwłaszcza w języku polskim, bo powoduje to problemy z udzieleniem właściwej odpowiedzi), c). nie zawierały słów trudnych, rzadko używanych, skomplikowanych konstrukcji gramatycznych czy błędów gramatycznych i interpunkcyjnych oraz d). zawierały męsko- i żeńsko-osobowe formy odmiany (np. "jestem zmęczony(a)". Korzystna jest konsultacja językoznawcy przy formułowaniu pozycji testowych. Ponadto pozycje powinny być jednoznaczne - osoba badana nie powinna przypisywać twierdzeniu wielu znaczeń (interpretować pozycję na wiele różnych sposobów), z których każde jest poprawne językowo i dopuszczalne z punktu widzenia formy gramatycznej zdania. Źródłem tej niejasności mogą być czynniki językowe oraz zbyt duża ogólność, abstrakcyjność pojęć. Wynika z tego również wniosek, że pozycje powinny pytać o specyficzne, konkretne zachowania i sytuacje życiowe osoby badanej, a nie operować uogólnieniami. Wreszcie pozycje nie powinny być tak formułowane, by powodowały poczucie zagrożenia i wzbudzały tendencję do dysymulowania (udzielania aprobowanych społecznie odpowiedzi). Wykazano, że pozycje wadliwie sformułowane charakteryzują się gorszymi wskaźnikami psychometrycznymi (moc dyskryminacyjna i stabilność).

Ostatecznie sformułowane pozycje powinny być testowane w badaniach pilotażowych - tzw. analizach itemmetrycznych. Dokonuje się w nich najczęściej oceny zrozumiałości, niejasności, ogólności i obciążenia aprobatą społeczną pozycji. Analizy realizuje się najczęściej na tych grupach, na których inwentarz będzie później stosowany. Pozycje ocenione jako wadliwie sformułowane są w rezultacie tej analizy eliminowane.

W ostatnim kroku twierdzenie jest uzupełniane przez format odpowiedzi - tj. opcje odpowiedzi na pozycję testową (do wyboru przez osobę badaną). Zaleca się przy tym, by pomijały one kategorie pośrednie, będące ekspresją niepewności osoby badanej i w miarę możliwości zawierały więcej niż dwie (tzn. tylko "tak - nie", "prawda-fałsz", "zgadzam się-nie zgadzam się") opcje odpowiedzi (np. "zdecydowanie zgadzam się-raczej zgadzam się-raczej nie zgadzam się-zdecydowanie nie zgadzam się"). Jednocześnie ustala się sposób przekształcania odpowiedzi na wyniki surowe. Wiąże się to z ustaleniem klucza odpowiedzi, co oznacza też konieczność arbitralnego przyjęcia, jakiemu biegunowi cechy ma odpowiadać wysoki wynik w skali (przy zliczaniu wyników pozycje odwrotnie diagnostyczne są rekodowane) oraz określeniu sposobu przyporządkowywania poszczególnym opcjom odpowiedzi określonych wartości liczbowych, tzn. ustalenia skoku skali, np. równomiernego równego 1 punkt lub równomiernego większego (np. 2 punkty) albo nierównomiernego racjonalnego (np. 0-4-5-7) lub najczęściej empirycznego.

Na etapie V konstruktor przystępuje do prac kończących przygotowanie testu do badań. Proces ten wiąże się z przyjęciem określonej nazwy testu, zaopatrzeniem go w instrukcję (informującą o celu badania i konieczności udzielania szczerych odpowiedzi, akcentującą konieczność zastanowienia się nad każdą pozycją i udzielenia przemyślanej odpowiedzi, precyzującą sposób odpowiadania i podającą stosowane przykłady, a także zbierającą informacje demograficzne) oraz wprowadzenie losowej kolejności pozycji w inwentarzach (w celu wyeliminowania błędu "bliskości" - nadmierna zgodność odpowiedzi na pytania zlokalizowane blisko siebie) lub uporządkowaniem ich według stopnia trudności (w testach z ograniczeniem czasowym).

Ostatnim etapem konstrukcji testu (etapie VI) jest przeprowadzenie badań listą pozycji i opracowanie psychometryczne zebranych danych, w rezultacie czego uzyskuje się finalną wersję testu. Wersja ta podlega dalszym badaniom, zmierzającym do uzyskania maksimum informacji o charakterystyce psychometrycznej konstruowanego narzędzia. Dopiero wtedy test można uznać za opracowany i traktować go jako test. Etap ten obejmuje trzy rodzaje prac: badania listą pozycji, opracowanie psychometryczne danych i konstrukcja finalnej wersji testu oraz dalsze badania weryfikujące parametry pomiaru testem.

Badania testowe powinny być zrealizowane na kilku, minimum trzech, bardzo liczebnych próbach (mnożnik 5 - 10 osób badanych na jedną pozycję), maksymalnie zróżnicowanych pod względem zmiennych demograficznych (wiek, płeć, wykształcenie, zawód, miejsce zamieszkania, itp.). Wymaganie dużej liczebności prób wiąże się z próbą wyeliminowania błędu współczynnika korelacji, a więc i przypadkowości decyzji psychometrycznych (np. dotyczących doboru pozycji) i przypadkowości uzyskiwanego rozwiązania. Wymaganie heterogeniczności próby wiąże się z próbą wyeliminowania dodatkowej treści, związanej przypadkowo (wyłącznie na określonej grupie) z treścią będącą przedmiotem badania - przy próbach różnorodnych pozostaje tylko co jest międzygrupowo stałe (treść analizowana).

Po zrealizowaniu badań (i zakodowaniu wyników) konieczne jest zrealizowanie analizy psychometrycznej. Na tym etapie badacz dokonuje selekcji pozycji - wybiera z puli wstępnej te, które mierzą określoną cechę - dopiero też po tym etapie może powiedzieć, że jego pozycje są miernikami jakiejś treści psychologicznej, podobnie jak i cała pula pozycji staje się testem. Procedura analizy danych i wybór odpowiedniego modelu psychometrycznego wyznaczane są przy tym przez przyjętą strategię konstrukcji. Modele te bazują: a). w strategii indukcyjnej - na analizie czynnikowej (eksploracyjnej lub konfirmacyjnej), b). w strategii teoretycznej - na analizie pozycji (trudność, moc dyskryminacyjna), c). w strategii kryterialnej - na analizie korelacji pozycji (z kryterium oraz dodatkowo z własną skalą). Zastosowane w badaniach wskaźniki omówimy teraz dokładniej.

Każda strategia konstrukcji testu zakłada jakąś formę selekcjonowania pozycji ze wstępnej puli, użytej w badaniach, do skali końcowej. Selekcja ta bazuje na określonych wskaźnikach psychometrycznych, wykazujących, że pozycja ta mierzy ważną - z punktu widzenia celów badawczych - treść psychologiczną.

W strategii teoretycznej skale konstruuje się zazwyczaj wykorzystując do tego celu współczynniki mocy dyskryminacyjnej. Moc dyskryminacyjna danej pozycji informuje o tym, w jakim stopniu różnicuje on daną populację pod względem cechy, mierzonej przez test. Moc dyskryminacyjna jest zatem wskaźnikiem tego, w jakim stopniu pozycja mierzy tę cechę, którą mierzy cały test - informuje o tym, jak dobrą miarą tej cechy jest dana pozycja. Duża moc dyskryminacyjna pozycji wskazuje na dużą homogeniczność testu - zazwyczaj wykazuje on dużą rzetelność pomiaru. Rzetelność pomiaru danego testu jest więc uzależniona bezpośrednio od mocy dyskryminacyjnej pozycji. Do oszacowania mocy dyskryminacyjnej używa się specjalnych współczynników korelacji, pozwalających na skorelowanie dwóch zmiennych, z których jedna jest mierzona na skali nominalnej, zaś druga na skali przedziałowej (lub słabszej). Są to współczynniki korelacji biseryjnej (lub dwuseryjnej), punktowo-biseryjnej (lub punktowo-dwuseryjnej), punktowo-czteropolowej czyli phi oraz skorygowane współczynniki pozycja-skala.

Współczynnik korelacji biseryjnej pozwala na oszacowanie mocy dyskryminacyjnej pozycji w przypadku, gdy można przyjąć następujące założenie pomiarowe: zarówno cecha, jak i pozycja ma rozkład normalny w populacji (niezależnie od tego, że pozycja może mieć dwukategorialny format). Współczynnik ten ma postać: rbis = (Mp - Mq / S) / (p q /y), gdzie Mp - to średnia wyników w skali tych osób, które odpowiedziały na daną pozycję zgodnie z kluczem, Mq - to średnia wyników w skali tych osób, które odpowiedziały na daną pozycję niezgodnie z kluczem, S - odchylenie standardowe wyników w całym teście, p - to proporcja tych osób, które odpowiedziały na daną pozycję zgodnie z kluczem, q - to proporcja tych osób, które odpowiedziały na daną pozycję niezgodnie z ;kluczem, zaś y - to rzędna rozkładu normalnego odpowiadająca proporcji p. Należy przy tym pamiętać, że średnia pozycji = proporcji odpowiedzi zgodnych z kluczem (czyli M = p = 1 - q), wariancja S2 = p q, czyli iloczynowi proporcji odpowiedzi zgodnych i niezgodnych z kluczem, a odchylenie standardowe pierwiastkowi z wariancji (S = √ p q).

W przypadku, gdy te silne założenia nie są spełnione lub badacz jest ostrożny z przyjęciem założeń co do normalności rozkładu odpowiedzi na pozycje, możliwe jest stosowanie współczynnika korelacji punktowo-biseryjnej (daje on jednak niższe wyniki obliczeniowe niż współczynnik korelacji biseryjnej). Współczynnik ten ma postać: r p-bis = (Mp - Mq / S) / (√ p q), gdzie Mp - to średnia wyników w skali tych osób, które odpowiedziały na daną pozycję zgodnie z kluczem, Mq - to średnia wyników w skali tych osób, które odpowiedziały na daną pozycję niezgodnie z kluczem, S - odchylenie standardowe wyników w całym teście, p - to proporcja tych osób, które odpowiedziały na daną pozycję zgodnie z kluczem, q - to proporcja tych osób, które odpowiedziały na daną pozycję niezgodnie z kluczem.

Współczynniki te przyjmują wartości z przedziału -1,0 do 1,0, ale jeśli pytania są rekodowane na diagnostyczne i niediagnostyczne to korelacja ujemna wskazuje, że pozycja nie nadaje się do testu, podobnie jak zerowa (lub że badacz pomylił się w ustaleniu klucza). W większości przypadków będą one zatem dawały wartości z przedziału od 0,0 do 1,0. Zaletą obu współczynników jest możliwość transformowania ich na Z-Fishera, co daje możliwość testowania istotności różnic korelacji czy dodawania korelacji w celu obliczenia średniej mocy dyskryminacyjnej i wykorzystania jej do obliczania rzetelności pomiaru poprzez wzór Spearmana-Browna. Oba współczynniki są jednak bardzo wrażliwe na średnie pozycji (proporcję odpowiedzi zgodnych z kluczem) - w przypadku, gdy odbiega ona od wartości 0,50 obniża się maksymalna wartość mocy dyskryminacyjnej, jaką może osiągnąć pozycja.

W przypadku, gdy nie jest możliwe przyjęcie i tych założeń, tzn. badacz jest ostrożny z przyjęciem założenia nawet co do normalności rozkładu wyników danego testu, możliwe jest stosowanie współczynnika korelacji punktowo-czteropolowej (phi). Przy obliczaniu tej korelacji dzieli się całą próbę na połowy według wyników w całym teście (górną o wysokich wynikach i dolną o niskich). W każdej połowie oblicza się proporcje odpowiadających zgodnie i niezgodnie z kluczem na daną pozycję - proporcje te wylicza się też dla całej próby. Współczynnik ten ma postać: phi = fg - fd / p q, gdzie fg - to proporcja osób w górnej połowie próby, które odpowiedziały na daną pozycję zgodnie z kluczem, fd - to proporcja osób w dolnej połowie próby, które odpowiedziały na daną pozycję zgodnie z kluczem, p - to proporcja osób w całej próbie, które odpowiedziały na daną pozycję zgodnie z kluczem, q - to proporcja tych osób, które odpowiedziały na daną pozymcję niezgodnie z kluczem.

Współczynniki omawiane powyżej mają jednak tę wadę, że nie są skorygowane, co oznacza, że przy obliczaniu wyniku ogólnego w skali dana pozycja jest również uwzględniana. Skorygowanie polega natomiast na wyłączeniu pozycji ze skali, gdy obliczana jest jej moc dyskryminacyjna - w przeciwnym wypadku jest ona sztucznie zawyżona, zwłaszcza w skalach krótkich, zawierających niewiele pozycji. Obliczanie tych współczynników jest ponadto bardzo pracochłonne i czasochłonne (oraz wymaga wprowadzania specjalnych poprawek na skorygowanie). Z tego powodu współcześnie stosuje się skorygowane współczynniki pozycja-skala, będące odmianą współczynnika Pearsona. Współczynniki te rutynowo oblicza się w komputerowych programach statystycznych. Dają one niższe oszacowania mocy dyskryminacyjnej niż inne współczynniki - są więc znacznie surowsze.

Przyjmuje się, że minimalną akceptowalną wartością mocy dyskryminacyjnej pozycji, oszacowanej na podstawie skorygowanego współczynnika korelacji pozycja-skala jest wartość 0,20 (ok. 5% wspólnej wariancji). Pozycje o niższej mocy dyskryminacyjnej powinny być zatem usunięte z testu. W procesie selekcji pozycji uwzględnia się też ich średnią - w przypadku inwentarzy pozycja powinna mieścić się w przedziale trudności: 0,25 - 0,75, optymalnie gdy średnia wszystkich pozycji jest zbliżona do wartości 0,50; w przypadku testów zdolności zakłada się równomierną reprezentację w teście pozycji z różnych przedziałów trudności lub frekwencję pozycji o różnej trudności, zbliżoną do rozkładu normalnego.

Zastosowanie współczynników mocy dyskryminacyjnej prowadzi do selekcji pozycji wzajemnie wysoko skorelowanych, a więc mierzących tę samą treść psychologiczną (czy treści, ale wspólne dla danego zbioru pozycji). W strategii kryterialnej stosuje się identyczne współczynniki korelacji, ale używane są one zazwyczaj do badania związku między pozycją a kryterium. Ze względu na fakt, że kryteria zewnętrzne są zazwyczaj złożone i niejednorodne, to i pozycje tak selekcjonowane też będą tworzyły mało homogeniczne skale. Najlepsze rozwiązania w tej strategii zyskuje się przy zastosowaniu formalnych metod statystycznych do doboru pozycji - nie rozpatruje się zatem każdej pozycji oddzielnie, tylko buduje od razu cały test. Do tego celu stosuje się model wielokrotnej regresji liniowej lub analizę dyskryminacyjną. Różnice między nimi sprowadzają się do założeń pomiarowych kryterium: analiza dyskryminacyjna jest przeznaczona do budowania skali predyktorów nominalnego kryterium, zaś regresja wielokrotna - kryterium mierzonego na skali ciągłej (najlepiej przedziałowej).

Obie metody prowadzą do zbliżonych rozwiązań konstrukcyjnych skali - selekcji tych pozycji, które słabo korelują ze sobą wzajemnie, za to wysoko korelują z kryterium: celem tej strategii jest konstrukcja testu, który gwarantuje dużą trafność kryterialną, toteż taka procedura jest uzasadniona merytorycznie. W rezultacie jednak otrzymujemy test o niskiej rzetelności pomiaru, a względnie wysokiej trafności. Dla tej strategii też stwierdzono, że wymaganie rzetelności pomiaru może niekiedy nie korespondować z wymaganiem trafności. Próba zwiększenia rzetelności pomiaru testu kryterialnego poprzez wydłużenie go wymaga doboru pozycji wysoko skorelowanych z pozycjami znajdującymi się już w teście, a to nie zwiększa trafności testu. Z kolei wydłużenie testu w celu zwiększenia jego trafności wymaga włączenia pozycji wysoko skorelowanych z kryterium i nisko z pozycjami znajdującymi się już w teście, a to nie zwiększa rzetelności testu, a niekiedy może ją wręcz obniżać. Jest to jednak przypadek szczególny sprzeczności wskaźników psychometrycznych.

W strategii indukcyjnej bazuje się przy doborze pozycji do testu na ładunkach czynnikowych (korelacjach pozycji z czynnikiem). Ładunki te - jak wszystkie współczynniki korelacji - mogą przybierać wartości z przedziału od -1,0 do 1,0. Dla oceny związku między pozycją a czynnikiem istotna jest jednak wysokość ładunku, jego znak świadczy tylko o kierunku diagnostyczności pozycji (ujemne mają klucz odwrotny i trzeba je rekodować przy zliczaniu). Zwykle przyjmuje się, że kryterium kwalifikacji pozycji do testu jest wartość ładunku czynnikowego wyższa niż 0,30 (ok. 10% wspólnej wariancji pozycji z czynnikiem). W większości przypadków jednak w strategii wymaga się by pozycja mierzyła nie tylko określoną treść, ale także żeby nie mierzyła innych treści, a więc żeby korelowała z odpowiednim czynnikiem i nie korelowała z innymi czynnikami. Do tego celu wykorzystuje się wyniki różnicowe: Wr = F2 - (Fa2 + Fb2 + Fc2 + ... + Fz 2), gdzie Wr - wynik różnicowy, F2 - ładunek na odpowiadającym pozycji ("własnym") czynniku, zaś Fa2, Fb2do Fz2 - ładunki na innych czynnikach (od czynnika "A" do "Z"). Możliwe jest także uwzględnianie wariancji wspólnej (wartość h2) pozycji, która jest najwyższa, gdy ładunek na odpowiadającym pozycji czynniku jest najwyższy. Procedura ta prowadzi do konstruowania bardzo jednorodnych treściowo skal, które charakteryzuje duża rzetelność pomiaru i trafność teoretyczna (konwergencyjna i dyskryminacyjna), zaś słabsza trafność kryterialna (zwłaszcza przy przewidywaniu złożonego kryterium). Wadzie tej usiłuje się przeciwdziałać konstruując wielowymiarowe testy i budując baterie predyktorów nie tyle na poziomie pozycji, ile skal.

Współcześnie przy konstrukcji testów korzysta się coraz częściej z założeń tzw. ITEM RESPONSE-THEORY (w skrócie IRT), która jest alternatywnym modelem psychometrycznym w stosunku do klasycznej teorii testów. IRT wprowadza szereg specyficznych założeń:

1. na wykonanie testu przez ob. wpływają określone czynniki, zwane zmiennymi latentnymi; są one bezpośrednio niemierzalne, natomiast rzutują na wykonanie pozycji testowych; rozwiązanie zadań tworzących daną skalę zależy głównie od jednej zmiennej latentnej;

2. odpowiedzi o.b. na różne pozycje testowe są statystycznie niezależne; wykonanie jednego zadania nie rzutuje na wykonanie innego (nie ułatwia go ani nie utrudnia); to, że pozycje korelują ze sobą i z wynikiem globalnym, wynika ze zróżnicowanego poziomu cechy respondentów - na danym poziomie cechy korelacje między pozycjami są zerowe (tzw. założenie o lokalnej niezależności);

3. związek pomiędzy rozwiązaniem pozycji a zmiennymi latentnymi może być opisany przez monotonicznie rosnącą krzywą, zwaną krzywą charakterystyczną pozycji (ang. item characteristic curve, w skrócie ICC).

Krzywą charakterystyczną pozycji opisują cztery parametry (ma ona kształt esowaty): parametr trudności (niezbędny poziom zdolności, by mieć 50% szans na rozwiązanie zadania - centralny punkt krzywej), parametr różnicowania (nachylenie krzywej w punkcie trudności - różnice w poziomie prawdopodobieństwa rozwiązania zadania przez osoby o wyższym i niższym nasileniu cechy); parametr zgadywania (wysokość krzywej w punkcie początkowym - prawdopodobieństwo rozwiązania zadania przez osoby najmniej zdolne, a więc zgadywanie); parametr nieuważności (wysokość krzywej w punkcie końcowym - prawdopodobieństwo porażki przez osoby najbardziej zdolne, a więc nieuwaga).

IRT jest niezastąpioną metodą w analizie pozycji - można dobierać bardzo precyzyjnie pozycje o określonej i dostosowanej do potrzeb charakterystyce, np. inne dla testów „łatwych" i „trudnych" czy do uzupełniania testu o nowe pozycje o ściśle znanych parametrach. Znacznie też poprawia skalowalność testu - możemy precyzyjnie diagnozować nasilenie cechy we wszystkich jej nasileniach. Z tego względu IRT w wielu wypadkach „wypiera” klasyczną teorię testów. Jej wadą jest natomiast fakt, że wymaga zbioru pozycji o bardzo dobrej charakterystyce psychometrycznej i bardzo spójnych - homogenicznych (tzw. mocnego pomiaru). Głównym zastosowaniem IRT są tzw. testy okrojone, stosowane głównie przy wykorzystaniu komputerów, w których program decyduje o kolejności zadawanych pytań, tak aby diagnoza mogła być postawiona za pomocą możliwie małego zestawu zadań testowych. Może być użyteczne także przy konstruowaniu testów krótkich, zawierających niewiele pozycji (skracanie testu) oraz przy konstruowaniu testów kryterialnych. Stosunkowo często model ten jest stosowany w procesie adaptacji testu do wykrywania zniekształceń kulturowych na poziomie pozycji. Coraz częściej stosuje się ją przy testach wiadomości, zdolności oraz testach przeznaczonych do diagnozy klinicznej.

W rezultacie tych procedur statystycznych konstruktor redukuje liczbę pozycji w skalach do tych, które spełniają określone kryteria psychometryczne i formuje z nich ostateczną wersję testu. Należy pamiętać, że dopiero ta pula pozycji stanowi test, przed analizą psychometryczną mamy wyłącznie do czynienia z listą pozycji. Ten etap prac kończy się ostatecznym opracowaniem testu - wersja finalna musi być przygotowana identycznie jak lista pozycji (instrukcja, ponowne przemieszanie pozycji).

Wersja ta musi być poddana dalszym badaniom weryfikacyjnym, zmierzającym do ustalenia czy test utrzymuje charakterystykę psychometryczną, stwierdzoną na próbie konstrukcyjnej. Zazwyczaj powtarza się tu analizy wykonane wcześniej i porównuje wyniki lub wprowadza specjalne modyfikacje, testując własności te w nieco odmienny sposób.

Proces konstrukcji testu, niezależnie od przyjętej strategii, kończy się na etapie VII przygotowaniem testu do praktycznego stosowania, co wiąże się z dwoma pracami. Po pierwsze, z normalizacją testu, a więc podaniem sposobu przeliczenia wyników surowych na wyniki standaryzowane. Po drugie, z publikacją testu w postaci podręcznika testowego - co jest konieczne, gdy test ma być stosowany w praktyce psychologicznej. Zagadnienia te wymagają szerszego potraktowania, toteż omówimy je na dalszych wykładach.

Wykład 11.

CZYNNIKI ZNIEKSZTAŁCAJĄCE WYNIKI TESTOWE

Na wyniki testowe wpływają nie tylko zmienne treściowe - określone rodzaje zdolności czy cech osobowości. Wyniki testowe mogą też być zniekształcane przez określone czynniki pozatreściowe. Należą do nich tendencja do symulacji i dysymulacji, wiązana najczęściej ze zmienną aprobaty społecznej, style odpowiadania oraz zgadywanie. Na wykładzie tym skoncentrujemy się zatem na specyficznych problemach, związanych ze zniekształcaniem wyników testowych i sposobami przeciwdziałania tym czynnikom, zmniejszającym rzetelność i trafność pomiaru testowego. Czynnikom tym należy przeciwdziałać już na etapie konstruowania testu, dlatego omawiamy je - jako zagadnienie specjalne - przy okazji analizy procesu konstrukcji testu.

Jednym z głównych problemów, podnoszonych przy okazji stosowania do diagnozy osobowości (czy stanów) metod kwestionariuszowych, a mówiąc szerzej - metod wykorzystujących samoopis jest problem zniekształcania odpowiedzi przez respondentów i świadomego lub nieświadomego manipulowania udzielaną informacją o sobie. Specyfiką tych metod jest fakt, że źródłem informacji o zachowaniu (i pośrednio zatem o osobowości) jest sama osoba badana, która dokonuje selekcji i oceny informacji oraz - zależnie od celu badania oraz indywidualnych predyspozycji - może zniekształcać odpowiedzi poprzez symulowanie posiadania określonych cech lub - dysymulowanie, tzn. zaprzeczanie posiadania innych cech. Zniekształcenia te mogą mieć nie tylko charakter manipulowania użytecznością udzielanych odpowiedzi, sądzi się nawet, że mogą wynikać także z mechaniczności udzielanych odpowiedzi. Ogólnie czynniki te określa się mianem czynników zniekształcających (lub odchylających) odpowiedzi w metodach samoopisowych. Należy także dodać, że czynniki te tylko w pewnym zakresie występują w testach zdolności.

Badania nad czynnikami powodującymi odchylenie odpowiedzi na pozycje metod wykorzystujących samoopis trwają od ponad 60 lat. Termin zniekształcenie (czy odchylenie) odpowiedzi oznacza odbieganie jej od odpowiedzi prawdziwej, dokładnej, poprawnej. Termin ten obejmuje:

a). udzielanie odpowiedzi społecznie aprobowanych, jak i nie aprobowanych - te czynniki określa się mianem aprobaty społecznej (dysymulacji) i tendencji do symulowania;

b). style odpowiadania - tendencję do zgadzania się lub zaprzeczania; tendencję do udzielania odpowiedzi ekstremalnych albo centralnych przy wielokategorialnych formatach odpowiedzi (np. wybieranie przez respondenta głównie znaków zapytania lub wyłącznie kategorii krańcowych); tendencję do udzielania odpowiedzi nieuważnych, losowych, niekonsekwentnych, niezdecydowanych (opuszczenia), produktywnych, impulsywnych, pozornie oryginalnych (odwrotność aprobaty), konwencjonalnych oraz zgadywania i lateralizacji (style graficzne).

Analizę znaczenia tych czynników dla trafności metod samoopisu oraz sposobów obrony narzędzia przed niekorzystnymi zniekształceniami zostanie kolejno zaprezentowana.

Dysymulacja i aprobata społeczna

Zjawisko dysymulacji występujące w badaniach psychologicznych, w których wykorzystujemy relację osoby badanej o własnym zachowaniu, definiuje się jako świadomą lub nieświadomą tendencję osoby badanej do przedstawiania się w nieprawdziwie korzystnym świetle. Dysymulacja najczęściej wiązana jest ze zmienną aprobaty społecznej, która jest rozumiana jako tendencja osoby badanej do kierowania się społecznym wartościowaniem zachowania przy odpowiadaniu i prowadzi do zaprzeczania posiadania cech społecznie niepożądanych oraz przypisywania sobie cech społecznie pożądanych.

Aprobatę społeczną traktuje się jako styl odpowiadania albo jako substancjalną cechę osobowości. Przez styl odpowiadania rozumie się ogólnie tendencję jednostki do udzielania określonego rodzaju odpowiedzi bez względu na treść pytania, tj. kierowanie się respondenta raczej formą pytania (lub formą odpowiedzi), a nie jego treścią. Aprobata jako styl odpowiadania to w tym ujęciu tendencja respondenta do kierowania się przy odpowiadaniu nie tyle faktycznym zachowaniem, czy treścią pozycji, ale społeczną oceną, jaką pociąga za sobą dana odpowiedź. Czynnikami sytuacyjnymi wyzwalającymi tendencję do udzielania społecznie aprobowanych odpowiedzi jest materiał testowy oraz procedura badań, które wyzwalają poczucie zagrożenia społeczną oceną i lęku oraz wymagają samoprezentacji (prowadzą do uwikłania "ja"). Aprobata jako cecha to tendencja podmiotu do takiego modulowania zachowania (każdego - testowego, jak i realnego, pozatestowego), by było ono zgodne ze społecznym wartościowaniem - normami społecznymi, akceptacją otoczenia. Aprobata w takim ujęciu ma wiele wspólnego zarówno ze społecznym konformizmem, jak i mechanizmami obronnymi - uogólnioną postawą negowania problemów, represją konfliktów i problemów emocjonalnych.

Aprobata w rzeczywistości ma jednak naturę dwoistą i może być zarówno stylem, jak i cechą. W sytuacji zagrożenia społeczną oceną, wiele osób wykazuje tendencję do modyfikowania swojego zachowania w celu uzyskania zgodności ze standardami czy oczekiwaniami społecznymi oraz pozytywnego zniekształcania informacji o sobie. W sytuacji neutralnej dla większości respondentów, niektórzy ludzie również wykazują taką tendencję do modyfikowania zachowania i zniekształcania samoopisu. Oba czynniki prawdopodobnie łączą się interakcyjnie - osoby o osobowościowych predyspozycjach wykazują też najsilniejszą tendencję do ulegania zagrożeniu sytuacyjnemu.

Podział na styl i cechę nie wyczerpuje jednak w całości problemu "dwoistej natury" aprobaty społecznej. Inny podział bazuje na rozróżnieniu - którego sens udokumentowano także empirycznie - między świadomą a nieświadomą tendencją podmiotu do zniekształcania samoopisu. Rozróżnia się zatem dwa niezależne wymiary aprobaty społecznej: "sprawianie wrażenia" i "samooszukiwanie". Sprawianie wrażenia definiuje się jako świadomą dysymulację respondenta, przeznaczoną do wytworzenia pozytywnego wrażenia na innych, głównie zaś na psychologu prowadzącym badanie. Tendencja do sprawiania wrażenia ujawnia się w odpowiedziach na pytania o tzw. zachowania zewnętrzne, tzn. w ocenie zachowań, które mogą być obserwowane przez innych (podlegają zewnętrznej ocenie). Samooszukiwanie z kolei to takie pozytywne zniekształcenie obrazu samego siebie, w które respondent wierzy, że jest prawdziwe. Samooszukiwanie wyraża się w odpowiedziach na pytania o reakcje wewnętrzne, niepożądane społecznie myśli, uczucia i pragnienia.

Obu wymiarom aprobaty społecznej nadaje się zwykle status zarówno stylu odpowiadania (postaw uruchamianych sytuacyjnie), jak i bardziej trwałych dyspozycji osobowościowych. Jako styl odpowiedzi samooszukiwanie jest wrażliwsze raczej na sytuacje prowokujące do symulowania, podczas gdy sprawianie wrażenia wiąże się typową tendencją do dysymulowania. Badania wykazały jednak, że generalnie sprawianie wrażenia jest bardziej podatne na oddziaływania sytuacyjne - ten wymiar aprobaty jest więc zatem w większym stopniu stylem niż samooszukiwanie.

Samooszukiwanie - jako dyspozycja osobowościowa - wiąże się z ogólnym przystosowaniem jednostki, poziomem samoakceptacji i samooceny, poziomem lęku i skłonnością do depresji - w takim ujęciu kryje się za nią pewien mechanizm obronny, który pozwala na niedostrzeganie problemów osobistych. Znaczenie adaptacyjne samooszukiwania nie jest w pełni jasne. Ogólnie uważa się, że wysoki poziom tej formy aprobaty jest korzystny - sprzyja zdrowiu psychicznemu, spotyka się jednak i stanowiska sugerujące, że jest on dobrym miernikiem choroby psychicznej. Sprawianie wrażenia z kolei wiąże się z konformizmem społecznym, tendencją do ingracjacji czy pragmatycznego modulowania zachowań społecznych. Podobnie, jak w przypadku samooszukiwania się, znaczenie adaptacyjne sprawiania wrażenia nie jest w pełni jasne. Uważa się zarówno, że może ono być dezadaptatywne - jest wskaźnikiem społecznej i moralnej nierzetelności respondenta czy nadmiernej skłonności do ingracjacji, jak i adaptatywne - informuje o możliwościach przystosowawczych osobowości i zdolności do transformacji obrazu samego siebie dla realizacji przyszłych celów. W tym znaczeniu też wskazuje na duże możliwości przystosowawcze jednostki i jej motywację do przystosowania się do wymagań społecznych (pozytywny aspekt konformizmu).

Rozważania powyższe wskazują jak silnym i podstawowym dla przystosowania jednostki motywem jest tendencja do takiego modulowania zachowania, by było ono aprobowane społecznie. Z rozważań powyższych wynika także, że tendencja do społecznie aprobowanych zachowań jest nierozerwalnie związana z badaniem psychologicznym jako formą zbierania informacji o cechach psychicznych człowieka i ich ocenie w kontekście przystosowania - zdrowia psychicznego, zdolności do podjęcia pracy, itp. Sytuacja ta jest bowiem podobna do szeregu innych sytuacji społecznych, uruchamiających taką tendencję i wynika ona z faktu istnienia osobowościowych uwarunkowań aprobaty społecznej. Jej wpływ uwidacznia się szczególnie wtedy, gdy zachowanie to sprowadza się do samoopisu, a więc gdy źródłem informacji o cechach psychicznych i osobą dokonującą ich interpretacji jest sam podmiot. Innymi słowy wszystkie techniki bazujące na samoopisie są w pewien szczególnie istotny sposób podatne na zniekształcenia i bardziej podatne niż inne metody diagnostyczne.

Opracowano szereg metod pozwalających na zmniejszenie wpływu aprobaty społecznej na odpowiedzi inwentarzowe. Niektórzy autorzy sądzą zresztą, że eliminowanie wpływu samooszukiwania może być niebezpieczne dla trafności kryterialnej skal i nie powinno być realizowane, konieczne jest jednak kontrolowanie sprawiania wrażenia. Inni autorzy sądzą natomiast, że aprobata społeczna powinna być kontrolowana jako całościowe zjawisko. Kontrola ta może być przeprowadzana tak na etapie konstrukcji narzędzia, jak i po jego zakończeniu. Są to metody:

Na etapie konstrukcji kwestionariusza - jest to metoda podstawowa, bowiem umożliwia wczesne zmniejszenie wpływu aprobaty i oddzielenie jej od treści psychologicznej, mierzonej przez test. W przeciwnym razie do kwestionariusza są wprowadzane pozycje znacznie zróżnicowane pod względem obciążenia aprobatą, przez co wchodzi ona w wariancję prawdziwą pomiaru (najlepiej, gdyby zróżnicowanie pozycji pod tym względem było zerowe).

1). Do kwestionariusza wprowadza się pozycje neutralne pod względem obciążenia aprobatą społeczną ewentualnie takiego formatu odpowiedzi, który wymaga od respondenta wyboru między dwiema opcjami odpowiedzi obciążonymi w jednakowym stopniu. Zakłada się wówczas, że respondent musi kierować się treścią pozycji przy udzielaniu odpowiedzi. Możliwość wykorzystania formatu przymusowego wyboru odpowiedzi ogranicza jednak trudność doboru równoważnych treściowo i jednakowo obciążonych opcji, a ponadto skale, w których użyto tego formatu charakteryzują się niekorzystnymi własnościami psychometrycznymi. Zalecenie formułowania pozycji maksymalnie możliwie neutralnych należy uznać jednak za podstawowe.

2). Do kwestionariusza wprowadza się tzw. pozycje subtelne, zakładając, że im większa jest jawność pozycji (tj. możliwość zorientowania się respondenta, jaką cechę ona mierzy) oraz im większa jest łatwość rozszyfrowania trafności fasadowej skali i jednowymiarowość cechy (przy wielowymiarowości dany biegun cechy obejmuje wymiary zarówno pożądane, jak i niepożądane), tym większą możliwość świadomego manipulowania odpowiedzią ma respondent. Badania wykazują, że pozycje subtelne charakteryzuje zazwyczaj nie niższa niż pozycje jawne trafność kryterialna, za wyjątek tych badań, które prowadzone są w warunkach zagrożenia społeczną oceną. W takich sytuacjach należy oczekiwać większego odchylenia odpowiedzi na pozycje jawne.

3). Specjalne formułowanie pozycji, np. unikanie dużych kwantyfikatorów czasu (typu "zawsze", "nigdy" - są typowe dla aprobaty), operowanie wieloznacznością kontekstu sytuacyjnego - opis takich sytuacji, które nie wiążą się jednoznacznie z określonymi normami społecznymi oraz raczej sytuacyjną niż personalną atrybucją zachowania (np. w postaci strony biernej: "jestem zmuszony coś zrobić" niż "wolę czy lubię to zrobić").

4). Wprowadzanie na etapie konstrukcji kwestionariusza aprobaty społecznej jako zmiennej moderacyjnej. Odbywa się to przez walidację kwestionariusza na osobach uzyskujących wysokie wyniki w skalach aprobaty społecznej. Można wówczas oczekiwać, że wpływ aprobaty społecznej na odpowiedzi kwestionariuszowe będzie wyeliminowany - aprobata jest bowiem zmienną o stałym nasileniu w całej grupie. W efekcie dobrane zostaną tylko te pozycje, które są jednakowo mało wrażliwe na aprobatę - metoda ta pozwala na empiryczną kontrolę stopnia obciążenia aprobatą społeczną pozycji testowych.

5). Kontrolowanie podatności pozycji (oraz nawet całych skal) na aprobatę społeczną przez manipulowanie instrukcją, np. polecanie respondentom w badaniach pilotażowych udzielania odpowiedzi (1) uczciwych, zgodnych z prawdą (2) odchylonych: w kierunku profilu "dobrego" lub "złego". W efekcie tej metody pozycje obciążone mogą być wyeliminowane z kwestionariusza.

6). Przeprowadzenie analiz itemmetrycznych. Badania te zakładają konieczność szacowania na skalach ocen stopnia obciążenia aprobatą społeczną pozycji przez samych respondentów. Procedura taka powinna oprócz aprobaty społecznej eliminować także wpływ specyficznych wzorów zachowania i norm subkulturowych. W efekcie stosowania tej metody możliwe jest eliminowanie pozycji mocno obciążonych lub ich przeformułowywanie.

7). Na etapie psychometrycznego opracowywania skali możliwe jest skorelowanie pozycji ze specjalnymi skalami mierzącymi aprobatę społeczną i wyeliminowanie pozycji nadmiernie obciążonych lub takich, które korelują wyżej ze skalą aprobaty niż skalami treściowymi.

Na etapie stosowania kwestionariusza - jest to również istotne, bowiem umożliwia ocenę stopnia obciążenia treści psychologicznej aprobatą społeczną i ewentualne oddzielenie. W przeciwnym razie wyniki testowe mogą być mocno zniekształcone i zafałszowane. Do metod takich należą:

8). Wprowadzenie do procedury badania specjalnych zabiegów osłabiających wpływ aprobaty lub wprowadzenie zmian samej procedury badania. Zabiegi te w najbardziej znanej formie wiążą się z tzw. instrukcjami "szczerości". Polegają one na zastosowaniu krótkiego pseudo-testu, składającego się z pytań o określone zachowania treściowe, ale mocno obciążone aprobatą społeczną. Test ten poprzedza właściwe badania kwestionariuszowe, a na jego podstawie jest przekazywana respondentowi informacja o możliwym wpływie aprobaty na odpowiedzi oraz o nasileniu jego indywidualnej tendencji do kierowania się aprobatą. Wykazano, że procedura taka, jak i inne formy "sprawdzania szczerości" (np. "tuba prawdy") prowadzą do zmniejszenia wpływu aprobaty na odpowiedzi. Inne formy standaryzacji procedury badania testem wiążą się z anonimowością - nie angażuje ona struktury "ja", redukuje zatem wpływ aprobaty, ale tylko sprawiania wrażenia. Zmiany te wiążą się zatem z modyfikacją nastawienia osoby badanej. Możliwe jest także kontrolowanie wpływu aprobaty poprzez zmianę samej procedury badania i jej zasadniczego elementu, jakim jest interakcja z psychologiem. Stwierdzono, że testy skomputeryzowane powodują mniejsze zniekształcenie odpowiedzi niż testy tradycyjne. Kontakt z maszyną wydaje się więc niwelować wpływ zwłaszcza sprawiania wrażenia (bo i na kim wywierać to wrażenie - na bezdusznej maszynie?)

9). Wprowadzenie do kwestionariusza skali aprobaty społecznej, traktowanej jako skala kontrolna (w odróżnieniu od skali treściowej) lub jednoczesne stosowanie ze skalami treściowymi kwestionariuszy będących uznanymi miarami aprobaty społecznej i:

- odrzucanie respondentów, którzy uzyskują wysokie wyniki w skalach kontrolnych,

- korygowanie wyników skal treściowych przez doliczanie tzw. poprawek korekcyjnych,

- korygowanie wyników skal treściowych przez parcjalizowanie współczynników korelacji tych skal z kryterium zewnętrznym,

Opracowano szereg skal i kwestionariuszy do badania aprobaty społecznej - najczęściej mają one formę skal kontrolnych, które służą do diagnozy postaw wobec badania. Należą do nich skale L z inwentarzy Eysencka (w Polsce znane są skale z MPI i EPQ-R), kwestionariusza WISKAD-MMPI czy inwentarza Delta Drwala. Mierzą one tzw. naiwną tendencję do dysymulacji i udzielanie odpowiedzi wskazujących na postępowanie zgodne z normami społecznymi w każdej sytuacji, np. "nigdy się nie spóźniam", "zawsze postępuję zgodnie z głoszonymi przeze mnie ideałami". Inne skale, jak skala kontrolna K z kwestionariusza WISKAD-MMPI diagnozują aprobatę społeczną poprzez pytania, wskazujące na posiadanie idealnej osobowości (a więc tendencję do udzielania odpowiedzi wskazujących na nadmiernie pozytywny obraz samego sobie), np. "bardzo rzadko kłócę się z rodziną". Inne inwentarze, do których należy przede wszystkim KAS Drwala i Wilczyńskiej, mierzą aprobatę społeczną rozumianą jako całość - globalną tendencję do udzielania aprobowanych odpowiedzi.

Wszystkie omówione narzędzia mogą być używane do korygowania wyników skal treściowych - w rzeczywistości mierzą one sprawianie wrażenia.

10). Wprowadzenie do diagnozy psychologicznej szacowania cech osobowości, tj. zbierania informacji o danym respondencie od bliskich mu osób (znajomych lub rodziny). Informacja ta może służyć do wykrywania tendencji do dysymulacji w samoopisie lub wręcz służyć jako informacja podstawowa do opisu osobowości, uwzględniana w miejsce samoopisu.

Możliwości kontrolowania wpływu aprobaty społecznej na wyniki kwestionariuszowe jest wiele, ale są one tylko częściowo skuteczne - zawsze więc respondenci w technikach samoopisu mają możliwość zniekształcania odpowiedzi. Tendencja ta wydaje się nasilać, gdy wprowadzany jest do procedury badania element zagrożenia społecznego, np. gdy test jest stosowany do doboru zawodowego, a nie tylko w badaniach naukowych czy poradnictwie. W sytuacjach takich można oczekiwać nie tylko zniekształcania odpowiedzi w stronę odpowiedzi aprobowanych społecznie, ale także w kierunku specyficznych zawodowo lub grupowo profili testowych. Tendencje te są jeszcze trudniejsze do kontrolowania.

Tendencja do symulowania

Tendencja do symulowania jest rzadziej analizowana w badaniach diagnostycznych, bowiem rutynowe zastosowania testów prowokują częściej tendencję do dysymulacji niż symulacji. Mamy z nią do czynienia, gdy badany świadomie lub nieświadomie udziela odpowiedzi, bezpodstawnie przedstawiających go w niekorzystnym świetle, np. wskazujących na istnienie określonych zaburzeń zachowania czy niepożądanych cech osobowości. Zazwyczaj taka sytuacja występuje w badaniach klinicznych (np. sądowych w celu ustalenia odpowiedzialności za czyn przestępczy) lub przy kwalifikowaniu do tych rodzajów działalności, na których badanemu nie zależy - a raczej zależy na uzyskaniu diagnozy negatywnej. Tendencja ta może zniekształcać zarówno wyniki inwentarzowe, jak i testów inteligencji i zdolności.

U podstaw tendencji do symulowania leżą zarówno postawy wobec badania, a więc style odpowiadania, jak i trwałe tendencje osobowościowe. Do najprostszych stylów (postaw wobec badania) należy "super-szczerość" ujawniana w badaniu inwentarzowym, zwłaszcza gdy jest to pierwszy kontakt badanego z danym testem i sytuacją testowania. Postawa ta uwarunkowana jest dużą ciekawością poznawczą i prowadzi do błędów w agregacji zachowania, w efekcie czego człowiek ocenia zachowania incydentalne lub nietypowe jako częste ("skoro raz się zdarzyło"). Postawę taką mogą zwłaszcza prowokować pytania pseudo-kliniczne lub wręcz kliniczne, tzn. o nietypowe myśli, pragnienia, odczucia i wrażenia. Typowym elementem sytuacyjnym prowokującym wystąpienie symulacji jest zagrożenie pozytywną oceną, a więc uzyskania przez badanego czegoś, na czym mu absolutnie nie zależy oraz wzbudzenia motywacji do udzielania zniekształconych odpowiedzi (w celu ucieczki przed odpowiedzialnością). Jako tendencja osobowościowa symulacja wiąże się z tendencjami agrawacyjnymi (lub sensytyzacyjnymi) - wyolbrzymianiem istniejących trudności i zaburzeń zachowania, uwarunkowanymi neurotyczną skłonnością do reagowania na drobne problemy, jak na dramatyczne trudności, postawa samooskrażającą, wynikającą z obniżonej samooceny albo niekonwencjonalnością, ekscentrycznością i - zaburzeniami psychicznymi.

Kontrolowanie tendencji do symulacji wiąże się głównie ze stosowaniem specjalnych skal kontrolnych, wprowadzanych do inwentarzy obok skal treściowych. Do najbardziej znanych z nich należy, tzw. skala F z kwestionariusza WISKAD-MMPI. Włączono do niej pozycje, na które rzadko udzielana jest odpowiedź twierdząca, a które mogą wskazywać na istnienie "psychotycznych" zaburzeń zachowania, np. "Czasami wpadam w wielką złość" lub "Miewałem okresy, w których robiłem coś, z czego potem nie zdawałem sobie sprawy". Tendencje takie można wykrywać też za pomocą skali KAS Drwala i Wilczyńskiej - jako odwrotność tendencji do dysymulacji. Zazwyczaj też wprowadzane są odpowiednie poprawki korekcyjne lub skale statystyczne kontrolujące natężenie tej tendencji, np. wskaźnik symulacji - dysymulacji Gougha (wynik w skali kontrolnej F - wynik w skali kontrolnej K).

Kontrolowanie tendencji do symulacji w testach zdolności wiąże się z koniecznością dokonania analizy opcji odpowiedzi - możliwość takiej analizy musi być uwzględniona jej w procesie konstrukcji testu. Stwierdzono, że symulanci popełniają inne błędy niż osoby upośledzone lub chore umysłowo i analiza wyboru opcji odpowiedzi może to ujawnić. Przykładowo symulanci popełniają raczej błędy wyboru opcji niż błędy wskazujące na niepoprawność przebiegu procesu rozumowania (w zadaniu arytmetycznym wymagającym obliczenia iloczynu 3 razy 8, odpowiedź symulowana to 22, odpowiedź wskazująca na błąd rozumowania, to 38, bo 3 i 8.

Kontrolowanie lub ujawnienie symulacji jest jednak bardzo trudne, niekiedy wręcz niemożliwe - zazwyczaj więc psycholog może jedynie wskazywać na istnienie takiej ewentualności i w efekcie na możliwą nietrafność diagnozy psychologicznej.

Styl odpowiadania

Przez styl odpowiadania rozumie się tendencję osoby badanej do wybierania określonej opcji odpowiedzi niezależnie od treści pytania, a więc kierowania się raczej formą pytania niż jego treścią przy udzielaniu odpowiedzi oraz raczej formą odpowiedzi niż faktycznym zachowaniem. Rorer w 1965 roku zdefiniował indywidualny styl odpowiadania jako: "wybór takiego rodzaju odpowiedzi, który jest niezależny od treści pytania".

Opisano w literaturze wiele stylów odpowiadania - tendencję do zgadzania się lub zaprzeczania, tendencję do udzielania odpowiedzi ekstremalnych albo centralnych, tendencję do udzielania odpowiedzi nieuważnych, losowych, niekonsekwentnych, niezdecydowanych (opuszczenia), produktywnych, impulsywnych, pozornie oryginalnych (odwrotność aprobaty), konwencjonalnych oraz zgadywania i lateralizacji (style graficzne).

Styl odpowiadania jest prowokowany przez czynniki sytuacyjne (np. rodzaj pozycji - niezrozumiałe = styl losowy, zgadywanie; długość narzędzia - długie = styl konwencjonalny, nieuważny; sposób sformułowania językowego pozycji - negacja = negowanie, twierdzenie = potakiwanie; format odpowiedzi - dwukategorialny = potakiwanie albo negowanie - format wielokategorialny = styl centralny albo ekstremalny) oraz osobowościowe (konformizm, ugodowość, impulsywność, radykalizm, tendencje depresyjne, męczliwość, braki motywacyjne, oportunizm, różne własności samooceny).

Istnienie stylów odpowiadania nie zostało jednak jak dotąd wystarczająco dowiedzione - skale do badania danego stylu korelują ze sobą tylko przy podobieństwie treściowym pozycji - styl ujawnia się tylko w specyficznych treściowo inwentarzach. Niemniej jednak style - dla ostrożności - powinny być kontrolowane na etapie budowy inwentarza, jak i na etapie jego stosowania. Na etapie konstrukcji za podstawową metodę uważa się wyrównanie liczby pozycji diagnostycznych na "tak" i "nie", co powinno umożliwić kontrolę wpływu tendencji do zgadzania się i zaprzeczania. Respondent ma wówczas szansę na uzyskanie wyniku przeciętnego, a więc nie jest włączany do grup o skrajnym nasileniu cechy i jego wyniki nie wpływają znacząco na trafność kryterialną. Zaleca się także eliminowanie odpowiedzi pośrednich, które mają słaby status logiczny i mogą prowokować wystąpienie tzw. centralnego stylu odpowiadania (są także skale kontrolne, bazujące na zliczaniu odpowiedzi centralnych, niezdecydowanych, np. skala "?" z kwestionariusza WISKAD-MMPI). Natomiast kontrola innych form stylu odpowiadania wymaga albo wprowadzenia specjalnych skal kontrolnych, np. skali konsekwencji (pary identycznych pozycji rozsiane po całym kwestionariuszu), pozwalające na diagnozę nieuważności czy losowości przy odpowiadaniu lub skonstruowania na podstawie skal treściowych specjalnych skal statystycznych do kontroli stylu, diagnozujących dany styl poprzez porównanie proporcji odpowiedzi, np. potakujących czy negujących określone formy pytań. Skale te dają jednak tylko wskaźniki statystyczne, co jest słabym dowodem na wystąpienie danego stylu u określonej osoby i w dodatku wykazują wady psychometryczne, np. ekstremalną skośność rozkładów. Szereg stylów, mających silniejsze ukorzenienie osobowościowe jest zresztą nieusuwalne - informacja o nich może jednak mieć znaczenie diagnostyczne - wspierać wnioski, sformułowane na podstawie skal treściowych. Uważa się ponadto, że style zachowania mają mniejsze znaczenie dla trafności odpowiedzi kwestionariuszowych niż omawiana wcześniej aprobata społeczna.

Zgadywanie

Zgadywanie jest specyficznym czynnikiem zniekształcającym wyniki testów zdolności i źródłem wariancji błędu. Wynika to z faktu, że gdy badani nie znają właściwych odpowiedzi na niektóre pytania, to udzielają odpowiedzi losowych. Zmienność wyników związana ze zgadywaniem ma charakter niesystematyczny, toteż obniża rzetelność pomiaru i nie wnosi niczego do trafności testu. Z tego powodu zgadywanie jest niekorzystne i powinno być wyeliminowane.

Tendencję do zgadywania można kontrolować poprzez instrukcję testową. W pierwszym z wariantów można osobom badanym zalecać zgadywanie w każdym z przypadków, gdy nie znają prawidłowej odpowiedzi. W efekcie następuje wyrównanie interindywidualnej tendencji do zgadywania i ten sam czynnik nie wpływa już na zmienność wyników otrzymanych. Niestety procedura taka prowadzi do spadku rzetelności pomiaru wskutek zwiększenia się liczby odpowiedzi losowych. W praktyce zatem metoda ta jest stosowana raczej rzadko. W wariancie drugim tendencję do zgadywania zmniejsza się informując badanych, że stosowane są korekty wyników. Wyrównuje się w ten sposób indywidualną tendencję do zgadywania i jednocześnie obniża się liczbę odpowiedzi losowych przez co rzetelność nie obniża się.

Możliwe jednak są także specjalne zabiegi statystyczne pozwalające na dokonywanie korekty na zgadywanie. Zakłada się w niej, że badany albo zna prawidłową odpowiedź albo zgaduje (odpowiada losowo). Wynik otrzymany zatem to liczba odpowiedzi prawidłowych bez zgadywania oraz liczba odpowiedzi odgadniętych. Liczbę odgadniętych odpowiedzi można oszacować na podstawie liczby odpowiedzi błędnych oraz liczby opcji odpowiedzi w zadaniach testowych (przy założeniu, że są jednakowo atrakcyjne). Jest ona równa ilorazowi błędów przez liczbę opcji odpowiedzi minus 1. Ostatecznie poprawka na zgadywanie ma postać: K = P - (B/ m -1), gdzie K - liczba odpowiedzi bez zgadywania, P - liczba poprawnych odpowiedzi w teście, B - liczba błędnych odpowiedzi, m - liczba opcji odpowiedzi w zadaniach testowych.

Poprawka ta nie ma istotnego znaczenia w testach mocy (wydolności), tzn. testach bez ograniczenia czasowego - gdy każdy badany ma szansę rozwiązania wszystkich zadań. W testach takich korelacja wyników prawidłowych oraz błędów jest idealnie ujemna i poprawka niczego nie wnosi. Podobnie nie ma ona znacznie w testach szybkości, w których miarą rozwiązania jest czas. Ma ona znaczenie tylko w testach z ograniczeniem czasowym. Stosowanie jej jest szczególnie opłacalne wtedy, gdy test jest bardzo trudny (trudne zadania, rygorystyczne normy czasowe), bo nasila tendencję do zgadywania oraz liczba - jednakowo atrakcyjnych - opcji odpowiedzi jest mniejsza niż pięć. Przy większej liczbie opcji poprawka nie ma znaczenia - korekta jest zbyt mała. Podobnie dotyczy to tych testów, których zadania nie mają stałej liczby opcji odpowiedzi (np. przy czterech opcjach może nie być żadnej albo jest jedna albo dwie albo trzy albo cztery prawidłowe odpowiedzi), a zadanie jest traktowane jako rozwiązane przy podaniu wszystkich prawidłowych odpowiedzi i żadnej błędnej. W przypadku natomiast, gdy opcje są niejednakowo atrakcyjne konieczne jest uwzględnienie tego w formule poprawki - ma ona wtedy istotne znacznie, bo zwiększa możliwość odgadnięcia prawidłowej odpowiedzi (zawęża liczbę opcji).

Zanim konstruktor lub użytkownik testu wprowadzi poprawki korekcyjne, konieczne jest w pierwszej kolejności wykazanie, że istotnie wyniki skorygowane są bardziej rzetelne i trafne niż wyniki surowe. W przeciwnym wypadku stanowią one bowiem dodatkową formułę statystyczną, która wyłącznie utrudnia obliczanie wyniku testowego i jego interpretację.

Wykład 12.

STRATEGIE KULTUROWEJ ADAPTACJI TESTÓW

Testy można nie tylko konstruować - można je także adaptować. Proces ten wykazuje szereg podobieństw do procesu konstrukcji testu, ale i wiele różnic, toteż omówimy go bliżej.

Adaptacja testu oznacza legalne zapożyczenie go z kraju, w którym był skonstruowany i opracowywanie w taki sposób, aby mógł być z powodzeniem stosowany w kraju adaptacji, czyli nadal był trafnym i rzetelnym narzędziem diagnozy psychologicznej. Proces ten nazywa się kulturową adaptacją testu. Kulturowa adaptacja testu oznacza zatem "przystosowanie czy dopasowanie wersji oryginalnej testu do innej specyfiki kulturowej". Adaptacja testu oznacza zatem konieczność wprowadzenia specjalnych procedur przystosowujących (decentrujących - uniwersalizujących lub centrujących na kulturze adaptacji) - należy z całym naciskiem podkreślić, że nie wystarczy test przetłumaczyć - należy jeszcze wykazać, że nadal jest on testem w innych warunkach kulturowych oraz że jest tym samym testem, co w warunkach oryginalnych. W przeciwnym razie stosowanie takiego narzędzia prowadzi nieuchronnie do stronniczości kulturowej, tj. osiągania gorszych wyników przez osoby wychowane w innej kulturze niż kultura stanowiąca podstawę testu i w konsekwencji do sformułowania wniosków psychologicznych o mniejszych zdolnościach przystosowawczych tych osób lub odwrotnie - do faworyzacji kulturowej - równie nieuzasadnionej.

Najlepiej zjawisko to ilustrują doświadczenia z próbami adaptacji testów werbalnych, np. Testem Piętnastu Słów Reya służącym do badania szybkości zapamiętywania i zdolności do odtwarzania i rozpoznawania materiału słownego. Występujące w teście oryginalnym słowa zostały bezpośrednio przetłumaczone na język polski, przy czym udało się znaleźć proste i najlepsze ich odpowiedniki. Wszystko wskazywało zatem, że test będzie trafnym narzędziem diagnostycznym także i w Polsce. Niestety okazało się, że słowa zawarte w oryginale są częściej używane w Francji niż ich odpowiedniki - w Polsce (co można stwierdzić analizując odpowiednie słowniki frekwencyjne), a zatem są prostsze i bardziej dostępne dla przeciętnego Francuza. W efekcie proste tłumaczenie doprowadziło do uzyskania testu trudniejszego niż oryginał). Test ten mógł być stosowany po normalizacji do porównań różnych grup w Polsce, ale gdyby na jego podstawie dokonać porównań międzykulturowych, to prowadziłyby one do wniosku, że Polacy mają gorszą pamięć niż Francuzi. Absurdalność tego wniosku wydaje się oczywista, ale należy pamiętać o fakcie, że na podstawie wyników badania emigrantów z różnych krajów europejskich stronniczymi kulturowo testami inteligencji Senat USA podjął uchwałę o ograniczeniu wiz wjazdowych między innymi dla Słowian. Uzyskiwali oni bowiem znacznie gorsze wyniki w testach będących stronniczymi adaptacjami angielskojęzycznych oryginałów. Doświadczenia te uzmysłowiły jednak badaczom, że nie istnieją testy niezależne-kulturowo. Przy specjalnej procedurze konstrukcji można co najwyżej zminimalizować wpływ danej kultury, a więc skonstruować test kulturo-zredukowany, który będzie łatwiejszy do zaadaptowania w innym kraju albo skonstruować kulturowo-neutralne wersje danego testu, dostosowane od razu do specyfiki kulturowej określonych krajów.

Przystosowanie testu do innych warunków kulturowych polega przede wszystkim na przyjęciu określonej strategii adaptacji. Wybór strategii kulturowej adaptacji testu zależy od celu badawczego - może nim być hipoteza dotycząca różnic międzykulturowych, jak i różnic wewnątrzkulturowych (podobno rzadko udaje się narzędzie czy adaptacja, która umożliwiałaby jednoczesne osiągnięcie obu celów). Istnieje szereg strategii adaptowania testów, zależnych od celu podstawowego oraz aspektu równoważności kulturowej testu.

Aspekty te to: równoważność teorii psychologicznych (nie jest jasne czy koncepcje cywilizacji zachodniej pasują do kultur wschodnich - inne filozofie i religie), wymiarów psychologicznych (np. agresywność w kulturze ludzi zupełnie nieagresywnych), pojęć psychologicznych (np. inteligencja jako czynnik przystosowania do wymagań szkolnych), wskaźników cech - zachowań (poszukiwanie doznań w krajach sterowanych tradycją - może nie używanie narkotyków, ale walka wręcz) czy procedury badania (znajomość sytuacji testowania, np. testy komputerowe, motywacja do badania, kooperacja z psychologiem, niespecyficzne zdolności, np. abstrahowania przy inwentarzach). Aspekty te albo w ogóle wykluczają sensowność dokonywania adaptacji (odmienność psychologiczna kultur - specyficzność kulturowa teorii i wymiarów psychologicznych) albo wymagają zastosowania specyficznych zabiegów adaptacyjnych (nierównoważność zachowań czy nierównoważność językowa w zakresie pojęć naturalnych) oraz wymagają spełnienia szeregu kryteriów równoważności. Dotyczą one równoważności fasadowej (forma testu), psychometrycznej (wskaźników dobroci pomiaru), funkcjonalnej (równoważność treści psychologicznej), wierności tłumaczenia i wierności rekonstrukcji (analiza danych, modele psychometryczne, skład i liczebność prób respondentów, procedura badań). Stworzono różne strategie adaptacji:

Transkrypcja - procedura zakłada maksymalnie wierne tłumaczenie oryginalnych pozycji. Nie są wprowadzane żadne poprawki językowe, tylko takie, które są niezbędne. Za strategią transkrypcji stoi założenie, że zarówno konstrukty, jak i zachowania są uniwersalne kulturowo (czy inaczej równoważne kulturowo). Przed adaptatorem stoi tylko zadanie dochowania wierności tłumaczenia oraz wierności fasadowej testu. Transkrypcja jest najbardziej zachowawczą strategią adaptacji testów - chroni nie tylko oryginalne konstrukty, ale i wskaźniki służące do ich pomiaru. Jest też najprostsza dla adaptatora oraz najmniej czasochłonna i pracochłonna. Niestety testy transkrypcyjne często są "niezręczne" językowo i wykazują szereg wad psychometrycznych.

Translacja - procedura również zakłada maksymalnie wierne tłumaczenie finalnej puli oryginalnych pozycji, ale z możliwością wprowadzenia niezbędnych modyfikacji, gdy specyfika kulturowa oryginału może powodować nierównoważność testu. Oznacza to, że tylko całkowicie zrozumiałe, jasne i poprawne językowo pozycje są chronione, pozostałe poddaje się drobnym modyfikacjom, tak by oddać maksymalnie wiernie treść, choć niekoniecznie za pomocą tych samych słów. Za translacją stoi założenie, że konstrukty, jak i zachowania są uniwersalne kulturowo, ale nie są uniwersalne pojęcia używane w danej kulturze do opisu zachowania. Przed adaptatorem stoi więc zadanie zaproponowania takiej modyfikacji językowej lub logicznej pozycji, by była ona funkcjonalnie zbliżonym do oryginału bodźcem. Należy zwrócić uwagę, że translacja jest bardziej czasochłonna i pracochłonna dla adaptatora niż transkrypcja, ale prowadzi do uzyskania znacznie mniej spaczonych kulturowo adaptacji i poprawniejszych językowo pozycji.

Trawestacja - strategia zakłada możliwość swobodnego tłumaczenia oryginału z wprowadzaniem wielu modyfikacji i zmian, sugerowanych względami językowymi i psychologicznymi. Istnieje zatem możliwość wymiany części pozycji ze względów językowych, treściowych (wymiana opisywanej formy zachowania na inną, bardziej specyficzną kulturowo) lub psychometrycznych (lepsza miara danej cechy). Za trawestacją stoi założenie, że konstrukty psychologiczne są uniwersalne, ale nie są uniwersalne pojęcia używane w danej kulturze do opisu zachowania i nie zawsze uniwersalne są same zachowania (część zachowań ma charakter emikalny). Z tego powodu pozycje muszą być korygowane językowo i psychologicznie (wymiana pozycji specyficznych kulturowo). Trawestacja jest bardziej czasochłonna i pracochłonna dla adaptatora niż translacja, ale prowadzi do uzyskania dostosowanych do danej kultury adaptacji i poprawnych językowo pozycji.

Parafraza - strategia zakłada konieczność opracowania nowego narzędzia od fazy analizy teorii i generowania pozycji, aż po analizę psychometryczną danych - test oryginalny jest jedynie inspiracją adaptacji. Przy parafrazie istnieje możliwość tłumaczenia pozycji, ale ma ono jedynie znaczenia orientacyjne i inspiracyjne: pozycje są przeformułowywane lub generowane od początku na bazie oryginalnych - kryterium jest nie tyle zgodność z oryginałem, ile poprawność językowa i odpowiedniość psychologiczna do warunków adaptacji. Wierność tłumaczenia nie jest zatem przestrzegana, nie może nawet być testowana. Celem adaptacji jest maksymalne wierne oddanie intencji autora odnośnie treści konstruktu psychologicznego. Przy tworzeniu parafrazy niezmiernie ważna jest więc oryginalna teoria psychologiczna, bazująca u podstaw adaptowanego narzędzia. Za parafrazą stoi założenie, że konstrukty psychologiczne są uniwersalne kulturowo, ale z reguły nie są uniwersalne zachowania (tylko część z nich ma charakter etikalny, tj. równoważny kulturowo i tylko te mogą wejść do finalnej wersji adaptacji). Parafraza jest bardziej czasochłonna i pracochłonna dla adaptatora niż trawestacja, ale prowadzi do uzyskania w pełni dostosowanych do danej kultury adaptacji i często nawet lepszych - niż wersja oryginalna wersji danego narzędzia.

Rekonstrukcja - strategia zakłada konieczność opracowania całkowicie nowego narzędzia, dla którego inspiracją jest oryginalny model teoretyczny i strategia konstrukcji. Przy rekonstrukcji tłumaczenie pozycji jest zbędne - muszą one być generowane w danym języku, zgodnie z regułami przyjętymi w wersji oryginalnej. Celem adaptacji jest maksymalne wierne oddanie intencji autora odnośnie treści konstruktu psychologicznego i procedury tworzenia testu. Przy tworzeniu rekonstrukcji niezmiernie ważna jest więc nie tylko oryginalna teoria psychologiczna, bazująca u podstaw adaptowanego narzędzia, ale i procedura tworzenia tego narzędzia. Za rekonstrukcją stoi założenie, że zachowania z reguły nie są uniwersalne kulturowo, ale jest możliwe że mogą nie być uniwersalne również konstrukty psychologiczne. Rekonstrukcja może zatem prowadzić do uzyskania innej wersji testu niż wersja oryginalna i dotyczyć to może tak liczby, jak i treści psychologicznej mierzonych konstruktów. Rekonstrukcja jest najbardziej czasochłonną i pracochłonną strategią adaptacji, ale zazwyczaj prowadzi do uzyskania w pełni dostosowanych do danej kultury wersji testu.

Strategie te muszą spełnić szereg kryteriów równoważności. Spełnienie równoważności fasadowej wydaje się najprostsze - dotyczy ona wymagania identyczności wyglądu adaptacji i oryginału. Zazwyczaj wiąże się to jednak z ostrzeżeniem dotyczącym nieodpowiedzialnej zmiany wyglądu testu - wniosek ten dotyczy przykładowo testów komputerowych. Zachowanie wierności tłumaczenia inwentarzy czy testów werbalnych - wymaga udziału językoznawców, znających jednak nie tylko język, ale możliwie i daną kulturę. Dobrze jest dysponować kilkoma tłumaczeniami (minimum dwoma) i ustalać wersję pozycji w drodze dyskusji. Konieczne wydaje się też sprawdzenie wierności - na grupach dwujęzycznych lub poprzez tłumaczenie zwrotne. Wierność rekonstrukcji - wiąże się z podstawowym wymaganiem zachowania oryginalnych procedur konstrukcji i adaptacji testów. Wykazanie równoważności psychometrycznej i funkcjonalnej z kolei wymaga specjalnych badań trafności i porównań szeregu parametrów psychometrycznych pomiaru.

Wybór odpowiedniej strategii zależy przede wszystkim od celu adaptacji. Dla bezpośrednich ilościowych porównań międzykulturowych najbardziej odpowiednią wydają się transkrypcja, translacja aż do trawestacji. Dla bezpośrednich ilościowych porównań wewnątrzkulturowych - parafraza i rekonstrukcja. Dla pośrednich jakościowych porównań międzykulturowych, bazujących na analizach wewnątrzkulturowych, najlepsze byłyby narzędzia transkulturowe. Testy takie są konstruowane z zastosowaniem specjalnych procedur decentracji, neutralizujących wpływ danych specyficznych warunków kulturowych. Są to zatem narzędzia, które są kulturowo-uniwersalne albo kulturowo-równoważne. Zazwyczaj też nie zawierają tych samych, identycznych zadań, ale zadania które są mają w porównywanych kulturach identyczne własności psychometryczne, np. identyczną trudność.

Innym aspektem kulturowej adaptacji testów jest aspekt wewnątrzkulturowy związany z adaptacją testu do innych warunków podkulturowych.

Demograficzna adaptacja testów

Problem ten zwykle nie jest specjalnie podnoszony, ale wiadomo, że kultura narodowa nie jest jednorodna, tak pod względem językowym, zwyczajowym, środowiskowym (warunki życia). O ile nierespektowanie zasad adaptacji międzykulturowej testu łączy się z zarzutem o stronniczość kulturową diagnozy testowej, o tyle nierespektowanie zasad adaptacji wewnątrzkulturowej z zarzutem o dyskryminację społeczną, rasizm, seksizm, itp. (a więc stronniczość społeczną testu).

W literaturze opisuje się przynajmniej kilka zmiennych demograficznych, koniecznych do uwzględnienia - zazwyczaj w procesie konstrukcji - by test był równoważny wewnątrzkulturowo.

Wiek - test jest zwykle przeznaczony do badania odpowiedniej populacji (dzieci, młodzież, dorośli). Próba zmiany przeznaczenia testu pod tym względem wymaga dostosowania samego testu, nieraz nawet ingerencji na poziomie pozycji - w zasadzie opracowania go od nowa. Zazwyczaj adaptacja testu do różnych grup wieku polega na tworzeniu odrębnych wersji wiekowych testu oraz w najprostszej postaci - na tworzeniu norm wiekowych.

Płeć - problem dyskryminacji płciowej jest szczególnie mocno podnoszony. Zwykle dotyczy bowiem faworyzowania mężczyzn przez testy. Ale stronniczość społeczna testu, występuje wtedy i tylko wtedy, gdy dana grupa osiąga niższe wyniki w teście, a nie osiąga niższych wyników w kryterium (zatem stronniczość to nietrafna różnica grupowa - test diagnozuje różnice nieobiektywne, nie istniejące lub nie mające znaczenia dla danego kryterium). Niestety należy uznać, że wiele testów zwłaszcza zdolności istotnie faworyzowało mężczyzn. Testy powinny być zatem opracowywane tak by czynnik ten neutralizować, a więc mieć wbudowane procedury decentracji - zawierać podtesty neutralne albo w równych proporcjach skale faworyzujące i dyskryminujące daną płeć. Jeśli test wykazuje różnice płciowe, to stronniczości można uniknąć wprowadzając odrębne normy.

Rasa - analogicznie jak dla płci, ale niestety badania dowiodły, że testy są w tym aspekcie trafne - oddają faktyczne różnice w kryteriach powodzenia zawodowego. Próby konstrukcji testów językowych specyficznych rasowo (słownik Murzynów z Bronxu) zawiodły - były one psychometrycznie wadliwe jako testy inteligencji (słabo korelowały z innymi miarami inteligencji i wskaźnikami przystosowania oraz gorzej niż klasyczne testy zdolności, nawet z tymi te kulturowo niedostosowanymi do tej populacji). Problem jest zresztą źle postawiony - powinien być raczej definiowany jako podkulturowy czy klasowy niż rasowy.

Klasa społeczna (status społeczno-ekonomiczny) - najbardziej analizowana i trudna do kontroli zmienna, bo budząca i w Polsce wiele emocji i posądzeń o stronniczość testów. Niestety dostępne dane wskazują, że jest to przejaw trafności testów, bo oddają one faktyczne różnice w powodzeniu szkolnym, zawodowym i społecznym pomiędzy klasami.

Środowisko - głównie analizuje się wymiar: środowisko wiejskie - miejskie. Poświęcono mu sporo czasu, uzasadniając istnienie zjawiska stronniczości testów zdolności wobec dzieci wiejskich, ale mniej uwagi poświęcono problemowi różnic w kryteriach. Wydaje się jednak, że czynnik ten powinien uwzględniany tak przy testach zdolności, jak i inwentarzach osobowości przez odrębne normy. Konieczne jednak wydaje się jednak każdorazowo wykazanie, że środowisko nie prowadzi do różnic w kryterium. O wprowadzeniu odrębnych norm mogą wówczas decydować względy ideologiczne, pozatestowe i pozapsychometryczne.

Podkultura - uwzględnianie tego czynnika powoduje, że test traci ogólność i jest możliwy do stosowania tylko w obrębie danej grupy. Tylko w obrębie danej kultury może być on trafny, a zatem testy ogólniejsze mogą być stosowane w podkulturach, ale nie odwrotnie - test uwzględnia wzorce zachowania kulturo-specyficzne, ale i kulturowo-marginalne.

Podsumowując - testy powinny bezwględnie być adaptowane do innych warunków demograficznych: powinno to następować dla płci i wieku, względnie dla środowiska. Adaptacja ta może następować na poziomie konstrukcji narzędzia albo na poziomie normalizacji testu już skonstruowanego.

Niezależnie od tego czy dany test został test oryginalnie skonstruowany czy zaadaptowany, jego przeznaczeniem jest diagnoza psychologiczna. Diagnoza ta wymaga przejścia od wyników testowych do wniosków psychologicznych. Do tego celu konieczne jest uzyskanie wyniku testowego, jego normalizacja i interpretacja. Elementy te dotyczą wnioskowania na podstawie wyników testowych.

Wykład 13.

NORMALIZACJA WYNIKÓW TESTU

Analiza procesu wnioskowania na podstawie wyników testowych wymaga w pierwszej kolejności udzielenia odpowiedzi na pytanie, co uzyskujemy z badania testowego - a więc czym jest wynik testowy?

Na pierwszym wykładzie testy zdefiniowaliśmy jako skale pomiarowe, dostarczające informacji o określonych aspektach zachowania, stanowiącej podstawę do ilościowego oszacowania danej cechy psychologicznej u człowieka. Oszacowanie to ujęte jest w postaci wyniku liczbowego danej osoby na tle grupy odniesienia. Na oszacowanie to składa się zatem wynik surowy w teście, który jest transformowany na wynik danej osoby na tle grupy odniesienia. Składa się na nie zatem wynik surowy i wynik transformowany.

Wynik surowy jest sumą odpowiedzi diagnostycznych danej osoby na pozycje testowe, mierzące daną cechę. Obliczenie go wymaga następujących operacji:

a). ustalenia klucza odpowiedzi, poprzez arbitralne lub empiryczne przyjęcie, jakiemu biegunowi cechy ma odpowiadać wysoki wynik w skali (przy zliczaniu wyników pozycje odwrotnie diagnostyczne są rekodowane);

b). ustalenia reguły obliczania wyniku ogólnego w skali, tzn. zadecydowaniu czy suma wyników ma być sumą ważonych czy nieważonych odpowiedzi (to ostatnie jest nieco mylące - nieważony oznacza bowiem także ważenie odpowiedzi przez przypisanie poszczególnym pozycjom jednakowych wag równych 1). Odbywa się to na podstawie apriorycznego albo empirycznego przyporządkowywania opcjom odpowiedzi na poszczególne pozycje określonych wartości liczbowych. Metoda apriorycznego przyporządkowania poszczególnym opcjom odpowiedzi różnych wag polega na arbitralnym ustaleniu skoku skali na równomiernym (zazwyczaj równym 1 punktowi, np. 0-1 lub 0-1-2-3) albo nierównomiernym (np. 1-4-5-7). Zazwyczaj wagi te są identyczne dla wszystkich pozycji - mają one wówczas potencjalnie ten sam wkład do wyniku końcowego (dokładniej jest on wówczas zależny od wariancji i interkorelacji danej pozycji). Przy metodzie empirycznej skok ten jest zazwyczaj nierównomierny i ustalany na podstawie wag różnicowych pozycji, tj. różnicy w wynikach kryterialnych pomiędzy osobami udzielającymi odpowiedzi diagnostycznej i niediagnostycznej na daną pozycję. Możliwe do tego celu wykorzystywanie także współczynników beta z równania regresji czy funkcji dyskryminacyjnej - przy czym kryterium może być zewnętrzne lub wewnętrzne, tj. wynik ogólny w teście. W metodzie empirycznej poszczególne opcje odpowiedzi mają wagi zróżnicowane w efekcie czego zróżnicowane są też wagi pozycji. Wagi nierównomierne - zwłaszcza jeśli obliczone są dla kryterium zewnętrznego - mogą jednak prowadzić za zaburzenia normalności rozkładu wyników testowych i zaburzenia liniowości związku pomiędzy pozycją a skalą.

c). wykonaniu zliczania punktów, przyznanych za poszczególne odpowiedzi diagnostyczne - suma tych obliczeń stanowi wynik w danej skali - jest to tzw. wynik surowy. Wynik surowy w teście zatem to suma rozwiązanych zadań testowych lub suma odpowiedzi diagnostycznych na pytania testowe o określone formy zachowania.

Wynik surowy w teście zupełnie nie informuje o pozycji danej osoby na tle grupy odniesienia - do tego celu konieczna jest transformacja wyniku surowego na skalę, uwzględniającą średnią i odchylenie standardowe rozkładu wyników w danej próbie, skalę odzwierciedlającą częstości wyników albo skalę znormalizowaną, tj. skalę bazującą na wartościach rozkładu normalnego. Wynik transformowany zatem to wynik surowy przekształcony na wyniki względne, informujące o pozycji danej osoby na tle grupy odniesienia. Informacja ta może polegać na określeniu, w jakim stopniu wynik ten różni się od innych wyników, gdy miarą tej różnicy jest odbieganie od średniej wyrażone w jednostkach odchylenia standardowego (tzw. skala standaryzowana), pozycja rangowa wyniku, bazująca na częstości wyników w próbie (tzw. skala procentowa) lub odbieganie od średniej wyrażone w jednostkach odchylenia standardowego rozkładu normalnego (tzw. znormalizowana skala standardowa). Podstawowym założenie leżące u podstaw transformacji wyników surowych wiąże się z wymaganiem uzyskania pomiaru na odpowiedniej skali pomiarowej. Celem testowania jest możliwość różnicowania osób - jest to możliwe, gdy wyniki są wyrażone na skali pomiarowej porządkowej lub przedziałowej. Pomiar na skali porządkowej zakłada możliwość różnicowania osób poprzez rangowanie ich, pomiar na skali przedziałowej umożliwia wnioskowanie o wielkości różnic - do tego jednak celu pomiar wymaga wyrażenia różnic w jednostkach odchylenia standardowego oraz znormalizowania. Są możliwe dla rodzaje transformacji wyników testowych: liniowa i nieliniowa.

Transformacja liniowa zakłada przekształcenie wyniku na skalę standaryzowaną, która nie zmienia kształtu rozkładu wyników surowych - jest zatem tylko wyrażeniem wyników surowych w jednostkach różnicy od średniej, a więc jednostkach różnic standaryzowanych. Przekształcenie to polega zatem na wyrażeniu wyników surowych w tzw. jednostkach standaryzowanych "z", dla których średnia jest równa M=0,0 i odchylenie standardowe So=1,0. Wyniki te zatem mogą zmieniać się potencjalnie od -∝ (wyniki minimalne w skali), przez zbliżone do zera (wyniki zbliżone do przeciętnej w skali) aż do +∝ (wyniki maksymalne w skali). Wynik danej osoby równy -2,0 oznacza, że osiągnęła ona w teście rezultat niższy o dwa odchylenia standardowe od średniej uzyskanej przez cała grupę. Przekształcenie to odbywa się na podstawie wzoru; z = (x - Mx) / Sx, gdzie x - dany wynik indywidualny w teście, Mx - średnia wyników danej próby w teście, Sx - odchylenie standardowe wyników danej próby w teście.

Transformacja liniowa jest przekształceniem najprostszym, ale jeszcze niewystarczającym. Nie zmienia ona bowiem rozkładu wyników, a zatem też nie pozwala ona na porównanie wyników różnych testów (nie spełnia całkowicie założenia o przedziałowości skali pomiarowej). Do tego celu konieczna jest transformacja nieliniowa, która przekształca wyniki testowe na wyniki względne mające rozkład prostokątny albo normalny.

Transformacja nieliniowa na wyniki względne rangowe polega na wyznaczeniu częstości (frekwencji) poszczególnych wyników testowych, uporządkowanych według wielkości (zazwyczaj w kolejności rosnącej). Po wyznaczeniu procentu frekwencji w poszczególnych klasach, frekwencji skumulowanych i procentu frekwencji skumulowanych, następuje wyznaczenie odpowiedniej wartości procentowej, będącej sumą skumulowanej wartości procentowej wyników niższych oraz połowy procentu frekwencji w danej klasie (a więc środka przedziału klasowego). Wartość ta informuje o częstości występowania określonych wartości liczbowych w danej próbie. Skok skal procentowych może być jednoprocentowy (skala centylowa, która zawiera sto jeden stopni i zakłada konieczność klasyfikowania znormalizowanych frekwencji do jednoprocentowych klas, za wyjątkiem centyli krańcowych, które obejmują po 0,5% obserwacji) lub dziesięcioprocentowy (skala decylowa, która zawiera jedenaście stopni i zakłada konieczność klasyfikowania znormalizowanych frekwencji do dziesięcioprocentowych klas, za wyjątkiem decyli krańcowych, które obejmują po 5% obserwacji). Dana jednostka oznacza, że określony odsetek osób uzyskał w teście wynik surowy niższy od wyniku ocenianego. Przykładowo wynik surowy równy 5 decylowi oznacza, że dana osoba uzyskała wynik wyższy od 45% osób oraz niższy też od 45% osób w danej grupie.

Transformacja na podstawie częstości nie jest więc prostą klasyfikacją na podstawie częstości procentowych - procedura ta wykorzystuje konieczność tworzenia rang wiązanych i przyporządkowywania częstości względnych środkom przedziałów klasowych. Same skale procentowe nie prowadzą jednak do uzyskania przez rozkład kształtu rozkładu normalnego - wręcz odwrotnie - rozkłady procentowe są zawsze prostokątne, nawet jeśli rozkłady wyników surowych były bliskie rozkładowi normalnemu. Z tego powodu skale decylowa i centylowa zwiększają oszacowanie różnic międzyosobniczych w przedziale blisko średniej, a zmniejszają na krańcach rozkładu (podczas, gdy dla rzeczywistości psychologicznej można oczekiwać tendencji odwrotnej). Z tego powodu skale procentowe są rzadko stosowane (nie spełniają założenia o przedziałowości skali pomiarowej), a transformacja nieliniowa wyników surowych jest dokonywana na specjalne znormalizowane skale standardowe, tj. skale wykorzystujące przy szacowaniu różnic międzyosobniczych wartość odchylenia standardowego rozkładu normalnego.

Normalizacja wyników testowych na skalach standardowych wiąże się zatem z taką transformacją nieliniową wyników surowych, która przekształca je na wyniki standaryzowanej różnicy od średniej w rozkładzie normalnym, a więc łączy się z narzuceniem rozkładowi wyników kształtu rozkładu normalnego.

Opracowano szereg skal standardowych umożliwiających normalizację wyników. Bazują one na identycznych założeniach:

1). normalizacji wyników surowych, tj. wstępnym wyznaczeniu znormalizowanych wartości standardowych "z" (odpowiadają one jednostkom standaryzowanym "z", ale wyznaczonym z rozkładu normalnego), które są uzyskiwane w rezultacie przekształcenia nieliniowego wyników surowych na skalę ciągłą, odpowiadającą wartości rozkładu normalnego o średniej M=0,0 i So= 1,0 i kształcie krzywej normalnej. Jednostki te wyznaczane są poprzez obliczenie frekwencji wyników surowych, frekwencji wyników skumulowanych oraz frekwencji odpowiadających środkowi przedziałów klasowych, które stanowią podstawę do obliczenia proporcji w stosunku do całkowitej liczby osób badanych. Proporcja ta informuje o różnicowej wielkości danego wyniku, tj. wskazuje ile osób w danej próbie osiągnęło wynik niższy, a ile wyższy. Proporcja ta stanowi też podstawę do wyznaczenia wartości znormalizowanej "z" - wartość ta odpowiada uzyskanej proporcji w rozkładzie normalnym.

Transformacja na znormalizowane wartości standaryzowane "z" nie jest więc prostą standaryzacją wyników surowych - procedura ta wykorzystuje konieczność tworzenia rang wiązanych i wyznaczania wartości standaryzowanych, które odpowiadają częstościom dla rozkładu normalnego (wartości te są zaś miarą stopnia, w jakim wyniki o określonej częstości odbiegają od średniej w rozkładzie normalnym). W stosunku do jednostek standaryzowanych "z" wartości znormalizowane "z" mają rozkład normalny i są bardziej skupione wokół średniej (praktycznie ich zmienność mieści się w granicach 3 odchyleń standardowych).

2). transformacji liniowej znormalizowanych wartości standardowych "z" na określoną skalę standardową o arbitralnie ustalonej średniej i odchyleniu standardowym. Możliwa jest też transformacja bezpośrednia wyników surowych na znormalizowane skale standardowe, ale przez wartości znormalizowane "z" jest ona najprostsza. Formuła transformacji wyników znormalizowanych "z" na skalę standardową ma postać - y = zSy + My, gdzie y - wynik w znormalizowanej skali standardowej, z - znormalizowany wynik standardowy, Sy - odchylenie standardowe danej skali standardowej, My - średnia wyników danej skali standardowej.

Opracowane znormalizowane skale standardowe wymagają więc zastosowania zbliżonej procedury obliczeniowej. Różnią się natomiast wartościami arbitralnymi, tj. średnią i odchyleniem standardowym, w efekcie czego różny jest zakres i skok skali standardowej. Najbardziej popularnych jest pięć skal: stenowa, staninowa, tenowa, tetronowa i dewiacyjny iloraz inteligencji, ale teoretycznie możliwe jest wyznaczenie dowolnej skali standardowej według identycznych założeń transformacyjnych. Skale te zostaną teraz bliżej omówione.

Skala stenowa - skala o rozkładzie normalnym i średniej równej 5,5 oraz odchyleniu standardowym równym 2,0; skok skali wynosi zatem 1 sten i jest równy połowie odchylenia rozkładu wyników znormalizowanych, zakres skali od 1 do 10 stenów (stąd nazwa = standard ten); steny 2 - 9 obejmują + 2,0 odchylenia standardowe rozkładu wyników znormalizowanych, a steny skrajne (1 i 10) łączą wszystkie wyniki mniejsze (większe) od dwóch odchyleń standardowych. Ponadto steny środkowe (5 i 6) znajdują się po obu stronach średniej wyników (5 - poniżej średniej, 6 - powyżej średniej) i obejmują podobnie jak pozostałe (2-8) po 1/2 odchylenia standardowego wyników surowych. Formuła przeliczeniowa dla skali stenowej ma przykładowo postać: y = 2,0z + 5,5.

Skala staninowa - skala o rozkładzie normalnym i średniej równej 5,0 oraz odchyleniu standardowym równym 2,0; skok skali wynosi zatem 1 stanina i jest równy połowie odchylenia rozkładu wyników znormalizowanych, zakres skali od 1 do 9 stanina (stąd nazwa = standard nine); staniny 2 - 8 obejmują + 1,75 odchylenia standardowego rozkładu wyników znormalizowanych, staniny skrajne (1 i 9) łączą wszystkie wyniki mniejsze (większe) od 1,75 odchylenia standardowego. Ponadto stanin środkowy (5) obejmuje średnią wyników (leży od dokładnie w jej środku) i obejmuje wyniki równe + 0,25 odchylenia standardowego wyników znormalizowanych (w sumie 0,5 So), pozostałe tylko jednostronnie po 0,5 odchylenia standardowego.

Skala tetronowa - skala o rozkładzie normalnym i średniej równej 10,0 oraz odchyleniu standardowym równym 4,0; skok skali wynosi zatem 1 tetron i jest równy 1/4 odchylenia rozkładu wyników znormalizowanych, zakres skali od 0 do 20 tetronów; tetrony 1 - 19 obejmują + 2,325 odchylenia standardowego rozkładu wyników znormalizowanych, tetrony tetrony krańcowe (0 i 20) obejmują resztę rozkładu. Tetron środkowy - jak w skali staninowej - obejmuje po + 0,125 odchylenia standardowego, tetrony pozostałe po 0,25 odchylenia (skala zbudowana jak skala staninowa).

Skala tenowa - skala o rozkładzie normalnym i średniej równej 50,0 oraz odchyleniu standardowym równym 10,0; skok skali wynosi zatem 1 ten i jest równy 1/10 odchylenia rozkładu wyników znormalizowanych, zakres skali od 1 do 100 tenów i obejmuje + 5 odchyleń standardowych rozkładu wyników znormalizowanych.

Skala dewiacyjnego ilorazu inteligencji - skala o rozkładzie normalnym i średniej równej 100,0 oraz odchyleniu standardowym równym 15,0; skok skali wynosi zatem 1 jednostkę i jest równy 1/15 odchylenia rozkładu wyników znormalizowanych, zakres skali praktycznie od 1 do 200 jednostek i obejmuje ponad + 6 odchyleń standardowych rozkładu wyników znormalizowanych.

Ze względu na fakt, że znormalizowane skale standardowe różnią się jedynie wartościami arbitralnymi, a bazują wszystkie na wartościach znormalizowanych "z" możliwe jest przejście z jednostki danej skali na jednostkę innej skali. Odbywa się to za pomocą prostej formuły transformacji liniowej: y = My + [(x - Mx) (Sy / Sx)], gdzie Mx - średnia wyników w starej skali, Sx - odchylenie standardowe wyników w starej skali, My - średnia wyników w nowej skali, Sx - odchylenie standardowe wyników w nowej skali, y - wynik wyrażony w jednostkach nowej skali, a x - wynik w jednostkach starej skali. Jest to jednak możliwe bezpośrednio tylko wtedy, gdy skok starej skali jest mniejszy niż skok nowej, tzn. przekładamy wyniki ze skali np. o skoku równym 1/15 odchylenia standardowego wyników znormalizowanych na skalę o skoku 1/2 odchylenia. W odwrotnym wypadku transformacja ta może być tylko przybliżona. Transformacja taka jest idealna zatem, gdy dokonuje się transformacji z wartości znormalizowanych "z", które mają charakter zmiennej ciągłej na określoną uskokowioną skalę standardową (przejście od danych punktowych do danych skategoryzowanych). Odtworzenie wartości "z" z wartości danej skali standardowej jest jednak możliwe tylko przedziałowo (bo wymaga przejścia od danych skategoryzowanych do punktowych). Stąd wynikowi znormalizowanemu wyższemu od średniej o 1 odchylenie standardowe w skalach standardowych odpowiadają wyniki: steny = 7 sten, staniny = 7 stanin, teny = 60 ten, tetrony = 25 tetron, dewiacyjny iloraz inteligencji = 115 jednostek. Dla wartości 3 stanina wskazanie dokładnych wartości ilorazu czy wartości "z" jest jednak możliwe tylko przedziałowo.

Na podstawie danych znormalizowanych - w oparciu o charakterystykę rozkładu normalnego - możliwe jest także określenie częstości danego wyniku i przejście na skale procentowe. Wymaga to jednak ustalenia jakim wartościom standaryzowanych różnic od średniej odpowiadają częstości (frekwencje) wyników. Wiadomo, że w zakresie od M do M + 1SD mieści się około 34% wyników w rozkładzie normalnym. Stąd omawiany wcześniej wynik znormalizowany +1,0 mieści się na poziomie 84 centyla oraz 9 decyla (50% wyników poniżej średniej oraz 34% do wartości M + 1So).

O wyborze odpowiedniej skali standardowej decydują cztery kryteria: liczba stopni skali standardowej w stosunku do zakresu wyników surowych, postać rozkładu wyników surowych, przeznaczenie skali oraz relacja do błędu pomiaru. Reguła jest prosta w przypadku liczby stopni skali standardowej - skala wyników surowych powinna zawierać przynajmniej dwu- lub trzykrotnie więcej stopni niż skala standardowa. W przeciwnym razie skala standardowa może być dodatkowo uskokowiona (np. może brakować niektórych stenów). W przypadku ekstremalnie skośnych rozkładów wyników surowych należy stosować skale procentowe - odchylenie standardowe jest dla testów takich generalnie słabą miarą zmienności. Jeśli skala będzie stosowana do różnicowania w obrębie „patologii”, to konieczny jest jej szerszy zakres. Wreszcie relacja do rzetelności i błędu pomiaru - najlepiej, gdy standardowy błąd pomiaru przy określonej pewności wnioskowania jest w przybliżeniu równy określonej jednostce skali znormalizowanej.

Skale znormalizowane, zwłaszcza skale standardowe (które nie operują wartościami ujemnymi, jak skala "z") spełniają podstawowe założenie psychometryczne o normalności rozkładu wyników. W efekcie też możliwe jest przyjęcie założenia o przedziałowości skali pomiarowej (jaką stanowi test) oraz sumowanie czy odejmowanie wyników skal (sumowanie to jest niedopuszczalne dla wyników po prostej transformacji liniowej czy normalizacji na skali procentowej). Faktycznie jest to więc przyjęcie założenia o równości przedziałów skali - równym odległościom wyników standardowych odpowiadają równe różnice w zakresie danej cechy (a więc równe różnice psychologiczne). We wniosku tym streszcza się kwintesencja pomiaru psychologicznego - nie możemy dokonywać pomiaru absolutnego zmiennych psychologicznych, toteż wykorzystujemy zmienność jako jednostkę pomiarową. Do tego jednak celu musimy znać normę: średnią i odchylenie standardowe w danej próbie oraz dokonać takiego przekształcenia wyników, by zmienność spełniała założenia o równości przedziałów skali.

Zabieg normalizacji na skali standardowej umożliwia zatem przejście od danych do interpretacji psychologicznej (w swojej naturze różnicowej), a więc: porównań międzyosobniczych rezultatów testowych oraz porównań wewnątrzosobniczych wyników uzyskanych przez tę samą osobę w różnych testach - wyrażenie wyników na tej samej znormalizowanej skali standardowej powoduje, że rozkłady wyników testowych mają jednakowe parametry, niezależnie od postaci wyników surowych.

Wykład 14.

INTERPRETACJA WYNIKÓW TESTOWYCH I ZASADY KORZYSTANIA Z PODRĘCZNIKÓW TESTOWYCH

Interpretacja wyników testowych jest końcowym etapem wnioskowania na podstawie wyników testowych i ma dwojaką formę: interpretacji klinicznej lub statystycznej. Obie mogą odnosić się do podobnych danych: pojedyńczego wyniku, ujmowanego przedziałowo i służącego do porównań międzyosobniczych albo profilu testowego ujmowanego jako konfiguracja cech o zbliżonym poziomie ogólności, służącego do diagnozy ipsatywnej, w postaci typologicznej diagnozy strukturalnej (specyficzne konfiguracje cech, tworzące typ psychologiczny) lub diagnozy różnicowej (ocena różnic w zakresie poszczególnych cech, wskazująca na istnienie określonych problemów psychologicznych; tzw. analiza intraprofilowa). Profile mogą być także porównywane międzyosobniczo, gdy są konfrontowane z określoną normą grupową, np. kliniczną (tzw. (analiza interprofilowa) lub innymi specyficznymi profilami indywidualnymi.

Interpretacja wyników może mieć formę kliniczną lub statystyczną. Interpretacja kliniczna zakłada interpretację profilu testowego na podstawie treści psychologicznej poszczególnych skal i agregację tej treści poprzez ustalenie sensu danej konfiguracji cech (agregacja psychologiczna). W klasycznej postaci predykcja kliniczna wiąże się z idiograficznym podejściem do diagnostyki psychologicznej, którego celem jest uchwycenie specyfiki i niepowtarzalności osobowości jednostki. W efekcie też formułowane są wnioski raczej jakościowe niż ilościowe, a jeśli ilościowe - to są one mało precyzyjne.

Interpretacja kliniczna wyników kwestionariusza, na przykładzie NEO-FFI

Opis wzorowany na oryginalnym przypadku (Costa i McCrae): Kobieta, w wieku 36 lat, wykształcenie wyższe, ekonomiczne; stan cywilny - mężatka, dwoje dzieci. Osoba ta uzyskała następujące wyniki:

Neurotyczność (N) 9 sten

(przedział ufności na podstawie Sbp: 8-10,

Ekstrawersja (E) 2 sten

(przedział ufności na podstawie Sbp: 1-3,

Otwartość na doświadczenie (O) 10 sten

(przedział ufności na podstawie Sbp: 8-10,

Ugodowość (U) 3 sten

(przedział ufności na podstawie Sbp: 1-5,

Sumienność (S) 7 sten

(przedział ufności na podstawie Sbp: 6-8,

Zgodnie z tradycją diagnostyczną w psychologii osobowości Costa i McCrae zalecają rozpoczęcie interpretacji profilu od wyodrębnienia najbardziej wyróżniającej się cechy. Jest nią otwartość na doświadczenie. Osoba ta jest więc twórcza, otwarta, ma żywą wyobraźnię, zainteresowania filozoficzne i artystyczne. Następną wyróżniającą ją cechą jest neurotyczność oraz introwersja. Osoba ta zatem może być scharakteryzowana jako skłonna do zamartwiania się, reagowania lękiem i napięciami, nieodporna na stres. Jednocześnie jest skłonna do unikania innych ludzi, zamknięta w sobie, skłonna do poważnego myślenia o życiu i raczej pesymistyczna. Ostatnimi cechami charakteryzującymi tę osobę jest stosunkowo duża sumienność i mała ugodowość. Osoba ta zatem jest racjonalna, praktyczna, bardzo rzetelna, skrupulatna i dokładna w działaniu, wykazuje też dużą ambicję i wytrwałość w dążeniu do własnych celów. Jednocześnie jest ona sceptyczna i podejrzliwa. Ma skłonność do rywalizowania innymi ludźmi, manipulowania ich postawami oraz wykazuje tendencję do rzeczowego i oschłego traktowania innych ludzi.

W kolejnym kroku Costa i McCrae zalecają dokonanie opisu innych charakterystyk indywidualnych jednostki: potrzeb, stylów zmagania się ze stresem czy procesów poznawczych. Opis ten sporządzany jest na podstawie konfiguracji cech osobowości. A zatem te charakterystyki respondenta można opisać następująco: osoba ta nie wykazuje umiejętności do efektywnego zmagania się ze stresem, często reaguje wrogością (zarówno odczuwaną, jak i ujawnianą bezpośrednio w stosunku do innych; wysoka NEU i niska UGD), poczuciem zmieszania i ucieczką w fantazję (wysoka NEU i wysoka OTW). Pomimo, że niekiedy potrafi reagować z humorem na trudności (wysoka OTW), to jednak generalnie jest pesymistyczna (niska EKS). Z uwagi na dużą otwartość jest bardzo świadoma występujących problemów i prawdopodobnie doświadcza w sytuacjach stresowych wielu napięć i szeregu objawów somatycznych. Wykazuje też generalnie brak poczucia zadowolenia i szczęścia w życiu. W stosunku do innych ludzi jest oschła, rzeczowa i skłonna do utrzymywania dużego dystansu. Jest także mało towarzyska i podporządkowana w kontaktach z innymi. Intelektualnie jest prawdopodobnie bardzo sprawna i wykazuje duże osiągnięcia zawodowe oraz dużą ambicję (duże OTW i duże SUM). Ma szczególnie silne potrzeby osiągnięć, porządku, agresji i autonomii, jest refleksyjna, dociekliwa, wytrwała.

Poszczególne cechy osobowości, jak i ich konfiguracje mają też określone znaczenie adaptacyjne. Interpretując wyniki opisywanej osoby można stwierdzić, że ma ona konfigurację cech sugerującą możliwość dużych osiągnięć zawodowych. Ponadto wydaje się być predysponowana do pracy o analitycznym charakterze - nie wymagającej kontaktów z ludźmi i generalnie przebiegającej w spokojnych warunkach (niska EKS i wysoka NEU), ale bardzo angażującej intelektualnie i wymagającej myślenia zarówno twórczego, jak logiczno-krytycznego (wysoka OTW i SUM oraz niska UGD). Osoba ta może jednak być trudna we współpracy i wykazywać skłonności do krytykanctwa oraz wytykania błędów innym ludziom. Prawdopodobnie najbardziej wskazana dla niej byłaby praca samodzielna, o eksperckim charakterze. W aspekcie zdrowotnym opisywana powyżej osoba wykazuje konfigurację czynników stanowiącą psychologiczny czynnik ryzyka chorób serca (wysoka NEU i niska OTW) oraz możliwych zaburzeń obsesyjno-kompulsywnych (wysoka NEU, wysoka SUM i niska OTW). Nie oznacza to jednak w żadnym wypadku, że osoba ta aktualnie cierpi na takie zaburzenia, ani że bezwarunkowo zaburzenia takie rozwiną się u niej w przyszłości.

Interpretacja statystyczna zakłada natomiast raczej mechaniczne łączenie skal, poprzez tworzenie agregatów nie tyle psychologicznych, ile statystycznych, np. poprzez tworzenie baterii testów predykcyjnych określonego kryterium (np. stanu zdrowia psychicznego, powodzenia zawodowego, itp.). Dla każdego z tych wskaźników możliwe jest określenie pewności wnioskowania czy dokładności diagnozy. Interpretacja statystyczna wymaga także sformalizowania procesu wnioskowania na podstawie uzyskanych danych. Wiąże się ona z nomotetycznym podejściem do diagnostyki psychologicznej, którego celem jest opis jednostkowej osobowości na podstawie cech wspólnych dla określonej populacji.

Stwierdzono, że predykcja zachowania jednostki jest bardziej trafna przy podejściu statystycznym niż klinicznym. Wynika to głównie z braku systematyczności analizy profilu testowego w podejściu klinicznym oraz możliwości dokonywania nietrafnej interpretacji danych przez psychologa, formułującego wnioski predykcyjne, spowodowane przykładowo pomijaniem w rozumowaniu błędu pomiaru cech. Podejście statystyczne, chociaż bardziej trafne, nie zawsze może jednak być zastosowane. Jest ono zresztą krytykowane za mechaniczność analizy danych i sprowadzenie udziału psychologa w diagnozie do roli „technika” rozdzielającego testy, obliczającego ich wyniki i odczytującego ich znaczenie z tabel aktuarialnych. Z tych względów postuluje się łączenie obu podejść albo akcentuje się konieczność wypracowania nowych modeli diagnostycznych.

Ostatnim elementem opracowania testu - po znormalizowaniu - jest opublikowanie go w postaci podręcznika testowego.

Zasady przygotowania i korzystania z podręcznika testowego

Opracowanie testu kończy się opublikowaniem go. W ten sposób konstruktor lub autor adaptacji zastrzega sobie prawa autorskie, ale także zachęca do stosowania testu w praktyce badawczej. Dla celów praktyki psychologicznej jednak sama publikacja nie wystarcza - najlepiej, gdy dane o teście są opracowane w postaci podręcznika. Podręcznik musi być opracowany zgodnie z zasadami opisanymi w "Standardach dla testów stosowanych w psychologii i pedagogice". Standardy zostały opracowane przez Amerykańskie Towarzystwo Psychologiczne i przetłumaczone w 1986 roku na język polski. Podręcznik musi zatem zawierać precyzyjny opis testu: jego przeznaczenie, wskazówki dotyczące procedury badania testem i obliczania wyników, wszechstronne i pełne dane ilustrujące charakterystykę psychometryczną (oba aspekty rzetelności oraz trafność), dokładne opisy badanych prób, zwłaszcza przy normalizacji, opis procedury normalizacji oraz normy, precyzować zasady interpretacji oraz zawierać informację o możliwej stronniczości czy ograniczeniach stosowania testu.

W odniesieniu do aspektu psychometrycznego szereg parametrów pomiaru oraz statystyk rozkładu wyników musi być obliczonych:

a). wskaźniki psychometryczne, dokumentujące rzetelność pomiaru skal w aspekcie zgodności wewnętrznej oraz standardowe błędy pomiaru (i standardowe błędy różnicy, jeśli wymaga tego interpretacja);

b). wskaźniki psychometryczne, dokumentujące rzetelność pomiaru skal w zakresie stałości czasowej (współczynniki korelacji dwóch pomiarów oraz testy różnicy średnich lub współczynniki korelacji wewnątrzklasowej);

c). wskaźniki psychometryczne, dokumentujące trafność pomiaru skal, zarówno w aspekcie teoretycznym, jak i kryterialnym. Dla strategii teoretycznej najlepsze są korelacje z innymi testami mierzącymi tę samą lub zbliżone cechy (wraz z analizą czynnikową), dla strategii indukcyjnej powinno to być rozwiązane poprzez formalną analizę macierzy WCWM i analizę czynnikową, dla strategii kryterialnej - możliwość predykcji kryterium (oraz brak możliwości predykcji innych kryteriów).

d). statystyki rozkładu wyników: średnia, odchylenie standardowe, kurtozę, skośność i trudność. Kurtoza - wskaźnik ilustrujący skupienie rozkładu wyników wokół średniej (wartość ujemna - rozkład platokurtyczny, wartość dodatnia - rozkład leptokurtyczny, wartość powyżej 1,0 wskazuje na znaczne odbieganie wartości kurtozy od wartości rozkładu normalnego). Skośność - wskaźnik ilustrujący niesymetryczność rozkładu wyników (wartość ujemna - lewoskośność rozkładu, wartość dodatnia - prawoskośność rozkładu, wartość powyżej 1,0 wskazuje na znaczne odbieganie wartości skośności od wartości rozkładu normalnego). Trudność skali - ulokowanie średniej w zakresie potencjalnych wyników w skali (optimum 0,50; wskaźnik wysoki, np. 0,70-0,90 test łatwy, wskaźnik niski 0,10-0,30 - test trudny). Wskaźnik trudności jest ważny przy planowanych badaniach praktycznych, zwłaszcza selekcji zawodowej. Przy dużej ilości kandydatów i koniecznej ostrej selekcji korzystne są testy o dużej trudności i odwrotnie - przy małej liczbie kandydatów i łagodnej selekcji - testy łatwe. Rozkłady wyników mogą być też formalnie testowane z punktu widzenia zgodności z rozkładem teoretycznym (normalnym, np. testem chi2), podanie miar kurtozy i skośności jest jednak wystarczające.

e). statystyki specjalne, np. punkty odsiewowe, wagi regresji w baterii dla danego testu, wskaźniki podatności na zniekształcenia, np. korelacje z miarami aprobaty społecznej.

Wskaźniki te muszą być nie tylko zamieszczane w podręcznikach w celach dokumentacyjnych lub jako informacja dla psychometrów, muszą one być także wykorzystywane przez osoby stosujące test w praktyce psychologicznej. Wskaźniki psychometryczne to konieczna podstawa diagnozy psychologicznej - muszą być zatem uważnie i umiejętnie analizowane.

Wykorzystanie programów komputerowych przy konstruowaniu, adaptowaniu i stosowaniu testów

Proces opracowania testu, jak i jego stosowania jest ułatwiony, gdy istnieje możliwość przetwarzania informacji za pomocą programów komputerowych. Można zaryzykować wręcz twierdzenie, że rozwój psychometrii i standardowych metod diagnostycznych był tak szeroko możliwy ze względu na technikę komputerową. Do czego można zatem wykorzystać komputery?

Jak się wydaje ogólnodostępne programy komputerowe mogą znaleźć następujące zastosowania:

1. do przechowywania materiału testowego - w procesie konstrukcji i adaptacji pozycje są wielokrotnie modyfikowane i poprawiane - efektywność tego procesu oraz konieczność zachowania wierności formy pozycji (oraz niekiedy udokumentowania poprzedniej formy przed modyfikacją) wymaga zastosowania edytorów tekstów.

2. do przechowywania danych testowych - w procesie badania testem zbiera się wiele danych, które są wykorzystywane do opracowania testu (dane w formie podstawowej - odpowiedzi osób badanych), jak i do jego stosowania (dane w skalach) wraz z informacją demograficzną. Do tego celu stosowane są bazy danych.

3. do przetwarzania danych testowych - proces badania testem polega na zbieraniu ogromnej ilości informacji ("psychometria nie toleruje małych prób i małej liczby danych") - konieczność szybkiego przetworzenia całej masy danych (brak w podręcznikach statystyki wzorów na obliczanie przybliżonych wskaźników) i obliczenia skomplikowanych statystyk (niemożliwych do wykonania za pomocą kalkulatora), jak współczynniki rzetelności, analiza dyskryminacyjna, regresja wielokrotna, analiza czynnikowa czy transformacja liniowa czy nieliniowa wyników na skale znormalizowane - normy wymaga zastosowania specjalnych programów obliczeniowych. Należy do nich zwłaszcza SPSS - Statistical Package for Social Sciences.

Możliwe jest jednak alternatywne wykorzystanie komputerów i bardziej specjalistycznych programów - wspomagających lub wręcz modyfikujących diagnozę testową. Należą do nich:

1. aktuarialne bazy danych - dzięki skomasowaniu setek tysięcy danych demograficznych oraz psychologicznych (testowych, obserwacyjnych, diagnoz klinicznych) możliwa stała się nie tylko normalizacja wyników na odpowiednio reprezentatywnej dla populacji próbie, ale także diagnoza aktuarialna - postawienie diagnozy na podstawie podobieństwa (demograficznego, fizycznego i psychologicznego) do odpowiedniej grupy przypadków (zgodnie z zasadą, że "jesteśmy unikalni, gdy jest nas mało i typowi, gdy jest nas dużo").

2. systemy interpretacyjne - specjalne programy, które po wprowadzeniu danych testowych umożliwiają diagnozę psychologiczną, tj. dokonują interpretacji wyników, porównań ze specyficznymi profilami oraz sugerują ewentualną konieczność uzupełnienia danych i dalszych badań. Programy te są nieocenione jako pomoc diagnostyczna, bo pozwalają na zobiektywizowaną diagnozę oraz odniesienie uzyskanej informacji do norm. W specyficznej postaci programy tego typu funkcjonują jako programy badawcze, np. "klinicysta" prowadzący wywiad i terapię z klientem.

3. testy komputerowe - specjalne programy eksponujące materiał testowy, zbierające informację i przetwarzające ją - w najprostszej postaci do wyników w skalach - oraz magazynujące. Bardziej zaawansowane programy zawierają także systemy interpretacyjne - diagnostyczne oraz aktualizacyjne norm i reguł interpretacyjnych. W specyficznej postaci testy komputerowe są wykorzystywane jako tzw. auto-testy, tj. testy, które dostarczają podstawowej informacji psychologicznej (np. o zdolnościach, zainteresowaniach, predyspozycjach osobowościowych) samej osobie badanej i znajdują zastosowanie w poradnictwie zawodowym.

Testy komputerowe wykazują korzystną charakterystykę psychometryczną - szereg danych wskazuje, że są mniej podatne na zniekształcenia. Umożliwiają także rejestrację szeregu parametrów odpowiedzi, niedostępnych w badaniu tradycyjnym, np. czasu odpowiedzi na poszczególne pozycje testowe lub wręcz tworzenie nowych zadań testowych. Wreszcie umożliwiają wprowadzanie nowych procedur testowych w postaci testów "dynamicznych" lub testów "okrojonych", w których program decyduje o kolejności zadawanych pytań, tak aby diagnoza mogła być postawiona za pomocą możliwie małego zestawu zadań testowych. Te zalety formalne testów komputerowych, jak i dalszy rozwój techniki komputerowej prawdopodobnie sprawi w przyszłości, że z formy"papier-ołówek" testy przeewoluują właśnie w stronę testów komputerowych. Programy komputerowe nie będą więc wykorzystywane tylko do magazynowania i przetwarzania materiału oraz danych testowych, ale także do badania i interpretacji, wspomagającej diagnozę psychologiczną.

Wykład 15.

OCENA METOD STANDARYZYWANYCH NA PRZYKŁADZIE KWESTIONARIUSZY OSOBOWOŚCI

Na ostatnim wykładzie dokonamy oceny metod standaryzowanych, na przykładzie kwestionariuszy. Metody te traktowane są jako mniej doskonałe niż testy zdolności i w historii psychologii - pomimo ich powszechnego stosowania - spotkały się z ostrą krytyką.

Współcześnie inwentarze traktuje się jako podstawowe metody badania osobowości. Ich liczba jest trudna do oszacowania i prawdopodobnie w skali światowej sięga już tysięcy narzędzi. Samych tylko kwestionariuszy temperamentu jest blisko trzydzieści, a liczba skal do diagnozy cech temperamentu przekracza sto. Kwestionariusze powoli też wypierają inne metody badania osobowości. W badaniach klinicznych liczba prac, w których zastosowano MMPI z każdym rokiem przerasta liczbę analiz, do których użyto metod projekcyjnych, np. Testu Rorschacha. Najlepszym wyrazem popularności tego narzędzia wydaje się fakt, że z 550 oryginalnych pozycji MMPI stworzono ponad 450 skal do badania różnych syndromów osobowości.

Kwestionariusze stosowane są w dwóch rodzajach badań: naukowych i diagnostycznych (klinicznych i zawodowych). Najczęstszym ich zastosowaniem są badania naukowe, ponieważ cieszą się one szczególnym uznaniem psychologów akademickich.

W badaniach naukowych kwestionariusze traktuje się jako metodę umożliwiającą weryfikację twierdzeń określonych koncepcji psychologicznych. Badania te obejmują dwa rodzaje analiz: nad strukturą cech oraz ich znaczeniem adaptacyjnym. Pierwszy nurt analiz może być traktowany jako podstawowy, odnosi się bowiem do twierdzeń danej teorii, dotyczących istnienia określonych cech, ich specyficznych skupień, ujmowanych zazwyczaj w relacji do problemu uniwersalnej struktury podstawowych wymiarów zachowania. Drugi odnosi się do problemów bardziej szczegółowych: biologicznych podstaw cech, ich znaczenia adaptacyjnego, możliwości przewidywania zachowania ludzi w specyficznych sytuacjach. Zastosowania inwentarzy do celów naukowych wydają się szczególnie „owocne”, za ich pomocą bowiem zebrano szereg danych, prowadzących do modyfikacji twierdzeń teoretycznych. Przykładem takiego zastosowania inwentarza może być regulacyjna teoria temperamentu.

W diagnostyce psychologicznej szczególnie popularne jest stosowanie inwentarzy do badań klinicznych. Kwestionariusze jako metody bardziej obiektywne niż inne procedury postępowania diagnostycznego, używane są głównie do diagnozy nozologicznej (wstępnej diagnozy objawowej, diagnozy różnicowej, itp.). Obok wielowymiarowych narzędzi, umożliwiających postawienie precyzyjnej diagnozy zaburzeń psychicznych, często stosowane są także kwestionariusze do diagnozy przesiewowej, które pozwalają jedynie na postawienie wstępnej oceny stanu zdrowia. Za pomocą inwentarzy często podejmuje się także próby doboru najwłaściwszej terapii oraz przewidywania jej efektywności dla pacjenta.

Inne zastosowania kwestionariuszy w badaniach klinicznych dotyczą diagnozy wzorów zachowania, będących czynnikami ryzyka chorób psychosomatycznych. Inwentarze stosowane są zarówno w celach teoretycznych do identyfikacji syndromów osobowości, stanowiących czynniki ryzyka, badania ich behawioralnych i fizjologicznych korelatów, ale także do diagnozy indywidualnej i rejestracji zmian w efekcie terapii.

Kwestionariusze stosowane są także do badania osób zdrowych i oceny ich możliwości adaptacji do wymagań określonego zawodu czy sfery działalności. Stosuje się je do przewidywania osiągnięć zawodowych i sportowych, diagnozy problemów adaptacyjnych, także w kontekście interwencji psychologicznej. Główne zastosowania praktyczne kwestionariuszy w tej dziedzinie wiążą się z doborem oraz poradnictwem zawodowym. Niekiedy są one włączone w całe baterie testów, umożliwiających ocenę nie tylko cech osobowości, ale także zdolności, zainteresowań, itd. Jako przykład można tu wymienić system diagnostyczny, zaproponowany przez Hollanda dla poradnictwa zawodowego.

Kwestionariusze są zatem stosowane powszechnie. Czy jednak spełniają wymagania psychometryczne stawiane metodom standaryzowanym?

Niezależnie od specyfiki treściowej badanych zmiennych, inwentarz odwołuje się do ujęcia osobowości w kategoriach cech. Historycznie rzecz biorąc wypracowano trzy główne metody pomiaru cech osobowości (Cattell): laboratoryjną, obserwacyjną (jej odmianą jest szacowanie) i kwestionariusz. Badacze na ogół są zgodni, że najbardziej adekwatną, ze względu na spełnianie założeń teoretycznych, metodą do pomiaru cech jest kwestionariusz. Metodę laboratoryjną traktuje się jako mniej przydatną do pomiaru cech, ponieważ rejestruje zachowania o niskim poziomie ogólności i integracji, zawężając perspektywę czasową i sytuacyjną oceny. Dodatkowo różne wskaźniki tej samej cechy wykazują małą spójność (zjawisko znane pod nazwą "parcjalności" diagnozy), co jest sprzeczne z koncepcją cechy. W stosunku do metody obserwacyjnej badacze formułują natomiast zastrzeżenie jednostronności ocen, wynikające ze specyficznych warunków, w jakich zazwyczaj dokonywana jest obserwacja.

Stanowisko uznające kwestionariusz za podstawową metodę do badania osobowości spotkało się z ostrą krytyką. Mischel podważając pogląd o spójności sytuacyjnej zachowania, która stanowi podstawę do wyodrębniania cech, jednocześnie poddał w wątpliwość przydatność kwestionariuszy do badania osobowości. Jego teza o niewystarczającej trafności pomiaru ówczesnych inwentarzy, jest znana pod nazwą współczynnika osobowości (korelacja o wartości 0,30, stanowiąca górną granicę trafności pomiaru kwestionariuszy). Główną konsekwencją metodologiczną krytyki Mischela była teza, że inwentarz nie gwarantuje wystarczającej rzetelności i trafności pomiaru. Problem spójności zachowania w psychometrii odnosi się bowiem do rzetelności pomiaru, zaś przewidywania zachowania w różnych sytuacjach - do trafności pomiaru. Rozpatrzmy zatem, jakimi parametrami psychometrycznymi charakteryzują się współczesne inwentarze osobowości.

W odniesieniu do rzetelności pomiaru, rozumianej jako konsystencja wskaźników cechy i bazującej na spójności poszczególnych pozycji, należy zauważyć, że inwentarz jako metoda badania osobowości spełnia standardy psychometryczne. W psychometrii za graniczną wielkość rzetelności pomiaru uznaje się wartość współczynnika zgodności wewnętrznej równą 0,50 (Brzeziński). Sugeruje się ponadto, że standardem dla inwentarzy osobowości powinna być wartość współczynnika rzetelności równa 0,70 (Angleitner i Riemann) czy nawet 0,80 (Brzeziński). W analizach empirycznych rzetelności pomiaru inwentarzy stwierdzono natomiast (Tett i in.), że średnia współczynników rzetelności (alfa Cronbacha) kilkudziesięciu różnych skal osobowości jest równa 0,76. Zbliżone dane przedstawił Strelau na podstawie oceny rzetelności pomiaru 32 skal temperamentu. Średnia współczynnika rzetelności w grupie polskiej, liczącej ponad tysiąc osób była równa 0,74, a w zbliżonej liczebnościowo grupie niemieckiej wynosiła 0,79. Wartości współczynnika rzetelności uzyskane w omawianych analizach, wskazują zatem, że pomiar inwentarzem odpowiada wymaganiom psychometrycznym.

Zbliżone dane uzyskano dla rzetelności rozumianej jako stabilność pomiaru. Dla szeregu inwentarzy osobowości uzyskano wysokie współczynniki korelacji dwóch pomiarów, pomimo długiego okresu dzielącego obydwa badania (Strelau). Analiza stabilności pomiaru, zrealizowana przez Shuegera i in., wykazała, że średnia współczynników korelacji dwóch pomiarów dla piętnastu inwentarzy osobowości wynosiła 0,66, w tym dla stabilności krótkoterminowej 0,73 (badanie retestowe przed upływem roku) oraz dla stabilności długoterminowej 0,60 (przerwa od roku do ponad 20 lat). Nawet przyjmując rygorystyczną wartość krytyczną w postaci współczynnika korelacji dwóch pomiarów rzędu 0,70 (Slabach, Morrow i Wachs), należy stwierdzić, że pomiar inwentarzem spełnia także i to kryterium.

Natomiast w analizach trafności pomiaru kwestionariuszem niektóre wyniki odpowiadają wielkości "współczynnika osobowości". Dotyczy to zwłaszcza związków cech ze wskaźnikami psychofizjologicznymi i psychofizycznymi - korelacje nie przekraczają wartości 0,20-0,30. Zgodność pomiędzy pomiarem kwestionariuszowym a szacowaniem cech jest jednak już wyższa od „współczynnika osobowości”. Korelacje pomiarów cechy tymi metodami wynoszą około 0,50. Współczynniki takie uzyskał Strelau w omawianych wcześniej badaniach, przy ocenie zgodności pomiędzy samoopisem a szacowaniem 32 cech temperamentu. W grupie polskiej średnia współczynników była równa 0,47, a w grupie niemieckiej 0,48. Rezultaty podobne do oceny trafności teoretycznej otrzymano także w analizie trafności kryterialnej pomiaru kwestionariuszem. Jako przykład ilustrujący bliżej trafność kryterialną inwentarzy przedstawiamy badania nad diagnozą powodzenia zawodowego oraz prognozą zachorowania na choroby psychosomatyczne. Tett i inni stwierdzili, że średnia współczynników korelacji kilkudziesięciu skal osobowości z kryteriami powodzenia zawodowego wynosiła przy strategii konfirmacyjnej analizy danych 0,29 i eksploracyjnej 0,12. Strategia była oceniana jako eksploracyjna - w odróżnieniu od konfirmacyjnej - gdy badacze nie stawiali hipotez i uwzględniali korelacje wszystkich skal oraz wszystkich kryteriów, a więc niejako włączali trafność różnicową w ocenę trafności zbieżnej, co jest traktowane jako główne źródło błędu w ocenie trafności diagnostycznej inwentarzy. Podobne dane uzyskano przy próbie oceny trafności prognostycznej skal badających różne cechy osobowości, gdy kryterium było zachorowanie na choroby psychosomatyczne, np. chorobę niedokrwienną serca, chorobę wrzodową - korelacje te oscylowały między wartością 0,10 a 0,20 (Friedman i Booth-Kewley). Szczególnie spektakularnym dowodem trafności pomiaru inwentarzami są natomiast dane pochodzące z 25-letnich badań podłużnych, w których wykazano istnienie związku pomiędzy nasileniem wrogości (mierzonej skalą Ho, wyodrębnioną z MMPI) a umieralnością na choroby układu krążenia (Barefoot i in.). Biorąc takie dane pod uwagę, trafność pomiaru kwestionariuszem można uznać za akceptowalną, nawet jeśli współczynniki korelacji nie są zbyt wysokie.

Ogólnie rzecz biorąc zatem, inwentarz jako metoda badania osobowości spełnia wymagania psychometryczne i jego totalna krytyka nie wydaje się uzasadniona. Z drugiej strony jednak wyniki omawianych analiz wskazują, że obok dobrych narzędzi nadal stosowane są kwestionariusze o niewystarczającej rzetelności i trafności pomiaru.

Dokonując oceny kwestionariuszy jako metody należy zwrócić uwagę, że są to narzędzia wykazujące szereg wad diagnostycznych. Z punktu widzenia teorii pomiaru ich status jako metod pomiarowych jest stosunkowo słaby. Uzyskane za ich pomocą wyniki są diagnostycznie wieloznaczne ze względu na uwikłanie czynników poznawczych w ocenę zachowania czy podatność odpowiedzi na zniekształcenia. Wady te jak się wydaje tylko częściowo mogą być skompensowane poprzez specjalne procedury formułowania pozycji i zabezpieczania ich przed zniekształceniami. W istocie bowiem wady te nierozerwalne związane są ze specyfiką zbierania informacji o człowieku, stosowanej w inwentarzach, a mianowicie z samoopisem.

Wady pomiaru kwestionariuszowego wynikają także z wieloprzyczynowości uwarunkowania samego zachowania i niejasności kontekstu sytuacyjnego zachowań naturalnych - na podstawie których wnioskujemy o cechach. Z tego względu opis osobowości, uzyskany za pomocą inwentarzy, nie tylko jest bardzo ogólny, ale i wieloznaczny - trudno poddaje się wyjaśnieniu (np. nie wskazuje jednoznacznie na istnienie ściśle sprecyzowanych mechanizmów cech). Interpretacja taka jest możliwa - chociaż tylko częściowo - wyłącznie w odniesieniu do populacji. Zupełnie zaś zawodzi w jednostkowych przypadkach, bowiem na tym poziomie opisu, ani nie znamy, ani nie mamy możliwości poznania indywidualnego splotu wszystkich determinant zachowania.

Co zatem uzasadnia stosowanie kwestionariuszy jako metod diagnozy psychologicznej? Przede wszystkim fakt, że są to narzędzia bardzo ekonomiczne i proste w stosowaniu, a ocena wyników - bardzo zobiektywizowana. Są to wreszcie narzędzia nieinwazyjne - groźba potencjalnej szkody dla respondenta wynika raczej z niewłaściwej interpretacji wyników, co dotyczy wszystkich metod diagnostycznych, niż z opresyjności procedury zbierania informacji. I wreszcie są to narzędzia o porównywalnej z innymi metodami diagnostycznymi rzetelności i trafności pomiaru. Mówiąc krótko, stosowanie uzasadnia ich wartość diagnostyczna i predyktywna.

Opinie krytyczne dotyczące inwentarzy wydają się zatem tylko częściowo uzasadnione. Jak stwierdza Bohdan Zawadzki za krytykę tę w większym stopniu odpowiedzialne jest nierozsądne stosowanie inwentarzy niż inwentarze same w sobie. Znajomość ich ograniczeń i możliwości diagnostycznych może przeciwdziałać popełnianiu błędów oraz zarówno powstawaniu fałszywych nadziei, jak i równie nieuzasadnionego krytycyzmu. Trawestując opinię Ellisa, można stwierdzić, że z pewnością kwestionariusze są warte więcej niż papier, na którym je wydrukowano, ale też - z równą pewnością - nie stanowią panaceum na wszystkie bolączki diagnostyki psychologicznej. Po prostu nie można oczekiwać od nich więcej, niż mogą one zaoferować.

10

10

2

2



Wyszukiwarka

Podobne podstrony:
egzamin ppp wersja 2, Studia, Psychologia UW - materiały do zajęć, UWPsych - Podstawy pomiaru psycho
Mtd1, Studia, Psychologia UW - materiały do zajęć, UWPsych - Metodologia badań psychologicznych
WYKLAD JA 12, Studia, Psychologia UW - materiały do zajęć, UWPsych - Rola Ja w przetwarzaniu informa
ROZWÓJ W ŚREDNIEJ DOROSŁOŚCI.konspekt , Studia, Psychologia UW - materiały do zajęć, UWPsych - Psych
WYKLAD JA1SYLAB, Studia, Psychologia UW - materiały do zajęć, UWPsych - Rola Ja w przetwarzaniu info
Rozwój w póxnej dorosłości konspekt, Studia, Psychologia UW - materiały do zajęć, UWPsych - Psycholo
Teorie rozwoju psychicznego, Studia, Psychologia UW - materiały do zajęć, UWPsych - Psychologia rozw
BB.ad.wyklad9, Studia, Psychologia UW - materiały do zajęć, UWPsych - Psycholingwistyka
PYTANIA KOFTA, Studia, Psychologia UW - materiały do zajęć, UWPsych - Psychologia osobowości
Badanie eksperymentalne, Studia, Psychologia UW - materiały do zajęć, UWPsych - Psychologia eksperym
Notatki do egzaminu, Studia, Psychologia UW - materiały do zajęć, UWPsych - Psychologia rozwoju czło
Okres prenatalny - od poczęcia do narodzin - slajdy zespojone, Studia, Psychologia UW - materiały do
NARODZINY, Studia, Psychologia UW - materiały do zajęć, UWPsych - Psychologia rozwoju człowieka

więcej podobnych podstron