Wykład 7
TRAFNOŚĆ POMIARU TESTEM: PODSTAWOWE POJĘCIA ORAZ METODY I WSKAŹNIKI
Trafność pomiaru testem to:a). stopień, w jakim test mierzy cechę, jaką ma mierzyć (trafność teoretyczna czy inaczej trafność zorientowana na konstrukt);
b). stopień dokładności przewidywania określonych kryteriów praktycznych (trafność kryterialna lub inaczej trafność podejmowanych decyzji).
Trafność a założenia KTT
Pojęcie trafności odwołuje się do założeń Klasycznej Teorii Testów, zgodnie z którymi wyniki prawdziwe i błędy pomiaru są nieskorelowane, jak i błędy są nieskorelowane (rtb = 0 oraz rbb = 0), co oznacza, że obserwowane korelacje (między pozycjami, testem i innymi testami oraz testem a kryteriami) są korelacjami wyników prawdziwych.
Trafność a rzetelność pomiaru
Rzetelność jest koniecznym , ale niewystaczającym warunkiem trafności pomiaru. Oznacza to, że test może być rzetelny i nietrafny, ale nie odwrotnie - test nierzetelny musi być nietrafny.
Rzetelność jest kresem górnym trafności, ponieważ wariancja prawdziwa jest źródłem rzetelności, ale także trafności.
Źródła wariancji przy analizie rzetelności i trafności
(A) Systematyczna wariancja wspólna z innymi testami.
(B) Systematyczna wariancja specyficzna dla danego testu.
(C) Wariancja błędu (losowa).
Rzetelność = A + B (wariancja systematyczna w przeciwieństwie do wariancji losowej).
Trafność = A (wariancja wspólna w przeciwieństwie do specyficznej wariancji = B + C).
Rzetelność i trafność
Rzetelność i trafność są parametrami psychometrycznymi pomiaru testem i są wyznaczane przez podobne czynniki:
Zmiany w procedurze standaryzacji (alternatywne zastosowanie testu).
Zmiany w demograficznym składzie próby - ograniczona zmienność wyników testu lub wyników kryterialnych w grupie.
W przypadku trafności kryterialnej, wymaganie tego rodzaju trafności jest sprzeczne z wymogiem rzetelności, jak i trafności teoretycznej. Rzetelność i trafność teoretyczna jest najwyższa, gdy interkorelacje pozycji są wysokie, ale wtedy trafność kryterialna jest niska (wymaga ona pozycji o niskich interkorelacjach oraz wysokich korelacjach z kryteriami zewnętrznymi, co prowadzi do obniżenia rzetelności i trafności teoretycznej. W takim wypadku test mierzy różne (nieskorelowane) właściwości psychologiczne, pozwalające na przewidywanie złożonych kryteriów praktycznych - jest heterogeniczny pod względem treści psychologicznej (zaś rzetelność i trafność wymaga homogenicznych pozycji oraz jednej cechy, wpływającej na wyniki testowe).
Rodzaje trafności pomiaru
Trafność pomiaru obejmuje trzy rodzaje:
a). trafność treściową (wewnętrzną),
b). trafność kryterialną (diagnostyczną i prognostyczną),
c). trafność teoretyczną.
Trafność treściowa
Trafność treściowa (wewnętrzna) - reprezentatywność danej puli pozycji dla uniwersum pozycji mierzących daną cechę.
Trafność treściowa (wewnętrzna) - reprezentatywność danej puli pozycji dla uniwersum pozycji mierzących daną cechę. Trafność treściowa jest wstępnym aspektem trafności teoretycznej. Trafność fasadowa jest natomiast karykaturą trafności i nie powinna być przesłanką do budowania sądu o faktycznej trafności testu.
Analiza trafności treściowej jest niezbędnym etapem prac konstrukcyjnych testu (zanim jeszcze test został całkowicie opracowany, za wyjątkiem kwestii krytyki testu, gdy chcemy wykazać, że test jest nietrafny treściowo, np. treść pozycji testowych nie obejmuje ważnych aspektów cechy).
Etapy oceny trafności treściowej
Precyzyjna definicja cechy (konstruktu oraz porównanie z innymi konstruktami teoretycznymi).
Opis aspektów cechy: podwymiarów czy fasad cechy (cecha, jak i jej podwymiary powinny mieć budowę hierarchiczną i być precyzyjnie zdefiniowane).
Ocena liczby pozycji w każdym podwymiarze oraz teście jako całości (każdy podwymiar powinien być reprezentowany w całym teście i obejmować zbliżoną liczbę pozycji).
Ocena pozycji w każdym podwymiarze oraz w całym teście przez grupę ekspertów na skalach ocen (trafność treściowa) lub osób badanych (typowość).
Trafność kryterialna Trafność kryterialna - stopień, w jakim test pozwala na przewidywanie określonego kryterium zewnętrznego, np. powodzenia zawodowego, szkolnego, wypadkowości, diagnozy klinicznej, itp. Trafność kryterialna obejmuje trafność diagnostyczną (stopień, w jakim test pozwala na ocenę aktualnego kryterium) oraz trafność prognostyczną (stopień, w jakim test pozwala na ocenę przyszłego kryterium).
Trafność kryterialna - szacowanie
Trafność kryterialna jest szacowana na podstawie korelacji między wynikami testu a określonym kryterium pozatestowym; z tego względu kluczowym aspektem jest rzetelność (jak i trafność) samego kryterium, użytego do badania trafności testu.
Trafność kryterialna - poprawka na nierzetelność kryterium
Poprawka na nierzetelność kryterium:
rkt
rs-k = --------------
ზ Rtt-k
rs-k - skorygowany współczynnik korelacji, rkt - współczynnik korelacji przed skorygowaniem, Rtt-k współczynnik rzetelności kryterium.
Trafność kryterialna - poprawka na nierzetelność kryterium i testu
Poprawka na nierzetelność kryterium i testu:
rkt
rs-kt = --------------
ზ Rtt-k Rtt-t
rs-kt - skorygowany współczynnik korelacji, rkt - współczynnik korelacji przed skorygowaniem, Rtt-k współczynnik rzetelności kryterium, Rtt-t -współczynnik rzetelności testu.
Trafność kryterialna - dane z meta-analiz
Testy zdolności - korelacje około 0,50 ze wskaźnikami efektywności pracy oraz osiągnięciami szkolnymi (0,70 - szkoła podstawowa, 0,50 - szkoła średnia oraz 0,30 - szkoła wyższa).
Skale osobowości - korelacje około 0,30 ze wskaźnikami efektywności pracy oraz 0,50 z diagnozą kliniczną (psychiatryczną).
Trafność kryterialna - inne meta-analizy
Mount, Barrick i Judge (2001) - meta-analiza 15 wcześniejszych metaanaliz: korelacje -0,13 dla N oraz 0,24-0,27 dla S i efektywności pracy.
Salgado (1997) - meta-analiza badań europejskich: korelacje -0,19 dla N i 0,25 dla S.
Mount, Barrick i Stewart (1998) - U i N przewidują efektywność pracy w zespole.
Judge, Heller i Mount (2002) - N, S i E przewidują poziom satysfakcji z pracy (zbliżone rezultaty dla trafności diagnostycznej i predykcyjnej).
Podsumowanie
Korelacje cech osobowości z diagnozą medyczną (stan zdrowia) wynosiły ok. 0,20 dla raka płuca i zawału serca. Zbliżone dane zostały uzyskane w innych badaniach (Zawadzki, 2001).
Mischel (1968) określił współczynniki trafności skal badających cechy osobowości z kryteriami (stan zdrowia, powodzenie zawodowe) mianem „współczynników osobowości”, które nie przekraczają wartości 0,30.
Wykład 8
TRAFNOŚĆ TEORETYCZNA POMIARU TESTEM
Trafność teoretyczna - zgodność treści mierzonej przez test z konstruktem teoretycznym (trafność zorientowana na konstrukt) - określenie jaką treść psychologiczną mierzy test.
Metody szacowania trafności teoretycznej
1). Metody bazujące na analizie związku pomiędzy konstruktem a zachowaniem:
a). metoda zmian nieprzypadkowych,
b). metoda sprawdzania różnic międzygrupowych,
c). metoda badania procesu rozwiązywania testu;
2). Metody bazujące na analizie macierzy korelacji pomiędzy testem, a innymi testami przeznaczonymi do badania danego konstruktu:
a). metoda badania wewnętrznej struktury testu,
b). metoda analizy macierzy korelacji i analizy czynnikowej (eksploracyjnej i konfirmacyjnej) danego testu oraz testów, badających ten sam konstrukt;
c). badanie trafności konwergencyjnej i dyskryminacyjnej (zbieżnej i rozbieżnej) za pomocą analizy macierzy Wielu Cech- Wielu Metod wg Campbella i Fiskego
Analiza zmian nieprzypadkowych
Zmiany rozwojowe - wyniki testów zdolności powinny wykazywać systematyczną tendencję wzrostową wraz ze wzrostem wieku w dzieciństwie oraz tendencję regresywną w dorosłości. Wyniki niektórych skal osobowości także powinny wykazywać zmiany z wiekiem - aktywność temperamentalna powinna systematycznie maleć wraz z wiekiem, z uwagi na malejące zasoby energii.
Postulat lekowy” - metoda opracowana w psychiatrii i stosowana przez H. Eysencka.
Założenia:
Ekstrawersja jest wyznaczana przez poziom pobudzenia korowego (ekstrawertycy wykazują niski poziom pobudzenia);
Niektóre leki zwiększają poziom pobudzenia;
Pod wpływem tych leków osoby badane powinny ujawniać introwertywny wzór zachowania (jako efekt silnego pobudzenia).
Wniosek:
Skala Ekstrawersji powinna zarejestrować tę różnicę (między pre-testem i post-testem po podaniu leku).
Analiza różnic międzygrupowych
Celem tej metody jest ocena różnic w wynikach testu, uzyskanych przez różne grupy demograficzne, wyodrębnione na podstawie predykcji bazującej na analizie konstruktu teoretycznego (konfiguracja tych różnic jest oczekiwana na podstawie teorii).
Testy zdolności - analiza wyników testu inteligencji w różnych grupach zawodowych (wniosek: im bardziej wymagający sprawności intelektualnej jest dany zawód, tym wyższy poziom inteligencji wykazują pracownicy).
Skale osobowości - przypadek wrażliwości sensorycznej i wytrzymałości (z FCZ-KT).
Różnice międzygrupowe we wrażliwości i wytrzymałości
Hipotezy:
Muzycy - wysoki poziom wrażliwości sensorycznej (zdolność specjalna), ale niski poziom wytrzymałości;
Sportowcy - wysoki poziom wytrzymałości (zdolność specjalna), ale niski wrażliwości sensorycznej;
Przestępcy (mordercy) - wysoki poziom wytrzymałości i niski poziom wrażliwości sensorycznej (zdolności specjalne?);
Pytanie o nasilenie obu cech u nauczycieli szkół podstawowych?
Wnioski:
Większość różnic jest zgodna z przewidywaniami (zwłaszcza z relacji do grupy normatywnej).
Nieoczekiwane relacje: zbliżone wyniki u przestępców oraz zapaśników oraz najwyższe wyniki u nauczycieli szkól podstawowych.
Wady metody
Różne nasilenie tendencji do symulowania albo dysymulowania w badanych grupach (nauczyciele?);
Wyjaśnienie różnic międzygrupowych: dwa procesy - „naturalna” selekcja do zawodu i/lub (?) adaptacja do wymagań zawodu (zmiana nasilenia cech);
Nieoczekiwane zależności są typowe i trudne do wyjaśnienia.
Wady metody - badania Nyborga
Nyborg (1995) prowadził badania dotyczące związku między poziomem hormonów a wykonywaniem różnych zawodów. Podstawowa hipoteza głosiła, że im wyższy jest poziom męskich hormonów, tym za bardziej zmaskulinizowany uznawany jest dany zawód, zaś im wyższy jest poziom żeńskich hormonów, tym za bardziej sfeminizowany uznawany jest dany zawód. Pielęgniarstwo jest typowym zawodem kobiecym i pielęgniarki wykazują najwyższy poziom żeńskich hormonów. Oczekiwano zatem, że pielęgniarze powinni wykazywać najniższy poziom męskich hormonów, podczas gdy w rzeczywistości wykazywali najwyższy poziom ze wszystkich grup zawodowych!
Analiza procesu rozwiązywania testu
Testy zdolności - eksperymenty z manipulowaniem złożonością zadań, prezentacją zadań cząstkowych lub podawaniem wskazówek, które zmieniają wymagania.
Skale osobowości - „analiza protokołów” (instrukcja „głośnego myślenia”) w celu identyfikacji czynników wpływających na udzielanie odpowiedzi na pozycje.
Analiza wewnętrznej struktury testu
Dwie grupy metod:
Analiza korelacji między pozycjami (wskaźnik dyskryminacji lub korelacji pozycja-skala oraz analiza czynnikowa pozycji);
Analiza korelacji między skalami testu (korelacje skal i analiza czynnikowa skal).
Analiza korelacji między pozycjami
Korelacja pozycja-skala (moc dyskryminacyjna) - pozycja powinna wysoko korelować z wynikiem całej skali korelacja (pozycja powinna mierzyć tę samą treść psychologiczną co wszystkie inne pozycje w tej skali).
Analiza czynnikowa pozycji (testy wieloskalowe) - pozycja powinna wysoko korelować z własną skalą i nisko z innymi skalami (pozycja powinna mierzyć określoną treść psychologiczną i jednocześnie nie mierzyć innych treści).
Analiza czynnikowa
Analiza czynnikowa jest metodą dekompozycji macierzy korelacji pomiędzy zmiennymi, prowadzącej do uzyskania wiązek zmiennych, które reprezentują zbliżoną treść psychologiczną (odnoszą się do zbliżonych lub wręcz identycznych konstruktów - cech psychologicznych).
Zmienne są grupowane w wiązki na podstawie ich korelacji w taki sposób, aby korelacje w obrębie wiązki były jak najwyższe, zaś między wiązkami jak najniższe. Idea analizy czynnikowej bazuje na tzw. „równaniu czwórkowym” Spearmana.
Przykład
Test A i test B - korelacja 0,70.
Wniosek - oba testy mierzą tę samą cechę.
Test A, B i C - korelacje 0,70.
Wniosek - wszystkie testy są jednakowo dobrymi miarami tej samej cechy.
Test A, B i C - korelacja 0,70 pomiędzy testem A i B oraz korelacja 0,50 pomiędzy testem C oraz testami A i B.
Wniosek - testy A i B są dobrymi miarami cechy ogólnej, zaś test C mierzy bardziej specyficzną treść i jest gorszą miarą cechy ogólnej niż testy A i B.
Test A, B, C i D - korelacje 0,70 pomiędzy testem A i B oraz pomiędzy C i D, a także korelacje krzyżowe po 0,50 między testami A i B oraz testami C i D.
Wniosek - istnieje nie tylko cecha ogólna (badana przez wszystkie testy - każdy z nich jest dobrą miarą tej cechy do wysokości korelacji 0,50), ale przede wszystkim istnieją dwie odmienne, choć skorelowane cechy; jedna wiązka (czynnik) mierzy pierwszą cechę (testy A i B), zaś druga wiązka bada drugą cechę (testy C i D).
Analiza mocy dyskryminacyjnej
Celem tej analizy jest ocena w jakim stopniu wszystkie pozycje mierzą tę samą treść; najczęściej używany jest skorygowany współczynnik pozycja-skala. Analiza ta jest dokonywana dla pozycji tworzących daną skalę oraz oddzielnie dla każdej ze skal testów wieloskalowych.
Analiza czynnikowa pozycji
Celem eksploracyjnej analizy czynnikowej pozycji jest wykazanie, że pozycje tworzące daną skalę mają najwyższe korelacje (ładunki czynnikowe) z odpowiadającymi im czynnikami (odzwierciedlającymi określoną treść psychologiczną) oraz najniższe z innymi czynnikami (tworzącymi inne wiązki pozycji). Analiza jest przeprowadzana na wszystkich pozycjach testu.
Wnioski
Moc dyskryminacyjna:
Skala E - zakres: 0,54 do 0,64 (pozycja nr 78 jest najlepszą miarą E);
Skala N - zakres: 0,49 to 0,58 (pozycja nr 83 jest najlepszą miarą N);
Skala P - zakres: 0,23 to 0,31 (pozycja nr 18 jest najlepszą miarą P);
Skala K - zakres: 0,35 to 0,42 (pozycja nr 71 jest najlepszą miarą K).
Uwaga
Znak minus przed numerem pozycji wskazuje, że odpowiedź negująca jest zgodna z kluczem - wyniki tych pozycji powinny zostać zrekodowane. Zabieg ten jest niezbędny dla obliczenia mocy dyskryminacyjnej (wszystkie korelacje muszą być pozytywne), ale opcjonalne dla analizy czynnikowej - ładunki mogą być zarówno pozytywne, jak i negatywne.
Wnioski
Eksploracyjna analiza czynnikowa: wszystkie pozycje wykazały wyższe korelacje z odpowiadającymi im czynnikami. Najlepsze są skale E i N, skale K, a zwłaszcza P są gorsze.
Optymalny wzór tych korelacji powinien być „czarno-biały”. W praktyce testów psychologicznych nigdy się to nie zdarza.
Analiza korelacji pomiędzy skalami testu
Dwie formy analizy:
Korelacje między skalami testu; - skala wytrzymałości z FCZ-KT koreluje dodatnio (ok. 0,20) ze skalą aktywności (osoby aktywne są bardziej wytrzymałe, co jest zgodne z oczekiwaniami teoretycznymi).
Analiza czynnikowa skal testu - WAIS-R ujawnia dwa czynniki skal testu: Werbalny i Niewerbalny (czasami też trzeci czynnik, określany mianem Pamięci/Odporności na dystrakcję).
Analiza korelacji pomiędzy testami
Dwie formy analizy:
Analiza korelacji pomiędzy testem oraz innymi testami (badającymi ten sam i odmienne konstrukty);
Analiza czynnikowa (eksploracyjna i konfirmacyjna) danego testu oraz innych testów (badających ten sam i odmienne konstrukty).
Korelacje z innymi testami
Celem tej analizy jest ocena wielkości wariancji dzielonej przez test z innymi testami. Analiza ta wymaga uwzględnienia skal mierzących te same i odmienne konstrukty w celu wykazania trafności konwergencyjnej i dyskryminacyjnej (oceniana skala powinna korelować ze skalami badającymi zbliżone konstrukty oraz nie korelować ze skalami mierzącymi odmienne konstrukty).
Przykład badań walidacyjnych NEO-FFI
Hipotezy:
Skale N i E z NEO-FFI i EPQ-R oraz skale U i S z NEO-FFI i PAL (identyczne konstrukty - bardzo wysokie korelacje);
Skale U i S z NEO-FFI i skale P i K z EPQ-R oraz skale E i N z NEO-FFI i skale P i D z PAL, a także skala O z NEO-FFI i skala I z PAL (zbliżone konstrukty - przeciętne korelacje);
Wszystkie te korelacje są wskaźnikiem trafności konwergencyjnej (zbieżnej).
Korelacje pomiędzy skalami, badającymi odmienne kontrukty powinny być bardzo niskie (zbliżone do zera).
Wszystkie te korelacje są z kolei wskaźnikiem trafności dyskryminacyjnej (różnicowej).
Wnioski
Wysokie korelacje skal N i E z NEO-FFI i EPQ-R oraz skali S z NEO-FFI i PAL potwierdzają trafność konwergencyjną (korelacje skali A są zbyt niskie);
Przeciętne korelacje skal U i S z NEO-FFI i skale P i K z EPQ-R oraz skali N z NEO-FFI i P z PAL, a także skali O z NEO-FFI i skali I z PAL także potwierdzają trafność konwergencyjną (korelacja pomiędzy skalami E i D jest zbyt wysoka);
Korelacje zbieżne są wyższe niż korelacje krzyżowe, co potwierdza trafność dyskryminacyjną.
Korelacje krzyżowe są wyższe w przypadku PAL niż EPQ-R - niektóre problemy słabej trafności zbieżnej i różnicowej występują, gdy NEO-FFI jest odnoszony do PAL (a nie EPQ-R).
PAL wykazuje niską trafność.
Analiza czynnikowa testów
Dwie formy analizy:
Eksploracyjna analiza czynnikowa (empiryczna klasyfikacja treści skal różnych testów);
Konfirmacyjna analiza czynnikowa (porównanie modelu teoretycznego do danych - analiza dobroci dopasowania modelu do struktury danych testowych).
Źródła wariancji w analizie czynnikowej
(A1) = trafność konwergencyjna;
(A2) = trafność dyskryminacyjna;
(A1+A2) = wariancja wspólna (communality, h2);
1-h2 = wariancja unikatowa (B+C).
Inne źródła zmienności:
1-α = wariancja błędu (C).
α-h2 = wariancja systematyczna, specyficzna dla testu (B).
Eksploracyjna analiza czynnikowa
Skala Neurotyczności z NEO-FFI
(A1) = 0,772 = 0,59 (wariancja specyficzna dla neurotyczności)
(A2) = 0,08 (wariancja wspólna z pozostałymi czterema cechami) = (-0,202;4%E)+(-0,172;3%C)+(-0,032;A)+(-0,102;1%O).
Wariancja wspólna (A1+A2=h2) = 0,59+0,08=0,67.
Wariancja unikatowa = 1-h2 = 1-0,67=0,33 (błąd pomiaru + systematyczna wariancja specyficzna dla skali N z NEO-FFI).
Skala Neurotyczności z EPQ-R
(A1) = 0,852 = 0,72 (wariancja specyficzna dla neurotyczności)
(A2) = 0,02 (wariancja wspólna z pozostałymi czterema cechami) = (-0,062;E)+(-0,022;C)+(-0,012;A)+(-0,142;2%O).
Wariancja wspólna (A1+A2=h2) = 0,72+0,02=0,74.
Wariancja unikatowa = 1-h2 = 1-0,74=0,26 (błąd pomiaru + systematyczna wariancja specyficzna dla skali N z EPQ-R).
Wniosek
Skala Neurotyczności z NEO-FFI wykazuje gorszą trafność konwergencyjną (59% w porównaniu do 72%) oraz dyskryminacyjną (8% w odniesieniu do 2%) niż skala Neurotyczności z EPQ-R (obie skale mają zbliżoną zgodność wewnętrzną wynoszącą około 0,85). Błąd pomiaru jest równy 15%, unikatowa systematyczna wariancja specyficzna dla skali z NEO-FFI = 18% oraz EPQ-R = 11%).
Wniosek
Skala Otwartości wykazuje słabą trafność konwergencyjną oraz dyskryminacyjną. Inne skale wykazują wysoką trafność konwergencyjną, ale skala Neurotyczności, Ugodowości i Sumienności wykazuje także słabą trafność dyskryminacyjną. Najlepsza jest skala Ekstrawersji.
Trafność innych skal
Siła Procesu Pobudzenia - 36% neurotyczności, 15% ekstrawersji, 14% sumienności, 3% ugodowości oraz 1% otwartości/rytmiczności- wykazuje słabą trafność dyskryminacyjną.
Skala Aktywności we śnie (A-S) - 13% wspólnej wariancji z innymi skalami (6% z czynnikiem otwartości/rytmiczności) - brak trafności konwergencyjnej, tylko wariancja unikatowa.
Konfirmacyjna analiza czynnikowa testów
Celem tej analizy jest ocena trafności konwergencyjnej i dyskryminacyjnej skal testu, przez porównanie modelu teoretycznego i empirycznej struktury skal.
Przykład Inwentarza Struktury Temperamentu (KST) Rusalova
Analiza konfirmacyjna skal KST - analiza wewnętrznej struktury testu (analiza konfirmacyjna podobnie do analizy eksploracyjnej może być zrealizowana na poziomie pozycji, skal danego testu, jak i całych testów).
Dwa czynniki wpływające na temperament: geny i środowisko. Wrodzona (pierwotna) struktura temperamentu obejmuje: ergiczność, plastyczność, tempo i emocjonalność. Cechy te różnicują się się pod wpływem czynników środowiskowych na cechy społeczne i przedmiotowe.
KST zawiera osiem skal:
Ergiczność - społeczną
Ergiczność - przedmiotową
Plastyczność - społeczną
Plastyczność - przedmiotową
Tempo - społeczne
Tempo - przedmiotowe
Emocjonalność - społeczną
Emocjonalność - przedmiotową
Hipotezy i modele
Bez cechy ogólnej (skale są nieskorelowane - model powinien być odrzucony);
Jedna cecha ogólna (brak specyfiki skal - model powinien być odrzucony);
Dwie cechy („struktura wtórna”) - model powinien być potwierdzony);
Cztery cechy („struktura pierwotna”) - model powinien być potwierdzony);
SOS model (ad hoc model trzech cech).
Bez cechy ogólnej (skale są nieskorelowane - model powinien być odrzucony);
Jedna cecha ogólna (brak specyfiki skal - model powinien być odrzucony);
Dwie cechy („struktura wtórna”) - model powinien być potwierdzony);
Cztery cechy („struktura pierwotna”) - model powinien być potwierdzony);
SOS model (ad hoc model trzech cech).
Wskaźniki „dobroci dopasowania”
Wartość testu chi2 (brak istotności);
Goodness of Fit Index (GFI; powyżej 0,95);
Adjusted Goodness of Fit Index (AGFI; powyżej 0,90);
Normed Fit Index (NFI - wartość przyrostowa dopasowania w stosunku do „modelu zerowego”; powyżej 0,90);
Wartości indeksu Watkinsa chi2/df (poniżej 5,0 - akceptowalne dopasowanie; poniżej 3,0 - znakomite dopasowanie).
Wnioski
Żaden z analizowanych modeli nie wykazał akceptowalnego dopasowania - empiryczna struktura korelacji skal KST jest nieprzewidywalna na podstawie oczekiwań teoretycznych;
Teoria temperamentu jest fałszywa lub KST powinien zostać zmodyfikowany, bowiem wykazuje niewystarczającą trafność.
Analiza macierzy Wielu Cech - Wielu Metod
Macierz WC-WM (ang. MTMM matrix) jest przygotowywana w celu formalnej oceny trafności konwergencyjnej i dyskryminacyjnej pomiary testem. Analiza ta wymaga wprowadzenia przynajmniej dwóch metod oraz dwóch cech.
Rodzaje korelacji w macierzy WC-WM
Pomiędzy skalami mierzącymi różne cechy w obrębie tej samej metody (różne cechy, ta sama metoda);
Pomiędzy skalami mierzącymi te same cechy, ale za pomocą różnych metod (te same cechy, różne metody);
Pomiędzy skalami mierzącymi różne cechy za pomocą różnych metod (różne cechy, różne metody).
Wymóg trafności konwergencynej
Trafność konwergencyjna (zbieżna): korelacje pomiędzy skalami różnych metod, ale badających te same cechy (te same cechy, różne metody) powinny być co najmniej przeciętne (istotne statystycznie).
Wymóg trafności dyskryminacyjnej
Trafność dyskryminacyjna (różnicowa): korelacje skal różnych metod badających te same cechy (te same cechy, różne metody) powinny być wyższe niż:
korelacje skal mierzących różne cechy, za pomocą tej samej metody (te same cechy, różne metody);
korelacje skal mierzących różne cechy, za pomocą różnych metod (różne cechy, różne metody).
Macierz WC-WM dla samoopisu i szacowania z użyciem NEO-FFI
Kwestionariusz: NEO-FFI
Miary: samoopis (s) and szacowanie (sz)
Korelacje:
Pomiędzy NEO-FFI skalami samopisu
Pomiędzy NEO-FFI szacowania
Pomiędzy samoopisem i szacowaniem
Wnioski
Skale NEO-FFI wykazują wystarczającą trafność konwergencyjną (korelacje podkreślone w tabeli);
Skale NEO-FFI wykazują akceptowalną trafność dyskryminacyjną (korelacje „zbieżne” są wyższe niż wszystkie korelacje „różnicowe”).
Podsumowanie
Pojęcie trafności zbieżnej i różnicowej jest kluczowe dla zrozumienia trafności teoretycznej, choć zazwyczaj jest ograniczane tylko do analizy macierzy Wc-WM. Test powinien mierzyć określoną cechę i nie mierzyć innych cech (ani jakichkolwiek innych charakterystyk indywidualnych, a zatem także stylów odpowiadania czy stanów psychologicznych).
Pojęcie trafności konwergencyjnej i dyskryminacyjnej może odnosić się zarówno do trafności teoretycznej, jak i kryterialnej. Test jest nietrafny, jeśli niczego nie przewiduje lub nie mierzy (brak trafności konwergencyjnej). Test jednak jest także nietrafny, jeśli przewiduje lub mierzy wszystko (brak trafności różnicowej).
Narzędzie, które diagnozuje wszystko, nie mierzy niczego w szczególności.
Wykład 9
STRATEGIE KONSTRUOWANIA TESTÓW
Strategie konstruowania testu
1). teoretyczna (dedukcyjna) - podstawa teoretyczna dla strategii empirycznych, choć może też być stosowana samodzielnie (do diagnozy raczej cech).
2). zewnętrzna (kryterialna) - do diagnozy typów (eksploracyjna lub połączona z teoretyczną).
3). wewnętrzna (indukcyjna) - do diagnozy cech (eksploracyjna lub połączona z teoretyczną).
4). sekwencyjne lub połączone
Budowa skali w każdej strategii poza kryterialną) jest podobna - te same końcowe procedury techniczne, ale nieco inny model psychometryczny jest stosowany w każdej strategii.
Strategie mają podobny plan konstrukcji, poza strategiami połączonymi - unikatowość planu analizy i przebieg procesu konstrukcji.
Porównanie strategii konstrukcji testów
Aspekty opisu strategii:
a). dostępność teorii psychologicznej w strategii: dedukcyjna ("teoria"), kryterialna ("wiedza"), indukcyjna ("metodologia");
b). model psychometryczny zastosowany do konstrukcji testu: teoretyczna - analiza pozycji (korelacja pozycja-skala, zewnętrzna - analiza pozycji (korelacja pozycja-kryterium), indukcyjna - eksploracyjna analiza czynnikowa;
c). efekt finalny: w zakresie psychologicznym, diagnostycznym i psychometrycznym - każda strategia ma swoje zalety i wady - zależnie od typu problemu należy stosować różne strategie.
Wykład 10
PROCEDURA (PROCES) KONSTRUKCJI TESTU
Etap I - wybór strategii (cel badań - pytania badawcze, rodzaj badanego konstruktu: cecha albo typ) oraz plan budowy narzędzia (w tym także skale kontrolne).
Niezbędna jest wiedza dotycząca danego konstruktu oraz wiedza z metodologii, psychometrii i diagnostyki psychologicznej.
Etap II - analiza podstaw teoretycznych narzędzia: teorii, wiedzy lub metodologii (trafność treściowa lub prototypowość).
Hierarchiczna struktura konstruktu - podwymiary lub składniki definicyjne (pokrycie całego konstruktu, łatwość generowania wskaźników konstruktu).
Określenie specyfiki konstruktu (nie tylko aspekt zbieżny ale i różnicowy), także poprzez hipotezy dotyczące relacji do innych konstruktów.
Procedura „mocnej walidacji” - inne narzędzia lub kryteria wprowadzone do badania i analizy danych, ale nie tylko zbieżne, ale i zwłaszcza różnicowe.
Etap III - generowanie wskaźników będących deskrypcją cech psychologicznych.
Etap IV - zapisywanie pozycji testowych (rodzaj pozycji, zachowania, format odpowiedzi) i ocena ich własności formalnych.
Składniki definicyjne
Antonovsky (1995) przy tworzeniu Kwestionariusza Poczucia Koherencji w postaci przestrzeni Kartezjańskiej, zbudowanej poprzez wyodrębnienia podwymiarów poczucia koherencji oraz fasad reprezentujących różne aspekty reagowania na bodźce. W ramach podwymiarów wyodrębnione zostało poczucie zrozumiałości, zaradności i sensowności (E1-3), zaś w obrębie fasad: modalność bodźca (A1-3: instrumentalny, poznawczy i afektywny), źródło bodźca (B1-3: wewnętrzne, zewnętrzne i wewnętrzno- zewnętrzne), stawiany jednostce wymóg (C1-3: konkretny, rozproszony i abstrakcyjny) oraz czas reakcji (D1-3: przeszła, teraźniejsza i przyszła). Określona kombinacja złożona z elementów składowych każdej fasady oraz podwymiaru stanowiła profil, ułatwiający generowanie pozycji.
Przykładowo, pytanie „Nawet ludzie o silnym charakterze czasami czują się przegrani w pewnych sytuacjach. Jak często w przeszłości tak się czułeś?” (Anotonovsky, 1995, s. 83) zostało zbudowane przez operacjonalizację profilu: A3, B1, C3, D1 i E2 (bodziec afektywny, pochodzenia wewnętrznego, o wymaganiach abstrakcyjnych, odnoszący się do przeszłości i odwołujący się do poczucia zaradności). Dla całego konstruktu dało to możliwość stworzenia 243 pozycji, praktycznie pokrywających cały zakres jego treści oraz jednocześnie nie duplikujących się wzajemnie.
Pozycja testowa to sformalizowany wskaźnik danej cechy psychologicznej, a więc zdanie (twierdzenie lub pytanie) opisujące określone zachowanie (lub zadanie wyzwalające określone zachowanie) oraz skala rejestrująca to zachowanie (opcje odpowiedzi o określonym formacie oraz reguła przekształcania odpowiedzi w wynik liczbowy).
Proces tworzenia pozycji:
Generowanie pozycji - poszukiwanie takich zachowań i sytuacji, które występują w życiu codziennym określonej grupy osób badanych - wymaga wyrażenia wskaźników teoretycznych w „języku” naturalnych zachowań i sytuacji.
Zapisywanie pozycji - wymaga przełożenia terminów psychologicznych na język naturalny, a więc wyrażenia pozycji w języku, którym posługują się osoby badane.
Decyzje wstępne:
Wybór procedury odpowiadania oraz formy pozycji kwestionariuszowych (wybieranie dowolnej liczby pozycji lub ograniczeniu wyboru do opcji stwierdzenia albo opcji odpowiedzi).
Wybór rodzaju procedury: spiralna albo piramidowa.
Generowanie pozycji
Źródła pozycji:
Zapożyczenia z innych narzędzi (MMPI lub 16 PF, testy zdolności - typowe dla strategii zewnętrznej).
Poszukiwanie „naturalnych” banków pozycji (zasoby słownikowe - listy przymiotnikowe, testy zdolności - typowe dla strategii indukcyjnej).
Tworzenie nowych pozycji przez profesjonalistów lub nieprofesjonalistów (typowe dla strategii teoretycznej lub połączonej - teoretyczno-indukcyjnej czy kryterialnej (ważna jest trafność treściowa lub prototypowość).
Nowe pozycje:
Odpowiedniość do badanego konstruktu (trafność treściowa);
Reprezentatywność dla zachowania osób badanych (proces społeczny generowania wskaźników - eliminacja obciążenia demograficznego; analiza prototypowości ujmuje oba aspekty).
Ocena trafności treściowej lub typowości pozycji
Procedura analizy:
Tworzenie wskaźników;
Kwalifikowanie do konstruktów;
Ocena wskaźników na skalach ocen;
Analiza psychometryczna i walidacja procedury (muszą być możliwe do uzyskania korelacje ocen ze wskaźnikami psychometrycznymi).
Zapisywanie pozycji
Wymagania:
Uwzględnianie reguł formalnych w procesie zapisywania pozycji;
Sprawdzenie uzyskanego efektu w tzw. analizach formalnych własności pozycji (analizy itemmetryczne).
Konsekwencje:
Zakłócenie warunku standaryzacji - zmienność inter- i intraindywidualna interpretacji treści pozycji;
Uruchomienie stylu odpowiadania;
Udzielanie odpowiedzi „niezgodnych” z intencjami (niespójnych);
Pogorszenie charakterystyki psychometrycznej pozycji.
Własności formalne pozycji - Model Angleitnera i wsp. (1986):
Zrozumiałość
Niejasność
Ogólność (abstrakcyjność)
Dostępność w osobistym doświadczeniu (możliwość odniesienia do „ja”)
Obciążenie czynnikami zniekształcającymi, np. aprobatą społeczną.
Zrozumiałość
Długość pozycji (liczba zdań, słów, itd.), ale unikanie telegraficznej skrótowości.
Złożoność gramatyczna (forma gramatyczna pozycji, np. negacja, strona bierna oraz komplikacja pozycji w postaci zdań złożonych, ze względu na tryb złożenia, np. w zdaniach podrzędnie czy nadrzędnie złożonych).
Poprawność gramatyczna - błędy językowe oraz prostota - dostępność użytych pojęć.
Wyrażenie zdań w pierwszej osobie;
Respektowanie obyczajów językowych oraz zasad językowych, np. form obocznych dla płci, ale bez żargonu.
Zalecenia
Zapisywanie pozycji zgodnie z regułami.
Konsultacja językoznawcy.
Analizy itemmetryczne - ocena „zrozumiałości” pozycji.
Niejasność - wieloznaczność interpretacyjna, możliwość przypisania wielu różnych znaczeń pozycji - interpretowania jej treści na wiele sposobów, z których każdy jest poprawny językowo i dopuszczalny z punktu widzenia formy gramatycznej.
Źródła:
zbyt duża ogólność i abstrakcyjność użytych pojęć;
czynniki lingwistyczne, wynikające z formy gramatycznej zdania, np. negacji, jego złożoności gramatycznej czy błędów, np. interpunkcyjnych, a zwłaszcza zapisanie pozycji w formie zadania złożonego, którego zdania proste nie tworzą koniunkcji i mogą wymagać odrębnej odpowiedzi.
Zalecenia
Zapisywanie w formie pozycji konkretnych.
Grupowa analiza znaczenia treści twierdzeń oraz ustalanie na drodze dyskusji ich ostatecznej i bardziej jednoznacznej formy.
Analiza znaczenia afirmacji oraz negacji treści pozycji dla możliwości zbadania określonej cechy.
Analizy itemmetryczne.
Zapisywanie w formie pozycji konkretnych.
Grupowa analiza znaczenia treści twierdzeń oraz ustalanie na drodze dyskusji ich ostatecznej i bardziej jednoznacznej formy.
Analiza znaczenia afirmacji oraz negacji treści pozycji dla możliwości zbadania określonej cechy.
Analizy itemmetryczne.
Ogólność-abstrakcyjność
Ogólność wynika z abstrakcyjności pojęć użytych do opisu zachowania, sytuacji czy cech osobowych. Pozycja ogólna zakłada konieczność integracji informacji, uzupełniania jej przez konkluzje, uogólniania zachowań z różnych sytuacji czy dokonania porównań z niespecyficznymi standardami.
Dostępność w doświadczeniu - zalecenia
Procedura analizy typowości (także przy adaptacji kulturowej).
Proces społeczny tworzenia pozycji.
Odwołanie do „ja” - zdania w pierwszej osobie.
Analizy itemmetryczne.
Analizy itemmetryczne
üIdentyfikacja pozycji źle sformułowanych i ich poprawienie albo usunięcie z puli.Oceny na skalach ocen albo wskazanie pozycji wadliwych.
Brak możliwości zbudowania pozycji doskonałej, ale pozycje wadliwe skutkują pogorszeniem charakterystyki psychometrycznej.
Opcje odpowiedzi
Problem opcji centralnej w formie „nie wiem” , (?), „tak i nie”.
- Słaby status opcji centralnej :
1). odpowiedź osoby badanej oznacza, że jej zachowanie zależy od sytuacji;
2). odpowiedź osoby badanej wynika z trudności w ocenie własnego zachowania;
3). odpowiedź osoby badanej wskazuje, że nie potrafiła ona jednoznacznie rozkodować treści pozycji (pozycja jest niejasna); odpowiedź osoby badanej wskazuje, że faktycznie ma przeciętne nasilenie cechy.
- Dwumodalne rozkłady odpowiedzi.
Format może być nieparzysty, ale opcja pośrednia musi wskazywać na umiarkowanie nasilenie cechy.
Szerokość formatu: wielokategorialne - dwukategorialne.
- Wady formatów dwukategorialnych:
1). Zmuszają do udzielenia zdecydowanej odpowiedzi.
2). Nie gwarantują odpowiedniego zróżnicowania odpowiedzi.
- Wady formatów wielokategorialnych:
1). Są trudne poznawczo, zwłaszcza dla o.b. gorzej wykształconych.
2). Pozorne zróżnicowanie - tendencje do zawężania formatu.
Optymalna szerokość formatu
„Magiczna” liczba Millera - górna granica:
7 + 2 (5 - 9)
Ogółem: 4 - 7 opcji
Osoby badane o większych zdolnościach:
5 - 7
Osoby badane o mniejszych zdolnościach:
2 - 5
Inne aspekty formatu
Zakotwiczenie skali: niemalże wielkie kwantyfikatory.
Kierunek zakotwiczenia: negatywny-pozytywny.
üWartości liczbowe wtórne (podstawowe określenia słowne).Ujednolicone dla wszystkich pozycji (także w skali kontrolnej).
Etap VI - ważenie pozycji lub opcji odpowiedzi
Wagi zróżnicowane - krótkie narzędzia, pozycje bardzo zróżnicowane pod względem charakterystyki psychometrycznej, komplikacja obliczania wyniku końcowego, wagi empiryczne, a nie - teoretyczne.
Wagi pozycji równe oraz liniowo rosnące wagi odpowiedzi (zróżnicowanie wkładu pozycji do wyniku końcowego).
Etap VII - przygotowanie testu do badań: przyjęcie nazwy testu, zaopatrzenie go w instrukcję oraz wprowadzenie losowej kolejności pozycji w inwentarzach lub uporządkowania ich według stopnia trudności (wybór procedury badania);
Etap VIII - badania i analiza psychometryczna
Cel - uzyskanie finalnej wersji inwentarza: przeprowadzenie badań listą pozycji i analiza psychometryczna danych.
Przebieg badań - te same warunki i to samo narzędzie co w badaniach docelowych.
Badania
Dobór próby:
Maksymalne zróżnicowanie demograficzne (płeć, wiek, wykształcenie, zawód, miejsce zamieszkania, itp.).
Duża liczebność grupy (mnożnik 5 - 10 osób badanych na jedną pozycję testową -„psychometria nie toleruje małych prób”) - minimum 400-500 o.b.
Podział na grupy losowe: walidacja krzyżowa.
Przygotowanie do analizy danych
Kodowanie danych - odpowiedzi o.b.
Braki danych - bez korekty w fazie wstępnej analizy psychometrycznej.
Braki danych - skale końcowe - uzupełnianie przez średnią dla danej osoby z pozostałych pozycji (inne: średnia w skali lub losowe).
Dyskwalifikacja protokołów z licznymi brakami danych - kryteria (5%).
Analiza psychometryczna
Kierunek: od podwymiarów do skal.
Walidacja krzyżowa.
üWalidacja demograficzna (uwaga: niwelowanie różnic demograficznych).„Mocna walidacja” - korygowanie składu pozycji w aspekcie zbieżnym lub różnicowym.
Opracowanie wersji końcowej skal.
Analiza pozycji - rodzaj analizy psychometrycznej, który obejmuje wskaźnik trudności pozycji, moc dyskryminacyjną oraz trafność zewnętrzną pozycji).
Moc dyskryminacyjna - wskaźnik stopnia, w jakim pozycja mierzy cechę, którą mierzy cały test (oceniana poprzez korelację pozycja-skala).
Trudność pozycji - proporcja odpowiedzi zgodnych z kluczem (średnia pozycji w relacji do możliwego maksymalnie wysokiego wyniku).
Trafność zewnętrzna pozycji - wskaźnik stopnia, w jakim pozycja mierzy kryterium pozatestowe (oceniana poprzez korelację pozycja-kryterium).
Miary mocy dyskryminacyjnej
Współczynnik korelacji dwuseryjnej
Współczynnik korelacji punktowo-dwuseryjnej
Współczynnik korelacji punktowo-czteropolowej
Skorygowany współczynnik korelacji pozycja-skala
Mp - to średnia wyników w skali tych osób, które odpowiedziały na daną pozycję zgodnie z kluczem, Mq - to średnia wyników w skali tych osób, które odpowiedziały na daną pozycję niezgodnie z kluczem, S - odchylenie standardowe wyników w całym teście, p - to proporcja tych osób, które odpowiedziały na daną pozycję zgodnie z kluczem, q - to proporcja tych osób, które odpowiedziały na daną pozycję niezgodnie z kluczem, zaś y - to rzędna rozkładu normalnego odpowiadająca proporcji p.
Mp - to średnia wyników w skali tych osób, które odpowiedziały na daną pozycję zgodnie z kluczem, Mq - to średnia wyników w skali tych osób, które odpowiedziały na daną pozycję niezgodnie z kluczem,
S - odchylenie standardowe wyników w całym teście, p - to proporcja tych osób, które odpowiedziały na daną pozycję zgodnie z kluczem, q - to proporcja tych osób, które odpowiedziały na daną pozycję niezgodnie z kluczem.
fg - to proporcja osób w górnej połowie próby, które odpowiedziały na daną pozycję zgodnie z kluczem, fd - to proporcja osób w dolnej połowie próby, które odpowiedziały na daną pozycję zgodnie z kluczem,
p - to proporcja osób w całej próbie, które odpowiedziały na daną pozycję zgodnie z kluczem,
q - to proporcja tych osób, które odpowiedziały na daną pozycję niezgodnie z kluczem.
Trafność zewnętrzna - korelacja z kryterium (r-Pearsona albo korelacje stosowane do oceny mocy dyskryminacyjnej)
Analiza czynnikowa pozycji - ładunek czynnikowy (korelacja pozycji z czynnikiem) oraz wskaźniki różnicowe:
Wr = F2 - (Fa2 + Fb2 + Fc2 + ... + Fz2)
Wr - wynik różnicowy, F2 - ładunek na odpowiadającym pozycji ("własnym") czynniku, zaś Fa2, Fb2 do Fz2 - ładunki na innych czynnikach (od czynnika "A" do "Z").
Teoria odpowiadania na pozycje testowe - założenia
Odpowiedzi osoby badanej są zmiennymi obserwowalnymi, uwarunkowanymi przez cechę - zmienną latentną;
odpowiedzi na poszczególne pozycje są statystycznie niezależnie - ich skorelowanie wynika z cechy;
związek między rozwiązaniem pozycji a cechą może być opisany przez „krzywą charakterystyczną pozycji”
Parametry „krzywej charakterystycznej”
Parametr „trudności”
Parametr mocy dyskryminacyjnej
Parametr „zgadywania”
Parametr „nieuważności”
Zwykle są stosowane model dwu-parametryczne (wymagają zastosowania nieliniowej regresji)
Etap IX - analizy weryfikacyjne finalnej wersji inwentarza: rzetelność i trafność (te same oraz inne aspekty).
Weryfikacja - bo inna skala (długość, kompozycja pozycji).
Analiza trafności i rzetelności pomiaru
Zgodność wewnętrzna i stabilność czasowa.
Różne aspekty trafności - zbieżna i różnicowa.
Te same parametry w kilku grupach - stabilność (niezmienniczość) grupowa.
Etap X - normalizacja wyników testu (skale standardowe o rozkładzie normalnym, skale rangowe, punkty odsiewowe wraz z obszarem niepewności diagnozy).
Rodzaje norm:
(A) normy ogólne bez podziału ze względu na żadną ze zmiennych demograficznych,
(B) normy dla danej kategorii zmiennej demograficznej, ale bez podziału ze względu na inne zmienne (np. dla wszystkich kobiet, bez podziału na wiek),
(C) normy dla określonej kategorii kolejnej zmiennej demograficznej, bez podziału na inne zmienne (np. dla osób o danym wieku, bez podziału na płeć), itd.
(D) normy z zastosowaniem wszystkich zmiennych demograficznych.
Kwestie specyficzne norm
Badania praktyczne a naukowe (normy A).
Wyznaczenie SBP oraz PU dla wyników znormalizowanych.
Aktualizacja norm - normy kroczące.
Aktualizacja norm - najdalej po 10 latach.
Etap XI - publikacja testu.
Etap XII - rewizja testu (po maksimum 25 latach albo wcześniej po stwierdzeniu ewidentnych wad diagnostycznych).
Wykład 11
CZYNNIKI ZNIEKSZTAŁCAJĄCE WYNIKI TESTOWE
Czynniki zniekształcające wyniki testowe
a). zgadywanie.
b). tendencja do udzielania odpowiedzi społecznie aprobowanych albo społecznie nie aprobowanych:- tendencja do dysymulowania (aprobata społeczna),
tendencja do symulowania;
c). style odpowiadania
Style odpowiadania - tendencja osoby badanej do wybierania określonej opcji odpowiedzi niezależnie od treści pozycji kwestionariuszowej: tendencja do zgadzania się albo zaprzeczania, udzielania odpowiedzi ekstremalnych albo centralnych (pośrednich), udzielania odpowiedzi nieuważnych lub niekonsekwentnych, losowych (przypadkowych), niezdecydowanych (opcje „?” lub opuszczenia odpowiedzi), produktywnych, impulsywnych, pozornie oryginalnych, konwencjonalnych oraz lateralizacji (style graficzne).
Konieczne jest rozróżnienie tendencji ogólnej (podatność narzędzia lub procedury badania) oraz różnic indywidualnych w stosowaniu stylu - skale kontrolne badają różnice indywidualne, wyjątkowo mogą być zastosowane do analizy sytuacji badania.
Źródła stylów odpowiadania
Brak odpowiedniej motywacji osoby badanej do wzięcia udziału w badaniach lub poczucie zagrożenia badaniem - styl odpowiadania wynika z chęci ukrycia faktycznego obrazu osobowości w „szumie informacyjnym” odpowiedzi.
Własności pozycji oraz zastosowane opcje odpowiedzi - niezrozumiałość oraz niejasność pozycji oraz nieadekwatność zastosowanego formatu odpowiedzi.
Zalecenia
Odpowiednie sformułowanie językowe pozycji oraz właściwy format odpowiedzi (eliminowanie odpowiedzi pośrednich, dostosowanie formatu do preferencji osób badanych).
Zrównoważenie skali pod względem klucza odpowiedzi (niezbędne do zbudowania skal kontrolnych).
Dysymulowanie - tendencja osoby badanej do przedstawiania się w nieprawdziwie korzystnym świetle, która wiązana jest ze zmienną aprobaty społecznej (tendencją osoby badanej do kierowania się społecznym wartościowaniem zachowania przy odpowiadaniu, co prowadzi do zaprzeczania posiadania cech społecznie niepożądanych oraz przypisywania sobie cech społecznie pożądanych).
Aprobata społeczna jako styl odpowiadania (czy inaczej postawa wobec badania) to tendencja jednostki do kierowania się przy odpowiadaniu nie tyle faktycznym zachowaniem, czy treścią pytania, ale społeczną oceną, jaką pociąga za sobą dana odpowiedź.
Aprobata jako cecha to tendencja podmiotu do takiego modulowania zachowania (każdego - testowego, jak i realnego, pozatestowego), by było ono zgodne ze społecznym wartościowaniem - normami społecznymi, akceptacją otoczenia.
Zalecenia - unikanie obciążenia
1). Pozycje neutralne.
2). Pozycje subtelne pod względem trafności fasadowej.3). Specjalne formułowanie językowe pozycji - tzw. zdania zmodalizowane, unikanie dużych kwantyfikatorów czasu.4). Zmiana procedury badania - komputeryzacja lub wykorzystanie szacowania cech.
Zalecenia - identyfikacja pozycji obciążonych
5). Aprobata społeczna jako zmienna moderacyjna.
6). Analiza podatności pozycji przez manipulowanie instrukcją („dobry” profil).
7). Analizy itemmetryczne.
8). Korelacje pozycji ze skalami mierzącymi aprobatę społeczną.Identyfikacja pozycji obciążonych - usunięcie albo przeformułowanie.
Metody kontroli (eliminowania) wpływu aprobaty
Na etapie stosowania kwestionariusza:
8). Instrukcja "szczerości",
9). Zmiana procedury badania - komputeryzacja testu,
10). Skala kontrolna aprobaty społecznej, na podstawie której odrzuca się respondentów o wysokich wynikach lub koryguje wyniki skal treściowych przez doliczanie tzw. poprawek korekcyjnych,11). Wprowadzenie do diagnozy psychologicznej szacowania cech.
Dysymulacja i symulacja
Konieczne jest rozróżnienie tendencji ogólnej (podatność narzędzia lub procedury badania) oraz różnic indywidualnych w dysymulowaniu czy symulowaniu - skale kontrolne badają różnice indywidualne, wyjątkowo mogą być zastosowane do analizy sytuacji badania.
Symulowanie - tendencja osoby badanej do udzielania odpowiedzi, bezpodstawnie przedstawiających osobę badaną w niekorzystnym świetle, np. wskazujących na istnienie określonych zaburzeń zachowania czy niepożądanych cech osobowości.
Tendencja do symulowania jest zarówno postawą wobec badania, (styl odpowiadania, np."super-szczerość"), jak trwałym syndromem cech osobowości, związanym z tendencjami agrawacyjnymi, obniżoną samooceną, ekscentrycznością i zaburzeniami psychicznymi. Kontrolowanie tendencji do symulacji umożliwiają specjalne skale kontrolne.
Symulowanie
Zagrożenie pozytywną oceną, prowadzącą do wzbudzenia motywacji do unikania i dążenia do uzyskania diagnozy negatywnej.
Pytania o nietypowe myśli, pragnienia, odczucia i wrażenia (wraz ze swoistym przejaskrawieniem czy udziwnieniem form zachowania) oraz zachowania stanowiące przekroczenie norm moralnych.
Zalecenia - unikanie obciążenia
Unikanie pytań o zachowania regulowane społecznymi normami.
Unikanie emfazy w formułowaniu treści pozycji.
Zalecenia - identyfikacja pozycji obciążonych
Skale kontrolne
Funkcja skal kontrolnych polega na diagnozowaniu indywidualnych stylów odpowiadania na pozycje kwestionariuszowe, które są ekspresją postaw wobec badania inwentarzem osobowości. Postawy te nie wiążą się treściowo z badanymi cechami osobowości, ale powodują zniekształcenie uzyskiwanych wyników skal.
Czynniki te mogą być zatem traktowane jako tzw. zmienne „tłumiące” lub moderujące. Będą one zatem prowadziły do obniżenia wartości diagnostycznej inwentarza - trafności pomiaru, a niekiedy także i rzetelności pomiaru.
Rodzaje skal kontrolnych:
Dysymulacji, symulacji albo dysymulacji-symulacji (cecha albo styl albo cecha-styl, zależnie od sytuacji) - specjalna motywacja o.b.;
Skale do badania stylu odpowiadania - brak motywacji o.b. (odpowiedzi losowe, potakujące, itd.).
Skale kontrolne MMPI
Skala L była przeznaczona do diagnozowania dysymulacji i została zbudowana z pozycji opisujących zachowania społecznie pożądane, ale występujące rzadko u przeciętnej osoby. Uważa się, że diagnozuje ona tzw. naiwną tendencję do dysymulowania.
Skala K była przeznaczona do diagnozowania tendencji do przedstawiania „nadmiernie pozytywnego” obrazu siebie, ale zbudowano ją kryterialnie, wyodrębniając pozycje różnicujące grupę osób zdrowych oraz osób chorych o „normalnym” profilu, które podejrzewano zatem o dysymulację. Obu skalom przypisywano funkcję zmiennych tłumiących, a zatem prowadzących do uzyskania przez osobę nieprawdziwie „normalnego” profilu.
Skala F miała wykrywać tendencję do udzielania odpowiedzi nieuważnych i nieprzemyślanych. Wybrano do niej pozycje, które były bardzo rzadko potwierdzane w próbie normalizacyjnej. Pozycje te miały jednak charakter kliniczny i opisywały niezwykłe zachowania, z których każde stawiało osobę badaną w niekorzystnym świetle. Faktycznie zatem skala nieuważności zaczęła pełnić rolę skali symulacji. Ostatnia skala badała tendencję do wybierania odpowiedzi pośrednich („?”, czyli odpowiedzi „nie potrafię powiedzieć”). Jej wyniki obliczono jako liczbę odpowiedzi pośrednich na wszystkie pozycje MMPI. Miała ona diagnozować styl odpowiadania, wynikający z nadmiernej ostrożności czy niezdecydowania, a prowadzący do obniżenia wyników skal klinicznych.
Skale kontrolne MMPI-II
II wersja MMPI zawiera aż 9 skal kontrolnych - obok czterech tradycyjnych skal kontrolnych („?”, L, F i K), wprowadzono aż pięć dalszych: VRIN, TRIN, F(b), F(p) oraz S.
Skala VRIN (Variable Response Inconsistency) pozwala na ocenę zmienności odpowiedzi na zbiór, opozycyjnych w treści, par pozycji - wysoki wynik w tej skali, oznaczający udzielenie tej samej odpowiedzi na oba stwierdzenia z każdej pary, pozwala na ocenę niekonsekwencji odpowiadania. Z kolei skala TRIN (True Response Inconsistency) bazuje na liczbie odpowiedzi konfirmacyjnych na oba stwierdzenia pary i informuje o tendencji do zgadzania się, podczas gdy liczba odpowiedzi negujących - o tendencji do zaprzeczania.
Skala F(b) (Inpatient Psychopathology Scale) została zbudowana na końcowych pozycjach inwentarza MMPI-2 i - jako wariant skali F - pozwala na ocenę losowości odpowiedzi, następującej w efekcie zmęczenia i utraty motywacji, przy wypełnianiu tego długiego inwentarza.
Z kolei skala F(p) (Inpatient Psychopathology Scale) bada tendencję do symulowania u osób, wykazujących zaburzenia psychiczne.
Wreszcie skala S (Superlative Self-Presentation Scale) pozwala na ocenę bardziej wyrafinowanej formy dysymulowania niż tradycyjnie stosowana skala K wraz z pięcioma szczegółowymi komponentami tej tendencji.
Skale kontrolne 16 PF-V
W 5. edycji 16 PF wprowadzono trzy skale kontrolne: aprobaty społecznej (w wersji skali do badania „sprawiania wrażenia”), tendencji do „zgadzania się” oraz tendencji do udzielania „odpowiedzi przypadkowych” (ang. infrequency). Tendencja do udzielania „odpowiedzi przypadkowych” („strzelania”) jest diagnozowana na podstawie wybierania przez osobę badaną szczególnie rzadko zaznaczanych w całej próbie opcji odpowiedzi (z trójstopniowej skali) na pulę pozycji treściowych (zliczana jest suma wybranych takich opcji w puli różnorodnych pozycji). Tendencja do „zgadzania się” jest oceniana na podstawie wybierania przez osobę badaną odpowiedzi potwierdzających na pozycje wybrane z różnych skal treściowych (zliczana jest suma odpowiedzi potakujących na pulę zróżnicowanych treściowo pozycji).
Skala aprobaty zawiera pozycje, które nie są włączane do skal treściowych i diagnozuje uogólnioną tendencję do kierowania się aprobatą społeczną przy odpowiadaniu. Godnym uwagi jest także fakt, że w 5. edycji 16PF zmieniono nieco status skali rozumowania (B). Pozycje z tej skali zamieszczone są na końcu inwentarza, a sama skala staje się do pewnego stopnia skalą kontrolną. Służy ona nadal do oceny zdolności i jej wyniki są uwzględniane w profilu cech, tak jak w wersji pierwotnej. Jednocześnie jednak - poprzez badanie sprawności rozumowania na końcu kwestionariusza - informuje o zasobach uwagi, którymi dysponowała osoba badana po męczącej i długotrwałej pracy, związanej z wypełnieniem 16PF.
Zgadywanie jest specyficznym czynnikiem zniekształcającym wyniki testów zdolności, związanym z udzielaniem odpowiedzi losowych, gdy badani nie znają właściwych odpowiedzi („jak nie wiem, to będę strzelał”).
Kontrolowanie zgadywania
a). poprzez instrukcję testową: wyrównywanie tendencji do zgadywania (zachęcanie do zgadywania) lub eliminowanie zgadywania (informacja o stosowaniu korekty wyników);
b). zastosowanie statystycznej poprawki na zgadywanie:
B
K = P - ---------
m - 1
gdzie K - liczba odpowiedzi bez zgadywania, P - liczba poprawnych odpowiedzi w teście, B - liczba błędnych odpowiedzi, m - liczba opcji odpowiedzi w zadaniach testowych.
Wykład 12
STRATEGIE KULTUROWEJ ADAPTACJI TESTÓW
Kulturowa adaptacja testu - przystosowanie wersji oryginalnej testu do innej specyfiki kulturowej. Adaptacja testu oznacza konieczność wprowadzenia specjalnych procedur przystosowujących (decentrujących - uniwersalizujących lub centrujących na kulturze adaptacji), w przeciwnym razie stosowanie takiego narzędzia prowadzi nieuchronnie do stronniczości lub faworyzacji kulturowej.
Aspekty równoważności kulturowej testu:
a). równoważność teorii psychologicznych,
b). równoważność wymiarów psychologicznych
c). równoważność pojęć psychologicznych,
d). równoważność wskaźników cech - zachowań,
e). równoważność procedury badania.
Kryteria równoważności testu:
a). równoważność fasadowa (forma testu),
b). równoważność psychometryczna (wskaźniki dobroci pomiaru),c). równoważność funkcjonalna (równoważność psychologiczna),
d). wierność tłumaczenia,
e). wierność rekonstrukcji.
Transkrypcja - maksymalnie wierne tłumaczenie oryginalnych pozycji (założenie, że zarówno konstrukty, jak i zachowania są uniwersalne czy inaczej równoważne kulturowo). Celem adaptacji jest dochowanie wierności tłumaczenia oraz wierności fasadowej testu. Adaptacje transkrypcyjne są "niezręczne" językowo i wykazują szereg wad psychometrycznych.
Translacja - wierne tłumaczenie finalnej puli oryginalnych pozycji, ale z możliwością wprowadzenia niezbędnych modyfikacji językowych (założenie, że konstrukty, jak i zachowania są uniwersalne kulturowo, ale nie są uniwersalne pojęcia używane w danej kulturze do opisu zachowania).
Trawestacja - swobodne tłumaczenie oryginału z wprowadzaniem wielu modyfikacji, sugerowanych względami językowymi i psychologicznymi: treściowymi lub psychometrycznymi (założenie, że konstrukty psychologiczne są uniwersalne, ale nie są uniwersalne pojęcia używane w danej kulturze do opisu zachowania i nie zawsze uniwersalne są same zachowania - część zachowań ma charakter emikalny). Trawestacja prowadzi do uzyskania dostosowanych do danej kultury formy testu, ale może się on różnić od oryginału.
Parafraza - opracowanie nowego narzędzia, dla którego inspiracją jest test oryginalny. Pozycje oryginalne są wykorzystywane tylko częściowo, większość pozycji jest generowana na bazie pozycji oryginalnych (założenie, że konstrukty psychologiczne są uniwersalne kulturowo, ale z reguły nie są uniwersalne zachowania - tylko część z nich ma charakter etikalny, tj. równoważny kulturowo. Parafraza jest bardzo czasochłonna, ale prowadzi do uzyskania w pełni dostosowanych do danej kultury adaptacji testu.
Rekonstrukcja - opracowanie całkowicie nowego narzędzia, dla którego inspiracją jest oryginalny model teoretyczny i strategia konstrukcji (założenie, że zachowania z reguły nie są uniwersalne kulturowo, ale możliwe że nie są uniwersalne również konstrukty psychologiczne). Rekonstrukcja może prowadzić do uzyskania innej niż oryginalna wersji testu i jest najbardziej czasochłonną strategią adaptacji, ale prowadzi do uzyskania całkowicie dostosowanych kulturowo wersji testu.
Adaptacja demograficzna testów
Adaptacja demograficzna - przystosowanie testu przeznaczonego do badania określonej grupy do stosowania w innej grupie demograficznej. Adaptacja demograficzna testu, tak jak adaptacja kulturowa, oznacza konieczność wprowadzenia specjalnych procedur przystosowujących (decentrujących - uniwersalizujących lub centrujących na kulturze danej grupy), w przeciwnym razie stosowanie testu prowadzi nieuchronnie do stronniczości lub faworyzacji demograficznej (np. seksizmu).
Aspekty adaptacji demograficznej testów
Płeć
Wiek
Niepełnosprawność
Rasa
Klasa społeczna (status społeczno-ekonomiczny)?
Środowisko
Podkultura?
Wykład 13
NORMALIZACJA WYNIKÓW TESTU
Normy
Normy testowe są niezbędne dla poprawnej interpretacji wyników testu. Wynik surowy jest nieinterpretowalny bez informacji o wynikach, otrzymanych przez osoby badane z odpowiedniej grupy odniesienia. Są dwa rodzaje norm: wyniki progowe (pomiędzy grupami kontrastowymi) oraz normy bazujące na rozkładzie wyników testu (w grupie odniesienia - normalizacyjnej).
Wyniki progowe
Wyniki progowe (punkty odsiewowe) są stosowane w podejściu zorientowanym na trafność kryterialną. Celem tych norm jest uzyskanie diagnozy jakościowej - klasyfikacji osób badanych do jednej z dwóch (czy kilku) grup, skontrastowanych ze względu na określone kryterium. Punkty odsiewowe służą jako norma dla wyników testu - wskazują co oznacza wysoki i niski wynik testu.
Wynik progowy jest zazwyczaj wyrażany w formie, przykładowo „10/11” (najwyższy wynik w jednej grupie/najniższy wynik w drugiej grupie). Wynik progowy jest uzyskiwany poprzez krzywoliniową regresję jako punkt pozwalający na najlepsze zróżnicowanie obu grup: poniżej tego wyniku osoba badana ma mniej niż 50% szans, że należy do jednej grupy, zaś powyżej, że ma powyżej 50% szans na przynależność do drugiej grupy.
Normy bazujące na rozkładzie wyników testu
Celem norm opartych na rozkładzie wyników w grupie normalizacyjnej jest uzyskanie diagnozy ilościowej - ocena intensywności mierzonej cechy (jako własności różnicowej w grupie odniesienia). Istnieją dwa rodzaje norm: normy rangowe (porządkowa skala pomiarowa) oraz skale standaryzowane (przedziałowa skala pomiarowa).
Normy rangowe: skala centylowa
Skala centylowa jest wybierana, gdy rozkład wyników testu znacznie odbiega od rozkładu normalnego (rozkład jest asymetryczny, ma nieprawidłową gęstość i nie może być przetransformowany w rozkład normalny). Punktem odniesienia (standardem wykonania testu) jest mediana - centyle wskazują na częstość uzyskania danego wyniku w grupie normalizacyjnej.
Charakterystyka skali centylowej
Rozkład po transformacji wyników surowych = prostokątny („uskokowniony”)
Mediana = 50
Liczba jednostek skali = 101 centyli
Zakres = od 0 do 100 centyla
Skok skali = 1 centyl (1% wyników, poza centylami krańcowymi - 0 oraz 100, które obejmują po 0,5% obserwacji)
Zalety i wady skali centylowej
Zaleta:
Łatwość zrozumienia znaczenia wyniku, zwłaszcza dla osób badanych.
Wada:
Centyle prowadzą do nadszacowania różnic interindywidualnych w obszarze blisko średniej oraz niedoszacowania zmienności na krańcach rozkładu (zaburzają ocenę faktycznej zmienności).
Skale standardowe bazujące na rozkładzie normalnym
Normy wyników testu bazujące na rozkładzie normalnym wymagają transformacji wyników surowych na skale standardowe. Skale te umożliwiają osiągnięcie zasadniczego celu pomiaru psychologicznego: ilościowej oceny na skali przedziałowej (wiele kategorii wyników oraz równe różnice między nimi dla całego wymiaru).
Cel transformacji wyników surowych na skale standardowe
Poprawna interpretacja wyniku indywidualnego (ocena intensywności cechy);
Porównania różnic intraindywidualnych w wynikach testu (intensywność różnych cech u jednej osoby badanej);
Porównania różnic interindywidualnych w wynikach testu (intensywność danej cechy u różnych osób badanych).
Rodzaje skal standardowych
a). Znormalizowana skala ciągła - jednostki "z",
b). znormalizowane skale uskokowione:
dzielące rozkład wg średniej
(-) skala stenowa
obejmujące wartość średniej
(-) skala staninowa
(-) skala tetronowa
(-) skala wyników przeliczonych (WAIS-R)
(-) skala tenowa
(-) skala dewiacyjnego ilorazu inteligencji
Skala jednostek znormalizowanych „z”
Rozkład po transformacji wyników surowych = normalny („ciągły”)
Średnia = 0,0
Odchylenie standardowe = 1,0
Skok skali = praktycznie 0,01
Różnicowanie = dowolny zakres
Przeznaczenie = skala podstawowa, stanowiąca punkt wyjścia do transformacji wyników surowych na inne skale znormalizowane
Formuła transformacyjna
y = zSy + My
gdzie y - wynik w znormalizowanej skali standardowej, z - znormalizowany wynik standardowy,
Sy - odchylenie standardowe danej skali standardowej, My - średnia wyników danej skali standardowej)
Skala stenowa
Rozkład po transformacji wyników surowych = normalny („uskokowiony”)
Średnia = 5,5 (między 5 a 6 stenem)
Odchylenie standardowe = 2,0
Liczba jednostek skali = 10 stenów
Zakres = od 1 do 10 stena
Skok skali = 1 sten (0,5 odchylenia standardowego jednostek znormalizowanych „z”)
Różnicowanie = wartości od -2 do +2 jednostek znormalizowanych „z” (steny krańcowe powyżej 2 S)
Przeznaczenie = różnicowanie w obrębie „normy”
Skala staninowa
Rozkład po transformacji wyników surowych = normalny („uskokowiony”)
Średnia = 5,0 (obejmuje średnią)
Odchylenie standardowe = 2,0
Liczba jednostek skali = 9 stanin
Zakres = od 1 do 9 stanina
Skok skali = 1 stanin (0,5 odchylenia standardowego jednostek znormalizowanych „z”)
Różnicowanie = wartości od -1,75 do +1,75 jednostek znormalizowanych „z” (staniny krańcowe powyżej 1,75 S)
Przeznaczenie = różnicowanie w obrębie „normy”
Skala tetronowa
Rozkład po transformacji wyników surowych = normalny („uskokowiony”)
Średnia = 10,0 (obejmuje średnią)
Odchylenie standardowe = 4,0
Liczba jednostek skali = 21 tetronów
Zakres = od 0 do 20 tetrona
Skok skali = 1 tetron (0,25 odchylenia standardowego jednostek znormalizowanych „z”)
Różnicowanie = wartości od -2,325 do +2,325 jednostek znormalizowanych „z” (tetrony krańcowe powyżej 2,325 S)
Przeznaczenie = różnicowanie w obrębie „normy” i „patologii
Skala tenowa
Rozkład po transformacji wyników surowych = normalny („uskokowiony”)
Średnia = 50 (obejmuje średnią)
Odchylenie standardowe = 10,0
Liczba jednostek skali = 100 tenów
Zakres = od 1 do 100 tena
Skok skali = 1 ten (0,1 odchylenia standardowego jednostek znormalizowanych „z”)
Różnicowanie = wartości od -5 do +5 jednostek znormalizowanych „z” (teny krańcowe powyżej 5 S)
Przeznaczenie = różnicowanie w obrębie „normy' i „patologii”
Skala dewiacyjnego ilorazu inteligencji
Rozkład po transformacji wyników surowych = normalny („uskokowiony”)
Średnia = 100,0 (obejmuje średnią)
Odchylenie standardowe = 15,0
Liczba jednostek skali = 200 jednostek II
Zakres = od 0 do 200 jednostek II
Skok skali = jednostka II (1/15 odchylenia standardowego jednostek znormalizowanych „z”)
Różnicowanie = wartości praktycznie od -6 do +6 jednostek znormalizowanych „z” (jednostki krańcowe powyżej 6 S)
Przeznaczenie = różnicowanie w obrębie „normy” i „patologii”
Kryteria wyboru danej skali normalizacyjnej
Kształt rozkładu wyników surowych (reguła: rozkłady skośne - skale prostokątne)
Liczba stopni skali w stosunku do zakresu rozkładu wyników surowych (reguła: 1 do 2 lub 3)
Rzetelność pomiaru i wielkość standardowego błędu pomiaru (reguła: gdy SBP duże - raczej skala o mniejszej liczbie wartości);
Przeznaczenie - różnicowanie w obrębie „normy” czy „patologii” (reguła: różnicowanie w obrębie „patologii” - skala o większym zakresie)
Interpretacja nasilenia cechy bazująca na staninach
Staniny od 4 do 6 (przeciętne nasilenie - wynik w normie);
Staniny od 2 do 3 (niskie nasilenie) oraz od 7 do 8 (wysokie nasilenie);
Stanin 1 (bardzo niskie nasilenie) oraz stanin 9 (bardzo wysokie nasilenie).
Interpretacja wyników różnicowych testu
Nasilenie cechy, wyrażonej w wynikach testu jest proporcjonalne do wielkości odbiegania go od średniej (punktu odniesienia, czy inaczej standardu wykonania) oraz częstości (wynik częsty = typowy, wynik rzadki = ekstremalny). Im bardziej odchylony i rzadko spotykany jest dany wynik, tym większe (lub mniejsze) nasilenie badanej cechy.
Kwestie specjalne norm
Normy generalne czy lokalne (poradnictwo i dobór);
Aktualizacja norm i normy „kroczące” (liczebność grupy normalizacyjnej, trendy uzyskiwanych wyników);
Normy dla wszystkich i odrębne normy dla grup demograficznych (kryteria - analiza demograficznej stronniczości wyników testu).
Normy aktuarialne to normy, w które zostały wbudowane dane trafnościowe
Wykład 14
INTERPRETACJA WYNIKÓW TESTOWYCH I ZASADY KORZYSTANIA Z PODRĘCZNIKÓW TESTOWYCH
Interpretacja oznacza, że na podstawie wyników testu formułowane są wnioski psychologiczne - wynikom testu przypisywany jest sens psychologiczny.
Interpretacja wyników testu jest ściśle związana z trafnością pomiaru - odnosi się do trafności teoretycznej i/lub trafności kryterialnej.
Interpretacja może dotyczyć opisu zachowania osoby badanej (struktury cech osobowości czy zdolności intelektualnych) i/lub przewidywania zachowania w warunkach pozatestowych (funkcjonowania w realnych warunakch życiowych). Wszystkie te wnioski (interpretacje) bazują na danych otrzymanych w procesie walidacji testu.
Interpretacja może być trafna jedynie jeśli nasilenie cechy zostało prawidłowo oszacowane - oznacza to, że punktem wyjścia diagnozy psychologicznej jest ocena wyniku prawdziwego osoby badanej poprzez wyznaczenie odpowiedniego przedziału ufności.
Interpretacja kliniczna
Zakłada interpretację profilu testowego na podstawie treści psychologicznej poszczególnych skal i agregację tej treści poprzez ustalenie sensu danej konfiguracji cech. Interpretacja kliniczna wiąże się z idiograficznym podejściem do diagnostyki psychologicznej i w jej efekcie formułowane są wnioski raczej jakościowe niż ilościowe, a jeśli ilościowe - to są one mało precyzyjne.
Interpretacja statystyczna
Zakłada raczej mechaniczne łączenie skal, poprzez tworzenie agregatów nie tyle psychologicznych, ile statystycznych, np. poprzez tworzenie baterii testów predykcyjnych określonego kryterium (stanu zdrowia psychicznego, powodzenia zawodowego, itp.). Dla każdego z tych wskaźników możliwe jest określenie pewności wnioskowania czy dokładności diagnozy. Interpretacja statystyczna wymaga sformalizowania procesu wnioskowania na podstawie uzyskanych danych. Wiąże się ona z nomotetycznym podejściem do diagnostyki psychologicznej i dostarcza przede wszystkim wyników ilościowych.
Predykcja zachowania jednostki jest bardziej trafna przy podejściu statystycznym niż klinicznym. Podejście statystyczne jest jednak krytykowane za mechaniczność analizy danych i sprowadzenie udziału psychologa w diagnozie do roli “technika” rozdzielającego testy, obliczającego ich wyniki i odczytującego ich znaczenie z tabel aktuarialnych. Z tych względów postuluje się łączenie obu podejść albo akcentuje się konieczność wypracowania nowych modeli diagnostycznych.
34