ROZDZIAŁ V

Trafność- podstawowe pojęcia

I. Trafność

Dotyczy kwestii, co test mierzy i jak dobrze to czyni
Mówi, jakie wnioski możemy wyciągnąć na podstawie uzyskanych wyników testowych
Nie można jej określić w sposób ogólny, ale jedynie w odniesieniu do konkretnego zastosowania przewidywanego dla danego testu
Zasadniczo procedury określania trafności polegają na badaniu związku miedzy wynikami testowymi a innymi niezależnie obserwowanymi zmiennymi związanymi z dana właściwością
Różne metody badania trafności koncentrują się na różnych aspektach trafności wynikających z różnych zastosowań testu

Pojecie trafności zmieniało się wraz z tym jak poszerzał się obszar zastosowania testów.

II. Ewolucja zastosowania testów i idąca za tym zmiana pojęcia trafności testu:

□ ocena tego, czego ludzie nauczyli się ( np. egzaminy końcowe, na prawo jazdy itp.)

Trafność testu określana przez porównanie jego treści z zawartością treściową dziedziny, którą test bada.

□ prognoza

Trafność charakteryzuje się przez podanie współczynnika korelacji miedzy wynikami testu a bezpośrednią miarą kryterium, którym jest przewidywane zachowanie

(Np. dla testów uzdolnień szkolnych kryterium mogą być oceny)

□ obecny etap historii badań testowych charakteryzuje:

▪ ukierunkowanie na teorię

▪ ścisłe wiązanie weryfikacji empirycznej z teoria psychologiczną.→ Obie tendencje urzeczywistniają się w procesie konstruowania testu i sprawdzania jego trafności▪ Docenienie roli konstruktu teoretycznego dla opisywania i rozumienia zachowania przyczyniło się do wprowadzenia pojęcia trafności teoretycznej.

III. Sposoby badania trafności treściowej:

♣ Natura.

Procedury określania trafności treściowej polegają na systematycznym analizowaniu treści testu w celu stwierdzenia czy stanowi ona reprezentatywną próbę dziedziny, która ma być przedmiotem pomiaru.

Konieczna jest systematyczna analiza, aby, np. pewne aspekty dziedziny, która badamy ( np. matematyki) nie były nadreprezentowane ( np. geometria) a inne pominięte ( np. algebra).
Aby tego uniknąć badaną dziedzinę należy z góry zdefiniować, opisać.
Nie należy formułować zbyt ogólnych wniosków na temat dziedziny, której próbkę stanowi test ( np.nie można zakładać ze test mierzący zdolność do rozpoznawania poprawnie i niepoprawnie napisanych słów mierzy też zdolność do poprawnego pisania dyktowanych słów)
Na wyniki testu mogą też wpływać czynniki niezwiązane z celem badania( np. wyniki testu matematycznego mogą zależeć od zdolności rozumienia instrukcji), co stanowi problem.

♣ Konkretne procedury

Trafność treściowa jest wbudowana w test od samego początku poprzez wybór odpowiednich pozycji.
Podręczniki do testów osiągnięć szkolnych powinny w omówieniu trafności treściowej zawierać opisy stosowanych procedur, które miały zagwarantować, że zawartość testu będzie odpowiednia i reprezentatywna dla dziedziny będącej przedmiotem badania ( np. konsultacje z ekspertami, analiza programów nauczania i podręczników szkolnych itp.)
Stosuje się też metody empiryczne dla oceny trafności treściowej testu osiągnięć szkolnych (np. analiza powszechnie popełnianych błędów, obserwacja metod stosowanych przez osoby badane przy rozwiązywaniu testu)

♣ Zastosowanie

Ocena trafności treściowej to adekwatny sposób oceny

Testów osiągnięć szkolnych
Testów zawodowych przeznaczonych do rekrutacji pracowników( wtedy test powinien stanowić próbkę faktycznych czynności zawodowych bądź w inny sposób odwoływać się do tych samych umiejętności czy wiedzy)

Trafność teoretyczna nie jest odpowiednim sposobem walidacji testów uzdolnień i osobowości; ( tutaj analiza treści ujawnia jedynie hipotezy, które doprowadziły konstruktorów testu do wyboru pewnych treści w celu pomiaru określonych cech)

♣ Trafność fasadowa(TF)

- odnosi się do tego, co test wydaje się mierzyć

Czy wygląda na trafny w oczach osób, które go rozwiązują czy które decydują o jego zastosowaniu a nie są fachowcami.
TF sama w sobie jest pożądaną właściwością testu, wpływa na postawy wobec testu( np. jej brak, czyli sytuacja, gdy pytania spostrzegane są przez badanych jako infantylne czy głupie może skutkować brakiem współdziałania badanych)
Można ja zwiększyć przeformułowując pozycje testowe, aby były bardziej sensowne i do przyjęcia przez osoby, do których kierujemy test.
Nie jest substytutem obiektywnie określonej trafności; nie można zakładać zarówno tego, że poprawa TF zmieni obiektywną trafność testu ani tego, że na pewno tego nie zrobi.

IV. Sposoby badania trafności kryterialnej(TK)

♠ Trafność diagnostyczna( TD) i trafność prognostyczna(TP).

Procedury TK odnoszą się do skuteczności testu w prognozowaniu funkcjonowania jednostki w określonej sferze.
Gdy miara kryterialna zostaje uzyskana w przybliżeniu w tym samym czasie, co wyniki testu ► trafność diagnostyczna; kryterium jest dostępne w czasie badania( test jest wiec substytutem danych kryterialnych, często prostszym szybszym i tańszym).
Gdy miara kryterialna zostaje uzyskana po upływie pewnego czasu od badania testowego ► trafność prognostyczna.( Ważna w przypadku testów selekcji i klasyfikacji personelu np. do szkół, pracy); kryterium nie jest dostępne w trakcje testowania.
Często TD jest substytutem TP·, gdy niewykonalne jest rozciągniecie badania na czas potrzebny do określenia TP, wtedy bada się grupę, dla której dane kryterium jest już dostępne (np. wyniki testowe pracowników można odnosić do średniej ocen uzyskiwanej w momencie testowania.)
U podstaw logicznego rozróżnienie, na TP i TD leży nie czas, ale różne cele testowani: kolejno prognoza przyszłych wyników( Czy pani, XY ma warunki niezbędne do tego by stać się dobrą prawniczką?) I diagnoza istniejącego statusu( Czy pani XY jest dobra prawniczka?).

♣ Kontaminacja kryterium

→ tj. możliwe źródło błędu przy walidacji testu, gdy oceny kryterialne zostają „skażone” na skutek tego, że osoba oceniająca zna wyniki testu (Np. przy wystawianiu ocen szkolnych( kryteriów trafności testu) nauczyciel rozstrzyga wątpliwości na korzyść osoby, o której wie, że uzyskała wysoki wynik w teście zdolność).

♣ Miary kryterialne

Można podzielić na kilka ogólnych kategorii:

► Wskaźniki osiągnięć szkolnych: np. oceny szkolne, wyniki w testach osiągnięć, opinie na świadectwie, nagrody, ale i zdobyte wykształcenie(, mimo iż związek pomiędzy zdobytym wykształceniem a uzdolnieniami szkolnymi jest daleki do doskonałości)

/ ten rodzaj kryteriów stosuje się m.in. dla określanie trafności testów inteligencji, pewnych testów osobowości i wielowymiarowych baterii uzdolnień

► Wyniki specjalistycznego kształcenia: np. osiągnięcia na kursach zawodowych, w szkołach muzycznych, plastycznych itp., opinie instruktorów, fakt ukończenia lub też nie szkolenia itp.

W związku z tym można jeszcze wyróżnić ►kryteria pośrednie( np. świadectwo z pewnego etapu szkolenia) i ►ostateczne ( np. osiągnięcia w praktyce lekarskiej)

/ dla określenia trafności testów uzdolnień specjalistycznych

► Późniejsze oceny rzeczywistych osiągnięć w pracy

/ dla określanie trafności testów uzdolnień specjalistycznych, w mniejszym stopniu testów IQ ogólnej czy osobowości

► Grupa kontrastowa

Kryteria wyboru grup takie , które odzwierciedlają skumulowane i niekontrolowane wpływy selekcyjne występujące w codziennym życiu np. cechy społeczne, zainteresowania, postawy

/ dla określenia trafności testów osobowości, zainteresowań

► Diagnoza psychiatryczna

O ile rzetelna.

► Oceny pochodzące od nauczycieli

Pomimo że oceny są podatne na błędy związane z osoba oceniającego, jednak, gdy uzyskuje się je w starannie kontrolowanych warunkach stanowią wartościowe źródło danych kryterialnych

► Testy już dostępne

Jeśli test jest skrócona lub uproszczona odmianą wcześniejszego testu, ten ostatni można traktować jako miarę kryterialną.

Od lat 80/90 coraz więcej uwagi zwraca się na analizę kryterium. Obecnie uznaje się, że najlepszy sposób badania trafności polega na zidentyfikowaniu głównych konstruktów opisujących poziom wykonania danej pracy, a następnie na wybieraniu lub opracowywaniu testów, których wyniki będą pozwalały na ich ocenę→ badanie trafności jako pierwszy etap konstruowania testu.

♠ Metaanalizy

Procedury statystyczne ( metaanaliza) stosowane w pracach dotyczących możliwości generalizowania trafności dostarczają sposobu na integrowanie wyników z różnych badań→ łączenie danych z badań aktualnych i dawniejszych, czy prowadzonych w różnych miejscach czy przedstawionych w różnych publikacjach.

Metaanaliza, w której łączy się publikowane wyniki szeregu badań i jeśli to możliwe waży je biorąc pod uwagę istotne metodologiczne i formalne cechy każdego badania, może prowadzić do ważnych i wiarygodnych rezultatów.
Metaanaliza pozwala na obliczenie rozmiaru wpływów oszacowanie wielkości różnic lub korelacji jest bardziej użyteczne niż zwykłe pokazanie, że są one istotnie większe od zera.

V. Procedury identyfikacji konstruktów.

→ W 1954 roku wprowadzono pojęcie trafności teoretycznej do leksykonu psychometrii.

Zwraca ono uwagę na role teorii psychologicznej w konstruowaniu testów, potrzebę formułowania hipotez, które można potwierdzić lub obalić w procesie walidacji.

Badanie trafności teoretycznej przyczyniło się do powstania nowych sposobów oceny trafności testów.

→ To stopień, w jakim test mierzy konstrukt teoretyczny lub cechę ( np. myślenie techniczne, płynność słowna, lęk)

→ Konstrukty tworzy się, aby wyjaśnić obserwowaną stałość reakcji i nadać jej pewną organizację.

→ Badanie trafności teoretycznej wymaga gromadzenia danych z różnych źródeł.

Techniki identyfikacji konstruktów:

► Zmiany rozwojowe.

Głównym kryterium w badaniach trafności testów inteligencji są różnice związane z wiekiem ( odnośnie pomiaru osobowości to kryterium zmian rozwojowych jest zdecydowanie ograniczone).
Poza tym kryterium to jest koniecznym, ale niewystarczającym kryterium trafności.
Co do interpretacji kryterium wieku, należy pamiętać, że test taki mierzy właściwości wzrastające z wiekiem w warunkach istniejących w środowisku, w którym był (test) standaryzowany, a np. różne kultury mogą pobudzać lub ułatwiać rozwój zupełnie innych zachowań?. Stąd i to kryterium( jak zresztą wszystkie inne) określa kontekst kulturowy, z którego pochodzi.

► Korelacje z innymi testami.

Korelacje umiarkowanie wysokie są dowodem, że dany test mierzy w przybliżeniu to samo, co inny o tej samej nazwie. Zbyt wysoka korelacja może podważyć zasadność jego istnienia( no, bo, po co takie same testy???) Chyba, że byłby on krótsze, prostszy w użyciu itp.
Niskie korelacje z testami, których przedmiot nie ma związku z celem badania( np. testy osobowości nie powinny wysoko korelować z testami, IQ). Jednakże niska korelacja tego typu sama przez się nie gwarantuje trafności.

► Analiza czynnikowa

Jest to sposób identyfikacji cech psychologicznych szczególnie przydatny w badaniach TT.
Prowadzi do ograniczenia liczby zmiennych/kategorii, przy pomocy, których można opisać wyniki każdej jednostki. (Np. zamiast opisać osobę za pomocą wyników 20 testów opisujemy ją za pomocą 6 kategorii wyodrębnionych za pomocą analizy czynnikowej).

Gdy wyodrębnimy czynniki możemy za ich pomocą opisać strukturę czynnikową testu- możemy go scharakteryzować z punktu widzenia głównych czynników determinujących jego wyniki, podając ładunek(wagę) każdego czynnika i jego korelację.
Korelacja testu z czynnikiem → trafność czynnikowa testu (Np., gdy korelacja między czynnikiem rozumienia werbalnego a testem.....= 0,66 To trafność czynnikowa tego testu jako miary rozumienia werbalnego = 0,66.)

► Zgodność wewnętrzna.

Podstawowa cechą metody zgodności wewnętrznej jest to, że jedynym kryterium jest tutaj wynik ogólny.
W tego rodzaju analizach stosuje się np.:

● zmodyfikowana wersja metody grup kontrastowych

◦ wybiera się grupy skrajne na podstawie ogólnego wyniku w teście.

◦ dalej porównuje się odpowiedzi udzielone w danym pytaniu przez osoby z dwóch grup

◦za nietrafne uważa się te pytania, w których proporcja zgodnych z kluczem odpowiedzi nie jest istotnie wyższa w grupie z wysokimi wynikami ogólnymi.

● metody korelacyjne:

Sprawdza się, które pozycje, podtesty korelują istotnie z wynikiem ogólnym
Następnie usuwa się te pytania lub podtesty, które korelują za słabo z wynikiem ogólnym
Zgodność wewnętrzna jest miara jednorodności, której stopień ma pewne znaczenie dla trafności teoretycznej( pozwala scharakteryzować konstrukt, który mierzy dany test), jeśli jednak brak danych zewnętrznych w stosunku do samego testu, to niewiele można się dowiedzieć o tym, co test mierzy.

► Trafność zbieżna i różnicowa.

1. Aby dowieść trafności teoretycznej testu musimy wykazać, że test wysoko koreluje z innymi zmiennymi, z którymi teoretycznie powinien korelować ► trafność zbieżna, ale także ze nie koreluje istotnie ze zmiennymi, z którymi korelować nie powinien ►trafność różnicowa

Trafność różnicowa jest szczególnie ważna dla testów osobowości, gdyż tu zmienne niezwiązane z przedmiotem pomiaru mogą wpływać w różny sposób na wyniki.

Za pomocą ►macierzy wielu cech- wielu metod możemy jednocześnie zmierzyć oba rodzaje trafności. Np. badamy trzy cechy, każdą przy pomocy trzech różnych metod i obliczamy wszelkie możliwe korelacje→ współczynniki trafności to:

→ korelacje wyników tej samej cechy uzyskane za pomocą tych 3 metod, czyli (np. wyniki ekstrawersji uzyskane za pomocą testu, oceny rówieśników i techniki projekcyjnej)- i te współczynniki trafności, powinny być wyższe niż korelacje
→ miedzy różnymi cechami mierzonymi za pomocą różnych metod i korelacje
→ miedzy różnymi cechami mierzonymi za pomocą tej samej metody.

Aby można było mówić o satysfakcjonującej trafności teoretycznej.

► Manipulacje eksperymentalne

Eksperymenty dotyczące wpływu wybranych zmiennych mogą dostarczyć danych na temat trafności teoretycznej. Np.

Jakąś hipotezę dotycząca testu badającego skłonność do lęku można sprawdzić stosując go przed i po doświadczeniu wzbudzający lęk( np. prze i po egzaminie).
Albo pomiędzy pretekstem a posttestem przeprowadzić ćwiczenie, którego rezultaty powinien uchwycić test i sprawdzić czy jest tak rzeczywiście.

► Modelowanie za pomocą równań strukturalnych.

► Wkład psychologii poznawczej.

1. Tradycyjne badanie trafności teoretycznej ogranicza się do jednego z 2 podstawowych aspektów walidacji testu:

Przestrzeni nomotetycznej → bada się zależności wyników testowych z innymi czynnikami istniejącymi w „ nomotetycznej sieci”, korelując wyniki testowe z innymi miarami, takimi jak poziom zachowań kryterialnych i inne dane wzięte z życia.

To tradycyjne podejście jest zbyt ograniczone wg niektórych.

Drugi aspekt to odtworzenie konstrukt→ chodzi o ustalenie, jakie konkretne elementy procesu przetwarzania informacji oraz jakie zasoby wiedzy są niezbędne do wykonania zadań składających się na pozycje testowe.

Taką analizę zadań poznawczych można przeprowadzić m.in. za pomocą eksperymentalnej dekompozycji zadania( np. manipulowanie złożonością) albo poprzez analizę protokołów( „głośne myślenie” podczas rozwiązywania zadań).
Podejście to skupiło naszą uwagę na procesach odpowiadania w przeciwieństwie do tradycyjnego podejścia stosowanego w badaniach psychometrycznych koncentrującego się na końcowych produktach myślenia
Pozwoliło zwiększyć diagnostyczną wartość testów, dokładnie określić, jakie są mocne i słabe strony każdej osoby, dzięki analizie odwołującej się do elementarnych procesów.

VI. Uwagi końcowe i podsumowanie.

Jest kilka sposobów rozumienia trafności ( odpowiedzi na pytanie jak trafny jest test)

Wybór konkretnej procedury oceny trafności zależy od tego, do czego będą wykorzystywane wyniki testu. Np.

Cel badania	Pytanie ilustrujące zastosowanie testu	Sposób określania trafności
Ocena osiągnięć z arytmetyki z zakresu szkoły podstawowej	Jak wiele Jacek nauczył się w przeszłości?	Opis treści
Ocena uzdolnień, aby przewidywać	Jak dobrze Jacek będzie uczył się w przyszłości?	Przewidywanie kryterium po upływie pewnego czasu
Diagnoza trudności w uczeniu się	Czy wyniki Jacka wskazują na jakieś specyficzne trudności?	Przewidywanie kryterium równoczesnego
Pomiar rozumowania ilościowego	Jak wiąże się wynik Jacka równoczesnego innymi wskaźnikami jego zdolności rozumowania?	Identyfikacja konstrukt

Jeżeli ten sam test ma służyć do badani wielu rzeczy trzeba badać wiele rodzajów trafności

Trafność treściowa, kryterialna i teoretyczna nie stanowiła odrębnych ani logicznie równorzędnych kategorii.

Trafność treściowa jest szerokim pojęciem, które zawiera w sobie inne jej rodzaje. Jako sposoby identyfikacji konstruktu ( trafności teoretyczna) można wyróżnić techniki analizy treści( trafność treściowa) oraz zależność miedzy testem a kryterium( trafność kryterialna).

Trafność teoretyczna ma podstawowe znaczenie do interpretowania wyników w przypadku każdego rodzaju zastosowania testu.

Konstrukty mogą różnic się pod względem możliwości generalizacji, czyli stopnia, w jakim można odnosić je do innych dziedzin zachowań.

Messick uzasadnił tezę, że pojęcie „ trafność” należy zarezerwować dla trafności teoretycznej, ponieważ wskazuje ona na możliwości interpretacyjne testu. Zaś inne procedury kojarzone z trafnością określić za pomocą bardziej specyficznych terminów opisowych:

T. treściowa→ odpowiedniość treściowa i kompletność treści
T. kryterialna → użyteczność prognostyczna i diagnostyczna

Badanie trafności w procesie konstruowania testu:

Określenie konkretnej cechy lub sformułowania definicji konstruktu na podstawie teorii psychologicznej, uprzednich badań czy obserwacji
Przygotowanie pozycji testowych, aby odpowiadały definicji konstruktu
Empiryczna analiza pozycji prowadząca do wyboru najbardziej trafnych pozycji z puli
Analizy statystyczne uwzględniające zewnętrzne, z życia wzięte kryteria

Niektórzy postulują włączenie do pojęcia trafności testu konsekwencji testowania dla jednostki i społeczeństwa. Jednak inni uważają, że nie wydaje się to skutecznym sposobem stawienia czoła tej problematyce- nie można ich rozstrzygać odwołując się wyłącznie do danych empirycznych.