Psychometria 2009
Wykład 5
Trafność
• Trafność testu - odnosi się do pytania
o to, co jest mierzone przez test
• APA: Pojęcie trafności dotyczy
poprawności wniosków
wyprowadzanych na podstawie
wyników testowych lub innych form
badania
• Brzeziński (1996): trafność sprowadza
się do dwóch pytań:
– jakie wnioski można wyciągnąć na temat
tego, co jest mierzone przez test
– jakie wnioski można sformułować o
innych (pozatestowych) zachowaniach
• Przykłady narzędzi szczególnie
narażonych na nietrafność:
– pomiar wyznawanych wartości
– pomiar sumienności podczas
kwalifikowania do pracy
– pomiar neurotyczności u kandydatów
na komandosów
• Walidacja = ustalanie trafności
testu
Trzy aspekty trafności
• Trafność kryterialna
– trafność diagnostyczna
– trafność prognostyczna
• Trafność treściowa
• Trafność teoretyczna
Są to nie tyle trzy rodzaje trafności,
co trzy sposoby ustalania trafności.
„O trafności kryterialnej mówimy
wtedy, gdy na podstawie wyników
testowych wnioskuje się o
przypuszczalnej pozycji badanego
względem innej zmiennej – tzw.
kryterium” (Standardy dla testów
stosowanych w psychologii i
pedagogice, APA)
Trafność kryterialna -
diagnostyczna
• Pytanie o to, czy test jest w stanie
określić, czy w danej chwili dana osoba
odznacza się pewnymi właściwościami
• Metoda badania: określanie zgodność
testu z kryterium zewnętrznym
– korelacja wyników testu z inną metodą,
mierzącą to samo, co wyniki w teście
– narzędzie testowe oraz kryterialne
stosowane w tym samym momencie
Trafność kryterialna -
prognostyczna
• pytanie o to, czy wyniki w teście
skutecznie prognozują zachowanie się
jednostki w przyszłości
• Metoda badania: określanie zgodności
testu z rzeczywistym zachowaniem się
jednostki w przyszłości
– korelacja wyników w teście z narzędziem
określającym zachowanie się jednostki
– narzędzie kryterialne stosowane po
określonym czasie od zastosowania
narzędzia testowanego
Narzędzia kryterialne
• Kryteria bezpośrednie i pośrednie
• Problemy z określaniem trafności
kryterialnej:
– kryteria bezpośrednie dostępne są
rzadko, a pośrednie same wymagają
określenia ich trafności (i rzetelności)
– w praktyce psycholodzy określają
trafność zwykle przez skorelowanie
wyników swojego testu z innym testem
mierzącym to samo
Trafność treściowa
(wewnętrzna, logiczna)
• Pytanie o to, czy zachowania obejmowane
przez test są reprezentatywną próbką
wszystkich zachowań ujawniających się w
danej sferze
• „…aby potwierdzić trafność treściową zbioru
wyników otrzymanych w teście, należy
wykazać, że zachowania demonstrowane w
badaniu testowym są reprezentatywną próbką
zachowań ujawniających się w interesującej
badacza sferze” (Stadardy… APA)
• brak jest bezpośredniej empirycznej
metody weryfikowania tego rodzaju
trafności
– pozostają jedynie metody analizy jakościowej
– zgodność sędziów kompetentnych (Lawshe,
1975):
1.pozycja ta ma zasadnicze znaczenie dla testu
2.pozycja ta jest użyteczna, jednak nie ma
zasadniczego znaczenia
3.pozycja ta nie powinna się znaleźć w obrębie
testu
Trafność teoretyczna
• Jakie konstrukty wyjaśniają
wariancję wyników
rozwiązywanego testu (Cronbach i
Meehl, 1955)
• t. teoretyczna jest to stopień, w
jakim test mierzy konstrukt
teoretyczny lub cechę
Trafność teoretyczna
• t. kryterialna - kładzie nacisk na
pragma-tyczną sensowność i
użyteczność testu
• t. treściowa - kładzie nacisk na
"prawomocność" testu i jego
reprezentatywność dla mierzonego
zachowania
• t. teoretyczna - kładzie nacisk na to,
jakie zjawiska psychologiczne
(konstrukty, cechy), decydujące o
określonych zachowaniach,
obejmowane są przez dany test
Metody badania trafności
teoretycznej
• analiza różnic międzygrupowych
• badanie aspektu zbieżnego i
różnicowego
• analiza struktury wewnętrznej testu
• analiza zmian nieprzypadkowych
wyników testu
• analiza procesu rozwiązywania testu
• analiza czynnikowa
Analiza różnic
międzygrupowych
• różne grupy ludzi, skutecznie
zróżnicowane pod względem pewnego
konstruktu, powinny uzyskiwać różne
wyniki w teście
• np. test siły ego:
– osoby o wysokiej sile ego powinny
rzadziej korzystać z psychoterapii niż
osoby o niskiej sile ego
– tym samym, osoby rzadziej korzystające
z psychoterapii powinny uzyskiwać inne
wyniki w teście niż osoby częściej
korzystające z psychoterapii
Badanie aspektu zbieżnego i
różnicowego
• trafny test powinien wyżej korelować z
innymi narzędziami mierzącymi to
samo,
oraz
niżej z innymi narzędziami
mierzącymi co innego
• wysoka korelacja między testami tej
samej cechy świadczy o trafności
zbieżnej (TZ)
• niska korelacja z testami innych cech
świadczy o trafności różnicowej (TR)
• metoda macierzy wielu cech-wielu
metod WCWM) (MTMM):
– co najmniej dwie cechy, każda
mierzona przez co najmniej dwie
metody (zalecane trzy cechy i trzy
metody)
– metody wielowymiarowe określają,
czy interkorelacje między testami
mierzącymi to samo są wyższe niż
między testami mierzącymi co innego
IPSA
Oceny równieśników
IPSA
Mściwość Agr. fiz. Agr. słow. Mściwość Agr. fiz. Agr. słow.
Mściwość
-
Agr. fizyczna
0,55
-
Agr. słowna
0,39
0,42
Oceny równieśników
Mściwość
0,33
0,36
0,05
-
Agr. fizyczna
0,30
0,35
0,00
0,91
-
Agr. słowna
0,32
0,32
0,07
0,86
0,86
-
Campbell i Fiske, 1959
• Współczynniki TZ (kolor czerwony)
powinny być istotnie różne od zera
i na tyle wysokie, by warto było
dalej badać trafność tych testów
• Współczynniki TZ powinny być
wyższe niż współczynniki TR dla
różnych cech – różnych metod
(kolor czarny)
Drwal (1995): „W psychologii nadal
dominują badania nad trafnością
zbieżną i często się zdarza, że twórca
nowego testu jest zadowolony z
każdej istotnej korelacji, jaką może
podać, nie zauważając, że niektóre w
gruncie rzeczy kompromitują
trafność jego testu”
Analiza struktury testu
• Dotyczy zgodności wewnętrznej
Analiza zmian
nieprzypadkowych
wyników testu
• test i retest, ale przedzielone
manipulacją obliczoną na zmianę
wyników testu w określonym
kierunku
• np. skala relaksu - wykonana po
treningu relaksacyjnym
Analiza procesu
rozwiązywania testu
• zastosowanie dodatkowej techniki
(wywiadu, kwestionariusza itp.)
badającego myśli i odczucia osób
badanych podczas rozwiązywania
testu
Analiza czynnikowa
• Test mierzący jedną cechę powinien
ujawnić jeden czynnik, ewentualnie
kilka skorelowanych czynników
• Testy mierzące więcej cech
(kwestionariusze) - każda mierzona
cecha powinna ujawniać się jako
czynnik
Analiza czynnikowa
eksploracyjna vs.
konfirmacyjna
• Eksploracyjna analiza czynnikowa (EFA)
– jest techniką eksploracyjną
– wymaga podjęcia wielu arbitralnych decyzji
– nie nadaje się do weryfikowania hipotez
• Konfirmacyjna analiza czynnikowa (CFA)
– umożliwia weryfikację hipotez (modeli):
• liczba czynników
• treść czynników
• skorelowanie czynników
1. Opinie innych ludzi są dla mnie bardzo ważne.
2. Łatwo ulegam wpływom innych ludzi
3. Horrory wywierają na mnie bardzo silne wrażenie.
4. Kiedy się na czymś koncentruję, jestem tym
bardzo zaabsorbowany(a).
5. Łatwo mogę zapomnieć o wszystkim, kiedy
słucham swojej ulubionej muzyki.
6. Jestem osobą podatną na sugestie.
7. Łatwo przychodzi mi koncentrowanie się na tym,
co robię.
8. Zdarza mi się, że podczas oglądania filmu, sztuki
w teatrze lub w telewizji mogę tak bardzo się w
nią zaangażować, że zapominam o sobie i o tym co
mnie otacza i traktuję tę sztukę tak, jakby to było
rzeczywiste zdarzenie, w którym biorę udział.
9. Łatwo się wzruszam (płaczę) kiedy oglądam
sentymentalne filmy.
Podstawowe informacje w
CFA
• Istotność statystyczna dopasowania
modelu
– test chi-kwadrat
– Wyniki istotne statystycznie świadczą
o NIEDOPASOWANIU modelu
• Parametry ścieżkowe
• Indeksy dopasowania (goodness-of-fit)
• Indeksy modyfikacyjne
I n t e lig e n c ja
w e r b a ln a
I n t e lig e n c ja
n ie w e r b a ln a
S ło w n ik
W ia d o m o ś c i
A r y t m e t y k a
S y m b o le c y f r
P o w t a r z a n ie
c y f r
1
0 , 6 5
0 , 8 9
0 , 9 5
0 , 7 2
1
0 , 2 5
0 , 3 7
0 , 3 1
0 , 1 2
0 , 3 1
Trafność fasadowa
• błędne rozumienie: "test jest trafny, jeśli
wygląda na trafny"
• właściwe rozumienie: "test powinien w
oczach osób badanych wyglądać na
trafny"
• "trafność fasadowa dotyczy sposobu, w
jaki badani reagują na wygląd testu i na
metodę testowania" (Bechtoldt, 1968)
Czy zawsze konieczne jest
badanie trafności?
• Nie.
• „Trafność na mocy założenia”
• Trudno polemizować z trafnością termometru czy
ciśnieniomierza
• W psychologii: : np. w testach pamięci (w testach
inteligencji już ryzykowne)
• Konieczna jednak ostrożność: Mosier (1947):
dwa testy mierzące umiejętność porządkowania
według alfabetu korelowały z sobą na poziomie
0,0, a z kryteriami odpowiednio: 0,09 i 0,00
– mogło to być spowodowane niską rzetelnością, ale jeśli
można wykazać rzetelność wewnętrzną dwóch testów
mierzących to samo, to nie mogą one z sobą korelować
nisko, jeśli oba są rzetelne
• „fizycy nie mówią o ustalaniu
trafności procedury pomiarowej,
tylko o ustalaniu trafności teorii
naukowych” (Frank, 1956)
• Trafność kryterialna
• Trafność treściowa
• Trafność teoretyczna
• Guion (1980): Trynitarna doktryna
trafności
• = „nie może być tak, że jak komuś nie
udało się wykazać trafności na jeden
aspekt, to ma jeszcze dwie szanse”
Różne rodzaje trafności,
aspekty trafności, metody
badania trafności?
Słabości koncepcji
trynitarnej
• trafność teoretyczna jest jednak
nadrzędna; trafność kryterialna to zaledwie
metoda, a treściowa - problem raczej
metodologiczny (Guion, 1980: ustalanie
trafności treściowej to w gruncie rzeczy
procedura poprawnego konstruowania
testu
• W innym ujęciu: trafność kryterialna, a
nawet treściowa, to dwa szczególne
przypadki trafności teoretycznej.
•
Poprawka na tłumienie korelacji: powinna
być stosowana również w wypadku badania
trafności
•
Analizy trafności kryterialnej, podobnie jak
rzetelności, są wrażliwe na „spłaszczenie”
wariancji
– Np. gdyby określać trafność narzędzia mierzącego
nadawanie się do zawodu przedstawiciela
handlowego, to próba będzie spłaszczona, bo
chyba kandydaci pewnego rodzaju ubiegają się o
taką pracę; często zresztą już w tym zawodzie
pracowali.
•
Długość testu a jego trafność - ponieważ im
test jest dłuższy, tym jest rzetelniejszy, a
rzetelność ogranicza trafność, zatem im test
dłuższy, tym bardziej
•
Guilford, 1954: Praca nad kryterium powinna
zajmować tyle czasu, co konstrukcja testu
Przykłady badań trafności
FCZ-KT
• Trafność czynnikowa - analizy
czynnikowe
• Trafność teoretyczna:
– reaktywność emocjonalna zwiększa
wpływ stresorów na psychikę
– pacjenci depresyjni:
• obniżone wyniki w Żwawości,
Wytrzymałości i Aktywności
• podwyższone wyniki w reaktywności
emocjonalnej i perseweratywności
EPQ-R - trafność
teoretyczna
Należało oczekiwać:
• dodatniej korelacji skal P i N ze
schizotypią i Pogranicznymi
Zaburzeniami Osobowości
• dodatniej korelacji skali K z aprobatą
społeczną
• dodatniej korelacji skali P ze skalą
Machiawelizmu
• dodatniej korelacji skali P z twórczością
WAIS-R
przykłady trafności
diagnostycznej
• organiczne uszkodzenie mózgu
(zwłaszcza testy bezsłowne)
• neurotyzm (gorsze wyniki w testach
wymagających natychmiastowego
wysiłku)
• urzędnicy i nauczyciele - lepsi w
testach słownych; robotnicy i
mechanicy - w bezsłownych