Psychometria 2009

Wykład 5

Trafność

• Trafność testu - odnosi się do pytania

o to, co jest mierzone przez test

• APA: Pojęcie trafności dotyczy

poprawności wniosków

wyprowadzanych na podstawie

wyników testowych lub innych form

badania

• Brzeziński (1996): trafność sprowadza

się do dwóch pytań:

– jakie wnioski można wyciągnąć na temat

tego, co jest mierzone przez test

– jakie wnioski można sformułować o

innych (pozatestowych) zachowaniach

• Przykłady narzędzi szczególnie

narażonych na nietrafność:

– pomiar wyznawanych wartości
– pomiar sumienności podczas

kwalifikowania do pracy

– pomiar neurotyczności u kandydatów

na komandosów

• Walidacja = ustalanie trafności

testu

Trzy aspekty trafności

• Trafność kryterialna

– trafność diagnostyczna
– trafność prognostyczna

• Trafność treściowa
• Trafność teoretyczna

Są to nie tyle trzy rodzaje trafności,

co trzy sposoby ustalania trafności.

„O trafności kryterialnej mówimy

wtedy, gdy na podstawie wyników
testowych wnioskuje się o
przypuszczalnej pozycji badanego
względem innej zmiennej – tzw.
kryterium” (Standardy dla testów
stosowanych w psychologii i
pedagogice, APA)

Trafność kryterialna -

diagnostyczna

• Pytanie o to, czy test jest w stanie

określić, czy w danej chwili dana osoba

odznacza się pewnymi właściwościami

• Metoda badania: określanie zgodność

testu z kryterium zewnętrznym

– korelacja wyników testu z inną metodą,

mierzącą to samo, co wyniki w teście

– narzędzie testowe oraz kryterialne

stosowane w tym samym momencie

Trafność kryterialna -

prognostyczna

• pytanie o to, czy wyniki w teście

skutecznie prognozują zachowanie się

jednostki w przyszłości

• Metoda badania: określanie zgodności

testu z rzeczywistym zachowaniem się

jednostki w przyszłości

– korelacja wyników w teście z narzędziem

określającym zachowanie się jednostki

– narzędzie kryterialne stosowane po

określonym czasie od zastosowania

narzędzia testowanego

Narzędzia kryterialne

• Kryteria bezpośrednie i pośrednie
• Problemy z określaniem trafności

kryterialnej:

– kryteria bezpośrednie dostępne są

rzadko, a pośrednie same wymagają

określenia ich trafności (i rzetelności)

– w praktyce psycholodzy określają

trafność zwykle przez skorelowanie

wyników swojego testu z innym testem

mierzącym to samo

Trafność treściowa

(wewnętrzna, logiczna)

• Pytanie o to, czy zachowania obejmowane

przez test są reprezentatywną próbką
wszystkich zachowań ujawniających się w
danej sferze

• „…aby potwierdzić trafność treściową zbioru

wyników otrzymanych w teście, należy
wykazać, że zachowania demonstrowane w
badaniu testowym są reprezentatywną próbką
zachowań ujawniających się w interesującej
badacza sferze” (Stadardy… APA)

• brak jest bezpośredniej empirycznej

metody weryfikowania tego rodzaju

trafności

– pozostają jedynie metody analizy jakościowej
– zgodność sędziów kompetentnych (Lawshe,

1975):

1.pozycja ta ma zasadnicze znaczenie dla testu
2.pozycja ta jest użyteczna, jednak nie ma

zasadniczego znaczenia

3.pozycja ta nie powinna się znaleźć w obrębie

testu

Trafność teoretyczna

• Jakie konstrukty wyjaśniają

wariancję wyników
rozwiązywanego testu (Cronbach i
Meehl, 1955)

• t. teoretyczna jest to stopień, w

jakim test mierzy konstrukt
teoretyczny lub cechę

Trafność teoretyczna

• t. kryterialna - kładzie nacisk na

pragma-tyczną sensowność i

użyteczność testu

• t. treściowa - kładzie nacisk na

"prawomocność" testu i jego

reprezentatywność dla mierzonego

zachowania

• t. teoretyczna - kładzie nacisk na to,

jakie zjawiska psychologiczne

(konstrukty, cechy), decydujące o

określonych zachowaniach,

obejmowane są przez dany test

Metody badania trafności

teoretycznej

• analiza różnic międzygrupowych
• badanie aspektu zbieżnego i

różnicowego

• analiza struktury wewnętrznej testu
• analiza zmian nieprzypadkowych

wyników testu

• analiza procesu rozwiązywania testu
• analiza czynnikowa

Analiza różnic

międzygrupowych

• różne grupy ludzi, skutecznie

zróżnicowane pod względem pewnego

konstruktu, powinny uzyskiwać różne

wyniki w teście

• np. test siły ego:

– osoby o wysokiej sile ego powinny

rzadziej korzystać z psychoterapii niż

osoby o niskiej sile ego

– tym samym, osoby rzadziej korzystające

z psychoterapii powinny uzyskiwać inne

wyniki w teście niż osoby częściej

korzystające z psychoterapii

Badanie aspektu zbieżnego i

różnicowego

• trafny test powinien wyżej korelować z

innymi narzędziami mierzącymi to
samo,

oraz

niżej z innymi narzędziami

mierzącymi co innego

• wysoka korelacja między testami tej

samej cechy świadczy o trafności
zbieżnej (TZ)

• niska korelacja z testami innych cech

świadczy o trafności różnicowej (TR)

• metoda macierzy wielu cech-wielu

metod WCWM) (MTMM):

– co najmniej dwie cechy, każda

mierzona przez co najmniej dwie
metody (zalecane trzy cechy i trzy
metody)

– metody wielowymiarowe określają,

czy interkorelacje między testami
mierzącymi to samo są wyższe niż
między testami mierzącymi co innego

IPSA

Oceny równieśników

IPSA

Mściwość Agr. fiz. Agr. słow. Mściwość Agr. fiz. Agr. słow.

Mściwość

Agr. fizyczna

0,55

Agr. słowna

0,39

0,42

Oceny równieśników

Mściwość

0,33

0,36

0,05

Agr. fizyczna

0,30

0,35

0,00

0,91

Agr. słowna

0,32

0,07

0,86

Campbell i Fiske, 1959

• Współczynniki TZ (kolor czerwony)

powinny być istotnie różne od zera
i na tyle wysokie, by warto było
dalej badać trafność tych testów

• Współczynniki TZ powinny być

wyższe niż współczynniki TR dla
różnych cech – różnych metod
(kolor czarny)

Drwal (1995): „W psychologii nadal
dominują badania nad trafnością
zbieżną i często się zdarza, że twórca
nowego testu jest zadowolony z
każdej istotnej korelacji, jaką może
podać, nie zauważając, że niektóre w
gruncie rzeczy kompromitują
trafność jego testu”

Analiza struktury testu

• Dotyczy zgodności wewnętrznej

Analiza zmian

nieprzypadkowych

wyników testu

• test i retest, ale przedzielone

manipulacją obliczoną na zmianę
wyników testu w określonym
kierunku

• np. skala relaksu - wykonana po

treningu relaksacyjnym

Analiza procesu

rozwiązywania testu

• zastosowanie dodatkowej techniki

(wywiadu, kwestionariusza itp.)
badającego myśli i odczucia osób
badanych podczas rozwiązywania
testu

Analiza czynnikowa

• Test mierzący jedną cechę powinien

ujawnić jeden czynnik, ewentualnie
kilka skorelowanych czynników

• Testy mierzące więcej cech

(kwestionariusze) - każda mierzona
cecha powinna ujawniać się jako
czynnik

Analiza czynnikowa

eksploracyjna vs.

konfirmacyjna

• Eksploracyjna analiza czynnikowa (EFA)

– jest techniką eksploracyjną
– wymaga podjęcia wielu arbitralnych decyzji
– nie nadaje się do weryfikowania hipotez

• Konfirmacyjna analiza czynnikowa (CFA)

– umożliwia weryfikację hipotez (modeli):

• liczba czynników
• treść czynników
• skorelowanie czynników

1. Opinie innych ludzi są dla mnie bardzo ważne.
2. Łatwo ulegam wpływom innych ludzi
3. Horrory wywierają na mnie bardzo silne wrażenie.
4. Kiedy się na czymś koncentruję, jestem tym

bardzo zaabsorbowany(a).

5. Łatwo mogę zapomnieć o wszystkim, kiedy

słucham swojej ulubionej muzyki.

6. Jestem osobą podatną na sugestie.
7. Łatwo przychodzi mi koncentrowanie się na tym,

co robię.

8. Zdarza mi się, że podczas oglądania filmu, sztuki

w teatrze lub w telewizji mogę tak bardzo się w

nią zaangażować, że zapominam o sobie i o tym co

mnie otacza i traktuję tę sztukę tak, jakby to było

rzeczywiste zdarzenie, w którym biorę udział.

9. Łatwo się wzruszam (płaczę) kiedy oglądam

sentymentalne filmy.

Podstawowe informacje w

CFA

• Istotność statystyczna dopasowania

modelu

– test chi-kwadrat

– Wyniki istotne statystycznie świadczą

o NIEDOPASOWANIU modelu

• Parametry ścieżkowe
• Indeksy dopasowania (goodness-of-fit)
• Indeksy modyfikacyjne

I n t e lig e n c ja

w e r b a ln a

I n t e lig e n c ja

n ie w e r b a ln a

S ło w n ik

W ia d o m o ś c i

A r y t m e t y k a

S y m b o le c y f r

P o w t a r z a n ie

c y f r

0 , 6 5

0 , 8 9

0 , 9 5

0 , 7 2

0 , 2 5

0 , 3 7

0 , 3 1

0 , 1 2

0 , 3 1

Trafność fasadowa

• błędne rozumienie: "test jest trafny, jeśli

wygląda na trafny"

• właściwe rozumienie: "test powinien w

oczach osób badanych wyglądać na
trafny"

• "trafność fasadowa dotyczy sposobu, w

jaki badani reagują na wygląd testu i na
metodę testowania" (Bechtoldt, 1968)

Czy zawsze konieczne jest

badanie trafności?

• Nie.
• „Trafność na mocy założenia”
• Trudno polemizować z trafnością termometru czy

ciśnieniomierza

• W psychologii: : np. w testach pamięci (w testach

inteligencji już ryzykowne)

• Konieczna jednak ostrożność: Mosier (1947):

dwa testy mierzące umiejętność porządkowania

według alfabetu korelowały z sobą na poziomie

0,0, a z kryteriami odpowiednio: 0,09 i 0,00

– mogło to być spowodowane niską rzetelnością, ale jeśli

można wykazać rzetelność wewnętrzną dwóch testów

mierzących to samo, to nie mogą one z sobą korelować

nisko, jeśli oba są rzetelne

• „fizycy nie mówią o ustalaniu

trafności procedury pomiarowej,
tylko o ustalaniu trafności teorii
naukowych” (Frank, 1956)

• Trafność kryterialna
• Trafność treściowa
• Trafność teoretyczna
• Guion (1980): Trynitarna doktryna

trafności

• = „nie może być tak, że jak komuś nie

udało się wykazać trafności na jeden
aspekt, to ma jeszcze dwie szanse”

Różne rodzaje trafności,

aspekty trafności, metody

badania trafności?

Słabości koncepcji

trynitarnej

• trafność teoretyczna jest jednak

nadrzędna; trafność kryterialna to zaledwie
metoda, a treściowa - problem raczej
metodologiczny (Guion, 1980: ustalanie
trafności treściowej to w gruncie rzeczy
procedura poprawnego konstruowania
testu

• W innym ujęciu: trafność kryterialna, a

nawet treściowa, to dwa szczególne
przypadki trafności teoretycznej.

•

Poprawka na tłumienie korelacji: powinna

być stosowana również w wypadku badania

trafności

•

Analizy trafności kryterialnej, podobnie jak

rzetelności, są wrażliwe na „spłaszczenie”

wariancji

– Np. gdyby określać trafność narzędzia mierzącego

nadawanie się do zawodu przedstawiciela

handlowego, to próba będzie spłaszczona, bo

chyba kandydaci pewnego rodzaju ubiegają się o

taką pracę; często zresztą już w tym zawodzie

pracowali.

•

Długość testu a jego trafność - ponieważ im

test jest dłuższy, tym jest rzetelniejszy, a

rzetelność ogranicza trafność, zatem im test

dłuższy, tym bardziej

•

Guilford, 1954: Praca nad kryterium powinna

zajmować tyle czasu, co konstrukcja testu

Przykłady badań trafności

FCZ-KT

• Trafność czynnikowa - analizy

czynnikowe

• Trafność teoretyczna:

– reaktywność emocjonalna zwiększa

wpływ stresorów na psychikę

– pacjenci depresyjni:

• obniżone wyniki w Żwawości,

Wytrzymałości i Aktywności

• podwyższone wyniki w reaktywności

emocjonalnej i perseweratywności

EPQ-R - trafność

teoretyczna

Należało oczekiwać:
• dodatniej korelacji skal P i N ze

schizotypią i Pogranicznymi

Zaburzeniami Osobowości

• dodatniej korelacji skali K z aprobatą

społeczną

• dodatniej korelacji skali P ze skalą

Machiawelizmu

• dodatniej korelacji skali P z twórczością

WAIS-R

przykłady trafności

diagnostycznej

• organiczne uszkodzenie mózgu

(zwłaszcza testy bezsłowne)

• neurotyzm (gorsze wyniki w testach

wymagających natychmiastowego
wysiłku)

• urzędnicy i nauczyciele - lepsi w

testach słownych; robotnicy i
mechanicy - w bezsłownych

Document Outline

Slide 1
Slide 2
Slide 3
Slide 4
Slide 5
Slide 6
Slide 7
Slide 8
Slide 9
Slide 10
Slide 11
Slide 12
Slide 13
Slide 14
Slide 15
Slide 16
Slide 17
Slide 18
Slide 19
Slide 20
Slide 21
Slide 22
Slide 23
Slide 24
Slide 25
Slide 26
Slide 27
Slide 28
Slide 29
Slide 30
Slide 31
Slide 32
Slide 33
Slide 34
Slide 35
Slide 36
Slide 37
Slide 38

Psychometria 2009, Wykład 5, Trafność

Document Outline