Psychometria, metoda
testów
Psychometria, metoda
testów
Trafność testu
Trafność testu
Trafność testu
Poprzez trafność rozumie się zazwyczaj:
stopień, w jakim test mierzy cechę, którą ma
mierzyć;
stopień dokładności przewidywania określonych
kryteriów zewnętrznych – możliwość opisu
zachowań pozatestowych na podstawie badania
testem.
Druga z wymienionych formuł określających trafność jest
ważniejsza. Nadto, tak rozumiana trafność jest najważniejszą
własnością testu
z punktu widzenia psychologa. Celem niemal wszystkich
diagnoz jest opis lub przewidywanie funkcjonowania osoby
badanej w „realnym życiu”. Zatem informacja o trafności
określa nie tylko status
– „dobroć” pomiarową – narzędzia, ale także stanowi
wskazówki interpretacyjne dla diagnosty.
„Święta Trójca” (czwórca – ?)
trafności
„Święta Trójca” (czwórca – ?)
trafności
W podręcznikach psychometrii wymienia się
zazwyczaj trzy rodzaje trafności:
teoretyczną (ang. construct),
kryterialną,
–
diagnostyczną,
–
prognostyczną,
treściową (wewnętrzną).
Wymieniana niekiedy jest także pseudo-trafność:
fasadowa.
Pamiętać należy o tym, iż są to przede
wszystkim aspekty trafności, którym
odpowiadają techniki walidowania testów.
Trafność a rzetelność
pomiaru
Trafność a rzetelność
pomiaru
rzetelność jest podstawą – warunkiem
koniecznym trafności
rzetelność stanowi górną granicę
trafności
– jest niemożliwe, aby trafność była
większa od rzetelności; testy o dużej
trafności pomiaru są zarazem bardzo
rzetelne (jednak ta zależność
nie jest odwrotna)
Trafność treściowa
Trafność treściowa
–
zakres, w jakim pozycje testowe reprezentują
uniwersum pozycji testowych (czy też zachowań
związanych z cechą); stopień w jakim pozycje
testowe stanowią reprezentatywną próbkę zachowań
–
nie może być mierzona, sprowadza się do oceny – czy
wskaźniki spełniają kryteria definicyjne cech
–
pozycje o dużej trafności treściowej charakteryzuje dobra
charakterystyka psychometryczna – są one osiowymi
wskaźnikami danej cechy
–
trafność treściowa jest koniecznym, choć niewystarczającym
warunkiem innych rodzajów trafności
–
większość podręczników utożsamia trafność treściową i
trafność wewnętrzną, ten drugi rodzaj trafności może być
jednak rozumiany bardziej ogólnie – jako stopień w jakim
postać narzędzia odpowiada koncepcji założonej przez
konstruktora testu
Przykład - analiza trafności treściowej
skali ekstrawersji z kwestionariusza EPQ-
RS (1)
Przykład - analiza trafności treściowej
skali ekstrawersji z kwestionariusza EPQ-
RS (1)
Według definicji zawartej w podręczniku do kwestionariusza EPQ-R
ekstrawertyk jest towarzyski, ma wielu przyjaciół, odczuwa potrzebę
rozmowy z innymi, nie lubi samotności. Ogólnie uważa się go za
jednostkę impulsywną i działającą bez zastanowienia. Lubi zajmować
się działalnością praktyczną. Introwertyk woli czytać książki niż
przebywać w towarzystwie, jest powściągliwy, bardzo wymagający w
doborze przyjaciół, nie jest impulsywny, lubi wieść uporządkowany
tryb życia.
Strelau (1998) podkreśla, że Eysenck nie podaje typowych definicji
wymiarów osobowości, opisując je w kategoriach korelacji z cechami
źródłowymi. Ekstrawersja jest cechą nadrzędną dla takich cech jak:
towarzyskość, aktywność, dominacja,
towarzyskość, aktywność, dominacja,
poszukiwanie doznań, beztroska, wybuchowość,
poszukiwanie doznań, beztroska, wybuchowość,
śmiałość, asertywność, żywość
śmiałość, asertywność, żywość
Przykład - analiza trafności treściowej
skali ekstrawersji z kwestionariusza EPQ-RS
(2)
Przykład - analiza trafności treściowej
skali ekstrawersji z kwestionariusza EPQ-RS
(2)
1.
Czy jesteś osobą rozmowną?
2.
Czy masz żywe usposobienie?
3.
Czy masz wielu przyjaciół?
4.
Czy lubisz robić rzeczy wymagające szybkiego działania?
5.
Czy zwykle przejawiasz inicjatywę przy zawieraniu nowych
znajomości?
6.
Czy łatwo Ci rozkręcić towarzystwo na nudnym przyjęciu?
7.
Czy w towarzystwie masz skłonność do trzymania się na uboczu? (*)
8.
Czy lubisz przebywać wśród ludzi?
9.
Czy przeważnie milczysz w towarzystwie innych ludzi? (*)
10.
Czy lubisz jak wokół Ciebie jest dużo ruchu i ciągle coś się dzieje?
11.
Czy ludzie uważają Cię za osobę o bardzo żywym usposobieniu?
12.
Czy potrafisz rozkręcić zabawę na przyjęciu?
Trafność fasadowa
Trafność fasadowa
–
dotyczy wyglądu testu – wrażenia, jakie wywiera na
osobach badanych, odnoszącego się do przeznaczenia
testu
–
kwestionariusze, które charakteryzuje wysoka trafność
fasadowa, są szczególnie podatne na zniekształcenia
–
ze względu na ten efekt w przypadku niektórych testów,
szczególnie z obszaru psychologii klinicznej, cel badania
bywa maskowany np. poprzez odpowiednią manipulację
nazwą (tytułem) kwestionariusza
–
z drugiej strony, budząca zaufanie postać testu może
pełnić istotną rolę w budowaniu pozytywnego stosunku
osoby badanej do sytuacji, w której stosowany jest test,
jak i do diagnozy oraz osoby psychologa
Przykład - trafność fasadowa (1)
Przykład - trafność fasadowa (1)
Przykład - trafność fasadowa (2)
Przykład - trafność fasadowa (2)
Trafność kryterialna (1)
Trafność kryterialna (1)
–
stopień w jakim test koreluje z określonym
kryterium zewnętrznym
–
określenie zewnętrznego kryterium i jego własności jest
kluczową i trudną kwestią w badaniach trafności
kryterialnej
–
standardowe postępowanie zakłada prowadzenie badań
zgodnie
z taką procedurą, która pozwala na określenie rzetelności
kryterium, np. w przypadku diagnoz klinicznych
–
właściwymi technikami analizy danych w badaniach
trafności kryterialnej są techniki korelacyjne
–
w przypadku zastosowania baterii testów do predykcji
kryterium, dobrą strategią jest użycie analizy regresji, lub
analizy dyskryminacyjnej – w celu opracownia baterii
testów o wysokiej trafności i niskiej redundancji
pomiarowej
Trafność kryterialna (2)
Trafność kryterialna (2)
–
trafność diagnostyczna odnosi się do stopnia, w jakim
wyniki testowe pozwalają na ocenę kryterium, przy
założeniu, że występują one w tym samym czasie
–
trafność prognostyczna odnosi się natomiast do stopnia,
w jakim wyniki testu umożliwiają przewidywanie
kryterium, które występować będzie znacznie później
–
trafność diagnostyczna jest warunkiem koniecznym,
ale nie wystarczającym trafności prognostycznej - testy
prognostyczne muszą diagnozować, ale diagnozowanie
nie gwarantuje prognozowania
Trafność kryterialna (3)
Trafność kryterialna (3)
–
ocena współczynników trafności kryterialnej może być
korygowana ze względu na nierzetelność kryterium,
możliwa jest też korekta obliczana ze względu na
nierzetelność testu
oraz nierzetelność kryterium
–
w przypadku estymacji wyników kryterium na podstawie
testu, stosowanej w celu selekcji osób badanych, pamiętać
należy
o estymacji przedziału ufności uwzględniającego
standardowy błąd estymacji kryterium
–
trafność kryterialna nie jest własnością stałą, będzie
zmieniać się w wyniku ograniczania zmienności kryterium,
lub zmienności między osobami badanymi testem
–
ponieważ wartość współczynnika trafności kryterialnej
może być także efektem czynników losowych, ważne jest
stosowanie tzw. walidacji krzyżowej
Przykład (1)
Przykład (1)
Korelacja między aktywnością (skala z FCZ-KT
Zawadzkiego i Strelaua) a formą spędzania urlopu
(aktywnie lub nie)
– obliczona dla ogółu osób badanych
(N=1474)
0,32**
– obliczona dla osób o wysokiej aktywności
(N=303, kryterium - co najmniej
podwyższony wynik na skali aktywności)
0,17*
Przykład (2)
Przykład (2)
Korelacje między skalami kwestionariusza EPQ-R
Eysencka a przeciętną ilością wypijanych
filiżanek kawy, uzyskane na próbach z dwu
regionów Polski
N E
P
L
katowickie
(N=517)
0,02 0,11 0,03 0,01
łódzkie (N=480)
0,01 0,21* 0,09 0,04
Przykład (3a)
Przykład (3a)
Predykcja zaburzeń zdrowia psychicznego za pomocą
kwestionariuszy CISS i FCZ-KT.
Równanie regresji oparte na danych z subpopulacji (Śląsk):
predyktor_1 = 0,78wrs - 0,71rem + 0,45akt + 0.39copza
- 1.27copemo + 0.33copun + 173.23
Równanie regresji oparte na danych z próby ogólnopolskiej:
predyktor_2 = 0.51wrs - 1.02rem + 0.38copza - 1.18copemo
+ 0.96coptow + 177.91
Przykład (3b)
Przykład (3b)
Korelacje między wskaźnikiem zaburzeń zdrowia
psychicznego a predyktorami opartymi na równaniach
regresji.
Próba ogólnopolska:
Predyktor 1
Predyktor 2
R=0,59**R=0,62** N=1596
Korelacje dla tych samych predyktorów
w próbie osób z wyższym wykształceniem
R=0,65**R=0,70** N=187
Poprawka na
nierzetelność
Poprawka na
nierzetelność
Możliwe jest obliczanie współczynników trafności,
których wartość będzie skorygowana ze względu na
nierzetelność za równo testu, jak i zewnętrznego
kryterium. Estymowana ocena związku między
zmiennymi będzie odpowiadać takiej wartości
korelacji – jaką uzyskalibyśmy stosując dokonale
rzetelny test i doskonale rzetelne kryterium.
W tym celu posługujemy się wzorem:
r
TG
- estymowany współczynnik korelacji między
wynikami prawdziwymi zmiennych t i g; r
tg
- otrzymany
współczynnik między zmiennymi; r
tt
- rzetelnośc testu t,
r
gg
- rzetelność kryterium g.
r
r
r r
TG
tg
tt gg
/
Trafność teoretyczna
Trafność teoretyczna
trafność teoretyczna to taki rodzaj trafności, który
świadczy o zgodności zmiennej mierzonej przez test
z konstruktem teoretycznym
oznacza to identyfikację „treści psychologicznej”
mierzonej przez test
w odróżnieniu od trafności kryterialnej, istotą
trafności teoretycznej jest możliwość
przewidywania kryteriów psychologicznych, a nie
kryteriów „pozatestowych”
w praktyce ocena trafności teoretycznej polega na
prowadzeniu badań, w których weryfikowane są
twierdzenia teoretyczne, w sytuacji skrajnej badania
takie mogą prowadzić nawet do modyfikacji teorii
Metody badania trafności
teoretycznej
Metody badania trafności
teoretycznej
analiza związków między
konstruktem
a zachowaniem
analiza macierzy korelacji
Analiza związku między konstruktem a
zachowaniem (1)
Analiza związku między konstruktem a
zachowaniem (1)
–
metoda badania zmian nieprzypadkowych:
– odwołuje się do dwukrotnego pomiaru
– jest pseudo-eksperymentalna, między pomiarami
następuje manipulacja, która prowadzić ma do
uzasadnionych zmian w wynikach testu
–
metoda badania procesu rozwiązywania testu:
– w metodzie tej sprawdzany jest sposób w jaki test jest
rozwiązywany, np. czy angażowane są takie procesy
poznawcze, które wiążą się określonym typem zdolności
– możliwe jest stosowanie „wariantów” zadań testowych
w celu precyzyjnej analizy procesu rozwiązywania zadań
Analiza związku między konstruktem a
zachowaniem (2)
Analiza związku między konstruktem a
zachowaniem (2)
–
metoda sprawdzania różnic międzygrupowych:
– weryfikuje hipotezę teoretyczną o zróżnicowaniu grup
– najczęściej skrajnych, kontrastowych – w zakresie
mierzonej zmiennej lub zmiennych
– grupy mogą być dobierane ze względu na kryteria
demograficzne
lub psychologiczne
– możliwa jest analiza różnic międzygrupowych
w sytuacjach eksperymentalnych
Analiza macierzy korelacji
Analiza macierzy korelacji
–
metoda badania wewnętrznej struktury testu:
– w najprostszym przypadku testowane są związki między skalami
w teście, lub podskalami a skalą ogólną
– niekiedy badana jest tzw. trafność czynnikowa oparta na analizie
czynnikowej
–
metoda analizy korelacji testu walidowanego i innych
testów:
– w uproszczonej formie polega na analizie korelacji walidowanego
testu z grupą narzędzi mierzących tę samą zmienną i/lub korelacji z
innymi kryteriami
– w postaci bardziej zaawansowanej odwołuje się do analizy
czynnikowej prowadzonej na skalach zestawu narzędzi
diagnostycznych
–
metoda wielu cech - wielu metod Campbella i Fiskego
Przykład (4a)
Przykład (4a)
Przykład (4b)
Przykład (4b)
USA
POLSKA
1: A, F, H, N, Q2
I: A, F, H, N, Q2
2: C, L, O, Q4 II: C, L, O, Q4
3: A, I, M, Q1 III: M, Q1
4: E, H, L, Q1 IV: I, E, O, C
5: F, G, M, Q3 V: G, Q3
Czynniki 1 i 2: bez zmian. Czynnik 3 i 5: następuje
"zawężenie" czynnika wobec danych opisujacych
oryginalne rozwiązanie. Czynnik 4: inna
konfiguracja, niezależność w adaptacji jest
„uwikłana” emocjonalnie.
Przykład (5)
Przykład (5)
Metoda „wielu cech – wielu metod”
Campbella i Fiskego
Metoda „wielu cech – wielu metod”
Campbella i Fiskego
–
najbardziej zaawansowana formalnie technika analizy
macierzy korelacji, możliwe jest jednak stosowanie
„uproszczonej formy” tego paradygmatu
–
odwołuje się do pomiaru co najmniej dwu lub więcej
niezależnych cech za pomocą dwu niezależnych metod
–
aby dany test uznać za trafny należy wykazać zarówno
trafność zbieżną (konwergentną), jak i trafność
różnicową (dyksryminatywną)
Skala ma korelować z innym pomiarem podobnej zmiennej
(aspekt konwergentny), ale nie powinna korelować z miarami
innych zmiennych i innymi skalami wewnątrz tej samej metody
(aspekt dyskryminatywny).
Przykład (6)
Przykład (6)
Korelacje między kwestionariuszami FCZ-KT i NEO-FFI
jako dane pozwalające na ocenę trafności dwu skal
zgodne z paradygmatem Campbella i Fiskego.
NEU EKS OTW UGD SUM
Żwawość
-0,39* 0,28* 0,11
0,11
0,32
Perseweratywność
0,49* -0,06 0,09
0,09
0,06
Wrażliwość sensoryczna
-0,08 0,08 0,30* 0,30* 0,12
Reaktywność emocjonalna
0,64** -0,29* -0,13 -0,02 -0,15
Wytrzymałość
-0,44* 0,24* 0,10
0,07 0,20*
Aktywność
-0,20* 0,63** 0,25* -0,19* -0,02
Kilka ważnych stwierdzeń
Kilka ważnych stwierdzeń
trzy (a nawet cztery) odmiany trafności są aspektami
trafności wzajemnie zależnymi
wymóg trafności dotyczy przede wszystkim możliwości
interpretacyjnych zastosowania narzędzia –
diagnozowania zazwyczaj w kontekście teorii
psychologicznej
ważnym jest, aby test był walidowany wieloma
metodami sprawdzającymi różne aspekty trafności
współczynniki trafności – podobnie jak współczynniki
rzetelności – nie są cechą narzędzia, są własnością
pomiaru testem realizowanego na konkretnej grupie
osób badanych