Klasyczna teoria testu
Whatever exists, exists in some
amount."
E. L. Thorndike.
Założenia klasycznej teorii testu
(Gulliksen, 1950)
• do psychologii można zaadaptować model pomiaru
pochodzący z fizyki
• podobnie jak każdy obiekt fizyczny ma określone
wartości swoich cech fizycznych, niezależne od aktu
pomiaru i natury narzędzia badawczego, tak każdy
człowiek ma nieznane prawdziwe wartości cech
psychologicznych
• podczas pomiaru obserwujemy wartości prawdziwe
mierzonej cechy, zakłócone błędem równym różnicy
miedzy obserwowaną wartością wyniku pomiaru a
nieobserwowalną wartością prawdziwą mierzonej
cechy
Rzetelność
• Klasyczna teoria testu (Gulliksen, 1950)
– „psychometryczne opracowanie
problemu rzetelności i błędu pomiaru”
• Rzetelność jest miarą dokładności
pomiaru
X
t
= X
+ X
e
,
gdzie:
X
t
: wynik otrzymany
X
: wynik prawdziwy
X
e
: składnik błędu
2
2
e
tt
s
s
r
gdzie:
r
tt
- rzetelność
s
2
- wariancja wyników
prawdziwych
s
2
e
- wariancja wyników
otrzymanych
var
t
= var
+ var
e
Wynik prawdziwy
(Gulliksen, 1950)
• Wynik prawdziwy to granica, do
jakiej zmierza przeciętna wyników
i-tej osoby w danej liczbie testów
równoległych, jeśli ta liczba
wzrasta nieograniczenie
Wynik prawdziwy
(Guilford, 1954)
• średnia z nieskończenie wielu
badań tym samym testem
• wynik danej osoby otrzymany w
idealnych warunkach idealnym
narzędziem pomiarowym
Składnik błędu (Guilford,
1954)
• różnica między wynikiem
prawdziwym a wynikiem
otrzymanym
• wartość dodatnia lub ujemna
będąca funkcją warunków
testowania konkretnej osoby w
konkretnym badaniu
Założenia klasycznej teorii
testów
• Średnia arytmetyczna błędów
wynosi zero
• Korelacja wyniku prawdziwego i
składnika błędu jest zerowa
• Korelacja składników błędu dwóch
testów równoległych (czyli dwóch
kolejnych pomiarów) jest zerowa
• Błedy systematyczne
(skorelowane)
• Błedy losowe (nieskorelowane)
– Klasyczna teoria testu i wskaźniki
rzetelności dotyczą wyłącznie błędów
losowych
Szacowanie składnika
błędu
• Z założenia o istnieniu wyniku prawdziwego,
niezależnego od aktu pomiaru, oraz z
założenia o losowości błędów, wynika, że:
– idealne narzędzie badawcze powinno w dwóch
kolejnych pomiarach przynieść takie same wyniki
– różnice między wynikami dwóch kolejnych
pomiarów są odbiciem błędów pomiaru i mogą
służyć do jego szacowania
– (podobnie zachowają się wersje idealnie
równoległe)
• Rzetelność jest zatem równa teoretycznej
wartości współczynnika korelacji w dwóch
kolejnych badaniach (twierdzenie przydatne
empirycznie)
• Rzetelność jest też równa kwadratowi
korelacji między wynikiem prawdziwym a
wynikiem otrzymanym (twierdzenie mniej
przydatne empirycznie)
• Najprościej mówiąc, test rzetelny to taki,
którego wyniki korelują wysoko z sobą przy
powtórzeniu badania
Długość testu a jego
rzetelność
• Im dłuższy test (im więcej pozycji
zawiera) tym jest rzetelniejszy, to jest,
tym mniejszym jest obciążony błędem
• Im więcej składowych znajduje się w
teście, tym bliższy jest on wynikowi
prawdziwemu na mocy definicji
stwierdzającej, że wynik prawdziwy to
średnia z nieskończenie wielu testów
równoległych
• Rzetelność a wskaźniki rzetelności
• Bezpośrednie badanie rzetelności:
– kalibracja
– seria pomiarów
(w psychologii ani jedno, ani drugie nie jest
możliwe)
• Pośrednie badanie rzetelności:
wskaźniki rzetelności
• Rzetelność odnosi się do:
– stabilności
– równoważności
– spójności
wyników testowych.
Metody empirycznej
estymacji rzetelności
• wskaźnik rzetelności retestowej
(stabilność)
• formy równoległe (równoważność)
• wskaźnik rzetelności
międzypołówkowej (spójność)
• wskaźnik rzetelności wewnętrznej
(spójność)
• ocena sędziów kompetentnych
Krytyka aksjomatyki
Gulliksena
• Thorndike (1964): ponieważ wyniki
prawdziwe nie są mierzalne bezpośrednio,
są one mitem i nie mogą mieć znaczenia
teoretycznego
– przyjęcie tego poglądu odrzucałoby całą
statystykę inferencyjną, która dotyczy głównie
szacowania nieobserwowalnych parametrów
– wyniki prawdziwe nie są mierzalne
bezpośrednio, ale są szacowalne, z błędem nie
wykluczającym teoretycznej ani praktycznej
użyteczności
Krytyka aksjomatyki
Gulliksena
• Poważniejszy zarzut (Lord i Novick,
1968): nieweryfikowalność założenia
o losowości błędu pomiaru, czyli
postulatu, że średni błąd wynosi
zero. Stopień prawdziwości tego
założenia nie jest szacowalny (w
przeciwieństwie do
nieobserwowalnych parametrów)
Nowsza wersja klasycznej
teorii testu (Lord i Novick,
1968)
• Wynik prawdziwy definiowany nie jako
wartość absolutna, tylko oczekiwana z
pewnego rozkładu normalnego
wyników testowych
• Defiincja błędu pomiaru oparta na
pojęciu średnia wartość odchyleń od
średniej
• Podejście Lorda i Novicka nie
absolutyzuje wyniku prawdziwego i
składnika błędu, ale pozwala zachować
zasadnicze zręby teorii Gulliksena
• Najnowsze ujęcie teorii testu:
Teoria odpowiedzi na pytania
testowe (Item Response Theory,
IRT)
Rzetelność – właściwość
testu
czy zbioru wyników?
• Rzetelność jest właściwością zbioru
wyników uzyskanego na konkretnej
populacji, a nie testu
• Stwierdzenie: „rzetelność testu X
wynosi 0,87” jest skrótem myślowym
• Oszacowanie rzetelności testu może
się różnić w różnych populacjach, np.
IQ szacowane w próbie pobranej z
populacji generalnej i z populacji
studentów
Wskaźnik rzetelności
retestowej
• dwa rodzaje
– wiarygodność testu (rzadko stosowany)
– stabilność bezwzględna (stosowany)
• spotykane odstępy: od 1 tygodnia do
6 miesięcy
– wyjątkowo dziesiątki lat (kiedy badana
jest nie tyle stabilność testu, co raczej
mierzonej przez niego cechy)
Obliczanie wskaźnika
rzetelności retestowej
• Współczynnik korelacji liniowej r-
Pearsona
Problemy ze wskaźnikiem
rzetelności retestowej
• pamięć poprzedniego badania
• uczenie się, wprawa
• wyobrażenia badanych na temat
celu powtórzenia badania
Zalecenie APA: "nie wolno ograniczać
się do stosowania wskaźników
retestowych"
Formy równoległe -
wymogi
• równość średnich
• równość odchyleń standardowych
• równość interkorelacji pozycji
• równość korelacji z kryterium
zewnętrznym
Obliczanie rzetelności
form równoległych
• Współczynnik korelacji liniowej r-
Pearsona
• Formy równoległe jako wskaźnik:
– Stabilności bezwględnej
– Wiarygodności
• Rzetelność szacowana metodą form
równoległych daje zwykle
oszacowania najniższe z możliwych
Wskaźnik rzetelności
międzypołówkowej
• korelacja między połówkami testu,
zazwyczaj pozycjami parzystymi i
nieparzystymi
• bywa zaliczany do wskaźników
rzetelności wewnętrznej
Obliczanie rzetelności
międzypołówkowej –
korekta Spearmana-Browna
hh
hh
tt
r
r
r
1
2
gdzie:
r
tt
- rzetelność skorygowana
r
hh
- korelacja między połówkami
Wskaźnik rzetelności
wewnętrznej
(zgodności wewnętrznej)
• "j.t. miara tego, w jakim stopniu test
jest czystą miarą mierzonej zmiennej i
w jakim stopniu odpowiedzi na
poszczególne pytania mierzą to samo
co wynik w całym teście”
(Choynowski, 1971)
Zgodność wewnętrzna jest tym wyższa,
im:
• wyższe są korelacje między pozycjami
testu
• wyższa jest wariancja pozycji testu
• mniejsze są różnice w trudności
poszczególnych zadań
• większa jest liczba pozycji w teście
• Wzory Kudera-Richardsona:
format pozycji dychotomiczny
• Alfa Cronbacha: dowolny format
odpowiedzi
Alfa Cronbacha - najpopularniejszy
obecnie wskaźnik rzetelności
Obliczanie alfy Cronbacha
gdzie:
SD
t
: wariancja całego testu
SD
i
: wariancja i-tej pozycji
2
1
2
2
)
(
1
t
SD
SD
SD
n
n
r
n
i
i
t
tt
Zgodność sędziów
kompetentnych
• stosowana w wypadku procedur,
które wymagają subiektywnej
oceny
• W Kendalla – „korelacja” między
więcej niż dwiema zmiennymi
(sędziami)
Testy szybkości a
wskaźniki rzetelności
W wypadku testów szybkości:
• wykluczone są:
– wskaźniki rz. międzypołówkowej
– wskaźniki rz. wewnętrznej
• dopuszczalne: wskaźniki retestowe i
formy równoległe
Interpretacja wskaźników
rzetelności
• przyjmują wartości z przedziału od 0 do
1
• reprezentują estymowaną proporcję
składnika prawdziwego i składnika błedu
– np. 0,85 - 85% udziału wyniku prawdziwego;
15% - składnika błędu
• UWAGA - korelację retestową oraz
międzypołówkową należy podnieść do
kwadratu w celu uzyskania tej proporcji
Pożądane wartości
współczynników
rzetelności
• Wymogi wobec rzetelności są wyższe w
wypadku badań indywidualnych (pożądane
0,90) niż eksperymentów grupowych
• Orientacyjna interpretacja:
– 0,90 i więcej - rzetelność znakomita (w
psychologii raczej rzadko spotykana)
– 0,80-0,90 - rzetelność dobra (często spotykana
w psychologii
– poniżej 0,50 - rzetelność nie do zaakceptowania
Przykłady rzetelności
testów
(Alfa Cronbacha)
• FCZ-KT (Strelau, 1995)
– od 0,77 (Żwawość) do 0,85
(Wytrzymałość)
• EPQ-R (Brzozowski i Drwal, 1995)
– Neurotyzm: 0,84
– Ekstra-introwersja: 0,83
– Psychotyzm: 0,67
– Skala kłamstwa: 0,75
• WAIS-R (Brzeziński i Hornowska,
1993)
– od 0,68 (Układanki) do 0,96
(Słownik)
• NEO-FFI (Zawadzki i in., 1995)
– Ekstrawersja: 0,74-0,84
– Neurotyczność: 0,77-0,83
– Sumienność: 0,76-0,84
– Otwartość: 0,59-0,70
– Ugodowość: 0,57-0,73
Błąd standardowy
pomiaru (SEM)
• ponieważ testy zawierają błąd,
użyteczne jest obliczanie zakresu, w
jakim mieści się wynik prawdziwy
• służy do tego SEM
tt
t
r
SD
SEM
1
• SEM j.t. odchylenie standardowe
różnic między wynikiem
prawdziwym a uzyskanym
• gdyby u kogoś powtórzyć pomiar
100 razy, to uzyskana średnia
byłaby oszacowaniem wyniku
prawdziwego, a odchylenie
standardowe uzyskanego rozkładu
- błędem standardowym pomiaru
Przedział ufności (95%)
X
p
<X
t
- 1,96 (SEM); X
t
+ 1,96
(SEM)>
• Współczynniki rzetelności, jak
wszystkie miary oparte na
korelacji, są wrażliwe na wielkość
wariancji w próbie
• Mogą być generalizowane tylko na
tę populację, z której pobrano
próbę
YIELD1 vs. YIELD2
Wsp. korelacji = ,74
YIELD1
Y
IE
LD
2
-2
0
2
4
6
8
10
12
14
-2
0
2
4
6
8
10
12
14
Analiza pozycji testowych
• Moc dyskryminacyjna pytania
• Alfa przy wykluczeniu pozycji
• Skorygowany współczynnik
korelacji item-skala (SKIS)
Moc dyskryminacyjna
• = zdolność do różnicowania
populacji pod względem danej
cechy
• mierzona jako skorygowana
korelacja między pozycją a
wynikiem ogólnym
– SKIS - skorygowana korelacja item-
skala
Alfa Cronbacha: ,57
SKIS
Alfa przy
wykluczeniu
Opadanie głowy
,17
,57
Zamykanie oczu
,27
,54
Opadanie ręki
,11
,58
Unieruchomienie ręki
,46
,50
Splecenie palców
,25
,55
Uszytwnienie ręki
,40
,51
Przyciąganie rąk
,09
,58
Zahamowanie komunikacji niewerbalnej
,35
,53
Halucynacja (mucha)
,16
,57
Katalepsja powiek
,53
,48
Sugestia pohipnotyczna (dotknięcie kostki lewej nogi) -,11
,62
Niepamięć pohipnotyczna
,15
,57