background image

 

 

Klasyczna teoria testu

background image

 

 

Whatever exists, exists in some 

amount." 

E. L. Thorndike.

background image

 

 

Założenia klasycznej teorii testu 

(Gulliksen, 1950)

• do psychologii można zaadaptować model pomiaru 

pochodzący z fizyki 

• podobnie jak każdy obiekt fizyczny ma określone 

wartości swoich cech fizycznych, niezależne od aktu 

pomiaru i natury narzędzia badawczego, tak każdy 

człowiek ma nieznane prawdziwe wartości cech 

psychologicznych

• podczas pomiaru obserwujemy wartości prawdziwe 

mierzonej cechy, zakłócone błędem równym różnicy 

miedzy obserwowaną wartością wyniku pomiaru a 

nieobserwowalną wartością prawdziwą mierzonej 

cechy

background image

 

 

Rzetelność

• Klasyczna teoria testu (Gulliksen, 1950) 

– „psychometryczne opracowanie 
problemu rzetelności i błędu pomiaru”

• Rzetelność jest miarą dokładności 

pomiaru

background image

 

 

X

t

 = X

 + X

e

,

      

gdzie:

 X

t

: wynik otrzymany

X

: wynik prawdziwy

X

e

: składnik błędu

background image

 

 

2

2

e

tt

s

s

r

gdzie:

r

tt 

rzetelność

2

  

wariancja wyników 

prawdziwych

s

2

  - wariancja wyników 

otrzymanych

var

t

  = var 

 

var

e

background image

 

 

Wynik prawdziwy 

(Gulliksen, 1950)

• Wynik prawdziwy to granica, do 

jakiej zmierza przeciętna wyników 
i-tej osoby w danej liczbie testów 
równoległych, jeśli ta liczba 
wzrasta nieograniczenie

background image

 

 

Wynik prawdziwy 

(Guilford, 1954)

• średnia z nieskończenie wielu 

badań tym samym testem

• wynik danej osoby otrzymany w 

idealnych warunkach idealnym 
narzędziem pomiarowym

background image

 

 

Składnik błędu (Guilford, 

1954)

• różnica między wynikiem 

prawdziwym a wynikiem 
otrzymanym

• wartość dodatnia lub ujemna 

będąca funkcją warunków 
testowania konkretnej osoby w 
konkretnym badaniu

background image

 

 

Założenia klasycznej teorii 

testów

• Średnia arytmetyczna błędów 

wynosi zero

• Korelacja wyniku prawdziwego i 

składnika błędu jest zerowa

• Korelacja składników błędu dwóch 

testów równoległych (czyli dwóch 
kolejnych pomiarów) jest zerowa

background image

 

 

• Błedy systematyczne 

(skorelowane)

• Błedy losowe (nieskorelowane)

– Klasyczna teoria testu i wskaźniki 

rzetelności dotyczą wyłącznie błędów 
losowych

background image

 

 

Szacowanie składnika 

błędu

• Z założenia o istnieniu wyniku prawdziwego, 

niezależnego od aktu pomiaru, oraz z 

założenia o losowości błędów, wynika, że:

– idealne narzędzie badawcze powinno w dwóch 

kolejnych pomiarach przynieść takie same wyniki

– różnice między wynikami dwóch kolejnych 

pomiarów są odbiciem błędów pomiaru i mogą 

służyć do jego szacowania

– (podobnie zachowają się wersje idealnie 

równoległe)

background image

 

 

• Rzetelność jest zatem równa teoretycznej 

wartości współczynnika korelacji w dwóch 

kolejnych badaniach (twierdzenie przydatne 

empirycznie)

• Rzetelność jest też równa kwadratowi 

korelacji między wynikiem prawdziwym a 

wynikiem otrzymanym (twierdzenie mniej 

przydatne empirycznie)

• Najprościej mówiąc, test rzetelny to taki, 

którego wyniki korelują wysoko z sobą przy 

powtórzeniu badania

background image

 

 

Długość testu a jego 

rzetelność

• Im dłuższy test (im więcej pozycji 

zawiera) tym jest rzetelniejszy, to jest, 
tym mniejszym jest obciążony błędem

• Im więcej składowych znajduje się w 

teście, tym bliższy jest on wynikowi 
prawdziwemu na mocy definicji 
stwierdzającej, że wynik prawdziwy to 
średnia z nieskończenie wielu testów 
równoległych

background image

 

 

• Rzetelność a wskaźniki rzetelności
• Bezpośrednie badanie rzetelności:

– kalibracja
– seria pomiarów

(w psychologii ani jedno, ani drugie nie jest 

możliwe)

• Pośrednie badanie rzetelności: 

wskaźniki rzetelności

background image

 

 

• Rzetelność odnosi się do:

– stabilności
– równoważności
– spójności

wyników testowych.

background image

 

 

Metody empirycznej 

estymacji rzetelności

• wskaźnik rzetelności retestowej 

(stabilność)

• formy równoległe (równoważność)
• wskaźnik rzetelności 

międzypołówkowej (spójność)

• wskaźnik rzetelności wewnętrznej 

(spójność)

• ocena sędziów kompetentnych

background image

 

 

Krytyka aksjomatyki 

Gulliksena

• Thorndike (1964): ponieważ wyniki 

prawdziwe nie są mierzalne bezpośrednio, 
są one mitem i nie mogą mieć znaczenia 
teoretycznego

– przyjęcie tego poglądu odrzucałoby całą 

statystykę inferencyjną, która dotyczy głównie 
szacowania nieobserwowalnych parametrów

– wyniki prawdziwe nie są mierzalne 

bezpośrednio, ale są szacowalne, z błędem nie 
wykluczającym teoretycznej ani praktycznej 
użyteczności

background image

 

 

Krytyka aksjomatyki 

Gulliksena

• Poważniejszy zarzut (Lord i Novick, 

1968): nieweryfikowalność założenia 
o losowości błędu pomiaru, czyli 
postulatu, że średni błąd wynosi 
zero. Stopień prawdziwości tego 
założenia nie jest szacowalny (w 
przeciwieństwie do 
nieobserwowalnych parametrów)

background image

 

 

Nowsza wersja klasycznej 

teorii testu (Lord i Novick, 

1968)

• Wynik prawdziwy definiowany nie jako 

wartość absolutna, tylko oczekiwana z 

pewnego rozkładu normalnego 

wyników testowych

• Defiincja błędu pomiaru oparta na 

pojęciu średnia wartość odchyleń od 

średniej

• Podejście Lorda i Novicka nie 

absolutyzuje wyniku prawdziwego i 

składnika błędu, ale pozwala zachować 

zasadnicze zręby teorii Gulliksena

background image

 

 

• Najnowsze ujęcie teorii testu: 

Teoria odpowiedzi na pytania 
testowe (Item Response Theory, 
IRT
)

background image

 

 

Rzetelność – właściwość 

testu 

czy zbioru wyników?

• Rzetelność jest właściwością zbioru 

wyników uzyskanego na konkretnej 

populacji, a nie testu

• Stwierdzenie: „rzetelność testu X 

wynosi 0,87” jest skrótem myślowym

• Oszacowanie rzetelności testu może 

się różnić w różnych populacjach, np. 

IQ szacowane w próbie pobranej z 

populacji generalnej i z populacji 

studentów

background image

 

 

Wskaźnik rzetelności 

retestowej

• dwa rodzaje

– wiarygodność testu (rzadko stosowany)
– stabilność bezwzględna (stosowany)

• spotykane odstępy: od 1 tygodnia do 

6 miesięcy 

– wyjątkowo dziesiątki lat (kiedy badana 

jest nie tyle stabilność testu, co raczej 
mierzonej przez niego cechy)

background image

 

 

Obliczanie wskaźnika 

rzetelności retestowej

• Współczynnik korelacji liniowej r-

Pearsona

background image

 

 

Problemy ze wskaźnikiem 

rzetelności retestowej

• pamięć poprzedniego badania
• uczenie się, wprawa
• wyobrażenia badanych na temat 

celu powtórzenia badania

Zalecenie APA: "nie wolno ograniczać 

się do stosowania wskaźników 
retestowych"

background image

 

 

Formy równoległe - 

wymogi

• równość średnich
• równość odchyleń standardowych
• równość interkorelacji pozycji
• równość korelacji z kryterium 

zewnętrznym

background image

 

 

Obliczanie rzetelności 

form równoległych

• Współczynnik korelacji liniowej r-

Pearsona

• Formy równoległe jako wskaźnik:

– Stabilności bezwględnej
– Wiarygodności

• Rzetelność szacowana metodą form 

równoległych daje zwykle 
oszacowania najniższe z możliwych

background image

 

 

Wskaźnik rzetelności 

międzypołówkowej

• korelacja między połówkami testu, 

zazwyczaj pozycjami parzystymi i 
nieparzystymi

• bywa zaliczany do wskaźników 

rzetelności wewnętrznej

background image

 

 

Obliczanie rzetelności 

międzypołówkowej – 

korekta Spearmana-Browna

hh

hh

tt

r

r

r

1

2

gdzie:

r

tt 

rzetelność skorygowana

r

hh

 - korelacja między połówkami

background image

 

 

Wskaźnik rzetelności 

wewnętrznej 

(zgodności wewnętrznej)

• "j.t. miara tego, w jakim stopniu test 

jest czystą miarą mierzonej zmiennej i 
w jakim stopniu odpowiedzi na 
poszczególne pytania mierzą to samo 
co wynik w całym teście” 
(Choynowski, 1971)

background image

 

 

Zgodność wewnętrzna jest tym wyższa, 

im:

• wyższe są korelacje między pozycjami 

testu

• wyższa jest wariancja pozycji testu
• mniejsze są różnice w trudności 

poszczególnych zadań

• większa jest liczba pozycji w teście

background image

 

 

• Wzory Kudera-Richardsona: 

format pozycji dychotomiczny

• Alfa Cronbacha: dowolny format 

odpowiedzi

Alfa Cronbacha - najpopularniejszy 

obecnie wskaźnik rzetelności

background image

 

 

Obliczanie alfy Cronbacha

gdzie:

SD

: wariancja całego testu

 SD

i

 : wariancja i-tej pozycji

2

1

2

2

)

(

1

t

SD

SD

SD

n

n

r

n

i

i

t

tt

background image

 

 

Zgodność sędziów 

kompetentnych

• stosowana w wypadku procedur, 

które wymagają subiektywnej 
oceny

• W Kendalla – „korelacja” między 

więcej niż dwiema zmiennymi 
(sędziami)

background image

 

 

Testy szybkości a 

wskaźniki rzetelności

W wypadku testów szybkości:
• wykluczone są:

– wskaźniki rz. międzypołówkowej
– wskaźniki rz. wewnętrznej

• dopuszczalne: wskaźniki retestowe i 

formy równoległe

background image

 

 

Interpretacja wskaźników 

rzetelności

• przyjmują wartości z przedziału od 0 do 

1

• reprezentują estymowaną proporcję 

składnika prawdziwego i składnika błedu

– np. 0,85 - 85% udziału wyniku prawdziwego; 

    15% - składnika błędu

• UWAGA - korelację retestową oraz 

międzypołówkową należy podnieść do 
kwadratu w celu uzyskania tej proporcji

background image

 

 

Pożądane wartości 

współczynników 

rzetelności

• Wymogi wobec rzetelności są wyższe w 

wypadku badań indywidualnych (pożądane 
0,90) niż eksperymentów grupowych 

• Orientacyjna interpretacja:

– 0,90 i więcej - rzetelność znakomita (w 

psychologii raczej rzadko spotykana)

– 0,80-0,90 - rzetelność dobra (często spotykana 

w psychologii

– poniżej 0,50 - rzetelność nie do zaakceptowania

background image

 

 

Przykłady rzetelności 

testów

(Alfa Cronbacha)
• FCZ-KT (Strelau, 1995)

– od 0,77 (Żwawość) do 0,85 

(Wytrzymałość)

• EPQ-R (Brzozowski i Drwal, 1995)

– Neurotyzm: 0,84 
– Ekstra-introwersja: 0,83
– Psychotyzm: 0,67
– Skala kłamstwa: 0,75

background image

 

 

• WAIS-R (Brzeziński i Hornowska, 

1993)

– od 0,68 (Układanki) do 0,96 

(Słownik)

• NEO-FFI (Zawadzki i in., 1995)

– Ekstrawersja: 0,74-0,84
– Neurotyczność: 0,77-0,83
– Sumienność: 0,76-0,84
– Otwartość: 0,59-0,70
– Ugodowość: 0,57-0,73

background image

 

 

Błąd standardowy 

pomiaru (SEM)

• ponieważ testy zawierają błąd, 

użyteczne jest obliczanie zakresu, w 
jakim mieści się wynik prawdziwy

• służy do tego SEM

tt

t

r

SD

SEM

1

background image

 

 

• SEM j.t. odchylenie standardowe 

różnic między wynikiem 
prawdziwym a uzyskanym

• gdyby u kogoś powtórzyć pomiar 

100 razy, to uzyskana średnia 
byłaby oszacowaniem wyniku 
prawdziwego, a odchylenie 
standardowe uzyskanego rozkładu 
- błędem standardowym pomiaru

background image

 

 

Przedział ufności (95%)

X

  <X

t

 - 1,96 (SEM); X

t

 + 1,96 

(SEM)>

background image

 

 

• Współczynniki rzetelności, jak 

wszystkie miary oparte na 
korelacji, są wrażliwe na wielkość 
wariancji w próbie

• Mogą być generalizowane tylko na 

tę populację, z której pobrano 
próbę

background image

 

 

 YIELD1 vs. YIELD2

Wsp. korelacji = ,74

 YIELD1

 Y

IE

LD

2

-2

0

2

4

6

8

10

12

14

-2

0

2

4

6

8

10

12

14

background image

 

 

Analiza pozycji testowych

• Moc dyskryminacyjna pytania
• Alfa przy wykluczeniu pozycji
• Skorygowany współczynnik 

korelacji item-skala (SKIS)

background image

 

 

Moc dyskryminacyjna

• = zdolność do różnicowania 

populacji pod względem danej 
cechy

• mierzona jako skorygowana 

korelacja między pozycją a 
wynikiem ogólnym

– SKIS - skorygowana korelacja item-

skala

background image

 

 

Alfa Cronbacha: ,57 
 
 

SKIS 

Alfa przy 

wykluczeniu 

Opadanie głowy 

,17 

,57 

Zamykanie oczu 

,27 

,54 

Opadanie ręki 

,11 

,58 

Unieruchomienie ręki 

,46 

,50 

Splecenie palców 

,25 

,55 

Uszytwnienie ręki 

,40 

,51 

Przyciąganie rąk 

,09 

,58 

Zahamowanie komunikacji niewerbalnej 

,35 

,53 

Halucynacja (mucha) 

,16 

,57 

Katalepsja powiek 

,53 

,48 

Sugestia pohipnotyczna (dotknięcie kostki lewej nogi)  -,11 

,62 

Niepamięć pohipnotyczna 

,15 

,57 

 


Document Outline