Bez tytułu slajdu

Założenia klasycznej teorii testu

(Gulliksen, 1950)

• do psychologii można zaadaptować model pomiaru

pochodzący z fizyki

• podobnie jak każdy obiekt fizyczny ma określone

wartości swoich cech fizycznych, niezależne od aktu

pomiaru i natury narzędzia badawczego, tak każdy

człowiek ma nieznane prawdziwe wartości cech

psychologicznych

• podczas pomiaru obserwujemy wartości prawdziwe

mierzonej cechy, zakłócone błędem równym różnicy

miedzy obserwowaną wartością wyniku pomiaru a

nieobserwowalną wartością prawdziwą mierzonej

cechy

Rzetelność

• Klasyczna teoria testu (Gulliksen, 1950)

– „psychometryczne opracowanie
problemu rzetelności i błędu pomiaru”

• Rzetelność jest miarą dokładności

pomiaru

= X



+ X

gdzie:

: wynik otrzymany



: wynik prawdziwy

: składnik błędu





gdzie:

- rzetelność



- wariancja wyników

prawdziwych

- wariancja wyników

otrzymanych

var

= var



+ var

Wynik prawdziwy

(Guilford, 1954)

• średnia z nieskończenie wielu

badań tym samym testem

• wynik danej osoby otrzymany w

idealnych warunkach idealnym
narzędziem pomiarowym

Składnik błędu (Guilford,

1954)

• różnica między wynikiem

prawdziwym a wynikiem
otrzymanym

• wartość dodatnia lub ujemna

będąca funkcją warunków
testowania konkretnej osoby w
konkretnym badaniu

Założenia klasycznej teorii

testów

• Średnia arytmetyczna błędów

wynosi zero

• Korelacja wyniku prawdziwego i

składnika błędu jest zerowa

• Korelacja składników błędu dwóch

testów równoległych (czyli dwóch
kolejnych pomiarów) jest zerowa

• Błedy systematyczne

(skorelowane)

• Błedy losowe (nieskorelowane)

– Klasyczna teoria testu i wskaźniki

rzetelności dotyczą wyłącznie błędów
losowych

Szacowanie składnika

błędu

• Z założenia o istnieniu wyniku prawdziwego,

niezależnego od aktu pomiaru, oraz z

założenia o losowości błędów, wynika, że:

– idealne narzędzie badawcze powinno w dwóch

kolejnych pomiarach przynieść takie same wyniki

– różnice między wynikami dwóch kolejnych

pomiarów są odbiciem błędów pomiaru i mogą

służyć do jego szacowania

– (podobnie zachowają się wersje idealnie

równoległe)

• Rzetelność jest zatem równa teoretycznej

wartości współczynnika korelacji w dwóch

kolejnych badaniach (twierdzenie przydatne

empirycznie)

• Rzetelność jest też równa kwadratowi

korelacji między wynikiem prawdziwym a

wynikiem otrzymanym (twierdzenie mniej

przydatne empirycznie)

• Najprościej mówiąc, test rzetelny to taki,

którego wyniki korelują wysoko z sobą przy

powtórzeniu badania

Długość testu a jego

rzetelność

• Im dłuższy test (im więcej pozycji

zawiera) tym jest rzetelniejszy, to jest,
tym mniejszym jest obciążony błędem

• Im więcej składowych znajduje się w

teście, tym bliższy jest on wynikowi
prawdziwemu na mocy definicji
stwierdzającej, że wynik prawdziwy to
średnia z nieskończenie wielu testów
równoległych

• Rzetelność a wskaźniki rzetelności
• Bezpośrednie badanie rzetelności:

– kalibracja
– seria pomiarów

(w psychologii ani jedno, ani drugie nie jest

możliwe)

• Pośrednie badanie rzetelności:

wskaźniki rzetelności

Metody empirycznej

estymacji rzetelności

• wskaźnik rzetelności retestowej

(stabilność)

• formy równoległe (równoważność)
• wskaźnik rzetelności

międzypołówkowej (spójność)

• wskaźnik rzetelności wewnętrznej

(spójność)

• ocena sędziów kompetentnych

Krytyka aksjomatyki

Gulliksena

• Thorndike (1964): ponieważ wyniki

prawdziwe nie są mierzalne bezpośrednio,
są one mitem i nie mogą mieć znaczenia
teoretycznego

– przyjęcie tego poglądu odrzucałoby całą

statystykę inferencyjną, która dotyczy głównie
szacowania nieobserwowalnych parametrów

– wyniki prawdziwe nie są mierzalne

bezpośrednio, ale są szacowalne, z błędem nie
wykluczającym teoretycznej ani praktycznej
użyteczności

Krytyka aksjomatyki

Gulliksena

• Poważniejszy zarzut (Lord i Novick,

1968): nieweryfikowalność założenia
o losowości błędu pomiaru, czyli
postulatu, że średni błąd wynosi
zero. Stopień prawdziwości tego
założenia nie jest szacowalny (w
przeciwieństwie do
nieobserwowalnych parametrów)

Nowsza wersja klasycznej

teorii testu (Lord i Novick,

1968)

• Wynik prawdziwy definiowany nie jako

wartość absolutna, tylko oczekiwana z

pewnego rozkładu normalnego

wyników testowych

• Defiincja błędu pomiaru oparta na

pojęciu średnia wartość odchyleń od

średniej

• Podejście Lorda i Novicka nie

absolutyzuje wyniku prawdziwego i

składnika błędu, ale pozwala zachować

zasadnicze zręby teorii Gulliksena

Rzetelność – właściwość

testu

czy zbioru wyników?

• Rzetelność jest właściwością zbioru

wyników uzyskanego na konkretnej

populacji, a nie testu

• Stwierdzenie: „rzetelność testu X

wynosi 0,87” jest skrótem myślowym

• Oszacowanie rzetelności testu może

się różnić w różnych populacjach, np.

IQ szacowane w próbie pobranej z

populacji generalnej i z populacji

studentów

Wskaźnik rzetelności

retestowej

• dwa rodzaje

– wiarygodność testu (rzadko stosowany)
– stabilność bezwzględna (stosowany)

• spotykane odstępy: od 1 tygodnia do

6 miesięcy

– wyjątkowo dziesiątki lat (kiedy badana

jest nie tyle stabilność testu, co raczej
mierzonej przez niego cechy)

Problemy ze wskaźnikiem

rzetelności retestowej

• pamięć poprzedniego badania
• uczenie się, wprawa
• wyobrażenia badanych na temat

celu powtórzenia badania

Zalecenie APA: "nie wolno ograniczać

się do stosowania wskaźników
retestowych"

Obliczanie rzetelności

form równoległych

• Współczynnik korelacji liniowej r-

Pearsona

• Formy równoległe jako wskaźnik:

– Stabilności bezwględnej
– Wiarygodności

• Rzetelność szacowana metodą form

równoległych daje zwykle
oszacowania najniższe z możliwych

Wskaźnik rzetelności

międzypołówkowej

• korelacja między połówkami testu,

zazwyczaj pozycjami parzystymi i
nieparzystymi

• bywa zaliczany do wskaźników

rzetelności wewnętrznej

Obliczanie rzetelności

międzypołówkowej –

korekta Spearmana-Browna





gdzie:

- rzetelność skorygowana

- korelacja między połówkami

Wskaźnik rzetelności

wewnętrznej

(zgodności wewnętrznej)

• "j.t. miara tego, w jakim stopniu test

jest czystą miarą mierzonej zmiennej i
w jakim stopniu odpowiedzi na
poszczególne pytania mierzą to samo
co wynik w całym teście”
(Choynowski, 1971)

Zgodność wewnętrzna jest tym wyższa,

im:

• wyższe są korelacje między pozycjami

testu

• wyższa jest wariancja pozycji testu
• mniejsze są różnice w trudności

poszczególnych zadań

• większa jest liczba pozycji w teście

• Wzory Kudera-Richardsona:

format pozycji dychotomiczny

• Alfa Cronbacha: dowolny format

odpowiedzi

Alfa Cronbacha - najpopularniejszy

obecnie wskaźnik rzetelności

Obliczanie alfy Cronbacha

gdzie:

: wariancja całego testu

: wariancja i-tej pozycji

)

(













Zgodność sędziów

kompetentnych

• stosowana w wypadku procedur,

które wymagają subiektywnej
oceny

• W Kendalla – „korelacja” między

więcej niż dwiema zmiennymi
(sędziami)

Testy szybkości a

wskaźniki rzetelności

W wypadku testów szybkości:
• wykluczone są:

– wskaźniki rz. międzypołówkowej
– wskaźniki rz. wewnętrznej

• dopuszczalne: wskaźniki retestowe i

formy równoległe

Interpretacja wskaźników

rzetelności

• przyjmują wartości z przedziału od 0 do

• reprezentują estymowaną proporcję

składnika prawdziwego i składnika błedu

– np. 0,85 - 85% udziału wyniku prawdziwego;

15% - składnika błędu

• UWAGA - korelację retestową oraz

międzypołówkową należy podnieść do
kwadratu w celu uzyskania tej proporcji

Pożądane wartości

współczynników

rzetelności

• Wymogi wobec rzetelności są wyższe w

wypadku badań indywidualnych (pożądane
0,90) niż eksperymentów grupowych

• Orientacyjna interpretacja:

– 0,90 i więcej - rzetelność znakomita (w

psychologii raczej rzadko spotykana)

– 0,80-0,90 - rzetelność dobra (często spotykana

w psychologii

– poniżej 0,50 - rzetelność nie do zaakceptowania

Przykłady rzetelności

testów

(Alfa Cronbacha)
• FCZ-KT (Strelau, 1995)

– od 0,77 (Żwawość) do 0,85

(Wytrzymałość)

• EPQ-R (Brzozowski i Drwal, 1995)

– Neurotyzm: 0,84
– Ekstra-introwersja: 0,83
– Psychotyzm: 0,67
– Skala kłamstwa: 0,75

• WAIS-R (Brzeziński i Hornowska,

1993)

– od 0,68 (Układanki) do 0,96

(Słownik)

• NEO-FFI (Zawadzki i in., 1995)

– Ekstrawersja: 0,74-0,84
– Neurotyczność: 0,77-0,83
– Sumienność: 0,76-0,84
– Otwartość: 0,59-0,70
– Ugodowość: 0,57-0,73

Błąd standardowy

pomiaru (SEM)

• ponieważ testy zawierają błąd,

użyteczne jest obliczanie zakresu, w
jakim mieści się wynik prawdziwy

• służy do tego SEM

SEM





• SEM j.t. odchylenie standardowe

różnic między wynikiem
prawdziwym a uzyskanym

• gdyby u kogoś powtórzyć pomiar

100 razy, to uzyskana średnia
byłaby oszacowaniem wyniku
prawdziwego, a odchylenie
standardowe uzyskanego rozkładu
- błędem standardowym pomiaru

Przedział ufności (95%)



- 1,96 (SEM); X

+ 1,96

(SEM)>

YIELD1 vs. YIELD2

Wsp. korelacji = ,74

YIELD1

-2

Moc dyskryminacyjna

• = zdolność do różnicowania

populacji pod względem danej
cechy

• mierzona jako skorygowana

korelacja między pozycją a
wynikiem ogólnym

– SKIS - skorygowana korelacja item-

skala

Alfa Cronbacha: ,57

SKIS

Alfa przy

wykluczeniu

Opadanie głowy

,17

,57

Zamykanie oczu

,27

,54

Opadanie ręki

,11

,58

Unieruchomienie ręki

,46

,50

Splecenie palców

,25

,55

Uszytwnienie ręki

,40

,51

Przyciąganie rąk

,09

,58

Zahamowanie komunikacji niewerbalnej

,35

,53

Halucynacja (mucha)

,16

,57

Katalepsja powiek

,53

,48

Sugestia pohipnotyczna (dotknięcie kostki lewej nogi) -,11

,62

Niepamięć pohipnotyczna

,15

,57

Document Outline