Klasyczna teoria testu

Whatever exists, exists in some

amount."

E. L. Thorndike.

Założenia klasycznej teorii testu

(Gulliksen, 1950)

• do psychologii można zaadaptować model pomiaru

pochodzący z fizyki

• podobnie jak każdy obiekt fizyczny ma określone

wartości swoich cech fizycznych, niezależne od aktu

pomiaru i natury narzędzia badawczego, tak każdy

człowiek ma nieznane prawdziwe wartości cech

psychologicznych

• podczas pomiaru obserwujemy wartości prawdziwe

mierzonej cechy, zakłócone błędem równym różnicy

miedzy obserwowaną wartością wyniku pomiaru a

nieobserwowalną wartością prawdziwą mierzonej

cechy

Rzetelność

• Klasyczna teoria testu (Gulliksen, 1950)

– „psychometryczne opracowanie
problemu rzetelności i błędu pomiaru”

• Rzetelność jest miarą dokładności

pomiaru

= X



+ X

gdzie:

: wynik otrzymany



: wynik prawdziwy

: składnik błędu





gdzie:

- rzetelność



- wariancja wyników

prawdziwych

- wariancja wyników

otrzymanych

var

= var



+ var

Wynik prawdziwy

(Gulliksen, 1950)

• Wynik prawdziwy to granica, do

jakiej zmierza przeciętna wyników
i-tej osoby w danej liczbie testów
równoległych, jeśli ta liczba
wzrasta nieograniczenie

Wynik prawdziwy

(Guilford, 1954)

• średnia z nieskończenie wielu

badań tym samym testem

• wynik danej osoby otrzymany w

idealnych warunkach idealnym
narzędziem pomiarowym

Składnik błędu (Guilford,

1954)

• różnica między wynikiem

prawdziwym a wynikiem
otrzymanym

• wartość dodatnia lub ujemna

będąca funkcją warunków
testowania konkretnej osoby w
konkretnym badaniu

Założenia klasycznej teorii

testów

• Średnia arytmetyczna błędów

wynosi zero

• Korelacja wyniku prawdziwego i

składnika błędu jest zerowa

• Korelacja składników błędu dwóch

testów równoległych (czyli dwóch
kolejnych pomiarów) jest zerowa

• Błedy systematyczne

(skorelowane)

• Błedy losowe (nieskorelowane)

– Klasyczna teoria testu i wskaźniki

rzetelności dotyczą wyłącznie błędów
losowych

Szacowanie składnika

błędu

• Z założenia o istnieniu wyniku prawdziwego,

niezależnego od aktu pomiaru, oraz z

założenia o losowości błędów, wynika, że:

– idealne narzędzie badawcze powinno w dwóch

kolejnych pomiarach przynieść takie same wyniki

– różnice między wynikami dwóch kolejnych

pomiarów są odbiciem błędów pomiaru i mogą

służyć do jego szacowania

– (podobnie zachowają się wersje idealnie

równoległe)

• Rzetelność jest zatem równa teoretycznej

wartości współczynnika korelacji w dwóch

kolejnych badaniach (twierdzenie przydatne

empirycznie)

• Rzetelność jest też równa kwadratowi

korelacji między wynikiem prawdziwym a

wynikiem otrzymanym (twierdzenie mniej

przydatne empirycznie)

• Najprościej mówiąc, test rzetelny to taki,

którego wyniki korelują wysoko z sobą przy

powtórzeniu badania

Długość testu a jego

rzetelność

• Im dłuższy test (im więcej pozycji

zawiera) tym jest rzetelniejszy, to jest,
tym mniejszym jest obciążony błędem

• Im więcej składowych znajduje się w

teście, tym bliższy jest on wynikowi
prawdziwemu na mocy definicji
stwierdzającej, że wynik prawdziwy to
średnia z nieskończenie wielu testów
równoległych

• Rzetelność a wskaźniki rzetelności
• Bezpośrednie badanie rzetelności:

– kalibracja
– seria pomiarów

(w psychologii ani jedno, ani drugie nie jest

możliwe)

• Pośrednie badanie rzetelności:

wskaźniki rzetelności

• Rzetelność odnosi się do:

– stabilności
– równoważności
– spójności

wyników testowych.

Metody empirycznej

estymacji rzetelności

• wskaźnik rzetelności retestowej

(stabilność)

• formy równoległe (równoważność)
• wskaźnik rzetelności

międzypołówkowej (spójność)

• wskaźnik rzetelności wewnętrznej

(spójność)

• ocena sędziów kompetentnych

Krytyka aksjomatyki

Gulliksena

• Thorndike (1964): ponieważ wyniki

prawdziwe nie są mierzalne bezpośrednio,
są one mitem i nie mogą mieć znaczenia
teoretycznego

– przyjęcie tego poglądu odrzucałoby całą

statystykę inferencyjną, która dotyczy głównie
szacowania nieobserwowalnych parametrów

– wyniki prawdziwe nie są mierzalne

bezpośrednio, ale są szacowalne, z błędem nie
wykluczającym teoretycznej ani praktycznej
użyteczności

Krytyka aksjomatyki

Gulliksena

• Poważniejszy zarzut (Lord i Novick,

1968): nieweryfikowalność założenia
o losowości błędu pomiaru, czyli
postulatu, że średni błąd wynosi
zero. Stopień prawdziwości tego
założenia nie jest szacowalny (w
przeciwieństwie do
nieobserwowalnych parametrów)

Nowsza wersja klasycznej

teorii testu (Lord i Novick,

1968)

• Wynik prawdziwy definiowany nie jako

wartość absolutna, tylko oczekiwana z

pewnego rozkładu normalnego

wyników testowych

• Defiincja błędu pomiaru oparta na

pojęciu średnia wartość odchyleń od

średniej

• Podejście Lorda i Novicka nie

absolutyzuje wyniku prawdziwego i

składnika błędu, ale pozwala zachować

zasadnicze zręby teorii Gulliksena

• Najnowsze ujęcie teorii testu:

Teoria odpowiedzi na pytania
testowe (Item Response Theory,
IRT)

Rzetelność – właściwość

testu

czy zbioru wyników?

• Rzetelność jest właściwością zbioru

wyników uzyskanego na konkretnej

populacji, a nie testu

• Stwierdzenie: „rzetelność testu X

wynosi 0,87” jest skrótem myślowym

• Oszacowanie rzetelności testu może

się różnić w różnych populacjach, np.

IQ szacowane w próbie pobranej z

populacji generalnej i z populacji

studentów

Wskaźnik rzetelności

retestowej

• dwa rodzaje

– wiarygodność testu (rzadko stosowany)
– stabilność bezwzględna (stosowany)

• spotykane odstępy: od 1 tygodnia do

6 miesięcy

– wyjątkowo dziesiątki lat (kiedy badana

jest nie tyle stabilność testu, co raczej
mierzonej przez niego cechy)

Obliczanie wskaźnika

rzetelności retestowej

• Współczynnik korelacji liniowej r-

Pearsona

Problemy ze wskaźnikiem

rzetelności retestowej

• pamięć poprzedniego badania
• uczenie się, wprawa
• wyobrażenia badanych na temat

celu powtórzenia badania

Zalecenie APA: "nie wolno ograniczać

się do stosowania wskaźników
retestowych"

Formy równoległe -

wymogi

• równość średnich
• równość odchyleń standardowych
• równość interkorelacji pozycji
• równość korelacji z kryterium

zewnętrznym

Obliczanie rzetelności

form równoległych

• Współczynnik korelacji liniowej r-

Pearsona

• Formy równoległe jako wskaźnik:

– Stabilności bezwględnej
– Wiarygodności

• Rzetelność szacowana metodą form

równoległych daje zwykle
oszacowania najniższe z możliwych

Wskaźnik rzetelności

międzypołówkowej

• korelacja między połówkami testu,

zazwyczaj pozycjami parzystymi i
nieparzystymi

• bywa zaliczany do wskaźników

rzetelności wewnętrznej

Obliczanie rzetelności

międzypołówkowej –

korekta Spearmana-Browna





gdzie:

- rzetelność skorygowana

- korelacja między połówkami

Wskaźnik rzetelności

wewnętrznej

(zgodności wewnętrznej)

• "j.t. miara tego, w jakim stopniu test

jest czystą miarą mierzonej zmiennej i
w jakim stopniu odpowiedzi na
poszczególne pytania mierzą to samo
co wynik w całym teście”
(Choynowski, 1971)

Zgodność wewnętrzna jest tym wyższa,

im:

• wyższe są korelacje między pozycjami

testu

• wyższa jest wariancja pozycji testu
• mniejsze są różnice w trudności

poszczególnych zadań

• większa jest liczba pozycji w teście

• Wzory Kudera-Richardsona:

format pozycji dychotomiczny

• Alfa Cronbacha: dowolny format

odpowiedzi

Alfa Cronbacha - najpopularniejszy

obecnie wskaźnik rzetelności

Obliczanie alfy Cronbacha

gdzie:

: wariancja całego testu

: wariancja i-tej pozycji

)

(













Zgodność sędziów

kompetentnych

• stosowana w wypadku procedur,

które wymagają subiektywnej
oceny

• W Kendalla – „korelacja” między

więcej niż dwiema zmiennymi
(sędziami)

Testy szybkości a

wskaźniki rzetelności

W wypadku testów szybkości:
• wykluczone są:

– wskaźniki rz. międzypołówkowej
– wskaźniki rz. wewnętrznej

• dopuszczalne: wskaźniki retestowe i

formy równoległe

Interpretacja wskaźników

rzetelności

• przyjmują wartości z przedziału od 0 do

• reprezentują estymowaną proporcję

składnika prawdziwego i składnika błedu

– np. 0,85 - 85% udziału wyniku prawdziwego;

15% - składnika błędu

• UWAGA - korelację retestową oraz

międzypołówkową należy podnieść do
kwadratu w celu uzyskania tej proporcji

Pożądane wartości

współczynników

rzetelności

• Wymogi wobec rzetelności są wyższe w

wypadku badań indywidualnych (pożądane
0,90) niż eksperymentów grupowych

• Orientacyjna interpretacja:

– 0,90 i więcej - rzetelność znakomita (w

psychologii raczej rzadko spotykana)

– 0,80-0,90 - rzetelność dobra (często spotykana

w psychologii

– poniżej 0,50 - rzetelność nie do zaakceptowania

Przykłady rzetelności

testów

(Alfa Cronbacha)
• FCZ-KT (Strelau, 1995)

– od 0,77 (Żwawość) do 0,85

(Wytrzymałość)

• EPQ-R (Brzozowski i Drwal, 1995)

– Neurotyzm: 0,84
– Ekstra-introwersja: 0,83
– Psychotyzm: 0,67
– Skala kłamstwa: 0,75

• WAIS-R (Brzeziński i Hornowska,

1993)

– od 0,68 (Układanki) do 0,96

(Słownik)

• NEO-FFI (Zawadzki i in., 1995)

– Ekstrawersja: 0,74-0,84
– Neurotyczność: 0,77-0,83
– Sumienność: 0,76-0,84
– Otwartość: 0,59-0,70
– Ugodowość: 0,57-0,73

Błąd standardowy

pomiaru (SEM)

• ponieważ testy zawierają błąd,

użyteczne jest obliczanie zakresu, w
jakim mieści się wynik prawdziwy

• służy do tego SEM

SEM





• SEM j.t. odchylenie standardowe

różnic między wynikiem
prawdziwym a uzyskanym

• gdyby u kogoś powtórzyć pomiar

100 razy, to uzyskana średnia
byłaby oszacowaniem wyniku
prawdziwego, a odchylenie
standardowe uzyskanego rozkładu
- błędem standardowym pomiaru

Przedział ufności (95%)



- 1,96 (SEM); X

+ 1,96

(SEM)>

• Współczynniki rzetelności, jak

wszystkie miary oparte na
korelacji, są wrażliwe na wielkość
wariancji w próbie

• Mogą być generalizowane tylko na

tę populację, z której pobrano
próbę

YIELD1 vs. YIELD2

Wsp. korelacji = ,74

YIELD1

-2

Analiza pozycji testowych

• Moc dyskryminacyjna pytania
• Alfa przy wykluczeniu pozycji
• Skorygowany współczynnik

korelacji item-skala (SKIS)

Moc dyskryminacyjna

• = zdolność do różnicowania

populacji pod względem danej
cechy

• mierzona jako skorygowana

korelacja między pozycją a
wynikiem ogólnym

– SKIS - skorygowana korelacja item-

skala

Alfa Cronbacha: ,57

SKIS

Alfa przy

wykluczeniu

Opadanie głowy

,17

,57

Zamykanie oczu

,27

,54

Opadanie ręki

,11

,58

Unieruchomienie ręki

,46

,50

Splecenie palców

,25

,55

Uszytwnienie ręki

,40

,51

Przyciąganie rąk

,09

,58

Zahamowanie komunikacji niewerbalnej

,35

,53

Halucynacja (mucha)

,16

,57

Katalepsja powiek

,53

,48

Sugestia pohipnotyczna (dotknięcie kostki lewej nogi) -,11

,62

Niepamięć pohipnotyczna

,15

,57

Document Outline

Slide 1
Slide 2
Slide 3
Slide 4
Slide 5
Slide 6
Slide 7
Slide 8
Slide 9
Slide 10
Slide 11
Slide 12
Slide 13
Slide 14
Slide 15
Slide 16
Slide 17
Slide 18
Slide 19
Slide 20
Slide 21
Slide 22
Slide 23
Slide 24
Slide 25
Slide 26
Slide 27
Slide 28
Slide 29
Slide 30
Slide 31
Slide 32
Slide 33
Slide 34
Slide 35
Slide 36
Slide 37
Slide 38
Slide 39
Slide 40
Slide 41
Slide 42
Slide 43
Slide 44
Slide 45
Slide 46
Slide 47

Wyszukiwarka

Podobne podstrony:
Psychometria 2009, Wykład 2, Klasyczna teoria testu
Psychometria 2010, Wykład 2, Klasyczna teoria testu p
rozwojowka slajdy, Wyklad 5 Srednia doroslosc teoria czasowa
rozwojowka slajdy, Wyklad 5 Srednia doroslosc teoria czasowa
rozwojowka slajdy, Wyklad 3 srednia doroslosc
Psychologia osobowości dr Kofta wykład 9 Poznawcza teoria Ja
Wybrane slajdy z wykładów
wykład 2 cz.1, Teoria i analiza rynku- semestr V
geneza Ekohydrologii slajdy wykład
TiF- wyklady pos, Teoria i filozofia prawa TIF
2 Klasyczna teoria finansów a finanse?hawioralne
Klasyczna teoria psychoanalityczna Sigmunda Freuda
Klasyczna teoria prawdy1, Filozofia, Materiały do zajęć, Różne z innych zajęć
s 1, Klasyczna teoria organizacji
Oświetlenie slajdy z wykładu

więcej podobnych podstron

Slajdy, Wyklad 3[1][1] Klasyczna teoria testu

Document Outline