dr Adam Sobolewski
Psychometria, metoda testów
Rzetelność testu
Rzetelność testu
Poprzez rzetelność rozumie się:
opracowanie testu (materiału testowego i procedury badania),
tak, aby maksymalizował on dokładność pomiaru cechy badanej
przez test.
Kryterium rzetelności pomiaru testem ma dwa aspekty:
stabilności wyniki danej osoby badanej nie będą się zmieniały w czasie;
konsystencji (inaczej zgodności wewnętrznej) pomiar cechy danej
osoby nie jest obciążony błędem, zmierzono tę cechę z maksymalną dokładnością.
Rzetelność testu
Rodzaje błędów pomiaru, zródła błędu losowego
Rodzaje błędów pomiaru, zródła błędu losowego
W psychometrii rozróżnia się między losowym a systematycznym błędem pomiaru.
Błąd systematyczny, w rozumieniu klasycznej teorii testów, nie wiąże się
z niedostatkami rzetelności testu, świadczy o inwalidacji , niedostatkach trafności
narzędzia.
Błąd losowy powoduje obniżenie rzetelności pomiaru testem, może być
konsekwencją:
konstrukcji testu; np. tego, że różne osoby badane w różny sposób rozumieją
treści pytań.
sytuacji testowania; np. specyficznych dla warunków danego badania, bądz
stanów osoby badanej.
złej oceny wyników; pomyłek psychologa stosującego klucz, na co szczególnie
wrażliwe są narzędzia składające się z pytań otwartych.
Warto zwrócić uwagę, że dwu pierwszym i zasadniczym zródłom błędu losowego
odpowiadają dwa aspekty rzetelności. Dobrze opracowane narzędzie diagnostyczne
powinno mieć zbadane oba aspekty rzetelności stosownymi metodami. Tylko takie
podejście do badania rzetelności daje pełen obraz rzetelności narzędzia, bowiem
opisuje niedostatki rzetelności wiążące się z oboma zródłami błędu losowego.
Rzetelność testu
Podstawy klasycznej teorii testów (1)
Podstawy klasycznej teorii testów (1)
Najważniejsze równanie sformułowanej przez Gulliksena klasycznej teorii testów mówi,
że wynik otrzymany (surowy) jest przybliżeniem wyniku prawdziwego i składa się z
wyniku prawdziwego i składowej błędu:
= +
X X X
x t e
Wynik prawdziwy jest tu definiowany jako granica do jakiej zmierza średnia pomiarów
i-tej osoby w nieograniczonej serii testów równoległych.
K
Xig
g=1
Xt = lim
K Ą
K
Mówiąc prościej, wynik prawdziwy to taki wynik, który otrzymalibyśmy dysponując
doskonale rzetelnym narzędziem. Ponieważ jednak nie ma takich narzędzi pomiarowych
wynik otrzymany jest zawsze zniekształcony poprzez składową błędu.
Niezwykle ważne bowiem wskazują na losowy charakter błędu są założenia, które
towarzyszą temu równaniu.
1. Wartość oczekiwana błędu pomiaru (średnia) jest równa zeru.
= 0
ś
e
2. Wynik prawdziwy jest nieskorelowany z błędem pomiaru.
= 0
r
te
3. Błędy pomiarów są nieskorelowane.
= 0
r
e1e2
Rzetelność testu
Podstawy klasycznej teorii testów (2)
Podstawy klasycznej teorii testów (2)
Kolejne równania podane przez Gulliksena dotyczą parametrów opisujących wyniki
testowe.
M = M + M = M
x t e t
Z powyższego równania wynika, że średnia wyników uzyskanych za pomocą testów
z mocy wcześniej poczynionego założenia dot. wartości oczekiwanej błędów pomiaru
odpowiada średniej wyników prawdziwych.
2 2 2
s = s +s
x t e
Z kolei wariancja wyników otrzymanych jest zawsze większa od wariancji wyników
prawdziwych, bowiem powiększona jest o składową błędu.
Zatem parametrem obciążonym przez błąd losowy jest wariancja wyników testu,
a najistotniejszym problemem teorii pomiaru jest określenie stopnia w jakim wariancja
błędu obciąża wariancję wyników otrzymanych.
Rzetelność testu
Podstawy klasycznej teorii testów (3)
Podstawy klasycznej teorii testów (3)
Jeżeli wariancja wyników otrzymanych nie bazuje jedynie na błędzie, można oczekiwać,
że wyniki otrzymane i prawdziwe będą skorelowane. Korelację taką nazywamy
wskaznikiem rzetelności.
rx t = rt t
Na mocy klasycznej teorii testów wykazano, że korelacja między dwoma testami
równoległymi równa jest współczynnikowi rzetelności kwadratowi wskaznika rzetelności,
który zarazem jest stosunkiem wariancji wyników prawdziwych do wyników otrzymanych.
Dwa testy są testami równoległymi, jeżeli spełnione są cztery warunki: mają równe
średnie, mają równe wariancje, związki pomiędzy kolejnymi pytaniami opisywane są przez
takie same wartości interkorelacji, w taki sam sposób korelują z określonym kryterium
zewnętrznym.
To bardzo ważna konstatacja, bowiem pozwala empirycznie podejść do związku między
tym co abstrakcyjne (wyniki prawdziwe) a tym co mierzalne (wyniki otrzymane)
zastępując korelację między wynikami prawdziwymi i otrzymanymi korelacją między
dwoma testami.
Fakt, że kwadrat wskaznika rzetelności jest stosunkiem wariacji wyników prawdziwych do
wyników otrzymanych pozwala sformułować tzw. logiczną definicję rzetelności, a także
w ważny statystycznie sposób interpretować wartości współczynników rzetelności.
Kwadrat korelacji jest bowiem współczynnikiem determinacji. Mówiąc prościej, zawsze
wartość współczynnika rzetelności można traktować jako odsetek wariancji wyników
otrzymanych wyjaśnianych przez wyniki prawdziwe.
Rzetelność testu
Podstawy klasycznej teorii testów (4)
Podstawy klasycznej teorii testów (4)
2 2
st2 sx - se st2
rtt = = =
2 2 2
sx sx st2 + se
Rzetelność pomiaru to stosunek wariancji wyników prawdziwych
do wariancji wyników otrzymanych.
Współczynnik rzetelności może przyjmować wartości z zakresu od 0 do blisko 1.
Aatwo zobaczyć, że jeśli wariancja błędu jest mała a wariancja prawdziwa (lub
wariancja wyników otrzymanych) wysoka wartość współczynnika będzie dążyła do
jedności. W odwrotnej sytuacji wartość współczynnika rzetelności będzie zmierzać
do zera.
Stąd w metodologii badań mówi się o zasadzie maksyminowej . Badacz
powinien dążyć od uzyskiwania wyników o możliwie wysokiej wariancji dbając
o minimalizowanie wariancji błędu.
Rzetelność testu
Interpretacja wartości współczynników rzetelności
Interpretacja wartości współczynników rzetelności
rtt > 0,90 bardzo rzetelny pomiar, test może być stosowany zarówno
w badaniach naukowych, jak i do formułowania diagnoz
indywidualnych.
0,90 > rtt > 0,80 rzetelny pomiar, test może być stosowany
w badaniach naukowych, jak i do diagnoz indywidualnych,
które będą mniej precyzyjne.
0,80 > rtt > 0,70 przeciętna rzetelność, test powinien być stosowany
jedynie w badaniach naukowych.
0,70 > rtt > 0,60 niska rzetelność, test może być stosowany
warunkowo w badaniach naukowych.
0,60 > rtt > 0,50 wątpliwa rzetelność pomiaru, test bezużyteczny.
Od testów stosowanych w diagnostyce wymagamy więcej, bowiem w przypadku
opisu i interpretacji pojedynczych wyników indywidualnych zależy nam na
precyzji. Nadto, w sytuacji wnioskowania o różnicach między dwiema osobami
wysoka rzetelność ułatwia wnioskowanie o różnicach. W badaniach naukowych
natomiast, testy zazwyczaj służą jedynie do badania korelacyjnych zależności
między zmiennymi, odpowiedzialność diagnosty jest w takim przypadku mniejsza.
Rzetelność testu
Standardowy błąd pomiaru SEM
Standardowy błąd pomiaru SEM
Wychodząc od logicznej definicji rzetelności i dokonując kilku prostych
przekształceń arytmetycznych, łatwo wyprowadzić wzór na odchylenie
standardowe błędu pomiaru:
SEM = se = sx (1- rtt )
Parametr ten nazywa się standardowym błędem pomiaru, oznaczany jest skrótem
SEM od ang. standard error of measurement, jest odchyleniem standardowym
rozkładu błędów pomiaru wokół wyniku otrzymanego.
Najprościej mówiąc jest to przeciętna wartość błędu jaki popełniamy posługując
się testem o określonej rzetelności i określonej wariancji wyników surowych.
Aatwo pokazać, że im wyższa wartość współczynnika rzetelności tym mniejsza
wartość standardowego błędu pomiaru.
Rzetelność testu
Budowa przedziału ufności dla wyniku otrzymanego
Budowa przedziału ufności dla wyniku otrzymanego
Przedział ufności dla wyniku otrzymanego pozwala na określenie
granic, w których z przyjętym prawdopodobieństwem znajduje się
wynik prawdziwy osoby badanej. Diagnozę należy zawsze budować za
pomocą przedziału ufności. Nie wolno odnosić do norm wyniku
surowego.
Przedział ten budujemy według formuły:
Xt Xx - za/2SEM; Xx + za/2SEM
gdzie: Xt wynik prawdziwy,
Xx wynik otrzymany (surowy),
SEM standardowy błąd pomiaru,
za/2 stała statystyczna.
Stała za/2 przyjmuje następujące wartości:
a 0,15 0,10 0,05 0,01
za/2 1,44 1,64 1,96 2,58
Rzetelność testu
Budowa przedziału ufności dla wyniku otrzymanego przykład
Budowa przedziału ufności dla wyniku otrzymanego przykład
W jakim zakresie leży wynik prawdziwy osoby badanej, która w teście zdobyła
15 punktów, jeżeli SEM = 2,04 a wnioskowanie prowadzone jest na poziomie
istotności a = 0,05?
Jeżeli przyjmujemy a = 0,05 to za/2 = 1,96.
Xt 15 -1,962,04; 15 +1,962,04
Xt 15 - 4; 15 + 4
Xt 11; 19
Wynik prawdziwy osoby, która zdobyła 15 punktów w teście o SEM = 2,04 leży
w zakresie od 11 do 19 punktów.
Rzetelność testu
Standardowy błąd różnicy między dwoma wynikami
Standardowy błąd różnicy między dwoma wynikami
Informacje o rzetelności testu należy brać pod uwagę także, gdy dokonujemy
porównania między dwoma wynikami. Czynimy to w celu wykluczenia, że różnica
między dwoma wynikami jest pozorna.
Posługujemy się wtedy standardowym błędem różnicy między dwoma wynikami.
Ogólny wzór na standardowy błąd różnicy między dwoma wynikami, uzależnia
jego wielkość od wartości standardowych błędów pomiaru testów, których wyniki
porównujemy:
2 2
SE M = ( SE M + SE M )
X - Y X Y
W sytuacji, gdy porównujemy wyniki dwu testów jednej osoby, wzór pozwalający
na wyznaczenie standardowego błędu różnicy między dwoma testami ma postać:
2 2
S E M = S (1 - rxx ) + S (1 - ryy )
X - Y X Y
Natomiast gdy porównywane są wyniki dwu osób badanych tym samym testem:
S E M = S 2(1 - rtt )
X - Y X
Iloczyn SEMx-y i stałej za/2 to najmniejsza statystycznie istotna różnica. Aby
wnioskować o różnicach, wartość różnicy między dwoma wynikami surowymi musi
być większa od tego iloczynu.
UWAGA: ILUSTRACJ TEGO ZAGADNIENIA JEST ĆWICZENIE NR 3
Rzetelność testu
SEM a SEE
Lord i Novick zaproponowali inne niż Gulliksen rozumienie standardowego błędu
pomiaru standardowy błąd estymacji (SEE, ang. standard error of estimate),
którego charakter jest zależny od wyniku prawdziwego. Błąd ten ma rozkład
symetryczny wokół wyniku prawdziwego i niesymetryczny wokół wyniku otrzymanego
(jest symetryczny dla wyników średnich i skośny dla wyników skrajnych). Budowa
przedziału ufności za pomocą SEE odbywa się wokół estymowanego wyniku
prawdziwego, zatem jest to koncepcja błędu, która lepiej oddaje to co dzieje się
w trakcie mierzenia .
Mimo konceptualnej wyższości SEE nad SEM ten rodzaj błędu jest rzadko stosowany
do określania przedziałów ufności, bowiem jest to postępowanie o wiele bardziej
skomplikowane obliczeniowo. Przy czym uzyskane granice przedziałów ufności są
bardzo podobne, nadto przedział budowany za pomocą SEM jest zawsze nieco
szerszy.
Rzetelność testu
Metody szacowania rzetelności (1)
Dwukrotne badanie tym samym testem
Metoda estymacji stabilności bezwzględnej testu odwołuje się do dwukrotnego pomiaru
tym samym testem tej samej grupy osób badanych, między pomiarami mija jakiś czas
(inna nazwa badanie stałości); metoda ta jest wrażliwa na przypadkowe zmiany
dotyczące osoby badanej i warunków badania. Metoda estymacji wiarygodności testu,
polega także na dwukrotnym badaniu tej samej grupy, jednak między pomiarami nie
ma przerwy badanie drugie następuje zaraz po zakończeniu pierwszego; metoda
pozwala ocenić chwilowe nie trwające dłużej niż samo badanie i związane z osobą
badaną czynniki zakłócające pomiar np. zmęczenie, lub fluktuacje uwagi.
Porównanie form równoległych testu
Metoda ta podobnie jak omówione wyżej odwołuje się do dwukrotnego badania
grupy osób badanych, jednak w miejsce dwukrotnego użycia tego samego testu
używane są dwie wersje równoległe. W przypadku dokonania pomiarów bez przerwy
czasowej metoda nazywana jest estymacją równoważności międzytestowej; pozwala
określić związek między błędem pomiaru a różnicami wersji, zatem ocenić związek
rzetelności i specyficznych treści pytań. współczynnik stabilności względnej uzyskujemy
dokonując pomiarów wersjami równoległymi z odstępstwem czasu; uzyskana informacja
o zródle błędu dotyczy zarówno zmienności intraindywidualnej, jak i treści pytań.
Rzetelność testu
Metody szacowania rzetelności (2)
Porównanie części (np. połówek) testu
Metoda połówkowa pozwala określić współczynnik równoważności międzypołówkowej;
odwołuje się do jednokrotnego pomiaru jednym testem; de facto postępowanie takie
przypomina omówiony wcześniej współczynnik równoważności międzytestowej.
Test może być podzielony na połowy: losowo, lub z uwzględnieniem statystyk
opisujących poszczególne pytania, albo po prostu na pytania o numerach parzystych
vs. pytania o numerach nieparzystych. Ocenianym zródłem błędu są różnice między
połówkami dotyczące specyficznych treści pytań.
Metody oparte na analizie właściwości statystycznych pozycji testowych
Estymacja zgodności wewnętrznej opiera się na jednokrotnym badaniu, w ogólnym
rozumieniu współczynniki tego rodzaju są średnią wszystkich możliwych
współczynników równoważności międzypołówkowej odwołujących się do różnych
przepołowień . Metody tego typu odwołują się do tzw. wzorów KR20
i KR21 opracowanych przez Kuderę i Richardson, oraz formuły obliczania a
przedstawionej przez Cronbacha. Współczynniki tego typu maksymalizują się dla skal
jednorodnych czynnikowo (homogenicznych), w których poszczególne pozycje są
względem siebie równoległe; zródłem błędu jest zatem heterogeniczność pytań i ich
treść.
UWAGA: ILUSTRACJ TEGO ZAGADNIENIA JEST SAMOUCZEK ANALIZY ITEMMETRYCZNEJ NR 1
Rzetelność testu
Metody szacowania rzetelności (3)
Metody oparte na analizie związków itemów z ogólnym wynikiem testu
Metody tego typu pozwalają na określenie rzetelności w oparciu o jednokrotne badanie.
W sensie operacyjnym obliczane wskazniki są pochodnymi mocy dyskryminacyjnych
korelacji między pozycjami a wynikami ogólnymi w skali. W celu obliczenia tak
budowanych współczynników rzetelności stosuje się wzory zaproponowane przez
Spearmana i Browna lub Gulliksena. yródłem błędu jest dobór treści itemów.
Ocena stopnia zgodności sędziów kompetentnych
Metoda stosowana niezbyt często, zazwyczaj w przypadku narzędzi, gdzie odpowiedzi
osoby badanej podlegają swobodnej ocenie diagnosty. W celu oceny zgodności kilku
zestawów ocen tego samego materiału, dokonanych przez kilku niezależnie pracujących
diagnostów sędziów kompetentnych oblicza się np. współczynnik zgodności sędziów
W-Kendalla. yródłem wariancji błędu mogą być niedostatki pracy diagnostów lub
niedostatki klucza według którego dokonywane są oceny.
Rzetelność testu
Czynniki wpływające na rzetelność pomiaru
Na rzetelność testu wpływają cztery czynniki:
długość testu, jakość pytań, homogeniczność mierzonej zmiennej
i zakres mierzonych wielkości.
Wydłużanie testu powoduje wzrost rzetelności, skracanie obniżenie rzetelności
(por. wzory prorocze Spearmana i Browna). Rzetelność budują dobre pytania. Im
lepsze charakterystyki pytań (np. pytania opisywane są przez wysokie wartości mocy
dyskryminacyjnych) tym bardziej rzetelna skala. Pytania o zerowych mocach
dyskryminacyjnych (nie różnicujące osób badanych) psują rzetelność skali.
Dwa pozostałe czynniki mają po części charakter statystyczny. Wyższe współczynniki
rzetelności uzyskuje się dla homogenicznych (wąsko zdefiniowanych) zmiennych,
gdzie poszczególne pytania dotyczą podobnych zachowań i wysoce ze sobą korelują.
Wyższe współczynniki rzetelności łatwiej uzyskać jest także, gdy zakres mierzonych
wielkości jest bardzo zróżnicowany; mówiąc prościej, badamy bardzo zróżnicowaną
próbę osób badanych a nie tylko osoby podobne do siebie.
UWAGA: ILUSTRACJ TEGO ZAGADNIENIA JEST SAMOUCZEK ANALIZY ITEMMETRYCZNEJ NR 1
Rzetelność testu
Wzory prorocze Spearmana i Browna
Pozwalają na określenie rzetelności testu n-krotnie wydłużonego, przy założeniu że
dodane zadania są tak samo dobre jak zadania w wersji przed przedłużeniem.
nrtt
rtt =
n
1+ (n -1)rtt
n wielkość przedłużenia testu,
rtt rzetelność testu przed przedłużeniem,
rttn rzetelność testu po n-krotnym przedłużeniu.
Powyższy wzór można przekształcić, aby określał krotność przedłużenia niezbędną do
osiągnięcia danej wartości współczynnika rzetelności.
rtt (1- rtt )
n
n =
rtt (1- rtt )
n
rttn pożądana rzetelność testu po n-krotnym wydłużeniu,
rtt pierwotna rzetelność testu.
UWAGA: ILUSTRACJ TEGO ZAGADNIENIA JEST ĆWICZENIE NR 4
Wyszukiwarka
Podobne podstrony:
Notatki Prawo Handlowe dr Rzetelskabezpieczny handel rzetelni kontrahenciWorek, Rzetelność i trafność w badaniach jakościowychzjazd 3 rzetelnosc i MFFKodeksu Rzetelnych Praktyk legislacyjnych 2007Rzetelność” Grossa Z ludzi porządkujących groby ofiar zrobił haniebnych kopaczyPrawo do rzetelnego procesu wspr nieletnich w swietle przepisówmetody badania rzetelności testuTrafnosc rzetelnosc 6iKOREKTAwięcej podobnych podstron