Irena Zinserling1
Trafność i rzetelność narzędzi
Podstawowym pytaniem, jakie możemy sobie zadać, gdy otrzymujemy do ręki nowy test,
jest pytanie, czy jest on "dobry". Niestety mamy ograniczone możliwości oceny jakości narzędzia,
które nigdy wcześniej nie było użyte. Jedyne, co jesteśmy w stanie zrobić to, na podstawie naszej
wiedzy i intuicji, stwierdzić, na ile pozycje testu wydają się mierzyć to, co mierzyć mają (tzw.
trafność fasadowa). Może się tak zdarzyć, że pozycje, które wydają się być bardzo dobre, w istocie
takimi nie są. Czasami zdarza się też odwrotnie. Zadanie, które wydaje się słabo reprezentatywne
dla jakiejś dziedziny wiedzy lub grupy umiejętności, może okazać się zadaniem niemalże
doskonałym. Dlatego też, jeśli chcemy ocenić jakość testu, który mamy stale wykorzystywać,
musimy go najpierw użyć przynajmniej jednokrotnie na pewnej grupie osób. Grupie, której
członkowie nie różnią się od osób, dla których test jest przeznaczony. Takie próbne wykorzystanie
testu nazywa się pretestem. Jeśli np. chcielibyśmy zbadać jakość testu selekcyjnego dla
szóstoklasistów, to zanim zaczniemy go używać do celów selekcyjnych, warto dokonać pretestu
tego narzędzia. Pretest moglibyśmy przeprowadzić na niewielkiej grupie szóstoklasistów
z poprzedniego rocznika. Jednak może się zdarzyć tak, iż nie możemy sobie pozwolić na
wcześniejsze użycie testu. W takim wypadku możemy skorzystać z pierwszego przeprowadzenia
testu, aby ocenić jego jakość. Może to pozwolić na poprawienie jego jakości w przyszłości. Jeśli
dokonamy oceny jakości narzędzia przed ogłoszeniem wyników, to możemy ewentualnie nie
uwzględnić w ogólnym wyniku tych pytań, których jakość była niezadowalająca.
Jak ocenić ową jakość testu? Na podstawie pretestu możemy ustalić dwie podstawowe
charakterystyki narzędzia pozwalające ocenić jego jakość: trafność i rzetelność. Obie wyrażone są
przez współczynniki korelacji2 bądz ich pochodne. Fakt, iż trafność i rzetelność wyrażone są
liczbowo, powala nam na ocenę jakości testów oraz ułatwia dokonywanie porównań między nimi.
1
W początkowej części oparłam się na tekście Marcina Składa Trafność i rzetelność , COME UW 2000, w dalszych
na książce Anne Anastasi i Susane Urbina Testy psychologiczne . Warszawa: PTP, 1999
2
Korelacja jest miarą siły związku (współzmienności) dwóch zmiennych. Współczynniki korelacji mogą wynosić od <-
1 do +1>, przy czym znak informuje o kierunku związku dodatni mówi, że wraz ze wzrostem wartości jednej
zmiennej rosną wartości drugiej zmiennej (np. korelacja dodatnia między inteligencją a wynikami testów wiadomości
im wyższy poziom inteligencji tym lepsze wyniki w teście), korelacja ujemna świadczy o tym, że wraz ze wzrostem
wartości jednej zmiennej maleją wartości drugiej zmiennej (np. korelacja między liczbą nieobecności na zajęciach a
wynikami w teście im więcej nieobecności tym niższe wyniki w teście). Siła korelacji wyraża się wartością
bezwzględną współczynnika korelacji tzn. korelacja -1 i +1 są równie silne (idealne dopasowanie wyników do linii
prostej).
Irena Zinserling Trafność i rzetelność narzędzi
2
Pojęcie trafności jak i rzetelności wyrosło na bazie pewnej filozofii. Narzędzia
psychometryczne służą do pomiaru cech osób. Cechy owe, według klasycznej teorii testów, można
przedstawić jako jednowymiarowe kontinua. Każde takie kontinuum rozciąga się od 0 do
nieskończoności. Osobie możemy przypisać pozycje jakie zajmuje na wszystkich kontinuach. W
ten sposób dokonalibyśmy pełnego opisu cech tej osoby. Cechy fizyczne osoby moglibyśmy opisać
przez kilkanaście charakterystyk wyrażonych w wartościach liczbowych. Podobnie atrybuty
psychiczne jednostki mogą być opisane w identyczny sposób. Zgodnie z tą filozofią myślenia
pełny opis osoby to pewna ilość charakterystyk, opisujących w jakim stopniu osoba posiada różne
właściwości. Przy czym zakładamy zazwyczaj, iż cechy te w populacji mają rozkład normalny3,
co oznacza, że znacznie więcej osób będzie miało wartości bliskie średniej niż skrajne.
Przykładowo znacznie mniejsze jest prawdopodobieństwo, iż losowo wybrany uczeń będzie
wybitnie zdolny niż, że będzie przeciętnie uzdolniony. Z drugiej strony również
prawdopodobieństwo, że natrafimy na ucznia upośledzonego jest niższe, niż to że będzie on
przeciętny.
Wartości charakterystyk konkretnej jednostki nabierają jednak znaczenia dopiero po
porównaniu ich z rozkładem wartości danych cech w populacji4. Aby wyrazić jakąś
charakterystykę jednostki w odniesieniu do innych, możemy ją znormalizować. Normalizacja
oznacza, iż zamiast posługiwać się wartością cechy jaką uzyskaliśmy bezpośrednio z pomiaru,
wyrażoną w skali narzędzia pomiarowego, będziemy posługiwać się względną pozycją osoby w
stosunku do ogółu. Wynik znormalizowany, czyli odniesiony do wyników ogółu, niesie ze sobą
najczęściej informację znacznie bardziej użyteczną niż surowy wynik testowy. Znacznie więcej
możemy powiedzieć o dziecku, o którym wiemy, iż rozwiązało zadanie lepiej od 75% jego
rówieśników, a jedynie jedna czwarta osób była lepsza od niego, niż o dziecku, o którym wiemy
jedynie, że uzyskało 21 pkt. w zadaniu, nie wiedząc, ile punktów z tego zadania dostawały inne
dzieci w jego grupie wiekowej. Wynik normalizowany najczęściej oznacza procent osób, które
mają wynik niższy. Miarę mówiącą o tym, ile procent osób uzyskuje wyniki niższe5, nazywa się
centylem.
Na podstawie jednej charakterystyki, nawet bardzo precyzyjnie zmierzonej, nadal niewiele
możemy powiedzieć na temat osoby. Znając jedynie wagę, nie jesteśmy w stanie ocenić tuszy
osoby. Dopiero kiedy dodamy dodatkowy wymiar: wzrost, mamy nieco pełniejszy obraz osoby,
3
Tzw. krzywa Gaussa
4
Populacja w tym ujęciu jest to ogół wszystkich jednostek, z którego pochodzi badana osoba bądz grupa osób, np.
nasza klasa szósta pochodzi z populacji szóstoklasistów polskich lub jeśli wolimy szerszą definicję, pochodzi z
populacji dwunastolatków.
5
Dokładnie wyniki niższe lub równe, tak np. wynik równy 75 centylowi oznacza, że 75% osób uzyskuje wyniki niższe
bądz równe temu wynikowi. Często używa się również takich miar jak kwartyle, dzielące populację na cztery
równoliczne grupy, oraz decyle (dziesięć grup), ale o tym już Państwo wiedzą.
Irena Zinserling Trafność i rzetelność narzędzi
3
lecz nadal nie jesteśmy w stanie określić, czy nasz bohater jest przy tuszy, czy dobrze zbudowany.
Dopiero dysponując trzema wymiarami: wagą, wzrostem i obwodem w pasie, jesteśmy w stanie
stwierdzić z dużym prawdopodobieństwem, iż jest on raczej szczupłym, choć dobrze zbudowanym
mężczyzną. Im większą liczbą odrębnych wymiarów dysponujemy, tym lepszy jest jakościowy
opis danego aspektu osoby. Jeżeli np. chcielibyśmy ocenić czyjeś umiejętności w jakiejś
dziedzinie, to tym pełniejszy obraz umiejętności będziemy mieli, im więcej niezależnych
wymiarów uda się wyróżnić i zmierzyć. Dysponując przynajmniej kilkoma wymiarami, uzyskamy
nie tylko informację ilościową, pozwalającą ocenić ogólnie umiejętności osoby, lecz także opis
jakościowy, mówiący w jakich aspektach umiejętności tej osoby są ponadprzeciętne, w jakich
zadowalające, a w jakich wymagają jeszcze pracy.
Pomiar wzrostu czy wagi jest względnie prosty, ponieważ dysponujemy prawie
doskonałymi narzędziami pomiarowymi tych cech. Na czym polega doskonałość tych narzędzi? Są
one rzetelne i trafne. Upraszczając rzetelność oznacza, iż mierzą dokładnie (przez powtórzenie
pomiaru w tych samych warunkach otrzymuje się ten sam rezultat). Trafność, że mierzą dokładnie
to, co mają mierzyć!
Obrazowym przykładem można być strzelanie do celu. Każdy element składowy narzędzia
jest jednym strzałem. Jeśli nasze trafienia położone są blisko siebie, to odznaczają się wysoką
rzetelnością. Jeśli trafiliśmy w punkt, w który chcieliśmy strzelić, to wskaznik jest trafny. Możemy
jednak wyobrazić sobie sytuację, gdy nasze strzały położone są blisko siebie (rzetelne), ale nie
w centrum tarczy, gdzie mieliśmy strzelić (nietrafne).
Co to oznacza w praktyce? Test może być np. trafny, ale nierzetelny możemy mierzyć
umiejętności, które chcieliśmy zmierzyć (np. znajomość geografii), ale wyniki przy kolejnych
pomiarach u tej samej osoby będą się znacznie różnić. Może nastąpić inna sytuacja test rzetelny
ale nietrafny, co oznacza, że wyniki testu są stałe przy kolejnych pomiarach, ale nie mierzą cechy,
o którą nam chodziło (tzn. np. mierzą inteligencję, a nie znajomość geografii). Czyli rzetelność
wskaznika nie gwarantuje jego trafności!
Wróćmy jednak do naszego przykładu z pomiarem cech fizycznych i psychicznych.
Zacznijmy od wzrostu. Jeżeli będziemy mierzyć wzrost osoby (która już nie rośnie) wielokrotnie, to
za każdym razem uzyskamy bardzo podobny wynik, różnice nie będą przekraczały 1 % pomiar
będzie zatem rzetelny. Wzrost określić można jako odległość między czubkiem głowy a spodem
stóp, i tę właśnie odległość mierzymy pomiar będzie zatem idealnie trafny.
Znacznie trudniejszym zadaniem jest pomiar cech bardziej złożonych, a szczególnie cech
natury psychicznej. Dzieje się tak ponieważ nie jesteśmy w stanie stworzyć równie doskonałych
(jak waga czy centymetr) narzędzi do pomiaru cech psychicznych. Dlaczego?
Powiedzmy, że będzie nas interesować taka cecha jak stopień opanowania przez ucznia
Irena Zinserling Trafność i rzetelność narzędzi
4
materiału z geografii z klasy 6. Istnieje pewna, prawie nieskończona, liczba pytań jaką moglibyśmy
zadać i na które uczeń, który w 100% opanował wszystkie treści programowe, byłby w stanie
odpowiedzieć. Jeżeli tylko potrafilibyśmy zmierzyć tą abstrakcyjną zdolność do odpowiedzi na
wszystkie możliwe pytania, to mielibyśmy pomiar doskonale trafny i rzetelny.
W praktyce liczba pytań, które możemy zadać, z jednej strony jest ograniczona czasem, jaki
możemy poświecić na pomiar, a z drugiej wytrzymałością ucznia. Tak więc pytania, które
zadamy, będą stanowić jedynie pewną reprezentację zbioru wszystkich możliwych pytań.
Reprezentacja ta może być bardziej lub mniej dobra, ale nigdy nie będzie doskonała. Reprezentacja
owa nie jest doskonała, gdyż w naszym ograniczonym zestawie pytań pewne treści muszą zostać
pominięte. Między innymi dlatego test nigdy nie będzie idealnie trafny. Dlatego też często zdarza
się, iż dwóch uczniów, którzy opanowali dokładnie taki sam procent materiału, uzyskuje
diametralnie różne oceny; jednemu uczniowi pytania akurat dobrze "pasowały" a innemu zupełnie
nie. Dzieje się tak, ponieważ przypadkowo jeden z nich akurat opanował tę część materiału, która
trafiła do naszej reprezentacji, zaś drugi uczeń przyswoił tę część, którą pominięto w teście.
Dlatego ważne jest, aby przy wyborze pytań (pozycji testowych) zadbać o to, by pokrywały
one możliwie najszerzej treści programowe lub zakres umiejętności, który chcemy mierzyć. Oprócz
właściwego wyboru pytań, znaczenie ma również ich ilość: im więcej pytań zadamy, tym lepiej
będą mogły one reprezentować ogół wszystkich możliwych pytań obejmujących dany temat.
Trafność testu jest zatem ograniczona przez to, iż jest on zawsze nie w pełni doskonałą
reprezentacją wszystkich zadań. Nie jest to jednak jedyne ograniczenie trafności testów. Trafność
testu ogranicza dodatkowo fakt, iż odpowiedzi na nasze pozycje testowe nie będą zdeterminowane
jedynie przez wiedzę czy umiejętności ucznia, będące przedmiotem pomiaru. Oprócz właściwego
przedmiotu pomiaru na odpowiedzi na pozycje testu będą wpływały dwa inne rodzaje czynników.
Pierwszy rodzaj, to czynniki stałe, tak np. odpowiedz na pytanie zależeć może np. od zdolności do
właściwego zrozumienia go, od szybkości czytania, etc. Drugą grupę stanowić będą czynniki
losowe, zmienne, jak np. możliwość zgadnięcia właściwej odpowiedzi, nastrój czy samopoczucie.
Część odpowiedzi, zdeterminowanych innymi niż właściwy przedmiot pomiaru czynnikami,
nazwiemy błędem.
Czynniki stałe nie będą obniżały rzetelności testu. Test z geografii, którego wyniki zależą
od ogólnej inteligencji, może być w dużej mierze rzetelny, ale nie będzie w pełni trafny, ponieważ
jego wynik tylko w części zależy od opanowania materiału, a w części od inteligencji. Inteligencja
nie zmienia się z minuty na minutę, wyniki tego testu będą zatem stabilne. Skoro wyniki testu będą
stabilne, rzetelność może być wysoka. Tego typu czynniki stałe składają się na błąd
systematyczny. Jednocześnie wyniki uzyskiwane przez uczniów nie będą odnosiły się w pełni do
tego, co chcieliśmy mierzyć, test nie będzie zatem trafny.
Irena Zinserling Trafność i rzetelność narzędzi
5
Test, w którym uczeń ma dużą szansę na udzielenie dobrej odpowiedzi na pytanie, po prostu
zgadując ją, będzie z kolei nierzetelny. Jego rzetelność będzie niska, ponieważ wynik będzie
niestabilny: za jednym razem uczniowi uda się zgadnąć więcej prawidłowych odpowiedzi, za
innym razem mniej. Z tego typu problemem możemy sobie poradzić, wydłużając test.
Kiedy uczeń odpowiada na serię pytań, to udzielenie prawidłowej odpowiedzi na
pojedyncze pytanie zależeć będzie od szczęścia oraz umiejętności. Umiejętności wpływają tak samo
na każde pytanie, szczęście losowo. Oznacza to, że to, czy uczeń zgadł odpowiedz na poprzednie
pytanie, nie wiąże się w żaden sposób z prawdopodobieństwem, że zgadnie kolejne. Jeżeli
natomiast uczeń odpowiedział prawidłowo na poprzednie pytanie dzięki swojej wiedzy,
prawdopodobieństwo, że udzieli prawidłowej odpowiedzi na kolejne pytanie, jest wyższe, niż
gdyby nie znał odpowiedzi na poprzednie pytanie. Tak więc wpływy stałe kumulują się, natomiast
wpływy losowe nie. Zatem im więcej pytań w teście, tym większa szansa, że wpływy losowe na
pojedyncze pytania zniosą się wzajemnie. Im dłuższy test, w tym większym stopniu wynik zależeć
będzie od umiejętności, a w mniejszym od szczęścia.
Rozważmy następujący przykład: dysponujemy testem z zamkniętymi pytaniami, gdzie
każde pytanie ma pięć odpowiedzi, w tym jedną właściwą. Zatem prawdopodobieństwo zgadnięcia
odpowiedzi na pojedyncze pytanie wynosi 1/5. Jeżeli nasz test miałby tylko 3 pytania, to szansa na
to, iż uczeń, który nic nie umiał, uzyska maksymalny wynik, wynosi 1/(5*5*5) =1/125. Jeśli
natomiast w naszym teście byłoby 10 pytań, to szansa na to, iż ten sam uczeń dzięki przypadkowi
uzyska maksymalny wynik wynosi 1 / 9 765 625. Jeśli nasz test byłby bardzo długi, to każdy uczeń,
niezależnie od szczęścia, uzyskiwałby wynik w teście równy liczbie pytań, na które zna prawidłową
odpowiedz plus 1/5 liczby pytań, w których zgadywał.
W = Wt + l/5*(Lp - Wt)
W: wynik uzyskany,
Wt: wynik prawdziwy (na ile pytań znał odpowiedz),
Lp: Całkowita liczba pytań (maksimum jakie można uzyskać w teście)
Jednak nie wszystkie czynniki losowe (błędy przypadkowe), ograniczające rzetelność testu,
możemy eliminować, zadając więcej pytań, np. jeśli odpowiedzi na pytania zależą od nastroju
i samopoczucia, to podczas jednego wypełnienia testu samopoczucie ucznia raczej nie będzie się
zmieniać z pytania na pytanie. Zatem rzetelność, mierzona jako spójność wewnętrzna6, byłaby
wysoka. Jeśli powtórzylibyśmy test po pewnym czasie, to samopoczucie ucznia mogłoby być
diametralnie inne, zatem rzetelność testu mierzona przez powtarzanie pomiaru byłaby niska. Tego
typu błędów losowych nie możemy zredukować, zwiększając liczbę pytań.
Irena Zinserling Trafność i rzetelność narzędzi
6
Wyżej wspomniana inteligencja nie obniża rzetelności i zaliczyć ją możemy do tzw. błędów
systematycznych.
Tab. 1 Trafność i rzetelność
Trafność niska Trafność wysoka
Pomiary trafne, ale nierzetelne małe
Pomiary nierzetelne i nietrafne, dające
błędy systematyczne oraz duże błędy
zarówno błędy przypadkowe jak i
przypadkowe. Ponieważ mała rzetelność
Rzetelność
systematyczne. Wyniki są całkowicie
zmniejsza trafność pomiaru, wyniki nie
nieprzydatne z punktu widzenia celów
niska
zapewniają osiągnięcia celu badania.
badania nie wiemy co mierzymy, a na
Wiemy co mierzymy, ale uzyskiwane
dodatek wyniki są bardzo zmienne.
wyniki nie są stabilne.
Pomiary trafne i rzetelne, których
Pomiary rzetelne, ale nietrafne, dające małe
rezultatem są małe błędy systematyczne i
Rzetelność
błędy przypadkowe oraz poważne błędy
przypadkowe. Ideał mierzymy
systematyczne. Nie wiemy, co dokładnie
wysoka
precyzyjnie, a na dodatek to, co dokładnie
mierzymy, choć rezultaty są stałe.
chcieliśmy mierzyć.
Pomiar rzetelności
Rzetelność oznacza zgodność wyników uzyskanych przez te same osoby badane
kilkakrotnie tym samym testem, badane różnymi zestawami równoważnych zadań lub badane
w różnych, zmiennych warunkach (A. Anastasi, S. Urbina Testy psychologiczne ).
Pojęcie rzetelności dotyczy kilku aspektów zgodności wyników. W najszerszym rozumieniu
tego pojęcia rzetelność testu wskazuje na zakres, w jakim różnice indywidualne w wynikach testu
można przypisać prawdziwym różnicom w zakresie rozważanej cechy, a w jakim błędom
losowym. Czyli miary rzetelności pozwalają oszacować, jaka część ogólnej wariancji wyników
testu stanowi wariancja błędu7. Jednak sedno sprawy tkwi w zdefiniowaniu wariancji błędu te
same czynniki mogą zostać uznane za wariancję błędu w jednym przypadku, w drugim zaś za
wariancję prawdziwą, zależnie od celu testu. Jeśli chcemy mierzyć lęk jako stałą cechę, to zmiany
6
O sposobach mierzenia trafności i rzetelności będzie mowa w dalszej części rozdziału
7
Błąd jest tu rozumiany jako zmienność wyników, której nie jesteśmy w stanie kontrolować. Nie są to błędy
wynikające z niewłaściwej metodologii badania, czy naszych niedociągnięć badawczych.
Irena Zinserling Trafność i rzetelność narzędzi
7
w poziomie jej natężenia będą dla nas wariancją błędu, jeśli chcemy mierzyć lęk jako stan w danym
momencie, to zmiany natężenia tej cechy będą istotne z naszego punktu widzenia, a zatem będą
należały do wariancji prawdziwej. Podsumowując wszystkie okoliczności, które nie mają
związku z celem badania testowego stanowią wariancję błędu, dlatego też żaden test nie jest
idealnie rzetelny (nie możemy kontrolować wszystkich czynników).
W praktyce określa się kilka rodzajów rzetelności, wyrażanych we współczynnikach
korelacji, ponieważ dotyczą stopnia zgodności między dwoma niezależnie uzyskanymi zbiorami
wyników. Współczynnik rzetelności powinien wynosić co najmniej 0,75 - 0,80.
Metoda powtarzania pomiaru. Metoda polega na powtórzeniu pomiaru tym samym testem
w możliwie tych samych warunkach. Współczynnikiem rzetelności jest korelacja między
wynikami otrzymanymi przez te same osoby w dwukrotnym badaniu tym samym narzędziem.
Wariancja błędu odpowiada przypadkowym wahaniom wyników, występującym z jednego badania
na drugie (np. nastrój badanego, pogoda, przypadkowe dystraktory). Im większe są różnice między
porównywanymi pomiarami, tym mniejsza jest rzetelność pomiaru. Metoda ta ma kilka wad. Po
pierwsze, niektóre cechy mogą być mierzone tylko jeden raz, np. jakakolwiek pierwsza,
niepowtarzalna reakcja człowieka reakcja na nowe zdarzenie czy reakcja na nowe doznanie. Po
drugie, powtórny pomiar powoduje zmianę wyników uzyskanych w pierwszym pomiarze, np.
respondent może okazywać niezadowolenie, brak zainteresowania, dawać te same, zapamiętane,
odpowiedzi lub wyćwiczyć pewne umiejętności (dotyczy to zadań dotyczących rozumowania czy
umiejętności odkrycie reguły pozwoli ją zastosować po pewnym czasie bez powtarzania całej
analizy logicznej). Metoda ta nadaje się więc do testów, których powtarzanie nie wpływa w sposób
znaczący na wyniki (np. testy różnicowania sensorycznego).
Metoda pomiarów równoległych (wersji alternatywnych) wymaga budowy dwóch
równoważnych testów. Pomiar przeprowadza się za pomocą dwóch narzędzi w pewnym odstępie
czasu. Korelacja wyników uzyskanych w badaniu dwoma wersjami jest współczynnikiem
rzetelności testu, przy czym jest to miara stałości w czasie, jak i spójności odpowiedzi na różne
zbiory zadań. Wadą metody jest wybór czasu między kolejnymi pomiarami, budowa dwóch
ekwiwalentnych narzędzi (np. dobór treści może wpłynąć na różnice między wynikami w jednej
i drugiej wersji, tak jak to bywa w różnych wersjach klasówki) oraz dodatkowe koszty. Ponadto nie
unikniemy tu wpływu ćwiczenia, a powtórne badanie może zmienić istotę testu (np. w zadaniach
wymagających pomysłowości). W praktyce okazuje się, że bardzo trudno jest skonstruować
prawdziwie równoważne wersje.
Irena Zinserling Trafność i rzetelność narzędzi
8
Metoda połówkowa (współczynnik zgodności wewnętrznej). Zgodnie z tą metodą
"przepoławia się" losowo dany test. Wynik tego pomiaru zależy głównie od sposobu, w jaki
poszczególne pozycje zostały podzielone (losowo, parzyście-nieparzyście itp.), aby otrzymać jak
najbardziej równoważne połówki. Zwykle oddziela się pozycje o numerach parzystych od pozycji
nieparzystych, co eliminuje wpływ wzrastającej trudności testu. Z drugiej strony nie można
dzielić zadań odnoszących się np. do tego samego tekstu, czy rysunku cała grupa powinna być
zaliczona do jednej lub drugiej połowy . Otrzymane połówki traktuje się jako oddzielne narzędzia
i koreluje ich wyniki. Rzetelność szacowana tą metodą jest miarą wewnętrznej spójności
dotyczącą doboru treści. Mały współczynnik korelacji oznacza, że dany test jest niespójny
wszystkie pozycje nie mierzą w tym samym stopniu danej cechy. Wymaga się, aby było co
najmniej kilkanaście pozycji w danym narzędziu.
Przy założeniu, że pozostałe warunki są takie same, im dłuższy test, tym bardziej
rzetelny8 dysponując większą próbką zachowania uzyskamy bardziej adekwatną i spójną miarę.
Metoda Kudera-Richardsona wykorzystuje wyniki jednego badania jedną wersją
narzędzia i jest oparta na zgodności odpowiedzi na wszystkie pytania w teście. Wariancja błędu
wypływa z dwóch zródeł doboru treści oraz heterogeniczności badanej właściwości. Im bardziej
jest jednorodna badana próbka zachowania, tym większa jest zgodność między zadaniami. Np.
w teście mierzącym tylko umiejętność mnożenia możemy się spodziewać większej zgodności
wyników, niż w teście mierzącym znajomość geometrii, algebry i trygonometrii.
Oczywiste jest, że wyniki testu są bardziej jednoznaczne, gdy pochodzą ze względnie
jednorodnego testu. Problem w tym, że nie zawsze nasza badana cecha jest jednorodna. W takim
wypadku heterogeniczny (wielowymiarowy) test będzie ją mierzył dużo lepiej niż test
homogeniczny. Przy przewidywaniu heterogenicznego kryterium różnorodność zadań testowych
niekoniecznie będzie zródłem wariancji błędu. Przykładem mogą tu być testy zawierające podskale,
mierzące różne właściwości tej samej cechy (np. inteligencji).
Rzetelność w tej metodzie opiera się na analizie sposobu rozwiązania każdego zadania, a nie
na porównaniu wyników połówkowych. U podstaw leży założenie, że narzędzie można podzielić na
tyle części, ile jest w nim pozycji, czyli zadań lub pytań. Każda pozycja traktowana jest jako
równoległa względem pozostałych. Przy założeniu, że wszystkie pozycje mają jednakową średnią
i jednakową wariancję, Kuder i Richardson wprowadzili wiele wzorów do ustalenia
współczynników rzetelności pomiaru. Najczęściej jest stosowany wzór dwudziesty oznaczony
symbolem KR20, ograniczony jednak do odpowiedzi zero-jedynkowych. Ogólny wzór dla testów
8
Wpływ wydłużania lub skracania testu na współczynnik zgodności można oszacować, korzystając z wzoru
Spearmana-Browna, ale pomijamy go w tym tekście. Zainteresowanych odsyłam do materiałów dodatkowych.
Irena Zinserling Trafność i rzetelność narzędzi
9
zawierających kilka możliwych kategorii odpowiedzi znany jest jako współczynnik alfa
Cronbacha9, który jest wynikiem średnim, otrzymanym ze wszystkich możliwych współczynników
korelacji obliczonych dla różnych wersji połówkowych danego narzędzia. Wysoka alfa oznacza, że
odpowiedzi są ze sobą ściśle związane (rzetelne).
Zgodność ocen sędziów, jest stosowana przy narzędziach, w których ocena ma charakter
subiektywny. Jedną z wariancji błędu może być wariancja związana z osobą oceniającą
odpowiedzi, co jest szczególnie istotne przy testach twórczości i testach projekcyjnych stosowanych
np. w psychologii. Przy tego typu testach istotne jest oszacowanie zgodności ocen sędziów każda
praca jest oceniana przez dwie osoby (co najmniej), a więc osoba badana otrzymuje dwa wyniki,
które są ze sobą korelowane, a otrzymany współczynnik jest miarą rzetelności.
Podsumowując sposoby szacowania współczynnika rzetelności możemy podzielić
zależnie od wymaganej liczby badań (jedno lub dwa) i wymaganej liczby wersji testu (jedna lub
dwie), bądz określając zródła wariancji błędu (zmienność w czasie, dobór treści, zróżnicowanie
treści, różnice między sędziami).
Warto jeszcze wspomnieć, że w testach szybkości (gdzie zadania są stosunkowo proste,
a ważna jest ich ilość wykonana w określonym czasie), nie wszystkie sposoby oceniania rzetelności
mają sens metodę połówkową warto stosować, tylko wtedy, gdy dzielimy czas przeznaczony na
wykonanie zadań, a nie same zadania.
Podając współczynnik rzetelności należy:
" dokładnie opisać grupę, której wyniki były podstawą obliczenia współczynnika rzetelności (dla
innej grupy osób rzetelność może być inna np. dla różnych grup wiekowych, lub w grupie
równolatków inna niż w grupie o szerokim przedziale wiekowym),
" podać dane dotyczące warunków badania (np. szczegółowa instrukcja, czas trwania, czy
prowadzone było indywidualnie czy grupowo, w wersji papierowej czy komputerowej),
" podać odstęp czasu po jakim powtórzono badanie (o ile je powtarzano).
Warto jeszcze wspomnieć o testach zorientowanych na standard wykonania (np. spełnienie
minimum programowego), gdzie wykonanie ocenia się z punktu uzyskanej biegłości a nie poziomu
osiągnięć. W testach tych zależy nam na oszacowaniu, czy uczniowie zdobyli pewien określony
poziom umiejętności, a nie jakie są ich maksymalne możliwości. Dlatego też w próbie zmniejszona
jest zmienność wyników, a więc maleje współczynnik korelacji. W testach tego typu zastosowanie
9
Tu również pomijam wzory, gdyż występują w kilku wersjach; zainteresowanych zachęcam do poszukania
w literaturze.
Irena Zinserling Trafność i rzetelność narzędzi
10
niektórych z omawianych procedur szacowania rzetelności byłoby niewłaściwe nawet wysoce
stabilny i wewnętrznie zgodny test mógłby mieć rzetelność bliską zera.
Błąd standardowy pomiaru
Bardzo często nasz test nie mierzy pojedynczego wymiaru a kilka, które składają się na
ogólny wynik. Aatwo możemy sobie wyobrazić, że materiał z jakiejś dziedziny możemy podzielić
na jednostki, których opanowanie nie jest od siebie wzajemnie zależne, np. to, iż uczeń opanował
materiał dotyczący algebry, nie musi oznaczać, iż ma on jakąkolwiek wiedzę na temat geometrii.
Dla takiego testu nie powinniśmy raczej stosować kryterium rzetelności, jakim jest wewnętrzna
spójność pytań10, chyba że podzielimy go na jednorodne części, dla których ustalimy rzetelność
oddzielnie.
Na podstawie współczynnika rzetelności możemy wyznaczyć tzw. "błąd standardowy
pomiaru" (SEM), który pozwala nam ocenić na ile możemy ufać wynikom testu pojedynczych
osób. Poprzez dodanie i odjęcie do wyniku osoby SEM wymnożonego przez stałą11, możemy
zbudować przedział, w którym ten wynik znalazłby się, gdyby nasz test był doskonale rzetelny.
Przedział taki jest przydatny przy interpretacji wyników indywidualnych i jest zabezpieczeniem
przed przywiązywaniem nadmiernej wagi do pojedynczego wyniku liczbowego.
Na przykład: chcielibyśmy określić przedział, w którym z 95% prawdopodobieństwem
znalazłby się wynik prawdziwy dziecka, które otrzymało 25 pkt. w teście, którego SEM wynosi 2,
to do wyniku tego dziecka dodamy i odejmiemy 1,96*SEM.
Wynik prawdziwy tego dziecka będzie zatem, z prawdopodobieństwem 95%, znajdował się
w przedziale: (25-1,96*SEM; 25+1,96*SEM), czyli (25-1,96*2; 25+1,96*2) = (21,08; 28,92).
Czyli na 95% jesteśmy pewni, że wynik prawdziwy dziecka leży między 21 a 29 pkt.
Stąd jeżeli jeden uczeń dostał 2 pkt. więcej od drugiego, nie oznacza to wcale, że
w rzeczywistości jest on lepszy (np. ma większą wiedzę)! Dopiero po uwzględnieniu błędu pomiaru
możemy ocenić, czy różnica między wynikami jest rzeczywiście godna uwagi. Dlatego też
w opracowaniach dotyczących testów podaje się oszacowany SEM, a w interpretacji wyników
pojedynczych osób kładzie się nacisk na przedział, w jakim mieści się wynik osoby badanej, a nie
konkretną liczbę.
10
O czym była mowa przy szacowaniu rzetelności metodą Kudera-Richardsona i współczynnikiem alfa.
11
Stała zależy od szerokości przedziału prawdopodobieństwa, z jakim chcemy określić wynik. W rozkładzie
normalnym 95% wyników mieści się w zakresie ą 1,96 odchylenia standardowego; a 99% w zakresie ą 2,58 odchylenia
standardowego
Irena Zinserling Trafność i rzetelność narzędzi
11
Błąd standardowy pomiaru z jednej strony jest niezależny od wyników w grupie, dlatego
jest bardziej przydatny przy opisie wyników pojedynczych osób niż miary rzetelności. Z drugiej zaś
strony błędy te nie są bezpośrednio porównywalne w różnych testach, gdyż wyrażone są w różnych
jednostkach, dlatego też przy porównywaniu różnych narzędzi lepiej jest stosować współczynniki
rzetelności.
Rodzaje trafności pomiaru
Trafność testu dotyczy tego, co test mierzy i jak dobrze to czyni; mówi o czym można
wnioskować na podstawie wyników. Jest wiele rodzajów oceny trafności pomiaru. Sama nazwa
testu zdecydowanie się do nich nie zalicza :&
Cechę mierzoną przez dany test można zdefiniować tylko dzięki badaniu obiektywnych
zródeł informacji i stosowaniu empirycznych procedur określania jego trafności. Co więcej trafność
musi być określona w odniesieniu do konkretnego zastosowania, przewidzianego dla danego
narzędzia. Ponadto, zależnie od celu naszego testu, może nam zależeć na różnych rodzajach
trafności teoretycznej, treściowej, diagnostycznej, prognostycznej...
Trafność treściowa. Określanie trafności treściowej zasadniczo polega na analizie treści
testu w celu stwierdzenia, czy stanowi on reprezentatywną próbę dziedziny, która ma być
przedmiotem pomiaru. Taką procedurę walidacyjną powszechnie stosuje się w odniesieniu do
testów przeznaczonych do pomiaru stopnia opanowania przez jednostkę określonych
umiejętności czy materiału. Wydawało by się, że wystarczy do tego sama analiza treści, ale
niezbędna jest tu systematyczna analiza dotycząca tego, czy zadania dobrane są adekwatnie
i w odpowiednich proporcjach z całego spektrum różnych zadań; czy obejmują wszystkie
najważniejsze dziedziny, której znajomość będziemy sprawdzać. Trzeba też pamiętać, że zadanie,
które wygląda na pozornie odpowiadające treści badanej cechy, może mierzyć nie faktyczną cechę
czy wiedzę, tylko np. umiejętność rozpoznawania prawidłowych odpowiedzi lub szybkość liczenia
(przy ograniczonym czasie), a nie prawidłowość rozumowania.
Przy konstrukcji np. testu osiągnięć szkolnych prócz specyfikacji zawartości testu,
niezbędnych konsultacji ze specjalistami konstruującymi poszczególne zadania, zróżnicowania
zadań, różnorodności materiału, zazwyczaj stosuje się również procedury empiryczne,
dostarczające dodatkowych informacji na temat trafności treściowej. Porównuje się wyniki tego
samego zadania u uczniów starszych i młodszych i zostawia te zadania, które dają największy
Irena Zinserling Trafność i rzetelność narzędzi
12
przyrost poprawnych rozwiązań między młodszymi a starszymi. Dodatkowo stosuje się analizę
popełnianych błędów12.
Dzięki powyższym procedurom możemy określić, czy test obejmuje reprezentatywną próbę
określonych umiejętności lub wiedzy oraz czy na poziom wykonania nie mają nadmiernego
wpływu zmienne nie związane z celem badania (np. inteligencja, szybkość czytania). Nie wyklucza
to zbierania danych dotyczących innych rodzajów trafności.
Badanie trafności treściowej zazwyczaj nie jest odpowiednim sposobem oceniania
trafności testów uzdolnień i osobowości, choć analiza odpowiedniości i reprezentatywności treści
poszczególnych pytań jest niezbędna na początkowym etapie konstruowania każdego testu, jednak
ostateczna ocena testów uzdolnień i osobowości wymaga empirycznej weryfikacji, za pomocą
odpowiednich procedur opisanych przy innych rodzajach trafności.
Trafności fasadowej nie można mylić z trafnością treściową; nie jest ona żadnym rodzajem
trafności w sensie formalnym. Dotyczy nie tego, co test rzeczywiście mierzy, lecz tego co wydaje
się mierzyć w oczach osób badanych. Jest to istotne przy badaniu osób dorosłych, by nie odbierały
testu jako niepoważnego, niemądrego, błahego taki odbiór treści nie skłoni osób badanych do
współpracy i zaangażowania. Jeśli test przeznaczony jest do badania określonej grupy osób, warto
by zadania dotyczyły dziedziny, którą się one zajmują np. dla mechaników przygotujmy raczej
zadania dotyczące operacji technicznych, a dla dzieci np. owoców czy życia codziennego.
Do miar trafności kryterialnej zaliczyć można trafność diagnostyczną i prognostyczną,
odnoszące się do skuteczności testu w przewidywaniu funkcjonowania jednostki w określonej
dziedzinie (np. w szkole podstawowej).
Trafność prognostyczna. Ocena trafności prognostycznej pomiaru polega na określeniu
związku (najczęściej obliczeniu korelacji) między wynikami pomiaru a kształtowaniem się
mierzonej cechy w pózniejszym okresie. Jest ona istotna w testach stosowanych do celów selekcji
i klasyfikacji (np. określanie kierunku dalszego kształcenia). Należy tu sprawdzić, w jakim stopniu
prognoza opracowana na podstawie pomiaru zostanie potwierdzona przez dalsze zachowanie się
mierzonej cechy, która w pózniejszym okresie może być w tym celu poddana ponownemu
pomiarowi.
Trafność diagnostyczna (kryterialna). Ustalenie trafności diagnostycznej pomiaru polega
na obliczeniu korelacji między wynikami pomiarów a kształtowaniem się danej cechy w tym
12
Np. Item Response Theory - Teoria Analizy Odpowiedzi (TAO), o której będzie mowa podczas kolejnych zajęć
Irena Zinserling Trafność i rzetelność narzędzi
13
samym czasie, mierzonej inną metodą (np. odniesienie do średniej ocen uczniów w momencie
przeprowadzania testu). Warunkiem jest, aby ten drugi pomiar, zwany kryterium zewnętrznym, był
również trafny. Otrzymany współczynnik trafności diagnostycznej pozwala określić stopień,
w jakim wynik pomiaru może być podstawą diagnozy. W testach psychologicznych trafność
diagnostyczna bywa ważniejsza od prognostycznej, gdy zależy nam na określeniu obecnego stanu
rzeczy, a nie np. funkcjonowaniu jednostki w przyszłości, co jest celem trafności prognostycznej.
Danymi kryterialnymi w testach wiedzy czy umiejętności mogą być rozmaite wskazniki
osiągnięć szkolnych przeszłych, obecnych lub przyszłych (np. końcowe osiągnięcia szkolne czy
na kursach zawodowych), oceny dokonane przez specjalistów (np. przy testach psychologicznych
diagnoza lekarska, ocena terapeuty), wyniki podobnych, wcześniej opracowanych testów.
Problemem przy określaniu trafności kryterialnej może być niezależność wyników testu
i kryterium zewnętrznego np. nauczyciele, znając wyniki testu, mogą wystawiać uczniom niższe
oceny, gdy wiedzą, że test poszedł danej osobie gorzej lub je zawyżać, gdy z testu dany uczeń
otrzymał wysokie wyniki. Ważna jest więc nieznajomość wyników testu przez osoby dokonujące
oceny na innych kryteriach.
Trafność teoretyczna to stopień w jakim test mierzy konstrukt teoretyczny lub cechę.
W wielu wypadkach występuje brak zaufania do trafności ustalonej przez przyrównanie do
kryterium zewnętrznego, którego trafność jest niepewna. Wówczas stosuje się metody trafności
teoretycznej. Polegają one na wykazaniu, że wnioski teoretyczne dotyczące danego pomiaru
potwierdzają się w serii pomiarów próbnych lub kontrolnych, w wynikach badań np. różnych grup;
są zgodne z uzyskiwanymi rezultatami osób w różnym wieku. Często przytacza się korelacje z już
istniejącymi, wystandaryzowanymi testami. W analizach tego typu wykorzystuje się także analizę
czynnikową, pozwalającą na wyodrębnienie (pogrupowanie razem) testów mierzących tę samą
cechę (np. zdolności językowe) i oddzielenie ich od testów mierzących inną (np. zdolności
matematyczne).
D.T Campbell (1960) zauważył, że przy analizowaniu trafności teoretycznej ważne jest nie
tylko wykazanie zbieżności ze zmiennymi, z którymi test powinien korelować (trafność zbieżna),
lecz również wykazanie braku związku ze zmiennymi, z którymi zgodnie z teorią dany test nie
powinien współwystępować (trafność różnicowa).
Jak pokazuje ten krótki przegląd, wybór procedury walidacyjnej zależy od tego, do czego
będą wykorzystywane wyniki testu. Jeśli ten sam test ma być wykorzystywany do różnych celów,
Irena Zinserling Trafność i rzetelność narzędzi
14
to jego trafność należy badać na różne sposoby, choć trafność teoretyczna ma podstawowe
znaczenie dla interpretacji wyników w każdym rodzaju zastosowania testu.
Z drugiej strony przygotowanie trafnego testu wymaga od samego początku stosowania
złożonych procedur na różnych etapach konstruowania narzędzia od określenia konkretnej cechy
lub sformułowania definicji badanego konstruktu na podstawie teorii, uprzednich badań lub
systematycznych obserwacji i analiz danej dziedziny, przez przygotowanie wg tych wytycznych
zadań testowych, a następnie empiryczną analizę pozycji (pytań), po analizy statystyczne wyników
całego testu uwzględniające zewnętrzne, z życia wzięte kryteria.
* * *
I jeszcze jedna uwaga na koniec między rzetelnością a trafnością zachodzą ilościowe
współzależności. Zwiększenie objętości testu powoduje wzrost jego rzetelności i (zazwyczaj)
trafności. Ten wzrost nie jest jednak proporcjonalny. Rzetelność pomiaru rośnie bardziej
równomiernie niż jego trafność, która szybciej osiąga swoją górną granicę. Nie jest wskazane
zwiększanie objętości testu w celu osiągnięcia wysokiej rzetelności, ponieważ pomiar może się
okazać nietrafny po przekroczeniu pewnej granicy.
Wyszukiwarka
Podobne podstrony:
Worek, Rzetelność i trafność w badaniach jakościowychNotatki Prawo Handlowe dr Rzetelskae Folia 5 czynniki zakcajce trafno3 rzetelnoscbezpieczny handel rzetelni kontrahenci4 trafnosczjazd 3 rzetelnosc i MFFr Obraz 18 trafnoKodeksu Rzetelnych Praktyk legislacyjnych 2007Rzetelność” Grossa Z ludzi porządkujących groby ofiar zrobił haniebnych kopaczyPrawo do rzetelnego procesu wspr nieletnich w swietle przepisówcharakter a trafnosc decyzji zawodowych iaevg 2002m Obraz 14 cztery rodzaje trafnowięcej podobnych podstron