Rozdział 2. Na czym polega diagnoza...
2.5. Co to jest trafność testu?
charakter losowy, może być to podział na itemy parzyste-nieparzyste (najczęściej stosowany), lub oparty na treści i trudności pozycji testowych. Najczęściej do oceny rzetelności testu za pomocą opisywanej metody stosuje się współczynnik Spearmana-Browna. Inną powszechnie stosowaną metodą oceny rzetelności jest ocena zgodności wewnętrznej, bazująca na założeniu, że istnieje wiele możliwych podziałów testów na połowy. Uwzględnienie wszystkich możliwych podziałów danego testu na połowy daje w rezultacie średni współczynnik rzetelności danego testu. Najczęściej stosowanym do oceny zgodności wewnętrznej współczynnikiem jest alfa- Cronbacha.
Badanie zgodności ocen sędziów ma zastosowanie w przypadku tych narzędzi, w których oceny odpowiedzi dokonuje badacz (np. w skali WISC-R podtesty Słownik, Rozumienie, Podobieństwa). Polega ona na ocenie odpowiedzi zapisanych w arkuszu badania przez dwóch niezależnych specjalistów, a następnie obliczeniu współczynnika korelacji między nimi. Tak szacowana rzetelność jest niezbędna w testach, w których ocena odpowiedzi jest dokonywana indywidualnie według wskazówek zawartych w kluczu, a nie ściśle zgodnie z kluczem, czyli przede wszystkim w testach językowych, gdzie badany formułuje wypowiedź podlegającą późniejszej ocenie.
Ze względu na fakt, że każdy z tych współczynników pozwala ocenić rzetelność z punktu widzenia różnych źródeł błędów pomiaru, w większości testów stosuje się jednocześnie kilka metod oceny jego rzetelności.
W przypadku baterii testowych oblicza się niezależne wskaźniki rzetelności dla podskal, a także dodatkowo tzw. współczynnik Mosiera, który opiera się na średniej rzetelności testów tworzących skalę i jest względnie niezależny od stopnia skorelowania składowych. Szczegółowy opis oraz porównanie poszczególnych sposobów oceny rzetelności zamieszczony jest m.in. w pracy Hornowskiej (2010) czy Brzezińskiego (2000).
Trafność testu odnosi się do tego, czy rzeczywiście test mierzy tę zmienną, do pomiaru której został skonstruowany. Informuje nas ona o tym na ile wynik testu może być interpretowany w kategoriach zmiennej, do której pomiaru test był w zamierzeniach przeznaczony. Trafność testu wyznacza granice jego interpretacji, mówiąc o tym, jakie wnioski można wyciągać na podstawie otrzymanych z jego zastosowaniem wyników. Zawsze przed wykorzystaniem danej metody, należy sprawdzić, co określone narzędzie pomiaru w rzeczywistości mierzy. O trafności teoretycznej testu możemy mówić wówczas, gdy istnieją logiczne i empiryczne związki między danym testem a określoną teorią, na której on bazuje. Trafność treściowa oznacza stopień, w jakim treść pozycji testowych odpowiada definicji mierzonej cechy czy zjawiska. Test trafnytreściowo powinien zawierać pozycje testowe reprezentatywne dla badanej cechy na podstawie przyjętej jej definicji. Trafność kryterial-na (diagnostyczna i prognostyczna) wskazuje na możliwość przewidywania określonych aspektów funkcjonowania człowieka (np. osiągnięć szkolnych) na podstawie wyniku danego testu.
Mówi się także o trafności zbieżnej, zwanej konwergencyjną, określającej, czy test koreluje z tymi zmiennymi, z którymi powinien być powiązany, oraz trafności różnicowej, zwanej dywergencyj-ną, odnoszącej się do odwrotnej zależności, czyli sprawdzającej czy test nie koreluje ze zmiennymi, z którymi nie powinien być powiązany (Tarnowski, Fronczyk, 2009).
Ponieważ - co podkreśla w swojej pracy E. Hornowska (2010) - trafność testu wiąże się z jego konkretnym zastosowaniem, dlatego też na etapie wyboru narzędzia diagnostycznego badacz powinien szczegółowo przeanalizować zarówno cel badania, jak i dostępne pod jego kątem metody diagnostyczne.
Trafność teoretyczną testu ocenia się za pomocą różnorodnych metod, m.in. analizy różnic mię-dzygrupowych, analizy czynnikowej, analizy struktury wewnętrznej testu (Anastasi, Urbina, 1999; Hornowska, 2010). Metoda analizy różnic międzygrupowych polega na porównaniu dwóch grup, wyodrębnionych na podstawie odpowiedniego kryterium zewnętrznego, co do których mamy podstawy sądzić, iż będą osiągać niskie i wysokie wyniki w danym teście. Jeśli wyniki testowe tych
H