Untitled

Wyniki testowe są przedstawiane na skalach po to, by można było dokonać ich interpretacji. Ocena wyników rozpoczyna się zazwyczaj od oceny odpowiedzi na poszczególne pozycje testowe. W tym celu najczęściej wykorzystuje się wagi 0 lub 1 dla oznaczenia odpowiedzi niepoprawnych i poprawnych lub też stosuje się bardziej zróżnicowany liczbowo system ocen. Następnie łączy się pozycje testowe, najczęściej dodając do siebie ich wyniki lub wykorzystując bardziej złożone procedury, po to, aby otrzymać wynik surowy. Wyniki surowe zależą w pewnym stopniu od takich cech testu, jak: długość, wybór granic czasowych, trudność pozycji testowych i okoliczności, w jakich test jest przeprowadzany. Czynniki te sprawiają, że bez dodatkowych informacji wyniki surowe są trudne do interpretacji. Przekształcając wyniki surowe na zupełnie inny zbiór wartości, nazywanych wynikami przeliczeniowymi lub wynikami skalowymi, można ułatwić interpretację wyników testowych i przeprowadzenie odpowiednich analiz statystycznych. Proces tworzenia takiej skali wyników nazywa się skalowaniem testu. Wyniki przeliczone mogą pomóc w procesie interpretacji, wskazując na to, w jakim stopniu dany wynik jest podobny do wyników innych osób rozwiązujących test. Zwiększa się w ten sposób możliwość porównywania wyników otrzymanych na przykład w różnych formach tego samego testu lub uzyskanych w inny sposób.

Wyniki surowe lub wyniki przeliczone są często odnoszone do rozkładu wyników otrzymanego dla jednej lub więcej porównywalnych grup. Pozwala to na wyciąganie praktycznych wniosków o indywidualnym poziomie wykonania testu. Interpretacje wyników testowych oparte na takich porównaniach są nazywane interpretacją przez odwołanie się do norm. Centyle, średnie lub inne statystyki obliczone dla takich grup odniesienia nazywane są normami. Normy pozwalają na klasyfikowanie albo na opis badanych osób dzięki temu, że pokazują, w jaki sposób wyniki testowe danej osoby przedstawiają się na tle wyników innych ludzi.

Inne sposoby interpretacji wyników testowych nie odnoszą się bezpośrednio do poziomu wykonania testu przez inne osoby. Tego typu interpretacje mogą mieć wiele różnych form. Większość z nich ogólnie nazywa się interpretacją zorientowaną na kryterium. Wyniki przeliczone wykorzystywane przy tego typu interpretacji, mogą określać propozycję poprawnych odpowiedzi w stosunku do większego zbioru pozycji testowych lub prawdopodobieństwa udzielenia prawidłowej odpowiedzi na jakiś rodzaj pozycji testowych.

Trafność interpretacji zorientowanych na normy zależy częściowo od odpowiednio dobranej grupy odniesienia, na tle której są przedstawiane wyniki testowe. Dlatego należy bardzo starannie definiować i opisywać populację, która stanowi punkt odniesienia. Trafność takich interpretacji zależy również od dokładności, z jaką normy opisują poziom wykonania testu w grupie odniesienia. Populacja może być tak mała, że w zasadzie można przebadać ją w całości. Często jednak bada się tylko próbę osób z populacji będącej punktem odniesienia. Dlatego ważne jest, aby normy były oparte na próbie odpowiedniej wielkości, która jest reprezentatywna, adekwatne i właściwa.

Formy równoległe czy inaczej alternatywne lub równoważne tego samego testu to rozłączne zbiory pozycji testowych wyprowadzane z tego samego obszaru treściowego, mając te same właściwości statystyczne i stosowane dokładnie w taki sam sposób. Procedura przedstawiania wyników otrzymanych w takich formach równoległych na jednej wspólnej skali nazywa się wyrównywaniem. Wyrównywanie można porównać do kalibrowania ciężarków w ten sposób, by wszystkie one wskazywały tę samą wagę dla danego obiektu. Procedura wyrównywania wyników testowych jest jednak bardziej skomplikowana. Obejmuje poprawki statystyczne wyrównujące efekty nawet niewielkiego zróżnicowania trudności i właściwości statystycznych form równoległych testów.

Istnieje jeszcze inny sposób, niepolegający na wyrównywaniu, a pozwalający na porównywanie ze sobą wyników będących efektem oceniania różnych zbiorów pozycji testowych. Jest to testowanie adaptacyjne. Test adaptacyjny składa się ze zbioru pozycji testowych oraz zasad tworzenia podzbiorów tych pozycji dla danej osoby badanej na tej samej skali. Dobór poszczególnych pozycji testowych jest częściowo oparty na odpowiedziach osoby badanej na poprzednie pozycje testowe. Zbiór pozycji testowych i zasady selekcji powinny zostać tak opracowane, aby każda osoba badana odpowiadała na reprezentatywny zbiór pozycji testowych o pożądanej trudności. Reguły selekcji zapewniają zazwyczaj odpowiedni stopień precyzji, zanim badanie zostanie zakończone. Dawniej testowanie adaptacyjne było ograniczone tylko do niektórych, indywidualnie stosowanych testów psychologicznych. Jednak wraz z rozwojem teorii odpowiadania na pozycje testowe (IRT) i rozwojem technologii komputerowej testowanie adaptacyjne stało się bardziej wyrafinowane.

Istotnym momentem w tworzeniu i stosowaniu niektórych testów jest ustalenie jednego lub więcej punktów odcięcia dzielących cały zakres wyników na kategorie. Kategorie te można wykorzystywać do celów opisowych, do dzielenia osób badanych na grupy, w których ma być realizowany odpowiedni dla nich program kształcenia, czy na grupy, dla których uzasadnione są określone predykacje.