Rzetelność i błędy pomiaru
Test - szeroko definiowany jest to zbiór zadań zaprojektowanych w celu ujawnienia określonych zachowań lub skala pozwalająca na opisanie zachowań osób badanych w określonych obszarach albo metoda umożliwiająca pobieranie próbek pracy osób badanych w danej dziedzinie.
Rzetelność - stałość pomiarów, gdy procedura badania testem jest powtarzana dla jednostek lub dla grup badanych osób.
Pomimo stosowania stałości pomiarów wyniki uzyskiwane w trakcie kilkukrotnego badania tej samej osoby czy też tej samej grupy osób nie będą identyczne. Na różnice mogą mieć wpływ takie czynniki jak samopoczucie osoby badanej czy szczęście w zgadywaniu prawidłowych odpowiedzi (test na inteligencję). W związku z tym oraz biorąc pod uwagę zdarzającą się niekiedy subiektywność procedury oceniania wyników, zarówno wynik otrzymany przez osobę badaną jak i średni wynik grupowy będą zawsze odzwierciedlały jakiś, choćby minimalny błąd pomiaru. Błędy pomiaru to nie dające się przewidzieć wielkości losowe. Błąd pomiaru to hipotetyczna różnica między wynikiem obserwowanym otrzymanym przez osobę badaną za pomocą jakiegoś narzędzia pomiarowego a jej wynikiem prawdziwym (uniwersalnym - średnim wynikiem powstającym na skutek wielu powtórzeń testu). Oznacza to, że w uzyskanych wynikach istnieje hipotetyczna wartość wolna od błędu.
Wartość wolna od błędu w zależności od teorii podejścia do rzetelności nosi nazwę:
Wynik prawdziwy - klasyczna teoria testów;
Zdolność osoby badanej lub parametr cechy - teoria odpowiedzi na pozycje testu;
Wynik uniwersalny - teoria uniwersalizacji.
Błędy pomiaru należy odróżnić od błędów systematycznych wpływające na zachowania grup w sposób stały. Jest to na przykład różnica w trudnościach kolejnych form testów. Można to łatwo zaobserwować na studiach kiedy przy podziale grupy na rzędy pytania dla rzędu A są zdecydowanie łatwiejsze niż pytania dla rzędu B.
Źródła błędu pomiaru można podzielić na dwie kategorie:
Związane z osobą badaną - wahania poziomu motywacji osoby badanej, stopnia zainteresowania testem;
Lokowane poza osobą badaną - różnice w poziomie wyciszenia pomieszczenia, zróżnicowanie kryteriów, którymi posługują się osoby oceniające wyniki.
Powinnością każdego autora testu jest wykonanie badań dotyczących rzetelności testu. Podstawowe dane na temat rzetelności to określenie głównych źródeł błędów, zbiorcze dane statystyczne dotyczące wielkości tych błędów oraz przedstawienie zakresu, w jakim dane te można uogólniać na inne formy testu. Powinny obejmować również opis populacji osób badanych. Np. dane uzyskane dla wszystkich Polaków mogą odbiegać od danych uzyskanych dla mieszkańców województwa Kujawsko - Pomorskiego.
Dane na temat rzetelności mogą być przedstawione w terminach wariancji (Wariancja to w statystyce klasyczna miara zmienności. Intuicyjnie utożsamiana ze zróżnicowaniem zbiorowości) lub odchyleń standardowych (Intuicyjnie rzecz ujmując, odchylenie standardowe mówi, jak szeroko wartości jakiejś wielkości (takiej jak np. wiek, inflacja, kurs akcji itp.) są rozrzucone wokół jej średniej. Im mniejsza wartość odchylenia tym obserwacje są bardziej skupione wokół średniej) dla błędów pomiaru jednego lub większej liczby współczynników.
Tradycyjnie wyróżnia się trzy kategorie współczynników rzetelności:
Współczynniki uzyskane na podstawie niezależnego, dwukrotnego badania formami równoległymi testu;
Współczynniki otrzymane na podstawie dwukrotnego badania tym samym testem;
Współczynniki uzyskane na podstawie jednokrotnego badania testem i oparte na wielkościach korelacji (zależności zmiennych losowych) między wynikami dla poszczególnych pozycji testu czy skal.
W ramach wcześniej wspomnianej teorii uniwersalizacji powyżej wymienione współczynniki można uznać za specyficzne przypadki ogólniejszej klasyfikacji: klasyfikacji współczynników generalizowalności. Współczynnik ten jest definiowany jako stosunek wariancji (zmienności) prawdziwych czy uniwersalnych do wariancji wyników obserwowanych.
Funkcja informacji dla testu, opisuje w jaki sposób test różnicuje osoby badane na różnych poziomach zdolności lub poziomach mierzonej cechy. Do obrazowania testu i wykazania np. rosnącej proporcji prawidłowych odpowiedzi wykorzystuje się funkcję matematyczną nazywaną krzywą charakterystyczną pozycji testowej czy funkcją odpowiedzi na pozycje testu.
Po przeprowadzeniu testu należy przejść do jego interpretacji. Standardowy błąd pomiaru, ze względu na różnorodność i ilość występujących błędów, jest istotniejszym wskaźnikiem niż współczynnik rzetelności.
Interpretacje wyników testowych można podzielić na dwie kategorie:
Względne - odnoszą osobę badaną do grupy;
Absolutne - odnoszą osobę badaną do standardów.
Jeżeli celem pomiaru jest klasyfikacja to niektóre błędy pomiaru mają większe znaczenie niż inne. W wypadku osób, które wypadają znacznie powyżej lub poniżej granicy przyjęcia/odrzucenia albo granicy akceptacji do konkretnego programu, ewentualny błąd pomiaru nie będzie miał poważniejszych konsekwencji. W wypadkach gdy osoby znajdują się blisko granicy odrzucenia/przyjęcia ewentualny błąd może mieć olbrzymie konsekwencje. Dlatego też niektórzy eksperci proponują aby rozróżnić pojęcia rzetelności wyników i stopnia zgodności klasyfikacji. Pierwszy z tych terminów byłby zarezerwowany do analizy wariancji wyników w sytuacji powtarzalnych pomiarów. Spójność klasyfikacji inaczej zgodność sędziów w pozostałych przypadkach.
Uzyskane wyniki to wyniki surowe, które przeliczane są na tzw. równoważniki (mogą to być znane nam steny)
Standardy
Jeżeli interpretowane są wyniki cząstkowe a nie tylko globalne to należy określić rzetelność, standardowy błąd pomiaru lub funkcję informacyjną dla każdego z tych wyników.
Dane dotyczące błędów standardowych należy podać zarówno w wielkościach surowych jak i w tzw. równoważnikach - np. w formie przedziału.
Kiedy w interpretacji kładzie się nacisk na różnicę między dwoma wynikami obserwowanymi osoby badanej czy dwiema średnimi grupowymi, to należy przedstawić dane na temat rzetelności i standardowego błędu pomiaru tych różnic.
Każda metoda ilościowego określenia stopnia dokładności testu czy stałości wyników testowych powinna zostać jasno opisana i wyrażona za pomocą terminów statystycznych właściwych dla zastosowanej metody. Należy także przedstawić zasady doboru grup osób do badań dotyczących rzetelności oraz odpowiednie statystyki opisowe charakteryzujące te grupy. Pomoże to osobom dokonującym badań określić w jakim stopniu przedstawione dane odnoszą się do ich własnych populacji osób badanych.
Należy stosować ten sam współczynnik rzetelności lub standardowy błąd pomiaru (nie należy zastępować ich innymi współczynnikami).
Należy poinformować użytkowników testów, w jakim stopniu tempo pracy może wpłynąć na poziom wykonania testu przez badaną osobę.
Jeżeli istnieją ogólnie akceptowane, uzasadnione przyczyny teoretyczne lub empiryczne, powodujące, że współczynniki rzetelności, standardowe błędy pomiaru czy funkcje informacji dla testu będą się istotnie różnić w różnych populacjach (np. dzieci zdrowe, dzieci chore - niepełnosprawne), to wydawca testu powinien jak najszybciej dostarczyć danych dotyczących rzetelności dla każdej populacji, dla której test ten jest rekomendowany.
Jeżeli test jest przeznaczony dla uczniów z różnych klas lub kolejnych grup osób różniących się wiekiem i jeżeli dla każdej klasy lub każdego rocznika podano odpowiednie normy, to powinno się podać odpowiednie dane o rzetelności dla każdej tak wyróżnionej populacji, a nie tylko dla populacji ogólnej.
Niekiedy w teście kolejne pytanie zależy od odpowiedzi na poprzednie pytanie. Np. Jeżeli odpowiedziałeś „tak” przejdź do pytania 39, jeżeli odpowiedziałeś „nie” przejdź do pytania 40. W przypadku takiego badania zaleca się, aby badania rzetelności polegały na kolejnych badaniach testem w warunkach podobnych do panujących w trakcie badania oryginalnego.
Jeżeli test jest dostępny w dwóch wersjach tj. pełnej i skróconej to należy podać dane dotyczące rzetelności dla obu testów.