Standardy dla testów stosowanych w psychologii i pedagogice
Rozdział 2 - Rzetelność i błędy pomiaru
Podstawy
Test (definicja szeroka)
zbiór zadań zaprojektowanych w celu ujawnienia określonych zachowań
skala pozwalająca na opisanie zachowań osób badanych w określonych obszarach
metoda umożliwiająca pobranie próbek pracy osób badanych w danej dziedzinie
towarzyszy temu procedura obliczania wyników - dzięki czemu można ilościowo wyrazić, ocenić i zinterpretować zachowania czy próbki pracy
RZETELNOŚĆ
- stałość pomiarów, gdy procedura badania testem jest powtarzana dla jednostek lub grup badanych osób
Biorąc pod uwagę istniejące zróżnicowanie oraz subiektywność procedury oceniania wyników, zarówno wynik otrzymany przez osobę badaną jak i średni wynik grupowy będą zawsze odzwierciedlały, choćby minimalny błąd pomiaru.
Skoro wynik zawiera błąd pomiaru to istnieje pewna hipotetyczna wartość wolna od błędu pomiaru, która charakteryzuje osobę badaną w momencie testowania
WYNIK PRAWDZIWY
hipotetyczny, średni wynik powstający na skutek wielu powtórzeń testu czy równoległych form pomiaru
statystycznie: parametr charakteryzujący osobę badaną i każdy wynik otrzymany zawiera ten parametr
teoria uniwersalizacji: analogiczny parametr opisuje się jako wynik uniwersalny
teoria odpowiedzi na pozycje testowe (IRT): zdolność osoby badanej lub parametr cechy
BŁĄD POMIARU:
- hipotetyczna różnica między wynikiem obserwowanym otrzymanym a wynikiem prawdziwym (czy uniwersalnym)
Definicja tego, co składa się na standaryzowany test lub procedurę pomiaru znacznie się rozszerza. Kiedyś do istotnych cech zaliczano:
- jednolitość materiałów testowych dla wszystkich osób badanych
- konieczność ścisłego respektowania zasad procedury badania testem oraz zasad obliczania wyników testowych, które zawsze powinny być stosowane w takich sam sposób
Współcześnie - większa elastyczność, która zawsze zwiększa zakres i wielkość błedu pomiaru.
Definicja i własności błędu pomiaru
Błędy pomiaru:
- nieprzewidywalne wielkości losowe
- zmniejszają użyteczność pomiaru
Źródła błędu pomiaru:
związane z osobą badaną
lokowane poza nią
~~> subiektywność oceniania
Niewielkie zmiany w wynikach testowych notowane w kolejnych badaniach nie są traktowane jako błąd, gdyż częściowo wynikają z interwencji, uczenia się czy dojrzewania, które wystąpiły w przerwie między początkowym, a końcowym pomiarem
wartość różnicy czy zmiany staje się zatem miarą rzetelności
Przedstawienie danych o rzetelności
Podstawowe dane na temat rzetelności:
- określenie głównych źródeł błędów
- zbiorcze dane statystyczne dotyczące ich wielkości
- przedstawienie zakresu, w jakim dane te można uogólnić na inne formy testu, inne osoby oceniające, inne procedury czy inne znaczące wymiary
(również: opis populacji osób badanych, której dotyczą powyższe dane)
Dane na temat rzetelności mogą być przedstawione:
- w terminach wariancji czy odchyleń standardowych dla błędu pomiaru, jednego lub większej liczby współczynników
- czy też funkcji informacji determinowanych w ramach IRT
Standardowy błąd pomiaru:
- jest odchyleniem standardowym hipotetycznego rozkładu błędów pomiaru, które powstają wtedy, gdy określona populacja jest badana określonym narzędziem pomiarowym
Wariancja ogólna błędów pomiaru:
- jest średnią ważoną wartości otrzymanych dla różnych poziomów wyników prawdziwych
Wariancja dla określonego pomiaru = warunkowa wariancja błędu
Jej pierwiastek kwadratowy = warunkowy błąd standardowy
3 kategorie współczynników rzetelności:
współczynniki dla form równoległych - otrzymane na podstawie niezależnego, dwukrotnego badania formami równoległymi testu
współczynniki test - retest lub stabilność - otrzymane na podstawie dwukrotnego badania tym samym testem
współczynniki zgodności wewnętrznej - otrzymane na podstawie jednokrotnego badania testem i oparte na wielkościach korelacji między wynikami dla poszczególnych pozycji testowych czy skal
W ramach teorii uniwersalizacji można kategorie te uznać za specyficzne przypadki
ogólniejszej klasyfikacji: klasyfikacji współczynników generalizowalności.
Współczynnik generalizowalności:
- stosunek wariancji wyników prawdziwych (czy uniwersalnych) do wariancji wyników obserwowanych
Jednak t. uniwersalizacji umożliwia badaczowi określenie i szacowanie różnych źródeł wariancji wyników prawdziwych, błędu oraz wyników obserwowanych - dzięki analizie wariancji - oraz pozwala na oszacowanie współczynników, które odnoszą się do wielu możliwych schematów pomiarowych.
Funkcja informacji testu:
- ważny element IRT
- opisuje, w jaki sposób test różnicuje osoby badane na różnych poziomach zdolności lub mierzonej cechy
Krzywa charakterystyczna pozycji / Funkcja odpowiedzi na pozycje testowe:
- funkcja matematyczna
- aby przedstawić rosnącą proporcję prawidłowych odpowiedzi na daną pozycję testową w grupach osób (uszeregowanych wg poziomu zdolności czy mierzonej cechy)
- może być rozpatrywana jako twierdzenie matematyczne dotyczące dokładności pomiaru na każdym poziomie cechy
dokładność jest analogiczna do odwrotności wariancji błędu warunkowego
Interpretowanie danych na temat rzetelności
Współczynniki rzetelności są najbardziej użyteczne wtedy, kiedy porównuje się testy lub procedury pomiarowe, zwłaszcza te, które dają wyniki wyrażone w różnych jednostkach lub miarach.
Współczynniki oparte na dwukrotnym badaniu formami alternatywnymi czy też tym samym testem, z przerwami kilkunastu dni czy tygodni między badaniami, są bardziej preferowane niż współczynniki zgodności wewnętrznej.
Jeżeli wybrano już procedurę pomiarową, to standardowy błąd pomiaru jest istotniejszym wskaźnikiem, niż współczynnik rzetelności. Dane dotyczące dokładności pomiaru, na każdym z kilku rozstawionych poziomów wyniku (czyli warunkowe błędy standardowe), są użytecznym dodatkiem do pojedynczych danych statystycznych podawanych dla wszystkich poziomów wyników łącznie.
Pomiary uzyskane na podstawie obserwacji zachowania lub oceny wytworów są szczególnie wrażliwe na wiele różnych źródeł błędu. Metody uniwersalizacji są przydatne do badania rzetelności wyników otrzymanych w takich pomiarach. Oszacowanie wariancji błędu związanej z każdym z tych specyficznych źródeł błędu i ich interakcji może wskazywać na zakres, w jakim wyniki osoby badanej można uogólnić na różne osoby oceniające i na uniwersum wytworów czy zachowań.
Interpretacje wyników testowych można podzielić na dwie duże kategorie:
względne - mówiące o pozycji osoby badanej w stosunku do grupy odniesienia lub odpowiedniej populacji
absolutne - wiążące status osoby czy grupy ze zdefiniowanymi standardami, które mogą wywodzić się z danych empirycznych dla jednej lub więcej populacji lub też mogą być oparte na ocenach sędziów ekspertów.
Funkcja informacji dla testu może zostać potraktowana jako alternatywny w stosunku do tradycyjnych wskaźnik dokładności pomiaru. Jednak funkcje informacji dla testu są ograniczone do wąskiej definicji błędu pomiaru, czyli do błędu związanego z rzetelnością rozumianą jako zgodność wewnętrzną.
Zależność wskaźników dokładności na skali, ma istotny wpływ na rozumienie pojęcia dokładności testu (zarówno wg IRT, jak i wg KTT). Dokładność testu, wyrażona w terminach wyników surowych, może być wysoka dla jednego poziomu wyników i niska dla innego. Jednak kiedy standardowe błędy pomiaru zostaną wyrażone w jednostkach przeliczonych, takich jak np. równoważniki klasy czy wyniki standardowe, to można otrzymać zupełnie inny wzorzec współczynników dokładności.
Niektórzy eksperci proponują by semantycznie rozróżniać pojęcia rzetelności, wyników i stopnia zgodności klasyfikacji.
Pierwszy z tych terminów byłby zarezerwowany dla analizy wariancji wyników w sytuacji powtarzanych pomiarów. Termin spójność klasyfikacji lub zgodność sędziów byłby używany w rozważaniach dotyczących spójności klasyfikacji zamiast pojęcia rzetelności.
Przyjęcie tej terminologii podkreśla fakt, że ważność standardowego błędu pomiaru o danej wielkości zależy od odległości wyniku osoby badanej od punktu odcięcia i jej pozycji w rozkładzie wyników.
Średnie wyniki grupowe interpretowane jako miary efektywności określanego programu są obciążone błędami pochodzącymi z innych źródeł niż te, z którymi mamy do czynienia wtedy, kiedy interpretujemy wynik pojedynczej osoby (w wypadku dużych grup dodatnie i ujemne błędy pomiaru otrzymane dla poszczególnych osób mogą niemal całkowicie znosić w średnich grupowych). Jeśli narzędzie pomiarowe jest wykorzystane do wnioskowania o funkcjonowaniu grupy, to dane na temat rzetelności muszą dotyczyć wprost interpretacji wyników grupowych (właściwszą statystyką będzie błąd standardowy dla otrzymanych średnich grupowych).
Odpowiedzialność za przeprowadzenie odpowiednich badań i prezentację danych na temat rzetelności czy funkcji informacji dla testu ponoszą autorzy i dystrybutorzy testów. Jednak czasami osoby wykorzystujące test na potrzeby lokalne muszą zaakceptować fakt, że i one ponoszą - przynajmniej częściowo - odpowiedzialność za udokumentowanie zakładanego poziomu dokładności pomiaru. W takich sytuacjach czynniki o charakterze lokalnym mogą wpłynąć na wielkość wariancji błędu i wielkość wariancji wyników obserwowanych. Dlatego też rzetelność wyników może się znacząco różnić od wartości podanej przez autora testu.
Jeżeli przedstawia się dane dotyczące wyłącznie współczynnika rzetelności i pomija się szczegóły dotyczące metod, za pomocą których je otrzymano, cech charakterystycznych grup, które badano, oraz warunków, w jakich otrzymano wyniki, to przedstawione dane należy traktować jako niekompletne.
Należy pamiętać, że poziom rzetelności wyników testowych jest powiązany z trafnością interpretacji wyników testowych. Stosunkowo mało rzetelne wyniki, wraz z innymi podobnymi informacji, mogą się czasami okazać użyteczne dla osób stosujących testy, jednak stopień rzetelności wyników zawsze ogranicza trafność zastosowania testu, i to do wszystkich celów.
STANDARD 2.1. Należy określić rzetelność, standardowy błąd pomiaru lub funkcję informacji dla testu w wypadku każdego wyniku ogólnego, wyniku cząstkowego lub wyniku złożonego, dla których jest przewidziana określona interpretacja. |
STANDARD 2.2. Należy przedstawić dane dotyczące standardowego błędu pomiaru, zarówno całkowitego, jak i warunkowego, jeżeli ma on znaczenie, zarówno w terminach surowych (czy wyrażonych na wyjściowej skali), jak i na skali wyników przeliczonych, zalecanej dla określonej interpretacji tych wyników. |
*Komentarz: Najczęściej wykorzystywane wyniki przeliczone to wyniki standardowe, równoważniki wieku czy klas oraz wyniki centylowe.
STANDARD 2.3. Kiedy w interpretacji kładzie się nacisk na różnicę między dwoma wynikami obserwowanymi osoby badanej czy dwiema średnimi grupowymi, to należy przedstawić dane na temat rzetelności i standardowego błędu pomiaru tych różnic. |
STANDARD 2.4. Każda metoda ilościowego określania stopnia dokładności testu czy stałości wyników testowych powinna zostać jasno opisana i wyrażona za pomocą terminów statystycznych właściwych dla zastosowanej metody. Należy także przedstawić procedury doboru grup osób do badania dotyczących rzetelności oraz odpowiednie statystyki opisowe charakteryzujące te grupy. |
STANDARD 2.5. Nie należy traktować współczynnika rzetelności czy standardowego błędu pomiaru, otrzymanych za pomocą jednej metody, jako dających zastąpić innymi współczynnikami, uzyskanymi dzięki zastosowaniu innych technik, chyba że sposób rozumienia standardowego błędu pomiaru jest w nich równoważny. |
STANDARD 2.6. Jeżeli współczynniki rzetelności zostały poprawione ze względu na ograniczony zakres zmienności wyników w próbie, to należy przedstawić procedurę uzyskania odpowiedniej poprawki oraz wartości poprawione i niepoprawione. Należy także podać odchylenie standardowe wyników w rzeczywiście przebadanej grupie, a także w populacji docelowej oraz uzasadnienie decyzji o wprowadzeniu poprawki. |
STANDARD 2.7. Jeżeli w teście dopuszcza się tworzenie skal złożonych z pozycji składających się na ten test i przyjmuje się, że każda ze skal mierzy częściowo niezależne cechy lub zdolności, to zastosowane procedury badania rzetelności powinny uwzględniać wieloczynnikowy charakter narzędzia pomiarowego. |
*Komentarz: Jeżeli do oszacowania rzetelności rozumianej jako zgodność wewnętrzna wykorzystano metodę pogłówkowania, to porównane połówki powinny tworzyć formy równoległe ze względu na treść i parametry statystyczne.
STANDARD 2.8. Należy poinformować użytkowników testów, w jakim stopniu tempo pracy może wpłynąć na poziom wykonania testu przez badaną osobę. |
STANDARD 2.9. Kiedy test jest zaprojektowany po to, by odzwierciedlał szybkość pracy, to do badania rzetelności należy zastosować metodę form alternatywnych lub metodę test - retest i mierzyć czas wszystkich poszczególnych badań. |
STANDARD 2.10. Jeżeli metoda oceniania wyników testowych jest oparta na kryteriach subiektywnych, to prezentowane informacje powinny obejmować zarówno stopień zgodności między sędziami, jak i stopień stałości odpowiedzi w powtarzanych pomiarach. Należy wyraźnie odróżniać od siebie dane dotyczące rzetelności otrzymane: a) w badaniu niezależnych zespołów sędziowskich oceniających te same zachowania lub wytwory, b) w badaniu jednego zespołu oceniającego kolejne zachowania czy nowe wytwory. |
STANDARD 2.11. Jeżeli istnieją ogólnie akceptowane, uzasadnione przyczyny teoretyczne lub empiryczne, powodujące, że współczynniki rzetelności, standardowe błędy pomiaru czy funkcje informacji dla testu będą się istotnie różnić w różnych populacjach, to wydawca testu powinien dostarczyć - możliwie jak najszybciej - danych na temat rzetelności odpowiedniej dla każdej populacji, dla której test jest rekomendowany. |
STANDARD 2.12. Jeżeli test jest przeznaczony dla uczniów z różnych klas lub kolejnych grup osób różniących się wiekiem i jeżeli dla każdej klasy lub każdego ucznia podano odpowiednie normy, to powinno się podać odpowiednie dane o rzetelności dla każdej tak wyróżnionej populacji, a nie tylko dla populacji ogólnej. |
STANDARD 2.13. Jeżeli do obliczenia wyników testowych według ogólnych zasad i reguł podawanych przez autora testu wykorzystuje się lokalnych sędziów, to - jeżeli tylko są dostępne próbki o odpowiedniej liczebności - należy zebrać i przedstawić lokalne dane na temat rzetelności. |
STANDARD 2.14. Jeżeli nie można przyjąć założenia o stałości wyników testowych, to należy podać wartości warunkowych standardowych błędów pomiaru dla różnych poziomów wyników. Jeżeli dla celów selekcji czy klasyfikacji wyznacza się punkty odcięcia, to powinno się poinformować o standardowych błędach pomiaru dla wyników mieszczących się w pobliżu wszystkich punktów odcięcia. |
STANDARD 2.15. Jeżeli test lub test w połączeniu z innymi metodami są wykorzystywane do podejmowania decyzji o charakterze klasyfikacyjnym, to należy oszacować odsetek osób badanych, które zostaną tak samo sklasyfikowane w dwukrotnym zastosowaniu tej samej procedury, z wykorzystaniem tej samej formy lub form równoległych narzędzi pomiarowych. |
STANDARD 2.16. Niektóre sposoby zastosowania testu dopuszczają możliwość korzystania z różnych zestawów pozycji testowych dla różnych osób badanych. Zestawy te są losowane z dużej puli pozycji testowych, powstają dzięki zastosowaniu algorytmu, zgodnie z którym pozycje testowe są dobierane w zależności od odpowiedzi osoby badanej na wcześniejsze pozycje lub ze względu na ich trudność. W wypadku tego rodzaju badania testem zaleca się, aby badania rzetelności polegały na kolejnych badaniach testem w warunkach podobnych do panujących w trakcie badania oryginalnego. |
STANDARD 2.17. Jeżeli test jest dostępny w dwóch wersjach: pełnej i skróconej, to należy podać dane dotyczące rzetelności wyników obu wersji, i to najlepiej wynikające z niezależnego zastosowania obu wersji. |
STANDARD 2.18. Kiedy procedura stosowania testu dopuszcza istotne zróżnicowanie, to - jeżeli tylko dysponuje się próbami o odpowiedniej liczebności - należy przeprowadzić niezależne analizy rzetelności dla wyników otrzymanych dla każdej wersji. |
STANDARD 2.19. Kiedy średnie wyniki testowe otrzymane dla grup są wykorzystywane do oceny programu, to wszystkie badane grupy powinny być zasadniczo traktowane jako próby pochodzące z większej populacji, nawet wtedy kiedy wszystkie osoby dostępne w momencie testowania zostały przebadane. W takim wypadku należy podać standardowy błąd pomiaru dla średnich grupowych, ponieważ odzwierciedla on zróżnicowanie wynikające z doboru osób badanych oraz błedu pomiaru . |
STANDARD 2.20. Jeżeli celem testowania jest pomiar poziomu wykonania grupy, a nie jednostek, to często stosowaną procedurą jest przyporządkowanie niewielkich zbiorów pozycji testowych każdej z wielu prób osób badanych. Zebrane dane, dla każdej próby i dla każdego zbioru pozycji testowych, agreguje się w całość, aby otrzymać miarę poziomu wykonania w całej grupie. Kiedy taką procedurę wykorzystuje się do oceny programu czy opisu populacji, to w analizach rzetelności należy uwzględnić schemat doboru prób. |
*Komentarz: Taki sposób pomiaru nazywa się doborem macierzowym. Pozwala skrócić wymagany czas badania jednej osoby i zwiększyć ogólną liczbę pozycji testowych, dla których otrzymano niezbędne dane.