Rzetelność testu
Rzetelność testu – precyzja z jaką test mierzy to, co (rzeczywiście) mierzy.
„Zagadnienia rzetelności wiążą się z problemem dokładności narzędzia w pomiarze tego, co ono mierzy, niezależnie od możliwości interpretacji danych” (Magnusson, 1991).
Czy ponowne badanie tej samej osoby danym testem w podobnych warunkach przyniosłoby takie same efekty.
W tym sensie wszystkie pomiary psychologiczne są w jakimś stopniu nierzetelne.
Osoba badana odpowiada na tylko na pewną próbkę pozycji ze zbioru wszystkich możliwych pozycji dla danego testu – otrzymany wynik nigdy nie jest idealnym odzwierciedleniem mierzonej cechy.
Wynik otrzymany z a w s z e obciążony jest pewnym błędem. Źródła błędu: konstrukcja testu (dobór treści), sytuacja testowania (motywacja, warunki itp.), ocena wyników (pomyłki).
Klasyczna teoria testów – model wyniku prawdziwego
Gulliksen (1950), Lord i Novick (1968): wynik obserwowany w teście jest składową dwóch, nieobserwowalnych bezpośrednio wielkości: wyniku prawdziwego i błędu pomiaru.
- wynik prawdziwy i-tej osoby w teście g
- wynik otrzymany i-tej osoby w teście g
- błąd pomiaru
= +
Dodatkowe założenia:
Gdyby badać tę samą osobę tym samym testem nieskończenie wiele razy, to wszystkie możliwe błędy mają rozkład normalny o średniej 0. Czyli:
ME = 0
Błąd pomiaru ma charakter losowy i nie ma związku z wynikiem prawdziwym, tj.:
rTE = 0,
oraz nie ma związków między błędami:
rE1E2 = 0
Definicja rzetelności
= wariancja wyników otrzymanych
= wariancja wyników prawdziwych
= wariancja błędu
Zróżnicowanie wyników otrzymanych jest wynikiem rzeczywistych różnic między badanymi i losowych odchyleń od wyniku prawdziwego.
Rzetelność można przedstawić jako wielkość związku między wynikami obserwowanymi a prawdziwymi, czyli ich korelację. Podstawiając do wzoru na korelację X oraz T otrzymujemy (po przekształceniach) definicję rzetelności:
czyli jest to stosunek wariancji wyników prawdziwych do wyników otrzymanych (inaczej: odsetek wariancji wyników otrzymanych jakie można przypisać wynikom prawdziwym).
jest wartością nieobserwowalną, więc powyższy wzór nie ma praktycznego znaczenia (jedynie teoretyczne).
Metody badania rzetelności
Założenia: idealną metodą badania rzetelności byłoby obliczenie korelacji dwóch pomiarów tym samym testem tych samych osób lub dwoma testami równoległymi czyli takimi które mierzą dokładnie to samo, ale mają różne treści.
Istnieje wiele metod szacowania rzetelności. Będzie to zawsze współczynnik korelacji między dwoma zbiorami pomiarów. Zbiory te są realizacją pomiarów równoległych.
Badanie rzetelności metodą powtarzania testu (test – retest)
pomiar testowy – odstęp czasowy – drugi pomiar.
Współczynnik stabilności bezwględnej – w jakim stopniu wyniki są wrażliwe na przypadkowe zmiany związane z osobą badaną jak i warunkami badania.
Duża inwazyjność – osoba badana dysponuje już jakąś wiedzą na temat testu.
Ważna jest przerwa czasowa – jak długa: zapomnieć materiał, ale nie zmienić się zbytnio.
Rzetelność szacowana metodą wersji równoległych (alternatywnych)
pomiar wersją A testu – odstęp czasowy – pomiar wersją B testu
Wersje alternatywne – dwie wersje tego samego testu.
Współczynnik równoważności międzytestowej – bez przerwy między wersją A i B. Jakie są różnice między obiema wersjami testu.
Współczynnik stabilności względnej – z przerwą.
Rzetelność szacowana na podstawie wyników jednokrotnego badania danym testem
Eliminuje wpływ czasu i ćwiczenia.
Metoda połówkowa – polega na znalezieniu form równoległych danego testu w obrębie jednego testu. Rolę form równoległych mogą spełniać poszczególne części testu.
Są trzy metody podziału pozycji testowych: (a) losowe przyporządkowanie pozycji testowych do jednej lub drugiej grupy; (b) podział testu ze względu na pozycje parzyste i nieparzyste; (c) z uwzględnieniem treści pozycji i ich trudności.
Współczynnik równoważności międzypołówkowej – korelacja między połówkami testu. W ten sposób uzyskujemy rzetelność połowy testu. Aby oszacować cały test używamy wzoru Spearmana-Browna (zob Hornowska 2001).
Badanie zgodności wewnętrznej. Założenie: ponieważ istnieje wiele różnych sposobów podziału testu, to można uzyskać wiele różnych współczynników rzetelności. Należy zbadać jaki jest średni współczynnik rzetelności testu uwzględniając wszystkie jego przepołowienia.
Kuder i Richardson (1937) przyjęli, że maksymalna liczba części na jakie może można podzielić test równa jest liczbie jego pozycji. Uzyskali w ten sposób współczynnik zgodności wewnętrznej. (wzory KR tylko dla testów z pozycjami dwukategorialnymi)
Cronbach (1951) zaproponował wzór dla pozycji wielokategorialnych. Alfa Cronbacha – najlepsza metoda szacowania rzetelności.
Rzetelność jako zgodność ocen
Porównanie ocen sędziów kompetentnych.
Każda z metod szacowania rzetelności mówi o innym źródle błędu.
Czynniki wpływające na wielkość współczynnika rzetelności
Długość testu. Im więcej pozycji tym mniejszy błąd (mamy więcej próbek danej cechy). Istnieje wzór na obliczenie ile należy dodać pozycji aby test był bardziej rzetelny – proroczy wzór Spearmana-Browna (Hornowska 2001).
Ocena rzetelności indywidualnego wyniku
Na podstawie przekształceń wzoru na rzetelność
otrzymujemy
STANDARDOWY BŁĄD POMIARU (SBP)
(ang: Standard Error of Measurement - SEM):
gdzie sx to odchylenie standardowe ogólnych wyników w teście, a rtt rzetelność testu. SEM jest definiowany jako odchylenie standardowe rozkładu błędów, które popełniamy wtedy gdy przyjmujemy że wynikiem prawdziwym danej osoby jest średni wynik w nieskończenie wielu pomiarach.
SEM służy do oceny precyzji naszych wniosków o wyniku prawdziwym. Polega to na budowaniu tzw. przedziału ufności.
Budowanie przedziału ufności dla wyniku otrzymanego. Dodajemy i odejmujemy od wyniku pewną stałą wartość: (zα/2) (SEM), gdzie z to wynik standaryzowany dla poziomu istotności α/2.
Przedział ufności ma postać:
<X - zα/2SEM; X + zα/2SEM>
Trafność testu
Trafność – jak dobrze test mierzy to co ma mierzyć
Trafność wyznacza także obszar zastosowania testu. Określanie trafności danego testu polega na zbieraniu i ocenie danych świadczących o poprawności określonej interpretacji wyników testu.
Rodzaje trafności
Istnieją trzy podstawowe metody badania trafności testu (metody te uzupełniają się)
Trafność treściowa. Inaczej trafność wewnętrzna lub logiczna. Jest to zakres w jakim pozycje testowe właściwie reprezentują uniwersum pozycji testowych lub interesujący nas konstrukt (np. czy nasze pytania dobrze reprezentują.
Należy ją odróżnić od tzw. trafności fasadowej, czyli tego co test wydaje się mierzyć wg opinii osób badanych.
Badanie trafności treściowej. (1) Określić zakres uniwersum – najczęściej robią to sędziowie-eksperci (np. nauczyciele danego przedmiotu określają zakres testu z przedmiotu). (2) Czy pozycje w teście są proporcjonalną reprezentatywną próbką zdefiniowanego uniwersum.
Np. test z matematyki ma zadania z fizyki (warunek 1), albo ma 90% pytań z geometrii i 10% z reszty matematyki (2).
Szacowanie: ocena sędziów-ekspertów.
Trafność treściowa – głównie do testów zdolności, wiadomości itp.
Trafność kryterialna.
Gdy na podstawie wyników testu wnioskuje się o innej zmiennej – tzw. kryterium. Czyli jak dana zmienna jest powiązana z innymi. Diagnostyczna (wg aktualnego kryterium) i prognostyczna (przewiduje związek z przyszłym kryterium).
Kryterium to:
pewne zachowanie lub właściwość o której chcemy wnioskować na podstawie wyników danego tesu,
jest to zmienna pozatestowa,
jest pomiarem innej zmiennej niż ta którą bezpośrednio mierzy test.
Cechy kryterium: rzetelność, istotność, trafność.
Trafność diagnostyczna – „czy osoba badana posiada cechę X?” Np. porównanie wyników w MMPI z obserwacjami psychiatrów.
Trafność prognostyczna – w celu przewidywania przyszłych zachowań. ”Jakie jest prawdopodobieństwo tego, że osoba badana będzie posiadać cechę X?” (np. czy zostanie neurotykiem). Np. w selekcji, klasyfikacji.
Trafność teoretyczna.
W jakim stopniu test mierzy daną cechę (konstrukt teoretyczny) – odwołanie do teorii cechy. Mierzy się na podstawie korelacji z wieloma innymi zmiennymi.
Relacja między testem a zdefiniowaną cechą psychologiczną (konstruktem teoretycznym).
Przykłady konstruktów: lęk, satysfakcja z pracy, inteligencja, przystosowanie emocjonalne, twórczość.
Z teorii cechy wyprowadza się hipotezy które można testować.
Analiza różnic międzygrupowych. Weryfikowanie hipotez na temat dwóch grup o różnym nasileniu danej cechy (skrajne grupy). Np. test religijności a aktywność religijna. Inteligencja skrystalizowana a poziom wykształcenia.
Analiza macierzy korelacji. Porównanie korelacji między kilkoma testami. Podobne cechy powinny wysoko korelować, różne cechy nisko.
Analiza czynnikowa. Znalezienie mniejszej grupy zmiennych niż zmienne oryginalne. Np. jeśli teoria osobowości Eysencka postuluje 3 główne cechy, to tyle powinna dawać analiza czynnikowa.