Testy psychologiczne –
Paulina Marks
Trafność =
adekwatność.
(co tak naprawdę mierzą testy
psychologiczne)
Pojęcie to dot. poprawności wniosków
wyprowadzanych na podstawie wyników
testowych lub in. form badania.
Pytanie o TRAFNOŚĆ to pytanie o
to, co można poprawnie
wywnioskować na podstawie
wyniku testowego.
a)
Jakie wnioski można wyciągnąć na temat
tego, co jest mierzone przez test?
→ pytanie to dot. istoty pomiaru. Test można
traktować jako definicję operacyjną
określonej dziedziny, bądź też cechy
stanowiącej przedmiot zainteresowania
autora testu lub jego użytkownika.
Potencjalne pytania o trafność:
b) Jakie wnioski można sformułować o innych
(pozatestowych) zachowaniach?
→ pyt. to dot. użyteczności pomiaru jako
wskaźnika jakiejś innej zmiennej, jako
elementu umożliwiającego przewidywanie
zachowań. Czyli mamy do czynienia z
pytaniem o siłę związku między zmiennymi.
1)
Kryterialna – diagnostyczna i
prognostyczna;
2)
Treściowa - wewnętrzna;
3)
Teoretyczna;
4)
Fasadowa – inaczej pseudotrafność,
trafność powierzchowna, albo też wiara w
trafność.
(test wydaje się trafny i to zwłaszcza tym osobom, które
nie mają profesjonalnego wykształcenia w dziedzinie
badań testowych)
Cztery aspekty trafności:
Najczęściej określa się ją poprzez ustalenie
korelacji między wynikami nowego testu i
jakimś zewnętrznym kryterium (metoda test
by test).
Ma ona charakter nietestowy (zewn) i
należy być względem niej sceptycznym…
Kryterium określa się na podstawie np. ocen
szkolnych, diagnozy psychiatrycznej czy in.
testu.
Ad. 1. trafność kryterialna.
Wykazaniu jego zbieżności (apekt zbieżny)
nie tylko z innymi testami, ale i kryteriami
zewnętrznymi (nietestowymi), wg. których
można dokonać oceny tej samej zmiennej;
Wykazaniu braku zbieżności testu (aspekt
różnicowy) z podobnymi miarami
testowymi i nietestowymi, ale
przeznaczonymi do oceny zmiennych.
Każdy nowy test powinien być
wprowadzany po:
O tego rodzaju trafności mówimy wtedy
jeżeli, kryterium jest zastosowane
równolegle w czasie do tego testu;
* Trafność diagnostyczna:
O tego typu trafności mówimy wtedy, jeżeli
na podstawie wyników testu chcemy
przewidzieć wystąpienie zachowania
opisanego przez kryterium.
* Trafność prognostyczna:
Wymaga określenia realizowanych przez
badacza celów oraz metody dobierania
próby;
Wymaga, aby autor testu/jego użytkownicy
sprecyzowali stawiane przez siebie cele oraz
dokładnie zdefiniowali badaną sferę
zachowań;
Jest szczególnie ważna dla testów
uzdolnień, umiejętności, osiągnięć
szkolnych i wiadomości, dla kwestionariuszy
osobowości, skal postaw i opinii oraz dla
arkuszy obserw.
Ad. 2. Trafność treściowa
(wewnętrzna):
Wymaga, aby badacz zdefiniował
uniwersum pozycji i aby wykazał, że pozycje
włączone do testu stanowią faktycznie
reprezentatywną dla tego uniwersum ich
próbę.
(tzn. że jakieś zachowanie jest
reprezentatywne !)
Ustalanie trafności
treściowej:
Pokazuje związek narzędzia pomiarowego z
konstruktem teoretycznym (zmienną
teoret.) zaczerpniętym z danej teorii
psychologicznej;
Jej określenie występuje wtedy, kiedy test
ma być interpretowany jako miara pewnego
atrybutu lub pewnej właściwości, które nie
są zdefiniowane operacyjnie.
Ad. 3. Trafność teoretyczna:
wg Cronbacha i Meehla:
Nie sprowadza się do przeprowadzenia
jednego badania; wymaga kumulacji
wyników badań.
Zbieranie danych potrzebnych do określenia
trafności teoretycznej rozpoczyna się od
formułowania hipotez o właściwościach
osób uzyskujących wysokie wyniki testowe
w przeciwieństwie do osób uzyskujących
niskie wyniki.
Ocena trafności teoretycznej:
Hipotezy lub twierdzenia teoretyczne umożliwiają
przewidywanie zachowań, jakie osoby uzyskujące określone
wyniki w teście będą ujawniać w innych testach czy
sytuacjach.
Jeżeli teoria badacza o tym, co test mierzy jest poprawna,
to większość przewidywań powinna zostać potwierdzona.
Jeżeli tak się nie stanie, badacz powinien zrewidować
definicję bądź test by stanowił lepszą miarę konstruktu.
Potwierdzając lub odrzucając kolejne hipotezy, dokonując
modyfikacji testu oraz przeprowadzając nowe badania
zrewidowanym narzędziem – badacz zwiększa jego
użyteczność jako miary danego konstruktu.
Najprościej – to ujednolicony sposób
posługiwania się testem. Ma on
zminimalizować zależność wyników testu od
wpływu czynników ubocznych, tj:
zachowanie badacza,
warunki, w jakich to bad jest
przeprowadzane
Standaryzacja.
- instrukcję, którą podajemy w sposób ściśle
określony przez jego autora,
- klucz, tj. określone zasady, wg których
ocenia się odpowiedzi na poszczególne
pozycje testu i interpretuje wyniki.
Dobrze wystandaryzowany test
posiada:
Test jest obiektywny, jeżeli dwie różne
osoby opracowujące jego wyniki dochodzą
do tego samego rezultatu.
(dlatego należy podawać jednoznacznie brzmiące reguły
przeliczania wyników surowych na wyniki określonej skali
standardowej, w której wyrażone są normy dla danego
testu)
Obiektywność.
Kwestionariusz, który ma Pani/Pan przed sobą zawiera 100
zdań, które mogą dotyczyć Pani/Pana zachowania.
Proszę przeczytać kolejno każde z nich i zaznaczyć wybraną
przez siebie odpowiedź poprzez otoczenie kółkiem
właściwej cyfry.
W przypadku pomyłki proszę o wyraźne przekreślenie
błędnej odpowiedzi i zaznaczenie właściwej. Proszę też
upewnić się czy każda odpowiedź wpisana jest przy
odpowiednim stwierdzeniu.
Proszę nie pomijać żadnego zdania i podać pierwszą
odpowiedź jaka się nasuwa.
Proszę pamiętać, że nie ma odpowiedzi dobrych ani złych.
Każda jest właściwa, jeśli wyraża to, co się czuje i myśli.
Przykład instrukcji:
Powinien zawierać ponumerowane wiersze, w
liczbie odpowiadającej liczbie pozycji w teście.
Kolejnej odpowiedzi w teście musi odpowiadać
kolejny wiersz na arkuszu odpowiedzi.
Większość testów ma dwukategorialny system
odpowiedzi: „tak”, „nie”.
Niekiedy dochodzi jeszcze trzecia: „nie wiem” (?)
(stwarza ona wiele problemów natury interpretacyjnej!!
sic
)
Arkusz odpowiedzi.
W testach uzdolnień np. prosi się osobę
badaną o udzielenie lub o wskazanie
prawidłowej odpowiedzi, która jest ściśle
przez autora określona;
Prawidłową odpowiedź ocenia się 1 pkt, a
nieprawidłową 0 pkt.
Przy formułowaniu pozycji postępujemy, tak aby
około połowa z nich była oceniana inaczej niż
druga połowa. Np. w systemie odpowiedzi
dwukategorialnych odpowiedzi „tak” raz
przypisujemy 1 pkt. a raz 0.
Można to osiągnąć przez sformułowanie pozycji w
postaci przeczącej lub przez opis zachowania
świadczącego o braku danej cechy. Utrudnia to w
pewnym stopniu odruchowe podkreślanie
kategorii tylko w jednej kolumnie, a tym samym
zmusza badanych do sumiennego wypełniania
arkusza odp.
Ciekawostka!
procedura wstępnej obróbki danych w celu
umożliwienia ich wzajemnego
porównywania i dalszej analizy.
Normalizacja
Skala tenowa (T)
Jej parametry:
→ średnia =50
→ odchylenie standardowe =10
→ skala 100-punktowa, odpowiadająca zakresowo rozkładowi
normalnemu wyników mieszczącemu się w granicach od -5
odchyleń standardowych do +5 odchyleń standardowych.
→ ma największy zakres ze znanych skal standardowych
Skale standardowe oparte na
modelu rozkładu normalnego.
Skala stenowa
(od ang. standard ten – standardowa dziesiątka)
Jej parametry:
Składa się ona z 10 jednostek – stenów.
Jedna jednostka równa się 0,5 odchylenia standardowego.
Każdej jednostce skali odpowiada pewien procent
powierzchni pod krzywą normalną rozkładu wyników
(tabela)
(1)
(2)
(3)
sten
Wyniki standardowe z Procent powierzchni
pod krzywą normalną
(w przybliżeniu)
10
9
8
7
6
5
4
3
2
1
+2,00 do +∞
+1,50 do +1,99
+1,00 do +1,49
+0,50 do +0,99
+0,00 do +0,49
-0,50 do -0,01
-1,00 do -51
-1,50 do -1,01
-2,00 do –1,51
-∞ do –2,01
2
5
9
15
19
19
15
9
5
2
Powierzchnie pod krzywą normalną odpowiadające
poszczególnym stenom:
5-6 sten traktuje się jako przeciętne;
7-10 sten uważa się za wysokie;
1-4 sten za niskie.
Wyniki z przedziału:
Centyle wskazują, jaki procent osób w
próbie standaryzowanej uzyskał wynik
surowy mniejszy od danego;
Zaletą tej skali jest jej uniwersalne
zastosowanie, nadają się do każdego
rodzaju testu;
Centyle pokazują względną pozycję
jednostki w próbie normalizacyjnej, a nie
wielkość różnicy między wynikami.
Skala centylowa
Skala znormalizowana tak, aby średnia w
populacji wynosiła 10, a odchylenie
standardowe 4.
W skali jest 21 jednostek (od 0 do 20
punktów). Obejmuje swoim zasięgiem od
-2,5 do +2,5 odchylenia standardowego
wyników w rozkładzie normalnym.
Tetrony
Catell posługuje się określeniami:
culture-fair test „test fair pod względem kulturowym”;
culture-free wolny od uwarunkowań kulturowych;
culture-reduced test o ograniczonym uwarunkowaniu
kulturowym; (to taki test, który bazuje na materiale i
uwzględnia nawyki wspólne wszystkim kulturom, stara się
zminimalizować wpływ specjalnych, kulturowo
uwarunkowanych sprawności w ujmowaniu złożonych
relacji).
Czy możliwe jest skonstruowanie
testów neutralnych kulturowo??
Każde dziecko ludzkie przychodzi na świat w określonym
miejscu danego kraju, który należy do określonego kręgu
kulturowego, charakteryzuje się określonym poziomem
rozwoju kultury materialnej i duchowej. Rodzice dziecka
opanowali określony język, przyjęli określone wzorce
zachowań normy społeczno-moralne oraz zdobyli określony
poziom wykształcenia. Celem wychowania i nauczania jest
przekazywanie dorobku kulturowego. Żaden test ze swej
istoty nie może więc być wolny od uwarunkowań
kulturowych, bowiem żadna osoba nie działa w próżni
kulturowej. Testy mierzą zdolność funkcjonowania
intelektualnego jednostki przy pomocy wiedzy i
umiejętności nabytych w tej kulturze, z której pochodzą”.
Kostrzewski:
Przygotowując polskie wersje takich testów „słownych”, jak
kwestionariusze osobowości, skale postaw i opinii, skale
wartości powinno się dokonywać nie tylko tłumaczenia z
języka oryginału na język polski, ale także tłumaczenia,
retrlansacji, polskiej wersji testu na język oryginału.
Dopełnieniem tej procedury jest przeprowadzenie badań
porównawczych dokonywanych za pomocą obu wersji
językowych. Badania takie powinno się przeprowadzać na
osobach które wychowywały się w rodzinach bilingwalnych.
Ułatwieniem w przygotowaniu dobrej wersji testu w nowym
języku jest przeprowadzenie analizy porównawczej
wszystkich dostępnych wersji jęz danego testu.
Znaczenie back translation
Po przeprowadzeniu back translation należy
spr czy pozycje obu wersji językowych w
równym stopniu wysoko korelują z ogólnym
wynikiem całego testu oraz czy obie wersje
językowe testu wysoko korelują ze sobą.
·Przygotowanie polskiej wersji testu
może doprowadzić do powstania
narzędzia, które w większym lub
mniejszym stopniu będzie odbiegało
od testu oryginalnego.
Transkrypcja;
Translacja;
Trawestacja
Parafraza;
Rekonstrukcja.
Propozycje Drwala jak uporządkować i dookreślić możliwe
wersje testu oryginalnego po czynnościach adaptacyjnych:
- wersja najbliższa oryginału;
- maksymalna wierność tłumaczenia i formy (materiał, grafika
itp.) co może sprawiać nie małe kłopoty badaczowi.
duże obciążenie czynnikiem kulturowym może sprawić, iż
niektóre sformułowania pozycji testowych będą albo
niezrozumiałe dla badanych, albo będę interpretowane
niezgodnie z intencją twórcy testu i wzorcem odpowiedzi
populacji, z której pobierana była próba standaryzacyjna i
normalizacyjna;
niska rzetelność i trafność.
TRANSKRYPCJA:
nie jest wiernym przekładem oryginału;
brak rygoryzmu jeśli chodzi o zachowanie
wierności;
odstępstwa dot. wprowadzania w miejsce
nieprzetłumaczalnych czy trudno
przetłumaczalnych sformułowań polskich
równoważników językowych.
Translacja:
jeszcze większe odejście od oryginału;
swobodniejsze podejście do języka
sformułowań oryginalnych pozycji testu;
mniejsze znaczenie ma uzyskanie
równoważności fasadowej i wierności
tłumaczenia, ale większe uzyskanie
równoważności psychometrycznej.
Trawestacja:
jest opracowaniem nowego testu,
nawiązującego do koncepcji teoretycznej i
pewnych rozwiązań z wzoru zagranicznego.
Parafraza:
forma adaptacji, która polega na
zbudowaniu, od początku, nowego testu
wzorowanego na danym teście
zagranicznym;
Rekonstrukcja:
Dziękuję za uwagę!!