dr Adam Sobolewski
Psychometria, metoda testów
Strategie konstrukcji testów,
metody analizy właściwości pozycji testowych
Strategie konstrukcji testów
Strategie konstrukcji testów a analizy itemmetryczne
Wraz z rozwojem psychometrii wypracowano trzy odmienne strategie konstrukcji
testów. W ramach każdej z nich stosuje się inne techniki analizy danych zorientowane
na badanie własności pozycji (pytań, zadań testowych), tzw. analizy itemmetryczne
(od ang. item). Naturalnym jest zatem omawianie statystyk służących analizom
itemmetrycznym równolegle do omówienia strategii konstrukcji. Test nigdy nie
powstaje poprzez napisanie od razu finalnego zestawu pytań. Badacze tworzą tzw.
pule matki itemów, które są oceniane przez ekspertów np. ze względu na trafność
treściową itemów. Pytania, które mają najwyższe oceny ekspertów służą budowie tzw.
eksperymentalnych wersji narzędzi diagnostycznych za pomocą których prowadzi się
badania stanowiące zródło danych do wspomnianych analiz itemmmetrycznych.
W wyniku takich analiz wybiera siÄ™ pytania o najlepszych charakterystykach
pomiarowych i tworzy finalne wersje testów.
Strategie konstrukcji testów
Pozycja testowa, ang. item
to sformalizowany wskaznik danej cechy psychologicznej,
a więc zdanie (twierdzenie lub pytanie) opisujące określone
zachowanie (lub zdanie wyzwalające określone zachowanie)
oraz skala rejestrująca to zachowanie (zawierająca określone
opcje odpowiedzi o danym formacie) oraz reguła
przekształcania odpowiedzi w wynik liczbowy.
Ważne jest tu, że pozycje testową tworzy nie tylko treść pytania (zadania), ale
także format odpowiedzi wielkość zestawu opcji lub wersji odpowiedzi, liczba
kategorii odpowiedzi oferowanych osobie badanej do wyboru.
Strategie konstrukcji testów
Strategie konstrukcji testów rys historyczny
Wspomniane strategie konstrukcji rozwijały się w charakterystyczny sposób.
Warto o tym wspomnieć, gdyż ów rys historyczny pozwala łatwiej zrozumieć różnice
między strategiami konstrukcji.
Jako pierwszą wypracowano strategię teoretyczną (dedukcyjną). W strategii tej z góry
(z mocy teorii) zdefiniowane jest jakie zmienne będzie mierzył test. Wobec tak
tworzonych narzędzi formułowano krytykę, która ogniskowała się wokół dwu
problemów. Problemem pierwszym był efekt tzw. redundancji pomiarowej. Narzędzia
budowane dedukcyjnie, jeśli miały wiele skal, charakteryzowały się silnymi korelacjami
między nimi, co z perspektywy ekonomii pomiaru jest zjawiskiem negatywnym.
Rozwiązaniem tego problemu była strategia indukcyjna i budowa narzędzi ściśle
w oparciu o empirię a także zastosowanie analizy czynnikowej do analizy danych.
Problemem drugim było to, że narzędzia budowane dedukcyjnie rzadko miały
zadowalającą trafność diagnostyczną; mierzyły zmienne, ale nie zawsze pozwalały na
budowanie użytecznych wniosków podczas diagnozy.
Odpowiedzią i rozwiązaniem było tu także odrzucenie teorii i oparcie się na empirii,
przy czym dane zbierano na specyficznych (np. klinicznych) grupach szukajÄ…c
wskazników pozwalających na różnicowanie między specyficznymi grupami (np. zdrowi
vs. chorzy).
Współcześnie często stosuje się tzw. strategie kombinowane, które z każdego z trzech
klasycznych podejść biorą to co najlepsze. Z powodów dydaktycznych trzy klasyczne
strategie konstruowania i związane z nimi techniki analizy właściwości pozycji
testowych zostaną w tej prezentacji omówione jako odrębne.
Strategie konstrukcji testów
Strategia teoretyczna (dedukcyjna)
opiera siÄ™ na teorii psychologicznej, celem konstrukcji jest
pomiar cech postulowanych przez teoriÄ™.
Kluczowym etapem konstrukcji jest tu analiza definicji cech, na podstawie których
generuje się propozycje itemów do puli matki.
Strategia ta odwołuje się do danych z prób reprezentatywnych, jako że
poszukujemy wskazników cech, które mają występować w różnym stopniu
u różnych osób w całej populacji.
Klasycznie, kryterium włączania pozycji do skali mogą być:
trudność pozycji lub moc dyskryminacyjna.
Powstałe w wyniku zastosowania tej strategii narzędzia diagnostyczne cechuje
wysoka trafność teoretyczna i często wysoka trafność kryterialna.
Wadą tak budowanych testów jest wzajemne skorelowanie skal (redundancja
pomiarowa).
Najlepszym polskim przykładem narzędzia zbudowanego za pomocą tej strategii
jest pawłowowski kwestionariusz PTS Strelaua i Zawadzkiego.
Strategie konstrukcji testów
Trudność pozycji
to stosunek liczby osób, które udzieliły prawidłowej
(zgodnej z kluczem i\lub diagnostycznej) odpowiedzi na
pytanie, do ogółem przebadanej liczby osób.
n
p
T% =ð ×ð100 %
n
Zazwyczaj wyrażany jest jako odsetek osób, które znały prawidłową
(diagnostycznÄ…) odpowiedz na pytanie; przyjmuje paradoksalne
wartości wysoka wartość wskazuje na łatwe pytania.
Jest stosowany zazwyczaj w przypadku testów wiedzy.
Najlepiej różnicującymi pytaniami są pytania o przeciętnym stopniu
trudności pozwalają na dokonanie największej liczby porównań
między osobami w próbie wskazującymi na różnice między tymi
osobami.
UWAGA: ILUSTRACJ TEGO ZAGADNIENIA JEST ĆWICZENIE NR 1
Strategie konstrukcji testów
Moc dyskryminacyjna
informuje w jakim stopniu pytanie/zadanie różnicuje daną
populację, ze względu na mierzoną cechę.
W rozumieniu operacyjnym jest to korelacja między pozycją a skalą; obliczanie
takich korelacji wymaga spełnienia specyficznych założeń jedna z korelowanych
zmiennych jest mierzona na skali nominalnej, druga na przedziałowej.
Wartości mocy dyskryminacyjnych maksymalizują się dla pytań o przeciętnej
trudności. Innymi słowy, moc dyskryminacyjna niesie tę samą informację co
wskaznik trudności (o stopniu różnicowania) nadto różnicowanie to jest badane
w kontekście zmiennej mierzonej przez całą skalę.
Moce dyskryminacyjne oblicza siÄ™ uprzednio rekodujÄ…c pytania z inwersjÄ….
Jeżeli pomimo rekodowania pytań z inwersją dostajemy ujemne wartości mocy
dyskryminacyjnych to znaczy, że osoby badane udzielają paradoksalnych odpowiedzi
(np. ekstrawertycy odpowiadajÄ… jak introwertycy, introwertycy jak ekstrawertycy)
Wartość ujemna zatem wskazuje na to, że badacz pomylił się ustalając klucz
można to traktować jako dyskwalifikację pozycji mimo znaczącej wartości
bezwzględnej mocy dyskryminacyjnej.
Przyjmuje się, że moc dyskryminacyjna musi mieć wartość > 0,20, aby pozycja była
włączana do skali (około 5% wspólnej wariancji ze skalą).
UWAGA: ILUSTRACJ TEGO ZAGADNIENIA JEST SAMOUCZEK ANALIZY ITEMMETRYCZNEJ NR 1
Strategie konstrukcji testów
Metody obliczania mocy dyskryminacyjnych (1)
W psychometrii wypracowano różne formuły obliczania mocy dyskryminacyjnej np.
współczynniki korelacji: biseryjnej, punktowo-dwuseryjnej, punktowo-czteropolowej.
Tu zaprezentowany zostanie ostatni z nich jako wymagający najsłabszych założeń
i zarazem najprostszy obliczeniowo.
Współczynnik korelacji punktowo-czteropolowej
fg -ð fd
gdzie: p= fg + fd
jð =ð p + q = 1
pq
fg proporcja osób odpowiadających zgodnie z kluczem w górnej połowie próby
fd proporcja osób odpowiadających zgodnie z kluczem w dolnej połowie próby
p proporcja osób odpowiadających zgodnie z kluczem
q proporcja osób odpowiadających niezgodnie z kluczem
UWAGA: ILUSTRACJ TEGO ZAGADNIENIA JEST ĆWICZENIE NR 2
Strategie konstrukcji testów
Metody obliczania mocy dyskryminacyjnych (2)
Pakiety statystyczne obliczajÄ… skorygowane korelacje pozycja-skala (corrected
item-total correlation), korekta polega na wyłączeniu z sumy wyniku ogólnego
pytania, dla którego obliczana jest moc dyskryminacyjna. Takiego postępowania
unikano w czasach przedkomputerowych , bowiem wymaga zliczania
specyficznych wyników ogólnych dla każdej osoby badanej podczas obliczania
mocy dyskryminacyjnej dla każdego z pytań tworzących skalę. W efekcie
obliczane bez tej ważnej korekty wartości mocy dyskryminacyjnych były
nieznacznie przeszacowane bowiem po części korelowano odpowiedzi na pytania
same ze sobą (jako występujące w sumie stanowiącej wynik ogólny).
Obliczane przez pakiety statystyczne wartości mocy dyskryminacyjnych mocy
dyskryminacyjnej sÄ… bardziej surowe i zarazem obiektywne.
UWAGA: ILUSTRACJ TEGO ZAGADNIENIA JEST SAMOUCZEK ANALIZY ITEMMETRYCZNEJ NR 1
Strategie konstrukcji testów
Strategia wewnętrzna (indukcyjna)
jest strategią, która opiera się na metodologii, a nie na
wiedzy i teorii. Celem badań jest nie tylko konstrukcja nowego
narzędzia diagnostycznego, ale także identyfikacja
podstawowych wymiarów zachowania za pomocą
eksploracyjnej analizy czynnikowej.
Analiza czynnikowa jest metodą analizy danych, której istota polega na
identyfikacji mniejszej liczby wymiarów, skupień, czy też czynników w większym
zbiorze skorelowanych zmiennych niezależnych lub też pozycji w narzędziu
testowym.
Podobnie jak w przypadku strategii dedukcyjnej przedmiotem pomiaru sÄ… cechy,
zatem badania prowadzi się na próbach reprezentatywnych dla populacji.
Kluczowym etapem konstrukcji jest empiryczny dobór wskazników za pomocą
analizy czynnikowej, a kryterium włączania pytania dla skali jest wartość
ładunku czynnikowego (ściśle wartości konfiguracji ładunków)
Powstałe w wyniku zastosowania tej strategii skale są oszczędne (krótkie)
i trafne teoretycznie, ich wadą jest ich nadmierna jednorodność i ogólność.
Najlepszym polskim przykładem budowy kwestionariusza zgodnie ze strategią
indukcyjnÄ… jest Polska Lista Przymiotnikowa (PLP) Szaroty.
Strategie konstrukcji testów
Aadunek czynnikowy
wskazuje na korelacyjny związek między pytaniem
a czynnikiem.
Dla oceny siły związku kluczowa jest wartość ładunku czynnikowego, natomiast
znak Å‚adunku ( - ) wskazuje na pytania nie wprost wymagajÄ…ce rekodowania.
Przyjmuję się, że warunkiem włączania pytania do skali jest wartość
ładunku > 0,30 (oznacza to około 10% wspólnej wariancji).
Zazwyczaj włączane do skali są pytania mające wysokie ładunki
jednego z czynników i niskie pozostałych mierzące określoną a nie inne treści
psychologiczne.
UWAGA: ILUSTRACJ TEGO ZAGADNIENIA JEST SAMOUCZEK ANALIZY ITEMMETRYCZNEJ NR 2
Strategie konstrukcji testów
Strategia zewnętrzna (kryterialna)
opiera siÄ™ na wiedzy (np. klinicznej) a nie na teorii
psychologicznej. Celem konstrukcji jest pomiar syndromów
zachowania , np. syndromów klinicznych.
Kluczowym etapem konstrukcji jest empiryczny dobór wskazników. Analiza
odwołuje się do danych z prób dobieranych celowo (np. chorzy vs. zdrowi).
Kryterium włączania pozycji do skali jest korelacja pozycji z zewnętrznym
kryterium.
Powstałe narzędzia cechuje wysoka trafność kryterialna, często takie testy
są nisko rzetelne i nadmiernie długie.
W strategii tej rezygnuje się z założenia o pomiarze cechy. W efekcie
korelacje między pytaniami nie są oczekiwane. Poszukuje się pytań, opisujących
zachowania różnicujące dwie grupy osób (np. objawy kliniczne, vs. brak
objawów).
Najlepszym polskim przykładem narzędzia budowanego w tej strategii jest
Lista Objawowa Aleksandrowicza i współpracowników.
Strategie konstrukcji testów
Inne miary dobroci pozycji
W przypadku narzędzi tworzonych zgodnie ze strategią kryterialną miarą dobroci
pozycji jest jej korelacja z zewnętrznym kryterium. Konsekwencją takiego podejścia
(i zastosowanej strategii analizy danych) jest tworzenie skal mniej homogenicznych,
mniej rzetelnych, jednak bardziej trafnych kryterialnie i treściowo.
W zależności od przyjętych założeń dotyczących kryterium stosuje się:
" model wielokrotnej regresji liniowej,
" analizÄ™ dyskryminacyjnÄ….
Wyszukiwarka
Podobne podstrony:
Metody Konstruwania Strategii ForexFinanse Konstrukcja podatku 1Functional Origins of Religious Concepts Ontological and Strategic Selection in Evolved Mindsstrategia podatkowa wersja skrocona 9Zarzadzanie strategiczne wyklad nr 22010 05 Szkola konstruktorow kl NieznanyKonstrukcje drewnianeWspółczesne konstrukcje parkingów podziemnych4 KonstruktoryDziałania, strategiczne cele Al Kaidywięcej podobnych podstron