ANALIZA POZYCJI TESTOWYCH
ROZDZIAŁ 7
Zarówno trafność jak i rzetelność każdego testu zależy od właściwości składających się nań pozycji. Dzięki analizie pozycji można z góry wbudować w test wysoką rzetelność i trafność a nawet skrócić test jednocześnie zwiększając jego trafność i rzetelność
Analiza pozycji testowych może mieć charakter:
- jakościowy(uwzględniając jego treść i formę)
-ilościowy (obejmuje rozważanie trafności treściowej i ocenę pozycji z punktu widzenia efektywności procedur ich konstruowania).
1)TRUDNOŚĆ POZYCJI
A) Procent odpowiedzi zgodnych z kluczem (skala porządkowa)
Czyli ile osób odpowiedziało poprawnie - jeżeli wszyscy odpowiedzieli dobrze, albo nikt nie odpowiedział dobrze to znaczy że zadanie nie różnicuje osób. Im bardziej wskaźnik trudności się zbliża do 1,00 lub do 0 tym mniej różnicuje. Im bardziej natomiast wskaźnik zbliża do 0,50 tym lepiej różnicuje. Ze względu na wzajemne korelacje miedzy pozycjami najlepiej jest wybierać jest zadania o umiarkowanym rozrzucie stopnia trudności takie jednak , których przeciętna trudność wynosi 0,50. Ponadto im wyższe korelacje między pozycjami (lub korelacje tych pozycji z wynikiem ogólnym), tym większa powinna być rozpiętość stopnia trudności pozycji.
Aby uwzględnić fakt, że pewna część osób badanych będzie zgadywać zawyża się pożądaną proporcję poprawnych odpowiedzi (np. w pytaniach z 5 odpowiedziami do wyboru proporcja popr. odp. Powinna wynosić w przybliżeniu 0,69.
B) Skale przedziałowe
Minusem skali porządkowej jest fakt że pozawala ona stwierdzić które z zadań jest najtrudniejsze czy najłatwiejsze, nie pozwala natomiast czy różnica w stopniu trudności między zadaniami np. 1 i 2 jest taka sama jak różnica między zadaniami 2 i 3. Poziom trudności pozycji możemy wyrazić na skali przedziałowej mającej równe jednostki , korzystając w tym celu z tabeli częstości pod krzywą. Zadanie które rozwiązuje 50 % osób wypada w miejscu średniej ( jego wartość na tej skali wynosi 0) Trudniejsze pozycje mają wartości dodatnie , a łatwiejsze wartości ujemne. Poziom trudności odpowiadający danemu procentowi osób udzielających odpowiedzi zgodnej z kluczem można znaleźć w tabeli częstości pod krzywą normalną znajdującej się w każdym standardowym podręczniku statystyki.
C) Skala bezwzględna Thurstone'a
Obie powyższe metody odnoszą się do zakresu zdolności występującego w próbie, dla której zostały uzyskane. Ta skala pozwala szacować trudność pozycji dla różnych prób zróżnicowanych pod względem poziomu zdolności. Procedura ta obejmuje dwa etapy:
Po pierwsze dla każdej grupy znajdujemy wartości skalowe przekształcające dla każdego pytania procent zgodnych z kluczem odpowiedzi na wyrażone w jednostkach odchylenia standardowego, czyli wartości z.
Po drugie, przekładamy te wszystkie wartości skalowe na odpowiadające im wartości ustalone dla jednej z tych grup , wybranej jako grupa standaryzacyjna.
Wartości skalowe tych samych pozycji stosowanych w dwóch lub więcej grupach, służą do określania relacji między nimi i pozwalają ma dokonywanie zmiany wskaźników trudności wszystkich pozycji dla jednej grupy na wskaźniki trudności pozycji dla innej grupy.
Procedurę można rozciągnąć na dowolną liczbę grup, biorąc pod uwagę pary sąsiadujących grup. Sąsiednie grupy są zazwyczaj wystarczająco podobne, by dla celów powiązania duża część testu mogła być wspólna. Jednak każda klasa powinna mieć inne części wspólne z najbliższą wyższą i najbliższą niższą klasą.
D) Rozkład wyników testowych (analiza rozkładu wyników ogólnych )
Jeżeli rozkład wyników testowych w próbie standaryzacyjnej istotnie odbiega od rozkładu normalnego, to zazwyczaj modyfikuje poziom się poziom trudności testu dopóty, dopóki nie otrzyma się rozkładu zbliżonego do normalnego( np. przez dodanie lub odjęcie pozycji, zmodyfikowanie pozycji czy zmianę ich miejsca, zrewidowanie wag odpowiedzi)
E) Zależność między trudnością pozycji a celem badania testowego
Test przeznaczony do celów przesiewowych powinien zawierać pozycję dla których wartość wskaźnika trudności jest możliwie najbliższa pożądanemu współczynnikowi selekcji (np. wybór 20% osób- to pozycje których trudność oscyluje wokół p=0,20- lub nieco wyższej wartości uwzględniając zgadywanie).Jeżeli test ma być stosowany do selekcji studentów do stypendium zadania muszą być trudniejsze niż przeciętne dla tej populacji. Jeżeli badamy elementarne opanowanie jakiejś umiejętności , to możliwa do przyjęcia wartość wskaźnika powinna wynosić około 0,80- 0,90.
Moc dyskryminacyjna pozycji (dalej: MDP)
jest to stopień w jakim dana pozycja trafnie różnicuje osoby wykonujące test, w zakresie zachowania które ma on mierzyć
pozycje testowe można wybierać na podstawie zewnętrznego kryterium i na podstawie ogólnego wyniku w teście. W pierwszym wypadku maksymalizujemy trafność testu w stosunku do zew. kryterium, w drugim - maksymalizujemy zgodność wewn. Czyli jednorodność testu. W pewnych warunkach te 2 sposoby mogą prowadzić do przeciwnych rezultatów.
Statystyczne wskaźniki MDP:
pomiar MDP zwykle obejmuje zmienną dychotomiczną (pozycja) i zmienną ciągłą (kryterium)
Opracowano ponad 50 różnych wskaźników MDP przeważnie jednak te same pozycje zostają na ich podstawie utrzymane i te same odrzucane.
Wykorzystanie grup skrajnych: porównywanie proporcji osób odpowiadających zgodnie z kluczem w kontrastowych grupach kryterialnych. Jednak wykorzystanie najbardziej skrajnych grup może obniżyć rzetelność wyników ze względu na małą liczebność wykorzystanych przypadków.
Przykład:
W klasie liczącej 60 osób wybieramy 20 osób z najwyższymi i 20 z najniższymi wynikami w teście. Mamy 3 grupy: Górną (G), Środkową (S) i Dolną (D). Liczymy poprawne odpowiedzi udzielone na każde pyt. przez uczniów każdej z tych grup. Przykładowa tabela:
Pytanie |
G |
S |
D |
Trafność (G+S+D) |
MDP (G-D) |
1 |
15 |
9 |
7 |
31 |
8 |
2 |
20 |
20 |
16 |
56 |
4 |
3 |
19 |
18 |
9 |
46 |
10 |
Dla każdego pyt. możemy obliczyć MDP odejmując liczbę osób z grupy D, które poprawnie odpowiedziały na to pyt. od liczby osób z grupy G które poprawnie odpowiedziały na to pyt
Wskaźnik Mocy dyskryminacyjnej (MD): jeżeli liczbę osób odpowiadających zgodnie z kluczem w dolnej i górnej części grupy kryterialnej wyrazimy w postaci procentów to różnica między tymi odsetkami będzie wskaźnikiem MD możliwym do interpretowania niezależnie od liczebności konkretnej próby dla której go otrzymano. Wskaźnik ten przyjmuje wartość od -100 do +100.
Współczynnik phi: Oparty na proporcji osób dobrze odpowiadających w górnej i dolnej części grupy kryterialnej. Zawiera się w granicach od +1 do -1. Można go stosować wyłącznie w odniesieniu do dychotomii dla której go obliczono i nie można uogólniać na wszelkie inne zależności między cechą mierzoną przez daną pozycję i kryterium. Podobnie jak MD faworyzuje pozycje o umiarkowanym poziomie trudności to znaczy najwyższe możliwe korelacje otrzymuje się wtedy gdy podział na dwie części najbliższy jest proporcji 50;50.
Korelacja dwuseryjna: Sporo różni się od phi: zakłada ciągły i normalny rozkład cech leżącej u podstaw zarówno dychotomicznej odpowiedzi na dane pyt. tak i zmiennej kryterialnej. Poza tym miara zależności między pozycją a kryterium, której dostarcza ten współczynnik jest niezależna od trudności pozycji. Obliczając tą korelację bierze się pod uwagę średnie wyniki kryterialne osób, które na dane pyt. odpowiedziały zgodnie i niezgodnie z kluczem, odchylenie standardowe dla całej grupy i proporcje osób, które odpowiedziały zgodnie i nie zgodnie z kluczem na dane pyt.
Teoria odpowiedzi na pytania testu
Regresja pozycji względem testu: na wykresie równania regresji pozycji względem testu można jednocześnie przedstawić zarówno trudność jak i MDP. Możemy zobaczyć jak efektywnie funkcjonuje dana pozycja. Tego rodzaju wykresy nie tylko łączą informacje na temat trudności i MDP ale także dają pełny obraz zależności między odpowiedzią na dane pyt. a wynikiem ogólnym.
Teoria odpowiedzi na pytania testu (IRT): zwana też teorią ukrytej cechy i teorią krzywej opisującej pozycję testową. Sposób odpowiedzi na pyt. jest wiązany z szacowaną ilością „ukrytej cechy” u osoby badanej. W testach poznawczych ukrytą cechę określa się zazwyczaj jako zdolność mierzoną przez test. Krzywe opisujące pozycje testowe wykreśla się na podstawie matematycznie wyprowadzonych funkcji.
W pełnym trójparametrycznym modelu każda ICC (pozycja testowa) opisywana jest przez 3 parametry:
Parametr MDP
Parametr trudności pozycji
Parametr zgadywania
W modelach dwuparametrycznych pomija się parametr zgadywania. Są one odpowiednie wtedy gdy wpływ zgadywania na wyniki w teście można uznać za nieistotny.
Model jednoparametrowy oparty tylko na trudności zbioru został opracowany przez Roscha. Jest on oparty na założeniu, że zarówno zgadywani jak i zróżnicowanie pozycji pod wpływem MD, nie ma większego znaczenia.
Powyższe modele zakładają jednowymiarowość testu.
ANALIZA POZYCJI W TESTACH SZYBKOSCI
Bez względu na to, czy test szybkość jest istotna dla mierzonej funkcji, czy tez nie, wskaźniki obliczone w testach szybkości mogą być mylące. Będą one raczej odzwierciedlać M,IEJSCE zajmowane przez daną pozycję w teście, aniżeli jej trudność, czy moc dyskryminacyjną.
zadania które pojawiają się POD KONIEC testu- rozwiązuje stosunkowo mały procent z całej próby, ponieważ tylko nielicznym wystarcza czasu aby do nich dojść - w takiej sytuacji mamy do czynienia z ZAWYŻONYMI wskaźnikami mocy dyskryminacyjnej, gdyż pozycja która pojawia się pod koniec testu ( bez względu na jej naturę) będzie korelować z kryterium, a korelacja ta będzie wyższa niż w bardziej reprezentatywnej grupie
tak tez jeżeli zadanie występuje pod koniec testu szybkości, to większy procent osób, które się z nim zmierzyły, rozwiązuje je poprawnie i wyżej koreluje ono z kryterium, niż to samo zadanie znajdujące się na początku testu
Jednym z możliwych rozwiązań tych problemów jest zbadanie grupy na której ma być przeprowadzona analiza pozycji testem zastosowaniem długiego limitu czasu ( to rozwiązanie jest możliwe jeśli szybkość nie jest ważnym aspektem mierzonej zdolności)
KRZYŻOWE BADANIE TRAFNOŚCI : ( walidacja krzyżowa) to niezależne określanie trafności testu, poprzez
sprawdzanie trafności na INNEJ PRÓBIE osób niż
ta, której wyniki stanowiły podstawę selekcji
pozycji ( gdyż na jej podstawie współczynnik
trafności będzie zawyżony na skutek wpływu
LOSOWYCH BŁĘDÓW DOBORU tej próby)
OKOLICZNOŚCI WPŁYWAJĄCE NA OBNIŻANIE SIĘ TRFNOŚCI
To o ile zmniejszy się współczynnik trafności przy walidacji krzyżowej częściowo zależy od:
rozmiaru pierwotnej puli pozycji
proporcji pozycji które pozostały
Sytuacja , w które
początkowa pula pozycji jest duża, a
proporcja utrzymanych pozycji mała
sprzyja działaniu przypadkowych różnic i uzyskaniu ZANIŻONEGO współczynnika trafności
OBNIŻENIE : - gdy mniejsze grupy ( gdyż większe błędy związane z doborem )
- pozycje zostały zebrane bez wcześniejszego sformułowanego uzasadnienia-
to trzymanie się empirycznego sposobu - czyli gromadzenie pytań bez
zwracania uwagi na ich związek z zachowaniem kryterialnym
a następnie pozostawienie wszystkich które pozytywnie lub negatywnie
korelują z kryterium
ZJAWISKO RÓŻNEGO FUNKCJONOWANIA POZYCJI
PROCEDURY STATYSTYCZNE:
dotyczące STRONNICZOŚCI testu - np. względem grup mniejszościowych, z odmiennych środowisk
ZJAWISKO RÓŻNEGO FUNKCJONOWANIA POZYCJI ( DIF) - wskazanie pozycji dla których różne jest prawdopodobieństwo uzyskania sukcesu przez osoby równie zdolne, ale pochodzące z różnych grup kulturowych
w celu kontroli stosuje się technikę opartą na ITEM RESPONSE THEORY ( IRT):
szczególnie stosuje się ją przy DUŻYCH PRÓBACH
krzywe opisujące pozycje testowe ( ICC) wskazują dla każdego zadania prawdopodobieństwo poprawnej odpowiedzi w relacji do skali zdolności mierzonych testem
porównując ICC dla tych samych pozycji w dowolnych2 grupach możemy określić , które pozycje wyraźnie inaczej funkcjonują w zależności od wyrażonych na jednolitej skali ogólnych wyników uzyskanych w teście przez te grupy.
Gdy określone są już pozycje, które różnie zachowują się w zależności od poziomu zdolności , to bez względu na to jaką procedurę zastosowano w tym celu, następny krok polega na zbadaniu natury i źródła tych różnic. W tym celu może być potrzebne zastosowanie procedur opartych na sędziowaniu.
b) PROCEDURY OPARTE NA SĘDZIOWANIU - są one odpowiednie zwłaszcza na początkowym i na końcowym etapie konstruowaniu testu
na początku : przesiew treści, np. te które mogą być w jakiś sposób obraźliwe dla grup mniejszościowych , bądź odwołują się do stereotypów ról społecznych , wyłapują też treści które mogą mieć kulturowo ograniczony zasięg
( należy jednak zwrócić uwagę ze przeglądy dokonywane przez sędziów zazwyczaj nie są trafną metodą przewidywania względnej trudności bądź mocy dyskryminacyjnej pozycji dla różnych populacji)
Zazwyczaj najlepszym połączeniem jest zastosowanie pewnych procedur statystycznych i pewnych procedur opartych na sędziowaniu
BADANIA NAD KONSTRUOWANIEM POZYCJI:
Nadal powszechna jest praktyka robienia badań pilotażowych w celu określenia trudności i mocy dyskryminacyjnej pozycji
Sposoby:
w poznawczej : poznawcze wymagania stawiane przez bodźce testowe można badać za pomocą TECHNIK DEKOMPOZYCYJNYCH zadania, procedury te pozwalają analizować zależności między różnymi właściwościami pozycji a szybkością wykonania i liczbą błędów
badania dotyczące semantycznych właściwości bodźców werbalnych - np. w testach rozumienia werbalnego można konstruować zadania zgodnie z zasadami logiki: takie procedury gwarantują że tylko1 z odpowiedzi do wyboru jest rzeczywiście poprawna, umożliwia tez manipulację złożonością pozycji
najnowsze podejście ( Embreston) - zaczyna się od zdefiniowania konstruktów, które mają być przedmiotem oceny- po czym następuje projektowanie poznawczego modelu dla testu. Następnie następuje empiryczna walidacja zadań, mająca na celu sprawdzenie jak dobrze pasują one do modelu poznawczego.
Badania poświęcone przewidywaniu trudności pozycji na podstawie fizycznych i semantycznych właściwości bodźców nie mogą także prowadzić do konstruowania zadań przez komputery
Przy konstruowaniu ważne jest uwzględnienie 2 aspektów trafności teoretycznej:
REPREZENTACJI KOSTRUKTU: na jej temat informacji dostarcza dekompozycja zadania
PRZESTRZEŃ NOMOTETYCZNA : wymaga badania zależności wyników testowych od innych , zewnętrznych zmiennych , włączając w to miary kryterialne.