Psychometria, metoda
testów
Psychometria, metoda
testów
Strategie konstrukcji testów, właściwości pozycji
wykład 4
Strategie konstrukcji
testów
Strategie konstrukcji
testów
teoretyczna – dedukcyjna
zewnętrzna – kryterialna
wewnętrzna – indukcyjna
Kilka ważnych dat
Kilka ważnych dat
–
ok. 2200 p.n.e. „standaryzowane techniki
diagnozy” używane w Chinach do selekcji
urzędników państwowych
–
1906 - Alfred Binet i Theophil Simon;
pierwszy test inteligencji pierwotnie służący do
selekcji dzieci upośledzonych
–
1908 - Gerard Heymans i Erno Wiersma;
trzywymiarowa typologia temperamentu;
pierwsze badania kwestionariuszowe
–
1939 - David Wechsler publikuje pierwszą
wersję
Wechsler Adult Inteligence Scale (WAIS)
–
1943 - Minnesota Multiphasis Personality
Inventory
S.R. Hathawaya i J.C. McKinleya
–
1949 - 16 Personality Factor Questionnaire R.B.
Cattella
Znaczące wydarzenia dla rozwoju
diagnostyki psychometrycznej w Polsce
Znaczące wydarzenia dla rozwoju
diagnostyki psychometrycznej w Polsce
–
1958 powstanie Pracowni
Psychometrycznej przy PAN
–
1975 powołanie Laboratorium Technik
Diagnostycznych przy Instytucie
Psychologii U.W. wspólnie z Polskim
Towarzystwem Psychologicznym
–
1990 powstanie Pracowni Testów
Psychologicznych Polskiego Towarzystwa
Psychologicznego
Mieczysław Choynowski
(1909-2001)
Mieczysław Choynowski
(1909-2001)
–
Konwersatorium
naukoznawcze
asystentów U.J. (1946-
1950)
–
Pracownia Psychologiczna
w Kobierzynie (1950-
1956)
–
Pracownia
Psychometryczna PAN
(1958-1970)
–
Testy w poradnictwie
wychowawczo-
zawodowym (1977)
Pozycja testowa
Pozycja testowa
– to sformalizowany wskaźnik danej cechy
psychologicznej, a więc zdanie
(twierdzenie lub pytanie) opisujące
określone zachowanie (lub zdanie
wyzwalające określone zachowanie) oraz
skala rejestrująca to zachowanie
(zawierająca określone opcje odpowiedzi o
danym formacie oraz reguła
przekształcania odpowiedzi
w wynik liczbowy).
Strategia teoretyczna
Strategia teoretyczna
–
opiera się na teorii psychologicznej, celem konstrukcji
jest pomiar cech postulowanych przez teorię
–
kluczowym etapem konstrukcji jest analiza definicji
cech
–
odwołuje się do danych z prób reprezentatywnych
–
kryterium włączania pozycji do skali mogą być:
trudność pozycji, moc dyskryminacyjna
–
powstałe narzędzia cechuje wysoka trafność
teoretyczna
i często wysoka trafność kryterialna
–
wadą zbudowanego testu jest wzajemne skorelowanie
skal
Strategia zewnętrzna
Strategia zewnętrzna
–
opiera się raczej na wiedzy niż na teorii
psychologicznej, celem konstrukcji jest pomiar
„syndromów zachowania”
–
kluczowym etapem konstrukcji jest empiryczny dobór
wskaźników
–
odwołuje się do danych z prób dobieranych celowo
–
kryterium włączania pozycji do skali:
korelacja pozycji z zewnętrznym kryterium
–
powstałe narzędzia cechuje wysoka trafność
kryterialna
–
często takie testy są nisko rzetelne i nadmiernie długie
Strategia wewnętrzna
Strategia wewnętrzna
–
opiera się na metodologii, a nie na wiedzy i teorii,
celem konstrukcji jest identyfikacja podstawowych
wymiarów zachowania a przedmiotem pomiaru są
cechy
–
kluczowym etapem konstrukcji jest empiryczny dobór
wskaźników (analiza czynnikowa)
–
odwołuje się do danych z prób reprezentatywnych
–
kryterium włączania pozycji do skali może być:
ładunek czynnikowy
–
powstałe skale są oszczędne i trafne teoretycznie
–
wadą zbudowanych skal jest ich nadmierna
jednorodność
i ogólność
Przykład interkorelacji skal
kwestionariuszy (1)
Przykład interkorelacji skal
kwestionariuszy (1)
Kwestionariusz PTS Strelaua i Zawadzkiego
SPP/SPH
SPP/RPN
SPH/RPN
0,31
0,61 0,26
przeciętna korelacja - 0,40
Polska Lista Przymiotnikowa Szaroty
UGD SUM DYN
INT
SUM
0,25
DYN
0,22 0,30
INT 0,21 0,22 0,52
POB0,01 -0,26 0,27 0,19
przeciętna korelacja - 0,25
Przykład interkorelacji skal
kwestionariuszy (2)
Przykład interkorelacji skal
kwestionariuszy (2)
Kwestionariusz FCZ-KT Zawadzkiego i
Strelaua
ŻWA
PER
WRS REM WYT
PER
0,31
WRS
0,20 0,11
REM
-0,51 0,63 0,03
WYT
0,54 -0,47 0,04 -0,64
AKT0,32 0,07 0,09 -0,32 0,19
przeciętna korelacja - 0,30
Przykład interkorelacji skal
kwestionariuszy (3)
Przykład interkorelacji skal
kwestionariuszy (3)
Kwestionariusz NEO-FFI Costy i
McCrae
EKS
OTW UGD SUM
NEU
-
0,30 0,01 -0,15 -0,25
EKS
0,19 0,01 0,15
OTW
0,01 -0,10
UGD
0,27
przeciętna korelacja - 0,14
Analiza czynnikowa
Analiza czynnikowa
–
metoda analizy danych, której istota
polega na identyfikacji mniejszej liczby
wymiarów, skupień, czy też czynników w
większym zbiorze skorelowanych
zmiennych niezależnych lub też pozycji w
narzędziu testowym.
–
eksploracyjna a konfirmacyjna analiza
czynnikowa
–
dwa kroki analizy czynnikowej
–
problemy wynikające z arbitralnych decyzji
badacza
Analiza czynnikowa -
przykład (1)
Analiza czynnikowa -
przykład (1)
choleryczny
bystry
towarzyski
pilny
szczodry
ufny
operatywny nerwowy
pojętny
solidny
myślący
staranny
wrażliwy wielkoduszny gadatliwy
gościnny emocjonalny energiczny skrupulatny
twórczy
sumienny
śmiały
oczytany
pobudliwy
uczynny
Analiza czynnikowa – scree-
plot
Analiza czynnikowa – scree-
plot
Factor Scree Plot
Factor Number
58
55
52
49
46
43
40
37
34
31
28
25
22
19
16
13
10
7
4
1
E
ig
en
va
lu
e
8
6
4
2
0
Ładunek czynnikowy
Ładunek czynnikowy
–
w sensie operacyjnym korelacja między
pytaniem
a czynnikiem
–
dla oceny siły związku kluczowa jest jego
wartość – znak ładunku wskazuje na pytania
„nie wprost” wymagające rekodowania
–
przyjmuję się, że warunkiem włączania pytania
do skali jest wartość ładunku > 0,30 (oznacza
to około 10% wspólnej wariancji)
–
zazwyczaj włączane do skali są pytania mające
wysokie ładunki jednego z czynników i niskie
pozostałych – mierzące określoną a nie inne
treści
Trudność pozycji
Trudność pozycji
–
stosunek liczby osób, które udzieliły
prawidłowej
(zgodnej z kluczem i diagnostycznej)
odpowiedzi na pytanie, do ogółem przebadanej
liczby osób
–
zazwyczaj wyrażany jako odsetek osób, które
znały prawidłową odpowiedź na pytanie
–
przyjmuje „paradoksalne” wartości – wysoka
wartość wskazuje na łatwe pytania
–
stosowany zazwyczaj w przypadku testów
wiedzy
–
najlepiej różnicującymi pytaniami są pytania o
przeciętnym stopniu trudności – pozwalają na
dokonanie największej liczby porównań
między osobami w próbie
Moc dyskryminacyjna
Moc dyskryminacyjna
–
informuje w jakim stopniu pytanie/zadanie
różnicuje daną populację, ze względu na
mierzoną cechę
–
w rozumieniu operacyjnym – korelacja między
pozycją
a skalą; obliczanie takich korelacji wymaga
spełnienia specyficznych założeń – jedna z
korelowanych zmiennych jest mierzona na skali
nominalnej, druga na przedziałowej
–
wartość ujemna wskazuje na to, że badacz
pomylił się ustalając klucz – można to traktować
jako dyskwalifikację pozycji mimo znaczącej
wartości bezwzględnej m.d.
–
przyjmuje się, że moc dyskryminacyjna musi
mieć
wartość > 0,20, aby pozycja była włączana do
skali
(około 5% wspólnej wariancji ze skalą)
–
wartości mocy dyskryminacyjnych
maksymalizują się dla pytań o przeciętnej
trudności
Metody obliczania mocy
dyskryminacyjnych (1)
Metody obliczania mocy
dyskryminacyjnych (1)
współczynnik korelacji biseryjnej
(dwuseryjnej)
–
rozkład wyników cechy mierzonej przez daną
pozycję winien być zmienną ciągłą o normalnym
rozkładzie
–
rozkład wyników ogólnych w teście winien
także być rozkładem normalnym
współczynnik korelacji punktowo-
dwuseryjnej
–
rozkład wyników cechy mierzonej przez daną
pozycję jest dwukategorialny – zmienna jest
dyskretna
–
wyniki ogólne w teście mają rozkład normalny
(jak wyżej)
współczynnik korelacji punktowo-
czteropolowej
–
nie można przyjąć założeń wymienionych wyżej
–
zarówno wynik pozycji, jak i wynik ogólny
traktowane
są jako zmienne dychotomiczne
Metody obliczania mocy
dyskryminacyjnych (2)
Metody obliczania mocy
dyskryminacyjnych (2)
pakiety statystyczne obliczają
skorygowane korelacje pozycja-skala
(corrected item-total correlation)
–
korekta polega na wyłączeniu z sumy wyniku
ogólnego pytania, dla którego obliczana jest
moc dyskryminacyjna
–
obliczane w taki sposób wartości mocy
dyskryminacyjnej są bardziej surowe (niższe)
niż w przypadku współczynników
prezentowanych na poprzedniej folii
Inne miary dobroci pozycji
Inne miary dobroci pozycji
w przypadku narzędzi tworzonych zgodnie
ze strategią kryterialną – miarą dobroci
pozycji jest jej korelacja z zewnętrznym
kryterium
konsekwencją takiego podejścia (i
zastosowanej strategii analizy danych) jest
tworzenie skal mniej homogenicznych,
mniej rzetelnych, jednak bardziej trafnych
kryterialnie i treściowo
w zależności od przyjętych założeń
dotyczących kryterium stosuje się:
–
model wielokrotnej regresji liniowej
–
analizę dyskryminacyjną
Problemy z formą
narzędzia
Problemy z formą
narzędzia
wynikające ze specyfiki kwestionariuszy
–
niejednoznaczność kwantyfikatorów częstości
–
dostępność zachowania w doświadczeniu
–
przesadne uogólnienia i pojęcia abstrakcyjne
–
błąd bliskości
wynikające wprost ze specyfiki języka
negacje, użycie strony biernej, podwójne
przeczenia, komplikacja gramatyczna, zdania
złożone, trudne
i rzadko używane słowa
Format odpowiedzi
Format odpowiedzi
– wielkość zestawu opcji lub wersji
odpowiedzi, liczba kategorii odpowiedzi
oferowanych osobie badanej do wyboru.
–
ilość opcji odpowiedzi
–
konsekwencje użycia zbyt wąskiego, lub zbyt
szerokiego formatu odpowiedzi
–
problem „opcji środkowej” – ?
–
preferencje formatu odpowiedzi wynikające
z charakterystyk osób badanych