Wykład 7
TRAFNOŚĆ POMIARU
TESTEM: PODSTAWOWE
POJĘCIA ORAZ METODY I
WSKAŹNIKI
Pojęcie trafności pomiaru
Trafność pomiaru testem to:
a). stopień, w jakim test mierzy
cechę, jaką ma mierzyć (
trafność
teoretyczna
czy inaczej trafność
zorientowana na konstrukt);
b). stopień dokładności
przewidywania określonych kryteriów
praktycznych (
trafność kryterialna
lub inaczej trafność podejmowanych
decyzji).
Trafność a założenia KTT
Pojęcie trafności odwołuje się do
założeń Klasycznej Teorii Testów,
zgodnie z którymi wyniki
prawdziwe i błędy pomiaru są
nieskorelowane, jak i błędy są
nieskorelowane (r
tb
= 0 oraz r
bb
=
0), co oznacza, że obserwowane
korelacje (między pozycjami,
testem i innymi testami oraz
testem a kryteriami) są korelacjami
wyników prawdziwych.
Trafność a rzetelność
pomiaru
Rzetelność jest koniecznym , ale
niewystaczającym warunkiem
trafności pomiaru. Oznacza to, że
test może być rzetelny i nietrafny,
ale nie odwrotnie – test nierzetelny
musi być nietrafny.
Rzetelność jest kresem górnym
trafności, ponieważ wariancja
prawdziwa jest źródłem rzetelności,
ale także trafności.
Źródła wariancji przy analizie
rzetelności i trafności
(A)
Systematyczna
wariancja
wspólna z
innymi testami.
(B)
Systematyczna
wariancja
specyficzna dla
danego testu.
(C) Wariancja
błędu (losowa).
Rzetelność = A
+ B (wariancja
systematyczna
w
przeciwieństwie
do wariancji
losowej).
Trafność = A
(wariancja
wspólna w
przeciwieństwie
do specyficznej
wariancji = B +
C).
Rzetelność i trafność
Rzetelność i trafność są
parametrami psychometrycznymi
pomiaru testem i są wyznaczane
przez podobne czynniki:
Zmiany w procedurze standaryzacji
(alternatywne zastosowanie testu).
Zmiany w demograficznym składzie
próby - ograniczona zmienność
wyników testu lub wyników
kryterialnych w grupie.
Rzetelność i trafność
W przypadku trafności kryterialnej,
wymaganie tego rodzaju trafności
jest sprzeczne z wymogiem
rzetelności, jak i trafności
teoretycznej. Rzetelność i trafność
teoretyczna jest najwyższa, gdy
interkorelacje pozycji są wysokie,
ale wtedy trafność kryterialna jest
niska (wymaga ona pozycji o
niskich interkorelacjach oraz
wysokich korelacjach z kryteriami
zewnętrznymi,
Rzetelność i trafność
co prowadzi do obniżenia
rzetelności i trafności teoretycznej.
W takim wypadku test mierzy różne
(nieskorelowane) właściwości
psychologiczne, pozwalające na
przewidywanie złożonych kryteriów
praktycznych - jest heterogeniczny
pod względem treści
psychologicznej (zaś rzetelność i
trafność wymaga homogenicznych
pozycji oraz jednej cechy,
wpływającej na wyniki testowe).
Rodzaje trafności pomiaru
Trafność pomiaru obejmuje trzy
rodzaje:
a). trafność treściową (wewnętrzną),
b). trafność kryterialną
(diagnostyczną i prognostyczną),
c). trafność teoretyczną.
Trafność treściowa - definicja
Trafność treściowa (wewnętrzna)
-
reprezentatywność danej puli pozycji
dla uniwersum pozycji mierzących
daną cechę.
Trafność treściowa - definicja
Trafność treściowa (wewnętrzna)
-
reprezentatywność danej puli pozycji
dla uniwersum pozycji mierzących
daną cechę. Trafność treściowa jest
wstępnym aspektem trafności
teoretycznej. Trafność fasadowa jest
natomiast karykaturą trafności i nie
powinna być przesłanką do
budowania sądu o faktycznej
trafności testu.
Trafność treściowa
Analiza trafności treściowej jest
niezbędnym etapem prac
konstrukcyjnych testu (zanim
jeszcze test został całkowicie
opracowany, za wyjątkiem kwestii
krytyki testu, gdy chcemy wykazać,
że test jest nietrafny treściowo, np.
treść pozycji testowych nie
obejmuje ważnych aspektów
cechy).
Etapy oceny trafności
treściowej
Precyzyjna definicja cechy
(konstruktu oraz porównanie z
innymi konstruktami
teoretycznymi).
Opis aspektów cechy:
podwymiarów czy fasad cechy
(cecha, jak i jej podwymiary
powinny mieć budowę
hierarchiczną i być precyzyjnie
zdefiniowane).
Etapy oceny trafności
treściowej
Ocena liczby pozycji w każdym
podwymiarze oraz teście jako
całości (każdy podwymiar powinien
być reprezentowany w całym teście
i obejmować zbliżoną liczbę
pozycji).
Ocena pozycji w każdym
podwymiarze oraz w całym teście
przez grupę ekspertów na skalach
ocen (trafność treściowa) lub osób
badanych (typowość).
Trafność kryterialna -
definicja
Trafność kryterialna
- stopień, w
jakim test pozwala na przewidywanie
określonego kryterium
zewnętrznego, np. powodzenia
zawodowego, szkolnego,
wypadkowości, diagnozy klinicznej,
itp. Trafność kryterialna obejmuje
trafność diagnostyczną
(stopień, w
jakim test pozwala na ocenę
aktualnego kryterium) oraz
trafność
prognostyczną
(stopień, w jakim test
pozwala na ocenę przyszłego
kryterium).
Trafność kryterialna -
szacowanie
Trafność kryterialna
jest szacowana
na podstawie korelacji między
wynikami testu a określonym
kryterium pozatestowym; z tego
względu kluczowym aspektem jest
rzetelność (jak i trafność) samego
kryterium, użytego do badania
trafności testu.
Trafność kryterialna -
poprawka na nierzetelność
kryterium
Poprawka na nierzetelność
kryterium:
r
kt
r
s-k
= --------------
R
tt-k
r
s-k
- skorygowany współczynnik korelacji,
r
kt
- współczynnik korelacji przed
skorygowaniem, R
tt-k
współczynnik
rzetelności kryterium.
Trafność kryterialna -
poprawka na nierzetelność
kryterium i testu
Poprawka na nierzetelność kryterium
i testu:
r
kt
r
s-kt
= --------------
R
tt-k
R
tt-t
r
s-kt
- skorygowany współczynnik korelacji,
r
kt
- współczynnik korelacji przed
skorygowaniem, R
tt-k
współczynnik
rzetelności kryterium, R
tt-t
-współczynnik
rzetelności testu.
Trafność kryterialna – dane z
meta-analiz
Testy zdolności – korelacje około
0,50 ze wskaźnikami efektywności
pracy oraz osiągnięciami szkolnymi
(0,70 – szkoła podstawowa, 0,50 –
szkoła średnia oraz 0,30 – szkoła
wyższa).
Skale osobowości – korelacje około
0,30 ze wskaźnikami efektywności
pracy oraz 0,50 z diagnozą
kliniczną (psychiatryczną).
Skala
Mount i Barrick
(1991)
Tett, J ackson i
Rothstein (1991)
Neurotyczność
-0,04 (-0,07)
-0,15 (-0,22)
Ekstrawersja
0,06 (0,10)
0,10 (0,16)
Otwartość
-0,02 (-0,03)
0,18 (0,27)
Sumienność
0,13 (0,23)
0,12 (0,18)
Ugodowość
0,04 (0,06)
0,22 (0,33)
Tabela 8. Dane z dwóch meta-analiz trafności kryterialnej
skal osobowości i efektywności pracy (w nawiasach –
korelacje skorygowane na nierzetelność kryterium i/lub skali).
Trafność kryterialna – inne
meta-analizy
Mount, Barrick i Judge (2001) – meta-
analiza 15 wcześniejszych metaanaliz:
korelacje -0,13 dla N oraz 0,24-0,27 dla S
i efektywności pracy.
Salgado (1997) – meta-analiza badań
europejskich: korelacje -0,19 dla N i 0,25
dla S.
Mount, Barrick i Stewart (1998) – U i N
przewidują efektywność pracy w zespole.
Judge, Heller i Mount (2002) - N, S i E
przewidują poziom satysfakcji z pracy
(zbliżone rezultaty dla trafności
diagnostycznej i predykcyjnej).
Cechy OCEAN a powodzenie
zawodowe
Cechy PMO badane w dzieciństwie,
zostały odniesione do subiektywnie
ocenianego sukcesu zawodowego
oraz zobiektywizowanych
wskaźników sukcesu zawodowego
(dochodów i statusu społecznego
wykonywanego zawodu), badanych
w dorosłości - po upływie ponad 50
lat (Judge, Higgins, Thoresen i
Barrick, 1999).
Rycina 1.
Cechy Pięcioczynnikowego Modelu Osobowości w dzieciństwie a ocena
subiektywna i obiektywne wskaźniki sukcesu zawodowego (status
społeczny zawodu oraz dochody) w dorosłości (Judge, Higgins, Thoresen i
Barrick, 1999).
Dochody
Subiektywna ocena sukcesu
zawodowego
Status społeczny zawodu
Cechy OCEAN a powodzenie
zawodowe
Najlepszym predyktorem
subiektywnie ocenianego sukcesu
zawodowego była sumienność,
mała neurotyczność i otwartość.
Predyktorem poziomu dochodów
była ekstrawersja, mała
neurotyczność i sumienność, zaś
statusu społecznego (rangi)
zawodu – sumienność, otwartość
oraz mała neurotyczność.
Ryc. 21. Związki między cechami temperamentu: reaktywnością emocjonalną
i aktywnością, cechami osobowości: depresyjnością oraz uległością,
paleniem tytoniu a zachorowaniem na raka płuca.
0,46
Depresyjność
0,64
-0,23
0,23
Reaktywność
0,96
0,54
0,21
-0,30
Uległość
Rak płuca
-0,21
Aktywność
0,95
0,56
-0,24
Palenie
Ryc. 22. Związki między cechami temperamentu: reaktywnością emocjonalną
i aktywnością, cechami osobowości: depresyjnością oraz wrogością,
paleniem tytoniu a zachorowaniem na zawał serca.
0,45
Depresyjność
0,76
0,25
Reaktywność
0,82
0,83
0,51
-0,60
Palenie
Zawał serca
0,48
Aktywność
0,80
0,29
0,55
0,49
Wrogość
Podsumowanie
Korelacje cech osobowości z
diagnozą medyczną (stan zdrowia)
wynosiły ok. 0,20 dla raka płuca i
zawału serca. Zbliżone dane zostały
uzyskane w innych badaniach
(Zawadzki, 2001).
Podsumowanie
Mischel (1968) określił
współczynniki trafności skal
badających cechy osobowości z
kryteriami (stan zdrowia,
powodzenie zawodowe) mianem
„współczynników osobowości”,
które nie przekraczają wartości
0,30.
Cechy OCEAN a długość życia
Osobami badanymi byli uczestniczy
programu Termana dotyczącego
powodzenia życiowego osób
wybitnie zdolnych, które urodziły
się około 1910 roku i od początku
lat 20. uczestniczyły w programie
badawczym aż do roku 1986.
Analiza przeżywalności (po ponad
60 latach) wykazała, że efekt
sumienności z pewnym dodatkiem
ugodowości
Cechy OCEAN a długość życia
(niezawodność społeczna,
rozwaga, wolność od próżności-
egotyzmu, skrupulatność i
prawdomówność) - cechy badanej w
dzieciństwie na podstawie
szacowania przez rodziców oraz
nauczycieli (na podstawie szeregu
pytań, sklasyfikowanych w latach
80. jako - w głównej mierze -
wskaźniki sumienności)
Cechy OCEAN a długość życia
pozwala na przewidywanie
przeżywalności (Friedmann i in,
1993; 1995), także przy kontroli
efektu płci, przyczyny zgonu (np.
wypadki samochowe), czy
zachowań zdrowotnych (alkohol,
palenie, nadwaga).
Wykład 8
TRAFNOŚĆ TEORETYCZNA
POMIARU TESTEM
Trafność teoretyczna -
pojęcie
Trafność teoretyczna
- zgodność
treści mierzonej przez test z
konstruktem teoretycznym (trafność
zorientowana na konstrukt) -
określenie jaką treść psychologiczną
mierzy test.
Metody szacowania trafności
teoretycznej
1). Metody bazujące na analizie
związku pomiędzy konstruktem a
zachowaniem:
a). metoda zmian nieprzypadkowych,
b). metoda sprawdzania różnic
międzygrupowych,
c). metoda badania procesu
rozwiązywania testu;
Metody szacowania trafności
teoretycznej (c.d.)
2). Metody bazujące na analizie
macierzy korelacji pomiędzy testem,
a innymi testami przeznaczonymi do
badania danego konstruktu:
a). metoda badania wewnętrznej
struktury testu,
Metody szacowania trafności
teoretycznej (c.d.)
b). metoda analizy macierzy korelacji
i analizy czynnikowej (eksploracyjnej
i konfirmacyjnej) danego testu oraz
testów, badających ten sam
konstrukt;
c). badanie trafności
konwergencyjnej i dyskryminacyjnej
(zbieżnej i różnicowej) za pomocą
analizy macierzy Wielu Cech- Wielu
Metod wg Campbella i Fiskego
Analiza zmian
nieprzypadkowych
Zmiany rozwojowe – wyniki testów
zdolności powinny wykazywać
systematyczną tendencję
wzrostową wraz ze wzrostem wieku
w dzieciństwie oraz tendencję
regresywną w dorosłości. Wyniki
niektórych skal osobowości także
powinny wykazywać zmiany z
wiekiem – aktywność
temperamentalna powinna
systematycznie maleć wraz z
wiekiem, z uwagi na malejące
zasoby energii.
Ryc. 25. Wiek a aktywność, badana FCZ-KT (wyniki
standaryzowane 7 prób narodowych).
Analiza zmian
nieprzypadkowych
„Postulat lekowy” - metoda
opracowana w psychiatrii i
stosowana przez H. Eysencka.
Założenia:
• Ekstrawersja jest wyznaczana przez
poziom pobudzenia korowego
(ekstrawertycy wykazują niski
poziom pobudzenia);
Analiza zmian
nieprzypadkowych
• Niektóre leki zwiększają poziom
pobudzenia;
• Pod wpływem tych leków osoby
badane powinny ujawniać
introwertywny wzór zachowania
(jako efekt silnego pobudzenia).
Wniosek:
• Skala Ekstrawersji powinna
zarejestrować tę różnicę (między
pre-testem i post-testem po
podaniu leku
).
Analiza różnic
międzygrupowych
Celem tej metody jest ocena różnic
w wynikach testu, uzyskanych
przez różne grupy demograficzne,
wyodrębnione na podstawie
predykcji bazującej na analizie
konstruktu teoretycznego
(konfiguracja tych różnic jest
oczekiwana na podstawie teorii).
Analiza różnic
międzygrupowych
Testy zdolności – analiza wyników
testu inteligencji w różnych
grupach zawodowych (wniosek: im
bardziej wymagający sprawności
intelektualnej jest dany zawód, tym
wyższy poziom inteligencji
wykazują pracownicy).
Skale osobowości – przypadek
wrażliwości sensorycznej i
wytrzymałości (z FCZ-KT).
Różnice międzygrupowe we
wrażliwości i wytrzymałości
Hipotezy:
Muzycy – wysoki poziom
wrażliwości sensorycznej (zdolność
specjalna), ale niski poziom
wytrzymałości;
Sportowcy – wysoki poziom
wytrzymałości (zdolność specjalna),
ale niski wrażliwości sensorycznej;
Różnice międzygrupowe we
wrażliwości i wytrzymałości
Hipotezy:
Przestępcy (mordercy) – wysoki
poziom wytrzymałości i niski
poziom wrażliwości sensorycznej
(zdolności specjalne?);
Pytanie o nasilenie obu cech u
nauczycieli szkół podstawowych?
Tabela 9. Wrażliwość sensoryczna i wytrzymałość
w różnych grupach demograficznych.
Grupa
Wrażliwość
sensoryczna
Wytrzymałość
Przestępcy
13,39
11,18
Sportowcy
(zapaśnicy)
13,43
11,18
Artyści muzycy
15,68
8,76
Norma (mężczyźni)
15,00 (3,45)
10,26 (4,78)
Nauczycielki
16,67
12,57
Artystki (muzycy)
17,32
6,38
Norma - kobiety
16,23 (2,86)
8,04 (4,58)
Różnice międzygrupowe we
wrażliwości i wytrzymałości
Wnioski:
Większość różnic jest zgodna z
przewidywaniami (zwłaszcza z
relacji do grupy normatywnej).
Nieoczekiwane relacje: zbliżone
wyniki u przestępców oraz
zapaśników oraz najwyższe wyniki
u nauczycieli szkól podstawowych.
Wady metody
Różne nasilenie tendencji do
symulowania albo dysymulowania
w badanych grupach
(nauczyciele?);
Wyjaśnienie różnic
międzygrupowych: dwa procesy –
„naturalna” selekcja do zawodu
i/lub (?) adaptacja do wymagań
zawodu (zmiana nasilenia cech);
Nieoczekiwane zależności są
typowe i trudne do wyjaśnienia.
Wady metody – badania
Nyborga
Nyborg (1995) prowadził badania
dotyczące związku między
poziomem hormonów a
wykonywaniem różnych zawodów.
Podstawowa hipoteza głosiła, że im
wyższy jest poziom męskich
hormonów, tym za bardziej
zmaskulinizowany uznawany jest
dany zawód, zaś im wyższy jest
poziom żeńskich hormonów, tym za
bardziej
Wady metody – badania
Nyborga
sfeminizowany uznawany jest dany
zawód. Pielęgniarstwo jest
typowym zawodem kobiecym i
pielęgniarki wykazują najwyższy
poziom żeńskich hormonów.
Oczekiwano zatem, że pielęgniarze
powinni wykazywać najniższy
poziom męskich hormonów,
podczas gdy w rzeczywistości
wykazywali najwyższy poziom ze
wszystkich grup zawodowych!
Analiza procesu
rozwiązywania testu
Testy zdolności – eksperymenty z
manipulowaniem złożonością
zadań, prezentacją zadań
cząstkowych lub podawaniem
wskazówek, które zmieniają
wymagania.
Skale osobowości – „analiza
protokołów” (instrukcja „głośnego
myślenia”) w celu identyfikacji
czynników wpływających na
udzielanie odpowiedzi na pozycje.
Analiza wewnętrznej
struktury testu
Dwie grupy metod:
Analiza korelacji między pozycjami
(wskaźnik dyskryminacji lub
korelacji pozycja-skala oraz analiza
czynnikowa pozycji);
Analiza korelacji między skalami
testu (korelacje skal i analiza
czynnikowa skal).
Analiza korelacji między
pozycjami
Korelacja pozycja-skala (moc
dyskryminacyjna) – pozycja
powinna wysoko korelować z
wynikiem całej skali korelacja
(pozycja powinna mierzyć tę samą
treść psychologiczną co wszystkie
inne pozycje w tej skali).
Analiza korelacji między
pozycjami
Analiza czynnikowa pozycji (testy
wieloskalowe) – pozycja powinna
wysoko korelować z własną skalą i
nisko z innymi skalami (pozycja
powinna mierzyć określoną treść
psychologiczną i jednocześnie nie
mierzyć innych treści).
Analiza czynnikowa
Analiza czynnikowa jest metodą
dekompozycji macierzy korelacji
pomiędzy zmiennymi, prowadzącej
do uzyskania wiązek zmiennych,
które reprezentują zbliżoną treść
psychologiczną (odnoszą się do
zbliżonych lub wręcz identycznych
konstruktów – cech
psychologicznych).
Analiza czynnikowa
Zmienne są grupowane w wiązki na
podstawie ich korelacji w taki
sposób, aby korelacje w obrębie
wiązki były jak najwyższe, zaś
między wiązkami jak najniższe. Idea
analizy czynnikowej bazuje na tzw.
„równaniu czwórkowym”
Spearmana.
Przykład
Test A i test B – korelacja 0,70.
Wniosek – oba testy mierzą tę
samą cechę.
Test A, B i C – korelacje 0,70.
Wniosek – wszystkie testy są
jednakowo dobrymi miarami tej
samej cechy.
Test A, B i C – korelacja 0,70
pomiędzy testem A i B oraz
korelacja 0,50 pomiędzy testem C
oraz testami A i B.
Przykład
Wniosek – testy A i B są dobrymi
miarami cechy ogólnej, zaś test C
mierzy bardziej specyficzną treść i
jest gorszą miarą cechy ogólnej niż
testy A i B.
Test A, B, C i D – korelacje 0,70
pomiędzy testem A i B oraz
pomiędzy C i D, a także korelacje
krzyżowe po 0,50 między testami A
i B oraz testami C i D.
Przykład
Wniosek – istnieje nie tylko cecha
ogólna (badana przez wszystkie
testy – każdy z nich jest dobrą
miarą tej cechy do wysokości
korelacji 0,50), ale przede
wszystkim istnieją dwie odmienne,
choć skorelowane cechy; jedna
wiązka (czynnik) mierzy pierwszą
cechę (testy A i B), zaś druga
wiązka bada drugą cechę (testy C i
D).
Analiza mocy
dyskryminacyjnej
Celem tej analizy jest ocena w
jakim stopniu wszystkie pozycje
mierzą tę samą treść; najczęściej
używany jest skorygowany
współczynnik pozycja-skala. Analiza
ta jest dokonywana dla pozycji
tworzących daną skalę oraz
oddzielnie dla każdej ze skal testów
wieloskalowych.
Analiza czynnikowa pozycji
Celem eksploracyjnej analizy
czynnikowej pozycji jest wykazanie,
że pozycje tworzące daną skalę
mają najwyższe korelacje (ładunki
czynnikowe) z odpowiadającymi im
czynnikami (odzwierciedlającymi
określoną treść psychologiczną)
oraz najniższe z innymi czynnikami
(tworzącymi inne wiązki pozycji).
Analiza jest przeprowadzana na
wszystkich pozycjach testu.
Skala /pozycja
SKPS Czynnik
E
Czynnik
K
Czynnik
N
Czynnik
P
E / pozycja 6
0,58
-0,72
0,07
-0,02
0,11
11
0,55
-0,72
0,09
-0,04
0,16
-24
0,51
0,62
-0,01
0,19
-0,02
51
0,55
-0,69
-0,17
0,07
-0,23
78
0,64
-0,74
-0,10
-0,00
-0,21
94
0,53
-0,71
0,03
0,03
0,06
N / pozycja 26
0,56
0,05
-0,03
0,71
-0,04
35
0,54
-0,15
0,03
0,72
0,07
38
0,53
0,07
-0,04
0,67
0,05
46
0,54
0,22
-0,03
0,65
0,03
65
0,49
0,08
0,03
0,63
-0,06
83
0,58
-0,14
0,01
0,76
0,06
Tabela 10. Współczynniki mocy dyskryminacyjnej i ładunki czynnikowe
pozycji EPQ-R(24).
Skala / pozycja
SKPS Czynnik
E
Czynnik
K
Czynnik
N
Czynnik
P
P / pozycja 7
0,23
0,06
0,14
0,08
0,56
-18
0,31
-0,03
-0,20
-0,01
0,48
37
0,30
-0,12
0,20
0,03
-0,45
-41
0,26
-0,17
0,01
0,08
0,58
42
0,26
-0,13
0,29
0,16
-0,36
-88
0,28
0,01
0,03
0,01
0,54
K / pozycja 44
0,37
0,01
0,56
-0,04
-0,10
-49
0,36
-0,08
0,64
-0,04
0,14
-53
0,35
0,08
0,65
-0,04
0,16
-66
0,36
-0,07
0,47
-0,05
-0,26
-71
0,42
-0,03
0,61
0,04
-0,11
86
0,30
-0,07
-0,49
-0,10
0,06
Tabela 10 – c.d.
Wnioski
Moc dyskryminacyjna:
Skala E - zakres: 0,54 do 0,64
(pozycja nr 78 jest najlepszą miarą
E);
Skala N - zakres: 0,49 to 0,58
(pozycja nr 83 jest najlepszą miarą
N);
Skala P - zakres: 0,23 to 0,31
(pozycja nr 18 jest najlepszą miarą
P);
Skala K - zakres: 0,35 to 0,42
(pozycja nr 71 jest najlepszą miarą
K).
Uwaga
Znak minus przed numerem pozycji
wskazuje, że odpowiedź negująca
jest zgodna z kluczem – wyniki tych
pozycji powinny zostać
zrekodowane. Zabieg ten jest
niezbędny dla obliczenia mocy
dyskryminacyjnej (wszystkie
korelacje muszą być pozytywne),
ale opcjonalne dla analizy
czynnikowej – ładunki mogą być
zarówno pozytywne, jak i
negatywne.
Wnioski
Eksploracyjna analiza czynnikowa:
wszystkie pozycje wykazały wyższe
korelacje z odpowiadającymi im
czynnikami. Najlepsze są skale E i
N, skale K, a zwłaszcza P są gorsze.
Optymalny wzór tych korelacji
powinien być „czarno-biały”. W
praktyce testów psychologicznych
nigdy się to nie zdarza.
Analiza korelacji pomiędzy
skalami testu
Dwie formy analizy:
Korelacje między skalami testu;
Analiza czynnikowa skal testu.
Analiza korelacji pomiędzy
skalami testu
Korelacje między skalami - skala
wytrzymałości z FCZ-KT koreluje
dodatnio (ok. 0,20) ze skalą
aktywności (osoby aktywne są
bardziej wytrzymałe, co jest zgodne
z oczekiwaniami teoretycznymi).
Analiza czynnikowa skal testu -
WAIS-R ujawnia dwa czynniki skal
testu: Werbalny i Niewerbalny
(czasami też trzeci czynnik,
określany mianem
Pamięci/Odporności na dystrakcję).
Analiza korelacji pomiędzy
testami
Dwie formy analizy:
Analiza korelacji pomiędzy testem
oraz innymi testami (badającymi
ten sam i odmienne konstrukty);
Analiza czynnikowa (eksploracyjna i
konfirmacyjna) danego testu oraz
innych testów (badających ten sam
i odmienne konstrukty).
Korelacje z innymi testami
Celem tej analizy jest ocena
wielkości wariancji dzielonej przez
test z innymi testami. Analiza ta
wymaga uwzględnienia skal
mierzących te same i odmienne
konstrukty w celu wykazania
trafności konwergencyjnej i
dyskryminacyjnej (oceniana skala
powinna korelować ze skalami
badającymi zbliżone konstrukty
oraz nie korelować ze skalami
mierzącymi odmienne konstrukty).
Przykład badań
walidacyjnych NEO-FFI
Hipotezy:
Skale N i E z NEO-FFI i EPQ-R oraz
skale U i S z NEO-FFI i PAL
(identyczne konstrukty – bardzo
wysokie korelacje);
Skale U i S z NEO-FFI i skale P i K z
EPQ-R oraz skale E i N z NEO-FFI i
skale P i D z PAL, a także skala O z
NEO-FFI i skala I z PAL (zbliżone
konstrukty – przeciętne korelacje);
Przykład badań
walidacyjnych NEO-FFI
Wszystkie te korelacje są
wskaźnikiem
trafności
konwergencyjnej (zbieżnej).
Korelacje pomiędzy skalami,
badającymi odmienne kontrukty
powinny być bardzo niskie (zbliżone
do zera).
Wszystkie te korelacje są z kolei
wskaźnikiem
trafności
dyskryminacyjnej (różnicowej).
NEO-FFI, EPQ-R/PAC
NEU
EKS
OTW
UGD
SUM
Ekstrawersja
-0,25*
0,71*
0,18*
-0,11*
0,06*
Neurotyczność
0,73*
-0,19*
-0,00
-0,15*
-0,11*
Psychotyczność
0,00
0,09*
0,03
-0,47*
-0,37*
Skala Kłamstwa
-0,10*
-0,09*
-0,09*
0,39*
0,45*
Pobudliwość
0,40*
0,10*
0,06
-0,27*
-0,01
Dynamiczność
-0,27*
0,60*
0,22*
-0,01
0,38*
Intelekt
-0,29*
0,32*
0,40*
0,12*
0,31*
Ugodowość
0,01
0,28*
0,22*
0,35*
0,24*
Sumienność
-0,04
0,10*
0,04
0,18*
0,66*
Tabela 11. Korelacje pomiędzy skalami NEO-FFI oraz EPQ-R
i PAL (korelacje konwergencyjne są podkreślone).
Wnioski
Wysokie korelacje skal N i E z NEO-
FFI i EPQ-R oraz skali S z NEO-FFI i
PAL potwierdzają trafność
konwergencyjną (korelacje skali A
są zbyt niskie);
Przeciętne korelacje skal U i S z
NEO-FFI i skale P i K z EPQ-R oraz
skali N z NEO-FFI i P z PAL, a także
skali O z NEO-FFI i skali I z PAL
także potwierdzają trafność
konwergencyjną (korelacja
pomiędzy skalami E i D jest zbyt
wysoka);
Wnioski
Korelacje zbieżne są wyższe niż
korelacje krzyżowe, co potwierdza
trafność dyskryminacyjną.
Korelacje krzyżowe są wyższe w
przypadku PAL niż EPQ-R – niektóre
problemy słabej trafności zbieżnej i
różnicowej występują, gdy NEO-FFI
jest odnoszony do PAL (a nie EPQ-
R).
PAL wykazuje niską trafność.
Analiza czynnikowa testów
Dwie formy analizy:
Eksploracyjna analiza czynnikowa
(empiryczna klasyfikacja treści skal
różnych testów);
Konfirmacyjna analiza czynnikowa
(porównanie modelu teoretycznego
do danych – analiza dobroci
dopasowania modelu do struktury
danych testowych).
Źródła wariancji w analizie
czynnikowej
(A) Systematyczna
wariancja wspólna
z innymi testami.
(B) Systematyczna
wariancja
specyficzna dla
danego testu.
(C) Wariancja błędu
(losowa).
(A1) Wariancja
wspólna
specyficzna dla
danej cechy.
(A2) Wariancja
wspólna
specyficzna dla
innych cech.
(B+C) Wariancja
unikatowa testu
(niewyjaśniona).
Źródła wariancji w analizie
czynnikowej
(A1) = trafność konwergencyjna;
(A2) = trafność dyskryminacyjna;
(A1+A2) = wariancja wspólna
(communality, h
2
);
1-h
2
= wariancja unikatowa (B+C).
Inne źródła zmienności:
1-α = wariancja błędu (C).
α-h
2
= wariancja systematyczna,
specyficzna dla testu (B).
Eksploracyjna analiza
czynnikowa
Celem tej analizy jest ocena
trafności konwergencyjnej i
dyskryminacyjnej testu (lub
testów), bazująca na empirycznej
strukturze danych.
Skala
Czynnik I Czynnik II Czynnik III Czynnik
IV
Czynnik V
h
2
NEU
0,77
-0,20
-0,17
-0,03
-0,10
0,67
EKS
-0,15
0,85
0,13
0,04
-0,01
0,76
OTW
0,01
0,39
0,15
0,20
-0,39
0,37
UGD
-0,21
0,05
-0,06
0,79
0,04
0,68
SUM
-0,11
0,11
0,74
0,23
0,15
0,64
E
-0,10
0,85
0,11
-0,10
-0,05
0,77
N
0,85
-0,06
-0,02
-0,01
-0,14
0,74
P
-0,06
0,12
-0,06
-0,63
-0,23
0,48
K
-0,08
-0,16
0,38
0,47
0,23
0,45
POB-L
0,66
0,21
0,19
-0,26
-0,06
0,59
DYN-L
-0,08
0,61
0,52
-0,08
-0,11
0,67
INT-P
-0,15
0,34
0,48
0,18
-0,21
0,44
UGD-L
0,10
0,29
0,28
0,55
-0,05
0,47
SUM-L
0,06
-0,03
0,72
0,37
0,11
0,67
Tabela 12. Eksploracyjna analiza czynnikowa 38 skal osobowości.
Skala
Czynnik I Czynnik II Czynnik III Czynnik
IV
Czynnik V
h
2
ŻW
-0,45
0,29
0,40
-0,04
-0,11
0,46
PE
0,72
0,00
-0,12
0,13
-0,15
0,58
WS
-0,06
0,12
0,19
0,26
-0,28
0,20
RE
0,81
-0,24
-0,20
0,11
-0,01
0,76
WT
-0,63
0,20
0,34
-0,11
-0,09
0,58
AK
-0,06
0,78
0,01
-0,10
-0,08
0,63
SP
-0,60
0,39
0,38
-0,17
-0,11
0,71
SH
-0,58
-0,08
0,04
0,34
-0,15
0,48
RU
-0,48
0,62
0,14
0,10
-0,12
0,66
Tabela 12 – c.d.
Skale
Czynnik I Czynnik II Czynnik III Czynnik
IV
Czynnik V
h
2
TOW
-0,10
0,61
-0,10
0,15
0,13
0,43
AKT
0,13
0,63
0,37
-0,15
0,02
0,58
STR
0,73
-0,19
-0,12
0,14
0,02
0,60
NIE
0,82
-0,11
-0,03
-0,10
-0,00
0,69
GNW
0,76
0,08
0,09
-0,34
0,00
0,70
A-G
0,17
0,63
0,26
-0,11
0,08
0,51
A-S
0,17
0,11
-0,15
-0,03
-0,25
0,13
A-W
-0,36
0,69
0,16
0,10
-0,00
0,64
F-R
-0,54
0,32
-0,11
0,09
-0,26
0,48
MQ
-0,28
0,62
-0,13
0,10
-0,00
0,49
R-S
0,02
-0,01
0,12
0,17
0,65
0,47
R-E
-0,07
0,04
0,17
0,11
0,72
0,57
R-H
0,07
0,14
0,08
0,04
0,74
0,58
DIST
-0,16
0,09
0,58
-0,12
0,20
0,43
PERS
-0,12
0,14
0,62
0,01
0,15
0,44
Tabela 12 – c.d.
Skala Neurotyczności z NEO-
FFI
(A1) = 0,77
2
= 0,59 (wariancja
specyficzna dla neurotyczności)
(A2) = 0,08 (wariancja wspólna z
pozostałymi czterema cechami) = (-
0,20
2
;4%E)+(-0,17
2
;3%C)+(-0,03
2
;A)
+(-0,10
2
;1%O).
Wariancja wspólna (A1+A2=h
2
) =
0,59+0,08=0,67.
Wariancja unikatowa = 1-h
2
= 1-
0,67=0,33 (błąd pomiaru +
systematyczna wariancja
specyficzna dla skali N z NEO-FFI).
Skala Neurotyczności z EPQ-
R
(A1) = 0,85
2
= 0,72 (wariancja
specyficzna dla neurotyczności)
(A2) = 0,02 (wariancja wspólna z
pozostałymi czterema cechami) = (-
0,06
2
;E)+(-0,02
2
;C)+(-0,01
2
;A)+(-
0,14
2
;2%O).
Wariancja wspólna (A1+A2=h
2
) =
0,72+0,02=0,74.
Wariancja unikatowa = 1-h
2
= 1-
0,74=0,26 (błąd pomiaru +
systematyczna wariancja
specyficzna dla skali N z EPQ-R).
Wniosek
Skala
Neurotyczności z NEO-FFI
wykazuje gorszą trafność
konwergencyjną (59% w
porównaniu do 72%) oraz
dyskryminacyjną (8% w odniesieniu
do 2%) niż skala Neurotyczności z
EPQ-R (obie skale mają zbliżoną
zgodność wewnętrzną wynoszącą
około 0,85). Błąd pomiaru jest
równy 15%, unikatowa
systematyczna wariancja
specyficzna dla skali z NEO-FFI =
18% oraz EPQ-R = 11%).
Porównanie trafności skal
NEO-FFI
Skala Konwergencyjna
Dyskryminacyjna
E
72%
4%
U
62%
6%
N
59%
8%
S
55%
9%
O
14%
22%
Wniosek
Skala Otwartości wykazuje słabą
trafność konwergencyjną oraz
dyskryminacyjną. Inne skale
wykazują wysoką trafność
konwergencyjną, ale skala
Neurotyczności, Ugodowości i
Sumienności wykazuje także słabą
trafność dyskryminacyjną.
Najlepsza jest skala Ekstrawersji.
Trafność innych skal
Siła Procesu Pobudzenia - 36%
neurotyczności, 15% ekstrawersji,
14% sumienności, 3% ugodowości
oraz 1% otwartości/rytmiczności–
wykazuje słabą trafność
dyskryminacyjną.
Skala Aktywności we śnie (A-S) -
13% wspólnej wariancji z innymi
skalami (6% z czynnikiem
otwartości/rytmiczności) – brak
trafności konwergencyjnej, tylko
wariancja unikatowa.
Konfirmacyjna analiza
czynnikowa testów
Celem tej analizy jest ocena
trafności konwergencyjnej i
dyskryminacyjnej skal testu, przez
porównanie modelu teoretycznego i
empirycznej struktury skal.
Przykład Inwentarza
Struktury Temperamentu
(KST) Rusalova
Analiza konfirmacyjna skal KST –
analiza wewnętrznej struktury
testu (analiza konfirmacyjna
podobnie do analizy eksploracyjnej
może być zrealizowana na poziomie
pozycji, skal danego testu, jak i
całych testów).
Przykład Inwentarza
Struktury Temperamentu
(KST) Rusalova
Dwa czynniki wpływające na
temperament: geny i środowisko.
Wrodzona (pierwotna) struktura
temperamentu obejmuje:
ergiczność, plastyczność, tempo i
emocjonalność. Cechy te różnicują
się się pod wpływem czynników
środowiskowych na cechy
społeczne i przedmiotowe.
Przykład Inwentarza
Struktury Temperamentu
(KST) Rusalova
KST zawiera osiem skal:
Ergiczność - społeczną
Ergiczność - przedmiotową
Plastyczność - społeczną
Plastyczność - przedmiotową
Tempo - społeczne
Tempo - przedmiotowe
Emocjonalność - społeczną
Emocjonalność - przedmiotową
Hipotezy i modele
Bez cechy ogólnej (skale są
nieskorelowane - model powinien
być odrzucony);
Jedna cecha ogólna (brak specyfiki
skal - model powinien być
odrzucony);
Dwie cechy („struktura wtórna”) -
model powinien być potwierdzony);
Cztery cechy („struktura
pierwotna”) - model powinien być
potwierdzony);
SOS model (ad hoc model trzech
cech).
ERP ERS
PLP PLS TEP
TES EMP
EMS
ERG
PLA
TEM
EMO
Rycina. 28. Model „struktury pierwotnej” temperamentu.
ERP PLP
TEP EMP ERS
PLS TES
EMS
PRZED.
SPOŁ.
Rycina. 29. Model „struktury wtórnej” temperamentu.
Wskaźniki „dobroci
dopasowania”
Wartość testu chi
2
(brak istotności);
Goodness of Fit Index (GFI; powyżej
0,95);
Adjusted Goodness of Fit Index
(AGFI; powyżej 0,90);
Normed Fit Index (NFI – wartość
przyrostowa dopasowania w
stosunku do „modelu zerowego”;
powyżej 0,90);
Wartości indeksu Watkinsa chi
2
/df
(poniżej 5,0 – akceptowalne
dopasowanie; poniżej 3,0 –
znakomite dopasowanie).
Model
Opis modelu
chi2
df
p
GFI
AGFI
NFI
M0 Bez czynnika
ogólnego
417,36 28 0,000 0,60
0,60
-
M1 J eden czynnik
225,42 20 0,000 0,76
0,56
0,46
M2 Dwa czynniki
(struktura wtórna)
201,46 19 0,000 0,78
0,59
0,52
M3 Trzy czynniki
(emocjonalność,
aktywność
społeczna i
rzedmiotowa)
86,18 17 0,000 0,90
0,78
0,79
M4 Cztery czynniki
(struktura pierwotna)
104,69 14 0,000 0,88
0,69
0,75
Tabela 13. Wskaźniki dobroci dopasowania KAF dla skal KST.
Wnioski
Żaden z analizowanych modeli nie
wykazał akceptowalnego
dopasowania – empiryczna
struktura korelacji skal KST jest
nieprzewidywalna na podstawie
oczekiwań teoretycznych;
Teoria temperamentu jest fałszywa
lub KST powinien zostać
zmodyfikowany, bowiem wykazuje
niewystarczającą trafność.
Analiza macierzy Wielu Cech
– Wielu Metod
Macierz WC-WM (ang. MTMM
matrix) jest przygotowywana w
celu formalnej oceny trafności
konwergencyjnej i
dyskryminacyjnej pomiary testem.
Analiza ta wymaga wprowadzenia
przynajmniej dwóch metod oraz
dwóch cech.
Rodzaje korelacji w macierzy
WC-WM
Pomiędzy skalami mierzącymi
różne cechy w obrębie tej samej
metody (różne cechy, ta sama
metoda);
Pomiędzy skalami mierzącymi te
same cechy, ale za pomocą różnych
metod (te same cechy, różne
metody);
Pomiędzy skalami mierzącymi
różne cechy za pomocą różnych
metod (różne cechy, różne metody).
Wymóg trafności
konwergencynej
Trafność konwergencyjna (zbieżna):
korelacje pomiędzy skalami różnych
metod, ale badających te same
cechy (te same cechy, różne
metody) powinny być co najmniej
przeciętne (istotne statystycznie).
Wymóg trafności
dyskryminacyjnej
Trafność dyskryminacyjna
(różnicowa): korelacje skal różnych
metod badających te same cechy
(te same cechy, różne metody)
powinny być wyższe niż:
korelacje skal mierzących różne
cechy, za pomocą tej samej metody
(różne cechy, te same metody);
korelacje skal mierzących różne
cechy, za pomocą różnych metod
(różne cechy, różne metody).
Macierz WC-WM dla
samoopisu i szacowania z
użyciem NEO-FFI
Kwestionariusz: NEO-FFI
Miary: samoopis (s) and
szacowanie (sz)
Korelacje:
Pomiędzy NEO-FFI skalami
samopisu
Pomiędzy NEO-FFI szacowania
Pomiędzy samoopisem i
szacowaniem
Pomiar
NEU - s
EXT - s
OPE - s
AGR - s
SUM - s
NEU – sz
0,84 (0,81)
-0,35*
-0,07*
-0,26*
-0,30*
EXT – sz
-0,39*
0,78 (0,80)
0,22*
0,09*
0,27*
OPE – sz
-0,11*
0,17*
0,63 (0,66)
0,06*
0,02
AGR – sz
-0,33*
0,13*
0,20*
0,65 (0,77)
0,19*
CON – sz
-0,28*
0,18*
0,17*
0,34*
0,81 (0,87)
Measure
NEU - s
EXT - s
OPE - s
AGR - s
CON – s
NEU – sz
0,52*
-0,28*
-0,08*
-0,20*
-0,16*
EXT – sz
-0,22*
0,61*
0,14*
0,04
0,13*
OPE – sz
-0,08*
0,08*
0,51*
0,04
-0,07*
AGR – sz
-0,09*
-0,01
0,04
0,45*
0,03
CON – sz
-0,12*
0,03
0,01
0,16*
0,45*
Tabela 14. Macierz WC-WM dla samoopisu i szacowania NEO-FFI.
Wnioski
Skale NEO-FFI wykazują
wystarczającą trafność
konwergencyjną (korelacje
podkreślone w tabeli);
Skale NEO-FFI wykazują
akceptowalną trafność
dyskryminacyjną (korelacje
„zbieżne” są wyższe niż wszystkie
korelacje „różnicowe”).
Podsumowanie
Pojęcie trafności zbieżnej i
różnicowej jest kluczowe dla
zrozumienia trafności teoretycznej,
choć zazwyczaj jest ograniczane
tylko do analizy macierzy Wc-WM.
Test powinien mierzyć określoną
cechę i nie mierzyć innych cech (ani
jakichkolwiek innych
charakterystyk indywidualnych, a
zatem także stylów odpowiadania
czy stanów psychologicznych).
Podsumowanie
Pojęcie trafności konwergencyjnej i
dyskryminacyjnej może odnosić się
zarówno do trafności teoretycznej,
jak i kryterialnej. Test jest
nietrafny, jeśli niczego nie
przewiduje lub nie mierzy (brak
trafności konwergencyjnej). Test
jednak jest także nietrafny, jeśli
przewiduje lub mierzy wszystko
(brak trafności różnicowej).
Podsumowanie
Narzędzie, które diagnozuje
wszystko, nie mierzy
niczego w szczególności.
Wykład 9
STRATEGIE KONSTRUOWANIA
TESTÓW
Strategie konstruowania
testu
1). teoretyczna (dedukcyjna)
2). zewnętrzna (kryterialna)
3). wewnętrzna (indukcyjna)
4). sekwencyjne lub połączone
Strategie konstruowania
testu
1). teoretyczna (dedukcyjna) –
podstawa teoretyczna dla strategii
empirycznych, choć może też być
stosowana samodzielnie (do
diagnozy raczej cech).
2). zewnętrzna (kryterialna) – do
diagnozy typów (eksploracyjna lub
połączona z teoretyczną).
3). wewnętrzna (indukcyjna) – do
diagnozy cech (eksploracyjna lub
połączona z teoretyczną).
Strategie konstruowania
testu
Budowa skali w każdej strategii
poza kryterialną) jest podobna – te
same końcowe procedury techniczne,
ale nieco inny model
psychometryczny jest stosowany w
każdej strategii.
Strategie mają podobny plan
konstrukcji, poza strategiami
połączonymi - unikatowość planu
analizy i przebieg procesu
konstrukcji.
Porównanie strategii
konstrukcji testów
Aspekty opisu strategii:
a). dostępność teorii psychologicznej
w strategii: dedukcyjna ("teoria"),
kryterialna ("wiedza"), indukcyjna
("metodologia");
Porównanie strategii
konstrukcji testów (c.d.)
b). model psychometryczny
zastosowany do konstrukcji testu:
teoretyczna - analiza pozycji
(korelacja pozycja-skala, zewnętrzna
- analiza pozycji (korelacja pozycja-
kryterium), indukcyjna -
eksploracyjna analiza czynnikowa;
Porównanie strategii
konstrukcji testów (c.d.)
c). efekt finalny: w zakresie
psychologicznym, diagnostycznym i
psychometrycznym - każda strategia
ma swoje zalety i wady - zależnie od
typu problemu należy stosować różne
strategie.
Wykład 10
PROCEDURA (PROCES)
KONSTRUKCJI TESTU
Etap I
Etap I - wybór strategii (cel badań –
pytania badawcze, rodzaj badanego
konstruktu: cecha albo typ) oraz plan
budowy narzędzia (w tym także skale
kontrolne).
Niezbędna jest wiedza dotycząca
danego konstruktu oraz wiedza z
metodologii, psychometrii i
diagnostyki psychologicznej.
Etap II
Etap II - analiza podstaw
teoretycznych narzędzia: teorii,
wiedzy lub metodologii (trafność
treściowa lub prototypowość).
Hierarchiczna struktura konstruktu
- podwymiary lub składniki
definicyjne (pokrycie całego
konstruktu, łatwość generowania
wskaźników konstruktu).
Składniki definicyjne
Antonovsky (1995) przy tworzeniu Kwestionariusza
Poczucia Koherencji w postaci przestrzeni
Kartezjańskiej, zbudowanej poprzez wyodrębnienia
podwymiarów poczucia koherencji oraz fasad
reprezentujących różne aspekty reagowania na
bodźce. W ramach podwymiarów wyodrębnione
zostało poczucie zrozumiałości, zaradności i
sensowności (E1-3), zaś w obrębie fasad: modalność
bodźca (A1-3: instrumentalny, poznawczy i
afektywny), źródło bodźca (B1-3: wewnętrzne,
zewnętrzne i wewnętrzno- zewnętrzne), stawiany
jednostce wymóg (C1-3: konkretny, rozproszony i
abstrakcyjny) oraz czas reakcji (D1-3: przeszła,
teraźniejsza i przyszła). Określona kombinacja
złożona z elementów składowych każdej fasady oraz
podwymiaru stanowiła profil, ułatwiający
generowanie pozycji.
Składniki definicyjne
Przykładowo, pytanie „Nawet ludzie o silnym
charakterze czasami czują się przegrani w pewnych
sytuacjach. Jak często w przeszłości tak się czułeś?”
(Anotonovsky, 1995, s. 83) zostało zbudowane przez
operacjonalizację profilu: A3, B1, C3, D1 i E2
(bodziec afektywny, pochodzenia wewnętrznego, o
wymaganiach abstrakcyjnych, odnoszący się do
przeszłości i odwołujący się do poczucia
zaradności). Dla całego konstruktu dało to
możliwość stworzenia 243 pozycji, praktycznie
pokrywających cały zakres jego treści oraz
jednocześnie nie duplikujących się wzajemnie.
Etap II
Określenie specyfiki konstruktu (nie
tylko aspekt zbieżny ale i różnicowy),
także poprzez hipotezy dotyczące
relacji do innych konstruktów.
Procedura „mocnej walidacji” – inne
narzędzia lub kryteria wprowadzone
do badania i analizy danych, ale nie
tylko zbieżne, ale i zwłaszcza
różnicowe.
Etap III-IV
Etap III - generowanie wskaźników
będących deskrypcją cech
psychologicznych.
Etap IV - zapisywanie pozycji
testowych (rodzaj pozycji,
zachowania, format odpowiedzi) i
ocena ich własności formalnych.
Pozycja testowa - definicja
Pozycja testowa
to sformalizowany
wskaźnik danej cechy
psychologicznej, a więc zdanie
(twierdzenie lub pytanie) opisujące
określone zachowanie (lub zadanie
wyzwalające określone zachowanie)
oraz skala rejestrująca to zachowanie
(opcje odpowiedzi o określonym
formacie oraz reguła przekształcania
odpowiedzi w wynik liczbowy).
Tworzenie pozycji
Proces tworzenia pozycji:
Generowanie pozycji - poszukiwanie
takich zachowań i sytuacji, które występują
w życiu codziennym określonej grupy osób
badanych - wymaga wyrażenia wskaźników
teoretycznych w „języku” naturalnych
zachowań i sytuacji.
Zapisywanie pozycji - wymaga
przełożenia terminów psychologicznych na
język naturalny, a więc wyrażenia pozycji w
języku, którym posługują się osoby badane.
Decyzje wstępne
Decyzje wstępne:
Wybór procedury odpowiadania
oraz formy pozycji
kwestionariuszowych (wybieranie
dowolnej liczby pozycji lub
ograniczeniu wyboru do opcji
stwierdzenia albo opcji odpowiedzi).
Wybór rodzaju procedury: spiralna
albo piramidowa.
Generowanie pozycji
Źródła pozycji:
Zapożyczenia z innych narzędzi
(MMPI lub 16 PF, testy zdolności –
typowe dla strategii zewnętrznej).
Poszukiwanie „naturalnych”
banków pozycji (zasoby słownikowe -
listy przymiotnikowe, testy zdolności
– typowe dla strategii indukcyjnej).
Generowanie pozycji
Źródła pozycji:
Tworzenie nowych pozycji przez
profesjonalistów lub
nieprofesjonalistów (typowe dla
strategii teoretycznej lub połączonej
– teoretyczno-indukcyjnej czy
kryterialnej (ważna jest trafność
treściowa lub prototypowość).
Generowanie pozycji
Nowe pozycje:
Odpowiedniość do badanego
konstruktu (trafność treściowa);
Reprezentatywność dla zachowania
osób badanych (proces społeczny
generowania wskaźników – eliminacja
obciążenia demograficznego; analiza
prototypowości ujmuje oba aspekty).
Ocena trafności treściowej
lub typowości pozycji
Procedura analizy:
Tworzenie wskaźników;
Kwalifikowanie do konstruktów;
Ocena wskaźników na skalach ocen;
Analiza psychometryczna i
walidacja procedury (muszą być
możliwe do uzyskania korelacje ocen
ze wskaźnikami psychometrycznymi).
Zapisywanie pozycji
Wymagania:
Uwzględnianie reguł formalnych w
procesie zapisywania pozycji;
Sprawdzenie uzyskanego efektu w
tzw. analizach formalnych własności
pozycji (analizy itemmetryczne).
Zapisywanie pozycji
Konsekwencje:
Zakłócenie warunku standaryzacji –
zmienność inter- i intraindywidualna
interpretacji treści pozycji;
Uruchomienie stylu odpowiadania;
Udzielanie odpowiedzi
„niezgodnych” z intencjami
(niespójnych);
Pogorszenie charakterystyki
psychometrycznej pozycji.
Własności formalne pozycji
Model Angleitnera i wsp. (1986):
Zrozumiałość
Niejasność
Ogólność (abstrakcyjność)
Dostępność w osobistym
doświadczeniu (możliwość
odniesienia do „ja”)
Obciążenie czynnikami
zniekształcającymi, np. aprobatą
społeczną.
Zrozumiałość
Długość pozycji (liczba zdań, słów,
itd.), ale unikanie telegraficznej
skrótowości.
Złożoność gramatyczna (forma
gramatyczna pozycji, np. negacja,
strona bierna oraz komplikacja
pozycji w postaci zdań złożonych, ze
względu na tryb złożenia, np. w
zdaniach podrzędnie czy nadrzędnie
złożonych).
Zrozumiałość
Poprawność gramatyczna - błędy
językowe oraz prostota - dostępność
użytych pojęć.
Wyrażenie zdań w pierwszej osobie;
Respektowanie obyczajów
językowych oraz zasad językowych,
np. form obocznych dla płci, ale bez
żargonu.
Zalecenia
Zapisywanie pozycji zgodnie z
regułami.
Konsultacja językoznawcy.
Analizy itemmetryczne – ocena
„zrozumiałości” pozycji.
Niejasność – wieloznaczność
interpretacyjna
Niejasność – możliwość przypisania
wielu różnych znaczeń pozycji -
interpretowania jej treści na wiele
sposobów, z których każdy jest
poprawny językowo i dopuszczalny z
punktu widzenia formy gramatycznej.
Niejasność
Źródła:
zbyt duża ogólność i abstrakcyjność
użytych pojęć;
czynniki lingwistyczne, wynikające z
formy gramatycznej zdania, np.
negacji, jego złożoności
gramatycznej czy błędów, np.
interpunkcyjnych, a zwłaszcza
zapisanie pozycji w formie zadania
złożonego, którego zdania proste nie
tworzą koniunkcji i mogą wymagać
odrębnej odpowiedzi.
Zalecenia
Zapisywanie w formie pozycji
konkretnych.
Grupowa analiza znaczenia treści
twierdzeń oraz ustalanie na drodze
dyskusji ich ostatecznej i bardziej
jednoznacznej formy.
Analiza znaczenia afirmacji oraz
negacji treści pozycji dla możliwości
zbadania określonej cechy.
Analizy itemmetryczne.
Ogólność-abstrakcyjność
Ogólność wynika z abstrakcyjności
pojęć użytych do opisu zachowania,
sytuacji czy cech osobowych. Pozycja
ogólna zakłada konieczność
integracji informacji, uzupełniania jej
przez konkluzje, uogólniania
zachowań z różnych sytuacji czy
dokonania porównań z
niespecyficznymi standardami.
Dostępność w doświadczeniu
- zalecenia
Procedura analizy typowości (także
przy adaptacji kulturowej).
Proces społeczny tworzenia pozycji.
Odwołanie do „ja” – zdania w
pierwszej osobie.
Analizy itemmetryczne.
Analizy itemmetryczne
Identyfikacja pozycji źle
sformułowanych i ich poprawienie
albo usunięcie z puli.
Oceny na skalach ocen albo
wskazanie pozycji wadliwych.
Brak możliwości zbudowania pozycji
doskonałej, ale pozycje wadliwe
skutkują pogorszeniem
charakterystyki psychometrycznej.
Opcje odpowiedzi
Problem opcji centralnej w formie
„nie wiem” , (?), „tak i nie”.
- Słaby status opcji centralnej :
1). odpowiedź osoby badanej oznacza, że jej
zachowanie zależy od sytuacji;
2). odpowiedź osoby badanej wynika z trudności w
ocenie własnego zachowania;
3). odpowiedź osoby badanej wskazuje, że nie
potrafiła ona jednoznacznie rozkodować treści
pozycji (pozycja jest niejasna);
Opcje odpowiedzi
4). odpowiedź osoby badanej wskazuje, że
faktycznie ma przeciętne nasilenie cechy.
- Dwumodalne rozkłady odpowiedzi.
Format może być nieparzysty, ale
opcja pośrednia musi wskazywać na
umiarkowanie nasilenie cechy.
Opcje odpowiedzi
Szerokość formatu:
wielokategorialne - dwukategorialne.
- Wady formatów dwukategorialnych:
1). Zmuszają do udzielenia zdecydowanej
odpowiedzi.
2). Nie gwarantują odpowiedniego zróżnicowania
odpowiedzi.
- Wady formatów wielokategorialnych:
1). Są trudne poznawczo, zwłaszcza dla o.b. gorzej
wykształconych.
2). Pozorne zróżnicowanie – tendencje do zawężania
formatu.
Optymalna szerokość
formatu
„Magiczna” liczba Millera – górna
granica:
7 + 2 (5 – 9)
Ogółem: 4 - 7 opcji
Osoby badane o większych
zdolnościach:
5 – 7
Osoby badane o mniejszych
zdolnościach:
2 – 5
Inne aspekty formatu
Zakotwiczenie skali: niemalże
wielkie kwantyfikatory.
Kierunek zakotwiczenia:
negatywny-pozytywny.
Wartości liczbowe wtórne
(podstawowe określenia słowne).
Ujednolicone dla wszystkich pozycji
(także w skali kontrolnej).
Etap VI - ważenie pozycji lub
opcji odpowiedzi
Wagi zróżnicowane – krótkie
narzędzia, pozycje bardzo
zróżnicowane pod względem
charakterystyki psychometrycznej,
komplikacja obliczania wyniku
końcowego, wagi empiryczne, a nie -
teoretyczne.
Wagi pozycji równe oraz liniowo
rosnące wagi odpowiedzi
(zróżnicowanie wkładu pozycji do
wyniku końcowego).
Etap VII
Etap VII - przygotowanie testu do
badań: przyjęcie nazwy testu,
zaopatrzenie go w instrukcję oraz
wprowadzenie losowej kolejności
pozycji w inwentarzach lub
uporządkowania ich według stopnia
trudności (wybór procedury
badania);
Etap VIII – badania i analiza
psychometryczna
Cel - uzyskanie finalnej wersji
inwentarza: przeprowadzenie badań
listą pozycji i analiza
psychometryczna danych.
Przebieg badań – te same warunki i
to samo narzędzie co w badaniach
docelowych.
Badania
Dobór próby:
Maksymalne zróżnicowanie
demograficzne (płeć, wiek,
wykształcenie, zawód, miejsce
zamieszkania, itp.).
Duża liczebność grupy (mnożnik 5 -
10 osób badanych na jedną pozycję
testową -„psychometria nie toleruje
małych prób”) – minimum 400-500
o.b.
Podział na grupy losowe: walidacja
krzyżowa.
Przygotowanie do analizy
danych
Kodowanie danych – odpowiedzi
o.b.
Braki danych – bez korekty w fazie
wstępnej analizy psychometrycznej.
Braki danych - skale końcowe -
uzupełnianie przez średnią dla danej
osoby z pozostałych pozycji (inne:
średnia w skali lub losowe).
Dyskwalifikacja protokołów z
licznymi brakami danych – kryteria
(5%).
Analiza psychometryczna
Kierunek: od podwymiarów do skal.
Walidacja krzyżowa.
Walidacja demograficzna (uwaga:
niwelowanie różnic
demograficznych).
„Mocna walidacja” – korygowanie
składu pozycji w aspekcie zbieżnym
lub różnicowym.
Opracowanie wersji końcowej skal.
Analiza pozycji i pojęcie
mocy dyskryminacynej
Analiza pozycji - rodzaj analizy
psychometrycznej, który obejmuje
wskaźnik
trudności
pozycji,
moc
dyskryminacyjną
oraz
trafność
zewnętrzną
pozycji).
Moc dyskryminacyjna
- wskaźnik
stopnia, w jakim pozycja mierzy
cechę, którą mierzy cały test
(oceniana poprzez korelację pozycja-
skala).
Pojęcie trudności i trafności
zewnętrznej pozycji
Trudność
pozycji - proporcja
odpowiedzi zgodnych z kluczem
(średnia pozycji w relacji do
możliwego maksymalnie wysokiego
wyniku).
Trafność zewnętrzna
pozycji -
wskaźnik stopnia, w jakim pozycja
mierzy kryterium pozatestowe
(oceniana poprzez korelację pozycja-
kryterium).
Miary mocy
dyskryminacyjnej
Współczynnik korelacji dwuseryjnej
Współczynnik korelacji punktowo-
dwuseryjnej
Współczynnik korelacji punktowo-
czteropolowej
Skorygowany współczynnik
korelacji pozycja-skala
Współczynnik korelacji
dwuseryjnej
(M
p
- M
q
)
---------------
S
r
bis
= -----------------------
(p q)
--------
y
Współczynnik korelacji
dwuseryjnej
gdzie M
p
- to średnia wyników w skali tych
osób, które odpowiedziały na daną pozycję
zgodnie z kluczem, M
q
- to średnia wyników
w skali tych osób, które odpowiedziały na
daną pozycję niezgodnie z kluczem, S -
odchylenie standardowe wyników w całym
teście, p - to proporcja tych osób, które
odpowiedziały na daną pozycję zgodnie z
kluczem, q - to proporcja tych osób, które
odpowiedziały na daną pozycję niezgodnie
z kluczem, zaś y - to rzędna rozkładu
normalnego odpowiadająca proporcji p.
Współczynnik korelacji
-punktowo dwuseryjnej
(M
p
- M
q
)
----------------
S
r
p-bis
= -------------------
(p q)
Współczynnik korelacji
punktowo-dwuseryjnej
gdzie M
p
- to średnia wyników w skali tych
osób, które odpowiedziały na daną pozycję
zgodnie z kluczem, M
q
- to średnia wyników
w skali tych osób, które odpowiedziały na
daną pozycję niezgodnie z kluczem, S -
odchylenie standardowe wyników w całym
teście, p - to proporcja tych osób, które
odpowiedziały na daną pozycję zgodnie z
kluczem, q - to proporcja tych osób, które
odpowiedziały na daną pozycję niezgodnie
z kluczem.
Współczynnik korelacji
punktowo-czteropolowej
(phi)
f
g
- f
d
phi = ------------
(p q)
Współczynnik korelacji
punktowo-czteropolowej
gdzie f
g
- to proporcja osób w górnej
połowie próby, które odpowiedziały
na daną pozycję zgodnie z kluczem, f
d
- to proporcja osób w dolnej połowie
próby, które odpowiedziały na daną
pozycję zgodnie z kluczem, p - to
proporcja osób w całej próbie, które
odpowiedziały na daną pozycję
zgodnie z kluczem, q - to proporcja
tych osób, które odpowiedziały na
daną pozycję niezgodnie z kluczem.
Miary trafności zewnętrznej
pozycji oraz treści
czynnikowej
Trafność zewnętrzna - korelacja z
kryterium (r-Pearsona albo korelacje
stosowane do oceny mocy
dyskryminacyjnej)
Analiza czynnikowa pozycji - ładunek
czynnikowy (korelacja pozycji z
czynnikiem) oraz wskaźniki
różnicowe:
W
r
= F
2
- (F
a
2
+ F
b
2
+ F
c
2
+ ... + F
z
2
)
Miary trafności zewnętrznej
pozycji oraz treści
czynnikowej
gdzie W
r
- wynik różnicowy, F
2
-
ładunek na odpowiadającym pozycji
("własnym") czynniku, zaś F
a
2
, F
b
2
do
F
z
2
- ładunki na innych czynnikach (od
czynnika "A" do "Z").
Teoria odpowiadania na
pozycje testowe - założenia
Odpowiedzi osoby badanej są
zmiennymi obserwowalnymi,
uwarunkowanymi przez cechę -
zmienną latentną;
odpowiedzi na poszczególne pozycje są
statystycznie niezależnie - ich
skorelowanie wynika z cechy;
związek między rozwiązaniem pozycji a
cechą może być opisany przez „krzywą
charakterystyczną pozycji”
Parametry „krzywej
charakterystycznej”
Parametr „trudności”
Parametr mocy dyskryminacyjnej
Parametr „zgadywania”
Parametr „nieuważności”
Zwykle są stosowane model dwu-
parametryczne (wymagają
zastosowania nieliniowej regresji)
0
0,2
0,4
0,6
0,8
1
-3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 3
Standaryzowany wynik w ca³ym teœcie (nasilenie mierzonej cechy)
P
ra
w
d
o
p
o
d
o
b
ie
ñ
st
w
o
r
o
zw
i¹
za
n
ia
d
a
n
e
j
p
o
zy
cj
i
Rycina 16. „Krzywa
charakterystyczna” pozycji
testowej
Rycina 17. Różne formy „krzywej
charakterystycznej” pozycji
testowej
0
0,2
0,4
0,6
0,8
1
-3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 3
Wynik w ca³ym teœcie
P
ra
w
d
o
p
o
d
o
b
ie
ñ
st
w
o
r
o
zw
i¹
za
n
ia
d
a
n
e
j
p
o
zy
cj
i
0
0,2
0,4
0,6
0,8
1
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Standaryzowany wynik w całym teście (nasilenie mierzonej cechy)
P
ra
w
d
o
p
o
d
o
b
ie
ń
st
w
o
r
o
zw
ią
za
n
ia
d
an
ej
p
o
zy
cj
i
Rycina 17a. „Krzywa
charakterystyczna” pozycji testowej
nr 35 ze skali REM inwentarza FCZ-KT
0
0,2
0,4
0,6
0,8
1
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Standaryzowany wynik w całym teście (nasilenie mierzonej cechy)
P
ra
w
d
o
p
o
d
o
b
ie
ń
st
w
o
r
o
zw
ią
za
n
ia
d
an
ej
p
o
zy
cj
i
Rycina 17b. „Krzywa
charakterystyczna” pozycji testowej
nr 102 ze skali REM inwentarza FCZ-
KT
Etap IX
Etap IX – analizy weryfikacyjne
finalnej wersji inwentarza: rzetelność
i trafność (te same oraz inne
aspekty).
Weryfikacja – bo inna skala (długość,
kompozycja pozycji).
Analiza trafności i
rzetelności pomiaru
Zgodność wewnętrzna i stabilność
czasowa.
Różne aspekty trafności – zbieżna i
różnicowa.
Te same parametry w kilku grupach
– stabilność (niezmienniczość)
grupowa.
Etap X
Etap X – normalizacja wyników testu
(skale standardowe o rozkładzie
normalnym, skale rangowe, punkty
odsiewowe wraz z obszarem
niepewności diagnozy).
Etap X
Rodzaje norm:
(A) normy ogólne bez podziału ze względu na żadną
ze zmiennych demograficznych,
(B) normy dla danej kategorii zmiennej
demograficznej, ale bez podziału ze względu na inne
zmienne (np. dla wszystkich kobiet, bez podziału na
wiek),
(C) normy dla określonej kategorii kolejnej zmiennej
demograficznej, bez podziału na inne zmienne (np.
dla osób o danym wieku, bez podziału na płeć), itd.
(D) normy z zastosowaniem wszystkich zmiennych
demograficznych.
Kwestie specyficzne norm
Badania praktyczne a naukowe
(normy A).
Wyznaczenie SBP oraz PU dla
wyników znormalizowanych.
Aktualizacja norm – normy
kroczące.
Aktualizacja norm – najdalej po 10
latach.
Etap XI - XII
Etap XI - publikacja testu.
Etap XII - rewizja testu (po
maksimum 25 latach albo wcześniej
po stwierdzeniu ewidentnych wad
diagnostycznych).
Wykład 11
CZYNNIKI
ZNIEKSZTAŁCAJĄCE WYNIKI
TESTOWE
Czynniki zniekształcające
wyniki testowe
a). zgadywanie.
b). tendencja do udzielania
odpowiedzi społecznie aprobowanych
albo społecznie nie aprobowanych:
- tendencja do dysymulowania
(aprobata społeczna),
-tendencja do symulowania;
c). style odpowiadania
Style odpowiadania
Style odpowiadania - tendencja
osoby badanej do wybierania
określonej opcji odpowiedzi
niezależnie od treści pozycji
kwestionariuszowej: tendencja do
zgadzania się albo zaprzeczania,
udzielania odpowiedzi ekstremalnych
albo centralnych (pośrednich),
udzielania odpowiedzi nieuważnych
lub niekonsekwentnych,
Style odpowiadania
losowych (przypadkowych),
niezdecydowanych (opcje „?” lub
opuszczenia odpowiedzi),
produktywnych, impulsywnych,
pozornie oryginalnych,
konwencjonalnych oraz lateralizacji
(style graficzne).
Style odpowiadania
Konieczne jest rozróżnienie tendencji
ogólnej (podatność narzędzia lub
procedury badania) oraz różnic
indywidualnych w stosowaniu stylu –
skale kontrolne badają różnice
indywidualne, wyjątkowo mogą być
zastosowane do analizy sytuacji
badania.
Źródła stylów odpowiadania
Brak odpowiedniej motywacji osoby
badanej do wzięcia udziału w
badaniach lub poczucie zagrożenia
badaniem - styl odpowiadania wynika
z chęci ukrycia faktycznego obrazu
osobowości w „szumie
informacyjnym” odpowiedzi.
Własności pozycji oraz zastosowane
opcje odpowiedzi - niezrozumiałość
oraz niejasność pozycji oraz
nieadekwatność zastosowanego
formatu odpowiedzi.
Zalecenia
Odpowiednie sformułowanie
językowe pozycji oraz właściwy
format odpowiedzi (eliminowanie
odpowiedzi pośrednich,
dostosowanie formatu do preferencji
osób badanych).
Zrównoważenie skali pod względem
klucza odpowiedzi (niezbędne do
zbudowania skal kontrolnych).
Dysymulowanie
Dysymulowanie - tendencja osoby
badanej do przedstawiania się w
nieprawdziwie korzystnym świetle,
która wiązana jest ze zmienną
aprobaty społecznej (tendencją
osoby badanej do kierowania się
społecznym wartościowaniem
zachowania przy odpowiadaniu, co
prowadzi do zaprzeczania posiadania
cech społecznie niepożądanych oraz
przypisywania sobie cech społecznie
pożądanych).
Aprobata społeczna
Aprobata społeczna jako
styl
odpowiadania
(czy inaczej postawa
wobec badania) to tendencja
jednostki do kierowania się przy
odpowiadaniu nie tyle faktycznym
zachowaniem, czy treścią pytania,
ale społeczną oceną, jaką pociąga za
sobą dana odpowiedź.
Tendencja do dysymulowania
i aprobata społeczna c.d.
Aprobata jako
cecha
to tendencja
podmiotu do takiego modulowania
zachowania (każdego - testowego,
jak i realnego, pozatestowego), by
było ono zgodne ze społecznym
wartościowaniem - normami
społecznymi, akceptacją otoczenia.
Zalecenia – unikanie
obciążenia
1). Pozycje neutralne.
2). Pozycje subtelne pod względem
trafności fasadowej.
3). Specjalne formułowanie językowe
pozycji – tzw. zdania zmodalizowane,
unikanie dużych kwantyfikatorów
czasu.
4). Zmiana procedury badania -
komputeryzacja lub wykorzystanie
szacowania cech.
Zalecenia – identyfikacja
pozycji obciążonych
5). Aprobata społeczna jako zmienna
moderacyjna.
6). Analiza podatności pozycji przez
manipulowanie instrukcją („dobry”
profil).
7). Analizy itemmetryczne.
8). Korelacje pozycji ze skalami
mierzącymi aprobatę społeczną.
Identyfikacja pozycji obciążonych –
usunięcie albo przeformułowanie.
Metody kontroli
(eliminowania) wpływu
aprobaty
Na etapie stosowania
kwestionariusza:
8). Instrukcja "szczerości",
9). Zmiana procedury badania -
komputeryzacja testu,
Metody kontroli
(eliminowania) wpływu
aprobaty
10). Skala kontrolna aprobaty
społecznej, na podstawie której
odrzuca się respondentów o
wysokich wynikach lub koryguje
wyniki skal treściowych przez
doliczanie tzw. poprawek
korekcyjnych,
11). Wprowadzenie do diagnozy
psychologicznej szacowania cech.
Dysymulacja i symulacja
Konieczne jest rozróżnienie tendencji
ogólnej (podatność narzędzia lub
procedury badania) oraz różnic
indywidualnych w dysymulowaniu czy
symulowaniu – skale kontrolne
badają różnice indywidualne,
wyjątkowo mogą być zastosowane do
analizy sytuacji badania.
Symulowanie
Symulowanie – tendencja osoby
badanej do udzielania odpowiedzi,
bezpodstawnie przedstawiających
osobę badaną w niekorzystnym
świetle, np. wskazujących na
istnienie określonych zaburzeń
zachowania czy niepożądanych cech
osobowości.
Tendencja do symulowania
(c.d.)
Tendencja do symulowania jest
zarówno
postawą
wobec badania,
(styl odpowiadania, np."super-
szczerość"), jak trwałym syndromem
cech
osobowości, związanym z
tendencjami agrawacyjnymi,
obniżoną samooceną,
ekscentrycznością i zaburzeniami
psychicznymi. Kontrolowanie
tendencji do symulacji umożliwiają
specjalne skale kontrolne.
Symulowanie
Zagrożenie pozytywną oceną,
Zagrożenie pozytywną oceną,
prowadzącą do wzbudzenia
prowadzącą do wzbudzenia
motywacji do unikania i dążenia do
motywacji do unikania i dążenia do
uzyskania diagnozy negatywnej.
uzyskania diagnozy negatywnej.
Pytania o nietypowe myśli,
Pytania o nietypowe myśli,
pragnienia, odczucia i wrażenia (wraz
pragnienia, odczucia i wrażenia (wraz
ze swoistym przejaskrawieniem czy
ze swoistym przejaskrawieniem czy
udziwnieniem form zachowania) oraz
udziwnieniem form zachowania) oraz
zachowania stanowiące
zachowania stanowiące
przekroczenie norm moralnych.
przekroczenie norm moralnych.
Zalecenia – unikanie
obciążenia
Unikanie pytań o zachowania
Unikanie pytań o zachowania
regulowane społecznymi normami.
regulowane społecznymi normami.
Unikanie emfazy w formułowaniu
Unikanie emfazy w formułowaniu
treści pozycji.
treści pozycji.
Zalecenia – identyfikacja
pozycji obciążonych
Tendencja do symulowania jako
zmienna moderacyjna.
Analiza podatności pozycji przez
manipulowanie instrukcją („zły”
profil).
Analizy itemmetryczne.
Korelacje pozycji ze skalami
mierzącymi tendencję do
dysymulowania.
Identyfikacja pozycji obciążonych –
usunięcie albo przeformułowanie.
Skale kontrolne
Funkcja skal kontrolnych polega na
diagnozowaniu indywidualnych
stylów odpowiadania na pozycje
kwestionariuszowe, które są
ekspresją postaw wobec badania
inwentarzem osobowości. Postawy
te nie wiążą się treściowo z
badanymi cechami osobowości, ale
powodują zniekształcenie
uzyskiwanych wyników skal.
Skale kontrolne
Czynniki te mogą być zatem
traktowane jako tzw. zmienne
„tłumiące” lub moderujące. Będą
one zatem prowadziły do obniżenia
wartości diagnostycznej inwentarza
- trafności pomiaru, a niekiedy
także i rzetelności pomiaru.
Skale kontrolne
Rodzaje skal kontrolnych:
Dysymulacji, symulacji albo
dysymulacji-symulacji (cecha albo
styl albo cecha-styl, zależnie od
sytuacji) – specjalna motywacja
o.b.;
Skale do badania stylu
odpowiadania – brak motywacji o.b.
(odpowiedzi losowe, potakujące,
itd.).
Skale kontrolne MMPI
Skala L była przeznaczona do diagnozowania
dysymulacji i została zbudowana z pozycji
opisujących zachowania społecznie pożądane, ale
występujące rzadko u przeciętnej osoby. Uważa
się, że diagnozuje ona tzw. naiwną tendencję do
dysymulowania. Skala K była przeznaczona do
diagnozowania tendencji do przedstawiania
„nadmiernie pozytywnego” obrazu siebie, ale
zbudowano ją kryterialnie, wyodrębniając pozycje
różnicujące grupę osób zdrowych oraz osób
chorych o „normalnym” profilu, które
podejrzewano zatem o dysymulację. Obu skalom
przypisywano funkcję zmiennych tłumiących, a
zatem prowadzących do uzyskania przez osobę
nieprawdziwie „normalnego” profilu.
Skale kontrolne MMPI
Skala F miała wykrywać tendencję do udzielania
odpowiedzi nieuważnych i nieprzemyślanych.
Wybrano do niej pozycje, które były bardzo
rzadko potwierdzane w próbie normalizacyjnej.
Pozycje te miały jednak charakter kliniczny i
opisywały niezwykłe zachowania, z których każde
stawiało osobę badaną w niekorzystnym świetle.
Faktycznie zatem skala nieuważności zaczęła
pełnić rolę skali symulacji. Ostatnia skala badała
tendencję do wybierania odpowiedzi pośrednich
(„?”, czyli odpowiedzi „nie potrafię powiedzieć”).
Jej wyniki obliczono jako liczbę odpowiedzi
pośrednich na wszystkie pozycje MMPI. Miała ona
diagnozować styl odpowiadania, wynikający z
nadmiernej ostrożności czy niezdecydowania, a
prowadzący do obniżenia wyników skal
klinicznych.
Skale kontrolne MMPI-II
II wersja MMPI zawiera aż 9 skal kontrolnych -
obok czterech tradycyjnych skal kontrolnych („?”,
L, F i K), wprowadzono aż pięć dalszych: VRIN,
TRIN, F(b), F(p) oraz S. Skala VRIN (Variable
Response Inconsistency) pozwala na ocenę
zmienności odpowiedzi na zbiór, opozycyjnych w
treści, par pozycji – wysoki wynik w tej skali,
oznaczający udzielenie tej samej odpowiedzi na
oba stwierdzenia z każdej pary, pozwala na ocenę
niekonsekwencji odpowiadania. Z kolei skala TRIN
(True Response Inconsistency) bazuje na liczbie
odpowiedzi konfirmacyjnych na oba stwierdzenia
pary i informuje o tendencji do zgadzania się,
podczas gdy liczba odpowiedzi negujących - o
tendencji do zaprzeczania.
Skale kontrolne MMPI-II
Skala F(b) (Inpatient Psychopathology Scale)
została zbudowana na końcowych pozycjach
inwentarza MMPI-2 i – jako wariant skali F -
pozwala na ocenę losowości odpowiedzi,
następującej w efekcie zmęczenia i utraty
motywacji, przy wypełnianiu tego długiego
inwentarza. Z kolei skala F(p) (Inpatient
Psychopathology Scale) bada tendencję do
symulowania u osób, wykazujących zaburzenia
psychiczne. Wreszcie skala S (Superlative Self-
Presentation Scale) pozwala na ocenę bardziej
wyrafinowanej formy dysymulowania niż
tradycyjnie stosowana skala K wraz z pięcioma
szczegółowymi komponentami tej tendencji.
Skale kontrolne 16 PF-V
W 5. edycji 16 PF wprowadzono trzy skale
kontrolne: aprobaty społecznej (w wersji skali do
badania „sprawiania wrażenia”), tendencji do
„zgadzania się” oraz tendencji do udzielania
„odpowiedzi przypadkowych” (ang. infrequency).
Tendencja do udzielania „odpowiedzi
przypadkowych” („strzelania”) jest diagnozowana
na podstawie wybierania przez osobę badaną
szczególnie rzadko zaznaczanych w całej próbie
opcji odpowiedzi (z trójstopniowej skali) na pulę
pozycji treściowych (zliczana jest suma
wybranych takich opcji w puli różnorodnych
pozycji). Tendencja do „zgadzania się” jest
oceniana na podstawie wybierania przez osobę
badaną odpowiedzi potwierdzających na pozycje
wybrane z różnych skal treściowych (zliczana jest
suma odpowiedzi potakujących na pulę
zróżnicowanych treściowo pozycji).
Skale kontrolne 16 PF-V
Skala aprobaty zawiera pozycje, które nie są
włączane do skal treściowych i diagnozuje
uogólnioną tendencję do kierowania się aprobatą
społeczną przy odpowiadaniu. Godnym uwagi jest
także fakt, że w 5. edycji 16PF zmieniono nieco
status skali rozumowania (B). Pozycje z tej skali
zamieszczone są na końcu inwentarza, a sama
skala staje się do pewnego stopnia skalą
kontrolną. Służy ona nadal do oceny zdolności i
jej wyniki są uwzględniane w profilu cech, tak jak
w wersji pierwotnej. Jednocześnie jednak -
poprzez badanie sprawności rozumowania na
końcu kwestionariusza - informuje o zasobach
uwagi, którymi dysponowała osoba badana po
męczącej i długotrwałej pracy, związanej z
wypełnieniem 16PF.
Zgadywanie - definicja
Zgadywanie
jest specyficznym
czynnikiem zniekształcającym wyniki
testów zdolności, związanym z
udzielaniem odpowiedzi losowych,
gdy badani nie znają właściwych
odpowiedzi
(„jak nie wiem, to będę
strzelał”)
.
Kontrolowanie zgadywania
a). poprzez instrukcję testową:
wyrównywanie tendencji do
zgadywania (zachęcanie do
zgadywania) lub eliminowanie
zgadywania (informacja o stosowaniu
korekty wyników);
Kontrolowanie zgadywania
b). zastosowanie statystycznej
poprawki na zgadywanie:
B
K = P - ---------
m - 1
gdzie K - liczba odpowiedzi bez
zgadywania, P - liczba poprawnych
odpowiedzi w teście, B - liczba błędnych
odpowiedzi, m - liczba opcji odpowiedzi w
zadaniach testowych.
Wykład 12
STRATEGIE KULTUROWEJ
ADAPTACJI TESTÓW
Kulturowa adaptacji testów
Kulturowa adaptacja testu
-
przystosowanie wersji oryginalnej
testu do innej specyfiki kulturowej.
Adaptacja testu oznacza konieczność
wprowadzenia specjalnych procedur
przystosowujących (decentrujących -
uniwersalizujących lub centrujących
na kulturze adaptacji), w przeciwnym
razie stosowanie takiego narzędzia
prowadzi nieuchronnie do
stronniczości lub faworyzacji
kulturowej.
Aspekty równoważności
kulturowo adaptowanych
testów
Aspekty równoważności kulturowej
testu:
a). równoważność teorii
psychologicznych,
b). równoważność wymiarów
psychologicznych
c). równoważność pojęć
psychologicznych,
d). równoważność wskaźników cech -
zachowań,
e). równoważność procedury
badania.
Kryteria równoważności
kulturowowo adaptowanych
testów
Kryteria równoważności testu:
a). równoważność fasadowa (forma
testu),
b). równoważność psychometryczna
(wskaźniki dobroci pomiaru),
c). równoważność funkcjonalna
(równoważność psychologiczna),
d). wierność tłumaczenia,
e). wierność rekonstrukcji.
Strategie kulturowej adaptacji
testów
Transkrypcja
Translacja
Trawestacja
Parafraza
Rekonstrukcja
Trankskrypcja
Transkrypcja
- maksymalnie wierne
tłumaczenie oryginalnych pozycji
(założenie, że zarówno konstrukty,
jak i zachowania są uniwersalne czy
inaczej równoważne kulturowo).
Celem adaptacji jest dochowanie
wierności tłumaczenia oraz wierności
fasadowej testu. Adaptacje
transkrypcyjne są "niezręczne"
językowo i wykazują szereg wad
psychometrycznych.
Translacja
Translacja
- wierne tłumaczenie
finalnej puli oryginalnych pozycji, ale
z możliwością wprowadzenia
niezbędnych modyfikacji językowych
(założenie, że konstrukty, jak i
zachowania są uniwersalne
kulturowo, ale nie są uniwersalne
pojęcia używane w danej kulturze do
opisu zachowania).
Trawestacja
Trawestacja
- swobodne tłumaczenie
oryginału z wprowadzaniem wielu
modyfikacji, sugerowanych
względami językowymi i
psychologicznymi: treściowymi lub
psychometrycznymi (założenie, że
konstrukty psychologiczne są
uniwersalne, ale nie są uniwersalne
pojęcia
Trawestacja (c.d.)
używane w danej kulturze do opisu
zachowania i nie zawsze uniwersalne
są same zachowania - część
zachowań ma charakter emikalny).
Trawestacja prowadzi do uzyskania
dostosowanych do danej kultury
formy testu, ale może się on różnić
od oryginału.
Parafraza
Parafraza
- opracowanie nowego
narzędzia, dla którego inspiracją jest
test oryginalny. Pozycje oryginalne
są wykorzystywane tylko częściowo,
większość pozycji jest generowana
na bazie pozycji oryginalnych
(założenie, że konstrukty
psychologiczne są uniwersalne
kulturowo, ale z reguły nie są
uniwersalne zachowania - tylko część
z nich
Parafraza (c.d.)
ma charakter etikalny, tj.
równoważny kulturowo.
Parafraza jest bardzo czasochłonna,
ale prowadzi do uzyskania w pełni
dostosowanych do danej kultury
adaptacji testu.
Rekonstrukcja
Rekonstrukcja
- opracowanie
całkowicie nowego narzędzia, dla
którego inspiracją jest oryginalny
model teoretyczny i strategia
konstrukcji (założenie, że zachowania
z reguły nie są uniwersalne
kulturowo, ale możliwe że nie są
uniwersalne również konstrukty
psychologiczne).
Rekonstrukcja (c.d.)
Rekonstrukcja może prowadzić do
uzyskania innej niż oryginalna wersji
testu i jest najbardziej czasochłonną
strategią adaptacji, ale prowadzi do
uzyskania całkowicie dostosowanych
kulturowo wersji testu.
Adaptacja demograficzna
testów
Adaptacja demograficzna
-
przystosowanie testu
przeznaczonego do badania
określonej grupy do stosowania w
innej grupie demograficznej.
Adaptacja demograficzna testu, tak
jak adaptacja kulturowa, oznacza
konieczność wprowadzenia
specjalnych procedur
przystosowujących
Adaptacja demograficzna
testów
(decentrujących - uniwersalizujących
lub centrujących na kulturze danej
grupy), w przeciwnym razie
stosowanie testu prowadzi
nieuchronnie do stronniczości lub
faworyzacji demograficznej (np.
seksizmu).
Aspekty adaptacji
demograficznej testów
Płeć
Wiek
Niepełnosprawność
Rasa
Klasa społeczna (status społeczno-
ekonomiczny)?
Środowisko
Podkultura?
Wykład 13
NORMALIZACJA WYNIKÓW TESTU
Normy
Normy testowe są niezbędne dla
poprawnej interpretacji wyników
testu. Wynik surowy jest
nieinterpretowalny bez informacji o
wynikach, otrzymanych przez osoby
badane z odpowiedniej grupy
odniesienia. Są dwa rodzaje norm:
wyniki progowe (pomiędzy grupami
kontrastowymi) oraz normy
bazujące na rozkładzie wyników
testu (w grupie odniesienia –
normalizacyjnej).
Wyniki progowe
Wyniki progowe (punkty
odsiewowe) są stosowane w
podejściu zorientowanym na
trafność kryterialną. Celem tych
norm jest uzyskanie diagnozy
jakościowej – klasyfikacji osób
badanych do jednej z dwóch (czy
kilku) grup, skontrastowanych ze
względu na określone kryterium.
Punkty odsiewowe służą jako
norma dla wyników testu –
wskazują co oznacza wysoki i niski
wynik testu.
Ryc. 33. Grupy kontrastowe
oraz punkty odsiewowe
Punkt odsiewowy
Wynik progowy
Wynik progowy jest zazwyczaj
wyrażany w formie, przykładowo
„10/11” (najwyższy wynik w jednej
grupie/najniższy wynik w drugiej
grupie). Wynik progowy jest
uzyskiwany poprzez krzywoliniową
regresję jako punkt pozwalający na
najlepsze zróżnicowanie obu grup:
poniżej tego wyniku osoba badana
ma mniej niż 50% szans, że należy
do jednej grupy, zaś powyżej, że ma
powyżej 50% szans na
przynależność do drugiej grupy.
Ryc. 34. Krzywoliniowa relacja między wynikami
testu a prawdopodobieństwem przynależności do
danej „grupy kontrastowej”.
Wynik
progow
y
Wskaźniki trafności diagnozy
na podstawie progów
odsiewowych
Diagnoza bazująca na progach
odsiewowych powinna także być
poddana walidacji: odsetek
trafnych i błędnych diagnoz
powinien być obliczony oraz szereg
wskaźników trafności diagnozy
(wrażliwość, specyficzność,
pozytywna i negatywna wartość
predykcyjna oraz ogólny wskaźnik
błędnych klasyfikacji).
Rodzaje diagnoz
Wskaźniki te wylicza się na
podstawie liczby diagnoz
„prawdziwie negatywnych” (osoby
zdrowe zdiagnozowane jako
zdrowe), „prawdziwie
pozytywnych” (osoby chore
zdiagnozowane jako chore),
„fałszywie pozytywnych” (osoby
zdrowe zdiagnozowane jako chore)
oraz „fałszywie negatywnych”
(osoby chore zdiagnozowane jako
zdrowe).
Tabela 17. Rodzaje diagnoz kryterialnych
Diagnoza medyczna
„Zdrowy”
„Chory”
Wynik
Poniżej
progu
„A”
(diagnoza
fałszywie
pozytywna)
„B”
(diagnoza
prawdziwie
pozytywna)
testu
Powyżej
progu
„C”
(diagnoza
prawdziwie
negatywna)
„D”
(diagnoza
fałszywie
negatywna)
Rodzaje wskaźników
Ogólny wskaźnik błędnych
klasyfikacji: liczba diagnoz
fałszywych w stosunku do ogólnej
liczby osób badanych (czyli
A+D/A+B+C+D);
Rodzaje wskaźników
Wskaźnik specyficzności czy inaczej
swoistości: proporcja osób z
„dolnej” grupy kontrastowej
poprawnie zakwalifikowanych na
postawie wyników inwentarza do
ogółu osób z tej grupy, np. liczba
osób zdrowych trafnie ocenionych
jako zdrowe w stosunku do ogólnej
liczby zdrowych (czyli C/A+C);
Rodzaje wskaźników
Wskaźnik wrażliwości czy inaczej
czułości: proporcja osób z „górnej”
grupy kontrastowej poprawnie
zakwalifikowanych na postawie
wyników inwentarza do ogółu osób
z tej grupy kontrastowej, np. liczba
osób chorych trafnie ocenionych
jako chore w stosunku do ogólnej
liczby osób chorych (czyli B/B+D);
Rodzaje wskaźników
Wskaźnik pozytywnej wartości
predykcyjnej: proporcja osób z
„górnej” grupy kontrastowej
poprawnie zakwalifikowanych na
postawie wyników inwentarza do
ogółu osób zakwalifikowanych do
tej grupy na podstawie inwentarza,
np. liczba osób chorych trafnie
ocenionych jako chore w stosunku
do ogólnej liczby osób ocenionych
jako chore na podstawie inwentarza
(czyli B/A+B).
Rodzaje wskaźników
Wskaźnik negatywnej wartości
predykcyjnej: proporcja osób z
„dolnej” grupy kontrastowej
poprawnie zakwalifikowanych na
postawie wyników inwentarza w
stosunku do ogółu osób
zakwalifikowanych do tej grupy na
podstawie inwentarza, np. liczba
osób zdrowych trafnie ocenionych
jako zdrowe w stosunku do ogólnej
liczby osób ocenionych jako zdrowe
na podstawie inwentarza (czyli
C/C+D).
Ocena wskaźników
Wskaźniki te wskazują w jakim
obszarze diagnozy test wykazuje
obniżoną trafność, np. może dobrze
diagnozować osoby zdrowe o
niskich wynikach, ale „mylić” się w
obszarze wyników wysokich,
typowych dla osób chorych (ale
uzyskiwanych często także przez
osoby zdrowe). Efekty te zależą od
charakterystyki rozkładu wyników
w obu grupach kryterialnych.
Ryc. 34. Odmienny rozkład
wyników w grupach
kontrastowych
0
0,25
0,5
-3 -2,5 -2 -1,5 -1 -0,5 0
0,5
1
1,5
2
2,5
3
Punkt odsiewowy
Konsekwencje zmiany progu
W celu poprawy danego wskaźnika
wyniki progowe można przesuwać
w stronę wysokich wyników testu
(obniżenie liczby diagnoz fałszywie
pozytywnych) lub w stronę
wyników niskich (obniżenie liczby
diagnoz fałszywie negatywnych).
Podjęcie takiej decyzji zależy od
konsekwencji błędu danego
rodzaju. Należy jednak pamiętać, że
w każdym wypadku pogarsza się
wtedy wskaźnik odwrotny.
Normy bazujące na
rozkładzie wyników testu
Celem norm opartych na rozkładzie
wyników w grupie normalizacyjnej
jest uzyskanie diagnozy ilościowej –
ocena intensywności mierzonej
cechy (jako własności różnicowej w
grupie odniesienia). Istnieją dwa
rodzaje norm: normy rangowe
(porządkowa skala pomiarowa) oraz
skale standaryzowane
(przedziałowa skala pomiarowa).
Normy rangowe: skala
centylowa
Skala centylowa jest wybierana,
gdy rozkład wyników testu znacznie
odbiega od rozkładu normalnego
(rozkład jest asymetryczny, ma
nieprawidłową gęstość i nie może
być przetransformowany w rozkład
normalny). Punktem odniesienia
(standardem wykonania testu) jest
mediana – centyle wskazują na
częstość uzyskania danego wyniku
w grupie normalizacyjnej.
Charakterystyka skali
centylowej
Rozkład po transformacji wyników surowych =
prostokątny („uskokowniony”)
Mediana = 50
Liczba jednostek skali = 101 centyli
Zakres = od 0 do 100 centyla
Skok skali = 1 centyl (1% wyników, poza centylami
krańcowymi - 0 oraz 100, które obejmują po 0,5%
obserwacji)
Zalety i wady skali
centylowej
Zaleta:
Łatwość zrozumienia znaczenia
wyniku, zwłaszcza dla osób
badanych.
Wada:
Centyle prowadzą do
nadszacowania różnic
interindywidualnych w obszarze
blisko średniej oraz
niedoszacowania zmienności na
krańcach rozkładu (zaburzają ocenę
faktycznej zmienności).
Skale standardowe bazujące
na rozkładzie normalnym
Normy wyników testu bazujące na
rozkładzie normalnym wymagają
transformacji wyników surowych na
skale standardowe. Skale te
umożliwiają osiągnięcie
zasadniczego celu pomiaru
psychologicznego: ilościowej oceny
na skali przedziałowej (wiele
kategorii wyników oraz równe
różnice między nimi dla całego
wymiaru).
Cel transformacji wyników
surowych na skale
standardowe
Poprawna interpretacja wyniku
indywidualnego (ocena
intensywności cechy);
Porównania różnic
intraindywidualnych w wynikach
testu (intensywność różnych cech u
jednej osoby badanej);
Porównania różnic
interindywidualnych w wynikach
testu (intensywność danej cechy u
różnych osób badanych).
Rodzaje skal standardowych
a). Znormalizowana skala ciągła – jednostki
"z",
b). znormalizowane skale uskokowione:
dzielące rozkład wg średniej
(-) skala stenowa
obejmujące wartość średniej
(-) skala staninowa
(-) skala tetronowa
(-) skala wyników przeliczonych (WAIS-
R)
(-) skala tenowa
(-) skala dewiacyjnego ilorazu
inteligencji
Skala jednostek
znormalizowanych „z”
Rozkład po transformacji wyników surowych =
normalny („ciągły”)
Średnia = 0,0
Odchylenie standardowe = 1,0
Skok skali = praktycznie 0,01
Różnicowanie = dowolny zakres
Przeznaczenie = skala podstawowa, stanowiąca
punkt wyjścia do transformacji wyników surowych
na inne skale znormalizowane
Formuła transformacyjna
y = zS
y
+ M
y
gdzie y - wynik w znormalizowanej
skali standardowej, z -
znormalizowany wynik standardowy,
S
y
- odchylenie standardowe danej
skali standardowej, M
y
- średnia
wyników danej skali standardowej)
Skala stenowa
Rozkład po transformacji wyników surowych =
normalny („uskokowiony”)
Średnia = 5,5 (między 5 a 6 stenem)
Odchylenie standardowe = 2,0
Liczba jednostek skali = 10 stenów
Zakres = od 1 do 10 stena
Skok skali = 1 sten (0,5 odchylenia standardowego
jednostek znormalizowanych „z”)
Różnicowanie = wartości od -2 do +2 jednostek
znormalizowanych „z” (steny krańcowe powyżej 2
S)
Przeznaczenie = różnicowanie w obrębie „normy”
Skala staninowa
Rozkład po transformacji wyników surowych =
normalny („uskokowiony”)
Średnia = 5,0 (obejmuje średnią)
Odchylenie standardowe = 2,0
Liczba jednostek skali = 9 stanin
Zakres = od 1 do 9 stanina
Skok skali = 1 stanin (0,5 odchylenia
standardowego jednostek znormalizowanych „z”)
Różnicowanie = wartości od -1,75 do +1,75
jednostek znormalizowanych „z” (staniny krańcowe
powyżej 1,75 S)
Przeznaczenie = różnicowanie w obrębie „normy”
Skala tetronowa
Rozkład po transformacji wyników surowych =
normalny („uskokowiony”)
Średnia = 10,0 (obejmuje średnią)
Odchylenie standardowe = 4,0
Liczba jednostek skali = 21 tetronów
Zakres = od 0 do 20 tetrona
Skok skali = 1 tetron (0,25 odchylenia
standardowego jednostek znormalizowanych „z”)
Różnicowanie = wartości od -2,325 do +2,325
jednostek znormalizowanych „z” (tetrony krańcowe
powyżej 2,325 S)
Przeznaczenie = różnicowanie w obrębie „normy” i
„patologii”
Skala tenowa
Rozkład po transformacji wyników surowych =
normalny („uskokowiony”)
Średnia = 50 (obejmuje średnią)
Odchylenie standardowe = 10,0
Liczba jednostek skali = 100 tenów
Zakres = od 1 do 100 tena
Skok skali = 1 ten (0,1 odchylenia standardowego
jednostek znormalizowanych „z”)
Różnicowanie = wartości od -5 do +5 jednostek
znormalizowanych „z” (teny krańcowe powyżej 5 S)
Przeznaczenie = różnicowanie w obrębie „normy’ i
„patologii”
Skala dewiacyjnego ilorazu
inteligencji
Rozkład po transformacji wyników surowych =
normalny („uskokowiony”)
Średnia = 100,0 (obejmuje średnią)
Odchylenie standardowe = 15,0
Liczba jednostek skali = 200 jednostek II
Zakres = od 0 do 200 jednostek II
Skok skali = jednostka II (1/15 odchylenia
standardowego jednostek znormalizowanych „z”)
Różnicowanie = wartości praktycznie od -6 do +6
jednostek znormalizowanych „z” (jednostki
krańcowe powyżej 6 S)
Przeznaczenie = różnicowanie w obrębie „normy” i
„patologii”
Kryteria wyboru danej skali
normalizacyjnej
Kształt rozkładu wyników surowych
(reguła: rozkłady skośne - skale
prostokątne)
Liczba stopni skali w stosunku do zakresu
rozkładu wyników surowych (reguła: 1 do 2
lub 3)
Rzetelność pomiaru i wielkość
standardowego błędu pomiaru (reguła: gdy
SBP duże - raczej skala o mniejszej liczbie
wartości);
Przeznaczenie - różnicowanie w obrębie
„normy” czy „patologii” (reguła:
różnicowanie w obrębie „patologii” - skala
o większym zakresie)
Wynik
su-
rowy
Frek-
wencja
Frek-
wencja
skumiulo
wana
Frekwencja
skumulowana z
wiersza poniżej
+ 1/2 frekwencji
z danego
wiersza
Propor-
cja (p)
J ed-
nostka
“z”
2z + M
(M=5.0)
Wynik
sta-
ninowy
0
4
4
2,5
0,003
-2,801
-0,602
1
1
6
10
7,5
0,009
-2,385
0,230
1
2
7
17
14,0
0,017
-2,136
0,728
1
3
20
37
27,5
0,033
-1,845
1,310
1
4
22
59
48,5
0,058
-1,574
1,852
2
5
26
85
72,5
0,087
-1,363
2,274
2
6
25
110
98,0
0,118
-1,190
2,620
3
7
31
141
126,0
0,151
-1,034
2,932
3
8
37
178
160,0
0,192
-0,873
3,254
3
Tabela 18. Normy staninowe dla skali Reaktywności emocjonalnej
Inwentarza FCZ-KT (kobiety w wieku 15-19 lat; N=834).
9
38
216
197,5
0,237
-0,718
3,564
4
10
69
285
251,0
0,301
-0,523
3,954
4
11
56
341
313,5
0,376
-0,318
4,364
4
12
72
413
377,5
0,453
-0,121
4,758
5
13
70
483
448,5
0,538
0,093
5,186
5
14
77
560
522,0
0,626
0,319
5,638
6
15
81
541
601,0
0,721
0,583
6,166
6
16
57
698
670,0
0,803
0,851
6,702
7
17
56
754
726,5
0,871
1,128
7,256
7
18
45
799
776,5
0,931
1,483
7,966
8
19
22
821
810,5
0,972
1,897
8,794
9
20
13
834
828,0
0,993
2,412
9,824
9
Tabela 19 – c.d.
Wynik surowy
Stanin
0-3
1
4-5
2
6-8
3
9-11
4
12-13
5
14-15
6
16-17
7
18
8
19-20
9
Tabela 20. Tabela norm staninowych dla kobiet w wieku 15-19 lat.
Interpretacja nasilenia cechy
bazująca na staninach
Staniny od 4 do 6 (przeciętne
nasilenie – wynik w normie);
Staniny od 2 do 3 (niskie nasilenie)
oraz od 7 do 8 (wysokie nasilenie);
Stanin 1 (bardzo niskie nasilenie)
oraz stanin 9 (bardzo wysokie
nasilenie).
Interpretacja wyników
różnicowych testu
Nasilenie cechy, wyrażonej w
wynikach testu jest proporcjonalne
do wielkości odbiegania go od
średniej (punktu odniesienia, czy
inaczej standardu wykonania) oraz
częstości (wynik częsty = typowy,
wynik rzadki = ekstremalny). Im
bardziej odchylony i rzadko
spotykany jest dany wynik, tym
większe (lub mniejsze) nasilenie
badanej cechy.
Kwestie specjalne norm
Normy generalne czy lokalne
(poradnictwo i dobór);
Aktualizacja norm i normy
„kroczące” (liczebność grupy
normalizacyjnej, trendy
uzyskiwanych wyników);
Normy dla wszystkich i odrębne
normy dla grup demograficznych
(kryteria – analiza demograficznej
stronniczości wyników testu).
Zagadnienie specjalne -
normy aktuarialne
Normy aktuarialne
to
normy, w które zostały
wbudowane dane
trafnościowe
Wykład 14
INTERPRETACJA WYNIKÓW
TESTOWYCH I ZASADY
KORZYSTANIA Z
PODRĘCZNIKÓW TESTOWYCH
Interpretacja wyników testu
Interpretacja oznacza, że na
podstawie wyników testu
formułowane są wnioski
psychologiczne – wynikom testu
przypisywany jest sens
psychologiczny.
Interpretacja wyników testu jest
ściśle związana z trafnością
pomiaru – odnosi się do trafności
teoretycznej i/lub trafności
kryterialnej.
Interpretacja wyników testu
Interpretacja może dotyczyć opisu
zachowania osoby badanej
(struktury cech osobowości czy
zdolności intelektualnych) i/lub
przewidywania zachowania w
warunkach pozatestowych
(funkcjonowania w realnych
warunakch życiowych). Wszystkie
te wnioski (interpretacje) bazują na
danych otrzymanych w procesie
walidacji testu.
Interpretacja wyników testu
Interpretacja może być trafna
jedynie jeśli nasilenie cechy zostało
prawidłowo oszacowane – oznacza
to, że punktem wyjścia diagnozy
psychologicznej jest ocena wyniku
prawdziwego osoby badanej
poprzez wyznaczenie
odpowiedniego przedziału ufności.
Rodzaje interpretacji
wyników testowych
Interpretacja kliniczna
Interpretacja statystyczna
Interpretacja kliniczna
Zakłada interpretację profilu
testowego na podstawie treści
psychologicznej poszczególnych skal i
agregację tej treści poprzez ustalenie
sensu danej konfiguracji cech.
Interpretacja kliniczna wiąże się z
idiograficznym podejściem do
diagnostyki psychologicznej i w jej
efekcie formułowane są wnioski raczej
jakościowe niż ilościowe, a jeśli
ilościowe - to są one mało precyzyjne.
Interpretacja statystyczna
Zakłada raczej mechaniczne łączenie
skal, poprzez tworzenie agregatów nie
tyle psychologicznych, ile
statystycznych, np. poprzez tworzenie
baterii testów predykcyjnych
określonego kryterium (stanu zdrowia
psychicznego, powodzenia zawodowego,
itp.). Dla każdego z tych wskaźników
możliwe jest określenie pewności
wnioskowania czy dokładności diagnozy.
Interpretacja statystyczna
Interpretacja statystyczna
wymaga sformalizowania procesu
wnioskowania na podstawie
uzyskanych danych. Wiąże się ona z
nomotetycznym podejściem do
diagnostyki psychologicznej i
dostarcza przede wszystkim
wyników ilościowych.
Interpretacja kliniczna a
interpretacja statystyczna
Predykcja zachowania jednostki jest
bardziej trafna przy podejściu
statystycznym niż klinicznym.
Podejście statystyczne jest jednak
krytykowane za mechaniczność
analizy danych i sprowadzenie udziału
psychologa w diagnozie do roli
“technika” rozdzielającego testy,
obliczającego ich
Interpretacja kliniczna a
interpretacja statystyczna
wyniki i odczytującego ich
znaczenie z tabel aktuarialnych. Z
tych względów postuluje się
łączenie obu podejść albo
akcentuje się konieczność
wypracowania nowych modeli
diagnostycznych.
Struktura podręcznika
testowego
prezentacja teoretycznych podstaw
testu;
opis procedury konstrukcji
dane, ilustrujące rzetelność i trafność
pomiaru (wraz z charakterystyką orób);
procedura praktycznego stosowania
testu i obliczania wyników;
procedura interpretacji wyników testu;
tabele normalizacyjne.
Co musi zawierać podręcznik
testowy?
Podręcznik musi zawierać precyzyjny
opis testu: jego przeznaczenie,
wskazówki dotyczące procedury
badania testem i obliczania wyników,
pełne dane ilustrujące charakterystykę
psychometryczną, opis procedury
normalizacji oraz normy, precyzować
zasady interpretacji oraz zawierać
informację o możliwej stronniczości
czy ograniczeniach stosowania testu.