PPP2(2)

background image

Wykład 7

TRAFNOŚĆ POMIARU

TESTEM: PODSTAWOWE

POJĘCIA ORAZ METODY I

WSKAŹNIKI

background image

Pojęcie trafności pomiaru

Trafność pomiaru testem to:

a). stopień, w jakim test mierzy
cechę, jaką ma mierzyć (

trafność

teoretyczna

czy inaczej trafność

zorientowana na konstrukt);

b). stopień dokładności
przewidywania określonych kryteriów
praktycznych (

trafność kryterialna

lub inaczej trafność podejmowanych
decyzji).

background image

Trafność a założenia KTT

Pojęcie trafności odwołuje się do

założeń Klasycznej Teorii Testów,

zgodnie z którymi wyniki

prawdziwe i błędy pomiaru są

nieskorelowane, jak i błędy są

nieskorelowane (r

tb

= 0 oraz r

bb

=

0), co oznacza, że obserwowane

korelacje (między pozycjami,

testem i innymi testami oraz

testem a kryteriami) są korelacjami

wyników prawdziwych.

background image

Trafność a rzetelność

pomiaru

Rzetelność jest koniecznym , ale

niewystaczającym warunkiem

trafności pomiaru. Oznacza to, że

test może być rzetelny i nietrafny,

ale nie odwrotnie – test nierzetelny

musi być nietrafny.

Rzetelność jest kresem górnym

trafności, ponieważ wariancja

prawdziwa jest źródłem rzetelności,

ale także trafności.

background image

Źródła wariancji przy analizie

rzetelności i trafności

(A)

Systematyczna
wariancja
wspólna z
innymi testami.

(B)

Systematyczna
wariancja
specyficzna dla
danego testu.

(C) Wariancja

błędu (losowa).

Rzetelność = A

+ B (wariancja
systematyczna
w
przeciwieństwie
do wariancji
losowej).

Trafność = A

(wariancja
wspólna w
przeciwieństwie
do specyficznej
wariancji = B +
C).

background image

Rzetelność i trafność

Rzetelność i trafność są

parametrami psychometrycznymi

pomiaru testem i są wyznaczane

przez podobne czynniki:

Zmiany w procedurze standaryzacji

(alternatywne zastosowanie testu).

Zmiany w demograficznym składzie

próby - ograniczona zmienność

wyników testu lub wyników

kryterialnych w grupie.

background image

Rzetelność i trafność

W przypadku trafności kryterialnej,

wymaganie tego rodzaju trafności

jest sprzeczne z wymogiem

rzetelności, jak i trafności

teoretycznej. Rzetelność i trafność

teoretyczna jest najwyższa, gdy

interkorelacje pozycji są wysokie,

ale wtedy trafność kryterialna jest

niska (wymaga ona pozycji o

niskich interkorelacjach oraz

wysokich korelacjach z kryteriami

zewnętrznymi,

background image

Rzetelność i trafność

co prowadzi do obniżenia

rzetelności i trafności teoretycznej.

W takim wypadku test mierzy różne

(nieskorelowane) właściwości

psychologiczne, pozwalające na

przewidywanie złożonych kryteriów

praktycznych - jest heterogeniczny

pod względem treści

psychologicznej (zaś rzetelność i

trafność wymaga homogenicznych

pozycji oraz jednej cechy,

wpływającej na wyniki testowe).

background image

Rodzaje trafności pomiaru

Trafność pomiaru obejmuje trzy
rodzaje:

a). trafność treściową (wewnętrzną),

b). trafność kryterialną
(diagnostyczną i prognostyczną),

c). trafność teoretyczną.

background image

Trafność treściowa - definicja

Trafność treściowa (wewnętrzna)

-

reprezentatywność danej puli pozycji
dla uniwersum pozycji mierzących
daną cechę.

background image

Trafność treściowa - definicja

Trafność treściowa (wewnętrzna)

-

reprezentatywność danej puli pozycji
dla uniwersum pozycji mierzących
daną cechę. Trafność treściowa jest
wstępnym aspektem trafności
teoretycznej. Trafność fasadowa jest
natomiast karykaturą trafności i nie
powinna być przesłanką do
budowania sądu o faktycznej
trafności testu.

background image

Trafność treściowa

Analiza trafności treściowej jest

niezbędnym etapem prac
konstrukcyjnych testu (zanim
jeszcze test został całkowicie
opracowany, za wyjątkiem kwestii
krytyki testu, gdy chcemy wykazać,
że test jest nietrafny treściowo, np.
treść pozycji testowych nie
obejmuje ważnych aspektów
cechy).

background image

Etapy oceny trafności

treściowej

Precyzyjna definicja cechy

(konstruktu oraz porównanie z
innymi konstruktami
teoretycznymi).

Opis aspektów cechy:

podwymiarów czy fasad cechy
(cecha, jak i jej podwymiary
powinny mieć budowę
hierarchiczną i być precyzyjnie
zdefiniowane).

background image

Etapy oceny trafności

treściowej

Ocena liczby pozycji w każdym

podwymiarze oraz teście jako
całości (każdy podwymiar powinien
być reprezentowany w całym teście
i obejmować zbliżoną liczbę
pozycji).

Ocena pozycji w każdym

podwymiarze oraz w całym teście
przez grupę ekspertów na skalach
ocen (trafność treściowa) lub osób
badanych (typowość).

background image

Trafność kryterialna -

definicja

Trafność kryterialna

- stopień, w

jakim test pozwala na przewidywanie
określonego kryterium
zewnętrznego, np. powodzenia
zawodowego, szkolnego,
wypadkowości, diagnozy klinicznej,
itp. Trafność kryterialna obejmuje

trafność diagnostyczną

(stopień, w

jakim test pozwala na ocenę
aktualnego kryterium) oraz

trafność

prognostyczną

(stopień, w jakim test

pozwala na ocenę przyszłego
kryterium).

background image

Trafność kryterialna -

szacowanie

Trafność kryterialna

jest szacowana

na podstawie korelacji między
wynikami testu a określonym
kryterium pozatestowym; z tego
względu kluczowym aspektem jest
rzetelność (jak i trafność) samego
kryterium, użytego do badania
trafności testu.

background image

Trafność kryterialna -

poprawka na nierzetelność

kryterium

Poprawka na nierzetelność
kryterium:

r

kt

r

s-k

= --------------

R

tt-k

r

s-k

- skorygowany współczynnik korelacji,

r

kt

- współczynnik korelacji przed

skorygowaniem, R

tt-k

współczynnik

rzetelności kryterium.

background image

Trafność kryterialna -

poprawka na nierzetelność

kryterium i testu

Poprawka na nierzetelność kryterium
i testu:

r

kt

r

s-kt

= --------------

R

tt-k

R

tt-t

r

s-kt

- skorygowany współczynnik korelacji,

r

kt

- współczynnik korelacji przed

skorygowaniem, R

tt-k

współczynnik

rzetelności kryterium, R

tt-t

-współczynnik

rzetelności testu.

background image

Trafność kryterialna – dane z

meta-analiz

Testy zdolności – korelacje około

0,50 ze wskaźnikami efektywności
pracy oraz osiągnięciami szkolnymi
(0,70 – szkoła podstawowa, 0,50 –
szkoła średnia oraz 0,30 – szkoła
wyższa).

Skale osobowości – korelacje około

0,30 ze wskaźnikami efektywności
pracy oraz 0,50 z diagnozą
kliniczną (psychiatryczną).

background image

Skala

Mount i Barrick

(1991)

Tett, J ackson i

Rothstein (1991)

Neurotyczność

-0,04 (-0,07)

-0,15 (-0,22)

Ekstrawersja

0,06 (0,10)

0,10 (0,16)

Otwartość

-0,02 (-0,03)

0,18 (0,27)

Sumienność

0,13 (0,23)

0,12 (0,18)

Ugodowość

0,04 (0,06)

0,22 (0,33)

Tabela 8. Dane z dwóch meta-analiz trafności kryterialnej

skal osobowości i efektywności pracy (w nawiasach –

korelacje skorygowane na nierzetelność kryterium i/lub skali).

background image

Trafność kryterialna – inne

meta-analizy

Mount, Barrick i Judge (2001) – meta-

analiza 15 wcześniejszych metaanaliz:
korelacje -0,13 dla N oraz 0,24-0,27 dla S
i efektywności pracy.

Salgado (1997) – meta-analiza badań

europejskich: korelacje -0,19 dla N i 0,25
dla S.

Mount, Barrick i Stewart (1998) – U i N

przewidują efektywność pracy w zespole.

Judge, Heller i Mount (2002) - N, S i E

przewidują poziom satysfakcji z pracy
(zbliżone rezultaty dla trafności
diagnostycznej i predykcyjnej).

background image

Cechy OCEAN a powodzenie

zawodowe

Cechy PMO badane w dzieciństwie,

zostały odniesione do subiektywnie
ocenianego sukcesu zawodowego
oraz zobiektywizowanych
wskaźników sukcesu zawodowego
(dochodów i statusu społecznego
wykonywanego zawodu), badanych
w dorosłości - po upływie ponad 50
lat (Judge, Higgins, Thoresen i
Barrick, 1999).

background image

Rycina 1.

Cechy Pięcioczynnikowego Modelu Osobowości w dzieciństwie a ocena

subiektywna i obiektywne wskaźniki sukcesu zawodowego (status

społeczny zawodu oraz dochody) w dorosłości (Judge, Higgins, Thoresen i

Barrick, 1999).

Dochody

Subiektywna ocena sukcesu

zawodowego

Status społeczny zawodu

background image

Cechy OCEAN a powodzenie

zawodowe

Najlepszym predyktorem

subiektywnie ocenianego sukcesu
zawodowego była sumienność,
mała neurotyczność i otwartość.
Predyktorem poziomu dochodów
była ekstrawersja, mała
neurotyczność i sumienność, zaś
statusu społecznego (rangi)
zawodu – sumienność, otwartość
oraz mała neurotyczność.

background image

Ryc. 21. Związki między cechami temperamentu: reaktywnością emocjonalną

i aktywnością, cechami osobowości: depresyjnością oraz uległością,

paleniem tytoniu a zachorowaniem na raka płuca.

0,46

Depresyjność

0,64

-0,23

0,23

Reaktywność

0,96

0,54

0,21

-0,30

Uległość

Rak płuca

-0,21

Aktywność

0,95

0,56

-0,24

Palenie

background image

Ryc. 22. Związki między cechami temperamentu: reaktywnością emocjonalną

i aktywnością, cechami osobowości: depresyjnością oraz wrogością,

paleniem tytoniu a zachorowaniem na zawał serca.

0,45

Depresyjność

0,76

0,25

Reaktywność

0,82

0,83

0,51

-0,60

Palenie

Zawał serca

0,48

Aktywność

0,80

0,29

0,55

0,49

Wrogość

background image

Podsumowanie

Korelacje cech osobowości z

diagnozą medyczną (stan zdrowia)
wynosiły ok. 0,20 dla raka płuca i
zawału serca. Zbliżone dane zostały
uzyskane w innych badaniach
(Zawadzki, 2001).

background image

Podsumowanie

Mischel (1968) określił

współczynniki trafności skal
badających cechy osobowości z
kryteriami (stan zdrowia,
powodzenie zawodowe) mianem
„współczynników osobowości”,
które nie przekraczają wartości
0,30.

background image

Cechy OCEAN a długość życia

Osobami badanymi byli uczestniczy

programu Termana dotyczącego
powodzenia życiowego osób
wybitnie zdolnych, które urodziły
się około 1910 roku i od początku
lat 20. uczestniczyły w programie
badawczym aż do roku 1986.
Analiza przeżywalności (po ponad
60 latach) wykazała, że efekt
sumienności z pewnym dodatkiem
ugodowości

background image

Cechy OCEAN a długość życia

(niezawodność społeczna,

rozwaga, wolność od próżności-
egotyzmu, skrupulatność i
prawdomówność) - cechy badanej w
dzieciństwie na podstawie
szacowania przez rodziców oraz
nauczycieli (na podstawie szeregu
pytań, sklasyfikowanych w latach
80. jako - w głównej mierze -
wskaźniki sumienności)

background image

Cechy OCEAN a długość życia

pozwala na przewidywanie

przeżywalności (Friedmann i in,
1993; 1995), także przy kontroli
efektu płci, przyczyny zgonu (np.
wypadki samochowe), czy
zachowań zdrowotnych (alkohol,
palenie, nadwaga).

background image

Wykład 8

TRAFNOŚĆ TEORETYCZNA

POMIARU TESTEM

background image

Trafność teoretyczna -

pojęcie

Trafność teoretyczna

- zgodność

treści mierzonej przez test z

konstruktem teoretycznym (trafność

zorientowana na konstrukt) -

określenie jaką treść psychologiczną

mierzy test.

background image

Metody szacowania trafności

teoretycznej

1). Metody bazujące na analizie

związku pomiędzy konstruktem a

zachowaniem:

a). metoda zmian nieprzypadkowych,

b). metoda sprawdzania różnic

międzygrupowych,

c). metoda badania procesu

rozwiązywania testu;

background image

Metody szacowania trafności

teoretycznej (c.d.)

2). Metody bazujące na analizie
macierzy korelacji pomiędzy testem,
a innymi testami przeznaczonymi do
badania danego konstruktu:

a). metoda badania wewnętrznej
struktury testu,

background image

Metody szacowania trafności

teoretycznej (c.d.)

b). metoda analizy macierzy korelacji
i analizy czynnikowej (eksploracyjnej
i konfirmacyjnej) danego testu oraz
testów, badających ten sam
konstrukt;

c). badanie trafności
konwergencyjnej i dyskryminacyjnej
(zbieżnej i różnicowej) za pomocą
analizy macierzy Wielu Cech- Wielu
Metod wg Campbella i Fiskego

background image

Analiza zmian

nieprzypadkowych

Zmiany rozwojowe – wyniki testów

zdolności powinny wykazywać
systematyczną tendencję
wzrostową wraz ze wzrostem wieku
w dzieciństwie oraz tendencję
regresywną w dorosłości. Wyniki
niektórych skal osobowości także
powinny wykazywać zmiany z
wiekiem – aktywność
temperamentalna powinna
systematycznie maleć wraz z
wiekiem, z uwagi na malejące
zasoby energii.

background image
background image
background image

Ryc. 25. Wiek a aktywność, badana FCZ-KT (wyniki

standaryzowane 7 prób narodowych).

background image

Analiza zmian

nieprzypadkowych

„Postulat lekowy” - metoda

opracowana w psychiatrii i
stosowana przez H. Eysencka.


Założenia:

Ekstrawersja jest wyznaczana przez

poziom pobudzenia korowego
(ekstrawertycy wykazują niski
poziom pobudzenia);

background image

Analiza zmian

nieprzypadkowych

Niektóre leki zwiększają poziom

pobudzenia;

Pod wpływem tych leków osoby

badane powinny ujawniać
introwertywny wzór zachowania
(jako efekt silnego pobudzenia).

Wniosek:

Skala Ekstrawersji powinna

zarejestrować tę różnicę (między
pre-testem i post-testem po
podaniu leku

).

background image

Analiza różnic

międzygrupowych

Celem tej metody jest ocena różnic

w wynikach testu, uzyskanych
przez różne grupy demograficzne,
wyodrębnione na podstawie
predykcji bazującej na analizie
konstruktu teoretycznego
(konfiguracja tych różnic jest
oczekiwana na podstawie teorii).

background image

Analiza różnic

międzygrupowych

Testy zdolności – analiza wyników

testu inteligencji w różnych
grupach zawodowych (wniosek: im
bardziej wymagający sprawności
intelektualnej jest dany zawód, tym
wyższy poziom inteligencji
wykazują pracownicy).

Skale osobowości – przypadek

wrażliwości sensorycznej i
wytrzymałości (z FCZ-KT).

background image

Różnice międzygrupowe we

wrażliwości i wytrzymałości

Hipotezy:

Muzycy – wysoki poziom

wrażliwości sensorycznej (zdolność
specjalna), ale niski poziom
wytrzymałości;

Sportowcy – wysoki poziom

wytrzymałości (zdolność specjalna),
ale niski wrażliwości sensorycznej;

background image

Różnice międzygrupowe we

wrażliwości i wytrzymałości

Hipotezy:

Przestępcy (mordercy) – wysoki

poziom wytrzymałości i niski
poziom wrażliwości sensorycznej
(zdolności specjalne?);

Pytanie o nasilenie obu cech u

nauczycieli szkół podstawowych?

background image

Tabela 9. Wrażliwość sensoryczna i wytrzymałość

w różnych grupach demograficznych.

Grupa

Wrażliwość

sensoryczna

Wytrzymałość

Przestępcy

13,39

11,18

Sportowcy

(zapaśnicy)

13,43

11,18

Artyści muzycy

15,68

8,76

Norma (mężczyźni)

15,00 (3,45)

10,26 (4,78)

Nauczycielki

16,67

12,57

Artystki (muzycy)

17,32

6,38

Norma - kobiety

16,23 (2,86)

8,04 (4,58)

background image

Różnice międzygrupowe we

wrażliwości i wytrzymałości

Wnioski:

Większość różnic jest zgodna z

przewidywaniami (zwłaszcza z
relacji do grupy normatywnej).

Nieoczekiwane relacje: zbliżone

wyniki u przestępców oraz
zapaśników oraz najwyższe wyniki
u nauczycieli szkól podstawowych.

background image

Wady metody

Różne nasilenie tendencji do

symulowania albo dysymulowania
w badanych grupach
(nauczyciele?);

Wyjaśnienie różnic

międzygrupowych: dwa procesy –
„naturalna” selekcja do zawodu
i/lub (?) adaptacja do wymagań
zawodu (zmiana nasilenia cech);

Nieoczekiwane zależności są

typowe i trudne do wyjaśnienia.

background image

Wady metody – badania

Nyborga

Nyborg (1995) prowadził badania

dotyczące związku między
poziomem hormonów a
wykonywaniem różnych zawodów.
Podstawowa hipoteza głosiła, że im
wyższy jest poziom męskich
hormonów, tym za bardziej
zmaskulinizowany uznawany jest
dany zawód, zaś im wyższy jest
poziom żeńskich hormonów, tym za
bardziej

background image

Wady metody – badania

Nyborga

sfeminizowany uznawany jest dany

zawód. Pielęgniarstwo jest
typowym zawodem kobiecym i
pielęgniarki wykazują najwyższy
poziom żeńskich hormonów.
Oczekiwano zatem, że pielęgniarze
powinni wykazywać najniższy
poziom męskich hormonów,
podczas gdy w rzeczywistości
wykazywali najwyższy poziom ze
wszystkich grup zawodowych!

background image

Analiza procesu

rozwiązywania testu

Testy zdolności – eksperymenty z

manipulowaniem złożonością
zadań, prezentacją zadań
cząstkowych lub podawaniem
wskazówek, które zmieniają
wymagania.

Skale osobowości – „analiza

protokołów” (instrukcja „głośnego
myślenia”) w celu identyfikacji
czynników wpływających na
udzielanie odpowiedzi na pozycje.

background image

Analiza wewnętrznej

struktury testu

Dwie grupy metod:

Analiza korelacji między pozycjami

(wskaźnik dyskryminacji lub
korelacji pozycja-skala oraz analiza
czynnikowa pozycji);

Analiza korelacji między skalami

testu (korelacje skal i analiza
czynnikowa skal).

background image

Analiza korelacji między

pozycjami

Korelacja pozycja-skala (moc

dyskryminacyjna) – pozycja
powinna wysoko korelować z
wynikiem całej skali korelacja
(pozycja powinna mierzyć tę samą
treść psychologiczną co wszystkie
inne pozycje w tej skali).

background image

Analiza korelacji między

pozycjami

Analiza czynnikowa pozycji (testy

wieloskalowe) – pozycja powinna
wysoko korelować z własną skalą i
nisko z innymi skalami (pozycja
powinna mierzyć określoną treść
psychologiczną i jednocześnie nie
mierzyć innych treści).

background image

Analiza czynnikowa

Analiza czynnikowa jest metodą

dekompozycji macierzy korelacji
pomiędzy zmiennymi, prowadzącej
do uzyskania wiązek zmiennych,
które reprezentują zbliżoną treść
psychologiczną (odnoszą się do
zbliżonych lub wręcz identycznych
konstruktów – cech
psychologicznych).

background image

Analiza czynnikowa

Zmienne są grupowane w wiązki na

podstawie ich korelacji w taki
sposób, aby korelacje w obrębie
wiązki były jak najwyższe, zaś
między wiązkami jak najniższe. Idea
analizy czynnikowej bazuje na tzw.
„równaniu czwórkowym”
Spearmana.

background image

Przykład

Test A i test B – korelacja 0,70.
Wniosek – oba testy mierzą tę

samą cechę.

Test A, B i C – korelacje 0,70.
Wniosek – wszystkie testy są

jednakowo dobrymi miarami tej
samej cechy.

Test A, B i C – korelacja 0,70

pomiędzy testem A i B oraz
korelacja 0,50 pomiędzy testem C
oraz testami A i B.

background image

Przykład

Wniosek – testy A i B są dobrymi

miarami cechy ogólnej, zaś test C
mierzy bardziej specyficzną treść i
jest gorszą miarą cechy ogólnej niż
testy A i B.

Test A, B, C i D – korelacje 0,70

pomiędzy testem A i B oraz
pomiędzy C i D, a także korelacje
krzyżowe po 0,50 między testami A
i B oraz testami C i D.

background image

Przykład

Wniosek – istnieje nie tylko cecha

ogólna (badana przez wszystkie
testy – każdy z nich jest dobrą
miarą tej cechy do wysokości
korelacji 0,50), ale przede
wszystkim istnieją dwie odmienne,
choć skorelowane cechy; jedna
wiązka (czynnik) mierzy pierwszą
cechę (testy A i B), zaś druga
wiązka bada drugą cechę (testy C i
D).

background image

Analiza mocy

dyskryminacyjnej

Celem tej analizy jest ocena w

jakim stopniu wszystkie pozycje
mierzą tę samą treść; najczęściej
używany jest skorygowany
współczynnik pozycja-skala. Analiza
ta jest dokonywana dla pozycji
tworzących daną skalę oraz
oddzielnie dla każdej ze skal testów
wieloskalowych.

background image

Analiza czynnikowa pozycji

Celem eksploracyjnej analizy

czynnikowej pozycji jest wykazanie,
że pozycje tworzące daną skalę
mają najwyższe korelacje (ładunki
czynnikowe) z odpowiadającymi im
czynnikami (odzwierciedlającymi
określoną treść psychologiczną)
oraz najniższe z innymi czynnikami
(tworzącymi inne wiązki pozycji).
Analiza jest przeprowadzana na
wszystkich pozycjach testu.

background image

Skala /pozycja

SKPS Czynnik

E

Czynnik

K

Czynnik

N

Czynnik

P

E / pozycja 6

0,58

-0,72

0,07

-0,02

0,11

11

0,55

-0,72

0,09

-0,04

0,16

-24

0,51

0,62

-0,01

0,19

-0,02

51

0,55

-0,69

-0,17

0,07

-0,23

78

0,64

-0,74

-0,10

-0,00

-0,21

94

0,53

-0,71

0,03

0,03

0,06

N / pozycja 26

0,56

0,05

-0,03

0,71

-0,04

35

0,54

-0,15

0,03

0,72

0,07

38

0,53

0,07

-0,04

0,67

0,05

46

0,54

0,22

-0,03

0,65

0,03

65

0,49

0,08

0,03

0,63

-0,06

83

0,58

-0,14

0,01

0,76

0,06

Tabela 10. Współczynniki mocy dyskryminacyjnej i ładunki czynnikowe

pozycji EPQ-R(24).

background image

Skala / pozycja

SKPS Czynnik

E

Czynnik

K

Czynnik

N

Czynnik

P

P / pozycja 7

0,23

0,06

0,14

0,08

0,56

-18

0,31

-0,03

-0,20

-0,01

0,48

37

0,30

-0,12

0,20

0,03

-0,45

-41

0,26

-0,17

0,01

0,08

0,58

42

0,26

-0,13

0,29

0,16

-0,36

-88

0,28

0,01

0,03

0,01

0,54

K / pozycja 44

0,37

0,01

0,56

-0,04

-0,10

-49

0,36

-0,08

0,64

-0,04

0,14

-53

0,35

0,08

0,65

-0,04

0,16

-66

0,36

-0,07

0,47

-0,05

-0,26

-71

0,42

-0,03

0,61

0,04

-0,11

86

0,30

-0,07

-0,49

-0,10

0,06

Tabela 10 – c.d.

background image

Wnioski

Moc dyskryminacyjna:

Skala E - zakres: 0,54 do 0,64

(pozycja nr 78 jest najlepszą miarą
E);

Skala N - zakres: 0,49 to 0,58

(pozycja nr 83 jest najlepszą miarą
N);

Skala P - zakres: 0,23 to 0,31

(pozycja nr 18 jest najlepszą miarą
P);

Skala K - zakres: 0,35 to 0,42

(pozycja nr 71 jest najlepszą miarą
K).

background image

Uwaga

Znak minus przed numerem pozycji

wskazuje, że odpowiedź negująca
jest zgodna z kluczem – wyniki tych
pozycji powinny zostać
zrekodowane. Zabieg ten jest
niezbędny dla obliczenia mocy
dyskryminacyjnej (wszystkie
korelacje muszą być pozytywne),
ale opcjonalne dla analizy
czynnikowej – ładunki mogą być
zarówno pozytywne, jak i
negatywne.

background image

Wnioski

Eksploracyjna analiza czynnikowa:

wszystkie pozycje wykazały wyższe
korelacje z odpowiadającymi im
czynnikami. Najlepsze są skale E i
N, skale K, a zwłaszcza P są gorsze.

Optymalny wzór tych korelacji

powinien być „czarno-biały”. W
praktyce testów psychologicznych
nigdy się to nie zdarza.

background image

Analiza korelacji pomiędzy

skalami testu

Dwie formy analizy:

Korelacje między skalami testu;

Analiza czynnikowa skal testu.

background image

Analiza korelacji pomiędzy

skalami testu

Korelacje między skalami - skala

wytrzymałości z FCZ-KT koreluje
dodatnio (ok. 0,20) ze skalą
aktywności (osoby aktywne są
bardziej wytrzymałe, co jest zgodne
z oczekiwaniami teoretycznymi).

Analiza czynnikowa skal testu -

WAIS-R ujawnia dwa czynniki skal
testu: Werbalny i Niewerbalny
(czasami też trzeci czynnik,
określany mianem
Pamięci/Odporności na dystrakcję).

background image

Analiza korelacji pomiędzy

testami

Dwie formy analizy:

Analiza korelacji pomiędzy testem

oraz innymi testami (badającymi
ten sam i odmienne konstrukty);

Analiza czynnikowa (eksploracyjna i

konfirmacyjna) danego testu oraz
innych testów (badających ten sam
i odmienne konstrukty).

background image

Korelacje z innymi testami

Celem tej analizy jest ocena

wielkości wariancji dzielonej przez
test z innymi testami. Analiza ta
wymaga uwzględnienia skal
mierzących te same i odmienne
konstrukty w celu wykazania
trafności konwergencyjnej i
dyskryminacyjnej (oceniana skala
powinna korelować ze skalami
badającymi zbliżone konstrukty
oraz nie korelować ze skalami
mierzącymi odmienne konstrukty).

background image

Przykład badań

walidacyjnych NEO-FFI

Hipotezy:

Skale N i E z NEO-FFI i EPQ-R oraz

skale U i S z NEO-FFI i PAL
(identyczne konstrukty – bardzo
wysokie korelacje);

Skale U i S z NEO-FFI i skale P i K z

EPQ-R oraz skale E i N z NEO-FFI i
skale P i D z PAL, a także skala O z
NEO-FFI i skala I z PAL (zbliżone
konstrukty – przeciętne korelacje);

background image

Przykład badań

walidacyjnych NEO-FFI

Wszystkie te korelacje są

wskaźnikiem

trafności

konwergencyjnej (zbieżnej).

Korelacje pomiędzy skalami,

badającymi odmienne kontrukty
powinny być bardzo niskie (zbliżone
do zera).

Wszystkie te korelacje są z kolei

wskaźnikiem

trafności

dyskryminacyjnej (różnicowej).

background image

NEO-FFI, EPQ-R/PAC

NEU

EKS

OTW

UGD

SUM

Ekstrawersja

-0,25*

0,71*

0,18*

-0,11*

0,06*

Neurotyczność

0,73*

-0,19*

-0,00

-0,15*

-0,11*

Psychotyczność

0,00

0,09*

0,03

-0,47*

-0,37*

Skala Kłamstwa

-0,10*

-0,09*

-0,09*

0,39*

0,45*

Pobudliwość

0,40*

0,10*

0,06

-0,27*

-0,01

Dynamiczność

-0,27*

0,60*

0,22*

-0,01

0,38*

Intelekt

-0,29*

0,32*

0,40*

0,12*

0,31*

Ugodowość

0,01

0,28*

0,22*

0,35*

0,24*

Sumienność

-0,04

0,10*

0,04

0,18*

0,66*

Tabela 11. Korelacje pomiędzy skalami NEO-FFI oraz EPQ-R

i PAL (korelacje konwergencyjne są podkreślone).

background image

Wnioski

Wysokie korelacje skal N i E z NEO-

FFI i EPQ-R oraz skali S z NEO-FFI i
PAL potwierdzają trafność
konwergencyjną (korelacje skali A
są zbyt niskie);

Przeciętne korelacje skal U i S z

NEO-FFI i skale P i K z EPQ-R oraz
skali N z NEO-FFI i P z PAL, a także
skali O z NEO-FFI i skali I z PAL
także potwierdzają trafność
konwergencyjną (korelacja
pomiędzy skalami E i D jest zbyt
wysoka);

background image

Wnioski

Korelacje zbieżne są wyższe niż

korelacje krzyżowe, co potwierdza
trafność dyskryminacyjną.

Korelacje krzyżowe są wyższe w

przypadku PAL niż EPQ-R – niektóre
problemy słabej trafności zbieżnej i
różnicowej występują, gdy NEO-FFI
jest odnoszony do PAL (a nie EPQ-
R).

PAL wykazuje niską trafność.

background image

Analiza czynnikowa testów

Dwie formy analizy:

Eksploracyjna analiza czynnikowa

(empiryczna klasyfikacja treści skal
różnych testów);

Konfirmacyjna analiza czynnikowa

(porównanie modelu teoretycznego
do danych – analiza dobroci
dopasowania modelu do struktury
danych testowych).

background image

Źródła wariancji w analizie

czynnikowej

(A) Systematyczna

wariancja wspólna
z innymi testami.

(B) Systematyczna

wariancja
specyficzna dla
danego testu.

(C) Wariancja błędu

(losowa).

(A1) Wariancja

wspólna
specyficzna dla
danej cechy.

(A2) Wariancja

wspólna
specyficzna dla
innych cech.

(B+C) Wariancja

unikatowa testu
(niewyjaśniona).

background image

Źródła wariancji w analizie

czynnikowej

(A1) = trafność konwergencyjna;
(A2) = trafność dyskryminacyjna;
(A1+A2) = wariancja wspólna

(communality, h

2

);

1-h

2

= wariancja unikatowa (B+C).

Inne źródła zmienności:
1-α = wariancja błędu (C).
α-h

2

= wariancja systematyczna,

specyficzna dla testu (B).

background image

Eksploracyjna analiza

czynnikowa

Celem tej analizy jest ocena

trafności konwergencyjnej i
dyskryminacyjnej testu (lub
testów), bazująca na empirycznej
strukturze danych.

background image

Skala

Czynnik I Czynnik II Czynnik III Czynnik

IV

Czynnik V

h

2

NEU

0,77

-0,20

-0,17

-0,03

-0,10

0,67

EKS

-0,15

0,85

0,13

0,04

-0,01

0,76

OTW

0,01

0,39

0,15

0,20

-0,39

0,37

UGD

-0,21

0,05

-0,06

0,79

0,04

0,68

SUM

-0,11

0,11

0,74

0,23

0,15

0,64

E

-0,10

0,85

0,11

-0,10

-0,05

0,77

N

0,85

-0,06

-0,02

-0,01

-0,14

0,74

P

-0,06

0,12

-0,06

-0,63

-0,23

0,48

K

-0,08

-0,16

0,38

0,47

0,23

0,45

POB-L

0,66

0,21

0,19

-0,26

-0,06

0,59

DYN-L

-0,08

0,61

0,52

-0,08

-0,11

0,67

INT-P

-0,15

0,34

0,48

0,18

-0,21

0,44

UGD-L

0,10

0,29

0,28

0,55

-0,05

0,47

SUM-L

0,06

-0,03

0,72

0,37

0,11

0,67

Tabela 12. Eksploracyjna analiza czynnikowa 38 skal osobowości.

background image

Skala

Czynnik I Czynnik II Czynnik III Czynnik

IV

Czynnik V

h

2

ŻW

-0,45

0,29

0,40

-0,04

-0,11

0,46

PE

0,72

0,00

-0,12

0,13

-0,15

0,58

WS

-0,06

0,12

0,19

0,26

-0,28

0,20

RE

0,81

-0,24

-0,20

0,11

-0,01

0,76

WT

-0,63

0,20

0,34

-0,11

-0,09

0,58

AK

-0,06

0,78

0,01

-0,10

-0,08

0,63

SP

-0,60

0,39

0,38

-0,17

-0,11

0,71

SH

-0,58

-0,08

0,04

0,34

-0,15

0,48

RU

-0,48

0,62

0,14

0,10

-0,12

0,66

Tabela 12 – c.d.

background image

Skale

Czynnik I Czynnik II Czynnik III Czynnik

IV

Czynnik V

h

2

TOW

-0,10

0,61

-0,10

0,15

0,13

0,43

AKT

0,13

0,63

0,37

-0,15

0,02

0,58

STR

0,73

-0,19

-0,12

0,14

0,02

0,60

NIE

0,82

-0,11

-0,03

-0,10

-0,00

0,69

GNW

0,76

0,08

0,09

-0,34

0,00

0,70

A-G

0,17

0,63

0,26

-0,11

0,08

0,51

A-S

0,17

0,11

-0,15

-0,03

-0,25

0,13

A-W

-0,36

0,69

0,16

0,10

-0,00

0,64

F-R

-0,54

0,32

-0,11

0,09

-0,26

0,48

MQ

-0,28

0,62

-0,13

0,10

-0,00

0,49

R-S

0,02

-0,01

0,12

0,17

0,65

0,47

R-E

-0,07

0,04

0,17

0,11

0,72

0,57

R-H

0,07

0,14

0,08

0,04

0,74

0,58

DIST

-0,16

0,09

0,58

-0,12

0,20

0,43

PERS

-0,12

0,14

0,62

0,01

0,15

0,44

Tabela 12 – c.d.

background image

Skala Neurotyczności z NEO-

FFI

(A1) = 0,77

2

= 0,59 (wariancja

specyficzna dla neurotyczności)

(A2) = 0,08 (wariancja wspólna z

pozostałymi czterema cechami) = (-

0,20

2

;4%E)+(-0,17

2

;3%C)+(-0,03

2

;A)

+(-0,10

2

;1%O).

Wariancja wspólna (A1+A2=h

2

) =

0,59+0,08=0,67.

Wariancja unikatowa = 1-h

2

= 1-

0,67=0,33 (błąd pomiaru +

systematyczna wariancja

specyficzna dla skali N z NEO-FFI).

background image

Skala Neurotyczności z EPQ-

R

(A1) = 0,85

2

= 0,72 (wariancja

specyficzna dla neurotyczności)

(A2) = 0,02 (wariancja wspólna z

pozostałymi czterema cechami) = (-

0,06

2

;E)+(-0,02

2

;C)+(-0,01

2

;A)+(-

0,14

2

;2%O).

Wariancja wspólna (A1+A2=h

2

) =

0,72+0,02=0,74.

Wariancja unikatowa = 1-h

2

= 1-

0,74=0,26 (błąd pomiaru +

systematyczna wariancja

specyficzna dla skali N z EPQ-R).

background image

Wniosek

Skala

Neurotyczności z NEO-FFI

wykazuje gorszą trafność
konwergencyjną (59% w
porównaniu do 72%) oraz
dyskryminacyjną (8% w odniesieniu
do 2%) niż skala Neurotyczności z
EPQ-R (obie skale mają zbliżoną
zgodność wewnętrzną wynoszącą
około 0,85). Błąd pomiaru jest
równy 15%, unikatowa
systematyczna wariancja
specyficzna dla skali z NEO-FFI =
18% oraz EPQ-R = 11%).

background image

Porównanie trafności skal

NEO-FFI

Skala Konwergencyjna

Dyskryminacyjna

E

72%

4%

U

62%

6%

N

59%

8%

S

55%

9%

O

14%

22%

background image

Wniosek

Skala Otwartości wykazuje słabą

trafność konwergencyjną oraz
dyskryminacyjną. Inne skale
wykazują wysoką trafność
konwergencyjną, ale skala
Neurotyczności, Ugodowości i
Sumienności wykazuje także słabą
trafność dyskryminacyjną.
Najlepsza jest skala Ekstrawersji.

background image

Trafność innych skal

Siła Procesu Pobudzenia - 36%

neurotyczności, 15% ekstrawersji,
14% sumienności, 3% ugodowości
oraz 1% otwartości/rytmiczności–
wykazuje słabą trafność
dyskryminacyjną.

Skala Aktywności we śnie (A-S) -

13% wspólnej wariancji z innymi
skalami (6% z czynnikiem
otwartości/rytmiczności) – brak
trafności konwergencyjnej, tylko
wariancja unikatowa.

background image

Konfirmacyjna analiza

czynnikowa testów

Celem tej analizy jest ocena

trafności konwergencyjnej i
dyskryminacyjnej skal testu, przez
porównanie modelu teoretycznego i
empirycznej struktury skal.

background image

Przykład Inwentarza

Struktury Temperamentu

(KST) Rusalova

Analiza konfirmacyjna skal KST –

analiza wewnętrznej struktury
testu (analiza konfirmacyjna
podobnie do analizy eksploracyjnej
może być zrealizowana na poziomie
pozycji, skal danego testu, jak i
całych testów).

background image

Przykład Inwentarza

Struktury Temperamentu

(KST) Rusalova

Dwa czynniki wpływające na

temperament: geny i środowisko.
Wrodzona (pierwotna) struktura
temperamentu obejmuje:
ergiczność, plastyczność, tempo i
emocjonalność. Cechy te różnicują
się się pod wpływem czynników
środowiskowych na cechy
społeczne i przedmiotowe.

background image

Przykład Inwentarza

Struktury Temperamentu

(KST) Rusalova

KST zawiera osiem skal:

Ergiczność - społeczną

Ergiczność - przedmiotową

Plastyczność - społeczną

Plastyczność - przedmiotową

Tempo - społeczne

Tempo - przedmiotowe

Emocjonalność - społeczną

Emocjonalność - przedmiotową

background image

Hipotezy i modele

Bez cechy ogólnej (skale są

nieskorelowane - model powinien
być odrzucony);

Jedna cecha ogólna (brak specyfiki

skal - model powinien być
odrzucony);

Dwie cechy („struktura wtórna”) -

model powinien być potwierdzony);

Cztery cechy („struktura

pierwotna”) - model powinien być
potwierdzony);

SOS model (ad hoc model trzech

cech).

background image

ERP ERS

PLP PLS TEP

TES EMP

EMS

ERG

PLA

TEM

EMO



Rycina. 28. Model „struktury pierwotnej” temperamentu.

background image

ERP PLP

TEP EMP ERS

PLS TES

EMS

PRZED.

SPOŁ.

Rycina. 29. Model „struktury wtórnej” temperamentu.

background image

Wskaźniki „dobroci

dopasowania”

Wartość testu chi

2

(brak istotności);

Goodness of Fit Index (GFI; powyżej

0,95);

Adjusted Goodness of Fit Index

(AGFI; powyżej 0,90);

Normed Fit Index (NFI – wartość

przyrostowa dopasowania w
stosunku do „modelu zerowego”;
powyżej 0,90);

Wartości indeksu Watkinsa chi

2

/df

(poniżej 5,0 – akceptowalne
dopasowanie; poniżej 3,0 –
znakomite dopasowanie).

background image

Model

Opis modelu

chi2

df

p

GFI

AGFI

NFI

M0 Bez czynnika

ogólnego

417,36 28 0,000 0,60

0,60

-

M1 J eden czynnik

225,42 20 0,000 0,76

0,56

0,46

M2 Dwa czynniki

(struktura wtórna)

201,46 19 0,000 0,78

0,59

0,52

M3 Trzy czynniki

(emocjonalność,
aktywność
społeczna i
rzedmiotowa)

86,18 17 0,000 0,90

0,78

0,79

M4 Cztery czynniki

(struktura pierwotna)

104,69 14 0,000 0,88

0,69

0,75

Tabela 13. Wskaźniki dobroci dopasowania KAF dla skal KST.

background image

Wnioski

Żaden z analizowanych modeli nie

wykazał akceptowalnego
dopasowania – empiryczna
struktura korelacji skal KST jest
nieprzewidywalna na podstawie
oczekiwań teoretycznych;

Teoria temperamentu jest fałszywa

lub KST powinien zostać
zmodyfikowany, bowiem wykazuje
niewystarczającą trafność.

background image

Analiza macierzy Wielu Cech

– Wielu Metod

Macierz WC-WM (ang. MTMM

matrix) jest przygotowywana w
celu formalnej oceny trafności
konwergencyjnej i
dyskryminacyjnej pomiary testem.
Analiza ta wymaga wprowadzenia
przynajmniej dwóch metod oraz
dwóch cech.

background image

Rodzaje korelacji w macierzy

WC-WM

Pomiędzy skalami mierzącymi

różne cechy w obrębie tej samej
metody (różne cechy, ta sama
metoda);

Pomiędzy skalami mierzącymi te

same cechy, ale za pomocą różnych
metod (te same cechy, różne
metody);

Pomiędzy skalami mierzącymi

różne cechy za pomocą różnych
metod (różne cechy, różne metody).

background image

Wymóg trafności

konwergencynej

Trafność konwergencyjna (zbieżna):

korelacje pomiędzy skalami różnych
metod, ale badających te same
cechy (te same cechy, różne
metody) powinny być co najmniej
przeciętne (istotne statystycznie).

background image

Wymóg trafności

dyskryminacyjnej

Trafność dyskryminacyjna

(różnicowa): korelacje skal różnych
metod badających te same cechy
(te same cechy, różne metody)
powinny być wyższe niż:

korelacje skal mierzących różne

cechy, za pomocą tej samej metody
(różne cechy, te same metody);

korelacje skal mierzących różne

cechy, za pomocą różnych metod
(różne cechy, różne metody).

background image

Macierz WC-WM dla

samoopisu i szacowania z

użyciem NEO-FFI

Kwestionariusz: NEO-FFI

Miary: samoopis (s) and

szacowanie (sz)


Korelacje:

Pomiędzy NEO-FFI skalami

samopisu

Pomiędzy NEO-FFI szacowania

Pomiędzy samoopisem i

szacowaniem

background image

Pomiar

NEU - s

EXT - s

OPE - s

AGR - s

SUM - s

NEU – sz

0,84 (0,81)

-0,35*

-0,07*

-0,26*

-0,30*

EXT – sz

-0,39*

0,78 (0,80)

0,22*

0,09*

0,27*

OPE – sz

-0,11*

0,17*

0,63 (0,66)

0,06*

0,02

AGR – sz

-0,33*

0,13*

0,20*

0,65 (0,77)

0,19*

CON – sz

-0,28*

0,18*

0,17*

0,34*

0,81 (0,87)

Measure

NEU - s

EXT - s

OPE - s

AGR - s

CON – s

NEU – sz

0,52*

-0,28*

-0,08*

-0,20*

-0,16*

EXT – sz

-0,22*

0,61*

0,14*

0,04

0,13*

OPE – sz

-0,08*

0,08*

0,51*

0,04

-0,07*

AGR – sz

-0,09*

-0,01

0,04

0,45*

0,03

CON – sz

-0,12*

0,03

0,01

0,16*

0,45*

Tabela 14. Macierz WC-WM dla samoopisu i szacowania NEO-FFI.

background image

Wnioski

Skale NEO-FFI wykazują

wystarczającą trafność
konwergencyjną (korelacje
podkreślone w tabeli);

Skale NEO-FFI wykazują

akceptowalną trafność
dyskryminacyjną (korelacje
„zbieżne” są wyższe niż wszystkie
korelacje „różnicowe”).

background image

Podsumowanie

Pojęcie trafności zbieżnej i

różnicowej jest kluczowe dla
zrozumienia trafności teoretycznej,
choć zazwyczaj jest ograniczane
tylko do analizy macierzy Wc-WM.
Test powinien mierzyć określoną
cechę i nie mierzyć innych cech (ani
jakichkolwiek innych
charakterystyk indywidualnych, a
zatem także stylów odpowiadania
czy stanów psychologicznych).

background image

Podsumowanie

Pojęcie trafności konwergencyjnej i

dyskryminacyjnej może odnosić się
zarówno do trafności teoretycznej,
jak i kryterialnej. Test jest
nietrafny, jeśli niczego nie
przewiduje lub nie mierzy (brak
trafności konwergencyjnej). Test
jednak jest także nietrafny, jeśli
przewiduje lub mierzy wszystko
(brak trafności różnicowej).

background image

Podsumowanie

Narzędzie, które diagnozuje

wszystko, nie mierzy

niczego w szczególności.

background image

Wykład 9

STRATEGIE KONSTRUOWANIA

TESTÓW

background image

Strategie konstruowania

testu

1). teoretyczna (dedukcyjna)

2). zewnętrzna (kryterialna)

3). wewnętrzna (indukcyjna)

4). sekwencyjne lub połączone

background image

Strategie konstruowania

testu

1). teoretyczna (dedukcyjna) –
podstawa teoretyczna dla strategii
empirycznych, choć może też być
stosowana samodzielnie (do
diagnozy raczej cech).
2). zewnętrzna (kryterialna) – do
diagnozy typów
(eksploracyjna lub
połączona z teoretyczną).
3). wewnętrzna (indukcyjna) – do
diagnozy cech
(eksploracyjna lub
połączona z teoretyczną).

background image

Strategie konstruowania

testu

Budowa skali w każdej strategii
poza kryterialną) jest podobna – te
same końcowe procedury techniczne,
ale nieco inny model
psychometryczny jest stosowany w
każdej strategii.

Strategie mają podobny plan
konstrukcji, poza strategiami
połączonymi - unikatowość planu
analizy i przebieg procesu
konstrukcji.

background image

Porównanie strategii

konstrukcji testów

Aspekty opisu strategii:

a). dostępność teorii psychologicznej
w strategii: dedukcyjna ("teoria"),
kryterialna ("wiedza"), indukcyjna
("metodologia");

background image

Porównanie strategii

konstrukcji testów (c.d.)

b). model psychometryczny
zastosowany do konstrukcji testu:
teoretyczna - analiza pozycji
(korelacja pozycja-skala, zewnętrzna
- analiza pozycji (korelacja pozycja-
kryterium), indukcyjna -
eksploracyjna analiza czynnikowa;

background image

Porównanie strategii

konstrukcji testów (c.d.)

c). efekt finalny: w zakresie
psychologicznym, diagnostycznym i
psychometrycznym - każda strategia
ma swoje zalety i wady - zależnie od
typu problemu należy stosować różne
strategie.

background image

Wykład 10

PROCEDURA (PROCES)

KONSTRUKCJI TESTU

background image

Etap I

Etap I - wybór strategii (cel badań –
pytania badawcze, rodzaj badanego
konstruktu: cecha albo typ) oraz plan
budowy narzędzia (w tym także skale
kontrolne).

Niezbędna jest wiedza dotycząca
danego konstruktu oraz wiedza z
metodologii, psychometrii i
diagnostyki psychologicznej.

background image

Etap II

Etap II - analiza podstaw
teoretycznych narzędzia: teorii,
wiedzy lub metodologii (trafność
treściowa lub prototypowość).

Hierarchiczna struktura konstruktu
- podwymiary lub składniki
definicyjne (pokrycie całego
konstruktu, łatwość generowania
wskaźników konstruktu).

background image

Składniki definicyjne

Antonovsky (1995) przy tworzeniu Kwestionariusza
Poczucia Koherencji w postaci przestrzeni
Kartezjańskiej, zbudowanej poprzez wyodrębnienia
podwymiarów poczucia koherencji oraz fasad
reprezentujących różne aspekty reagowania na
bodźce. W ramach podwymiarów wyodrębnione
zostało poczucie zrozumiałości, zaradności i
sensowności (E1-3), zaś w obrębie fasad: modalność
bodźca (A1-3: instrumentalny, poznawczy i
afektywny), źródło bodźca (B1-3: wewnętrzne,
zewnętrzne i wewnętrzno- zewnętrzne), stawiany
jednostce wymóg (C1-3: konkretny, rozproszony i
abstrakcyjny) oraz czas reakcji (D1-3: przeszła,
teraźniejsza i przyszła).
Określona kombinacja
złożona z elementów składowych każdej fasady oraz
podwymiaru stanowiła profil, ułatwiający
generowanie pozycji.

background image

Składniki definicyjne

Przykładowo, pytanie „Nawet ludzie o silnym
charakterze czasami czują się przegrani w pewnych
sytuacjach. Jak często w przeszłości tak się czułeś?”
(Anotonovsky, 1995, s. 83) zostało zbudowane przez
operacjonalizację profilu: A3, B1, C3, D1 i E2
(bodziec afektywny, pochodzenia wewnętrznego, o
wymaganiach abstrakcyjnych, odnoszący się do
przeszłości i odwołujący się do poczucia
zaradności). Dla całego konstruktu dało to
możliwość stworzenia 243 pozycji, praktycznie
pokrywających cały zakres jego treści oraz
jednocześnie nie duplikujących się wzajemnie.

background image

Etap II

Określenie specyfiki konstruktu (nie
tylko aspekt zbieżny ale i różnicowy),
także poprzez hipotezy dotyczące
relacji do innych konstruktów.
Procedura „mocnej walidacji” – inne
narzędzia lub kryteria wprowadzone
do badania i analizy danych, ale nie
tylko zbieżne, ale i zwłaszcza
różnicowe.

background image

Etap III-IV

Etap III - generowanie wskaźników
będących deskrypcją cech
psychologicznych.

Etap IV - zapisywanie pozycji
testowych (rodzaj pozycji,
zachowania, format odpowiedzi) i
ocena ich własności formalnych.

background image

Pozycja testowa - definicja

Pozycja testowa

to sformalizowany

wskaźnik danej cechy
psychologicznej, a więc zdanie
(twierdzenie lub pytanie) opisujące
określone zachowanie (lub zadanie
wyzwalające określone zachowanie)
oraz skala rejestrująca to zachowanie
(opcje odpowiedzi o określonym
formacie oraz reguła przekształcania
odpowiedzi w wynik liczbowy).

background image

Tworzenie pozycji

Proces tworzenia pozycji:
Generowanie pozycji - poszukiwanie
takich zachowań i sytuacji, które występują
w życiu codziennym określonej grupy osób
badanych - wymaga wyrażenia wskaźników
teoretycznych w „języku” naturalnych
zachowań i sytuacji.
Zapisywanie pozycji - wymaga
przełożenia terminów psychologicznych na
język naturalny, a więc wyrażenia pozycji w
języku, którym posługują się osoby badane.

background image

Decyzje wstępne

Decyzje wstępne:
Wybór procedury odpowiadania
oraz formy pozycji
kwestionariuszowych
(wybieranie
dowolnej liczby pozycji lub
ograniczeniu wyboru do opcji
stwierdzenia albo opcji odpowiedzi).
Wybór rodzaju procedury: spiralna
albo piramidowa.

background image

Generowanie pozycji

Źródła pozycji:
Zapożyczenia z innych narzędzi
(MMPI lub 16 PF, testy zdolności –
typowe dla strategii zewnętrznej).
Poszukiwanie „naturalnych”
banków pozycji (zasoby słownikowe -
listy przymiotnikowe, testy zdolności
– typowe dla strategii indukcyjnej).

background image

Generowanie pozycji

Źródła pozycji:
Tworzenie nowych pozycji przez
profesjonalistów lub
nieprofesjonalistów (typowe dla
strategii teoretycznej lub połączonej
– teoretyczno-indukcyjnej czy
kryterialnej (ważna jest trafność
treściowa lub prototypowość).

background image

Generowanie pozycji

Nowe pozycje:
Odpowiedniość do badanego
konstruktu (trafność treściowa);
Reprezentatywność dla zachowania
osób badanych (proces społeczny
generowania wskaźników – eliminacja
obciążenia demograficznego; analiza
prototypowości ujmuje oba aspekty).

background image

Ocena trafności treściowej

lub typowości pozycji

Procedura analizy:
Tworzenie wskaźników;
Kwalifikowanie do konstruktów;
Ocena wskaźników na skalach ocen;
Analiza psychometryczna i
walidacja procedury (muszą być
możliwe do uzyskania korelacje ocen
ze wskaźnikami psychometrycznymi).

background image

Zapisywanie pozycji

Wymagania:
Uwzględnianie reguł formalnych w
procesie zapisywania pozycji;
Sprawdzenie uzyskanego efektu w
tzw. analizach formalnych własności
pozycji (analizy itemmetryczne).

background image

Zapisywanie pozycji

Konsekwencje:
Zakłócenie warunku standaryzacji –
zmienność inter- i intraindywidualna
interpretacji treści pozycji;
Uruchomienie stylu odpowiadania;
Udzielanie odpowiedzi
„niezgodnych” z intencjami
(niespójnych);
Pogorszenie charakterystyki
psychometrycznej pozycji.

background image

Własności formalne pozycji

Model Angleitnera i wsp. (1986):
Zrozumiałość
Niejasność
Ogólność (abstrakcyjność)
Dostępność w osobistym
doświadczeniu (możliwość
odniesienia do „ja”)
Obciążenie czynnikami
zniekształcającymi, np. aprobatą
społeczną.

background image

Zrozumiałość

Długość pozycji (liczba zdań, słów,
itd.), ale unikanie telegraficznej
skrótowości.
Złożoność gramatyczna (forma
gramatyczna pozycji, np. negacja,
strona bierna oraz komplikacja
pozycji w postaci zdań złożonych, ze
względu na tryb złożenia, np. w
zdaniach podrzędnie czy nadrzędnie
złożonych).

background image

Zrozumiałość

Poprawność gramatyczna - błędy
językowe oraz prostota - dostępność
użytych pojęć.

Wyrażenie zdań w pierwszej osobie;
Respektowanie obyczajów
językowych oraz zasad językowych,
np. form obocznych dla płci, ale bez
żargonu.

background image

Zalecenia

Zapisywanie pozycji zgodnie z
regułami.
Konsultacja językoznawcy.
Analizy itemmetryczne – ocena
„zrozumiałości” pozycji.

background image

Niejasność – wieloznaczność

interpretacyjna

Niejasność – możliwość przypisania
wielu różnych znaczeń pozycji -
interpretowania jej treści na wiele
sposobów, z których każdy jest
poprawny językowo i dopuszczalny z
punktu widzenia formy gramatycznej.

background image

Niejasność

Źródła:
zbyt duża ogólność i abstrakcyjność
użytych pojęć;
czynniki lingwistyczne, wynikające z
formy gramatycznej zdania, np.
negacji, jego złożoności
gramatycznej czy błędów, np.
interpunkcyjnych, a zwłaszcza
zapisanie pozycji w formie zadania
złożonego, którego zdania proste nie
tworzą koniunkcji i mogą wymagać
odrębnej odpowiedzi.

background image

Zalecenia

Zapisywanie w formie pozycji
konkretnych.
Grupowa analiza znaczenia treści
twierdzeń oraz ustalanie na drodze
dyskusji ich ostatecznej i bardziej
jednoznacznej formy.
Analiza znaczenia afirmacji oraz
negacji treści pozycji dla możliwości
zbadania określonej cechy.
Analizy itemmetryczne.

background image

Ogólność-abstrakcyjność

Ogólność wynika z abstrakcyjności
pojęć użytych do opisu zachowania,
sytuacji czy cech osobowych. Pozycja
ogólna zakłada konieczność
integracji informacji, uzupełniania jej
przez konkluzje, uogólniania
zachowań z różnych sytuacji czy
dokonania porównań z
niespecyficznymi standardami.

background image

Dostępność w doświadczeniu

- zalecenia

Procedura analizy typowości (także
przy adaptacji kulturowej).
Proces społeczny tworzenia pozycji.
Odwołanie do „ja” – zdania w
pierwszej osobie.
Analizy itemmetryczne.

background image

Analizy itemmetryczne

Identyfikacja pozycji źle
sformułowanych i ich poprawienie
albo usunięcie z puli.

Oceny na skalach ocen albo
wskazanie pozycji wadliwych.

Brak możliwości zbudowania pozycji
doskonałej, ale pozycje wadliwe
skutkują pogorszeniem
charakterystyki psychometrycznej.

background image

Opcje odpowiedzi

Problem opcji centralnej w formie
„nie wiem” , (?), „tak i nie”.

- Słaby status opcji centralnej :

1). odpowiedź osoby badanej oznacza, że jej
zachowanie zależy od sytuacji;
2). odpowiedź osoby badanej wynika z trudności w
ocenie własnego zachowania;
3). odpowiedź osoby badanej wskazuje, że nie
potrafiła ona jednoznacznie rozkodować treści
pozycji (pozycja jest niejasna);

background image

Opcje odpowiedzi

4). odpowiedź osoby badanej wskazuje, że
faktycznie ma przeciętne nasilenie cechy.

- Dwumodalne rozkłady odpowiedzi.

Format może być nieparzysty, ale
opcja pośrednia musi wskazywać na
umiarkowanie nasilenie cechy.

background image

Opcje odpowiedzi

Szerokość formatu:
wielokategorialne - dwukategorialne.

- Wady formatów dwukategorialnych:

1). Zmuszają do udzielenia zdecydowanej
odpowiedzi.
2). Nie gwarantują odpowiedniego zróżnicowania
odpowiedzi.

- Wady formatów wielokategorialnych:
1). Są trudne poznawczo, zwłaszcza dla o.b. gorzej
wykształconych.
2). Pozorne zróżnicowanie – tendencje do zawężania
formatu.

background image

Optymalna szerokość

formatu

„Magiczna” liczba Millera – górna
granica:
7 + 2 (5 – 9)

Ogółem: 4 - 7 opcji

Osoby badane o większych
zdolnościach:
5 – 7

Osoby badane o mniejszych
zdolnościach:
2 – 5

background image

Inne aspekty formatu

Zakotwiczenie skali: niemalże
wielkie kwantyfikatory.

Kierunek zakotwiczenia:
negatywny-pozytywny.

Wartości liczbowe wtórne
(podstawowe określenia słowne).

Ujednolicone dla wszystkich pozycji
(także w skali kontrolnej).

background image

Etap VI - ważenie pozycji lub

opcji odpowiedzi

Wagi zróżnicowane – krótkie
narzędzia, pozycje bardzo
zróżnicowane pod względem
charakterystyki psychometrycznej,
komplikacja obliczania wyniku
końcowego, wagi empiryczne, a nie -
teoretyczne.

Wagi pozycji równe oraz liniowo
rosnące wagi odpowiedzi
(zróżnicowanie wkładu pozycji do
wyniku końcowego).

background image

Etap VII

Etap VII - przygotowanie testu do

badań: przyjęcie nazwy testu,

zaopatrzenie go w instrukcję oraz

wprowadzenie losowej kolejności

pozycji w inwentarzach lub

uporządkowania ich według stopnia

trudności (wybór procedury

badania);

background image

Etap VIII – badania i analiza

psychometryczna

Cel - uzyskanie finalnej wersji

inwentarza: przeprowadzenie badań

listą pozycji i analiza

psychometryczna danych.

Przebieg badań – te same warunki i

to samo narzędzie co w badaniach

docelowych.

background image

Badania

Dobór próby:

Maksymalne zróżnicowanie

demograficzne (płeć, wiek,

wykształcenie, zawód, miejsce

zamieszkania, itp.).

Duża liczebność grupy (mnożnik 5 -

10 osób badanych na jedną pozycję

testową -„psychometria nie toleruje

małych prób”) – minimum 400-500

o.b.

Podział na grupy losowe: walidacja

krzyżowa.

background image

Przygotowanie do analizy

danych

Kodowanie danych – odpowiedzi

o.b.

Braki danych – bez korekty w fazie

wstępnej analizy psychometrycznej.

Braki danych - skale końcowe -

uzupełnianie przez średnią dla danej

osoby z pozostałych pozycji (inne:

średnia w skali lub losowe).

Dyskwalifikacja protokołów z

licznymi brakami danych – kryteria

(5%).

background image

Analiza psychometryczna

Kierunek: od podwymiarów do skal.

Walidacja krzyżowa.

Walidacja demograficzna (uwaga:
niwelowanie różnic
demograficznych).

„Mocna walidacja” – korygowanie
składu pozycji w aspekcie zbieżnym
lub różnicowym.

Opracowanie wersji końcowej skal.

background image

Analiza pozycji i pojęcie

mocy dyskryminacynej

Analiza pozycji - rodzaj analizy
psychometrycznej, który obejmuje
wskaźnik

trudności

pozycji,

moc

dyskryminacyjną

oraz

trafność

zewnętrzną

pozycji).

Moc dyskryminacyjna

- wskaźnik

stopnia, w jakim pozycja mierzy
cechę, którą mierzy cały test
(oceniana poprzez korelację pozycja-
skala).

background image

Pojęcie trudności i trafności

zewnętrznej pozycji

Trudność

pozycji - proporcja

odpowiedzi zgodnych z kluczem
(średnia pozycji w relacji do
możliwego maksymalnie wysokiego
wyniku).

Trafność zewnętrzna

pozycji -

wskaźnik stopnia, w jakim pozycja
mierzy kryterium pozatestowe
(oceniana poprzez korelację pozycja-
kryterium).

background image

Miary mocy

dyskryminacyjnej

Współczynnik korelacji dwuseryjnej
Współczynnik korelacji punktowo-
dwuseryjnej
Współczynnik korelacji punktowo-
czteropolowej
Skorygowany współczynnik
korelacji pozycja-skala

background image

Współczynnik korelacji

dwuseryjnej

(M

p

- M

q

)

---------------

S

r

bis

= -----------------------

(p q)

--------

y

background image

Współczynnik korelacji

dwuseryjnej

gdzie M

p

- to średnia wyników w skali tych

osób, które odpowiedziały na daną pozycję
zgodnie z kluczem, M

q

- to średnia wyników

w skali tych osób, które odpowiedziały na
daną pozycję niezgodnie z kluczem, S -
odchylenie standardowe wyników w całym
teście, p - to proporcja tych osób, które
odpowiedziały na daną pozycję zgodnie z
kluczem, q - to proporcja tych osób, które
odpowiedziały na daną pozycję niezgodnie
z kluczem, zaś y - to rzędna rozkładu
normalnego odpowiadająca proporcji p.

background image

Współczynnik korelacji

-punktowo dwuseryjnej

(M

p

- M

q

)

----------------

S

r

p-bis

= -------------------

(p q)

background image

Współczynnik korelacji

punktowo-dwuseryjnej

gdzie M

p

- to średnia wyników w skali tych

osób, które odpowiedziały na daną pozycję
zgodnie z kluczem, M

q

- to średnia wyników

w skali tych osób, które odpowiedziały na
daną pozycję niezgodnie z kluczem, S -
odchylenie standardowe wyników w całym
teście, p - to proporcja tych osób, które
odpowiedziały na daną pozycję zgodnie z
kluczem, q - to proporcja tych osób, które
odpowiedziały na daną pozycję niezgodnie
z kluczem.

background image

Współczynnik korelacji

punktowo-czteropolowej

(phi)

f

g

- f

d

phi = ------------
(p q)

background image

Współczynnik korelacji

punktowo-czteropolowej

gdzie f

g

- to proporcja osób w górnej

połowie próby, które odpowiedziały
na daną pozycję zgodnie z kluczem, f

d

- to proporcja osób w dolnej połowie
próby, które odpowiedziały na daną
pozycję zgodnie z kluczem, p - to
proporcja osób w całej próbie, które
odpowiedziały na daną pozycję
zgodnie z kluczem, q - to proporcja
tych osób, które odpowiedziały na
daną pozycję niezgodnie z kluczem.

background image

Miary trafności zewnętrznej

pozycji oraz treści

czynnikowej

Trafność zewnętrzna - korelacja z
kryterium (r-Pearsona albo korelacje
stosowane do oceny mocy
dyskryminacyjnej)

Analiza czynnikowa pozycji - ładunek
czynnikowy (korelacja pozycji z
czynnikiem) oraz wskaźniki
różnicowe:

W

r

= F

2

- (F

a

2

+ F

b

2

+ F

c

2

+ ... + F

z

2

)

background image

Miary trafności zewnętrznej

pozycji oraz treści

czynnikowej

gdzie W

r

- wynik różnicowy, F

2

-

ładunek na odpowiadającym pozycji
("własnym") czynniku, zaś F

a

2

, F

b

2

do

F

z

2

- ładunki na innych czynnikach (od

czynnika "A" do "Z").

background image

Teoria odpowiadania na

pozycje testowe - założenia

Odpowiedzi osoby badanej są

zmiennymi obserwowalnymi,
uwarunkowanymi przez cechę -
zmienną latentną;

odpowiedzi na poszczególne pozycje są

statystycznie niezależnie - ich
skorelowanie wynika z cechy;

związek między rozwiązaniem pozycji a

cechą może być opisany przez „krzywą
charakterystyczną pozycji”

background image

Parametry „krzywej

charakterystycznej”

Parametr „trudności”
Parametr mocy dyskryminacyjnej
Parametr „zgadywania”
Parametr „nieuważności”

Zwykle są stosowane model dwu-

parametryczne (wymagają

zastosowania nieliniowej regresji)

background image

0

0,2

0,4

0,6

0,8

1

-3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 3

Standaryzowany wynik w ca³ym teœcie (nasilenie mierzonej cechy)

P

ra

w

d

o

p

o

d

o

b

ie

ñ

st

w

o

r

o

zw

za

n

ia

d

a

n

e

j

p

o

zy

cj

i

Rycina 16. „Krzywa

charakterystyczna” pozycji

testowej

background image

Rycina 17. Różne formy „krzywej

charakterystycznej” pozycji

testowej

0

0,2

0,4

0,6

0,8

1

-3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 3

Wynik w ca³ym teœcie

P

ra

w

d

o

p

o

d

o

b

ie

ñ

st

w

o

r

o

zw

za

n

ia

d

a

n

e

j

p

o

zy

cj

i

background image

0

0,2

0,4

0,6

0,8

1

0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

Standaryzowany wynik w całym teście (nasilenie mierzonej cechy)

P

ra

w

d

o

p

o

d

o

b

ie

ń

st

w

o

r

o

zw

za

n

ia

d

an

ej

p

o

zy

cj

i

Rycina 17a. „Krzywa

charakterystyczna” pozycji testowej

nr 35 ze skali REM inwentarza FCZ-KT

background image

0

0,2

0,4

0,6

0,8

1

0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

Standaryzowany wynik w całym teście (nasilenie mierzonej cechy)

P

ra

w

d

o

p

o

d

o

b

ie

ń

st

w

o

r

o

zw

za

n

ia

d

an

ej

p

o

zy

cj

i

Rycina 17b. „Krzywa

charakterystyczna” pozycji testowej
nr 102 ze skali REM inwentarza FCZ-

KT

background image

Etap IX

Etap IX – analizy weryfikacyjne
finalnej wersji inwentarza: rzetelność
i trafność (te same oraz inne
aspekty).

Weryfikacja – bo inna skala (długość,
kompozycja pozycji).

background image

Analiza trafności i

rzetelności pomiaru

Zgodność wewnętrzna i stabilność
czasowa.

Różne aspekty trafności – zbieżna i
różnicowa.

Te same parametry w kilku grupach
– stabilność (niezmienniczość)
grupowa.

background image

Etap X

Etap X – normalizacja wyników testu
(skale standardowe o rozkładzie
normalnym, skale rangowe, punkty
odsiewowe wraz z obszarem
niepewności diagnozy).

background image

Etap X

Rodzaje norm:
(A) normy ogólne bez podziału ze względu na żadną
ze zmiennych demograficznych,
(B) normy dla danej kategorii zmiennej
demograficznej, ale bez podziału ze względu na inne
zmienne (np. dla wszystkich kobiet, bez podziału na
wiek),
(C) normy dla określonej kategorii kolejnej zmiennej
demograficznej, bez podziału na inne zmienne (np.
dla osób o danym wieku, bez podziału na płeć), itd.
(D) normy z zastosowaniem wszystkich zmiennych
demograficznych.

background image

Kwestie specyficzne norm

Badania praktyczne a naukowe
(normy A).

Wyznaczenie SBP oraz PU dla
wyników znormalizowanych.

Aktualizacja norm – normy
kroczące.

Aktualizacja norm – najdalej po 10
latach.

background image

Etap XI - XII

Etap XI - publikacja testu.

Etap XII - rewizja testu (po
maksimum 25 latach albo wcześniej
po stwierdzeniu ewidentnych wad
diagnostycznych).

background image

Wykład 11

CZYNNIKI

ZNIEKSZTAŁCAJĄCE WYNIKI

TESTOWE

background image

Czynniki zniekształcające

wyniki testowe

a). zgadywanie.
b). tendencja do udzielania
odpowiedzi społecznie aprobowanych
albo społecznie nie aprobowanych:
- tendencja do dysymulowania
(aprobata społeczna),

-tendencja do symulowania;
c). style odpowiadania

background image

Style odpowiadania

Style odpowiadania - tendencja
osoby badanej do wybierania
określonej opcji odpowiedzi
niezależnie od treści pozycji
kwestionariuszowej: tendencja do
zgadzania się albo zaprzeczania,
udzielania odpowiedzi ekstremalnych
albo centralnych (pośrednich),
udzielania odpowiedzi nieuważnych
lub niekonsekwentnych,

background image

Style odpowiadania

losowych (przypadkowych),
niezdecydowanych (opcje „?” lub
opuszczenia odpowiedzi),
produktywnych, impulsywnych,
pozornie oryginalnych,
konwencjonalnych oraz lateralizacji
(style graficzne).

background image

Style odpowiadania

Konieczne jest rozróżnienie tendencji
ogólnej (podatność narzędzia lub
procedury badania) oraz różnic
indywidualnych w stosowaniu stylu –
skale kontrolne badają różnice
indywidualne, wyjątkowo mogą być
zastosowane do analizy sytuacji
badania.

background image

Źródła stylów odpowiadania

Brak odpowiedniej motywacji osoby
badanej do wzięcia udziału w
badaniach lub poczucie zagrożenia
badaniem - styl odpowiadania wynika
z chęci ukrycia faktycznego obrazu
osobowości w „szumie
informacyjnym” odpowiedzi.
Własności pozycji oraz zastosowane
opcje odpowiedzi - niezrozumiałość
oraz niejasność pozycji oraz
nieadekwatność zastosowanego
formatu odpowiedzi.

background image

Zalecenia

Odpowiednie sformułowanie
językowe pozycji oraz właściwy
format odpowiedzi (eliminowanie
odpowiedzi pośrednich,
dostosowanie formatu do preferencji
osób badanych).
Zrównoważenie skali pod względem
klucza odpowiedzi (niezbędne do
zbudowania skal kontrolnych).

background image

Dysymulowanie

Dysymulowanie - tendencja osoby
badanej do przedstawiania się w
nieprawdziwie korzystnym świetle,
która wiązana jest ze zmienną
aprobaty społecznej (tendencją
osoby badanej do kierowania się
społecznym wartościowaniem
zachowania przy odpowiadaniu, co
prowadzi do zaprzeczania posiadania
cech społecznie niepożądanych oraz
przypisywania sobie cech społecznie
pożądanych).

background image

Aprobata społeczna

Aprobata społeczna jako

styl

odpowiadania

(czy inaczej postawa

wobec badania) to tendencja
jednostki do kierowania się przy
odpowiadaniu nie tyle faktycznym
zachowaniem, czy treścią pytania,
ale społeczną oceną, jaką pociąga za
sobą dana odpowiedź.

background image

Tendencja do dysymulowania

i aprobata społeczna c.d.

Aprobata jako

cecha

to tendencja

podmiotu do takiego modulowania

zachowania (każdego - testowego,

jak i realnego, pozatestowego), by

było ono zgodne ze społecznym

wartościowaniem - normami

społecznymi, akceptacją otoczenia.

background image

Zalecenia – unikanie

obciążenia

1). Pozycje neutralne.
2). Pozycje subtelne pod względem
trafności fasadowej.
3). Specjalne formułowanie językowe
pozycji – tzw. zdania zmodalizowane,
unikanie dużych kwantyfikatorów
czasu.
4). Zmiana procedury badania -
komputeryzacja lub wykorzystanie
szacowania cech.

background image

Zalecenia – identyfikacja

pozycji obciążonych

5). Aprobata społeczna jako zmienna
moderacyjna.
6). Analiza podatności pozycji przez
manipulowanie instrukcją („dobry”
profil).
7). Analizy itemmetryczne.
8). Korelacje pozycji ze skalami
mierzącymi aprobatę społeczną.
Identyfikacja pozycji obciążonych –
usunięcie albo przeformułowanie.

background image

Metody kontroli

(eliminowania) wpływu

aprobaty

Na etapie stosowania

kwestionariusza:

8). Instrukcja "szczerości",
9). Zmiana procedury badania -
komputeryzacja testu,

background image

Metody kontroli

(eliminowania) wpływu

aprobaty

10). Skala kontrolna aprobaty
społecznej, na podstawie której
odrzuca się respondentów o
wysokich wynikach lub koryguje
wyniki skal treściowych przez
doliczanie tzw. poprawek
korekcyjnych,
11). Wprowadzenie do diagnozy
psychologicznej szacowania cech.

background image

Dysymulacja i symulacja

Konieczne jest rozróżnienie tendencji
ogólnej (podatność narzędzia lub
procedury badania) oraz różnic
indywidualnych w dysymulowaniu czy
symulowaniu – skale kontrolne
badają różnice indywidualne,
wyjątkowo mogą być zastosowane do
analizy sytuacji badania.

background image

Symulowanie

Symulowanie – tendencja osoby
badanej do udzielania odpowiedzi,
bezpodstawnie przedstawiających
osobę badaną w niekorzystnym
świetle, np.
wskazujących na
istnienie określonych zaburzeń
zachowania czy niepożądanych cech
osobowości.

background image

Tendencja do symulowania

(c.d.)

Tendencja do symulowania jest
zarówno

postawą

wobec badania,

(styl odpowiadania, np."super-
szczerość"), jak trwałym syndromem

cech

osobowości, związanym z

tendencjami agrawacyjnymi,
obniżoną samooceną,
ekscentrycznością i zaburzeniami
psychicznymi. Kontrolowanie
tendencji do symulacji umożliwiają
specjalne skale kontrolne.

background image

Symulowanie

Zagrożenie pozytywną oceną,

Zagrożenie pozytywną oceną,

prowadzącą do wzbudzenia

prowadzącą do wzbudzenia

motywacji do unikania i dążenia do

motywacji do unikania i dążenia do

uzyskania diagnozy negatywnej.

uzyskania diagnozy negatywnej.

Pytania o nietypowe myśli,

Pytania o nietypowe myśli,

pragnienia, odczucia i wrażenia (wraz

pragnienia, odczucia i wrażenia (wraz

ze swoistym przejaskrawieniem czy

ze swoistym przejaskrawieniem czy

udziwnieniem form zachowania) oraz

udziwnieniem form zachowania) oraz

zachowania stanowiące

zachowania stanowiące

przekroczenie norm moralnych.

przekroczenie norm moralnych.

background image

Zalecenia – unikanie

obciążenia

Unikanie pytań o zachowania

Unikanie pytań o zachowania

regulowane społecznymi normami.

regulowane społecznymi normami.

Unikanie emfazy w formułowaniu

Unikanie emfazy w formułowaniu

treści pozycji.

treści pozycji.

background image

Zalecenia – identyfikacja

pozycji obciążonych

Tendencja do symulowania jako
zmienna moderacyjna.

Analiza podatności pozycji przez
manipulowanie instrukcją („zły”
profil).

Analizy itemmetryczne.

Korelacje pozycji ze skalami
mierzącymi tendencję do
dysymulowania.
Identyfikacja pozycji obciążonych –
usunięcie albo przeformułowanie.

background image

Skale kontrolne

Funkcja skal kontrolnych polega na

diagnozowaniu indywidualnych
stylów odpowiadania na pozycje
kwestionariuszowe, które są
ekspresją postaw wobec badania
inwentarzem osobowości. Postawy
te nie wiążą się treściowo z
badanymi cechami osobowości, ale
powodują zniekształcenie
uzyskiwanych wyników skal.

background image

Skale kontrolne

Czynniki te mogą być zatem

traktowane jako tzw. zmienne
„tłumiące” lub moderujące. Będą
one zatem prowadziły do obniżenia
wartości diagnostycznej inwentarza
- trafności pomiaru, a niekiedy
także i rzetelności pomiaru.

background image

Skale kontrolne

Rodzaje skal kontrolnych:
Dysymulacji, symulacji albo

dysymulacji-symulacji (cecha albo
styl albo cecha-styl, zależnie od
sytuacji) – specjalna motywacja
o.b.;

Skale do badania stylu

odpowiadania – brak motywacji o.b.
(odpowiedzi losowe, potakujące,
itd.).

background image

Skale kontrolne MMPI

Skala L była przeznaczona do diagnozowania

dysymulacji i została zbudowana z pozycji
opisujących zachowania społecznie pożądane, ale
występujące rzadko u przeciętnej osoby. Uważa
się, że diagnozuje ona tzw. naiwną tendencję do
dysymulowania. Skala K była przeznaczona do
diagnozowania tendencji do przedstawiania
„nadmiernie pozytywnego” obrazu siebie, ale
zbudowano ją kryterialnie, wyodrębniając pozycje
różnicujące grupę osób zdrowych oraz osób
chorych o „normalnym” profilu, które
podejrzewano zatem o dysymulację. Obu skalom
przypisywano funkcję zmiennych tłumiących, a
zatem prowadzących do uzyskania przez osobę
nieprawdziwie „normalnego” profilu.

background image

Skale kontrolne MMPI

Skala F miała wykrywać tendencję do udzielania

odpowiedzi nieuważnych i nieprzemyślanych.
Wybrano do niej pozycje, które były bardzo
rzadko potwierdzane w próbie normalizacyjnej.
Pozycje te miały jednak charakter kliniczny i
opisywały niezwykłe zachowania, z których każde
stawiało osobę badaną w niekorzystnym świetle.
Faktycznie zatem skala nieuważności zaczęła
pełnić rolę skali symulacji. Ostatnia skala badała
tendencję do wybierania odpowiedzi pośrednich
(„?”, czyli odpowiedzi „nie potrafię powiedzieć”).
Jej wyniki obliczono jako liczbę odpowiedzi
pośrednich na wszystkie pozycje MMPI. Miała ona
diagnozować styl odpowiadania, wynikający z
nadmiernej ostrożności czy niezdecydowania, a
prowadzący do obniżenia wyników skal
klinicznych.

background image

Skale kontrolne MMPI-II

II wersja MMPI zawiera aż 9 skal kontrolnych -

obok czterech tradycyjnych skal kontrolnych („?”,
L, F i K), wprowadzono aż pięć dalszych: VRIN,
TRIN, F(b), F(p) oraz S. Skala VRIN (Variable
Response Inconsistency
) pozwala na ocenę
zmienności odpowiedzi na zbiór, opozycyjnych w
treści, par pozycji – wysoki wynik w tej skali,
oznaczający udzielenie tej samej odpowiedzi na
oba stwierdzenia z każdej pary, pozwala na ocenę
niekonsekwencji odpowiadania. Z kolei skala TRIN
(True Response Inconsistency
) bazuje na liczbie
odpowiedzi konfirmacyjnych na oba stwierdzenia
pary i informuje o tendencji do zgadzania się,
podczas gdy liczba odpowiedzi negujących - o
tendencji do zaprzeczania.

background image

Skale kontrolne MMPI-II

Skala F(b) (Inpatient Psychopathology Scale)

została zbudowana na końcowych pozycjach
inwentarza MMPI-2 i – jako wariant skali F -
pozwala na ocenę losowości odpowiedzi,
następującej w efekcie zmęczenia i utraty
motywacji, przy wypełnianiu tego długiego
inwentarza. Z kolei skala F(p) (Inpatient
Psychopathology Scale
) bada tendencję do
symulowania u osób, wykazujących zaburzenia
psychiczne. Wreszcie skala S (Superlative Self-
Presentation Scale
) pozwala na ocenę bardziej
wyrafinowanej formy dysymulowania niż
tradycyjnie stosowana skala K wraz z pięcioma
szczegółowymi komponentami tej tendencji.

background image

Skale kontrolne 16 PF-V

W 5. edycji 16 PF wprowadzono trzy skale

kontrolne: aprobaty społecznej (w wersji skali do
badania „sprawiania wrażenia”), tendencji do
„zgadzania się” oraz tendencji do udzielania
„odpowiedzi przypadkowych” (ang. infrequency
).
Tendencja do udzielania „odpowiedzi
przypadkowych” („strzelania”) jest diagnozowana
na podstawie wybierania przez osobę badaną
szczególnie rzadko zaznaczanych w całej próbie
opcji odpowiedzi (z trójstopniowej skali) na pulę
pozycji treściowych (zliczana jest suma
wybranych takich opcji w puli różnorodnych
pozycji). Tendencja do „zgadzania się” jest
oceniana na podstawie wybierania przez osobę
badaną odpowiedzi potwierdzających na pozycje
wybrane z różnych skal treściowych (zliczana jest
suma odpowiedzi potakujących na pulę
zróżnicowanych treściowo pozycji).

background image

Skale kontrolne 16 PF-V

Skala aprobaty zawiera pozycje, które nie są

włączane do skal treściowych i diagnozuje
uogólnioną tendencję do kierowania się aprobatą
społeczną przy odpowiadaniu. Godnym uwagi jest
także fakt, że w 5. edycji 16PF zmieniono nieco
status skali rozumowania (B). Pozycje z tej skali
zamieszczone są na końcu inwentarza, a sama
skala staje się do pewnego stopnia skalą
kontrolną. Służy ona nadal do oceny zdolności i
jej wyniki są uwzględniane w profilu cech, tak jak
w wersji pierwotnej. Jednocześnie jednak -
poprzez badanie sprawności rozumowania na
końcu kwestionariusza - informuje o zasobach
uwagi, którymi dysponowała osoba badana po
męczącej i długotrwałej pracy, związanej z
wypełnieniem 16PF.

background image

Zgadywanie - definicja

Zgadywanie

jest specyficznym

czynnikiem zniekształcającym wyniki
testów zdolności, związanym z
udzielaniem odpowiedzi losowych,
gdy badani nie znają właściwych
odpowiedzi

(„jak nie wiem, to będę

strzelał”)

.

background image

Kontrolowanie zgadywania

a). poprzez instrukcję testową:
wyrównywanie tendencji do
zgadywania (zachęcanie do
zgadywania) lub eliminowanie
zgadywania (informacja o stosowaniu
korekty wyników);

background image

Kontrolowanie zgadywania

b). zastosowanie statystycznej
poprawki na zgadywanie:

B
K = P - ---------
m - 1

gdzie K - liczba odpowiedzi bez
zgadywania, P - liczba poprawnych
odpowiedzi w teście, B - liczba błędnych
odpowiedzi, m - liczba opcji odpowiedzi w
zadaniach testowych.

background image

Wykład 12

STRATEGIE KULTUROWEJ

ADAPTACJI TESTÓW

background image

Kulturowa adaptacji testów

Kulturowa adaptacja testu

-

przystosowanie wersji oryginalnej

testu do innej specyfiki kulturowej.

Adaptacja testu oznacza konieczność

wprowadzenia specjalnych procedur

przystosowujących (decentrujących -

uniwersalizujących lub centrujących

na kulturze adaptacji), w przeciwnym

razie stosowanie takiego narzędzia

prowadzi nieuchronnie do

stronniczości lub faworyzacji

kulturowej.

background image

Aspekty równoważności

kulturowo adaptowanych

testów

Aspekty równoważności kulturowej
testu:

a). równoważność teorii
psychologicznych,
b). równoważność wymiarów
psychologicznych
c). równoważność pojęć
psychologicznych,
d). równoważność wskaźników cech -
zachowań,
e). równoważność procedury
badania.

background image

Kryteria równoważności

kulturowowo adaptowanych

testów

Kryteria równoważności testu:

a). równoważność fasadowa (forma
testu),
b). równoważność psychometryczna
(wskaźniki dobroci pomiaru),
c). równoważność funkcjonalna
(równoważność psychologiczna),
d). wierność tłumaczenia,
e). wierność rekonstrukcji.

background image

Strategie kulturowej adaptacji

testów

Transkrypcja
Translacja
Trawestacja
Parafraza
Rekonstrukcja

background image

Trankskrypcja

Transkrypcja

- maksymalnie wierne

tłumaczenie oryginalnych pozycji
(założenie, że zarówno konstrukty,
jak i zachowania są uniwersalne czy
inaczej równoważne kulturowo).
Celem adaptacji jest dochowanie
wierności tłumaczenia oraz wierności
fasadowej testu. Adaptacje
transkrypcyjne są "niezręczne"
językowo i wykazują szereg wad
psychometrycznych.

background image

Translacja

Translacja

- wierne tłumaczenie

finalnej puli oryginalnych pozycji, ale
z możliwością wprowadzenia
niezbędnych modyfikacji językowych
(założenie, że konstrukty, jak i
zachowania są uniwersalne
kulturowo, ale nie są uniwersalne
pojęcia używane w danej kulturze do
opisu zachowania).

background image

Trawestacja

Trawestacja

- swobodne tłumaczenie

oryginału z wprowadzaniem wielu
modyfikacji, sugerowanych
względami językowymi i
psychologicznymi: treściowymi lub
psychometrycznymi (założenie, że
konstrukty psychologiczne są
uniwersalne, ale nie są uniwersalne
pojęcia

background image

Trawestacja (c.d.)

używane w danej kulturze do opisu
zachowania i nie zawsze uniwersalne
są same zachowania - część
zachowań ma charakter emikalny).
Trawestacja prowadzi do uzyskania
dostosowanych do danej kultury
formy testu, ale może się on różnić
od oryginału.

background image

Parafraza

Parafraza

- opracowanie nowego

narzędzia, dla którego inspiracją jest
test oryginalny. Pozycje oryginalne
są wykorzystywane tylko częściowo,
większość pozycji jest generowana
na bazie pozycji oryginalnych
(założenie, że konstrukty
psychologiczne są uniwersalne
kulturowo, ale z reguły nie są
uniwersalne zachowania - tylko część
z nich

background image

Parafraza (c.d.)

ma charakter etikalny, tj.
równoważny kulturowo.
Parafraza jest bardzo czasochłonna,
ale prowadzi do uzyskania w pełni
dostosowanych do danej kultury
adaptacji testu.

background image

Rekonstrukcja

Rekonstrukcja

- opracowanie

całkowicie nowego narzędzia, dla
którego inspiracją jest oryginalny
model teoretyczny i strategia
konstrukcji (założenie, że zachowania
z reguły nie są uniwersalne
kulturowo, ale możliwe że nie są
uniwersalne również konstrukty
psychologiczne).

background image

Rekonstrukcja (c.d.)

Rekonstrukcja może prowadzić do
uzyskania innej niż oryginalna wersji
testu i jest najbardziej czasochłonną
strategią adaptacji, ale prowadzi do
uzyskania całkowicie dostosowanych
kulturowo wersji testu.

background image

Adaptacja demograficzna

testów

Adaptacja demograficzna

-

przystosowanie testu
przeznaczonego do badania
określonej grupy do stosowania w
innej grupie demograficznej.
Adaptacja demograficzna testu, tak
jak adaptacja kulturowa, oznacza
konieczność wprowadzenia
specjalnych procedur
przystosowujących

background image

Adaptacja demograficzna

testów

(decentrujących - uniwersalizujących
lub centrujących na kulturze danej
grupy), w przeciwnym razie
stosowanie testu prowadzi
nieuchronnie do stronniczości lub
faworyzacji demograficznej (np.
seksizmu).

background image

Aspekty adaptacji

demograficznej testów

Płeć
Wiek
Niepełnosprawność
Rasa
Klasa społeczna (status społeczno-
ekonomiczny)?
Środowisko
Podkultura?

background image

Wykład 13

NORMALIZACJA WYNIKÓW TESTU

background image

Normy

Normy testowe są niezbędne dla

poprawnej interpretacji wyników
testu. Wynik surowy jest
nieinterpretowalny bez informacji o
wynikach, otrzymanych przez osoby
badane z odpowiedniej grupy
odniesienia. Są dwa rodzaje norm:
wyniki progowe (pomiędzy grupami
kontrastowymi) oraz normy
bazujące na rozkładzie wyników
testu (w grupie odniesienia –
normalizacyjnej).

background image

Wyniki progowe

Wyniki progowe (punkty

odsiewowe) są stosowane w
podejściu zorientowanym na
trafność kryterialną. Celem tych
norm jest uzyskanie diagnozy
jakościowej – klasyfikacji osób
badanych do jednej z dwóch (czy
kilku) grup, skontrastowanych ze
względu na określone kryterium.
Punkty odsiewowe służą jako
norma dla wyników testu –
wskazują co oznacza wysoki i niski
wynik testu.

background image

Ryc. 33. Grupy kontrastowe

oraz punkty odsiewowe

Punkt odsiewowy

background image

Wynik progowy

Wynik progowy jest zazwyczaj

wyrażany w formie, przykładowo

„10/11” (najwyższy wynik w jednej

grupie/najniższy wynik w drugiej

grupie). Wynik progowy jest

uzyskiwany poprzez krzywoliniową

regresję jako punkt pozwalający na

najlepsze zróżnicowanie obu grup:

poniżej tego wyniku osoba badana

ma mniej niż 50% szans, że należy

do jednej grupy, zaś powyżej, że ma

powyżej 50% szans na

przynależność do drugiej grupy.

background image

Ryc. 34. Krzywoliniowa relacja między wynikami

testu a prawdopodobieństwem przynależności do

danej „grupy kontrastowej”.

Wynik

progow

y

background image

Wskaźniki trafności diagnozy

na podstawie progów

odsiewowych

Diagnoza bazująca na progach

odsiewowych powinna także być

poddana walidacji: odsetek

trafnych i błędnych diagnoz

powinien być obliczony oraz szereg

wskaźników trafności diagnozy

(wrażliwość, specyficzność,

pozytywna i negatywna wartość

predykcyjna oraz ogólny wskaźnik

błędnych klasyfikacji).

background image

Rodzaje diagnoz

Wskaźniki te wylicza się na

podstawie liczby diagnoz

„prawdziwie negatywnych” (osoby

zdrowe zdiagnozowane jako

zdrowe), „prawdziwie

pozytywnych” (osoby chore

zdiagnozowane jako chore),

„fałszywie pozytywnych” (osoby

zdrowe zdiagnozowane jako chore)

oraz „fałszywie negatywnych”

(osoby chore zdiagnozowane jako

zdrowe).

background image

Tabela 17. Rodzaje diagnoz kryterialnych

Diagnoza medyczna

„Zdrowy”

„Chory”


Wynik

Poniżej

progu

„A”

(diagnoza

fałszywie

pozytywna)

„B”

(diagnoza

prawdziwie

pozytywna)

testu

Powyżej

progu

„C”

(diagnoza

prawdziwie

negatywna)

„D”

(diagnoza

fałszywie

negatywna)

background image

Rodzaje wskaźników

Ogólny wskaźnik błędnych

klasyfikacji: liczba diagnoz

fałszywych w stosunku do ogólnej

liczby osób badanych (czyli

A+D/A+B+C+D);

background image

Rodzaje wskaźników

Wskaźnik specyficzności czy inaczej

swoistości: proporcja osób z

„dolnej” grupy kontrastowej

poprawnie zakwalifikowanych na

postawie wyników inwentarza do

ogółu osób z tej grupy, np. liczba

osób zdrowych trafnie ocenionych

jako zdrowe w stosunku do ogólnej

liczby zdrowych (czyli C/A+C);

background image

Rodzaje wskaźników

Wskaźnik wrażliwości czy inaczej

czułości: proporcja osób z „górnej”

grupy kontrastowej poprawnie

zakwalifikowanych na postawie

wyników inwentarza do ogółu osób

z tej grupy kontrastowej, np. liczba

osób chorych trafnie ocenionych

jako chore w stosunku do ogólnej

liczby osób chorych (czyli B/B+D);

background image

Rodzaje wskaźników

Wskaźnik pozytywnej wartości

predykcyjnej: proporcja osób z

„górnej” grupy kontrastowej

poprawnie zakwalifikowanych na

postawie wyników inwentarza do

ogółu osób zakwalifikowanych do

tej grupy na podstawie inwentarza,

np. liczba osób chorych trafnie

ocenionych jako chore w stosunku

do ogólnej liczby osób ocenionych

jako chore na podstawie inwentarza

(czyli B/A+B).

background image

Rodzaje wskaźników

Wskaźnik negatywnej wartości

predykcyjnej: proporcja osób z

„dolnej” grupy kontrastowej

poprawnie zakwalifikowanych na

postawie wyników inwentarza w

stosunku do ogółu osób

zakwalifikowanych do tej grupy na

podstawie inwentarza, np. liczba

osób zdrowych trafnie ocenionych

jako zdrowe w stosunku do ogólnej

liczby osób ocenionych jako zdrowe

na podstawie inwentarza (czyli

C/C+D).

background image

Ocena wskaźników

Wskaźniki te wskazują w jakim

obszarze diagnozy test wykazuje

obniżoną trafność, np. może dobrze

diagnozować osoby zdrowe o

niskich wynikach, ale „mylić” się w

obszarze wyników wysokich,

typowych dla osób chorych (ale

uzyskiwanych często także przez

osoby zdrowe). Efekty te zależą od

charakterystyki rozkładu wyników

w obu grupach kryterialnych.

background image

Ryc. 34. Odmienny rozkład

wyników w grupach

kontrastowych

0

0,25

0,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1

1,5

2

2,5

3

Punkt odsiewowy

background image

Konsekwencje zmiany progu

W celu poprawy danego wskaźnika

wyniki progowe można przesuwać

w stronę wysokich wyników testu

(obniżenie liczby diagnoz fałszywie

pozytywnych) lub w stronę

wyników niskich (obniżenie liczby

diagnoz fałszywie negatywnych).

Podjęcie takiej decyzji zależy od

konsekwencji błędu danego

rodzaju. Należy jednak pamiętać, że

w każdym wypadku pogarsza się

wtedy wskaźnik odwrotny.

background image

Normy bazujące na

rozkładzie wyników testu

Celem norm opartych na rozkładzie

wyników w grupie normalizacyjnej

jest uzyskanie diagnozy ilościowej –

ocena intensywności mierzonej

cechy (jako własności różnicowej w

grupie odniesienia). Istnieją dwa

rodzaje norm: normy rangowe

(porządkowa skala pomiarowa) oraz

skale standaryzowane

(przedziałowa skala pomiarowa).

background image

Normy rangowe: skala

centylowa

Skala centylowa jest wybierana,

gdy rozkład wyników testu znacznie

odbiega od rozkładu normalnego

(rozkład jest asymetryczny, ma

nieprawidłową gęstość i nie może

być przetransformowany w rozkład

normalny). Punktem odniesienia

(standardem wykonania testu) jest

mediana – centyle wskazują na

częstość uzyskania danego wyniku

w grupie normalizacyjnej.

background image

Charakterystyka skali

centylowej

Rozkład po transformacji wyników surowych =
prostokątny („uskokowniony”)
Mediana = 50
Liczba jednostek skali = 101 centyli
Zakres = od 0 do 100 centyla
Skok skali = 1 centyl (1% wyników, poza centylami
krańcowymi - 0 oraz 100, które obejmują po 0,5%
obserwacji)

background image

Zalety i wady skali

centylowej

Zaleta:

Łatwość zrozumienia znaczenia

wyniku, zwłaszcza dla osób
badanych.

Wada:

Centyle prowadzą do

nadszacowania różnic
interindywidualnych w obszarze
blisko średniej oraz
niedoszacowania zmienności na
krańcach rozkładu (zaburzają ocenę
faktycznej zmienności).

background image

Skale standardowe bazujące

na rozkładzie normalnym

Normy wyników testu bazujące na

rozkładzie normalnym wymagają
transformacji wyników surowych na
skale standardowe. Skale te
umożliwiają osiągnięcie
zasadniczego celu pomiaru
psychologicznego: ilościowej oceny
na skali przedziałowej (wiele
kategorii wyników oraz równe
różnice między nimi dla całego
wymiaru).

background image

Cel transformacji wyników

surowych na skale

standardowe

Poprawna interpretacja wyniku

indywidualnego (ocena
intensywności cechy);

Porównania różnic

intraindywidualnych w wynikach
testu (intensywność różnych cech u
jednej osoby badanej);

Porównania różnic

interindywidualnych w wynikach
testu (intensywność danej cechy u
różnych osób badanych).

background image

Rodzaje skal standardowych

a). Znormalizowana skala ciągła – jednostki
"z
",
b). znormalizowane skale uskokowione:
dzielące rozkład wg średniej
(-) skala stenowa
obejmujące wartość średniej
(-) skala staninowa
(-) skala tetronowa
(-) skala wyników przeliczonych (WAIS-
R)
(-) skala tenowa
(-) skala dewiacyjnego ilorazu
inteligencji

background image

Skala jednostek

znormalizowanychz

Rozkład po transformacji wyników surowych =
normalny („ciągły”)
Średnia = 0,0
Odchylenie standardowe = 1,0
Skok skali = praktycznie 0,01
Różnicowanie = dowolny zakres
Przeznaczenie = skala podstawowa, stanowiąca
punkt wyjścia do transformacji wyników surowych
na inne skale znormalizowane

background image

Formuła transformacyjna

y = zS

y

+ M

y

gdzie y - wynik w znormalizowanej
skali standardowej, z -
znormalizowany wynik standardowy,
S

y

- odchylenie standardowe danej

skali standardowej, M

y

- średnia

wyników danej skali standardowej)

background image

Skala stenowa

Rozkład po transformacji wyników surowych =
normalny („uskokowiony”)
Średnia = 5,5 (między 5 a 6 stenem)
Odchylenie standardowe = 2,0
Liczba jednostek skali = 10 stenów
Zakres = od 1 do 10 stena
Skok skali = 1 sten (0,5 odchylenia standardowego
jednostek znormalizowanych „z”)
Różnicowanie = wartości od -2 do +2 jednostek
znormalizowanych „z” (steny krańcowe powyżej 2
S)
Przeznaczenie = różnicowanie w obrębie „normy”

background image

Skala staninowa

Rozkład po transformacji wyników surowych =
normalny („uskokowiony”)
Średnia = 5,0 (obejmuje średnią)
Odchylenie standardowe = 2,0
Liczba jednostek skali = 9 stanin
Zakres = od 1 do 9 stanina
Skok skali = 1 stanin (0,5 odchylenia
standardowego jednostek znormalizowanych „z”)
Różnicowanie = wartości od -1,75 do +1,75
jednostek znormalizowanych „z” (staniny krańcowe
powyżej 1,75 S)
Przeznaczenie = różnicowanie w obrębie „normy”

background image

Skala tetronowa

Rozkład po transformacji wyników surowych =
normalny („uskokowiony”)
Średnia = 10,0 (obejmuje średnią)
Odchylenie standardowe = 4,0
Liczba jednostek skali = 21 tetronów
Zakres = od 0 do 20 tetrona
Skok skali = 1 tetron (0,25 odchylenia
standardowego jednostek znormalizowanych „z”)
Różnicowanie = wartości od -2,325 do +2,325
jednostek znormalizowanych „z” (tetrony krańcowe
powyżej 2,325 S)
Przeznaczenie = różnicowanie w obrębie „normy” i
„patologii”

background image

Skala tenowa

Rozkład po transformacji wyników surowych =
normalny („uskokowiony”)
Średnia = 50 (obejmuje średnią)
Odchylenie standardowe = 10,0
Liczba jednostek skali = 100 tenów
Zakres = od 1 do 100 tena
Skok skali = 1 ten (0,1 odchylenia standardowego
jednostek znormalizowanych „z”)
Różnicowanie = wartości od -5 do +5 jednostek
znormalizowanych „z” (teny krańcowe powyżej 5 S)
Przeznaczenie = różnicowanie w obrębie „normy’ i
„patologii”

background image

Skala dewiacyjnego ilorazu

inteligencji

Rozkład po transformacji wyników surowych =
normalny („uskokowiony”)
Średnia = 100,0 (obejmuje średnią)
Odchylenie standardowe = 15,0
Liczba jednostek skali = 200 jednostek II
Zakres = od 0 do 200 jednostek II
Skok skali = jednostka II (1/15 odchylenia
standardowego jednostek znormalizowanych „z”)
Różnicowanie = wartości praktycznie od -6 do +6
jednostek znormalizowanych „z” (jednostki
krańcowe powyżej 6 S)
Przeznaczenie = różnicowanie w obrębie „normy” i
„patologii”

background image

Kryteria wyboru danej skali

normalizacyjnej

Kształt rozkładu wyników surowych
(reguła: rozkłady skośne - skale
prostokątne)
Liczba stopni skali w stosunku do zakresu
rozkładu wyników surowych (reguła: 1 do 2
lub 3)
Rzetelność pomiaru i wielkość
standardowego błędu pomiaru (reguła: gdy
SBP duże - raczej skala o mniejszej liczbie
wartości);
Przeznaczenie - różnicowanie w obrębie
„normy” czy „patologii” (reguła:
różnicowanie w obrębie „patologii” - skala
o większym zakresie)

background image

Wynik
su-
rowy

Frek-

wencja

Frek-

wencja

skumiulo

wana

Frekwencja

skumulowana z

wiersza poniżej

+ 1/2 frekwencji

z danego

wiersza

Propor-

cja (p)

J ed-

nostka

“z”

2z + M

(M=5.0)

Wynik

sta-

ninowy

0

4

4

2,5

0,003

-2,801

-0,602

1

1

6

10

7,5

0,009

-2,385

0,230

1

2

7

17

14,0

0,017

-2,136

0,728

1

3

20

37

27,5

0,033

-1,845

1,310

1

4

22

59

48,5

0,058

-1,574

1,852

2

5

26

85

72,5

0,087

-1,363

2,274

2

6

25

110

98,0

0,118

-1,190

2,620

3

7

31

141

126,0

0,151

-1,034

2,932

3

8

37

178

160,0

0,192

-0,873

3,254

3

Tabela 18. Normy staninowe dla skali Reaktywności emocjonalnej

Inwentarza FCZ-KT (kobiety w wieku 15-19 lat; N=834).

background image

9

38

216

197,5

0,237

-0,718

3,564

4

10

69

285

251,0

0,301

-0,523

3,954

4

11

56

341

313,5

0,376

-0,318

4,364

4

12

72

413

377,5

0,453

-0,121

4,758

5

13

70

483

448,5

0,538

0,093

5,186

5

14

77

560

522,0

0,626

0,319

5,638

6

15

81

541

601,0

0,721

0,583

6,166

6

16

57

698

670,0

0,803

0,851

6,702

7

17

56

754

726,5

0,871

1,128

7,256

7

18

45

799

776,5

0,931

1,483

7,966

8

19

22

821

810,5

0,972

1,897

8,794

9

20

13

834

828,0

0,993

2,412

9,824

9

Tabela 19 – c.d.

background image

Wynik surowy

Stanin

0-3

1

4-5

2

6-8

3

9-11

4

12-13

5

14-15

6

16-17

7

18

8

19-20

9

Tabela 20. Tabela norm staninowych dla kobiet w wieku 15-19 lat.

background image

Interpretacja nasilenia cechy

bazująca na staninach

Staniny od 4 do 6 (przeciętne

nasilenie – wynik w normie);

Staniny od 2 do 3 (niskie nasilenie)

oraz od 7 do 8 (wysokie nasilenie);

Stanin 1 (bardzo niskie nasilenie)

oraz stanin 9 (bardzo wysokie
nasilenie).

background image

Interpretacja wyników

różnicowych testu

Nasilenie cechy, wyrażonej w

wynikach testu jest proporcjonalne
do wielkości odbiegania go od
średniej (punktu odniesienia, czy
inaczej standardu wykonania) oraz
częstości (wynik częsty = typowy,
wynik rzadki = ekstremalny). Im
bardziej odchylony i rzadko
spotykany jest dany wynik, tym
większe (lub mniejsze) nasilenie
badanej cechy.

background image

Kwestie specjalne norm

Normy generalne czy lokalne

(poradnictwo i dobór);

Aktualizacja norm i normy

„kroczące” (liczebność grupy
normalizacyjnej, trendy
uzyskiwanych wyników);

Normy dla wszystkich i odrębne

normy dla grup demograficznych
(kryteria – analiza demograficznej
stronniczości wyników testu).

background image

Zagadnienie specjalne -

normy aktuarialne

Normy aktuarialne

to

normy, w które zostały
wbudowane dane
trafnościowe

background image

Wykład 14

INTERPRETACJA WYNIKÓW

TESTOWYCH I ZASADY

KORZYSTANIA Z

PODRĘCZNIKÓW TESTOWYCH

background image

Interpretacja wyników testu

Interpretacja oznacza, że na

podstawie wyników testu
formułowane są wnioski
psychologiczne – wynikom testu
przypisywany jest sens
psychologiczny.

Interpretacja wyników testu jest

ściśle związana z trafnością
pomiaru – odnosi się do trafności
teoretycznej i/lub trafności
kryterialnej.

background image

Interpretacja wyników testu

Interpretacja może dotyczyć opisu

zachowania osoby badanej
(struktury cech osobowości czy
zdolności intelektualnych) i/lub
przewidywania zachowania w
warunkach pozatestowych
(funkcjonowania w realnych
warunakch życiowych). Wszystkie
te wnioski (interpretacje) bazują na
danych otrzymanych w procesie
walidacji testu.

background image

Interpretacja wyników testu

Interpretacja może być trafna

jedynie jeśli nasilenie cechy zostało
prawidłowo oszacowane – oznacza
to, że punktem wyjścia diagnozy
psychologicznej jest ocena wyniku
prawdziwego osoby badanej
poprzez wyznaczenie
odpowiedniego przedziału ufności.

background image

Rodzaje interpretacji

wyników testowych

Interpretacja kliniczna

Interpretacja statystyczna

background image

Interpretacja kliniczna

Zakłada interpretację profilu

testowego na podstawie treści

psychologicznej poszczególnych skal i

agregację tej treści poprzez ustalenie

sensu danej konfiguracji cech.

Interpretacja kliniczna wiąże się z

idiograficznym podejściem do

diagnostyki psychologicznej i w jej

efekcie formułowane są wnioski raczej

jakościowe niż ilościowe, a jeśli

ilościowe - to są one mało precyzyjne.

background image

Interpretacja statystyczna

Zakłada raczej mechaniczne łączenie

skal, poprzez tworzenie agregatów nie

tyle psychologicznych, ile

statystycznych, np. poprzez tworzenie

baterii testów predykcyjnych

określonego kryterium (stanu zdrowia

psychicznego, powodzenia zawodowego,

itp.). Dla każdego z tych wskaźników

możliwe jest określenie pewności

wnioskowania czy dokładności diagnozy.

Interpretacja statystyczna

background image

Interpretacja statystyczna

wymaga sformalizowania procesu

wnioskowania na podstawie

uzyskanych danych. Wiąże się ona z

nomotetycznym podejściem do

diagnostyki psychologicznej i

dostarcza przede wszystkim

wyników ilościowych.

background image

Interpretacja kliniczna a

interpretacja statystyczna

Predykcja zachowania jednostki jest

bardziej trafna przy podejściu
statystycznym niż klinicznym.
Podejście statystyczne jest jednak
krytykowane za mechaniczność
analizy danych i sprowadzenie udziału
psychologa w diagnozie do roli
“technika” rozdzielającego testy,
obliczającego ich

background image

Interpretacja kliniczna a

interpretacja statystyczna

wyniki i odczytującego ich

znaczenie z tabel aktuarialnych. Z
tych względów postuluje się
łączenie obu podejść albo
akcentuje się konieczność
wypracowania nowych modeli
diagnostycznych.

background image

Struktura podręcznika

testowego

prezentacja teoretycznych podstaw

testu;

opis procedury konstrukcji
dane, ilustrujące rzetelność i trafność

pomiaru (wraz z charakterystyką orób);

procedura praktycznego stosowania

testu i obliczania wyników;

procedura interpretacji wyników testu;
tabele normalizacyjne.

background image

Co musi zawierać podręcznik

testowy?

Podręcznik musi zawierać precyzyjny

opis testu: jego przeznaczenie,

wskazówki dotyczące procedury

badania testem i obliczania wyników,

pełne dane ilustrujące charakterystykę

psychometryczną, opis procedury

normalizacji oraz normy, precyzować

zasady interpretacji oraz zawierać

informację o możliwej stronniczości

czy ograniczeniach stosowania testu.


Document Outline


Wyszukiwarka

Podobne podstrony:
PPP2
ppp2
pytania na PPP2, ciekawostki II roku
Wyższe formy percepcji, Psychologia- jednolite magisterskie, Wyższe Procesy Poznawcze PPP2
Zasady PPP2 2009 M[1].Gut, Psychologia, II rok, Wyższe procesy poznawcze - ćwiczenia - Gut
w-3. Specyfika poZnania intuicyjnego, Psychologia- jednolite magisterskie, Wyższe Procesy Poznawcze
PPP2 Um o prace na czas nieokresl 01 , Umowa_o_prace_na_czas_nieokreslony
ppp2
Paradoksy i sofizmaty, ★ Studia, Psychologia, PPP2
PPP2 zakres wszystko!, psychologia wsfiz
PPP2 materiały, PSYCHOLOGIA I rok II semestr, PODSTAWOWE PROCESY POZNAWCZE
Program PPP2, Procesy poznawcze, Psychologia procesów poznawczych
PPP2
PPP2( wiczenia)- ciga, slajdy i moje notatki z wykładów - podział wg przedmiotów
PPP2 str 20-40 kpl, ★ Studia, Psychologia, PPP2
PPP2 zakres wszystko!
PPP2 ćwiczenia - Język(1), pedagogika

więcej podobnych podstron