BOGDAN ZAWADZKI

PODSTAWY POMIARU

PSYCHOMETRYCZNEG

Program wykładu

Wykład 1. Test jako narzędzie

diagnozy psychologicznej –
podstawowe pojęcia.

Wykład 2. Rodzaje testów

psychologicznych.

Wykład 3. Diagnoza psychologiczna

za pomocą testów – aspekt
psychologiczny, metodologiczny,
psychometryczny i etyczny.

Program wykładu

Wykład 4. Pomiar różnicowy w

psychologii – podstawowe założenia.

Wykład 5-6. Rzetelność pomiaru testem

– podstawy teorii rzetelności testów
psychologicznych w ujęciu klasycznej
teorii testów i metody szacowania.

Wykład 7-8. Trafność pomiaru testem:

pojęcie trafności pomiaru i rodzaje
trafności.

Program wykładu

Wykład 9-10. Podstawowe

problemy konstruowania testów:
strategie konstruowania testów i
procedura konstrukcji testów.

Wykład 11. Czynniki

zniekształcające wyniki testowe.

Wykład 12. Podstawowe problemy

kulturowej adaptacji testów.

Program wykładu

Wykład 13. Normalizacja wyników

testu.

Wykład 14. Interpretacja wyników

testowych.

Wykład 15. Użyteczność

standardwych metod diagnostycznych
w praktyce psychologicznej – wyniki
metaanaliz dotyczące wybranych
metod oraz podsumowanie wykładów.

Literatura wprowadzająca

 Ciechanowicz, A., Jaworowska, A. i Szustrowa,

T. (1996). Testy Prawo Praktyka. Warszawa:
Pracownia Testów Psychologicznych PTP.

 Zawadzki, B. i Hornowska, E. (2008).

Psychometria. Konstrukcja i adaptacja testów
psychologicznych. W: J. Strelau i D. Doliński
Brzeziński (red.), Psychologia. Podręcznik
akademicki (s. 847-893). Gdańsk: Gdańskie
Wydawnictwo Psychologiczne.

Literatura obowiązkowa

Hornowska, E. (2001). Testy

psychologiczne. Teoria i praktyka.
Warszawa: Wydawnictwo Naukowe Scholar.

Hornowska, E., Paluchowski, W. J. (2004).

Kulturowa adaptacja testów
psychologicznych. W: J. Brzeziński (red.),
Metodologia badań psychologicznych.
Wybór tekstów (s. 151-191). Warszawa:
Wydawnictwo Naukowe PWN.

Literatura uzupełniająca

 Anastasi, A i Urbina, S. (1999). Testy

psychologiczne. Warszawa: Pracownia Testów
Psychologicznych PTP.

 Brzeziński, J. (2005)(red.). Trafność i rzetelność

testów psychologicznych. Wybór tekstów.
Gdańsk: Gdańskie Wydawnictwo
Psychologiczne.

 Magnusson, D. (1981). Wprowadzenie do teorii

testów. Warszawa: PWN (rozdz. 5-11,14-16).

Literatura uzupełniająca

 Murphy, K. R. i Davidshofer, C. O. (2005).

Psychological testing. Principles and applications
(VI International edition). Upper Saddle River,
N.J.: Prentice-Hall, Inc.

 Zawadzki, B. (2002). Temperament - geny i

środowisko. Porównania wewnątrz – i
międzypopulacyjne. Gdańsk: GWP (rozdz. 3).

 Zawadzki, B. (2006). Kwestionariusze

osobowości: strategie i procedura konstruowania.
Warszawa: Wydawnictwo Naukowe Scholar.

Wykład 1

DIAGNOZA PSYCHOLOGICZNA

ZA POMOCĄ TESTÓW

STANDARDOWYCH:

PODSTAWOWE POJĘCIA

Metody badawcze w

psychologii

Metody eksperymentalne

Metody diagnostyczne

Podstawowy schemat

badawczy dla wszystkich

metod

B – R

B - (bodziec = zmienna/zmienne

niezależne)

R (reakcja = zmienna zależna)

Schemat badawczy metod

eksperymentalnych

 Zmienna niezależna główna różni się

dla poszczególnych osób (grup

badawczych).

 Inne zmienne niezależne są

identyczne dla wszystkich osób

badanych (lub rozkładają się losowo).

Schemat badawczy metod

eksperymentalnych

Wniosek: zmiany (lub różnice)

w zmiennej zależnej

(zachowaniu) zależą od

głównej zmiennej niezależnej.

Schemat badawczy metod

eksperymentalnych

Metody eksperymentalne

pozwalają na ocenę wpływu

czynników zewnętrznych

(„środowiskowych”) na

zachowanie.

Schemat badawczy metod

diagnostycznych

 Zmienna niezależna główna jest

identyczna dla poszczególnych osób

badanych.

 Inne zmienne niezależne są

identyczne dla wszystkich osób

badanych (lub rozkładają się losowo).

Schemat badawczy metod

diagnostycznych

Wniosek: różnice

międzyosobnicze w zachowaniu

nie zależą od zmiennej

niezależnej, ale od czynników

wewnętrznych („latentnych”

cech).

Schemat badawczy metod

diagnostycznych

Metody diagnostyczne pozwalają

zatem na ocenę wpływu

czynników wewnętrznych

(„osobowościowych”) na

zachowanie.

Metody diagnozy

psychologicznej

Kryteria podziału (interpretacja

zachowania i stopień formalizacji
procedury):

Zachowanie jako próbka (testy

standaryzowane)

Zachowanie jako znak (testy

projekcyjne)

Metody niesformalizowane (swobodne)

Do czego służą testy?

Testy są metodami, służącymi do

zbierania informacji o człowieku,
potrzebnej do diagnozy psychologicznej.
Diagnoza psychologiczna jest procesem
aktywnego poszukiwania danych
potrzebnych do podjęcia decyzji o
działaniach, zmierzających do zmiany
aktualnego stanu (położenia)
psychospołecznego ludzi (w efekcie
terapii, porady, itp.).

Co mierzą testy?

Testy służą do rejestracji faktów

psychologicznych z życia człowieka,
tj. informacji o jego zachowaniu:
przeszłym lub obecnym, typowym
(najczęstszym - cechy) lub chwilowym
(stany). Testy są metodami
rejestrującymi różnice w zachowaniu
ludzi oraz stałość czasową i
sytuacyjną zachowania danego
człowieka.

Testy są metodami badania

zachowania

Testy nie pozwalają na bezpośredni

pomiar cech (czy stanów) - badają
jedynie zachowanie. Cechy (stany)
są psychologicznymi
interpretacjami istnienia różnic
indywidualnych w wynikach testu
(wyjaśnieniami w terminach
„latentnych” cech lub stanów,
które wpływają na wyniki testowe
oraz warunkują istnienie różnic
międzyosobniczych w wynikach
testu).

Co to jest test?

Standardy dla testów stosowanych w

psychologii i pedagogice (APA, 2007, s.
24):

„Testem jest narzędzie lub

procedura służące ocenie. Ich istotą
zaś – otrzymanie w określonych
warunkach próbki zachowania osób
badanych, a następnie dokonanie
ich oceny zgodnie z
wystandaryzowanymi regułami”.

Poprzednia definicja w

Standardach APA

Test to

procedura diagnozowania

Może on być zbiorem zadań lub pytań,
które - w standardowych warunkach
(tj. stałych, jednakowych dla
wszystkich) - mają wywoływać -
określone rodzaje zachowań i
dostarczać wyników o pożądanych
własnościach psychometrycznych, tj.
posiadających wysoką rzetelność i
wysoką trafność.

Elementy składowe testu

(zgodnie ze schematem: B-R)

1). test psychologiczny zawiera próbki

zadań - czyli określone standardowe
bodźce; test psychologiczny jednak to
przede wszystkim specyficzna forma
interakcji między osobą badającą a
osobą badaną, która to interakcja
zachodzi w określonych warunkach
czasowych, fizycznych i
psychologicznych (procedura, a nie
tylko sam materiał).

Elementy składowe testu

(zgodnie ze schematem: B-R)

2). test psychologiczny zawiera skalę

lub skale standardowe, rejestrujące
wywołane przez bodźce reakcje;
przedmiotem rejestracji w teście jest
zachowanie, które:

a). jest deskrypcją cechy,
b). którego aspekt spełnia kryteria:

typowości, specyfiki dla występującego
bodźca oraz reprezentacji ilościowej, a
nie jakościowej.

Elementy składowe testu

3). test psychologiczny dostarcza

reguł dochodzenia do wyniku oraz
jego oceny, w dwóch aspektach:

a). indywidualnym - informuje o

nasileniu danej cechy u danej
jednostki;

b). pomiarowym - umożliwia

oszacowanie parametrów "dobroci"
pomiaru testem.

Jakie wymogi muszą spełniać

testy?

Testy muszą być tak skonstruowane,

aby ich zastosowanie do pomiaru
cech człowieka, charakteryzowało się
odpowiednio wysoką

rzetelnością

trafnością

obiektywnością

standaryzacją

znormalizowaniem

test zatem musi spełniać te
wymagania, by mógł być stosowany, i
żeby mógł być nazwany testem.

Kryterium standaryzacji

Standaryzacja oznacza, że

procedura

badania testem

musi być tak

szczegółowo opracowana, aby
stosowanie go było za każdym razem
identyczne - niezależnie od osoby
badającej i osoby badanej; standaryzacja
ma na celu zminimalizowanie wpływu
czynników ubocznych lub zakłócających
(wewnętrznych i zewnętrznych) na
wyniki testowe.

Kryterium obiektywności

Obiektywność oznacza, że

procedura interpretacji

wyników

badania testem musi być tak
szczegółowo opracowana, aby
interpretacja była za każdym razem
identyczna - niezależnie od osoby
badającej; obiektywność ma na celu
zminimalizowanie wpływu osoby
badającej na wyniki testowe.

Kryterium normalizacji

Normalizacja oznacza konieczność

opracowania procedury przekształcania
wyników liczbowych w wyniki
różnicowe, umożliwiające ocenę wyniku
danej osoby na tle reprezentatywnej
populacji; normalizacja ma na celu
zminimalizowanie błędi związanego z
oceną faktycznego nasilenia cechy u
osoby badanej, a więc błędnej diagnozy
psychologicznej.

Kryterium rzetelności

Rzetelność oznacza konieczność

takiego opracowania testu (materiału
testowego i procedury badania), aby
maksymalizował on dokładność
pomiaru cechy badanej przez test;
rzetelność ma dwa aspekty -
stabilność pomiaru (powtarzalność
wyników badania) oraz konsystencję
(precyzję pomiaru).

Kryterium trafności

Trafność oznacza wymóg takiego

opracowania testu (materiału
testowego i procedury badania), aby
maksymalizował on stopień, w jakim
test mierzy daną cechę; trafność ma
dwa aspekty - dotyczy tego, co test
mierzy i jak dobrze to mierzy oraz
dotyczy tego, co możemy
przewidywać na podstawie wyników
testowych.

Wykład 2

RODZAJE TESTÓW

PSYCHOLOGICZNYCH

Jakie są rodzaje testów?

Pod względem specyfiki zbierania

informacji rozróżniamy następujące
testy standaryzowane:

Rodzaje testów

1). Test, w którym jednostka wykonuje

specyficzne zadanie - test ten
wymaga maksymalnego wykonania
(testy inteligencji, zdolności,
wiadomości, sprawności
psychomotorycznej). Testy
maksymalnego wykonania mogą być
testami mocy, testami szybkości lub
testami z ograniczeniem czasowym.

Rodzaje testów

2). Test, w którym jednostka sama

opisuje swoje zachowanie - test
rejestruje samopis typowego
zachowania (inwentarze, ankiety,
arkusze biograficzne).

Rodzaje testów

3). Test, w którym jednostka jest

obserwowana w specyficznej sytuacji
lub ogólniej - w wielu określonych
sytuacjach - test rejestruje dane
obserwacyjne typowego zachowania
lub wykonania zadania w naturalnych
warunkach (próbki pracy zawodowej,
arkusze obserwacyjne, arkusze ocen,
arkusze szacowania cech).

Formalna klasyfikacja testów

 Testy jedno-skalowe – interpretacja w

terminach intensywności cechy
(diagnoza ilościowa) albo interpretacja
typologiczna (diagnoza jakościowa).

 Testy wielo-skalowe – interpretacja

profilu testowego (model cech
równorzędnych lub model
hierarchiczny), który może być
wykorzystany w diagnozie typologicznej
lub intraindywidualnej (różnicowej).

Rycina 1. Wyniki testowe,

pozwalające na diagnozę

intensywności cechy.

Wynik przeciętny – przeciętna intensywność

cechy

Wynik niski – mała intensywność cechy

Wynik wysoki – duża intensywność cechy

Rycina 2. Wyniki testu jedno-

skalowego do diagnozy

typologicznej.

Wyniki testu zbliżone do grupy „górnej”

Wyniki testu zbliżone do grupy „dolnej”

Ryc. 3. Wyniki testu wielo-skalowego,

służące do diagnozy profilowej (cechy

równorzędne).

Rycina 4. Wyniki testu wielo-

skalowego (model hierarchiczny).

Poszukiwanie Doznań

Poszukiwanie grozy i przygód

Poszukiwanie przeżyć

Wrażliwość na nudę

Rozhamowanie

Intraindywidualna diagnoza

różnicowa

Nie tylko porównania

międzyosobnicze, ale także
wewnątrzosobnicze, np. werbalny i
niewerbalny IQ (diagnoza
ilościowa).

Historia testów (oraz

psychometrii)

 3000 lat p.n.e – testowanie w

chińskiej służbie cywilnej;

 1850-1900 – badania służb cywilnej

w USA;

 1900-1920 – rozwój testów zdolności

umysłowych (teoria
psychometryczna);

 1920-1940 – rozwój inwentarzy

osobowości (analiza czynnikowa);

Historia testów (oraz

psychometrii)

 1940-1960 – rozwój narzędzi do diagnozy

zainteresowań zawodowych oraz
psychopatologii;

 1960-1980 – rozwój narzędzi do diagnozy

neuropsychologicznej (item response
theory – „teoria odpowiadania na pozycje
testowe);

 Od 1980 – rozwój metody „adaptacyjnego

testowania komputerowego”
(computerized adaptative testing).

Historia najbardziej

popularnych testów



1905: Binet i Simon – pierwsza skala
inteligencji;



1906: Heymans i Wiersma – pierwsze
kwestionariuszowe badanie osobowości
(metoda szacowania);



1917: Woodworth – pierwszy inwentarz
osobowości (psychopatologia);



1927-1934: Strong/Kuder – pierwsze
narzędzia do badania zainteresowań
zawodowych;

Historia najbardziej

popularnych testów

 1939: Wechsler – Wechsler-Bellevue

Intelligence Scale (1997 - WAIS-III);

 1943: Hathaway i McKinley –

Minnesota Multiphasic Personality

Inventory (1989 - MMPI 2);

 1949: Cattell – 16 PF (Personality

Factors);

 1950 - 1990 – inwentarze Eysencka;
 1990 – 2000 – inwentarze do badania

Wieliej Piątki (Costa i McCrae).

Informacja o testach

 Standards for Educational and

Psychological Testing (1985 and

1999);

 Mental Measurements Yearbook

and Test Critiques;

Czasopisma presentujące

testy (oraz kwestie

psychometryczne)

 Psychometrika
 Educational and Psychological

Measurement

 Applied Psychological Measurement
 Journal of Educational

Measurement

 Journal of Educational Psychology
 Journal of Applied Psychology
 Personnel Psychology
 Journal of Consulting and Clinical

Psychology.

Jakie są zastosowania

testów?

Testy są stosowane w badaniach

naukowych i praktycznych:

a). przydatności zawodowej, która

wiąże się z:

        - doborem zawodowym,
        - poradnictwem zawodowym;
   b). diagnostyce klinicznej;
   c). diagnostyce zdolności specjalnych.

Zalety i wady testów

Testy „reprezentują najbardziej

wartościową i sprawiedliwą

technologię, umożliwiającą

podejmowanie wielu ważnych

decyzji o ludziach”, ale

jednocześnie „testowanie

psychologiczne jest bardzo

kontrowersyjne” (Murphy i

Davidshofer, 1989, s. 2).

Etyczne (kontroweryjne)

aspekty testowania

 Wpływ testowania na społeczeństwo

(różnice realne czy pozorne?,

efektywność czy równość?,

pomaganie czy ranienie ludzi?);

 Naruszenie prywatności (informacja o

życiu prywatnym, problem poufności

oraz udostępniania wyników testu);

 Sprawiedliwe użycie testu (równa

dostępność materiału testowego –

kwestie kulturowe, badanie osób

niepełnosprawnych).

Wykład 3

PSYCHOLOGICZNY,

METODOLOGICZNY,

PSYCHOMETRYCZNY I ETYCZNY

ASPEKT DIAGNOZY

PSYCHOLOGICZNEJ ZA POMOCA

METOD TESTOWYCH

Aspekty diagnostyki

testowej

Diagnostyka psychologiczna,

realizowana za pomocą testów
standaryzowanych, obejmuje:
aspekt

psychologiczny

metodologiczny

psychometryczny

oraz

etyczny

pomiaru.

Aspekt

psychologiczny

diagnozy

Związany jest z treścią psychologiczną

pomiaru i odnosi się on zatem do:

a). problemu badawczego wyznaczonego

przez cel diagnozy;

b). koncepcji (czy wiedzy)

psychologicznej, precyzującej, jakie cechy
psychologiczne są mierzone testem;

c). interpretacji i wniosków

psychologicznych formułowanych na
podstawie pomiaru testowego.

Aspekt

metodologiczny

diagnozy

Dotyczy formalnych reguł stosowania

testu: procedury badania, obliczania
wyników i transformacji na wyniki
standaryzowane oraz interpretacji
uzyskanych danych, a więc odnosi się
do procesu dochodzenia do diagnozy
psychologicznej. Aspekt
metodologiczny wiąże się z
wymaganiami standaryzacji,
obiektywności i normalizacji testu.

Aspekt

etyczny

diagnozy

Odnosi się do konsekwencji

życiowych i społecznych dla osoby
badanej, wynikających z pomiaru
testem. Problemy te obejmują:

a). stronniczość, która prowadzi do

dyskryminowania (lub
faworyzowania) określonych osób
lub grup społecznych, np. w postaci
seksizmu, rasizmu, itp.

Aspekt

etyczny

diagnozy

b). naruszenie wolności osobistej

(ujawnienie tajemnicy pomiaru testowego
osobom postronnym, niewłaściwy sposób
komunikowania wyników samej osobie
badanej, brak dobrowolności udziału w
badaniach lub brak możliwości rezygnacji
z badań w ich trakcie).

c). "etykietowanie" (stygmatyzowanie),

wynikające z ahumanistycznego celu
badania.

Aspekt

psychometryczny

diagnozy

1). konieczność uwzględniania we

wnioskowaniu wskaźników
psychometrycznych,
charakteryzujących dokładność czy
pewność diagnozy;

2). stosowania określonych procedur

matematycznych do oceny jakości i
poprawności pomiaru testowego,
wynikających z modeli
psychometrycznych i teorii pomiaru.

Wykład 4

SPECYFIKA POMIARU

RÓŻNICOWEGO W

PSYCHOLOGII - TESTY JAKO

NARZĘDZIA DO BADANIA

SPECYFIKI JEDNOSTKI

Cel pomiaru różnicowego w

psychologii

Celem pomiaru psychologicznego

jest różnicowanie ludzi - określenie
ich specyfiki na tle innych osób
(populacji odniesienia). Cel ten
może być realizowany na dwa
sposoby: podejście

idiograficzne

nomotetyczne

Podejście idiograficzne i

nomotetyczne

Celem podejścia

idiograficznego

jest

uchwycenie specyfiki jednostki porzez
wyodrębnienie cech,
charakterystycznych tylko dla niej i
wskutek tego wyróżniających ją z
populacji.

Celem podejścia

nomotetycznego

jest

określenie specyfiki jednostki poprzez
wskazanie charakterystycznego dla niej
nasilenia cech, wspólnych dla populacji.

Pomiar w psychologii -

definicja

Pomiar - proces

przyporządkowywania obiektom

określonych liczb w taki sposób,

aby specyficzne cechy tych

obiektów były odzwierciedlone

przez własności liczb

Pomiar (w psychologii) - proces

przyporządkowania liczb (tzn.

wyników testowych) osobom

badanym w taki sposób, aby

mierzone testem własności

psychologiczne tych osób były

odzwierciedlone przez własności

liczb

Pojęcie cechy

Cecha – zmienna osobowa, która

wykazuje międzyosobniczą
zmienność i wewnątrzosobniczą
stałość (czasową i sytuacyjną oraz
koherencję (spójność) wskaźników.
Nomotetyczna cecha jest zatem
zmienną ilościową - możliwy pomiar
na skali przedziałowej.

Rozkład normalny a pomiar

w psychologii

Cechy psychologiczne mają rozkład

normalny w populacji – jest zatem
oczywiste, że testy przeznaczone do
pomiaru tych cech powinny dostarczać
wyników o rozkładzie normalnym. Na
podstawie tego założenia „krzywa
normalna” jest traktowana jako model
rozkładu wyników testu (wartości ciągłe
i równe różnice pomiędzy wszystkimi
wartościami wyników testu).

Standardy porównań dla

pomiaru cech różnicowych

Dla różnicowych cech ilościowych

standardem (punktem odniesienia)
jest

średnia

rozkładu normalnego, a

zmienność definiowana jest poprzez

odchylenie standardowe

(lub

wariancję

) tego rozkładu (wynik

sumaryczny wyników pozycji jest dla
danej osoby jest informacją o
nasileniu jej cechy – cechy badanej
przez test).

Rycina 1. Rozkład normalny

0,25

0,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1,5

2,5

Średnia arytmetyczna

wyników testu

 X

= --------

Wariancja wyników testu

 (X

- M

)

= -----------------

Odchylenie standardowe

wyników testu

 (X

- M

)

= 

-------------------

Charakterystyka rozkładu

normalnego

Wyniki standaryzowane
M

=0,00 oraz SD

=1,00, przy

czym M

mod

Rozkład symetryczny, wykazujący

odpowiednie zagęszczenie
wyników wokół średniej
(skośność - miara asymetrii oraz
kurtoza - miara zagęszczenia)

Charakterystyka rozkładu

normalnego

Znana jest częstość poszczególnych

wyników:

+ 1,00 - ok. 68% wyników

+ 2,00 - ok. 95% wyników

z = + 1,44 (15% wyników

dwustronnie)

z = + 1,96 (5% wyników dwustronnie)
z = + 2,58 (1% wyników dwustronnie)

Wniosek

Krzywa normalna jest używana jako

model rozkładu cech ilościowych w

populacji oraz jako statystyczny

model rozkładu wyników

testowych. Model „normalny”

wymaga „silnej” skali pomiarowej

(wg klasyfikacji Stevensa):

przedziałowej lub ilorazowej (nie

nominalnej czy porządkowej). W

psychologii tylko pomiar

interwałowy jest osiągalny, ale

skala ta wystarcza - testy oferują

zatem pomiar na tej skali).

Jak można osiągnąć wyniki

ilościowe w teście?

Zasadnicze pytanie to: jak test

musi być skonstruowany, aby

dostarczał wyników ilościowych

(informujących o intensywności

mierzonej cechy)?

Cel ten może zostać osiągnięty

jedynie poprzez wprowadzenie

wielu zadań do testu (test jest

zatem narzędziem obejmującym

wiele pozycji, a wynik testowy jest

uzyskany z wielu zadań).

Test jako narzędzie

obejmujące szereg pozycji

(zadań)

Argumenty:



pomiar ilościowy (różnicowanie osób
badanych)



minimalizacja błędu (czynnika losowego)



diagnoza jako efekt koincyndencji
zachowań



ogólność psychologiczna wyniku
testowego (a elementarność i
konkretność pozycji)

Rycina 2. Rozkład wyników

testu z jedną pozycją

0,25

0,5

0,75

Rycina 3. Rozkład wyników

testu z dwoma pozycjami

0,25

0,5

0,75

Rycina 4. Rozkład wyników

testu z dziesięcioma

pozycjami

0,25

0,5

0,75

Rycina 5. Rozkład normalny

wyników testu (wiele

pozycji)

0,25

0,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1,5

2,5

Pomiar ilościowy

Rozkład wyników testu, podobnie

jak każdej pozycji, jest „normalny”

(dwumianowy lub dychotomiczny

rozkład normalny), ale większość

pozycji dostarcza danych

mierzonych na skali nominalnej –

poprzez zsumowanie wyników

pozycji wynik ogólny testu

odpowiada pomiarowi na skali

przedziałowej (z wieloma

kategoriami wyników, odmiennymi

dla różnych osób badanych).

Błąd pomiaru

Prawidłowa odpowiedź na każdą z

pozycji może być odgadnięta lub

uzyskana losowo - z tego względu

pomiar cechy za pomocą jednej

pozycji jest obciążony dużym

błędem (przypadkowości). Mało

prawdopodobne jest natomiast

otrzymanie wysokiego wyniku testu

wyłącznie na drodze zgadywania

(prawdopodobieństwo warunkowe

wielu losowych sukcesów w

przypadku testu z 10 zadaniami

wynosi tylko 0.00098).

Współwystępowanie

zachowań

Cecha jest własnością, która

uzewnętrznia się w różnych

zachowaniach, przy czym

współwystępowanie tych zachowań

jest specyficzne wyłącznie dla danej

cechy. Każda z form zachowania

może być charakterystyczna dla

wielu cech, ale ich kombinacja jest

specyficzna tylko dla danej cechy.

Współwystępowanie

zachowań

Diagnoza, że dana osoba posiada

daną cechę jest trafna jedynie, gdy

wykazuje ona wszystkie

zachowania, charakterystyczne dla

tej cechy.

Informacja uzyskana za pomocą

jednej pozycji jest diagnostycznie

niepewna, ale wynik ogólny (z wielu

pozycji, badających różne formy

zachowania) jednoznacznie

wskazuje na określoną cechę

(badaną przez test).

Ogólna „natura” cechy

Cecha jest własnością ogólną, która

uzewnętrznia się w różnych

zachowaniach i sytuacjach. Każda z

form zachowania informuje o

specyficznym aspekcie cechy,

wszystkie razem zaś o cesze jako

własności ogólnej. Każda z pozycji

bada zatem specyficzną formę

zachowania, zaś wynik ogólny w

teście – ogólną tendencję

(niespecyficzną dla określonej

sytuacji lub formy zachowania).

Wynik testu a wyniki pozycji

Test musi zatem zawierać wiele

pozycji, a wynik testu powinien być
kombinacją wyników wszystkich
pozycji (zazwyczaj jest definiowany
jako suma ważonych lub nieważonych
wyników poszczególnych pozycji). W
efekcie wszystkie własności testu jako
całości zależą wprost od wyników
poszczególnych pozycji (oraz ich
interkorelacji).

Średnia testu a średnia

pozycji

Wynik testu jako suma wyników

poszczególnych pozycji (wyniki zero-
jedynkowe: rozwiązane dobrze vs błędnie)

Średnia wyników pozycji:

= p

Średnia wyników testu:

=  M

Tabela 1. Test z losowymi odpowiedziami (6 pozycji, 14 ob.).

Tabela 2. Dane z badania skalą E z EPQ-R(24) (6 pozycji, 14 o.b.).

Przykład: Średnia testu jako

suma średnich pozycji

Średnia testu z odpowiedziami

losowymi:

M=3,21
Suma średnich pozycji:
0,50+0,50+0,43+0,57+0,64+0,57 =

3,21

Średnia testu psychologicznego:
M=3,00
Suma średnich pozycji:
0,57+0,86+0,43+0,21+0,21+0,71=3,

Wniosek

W każdym wypadku średnia

wyników testu jest równa sumie

średnich pozycji. Nowa pozycja

dodana do testu prowadzi do

wzrostu średniej wyników testu

(bez względu na korelację tej

pozycji z innymi pozycjami). W

przypadku pozycji o ekstremalnej

trudności (rozwiązanej przez

wszystkie o.b. – pozycja „łatwa” lub

nie rozwiązanej przez żadną z o.b. –

pozycja „trudna”) średnia testu

również wzrośnie (o wartość

średniej równej 1 albo 0).

Wariancja testu a wariancja

pozycji

Wynik testu jako suma wyników pozycji

(wyniki zero-jedynkowe)

Wariancja pozycji:

= p q

Wariancja wyników testu:

=  S

+ 2  r

Wariancja testu a wariancja

pozycji

Wzór na wariancję wyników testu jako

sumy wyników pozycji jest
rozwinięciem dwumianu Newtona:

(a+b)

= a

+ b

+ 2ab

Liczba wyrażeń kowariancyjnych:

k = [j (j - 1)] / 2

Współczynnik korelacji r-

Pearsona

Korelacja jest miarą współzmienności

(związku dwóch zmiennych)

 (X

- M

) (X

- M

)

r = ----------------------------

N S

Przykład: Wariancja testu

jako suma wariancji pozycji

Wariancja testu z odpowiedziami

losowymi:

=1,45

Suma wariancji pozycji:
0,25+0,25+0,24+0,24+0,23+0,24 =

1,45

Wariancja testu psychologicznego:
S

=2,29

Suma wariancji pozycji:
0,17+0,12+0,24+0,24+0,17+0,20 =

1,14  2,29

Przykład: Wariancja testu

jako suma wariancji pozycji

Przeciętna interkorelacja pozycji w

teście losowym jest równa zero, z

zatem kowariancja jest także równa

zero.

Przeciętna interkorelacja pozycji w

teście psychologicznym jest równa

0,21 (przeciętne S

=0,43), a zatem

podwojona kowariancja =

2*15*0,21*0,43*0,43= 1,16

Wariancja ogólna = 1,14+1,16 =

2,30  2,29

Test losowy jest przypadkiem

szczególnym testu z zerową

kowariancją.

Wniosek

W każdym wypadku wariancja testu

jest równa sumie wariancji pozycji

oraz ich podwojonych kowariancji.

Nowa pozycja dodana do testu

zwiększa wariancję całkowitą tylko

wtedy, gdy wariancja pozycji nie

jest równa zero (nie ma sensu

dodawania pozycji o zerowej

wariancji, bowiem wydłuża to test,

zaś różnice między wynikami

testowymi pozostają takie same).

Wniosek

Nowa pozycja dodana do testu

zwiększa znacznie wariację

całkowitą, jeśli interkorelacje nowej

pozycji z innymi pozycjami są

dodatnie, ponieważ generuje to

duże dodatnie kowariancje.

Dodanie pozycji z zerowymi

korelacjami zwiększa tylko trochę

wariancję całkowitą (bo generuje

zerowe kowariancje). Dodanie zaś

pozycji o ujemnych korelacjach z

innymi pozycjami obniża wariancję

całkowitą (ujemne kowariancje).

Wniosek

Tylko pozycje z niezerowymi

wariancjami oraz wysokimi

pozytywnymi korelacjami powinny

być dodawane do testu – znacznie

zwiększają one wariancję całkowitą

(uzyskanie dużego zróżnicowania

wyników testu jest celem pomiaru

różnicowego). Dodatnie korelacje

oznaczają także, że pozycje mierzą

tę samą cechę - generują one

realną, a nie losową zmienność.

Rozkład normalny wyników

testu

Charakterystyka testu jako całości

zależy od charakterystyki pozycji -
wady pozycji (lub ich niewłaściwa
kompozycja) decydują o wadach
rozkładu wyników oraz zaburzeniu
relacji między wynikami testu a
nasileniem cechy.

Rycina 6. Rozkład normalny

wyników testu

(mezokurtyczny)

0,25

0,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1,5

2,5

Rycina 7. Rozkład

leptokurtyczny

(symetryczny, zbyt duża

kurtoza)

0,25

0,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1,5

2,5

Rycina 8. Rozkład

platokurtyczny

(symetryczny, zbyt mała

kurtoza)

0,25

0,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1,5

2,5

Rycina 9. Rozkład

dwumodalny

0,25

0,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1,5

2,5

Rycina 10. Rozkład

lewoskośny (ujemnie

asymetryczny)

0,25

0,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1,5

2,5

Rycina 11. Rozkład

prawoskośny (dodatnio

asymetryczny)

0,25

0,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1,5

2,5

Rycina 12. Relacja test a cecha w

rozkładach: normalnym oraz lewo- i

prawoskośnym

-3,5

-2,5

-1,5

-0,5

0,5

1,5

2,5

3,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1,5

2,5

Rycina 13. Relacja test a cecha w

rozkładzie normalnym oraz

rozkładach o wadliwej kurtozie

-3,5

-2,5

-1,5

-0,5

0,5

1,5

2,5

3,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1,5

2,5

Własności pozycji

doskonałego testu

Test doskonały powinien zawierać

pozycje o identycznych
własnościach statystycznych
(średnich, wariancjach oraz
korelacjach z innymi pozycjami). W
takim wypadku wszystkie pozycje
byłyby diagnostycznie równoważne
(wnosiłyby tę samą wariancję do
wyników testu), a rozkład wyników
testu byłby normalny (skala
pomiarowa: ciągła i prostoliniowa).

Jak uzyskać rozkład

normalny?

Rozkład normalny wyników testu:

kompozycja pozycji o przeciętnej
trudności i przeciętnych dodatnich
interkorelacjach albo o zróżnicowanej
trudności (równomiernie wg
kontinuum trudności) i przeciętnych
interkorelacjach - inne rozkłady można
uzyskać dobierając pozycje pod
względem jednego z obu parametrów.

Wskaźnik trudności pozycji

 Dychotomiczna punktacja (0 – 1

punkt):

Trudność = M

= p

 Skala Likerta (od zera to kilku

puntów):

Trudność = M

/ maksymalny

możliwy wynik w danej

skali

(w celu obliczenia wskaźnika

trudności pozycji (czy nawet testu)

niezbędne jest zakotwiczenie

wyniku minimalnego w wartości

„zerowej”).

Relacja między różnymi

wskaźnikami pozycji

 Relacja między średnią pozycji

(trudnością) a wariancją pozycji

jest krzywoliniowa (w formie

odwróconego „U”) – wariancja jest

większa w przypadku pozycji o

przeciętnej trudności.

 Relacja między średnią (trudnością)

a korelacją pozycji z innymi

pozycjami jest także krzywoliniowa

(odwrócone „U”) - korelacja jest

większa dla pozycji o przeciętnej

trudności.

Jak uzyskać inne rozkłady

wyników testu?

Założenie - manipulowanie

interkorelacjami albo wskaźnikami
trudności:

1. wszystkie pozycje o identycznej

przeciętnej trudności oraz
manipulowanie interkorelacjami
(stały wzrost oraz początkowo
obniżenie do zerowych, później
ujemne);

2. wszystkie pozycje o identycznych

stałych interkorelacjach oraz
manipulowanie wskaźnikami
trudności.

Jak uzyskać inne rozkłady?

Założenie: wszystkie pozycje

identyczna przeciętna trudność
oraz zmiana interkorelacji - stały
wzrost oraz początkowo obniżenie
do zerowych, później ujemne albo
dobór pozycji o zróżnicowanej
średniej a stałych interkorelacjach.

Rycina 12a. Zmiana kształtu

rozkładu - wzrost interkorelacji

12 pozycji testu

0,25

0,5

10 11 12

Rycina 12b. Rozkład

platokurtyczny

0,25

0,5

10 11 12

Rycina 12c. Rozkład

dwumodalny

0,25

0,5

10 11 12

Rycina 12d. Rozkład „U”-

kształny

0,25

0,5

10 11 12

Rycina 12e. Rozkład dychotomiczny

(dwumianowy) - efekt końcowy i

krańcowy

0,25

0,5

0,75

10 11 12

Rycina 13a. Zmiana kształtu

rozkładu - ujemne interkorelacje

pozycji

0,25

0,5

10 11 12

Rycina 13b. Rozkład

leptokurtyczny

0,25

0,5

10 11 12

Rycina 13c. Rozkład

jednomianowy (efekt końcowy i

krańcowy)

0,25

0,5

0,75

10 11 12

Kompozycja pozycji w innych

rozkładach niż normalny (ad.

Pozycje o identycznej trudności (a

zróżnicowanych interkorelacjach):

 Rozkład leptokurtyczny – zerowe

lub ujemne interkorelacje między

pozycjami.

 Rozkład platokurtyczny – zbyt

wysokie dodatnie korelacje między

pozycjami.

Kompozycja pozycji w innych

rozkładach niż normalny (ad.

Pozycje o różnej trudności (a

identycznych pozytywnych

interkorelacjach):

 Rozkłady skośne –

nadreprezentacja pozycji „łatwych”

lub „trudnych”.

 Rozkład leptokurtyczny – „łatwe”

oraz „trudne” pozycje (brak pozycji

o przeciętnej trudności).

 Rozkład platokurtyczny -

nadreprezentacja pozycji o

przeciętnej trudności.

Wniosek

Kurtoza

(zagęszczenie wyników

wokół średniej) zależy zatem

zarówno od interkorelacji, jak i

trudności pozycji, zaś

skośność

głównie od trudności pozycji.

Niewłaściwa kombinacja pozycji

powoduje zatem uzyskanie

rozkładu o własnościach

odbiegających od charakterystyki

rozkładu normalnego.

Wniosek końcowy

Test powinien zawierać wiele

pozycji, zaś własności pozycji
wyznaczają podstawowe
charakterystyki rozkładu wyników
testu (kształt rozkładu wyników).
Rozkład wyników testu powinien
być normalny, bowiem tylko taki
test pozwala na przyjęcie założenia
o liniowej relacji między wynikami
testu a „latentną”cechą.

Wykład 5

RZETELNOŚĆ POMIARU TESTEM -

PODSTAWOWE POJĘCIA

Pojęcie rzetelności pomiaru

Rzetelność

oznacza dokładność

(precyzję) pomiaru cechy badanej
przez test; rzetelność ma dwa
aspekty - stabilność pomiaru
(powtarzalność wyników badania)
oraz konsystencję (precyzję
pomiaru).

Błąd pomiaru

Pojęcie rzetelności jest

bezpośrednio powiązane z pojęciem
błędu pomiaru – nie istnieje pomiar
bez błędu (zarówno w badaniach
naukowych, jak i w praktyce czy
ocenach prywatnych. Im większy
jest błąd, tym mniejsza jest
rzetelność pomiaru danym
narzędziem.

Konsekwencje błędu pomiaru

Błąd obniża precyzję pomiaru – w

miejsce wyniku prawdziwego osoba
badana uzyskuje wynik
zniekształcony przez błąd – w
konsekwencji osobowość czy
inteligencja osoby badanej nie
może być precyzyjnie oceniona.

Źródła błędu pomiaru w

badaniach testowych

 Ogólne charakterystyki osoby

badnaej (techniki wypełniania testu
lub zdolność rozumienia instrukcji)

 Specyficzne charakterystyki osoby

badanej dotyczące testu jako
całości (umiejętności specyficzne
dla danego testu czy szczególnej
formy pozycji lub stylów
odpowiadania oraz pozycji
testowych (odmienne oswojenie się
z

Źródła błędu pomiaru w

badaniach testowych

różnymi pozycjami, znajomość

specyficznego zachowania lub
sytuacji).

 Ogólne czynniki osoby badanej o

incydentalnym charakterze
(zdrowie, zmęczenie, motywacja,
napięcie emocjonalne, warunki
zewnętrzne – światło, hałas,
temperatura, itp.).

Źródła błędu pomiaru w

badaniach testowych

 Specyficzne czynniki osoby badanej

związane z badaniem testowym
(specjalne triki w radzeniu sobie z
zadaniami, rozumienie
specyficznych zadań, poziom
wyćwiczenia specyficznych
umiejętności) oraz z pozycjami
testowymi (fluktuacje pamięci i
uwagi).

Źródła błędu pomiaru w

badaniach testowych

 Czynniki związane z badaniem

testowym (systematyczne lub
incydentalne): warunki testowania
(brak dystraktorów, jasność
instrukcji, łatwość dostosowania się
do limitu czasu, itp.), interakcja
płci, osobowości osoby badanej i
badającej, itp., zniekształcenia w
ocenie zachowania oraz czynniki
czysto losowe (zgadywanie).

Błąd jako czynnik losowy

Błąd jest efektem wpływu wielu

niekontrolowanych i
nieprzewidywalnych czynników
(wewnętrznych i zewnętrznych) na
zachowanie, które powodują, że
reakcje osoby badanej stają się
nieprzewidywalne i niespójne z
innymi formami zachowania.
Kombinacja tych czynników jest tak
zawikłana, że przyjmuje się, iż błąd
ma charakter losowy (błąd jest
losowy).

Teorie rzetelności pomiaru

Dwa modele psychometryczne

opisują błąd pomiaru i rzetelność
pomiaru:

Klasyczna Teoria Testów

(Gulliksen, 1950 oraz Lord i Novick,
1968) oraz

Teoria odpowiadania na

pozycje Testowe

. Nowoczesną

formą KTT jest

Teoria Wyników

Generycznych.

Podstawowe założenia

Klasycznej Teorii Testów

Wynik testowy jest efektem dwóch

czynników:

 Czynników, które wpływają na

konsystencję zachowania – cechy
psychologicznej;

 Czynników, które wpływają na

niespójność zachowania – zmienne
te wyznaczają reakcje osoby
badanej, ale nie mają nic
wspólnego z badaną cechą.

Podstawowe pojęcia

Klasycznej Teorii Testów

W odniesieniu do wyniku testowego:
 Obserwowany (otrzymany) wynik

testu;

 Wynik prawdziwy;
 Błąd pomiaru.
W odniesieniu do wariancji wyników

testu:

 Wariancja wyników otrzymanych;
 Wariancja wyników prawdziwych;
 Wariancja błędu.

Twierdzenie 1

= X

+ X

(Wynik testu obejmuje wynik

prawdziwy i błąd pomiaru)

Aksjomaty

Aksjomat 1:

= 0

(Średnia błędów pomiaru jest równa zero).

Aksjomat 2:

= 0

(Wynik prawdziwy i błąd są nieskorelowane).

Aksjomat 3:

= 0

(Błędy różnych pomiarów są nieskorelowane).

Twierdzenie 2

= M

+ M

= M

(Średnia wyników otrzymanych jest

równa średniej wyników prawdziwych

testu; średnia wyników otrzymanych nie

jest zniekształcona przez błąd).

Twierdzenie 3

= S

+ S

(Wariancja wyników otrzymanych jest równa

sumie wariancji wyników prawdziwych oraz

wariancji błędu; nie ma kowariancji

pomiędzy wynikami prawdziwymi oraz

błędem; wariancja wyników otrzymanych

jest zniekształcona przez błąd).

Twierdzenie 4

= -----

lub

= 1-

------

(Rzetelność pomiaru testem)

Interpretacja współczynnika

rzetelności

Współczynnik rzetelności jest

proporcją wariancji wyników
prawdziwych do wariancji wyników
otrzymanych lub proporcją
wariancji błędu do wariancji
wyników otrzymanych,
odejmowanej od jedności.
Współczynnik rzetelności wskazuje
jaka część wariancji wyników
otrzymanych wynika z błędu lub
zmienności wyników testu
(niespójności odpowiedzi
testowych).

Twierdzenie 5

= S

 (1 -

)

(Standardowy błąd pomiaru

wyników otrzymanych)

Interpretacja standardowego

błędu wyników otrzymanych

Standardowy błąd pomiaru wyników

otrzymanych to odchylenie

standardowe rozkładu wyników badania

danej osoby nieskończenie wiele razy

lub badania danej osoby nieskończoną

liczbą testów równoległych (granice w

jakich może lokować się faktyczny

wynik osoby badanej). Średnia tego

rozkładu stanowi wynik prawdziwy, a

odchylenie standardowe – standardowy

błąd pomiaru.

Interpretacja standardowego

błędu wyników otrzymanych

Wielokrotne badanie jednej osoby

nie jest możliwe (ze względu na
motywację oraz pamięć) – z tego
względu rozkład błędów pomiaru u
wszystkich osób badanych jest
brany pod uwagę (nie ma istotnej
różnicy pomiędzy efektami
losowymi w grupie wielu osób
badanych jednorazowo oraz
wielokrotnym badaniem jednej
osoby – ten sam model czynników
losowych).

Interpretacja standardowego

błędu wyników otrzymanych

Standardowy błąd pomiaru

wskazuje zakres wyników, w
obrębie którego lokuje się wynik
prawdziwy osoby badanej (z
określonym
prawdopodobieństwem) i jest
identyczny dla wszystkich osób
badanych (niezależnie od wyniku
otrzymanego).

Interpretacja standardowego

błędu wyników otrzymanych

Standardowy błąd pomiaru jest

stosowany do wyznaczania

przedziału ufności

dla wyniku

prawdziwego z określoną
pewnością (0,99, 0,95 czy 0,85 – S

musi być pomnożony przez wartość
„z” rozkładu normalnego, czyli =
2,58, 1,96 lub 1,44).

Testy równoległe - pojęcie

Testy równoległe:

= M

, S

= S

(mierzą tę samą cechę z taką samą dokładnością).

Testy równoważne:

= M

(mierzą tę samą cechę, ale nie tak samo dokładnie).

Testy quasi-równoważne:

= M

+ c

(mierzą tę samą cechę wraz z dodatkowym

czynnikiem).

Zastosowania koncepcji

testów równoległych

 Koncepcja testów równoległych lub

pomiarów równoległych jest
stosowana w większości metod
oceny rzetelności pomiaru testem
(równoległość jest warunkiem
niezbędnym).

 Koncepcja testów równoległych

była punktem wyjścia dla teorii
wyników generycznych (teoria
uniwersalizacji).

Teoria uniwersalizacji

Teoria uniwersalizacji (wyników

generycznych) wykorzystała
koncepcję testów równoległych (np.
test egzaminacyjny na prawo jazdy),
co pozwoliło zrezygnować z
nietestowalnych założeń i twierdzeń
na rzecz obserwowalnych zależności
(błędy mogą być skorelowane i może
to być empirycznie stwierdzone).

Wykład 6

SZACOWANIE RZETELNOŚCI

POMIARU TESTEM: METODY I

WSKAŹNIKI

Metody szacowania

rzetelności pomiaru testem

Zgodność wewnętrzna

Stabilność czasowa

Metoda testów równoległych

Zgodność wewnętrzna

Metoda metoda zgodności połówkowej

(założenie równoległości połówek testu)

Metoda zgodności wewnętrznej przy

podziale testu na wiele części
(założenie równoległości wszystkich
części testu)

Metoda zgodności wewnętrznej

wykorzystująca analizę wariancji

Metoda zgodności

połówkowej - wzór Rulona

= 1 - ------

gdzie S

to wariancja wyników całego

testu, a S

to wariancja różnicy

wyników obu połówek testowych

Metoda zgodności

połówkowej - wzór Guttmana

+ S

)

= 2 [ 1 - --------------- ]

gdzie S

to wariancja wyników całego

testu, a S

i S

to wariancje połówek

testowych

Metoda zgodności połówkowej -

wzór „proroczy” Spearmana -

Browna

N R

n = ---------------------

1 + [ (N - 1) R

]

gdzie R

n - to rzetelność testu po

przedłużeniu, N - wielkość (krotność)
przedłużenia, a R

- rzetelność testu

przed przedłużeniem (w miejsce
współczynnika rzetelności można
wstawiać współczynnik korelacji między
połówkami testowymi)

Metoda zgodności wielu

części testu - wzór Kudera-

Richardson

N (S

-  S

)

KR-20: R

= -------

---------------
N - 1

gdzie N - liczba części testu, S

- to

wariancja wyników całego testu, a 

to suma wariancji części testu

Metoda zgodności wielu

części testu - wzór alfa

Cronbacha

N  S

 = --------

(1 -

-------)

N - 1 S

gdzie N - liczba pozycji testu, S

- to

wariancja wyników całego testu, a  S

to suma wariancji pozycji testu

Metoda zgodności wielu

części testu - analiza

wariancji

Wiele podejść - najprostsza metoda

Hoyta

wariancja między osobami - war. błędu

-----------------------------------------------------
-
wariancja między osobami

Tabela 3. Test z losowymi odpowiedziami.

Pozycja/

osoba

Suma

1-6

Suma

1-3

Suma

4-6

Kwad-

rat

różnic

0,50

0,43

0,57

0,64

0,57

3,21

1,43

1,79 -0,36

0,50

0,49

0,48

0,49

1,21

0,82

0,86

1,37

0,25

0,24

0,23

0,24

1,45

0,67

0,74

1,17

Tabela 4. Dane z badania skalą E z EPQ-R(24).

Pozycja/

osoba

Suma

1-6

Suma

1-3

Suma

4-6

Kwadr

różnic

0,21

0,86

0,43

0,57

0,21

0,71

3,00

1,50

0,00

0,41

0,35

0,49

0,41

0,45

1,51

0,82

0,65

0,17

0,12

0,24

0,17

0,20

2,29

0,68

0,43

Podstawowe statystyki

połówek testowych

Test losowy:
Średnia korelacji pozycji r

1-6

= 0,00

Średnie odchylenie standardowe SD

= 0,49

Korelacja połówek r

= 0,03

Test psychologiczny:
Średnia korelacji pozycji r

1-6

= 0,21

Średnie odchylenie standardowe SD

= 0,43

Korelacja połówek r

= 0,68

Podstawowe statystyki

połówek testowych

Test losowy:
M

= 1,43 i M

= 1,79 – połówki nie są

równoległe (średnia różnic nie jest

równa zero, co wskazuje na

istnienie systematycznej wariancji

między połówkami – w miejsce

wariancji średnia kwadratu różnic

powinna być użyta).

Test psychologiczny:
M

= 1,50 i M

= 1,50 – połówki są

równoległe (nie ma znaczenia jaka

statystyka będzie użyta).

Rzetelność połówkowa testu

losowego

Rulona R

= 1 - (1,17/1,45)= 0,19

(wariancja)

Rulona R

= 1 - (1,50/1,45) = -0,03 

0,00 (kwadrat różnic)

Guttmana R

= 2*[1-

(0,67+0,74)/1,45] = 0,06

Kudera-Richardson KR-20 =

(2/1)*[(1,45-1,41)/1,45 = 0,06

Spearmana-Browna R

ttn

= (2*0,03)/

(1+0,03)=0,06

Rzetelność testu losowego

– poziom pozycji (oraz

)

Alfa Cronbacha:
 = (6/5)*[1-(1,45/1,45)]=0,00
Spearmana-Browna:
R

ttn

= (6*0,00)/[1+5*0,00)=0,00

Standardowy błąd pomiaru
S

= S

*(1 - R

)= 1,25*(1- 0,00) =

1,25, co oznacza, że S

= S

Rzetelność połówkowa testu

psychologicznego

Rulona R

= 1 - (0,43/2,29) = 0,81

(wariancja)

Rulona R

= 1 - (0,43/2,29) = 0,81

(kwadrat różnic)

Guttmana R

= 2*[1-

(0,68+0,68)/2,29] = 0,81

Kudera-Richardson KR-20 =

(2/1)*[(2,29-1,36)/ 2,29 = 0,81

Spearmana-Browna R

ttn

= (2*0,68)/

(1+0,68)=0,81

Rzetelność testu

psychologicznego - pozycje

Alfa Cronbacha:
 = (6/5)*[1-(1,14/2,29)]=0,60
Spearmana-Browna:
R

ttn

= (6*0,21)/[1+5*0,21)=0,61

Obserwacja

Ocena rzetelności metodami

połówek testowych prowadziła do
osiągnięcia współczynnika
rzetelności rzędu 0,81, zaś ocena
rzetelności metodą zgodności
pozycji tylko współczynnika rzędu
0,60 (zwłaszcza wzór Spearmana-
Browna dał odmienne wyniki).
Powstaje pytanie - dlaczego?
Wydaje się, że połówki testowe nie
były w pełni reprezentatywne dla
całego testu.

Podział

Pozycje w każdej

połówce

ttn

S-B

Gutma

nna

1-2-3 vs 4-5-6

1,50

0,68

0,81

1-2-4 vs 3-5-6

1,64

1,36

0,52

0,80

0,75

0,86

0,85

1-2-5 vs 3-4-6

1,29

1,71

0,63

1,06

0,36

0,53

0,52

1-2-6 vs 3-4-5

1,79

1,21

0,60

1,03

0,42

0,59

0,58

1-3-4 vs 2-5-6

1,21

1,79

1,03

0,60

0,42

0,59

0,58

1-3-5 vs 2-4-6

0,86

2,14

1,12

0,84

0,17

0,29

1-3-6 vs 2-4-5

1,36

1,64

0,80

0,52

0,75

0,86

0,85

1-4-5 vs 2-3-6

1,00

2,00

1,00

0,14

0,25

1-4-6 vs 2-3-5

1,50

0,68

0,81

1-5-6 vs 2-3-4

1,14

1,86

0,84

0,98

0,26

0,41

Tabela 5. Wszystkie możliwe podziały połówkowe skali E z EPQ-R(24).

Wnioski

 Tylko podziały nr 1 oraz 9

prowadziły do uzyskania
równoległych połówek testu, co
oznacza, że wybrany podział
prowadził do „zyskiwania na
przypadku”.

 Średnia współczynnika Guttmanna

była równa 0,60 – tę samą wartość
dała alfa Cronbacha (alfa jest
równa średniej wszystkich
podziałów testu na połowy lub ich
większej części).

Standardowy błąd pomiaru

testu psychologicznego

Standardowy błąd pomiaru:
S

= 1,51*(1-0,60) = 0,96

Półprzedział ufności:
S

bp95%

= 1,96*S

= 1,88, z zatem

przedział ufności jest równy S

1,88 (wynik prawdziwy osoby
badanej mieści się w przedziale ->
wynik otrzymany + ok. 2 punkty, z
pewnością 95%).

Stabilność czasowa

Stabilność

bezwzględna

(powtórny

pomiar tym samym testem)

Stabilność

względna

(powtórny

pomiar wersją równoległą testu)

Forma oboczna -

test-retest

(pomiar tym samym testem raz po
razie)

Założenia metod z

powtarzanym pomiarem

Podstawowe założenie – oba

pomiary są równoległe.

Wskaźnikiem rzetelności jest

zwykły współczynnik korelacji

Pearsona lub współczynnik Scotta-

Wertheimera.

W przypadku pomiarów quasi-

równoważnych (systematyczne

zmiany nasilenia mierzonej cechy)

tylko zwykła korelacja Pearsona

może być użyta.

Współczynnik korelacji

wewnątrzklasowej wg Scotta-

Wertheimera

 (X

- X

)

= 1 - -----------------

2 N S

2(X1,X2)

gdzie X

oraz + X

to wyniki

pierwszego i drugiego badania, N -
liczba osób badanych, a S

2(X1,X2)

- to

wariancja wyników w obu badaniach)

Tabela 6. Stabilność czasowa skal PTS: bezwzględna

(po 2 tygodniach i 6 miesiącach oraz względna (po 2 tygodniach).

Współczynnik rzetelności

Siła

Procesu

Pobudzenia

Siła

Procesu

Hamowania

Ruchliwość

Procesów

Nerwowych

Alfa Cronbacha (19

pozycji)

0,83

0,73

0,81

Stabilność bezwzględna

(2 tygodnie)

0,76*

0,60*

0,78*

Stabilność bezwzględna

(6 miesięcy)

0,62*

0,53*

0,68*

Stabilność względna

(2 tygodnie)

0,63*

0,58*

Metoda testów równoległych

Metoda testów równoległych wymaga

dwóch odrębnych testów - jest metodą
uogólnioną, łącząca zgodność
wewnętrzną oraz test-retest. W
metodzie tej wykorzystujemy
współczynnik korelacji Pearsona -
rzetelność pomiaru jest równa
współczynnikowi korelacji obu testów
równoległych (wielkości kowariancji
obu testów)

Czynniki wpływające na

rzetelność pomiaru

 Zakres (zmienność) wyników w

badanej próbie – współczynniki są
niższe w przypadku, gdy zmienność
w próbie jest mniejsza (lub osoby
badane mają zbliżone nasilenie
cechy). Należy pamiętać, że
współczynnik rzetelności oznacza
rzetelność różnic
interindywidualnych lub rzetelność
zróżnicowania osób badanych.

Czynniki wpływające na

rzetelność pomiaru

 Charakterystyka testu –

współczynniki są wyższe gdy test
zawiera dużo pozycji (z uwagi na
dużą liczbę kowariancji) oraz gdy
korelacje między pozycjami są
wysokie (z uwagi na to, że duża
proporcja wariancji całkowitej
wynika z kowariancji). Należy
pamiętać, że kowariancje są
traktowane jako źródło wariancji
prawdziwej.

Czynniki wpływające na

rzetelność pomiaru

 Metoda oszacowania rzetelności

pomiaru – współczynniki zgodności
wewnętrznej dają wyższe
oszacowanie rzetelności niż
współczynniki stabilności (z uwagi
na większą liczbę źródeł błędu).
Należy pamiętać, że testy o wyższej
zgodności wewnętrznej zwykle
wykazują też wyższą stabilność
czasową (poza testami badającymi
stany psychologiczne).

Kryteria akceptacji

rzetelności pomiaru testem

Zgodność wewnętrzna:
 Testy przeznaczone do diagnozy

indywidualnej - wartość minimalna

0,80, wartość optymalna – ponad

0,90.

 Testy przeznaczone do badań

naukowych - wartość minimalna

0,70, wartość optymalna – ponad

0,80

 Absolutna wartość minimalna

współczynnika rzetelności wynosi

0,50 (połowa wariancji wynika z

błędu).

Kryteria akceptacji

rzetelności pomiaru testem

Stabilność czasowa:
 Wartość minimalna = 0,50 (tylko

połowa zmienności wynika ze

zgodności wyników obu pomiarów).

Testy równoległe:
 Wartość minimalna = 0,50 (tylko

połowa zmienności wynika ze

zgodności wyników obu testów).

Rodzaj testu a wybór metody

szacowania rzetelności

 Testy zdolności – metody

połówkowe (z uwagi na różną
trudność pozycji, które nie są
równoległe).

 Inwentarze osobowości – alfa

Cronbacha lub KR-20 (zgodność
wewnętrzna na poziomie pozycji).

 Testy szybkości – metoda test-

retest lub metoda testów
równoległych.

Praktyczne wykorzystanie

oszacowania rzetelności

pomiaru

Na podstawie współczynnika rzetelności

pomiaru wyznaczany jest

standardowy

błąd pomiaru wyników otrzymanych

(symetryczny wokół wyniku otrzymanego
i asymetryczny dla wyniku prawdziwego)
albo

standardowy błąd estymacji wyniku

prawdziwego

(asymetryczny wokół

wyniku otrzymanego i symetryczny wokół
wyniku prawdziwego oraz o różnej
asymetrii dla poszczególnych wyników
otrzymanych)

Standardowy błąd pomiaru

wyniku otrzymanego

= S

 (1 - R

)

Standardowy błąd estymacji

wyniku prawdziwego

= S

R

a wynik prawdziwy:

= R

+ (1 - R

)

Wyznaczanie przedziału

ufności

W celu wyznaczenia przedziału

ufności należy wyznaczyć
półprzedział, tzn. S

lub S

przemnożyć przez wartość 2,58
(99% pewność), 1,96 (95%
pewność) albo 1,44 (pewność 85%,
tj. 15% błąd oszacowania) oraz
dodać i odjąć od wyniku
otrzymanego lub oszacowanego
wyniku prawdziwego - granice
przedziału ufności.

Zastosowanie

standardowych błędów

pomiaru

 Błędy pomiaru służą do

wyznaczenia granic przedziału

ufności wokół wyniku otrzymanego

i przedziałowej estymacji wyniku

prawdziwego (w zakresie którego

mieści się – z określoną pewnością

wynik prawdziwy osoby badanej).

 Porównania wyniku danej osoby z

normą (średnią w grupie) czy inną

wartością (np. wynikiem

progowym).

Zastosowanie

standardowych błędów

pomiaru

 Porównania wyników dwóch osób

(różnice interindywidualne)

badanych tym samym testem (czy

różnica jest realna – wynika z cechy

czy jest spowodowana przez błąd?).

 Porównania wyników danej osoby

(różnice intraindywidualne)

badanej dwoma testami (czy

różnica jest realna – wynika z cechy

czy jest spowodowana przez błąd?).

Standardowy błąd różnicy

wyników

interindywidualnych

= S

 2 (1-R

)

- odchylenie standardowe wyników

otrzymanych, R

- współczynnik

rzetelności testu (wartość S

należy

przemnożyć przez określoną

wartość „z” w celu zbudowania

przedziału ufności).

Standardowy błąd różnicy

wyników

intraindywidualnych

= S

 2 - R

- R

- odchylenie standardowe wyników

otrzymanych w każdym z testów

(wyniki są wyrażone na identycznej

skali standardowej), R

i R

współczynniki rzetelności obu

testów (wartość S

należy

przemnożyć przez określoną

wartość „z” w celu zbudowania

przedziału ufności).

Document Outline

Slide 1
Slide 2
Slide 3
Slide 4
Slide 5
Slide 6
Slide 7
Slide 8
Slide 9
Slide 10
Slide 11
Slide 12
Slide 13
Slide 14
Slide 15
Slide 16
Slide 17
Slide 18
Slide 19
Slide 20
Slide 21
Slide 22
Slide 23
Slide 24
Slide 25
Slide 26
Slide 27
Slide 28
Slide 29
Slide 30
Slide 31
Slide 32
Slide 33
Slide 34
Slide 35
Slide 36
Slide 37
Slide 38
Slide 39
Slide 40
Slide 41
Slide 42
Slide 43
Slide 44
Slide 45
Slide 46
Slide 47
Slide 48
Slide 49
Slide 50
Slide 51
Slide 52
Slide 53
Slide 54
Slide 55
Slide 56
Slide 57
Slide 58
Slide 59
Slide 60
Slide 61
Slide 62
Slide 63
Slide 64
Slide 65
Slide 66
Slide 67
Slide 68
Slide 69
Slide 70
Slide 71
Slide 72
Slide 73
Slide 74
Slide 75
Slide 76
Slide 77
Slide 78
Slide 79
Slide 80
Slide 81
Slide 82
Slide 83
Slide 84
Slide 85
Slide 86
Slide 87
Slide 88
Slide 89
Slide 90
Slide 91
Slide 92
Slide 93
Slide 94
Slide 95
Slide 96
Slide 97
Slide 98
Slide 99
Slide 100
Slide 101
Slide 102
Slide 103
Slide 104
Slide 105
Slide 106
Slide 107
Slide 108
Slide 109
Slide 110
Slide 111
Slide 112
Slide 113
Slide 114
Slide 115
Slide 116
Slide 117
Slide 118
Slide 119
Slide 120
Slide 121
Slide 122
Slide 123
Slide 124
Slide 125
Slide 126
Slide 127
Slide 128
Slide 129
Slide 130
Slide 131
Slide 132
Slide 133
Slide 134
Slide 135
Slide 136
Slide 137
Slide 138
Slide 139
Slide 140
Slide 141
Slide 142
Slide 143
Slide 144
Slide 145
Slide 146
Slide 147
Slide 148
Slide 149
Slide 150
Slide 151
Slide 152
Slide 153
Slide 154
Slide 155
Slide 156
Slide 157
Slide 158
Slide 159
Slide 160
Slide 161
Slide 162
Slide 163
Slide 164
Slide 165
Slide 166
Slide 167
Slide 168
Slide 169
Slide 170
Slide 171
Slide 172
Slide 173
Slide 174
Slide 175
Slide 176
Slide 177
Slide 178
Slide 179
Slide 180
Slide 181
Slide 182
Slide 183
Slide 184
Slide 185
Slide 186
Slide 187
Slide 188
Slide 189
Slide 190
Slide 191
Slide 192