background image

 

 

BOGDAN ZAWADZKI

PODSTAWY POMIARU 

PSYCHOMETRYCZNEG

O

background image

 

 

Program wykładu

Wykład 1. Test jako narzędzie 

diagnozy psychologicznej – 
podstawowe pojęcia.

Wykład 2. Rodzaje testów 

psychologicznych.

Wykład 3. Diagnoza psychologiczna 

za pomocą testów – aspekt 
psychologiczny, metodologiczny, 
psychometryczny i etyczny.

background image

 

 

Program wykładu

Wykład 4. Pomiar różnicowy w 

psychologii – podstawowe założenia.

Wykład 5-6. Rzetelność pomiaru testem 

– podstawy teorii rzetelności testów 
psychologicznych w ujęciu klasycznej 
teorii testów i metody szacowania.

Wykład 7-8. Trafność pomiaru testem: 

pojęcie trafności pomiaru i rodzaje 
trafności.

background image

 

 

Program wykładu

Wykład 9-10. Podstawowe 

problemy konstruowania testów: 
strategie konstruowania testów i 
procedura konstrukcji testów.

Wykład 11. Czynniki 

zniekształcające wyniki testowe. 

Wykład 12. Podstawowe problemy 

kulturowej adaptacji testów.

background image

 

 

Program wykładu

Wykład 13. Normalizacja wyników 

testu.

Wykład 14. Interpretacja wyników 

testowych.

Wykład 15. Użyteczność 

standardwych metod diagnostycznych 
w praktyce psychologicznej – wyniki 
metaanaliz dotyczące wybranych 
metod oraz podsumowanie wykładów.

background image

 

 

Literatura wprowadzająca

 Ciechanowicz, A., Jaworowska, A. i Szustrowa, 

T. (1996). Testy Prawo Praktyka. Warszawa: 
Pracownia Testów Psychologicznych PTP.

 Zawadzki, B. i Hornowska, E. (2008). 

Psychometria. Konstrukcja i adaptacja testów 
psychologicznych. W: J. Strelau i D. Doliński 
Brzeziński (red.), Psychologia. Podręcznik 
akademicki 
(s. 847-893). Gdańsk: Gdańskie 
Wydawnictwo Psychologiczne.

background image

 

 

Literatura obowiązkowa

Hornowska, E. (2001). Testy 

psychologiczne. Teoria i praktyka
Warszawa: Wydawnictwo Naukowe Scholar.

Hornowska, E., Paluchowski, W. J. (2004). 

Kulturowa adaptacja testów 
psychologicznych. W: J. Brzeziński (red.), 
Metodologia badań psychologicznych. 
Wybór tekstów
 (s. 151-191). Warszawa: 
Wydawnictwo Naukowe PWN.

background image

 

 

Literatura uzupełniająca

 Anastasi, A i Urbina, S. (1999). Testy 

psychologiczne. Warszawa: Pracownia Testów 
Psychologicznych PTP.

 Brzeziński, J. (2005)(red.). Trafność i rzetelność 

testów psychologicznych. Wybór tekstów
Gdańsk: Gdańskie Wydawnictwo 
Psychologiczne.

 Magnusson, D. (1981). Wprowadzenie do teorii 

testów. Warszawa: PWN (rozdz. 5-11,14-16).

background image

 

 

Literatura uzupełniająca

 Murphy, K. R. i Davidshofer, C. O. (2005). 

Psychological testing. Principles and applications 
(VI International edition). Upper Saddle River, 
N.J.: Prentice-Hall, Inc.

 Zawadzki, B. (2002). Temperament - geny i 

środowisko. Porównania wewnątrz – i 
międzypopulacyjne
. Gdańsk: GWP (rozdz. 3).

 Zawadzki, B. (2006). Kwestionariusze 

osobowości: strategie i procedura konstruowania
Warszawa: Wydawnictwo Naukowe Scholar.

background image

 

 

Wykład 1

DIAGNOZA PSYCHOLOGICZNA 

ZA POMOCĄ TESTÓW 

STANDARDOWYCH: 

PODSTAWOWE POJĘCIA

background image

 

 

Metody badawcze w 

psychologii

Metody eksperymentalne

Metody diagnostyczne

background image

 

 

Podstawowy schemat 

badawczy dla wszystkich 

metod

B – R

B - (bodziec = zmienna/zmienne 

niezależne)

R (reakcja = zmienna zależna)

background image

 

 

Schemat badawczy metod 

eksperymentalnych

 Zmienna niezależna główna różni się 

dla poszczególnych osób (grup 

badawczych).

 Inne zmienne niezależne są 

identyczne dla wszystkich osób 

badanych (lub rozkładają się losowo).

background image

 

 

Schemat badawczy metod 

eksperymentalnych

Wniosek: zmiany (lub różnice) 

w zmiennej zależnej 

(zachowaniu) zależą od 

głównej zmiennej niezależnej.

background image

 

 

Schemat badawczy metod 

eksperymentalnych

Metody eksperymentalne 

pozwalają na ocenę wpływu 

czynników zewnętrznych 

(„środowiskowych”) na 

zachowanie. 

background image

 

 

Schemat badawczy metod 

diagnostycznych

 Zmienna niezależna główna jest 

identyczna dla poszczególnych osób 

badanych.

 Inne zmienne niezależne są 

identyczne dla wszystkich osób 

badanych (lub rozkładają się losowo).

background image

 

 

Schemat badawczy metod 

diagnostycznych

Wniosek: różnice 

międzyosobnicze w zachowaniu 

nie zależą od zmiennej 

niezależnej, ale od czynników 

wewnętrznych („latentnych” 

cech). 

background image

 

 

Schemat badawczy metod 

diagnostycznych

Metody diagnostyczne pozwalają 

zatem na ocenę wpływu 

czynników wewnętrznych 

(„osobowościowych”) na 

zachowanie.

background image

 

 

Metody diagnozy 

psychologicznej

   Kryteria podziału (interpretacja 

zachowania i stopień formalizacji 
procedury):

Zachowanie jako próbka (testy 

standaryzowane)

Zachowanie jako znak (testy 

projekcyjne)

Metody niesformalizowane (swobodne)

background image

 

 

Do czego służą testy?

   Testy są metodami, służącymi do 

zbierania informacji o człowieku, 
potrzebnej do diagnozy psychologicznej. 
Diagnoza psychologiczna jest procesem 
aktywnego poszukiwania danych 
potrzebnych do podjęcia decyzji o 
działaniach, zmierzających do zmiany 
aktualnego stanu (położenia) 
psychospołecznego ludzi (w efekcie 
terapii, porady, itp.).

background image

 

 

Co mierzą testy?

   Testy służą do rejestracji faktów 

psychologicznych z życia człowieka, 
tj. informacji o jego zachowaniu: 
przeszłym lub obecnym, typowym 
(najczęstszym - cechy) lub chwilowym 
(stany). Testy są metodami 
rejestrującymi różnice w zachowaniu 
ludzi oraz stałość czasową i 
sytuacyjną zachowania danego 
człowieka.

background image

 

 

Testy są metodami badania 

zachowania

   Testy nie pozwalają na bezpośredni 

pomiar cech (czy stanów) - badają 
jedynie zachowanie. Cechy (stany) 
są psychologicznymi 
interpretacjami istnienia różnic 
indywidualnych w wynikach testu 
(wyjaśnieniami w terminach 
„latentnych” cech lub stanów, 
które wpływają na wyniki testowe 
oraz warunkują istnienie różnic 
międzyosobniczych w wynikach 
testu).

background image

 

 

Co to jest test?

   Standardy dla testów stosowanych w 

psychologii i pedagogice (APA, 2007, s. 
24):

   „Testem jest narzędzie lub 

procedura służące ocenie. Ich istotą 
zaś – otrzymanie w określonych 
warunkach próbki zachowania osób 
badanych, a następnie dokonanie 
ich oceny zgodnie z 
wystandaryzowanymi regułami
”.

background image

 

 

Poprzednia definicja w 

Standardach APA

   Test to 

procedura diagnozowania

Może on być zbiorem zadań lub pytań, 
które - w standardowych warunkach 
(tj. stałych, jednakowych dla 
wszystkich) - mają wywoływać - 
określone rodzaje zachowań i 
dostarczać wyników o pożądanych 
własnościach psychometrycznych, tj. 
posiadających wysoką rzetelność i 
wysoką trafność.

background image

 

 

Elementy składowe testu 

(zgodnie ze schematem: B-R)

   1). test psychologiczny zawiera próbki 

zadań - czyli określone standardowe 
bodźce; test psychologiczny jednak to 
przede wszystkim specyficzna forma 
interakcji między osobą badającą a 
osobą badaną, która to interakcja 
zachodzi w określonych warunkach 
czasowych, fizycznych i 
psychologicznych (procedura, a nie 
tylko sam materiał).

background image

 

 

Elementy składowe testu 

(zgodnie ze schematem: B-R)

    2). test psychologiczny zawiera skalę 

lub skale standardowe, rejestrujące 
wywołane przez bodźce reakcje; 
przedmiotem rejestracji w teście jest 
zachowanie, które:

   a). jest deskrypcją cechy,
   b). którego aspekt spełnia kryteria: 

typowości, specyfiki dla występującego 
bodźca oraz reprezentacji ilościowej, a 
nie jakościowej.

background image

 

 

Elementy składowe testu

   3). test psychologiczny dostarcza 

reguł dochodzenia do wyniku oraz 
jego oceny, w dwóch aspektach:

   a). indywidualnym - informuje o 

nasileniu danej cechy u danej 
jednostki;

   b). pomiarowym - umożliwia 

oszacowanie parametrów "dobroci" 
pomiaru testem.

background image

 

 

Jakie wymogi muszą spełniać 

testy?

   Testy muszą być tak skonstruowane, 

aby ich zastosowanie do pomiaru 
cech człowieka, charakteryzowało się 
odpowiednio wysoką 

rzetelnością

trafnością

obiektywnością

standaryzacją 

znormalizowaniem

 - 

test zatem musi spełniać te 
wymagania, by mógł być stosowany, i 
żeby mógł być nazwany testem.

background image

 

 

Kryterium standaryzacji

    Standaryzacja oznacza, że 

procedura 

badania testem

 musi być tak 

szczegółowo opracowana, aby 
stosowanie go było za każdym razem 
identyczne - niezależnie od osoby 
badającej i osoby badanej; standaryzacja 
ma na celu zminimalizowanie wpływu 
czynników ubocznych lub zakłócających 
(wewnętrznych i zewnętrznych) na 
wyniki testowe.

background image

 

 

Kryterium obiektywności

    Obiektywność oznacza, że 

procedura interpretacji

 wyników 

badania testem musi być tak 
szczegółowo opracowana, aby 
interpretacja była za każdym razem 
identyczna - niezależnie od osoby 
badającej; obiektywność ma na celu 
zminimalizowanie wpływu osoby 
badającej na wyniki testowe.

background image

 

 

Kryterium normalizacji

    Normalizacja oznacza konieczność 

opracowania procedury przekształcania 
wyników liczbowych w wyniki 
różnicowe, umożliwiające ocenę wyniku 
danej osoby na tle reprezentatywnej 
populacji; normalizacja ma na celu 
zminimalizowanie błędi związanego z 
oceną faktycznego nasilenia cechy u 
osoby badanej, a więc błędnej diagnozy 
psychologicznej.

background image

 

 

Kryterium rzetelności

    Rzetelność oznacza konieczność 

takiego opracowania testu (materiału 
testowego i procedury badania), aby 
maksymalizował on dokładność 
pomiaru cechy badanej przez test; 
rzetelność ma dwa aspekty - 
stabilność pomiaru (powtarzalność 
wyników badania) oraz konsystencję 
(precyzję pomiaru).

background image

 

 

Kryterium trafności

    Trafność oznacza wymóg takiego 

opracowania testu (materiału 
testowego i procedury badania), aby 
maksymalizował on stopień, w jakim 
test mierzy daną cechę; trafność ma 
dwa aspekty - dotyczy tego, co test 
mierzy i jak dobrze to mierzy oraz 
dotyczy tego, co możemy 
przewidywać na podstawie wyników 
testowych.

background image

 

 

Wykład 2

RODZAJE TESTÓW 

PSYCHOLOGICZNYCH

background image

 

 

Jakie są rodzaje testów?

    Pod względem specyfiki zbierania 

informacji rozróżniamy następujące 
testy standaryzowane:

background image

 

 

Rodzaje testów

1). Test, w którym jednostka wykonuje 

specyficzne zadanie - test ten 
wymaga maksymalnego wykonania 
(testy inteligencji, zdolności, 
wiadomości, sprawności 
psychomotorycznej). Testy 
maksymalnego wykonania mogą być 
testami mocy, testami szybkości lub 
testami z ograniczeniem czasowym.

background image

 

 

Rodzaje testów

2). Test, w którym jednostka sama 

opisuje swoje zachowanie - test 
rejestruje samopis typowego 
zachowania (inwentarze, ankiety, 
arkusze biograficzne).

background image

 

 

Rodzaje testów

3). Test, w którym jednostka jest 

obserwowana w specyficznej sytuacji 
lub ogólniej - w wielu określonych 
sytuacjach - test rejestruje dane 
obserwacyjne typowego zachowania 
lub wykonania zadania w naturalnych 
warunkach (próbki pracy zawodowej, 
arkusze obserwacyjne, arkusze ocen, 
arkusze szacowania cech).

background image

 

 

Formalna klasyfikacja testów

 Testy jedno-skalowe – interpretacja w 

terminach intensywności cechy 
(diagnoza ilościowa) albo interpretacja 
typologiczna (diagnoza jakościowa).

 Testy wielo-skalowe – interpretacja 

profilu testowego (model cech 
równorzędnych lub model 
hierarchiczny), który może być 
wykorzystany w diagnozie typologicznej 
lub intraindywidualnej (różnicowej). 

background image

 

 

Rycina 1. Wyniki testowe, 

pozwalające na diagnozę 

intensywności cechy.

Wynik przeciętny – przeciętna intensywność 

cechy

Wynik niski – mała intensywność cechy

Wynik wysoki – duża intensywność cechy

background image

 

 

Rycina 2. Wyniki testu jedno-

skalowego do diagnozy 

typologicznej.

Wyniki testu zbliżone do grupy „górnej”

Wyniki testu zbliżone do grupy „dolnej”

background image

 

 

Ryc. 3. Wyniki testu wielo-skalowego, 

służące do diagnozy profilowej (cechy 

równorzędne).

background image

 

 

Rycina 4. Wyniki testu wielo-

skalowego (model hierarchiczny).

Poszukiwanie Doznań

Poszukiwanie grozy i przygód

Poszukiwanie przeżyć

Wrażliwość na nudę

Rozhamowanie

background image

 

 

Intraindywidualna diagnoza 

różnicowa

   Nie tylko porównania 

międzyosobnicze, ale także 
wewnątrzosobnicze, np. werbalny i 
niewerbalny IQ (diagnoza 
ilościowa).

background image

 

 

Historia testów (oraz 

psychometrii)

 3000 lat p.n.e – testowanie w 

chińskiej służbie cywilnej;

 1850-1900 – badania służb cywilnej 

w USA;

 1900-1920 – rozwój testów zdolności 

umysłowych (teoria 
psychometryczna);

 1920-1940 – rozwój inwentarzy 

osobowości (analiza czynnikowa);

background image

 

 

Historia testów (oraz 

psychometrii)

 1940-1960 – rozwój narzędzi do diagnozy 

zainteresowań zawodowych oraz 
psychopatologii;

 1960-1980 – rozwój narzędzi do diagnozy 

neuropsychologicznej (item response 
theory
 – „teoria odpowiadania na pozycje 
testowe);

 Od 1980 – rozwój metody „adaptacyjnego 

testowania komputerowego” 
(computerized adaptative testing
).

background image

 

 

Historia najbardziej 

popularnych testów

1905: Binet i Simon – pierwsza skala 
inteligencji;

1906: Heymans i Wiersma – pierwsze 
kwestionariuszowe badanie osobowości 
(metoda szacowania);

1917: Woodworth – pierwszy inwentarz 
osobowości (psychopatologia);

1927-1934: Strong/Kuder – pierwsze 
narzędzia do badania zainteresowań 
zawodowych;

background image

 

 

Historia najbardziej 

popularnych testów

 1939: Wechsler – Wechsler-Bellevue 

Intelligence Scale (1997 - WAIS-III); 

 1943: Hathaway i McKinley – 

Minnesota  Multiphasic Personality 

Inventory (1989 - MMPI 2);

 1949: Cattell – 16 PF (Personality 

Factors);

 1950 - 1990 – inwentarze Eysencka;
 1990 – 2000 – inwentarze do badania 

Wieliej Piątki (Costa i McCrae).

background image

 

 

Informacja o testach

 Standards for Educational and 

Psychological Testing (1985 and 

1999);

 Mental Measurements Yearbook 

and Test Critiques;

background image

 

 

Czasopisma presentujące 

testy (oraz kwestie 

psychometryczne)

 Psychometrika
 Educational and Psychological 

Measurement

 Applied Psychological Measurement
 Journal of Educational 

Measurement

 Journal of Educational Psychology
 Journal of Applied Psychology
 Personnel Psychology
 Journal of Consulting and Clinical 

Psychology

background image

 

 

Jakie są zastosowania 

testów?

   Testy są stosowane w badaniach 

naukowych i praktycznych:

   a). przydatności zawodowej, która 

wiąże się z:

        - doborem zawodowym,
        - poradnictwem zawodowym;
   b). diagnostyce klinicznej;
   c). diagnostyce zdolności specjalnych.

background image

 

 

Zalety i wady testów

   Testy „reprezentują najbardziej 

wartościową i sprawiedliwą 

technologię, umożliwiającą 

podejmowanie wielu ważnych 

decyzji o ludziach”, ale 

jednocześnie „testowanie 

psychologiczne jest bardzo 

kontrowersyjne” (Murphy i 

Davidshofer, 1989, s. 2). 

background image

 

 

Etyczne (kontroweryjne) 

aspekty testowania

 Wpływ testowania na społeczeństwo 

(różnice realne czy pozorne?, 

efektywność czy równość?, 

pomaganie czy ranienie ludzi?);

 Naruszenie prywatności (informacja o 

życiu prywatnym, problem poufności 

oraz udostępniania wyników testu);

 Sprawiedliwe użycie testu (równa 

dostępność materiału testowego – 

kwestie kulturowe, badanie osób 

niepełnosprawnych).

background image

 

 

Wykład 3

   

PSYCHOLOGICZNY, 

METODOLOGICZNY, 

PSYCHOMETRYCZNY I ETYCZNY 

ASPEKT DIAGNOZY 

PSYCHOLOGICZNEJ ZA POMOCA 

METOD TESTOWYCH

background image

 

 

Aspekty diagnostyki 

testowej

   Diagnostyka psychologiczna, 

realizowana za pomocą testów 
standaryzowanych, obejmuje: 
aspekt 

psychologiczny

metodologiczny

psychometryczny

 

oraz 

etyczny

 pomiaru.

background image

 

 

Aspekt 

psychologiczny

 

diagnozy

    Związany jest z treścią psychologiczną 

pomiaru i odnosi się on zatem do:

   a). problemu badawczego wyznaczonego 

przez cel diagnozy;

   b). koncepcji (czy wiedzy) 

psychologicznej, precyzującej, jakie cechy 
psychologiczne są mierzone testem;

   c). interpretacji i wniosków 

psychologicznych formułowanych na 
podstawie pomiaru testowego.

background image

 

 

Aspekt 

metodologiczny

 

diagnozy

   Dotyczy formalnych reguł stosowania 

testu: procedury badania, obliczania 
wyników i transformacji na wyniki 
standaryzowane oraz interpretacji 
uzyskanych danych, a więc odnosi się 
do procesu dochodzenia do diagnozy 
psychologicznej. Aspekt 
metodologiczny wiąże się z 
wymaganiami standaryzacji, 
obiektywności i normalizacji testu.

background image

 

 

Aspekt 

etyczny

 diagnozy

   Odnosi się do konsekwencji 

życiowych i społecznych dla osoby 
badanej, wynikających z pomiaru 
testem. Problemy te obejmują:

   a). stronniczość, która prowadzi do 

dyskryminowania (lub 
faworyzowania) określonych osób 
lub grup społecznych, np. w postaci 
seksizmu, rasizmu, itp.

background image

 

 

Aspekt 

etyczny

 diagnozy

   b). naruszenie wolności osobistej 

(ujawnienie tajemnicy pomiaru testowego 
osobom postronnym, niewłaściwy sposób 
komunikowania wyników samej osobie 
badanej, brak dobrowolności udziału w 
badaniach lub brak możliwości rezygnacji 
z badań w ich trakcie).

   c). "etykietowanie" (stygmatyzowanie), 

wynikające z ahumanistycznego celu 
badania.

background image

 

 

Aspekt 

psychometryczny

 

diagnozy

    1). konieczność uwzględniania we 

wnioskowaniu wskaźników 
psychometrycznych, 
charakteryzujących dokładność czy 
pewność diagnozy;

    2). stosowania określonych procedur 

matematycznych do oceny jakości i 
poprawności pomiaru testowego, 
wynikających z modeli 
psychometrycznych i teorii pomiaru.

background image

 

 

Wykład 4

SPECYFIKA POMIARU 

RÓŻNICOWEGO W 

PSYCHOLOGII - TESTY JAKO 

NARZĘDZIA DO BADANIA 

SPECYFIKI JEDNOSTKI

background image

 

 

Cel pomiaru różnicowego w 

psychologii

   Celem pomiaru psychologicznego 

jest różnicowanie ludzi - określenie 
ich specyfiki na tle innych osób 
(populacji odniesienia). Cel ten 
może być realizowany na dwa 
sposoby: podejście 

idiograficzne

 i 

nomotetyczne

.

background image

 

 

Podejście idiograficzne i 

nomotetyczne

Celem podejścia 

idiograficznego

 jest 

uchwycenie specyfiki jednostki porzez 
wyodrębnienie cech, 
charakterystycznych tylko dla niej i 
wskutek tego wyróżniających ją z 
populacji.

Celem podejścia 

nomotetycznego

 jest 

określenie specyfiki jednostki poprzez 
wskazanie charakterystycznego dla niej 
nasilenia cech, wspólnych dla populacji.

background image

 

 

Pomiar w psychologii - 

definicja

 Pomiar - proces 

przyporządkowywania obiektom 

określonych liczb w taki sposób, 

aby specyficzne cechy tych 

obiektów były odzwierciedlone 

przez własności liczb

.

Pomiar (w psychologii) - proces 

przyporządkowania liczb (tzn. 

wyników testowych) osobom 

badanym w taki sposób, aby 

mierzone testem własności 

psychologiczne tych osób były 

odzwierciedlone przez własności 

liczb

.

background image

 

 

Pojęcie cechy

Cecha – zmienna osobowa, która 

wykazuje międzyosobniczą 
zmienność i wewnątrzosobniczą 
stałość (czasową i sytuacyjną oraz 
koherencję (spójność) wskaźników. 
Nomotetyczna cecha jest zatem 
zmienną ilościową - możliwy pomiar 
na skali przedziałowej.

background image

 

 

Rozkład normalny a pomiar 

w psychologii

   Cechy psychologiczne mają rozkład 

normalny w populacji – jest zatem 
oczywiste, że testy przeznaczone do 
pomiaru tych cech powinny dostarczać 
wyników o rozkładzie normalnym. Na 
podstawie tego założenia „krzywa 
normalna” jest traktowana jako model 
rozkładu wyników testu (wartości ciągłe 
i równe różnice pomiędzy wszystkimi 
wartościami wyników testu).

background image

 

 

Standardy porównań dla 

pomiaru cech różnicowych

   Dla różnicowych cech ilościowych 

standardem (punktem odniesienia) 
jest 

średnia

 rozkładu normalnego, a 

zmienność definiowana jest poprzez 

odchylenie standardowe

 (lub 

wariancję

) tego rozkładu (wynik 

sumaryczny wyników pozycji jest dla 
danej osoby jest informacją o 
nasileniu jej cechy – cechy badanej 
przez test).

background image

 

 

Rycina 1. Rozkład normalny

0

0,25

0,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1

1,5

2

2,5

3

background image

 

 

Średnia arytmetyczna 

wyników testu

 X

i

M

o

 = --------

  N

background image

 

 

Wariancja wyników testu

 (X

i

 - M

o

)

2

S

o2

 = -----------------

   N

background image

 

 

Odchylenie standardowe 

wyników testu

 (X

i

 - M

o

)

2

S

o

 = 

 

-------------------

N

background image

 

 

Charakterystyka rozkładu 

normalnego

Wyniki standaryzowane
M

o

=0,00 oraz SD

o

=1,00, przy 

czym M

o

=M

e

=M

mod

Rozkład symetryczny, wykazujący 

odpowiednie zagęszczenie 
wyników wokół średniej 
(skośność - miara asymetrii oraz 
kurtoza - miara zagęszczenia)

background image

 

 

Charakterystyka rozkładu 

normalnego

Znana jest częstość poszczególnych 

wyników:

M

+ 1,00 - ok. 68% wyników

M

+ 2,00 - ok. 95% wyników

z = + 1,44 (15% wyników 

dwustronnie)

z = + 1,96 (5% wyników dwustronnie)
z = + 2,58 (1% wyników dwustronnie)

background image

 

 

Wniosek

   Krzywa normalna jest używana jako 

model rozkładu cech ilościowych w 

populacji oraz jako statystyczny 

model rozkładu wyników 

testowych. Model „normalny” 

wymaga „silnej” skali pomiarowej 

(wg klasyfikacji Stevensa): 

przedziałowej lub ilorazowej (nie 

nominalnej czy porządkowej). W 

psychologii tylko pomiar 

interwałowy jest osiągalny, ale 

skala ta wystarcza - testy oferują 

zatem pomiar na tej skali).

background image

 

 

Jak można osiągnąć wyniki 

ilościowe w teście?

   Zasadnicze pytanie to: jak test 

musi być skonstruowany, aby 

dostarczał wyników ilościowych 

(informujących o intensywności 

mierzonej cechy)?

   Cel ten może zostać osiągnięty 

jedynie poprzez wprowadzenie 

wielu zadań do testu (test jest 

zatem narzędziem obejmującym 

wiele pozycji, a wynik testowy jest 

uzyskany z wielu zadań).

background image

 

 

Test jako narzędzie 

obejmujące szereg pozycji 

(zadań)

Argumenty:

pomiar ilościowy (różnicowanie osób 
badanych)

minimalizacja błędu (czynnika losowego)

diagnoza jako efekt koincyndencji 
zachowań

ogólność psychologiczna wyniku 
testowego (a elementarność i 
konkretność pozycji)

background image

 

 

Rycina 2. Rozkład wyników 

testu z jedną pozycją

0

0,25

0,5

0,75

1

0

1

background image

 

 

Rycina 3. Rozkład wyników 

testu z dwoma pozycjami

0

0,25

0,5

0,75

1

0

1

2

background image

 

 

Rycina 4. Rozkład wyników 

testu z dziesięcioma 

pozycjami

0

0,25

0,5

0,75

0

1

2

3

4

5

6

7

8

9

10

background image

 

 

Rycina 5. Rozkład normalny 

wyników testu (wiele 

pozycji)

0

0,25

0,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1

1,5

2

2,5

3

background image

 

 

Pomiar ilościowy

   Rozkład wyników testu, podobnie 

jak każdej pozycji, jest „normalny” 

(dwumianowy lub dychotomiczny 

rozkład normalny), ale większość 

pozycji dostarcza danych 

mierzonych na skali nominalnej – 

poprzez zsumowanie wyników 

pozycji wynik ogólny testu 

odpowiada pomiarowi na skali 

przedziałowej (z wieloma 

kategoriami wyników, odmiennymi 

dla różnych osób badanych).

background image

 

 

Błąd pomiaru

   Prawidłowa odpowiedź na każdą z 

pozycji może być odgadnięta lub 

uzyskana losowo - z tego względu 

pomiar cechy za pomocą jednej 

pozycji jest obciążony dużym 

błędem (przypadkowości). Mało 

prawdopodobne jest natomiast 

otrzymanie wysokiego wyniku testu 

wyłącznie na drodze zgadywania 

(prawdopodobieństwo warunkowe 

wielu losowych sukcesów w 

przypadku testu z 10 zadaniami 

wynosi tylko 0.00098).

background image

 

 

Współwystępowanie 

zachowań

   Cecha jest własnością, która 

uzewnętrznia się w różnych 

zachowaniach, przy czym 

współwystępowanie tych zachowań 

jest specyficzne wyłącznie dla danej 

cechy. Każda z form zachowania 

może być charakterystyczna dla 

wielu cech, ale ich kombinacja jest 

specyficzna tylko dla danej cechy.

background image

 

 

Współwystępowanie 

zachowań

   Diagnoza, że dana osoba posiada 

daną cechę jest trafna jedynie, gdy 

wykazuje ona wszystkie 

zachowania, charakterystyczne dla 

tej cechy.

   Informacja uzyskana za pomocą 

jednej pozycji jest diagnostycznie 

niepewna, ale wynik ogólny (z wielu 

pozycji, badających różne formy 

zachowania) jednoznacznie 

wskazuje na określoną cechę 

(badaną przez test).

background image

 

 

Ogólna „natura” cechy

   Cecha jest własnością ogólną, która 

uzewnętrznia się w różnych 

zachowaniach i sytuacjach. Każda z 

form zachowania informuje o 

specyficznym aspekcie cechy, 

wszystkie razem zaś o cesze jako 

własności ogólnej. Każda z pozycji 

bada zatem specyficzną formę 

zachowania, zaś wynik ogólny w 

teście – ogólną tendencję  

(niespecyficzną dla określonej 

sytuacji lub formy zachowania).

background image

 

 

Wynik testu a wyniki pozycji

   Test musi zatem zawierać wiele 

pozycji, a wynik testu powinien być 
kombinacją wyników wszystkich 
pozycji (zazwyczaj jest definiowany 
jako suma ważonych lub nieważonych 
wyników poszczególnych pozycji). W 
efekcie wszystkie własności testu jako 
całości zależą wprost od wyników 
poszczególnych pozycji (oraz ich 
interkorelacji).

background image

 

 

Średnia testu a średnia 

pozycji

   Wynik testu jako suma wyników 

poszczególnych pozycji (wyniki zero-
jedynkowe: rozwiązane dobrze vs
 błędnie)

   Średnia wyników pozycji:

M

i

= p

   Średnia wyników testu:

M

 M

i

background image

 

 

Tabela 1. Test z losowymi odpowiedziami (6 pozycji, 14 ob.).

background image

 

 

Tabela 2. Dane z badania skalą E z EPQ-R(24) (6 pozycji, 14 o.b.). 

background image

 

 

Przykład: Średnia testu jako 

suma średnich pozycji

Średnia testu z odpowiedziami 

losowymi:

M=3,21
Suma średnich pozycji:
0,50+0,50+0,43+0,57+0,64+0,57 = 

3,21

Średnia testu psychologicznego:
M=3,00
Suma średnich pozycji:
0,57+0,86+0,43+0,21+0,21+0,71=3,

00

background image

 

 

Wniosek

   W każdym wypadku średnia 

wyników testu jest równa sumie 

średnich pozycji. Nowa pozycja 

dodana do testu prowadzi do 

wzrostu średniej wyników testu 

(bez względu na korelację tej 

pozycji z innymi pozycjami). W 

przypadku pozycji o ekstremalnej 

trudności (rozwiązanej przez 

wszystkie o.b. – pozycja „łatwa” lub 

nie rozwiązanej przez żadną z o.b. – 

pozycja „trudna”) średnia testu 

również wzrośnie (o wartość 

średniej równej 1 albo 0).

background image

 

 

Wariancja testu a wariancja 

pozycji

   Wynik testu jako suma wyników pozycji 

(wyniki zero-jedynkowe)

   Wariancja pozycji:

S

i2 

= p q

  
   Wariancja wyników testu:

S

o2

 S

i2

+ 2  r

ij

 S

i

 S

j

background image

 

 

Wariancja testu a wariancja 

pozycji

   Wzór na wariancję wyników testu jako 

sumy wyników pozycji jest 
rozwinięciem dwumianu Newtona:

 (a+b)

2

 = a

2

+ b

2

+ 2ab

  Liczba wyrażeń kowariancyjnych:

k = [j (j - 1)] / 2

background image

 

 

Współczynnik korelacji r-

Pearsona

    Korelacja jest miarą współzmienności 

(związku dwóch zmiennych)

 (X

i

- M

i

) (X

j

- M

j

)

r = ----------------------------

N S

i

 S

j

background image

 

 

Przykład: Wariancja testu 

jako suma wariancji pozycji

Wariancja testu z odpowiedziami 

losowymi:

S

o

2

=1,45

Suma wariancji pozycji: 
0,25+0,25+0,24+0,24+0,23+0,24 = 

1,45

Wariancja testu psychologicznego:
S

o

2

=2,29

Suma wariancji pozycji:
0,17+0,12+0,24+0,24+0,17+0,20 = 

1,14  2,29

background image

 

 

Przykład: Wariancja testu 

jako suma wariancji pozycji

   Przeciętna interkorelacja pozycji w 

teście losowym jest równa zero, z 

zatem kowariancja jest także równa 

zero.

   Przeciętna interkorelacja pozycji w 

teście psychologicznym jest równa 

0,21 (przeciętne S

o

=0,43), a zatem 

podwojona kowariancja = 

2*15*0,21*0,43*0,43= 1,16

   Wariancja ogólna = 1,14+1,16 = 

2,30  2,29

   Test losowy jest przypadkiem 

szczególnym testu z zerową 

kowariancją.

background image

 

 

Wniosek

   W każdym wypadku wariancja testu 

jest równa sumie wariancji pozycji 

oraz ich podwojonych kowariancji. 

Nowa pozycja dodana do testu 

zwiększa wariancję całkowitą tylko 

wtedy, gdy wariancja pozycji nie 

jest równa zero (nie ma sensu 

dodawania pozycji o zerowej 

wariancji, bowiem wydłuża to test, 

zaś różnice między wynikami 

testowymi pozostają takie same).

background image

 

 

Wniosek

   Nowa pozycja dodana do testu 

zwiększa znacznie wariację 

całkowitą, jeśli interkorelacje nowej 

pozycji z innymi pozycjami są 

dodatnie, ponieważ generuje to 

duże dodatnie kowariancje. 

Dodanie pozycji z zerowymi 

korelacjami zwiększa tylko trochę 

wariancję całkowitą (bo generuje 

zerowe kowariancje). Dodanie zaś 

pozycji o ujemnych korelacjach z 

innymi pozycjami obniża wariancję 

całkowitą (ujemne kowariancje).

background image

 

 

Wniosek

   Tylko pozycje z niezerowymi 

wariancjami oraz wysokimi 

pozytywnymi korelacjami powinny 

być dodawane do testu – znacznie 

zwiększają one wariancję całkowitą 

(uzyskanie dużego zróżnicowania 

wyników testu jest celem pomiaru 

różnicowego). Dodatnie korelacje 

oznaczają także, że pozycje mierzą 

tę samą cechę - generują one 

realną, a nie losową zmienność.

background image

 

 

Rozkład normalny wyników 

testu

    Charakterystyka testu jako całości 

zależy od charakterystyki pozycji - 
wady pozycji (lub ich niewłaściwa 
kompozycja) decydują o wadach 
rozkładu wyników oraz zaburzeniu 
relacji między wynikami testu a 
nasileniem cechy.

background image

 

 

Rycina 6. Rozkład normalny 

wyników testu 

(mezokurtyczny)

0

0,25

0,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1

1,5

2

2,5

3

background image

 

 

Rycina 7. Rozkład 

leptokurtyczny 

(symetryczny, zbyt duża 

kurtoza)

0

0,25

0,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1

1,5

2

2,5

3

background image

 

 

Rycina 8. Rozkład 

platokurtyczny 

(symetryczny, zbyt mała 

kurtoza)

0

0,25

0,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1

1,5

2

2,5

3

background image

 

 

Rycina 9. Rozkład 

dwumodalny

0

0,25

0,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1

1,5

2

2,5

3

background image

 

 

Rycina 10. Rozkład 

lewoskośny (ujemnie 

asymetryczny)

0

0,25

0,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1

1,5

2

2,5

3

background image

 

 

Rycina 11. Rozkład 

prawoskośny (dodatnio 

asymetryczny)

0

0,25

0,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1

1,5

2

2,5

3

background image

 

 

Rycina 12. Relacja test a cecha w 

rozkładach: normalnym oraz lewo- i 

prawoskośnym

-3,5

-2,5

-1,5

-0,5

0,5

1,5

2,5

3,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1

1,5

2

2,5

3

background image

 

 

Rycina 13. Relacja test a cecha w 

rozkładzie normalnym oraz 

rozkładach o wadliwej kurtozie

-3,5

-2,5

-1,5

-0,5

0,5

1,5

2,5

3,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1

1,5

2

2,5

3

background image

 

 

Własności pozycji 

doskonałego testu

   Test doskonały powinien zawierać 

pozycje o identycznych 
własnościach statystycznych 
(średnich, wariancjach oraz 
korelacjach z innymi pozycjami). W 
takim wypadku wszystkie pozycje 
byłyby diagnostycznie równoważne 
(wnosiłyby tę samą wariancję do 
wyników testu), a rozkład wyników 
testu byłby normalny (skala 
pomiarowa: ciągła i prostoliniowa).

background image

 

 

Jak uzyskać rozkład 

normalny?

   Rozkład normalny wyników testu: 

kompozycja pozycji o przeciętnej 
trudności i przeciętnych dodatnich 
interkorelacjach albo o zróżnicowanej 
trudności (równomiernie wg 
kontinuum trudności) i przeciętnych 
interkorelacjach - inne rozkłady można 
uzyskać dobierając pozycje pod 
względem jednego z obu parametrów.

background image

 

 

Wskaźnik trudności pozycji

 Dychotomiczna punktacja (0 – 1 

punkt):

Trudność = M

= p

 Skala Likerta (od zera to kilku 

puntów):

Trudność = M

/ maksymalny 

możliwy wynik w danej 

skali

(w celu obliczenia wskaźnika 

trudności pozycji (czy nawet testu) 

niezbędne jest zakotwiczenie 

wyniku minimalnego w wartości 

„zerowej”). 

background image

 

 

Relacja między różnymi 

wskaźnikami pozycji

 Relacja między średnią pozycji 

(trudnością) a wariancją pozycji 

jest krzywoliniowa (w formie 

odwróconego „U”) – wariancja jest 

większa w przypadku pozycji o 

przeciętnej trudności.

 Relacja między średnią (trudnością) 

a korelacją pozycji z innymi 

pozycjami jest także krzywoliniowa 

(odwrócone „U”) - korelacja jest 

większa dla pozycji o przeciętnej 

trudności.

background image

 

 

Jak uzyskać inne rozkłady 

wyników testu?

Założenie - manipulowanie 

interkorelacjami albo wskaźnikami 
trudności:

1. wszystkie pozycje o identycznej 

przeciętnej trudności oraz 
manipulowanie interkorelacjami 
(stały wzrost oraz początkowo 
obniżenie do zerowych, później 
ujemne);

2. wszystkie pozycje o identycznych 

stałych interkorelacjach oraz 
manipulowanie wskaźnikami 
trudności.

background image

 

 

Jak uzyskać inne rozkłady?

   Założenie: wszystkie pozycje 

identyczna przeciętna trudność 
oraz zmiana interkorelacji - stały 
wzrost oraz początkowo obniżenie 
do zerowych, później ujemne albo 
dobór pozycji o zróżnicowanej 
średniej a stałych interkorelacjach.

background image

 

 

Rycina 12a. Zmiana kształtu 

rozkładu - wzrost interkorelacji 

12 pozycji testu

0

0,25

0,5

0

1

2

3

4

5

6

7

8

9

10 11 12

background image

 

 

Rycina 12b. Rozkład 

platokurtyczny

0

0,25

0,5

0

1

2

3

4

5

6

7

8

9

10 11 12

background image

 

 

Rycina 12c. Rozkład 

dwumodalny

0

0,25

0,5

0

1

2

3

4

5

6

7

8

9

10 11 12

background image

 

 

Rycina 12d. Rozkład „U”-

kształny

0

0,25

0,5

0

1

2

3

4

5

6

7

8

9

10 11 12

background image

 

 

Rycina 12e. Rozkład dychotomiczny 

(dwumianowy) - efekt końcowy i 

krańcowy

0

0,25

0,5

0,75

1

0

1

2

3

4

5

6

7

8

9

10 11 12

background image

 

 

Rycina 13a. Zmiana kształtu 

rozkładu - ujemne interkorelacje 

pozycji

0

0,25

0,5

0

1

2

3

4

5

6

7

8

9

10 11 12

background image

 

 

Rycina 13b. Rozkład 

leptokurtyczny

0

0,25

0,5

0

1

2

3

4

5

6

7

8

9

10 11 12

background image

 

 

Rycina 13c. Rozkład 

jednomianowy (efekt końcowy i 

krańcowy)

0

0,25

0,5

0,75

1

0

1

2

3

4

5

6

7

8

9

10 11 12

background image

 

 

Kompozycja pozycji w innych 

rozkładach niż normalny (ad. 

1)

   Pozycje o identycznej trudności (a  

zróżnicowanych interkorelacjach):

 Rozkład leptokurtyczny – zerowe 

lub ujemne interkorelacje między 

pozycjami.

 Rozkład platokurtyczny – zbyt 

wysokie dodatnie korelacje między 

pozycjami.

background image

 

 

Kompozycja pozycji w innych 

rozkładach niż normalny (ad. 

2)

 Pozycje o różnej trudności (a 

identycznych pozytywnych 

interkorelacjach):

 Rozkłady skośne – 

nadreprezentacja pozycji „łatwych” 

lub „trudnych”.

 Rozkład leptokurtyczny – „łatwe” 

oraz „trudne” pozycje (brak pozycji 

o przeciętnej trudności).

 Rozkład platokurtyczny - 

nadreprezentacja pozycji o 

przeciętnej trudności.

background image

 

 

Wniosek

    

Kurtoza

 (zagęszczenie wyników 

wokół średniej) zależy zatem 

zarówno od interkorelacji, jak i 

trudności pozycji, zaś 

skośność

 

głównie od trudności pozycji. 

    Niewłaściwa kombinacja pozycji 

powoduje zatem uzyskanie 

rozkładu o własnościach 

odbiegających od charakterystyki 

rozkładu normalnego.

background image

 

 

Wniosek końcowy

   Test powinien zawierać wiele 

pozycji, zaś własności pozycji 
wyznaczają podstawowe 
charakterystyki rozkładu wyników 
testu (kształt rozkładu wyników). 
Rozkład wyników testu powinien 
być normalny, bowiem tylko taki 
test pozwala na przyjęcie założenia 
o liniowej relacji między wynikami 
testu a „latentną”cechą.

background image

 

 

Wykład 5

RZETELNOŚĆ POMIARU TESTEM - 

PODSTAWOWE POJĘCIA

background image

 

 

Pojęcie rzetelności pomiaru

   

Rzetelność

 oznacza dokładność 

(precyzję) pomiaru cechy badanej 
przez test; rzetelność ma dwa 
aspekty - stabilność pomiaru 
(powtarzalność wyników badania) 
oraz konsystencję (precyzję 
pomiaru).

background image

 

 

Błąd pomiaru

   Pojęcie rzetelności jest 

bezpośrednio powiązane z pojęciem 
błędu pomiaru – nie istnieje pomiar 
bez błędu (zarówno w badaniach 
naukowych, jak i w praktyce czy 
ocenach prywatnych. Im większy 
jest błąd, tym mniejsza jest 
rzetelność pomiaru danym 
narzędziem.

background image

 

 

Konsekwencje błędu pomiaru

   Błąd obniża precyzję pomiaru – w 

miejsce wyniku prawdziwego osoba 
badana uzyskuje wynik 
zniekształcony przez błąd – w 
konsekwencji osobowość czy 
inteligencja osoby badanej nie 
może być precyzyjnie oceniona.

background image

 

 

Źródła błędu pomiaru w 

badaniach testowych

 Ogólne charakterystyki osoby 

badnaej (techniki wypełniania testu 
lub zdolność rozumienia instrukcji)

 Specyficzne charakterystyki osoby 

badanej dotyczące testu jako 
całości (umiejętności specyficzne 
dla danego testu czy szczególnej 
formy pozycji lub stylów 
odpowiadania oraz pozycji 
testowych (odmienne oswojenie się 
z

background image

 

 

Źródła błędu pomiaru w 

badaniach testowych

   różnymi pozycjami, znajomość 

specyficznego zachowania lub 
sytuacji).

 Ogólne czynniki osoby badanej o 

incydentalnym charakterze 
(zdrowie, zmęczenie, motywacja, 
napięcie emocjonalne, warunki 
zewnętrzne – światło, hałas, 
temperatura, itp.).

background image

 

 

Źródła błędu pomiaru w 

badaniach testowych

 Specyficzne czynniki osoby badanej 

związane z badaniem testowym 
(specjalne triki w radzeniu sobie z 
zadaniami, rozumienie 
specyficznych zadań, poziom 
wyćwiczenia specyficznych 
umiejętności) oraz z pozycjami 
testowymi (fluktuacje pamięci i 
uwagi). 

background image

 

 

Źródła błędu pomiaru w 

badaniach testowych

 Czynniki związane z badaniem 

testowym (systematyczne lub 
incydentalne): warunki testowania 
(brak dystraktorów, jasność 
instrukcji, łatwość dostosowania się 
do limitu czasu, itp.), interakcja 
płci, osobowości osoby badanej i 
badającej, itp., zniekształcenia w 
ocenie zachowania oraz czynniki 
czysto losowe (zgadywanie). 

background image

 

 

Błąd jako czynnik losowy

   Błąd jest efektem wpływu wielu 

niekontrolowanych i 
nieprzewidywalnych czynników 
(wewnętrznych i zewnętrznych) na 
zachowanie, które powodują, że 
reakcje osoby badanej stają się 
nieprzewidywalne i niespójne z 
innymi formami zachowania. 
Kombinacja tych czynników jest tak 
zawikłana, że przyjmuje się, iż błąd 
ma charakter losowy (błąd jest 
losowy).

background image

 

 

Teorie rzetelności pomiaru

   Dwa modele psychometryczne 

opisują błąd pomiaru i rzetelność 
pomiaru: 

Klasyczna Teoria Testów

 

(Gulliksen, 1950 oraz Lord i Novick, 
1968) oraz 

Teoria odpowiadania na 

pozycje Testowe

. Nowoczesną 

formą KTT jest 

Teoria Wyników 

Generycznych.

background image

 

 

Podstawowe założenia 

Klasycznej Teorii Testów

   Wynik testowy jest efektem dwóch 

czynników:

 Czynników, które wpływają na 

konsystencję zachowania – cechy 
psychologicznej;

 Czynników, które wpływają na 

niespójność zachowania – zmienne 
te wyznaczają reakcje osoby 
badanej, ale nie mają nic 
wspólnego z badaną cechą. 

background image

 

 

Podstawowe pojęcia 

Klasycznej Teorii Testów

W odniesieniu do wyniku testowego:
 Obserwowany (otrzymany) wynik 

testu;

 Wynik prawdziwy;
 Błąd pomiaru.
W odniesieniu do wariancji wyników 

testu:

 Wariancja wyników otrzymanych;
 Wariancja wyników prawdziwych;
 Wariancja błędu.

background image

 

 

Twierdzenie 1

X

o

 = X

p

 + X

b

   (Wynik testu obejmuje wynik 

prawdziwy i błąd pomiaru)

background image

 

 

Aksjomaty

Aksjomat 1:

M

b

 = 0

(Średnia błędów pomiaru jest równa zero).

Aksjomat 2:

R

pb

 = 0

(Wynik prawdziwy i błąd są nieskorelowane).

Aksjomat 3:

R

bb

 = 0

(Błędy różnych pomiarów są nieskorelowane).

background image

 

 

Twierdzenie 2

M

o

 = M

p

 + M

b

 = M

p

(Średnia wyników otrzymanych jest 

równa średniej wyników prawdziwych 

testu; średnia wyników otrzymanych nie 

jest zniekształcona przez błąd).

background image

 

 

Twierdzenie 3

S

o2

 = S

p2

 + S

b2

(Wariancja wyników otrzymanych jest równa 

sumie wariancji wyników prawdziwych oraz 

wariancji błędu; nie ma kowariancji 

pomiędzy wynikami prawdziwymi oraz 

błędem; wariancja wyników otrzymanych 

jest zniekształcona przez błąd).

background image

 

 

Twierdzenie 4

S

p2

  S

b2

R

tt

 = ----- 

lub

 R

tt

 = 1- 

------

S

o2

  S

o2

(Rzetelność pomiaru testem)

background image

 

 

Interpretacja współczynnika 

rzetelności

   Współczynnik rzetelności jest 

proporcją wariancji wyników 
prawdziwych do wariancji wyników 
otrzymanych lub proporcją 
wariancji błędu do wariancji 
wyników otrzymanych, 
odejmowanej od jedności. 
Współczynnik rzetelności wskazuje 
jaka część wariancji wyników 
otrzymanych wynika z błędu lub 
zmienności wyników testu 
(niespójności odpowiedzi 
testowych).

background image

 

 

Twierdzenie 5

    S

bp

 = S

o

  (1 - 

R

tt

)

(Standardowy błąd pomiaru 

wyników otrzymanych)

background image

 

 

Interpretacja standardowego 

błędu wyników otrzymanych

   Standardowy błąd pomiaru wyników 

otrzymanych to odchylenie 

standardowe rozkładu wyników badania 

danej osoby nieskończenie wiele razy 

lub badania danej osoby nieskończoną 

liczbą testów równoległych (granice w 

jakich może lokować się faktyczny 

wynik osoby badanej). Średnia tego 

rozkładu stanowi wynik prawdziwy, a 

odchylenie standardowe – standardowy 

błąd pomiaru.

background image

 

 

Interpretacja standardowego 

błędu wyników otrzymanych

   Wielokrotne badanie jednej osoby 

nie jest możliwe (ze względu na 
motywację oraz pamięć) – z tego 
względu rozkład błędów pomiaru u 
wszystkich osób badanych jest 
brany pod uwagę (nie ma istotnej 
różnicy pomiędzy efektami 
losowymi w grupie wielu osób 
badanych jednorazowo oraz 
wielokrotnym badaniem jednej 
osoby – ten sam model czynników 
losowych).

background image

 

 

Interpretacja standardowego 

błędu wyników otrzymanych

   Standardowy błąd pomiaru 

wskazuje zakres wyników, w 
obrębie którego lokuje się wynik 
prawdziwy osoby badanej (z 
określonym 
prawdopodobieństwem) i jest 
identyczny dla wszystkich osób 
badanych (niezależnie od wyniku 
otrzymanego).

background image

 

 

Interpretacja standardowego 

błędu wyników otrzymanych

   Standardowy błąd pomiaru jest 

stosowany do wyznaczania 

przedziału ufności

 dla wyniku 

prawdziwego z określoną 
pewnością (0,99, 0,95 czy 0,85 – S

em

 

musi być pomnożony przez wartość 
z”
 rozkładu normalnego, czyli = 
2,58, 1,96 lub 1,44).

background image

 

 

Testy równoległe - pojęcie

Testy równoległe: 

M

1

 = M

2

, S

12

 = S

22

(mierzą tę samą cechę z taką samą dokładnością).

Testy równoważne: 

M

1

 = M

2

(mierzą tę samą cechę, ale nie tak samo dokładnie).

Testy quasi-równoważne: 

M

1

 = M

+ c

(mierzą tę samą cechę wraz z dodatkowym 

czynnikiem).

background image

 

 

Zastosowania koncepcji 

testów równoległych

 Koncepcja testów równoległych lub 

pomiarów równoległych jest 
stosowana w większości metod 
oceny rzetelności pomiaru testem 
(równoległość jest warunkiem 
niezbędnym).

 Koncepcja testów równoległych 

była punktem wyjścia dla teorii 
wyników generycznych (teoria 
uniwersalizacji).

background image

 

 

Teoria uniwersalizacji

   Teoria uniwersalizacji (wyników 

generycznych) wykorzystała 
koncepcję testów równoległych (np. 
test egzaminacyjny na prawo jazdy), 
co pozwoliło zrezygnować z 
nietestowalnych założeń i twierdzeń 
na rzecz obserwowalnych zależności 
(błędy mogą być skorelowane i może 
to być empirycznie stwierdzone). 

background image

 

 

Wykład 6

SZACOWANIE RZETELNOŚCI 

POMIARU TESTEM: METODY I 

WSKAŹNIKI

background image

 

 

Metody szacowania 

rzetelności pomiaru testem

Zgodność wewnętrzna

Stabilność czasowa

Metoda testów równoległych

background image

 

 

Zgodność wewnętrzna

Metoda metoda zgodności połówkowej 

(założenie równoległości połówek testu)

Metoda zgodności wewnętrznej przy 

podziale testu na wiele części 
(założenie równoległości wszystkich 
części testu)

Metoda zgodności wewnętrznej 

wykorzystująca analizę wariancji

background image

 

 

Metoda zgodności 

połówkowej - wzór Rulona

S

r2

  R

tt

 = 1 - ------

S

t2

    gdzie S

t2 

to wariancja wyników całego 

testu, a S

r2

 to wariancja różnicy 

wyników obu połówek testowych

background image

 

 

Metoda zgodności 

połówkowej - wzór Guttmana

(S

a2

 + S

b2

)

 R

tt

 = 2 [ 1 -  --------------- ]

S

t2

   gdzie S

t2

 to wariancja wyników całego 

testu, a S

a2

 i S

b2

 to wariancje połówek 

testowych

background image

 

 

Metoda zgodności połówkowej - 

wzór „proroczy” Spearmana - 

Browna

N R

tt

   R

tt

n = ---------------------

    1 + [ (N - 1) R

tt 

]

   gdzie R

tt

n - to rzetelność testu po 

przedłużeniu, N - wielkość (krotność) 
przedłużenia, a R

tt

  - rzetelność testu 

przed przedłużeniem (w miejsce 
współczynnika rzetelności można 
wstawiać współczynnik korelacji między 
połówkami testowymi)

background image

 

 

Metoda zgodności wielu 

części testu - wzór Kudera-

Richardson

    

N (S

t2

 -  S

i2

)

   KR-20: R

tt

 = -------    

---------------
   N - 1

S

t2

   gdzie N - liczba części testu, S

t2

 - to 

wariancja wyników całego testu, a  

S

i2

 to suma wariancji części testu

background image

 

 

Metoda zgodności wielu 

części testu - wzór alfa 

Cronbacha

N   S

i2

   =  --------

(1 -

 -------)

    N - 1     S

t2

   gdzie N - liczba pozycji testu, S

t2

 - to 

wariancja wyników całego testu, a  S

i2

 

to suma wariancji pozycji testu

background image

 

 

Metoda zgodności wielu 

części testu - analiza 

wariancji

Wiele podejść - najprostsza metoda 

Hoyta

wariancja między osobami - war. błędu

R

tt

  = 

-----------------------------------------------------
-
wariancja między osobami

background image

 

 

Tabela 3. Test z losowymi odpowiedziami.

Pozycja/ 

osoba 

Suma 

1-6 

Suma 

1-3 

Suma 

4-6 

Kwad-

rat 

różnic 

10 

11 

12 

13 

14 

0,50 

0,50 

0,43 

0,57 

0,64 

0,57 

3,21 

1,43 

1,79  -0,36 

SD 

0,50 

0,50 

0,49 

0,49 

0,48 

0,49 

1,21 

0,82 

0,86 

1,37 

SD

2

 

0,25 

0,25 

0,24 

0,24 

0,23 

0,24 

1,45 

0,67 

0,74 

1,17 

 

background image

 

 

Tabela 4. Dane z badania skalą E z EPQ-R(24). 

Pozycja/ 

osoba 

Suma 

1-6 

Suma 

1-3 

Suma 

4-6 

Kwadr

at 

różnic 

10 

11 

12 

13 

14 

0,21 

0,86 

0,43 

0,57 

0,21 

0,71 

3,00 

1,50 

1,50 

0,00 

SD 

0,41 

0,35 

0,49 

0,49 

0,41 

0,45 

1,51 

0,82 

0,82 

0,65 

SD

2

 

0,17 

0,12 

0,24 

0,24 

0,17 

0,20 

2,29 

0,68 

0,68 

0,43 

 

background image

 

 

Podstawowe statystyki 

połówek testowych

Test losowy:
Średnia korelacji pozycji r

1-6 

= 0,00

Średnie odchylenie standardowe SD

1-

= 0,49

Korelacja połówek r

12 

= 0,03

Test psychologiczny:
Średnia korelacji pozycji r

1-6 

= 0,21

Średnie odchylenie standardowe SD

1-

= 0,43

Korelacja połówek r

12 

= 0,68

background image

 

 

Podstawowe statystyki 

połówek testowych

Test losowy:
M

1

 = 1,43 i M

2

 = 1,79 – połówki nie są 

równoległe (średnia różnic nie jest 

równa zero, co wskazuje na 

istnienie systematycznej wariancji 

między połówkami – w miejsce 

wariancji średnia  kwadratu różnic 

powinna być użyta).

Test psychologiczny:
M

1

 = 1,50 i M

2

 = 1,50 – połówki są 

równoległe (nie ma znaczenia jaka 

statystyka będzie użyta).

background image

 

 

Rzetelność połówkowa testu 

losowego

Rulona R

tt

 = 1 - (1,17/1,45)= 0,19 

(wariancja)

Rulona R

tt

 = 1 - (1,50/1,45) = -0,03  

0,00 (kwadrat różnic)

Guttmana R

tt

 = 2*[1-

(0,67+0,74)/1,45] = 0,06

Kudera-Richardson KR-20 = 

(2/1)*[(1,45-1,41)/1,45 = 0,06

Spearmana-Browna R

ttn

= (2*0,03)/ 

(1+0,03)=0,06

background image

 

 

Rzetelność testu losowego

– poziom pozycji (oraz 

S

bp

)

Alfa Cronbacha: 
 = (6/5)*[1-(1,45/1,45)]=0,00
Spearmana-Browna: 
R

ttn

= (6*0,00)/[1+5*0,00)=0,00

Standardowy błąd pomiaru
S

bp

 = S

o

*(1 - R

tt

)= 1,25*(1- 0,00) = 

1,25, co oznacza, że S

bp 

= S

o

.

background image

 

 

Rzetelność połówkowa testu 

psychologicznego

Rulona R

tt

 = 1 - (0,43/2,29) = 0,81 

(wariancja)

Rulona R

tt

 = 1 - (0,43/2,29) = 0,81 

(kwadrat różnic)

Guttmana R

tt

 = 2*[1-

(0,68+0,68)/2,29] = 0,81

Kudera-Richardson KR-20 = 

(2/1)*[(2,29-1,36)/ 2,29 = 0,81

Spearmana-Browna R

ttn

= (2*0,68)/ 

(1+0,68)=0,81

background image

 

 

Rzetelność testu 

psychologicznego - pozycje

Alfa Cronbacha: 
 = (6/5)*[1-(1,14/2,29)]=0,60
Spearmana-Browna: 
R

ttn

= (6*0,21)/[1+5*0,21)=0,61

background image

 

 

Obserwacja

   Ocena rzetelności metodami 

połówek testowych prowadziła do 
osiągnięcia współczynnika 
rzetelności rzędu 0,81, zaś  ocena 
rzetelności metodą zgodności 
pozycji tylko współczynnika rzędu 
0,60 (zwłaszcza wzór Spearmana-
Browna dał odmienne wyniki). 
Powstaje pytanie - dlaczego? 
Wydaje się, że połówki testowe nie 
były w pełni reprezentatywne dla 
całego testu.

background image

 

 

Podział 

Pozycje w każdej 

połówce 

M

1

 

M

2

 

S

1

2

 

S

2

2

 

R

ttn 

   

S-B 

Gutma

nna 

R

tt

 

1-2-3 vs 4-5-6 

1,50 

1,50 

0,68 

0,68 

0,68 

0,81 

0,81 

1-2-4 vs 3-5-6 

1,64 

1,36 

0,52 

0,80 

0,75 

0,86 

0,85 

1-2-5 vs 3-4-6 

1,29 

1,71 

0,63 

1,06 

0,36 

0,53 

0,52 

1-2-6 vs 3-4-5 

1,79 

1,21 

0,60 

1,03 

0,42 

0,59 

0,58 

1-3-4 vs 2-5-6 

1,21 

1,79 

1,03 

0,60 

0,42 

0,59 

0,58 

1-3-5 vs 2-4-6 

0,86 

2,14 

1,12 

0,84 

0,17 

0,29 

0,29 

1-3-6 vs 2-4-5 

1,36 

1,64 

0,80 

0,52 

0,75 

0,86 

0,85 

1-4-5 vs 2-3-6 

1,00 

2,00 

1,00 

1,00 

0,14 

0,25 

0,25 

1-4-6 vs 2-3-5 

1,50 

1,50 

0,68 

0,68 

0,68 

0,81 

0,81 

10 

1-5-6 vs 2-3-4 

1,14 

1,86 

0,84 

0,98 

0,26 

0,41 

0,41 

 

Tabela 5. Wszystkie możliwe podziały połówkowe skali E z EPQ-R(24). 

background image

 

 

Wnioski

 Tylko podziały nr 1 oraz 9 

prowadziły do uzyskania 
równoległych połówek testu, co 
oznacza, że wybrany podział 
prowadził do „zyskiwania na 
przypadku”.

 Średnia współczynnika Guttmanna 

była równa 0,60 – tę samą wartość 
dała alfa Cronbacha (alfa jest 
równa średniej wszystkich 
podziałów testu na połowy lub ich 
większej części).

background image

 

 

Standardowy błąd pomiaru 

testu psychologicznego

Standardowy błąd pomiaru:
S

bp

 = 1,51*(1-0,60) = 0,96

Półprzedział ufności:
S

bp95% 

= 1,96*S

bp 

= 1,88, z zatem 

przedział ufności jest równy S

1,88 (wynik prawdziwy osoby 
badanej mieści się w przedziale -> 
wynik otrzymany + ok. 2 punkty, z 
pewnością 95%).

background image

 

 

Stabilność czasowa

Stabilność 

bezwzględna

 (powtórny 

pomiar tym samym testem)

Stabilność 

względna

 (powtórny 

pomiar wersją równoległą testu)

Forma oboczna - 

test-retest

 

(pomiar tym samym testem raz po 
razie)

background image

 

 

Założenia metod z 

powtarzanym pomiarem

Podstawowe założenie – oba 

pomiary są równoległe.

Wskaźnikiem rzetelności jest 

zwykły współczynnik korelacji 

Pearsona lub współczynnik Scotta-

Wertheimera.

W przypadku pomiarów quasi-

równoważnych (systematyczne 

zmiany nasilenia mierzonej cechy) 

tylko zwykła korelacja Pearsona 

może być użyta.

background image

 

 

Współczynnik korelacji 

wewnątrzklasowej wg Scotta-

Wertheimera

 (X

1

- X

2

)

2

  R

tt

  = 1 - -----------------

2 N S

2(X1,X2)

   gdzie X

1

 oraz + X

2

 to wyniki 

pierwszego i drugiego badania, N - 
liczba osób badanych, a S

2(X1,X2)

 - to 

wariancja wyników w obu badaniach)

background image

 

 

Tabela 6. Stabilność czasowa skal PTS: bezwzględna 

(po 2 tygodniach i 6 miesiącach oraz względna (po 2 tygodniach).

Współczynnik rzetelności 

Siła  

Procesu 

Pobudzenia 

Siła 

Procesu 

Hamowania 

Ruchliwość 

Procesów 

Nerwowych 

Alfa Cronbacha (19 

pozycji) 

0,83 

0,73 

0,81 

Stabilność bezwzględna 

(2 tygodnie) 

0,76* 

0,60* 

0,78* 

Stabilność bezwzględna 

(6 miesięcy) 

0,62* 

0,53* 

0,68* 

Stabilność względna       

(2 tygodnie) 

0,63* 

0,58* 

0,58* 

 

background image

 

 

Metoda testów równoległych

   

Metoda testów równoległych wymaga 

dwóch odrębnych testów - jest metodą 
uogólnioną, łącząca zgodność 
wewnętrzną oraz test-retest. W 
metodzie tej wykorzystujemy 
współczynnik korelacji Pearsona - 
rzetelność pomiaru jest równa 
współczynnikowi korelacji obu testów 
równoległych (wielkości kowariancji 
obu testów)

.

background image

 

 

Czynniki wpływające na 

rzetelność pomiaru

 Zakres (zmienność) wyników w 

badanej próbie – współczynniki są 
niższe w przypadku, gdy zmienność 
w próbie jest mniejsza (lub osoby 
badane mają zbliżone nasilenie 
cechy). Należy pamiętać, że 
współczynnik rzetelności oznacza 
rzetelność różnic 
interindywidualnych lub rzetelność 
zróżnicowania osób badanych.

background image

 

 

Czynniki wpływające na 

rzetelność pomiaru

 Charakterystyka testu – 

współczynniki są wyższe gdy test 
zawiera dużo pozycji (z uwagi na 
dużą liczbę kowariancji) oraz gdy 
korelacje między pozycjami są 
wysokie (z uwagi na to, że duża 
proporcja wariancji całkowitej 
wynika z kowariancji). Należy 
pamiętać, że kowariancje są 
traktowane jako źródło wariancji 
prawdziwej.

background image

 

 

Czynniki wpływające na 

rzetelność pomiaru

 Metoda oszacowania rzetelności 

pomiaru – współczynniki zgodności 
wewnętrznej dają wyższe 
oszacowanie rzetelności niż 
współczynniki stabilności (z uwagi 
na większą liczbę źródeł błędu). 
Należy pamiętać, że testy o wyższej 
zgodności wewnętrznej zwykle 
wykazują też wyższą stabilność 
czasową (poza testami badającymi 
stany psychologiczne).

background image

 

 

Kryteria akceptacji 

rzetelności pomiaru testem

   Zgodność wewnętrzna:
 Testy przeznaczone do diagnozy 

indywidualnej - wartość minimalna 

0,80, wartość optymalna – ponad 

0,90.

 Testy przeznaczone do badań 

naukowych - wartość minimalna 

0,70, wartość optymalna – ponad 

0,80

 Absolutna wartość minimalna 

współczynnika rzetelności wynosi 

0,50 (połowa wariancji wynika z 

błędu).

background image

 

 

Kryteria akceptacji 

rzetelności pomiaru testem

   Stabilność czasowa:
 Wartość minimalna = 0,50 (tylko 

połowa zmienności wynika ze 

zgodności wyników obu pomiarów).

   Testy równoległe:
 Wartość minimalna = 0,50 (tylko 

połowa zmienności wynika ze 

zgodności wyników obu testów).

background image

 

 

Rodzaj testu a wybór metody 

szacowania rzetelności

 Testy zdolności – metody 

połówkowe (z uwagi na różną 
trudność pozycji, które nie są 
równoległe).

 Inwentarze osobowości – alfa 

Cronbacha lub KR-20 (zgodność 
wewnętrzna na poziomie pozycji).

 Testy szybkości – metoda test-

retest lub metoda testów 
równoległych.

background image

 

 

Praktyczne wykorzystanie 

oszacowania rzetelności 

pomiaru

    Na podstawie współczynnika rzetelności 

pomiaru wyznaczany jest 

standardowy 

błąd pomiaru wyników otrzymanych

 

(symetryczny wokół wyniku otrzymanego 
i asymetryczny dla wyniku prawdziwego) 
albo 

standardowy błąd estymacji wyniku 

prawdziwego

 (asymetryczny wokół 

wyniku otrzymanego i symetryczny wokół 
wyniku prawdziwego oraz o różnej 
asymetrii dla poszczególnych wyników 
otrzymanych)

background image

 

 

Standardowy błąd pomiaru 

wyniku otrzymanego

  S

bp

 = S

o

  (1 - R

tt

)

background image

 

 

Standardowy błąd estymacji 

wyniku prawdziwego

  S

be 

= S

bp 

R

tt

     a wynik prawdziwy:

  X

= R

tt

 X

+ (1 - R

tt

M

o

background image

 

 

Wyznaczanie przedziału 

ufności

   W celu wyznaczenia przedziału 

ufności należy wyznaczyć 
półprzedział, tzn. S

bp

 lub S

be 

przemnożyć przez wartość 2,58 
(99% pewność), 1,96 (95% 
pewność) albo 1,44 (pewność 85%, 
tj. 15% błąd oszacowania) oraz 
dodać i odjąć od wyniku 
otrzymanego lub oszacowanego 
wyniku prawdziwego - granice 
przedziału ufności.

background image

 

 

Zastosowanie 

standardowych  błędów 

pomiaru

 Błędy pomiaru służą do 

wyznaczenia granic przedziału 

ufności wokół wyniku otrzymanego 

i przedziałowej estymacji wyniku 

prawdziwego (w zakresie którego 

mieści się – z określoną pewnością 

wynik prawdziwy osoby badanej).

 Porównania wyniku danej osoby z 

normą (średnią w grupie) czy inną 

wartością (np. wynikiem 

progowym).

background image

 

 

Zastosowanie 

standardowych  błędów 

pomiaru

 Porównania wyników dwóch osób 

(różnice interindywidualne) 

badanych tym samym testem (czy 

różnica jest realna – wynika z cechy 

czy jest spowodowana przez błąd?).

 Porównania wyników danej osoby 

(różnice intraindywidualne) 

badanej dwoma testami (czy 

różnica jest realna – wynika z cechy 

czy jest spowodowana przez błąd?).

background image

 

 

Standardowy błąd różnicy 

wyników 

interindywidualnych

S

br

 = S

 2 (1-R

tt

)

   

S

- odchylenie standardowe wyników 

otrzymanych, R

tt

 - współczynnik 

rzetelności testu (wartość S

br 

należy 

przemnożyć przez określoną 

wartość „z” w celu zbudowania 

przedziału ufności).

background image

 

 

Standardowy błąd różnicy 

wyników 

intraindywidualnych

S

br

 = S

 2 - R

aa 

- R

bb

   

S

- odchylenie standardowe wyników 

otrzymanych w każdym z testów 

(wyniki są wyrażone na identycznej 

skali standardowej), R

aa

 i R

bb

 - 

współczynniki rzetelności obu 

testów (wartość S

br 

należy 

przemnożyć przez określoną 

wartość „z” w celu zbudowania 

przedziału ufności).


Document Outline