BOGDAN ZAWADZKI
PODSTAWY POMIARU
PSYCHOMETRYCZNEG
O
Program wykładu
Wykład 1. Test jako narzędzie
diagnozy psychologicznej –
podstawowe pojęcia.
Wykład 2. Rodzaje testów
psychologicznych.
Wykład 3. Diagnoza psychologiczna
za pomocą testów – aspekt
psychologiczny, metodologiczny,
psychometryczny i etyczny.
Program wykładu
Wykład 4. Pomiar różnicowy w
psychologii – podstawowe założenia.
Wykład 5-6. Rzetelność pomiaru testem
– podstawy teorii rzetelności testów
psychologicznych w ujęciu klasycznej
teorii testów i metody szacowania.
Wykład 7-8. Trafność pomiaru testem:
pojęcie trafności pomiaru i rodzaje
trafności.
Program wykładu
Wykład 9-10. Podstawowe
problemy konstruowania testów:
strategie konstruowania testów i
procedura konstrukcji testów.
Wykład 11. Czynniki
zniekształcające wyniki testowe.
Wykład 12. Podstawowe problemy
kulturowej adaptacji testów.
Program wykładu
Wykład 13. Normalizacja wyników
testu.
Wykład 14. Interpretacja wyników
testowych.
Wykład 15. Użyteczność
standardwych metod diagnostycznych
w praktyce psychologicznej – wyniki
metaanaliz dotyczące wybranych
metod oraz podsumowanie wykładów.
Literatura wprowadzająca
Ciechanowicz, A., Jaworowska, A. i Szustrowa,
T. (1996). Testy Prawo Praktyka. Warszawa:
Pracownia Testów Psychologicznych PTP.
Zawadzki, B. i Hornowska, E. (2008).
Psychometria. Konstrukcja i adaptacja testów
psychologicznych. W: J. Strelau i D. Doliński
Brzeziński (red.), Psychologia. Podręcznik
akademicki (s. 847-893). Gdańsk: Gdańskie
Wydawnictwo Psychologiczne.
Literatura obowiązkowa
Hornowska, E. (2001). Testy
psychologiczne. Teoria i praktyka.
Warszawa: Wydawnictwo Naukowe Scholar.
Hornowska, E., Paluchowski, W. J. (2004).
Kulturowa adaptacja testów
psychologicznych. W: J. Brzeziński (red.),
Metodologia badań psychologicznych.
Wybór tekstów (s. 151-191). Warszawa:
Wydawnictwo Naukowe PWN.
Literatura uzupełniająca
Anastasi, A i Urbina, S. (1999). Testy
psychologiczne. Warszawa: Pracownia Testów
Psychologicznych PTP.
Brzeziński, J. (2005)(red.). Trafność i rzetelność
testów psychologicznych. Wybór tekstów.
Gdańsk: Gdańskie Wydawnictwo
Psychologiczne.
Magnusson, D. (1981). Wprowadzenie do teorii
testów. Warszawa: PWN (rozdz. 5-11,14-16).
Literatura uzupełniająca
Murphy, K. R. i Davidshofer, C. O. (2005).
Psychological testing. Principles and applications
(VI International edition). Upper Saddle River,
N.J.: Prentice-Hall, Inc.
Zawadzki, B. (2002). Temperament - geny i
środowisko. Porównania wewnątrz – i
międzypopulacyjne. Gdańsk: GWP (rozdz. 3).
Zawadzki, B. (2006). Kwestionariusze
osobowości: strategie i procedura konstruowania.
Warszawa: Wydawnictwo Naukowe Scholar.
Wykład 1
DIAGNOZA PSYCHOLOGICZNA
ZA POMOCĄ TESTÓW
STANDARDOWYCH:
PODSTAWOWE POJĘCIA
Metody badawcze w
psychologii
Metody eksperymentalne
Metody diagnostyczne
Podstawowy schemat
badawczy dla wszystkich
metod
B – R
B - (bodziec = zmienna/zmienne
niezależne)
R (reakcja = zmienna zależna)
Schemat badawczy metod
eksperymentalnych
Zmienna niezależna główna różni się
dla poszczególnych osób (grup
badawczych).
Inne zmienne niezależne są
identyczne dla wszystkich osób
badanych (lub rozkładają się losowo).
Schemat badawczy metod
eksperymentalnych
Wniosek: zmiany (lub różnice)
w zmiennej zależnej
(zachowaniu) zależą od
głównej zmiennej niezależnej.
Schemat badawczy metod
eksperymentalnych
Metody eksperymentalne
pozwalają na ocenę wpływu
czynników zewnętrznych
(„środowiskowych”) na
zachowanie.
Schemat badawczy metod
diagnostycznych
Zmienna niezależna główna jest
identyczna dla poszczególnych osób
badanych.
Inne zmienne niezależne są
identyczne dla wszystkich osób
badanych (lub rozkładają się losowo).
Schemat badawczy metod
diagnostycznych
Wniosek: różnice
międzyosobnicze w zachowaniu
nie zależą od zmiennej
niezależnej, ale od czynników
wewnętrznych („latentnych”
cech).
Schemat badawczy metod
diagnostycznych
Metody diagnostyczne pozwalają
zatem na ocenę wpływu
czynników wewnętrznych
(„osobowościowych”) na
zachowanie.
Metody diagnozy
psychologicznej
Kryteria podziału (interpretacja
zachowania i stopień formalizacji
procedury):
Zachowanie jako próbka (testy
standaryzowane)
Zachowanie jako znak (testy
projekcyjne)
Metody niesformalizowane (swobodne)
Do czego służą testy?
Testy są metodami, służącymi do
zbierania informacji o człowieku,
potrzebnej do diagnozy psychologicznej.
Diagnoza psychologiczna jest procesem
aktywnego poszukiwania danych
potrzebnych do podjęcia decyzji o
działaniach, zmierzających do zmiany
aktualnego stanu (położenia)
psychospołecznego ludzi (w efekcie
terapii, porady, itp.).
Co mierzą testy?
Testy służą do rejestracji faktów
psychologicznych z życia człowieka,
tj. informacji o jego zachowaniu:
przeszłym lub obecnym, typowym
(najczęstszym - cechy) lub chwilowym
(stany). Testy są metodami
rejestrującymi różnice w zachowaniu
ludzi oraz stałość czasową i
sytuacyjną zachowania danego
człowieka.
Testy są metodami badania
zachowania
Testy nie pozwalają na bezpośredni
pomiar cech (czy stanów) - badają
jedynie zachowanie. Cechy (stany)
są psychologicznymi
interpretacjami istnienia różnic
indywidualnych w wynikach testu
(wyjaśnieniami w terminach
„latentnych” cech lub stanów,
które wpływają na wyniki testowe
oraz warunkują istnienie różnic
międzyosobniczych w wynikach
testu).
Co to jest test?
Standardy dla testów stosowanych w
psychologii i pedagogice (APA, 2007, s.
24):
„Testem jest narzędzie lub
procedura służące ocenie. Ich istotą
zaś – otrzymanie w określonych
warunkach próbki zachowania osób
badanych, a następnie dokonanie
ich oceny zgodnie z
wystandaryzowanymi regułami”.
Poprzednia definicja w
Standardach APA
Test to
procedura diagnozowania
.
Może on być zbiorem zadań lub pytań,
które - w standardowych warunkach
(tj. stałych, jednakowych dla
wszystkich) - mają wywoływać -
określone rodzaje zachowań i
dostarczać wyników o pożądanych
własnościach psychometrycznych, tj.
posiadających wysoką rzetelność i
wysoką trafność.
Elementy składowe testu
(zgodnie ze schematem: B-R)
1). test psychologiczny zawiera próbki
zadań - czyli określone standardowe
bodźce; test psychologiczny jednak to
przede wszystkim specyficzna forma
interakcji między osobą badającą a
osobą badaną, która to interakcja
zachodzi w określonych warunkach
czasowych, fizycznych i
psychologicznych (procedura, a nie
tylko sam materiał).
Elementy składowe testu
(zgodnie ze schematem: B-R)
2). test psychologiczny zawiera skalę
lub skale standardowe, rejestrujące
wywołane przez bodźce reakcje;
przedmiotem rejestracji w teście jest
zachowanie, które:
a). jest deskrypcją cechy,
b). którego aspekt spełnia kryteria:
typowości, specyfiki dla występującego
bodźca oraz reprezentacji ilościowej, a
nie jakościowej.
Elementy składowe testu
3). test psychologiczny dostarcza
reguł dochodzenia do wyniku oraz
jego oceny, w dwóch aspektach:
a). indywidualnym - informuje o
nasileniu danej cechy u danej
jednostki;
b). pomiarowym - umożliwia
oszacowanie parametrów "dobroci"
pomiaru testem.
Jakie wymogi muszą spełniać
testy?
Testy muszą być tak skonstruowane,
aby ich zastosowanie do pomiaru
cech człowieka, charakteryzowało się
odpowiednio wysoką
rzetelnością
,
trafnością
,
obiektywnością
,
standaryzacją
i
znormalizowaniem
-
test zatem musi spełniać te
wymagania, by mógł być stosowany, i
żeby mógł być nazwany testem.
Kryterium standaryzacji
Standaryzacja oznacza, że
procedura
badania testem
musi być tak
szczegółowo opracowana, aby
stosowanie go było za każdym razem
identyczne - niezależnie od osoby
badającej i osoby badanej; standaryzacja
ma na celu zminimalizowanie wpływu
czynników ubocznych lub zakłócających
(wewnętrznych i zewnętrznych) na
wyniki testowe.
Kryterium obiektywności
Obiektywność oznacza, że
procedura interpretacji
wyników
badania testem musi być tak
szczegółowo opracowana, aby
interpretacja była za każdym razem
identyczna - niezależnie od osoby
badającej; obiektywność ma na celu
zminimalizowanie wpływu osoby
badającej na wyniki testowe.
Kryterium normalizacji
Normalizacja oznacza konieczność
opracowania procedury przekształcania
wyników liczbowych w wyniki
różnicowe, umożliwiające ocenę wyniku
danej osoby na tle reprezentatywnej
populacji; normalizacja ma na celu
zminimalizowanie błędi związanego z
oceną faktycznego nasilenia cechy u
osoby badanej, a więc błędnej diagnozy
psychologicznej.
Kryterium rzetelności
Rzetelność oznacza konieczność
takiego opracowania testu (materiału
testowego i procedury badania), aby
maksymalizował on dokładność
pomiaru cechy badanej przez test;
rzetelność ma dwa aspekty -
stabilność pomiaru (powtarzalność
wyników badania) oraz konsystencję
(precyzję pomiaru).
Kryterium trafności
Trafność oznacza wymóg takiego
opracowania testu (materiału
testowego i procedury badania), aby
maksymalizował on stopień, w jakim
test mierzy daną cechę; trafność ma
dwa aspekty - dotyczy tego, co test
mierzy i jak dobrze to mierzy oraz
dotyczy tego, co możemy
przewidywać na podstawie wyników
testowych.
Wykład 2
RODZAJE TESTÓW
PSYCHOLOGICZNYCH
Jakie są rodzaje testów?
Pod względem specyfiki zbierania
informacji rozróżniamy następujące
testy standaryzowane:
Rodzaje testów
1). Test, w którym jednostka wykonuje
specyficzne zadanie - test ten
wymaga maksymalnego wykonania
(testy inteligencji, zdolności,
wiadomości, sprawności
psychomotorycznej). Testy
maksymalnego wykonania mogą być
testami mocy, testami szybkości lub
testami z ograniczeniem czasowym.
Rodzaje testów
2). Test, w którym jednostka sama
opisuje swoje zachowanie - test
rejestruje samopis typowego
zachowania (inwentarze, ankiety,
arkusze biograficzne).
Rodzaje testów
3). Test, w którym jednostka jest
obserwowana w specyficznej sytuacji
lub ogólniej - w wielu określonych
sytuacjach - test rejestruje dane
obserwacyjne typowego zachowania
lub wykonania zadania w naturalnych
warunkach (próbki pracy zawodowej,
arkusze obserwacyjne, arkusze ocen,
arkusze szacowania cech).
Formalna klasyfikacja testów
Testy jedno-skalowe – interpretacja w
terminach intensywności cechy
(diagnoza ilościowa) albo interpretacja
typologiczna (diagnoza jakościowa).
Testy wielo-skalowe – interpretacja
profilu testowego (model cech
równorzędnych lub model
hierarchiczny), który może być
wykorzystany w diagnozie typologicznej
lub intraindywidualnej (różnicowej).
Rycina 1. Wyniki testowe,
pozwalające na diagnozę
intensywności cechy.
Wynik przeciętny – przeciętna intensywność
cechy
Wynik niski – mała intensywność cechy
Wynik wysoki – duża intensywność cechy
Rycina 2. Wyniki testu jedno-
skalowego do diagnozy
typologicznej.
Wyniki testu zbliżone do grupy „górnej”
Wyniki testu zbliżone do grupy „dolnej”
Ryc. 3. Wyniki testu wielo-skalowego,
służące do diagnozy profilowej (cechy
równorzędne).
Rycina 4. Wyniki testu wielo-
skalowego (model hierarchiczny).
Poszukiwanie Doznań
Poszukiwanie grozy i przygód
Poszukiwanie przeżyć
Wrażliwość na nudę
Rozhamowanie
Intraindywidualna diagnoza
różnicowa
Nie tylko porównania
międzyosobnicze, ale także
wewnątrzosobnicze, np. werbalny i
niewerbalny IQ (diagnoza
ilościowa).
Historia testów (oraz
psychometrii)
3000 lat p.n.e – testowanie w
chińskiej służbie cywilnej;
1850-1900 – badania służb cywilnej
w USA;
1900-1920 – rozwój testów zdolności
umysłowych (teoria
psychometryczna);
1920-1940 – rozwój inwentarzy
osobowości (analiza czynnikowa);
Historia testów (oraz
psychometrii)
1940-1960 – rozwój narzędzi do diagnozy
zainteresowań zawodowych oraz
psychopatologii;
1960-1980 – rozwój narzędzi do diagnozy
neuropsychologicznej (item response
theory – „teoria odpowiadania na pozycje
testowe);
Od 1980 – rozwój metody „adaptacyjnego
testowania komputerowego”
(computerized adaptative testing).
Historia najbardziej
popularnych testów
1905: Binet i Simon – pierwsza skala
inteligencji;
1906: Heymans i Wiersma – pierwsze
kwestionariuszowe badanie osobowości
(metoda szacowania);
1917: Woodworth – pierwszy inwentarz
osobowości (psychopatologia);
1927-1934: Strong/Kuder – pierwsze
narzędzia do badania zainteresowań
zawodowych;
Historia najbardziej
popularnych testów
1939: Wechsler – Wechsler-Bellevue
Intelligence Scale (1997 - WAIS-III);
1943: Hathaway i McKinley –
Minnesota Multiphasic Personality
Inventory (1989 - MMPI 2);
1949: Cattell – 16 PF (Personality
Factors);
1950 - 1990 – inwentarze Eysencka;
1990 – 2000 – inwentarze do badania
Wieliej Piątki (Costa i McCrae).
Informacja o testach
Standards for Educational and
Psychological Testing (1985 and
1999);
Mental Measurements Yearbook
and Test Critiques;
Czasopisma presentujące
testy (oraz kwestie
psychometryczne)
Psychometrika
Educational and Psychological
Measurement
Applied Psychological Measurement
Journal of Educational
Measurement
Journal of Educational Psychology
Journal of Applied Psychology
Personnel Psychology
Journal of Consulting and Clinical
Psychology.
Jakie są zastosowania
testów?
Testy są stosowane w badaniach
naukowych i praktycznych:
a). przydatności zawodowej, która
wiąże się z:
- doborem zawodowym,
- poradnictwem zawodowym;
b). diagnostyce klinicznej;
c). diagnostyce zdolności specjalnych.
Zalety i wady testów
Testy „reprezentują najbardziej
wartościową i sprawiedliwą
technologię, umożliwiającą
podejmowanie wielu ważnych
decyzji o ludziach”, ale
jednocześnie „testowanie
psychologiczne jest bardzo
kontrowersyjne” (Murphy i
Davidshofer, 1989, s. 2).
Etyczne (kontroweryjne)
aspekty testowania
Wpływ testowania na społeczeństwo
(różnice realne czy pozorne?,
efektywność czy równość?,
pomaganie czy ranienie ludzi?);
Naruszenie prywatności (informacja o
życiu prywatnym, problem poufności
oraz udostępniania wyników testu);
Sprawiedliwe użycie testu (równa
dostępność materiału testowego –
kwestie kulturowe, badanie osób
niepełnosprawnych).
Wykład 3
PSYCHOLOGICZNY,
METODOLOGICZNY,
PSYCHOMETRYCZNY I ETYCZNY
ASPEKT DIAGNOZY
PSYCHOLOGICZNEJ ZA POMOCA
METOD TESTOWYCH
Aspekty diagnostyki
testowej
Diagnostyka psychologiczna,
realizowana za pomocą testów
standaryzowanych, obejmuje:
aspekt
psychologiczny
,
metodologiczny
,
psychometryczny
oraz
etyczny
pomiaru.
Aspekt
psychologiczny
diagnozy
Związany jest z treścią psychologiczną
pomiaru i odnosi się on zatem do:
a). problemu badawczego wyznaczonego
przez cel diagnozy;
b). koncepcji (czy wiedzy)
psychologicznej, precyzującej, jakie cechy
psychologiczne są mierzone testem;
c). interpretacji i wniosków
psychologicznych formułowanych na
podstawie pomiaru testowego.
Aspekt
metodologiczny
diagnozy
Dotyczy formalnych reguł stosowania
testu: procedury badania, obliczania
wyników i transformacji na wyniki
standaryzowane oraz interpretacji
uzyskanych danych, a więc odnosi się
do procesu dochodzenia do diagnozy
psychologicznej. Aspekt
metodologiczny wiąże się z
wymaganiami standaryzacji,
obiektywności i normalizacji testu.
Aspekt
etyczny
diagnozy
Odnosi się do konsekwencji
życiowych i społecznych dla osoby
badanej, wynikających z pomiaru
testem. Problemy te obejmują:
a). stronniczość, która prowadzi do
dyskryminowania (lub
faworyzowania) określonych osób
lub grup społecznych, np. w postaci
seksizmu, rasizmu, itp.
Aspekt
etyczny
diagnozy
b). naruszenie wolności osobistej
(ujawnienie tajemnicy pomiaru testowego
osobom postronnym, niewłaściwy sposób
komunikowania wyników samej osobie
badanej, brak dobrowolności udziału w
badaniach lub brak możliwości rezygnacji
z badań w ich trakcie).
c). "etykietowanie" (stygmatyzowanie),
wynikające z ahumanistycznego celu
badania.
Aspekt
psychometryczny
diagnozy
1). konieczność uwzględniania we
wnioskowaniu wskaźników
psychometrycznych,
charakteryzujących dokładność czy
pewność diagnozy;
2). stosowania określonych procedur
matematycznych do oceny jakości i
poprawności pomiaru testowego,
wynikających z modeli
psychometrycznych i teorii pomiaru.
Wykład 4
SPECYFIKA POMIARU
RÓŻNICOWEGO W
PSYCHOLOGII - TESTY JAKO
NARZĘDZIA DO BADANIA
SPECYFIKI JEDNOSTKI
Cel pomiaru różnicowego w
psychologii
Celem pomiaru psychologicznego
jest różnicowanie ludzi - określenie
ich specyfiki na tle innych osób
(populacji odniesienia). Cel ten
może być realizowany na dwa
sposoby: podejście
idiograficzne
i
nomotetyczne
.
Podejście idiograficzne i
nomotetyczne
Celem podejścia
idiograficznego
jest
uchwycenie specyfiki jednostki porzez
wyodrębnienie cech,
charakterystycznych tylko dla niej i
wskutek tego wyróżniających ją z
populacji.
Celem podejścia
nomotetycznego
jest
określenie specyfiki jednostki poprzez
wskazanie charakterystycznego dla niej
nasilenia cech, wspólnych dla populacji.
Pomiar w psychologii -
definicja
Pomiar - proces
przyporządkowywania obiektom
określonych liczb w taki sposób,
aby specyficzne cechy tych
obiektów były odzwierciedlone
przez własności liczb
.
Pomiar (w psychologii) - proces
przyporządkowania liczb (tzn.
wyników testowych) osobom
badanym w taki sposób, aby
mierzone testem własności
psychologiczne tych osób były
odzwierciedlone przez własności
liczb
.
Pojęcie cechy
Cecha – zmienna osobowa, która
wykazuje międzyosobniczą
zmienność i wewnątrzosobniczą
stałość (czasową i sytuacyjną oraz
koherencję (spójność) wskaźników.
Nomotetyczna cecha jest zatem
zmienną ilościową - możliwy pomiar
na skali przedziałowej.
Rozkład normalny a pomiar
w psychologii
Cechy psychologiczne mają rozkład
normalny w populacji – jest zatem
oczywiste, że testy przeznaczone do
pomiaru tych cech powinny dostarczać
wyników o rozkładzie normalnym. Na
podstawie tego założenia „krzywa
normalna” jest traktowana jako model
rozkładu wyników testu (wartości ciągłe
i równe różnice pomiędzy wszystkimi
wartościami wyników testu).
Standardy porównań dla
pomiaru cech różnicowych
Dla różnicowych cech ilościowych
standardem (punktem odniesienia)
jest
średnia
rozkładu normalnego, a
zmienność definiowana jest poprzez
odchylenie standardowe
(lub
wariancję
) tego rozkładu (wynik
sumaryczny wyników pozycji jest dla
danej osoby jest informacją o
nasileniu jej cechy – cechy badanej
przez test).
Rycina 1. Rozkład normalny
0
0,25
0,5
-3 -2,5 -2 -1,5 -1 -0,5 0
0,5
1
1,5
2
2,5
3
Średnia arytmetyczna
wyników testu
X
i
M
o
= --------
N
Wariancja wyników testu
(X
i
- M
o
)
2
S
o2
= -----------------
N
Odchylenie standardowe
wyników testu
(X
i
- M
o
)
2
S
o
=
-------------------
N
Charakterystyka rozkładu
normalnego
Wyniki standaryzowane
M
o
=0,00 oraz SD
o
=1,00, przy
czym M
o
=M
e
=M
mod
Rozkład symetryczny, wykazujący
odpowiednie zagęszczenie
wyników wokół średniej
(skośność - miara asymetrii oraz
kurtoza - miara zagęszczenia)
Charakterystyka rozkładu
normalnego
Znana jest częstość poszczególnych
wyników:
M
o
+ 1,00 - ok. 68% wyników
M
o
+ 2,00 - ok. 95% wyników
z = + 1,44 (15% wyników
dwustronnie)
z = + 1,96 (5% wyników dwustronnie)
z = + 2,58 (1% wyników dwustronnie)
Wniosek
Krzywa normalna jest używana jako
model rozkładu cech ilościowych w
populacji oraz jako statystyczny
model rozkładu wyników
testowych. Model „normalny”
wymaga „silnej” skali pomiarowej
(wg klasyfikacji Stevensa):
przedziałowej lub ilorazowej (nie
nominalnej czy porządkowej). W
psychologii tylko pomiar
interwałowy jest osiągalny, ale
skala ta wystarcza - testy oferują
zatem pomiar na tej skali).
Jak można osiągnąć wyniki
ilościowe w teście?
Zasadnicze pytanie to: jak test
musi być skonstruowany, aby
dostarczał wyników ilościowych
(informujących o intensywności
mierzonej cechy)?
Cel ten może zostać osiągnięty
jedynie poprzez wprowadzenie
wielu zadań do testu (test jest
zatem narzędziem obejmującym
wiele pozycji, a wynik testowy jest
uzyskany z wielu zadań).
Test jako narzędzie
obejmujące szereg pozycji
(zadań)
Argumenty:
pomiar ilościowy (różnicowanie osób
badanych)
minimalizacja błędu (czynnika losowego)
diagnoza jako efekt koincyndencji
zachowań
ogólność psychologiczna wyniku
testowego (a elementarność i
konkretność pozycji)
Rycina 2. Rozkład wyników
testu z jedną pozycją
0
0,25
0,5
0,75
1
0
1
Rycina 3. Rozkład wyników
testu z dwoma pozycjami
0
0,25
0,5
0,75
1
0
1
2
Rycina 4. Rozkład wyników
testu z dziesięcioma
pozycjami
0
0,25
0,5
0,75
0
1
2
3
4
5
6
7
8
9
10
Rycina 5. Rozkład normalny
wyników testu (wiele
pozycji)
0
0,25
0,5
-3 -2,5 -2 -1,5 -1 -0,5 0
0,5
1
1,5
2
2,5
3
Pomiar ilościowy
Rozkład wyników testu, podobnie
jak każdej pozycji, jest „normalny”
(dwumianowy lub dychotomiczny
rozkład normalny), ale większość
pozycji dostarcza danych
mierzonych na skali nominalnej –
poprzez zsumowanie wyników
pozycji wynik ogólny testu
odpowiada pomiarowi na skali
przedziałowej (z wieloma
kategoriami wyników, odmiennymi
dla różnych osób badanych).
Błąd pomiaru
Prawidłowa odpowiedź na każdą z
pozycji może być odgadnięta lub
uzyskana losowo - z tego względu
pomiar cechy za pomocą jednej
pozycji jest obciążony dużym
błędem (przypadkowości). Mało
prawdopodobne jest natomiast
otrzymanie wysokiego wyniku testu
wyłącznie na drodze zgadywania
(prawdopodobieństwo warunkowe
wielu losowych sukcesów w
przypadku testu z 10 zadaniami
wynosi tylko 0.00098).
Współwystępowanie
zachowań
Cecha jest własnością, która
uzewnętrznia się w różnych
zachowaniach, przy czym
współwystępowanie tych zachowań
jest specyficzne wyłącznie dla danej
cechy. Każda z form zachowania
może być charakterystyczna dla
wielu cech, ale ich kombinacja jest
specyficzna tylko dla danej cechy.
Współwystępowanie
zachowań
Diagnoza, że dana osoba posiada
daną cechę jest trafna jedynie, gdy
wykazuje ona wszystkie
zachowania, charakterystyczne dla
tej cechy.
Informacja uzyskana za pomocą
jednej pozycji jest diagnostycznie
niepewna, ale wynik ogólny (z wielu
pozycji, badających różne formy
zachowania) jednoznacznie
wskazuje na określoną cechę
(badaną przez test).
Ogólna „natura” cechy
Cecha jest własnością ogólną, która
uzewnętrznia się w różnych
zachowaniach i sytuacjach. Każda z
form zachowania informuje o
specyficznym aspekcie cechy,
wszystkie razem zaś o cesze jako
własności ogólnej. Każda z pozycji
bada zatem specyficzną formę
zachowania, zaś wynik ogólny w
teście – ogólną tendencję
(niespecyficzną dla określonej
sytuacji lub formy zachowania).
Wynik testu a wyniki pozycji
Test musi zatem zawierać wiele
pozycji, a wynik testu powinien być
kombinacją wyników wszystkich
pozycji (zazwyczaj jest definiowany
jako suma ważonych lub nieważonych
wyników poszczególnych pozycji). W
efekcie wszystkie własności testu jako
całości zależą wprost od wyników
poszczególnych pozycji (oraz ich
interkorelacji).
Średnia testu a średnia
pozycji
Wynik testu jako suma wyników
poszczególnych pozycji (wyniki zero-
jedynkowe: rozwiązane dobrze vs błędnie)
Średnia wyników pozycji:
M
i
= p
Średnia wyników testu:
M
o
= M
i
Tabela 1. Test z losowymi odpowiedziami (6 pozycji, 14 ob.).
Tabela 2. Dane z badania skalą E z EPQ-R(24) (6 pozycji, 14 o.b.).
Przykład: Średnia testu jako
suma średnich pozycji
Średnia testu z odpowiedziami
losowymi:
M=3,21
Suma średnich pozycji:
0,50+0,50+0,43+0,57+0,64+0,57 =
3,21
Średnia testu psychologicznego:
M=3,00
Suma średnich pozycji:
0,57+0,86+0,43+0,21+0,21+0,71=3,
00
Wniosek
W każdym wypadku średnia
wyników testu jest równa sumie
średnich pozycji. Nowa pozycja
dodana do testu prowadzi do
wzrostu średniej wyników testu
(bez względu na korelację tej
pozycji z innymi pozycjami). W
przypadku pozycji o ekstremalnej
trudności (rozwiązanej przez
wszystkie o.b. – pozycja „łatwa” lub
nie rozwiązanej przez żadną z o.b. –
pozycja „trudna”) średnia testu
również wzrośnie (o wartość
średniej równej 1 albo 0).
Wariancja testu a wariancja
pozycji
Wynik testu jako suma wyników pozycji
(wyniki zero-jedynkowe)
Wariancja pozycji:
S
i2
= p q
Wariancja wyników testu:
S
o2
= S
i2
+ 2 r
ij
S
i
S
j
Wariancja testu a wariancja
pozycji
Wzór na wariancję wyników testu jako
sumy wyników pozycji jest
rozwinięciem dwumianu Newtona:
(a+b)
2
= a
2
+ b
2
+ 2ab
Liczba wyrażeń kowariancyjnych:
k = [j (j - 1)] / 2
Współczynnik korelacji r-
Pearsona
Korelacja jest miarą współzmienności
(związku dwóch zmiennych)
(X
i
- M
i
) (X
j
- M
j
)
r = ----------------------------
N S
i
S
j
Przykład: Wariancja testu
jako suma wariancji pozycji
Wariancja testu z odpowiedziami
losowymi:
S
o
2
=1,45
Suma wariancji pozycji:
0,25+0,25+0,24+0,24+0,23+0,24 =
1,45
Wariancja testu psychologicznego:
S
o
2
=2,29
Suma wariancji pozycji:
0,17+0,12+0,24+0,24+0,17+0,20 =
1,14 2,29
Przykład: Wariancja testu
jako suma wariancji pozycji
Przeciętna interkorelacja pozycji w
teście losowym jest równa zero, z
zatem kowariancja jest także równa
zero.
Przeciętna interkorelacja pozycji w
teście psychologicznym jest równa
0,21 (przeciętne S
o
=0,43), a zatem
podwojona kowariancja =
2*15*0,21*0,43*0,43= 1,16
Wariancja ogólna = 1,14+1,16 =
2,30 2,29
Test losowy jest przypadkiem
szczególnym testu z zerową
kowariancją.
Wniosek
W każdym wypadku wariancja testu
jest równa sumie wariancji pozycji
oraz ich podwojonych kowariancji.
Nowa pozycja dodana do testu
zwiększa wariancję całkowitą tylko
wtedy, gdy wariancja pozycji nie
jest równa zero (nie ma sensu
dodawania pozycji o zerowej
wariancji, bowiem wydłuża to test,
zaś różnice między wynikami
testowymi pozostają takie same).
Wniosek
Nowa pozycja dodana do testu
zwiększa znacznie wariację
całkowitą, jeśli interkorelacje nowej
pozycji z innymi pozycjami są
dodatnie, ponieważ generuje to
duże dodatnie kowariancje.
Dodanie pozycji z zerowymi
korelacjami zwiększa tylko trochę
wariancję całkowitą (bo generuje
zerowe kowariancje). Dodanie zaś
pozycji o ujemnych korelacjach z
innymi pozycjami obniża wariancję
całkowitą (ujemne kowariancje).
Wniosek
Tylko pozycje z niezerowymi
wariancjami oraz wysokimi
pozytywnymi korelacjami powinny
być dodawane do testu – znacznie
zwiększają one wariancję całkowitą
(uzyskanie dużego zróżnicowania
wyników testu jest celem pomiaru
różnicowego). Dodatnie korelacje
oznaczają także, że pozycje mierzą
tę samą cechę - generują one
realną, a nie losową zmienność.
Rozkład normalny wyników
testu
Charakterystyka testu jako całości
zależy od charakterystyki pozycji -
wady pozycji (lub ich niewłaściwa
kompozycja) decydują o wadach
rozkładu wyników oraz zaburzeniu
relacji między wynikami testu a
nasileniem cechy.
Rycina 6. Rozkład normalny
wyników testu
(mezokurtyczny)
0
0,25
0,5
-3 -2,5 -2 -1,5 -1 -0,5 0
0,5
1
1,5
2
2,5
3
Rycina 7. Rozkład
leptokurtyczny
(symetryczny, zbyt duża
kurtoza)
0
0,25
0,5
-3 -2,5 -2 -1,5 -1 -0,5 0
0,5
1
1,5
2
2,5
3
Rycina 8. Rozkład
platokurtyczny
(symetryczny, zbyt mała
kurtoza)
0
0,25
0,5
-3 -2,5 -2 -1,5 -1 -0,5 0
0,5
1
1,5
2
2,5
3
Rycina 9. Rozkład
dwumodalny
0
0,25
0,5
-3 -2,5 -2 -1,5 -1 -0,5 0
0,5
1
1,5
2
2,5
3
Rycina 10. Rozkład
lewoskośny (ujemnie
asymetryczny)
0
0,25
0,5
-3 -2,5 -2 -1,5 -1 -0,5 0
0,5
1
1,5
2
2,5
3
Rycina 11. Rozkład
prawoskośny (dodatnio
asymetryczny)
0
0,25
0,5
-3 -2,5 -2 -1,5 -1 -0,5 0
0,5
1
1,5
2
2,5
3
Rycina 12. Relacja test a cecha w
rozkładach: normalnym oraz lewo- i
prawoskośnym
-3,5
-2,5
-1,5
-0,5
0,5
1,5
2,5
3,5
-3 -2,5 -2 -1,5 -1 -0,5 0
0,5
1
1,5
2
2,5
3
Rycina 13. Relacja test a cecha w
rozkładzie normalnym oraz
rozkładach o wadliwej kurtozie
-3,5
-2,5
-1,5
-0,5
0,5
1,5
2,5
3,5
-3 -2,5 -2 -1,5 -1 -0,5 0
0,5
1
1,5
2
2,5
3
Własności pozycji
doskonałego testu
Test doskonały powinien zawierać
pozycje o identycznych
własnościach statystycznych
(średnich, wariancjach oraz
korelacjach z innymi pozycjami). W
takim wypadku wszystkie pozycje
byłyby diagnostycznie równoważne
(wnosiłyby tę samą wariancję do
wyników testu), a rozkład wyników
testu byłby normalny (skala
pomiarowa: ciągła i prostoliniowa).
Jak uzyskać rozkład
normalny?
Rozkład normalny wyników testu:
kompozycja pozycji o przeciętnej
trudności i przeciętnych dodatnich
interkorelacjach albo o zróżnicowanej
trudności (równomiernie wg
kontinuum trudności) i przeciętnych
interkorelacjach - inne rozkłady można
uzyskać dobierając pozycje pod
względem jednego z obu parametrów.
Wskaźnik trudności pozycji
Dychotomiczna punktacja (0 – 1
punkt):
Trudność = M
i
= p
Skala Likerta (od zera to kilku
puntów):
Trudność = M
i
/ maksymalny
możliwy wynik w danej
skali
(w celu obliczenia wskaźnika
trudności pozycji (czy nawet testu)
niezbędne jest zakotwiczenie
wyniku minimalnego w wartości
„zerowej”).
Relacja między różnymi
wskaźnikami pozycji
Relacja między średnią pozycji
(trudnością) a wariancją pozycji
jest krzywoliniowa (w formie
odwróconego „U”) – wariancja jest
większa w przypadku pozycji o
przeciętnej trudności.
Relacja między średnią (trudnością)
a korelacją pozycji z innymi
pozycjami jest także krzywoliniowa
(odwrócone „U”) - korelacja jest
większa dla pozycji o przeciętnej
trudności.
Jak uzyskać inne rozkłady
wyników testu?
Założenie - manipulowanie
interkorelacjami albo wskaźnikami
trudności:
1. wszystkie pozycje o identycznej
przeciętnej trudności oraz
manipulowanie interkorelacjami
(stały wzrost oraz początkowo
obniżenie do zerowych, później
ujemne);
2. wszystkie pozycje o identycznych
stałych interkorelacjach oraz
manipulowanie wskaźnikami
trudności.
Jak uzyskać inne rozkłady?
Założenie: wszystkie pozycje
identyczna przeciętna trudność
oraz zmiana interkorelacji - stały
wzrost oraz początkowo obniżenie
do zerowych, później ujemne albo
dobór pozycji o zróżnicowanej
średniej a stałych interkorelacjach.
Rycina 12a. Zmiana kształtu
rozkładu - wzrost interkorelacji
12 pozycji testu
0
0,25
0,5
0
1
2
3
4
5
6
7
8
9
10 11 12
Rycina 12b. Rozkład
platokurtyczny
0
0,25
0,5
0
1
2
3
4
5
6
7
8
9
10 11 12
Rycina 12c. Rozkład
dwumodalny
0
0,25
0,5
0
1
2
3
4
5
6
7
8
9
10 11 12
Rycina 12d. Rozkład „U”-
kształny
0
0,25
0,5
0
1
2
3
4
5
6
7
8
9
10 11 12
Rycina 12e. Rozkład dychotomiczny
(dwumianowy) - efekt końcowy i
krańcowy
0
0,25
0,5
0,75
1
0
1
2
3
4
5
6
7
8
9
10 11 12
Rycina 13a. Zmiana kształtu
rozkładu - ujemne interkorelacje
pozycji
0
0,25
0,5
0
1
2
3
4
5
6
7
8
9
10 11 12
Rycina 13b. Rozkład
leptokurtyczny
0
0,25
0,5
0
1
2
3
4
5
6
7
8
9
10 11 12
Rycina 13c. Rozkład
jednomianowy (efekt końcowy i
krańcowy)
0
0,25
0,5
0,75
1
0
1
2
3
4
5
6
7
8
9
10 11 12
Kompozycja pozycji w innych
rozkładach niż normalny (ad.
1)
Pozycje o identycznej trudności (a
zróżnicowanych interkorelacjach):
Rozkład leptokurtyczny – zerowe
lub ujemne interkorelacje między
pozycjami.
Rozkład platokurtyczny – zbyt
wysokie dodatnie korelacje między
pozycjami.
Kompozycja pozycji w innych
rozkładach niż normalny (ad.
2)
Pozycje o różnej trudności (a
identycznych pozytywnych
interkorelacjach):
Rozkłady skośne –
nadreprezentacja pozycji „łatwych”
lub „trudnych”.
Rozkład leptokurtyczny – „łatwe”
oraz „trudne” pozycje (brak pozycji
o przeciętnej trudności).
Rozkład platokurtyczny -
nadreprezentacja pozycji o
przeciętnej trudności.
Wniosek
Kurtoza
(zagęszczenie wyników
wokół średniej) zależy zatem
zarówno od interkorelacji, jak i
trudności pozycji, zaś
skośność
głównie od trudności pozycji.
Niewłaściwa kombinacja pozycji
powoduje zatem uzyskanie
rozkładu o własnościach
odbiegających od charakterystyki
rozkładu normalnego.
Wniosek końcowy
Test powinien zawierać wiele
pozycji, zaś własności pozycji
wyznaczają podstawowe
charakterystyki rozkładu wyników
testu (kształt rozkładu wyników).
Rozkład wyników testu powinien
być normalny, bowiem tylko taki
test pozwala na przyjęcie założenia
o liniowej relacji między wynikami
testu a „latentną”cechą.
Wykład 5
RZETELNOŚĆ POMIARU TESTEM -
PODSTAWOWE POJĘCIA
Pojęcie rzetelności pomiaru
Rzetelność
oznacza dokładność
(precyzję) pomiaru cechy badanej
przez test; rzetelność ma dwa
aspekty - stabilność pomiaru
(powtarzalność wyników badania)
oraz konsystencję (precyzję
pomiaru).
Błąd pomiaru
Pojęcie rzetelności jest
bezpośrednio powiązane z pojęciem
błędu pomiaru – nie istnieje pomiar
bez błędu (zarówno w badaniach
naukowych, jak i w praktyce czy
ocenach prywatnych. Im większy
jest błąd, tym mniejsza jest
rzetelność pomiaru danym
narzędziem.
Konsekwencje błędu pomiaru
Błąd obniża precyzję pomiaru – w
miejsce wyniku prawdziwego osoba
badana uzyskuje wynik
zniekształcony przez błąd – w
konsekwencji osobowość czy
inteligencja osoby badanej nie
może być precyzyjnie oceniona.
Źródła błędu pomiaru w
badaniach testowych
Ogólne charakterystyki osoby
badnaej (techniki wypełniania testu
lub zdolność rozumienia instrukcji)
Specyficzne charakterystyki osoby
badanej dotyczące testu jako
całości (umiejętności specyficzne
dla danego testu czy szczególnej
formy pozycji lub stylów
odpowiadania oraz pozycji
testowych (odmienne oswojenie się
z
Źródła błędu pomiaru w
badaniach testowych
różnymi pozycjami, znajomość
specyficznego zachowania lub
sytuacji).
Ogólne czynniki osoby badanej o
incydentalnym charakterze
(zdrowie, zmęczenie, motywacja,
napięcie emocjonalne, warunki
zewnętrzne – światło, hałas,
temperatura, itp.).
Źródła błędu pomiaru w
badaniach testowych
Specyficzne czynniki osoby badanej
związane z badaniem testowym
(specjalne triki w radzeniu sobie z
zadaniami, rozumienie
specyficznych zadań, poziom
wyćwiczenia specyficznych
umiejętności) oraz z pozycjami
testowymi (fluktuacje pamięci i
uwagi).
Źródła błędu pomiaru w
badaniach testowych
Czynniki związane z badaniem
testowym (systematyczne lub
incydentalne): warunki testowania
(brak dystraktorów, jasność
instrukcji, łatwość dostosowania się
do limitu czasu, itp.), interakcja
płci, osobowości osoby badanej i
badającej, itp., zniekształcenia w
ocenie zachowania oraz czynniki
czysto losowe (zgadywanie).
Błąd jako czynnik losowy
Błąd jest efektem wpływu wielu
niekontrolowanych i
nieprzewidywalnych czynników
(wewnętrznych i zewnętrznych) na
zachowanie, które powodują, że
reakcje osoby badanej stają się
nieprzewidywalne i niespójne z
innymi formami zachowania.
Kombinacja tych czynników jest tak
zawikłana, że przyjmuje się, iż błąd
ma charakter losowy (błąd jest
losowy).
Teorie rzetelności pomiaru
Dwa modele psychometryczne
opisują błąd pomiaru i rzetelność
pomiaru:
Klasyczna Teoria Testów
(Gulliksen, 1950 oraz Lord i Novick,
1968) oraz
Teoria odpowiadania na
pozycje Testowe
. Nowoczesną
formą KTT jest
Teoria Wyników
Generycznych.
Podstawowe założenia
Klasycznej Teorii Testów
Wynik testowy jest efektem dwóch
czynników:
Czynników, które wpływają na
konsystencję zachowania – cechy
psychologicznej;
Czynników, które wpływają na
niespójność zachowania – zmienne
te wyznaczają reakcje osoby
badanej, ale nie mają nic
wspólnego z badaną cechą.
Podstawowe pojęcia
Klasycznej Teorii Testów
W odniesieniu do wyniku testowego:
Obserwowany (otrzymany) wynik
testu;
Wynik prawdziwy;
Błąd pomiaru.
W odniesieniu do wariancji wyników
testu:
Wariancja wyników otrzymanych;
Wariancja wyników prawdziwych;
Wariancja błędu.
Twierdzenie 1
X
o
= X
p
+ X
b
(Wynik testu obejmuje wynik
prawdziwy i błąd pomiaru)
Aksjomaty
Aksjomat 1:
M
b
= 0
(Średnia błędów pomiaru jest równa zero).
Aksjomat 2:
R
pb
= 0
(Wynik prawdziwy i błąd są nieskorelowane).
Aksjomat 3:
R
bb
= 0
(Błędy różnych pomiarów są nieskorelowane).
Twierdzenie 2
M
o
= M
p
+ M
b
= M
p
(Średnia wyników otrzymanych jest
równa średniej wyników prawdziwych
testu; średnia wyników otrzymanych nie
jest zniekształcona przez błąd).
Twierdzenie 3
S
o2
= S
p2
+ S
b2
(Wariancja wyników otrzymanych jest równa
sumie wariancji wyników prawdziwych oraz
wariancji błędu; nie ma kowariancji
pomiędzy wynikami prawdziwymi oraz
błędem; wariancja wyników otrzymanych
jest zniekształcona przez błąd).
Twierdzenie 4
S
p2
S
b2
R
tt
= -----
lub
R
tt
= 1-
------
S
o2
S
o2
(Rzetelność pomiaru testem)
Interpretacja współczynnika
rzetelności
Współczynnik rzetelności jest
proporcją wariancji wyników
prawdziwych do wariancji wyników
otrzymanych lub proporcją
wariancji błędu do wariancji
wyników otrzymanych,
odejmowanej od jedności.
Współczynnik rzetelności wskazuje
jaka część wariancji wyników
otrzymanych wynika z błędu lub
zmienności wyników testu
(niespójności odpowiedzi
testowych).
Twierdzenie 5
S
bp
= S
o
(1 -
R
tt
)
(Standardowy błąd pomiaru
wyników otrzymanych)
Interpretacja standardowego
błędu wyników otrzymanych
Standardowy błąd pomiaru wyników
otrzymanych to odchylenie
standardowe rozkładu wyników badania
danej osoby nieskończenie wiele razy
lub badania danej osoby nieskończoną
liczbą testów równoległych (granice w
jakich może lokować się faktyczny
wynik osoby badanej). Średnia tego
rozkładu stanowi wynik prawdziwy, a
odchylenie standardowe – standardowy
błąd pomiaru.
Interpretacja standardowego
błędu wyników otrzymanych
Wielokrotne badanie jednej osoby
nie jest możliwe (ze względu na
motywację oraz pamięć) – z tego
względu rozkład błędów pomiaru u
wszystkich osób badanych jest
brany pod uwagę (nie ma istotnej
różnicy pomiędzy efektami
losowymi w grupie wielu osób
badanych jednorazowo oraz
wielokrotnym badaniem jednej
osoby – ten sam model czynników
losowych).
Interpretacja standardowego
błędu wyników otrzymanych
Standardowy błąd pomiaru
wskazuje zakres wyników, w
obrębie którego lokuje się wynik
prawdziwy osoby badanej (z
określonym
prawdopodobieństwem) i jest
identyczny dla wszystkich osób
badanych (niezależnie od wyniku
otrzymanego).
Interpretacja standardowego
błędu wyników otrzymanych
Standardowy błąd pomiaru jest
stosowany do wyznaczania
przedziału ufności
dla wyniku
prawdziwego z określoną
pewnością (0,99, 0,95 czy 0,85 – S
em
musi być pomnożony przez wartość
„z” rozkładu normalnego, czyli =
2,58, 1,96 lub 1,44).
Testy równoległe - pojęcie
Testy równoległe:
M
1
= M
2
, S
12
= S
22
(mierzą tę samą cechę z taką samą dokładnością).
Testy równoważne:
M
1
= M
2
(mierzą tę samą cechę, ale nie tak samo dokładnie).
Testy quasi-równoważne:
M
1
= M
2
+ c
(mierzą tę samą cechę wraz z dodatkowym
czynnikiem).
Zastosowania koncepcji
testów równoległych
Koncepcja testów równoległych lub
pomiarów równoległych jest
stosowana w większości metod
oceny rzetelności pomiaru testem
(równoległość jest warunkiem
niezbędnym).
Koncepcja testów równoległych
była punktem wyjścia dla teorii
wyników generycznych (teoria
uniwersalizacji).
Teoria uniwersalizacji
Teoria uniwersalizacji (wyników
generycznych) wykorzystała
koncepcję testów równoległych (np.
test egzaminacyjny na prawo jazdy),
co pozwoliło zrezygnować z
nietestowalnych założeń i twierdzeń
na rzecz obserwowalnych zależności
(błędy mogą być skorelowane i może
to być empirycznie stwierdzone).
Wykład 6
SZACOWANIE RZETELNOŚCI
POMIARU TESTEM: METODY I
WSKAŹNIKI
Metody szacowania
rzetelności pomiaru testem
Zgodność wewnętrzna
Stabilność czasowa
Metoda testów równoległych
Zgodność wewnętrzna
Metoda metoda zgodności połówkowej
(założenie równoległości połówek testu)
Metoda zgodności wewnętrznej przy
podziale testu na wiele części
(założenie równoległości wszystkich
części testu)
Metoda zgodności wewnętrznej
wykorzystująca analizę wariancji
Metoda zgodności
połówkowej - wzór Rulona
S
r2
R
tt
= 1 - ------
S
t2
gdzie S
t2
to wariancja wyników całego
testu, a S
r2
to wariancja różnicy
wyników obu połówek testowych
Metoda zgodności
połówkowej - wzór Guttmana
(S
a2
+ S
b2
)
R
tt
= 2 [ 1 - --------------- ]
S
t2
gdzie S
t2
to wariancja wyników całego
testu, a S
a2
i S
b2
to wariancje połówek
testowych
Metoda zgodności połówkowej -
wzór „proroczy” Spearmana -
Browna
N R
tt
R
tt
n = ---------------------
1 + [ (N - 1) R
tt
]
gdzie R
tt
n - to rzetelność testu po
przedłużeniu, N - wielkość (krotność)
przedłużenia, a R
tt
- rzetelność testu
przed przedłużeniem (w miejsce
współczynnika rzetelności można
wstawiać współczynnik korelacji między
połówkami testowymi)
Metoda zgodności wielu
części testu - wzór Kudera-
Richardson
N (S
t2
- S
i2
)
KR-20: R
tt
= -------
---------------
N - 1
S
t2
gdzie N - liczba części testu, S
t2
- to
wariancja wyników całego testu, a
S
i2
to suma wariancji części testu
Metoda zgodności wielu
części testu - wzór alfa
Cronbacha
N S
i2
= --------
(1 -
-------)
N - 1 S
t2
gdzie N - liczba pozycji testu, S
t2
- to
wariancja wyników całego testu, a S
i2
to suma wariancji pozycji testu
Metoda zgodności wielu
części testu - analiza
wariancji
Wiele podejść - najprostsza metoda
Hoyta
wariancja między osobami - war. błędu
R
tt
=
-----------------------------------------------------
-
wariancja między osobami
Tabela 3. Test z losowymi odpowiedziami.
Pozycja/
osoba
1
2
3
4
5
6
Suma
1-6
Suma
1-3
Suma
4-6
Kwad-
rat
różnic
1
0
0
0
0
0
0
0
0
0
0
2
0
0
0
0
1
0
1
0
1
1
3
1
0
1
0
1
0
3
2
1
1
4
0
1
0
1
0
1
3
1
2
1
5
0
1
0
1
0
1
3
1
2
1
6
1
1
0
0
0
1
3
2
1
1
7
1
0
1
1
1
0
4
2
2
0
8
0
0
1
1
1
1
4
1
3
4
9
1
1
1
0
1
0
4
3
1
4
10
1
1
0
0
1
1
4
2
2
0
11
0
1
1
1
0
1
4
2
2
0
12
1
0
0
1
1
1
4
1
3
4
13
0
0
1
1
1
1
4
1
3
4
14
1
1
0
1
1
0
4
2
2
0
M
0,50
0,50
0,43
0,57
0,64
0,57
3,21
1,43
1,79 -0,36
SD
0,50
0,50
0,49
0,49
0,48
0,49
1,21
0,82
0,86
1,37
SD
2
0,25
0,25
0,24
0,24
0,23
0,24
1,45
0,67
0,74
1,17
Tabela 4. Dane z badania skalą E z EPQ-R(24).
Pozycja/
osoba
1
2
3
4
5
6
Suma
1-6
Suma
1-3
Suma
4-6
Kwadr
at
różnic
1
0
0
0
0
0
0
0
0
0
0
2
0
1
0
0
0
0
1
1
0
1
3
0
1
0
0
0
1
2
1
1
0
4
0
1
0
0
0
1
2
1
1
0
5
0
1
0
0
0
1
2
1
1
0
6
0
1
0
1
0
1
3
1
2
1
7
0
1
0
1
0
1
3
1
2
1
8
0
1
1
1
0
0
3
2
1
1
9
1
0
0
1
1
0
3
1
2
1
10
0
1
1
1
0
1
4
2
2
0
11
0
1
1
1
0
1
4
2
2
0
12
0
1
1
1
0
1
4
2
2
0
13
1
1
1
0
1
1
5
3
2
1
14
1
1
1
1
1
1
6
3
3
0
M
0,21
0,86
0,43
0,57
0,21
0,71
3,00
1,50
1,50
0,00
SD
0,41
0,35
0,49
0,49
0,41
0,45
1,51
0,82
0,82
0,65
SD
2
0,17
0,12
0,24
0,24
0,17
0,20
2,29
0,68
0,68
0,43
Podstawowe statystyki
połówek testowych
Test losowy:
Średnia korelacji pozycji r
1-6
= 0,00
Średnie odchylenie standardowe SD
1-
6
= 0,49
Korelacja połówek r
12
= 0,03
Test psychologiczny:
Średnia korelacji pozycji r
1-6
= 0,21
Średnie odchylenie standardowe SD
1-
6
= 0,43
Korelacja połówek r
12
= 0,68
Podstawowe statystyki
połówek testowych
Test losowy:
M
1
= 1,43 i M
2
= 1,79 – połówki nie są
równoległe (średnia różnic nie jest
równa zero, co wskazuje na
istnienie systematycznej wariancji
między połówkami – w miejsce
wariancji średnia kwadratu różnic
powinna być użyta).
Test psychologiczny:
M
1
= 1,50 i M
2
= 1,50 – połówki są
równoległe (nie ma znaczenia jaka
statystyka będzie użyta).
Rzetelność połówkowa testu
losowego
Rulona R
tt
= 1 - (1,17/1,45)= 0,19
(wariancja)
Rulona R
tt
= 1 - (1,50/1,45) = -0,03
0,00 (kwadrat różnic)
Guttmana R
tt
= 2*[1-
(0,67+0,74)/1,45] = 0,06
Kudera-Richardson KR-20 =
(2/1)*[(1,45-1,41)/1,45 = 0,06
Spearmana-Browna R
ttn
= (2*0,03)/
(1+0,03)=0,06
Rzetelność testu losowego
– poziom pozycji (oraz
S
bp
)
Alfa Cronbacha:
= (6/5)*[1-(1,45/1,45)]=0,00
Spearmana-Browna:
R
ttn
= (6*0,00)/[1+5*0,00)=0,00
Standardowy błąd pomiaru
S
bp
= S
o
*(1 - R
tt
)= 1,25*(1- 0,00) =
1,25, co oznacza, że S
bp
= S
o
.
Rzetelność połówkowa testu
psychologicznego
Rulona R
tt
= 1 - (0,43/2,29) = 0,81
(wariancja)
Rulona R
tt
= 1 - (0,43/2,29) = 0,81
(kwadrat różnic)
Guttmana R
tt
= 2*[1-
(0,68+0,68)/2,29] = 0,81
Kudera-Richardson KR-20 =
(2/1)*[(2,29-1,36)/ 2,29 = 0,81
Spearmana-Browna R
ttn
= (2*0,68)/
(1+0,68)=0,81
Rzetelność testu
psychologicznego - pozycje
Alfa Cronbacha:
= (6/5)*[1-(1,14/2,29)]=0,60
Spearmana-Browna:
R
ttn
= (6*0,21)/[1+5*0,21)=0,61
Obserwacja
Ocena rzetelności metodami
połówek testowych prowadziła do
osiągnięcia współczynnika
rzetelności rzędu 0,81, zaś ocena
rzetelności metodą zgodności
pozycji tylko współczynnika rzędu
0,60 (zwłaszcza wzór Spearmana-
Browna dał odmienne wyniki).
Powstaje pytanie - dlaczego?
Wydaje się, że połówki testowe nie
były w pełni reprezentatywne dla
całego testu.
Podział
Pozycje w każdej
połówce
M
1
M
2
S
1
2
S
2
2
r
R
ttn
S-B
Gutma
nna
R
tt
1
1-2-3 vs 4-5-6
1,50
1,50
0,68
0,68
0,68
0,81
0,81
2
1-2-4 vs 3-5-6
1,64
1,36
0,52
0,80
0,75
0,86
0,85
3
1-2-5 vs 3-4-6
1,29
1,71
0,63
1,06
0,36
0,53
0,52
4
1-2-6 vs 3-4-5
1,79
1,21
0,60
1,03
0,42
0,59
0,58
5
1-3-4 vs 2-5-6
1,21
1,79
1,03
0,60
0,42
0,59
0,58
6
1-3-5 vs 2-4-6
0,86
2,14
1,12
0,84
0,17
0,29
0,29
7
1-3-6 vs 2-4-5
1,36
1,64
0,80
0,52
0,75
0,86
0,85
8
1-4-5 vs 2-3-6
1,00
2,00
1,00
1,00
0,14
0,25
0,25
9
1-4-6 vs 2-3-5
1,50
1,50
0,68
0,68
0,68
0,81
0,81
10
1-5-6 vs 2-3-4
1,14
1,86
0,84
0,98
0,26
0,41
0,41
Tabela 5. Wszystkie możliwe podziały połówkowe skali E z EPQ-R(24).
Wnioski
Tylko podziały nr 1 oraz 9
prowadziły do uzyskania
równoległych połówek testu, co
oznacza, że wybrany podział
prowadził do „zyskiwania na
przypadku”.
Średnia współczynnika Guttmanna
była równa 0,60 – tę samą wartość
dała alfa Cronbacha (alfa jest
równa średniej wszystkich
podziałów testu na połowy lub ich
większej części).
Standardowy błąd pomiaru
testu psychologicznego
Standardowy błąd pomiaru:
S
bp
= 1,51*(1-0,60) = 0,96
Półprzedział ufności:
S
bp95%
= 1,96*S
bp
= 1,88, z zatem
przedział ufności jest równy S
o
+
1,88 (wynik prawdziwy osoby
badanej mieści się w przedziale ->
wynik otrzymany + ok. 2 punkty, z
pewnością 95%).
Stabilność czasowa
Stabilność
bezwzględna
(powtórny
pomiar tym samym testem)
Stabilność
względna
(powtórny
pomiar wersją równoległą testu)
Forma oboczna -
test-retest
(pomiar tym samym testem raz po
razie)
Założenia metod z
powtarzanym pomiarem
Podstawowe założenie – oba
pomiary są równoległe.
Wskaźnikiem rzetelności jest
zwykły współczynnik korelacji
Pearsona lub współczynnik Scotta-
Wertheimera.
W przypadku pomiarów quasi-
równoważnych (systematyczne
zmiany nasilenia mierzonej cechy)
tylko zwykła korelacja Pearsona
może być użyta.
Współczynnik korelacji
wewnątrzklasowej wg Scotta-
Wertheimera
(X
1
- X
2
)
2
R
tt
= 1 - -----------------
2 N S
2(X1,X2)
gdzie X
1
oraz + X
2
to wyniki
pierwszego i drugiego badania, N -
liczba osób badanych, a S
2(X1,X2)
- to
wariancja wyników w obu badaniach)
Tabela 6. Stabilność czasowa skal PTS: bezwzględna
(po 2 tygodniach i 6 miesiącach oraz względna (po 2 tygodniach).
Współczynnik rzetelności
Siła
Procesu
Pobudzenia
Siła
Procesu
Hamowania
Ruchliwość
Procesów
Nerwowych
Alfa Cronbacha (19
pozycji)
0,83
0,73
0,81
Stabilność bezwzględna
(2 tygodnie)
0,76*
0,60*
0,78*
Stabilność bezwzględna
(6 miesięcy)
0,62*
0,53*
0,68*
Stabilność względna
(2 tygodnie)
0,63*
0,58*
0,58*
Metoda testów równoległych
Metoda testów równoległych wymaga
dwóch odrębnych testów - jest metodą
uogólnioną, łącząca zgodność
wewnętrzną oraz test-retest. W
metodzie tej wykorzystujemy
współczynnik korelacji Pearsona -
rzetelność pomiaru jest równa
współczynnikowi korelacji obu testów
równoległych (wielkości kowariancji
obu testów)
.
Czynniki wpływające na
rzetelność pomiaru
Zakres (zmienność) wyników w
badanej próbie – współczynniki są
niższe w przypadku, gdy zmienność
w próbie jest mniejsza (lub osoby
badane mają zbliżone nasilenie
cechy). Należy pamiętać, że
współczynnik rzetelności oznacza
rzetelność różnic
interindywidualnych lub rzetelność
zróżnicowania osób badanych.
Czynniki wpływające na
rzetelność pomiaru
Charakterystyka testu –
współczynniki są wyższe gdy test
zawiera dużo pozycji (z uwagi na
dużą liczbę kowariancji) oraz gdy
korelacje między pozycjami są
wysokie (z uwagi na to, że duża
proporcja wariancji całkowitej
wynika z kowariancji). Należy
pamiętać, że kowariancje są
traktowane jako źródło wariancji
prawdziwej.
Czynniki wpływające na
rzetelność pomiaru
Metoda oszacowania rzetelności
pomiaru – współczynniki zgodności
wewnętrznej dają wyższe
oszacowanie rzetelności niż
współczynniki stabilności (z uwagi
na większą liczbę źródeł błędu).
Należy pamiętać, że testy o wyższej
zgodności wewnętrznej zwykle
wykazują też wyższą stabilność
czasową (poza testami badającymi
stany psychologiczne).
Kryteria akceptacji
rzetelności pomiaru testem
Zgodność wewnętrzna:
Testy przeznaczone do diagnozy
indywidualnej - wartość minimalna
0,80, wartość optymalna – ponad
0,90.
Testy przeznaczone do badań
naukowych - wartość minimalna
0,70, wartość optymalna – ponad
0,80
Absolutna wartość minimalna
współczynnika rzetelności wynosi
0,50 (połowa wariancji wynika z
błędu).
Kryteria akceptacji
rzetelności pomiaru testem
Stabilność czasowa:
Wartość minimalna = 0,50 (tylko
połowa zmienności wynika ze
zgodności wyników obu pomiarów).
Testy równoległe:
Wartość minimalna = 0,50 (tylko
połowa zmienności wynika ze
zgodności wyników obu testów).
Rodzaj testu a wybór metody
szacowania rzetelności
Testy zdolności – metody
połówkowe (z uwagi na różną
trudność pozycji, które nie są
równoległe).
Inwentarze osobowości – alfa
Cronbacha lub KR-20 (zgodność
wewnętrzna na poziomie pozycji).
Testy szybkości – metoda test-
retest lub metoda testów
równoległych.
Praktyczne wykorzystanie
oszacowania rzetelności
pomiaru
Na podstawie współczynnika rzetelności
pomiaru wyznaczany jest
standardowy
błąd pomiaru wyników otrzymanych
(symetryczny wokół wyniku otrzymanego
i asymetryczny dla wyniku prawdziwego)
albo
standardowy błąd estymacji wyniku
prawdziwego
(asymetryczny wokół
wyniku otrzymanego i symetryczny wokół
wyniku prawdziwego oraz o różnej
asymetrii dla poszczególnych wyników
otrzymanych)
Standardowy błąd pomiaru
wyniku otrzymanego
S
bp
= S
o
(1 - R
tt
)
Standardowy błąd estymacji
wyniku prawdziwego
S
be
= S
bp
R
tt
a wynik prawdziwy:
X
e
= R
tt
X
o
+ (1 - R
tt
)
M
o
Wyznaczanie przedziału
ufności
W celu wyznaczenia przedziału
ufności należy wyznaczyć
półprzedział, tzn. S
bp
lub S
be
przemnożyć przez wartość 2,58
(99% pewność), 1,96 (95%
pewność) albo 1,44 (pewność 85%,
tj. 15% błąd oszacowania) oraz
dodać i odjąć od wyniku
otrzymanego lub oszacowanego
wyniku prawdziwego - granice
przedziału ufności.
Zastosowanie
standardowych błędów
pomiaru
Błędy pomiaru służą do
wyznaczenia granic przedziału
ufności wokół wyniku otrzymanego
i przedziałowej estymacji wyniku
prawdziwego (w zakresie którego
mieści się – z określoną pewnością
wynik prawdziwy osoby badanej).
Porównania wyniku danej osoby z
normą (średnią w grupie) czy inną
wartością (np. wynikiem
progowym).
Zastosowanie
standardowych błędów
pomiaru
Porównania wyników dwóch osób
(różnice interindywidualne)
badanych tym samym testem (czy
różnica jest realna – wynika z cechy
czy jest spowodowana przez błąd?).
Porównania wyników danej osoby
(różnice intraindywidualne)
badanej dwoma testami (czy
różnica jest realna – wynika z cechy
czy jest spowodowana przez błąd?).
Standardowy błąd różnicy
wyników
interindywidualnych
S
br
= S
o
2 (1-R
tt
)
S
o
- odchylenie standardowe wyników
otrzymanych, R
tt
- współczynnik
rzetelności testu (wartość S
br
należy
przemnożyć przez określoną
wartość „z” w celu zbudowania
przedziału ufności).
Standardowy błąd różnicy
wyników
intraindywidualnych
S
br
= S
o
2 - R
aa
- R
bb
S
o
- odchylenie standardowe wyników
otrzymanych w każdym z testów
(wyniki są wyrażone na identycznej
skali standardowej), R
aa
i R
bb
-
współczynniki rzetelności obu
testów (wartość S
br
należy
przemnożyć przez określoną
wartość „z” w celu zbudowania
przedziału ufności).