Slajdy1

background image

BOGDAN ZAWADZKI

PODSTAWY POMIARU

PSYCHOMETRYCZNEG

O

background image

Program wykładu

Wykład 1. Test jako narzędzie

diagnozy psychologicznej –
podstawowe pojęcia.

Wykład 2. Rodzaje testów

psychologicznych.

Wykład 3. Diagnoza psychologiczna

za pomocą testów – aspekt
psychologiczny, metodologiczny,
psychometryczny i etyczny.

background image

Program wykładu

Wykład 4. Pomiar różnicowy w

psychologii – podstawowe założenia.

Wykład 5-6. Rzetelność pomiaru testem

– podstawy teorii rzetelności testów
psychologicznych w ujęciu klasycznej
teorii testów i metody szacowania.

Wykład 7-8. Trafność pomiaru testem:

pojęcie trafności pomiaru i rodzaje
trafności.

background image

Program wykładu

Wykład 9-10. Podstawowe

problemy konstruowania testów:
strategie konstruowania testów i
procedura konstrukcji testów.

Wykład 11. Czynniki

zniekształcające wyniki testowe.

Wykład 12. Podstawowe problemy

kulturowej adaptacji testów.

background image

Program wykładu

Wykład 13. Normalizacja wyników

testu.

Wykład 14. Interpretacja wyników

testowych.

Wykład 15. Użyteczność

standardwych metod diagnostycznych
w praktyce psychologicznej – wyniki
metaanaliz dotyczące wybranych
metod oraz podsumowanie wykładów.

background image

Literatura wprowadzająca

 Ciechanowicz, A., Jaworowska, A. i Szustrowa,

T. (1996). Testy Prawo Praktyka. Warszawa:
Pracownia Testów Psychologicznych PTP.

 Zawadzki, B. i Hornowska, E. (2008).

Psychometria. Konstrukcja i adaptacja testów
psychologicznych. W: J. Strelau i D. Doliński
Brzeziński (red.), Psychologia. Podręcznik
akademicki
(s. 847-893). Gdańsk: Gdańskie
Wydawnictwo Psychologiczne.

background image

Literatura obowiązkowa

Hornowska, E. (2001). Testy

psychologiczne. Teoria i praktyka.
Warszawa: Wydawnictwo Naukowe Scholar.

Hornowska, E., Paluchowski, W. J. (2004).

Kulturowa adaptacja testów
psychologicznych. W: J. Brzeziński (red.),
Metodologia badań psychologicznych.
Wybór tekstów
(s. 151-191). Warszawa:
Wydawnictwo Naukowe PWN.

background image

Literatura uzupełniająca

 Anastasi, A i Urbina, S. (1999). Testy

psychologiczne. Warszawa: Pracownia Testów
Psychologicznych PTP.

 Brzeziński, J. (2005)(red.). Trafność i rzetelność

testów psychologicznych. Wybór tekstów.
Gdańsk: Gdańskie Wydawnictwo
Psychologiczne.

 Magnusson, D. (1981). Wprowadzenie do teorii

testów. Warszawa: PWN (rozdz. 5-11,14-16).

background image

Literatura uzupełniająca

 Murphy, K. R. i Davidshofer, C. O. (2005).

Psychological testing. Principles and applications
(VI International edition). Upper Saddle River,
N.J.: Prentice-Hall, Inc.

 Zawadzki, B. (2002). Temperament - geny i

środowisko. Porównania wewnątrz – i
międzypopulacyjne
. Gdańsk: GWP (rozdz. 3).

 Zawadzki, B. (2006). Kwestionariusze

osobowości: strategie i procedura konstruowania.
Warszawa: Wydawnictwo Naukowe Scholar.

background image

Wykład 1

DIAGNOZA PSYCHOLOGICZNA

ZA POMOCĄ TESTÓW

STANDARDOWYCH:

PODSTAWOWE POJĘCIA

background image

Metody badawcze w

psychologii

Metody eksperymentalne

Metody diagnostyczne

background image

Podstawowy schemat

badawczy dla wszystkich

metod

B – R

B - (bodziec = zmienna/zmienne

niezależne)

R (reakcja = zmienna zależna)

background image

Schemat badawczy metod

eksperymentalnych

Zmienna niezależna główna różni się

dla poszczególnych osób (grup

badawczych).

Inne zmienne niezależne są

identyczne dla wszystkich osób

badanych (lub rozkładają się losowo).

background image

Schemat badawczy metod

eksperymentalnych

Wniosek: zmiany (lub różnice)

w zmiennej zależnej

(zachowaniu) zależą od

głównej zmiennej niezależnej.

background image

Schemat badawczy metod

eksperymentalnych

Metody eksperymentalne

pozwalają na ocenę wpływu

czynników zewnętrznych

(„środowiskowych”) na

zachowanie.

background image

Schemat badawczy metod

diagnostycznych

Zmienna niezależna główna jest

identyczna dla poszczególnych osób

badanych.

Inne zmienne niezależne są

identyczne dla wszystkich osób

badanych (lub rozkładają się losowo).

background image

Schemat badawczy metod

diagnostycznych

Wniosek: różnice

międzyosobnicze w zachowaniu

nie zależą od zmiennej

niezależnej, ale od czynników

wewnętrznych („latentnych”

cech).

background image

Schemat badawczy metod

diagnostycznych

Metody diagnostyczne pozwalają

zatem na ocenę wpływu

czynników wewnętrznych

(„osobowościowych”) na

zachowanie.

background image

Metody diagnozy

psychologicznej

Kryteria podziału (interpretacja

zachowania i stopień formalizacji
procedury):

Zachowanie jako próbka (testy

standaryzowane)

Zachowanie jako znak (testy

projekcyjne)

Metody niesformalizowane (swobodne)

background image

Do czego służą testy?

Testy są metodami, służącymi do

zbierania informacji o człowieku,
potrzebnej do diagnozy psychologicznej.
Diagnoza psychologiczna jest procesem
aktywnego poszukiwania danych
potrzebnych do podjęcia decyzji o
działaniach, zmierzających do zmiany
aktualnego stanu (położenia)
psychospołecznego ludzi (w efekcie
terapii, porady, itp.).

background image

Co mierzą testy?

Testy służą do rejestracji faktów

psychologicznych z życia człowieka,
tj. informacji o jego zachowaniu:
przeszłym lub obecnym, typowym
(najczęstszym - cechy) lub chwilowym
(stany). Testy są metodami
rejestrującymi różnice w zachowaniu
ludzi oraz stałość czasową i
sytuacyjną zachowania danego
człowieka.

background image

Testy są metodami badania

zachowania

Testy nie pozwalają na bezpośredni

pomiar cech (czy stanów) - badają
jedynie zachowanie. Cechy (stany)
są psychologicznymi
interpretacjami istnienia różnic
indywidualnych w wynikach testu
(wyjaśnieniami w terminach
„latentnych” cech lub stanów,
które wpływają na wyniki testowe
oraz warunkują istnienie różnic
międzyosobniczych w wynikach
testu).

background image

Co to jest test?

Standardy dla testów stosowanych w

psychologii i pedagogice (APA, 2007, s.
24):

Testem jest narzędzie lub

procedura służące ocenie. Ich istotą
zaś – otrzymanie w określonych
warunkach próbki zachowania osób
badanych, a następnie dokonanie
ich oceny zgodnie z
wystandaryzowanymi regułami
”.

background image

Poprzednia definicja w

Standardach APA

Test to

procedura diagnozowania

.

Może on być zbiorem zadań lub pytań,
które - w standardowych warunkach
(tj. stałych, jednakowych dla
wszystkich) - mają wywoływać -
określone rodzaje zachowań i
dostarczać wyników o pożądanych
własnościach psychometrycznych, tj.
posiadających wysoką rzetelność i
wysoką trafność.

background image

Elementy składowe testu

(zgodnie ze schematem: B-R)

1). test psychologiczny zawiera próbki

zadań - czyli określone standardowe
bodźce; test psychologiczny jednak to
przede wszystkim specyficzna forma
interakcji między osobą badającą a
osobą badaną, która to interakcja
zachodzi w określonych warunkach
czasowych, fizycznych i
psychologicznych (procedura, a nie
tylko sam materiał).

background image

Elementy składowe testu

(zgodnie ze schematem: B-R)

2). test psychologiczny zawiera skalę

lub skale standardowe, rejestrujące
wywołane przez bodźce reakcje;
przedmiotem rejestracji w teście jest
zachowanie, które:

a). jest deskrypcją cechy,
b). którego aspekt spełnia kryteria:

typowości, specyfiki dla występującego
bodźca oraz reprezentacji ilościowej, a
nie jakościowej.

background image

Elementy składowe testu

3). test psychologiczny dostarcza

reguł dochodzenia do wyniku oraz
jego oceny, w dwóch aspektach:

a). indywidualnym - informuje o

nasileniu danej cechy u danej
jednostki;

b). pomiarowym - umożliwia

oszacowanie parametrów "dobroci"
pomiaru testem.

background image

Jakie wymogi muszą spełniać

testy?

Testy muszą być tak skonstruowane,

aby ich zastosowanie do pomiaru
cech człowieka, charakteryzowało się
odpowiednio wysoką

rzetelnością

,

trafnością

,

obiektywnością

,

standaryzacją

i

znormalizowaniem

-

test zatem musi spełniać te
wymagania, by mógł być stosowany, i
żeby mógł być nazwany testem.

background image

Kryterium standaryzacji

Standaryzacja oznacza, że

procedura

badania testem

musi być tak

szczegółowo opracowana, aby
stosowanie go było za każdym razem
identyczne - niezależnie od osoby
badającej i osoby badanej; standaryzacja
ma na celu zminimalizowanie wpływu
czynników ubocznych lub zakłócających
(wewnętrznych i zewnętrznych) na
wyniki testowe.

background image

Kryterium obiektywności

Obiektywność oznacza, że

procedura interpretacji

wyników

badania testem musi być tak
szczegółowo opracowana, aby
interpretacja była za każdym razem
identyczna - niezależnie od osoby
badającej; obiektywność ma na celu
zminimalizowanie wpływu osoby
badającej na wyniki testowe.

background image

Kryterium normalizacji

Normalizacja oznacza konieczność

opracowania procedury przekształcania
wyników liczbowych w wyniki
różnicowe, umożliwiające ocenę wyniku
danej osoby na tle reprezentatywnej
populacji; normalizacja ma na celu
zminimalizowanie błędi związanego z
oceną faktycznego nasilenia cechy u
osoby badanej, a więc błędnej diagnozy
psychologicznej.

background image

Kryterium rzetelności

Rzetelność oznacza konieczność

takiego opracowania testu (materiału
testowego i procedury badania), aby
maksymalizował on dokładność
pomiaru cechy badanej przez test;
rzetelność ma dwa aspekty -
stabilność pomiaru (powtarzalność
wyników badania) oraz konsystencję
(precyzję pomiaru).

background image

Kryterium trafności

Trafność oznacza wymóg takiego

opracowania testu (materiału
testowego i procedury badania), aby
maksymalizował on stopień, w jakim
test mierzy daną cechę; trafność ma
dwa aspekty - dotyczy tego, co test
mierzy i jak dobrze to mierzy oraz
dotyczy tego, co możemy
przewidywać na podstawie wyników
testowych.

background image

Wykład 2

RODZAJE TESTÓW

PSYCHOLOGICZNYCH

background image

Jakie są rodzaje testów?

Pod względem specyfiki zbierania

informacji rozróżniamy następujące
testy standaryzowane:

background image

Rodzaje testów

1). Test, w którym jednostka wykonuje

specyficzne zadanie - test ten
wymaga maksymalnego wykonania
(testy inteligencji, zdolności,
wiadomości, sprawności
psychomotorycznej). Testy
maksymalnego wykonania mogą być
testami mocy, testami szybkości lub
testami z ograniczeniem czasowym.

background image

Rodzaje testów

2). Test, w którym jednostka sama

opisuje swoje zachowanie - test
rejestruje samopis typowego
zachowania (inwentarze, ankiety,
arkusze biograficzne).

background image

Rodzaje testów

3). Test, w którym jednostka jest

obserwowana w specyficznej sytuacji
lub ogólniej - w wielu określonych
sytuacjach - test rejestruje dane
obserwacyjne typowego zachowania
lub wykonania zadania w naturalnych
warunkach (próbki pracy zawodowej,
arkusze obserwacyjne, arkusze ocen,
arkusze szacowania cech).

background image

Formalna klasyfikacja testów

Testy jedno-skalowe – interpretacja w

terminach intensywności cechy
(diagnoza ilościowa) albo interpretacja
typologiczna (diagnoza jakościowa).

Testy wielo-skalowe – interpretacja

profilu testowego (model cech
równorzędnych lub model
hierarchiczny), który może być
wykorzystany w diagnozie typologicznej
lub intraindywidualnej (różnicowej).

background image

Rycina 1. Wyniki testowe,

pozwalające na diagnozę

intensywności cechy.

Wynik przeciętny – przeciętna intensywność

cechy

Wynik niski – mała intensywność cechy

Wynik wysoki – duża intensywność cechy

background image

Rycina 2. Wyniki testu jedno-

skalowego do diagnozy

typologicznej.

Wyniki testu zbliżone do grupy „górnej”

Wyniki testu zbliżone do grupy „dolnej”

background image

Ryc. 3. Wyniki testu wielo-skalowego,

służące do diagnozy profilowej (cechy

równorzędne).

background image

Rycina 4. Wyniki testu wielo-

skalowego (model hierarchiczny).

Poszukiwanie Doznań

Poszukiwanie grozy i przygód

Poszukiwanie przeżyć

Wrażliwość na nudę

Rozhamowanie

background image

Intraindywidualna diagnoza

różnicowa

Nie tylko porównania

międzyosobnicze, ale także
wewnątrzosobnicze, np. werbalny i
niewerbalny IQ (diagnoza
ilościowa).

background image

Historia testów (oraz

psychometrii)

3000 lat p.n.e – testowanie w

chińskiej służbie cywilnej;

1850-1900 – badania służb cywilnej

w USA;

1900-1920 – rozwój testów zdolności

umysłowych (teoria
psychometryczna);

1920-1940 – rozwój inwentarzy

osobowości (analiza czynnikowa);

background image

Historia testów (oraz

psychometrii)

1940-1960 – rozwój narzędzi do diagnozy

zainteresowań zawodowych oraz
psychopatologii;

1960-1980 – rozwój narzędzi do diagnozy

neuropsychologicznej (item response
theory
– „teoria odpowiadania na pozycje
testowe);

Od 1980 – rozwój metody „adaptacyjnego

testowania komputerowego”
(computerized adaptative testing
).

background image

Historia najbardziej

popularnych testów

1905: Binet i Simon – pierwsza skala
inteligencji;

1906: Heymans i Wiersma – pierwsze
kwestionariuszowe badanie osobowości
(metoda szacowania);

1917: Woodworth – pierwszy inwentarz
osobowości (psychopatologia);

1927-1934: Strong/Kuder – pierwsze
narzędzia do badania zainteresowań
zawodowych;

background image

Historia najbardziej

popularnych testów

1939: Wechsler – Wechsler-Bellevue

Intelligence Scale (1997 - WAIS-III);

1943: Hathaway i McKinley –

Minnesota Multiphasic Personality

Inventory (1989 - MMPI 2);

1949: Cattell – 16 PF (Personality

Factors);

1950 - 1990 – inwentarze Eysencka;
1990 – 2000 – inwentarze do badania

Wieliej Piątki (Costa i McCrae).

background image

Informacja o testach

Standards for Educational and

Psychological Testing (1985 and

1999);

Mental Measurements Yearbook

and Test Critiques;

background image

Czasopisma presentujące

testy (oraz kwestie

psychometryczne)

Psychometrika
Educational and Psychological

Measurement

Applied Psychological Measurement
Journal of Educational

Measurement

Journal of Educational Psychology
Journal of Applied Psychology
Personnel Psychology
Journal of Consulting and Clinical

Psychology.

background image

Jakie są zastosowania

testów?

Testy są stosowane w badaniach

naukowych i praktycznych:

a). przydatności zawodowej, która

wiąże się z:

- doborem zawodowym,
- poradnictwem zawodowym;
b). diagnostyce klinicznej;
c). diagnostyce zdolności specjalnych.

background image

Zalety i wady testów

Testy „reprezentują najbardziej

wartościową i sprawiedliwą

technologię, umożliwiającą

podejmowanie wielu ważnych

decyzji o ludziach”, ale

jednocześnie „testowanie

psychologiczne jest bardzo

kontrowersyjne” (Murphy i

Davidshofer, 1989, s. 2).

background image

Etyczne (kontroweryjne)

aspekty testowania

Wpływ testowania na społeczeństwo

(różnice realne czy pozorne?,

efektywność czy równość?,

pomaganie czy ranienie ludzi?);

Naruszenie prywatności (informacja o

życiu prywatnym, problem poufności

oraz udostępniania wyników testu);

Sprawiedliwe użycie testu (równa

dostępność materiału testowego –

kwestie kulturowe, badanie osób

niepełnosprawnych).

background image

Wykład 3

PSYCHOLOGICZNY,

METODOLOGICZNY,

PSYCHOMETRYCZNY I ETYCZNY

ASPEKT DIAGNOZY

PSYCHOLOGICZNEJ ZA POMOCA

METOD TESTOWYCH

background image

Aspekty diagnostyki

testowej

Diagnostyka psychologiczna,

realizowana za pomocą testów
standaryzowanych, obejmuje:
aspekt

psychologiczny

,

metodologiczny

,

psychometryczny

oraz

etyczny

pomiaru.

background image

Aspekt

psychologiczny

diagnozy

Związany jest z treścią psychologiczną

pomiaru i odnosi się on zatem do:

a). problemu badawczego wyznaczonego

przez cel diagnozy;

b). koncepcji (czy wiedzy)

psychologicznej, precyzującej, jakie cechy
psychologiczne są mierzone testem;

c). interpretacji i wniosków

psychologicznych formułowanych na
podstawie pomiaru testowego.

background image

Aspekt

metodologiczny

diagnozy

Dotyczy formalnych reguł stosowania

testu: procedury badania, obliczania
wyników i transformacji na wyniki
standaryzowane oraz interpretacji
uzyskanych danych, a więc odnosi się
do procesu dochodzenia do diagnozy
psychologicznej. Aspekt
metodologiczny wiąże się z
wymaganiami standaryzacji,
obiektywności i normalizacji testu.

background image

Aspekt

etyczny

diagnozy

Odnosi się do konsekwencji

życiowych i społecznych dla osoby
badanej, wynikających z pomiaru
testem. Problemy te obejmują:

a). stronniczość, która prowadzi do

dyskryminowania (lub
faworyzowania) określonych osób
lub grup społecznych, np. w postaci
seksizmu, rasizmu, itp.

background image

Aspekt

etyczny

diagnozy

b). naruszenie wolności osobistej

(ujawnienie tajemnicy pomiaru testowego
osobom postronnym, niewłaściwy sposób
komunikowania wyników samej osobie
badanej, brak dobrowolności udziału w
badaniach lub brak możliwości rezygnacji
z badań w ich trakcie).

c). "etykietowanie" (stygmatyzowanie),

wynikające z ahumanistycznego celu
badania.

background image

Aspekt

psychometryczny

diagnozy

1). konieczność uwzględniania we

wnioskowaniu wskaźników
psychometrycznych,
charakteryzujących dokładność czy
pewność diagnozy;

2). stosowania określonych procedur

matematycznych do oceny jakości i
poprawności pomiaru testowego,
wynikających z modeli
psychometrycznych i teorii pomiaru.

background image

Wykład 4

SPECYFIKA POMIARU

RÓŻNICOWEGO W

PSYCHOLOGII - TESTY JAKO

NARZĘDZIA DO BADANIA

SPECYFIKI JEDNOSTKI

background image

Cel pomiaru różnicowego w

psychologii

Celem pomiaru psychologicznego

jest różnicowanie ludzi - określenie
ich specyfiki na tle innych osób
(populacji odniesienia). Cel ten
może być realizowany na dwa
sposoby: podejście

idiograficzne

i

nomotetyczne

.

background image

Podejście idiograficzne i

nomotetyczne

Celem podejścia

idiograficznego

jest

uchwycenie specyfiki jednostki porzez
wyodrębnienie cech,
charakterystycznych tylko dla niej i
wskutek tego wyróżniających ją z
populacji.

Celem podejścia

nomotetycznego

jest

określenie specyfiki jednostki poprzez
wskazanie charakterystycznego dla niej
nasilenia cech, wspólnych dla populacji.

background image

Pomiar w psychologii -

definicja

Pomiar - proces

przyporządkowywania obiektom

określonych liczb w taki sposób,

aby specyficzne cechy tych

obiektów były odzwierciedlone

przez własności liczb

.

Pomiar (w psychologii) - proces

przyporządkowania liczb (tzn.

wyników testowych) osobom

badanym w taki sposób, aby

mierzone testem własności

psychologiczne tych osób były

odzwierciedlone przez własności

liczb

.

background image

Pojęcie cechy

Cecha – zmienna osobowa, która

wykazuje międzyosobniczą
zmienność i wewnątrzosobniczą
stałość (czasową i sytuacyjną oraz
koherencję (spójność) wskaźników.
Nomotetyczna cecha jest zatem
zmienną ilościową - możliwy pomiar
na skali przedziałowej.

background image

Rozkład normalny a pomiar

w psychologii

Cechy psychologiczne mają rozkład

normalny w populacji – jest zatem
oczywiste, że testy przeznaczone do
pomiaru tych cech powinny dostarczać
wyników o rozkładzie normalnym. Na
podstawie tego założenia „krzywa
normalna” jest traktowana jako model
rozkładu wyników testu (wartości ciągłe
i równe różnice pomiędzy wszystkimi
wartościami wyników testu).

background image

Standardy porównań dla

pomiaru cech różnicowych

Dla różnicowych cech ilościowych

standardem (punktem odniesienia)
jest

średnia

rozkładu normalnego, a

zmienność definiowana jest poprzez

odchylenie standardowe

(lub

wariancję

) tego rozkładu (wynik

sumaryczny wyników pozycji jest dla
danej osoby jest informacją o
nasileniu jej cechy – cechy badanej
przez test).

background image

Rycina 1. Rozkład normalny

0

0,25

0,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1

1,5

2

2,5

3

background image

Średnia arytmetyczna

wyników testu

X

i

M

o

= --------

N

background image

Wariancja wyników testu

(X

i

- M

o

)

2

S

o2

= -----------------

N

background image

Odchylenie standardowe

wyników testu

(X

i

- M

o

)

2

S

o

=

-------------------

N

background image

Charakterystyka rozkładu

normalnego

Wyniki standaryzowane
M

o

=0,00 oraz SD

o

=1,00, przy

czym M

o

=M

e

=M

mod

Rozkład symetryczny, wykazujący

odpowiednie zagęszczenie
wyników wokół średniej
(skośność - miara asymetrii oraz
kurtoza - miara zagęszczenia)

background image

Charakterystyka rozkładu

normalnego

Znana jest częstość poszczególnych

wyników:

M

o

+ 1,00 - ok. 68% wyników

M

o

+ 2,00 - ok. 95% wyników

z = + 1,44 (15% wyników

dwustronnie)

z = + 1,96 (5% wyników dwustronnie)
z = + 2,58 (1% wyników dwustronnie)

background image

Wniosek

Krzywa normalna jest używana jako

model rozkładu cech ilościowych w

populacji oraz jako statystyczny

model rozkładu wyników

testowych. Model „normalny”

wymaga „silnej” skali pomiarowej

(wg klasyfikacji Stevensa):

przedziałowej lub ilorazowej (nie

nominalnej czy porządkowej). W

psychologii tylko pomiar

interwałowy jest osiągalny, ale

skala ta wystarcza - testy oferują

zatem pomiar na tej skali).

background image

Jak można osiągnąć wyniki

ilościowe w teście?

Zasadnicze pytanie to: jak test

musi być skonstruowany, aby

dostarczał wyników ilościowych

(informujących o intensywności

mierzonej cechy)?

Cel ten może zostać osiągnięty

jedynie poprzez wprowadzenie

wielu zadań do testu (test jest

zatem narzędziem obejmującym

wiele pozycji, a wynik testowy jest

uzyskany z wielu zadań).

background image

Test jako narzędzie

obejmujące szereg pozycji

(zadań)

Argumenty:

pomiar ilościowy (różnicowanie osób
badanych)

minimalizacja błędu (czynnika losowego)

diagnoza jako efekt koincyndencji
zachowań

ogólność psychologiczna wyniku
testowego (a elementarność i
konkretność pozycji)

background image

Rycina 2. Rozkład wyników

testu z jedną pozycją

0

0,25

0,5

0,75

1

0

1

background image

Rycina 3. Rozkład wyników

testu z dwoma pozycjami

0

0,25

0,5

0,75

1

0

1

2

background image

Rycina 4. Rozkład wyników

testu z dziesięcioma

pozycjami

0

0,25

0,5

0,75

0

1

2

3

4

5

6

7

8

9

10

background image

Rycina 5. Rozkład normalny

wyników testu (wiele

pozycji)

0

0,25

0,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1

1,5

2

2,5

3

background image

Pomiar ilościowy

Rozkład wyników testu, podobnie

jak każdej pozycji, jest „normalny”

(dwumianowy lub dychotomiczny

rozkład normalny), ale większość

pozycji dostarcza danych

mierzonych na skali nominalnej –

poprzez zsumowanie wyników

pozycji wynik ogólny testu

odpowiada pomiarowi na skali

przedziałowej (z wieloma

kategoriami wyników, odmiennymi

dla różnych osób badanych).

background image

Błąd pomiaru

Prawidłowa odpowiedź na każdą z

pozycji może być odgadnięta lub

uzyskana losowo - z tego względu

pomiar cechy za pomocą jednej

pozycji jest obciążony dużym

błędem (przypadkowości). Mało

prawdopodobne jest natomiast

otrzymanie wysokiego wyniku testu

wyłącznie na drodze zgadywania

(prawdopodobieństwo warunkowe

wielu losowych sukcesów w

przypadku testu z 10 zadaniami

wynosi tylko 0.00098).

background image

Współwystępowanie

zachowań

Cecha jest własnością, która

uzewnętrznia się w różnych

zachowaniach, przy czym

współwystępowanie tych zachowań

jest specyficzne wyłącznie dla danej

cechy. Każda z form zachowania

może być charakterystyczna dla

wielu cech, ale ich kombinacja jest

specyficzna tylko dla danej cechy.

background image

Współwystępowanie

zachowań

Diagnoza, że dana osoba posiada

daną cechę jest trafna jedynie, gdy

wykazuje ona wszystkie

zachowania, charakterystyczne dla

tej cechy.

Informacja uzyskana za pomocą

jednej pozycji jest diagnostycznie

niepewna, ale wynik ogólny (z wielu

pozycji, badających różne formy

zachowania) jednoznacznie

wskazuje na określoną cechę

(badaną przez test).

background image

Ogólna „natura” cechy

Cecha jest własnością ogólną, która

uzewnętrznia się w różnych

zachowaniach i sytuacjach. Każda z

form zachowania informuje o

specyficznym aspekcie cechy,

wszystkie razem zaś o cesze jako

własności ogólnej. Każda z pozycji

bada zatem specyficzną formę

zachowania, zaś wynik ogólny w

teście – ogólną tendencję

(niespecyficzną dla określonej

sytuacji lub formy zachowania).

background image

Wynik testu a wyniki pozycji

Test musi zatem zawierać wiele

pozycji, a wynik testu powinien być
kombinacją wyników wszystkich
pozycji (zazwyczaj jest definiowany
jako suma ważonych lub nieważonych
wyników poszczególnych pozycji). W
efekcie wszystkie własności testu jako
całości zależą wprost od wyników
poszczególnych pozycji (oraz ich
interkorelacji).

background image

Średnia testu a średnia

pozycji

Wynik testu jako suma wyników

poszczególnych pozycji (wyniki zero-
jedynkowe: rozwiązane dobrze vs
błędnie)

Średnia wyników pozycji:

M

i

= p

Średnia wyników testu:

M

o

= M

i

background image

Tabela 1. Test z losowymi odpowiedziami (6 pozycji, 14 ob.).

background image

Tabela 2. Dane z badania skalą E z EPQ-R(24) (6 pozycji, 14 o.b.).

background image

Przykład: Średnia testu jako

suma średnich pozycji

Średnia testu z odpowiedziami

losowymi:

M=3,21
Suma średnich pozycji:
0,50+0,50+0,43+0,57+0,64+0,57 =

3,21

Średnia testu psychologicznego:
M=3,00
Suma średnich pozycji:
0,57+0,86+0,43+0,21+0,21+0,71=3,

00

background image

Wniosek

W każdym wypadku średnia

wyników testu jest równa sumie

średnich pozycji. Nowa pozycja

dodana do testu prowadzi do

wzrostu średniej wyników testu

(bez względu na korelację tej

pozycji z innymi pozycjami). W

przypadku pozycji o ekstremalnej

trudności (rozwiązanej przez

wszystkie o.b. – pozycja „łatwa” lub

nie rozwiązanej przez żadną z o.b. –

pozycja „trudna”) średnia testu

również wzrośnie (o wartość

średniej równej 1 albo 0).

background image

Wariancja testu a wariancja

pozycji

Wynik testu jako suma wyników pozycji

(wyniki zero-jedynkowe)

Wariancja pozycji:

S

i2

= p q


Wariancja wyników testu:

S

o2

= S

i2

+ 2 r

ij

S

i

S

j

background image

Wariancja testu a wariancja

pozycji

Wzór na wariancję wyników testu jako

sumy wyników pozycji jest
rozwinięciem dwumianu Newtona:

(a+b)

2

= a

2

+ b

2

+ 2ab

Liczba wyrażeń kowariancyjnych:

k = [j (j - 1)] / 2

background image

Współczynnik korelacji r-

Pearsona

Korelacja jest miarą współzmienności

(związku dwóch zmiennych)

(X

i

- M

i

) (X

j

- M

j

)

r = ----------------------------

N S

i

S

j

background image

Przykład: Wariancja testu

jako suma wariancji pozycji

Wariancja testu z odpowiedziami

losowymi:

S

o

2

=1,45

Suma wariancji pozycji:
0,25+0,25+0,24+0,24+0,23+0,24 =

1,45

Wariancja testu psychologicznego:
S

o

2

=2,29

Suma wariancji pozycji:
0,17+0,12+0,24+0,24+0,17+0,20 =

1,14 2,29

background image

Przykład: Wariancja testu

jako suma wariancji pozycji

Przeciętna interkorelacja pozycji w

teście losowym jest równa zero, z

zatem kowariancja jest także równa

zero.

Przeciętna interkorelacja pozycji w

teście psychologicznym jest równa

0,21 (przeciętne S

o

=0,43), a zatem

podwojona kowariancja =

2*15*0,21*0,43*0,43= 1,16

Wariancja ogólna = 1,14+1,16 =

2,30 2,29

Test losowy jest przypadkiem

szczególnym testu z zerową

kowariancją.

background image

Wniosek

W każdym wypadku wariancja testu

jest równa sumie wariancji pozycji

oraz ich podwojonych kowariancji.

Nowa pozycja dodana do testu

zwiększa wariancję całkowitą tylko

wtedy, gdy wariancja pozycji nie

jest równa zero (nie ma sensu

dodawania pozycji o zerowej

wariancji, bowiem wydłuża to test,

zaś różnice między wynikami

testowymi pozostają takie same).

background image

Wniosek

Nowa pozycja dodana do testu

zwiększa znacznie wariację

całkowitą, jeśli interkorelacje nowej

pozycji z innymi pozycjami są

dodatnie, ponieważ generuje to

duże dodatnie kowariancje.

Dodanie pozycji z zerowymi

korelacjami zwiększa tylko trochę

wariancję całkowitą (bo generuje

zerowe kowariancje). Dodanie zaś

pozycji o ujemnych korelacjach z

innymi pozycjami obniża wariancję

całkowitą (ujemne kowariancje).

background image

Wniosek

Tylko pozycje z niezerowymi

wariancjami oraz wysokimi

pozytywnymi korelacjami powinny

być dodawane do testu – znacznie

zwiększają one wariancję całkowitą

(uzyskanie dużego zróżnicowania

wyników testu jest celem pomiaru

różnicowego). Dodatnie korelacje

oznaczają także, że pozycje mierzą

tę samą cechę - generują one

realną, a nie losową zmienność.

background image

Rozkład normalny wyników

testu

Charakterystyka testu jako całości

zależy od charakterystyki pozycji -
wady pozycji (lub ich niewłaściwa
kompozycja) decydują o wadach
rozkładu wyników oraz zaburzeniu
relacji między wynikami testu a
nasileniem cechy.

background image

Rycina 6. Rozkład normalny

wyników testu

(mezokurtyczny)

0

0,25

0,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1

1,5

2

2,5

3

background image

Rycina 7. Rozkład

leptokurtyczny

(symetryczny, zbyt duża

kurtoza)

0

0,25

0,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1

1,5

2

2,5

3

background image

Rycina 8. Rozkład

platokurtyczny

(symetryczny, zbyt mała

kurtoza)

0

0,25

0,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1

1,5

2

2,5

3

background image

Rycina 9. Rozkład

dwumodalny

0

0,25

0,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1

1,5

2

2,5

3

background image

Rycina 10. Rozkład

lewoskośny (ujemnie

asymetryczny)

0

0,25

0,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1

1,5

2

2,5

3

background image

Rycina 11. Rozkład

prawoskośny (dodatnio

asymetryczny)

0

0,25

0,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1

1,5

2

2,5

3

background image

Rycina 12. Relacja test a cecha w

rozkładach: normalnym oraz lewo- i

prawoskośnym

-3,5

-2,5

-1,5

-0,5

0,5

1,5

2,5

3,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1

1,5

2

2,5

3

background image

Rycina 13. Relacja test a cecha w

rozkładzie normalnym oraz

rozkładach o wadliwej kurtozie

-3,5

-2,5

-1,5

-0,5

0,5

1,5

2,5

3,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1

1,5

2

2,5

3

background image

Własności pozycji

doskonałego testu

Test doskonały powinien zawierać

pozycje o identycznych
własnościach statystycznych
(średnich, wariancjach oraz
korelacjach z innymi pozycjami). W
takim wypadku wszystkie pozycje
byłyby diagnostycznie równoważne
(wnosiłyby tę samą wariancję do
wyników testu), a rozkład wyników
testu byłby normalny (skala
pomiarowa: ciągła i prostoliniowa).

background image

Jak uzyskać rozkład

normalny?

Rozkład normalny wyników testu:

kompozycja pozycji o przeciętnej
trudności i przeciętnych dodatnich
interkorelacjach albo o zróżnicowanej
trudności (równomiernie wg
kontinuum trudności) i przeciętnych
interkorelacjach - inne rozkłady można
uzyskać dobierając pozycje pod
względem jednego z obu parametrów.

background image

Wskaźnik trudności pozycji

Dychotomiczna punktacja (0 – 1

punkt):

Trudność = M

i

= p

Skala Likerta (od zera to kilku

puntów):

Trudność = M

i

/ maksymalny

możliwy wynik w danej

skali

(w celu obliczenia wskaźnika

trudności pozycji (czy nawet testu)

niezbędne jest zakotwiczenie

wyniku minimalnego w wartości

„zerowej”).

background image

Relacja między różnymi

wskaźnikami pozycji

Relacja między średnią pozycji

(trudnością) a wariancją pozycji

jest krzywoliniowa (w formie

odwróconego „U”) – wariancja jest

większa w przypadku pozycji o

przeciętnej trudności.

Relacja między średnią (trudnością)

a korelacją pozycji z innymi

pozycjami jest także krzywoliniowa

(odwrócone „U”) - korelacja jest

większa dla pozycji o przeciętnej

trudności.

background image

Jak uzyskać inne rozkłady

wyników testu?

Założenie - manipulowanie

interkorelacjami albo wskaźnikami
trudności:

1. wszystkie pozycje o identycznej

przeciętnej trudności oraz
manipulowanie interkorelacjami
(stały wzrost oraz początkowo
obniżenie do zerowych, później
ujemne);

2. wszystkie pozycje o identycznych

stałych interkorelacjach oraz
manipulowanie wskaźnikami
trudności.

background image

Jak uzyskać inne rozkłady?

Założenie: wszystkie pozycje

identyczna przeciętna trudność
oraz zmiana interkorelacji - stały
wzrost oraz początkowo obniżenie
do zerowych, później ujemne albo
dobór pozycji o zróżnicowanej
średniej a stałych interkorelacjach.

background image

Rycina 12a. Zmiana kształtu

rozkładu - wzrost interkorelacji

12 pozycji testu

0

0,25

0,5

0

1

2

3

4

5

6

7

8

9

10 11 12

background image

Rycina 12b. Rozkład

platokurtyczny

0

0,25

0,5

0

1

2

3

4

5

6

7

8

9

10 11 12

background image

Rycina 12c. Rozkład

dwumodalny

0

0,25

0,5

0

1

2

3

4

5

6

7

8

9

10 11 12

background image

Rycina 12d. Rozkład „U”-

kształny

0

0,25

0,5

0

1

2

3

4

5

6

7

8

9

10 11 12

background image

Rycina 12e. Rozkład dychotomiczny

(dwumianowy) - efekt końcowy i

krańcowy

0

0,25

0,5

0,75

1

0

1

2

3

4

5

6

7

8

9

10 11 12

background image

Rycina 13a. Zmiana kształtu

rozkładu - ujemne interkorelacje

pozycji

0

0,25

0,5

0

1

2

3

4

5

6

7

8

9

10 11 12

background image

Rycina 13b. Rozkład

leptokurtyczny

0

0,25

0,5

0

1

2

3

4

5

6

7

8

9

10 11 12

background image

Rycina 13c. Rozkład

jednomianowy (efekt końcowy i

krańcowy)

0

0,25

0,5

0,75

1

0

1

2

3

4

5

6

7

8

9

10 11 12

background image

Kompozycja pozycji w innych

rozkładach niż normalny (ad.

1)

Pozycje o identycznej trudności (a

zróżnicowanych interkorelacjach):

Rozkład leptokurtyczny – zerowe

lub ujemne interkorelacje między

pozycjami.

Rozkład platokurtyczny – zbyt

wysokie dodatnie korelacje między

pozycjami.

background image

Kompozycja pozycji w innych

rozkładach niż normalny (ad.

2)

Pozycje o różnej trudności (a

identycznych pozytywnych

interkorelacjach):

Rozkłady skośne –

nadreprezentacja pozycji „łatwych”

lub „trudnych”.

Rozkład leptokurtyczny – „łatwe”

oraz „trudne” pozycje (brak pozycji

o przeciętnej trudności).

Rozkład platokurtyczny -

nadreprezentacja pozycji o

przeciętnej trudności.

background image

Wniosek

Kurtoza

(zagęszczenie wyników

wokół średniej) zależy zatem

zarówno od interkorelacji, jak i

trudności pozycji, zaś

skośność

głównie od trudności pozycji.

Niewłaściwa kombinacja pozycji

powoduje zatem uzyskanie

rozkładu o własnościach

odbiegających od charakterystyki

rozkładu normalnego.

background image

Wniosek końcowy

Test powinien zawierać wiele

pozycji, zaś własności pozycji
wyznaczają podstawowe
charakterystyki rozkładu wyników
testu (kształt rozkładu wyników).
Rozkład wyników testu powinien
być normalny, bowiem tylko taki
test pozwala na przyjęcie założenia
o liniowej relacji między wynikami
testu a „latentną”cechą.

background image

Wykład 5

RZETELNOŚĆ POMIARU TESTEM -

PODSTAWOWE POJĘCIA

background image

Pojęcie rzetelności pomiaru

Rzetelność

oznacza dokładność

(precyzję) pomiaru cechy badanej
przez test; rzetelność ma dwa
aspekty - stabilność pomiaru
(powtarzalność wyników badania)
oraz konsystencję (precyzję
pomiaru).

background image

Błąd pomiaru

Pojęcie rzetelności jest

bezpośrednio powiązane z pojęciem
błędu pomiaru – nie istnieje pomiar
bez błędu (zarówno w badaniach
naukowych, jak i w praktyce czy
ocenach prywatnych. Im większy
jest błąd, tym mniejsza jest
rzetelność pomiaru danym
narzędziem.

background image

Konsekwencje błędu pomiaru

Błąd obniża precyzję pomiaru – w

miejsce wyniku prawdziwego osoba
badana uzyskuje wynik
zniekształcony przez błąd – w
konsekwencji osobowość czy
inteligencja osoby badanej nie
może być precyzyjnie oceniona.

background image

Źródła błędu pomiaru w

badaniach testowych

Ogólne charakterystyki osoby

badnaej (techniki wypełniania testu
lub zdolność rozumienia instrukcji)

Specyficzne charakterystyki osoby

badanej dotyczące testu jako
całości (umiejętności specyficzne
dla danego testu czy szczególnej
formy pozycji lub stylów
odpowiadania oraz pozycji
testowych (odmienne oswojenie się
z

background image

Źródła błędu pomiaru w

badaniach testowych

różnymi pozycjami, znajomość

specyficznego zachowania lub
sytuacji).

Ogólne czynniki osoby badanej o

incydentalnym charakterze
(zdrowie, zmęczenie, motywacja,
napięcie emocjonalne, warunki
zewnętrzne – światło, hałas,
temperatura, itp.).

background image

Źródła błędu pomiaru w

badaniach testowych

Specyficzne czynniki osoby badanej

związane z badaniem testowym
(specjalne triki w radzeniu sobie z
zadaniami, rozumienie
specyficznych zadań, poziom
wyćwiczenia specyficznych
umiejętności) oraz z pozycjami
testowymi (fluktuacje pamięci i
uwagi).

background image

Źródła błędu pomiaru w

badaniach testowych

Czynniki związane z badaniem

testowym (systematyczne lub
incydentalne): warunki testowania
(brak dystraktorów, jasność
instrukcji, łatwość dostosowania się
do limitu czasu, itp.), interakcja
płci, osobowości osoby badanej i
badającej, itp., zniekształcenia w
ocenie zachowania oraz czynniki
czysto losowe (zgadywanie).

background image

Błąd jako czynnik losowy

Błąd jest efektem wpływu wielu

niekontrolowanych i
nieprzewidywalnych czynników
(wewnętrznych i zewnętrznych) na
zachowanie, które powodują, że
reakcje osoby badanej stają się
nieprzewidywalne i niespójne z
innymi formami zachowania.
Kombinacja tych czynników jest tak
zawikłana, że przyjmuje się, iż błąd
ma charakter losowy (błąd jest
losowy).

background image

Teorie rzetelności pomiaru

Dwa modele psychometryczne

opisują błąd pomiaru i rzetelność
pomiaru:

Klasyczna Teoria Testów

(Gulliksen, 1950 oraz Lord i Novick,
1968) oraz

Teoria odpowiadania na

pozycje Testowe

. Nowoczesną

formą KTT jest

Teoria Wyników

Generycznych.

background image

Podstawowe założenia

Klasycznej Teorii Testów

Wynik testowy jest efektem dwóch

czynników:

Czynników, które wpływają na

konsystencję zachowania – cechy
psychologicznej;

Czynników, które wpływają na

niespójność zachowania – zmienne
te wyznaczają reakcje osoby
badanej, ale nie mają nic
wspólnego z badaną cechą.

background image

Podstawowe pojęcia

Klasycznej Teorii Testów

W odniesieniu do wyniku testowego:
Obserwowany (otrzymany) wynik

testu;

Wynik prawdziwy;
Błąd pomiaru.
W odniesieniu do wariancji wyników

testu:

Wariancja wyników otrzymanych;
Wariancja wyników prawdziwych;
Wariancja błędu.

background image

Twierdzenie 1

X

o

= X

p

+ X

b

(Wynik testu obejmuje wynik

prawdziwy i błąd pomiaru)

background image

Aksjomaty

Aksjomat 1:

M

b

= 0

(Średnia błędów pomiaru jest równa zero).

Aksjomat 2:

R

pb

= 0

(Wynik prawdziwy i błąd są nieskorelowane).

Aksjomat 3:

R

bb

= 0

(Błędy różnych pomiarów są nieskorelowane).

background image

Twierdzenie 2

M

o

= M

p

+ M

b

= M

p

(Średnia wyników otrzymanych jest

równa średniej wyników prawdziwych

testu; średnia wyników otrzymanych nie

jest zniekształcona przez błąd).

background image

Twierdzenie 3

S

o2

= S

p2

+ S

b2

(Wariancja wyników otrzymanych jest równa

sumie wariancji wyników prawdziwych oraz

wariancji błędu; nie ma kowariancji

pomiędzy wynikami prawdziwymi oraz

błędem; wariancja wyników otrzymanych

jest zniekształcona przez błąd).

background image

Twierdzenie 4

S

p2

S

b2

R

tt

= -----

lub

R

tt

= 1-

------

S

o2

S

o2

(Rzetelność pomiaru testem)

background image

Interpretacja współczynnika

rzetelności

Współczynnik rzetelności jest

proporcją wariancji wyników
prawdziwych do wariancji wyników
otrzymanych lub proporcją
wariancji błędu do wariancji
wyników otrzymanych,
odejmowanej od jedności.
Współczynnik rzetelności wskazuje
jaka część wariancji wyników
otrzymanych wynika z błędu lub
zmienności wyników testu
(niespójności odpowiedzi
testowych).

background image

Twierdzenie 5

S

bp

= S

o

(1 -

R

tt

)

(Standardowy błąd pomiaru

wyników otrzymanych)

background image

Interpretacja standardowego

błędu wyników otrzymanych

Standardowy błąd pomiaru wyników

otrzymanych to odchylenie

standardowe rozkładu wyników badania

danej osoby nieskończenie wiele razy

lub badania danej osoby nieskończoną

liczbą testów równoległych (granice w

jakich może lokować się faktyczny

wynik osoby badanej). Średnia tego

rozkładu stanowi wynik prawdziwy, a

odchylenie standardowe – standardowy

błąd pomiaru.

background image

Interpretacja standardowego

błędu wyników otrzymanych

Wielokrotne badanie jednej osoby

nie jest możliwe (ze względu na
motywację oraz pamięć) – z tego
względu rozkład błędów pomiaru u
wszystkich osób badanych jest
brany pod uwagę (nie ma istotnej
różnicy pomiędzy efektami
losowymi w grupie wielu osób
badanych jednorazowo oraz
wielokrotnym badaniem jednej
osoby – ten sam model czynników
losowych).

background image

Interpretacja standardowego

błędu wyników otrzymanych

Standardowy błąd pomiaru

wskazuje zakres wyników, w
obrębie którego lokuje się wynik
prawdziwy osoby badanej (z
określonym
prawdopodobieństwem) i jest
identyczny dla wszystkich osób
badanych (niezależnie od wyniku
otrzymanego).

background image

Interpretacja standardowego

błędu wyników otrzymanych

Standardowy błąd pomiaru jest

stosowany do wyznaczania

przedziału ufności

dla wyniku

prawdziwego z określoną
pewnością (0,99, 0,95 czy 0,85 – S

em

musi być pomnożony przez wartość
z”
rozkładu normalnego, czyli =
2,58, 1,96 lub 1,44).

background image

Testy równoległe - pojęcie

Testy równoległe:

M

1

= M

2

, S

12

= S

22

(mierzą tę samą cechę z taką samą dokładnością).

Testy równoważne:

M

1

= M

2

(mierzą tę samą cechę, ale nie tak samo dokładnie).

Testy quasi-równoważne:

M

1

= M

2

+ c

(mierzą tę samą cechę wraz z dodatkowym

czynnikiem).

background image

Zastosowania koncepcji

testów równoległych

Koncepcja testów równoległych lub

pomiarów równoległych jest
stosowana w większości metod
oceny rzetelności pomiaru testem
(równoległość jest warunkiem
niezbędnym).

Koncepcja testów równoległych

była punktem wyjścia dla teorii
wyników generycznych (teoria
uniwersalizacji).

background image

Teoria uniwersalizacji

Teoria uniwersalizacji (wyników

generycznych) wykorzystała
koncepcję testów równoległych (np.
test egzaminacyjny na prawo jazdy),
co pozwoliło zrezygnować z
nietestowalnych założeń i twierdzeń
na rzecz obserwowalnych zależności
(błędy mogą być skorelowane i może
to być empirycznie stwierdzone).

background image

Wykład 6

SZACOWANIE RZETELNOŚCI

POMIARU TESTEM: METODY I

WSKAŹNIKI

background image

Metody szacowania

rzetelności pomiaru testem

Zgodność wewnętrzna

Stabilność czasowa

Metoda testów równoległych

background image

Zgodność wewnętrzna

Metoda metoda zgodności połówkowej

(założenie równoległości połówek testu)

Metoda zgodności wewnętrznej przy

podziale testu na wiele części
(założenie równoległości wszystkich
części testu)

Metoda zgodności wewnętrznej

wykorzystująca analizę wariancji

background image

Metoda zgodności

połówkowej - wzór Rulona

S

r2

R

tt

= 1 - ------

S

t2

gdzie S

t2

to wariancja wyników całego

testu, a S

r2

to wariancja różnicy

wyników obu połówek testowych

background image

Metoda zgodności

połówkowej - wzór Guttmana

(S

a2

+ S

b2

)

R

tt

= 2 [ 1 - --------------- ]

S

t2

gdzie S

t2

to wariancja wyników całego

testu, a S

a2

i S

b2

to wariancje połówek

testowych

background image

Metoda zgodności połówkowej -

wzór „proroczy” Spearmana -

Browna

N R

tt

R

tt

n = ---------------------

1 + [ (N - 1) R

tt

]

gdzie R

tt

n - to rzetelność testu po

przedłużeniu, N - wielkość (krotność)
przedłużenia, a R

tt

- rzetelność testu

przed przedłużeniem (w miejsce
współczynnika rzetelności można
wstawiać współczynnik korelacji między
połówkami testowymi)

background image

Metoda zgodności wielu

części testu - wzór Kudera-

Richardson

N (S

t2

- S

i2

)

KR-20: R

tt

= -------

---------------
N - 1

S

t2

gdzie N - liczba części testu, S

t2

- to

wariancja wyników całego testu, a

S

i2

to suma wariancji części testu

background image

Metoda zgodności wielu

części testu - wzór alfa

Cronbacha

N S

i2

= --------

(1 -

-------)

N - 1 S

t2

gdzie N - liczba pozycji testu, S

t2

- to

wariancja wyników całego testu, a S

i2

to suma wariancji pozycji testu

background image

Metoda zgodności wielu

części testu - analiza

wariancji

Wiele podejść - najprostsza metoda

Hoyta

wariancja między osobami - war. błędu

R

tt

=

-----------------------------------------------------
-
wariancja między osobami

background image

Tabela 3. Test z losowymi odpowiedziami.

Pozycja/

osoba

1

2

3

4

5

6

Suma

1-6

Suma

1-3

Suma

4-6

Kwad-

rat

różnic

1

0

0

0

0

0

0

0

0

0

0

2

0

0

0

0

1

0

1

0

1

1

3

1

0

1

0

1

0

3

2

1

1

4

0

1

0

1

0

1

3

1

2

1

5

0

1

0

1

0

1

3

1

2

1

6

1

1

0

0

0

1

3

2

1

1

7

1

0

1

1

1

0

4

2

2

0

8

0

0

1

1

1

1

4

1

3

4

9

1

1

1

0

1

0

4

3

1

4

10

1

1

0

0

1

1

4

2

2

0

11

0

1

1

1

0

1

4

2

2

0

12

1

0

0

1

1

1

4

1

3

4

13

0

0

1

1

1

1

4

1

3

4

14

1

1

0

1

1

0

4

2

2

0

M

0,50

0,50

0,43

0,57

0,64

0,57

3,21

1,43

1,79 -0,36

SD

0,50

0,50

0,49

0,49

0,48

0,49

1,21

0,82

0,86

1,37

SD

2

0,25

0,25

0,24

0,24

0,23

0,24

1,45

0,67

0,74

1,17

background image

Tabela 4. Dane z badania skalą E z EPQ-R(24).

Pozycja/

osoba

1

2

3

4

5

6

Suma

1-6

Suma

1-3

Suma

4-6

Kwadr

at

różnic

1

0

0

0

0

0

0

0

0

0

0

2

0

1

0

0

0

0

1

1

0

1

3

0

1

0

0

0

1

2

1

1

0

4

0

1

0

0

0

1

2

1

1

0

5

0

1

0

0

0

1

2

1

1

0

6

0

1

0

1

0

1

3

1

2

1

7

0

1

0

1

0

1

3

1

2

1

8

0

1

1

1

0

0

3

2

1

1

9

1

0

0

1

1

0

3

1

2

1

10

0

1

1

1

0

1

4

2

2

0

11

0

1

1

1

0

1

4

2

2

0

12

0

1

1

1

0

1

4

2

2

0

13

1

1

1

0

1

1

5

3

2

1

14

1

1

1

1

1

1

6

3

3

0

M

0,21

0,86

0,43

0,57

0,21

0,71

3,00

1,50

1,50

0,00

SD

0,41

0,35

0,49

0,49

0,41

0,45

1,51

0,82

0,82

0,65

SD

2

0,17

0,12

0,24

0,24

0,17

0,20

2,29

0,68

0,68

0,43

background image

Podstawowe statystyki

połówek testowych

Test losowy:
Średnia korelacji pozycji r

1-6

= 0,00

Średnie odchylenie standardowe SD

1-

6

= 0,49

Korelacja połówek r

12

= 0,03

Test psychologiczny:
Średnia korelacji pozycji r

1-6

= 0,21

Średnie odchylenie standardowe SD

1-

6

= 0,43

Korelacja połówek r

12

= 0,68

background image

Podstawowe statystyki

połówek testowych

Test losowy:
M

1

= 1,43 i M

2

= 1,79 – połówki nie są

równoległe (średnia różnic nie jest

równa zero, co wskazuje na

istnienie systematycznej wariancji

między połówkami – w miejsce

wariancji średnia kwadratu różnic

powinna być użyta).

Test psychologiczny:
M

1

= 1,50 i M

2

= 1,50 – połówki są

równoległe (nie ma znaczenia jaka

statystyka będzie użyta).

background image

Rzetelność połówkowa testu

losowego

Rulona R

tt

= 1 - (1,17/1,45)= 0,19

(wariancja)

Rulona R

tt

= 1 - (1,50/1,45) = -0,03

0,00 (kwadrat różnic)

Guttmana R

tt

= 2*[1-

(0,67+0,74)/1,45] = 0,06

Kudera-Richardson KR-20 =

(2/1)*[(1,45-1,41)/1,45 = 0,06

Spearmana-Browna R

ttn

= (2*0,03)/

(1+0,03)=0,06

background image

Rzetelność testu losowego

– poziom pozycji (oraz

S

bp

)

Alfa Cronbacha:
= (6/5)*[1-(1,45/1,45)]=0,00
Spearmana-Browna:
R

ttn

= (6*0,00)/[1+5*0,00)=0,00

Standardowy błąd pomiaru
S

bp

= S

o

*(1 - R

tt

)= 1,25*(1- 0,00) =

1,25, co oznacza, że S

bp

= S

o

.

background image

Rzetelność połówkowa testu

psychologicznego

Rulona R

tt

= 1 - (0,43/2,29) = 0,81

(wariancja)

Rulona R

tt

= 1 - (0,43/2,29) = 0,81

(kwadrat różnic)

Guttmana R

tt

= 2*[1-

(0,68+0,68)/2,29] = 0,81

Kudera-Richardson KR-20 =

(2/1)*[(2,29-1,36)/ 2,29 = 0,81

Spearmana-Browna R

ttn

= (2*0,68)/

(1+0,68)=0,81

background image

Rzetelność testu

psychologicznego - pozycje

Alfa Cronbacha:
= (6/5)*[1-(1,14/2,29)]=0,60
Spearmana-Browna:
R

ttn

= (6*0,21)/[1+5*0,21)=0,61

background image

Obserwacja

Ocena rzetelności metodami

połówek testowych prowadziła do
osiągnięcia współczynnika
rzetelności rzędu 0,81, zaś ocena
rzetelności metodą zgodności
pozycji tylko współczynnika rzędu
0,60 (zwłaszcza wzór Spearmana-
Browna dał odmienne wyniki).
Powstaje pytanie - dlaczego?
Wydaje się, że połówki testowe nie
były w pełni reprezentatywne dla
całego testu.

background image

Podział

Pozycje w każdej

połówce

M

1

M

2

S

1

2

S

2

2

r

R

ttn

S-B

Gutma

nna

R

tt

1

1-2-3 vs 4-5-6

1,50

1,50

0,68

0,68

0,68

0,81

0,81

2

1-2-4 vs 3-5-6

1,64

1,36

0,52

0,80

0,75

0,86

0,85

3

1-2-5 vs 3-4-6

1,29

1,71

0,63

1,06

0,36

0,53

0,52

4

1-2-6 vs 3-4-5

1,79

1,21

0,60

1,03

0,42

0,59

0,58

5

1-3-4 vs 2-5-6

1,21

1,79

1,03

0,60

0,42

0,59

0,58

6

1-3-5 vs 2-4-6

0,86

2,14

1,12

0,84

0,17

0,29

0,29

7

1-3-6 vs 2-4-5

1,36

1,64

0,80

0,52

0,75

0,86

0,85

8

1-4-5 vs 2-3-6

1,00

2,00

1,00

1,00

0,14

0,25

0,25

9

1-4-6 vs 2-3-5

1,50

1,50

0,68

0,68

0,68

0,81

0,81

10

1-5-6 vs 2-3-4

1,14

1,86

0,84

0,98

0,26

0,41

0,41

Tabela 5. Wszystkie możliwe podziały połówkowe skali E z EPQ-R(24).

background image

Wnioski

Tylko podziały nr 1 oraz 9

prowadziły do uzyskania
równoległych połówek testu, co
oznacza, że wybrany podział
prowadził do „zyskiwania na
przypadku”.

Średnia współczynnika Guttmanna

była równa 0,60 – tę samą wartość
dała alfa Cronbacha (alfa jest
równa średniej wszystkich
podziałów testu na połowy lub ich
większej części).

background image

Standardowy błąd pomiaru

testu psychologicznego

Standardowy błąd pomiaru:
S

bp

= 1,51*(1-0,60) = 0,96

Półprzedział ufności:
S

bp95%

= 1,96*S

bp

= 1,88, z zatem

przedział ufności jest równy S

o

+

1,88 (wynik prawdziwy osoby
badanej mieści się w przedziale ->
wynik otrzymany + ok. 2 punkty, z
pewnością 95%).

background image

Stabilność czasowa

Stabilność

bezwzględna

(powtórny

pomiar tym samym testem)

Stabilność

względna

(powtórny

pomiar wersją równoległą testu)

Forma oboczna -

test-retest

(pomiar tym samym testem raz po
razie)

background image

Założenia metod z

powtarzanym pomiarem

Podstawowe założenie – oba

pomiary są równoległe.

Wskaźnikiem rzetelności jest

zwykły współczynnik korelacji

Pearsona lub współczynnik Scotta-

Wertheimera.

W przypadku pomiarów quasi-

równoważnych (systematyczne

zmiany nasilenia mierzonej cechy)

tylko zwykła korelacja Pearsona

może być użyta.

background image

Współczynnik korelacji

wewnątrzklasowej wg Scotta-

Wertheimera

(X

1

- X

2

)

2

R

tt

= 1 - -----------------

2 N S

2(X1,X2)

gdzie X

1

oraz + X

2

to wyniki

pierwszego i drugiego badania, N -
liczba osób badanych, a S

2(X1,X2)

- to

wariancja wyników w obu badaniach)

background image

Tabela 6. Stabilność czasowa skal PTS: bezwzględna

(po 2 tygodniach i 6 miesiącach oraz względna (po 2 tygodniach).

Współczynnik rzetelności

Siła

Procesu

Pobudzenia

Siła

Procesu

Hamowania

Ruchliwość

Procesów

Nerwowych

Alfa Cronbacha (19

pozycji)

0,83

0,73

0,81

Stabilność bezwzględna

(2 tygodnie)

0,76*

0,60*

0,78*

Stabilność bezwzględna

(6 miesięcy)

0,62*

0,53*

0,68*

Stabilność względna

(2 tygodnie)

0,63*

0,58*

0,58*

background image

Metoda testów równoległych

Metoda testów równoległych wymaga

dwóch odrębnych testów - jest metodą
uogólnioną, łącząca zgodność
wewnętrzną oraz test-retest. W
metodzie tej wykorzystujemy
współczynnik korelacji Pearsona -
rzetelność pomiaru jest równa
współczynnikowi korelacji obu testów
równoległych (wielkości kowariancji
obu testów)

.

background image

Czynniki wpływające na

rzetelność pomiaru

Zakres (zmienność) wyników w

badanej próbie – współczynniki są
niższe w przypadku, gdy zmienność
w próbie jest mniejsza (lub osoby
badane mają zbliżone nasilenie
cechy). Należy pamiętać, że
współczynnik rzetelności oznacza
rzetelność różnic
interindywidualnych lub rzetelność
zróżnicowania osób badanych.

background image

Czynniki wpływające na

rzetelność pomiaru

Charakterystyka testu –

współczynniki są wyższe gdy test
zawiera dużo pozycji (z uwagi na
dużą liczbę kowariancji) oraz gdy
korelacje między pozycjami są
wysokie (z uwagi na to, że duża
proporcja wariancji całkowitej
wynika z kowariancji). Należy
pamiętać, że kowariancje są
traktowane jako źródło wariancji
prawdziwej.

background image

Czynniki wpływające na

rzetelność pomiaru

Metoda oszacowania rzetelności

pomiaru – współczynniki zgodności
wewnętrznej dają wyższe
oszacowanie rzetelności niż
współczynniki stabilności (z uwagi
na większą liczbę źródeł błędu).
Należy pamiętać, że testy o wyższej
zgodności wewnętrznej zwykle
wykazują też wyższą stabilność
czasową (poza testami badającymi
stany psychologiczne).

background image

Kryteria akceptacji

rzetelności pomiaru testem

Zgodność wewnętrzna:
Testy przeznaczone do diagnozy

indywidualnej - wartość minimalna

0,80, wartość optymalna – ponad

0,90.

Testy przeznaczone do badań

naukowych - wartość minimalna

0,70, wartość optymalna – ponad

0,80

Absolutna wartość minimalna

współczynnika rzetelności wynosi

0,50 (połowa wariancji wynika z

błędu).

background image

Kryteria akceptacji

rzetelności pomiaru testem

Stabilność czasowa:
Wartość minimalna = 0,50 (tylko

połowa zmienności wynika ze

zgodności wyników obu pomiarów).

Testy równoległe:
Wartość minimalna = 0,50 (tylko

połowa zmienności wynika ze

zgodności wyników obu testów).

background image

Rodzaj testu a wybór metody

szacowania rzetelności

Testy zdolności – metody

połówkowe (z uwagi na różną
trudność pozycji, które nie są
równoległe).

Inwentarze osobowości – alfa

Cronbacha lub KR-20 (zgodność
wewnętrzna na poziomie pozycji).

Testy szybkości – metoda test-

retest lub metoda testów
równoległych.

background image

Praktyczne wykorzystanie

oszacowania rzetelności

pomiaru

Na podstawie współczynnika rzetelności

pomiaru wyznaczany jest

standardowy

błąd pomiaru wyników otrzymanych

(symetryczny wokół wyniku otrzymanego
i asymetryczny dla wyniku prawdziwego)
albo

standardowy błąd estymacji wyniku

prawdziwego

(asymetryczny wokół

wyniku otrzymanego i symetryczny wokół
wyniku prawdziwego oraz o różnej
asymetrii dla poszczególnych wyników
otrzymanych)

background image

Standardowy błąd pomiaru

wyniku otrzymanego

S

bp

= S

o

(1 - R

tt

)

background image

Standardowy błąd estymacji

wyniku prawdziwego

S

be

= S

bp

R

tt

a wynik prawdziwy:

X

e

= R

tt

X

o

+ (1 - R

tt

)

M

o

background image

Wyznaczanie przedziału

ufności

W celu wyznaczenia przedziału

ufności należy wyznaczyć
półprzedział, tzn. S

bp

lub S

be

przemnożyć przez wartość 2,58
(99% pewność), 1,96 (95%
pewność) albo 1,44 (pewność 85%,
tj. 15% błąd oszacowania) oraz
dodać i odjąć od wyniku
otrzymanego lub oszacowanego
wyniku prawdziwego - granice
przedziału ufności.

background image

Zastosowanie

standardowych błędów

pomiaru

Błędy pomiaru służą do

wyznaczenia granic przedziału

ufności wokół wyniku otrzymanego

i przedziałowej estymacji wyniku

prawdziwego (w zakresie którego

mieści się – z określoną pewnością

wynik prawdziwy osoby badanej).

Porównania wyniku danej osoby z

normą (średnią w grupie) czy inną

wartością (np. wynikiem

progowym).

background image

Zastosowanie

standardowych błędów

pomiaru

Porównania wyników dwóch osób

(różnice interindywidualne)

badanych tym samym testem (czy

różnica jest realna – wynika z cechy

czy jest spowodowana przez błąd?).

Porównania wyników danej osoby

(różnice intraindywidualne)

badanej dwoma testami (czy

różnica jest realna – wynika z cechy

czy jest spowodowana przez błąd?).

background image

Standardowy błąd różnicy

wyników

interindywidualnych

S

br

= S

o

2 (1-R

tt

)

S

o

- odchylenie standardowe wyników

otrzymanych, R

tt

- współczynnik

rzetelności testu (wartość S

br

należy

przemnożyć przez określoną

wartość „z” w celu zbudowania

przedziału ufności).

background image

Standardowy błąd różnicy

wyników

intraindywidualnych

S

br

= S

o

2 - R

aa

- R

bb

S

o

- odchylenie standardowe wyników

otrzymanych w każdym z testów

(wyniki są wyrażone na identycznej

skali standardowej), R

aa

i R

bb

-

współczynniki rzetelności obu

testów (wartość S

br

należy

przemnożyć przez określoną

wartość „z” w celu zbudowania

przedziału ufności).


Document Outline


Wyszukiwarka

Podobne podstrony:
slajdy
Studia slajdy1
petri slajdy
prezentacja slajdy trening zastepowania agresji(1)
Osobowość społeczna slajdy
rozwojowka slajdy, Wyklad 5 Srednia doroslosc teoria czasowa
Leki slajdy
rozwojowka slajdy, Wyklad 3 srednia doroslosc
Ptaszynski slajdy Fizjologia uklad krazenia studenci
slajdy cena i promocja

więcej podobnych podstron