Rzetelność (c.d.) i błąd
standardowy
• Rzetelność odnosi się do:
– stabilności
– równoważności
– spójności
wyników testowych.
Metody empirycznej
estymacji rzetelności
• wskaźnik rzetelności retestowej
(stabilność)
• formy równoległe (równoważność)
• wskaźnik rzetelności
międzypołówkowej (spójność)
• wskaźnik rzetelności wewnętrznej
(spójność)
• ocena sędziów kompetentnych
Wskaźnik rzetelności
retestowej
• dwa rodzaje
– wiarygodność testu (rzadko stosowany)
– stabilność bezwzględna (stosowany)
• spotykane odstępy: od 1 tygodnia do
6 miesięcy
– wyjątkowo dziesiątki lat (kiedy badana
jest nie tyle stabilność testu, co raczej
mierzonej przez niego cechy)
Obliczanie wskaźnika
rzetelności retestowej
• Współczynnik korelacji liniowej r-
Pearsona
Problemy ze wskaźnikiem
rzetelności retestowej
• pamięć poprzedniego badania
• uczenie się, wprawa
• wyobrażenia badanych na temat
celu powtórzenia badania
Zalecenie APA: "nie wolno ograniczać
się do stosowania wskaźników
retestowych"
Formy równoległe -
wymogi
• równość średnich
• równość odchyleń standardowych
• równość interkorelacji pozycji
• równość korelacji z kryterium
zewnętrznym
Obliczanie rzetelności
form równoległych
• Współczynnik korelacji liniowej r-
Pearsona
• Formy równoległe jako wskaźnik:
– Stabilności bezwględnej
– Wiarygodności
• Rzetelność szacowana metodą form
równoległych daje zwykle
oszacowania najniższe z możliwych
Wskaźnik rzetelności
międzypołówkowej
• korelacja między połówkami testu,
zazwyczaj pozycjami parzystymi i
nieparzystymi
• bywa zaliczany do wskaźników
rzetelności wewnętrznej
Obliczanie rzetelności
międzypołówkowej –
korekta Spearmana-Browna
hh
hh
tt
r
r
r
1
2
gdzie:
r
tt
- rzetelność skorygowana
r
hh
- korelacja między połówkami
Wskaźnik rzetelności
wewnętrznej
(zgodności wewnętrznej)
• "j.t. miara tego, w jakim stopniu test
jest czystą miarą mierzonej zmiennej i
w jakim stopniu odpowiedzi na
poszczególne pytania mierzą to samo
co wynik w całym teście”
(Choynowski, 1971)
Zgodność wewnętrzna jest tym wyższa,
im:
• wyższe są korelacje między pozycjami
testu
• wyższa jest wariancja pozycji testu
• mniejsze są różnice w trudności
poszczególnych zadań
• większa jest liczba pozycji w teście
• Wzory Kudera-Richardsona:
format pozycji dychotomiczny
• Alfa Cronbacha: dowolny format
odpowiedzi
Alfa Cronbacha - najpopularniejszy
obecnie wskaźnik rzetelności
Obliczanie alfy Cronbacha
gdzie:
SD
t
: wariancja całego testu
SD
i
: wariancja i-tej pozycji
2
1
2
2
)
(
1
t
SD
SD
SD
n
n
r
n
i
i
t
tt
Zgodność sędziów
kompetentnych
• stosowana w wypadku procedur,
które wymagają subiektywnej
oceny
• W Kendalla – „korelacja” między
więcej niż dwiema zmiennymi
(sędziami)
Testy szybkości a
wskaźniki rzetelności
W wypadku testów szybkości:
• wykluczone są:
– wskaźniki rz. międzypołówkowej
– wskaźniki rz. wewnętrznej
• dopuszczalne: wskaźniki retestowe i
formy równoległe
Interpretacja wskaźników
rzetelności
• przyjmują wartości z przedziału od 0 do
1
• reprezentują estymowaną proporcję
składnika prawdziwego i składnika błedu
– np. 0,85 - 85% udziału wyniku prawdziwego;
15% - składnika błędu
• UWAGA - korelację retestową oraz
międzypołówkową należy podnieść do
kwadratu w celu uzyskania tej proporcji
Pożądane wartości
współczynników
rzetelności
• Wymogi wobec rzetelności są wyższe w
wypadku badań indywidualnych (pożądane
0,90) niż eksperymentów grupowych
• Orientacyjna interpretacja:
– 0,90 i więcej - rzetelność znakomita (w
psychologii raczej rzadko spotykana)
– 0,80-0,90 - rzetelność dobra (często spotykana
w psychologii
– poniżej 0,50 - rzetelność nie do zaakceptowania
Przykłady rzetelności
testów
(Alfa Cronbacha)
• FCZ-KT (Strelau, 1995)
– od 0,77 (Żwawość) do 0,85
(Wytrzymałość)
• EPQ-R (Brzozowski i Drwal, 1995)
– Neurotyzm: 0,84
– Ekstra-introwersja: 0,83
– Psychotyzm: 0,67
– Skala kłamstwa: 0,75
• WAIS-R (Brzeziński i Hornowska,
1993)
– od 0,68 (Układanki) do 0,96
(Słownik)
• NEO-FFI (Zawadzki i in., 1995)
– Ekstrawersja: 0,74-0,84
– Neurotyczność: 0,77-0,83
– Sumienność: 0,76-0,84
– Otwartość: 0,59-0,70
– Ugodowość: 0,57-0,73
Błąd standardowy
pomiaru (SEM)
• ponieważ testy zawierają błąd,
użyteczne jest obliczanie zakresu, w
jakim mieści się wynik prawdziwy
• służy do tego SEM
tt
t
r
SD
SEM
1
• SEM j.t. odchylenie standardowe
różnic między wynikiem
prawdziwym a uzyskanym
• gdyby u kogoś powtórzyć pomiar
100 razy, to uzyskana średnia
byłaby oszacowaniem wyniku
prawdziwego, a odchylenie
standardowe uzyskanego rozkładu
- błędem standardowym pomiaru
Przedział ufności (95%)
X
p
<X
t
- 1,96 (SEM); X
t
+ 1,96
(SEM)>
• Współczynniki rzetelności, jak
wszystkie miary oparte na
korelacji, są wrażliwe na wielkość
wariancji w próbie
• Mogą być generalizowane tylko na
tę populację, z której pobrano
próbę
YIELD1 vs. YIELD2
Wsp. korelacji = ,74
YIELD1
Y
IE
LD
2
-2
0
2
4
6
8
10
12
14
-2
0
2
4
6
8
10
12
14
Analiza pozycji testowych
• Moc dyskryminacyjna pytania
• Alfa przy wykluczeniu pozycji
• Skorygowany współczynnik
korelacji item-skala (SKIS)
Moc dyskryminacyjna
• = zdolność do różnicowania
populacji pod względem danej
cechy
• mierzona jako skorygowana
korelacja między pozycją a
wynikiem ogólnym
– SKIS - skorygowana korelacja item-
skala
Alfa Cronbacha: ,57
SKIS
Alfa przy
wykluczeniu
Opadanie głowy
,17
,57
Zamykanie oczu
,27
,54
Opadanie ręki
,11
,58
Unieruchomienie ręki
,46
,50
Splecenie palców
,25
,55
Uszytwnienie ręki
,40
,51
Przyciąganie rąk
,09
,58
Zahamowanie komunikacji niewerbalnej
,35
,53
Halucynacja (mucha)
,16
,57
Katalepsja powiek
,53
,48
Sugestia pohipnotyczna (dotknięcie kostki lewej nogi) -,11
,62
Niepamięć pohipnotyczna
,15
,57