21.10.2012
Wykład 3
Rzetelność: Zgodność test-retest
Stabilność bezwzględna - POWTARZALNOŚĆ
Założenie:
Wartości badanej zmiennej nie ulegają zmianie w czasie tak jak np. poziom stanu lęku albo IQ rozwijających się dzieci
Czynniki zakłócające:
Wprawa, doświadczenie, zapamiętanie
Między jednym a drugim pomiarem musiał upłynąć jakiś czas, więc takie badanie dotyczy cech, które nie zmieniają się dość szybko, np. osobowość, temperament, itd.
Rzetelność to stosunek wariancji prawdziwej do wariancji otrzymanej;
Oczekujemy że jeżeli test jest rzetelny, to otrzymamy wyniki zbliżone do tych, które otrzymaliśmy w pierwszym teście; zapamiętanie odpowiedzi z pierwszego pomiaru jest tu czynnikiem zakłócającym, bo nie odpowiadam na te pytania, tylko sobie przypominam.
Rzetelność: Zgodność test-retest
Dwukrotne badanie tej samej grupy osób tym samym testem w dwóch różnych momentach czasu
Miarą rzetelności jest współczynnik korelacji między dwoma pomiarami
Odstęp czasowy: od kilku tygodni do paru miesięcy
Inna nazwa: stabilność bezwzględna
Miarą rzetelności jest współczynnik korelacji między dwoma pomiarami.
Odstęp 6 miesięcy można zastosować tylko przy pomiarze stabilnych cech osobowości, np. inteligencja.
Rzetelność: Zgodność test-retest
Ocena zgodności uporządkowań
chodzi o zgodność uporządkowań.
Chodzi nie tyle o zgodność wartości bezwzględnych, co o zgodność uporządkowań - chodzi o to, aby kolejność była ta sama, zachowane są różnice; relacje poszczególnych wyników poszczególnych osób są takie same.
Im większy błąd losowy tym mniejsza korelacja między oboma pomiarami.
Korelować ze sobą mogą tylko wyniki prawdziwe - część wspólna obu wariancji prawdziwych - w przypadku testu o niskiej rzetelności ta część wspólna jest znacznie mniejsza;
Dwukrotne badanie tym samym testem
metoda estymacji wiarygodności testu, podobnie jak wyżej, jest to dwukrotne badanie tej samej grupy, jednak między pomiarami nie ma przerwy - badanie drugie następuje zaraz po zakończeniu pierwszego;
metoda pozwala ocenić chwilowe - nie trwające dłużej niż samo badanie - i związane z osobą badaną czynniki zakłócające pomiar np. zmęczenie, lub fluktuacje uwagi.
Między pierwszym a drugim pomiarem nie ma przerwy czasowej - w przypadku kwestionariusza osobowości czy badania inteligencji takie testy nie mają sensu. Ma to sens tylko w badaniach, w których nie ma szans zapamiętania odpowiedzi - np. w badaniach dotyczących koncentracji uwagi; wygląda to raczej jako kontynuacja poprzedniego testu, niż rozpoczęcie nowego. Ale nawet jeśli odstęp czasowy jest długi, to jest szansa, że badani zapamiętają odpowiedzi - poza tym możliwe jest, że np. po pół roku nie dotrzemy do tych samych osób badanych. Dlatego też wymyślono inne metody badania:
Metoda wersji równoległych testów
Badanie tej samej grupy osób dwoma różnymi wersjami tego samego testu
wersje równoległe - narzędzia badające dokładnie to samo i w ten sam sposób, ale treść pozycji inna
Równoważna treść i trudność
Wersje równoległe muszą spełniać rygorystyczne wymagania statystyczne.
Idea testu równoległego
Dwa testy są testami równoległymi, jeżeli spełnione są cztery warunki:
Średnia wyników otrzymanych w teście A równa się średniej wyników otrzymanych w teście B.
Odchylenie standardowe wyników otrzymanych w teście A równa się odchyleniu standardowemu wyników otrzymanych w teście B. Obie wersje muszą w jednakowy sposób różnicować badanych;
Interkorelacje w teście A są takie same jak interkorelacje w teście B. Korelacje każdej pozycji testowej z każdą pozycją testową - interkorelacje - muszą być sobie równe
Test A (wyniki otrzymane) koreluje z zewnętrznym kryterium tak samo jak test B. Korelacja wyników ogólnych testu A musi być taka sama jak korelacja wyników ogólnych testu B; zmienną zewnętrzną w badaniu inteligencji mogą być np. oceny szkolne
Wersje równoległe
Rzetelność pomiaru jest równa współczynnikowi korelacji obu testów równoległych -równoważność międzytestowa.
Wskaźnikiem rzetelności będzie współczynnik korelacji;
Wersje równoległe
Możliwość badania z przerwą czasową - współczynnik stabilności względnej
Między pomiarem pierwszym a drugim możemy wprowadzić odstęp czasowy - będzie to wtedy stabilność względna.
Zalety:
Minimalizacja efektu zapamiętywania
Wady:
Wciąż istnieje możliwość nabywania wprawy i uczenia się
Tworzenie dwóch wersji jest mało ekonomiczne
Wersje równoległe testów służą nie tylko oszacowaniu rzetelności. Dzięki takim wersjom możliwe jest porównywanie wyników osiągniętych przez te same osoby w dwóch pomiarach.
Trzeba się bardzo napracować, aby spełnić kryteria tych testów równoległych. Testy takie mogą nam się przydać w praktyce psychologicznej, aby zbadać zmiany zachodzące u badanego w krótkim odstępie czasu, np. pod wpływem oddziaływania psychokorekcyjnego (szkolenia, warsztaty).
Metoda połówkowa
Połówki testu
jednokrotny pomiar jednym testem
Korelacja między parami wyników równoważnych połówek testu
ocenianym źródłem błędu są różnice między połówkami dotyczące specyficznych treści pytań
Oszacowanie współczynnika rzetelności - korelacja między oboma połówkami testu - współczynnik równoważności międzypołówkowej
Metodę połówkową wymyślono z uwagi na kłopotliwość tworzenia testów równoległych. Korelacja między połówkami jest wskaźnikiem rzetelności.
Podział testu na dwie części
Istnieje wiele różnych sposobów podziału testu na połowy
Sposób podziału:
parzyste-nieparzyste
równoważna zawartość treściowa
dobór losowy
NIE w połowie testu
W ten sposób można oszacować rzetelność testu o połowę krótszego niż test, którego rzetelność chcemy zbadać
W testach zdolności czy inteligencji pytania układa się od najłatwiejszego do najtrudniejszego, dlatego najlepsza jest tu metoda parzyste - nieparzyste. W kwestionariuszach osobowości nie ma to znaczenia, dlatego dobieramy odpowiednią zawartość treści.
Im więcej pozycji testowych, tym test jest bardziej rzetelny, dlatego jest to tak istotne, że w tym wypadku szacujemy rzetelność testu o połowę krótszego.
Poprawka na zredukowaną długość testu - wzór Spearmana - Brown
wzór Spearmana-Brown, oszacowuje jaka byłaby korelacje między dwoma połówkami testu gdyby każda połówka miała długość całego testu:
Wzór Spearmana-Brown
Oszacowanie rzetelności dłuższego testu
k- stosunek liczby pozycji testowych dłuższego testu do liczby pozycji testowych krótszego testu.
Długość testu, a jego rzetelność
Załóżmy, że test składający się z 20 itemów ma rtt = 0,60
Długość testu a jego rzetelność
Pozycje testowe, które dokładamy muszą mieć taką samą jakość jak te podstawowe;
Jeśli traktujemy każdy item jako małą część testu (podobnie jak połowy w metodzie połówkowej), to możemy oszacować stopień w jakim każda z tych małych części koreluje z pozostałymi małymi częściami. Można też uśrednić te korelacje otrzymując jeden wskaźnik.
Wzór KR20
K= liczba itemów w teście; liczba pozycji testowych
p= procent poprawnych odpowiedzi
q= 1-p (procent błędnych odpowiedzi)
Sx2= wariancja wyników testu
Aby wartość SX była większa niż ქpq, poszczególne itemy
muszą być skorelowane ze sobą i mierzyć ten sam wymiar
Poszczególne itemy muszą być ze sobą skorelowane - to znaczy że mierzą tę samą właściwość;
Współczynnik Alfa Cronbacha
Wzór KR-20 jest używany w przypadku dwukategorialnych formatów odpowiedzi (tak/nie; poprawnie/niepoprawnie)
Wzór alfa jest uogólnieniem wzoru KR20 dla kwestionariuszy składających się z pytań o większej liczbie możliwych odpowiedzi. Jedna z najbardziej popularnych miar;
gdzie:
K= liczba itemów w teście
Si2=wariancja odpowiedzi i-tego itemu
SX2= wariancja wyników testu
Jeśli liczba itemów (K) wzrasta, alfa wzrasta również.
Liczba pozycji testowych a rzetelność testu
Zalety:
Wystarczy jeden pomiar i jedno narzędzie; Zaletą jest jednokrotny pomiar - badamy jeden raz.
Wady:
Test musi składać się z pozycji równoległych
Zgodność ocen sędziów jako miara rzetelności
Stopień zgodności pomiędzy dwoma lub więcej wynikami
Korelacja ocen przypisanych przez sędziego 1 i sędziego 2
Uzyskane wyniki korelujemy między sobą.
Ocena stopnia zgodności sędziów kompetentnych
metoda stosowana niezbyt często, zazwyczaj w przypadku narzędzi, gdzie odpowiedzi osoby badanej podlegają „swobodnej ocenie” diagnosty
w celu oceny zgodności kilku zestawów ocen tego samego materiału, dokonanych przez kilku niezależnie pracujących diagnostów - sędziów kompetentnych oblicza się np. współczynnik zgodności sędziów W-Kendalla.
źródłem wariancji błędu mogą być niedostatki pracy diagnostów lub niedostatki klucza według którego dokonywane są oceny
Źródłem błędu może być niezbyt jasno napisany klucz, albo np. psychologowie pracują niezbyt rzetelnie.
Jakie czynniki wpływają na rzetelność testu?
poziom trudności pozycji testowych - test nie może być za łatwy albo za trudny, bo wszyscy będą mieć wyniki bardzo niskie albo bardzo wysokie, więc wariancja będzie niewielka;
długość narzędzia (liczba pozycji testowych) - ważna jest też jakość tych pytań
metoda oceny rzetelności - za każdym razem od trochę innej strony podchodzi do szacowania rzetelności; dlatego warto rzetelność badać kilkoma różnymi metodami;
format odpowiedzi - im więcej kategorii odpowiedzi, tym lepiej - wcale tak być nie musi; testy o formacie odpowiedzi tak - nie bywają bardziej rzetelne;
wariancja badanej zmiennej w próbie (duża różnorodność badanych) - im większa, tym łatwiej jest uzyskać rzetelne narzędzie
sposób podania testu, jasna instrukcja
osoba testująca
podobieństwo pozycji testowych - podobna treść pytań powoduje że te pytania ze sobą korelują, co daje większą rzetelność, ale przecież nie chodzi nam o to, żeby 20 razy zapytać o to samo; chodzi nam o to żeby różne wskaźniki badały tę samą właściwość;
warunki fizyczne sytuacji w jakiej test był wypełniany oraz stan badanego
jakość pytań - pytania muszą być jasne i zrozumiałe - wyklucza to błąd, zniekształcenie pomiaru;
Nie istnieją narzędzia doskonale dokładne (rtt=1). Nawet, gdyby nie działały żadne czynniki zewnętrzne zniekształcające pomiar (np. wpływ osoby testującej, warunków fizycznych badania itd.) to każdy pomiar obciążony jest błędem
Rzetelność - podsumowanie
Każdy ze współczynników rzetelności dotyczy stopnia zgodności między dwoma niezależnie uzyskanymi zbiorami wyników
Każdy ze współczynników rzetelności wrażliwy jest na inne źródło wariancji błędów
Interpretacja wartości współczynników rzetelności
--> rtt>90 - bardzo rzetelny pomiar, test może być stosowany zarówno w badaniach naukowych, jak i do formułowania diagnoz indywidualnych
000,9 - 0,8 - rzetelny pomiar, test może być stosowany w badaniach naukowych, jak i do diagnoz indywidualnych które będą mniej precyzyjne
000,8 - 0,7
0,7 - 0,6
0,6 - 0,5[Author:d]
Psychometria
Dr Krzysztof Fronczyk
Semestr 5
- 9 -
Uzupełnić!!!