Rozdział 15. Rzetelność i błąd standardowy
Wprowadzenie
Testy psychologiczne = najczęściej stosowane narzędzia pomiarowe.
Mają swoich zwolenników jak i przeciwników. Do zwolenników należał Choynowski, autor pierwszego ogłoszonego po wojnie artykuły na temat podstaw psychometrycznych testów psychologicznych.
Do przeciwników należał Kreutuz.
Nie ma podstaw do odrzucenia testów. Trzeba natomiast eliminować z obiegu złe testy czy wytwory pseudo-psychometrów, którzy produkują potworki psychometryczne udające prawdziwe testy psych.
Trzeba wskazywać na poprawne zastosowania testów w praktyce badawczej i diagnostycznej a także, co ważniejsze, na ich nadużycia.
Należy kształtować praktykę konstruowania i stosowania testów psychologicznych oraz nie doprowadzać do powstania artefaktów
Po przeczytaniu kolejnych rozdziałów czytelnik powinien być w stanie samodzielnie konstruować prosty testy psych i poprawnie interpretować wynik.
Jedynie psycholog jest przygotowany merytorycznie i uprawniony do posługiwania się testami psych, a także do konstrukcji i adaptacji kulturowej.
Nie wystarczy wyuczenie się procedur testu, stosowanie szablonów interpretacji jego wyników, a raczej analizowanie ich na podstawie teorii, na podstawie której test został skonstruowany, oraz integracja różnych wyników z współwystępujących innych testów.
Musimy znać ograniczenia formalne, i uwzględniać je w interpretacji teoret.
Znajomość teorii psychologicznej i psychometrycznej stanowi warunek konieczny do sensownego posługiwania się testami psych.
Testy psychologiczne definiowane jako zbiory pytań lub sytuacje, służące do badania własności jednostek lub grup ludzkich przez wywoływanie u nich określonych obserwowalnych reakcji werbalnych lub niewerbalnych, będących w miarę możności reprezentatywnymi próbkami ich zachowania się.
Muszą spełniać kryteria: <pierwsze dwa są podstawowe>
Rzetelność - związany jest z nią błąd standardowy <powinien być jak najmniejszy>
Trafność
Obiektywny
Wystandaryzowany
Znormalizowany
Pozycje składające się na dany test musi cechować: moc dyskryminacyjna
Założenia klasycznej teorii rzetelności testów psychologicznych
Pomiar zawsze obarczony jest jakimś błędem
Rzetelność = miara dokładności pomiaru
Im wyższa rzetelność testu, tym większa dokładność, z jaką mierzy on daną zmienną i mniejszy błąd pomiaru.
Najbardziej rozpowszechnionym i najstarszym modelem psychometrycznym testu, który rozwiązuje problem rzetelności jest model klasyczny, zaproponowany przez Gulliksena. Stanowi on podstawę wszystkich liczących się w świecie psychologicznych testów.
Zręby teorii rzetelności w ujęciu klasycznego modelu testów
Podstawowe równanie Gulliksena teorii testów psych. mówi, że na wynik otrzymany składają się:
Wynik prawdziwy
Wynik błędu
Wynik prawdziwy wg Gulliksena to granica, do jakiej zmierza przeciętna wyników i-tej osoby w danej liczbie testów, jeżeli ta liczba testów równoległych <K> wzrasta nieograniczenie
Wg Guilforda składnik prawdziwy <wynik prawdziwy> bywa definiowany w różny sposób:
X jest wynikiem osoby badanej otrzymanym w idealnych warunkach, za pomocą idealnego narzędzia pomiarowego <def. ta jest bliska idei operacjonalizacji zmiennych teoretycznych>
X jest średnim wynikiem danej osoby uzyskanym w nieskończenie wielu niezależnych badaniach tym samym testem.
Składnik błędu <błąd> jest wartością dodatnią lub ujemną będącą funkcją warunków testowania konkretnej osoby w konkretnym badaniu.
Źródeł błędu jest wiele, niektóre można identyfikować, to jednak większość z nich jest nieznanym źródłem zmienności.
Konstruując test, należy zatem postępować, aby jak największa proporcja obserwowanej zmienności wyników testu można było wytłumaczyć w kategoriach różnic indywidualnych, a jak najmniejszą proporcję w kategoriach błędu badacza < np. wadliwa konstrukcja testu>
Błąd standardowy <SEM>, mimo, że najczęściej obliczany, nie jest jedynym. Jest on stosowany w procedurach estymacji przedziałowej wartości wyniku prawdziwego.
Proszę zwrócić uwagę, iż bezpośrednią konsekwencją przyjęcia klasycznej teorii testów, jest stwierdzenie: każdy błąd obarczony jest błędem. Rzetelność testu informuje nas o tym, jak dokładnie narzędzie mierzy coś (nie wiemy co, bo od tego jest trafność). Nie należy więc przywiązywać się do wyniku uzyskanego: IQ 112, mierzony Skalą Inteligencji Wechslera zawiera w sobie błąd - DLATEGO, należy posługiwać się: przedziałową estymacją wyniku prawdziwego (w jakich granicach zawiera się wynik prawdziwy, na określonym poziomie pewności). Nie należy również posługiwać się wynikiem punktowym, a ZAWSZE określeniem z analizy jakościowej wyniku (przeciętny, wyższy niż itd).
Skoro mamy błąd pomiaru, rzetelność jest kluczową informacją na temat testu.
Rzetelność równa 0,5 powinna być traktowana jako dolna dopuszczalna granica rzetelności
Wybór właściwego błędu ma wpływ na dokładność przedziałowej estymacji wyniku prawdziwego
Sześć empirycznych metod estymacji rzetelności testu psychologicznego
Sześć metod to:
Metody oparte na porównaniu dwukrotnym badań tym samym testem.
Metody bardzo zawodne, ponieważ trudno spełnić założenie równoległości warunków badania testu i retestu.
Metody oparte na porównaniu forma alternatywnych <równoległych> testu
Metody oparte na porównaniu części <połówek itp.> tego samego testu.
Najczęściej połówki tworzy się w ten sposób, że jedna składa się z pozycji testowych o numeracji parzystej, druga o nieparzystej.
Metody oparte na analizie własności statystycznych pozycji testowych
W tej bardzo rozbudowanej grupie mieści się metoda Cronbacha, Kudera, Richardsona, Toyota, Winera, Brzezińskiego.
Nie są to metody całkowicie równoległe, mimo, że ta sama grupa
W zależności od charakteru testu należy dobrać najbardziej odpowiednią metodę <spełniającą warunki określone dla każdej z nich>.
Brzeziński poleca metodę Winera.
Metody oparte na analizie związku pozycji testowych z ogólnym wynikiem testu
Metoda Spearmana - Browna.
Grupa metod oparta na badaniu stopnia zgodności sędziów kompetentnych oceniających odpowiedzi testowe
Polecany: współczynnik zgodności sędziów W- Kendalla oraz metoda analizy wariancji.
Nie ma jednej uniwersalnej metody estymacji współczynnika rzetelności, która jest zawsze odpowiednia.
Pogłębione badanie rzetelności testu wymaga kilku uzupełniających się metod
Metody oparte na porównaniu dwukrotnego badania tym samym testem
Dwukrotne badanie tej samej grupy tym samym testem - najbardziej rozpowszechniona metoda badania rzetelności. Badanie może być przeprowadzone na dwa sposoby:
Między badaniem pierwszym <test> oraz drugim <retest> - stąd nazwa metody: test - retest. Mija jakiś czas.
Badanie drugie następuje zaraz po zakończeniu badania pierwszego.
W pierwszym wypadku mówimy o stabilności bezwzględnej testu <stałość testu>. W drugim o wiarygodności testu.
Badania wiarygodności testu cechuje więcej wad niż zalet. Nie jest często stosowaną miarą rzetelności.
Możemy się posłużyć nią, gdy np. czynniki pamięci nie miały wpływu na wynik retestu.
Generalnie jest to metoda szczególnie NIE polecana
Jako miarę wiarygodności testu przyjmuje się współczynnik korelacji dwóch zbiorów wyników, pochodzących z dwukrotnego <test i retest> badania tej samej grupy osób
Badania stabilności bezwzględnej <stałości> testu przyjmuje badanie jego wiarygodności.
Różnica związana jest z przerwą, która dzieli pierwsze badanie <test> od drugiego <retest>.
Jest to najważniejsze źródło kłopotów metodologicznych. Im krótszy czas, tym większa korelacja między dwoma zbiorami punktów.
Duża rola również przypada różnicom indywidualnym w zakresie wykonywanego zadania.
Nie jest to pożądana technika oceniania rzetelności
Zależy od trzech czynników
Czynnika związanego z osobą badanego
Czynnika związanego z osobą badacza
Niemożność pełnego odtworzenia warunków pierwszego badania
Metody oparte na porównaniu form alternatywnych <równoległych> testu
Jeżeli nie możemy dopełnić warunków równoległości testu i retestu <minimalizowanie korelacji wyników testu i retestu> należy stworzyć dwa identyczne testy <testy równoległe>
Testy równoległe muszą spełniać kryteria:
Równość średnich wyników badania jednym i drugim testem
Równość wariancji
Równość interkorelacji pozycji każdego z obu testów
Tej samej korelacji wyniku ogólnego z kryterium zewnętrznym
Zdaniem Gulliksena: równoległość testów: trzy pierwsze kryteria
Technika badania rzetelności przypomina bądź badanie wiarygodności <badanie drugą formą testu następuje bezpośrednio po badaniu pierwszą formą>, bądź badanie stabilności bezwzględnej testu <badanie drugą formą oddziela od badania pierwszą formą pewien czas>.
Metoda ta łączy zatem cechy badania wiarygodności i stabilności bezwzględnej.
Musimy brać pod uwagę dodatkowe źródło wariancji, związana z treścią testu alternatywnego, z tego powodu nie należy oczekiwać identycznych wyników.
Jest to metoda najostrzejsza. Współczynnik rµ będzie najniższy z wszystkich możliwych do ustalenia innych metod.
Metody oparte na porównaniu części <np. połówek> tego samego testu
Test można podzielić na części. W skrajnych przypadkach będą to:
Dwie części <połówki>
N części <pojedyncze pozycje testu>
Uwaga skupiona na podziale na dwie części, a metoda obliczania rzetelności na podstawie oddzielnego badania nazywamy metodą połówkową.
Współczynnik korelacji między wynikami obu połówek testu = równoważność międzypołówkowa.
Dobry podział gwarantuje włączenie do każdej połówki pozycji najbardziej do siebie podobnych, nie tylko pod względem parametrów statystycznych, a także równoważnych treściowo.
Połówki traktujemy jak testy równoległe
Nie można tą metodą obliczać rzetelności testów szybkości, oraz gdy test nie jest homogeniczny.
Przepołowienie testu: najczęściej uporządkowywanie pozycji wg stopnia trudności, wyodrębnienie podzbioru pozycji o numeracji parzystej i nieparzystej.
Jeżeli pozycje nie są jednolite pod względem treściowym - test jest heterogeniczny - pozycje porządkujemy parami, kierując się trudnością i treścią pozycji zaliczanych do tej samej pary
Nie wolno przepoławiać testu tak, że osoba badana najpierw odpowiada na 50% pytań, a następnie na kolejne.
Podział testu na połówki 50% stosujemy gdy mamy do czynienia z testami mocy. Wtedy traktujemy je jako odrębne testy
Metody oparte na analizie właściwości statystycznych pozycji testowych
Proste, nieuciążliwe jeżeli chodzi o dwukrotne badanie tym samym testem, lub konieczność konstruowania dwóch testów <równoległych>, oraz są eleganckie.
Za ich pomocą bada się zgodność wewnętrzną testu, oraz stopień w jakim odpowiedzi na poszczególne pytania mierzą to samo co wynik w całym teście
Wysokość współczynnika wewnętrznej zgodności testu <korelacje między zadaniami są największe> zależy od:
Korelacje między zadaniami są największe
Wariancja zadań jest największa <wówczas, gdy proporcja tych, którzy rozwiązali zadanie wynosi 0.50
Zadania są jednakowej trudności
Miar zgodności wewnętrznej nie należy traktować jako substytutów innych typów miar
Wzór Cronbacha
Podał <Cronbach> wygodny wzór na rµ, który jest uogólnieniem K-R 20 dla pozycji oceniających w dowolny sposób, tj. nie tylko 0-1
Stosowany do obliczania rzetelności skal postaw i kwestionariuszy osobowości, której pozycje wymagają wyboru jednej z kilku możliwych kategorii odpowiedzi.
Podsumowując: podejście Kudera-Richardsona-Cronbacha można rekomendować gdy
Test ma strukturę jednoczynnikową <pozycje testu mierzą tę samą zmienną>
Test zbudowany jest z pozycji równoległych
Wtedy oszacowanie testu daje najlepsze oszacowanie wew. Zgodności testu
Jego wartość będzie tym większa, im bardziej jednorodna będzie próbka pozycji tworzących test.
Metody oparte na badaniu stopnia zgodności sędziów kompetentnych <współczynnik W-Kendall>
Do oceny stopnia zgodności wydawanych przez sędziów ocen.
Do oceny rzetelności zestawów kryteriów ocen jakiejś formy zachowania się osób badanych
Interesuje nas stopień korelacji między k zbiorami ocen dotyczących n obiektów
W-Kendalla jest miarą tej współzależności.
Znajduje zastosowanie także przy rozdzielaniu pozycji do różnych kategorii <wymiarów> Q-sortu.
Przyjmuje wartość od 0 <brak zgodności> do +1 <całkowita zgodność>
Wyrażony na skali porządkowej
Wysoka wartość wcale nie oznacza, że ocena określonych obiektów jest poprawna. Może być tak, że sędziowie posługują się fałszywymi kryterium.
Nie wystarczy obliczyć W, należy także przekonać się czy jest ona statystycznie istotna na danym poziomie α.
Istotność W sprawdzamy poprzez chi - kwadrat.
Podsumowując:
W zależności od charakteru testu, jego przeznaczenia, powinno się zbadać różne aspekty rzetelności testu, związane z różnymi źródłami wariancji błędu
Powinno się analizować różne estymatory błędu standardowego
Do oceny indywidualnej zupełnie wystarcza rµ = 0.80, a zdaniem Davisa nawet 0.75. Im subtelniejszych chcemy dokonać rozróżnień, tym większą rzetelnością powinien odznaczać się test, i tym mniejszy być błąd standardowy, a w konsekwencji przedział ufności będzie stosunkowo krótki.
Rozdział 17. Trafność
Wprowadzenie
Pytanie o trafność = co mierzy test / jakie wnioski można wyciągnąć / jakie wnioski można sformułować o innych zachowaniach.
Pytanie o trafność jest pytaniem dla psychologa-empiryka podstawowym, i bez udzielenia na nie odpowiedzi nie sposób poważnie interpretować wyników badania testowego
Cztery aspekty trafności
Kanoniczne aspekty trafności: Pierwsze 3 = Holy Trinity
Trafność kryterialna - diagnostyczna i prognostyczna
Trafność treściowa
Trafność teoretyczna
Trafność fasadowa
Trafność fasadowa <pseudotrafność> : test wydaje się trafny i to szczególnie osobom, które nie posiadają profesjonalnego wykształcenia w dziedzinie badań testowych. Jest pozorem trafności, nie jest właściwą podstawą wniosków wyprowadzanych z wyników
Trafność kryterialna
Wiąże się z procedurą ustalania korelacji między wynikami nowego testu z jakimś zewnętrznym kryterium <np. testem o uznanej trafności>.
Metoda pomiaru: korelacja wyniku uzyskanego w jednym narzędziu z wynikiem uzyskanym w narzędziu kryterialnym.
Prognostyczna: wynik narzędzia kryterialnego uzyskiwany jest po pewnym czasie od badania narzędziem, którego trafność chcemy oszacować.
W takim wypadku należy być ostrożnym w akceptacji danych dotyczących trafności testu
Ustalanie trafności kryterialnej test by test świadczy o ubóstwie warsztatowym diagnostyki psychometrycznej.
Przy ustalaniu trafności kryterialnej za pomocą pojedynczego wskaźnika należy zwracać uwagę:
Czy warunki pierwszego badania nie odbiegają istotnie od warunków drugiego?
Trafność ta może pozostawiać wiele do życzenia
Czy próba jest de facto reprezentatywna, i nie zawiera czasem osób łatwo dostępnych?
Nie należy prowadzić badań na zbyt mało licznych grupach związane jest z koniecznością posługiwania się poprawką na obniżenie <rozcieńczenie> trafności, co jest związane z nierzetelnością samego testu jak i kryterium
Trafność treściowa <wewnętrzna>
Szczególnie ważna dla testów uzdolnień, umiejętności, osiągnięć szkolnych, kwestionariuszy osobowości, skal postaw
Aby wykazać trafność treściową zbioru wyników w teście należy wykazać, że zachowania demonstrowane w badaniu testowym są reprezentatywną grupą zachowań ujawniających się w interesującej badacza sferze.
Należy jasno i precyzyjnie zdefiniować sferę zachowań
Wymaga od badacza zdefiniowania uniwersum pozycji i aby wykazać, że pozycje włączone do testu stanowią faktycznie reprezentatywną dla tego uniwersum ich próbę.
Metoda: sędziowie kompetentni oceniają zgodność włączenia określonych itemów jako zgodnych z teorią, definicją, operacjonalizacją, lub/i ich reprezentatywności.
3 Trafność teoretyczna <wg L. J Cronbacha i P. E. Meehla
Najważniejsza z przedstawionych
Pokazuje związek narzędzia pomiarowego z konstruktem teoretycznym <zmienną teoretyczną> zaczerpniętym z danej teorii psychologicznej, a najlepszym operacyjnym podejściem do jej badania jest opracowana przez Campbella i Fiskego
Mówimy o niej wtedy, kiedy test MS być interpretowany jako miara pewnego atrybutu lub pewnej właściwości, które nie są zdefiniowane operacyjnie. Problem badacza: Jakie konstrukty wyjaśniają wariancję wyników rozwiązywanego testu?
Nie jest możliwe sprowadzenie zadania ustalenia trafności teoretycznej do ustalenia wysokości jednego wskaźnika. Nie sprowadza się do jednego badania a do serii badań
Odbywa się to poprzez sukcesywną weryfikacje, modyfikację oraz eliminacje hipotez, które odnoszą się do mierzonych cech przez test
Badanie trafności teoretycznej odnosi się do konkretnego testu, i może okazać się nieadekwatne w stosunku do innych testów o tej samej nazwie
Cronbach i Meehl zaproponowali 5 procedur ustalania trafności teoretycznej:
Analiza różnic międzygrupowych: jeżeli w świetle teorii wynik testowy powinien stanowić podstawę do dokonywania prognoz mówiących, iż osoby o wysokim wyniku testowym powinny zachowywać się w określony sposób i osoby o niskim tez w jakiś inny sposób, ale odmienny od pierwszego, to test można uznać za trafny
Analiza macierzy korelacji i analiza czynnikowa: najodpowiedniejsza metodą jest zaproponowana przez Campbella i Fiske tzw. Analiza macierzy wielu cech-wielu metod.
Analiza struktury wewnętrznej testu: jeżeli dana teoria zakłada, że pozycje jakiegoś testu powinny ze sobą wysoce korelować, albo powinny korelować wysoko z ogólnym wynikiem testu, to taki test będzie trafny.
Analiza zmian nieprzypadkowych wyników testu: dwukrotne badanie, w jakimś odstępie czasu, tym samym testem, na tej samej grupie osób dostarcza miary rzetelności testu zwanej stabilnością bezwzględną. Wadą jest, że dzieje się coś pomiędzy testem a retestem, i brak jest tego kontroli. Proponują oni wprowadzenie jakieś manipulacji w teście, która wywoła widoczną dla psychologa zmianę, po to by wyniki się istotnie różniły.
Analiza procesu rozwiązywania testu: jedną z najlepszych metod badania przyczyn <wg Cronbacha i Meehla> zmienności wyników jest przeanalizowanie procesu rozwiązywania testu przez osoby badane, co pozwala na poprawienie konstrukcji samego testu.
Aspekt zbieżny <konwergentny> i różnicowy <dyskryminatywny> trafności - analiza macierzy wielu cech-wielu metod D. T Campbella i D. W Fiskego
Aspekt zbieżny i aspekt różnicowy trafności
Analizę macierzy korelacji występujących między różnymi miarami testowymi różnych cech <macierzy WCWM> można wykorzystywać do badania trafności teoretycznej.
Zbyt często trafność testu ustala się testami, których trafność była ustalana podobnie.
Wysoka korelacja między testami tej samej cechy świadczy o trafności zbieżnej <TZ>, natomiast niska korelacja z testami innych cech świadczy o trafności różnicowej <TR>. W psychologii dominują badania nad trafnością zbieżną
Analiza trafności teoretycznej przeprowadzona metodą analizy macierzy wielu cech-wielu metod umożliwia nie tylko zbadanie aspektu zbieżnego, ale także zanalizowanie aspektu różnicowego - jedyna sensowna metoda kompleksowego badani trafności teoretycznej.
Do realizacji tego celu zaleca się konfirmacyjną analizę czynnikową CFA, za pomocą programu komputerowego LISREL
WCWM wykorzystywane jest do zaawansowanych badań trafności baterii złożonych z wielu testów czy zestawów testów.
Badanie trafności z wykorzystaniem modelu analizy czynnikowej <tzw. Trafność czynnikowa>
Model analizy czynnikowej <FA> spopularyzowany dzięki pakietom statystycznym i oprogramowaniu statystycznemu.
FA może być stosowana w jednej z dwóch odmian:
Eksploracyjnej EFA
Konfirmacyjnej CFA
FA: zastępowanie opisu badanej rzeczywistości za pomocą wielu zmiennych wyjściowych
Redukcja wyjściowego zbioru zmiennych do mniejszej liczby jest ekonomiczne, i pozwala na sprawdzenie homogeniczności układu zmiennych..
Podstawowe decyzje, które badacz musi podjąć:
Selekcja zmiennych, liczba zmiennych, ich pomiar, warunki korelacji
Dobór osób badanych - powinna przewyższać dwu-trzykrotnie liczbę badanych zmiennych, nie powinna być mniejsza niż 100-200
Wybór metody szacowania zasoby zmienności Wspólnej
Liczba czynników, które badacz zamierza ująć w strukturze czynnikowej
Wybór kryterium rotacji czynników: musi wybrać pomiędzy rotacją ortogonalną a ukośną, a więc strukturą obejmującą czynniki ze sobą nieskorelowane, a strukturą złożoną z czynników, które mogą <ale nie muszą> być w jakimś stopniu skorelowane
1