Untitled

0x08 graphic
Osobowość - ujęcie systematyczne, ćw. 2.

Źródło: Brzeziński, J. Metodologia badań psychologicznych, r. 15 i 17. Warszawa:PWN.

Wersja odmatematyzowana na ile się da :P

15. Rzetelność i błąd standardowy

Cel: eliminować z obiegu testy złe, wskazywać poprawne użycie, piętnować nadużycia; konstruowanie i stosowanie, nie dopuszczanie do powstania artefaktów. Wynik testu musi być wkomponowany w teorię, która leży u podstaw narzędzia i ogranicza jego stosowalność oraz zakres interpretacji.

Test psychologiczny: zbiór pytań lub sytuacji służących do badania jednostek lub grup ludzkich przez wywoływanie u nich określonych obserwowalnych reakcji werbalnych lub niewerbalnych będących w miarę możliwości reprezentatywnymi próbkami ich zachowania. Podstawowe kryteria (APA włącza je do definicji) testu to:

rzetelność (i związany z nią, oby jak najmniejszy, błąd standardowy)
trafność

Wymaga się też:

obiektywności
wystandaryzowania
znormalizowania

Pozycje testowe musi cechować (oby jak najwyższa) moc dyskryminacyjna.

Badanie testem musi odpowiedzieć na pytania:

Co można powiedzieć o całym, tego samego typu, możliwym zachowaniu osoby badanej w tym samym czasie? np. co można powiedzieć o zasobie słów osoby, która podała prawidłowe znaczenie 80% słów w teście X?
Co można powiedzieć o innego typu możliwym zachowaniu osoby badanej w tym samym czasie? np. co można powiedzieć o zręczności manualnej dziecka badanego testem nawlekania koralików na drut
Co można powiedzieć o przynależności osoby badanej do jakiejś grupy, wyróżnionej za pomocą innego kryterium niż wynik testowy? np. czy rzeczywiście osoba, zgodnie ze wskazaniem testu, jest depresyjna, uzdolniona matematycznie itd.?
Co można powiedzieć o pewnych procesach fizjologicznych, zachodzących w organizmie osoby badanej? np. pobudliwość emocjonalna, jeśli osoba obrysowuje figurę drżącą kreską
Co można powiedzieć o zachowaniu os. bad. w przyszłości? np. przyszłe sukcesy ucznia, który uzyskał wysoki wynik w teście uzdolnień matematycznych

Rzetelność to miara dokładności pomiaru dokonywanego za pomocą testu. Im większa rzetelność, tym większa dokładność mierzenia zmiennej i mniejszy błąd pomiarowy. Najstarszy model rzetelności to model Gulliksena (klasyczny). Są nowsze i bardziej zaawansowane, jednak na klasycznym opierają się najbardziej liczące się testy (no i nowsze wymagają zaawansowanej statystyki :P).

Podstawowe równanie Gulliksena teorii testów:

X_t = X_∞ + X_e

gdzie X_t - wynik otrzymany, X_∞ - wynik prawdziwy, X_e - składnik błędu.

Wynik prawdziwy (składnik prawdziwy) to wynik os. bad. otrzymany w idealnych warunkach lub za pomocą idealnego narzędzia pomiar u - albo: średni wynik otrzymany w nieskończenie wielu niezależnych badaniach tym samym testem.

Składnik błędu (błąd) to wartość dodatnia albo ujemna będąca funkcją warunków testowania konkretnej osoby w konkretnym badaniu. Większość błędów pozostaje nieznanym źródłem zmienności.

Założenia:

średnia arytmetyczna błędów wynosi 0 (μ_e = 0)
korelacja wyniku prawdziwego i błędu wynosi 0 (ρ_∞e = 0)
korelacja błędów dwóch równoległych testów wynosi 0 ( ρ_e1e2 = 0)

Średnia sumy nieważonych składników równa się sumie średnich, więc śr. wyników otrzymanych równa się średniej prawdziwych:

Oczywiście, dla krótkiej serii pomiarów średnia błędów jest różna od zera, a średnia wyników otrzymanych różna od średniej prawdziwych.

Wariancja sumy nieważonych składników to suma wariancji, o ile składniki nie są skorelowane (nie są wg Założenia 2.), więc wariancja otrzymana to suma prawdziwej i błędu:

Rzetelność to stosunek wariancji prawdziwej do otrzymanej:
, czyli po przekształceniu:
.

Należy dążyć do sytuacji, by jak największą proporcję zmienności wyników wytłumaczyć zmiennością indywidualną, a jak najmniejszą - błędami:
. Na podstawie poprzedniego równania możemy uzyskać
. Jeśli wyciągniemy z obu stron pierwiastek, to otrzymamy wzór na błąd standardowy pomiaru (SEM):
, gdzie SD_t to odchylenie standardowe w próbie (pierwiastek kwadratowy z wariancji otrzymanej), a r_tt to współczynnik rzetelności. SEM, choć jest najczęściej obliczany (np. obliczany w procedurach estymacji przedziałowej wartości wyniku prawdziwego), to nie jest jedynym.

Odmiany błędu standardowego

Błąd pomiaru wyniku otrzymanego

wg podanego wyżej wzoru; definiowany jako odchylenie rozkładu różnic X_t - X_∞.

Błąd estymacji wyniku prawdziwego

; jest różnicą między estymowaną przez badacza wartością wyniku prawdziwego a jego rzeczywistą wartością X'_∞ - X_∞. Odchylenie standardowe rozkładu z próby różnic X'_∞ - X_∞.

Błąd pomiaru wyniku prawdziwego

; rozbieżność między estymowanymi wynikami prawdziwymi (X'_∞) uzyskanymi przez osoby o identycznych wynikach prawdziwych (X*_∞). Odchylenie standardowe rozkładu z próby różnic X'_∞ - X*_∞k, gdzie X*_∞k to k-ta średnia estymowanych wyników prawdziwych osób badanych, które uzyskały ten sam wynik prawdziwy.

Błąd prognozy

; różnica prognozy testu wyniku równoległego (X*_t) i wyniku danego testu (X^r_t): X^r_t - X*_t.

Błąd zastąpienia

; odchylenie standardowe z próby różnic X_t - X^r_t. Kiedy zakładamy, że wynik testu równoległego będzie równy wynikowi w danym teście.

Analiza porównawcza błędów

W warunkach idealnych błędy są sobie równe, wynosząc zero. Wg symulacji, jeśli r_tt < 1,0 - to błędy można uporządkować:
. SEM, SEP i SES rosną monotonicznie w miarę spadku wartości r_tt. SEE wzrasta i przyjmuje najwyższą wartość dla r_tt = 0,5 a potem zmniejsza się ze spadkiem rzetelności testu. SEM_∞ zaczyna spadać od r_tt = 0,6 - 0,7. Wskazuje to, że podział na testy "lepsze" (r_tt >= 0,5) i "gorsze" (r_tt < 0,5) nie jest arbitralny.

Estymacja wyniku prawdziwego

punktowa

przeprowadzana z wykorzystaniem modeli regresji liniowej; wymaga 3 elementów: wyniku w teście, współcz. rzetelności i średniej wyników otrzymanych w teście z próby; dla idealnej rzetelności r_tt = 1,0 wynik otrzymany będzie równy estymowanemu wynikowi prawdziwemu, także wariancja otrzymana będzie równa prawdziwej; dla testu idealnie nierzetelnego r_tt = 0,0 średnia wyników otrzymanych będzie równa estymowanemu wynikowi prawdziwemu, a wariancja prawdziwa równa zero; w warunkach rzeczywistych, tj. 0,0 > r_tt > 1,0 estymowany wynik prawdziwy będzie wyższy od otrzymanego gdy ten będzie niższy od średniej; estymowany prawdziwy będzie niższy od otrzymanego, gdy ten będzie wyższy od średniej

przedziałowa

oparta na przedziałach ufności; potrzeba wyniku otrzymanego, współcz. rzetelności i błędu standardowego; przedział ufności z prawdopodobieństwem 1 - α zawiera szacowany wynik prawdziwy testu; rekomendowane 1 - α to 0,68, 0,85, 0,90, 0,95, 0,99 i 0,999 przedziały ufności buduje się najczęściej w oparciu o błąd standardowy pomiaru wyniku otrzymanego (SEM), ale zaleca się budowanie ich w oparciu o estymowany wynik prawdziwy (SEE), bo wyniki estymowane są bliższe prawdziwym niż otrzymane i wyniki otrzymane skupiają się niesymetrycznie wokół prawdziwych: wysokie powyżej, a niskie poniżej; w gruncie rzeczy oba błędy niewiele różnią się wartością -
- więc nie robi to szalonej różnicy; przy budowaniu przedziałów ufności zwracamy uwagę na poziom ufności, czyli stopień pewności, że przedział zawiera poszukiwaną wartość wyniku prawdziwego; ale im większa pewność, tym mniejsza precyzja estymacji ("dłuższy" przedział, w którym gdzieś znajduje się poszukiwana wartość); ogólna dyrektywa postępowania: w badaniach pilotażowych albo jeśli dla badanych nie niesie to szkody - korzystać z "krótszych" przedziałów (bardziej precyzyjnych, mniej pewnych); dla poziomu ufności P = 68% zbudowanie przedziału polega na dodaniu i odjęciu od wyniku otrzymanego wartości błędu standardowego; z APA: "Interpretując wyniki testów trzeba raczej brać pod uwagę przedziały ufności niż wartości absolutne".

6 empirycznych metod estymacji rzetelności testu

ANOVA umożliwia dokonanie najpełniejszego wglądu we właściwości statystyczne samego testu, jak i jego poszczególnych pozycji.

Metody oparte na:

porównaniu 2-krotnych badań tym samym testem (test-retest reliability)

zawodne - trudno o "równoległość" warunków testu i retestu

można na 2 sposoby: między badaniami mija jakiś czas (estymacja stabilności bezwzględnej, stałości testu), albo powtarza się natychmiast (est. wiarygodności testu); miarą jest korelacja zbiorów wyników z testu i retestu; w wariancie est. stabilności bezwzgl. przerwa między nimi to największy problem metodologiczny; im krócej tym większa korelacja; 2 czynniki subiektywne: badacza - kiedy retest? i badanych - np. pamięć;

porównaniu form alternatywnych (równoległych) testu (alternate-forms; parallel-test; equivalent forms method)

wymogi dla uznania form za alternatywne: równość średnich wyników badania oboma, równość wariancji, równość interkorelacji pozycji każdego z testów, ta sama korelacja wyniku ogólnego z kryterium zewnętrznym (trafność); metoda badania zbliżona do poprzednich (2. test natychmiast albo po przerwie) i nazywa się estymacją stabilności względnej; pozycje do form alternatywnych powinny być losowane z większej puli, jeśli tak się nie robi (najczęstszy przypadek), to wsp. rzetelności jest sztucznie zawyżony; w wyniku uzyskujemy wariant "najostrożniejszy" ze wszystkich metod - dolną granicę rzetelności testu

porównaniu części tego samego testu (split-half reliability - metoda połówkowa, najczęstsza; najczęściej połówki utworzone z pozycji nieparzystych (odd) i parzystych (even; inaczej więc: odd-even reliability))

wsp. równoważności międzypołówkowej - korelacja między połówkami; dobry podział musi łączyć w częściach pozycje zbliżone statystycznie i treściowo; połówki traktuje się jak testy równoległe (por. wyżej); nie stosuje się do testów szybkości!; pozycje hierarchizuje się wg trudności, a potem dzieli na odd-even, ew. treściowo i wg trudności dobiera w pary; podział na "pierwsze 50%" i "drugie" stosować można tylko do testów mocy!; po podzieleniu: obliczamy wsp. korelacji między wynikami ogólnymi połówek i z wzoru Spearmana-Browna szacujemy wsp. rzetelności

analizie właściwości statystycznych pozycji testowych (internal reliability method)

np. α Cronbacha, Kudera i Richardsona itd. różnią się, więc zależnie od spełniania przez test odpowiednich założeń należy wybrać właściwą; polecane: Winera i Brzezińskiego

bada zgodność wewnętrzną (internal consistency) testu, czyli stopień, w jakim test jest czystą miarą zmiennej i w jakim stopniu poszczególne pozycje mierzą to, co cały test; zaleca się obliczanie jej dla każdego testu (nie można do szybkości!); największa zgodność wewn. gdy największe korelacje między zadaniami, największa wariancja zadań i zadania jednakowej trudności

Kuder i Richardson (wzory K-R 20 i 21): obciążony wynik testów krótkich (9-18 poz.), o wysokich interkorelacjach pozycji; nie stosować do t. szybkości; metoda dla testów o wyniku 0-1

Cronbach: uogólnienie K-R 20 dla pozycji nie tylko 0-1; rzetelność skal postaw i kwest. osobowości; tak jak K-R, rekomendowane tylko gdy: pozycje mierzą tę samą zmienną (t. jednoczynnikowy), t. zbudowany z pozycji równoległych

Hoyt: an. wariancji; czynniki: grupa osób (tyle poziomów, ile osób) i test (poziomów tyle, ile pozycji); odpowiedzi 0-1; zastrzeżenia: układ an. wariancji nieprzydatny dla analizy psychometrycznej i uniemożliwia pozytywną odp. na pytanie o reprezentatywność próby (diagnoza różnicowa ma problem)

Lord i Novick i in.: analiza składowych wariancji (analysis of variance components); czynniki: osoby badane (tyle poziomów, ile osób) i wersje testu (tyle poziomów, ile w. równoległych); stosują plany 1- i 2-czynnikowej an. wariancji; zarzut: niewłaściwe układy analizy war.;

Winer: plan jednoczynnikowy z wielokrotnie powtarzanym pomiarem zm. zależnej u każdej osoby badanej; 2. zastrzeżenie do Hoyta pozostaje w mocy; całą wariancję można rozbić na: między osobami i wewnątrz osób (a tę na wprowadzoną przez czynnik A i war. błędu);

Brzeziński: całościowe podejście do analizy testu; konstrukcja testu wymaga: wybrania próby i przebadania, analizy mocy dyskryminacyjnej (różnicowania osób o różnym natężeniu cechy; korelacja pozycji z ogólnym wynikiem testu) pozycji i z tych najlepszych ułożenia testu właściwego, określenia rzetelności i trafności; analiza mocy dyskryminacyjnej:

przebadanie próby wyjściową wersją testu
obliczenie wstępnych ogólnych wyników osób
uszeregowanie wyników wg wysokości
wybór 2 równolicznych grup o skrajnych wynikach
obliczenie ile osób odp. diagnostycznie na daną pozycję
obliczenie wsp. korelacji

Jeżeli populacja jest heterogeniczna (np. neurotycy i nie), to wpierw dzieli się ją na jednorodne warstwy, z których dopiero losuje się jednorodne podgrupy (gr. kryterialne/diagnostyczne), tworzące razem próbę; najpopularniejsze badanie rzetelności: stabilność bezwzgl., Cronbach, Spearman-Brown; najpopularniejsze badanie trafności: obliczanie wariancji wspólnej nowego i znanego testu; proponowana zmiana: badanie dobroci testu (wsp. DT) przez połączenie badania mocy dyskryminacyjnej pozycji z ustalaniem ich trafności; w analizie powtarza się jeden czynnik: test psychologiczny; całą wariancję można w tym badaniu podzielić na między osobami (wprowadzoną przez czynnik A albo przez błąd A) i wewnątrz osób (wprowadzona przez czyn. B, błąd B, interakcja A i B); efekty proste informują czy dana pozycja różnicuje grupy kryterialne;

analizie związku pozycji z ogólnym wynikiem

polecane: Spearmana-Browna:

wzór Gulliksena: wykorzystuje informacje o wariancjach poszczególnych pozycji testowych i korelacjach pozycji z wynikiem ogólnym

badaniu stopnia zgodności sędziów kompetentnych oceniających odpowiedzi testowe

polecane: współcz. zgodności sędziów W Kendalla i analiza wariancji

W przyjmuje wartości od 0 do 1 (całkowita zgodność) na skali porządkowej; wysoka wartość oznacza zgodność sędziów, a nie poprawność oceny; sędziowie muszą umieć posługiwać się przyjętym kryterium i oceniać niezależnie; zasady rangowania: uporządkuj zbiór surowych wyników, przypisz każdemu kolejnemu liczbę naturalną (rangę), w przypadku powtarzających się wartości wyników tworzymy rangi wiązane, tj. dzielimy sumę rang przez ich ilość; nie wystarczy obliczyć W, trzeba jeszcze sprawdzić czy jest ona statystycznie istotna na danym poziomie α; jeśli liczba ocenianych obiektów N > 7, to istotność W oceniamy przez istotność χ² (chi kwadrat);

Jaka jest minimalna rzetelność? Jak najwyższa - albo co najmniej 0,8 (wg niektórych 0,75).

17. Trafność

co można wywnioskować nt. mierzonej cechy?

test jako def. operacyjna zmiennej; jak wiernie wyniki odzwierciedlają mierzoną wielkość

co można wywnioskować o innych, pozatestowych, zachowaniach?

przewidywanie zachowań; siła związku między zmiennymi

Wynik testowy istnieje tylko w kontekście określonej teorii.

Dla sensownej interpretacji trzeba wiedzieć co mierzy test:

wynik ogólny
wyniki cząstkowe (pogrupowanie "podobnych" pozycji)
poszczególne pozycje

Trafność fasadowa (face validity) - pseudotrafność (!), wrażenie trafności

Wobec rozwoju metoda badania trafności nie starcza już tylko korelacja wyniku z wielkością zewnętrzną wobec testu.

Rodzaje trafności:

kryterialna (criterion oriented validity)

wyniki potencjalnego testu można skorelować z uznanym testem (oby on sam nie był tak walidowany!), rzadziej: diagnozą kliniczną, miarami fizjologicznymi, kryteriami uznanymi przez sędziów kompetentnych (aspekt zbieżny (konwergentny) trafności); należy także wykazać brak zbieżności (aspekt różnicowy (dyskryminatywny)) testu z narzędziami mierzącymi inne cechy; dwa podrodzaje trafności: diagnostyczna (concurrent validity) - kryterium zastosowane równolegle w czasie do testu, prognostyczna (predictive validity) - test zastosowany do przewidywania wystąpienia zach. opisanego przez kryterium; na co zwracać uwagę: zbieżność warunków badania i kryterialnych, trafność kryterium, reprezentatywność i wielkość próby; należy także uwzględnić poprawkę na obniżenie trafności (na nierzetelność)

treściowa (content validity; wewnętrzna)

zachowania demonstrowane w teście są reprezentatywną próbą zachowań w badanej sferze; aby ocenić reprezentatywność należy odwołać się do ekspertów, a ich zgodność ocenić za pomocą W Kendalla

teoretyczna (construct validity)

związek narzędzia z konstruktem teoretycznym; najlepsze operacyjne podejście do badania - metoda Campbella-Fiskego; do zbadania tej trafności nie starcza 1 współczynnik - APA sugeruje przygotowanie zestawu hipotez o właściwościach osób, które otrzymują wysokie wyniki w przeciwieństwie do tych o niskich (wstępna teoria tego, co mierzy test); w pełnym badaniu tej trafności test może być raz zm. niezależną, raz zależną; teoria tego, co mierzy test weryfikowana jest przez trafność przewidywań zachowania

Procedury ustalania trafności teoretycznej:

analiza różnic międzygrupowych (group differences)

test stanowi podstawę prognozowania zachowania w zależności od wysokości wyniku

analiza macierzy korelacji (correlation matrices and factor analysis)

np. Campbell-Fiske, dalej

analiza struktury wewnętrznej testu (studies of internal structure)

stopień korelacji pozycji lub grup pozycji z ogólnym wynikiem, przewidywany przez teorię

analiza zmian nieprzypadkowych wyników testu (studies of change over occasion)

w procedurze badania stabilności bezwzględnej (test-retest z przerwą) wprowadzić manipulację, która ukierunkuje zmiany wyników w reteście

analiza procesu rozwiązywania testu (studies of process)

wskazuje na przyczyny zmienności wyników

trafność zbieżna (TZ) - wysoka korelacja z innymi testami tej samej cechy; trafność różnicowa (TR) - niska korelacja z testami innych cech; nadużywa się TZ, szukając nawet niezwiązanych z mierzoną wielkością korelatów; metoda Campbella-Fiskego analizy macierzy pozwala badać oba aspekty; zaleca się także konfirmacyjną analizę czynnikową

pełne badanie trafności metodą C-F wymaga co najmniej 2 cech i 2 niezależnych metod; to metoda bardzo pracochłonna (3 cechy i 3 metody to już ponad 100 porównań) i nie zawsze daje jednoznaczne wyniki - brak hierarchii kryteriów; każda z metod powinna być wyprowadzona z tej samej teorii, jednocześnie metody powinny być maksymalnie niezależne (minimum wspólnej wariancji)

Analiza czynnikowa (factor analysis):

eksploracyjna (EFA)
konfirmacyjna (CFA)

FA pozwala zredukować wyjściową liczbę pozycji i sprawdzić homogeniczność badanego konstruktu; niestety początkowe założenia arbitralnie determinują rezultat; są to: selekcja zmiennych, dobór badanych, wybór metody szacowania wariancji wspólnej, liczba czynników do ujęcia, wybór kryterium rotacji czynników (ortogonalna - czynniki nieskorelowane; a ukośna - nie przesądza korelacji)

Na koniec zachęcam do przejrzenia rozdziałów samodzielnie, ignorując wzorki i starając się wyszukać w tekście konkretniejsze, mniej techniczne informacje. Starałem się, żeby opracowanie tego nie wymagało, ale nie zaszkodzi.

definicje Guilforda, przytoczone przez Brzezińskiego

nie można tak było od razu? ktoś się od tego czuje mądrzejszy?

W moim wydaniu podręcznika w równaniu obok jest, najwyraźniej, błąd w mianowniku.

Co za objawienie! I aż wzór na to jest. Szkoda, że tylko taki krótki.

Przyznam że nie wiem czy dobrze rozumiem ten błąd, sorry.

po ludzku: weźmy stóg siana - "gdzieś w nim jest igła", to jest nieprecyzyjna estymacja z dużą pewnością; "igła jest w sześcianie siana o boku centymetra, oddalonym o metr od każdej krawędzi stogu", to jest estymacja precyzyjna, ale mniej pewna - bo tylko szacujemy, że to akurat tam znajduje się igła

kolejny błąd w podręczniku? - tu pojawia się "bezwzględnej", jak w poprz. metodzie, a na końcu akapitu "względnej" - wybrałem zróżnicowanie

cytuję te nazwy nie dlatego, że kocham ten tekst, ale angielskie nazwy metod to akurat zbawienie do późniejszego czytania artykułów...

bardzo menelski podrozdział...

pomijam, mam nadzieję, że to i tak zrobi SPSS, odsyłam ciekawych do podręcznika

po przykład odsyłam na s. 502

haha!

np. czy oceny są dobrym kryterium przyswojenia wiedzy szkolnej, żeby z nimi potem porównywać wyniki testu

opracowanie by Zdawacz Inc.