ćw 2 Brzeziński, Psychologia, Osobowość, opracowania


0x08 graphic
Osobowość - ujęcie systematyczne, ćw. 2.

Źródło: Brzeziński, J. Metodologia badań psychologicznych, r. 15 i 17. Warszawa:PWN.

Wersja odmatematyzowana na ile się da :P

15. Rzetelność i błąd standardowy

Cel: eliminować z obiegu testy złe, wskazywać poprawne użycie, piętnować nadużycia; konstruowanie i stosowanie, nie dopuszczanie do powstania artefaktów. Wynik testu musi być wkomponowany w teorię, która leży u podstaw narzędzia i ogranicza jego stosowalność oraz zakres interpretacji.

Test psychologiczny: zbiór pytań lub sytuacji służących do badania jednostek lub grup ludzkich przez wywoływanie u nich określonych obserwowalnych reakcji werbalnych lub niewerbalnych będących w miarę możliwości reprezentatywnymi próbkami ich zachowania. Podstawowe kryteria (APA włącza je do definicji) testu to:

Wymaga się też:

Pozycje testowe musi cechować (oby jak najwyższa) moc dyskryminacyjna.

Badanie testem musi odpowiedzieć na pytania:

  1. Co można powiedzieć o całym, tego samego typu, możliwym zachowaniu osoby badanej w tym samym czasie? np. co można powiedzieć o zasobie słów osoby, która podała prawidłowe znaczenie 80% słów w teście X?

  2. Co można powiedzieć o innego typu możliwym zachowaniu osoby badanej w tym samym czasie? np. co można powiedzieć o zręczności manualnej dziecka badanego testem nawlekania koralików na drut

  3. Co można powiedzieć o przynależności osoby badanej do jakiejś grupy, wyróżnionej za pomocą innego kryterium niż wynik testowy? np. czy rzeczywiście osoba, zgodnie ze wskazaniem testu, jest depresyjna, uzdolniona matematycznie itd.?

  4. Co można powiedzieć o pewnych procesach fizjologicznych, zachodzących w organizmie osoby badanej? np. pobudliwość emocjonalna, jeśli osoba obrysowuje figurę drżącą kreską

  5. Co można powiedzieć o zachowaniu os. bad. w przyszłości? np. przyszłe sukcesy ucznia, który uzyskał wysoki wynik w teście uzdolnień matematycznych

Rzetelność to miara dokładności pomiaru dokonywanego za pomocą testu. Im większa rzetelność, tym większa dokładność mierzenia zmiennej i mniejszy błąd pomiarowy. Najstarszy model rzetelności to model Gulliksena (klasyczny). Są nowsze i bardziej zaawansowane, jednak na klasycznym opierają się najbardziej liczące się testy (no i nowsze wymagają zaawansowanej statystyki :P).

Podstawowe równanie Gulliksena teorii testów:

Xt = X + Xe

gdzie Xt - wynik otrzymany, X - wynik prawdziwy, Xe - składnik błędu.

Wynik prawdziwy (składnik prawdziwy) to wynik os. bad. otrzymany w idealnych warunkach lub za pomocą idealnego narzędzia pomiar u - albo: średni wynik otrzymany w nieskończenie wielu niezależnych badaniach tym samym testem.

Składnik błędu (błąd) to wartość dodatnia albo ujemna będąca funkcją warunków testowania konkretnej osoby w konkretnym badaniu. Większość błędów pozostaje nieznanym źródłem zmienności.

Założenia:

  1. średnia arytmetyczna błędów wynosi 0 (μe = 0)

  2. korelacja wyniku prawdziwego i błędu wynosi 0 (ρ∞e = 0)

  3. korelacja błędów dwóch równoległych testów wynosi 0 ( ρe1e2 = 0)

Średnia sumy nieważonych składników równa się sumie średnich, więc śr. wyników otrzymanych równa się średniej prawdziwych:

0x01 graphic

Oczywiście, dla krótkiej serii pomiarów średnia błędów jest różna od zera, a średnia wyników otrzymanych różna od średniej prawdziwych.

Wariancja sumy nieważonych składników to suma wariancji, o ile składniki nie są skorelowane (nie są wg Założenia 2.), więc wariancja otrzymana to suma prawdziwej i błędu:

0x01 graphic

Rzetelność to stosunek wariancji prawdziwej do otrzymanej: 0x01 graphic
, czyli po przekształceniu: 0x01 graphic
.

Należy dążyć do sytuacji, by jak największą proporcję zmienności wyników wytłumaczyć zmiennością indywidualną, a jak najmniejszą - błędami: 0x01 graphic
. Na podstawie poprzedniego równania możemy uzyskać 0x01 graphic
. Jeśli wyciągniemy z obu stron pierwiastek, to otrzymamy wzór na błąd standardowy pomiaru (SEM): 0x01 graphic
, gdzie SDt to odchylenie standardowe w próbie (pierwiastek kwadratowy z wariancji otrzymanej), a rtt to współczynnik rzetelności. SEM, choć jest najczęściej obliczany (np. obliczany w procedurach estymacji przedziałowej wartości wyniku prawdziwego), to nie jest jedynym.

Odmiany błędu standardowego

  1. Błąd pomiaru wyniku otrzymanego

wg podanego wyżej wzoru; definiowany jako odchylenie rozkładu różnic Xt - X.

  1. Błąd estymacji wyniku prawdziwego

0x01 graphic
; jest różnicą między estymowaną przez badacza wartością wyniku prawdziwego a jego rzeczywistą wartością X' - X. Odchylenie standardowe rozkładu z próby różnic X' - X.

  1. Błąd pomiaru wyniku prawdziwego

0x01 graphic
; rozbieżność między estymowanymi wynikami prawdziwymi (X') uzyskanymi przez osoby o identycznych wynikach prawdziwych (X*). Odchylenie standardowe rozkładu z próby różnic X' - X*∞k, gdzie X*∞k to k-ta średnia estymowanych wyników prawdziwych osób badanych, które uzyskały ten sam wynik prawdziwy.

  1. Błąd prognozy

0x01 graphic
; różnica prognozy testu wyniku równoległego (X*t) i wyniku danego testu (Xrt): Xrt - X*t .

  1. Błąd zastąpienia

0x01 graphic
; odchylenie standardowe z próby różnic Xt - Xrt. Kiedy zakładamy, że wynik testu równoległego będzie równy wynikowi w danym teście.

Analiza porównawcza błędów

W warunkach idealnych błędy są sobie równe, wynosząc zero. Wg symulacji, jeśli rtt < 1,0 - to błędy można uporządkować: 0x01 graphic
. SEM, SEP i SES rosną monotonicznie w miarę spadku wartości rtt. SEE wzrasta i przyjmuje najwyższą wartość dla rtt = 0,5 a potem zmniejsza się ze spadkiem rzetelności testu. SEM zaczyna spadać od rtt = 0,6 - 0,7. Wskazuje to, że podział na testy "lepsze" (rtt >= 0,5) i "gorsze" (rtt < 0,5) nie jest arbitralny.

Estymacja wyniku prawdziwego

przeprowadzana z wykorzystaniem modeli regresji liniowej; wymaga 3 elementów: wyniku w teście, współcz. rzetelności i średniej wyników otrzymanych w teście z próby; dla idealnej rzetelności rtt = 1,0 wynik otrzymany będzie równy estymowanemu wynikowi prawdziwemu, także wariancja otrzymana będzie równa prawdziwej; dla testu idealnie nierzetelnego rtt = 0,0 średnia wyników otrzymanych będzie równa estymowanemu wynikowi prawdziwemu, a wariancja prawdziwa równa zero; w warunkach rzeczywistych, tj. 0,0 > rtt > 1,0 estymowany wynik prawdziwy będzie wyższy od otrzymanego gdy ten będzie niższy od średniej; estymowany prawdziwy będzie niższy od otrzymanego, gdy ten będzie wyższy od średniej

oparta na przedziałach ufności; potrzeba wyniku otrzymanego, współcz. rzetelności i błędu standardowego; przedział ufności z prawdopodobieństwem 1 - α zawiera szacowany wynik prawdziwy testu; rekomendowane 1 - α to 0,68, 0,85, 0,90, 0,95, 0,99 i 0,999 przedziały ufności buduje się najczęściej w oparciu o błąd standardowy pomiaru wyniku otrzymanego (SEM), ale zaleca się budowanie ich w oparciu o estymowany wynik prawdziwy (SEE), bo wyniki estymowane są bliższe prawdziwym niż otrzymane i wyniki otrzymane skupiają się niesymetrycznie wokół prawdziwych: wysokie powyżej, a niskie poniżej; w gruncie rzeczy oba błędy niewiele różnią się wartością - 0x01 graphic
- więc nie robi to szalonej różnicy; przy budowaniu przedziałów ufności zwracamy uwagę na poziom ufności, czyli stopień pewności, że przedział zawiera poszukiwaną wartość wyniku prawdziwego; ale im większa pewność, tym mniejsza precyzja estymacji ("dłuższy" przedział, w którym gdzieś znajduje się poszukiwana wartość); ogólna dyrektywa postępowania: w badaniach pilotażowych albo jeśli dla badanych nie niesie to szkody - korzystać z "krótszych" przedziałów (bardziej precyzyjnych, mniej pewnych); dla poziomu ufności P = 68% zbudowanie przedziału polega na dodaniu i odjęciu od wyniku otrzymanego wartości błędu standardowego; z APA: "Interpretując wyniki testów trzeba raczej brać pod uwagę przedziały ufności niż wartości absolutne".

6 empirycznych metod estymacji rzetelności testu

ANOVA umożliwia dokonanie najpełniejszego wglądu we właściwości statystyczne samego testu, jak i jego poszczególnych pozycji.

Metody oparte na:

  1. porównaniu 2-krotnych badań tym samym testem (test-retest reliability)

zawodne - trudno o "równoległość" warunków testu i retestu

można na 2 sposoby: między badaniami mija jakiś czas (estymacja stabilności bezwzględnej, stałości testu), albo powtarza się natychmiast (est. wiarygodności testu); miarą jest korelacja zbiorów wyników z testu i retestu; w wariancie est. stabilności bezwzgl. przerwa między nimi to największy problem metodologiczny; im krócej tym większa korelacja; 2 czynniki subiektywne: badacza - kiedy retest? i badanych - np. pamięć;

  1. porównaniu form alternatywnych (równoległych) testu (alternate-forms; parallel-test; equivalent forms method)

wymogi dla uznania form za alternatywne: równość średnich wyników badania oboma, równość wariancji, równość interkorelacji pozycji każdego z testów, ta sama korelacja wyniku ogólnego z kryterium zewnętrznym (trafność); metoda badania zbliżona do poprzednich (2. test natychmiast albo po przerwie) i nazywa się estymacją stabilności względnej; pozycje do form alternatywnych powinny być losowane z większej puli, jeśli tak się nie robi (najczęstszy przypadek), to wsp. rzetelności jest sztucznie zawyżony; w wyniku uzyskujemy wariant "najostrożniejszy" ze wszystkich metod - dolną granicę rzetelności testu

  1. porównaniu części tego samego testu (split-half reliability - metoda połówkowa, najczęstsza; najczęściej połówki utworzone z pozycji nieparzystych (odd) i parzystych (even; inaczej więc: odd-even reliability))

wsp. równoważności międzypołówkowej - korelacja między połówkami; dobry podział musi łączyć w częściach pozycje zbliżone statystycznie i treściowo; połówki traktuje się jak testy równoległe (por. wyżej); nie stosuje się do testów szybkości!; pozycje hierarchizuje się wg trudności, a potem dzieli na odd-even, ew. treściowo i wg trudności dobiera w pary; podział na "pierwsze 50%" i "drugie" stosować można tylko do testów mocy!; po podzieleniu: obliczamy wsp. korelacji między wynikami ogólnymi połówek i z wzoru Spearmana-Browna szacujemy wsp. rzetelności

  1. analizie właściwości statystycznych pozycji testowych (internal reliability method)

np. α Cronbacha, Kudera i Richardsona itd. różnią się, więc zależnie od spełniania przez test odpowiednich założeń należy wybrać właściwą; polecane: Winera i Brzezińskiego

bada zgodność wewnętrzną (internal consistency) testu, czyli stopień, w jakim test jest czystą miarą zmiennej i w jakim stopniu poszczególne pozycje mierzą to, co cały test; zaleca się obliczanie jej dla każdego testu (nie można do szybkości!); największa zgodność wewn. gdy największe korelacje między zadaniami, największa wariancja zadań i zadania jednakowej trudności

Kuder i Richardson (wzory K-R 20 i 21): obciążony wynik testów krótkich (9-18 poz.), o wysokich interkorelacjach pozycji; nie stosować do t. szybkości; metoda dla testów o wyniku 0-1

Cronbach: uogólnienie K-R 20 dla pozycji nie tylko 0-1; rzetelność skal postaw i kwest. osobowości; tak jak K-R, rekomendowane tylko gdy: pozycje mierzą tę samą zmienną (t. jednoczynnikowy), t. zbudowany z pozycji równoległych

Hoyt: an. wariancji; czynniki: grupa osób (tyle poziomów, ile osób) i test (poziomów tyle, ile pozycji); odpowiedzi 0-1; zastrzeżenia: układ an. wariancji nieprzydatny dla analizy psychometrycznej i uniemożliwia pozytywną odp. na pytanie o reprezentatywność próby (diagnoza różnicowa ma problem)

Lord i Novick i in.: analiza składowych wariancji (analysis of variance components); czynniki: osoby badane (tyle poziomów, ile osób) i wersje testu (tyle poziomów, ile w. równoległych); stosują plany 1- i 2-czynnikowej an. wariancji; zarzut: niewłaściwe układy analizy war.;

Winer: plan jednoczynnikowy z wielokrotnie powtarzanym pomiarem zm. zależnej u każdej osoby badanej; 2. zastrzeżenie do Hoyta pozostaje w mocy; całą wariancję można rozbić na: między osobami i wewnątrz osób (a tę na wprowadzoną przez czynnik A i war. błędu);

Brzeziński: całościowe podejście do analizy testu; konstrukcja testu wymaga: wybrania próby i przebadania, analizy mocy dyskryminacyjnej (różnicowania osób o różnym natężeniu cechy; korelacja pozycji z ogólnym wynikiem testu) pozycji i z tych najlepszych ułożenia testu właściwego, określenia rzetelności i trafności; analiza mocy dyskryminacyjnej:

    1. przebadanie próby wyjściową wersją testu

    2. obliczenie wstępnych ogólnych wyników osób

    3. uszeregowanie wyników wg wysokości

    4. wybór 2 równolicznych grup o skrajnych wynikach

    5. obliczenie ile osób odp. diagnostycznie na daną pozycję

    6. obliczenie wsp. korelacji

Jeżeli populacja jest heterogeniczna (np. neurotycy i nie), to wpierw dzieli się ją na jednorodne warstwy, z których dopiero losuje się jednorodne podgrupy (gr. kryterialne/diagnostyczne), tworzące razem próbę; najpopularniejsze badanie rzetelności: stabilność bezwzgl., Cronbach, Spearman-Brown; najpopularniejsze badanie trafności: obliczanie wariancji wspólnej nowego i znanego testu; proponowana zmiana: badanie dobroci testu (wsp. DT) przez połączenie badania mocy dyskryminacyjnej pozycji z ustalaniem ich trafności; w analizie powtarza się jeden czynnik: test psychologiczny; całą wariancję można w tym badaniu podzielić na między osobami (wprowadzoną przez czynnik A albo przez błąd A) i wewnątrz osób (wprowadzona przez czyn. B, błąd B, interakcja A i B); efekty proste informują czy dana pozycja różnicuje grupy kryterialne;

  1. analizie związku pozycji z ogólnym wynikiem

polecane: Spearmana-Browna:

wzór Gulliksena: wykorzystuje informacje o wariancjach poszczególnych pozycji testowych i korelacjach pozycji z wynikiem ogólnym

  1. badaniu stopnia zgodności sędziów kompetentnych oceniających odpowiedzi testowe

polecane: współcz. zgodności sędziów W Kendalla i analiza wariancji

W przyjmuje wartości od 0 do 1 (całkowita zgodność) na skali porządkowej; wysoka wartość oznacza zgodność sędziów, a nie poprawność oceny; sędziowie muszą umieć posługiwać się przyjętym kryterium i oceniać niezależnie; zasady rangowania: uporządkuj zbiór surowych wyników, przypisz każdemu kolejnemu liczbę naturalną (rangę), w przypadku powtarzających się wartości wyników tworzymy rangi wiązane, tj. dzielimy sumę rang przez ich ilość; nie wystarczy obliczyć W, trzeba jeszcze sprawdzić czy jest ona statystycznie istotna na danym poziomie α; jeśli liczba ocenianych obiektów N > 7, to istotność W oceniamy przez istotność χ2 (chi kwadrat);

Jaka jest minimalna rzetelność? Jak najwyższa - albo co najmniej 0,8 (wg niektórych 0,75).

17. Trafność

test jako def. operacyjna zmiennej; jak wiernie wyniki odzwierciedlają mierzoną wielkość

przewidywanie zachowań; siła związku między zmiennymi

Wynik testowy istnieje tylko w kontekście określonej teorii.

Dla sensownej interpretacji trzeba wiedzieć co mierzy test:

Trafność fasadowa (face validity) - pseudotrafność (!), wrażenie trafności

Wobec rozwoju metoda badania trafności nie starcza już tylko korelacja wyniku z wielkością zewnętrzną wobec testu.

Rodzaje trafności:

wyniki potencjalnego testu można skorelować z uznanym testem (oby on sam nie był tak walidowany!), rzadziej: diagnozą kliniczną, miarami fizjologicznymi, kryteriami uznanymi przez sędziów kompetentnych (aspekt zbieżny (konwergentny) trafności); należy także wykazać brak zbieżności (aspekt różnicowy (dyskryminatywny)) testu z narzędziami mierzącymi inne cechy; dwa podrodzaje trafności: diagnostyczna (concurrent validity) - kryterium zastosowane równolegle w czasie do testu, prognostyczna (predictive validity) - test zastosowany do przewidywania wystąpienia zach. opisanego przez kryterium; na co zwracać uwagę: zbieżność warunków badania i kryterialnych, trafność kryterium, reprezentatywność i wielkość próby; należy także uwzględnić poprawkę na obniżenie trafności (na nierzetelność)

zachowania demonstrowane w teście są reprezentatywną próbą zachowań w badanej sferze; aby ocenić reprezentatywność należy odwołać się do ekspertów, a ich zgodność ocenić za pomocą W Kendalla

związek narzędzia z konstruktem teoretycznym; najlepsze operacyjne podejście do badania - metoda Campbella-Fiskego; do zbadania tej trafności nie starcza 1 współczynnik - APA sugeruje przygotowanie zestawu hipotez o właściwościach osób, które otrzymują wysokie wyniki w przeciwieństwie do tych o niskich (wstępna teoria tego, co mierzy test); w pełnym badaniu tej trafności test może być raz zm. niezależną, raz zależną; teoria tego, co mierzy test weryfikowana jest przez trafność przewidywań zachowania

Procedury ustalania trafności teoretycznej:

  1. analiza różnic międzygrupowych (group differences)

test stanowi podstawę prognozowania zachowania w zależności od wysokości wyniku

  1. analiza macierzy korelacji (correlation matrices and factor analysis)

np. Campbell-Fiske, dalej

  1. analiza struktury wewnętrznej testu (studies of internal structure)

stopień korelacji pozycji lub grup pozycji z ogólnym wynikiem, przewidywany przez teorię

  1. analiza zmian nieprzypadkowych wyników testu (studies of change over occasion)

w procedurze badania stabilności bezwzględnej (test-retest z przerwą) wprowadzić manipulację, która ukierunkuje zmiany wyników w reteście

  1. analiza procesu rozwiązywania testu (studies of process)

wskazuje na przyczyny zmienności wyników

trafność zbieżna (TZ) - wysoka korelacja z innymi testami tej samej cechy; trafność różnicowa (TR) - niska korelacja z testami innych cech; nadużywa się TZ, szukając nawet niezwiązanych z mierzoną wielkością korelatów; metoda Campbella-Fiskego analizy macierzy pozwala badać oba aspekty; zaleca się także konfirmacyjną analizę czynnikową

pełne badanie trafności metodą C-F wymaga co najmniej 2 cech i 2 niezależnych metod; to metoda bardzo pracochłonna (3 cechy i 3 metody to już ponad 100 porównań) i nie zawsze daje jednoznaczne wyniki - brak hierarchii kryteriów; każda z metod powinna być wyprowadzona z tej samej teorii, jednocześnie metody powinny być maksymalnie niezależne (minimum wspólnej wariancji)

Analiza czynnikowa (factor analysis):

FA pozwala zredukować wyjściową liczbę pozycji i sprawdzić homogeniczność badanego konstruktu; niestety początkowe założenia arbitralnie determinują rezultat; są to: selekcja zmiennych, dobór badanych, wybór metody szacowania wariancji wspólnej, liczba czynników do ujęcia, wybór kryterium rotacji czynników (ortogonalna - czynniki nieskorelowane; a ukośna - nie przesądza korelacji)

Na koniec zachęcam do przejrzenia rozdziałów samodzielnie, ignorując wzorki i starając się wyszukać w tekście konkretniejsze, mniej techniczne informacje. Starałem się, żeby opracowanie tego nie wymagało, ale nie zaszkodzi.

definicje Guilforda, przytoczone przez Brzezińskiego

nie można tak było od razu? ktoś się od tego czuje mądrzejszy?

W moim wydaniu podręcznika w równaniu obok jest, najwyraźniej, błąd w mianowniku.

Co za objawienie! I aż wzór na to jest. Szkoda, że tylko taki krótki.

Przyznam że nie wiem czy dobrze rozumiem ten błąd, sorry.

po ludzku: weźmy stóg siana - "gdzieś w nim jest igła", to jest nieprecyzyjna estymacja z dużą pewnością; "igła jest w sześcianie siana o boku centymetra, oddalonym o metr od każdej krawędzi stogu", to jest estymacja precyzyjna, ale mniej pewna - bo tylko szacujemy, że to akurat tam znajduje się igła

kolejny błąd w podręczniku? - tu pojawia się "bezwzględnej", jak w poprz. metodzie, a na końcu akapitu "względnej" - wybrałem zróżnicowanie

cytuję te nazwy nie dlatego, że kocham ten tekst, ale angielskie nazwy metod to akurat zbawienie do późniejszego czytania artykułów...

bardzo menelski podrozdział...

pomijam, mam nadzieję, że to i tak zrobi SPSS, odsyłam ciekawych do podręcznika

po przykład odsyłam na s. 502

haha!

np. czy oceny są dobrym kryterium przyswojenia wiedzy szkolnej, żeby z nimi potem porównywać wyniki testu

11

0x01 graphic
opracowanie by Zdawacz Inc.



Wyszukiwarka

Podobne podstrony:
ćw 5 Oniszczenko, Psychologia, Osobowość, opracowania
cw.8. murray, Psychologia, Osobowość, opracowania
ćw 6 Matsumoto, Psychologia, Osobowość, opracowania
ćw 3 Pervin, Psychologia, Osobowość, opracowania
osobowosc cw 10, Psychologia, Osobowość, opracowania
ćw 9 rozdz. 10, Psychologia, Osobowość, opracowania
Pervin - teoria i badania rozdział 9 ćw. 5, Psychologia, Osobowość, opracowania
Osobowość ćw.5, Psychologia, Osobowość, opracowania
ćw 11 Bruner, Psychologia, Osobowość, opracowania
Pervin+r.3+do+egzaminu, Psychologia, Osobowość, opracowania
07.Pervin, Psychologia, Osobowość, opracowania
psych osobowosci wykl 7 i 8 opracowany, Psychologia Osobowości
Psychologia Sądowa opracowane zagadnienia Psychopatologia psychozy, zaburzenia osobowości, osob
9 10 11 opracowany p.os, Psychologia Osobowości
Opracowanie testow z psychologii osobowosci
ćw. 8, PSYCHOLOGIA, Osobowość
opracowane zagadnienia do egzaminu, Psychologia Osobowości

więcej podobnych podstron