Osobowość - ćw. 2 - Brzeziński 455 - 535
Rozdział 15. Rzetelność i błąd standardowy
Wprowadzenie
Testy psychologiczne = najczęściej stosowane narzędzia pomiarowe.
Mają swoich zwolenników jak i przeciwników. Do zwolenników należał Choynowski, autor pierwszego ogłoszonego po wojnie artykuły na temat podstaw psychometrycznych testów psychologicznych.
Do przeciwników należał Kreutuz.
Nie ma podstaw do odrzucenia testów. Trzeba natomiast eliminować z obiegu złe testy czy wytwory pseudo-psychometrów, którzy produkują potworki psychometryczne udające prawdziwe testy psych.
Trzeba wskazywać na poprawne zastosowania testów w praktyce badawczej i diagnostycznej a także, co ważniejsze, na ich nadużycia.
Należy kształtować praktykę konstruowania i stosowania testów psychologicznych oraz nie doprowadzać do powstania artefaktów
Po przeczytaniu kolejnych rozdziałów czytelnik powinien być w stanie samodzielnie konstruować prosty testy psych i poprawnie interpretować wyniki… eee??? <ja nie potrafię chyba :-/>
Jedynie psycholog jest przygotowany merytorycznie <hm…teoretycznie> i uprawniony do posługiwania się testami psych, a także do konstrukcji i adaptacji kulturowej.
Nie wystarczy wyuczenie się procedur testu, stosowanie szablonów interpretacji jego wyników, a raczej analizowanie ich na podstawie teorii, na podstawie której test został skonstruowany, oraz integracja różnych wyników z współwystępujących innych testów.
Musimy znać ograniczenia formalne, i uwzględniać je w interpretacji teoret.
Znajomość teorii psychologicznej i psychometrycznej stanowi warunek konieczny do sensownego posługiwania się testami psych.
Testy psychologiczne definiowane jako zbiory pytań lub sytuacje, służące do badania własności jednostek lub grup ludzkich przez wywoływanie u nich określonych obserwowalnych reakcji werbalnych lub niewerbalnych, będących w miarę możności reprezentatywnymi próbkami ich zachowania się.
Muszą spełniać kryteria: <pierwsze dwa są podstawowe>
Rzetelność - związany jest z nią błąd standardowy <powinien być jak najmniejszy>
Trafność
Obiektywny
Wystandaryzowany
Znormalizowany
Pozycje składające się na dany test musi cechować: moc dyskryminacyjna
Badanie przeprowadzone za pomocą jakiegokolwiek testu psych. Musi odpowiadać na następujące pytania:
Co można powiedzieć o całym, tego samego typu zachowaniu w tym samym czasie?
Co można powiedzieć o innego typu możliwym zachowaniu w tym samym czasie?
Co można powiedzieć o przynależności osoby badanej do jakiejś wyróżnionej, za pomocą innego niż wynik testowy kryterium grupy?
Co można powiedzieć o pewnych procesach fizjologicznych zachodzących w org?
Co można powiedzieć o zachowaniu się osoby badanej w przyszłości?
Założenia klasycznej teorii rzetelności testów psychologicznych
Pomiar zawsze obarczony jest jakimś błędem
Rzetelność = miara dokładności pomiaru
Im wyższa rzetelność testu, tym większa dokładność, z jaką mierzy on daną zmienną i mniejszy błąd pomiaru.
Najbardziej rozpowszechnionym i najstarszym modelem psychometrycznym testu, który rozwiązuje problem rzetelności jest model klasyczny, zaproponowany przez Gulliksena. Stanowi on podstawę wszystkich liczących się w świecie psychologicznych testów.
Zręby teorii rzetelności w ujęciu klasycznego modelu testów
Podstawowe równanie Gulliksena teorii testów psych. mówi, że na wynik otrzymany składają się:
Wynik prawdziwy
Wynik błędu
Wynik prawdziwy wg Gulliksena to granica, do jakiej zmierza przeciętna wyników i-tej osoby w danej liczbie testów, jeżeli ta liczba testów równoległych <K> wzrasta nieograniczenie
Wg Guilforda składnik prawdziwy <wynik prawdziwy> bywa definiowany w różny sposób:
X jest wynikiem osoby badanej otrzymanym w idealnych warunkach, za pomocą idealnego narzędzia pomiarowego <def. ta jest bliska idei operacjonalizacji zmiennych teoretycznych>
X jest średnim wynikiem danej osoby uzyskanym w nieskończenie wielu niezależnych badaniach tym samym testem.
Składnik błędu <błąd> jest wartością dodatnią lub ujemną będącą funkcją warunków testowania konkretnej osoby w konkretnym badaniu.
Źródeł błędu jest wiele, niektóre można identyfikować, to jednak większość z nich jest nieznanym źródłem zmienności.
Konstruując test, należy zatem postępować, aby jak największa proporcja obserwowanej zmienności wyników testu można było wytłumaczyć w kategoriach różnic indywidualnych, a jak najmniejszą proporcję w kategoriach błędu badacza < np. wadliwa konstrukcja testu>
Błąd standardowy <SEM>, mimo, że najczęściej obliczany, nie jest jedynym. Jest on stosowany w procedurach estymacji przedziałowej wartości wyniku prawdziwego.
Obliczenie SEM nie wyczerpuje możliwości estymacji <oszacowania> wyniku prawdziwego.
Odmiany błędu standardowego
Błąd standardowy <SEM> jest najczęściej stosowany w praktyce opartej na klasycznej teorii testów.
Monografia Machowskiego <de facto jedyne opracowanie problemu błędów standardowych> wymienia:
Błąd pomiaru wyniku otrzymanego
Błąd estymacji wyniku prawdziwego
Błąd pomiaru wyniku prawdziwego
Błąd prognozy
Błąd zastąpienia
Błąd pomiaru wyniku otrzymanego
SEM definiowany jest jako odchylenie standardowe rozkładu różnic
Błąd estymacji wyniku prawdziwego
SEE jest różnicą między estymowaną przez badacza wartością wyniku prawdziwego a jego rzeczywistą wartością.
Jest to błąd powstały na skutek niedokładności odtworzenia faktycznej wartości wyniku prawdziwego.
SEE jest odchyleniem standardowym rozkładu z próby różnic
Błąd pomiaru wyniku prawdziwego
Dokonując pomiaru testowego uzyskujemy określone wartości wyniku otrzymanego. Na tej podstawie możemy dokonywać estymacji wartości wyników prawdziwych.
W rzeczywistości jest jednak tak, że osoby o identycznych wynikach prawdziwych, mogą otrzymywać różne estymowane wyniki prawdziwe, gdyż uzyskały różne wyniki otrzymane <eee>
Owa rozbieżność zachodząca między estymowanymi wynikami prawdziwymi uzyskanymi przez osoby o identycznych wynikach prawdziwych to właśnie błąd pomiaru wyniku prawdziwego SEM
SEM ∞ jest odchyleniem standardowym rozkładu z próby różnic.
Błąd prognozy
SEP związany jest z formułowaniem prognozy wyniku testu równoległego na podstawie wyniku danego testu. Ten błąd, różnica owych dwóch wyników.
Błąd zastąpienia
SES: mamy z nim do czynienia wówczas, gdy dokonując prognozy wyniku otrzymanego w jednym teście równoległym na podstawie wyniku otrzymanego w drugim teście zakładamy, że wynik w teście równoległym jest równy wynikowi w drugim teście
Analiza porównawcza błędów
W zależności od przyjętego błędu otrzymamy różne wartości oszacowania wyniku prawdziwego
Błędy można uporządkować wg ich wielkości SEM ∞ < SEE , SEM < SEP < SES
Trzy błędy: SEM , SEP i SES monotonicznie rosną w miarę spadku wartości współczynnika rµ.
Pozostałe dwa zachowują się osobliwie. Początkowo, wraz ze spadkiem rzetelności testu do wartości rµ = 0,5, SEE wzrasta i przyjmuje największą wartość dla rµ = 0,5. Następnie także i jego wartość spada wraz ze spadkiem rzetelności testu. W przypadku błędu SEM ∞ ten punkt przegięcia znajduje się
rµ = 0,6 - 0,7
Rzetelność równa 0,5 powinna być traktowana jako dolna dopuszczalna granica rzetelności
Wybór właściwego błędu ma wpływ na dokładność przedziałowej estymacji wyniku prawdziwego
Punktowa i przedziałowa estymacja wyniku prawdziwego
Psycholog może skorzystać z dwóch metod estymacji wyniku prawdziwego
Estymacja punktowa
Estymacja przedziałowa
Estymacja punktowa: przeprowadzona jest z wykorzystaniem modelu regresji liniowej.
Niezbędna jest znajomość trzech elementów:
Wyniku otrzymanego
Współczynnika rzetelności
Średniej wyników otrzymanych w teście z próby
W przypadku idealnej rzetelności - także wariancja prawdziwa będzie równa wariancji otrzymanej.
W przypadku testu idealnie nierzetelnego wariancja prawdziwa będzie równa zero.
W praktyce estymacji punktowej wyniku prawdziwego nie wiemy ani tego czy uzyskany wynik jest niższy / różny / wyższy od faktycznego wyniku prawdziwego, ani tego o ile jest on różny. Z tego powodu większym uznaniem cieszy się druga metoda.
Estymacja przedziałowa - oparta na idei przedziałów ufności budowanej przez statystyków z myślą o estymacji wartości parametrów populacji na podstawie znajomości wartości statystyk z próby.
Potrzebujemy:
Wynik otrzymany
Współczynnik rzetelności testu
Błąd standardowy
Prawie powszechnie stała się praktyka budowania przedziału ufności symetrycznego względem wyniku otrzymanego, a nie względem estymowanego wyniku prawdziwego.
Ale Nunally ,Fisher, Machowski rekomendują budowanie przedziału ufności opartego na estymowanym wyniku prawdziwym bo:
Estymowane wyniki prawdziwe są bliższe faktycznym wynikom prawdziwym, nijeżeli otrzymane
W grupie osób z wysokimi wynikami przeważają dodatnie błędy pomiaru, a u osób z niskimi - ujemne, skutkiem czego wysokie wyniki otrzymane skupiają się powyżej wyników prawdziwych, a niskie poniżej.
Choynowski: do estymacji przedziału powinniśmy stosować nie błąd standardowy pomiaru <SEM> a błąd standardowy estymacji <SEE>. Nie robimy tego, aby uniknąć skomplikowania, bez wielkiej różnicy między dwoma rodzajami błędów.
Na co należy zwrócić uwagę przy budowaniu przedziału ufności:
Na poziom ufności: im bardziej wyśrubowany, tym bardziej wzrasta nasza pewność <ufność>, że zbudowany przedział / wynik prawdziwy będzie pokrywał nieznaną, a poszukiwaną przez nas wartość wyniku prawdziwego. Cenę jaką płacimy za wzrost pewności jest spadek precyzji estymacji <zamiast krótkiego otrzymujemy długi przedział ufności>. Gdy chcemy uzyskać precyzyjniejszą estymację wyniku prawdziwego <krótszy przedział ufności> to musimy wstawić do wzoru na przedział ufności z jak najniższą.
Generalnie: jeżeli wynik prowadzonego badania nie będzie miał groźnych dla osoby badanej skutków, lub gdy prowadzone przez nas badania mają charakter pilotażowy, to wybieramy krótsze przedziały ufności <oparte na niskich wartościach statystyki>
Mówimy, że przedział ufności obejmuje <zawiera w sobie> z prawdopodobieństwem 1 - α, szacowany wynik prawdziwy testu.
Rekomendowane poziomy ufności 1 - α,: 0,68 <z = 1.0>; 0.85 <z = 1.44>
Interpretując wyniki testowe trzeba brać pod uwagę raczej ich przedziały ufności niż wartości absolutne.
Sześć empirycznych metod estymacji rzetelności testu psychologicznego
Jak w tytule. Najwięcej miejsca przeznaczono na omówienie metody wykorzystującej statystyczny model analizy wariancji ANOVA, ponieważ wg Brzezińskiego umożliwia ona najpełniejsze dokonanie wglądowe właściwości statystyczne samego testu, jak i jego składowych, czyli poszczególnych pozycji.
Sześć metod to:
Metody oparte na porównaniu dwukrotnym badań tym samym testem.
Metody bardzo zawodne, ponieważ trudno spełnić założenie równoległości warunków badania testu i retestu
Metody oparte na porównaniu forma alternatywnych <równoległych> testu
Metody oparte na porównaniu części <połówek itp.> tego samego testu.
Najczęściej połówki tworzy się w ten sposób, że jedna składa się z pozycji testowych o numeracji parzystej, druga o nieparzystej.
Metody oparte na analizie własności statystycznych pozycji testowych
W tej bardzo rozbudowanej grupie mieści się metoda Cronbacha, Kudera, Richardsona, Toyota, Winera, Brzezińskiego.
Nie są to metody całkowicie równoległe, mimo, że ta sama grupa
W zależności od charakteru testu należy dobrać najbardziej odpowiednią metodę <spełniającą warunki określone dla każdej z nich>.
Brzeziński poleca metodę Winera czy własną <no tak>
Metody oparte na analizie związku pozycji testowych z ogólnym wynikiem testu
Metoda Spearmana - Browna
Grupa metod oparta na badaniu stopnia zgodności sędziów kompetentnych oceniających odpowiedzi testowe
Polecany: współczynnik zgodności sędziów W- Kendalla oraz metoda analizy wariancji.
Nie ma jednej uniwersalnej metody estymacji współczynnika rzetelności, która jest zawsze odpowiednia.
Pogłębione badanie rzetelności testu wymaga kilku uzupełniających się metod
Metody oparte na porównaniu dwukrotnego badania tym samym testem
Dwukrotne badanie tej samej grupy tym samym testem - najbardziej rozpowszechniona metoda badania rzetelności. Badanie może być przeprowadzone na dwa sposoby:
Między badaniem pierwszym <test> oraz drugim <retest> - stąd nazwa metody: test - retest. Mija jakiś czas.
Badanie drugie następuje zaraz po zakończeniu badania pierwszego.
W pierwszym wypadku mówimy o stabilności bezwzględnej testu <stałość testu>. W drugim o wiarygodności testu
Badania wiarygodności testu cechuje więcej wad niż zalet. Nie jest często stosowaną miarą rzetelności.
Możemy się posłużyć nią, gdy np. czynniki pamięci nie miały wpływu na wynik retestu.
Generalnie jest to metoda szczególnie NIE polecana
Jako miarę wiarygodności testu przyjmuje się współczynnik korelacji dwóch zbiorów wyników, pochodzących z dwukrotnego <test i retest> badania tej samej grupy osób
Badania stabilności bezwzględnej <stałości> testu przyjmuje badanie jego wiarygodności.
Różnica związana jest z przerwą, która dzieli pierwsze badanie <test> od drugiego <retest>.
Jest to najważniejsze źródło kłopotów metodologicznych. Im krótszy czas, tym większa korelacja między dwoma zbiorami punktów.
Duża rola również przypada różnicom indywidualnym w zakresie wykonywanego zadania.
Nie jest to pożądana technika oceniania rzetelności
Zależy od trzech czynników
Czynnika związanego z osobą badanego
Czynnika związanego z osobą badacza
Niemożność pełnego odtworzenia warunków pierwszego badania
Metody oparte na porównaniu form alternatywnych <równoległych> testu
Jeżeli nie możemy dopełnić warunków równoległości testu i retestu <minimalizowanie korelacji wyników testu i retestu> należy stworzyć dwa identyczne testy <testy równoległe>
Testy równoległe muszą spełniać kryteria:
Równość średnich wyników badania jednym i drugim testem
Równość wariancji
Równość interkorelacji pozycji każdego z obu testów
Tej samej korelacji wyniku ogólnego z kryterium zewnętrznym
Zdaniem Gulliksena: równoległość testów: trzy pierwsze kryteria
Technika badania rzetelności przypomina bądź badanie wiarygodności <badanie drugą formą testu następuje bezpośrednio po badaniu pierwszą formą>, bądź badanie stabilności bezwzględnej testu <badanie drugą formą oddziela od badania pierwszą formą pewien czas>.
Metoda ta łączy zatem cechy badania wiarygodności i stabilności bezwzględnej.
Musimy brać pod uwagę dodatkowe źródło wariancji, związana z treścią testu alternatywnego, z tego powodu nie należy oczekiwać identycznych wyników.
Jest to metoda najostrzejsza. Współczynnik rµ będzie najniższy z wszystkich możliwych do ustalenia innych metod.
Metody oparte na porównaniu części <np. połówek> tego samego testu
Test można podzielić na części. W skrajnych przypadkach będą to:
Dwie części <połówki>
N części <pojedyncze pozycje testu>
Uwaga skupiona na podziale na dwie części, a metoda obliczania rzetelności na podstawie oddzielnego badania nazywamy metodą połówkową.
Współczynnik korelacji między wynikami obu połówek testu = równoważność międzypołówkowa.
Dobry podział gwarantuje włączenie do każdej połówki pozycji najbardziej do siebie podobnych, nie tylko pod względem parametrów statystycznych, a także równoważnych treściowo.
Połówki traktujemy jak testy równoległe
Nie można tą metodą obliczać rzetelności testów szybkości, oraz gdy test nie jest homogeniczny.
Przepołowienie testu: najczęściej uporządkowywanie pozycji wg stopnia trudności, wyodrębnienie podzbioru pozycji o numeracji parzystej i nieparzystej.
Jeżeli pozycje nie są jednolite pod względem treściowym - test jest heterogeniczny - pozycje porządkujemy parami, kierując się trudnością i treścią pozycji zaliczanych do tej samej pary
Nie wolno przepoławiać testu tak, że osoba badana najpierw odpowiada na 50% pytań, a następnie na kolejne.
Podział testu na połówki 50% stosujemy gdy mamy do czynienia z testami mocy. Wtedy traktujemy je jako odrębne testy
Sposób obliczenia tzn. przepis co z czym omijam…
Mamy 5 wzorów na współczynnik rµ liczony metodą połówkową. Wzory Rulona oraz Guttmana dają najlepsze oszacowanie rzetelności testu ! ! !
Metody oparte na analizie właściwości statystycznych pozycji testowych
Proste, nieuciążliwe jeżeli chodzi o dwukrotne badanie tym samym testem, lub konieczność konstruowania dwóch testów <równoległych>, oraz są eleganckie.
Za ich pomocą bada się zgodność wewnętrzną testu, oraz stopień w jakim odpowiedzi na poszczególne pytania mierzą to samo co wynik w całym teście
Wysokość współczynnika wewnętrznej zgodności testu <korelacje między zadaniami są największe> zależy od:
Korelacje między zadaniami są największe
Wariancja zadań jest największa <wówczas, gdy proporcja tych, którzy rozwiązali zadanie wynosi 0.50
Zadania są jednakowej trudności
Miar zgodności wewnętrznej nie należy traktować jako substytutów innych typów miar
Wzory K-R 20 i K-R 21 Kudera i Richardsona
Opracowali serię wzorów pozwalających na oszacowanie rzetelności testu na podstawie właściwości statystycznych poszczególnych pozycji, z których składa się test
Punktem wyjścia była krytyka metody połówkowej
Podzielenie testu na połówki, w zależności od sposobu, daje różne oszacowania rzetelności. Aby uniknąć tego problemu Kuder i Richardson zaproponowali podział testu składającego się z pozycji <zadań> na …n części <zatem jedna cześć to jedna pozycja>. Podstawowe założenie to założenie o równoległości pozycji testowych < pozycje są jednolite czynnikowo>.
Wzory omijamy
Wzór K-R 21 stosujemy, gdy nie znamy stopnia trudności poszczególnych, składających się na dany test pozycji testowych, zaś możemy przyjąć, iż trudności poszczególnych pozycji jest do siebie zbliżona.
K-R 20 - daje obciążone wartości rµ w przypadku testów krótkich <9-10 pozycji> i o wysokich interkorelacjach pozycji testowych.
Obu wzorów nie powinno się stosować w przypadku badania z ograniczeniem czasowym
Wzór Cronbacha
Podał <Cronbach> wygodny wzór na rµ, który jest uogólnieniem K-R 20 dla pozycji oceniających w dowolny sposób, tj. nie tylko 0-1
Stosowany do obliczania rzetelności < rµ bo o nim rozdział…dla przypomnienia bo się już gubie q-:> skal postaw i kwestionariuszy osobowości <o proszę w końcu coś niecoś na ćwiczenia>, której pozycje wymagają wyboru jednej z kilku możliwych kategorii odpowiedzi.
Podsumowując: podejście Kudera-Richardsona-Cronbacha można rekomendować gdy
Test ma strukturę jednoczynnikową <pozycje testu mierzą tę samą zmienną>
Test zbudowany jest z pozycji równoległych
Wtedy oszacowanie testu daje najlepsze oszacowanie wew. Zgodności testu
Jego wartość będzie tym większa, im bardziej jednorodna będzie próbka pozycji tworzących test.
α - Cronbacha można zastąpić współczynnik Mosiera <eee??> w przypadku baterii testów
Podejście Hoyta
Analiza wariancji daje najlepszą <najbardziej bezpośrednią> estymację zgodności wewnętrznej testu.
Podjął jako pierwszy próby stosowania analizy wariancji przy badaniu rzetelności testu
Oparł swoje badanie wewnętrznej zgodności testu <rzetelności> na dwuczynnikowej analizie wariancji w układzie krzyżowym, z liczebnością kratki: n = 1
Zdaniem Lu: metoda Hoyta prowadzi do przeszacowania wariancji błędu = niedoszacowania wartości współczynnika rzetelności.
Metoda ta wskazuje tendencję <zwłaszcza dla krótkich testów> do niedoszacowania rzetelności
Jest nieprzydatnym dla analiz psychometrycznych układem analizy wariancji, gdyż każda osoba składa się z q pozycji, a nie tylko jest jedną pozycją
Uniemożliwia udzielenie pozytywnej odpowiedzi na pytanie o reprezentatywność próby
Podejście Lorda i Nowicka oraz Cronbacha, Leser, Nandy i Rajaratnama
Wykorzystują szanowni <ci powyżej> analizę wariancji jako metodę planowania eksperymentów za pomocą których dokonują oceny <próbują> wpływu różnych czynników zmienności wyników testowych.
Rozbijając całą wariancję na wariancję składowe można, przez porównanie, ocenić ważność poszczególnych czynników stanowiących źródła owych wariancji składowych.
Dlatego Lord i Novick mówią o analizie składowych wariancji.
Podstawowa metoda dla autorów teorii wyników generycznych oraz teorii uniwersalizacji.
Nie chodzi tutaj o powtarzanie eksperymentu, ale o wielokrotne testowanie tych samych osób.
Wyróżniamy plany eksperymentalne:
Jednoczynnikowy
Czynnik: osoby badane na N poziomach
Źródło wariancji: między osobami
Powtórzenia: cała
Jednoczynnikowy
Czynnik: wersje testu na n poziomach
Bez powtarzania, ale każdą wersje testu rozwiązuje N osób
Źródło wariancji: między testami
Dwuczynnikowy
Czynnik A: osoby badane na N poziomach
Czynnik B: wersje testu na n poziomach
Źródła wariancji: miedzy osobami oraz między testami oraz interakcja
Dwuczynnikowy
Czynniki A i B - jak w planie 3
Bez powtarzania
Podejście Winera
Za punkt wyjścia przyjmuje macierz wyników o n-wierszach odpowiadających osobom badanym i p kolumnach odpowiadających pozycjom testowym. Taka sama tabelka jak u Houta
Różnica: u Winera jest plan jednoczynnikowy z wieloma powtorzonymi pomiarami zmiennej zależnej u każdej osoby badanej.
Całą wariancje wyników testowych w badaniu zaplanowanym i przeprowadzonym przez Winera można rozbić na wariancje składowe:
Cała wariancja
Wariancja między osobami
Wariancja wewnątrz osób:
Wariancja wprowadzona przez czynnik A
Wariancja resztowa <wariancja błędu>
Podejście Brzezińskiego
Analiza wariancji stwarza możliwość do całościowego podejścia do badania psych.
Każdy psycholog po opracowaniu określonej jego koncepcji psych. musi wykonać:
Pobrać próbkę z populacji <reprezentatywną>, która jest wyjściową wersją testu
Zanalizować moc dyskryminacyjną poszczególnych pozycji testu, oraz wyselekcjonować z puli wyjściowej te, które spełniają kryterium dobroci testu i ułożyć z nich ostateczną wersje.
Określić rzetelność
Określić trafność
Związane z tym sposobem konstruowania jest szereg trudności
A-b: Na jakiej próbie przeprowadzić analizę mocy dyskryminacyjnej pozycji testowych?
Analize mocy dyskryminacyjnej pozycji testu należy przeprowadzić na reprezentatywnej dla danej populacji próbie.
Pytanie to, może pozostać bez konstruktywnej odpowiedzi
Dobra pozycja to taka, która różnicuje osoby o różnym natężeniu cechy, do pomiaru której jest ona przeznaczona.
Analiza mocy dyskryminacyjnej polega na:
Przebadaniu całej próby wyjściową wersja testu
Obliczeniu wstępnego ogólnego wyniku testu dla każdej osoby
Uszeregowaniu osób od najgorszych do najlepszych wg wysokich wyników ogólnych
Wyłonienia dwóch równolicznych grup osób o skrajnych wynikach niskich i wysokich liczących po, np. 10%, 25% o 50%
Obliczenia frakcji w obu grupach osób, które odpowiedziały diagnostycznie na kolejną pozycję
Obliczeniu wartości współczynnika korelacji, stanowiącego operacyjną miarę mocy dyskryminacyjnej
Nie wiadomo jednak dla jakiej populacji grupa powinna być reprezentatywna
Z jednorodnej populacji powinno się ze statystycznego punktu widzenia pobrać jednorodną próbę. Jeżeli jednak populacja jest heterogeniczna, należy najpierw podzielić próbę na jednorodne warstwy, a następnie wylosować z tych podgrup jednorodne podgrupy, łącznie składające się na próbę. Jest to minimalizacja wariancji intragrupowej - maksymalizacja wariancji intergrupowej
C : w jaki sposób bada się rzetelność testu
Metody badania rzetelności testu o największej popularności to np. techniki badania stabilności bezwzględnej oraz metoda oparta na analizie niektórych właściwości statystycznych pozycji testowych <zwłaszcza Cronbacha i Spearmana-Browna>.
Pierwsza metoda: nie można spełnić warunku równoległości pierwszego i drugiego badania tym samym testem tej samej osoby
Druga metoda: problem reprezentatywności grupy
Nowa metoda powinna być wolna od tych ograniczeń
D : w jaki sposób bada się trafność
Najczęściej: wyznacza się wartość procentową, tzw. Wariancje wspólną, nowego i już uznanego przez psychologów testu.
Jest to tak zwana procedura ustalania trafności diagnostycznej.
Powinna trafność odnoście się nie tylko do całości złożonej z części, ale także do owych części składowych.
Taka uwzględniająca pozycje testu, analiza jego trafności związana jest z procedurą analizy czynnikowej.
Należy połączyć procedury: mocy dyskryminacyjnej pozycji i ustalania trafności <nie całego testu, ale jego składowych!> w jedną procedurę, którą można by określić mianem procedury ustalania dobroci pozycji testowych. Tak się postępuje we wskaźniku D-T
Wskaźnik D-T
Umożliwia całościowe zbadanie dobroci testu, a więc tego co określone jest minusem rzetelności, trafności i dyskryminatywności
Pokazuje <D-T> stosunek czystej wariancji między osobami do całej wariancji między osobami wyrażony procentowo
Metody oparte na analizie związku pozycji testowych z ogólnym wynikiem testu
Wzór Spearmana-Browna
Ubocznym produktem analizy pozycji testowych <badanie ich mocy dyskryminacyjnej pojmowanej jako korelacja pozycji testowej z ogólnym wynikiem testu> jest zbiór współczynników korelacji <punktowo-dwuseryjnej> każdej pozycji z wynikiem ogólnym testu.
Wzór Gulliksena
Zaproponował Gulliksena wzór wykorzystujący zarówno informacje o wariancji poszczególnych pozycji testowych, jak i o korelacjach poszczególnych pozycji z ogólnym wynikiem testu
Metody oparte na badaniu stopnia zgodności sędziów kompetentnych <współczynnik W-Kendall>
Do oceny stopnia zgodności wydawanych przez sędziów ocen.
Do oceny rzetelności zestawów kryteriów ocen jakiejś formy zachowania się osób badanych
Interesuje nas stopień korelacji między k zbiorami ocen dotyczących n obiektów
W-Kendalla jest miarą tej współzależności.
Znajduje zastosowanie także przy rozdzielaniu pozycji do różnych kategorii <wymiarów> Q-sortu.
Przyjmuje wartość od 0 <brak zgodności> do +1 <całkowita zgodność>
Wyrażony na skali porządkowej
Wysoka wartość wcale nie oznacza, że ocena określonych obiektów jest poprawna. Może być tak, że sędziowie posługują się fałszywymi kryterium.
Nie wystarczy obliczyć W, należy także przekonać się czy jest ona statystycznie istotna na danym poziomie α.
Istotność W sprawdzamy poprzez chi - kwadrat.
Podsumowując:
W zależności od charakteru testu, jego przeznaczenia, powinno się zbadać różne aspekty rzetelności testu, związane z różnymi źródłami wariancji błędu
Powinno się analizować różne estymatory błędu standardowego
Do oceny indywidualnej zupełnie wystarcza rµ = 0.80, a zdaniem Davisa nawet 0.75. Im subtelniejszych chcemy dokonać rozróżnień, tym większą rzetelnością powinien odznaczać się test, i tym mniejszy być błąd standardowy, a w konsekwencji przedział ufności będzie stosunkowo krótki.
Rozdział 16. Moc dyskryminacyjna pozycji testowych
Wprowadzenie
Moc dyskryminacyjna danej pozycji testu mówi o tym, w jakim stopniu różnicuje ona daną populację pod względem cechy <zmiennej>, której dotyczy
Wyraża się współczynnikiem korelacji między pozycją i wynikiem ogólnym testu, traktowanym jako suma odpowiedzi zgodnych z kluczem
Oszacowanie mocy dyskryminacyjnej pozycji testu można sprowadzić do kwestii doboru odpowiedniego współczynnika korelacji między pozycją i wynikiem testu
Najczęściej jako miary mocy dyskrym. używa się jednego z trzech współczynników korelacji:
Współczynnik korelacji punktowo = dwuseryjnej
Współczynnik korelacji dwuseryjnej
Współczynnik korelacji punktowo-czteropolowej
Trzy wskaźniki mocy dyskryminacyjnej pozycji testowych
Współczynnik korelacji punktowo-czteropolowej - korzystanie z tablic Jurgensena
Jest najmniej pracochłonną metodą obliczania mocy dyskryminacyjnej
Jest szczególnie przydatny, gdy dysponujemy małą próbą
Im liczniejsza próba tym niższa wartość współczynnika φ jest statystycznie istotna.
Gdy grupa jest bardzo liczna: warto przeanalizować skrajne grupy, dolną i górną, z odrzuceniem grupy środkowej
Jak liczne powinny być skrajne grupy: stosunek otrzymanej różnicy między średnimi do jej błędu standardowego jest maksymalny, wtedy, gdy każda ze skrajnych grup zawiera w przybliżeniu 27% badanej próby.
Przyjmuje się w tym podejściu, że związek między ogólnym wynikiem a daną pozycją ma charakter liniowy
Generalnie korzystamy z tablic przy obliczaniu wskaźników w tym ujęciu
2.2 Współczynnik korelacji punktowo - dwuseryjnej rpbi
Szczególnie przydatny, gdy jedna ze zmiennych, de facto polinomiczna, została dychotomizowana.
Przyjmuje wartości z przedziału <-1, +1>.
Zaletą jest to, że może on być stosowany nawet gdy rozkłady wyników znacznie odbiegają od rozkładu normalnego
Można za jego pomocą dokonać estymacji rzetelności kwestionariuszy wg wzoru Spearmana-Browna
Jego wartość zależy od trudności testu <zaleta>
W warunkach kiedy można stosować współczynnik rbi , współczynnik rpbi da znacznie niższe oszacowanie r-Pearsona
Współczynnik korelacji dwuseryjnej - korzystanie z tablic Flangana <metoda górnych i dolnych 27% próby>
Stosowany w takich samych sytuacjach, jak opisany powyżej
Przyjmuje wartości <-1 , +1> gdy rozkład wyników nie odbiega od normalnego
Do analizy dwóch grup skrajnych <liczących po 27% liczebności całej próby> można posłużyć się specjalnie opracowanymi tablicami Flanagana.
rbi i rpbi można przeliczać na wartości z-Fishera
Sprowadzanie pozycji wielokategorialnej do postaci dwukategorialnej <metoda Edwarda-Kilpatricka>
Gdy chcemy obliczyć moc dyskryminacyjną pozycji wielokategorialnych, jak 1p. w skalach postaw Likerta.
Sprowadza się pozycje wielokategorialne do pozycji dwukategorialnej, zero-jedynkowej, co umożliwia obliczanie mocy dyskryminacyjnej za pomocą opisanych wcześniej technik
Aby sprowadzić pozycje do postaci zero-jedynkowej, musimy przeprowadzić linie podziału pomiędzy kategoriami, a w tym celu stosujemy regułę Edwarda-Kilpatricka: linia podziału musi być przeprowadzona w takim miejscu, aby całkowita suma wyników nad linią w dolnej grupie i pod linią w grupie była najniższa z możliwych sum.
Im wyższa moc dyskryminacyjna - tym wyższa jest rzetelność testu.
Rozdział 17. Trafność
Wprowadzenie
Pytanie o trafność = co mierzy test / jakie wnioski można wyciągnąć / jakie wnioski można sformułować o innych zachowaniach.
Pytanie o trafność jest pytaniem dla psychologa-empiryka podstawowym, i bez udzielenia na nie odpowiedzi nie sposób poważnie interpretować wyników badania testowego
Cztery aspekty trafności
Kanoniczne aspekty trafności: Pierwsze 3 = Holy Trinity
Trafność kryterialna - diagnostyczna i prognostyczna
Trafność treściowa
Trafność teoretyczna
Trafność fasadowa
Trafność fasadowa <pseudotrafność> : test wydaje się trafny i to szczególnie osobom, które nie posiadają profesjonalnego wykształcenia w dziedzinie badań testowych. Jest pozorem trafności, nie jest właściwą podstawą wniosków wyprowadzanych z wyników
Trafność kryterialna
Wiąże się z procedurą ustalania korelacji między wynikami nowego testu z jakimś zewnętrznym kryterium <np. testem o uznanej trafności>
W takim wypadku należy być ostrożnym w akceptacji danych dotyczących trafności testu
Ustalanie trafności kryterialnej test by test świadczy o ubóstwie warsztatowym diagnostyki psychometrycznej.
Należy badać trafność metodą Campbella i Fiskiego.
Przy ustalaniu trafności kryterialnej za pomocą pojedynczego wskaźnika należy zwracać uwagę:
Czy warunki pierwszego badania nie odbiegają istotnie od warunków drugiego?
Trafność ta może pozostawiać wiele do życzenia
Czy próba jest de facto reprezentatywna, i nie zawiera czasem osób łatwo dostępnych?
Nie należy prowadzić badań na zbyt mało licznych grupach związane jest z koniecznością posługiwania się poprawką na obniżenie <rozcieńczenie> trafności, co jest związane z nierzetelnością samego testu jak i kryterium
2.2 Trafność treściowa <wewnętrzna>
Szczególnie ważna dla testów uzdolnień, umiejętności, osiągnięć szkolnych, kwestionariuszy osobowości, skal postaw
Aby wykazać trafność treściową zbioru wyników w teście należy wykazać, że zachowania demonstrowane w badaniu testowym są reprezentatywną grupą zachowań ujawniających się w interesującej badacza sferze.
Należy jasno i precyzyjnie zdefiniować sferę zachowań
Wymaga od badacza zdefiniowania uniwersum pozycji i aby wykazać, że pozycje włączone do testu stanowią faktycznie reprezentatywną dla tego uniwersum ich próbę.
3 Trafność teoretyczna <wg L. J Cronbacha i P. E. Meehla
Najważniejsza z przedstawionych
Pokazuje związek narzędzia pomiarowego z konstruktem teoretycznym <zmienną teoretyczną> zaczerpniętym z danej teorii psychologicznej, a najlepszym operacyjnym podejściem do jej badania jest opracowana przez Campbella i Fiskego
Mówimy o niej wtedy, kiedy test MS być interpretowany jako miara pewnego atrybutu lub pewnej właściwości, które nie są zdefiniowane operacyjnie. Problem badacza: Jakie konstrukty wyjaśniają wariancję wyników rozwiązywanego testu?
Nie jest możliwe sprowadzenie zadania ustalenia trafności teoretycznej do ustalenia wysokości jednego wskaźnika. Nie sprowadza się do jednego badania a do serii badań
Odbywa się to poprzez sukcesywną weryfikacje, modyfikację oraz eliminacje hipotez, które odnoszą się do mierzonych cech przez test
Badanie trafności teoretycznej odnosi się do konkretnego testu, i może okazać się nieadekwatne w stosunku do innych testów o tej samej nazwie
Cronbach i Meehl zaproponowali 5 procedur ustalania trafności teoretycznej:
Analiza różnic międzygrupowych: jeżeli w świetle teorii wynik testowy powinien stanowić podstawę do dokonywania prognoz mówiących, iż osoby o wysokim wyniku testowym powinny zachowywać się w określony sposób i osoby o niskim tez w jakiś inny sposób, ale odmienny od pierwszego, to test można uznać za trafny
Analiza macierzy korelacji i analiza czynnikowa: najodpowiedniejsza metodą jest zaproponowana przez Campbella i Fiske tzw. Analiza macierzy wielu cech-wielu metod.
Analiza struktury wewnętrznej testu: jeżeli dana teoria zakłada, że pozycje jakiegoś testu powinny ze sobą wysoce korelować, albo powinny korelować wysoko z ogólnym wynikiem testu, to taki test będzie trafny.
Analiza zmian nieprzypadkowych wyników testu: dwukrotne badanie, w jakimś odstępie czasu, tym samym testem, na tej samej grupie osób dostarcza miary rzetelności testu zwanej stabilnością bezwzględną. Wadą jest, że dzieje się coś pomiędzy testem a retestem, i brak jest tego kontroli. Proponują oni wprowadzenie jakieś manipulacji w teście, która wywoła widoczną dla psychologa zmianę, po to by wyniki się istotnie różniły.
Analiza procesu rozwiązywania testu: jedną z najlepszych metod badania przyczyn <wg Cronbacha i Meehla> zmienności wyników jest przeanalizowanie procesu rozwiązywania testu przez osoby badane, co pozwala na poprawienie konstrukcji samego testu.
Aspekt zbieżny <konwergentny> i różnicowy <dyskryminatywny> trafności - analiza macierzy wielu cech-wielu metod D. T Campbella i D. W Fiskego
Aspekt zbieżny i aspekt różnicowy trafności
Analizę macierzy korelacji występujących między różnymi miarami testowymi różnych cech <macierzy WCWM> można wykorzystywać do badania trafności teoretycznej.
Zbyt często trafność testu ustala się testami, których trafność była ustalana podobnie.
Wysoka korelacja między testami tej samej cechy świadczy o trafności zbieżnej <TZ>, natomiast niska korelacja z testami innych cech świadczy o trafności różnicowej <TR>. W psychologii dominują badania nad trafnością zbieżną
Analiza trafności teoretycznej przeprowadzona metodą analizy macierzy wielu cech-wielu metod umożliwia nie tylko zbadanie aspektu zbieżnego, ale także zanalizowanie aspektu różnicowego - jedyna sensowna metoda kompleksowego badani trafności teoretycznej.
Do realizacji tego celu zaleca się konfirmacyjną analizę czynnikową CFA, za pomocą programu komputerowego LISREL
WCWM wykorzystywane jest do zaawansowanych badań trafności baterii złożonych z wielu testów czy zestawów testów.
4.2 Metoda klasyczna analizy macierzy WCWM
Źródłem systematycznej wariancji wyników testowych może być zróżnicowanie osób pod względem danej cechy oraz tych samych osób pod względem
Campbell i Fiske: test można uznać za trafny z uwagi na dwa aspekty: zbieżny oraz różnicowy.
Metoda ta jest bardzo żmudna i pracochłonna.
Wykorzystanie wielowymiarowych modeli statystycznych do analizy macierzy
Analiza macierzy WCWM ma na celu określenie względnego udziału w wariancji całkowitej wyniku testowego jej głównych części składowych - wariancji wspólnej analizowanych zmiennych <konstruktów teoretycznych> oraz wariancji wspólnej < i kowariancji> metod ujętych w macierzy WCMW
Trzy nurty wykorzystania modeli wielozmiennowych do analizy macierzy WCWM:
Zastosowanie analizy wariancji ANOVA
Zastosowanie analizy czynnikowej <zwłaszcza odmiany konfirmacyjnej CFA>
Zastosowanie analizy równań strukturalnych <analiza ścieżek, kauzalną, systemy równań jednoczesnych, liniowe schematy przyczynowe, analizę zależności>
Najbardziej owocna analiza macierzy-za pomocą programu LISEREL 7 i 8 bądź za pomocą analizy czynnikowej CFA
Jest to najlepszy sposób badania trafności testu - zwłaszcza trafności teoretycznej <w sensie Cronbacha i Meehla>
Badanie trafności z wykorzystaniem modelu analizy czynnikowej <tzw. Trafność czynnikowa>
Model analizy czynnikowej <FA> spopularyzowany dzięki pakietom statystycznym i oprogramowaniu statystycznemu.
FA może być stosowana w jednej z dwóch odmian:
Eksploracyjnej EFA
Konfirmacyjnej CFA
FA: zastępowanie opisu badanej rzeczywistości za pomocą wielu zmiennych wyjściowych
Redukcja wyjściowego zbioru zmiennych do mniejszej liczby jest ekonomiczne, i pozwala na sprawdzenie homogeniczności układu zmiennych..
Podstawowe decyzje, które badacz musi podjąć:
Selekcja zmiennych, liczba zmiennych, ich pomiar, warunki korelacji
Dobór osób badanych - powinna przewyższać dwu-trzykrotnie liczbę badanych zmiennych, nie powinna być mniejsza niż 100-200
Wybór metody szacowania zasoby zmienności Wspólnej
Liczba czynników, które badacz zamierza ująć w strukturze czynnikowej
Wybór kryterium rotacji czynników: musi wybrać pomiędzy rotacją ortogonalną a ukośną, a więc strukturą obejmującą czynniki ze sobą nieskorelowane, a strukturą złożoną z czynników, które mogą <ale nie muszą> być w jakimś stopniu skorelowane
Jeżeli rzeczywistość, która ma być modelowo odwzorowana jest dobrze interpretowana należy stosować rotację ortogonalną. Jeżeli czynniki są w jakimś stopniu skorelowane - ukośną
Przewaga ukośnej nad ortogonalną: ta druga z góry zakłada, ze czynniki nie będą korelować
Program komputerowy VARIMAX <do prostej struktury> - rotacja ortogonalna
Druga technika rotacji do struktury prostej: QUARTIMAX - gdy zakładamy, że w strukturze czynnikowej znajduje się czynnik ogólny.
Pierwsza minimalizuje liczbę zmiennych, które cechuje wysoki ładunek czynnikowy
Druga minimalizuje liczbę czynników niezbędnych do wyjaśnienia zmienności jakieś zmiennej
Jeżeli z wiedzy nie wynika jasno, ze dana struktura jest taka czy inna, powinno sięgnąć się po technikę rotacji ukośnej, albo CFA
Zakrzewska: najlepsze techniki rotacji ukośnej: PROMAX, OBLIMIN.
Bezpieczniej jest posłużyć się techniką rotacji ukośnej <np. OBLIMIN> nijeżeli techniką rotacji ortogonalnej <np. VARIMAX>
Nienawidze brzezińskiego…
bu
1