Wnioskowanie psychometryczne
Zasady charakteryzujące pomiar cech psychologicznych:
Cechy psychologiczne powinny być definiowane nie tylko w terminach operacyjnych, ale także w terminach związków z innymi konstruktami teoretycznymi czy obserwowalnymi zjawiskami - definicje semantyczne (zjawiska obserwowalne), definicje syntaktyczne (powiązanie z innymi konstruktami).
Żadna realizacja pomiaru psychologicznego nie ma charakteru uniwersalnego.
Pomiar psychologiczny jest najczęściej oparty na ograniczonej próbce zachowań.
Wyniki pomiaru psychologicznego są zawsze obarczone określonym błędem.
Wyniki pomiaru psychologicznego nie zawsze przekładają się na skale o dobrze zdefiniowanych jednostkach.
Test psychologiczny jest narzędziem, które:
Pozwala na uzyskanie takiej próbki zachowań, o których można przyjąć, że są wskaźnikami interesującej nas cechy psychologicznej. Zachowania te nie muszą ściśle przypominać zachowań, które chcemy oszacować na podstawie testu. Wystarczy wykazać, że istnieje między nimi określony związek.
Dostarcza reguł obliczania wartości mierzonej cechy.
Spełnia określone kryteria formalne, takie jak obiektywność, standaryzacja, rzetelność, trafność i normalizacja.
Jasno określa zakres i rodzaj dopuszczalnych zachowań ze strony diagnosty.
Zakłada kooperacyjną postawę osoby badanej.
Rodzaje testów:
Standaryzowane i niestandaryzowane.
Indywidualne i grupowe.
Szybkości i mocy.
Obiektywne i nieobiektywne.
Słowne i bezsłowne.
Właściwości poznawczych (istnieje odpowiedź prawidłowa => zgadywanie) i właściwości afektywnych (brak odpowiedzi prawidłowej => trafność samoopisu).
Zorientowane na normy (grupa odniesienia = ile osób jest lepszych lub gorszych) i zorientowane na kryteria (zdefiniowane kryterium = stopień realizacji kryterium).
Kryteria dobroci testów psychologicznych:
Obiektywność, czyli niezależność wyników testowania - niezależnie od tego kto, gdzie i kiedy dokonuje oceny wyników tego samego testu, wykonanego przez tę samą osobę, powinien otrzymać takie same rezultaty.
Standaryzacja, czyli jednolitość wyników badania.
procedura badania testem - zasady ogólne, instrukcja pomoce
procedura obliczania wyników - klucz do oceny odpowiedzi, obliczanie wyników
procedura interpretowania wyników - normy
Rzetelność, czyli dokładność pomiaru - „Rzetelność określana jest jako stopień, w jakim wyniki testowe można przypisać oddziaływaniu systematycznych źródeł wariancji”.
Trafność, czyli obszar zastosowań testu - „Pytanie o trafność to pytanie o to, co można poprawnie wywnioskować na podstawie wyniku testowego. Pojęcie trafności dotyczy poprawności wniosków wyprowadzonych na podstawie wyników testowych lub innych form badania. Wszelkie potencjalne pytania o trafność dają się sprowadzić do dwóch: jakie wnioski można wyciągnąć na temat tego, co jest mierzone przez test oraz jakie wnioski można sformułować o innych (pozatestowych) zachowaniach”.
Normy, czyli nadawanie znaczenia wynikom testowym - „Normalizacja testu to procedura tworzenia zbiorów, w specjalny sposób przetworzonych wyników testu dla osób o określonych właściwościach zdefiniowanych za pomocą kryterium zewnętrznego; osoby te stanowią reprezentatywną, w sensie statystycznym, próbę”.
Właściwa adaptacja, czyli dopasowanie testu do polskich warunków.
strategia psychometryczna - kryterium tożsamości jest empirycznie potwierdzone podobieństwo rozkładów odpowiedzi na pozycje testowe i/lub rozkładów wyników globalnych
strategia pragmatyczna - kryterium tożsamości jest podobieństwo funkcji, jaką ma pełnić dana technika i decyzje oparte na uzyskanych za jej pomocą wynikach.
Wynik prawdziwy - rzeczywista wartość mierzonej cechy (model platoński); średnia rozkładu skłonności danej osoby w określonym teście (model statystyczny).
Rzetelność - wielkość współczynnika korelacji między wynikiem obserwowanym a wynikiem prawdziwym.
Trafność - związek między wynikiem prawdziwym a przedmiotem pomiaru.
Wnioskowanie ppsychometryczne:
test
||
|| pomiar
\/
wynik otrzymany (na podstawie badania testem)
||
|| rzetelność, standardowy błąd pomiaru
\/
wynik prawdziwy (prawdziwa wartość mierzonej cechy)
||
|| trafność
\/
konstrukt psychologiczny / cecha psychologiczna (nieobserwowalna cecha będąca przedmiotem badania)
Klasyczna teoria testów
Rzetelność - zgodność wyników otrzymanych przez te same osoby, które zostały przebadane kilka razy tym samym testem.
Błąd systematyczny - błąd, który nie ma nic wspólnego z mierzoną cechą i jest spowodowany stałymi cechami osoby badanej lub narzędzia pomiarowego.
Błędy losowe - błędy powstające w wyniku działania przyczyn przypadkowych.
Konstrukcja testu (dobór treści).
Sytuacja testowania (czynniki sytuacyjne, osoba badana, osoba badająca).
Ocena wyników (błędy mechaniczne, subiektywizm w ocenie wyników).
Klasyczna teoria testów:
X = T + E
ME = 0 - założenie o nieobciążoności narzędzia pomiarowego (błąd, z jakim mamy do czynienia w pomiarze testowym, jest wyłącznie błędem losowym)
rTE = 0 - założenie o niezależności
rE1,E2 = 0
Definicja rzetelności:
- wskaźnik rzetelności (współczynnik korelacji między wynikami otrzymanymi w teście a wynikami prawdziwymi osób badanych)
Z KTT:
Ponieważ rTE = 0, to sTE = 0:
Ze statystyki wiemy, że miarą siły związku między dwiema zmiennymi jest tzw. współczynnik determinacji, który jest kwadratem współczynnika korelacji:
- rzetelność testu (stosunek wariancji wyników prawdziwych do wariancji wyników otrzymanych)
Testy równoległe - mierzą dokładnie to samo i dokładnie tak samo, jednak pozycje testowe zbudowane są z różnych treści:
MXA = MXB
sA = sB
riA,jA = riB,jB
rAZ = rBZ
Na mocy założeń KTT i definicji testów równoległych możemy przyjąć, że:
Więc:
- współczynnik rzetelności (współczynnik korelacji między wynikami otrzymanymi w dwóch testach równoległych)
Współczynnik rzetelności = odsetek wariancji wyników otrzymanych, jaką można przypisać wynikom prawdziwym.
Współczynnik korelacji między wynikami otrzymanymi a wynikami prawdziwymi = pierwiastek z współczynnika rzetelności.
Metody badania rzetelności:
Metoda powtarzania testu (technika test-retest).
dwukrotne zastosowanie danego testu
miara rzetelności testu - wielkość współczynnika korelacji między wynikami testowymi otrzymanymi za pierwszym i drugim razem
inaczej współczynnik stabilności bezwzględnej - w jakim stopniu wyniki testowe są wrażliwe na przypadkowe zmiany
im dłuższa przerwa, tym niższy współczynnik rzetelności
współczynnik wiarygodności testu - brak przerwy czasowej, wpływ wszystkich przypadkowych czynników związanych z osobą badanych, których zmienność jest krótsza niż czas trwania badania
Metoda wersji równoległych (alternatywnych).
wersje alternatywne - dwie wersje tego samego testu, świadomie konstruowane w taki sposób, aby spełnione było założenie o ich równoległości
miara rzetelności testu - wielkość współczynnika korelacji między wynikami pierwszego i drugiego testowania
współczynnik równoważności międzytestowej - brak przerwy czasowej, w jakim stopniu wariancja błędu zależy od różnic między obiema wersjami testu
współczynnik stabilności względnej - przerwa czasowa
Metoda połówkowa.
trzy sposoby dzielenia testu na połowy - losowe przyporządkowanie, pozycje parzyste i nieparzyste, uwzględnienie treści pozycji ich trudności.
miara rzetelności testu - wielkość współczynnika korelacji między wynikami testowymi otrzymanymi w pierwszej i drugiej połowie
współczynnik równoważności międzypołówkowej, może być on traktowany jedynie jako oszacowanie rzetelności połowy testu
źródła błędu - różnice między połówkami wynikające głównie ze specyficznego dla każdej połowy doboru treści
obliczanie rzetelności całego testu na podstawie rzetelności jego połowy - wzór Spearmana-Browna
koniecznym warunkiem zastosowania tej metody jest udzielenie odpowiedzi na wszystkie pozycje testowe przez wszystkich badanych
Badanie zgodności wewnętrznej (Kuder i Richardson).
ponieważ istnieje wiele różnych sposobów podziału testu na połowy, to dla tego samego testu możemy otrzymać wiele różnych współczynników rzetelności, stąd byłoby rzeczą interesującą dowiedzieć się, jaki jest średni współczynnik rzetelności testu, uwzględniając wszystkie możliwe jego przepołowienia
współczynnik zgodności wewnętrznej - im wyższa wartość, tym bardziej jednorodne są pozycje testowe
- wymaga założenia, że pozycje testowe mają jednakową trudność
różnicę między nimi można wykorzystać jako wskaźnik heterogeniczności metody
oba nadają się do obliczania rzetelności testów złożonych jedynie z pozycji dwukategorialnych
Cronbach - rozszerzenie wzorów K-R na pozycje wielokategorialne
dobre oszacowanie rzetelności testu w sytuacji, gdy ma on strukturę jednoczynnikową, a poszczególne pozycje testowe są względem siebie równoległe
Zgodność ocen sędziów.
źródło błędów - osoba badająca testem, a konkretnie jej sposób oceny odpowiedzi
przedstawienie tych samych arkuszy testowych dwóm osobom oceniającym i następnie obliczyć wielkość współczynnika korelacji między ocenami dokonanymi przez pierwszą i drugą osobę
najlepiej stosować, w których ocena nie odbywa się przez przyłożenie klucza do arkusza odpowiedzi
Metoda |
Źródła błędu |
Powtarzanie testu (badanie jedno po drugim) |
Czynniki losowe, związane z osobą badaną, ujawniające się w krótkim czasie |
Powtarzanie testu (przerwa czasowa między pierwszym i drugim badaniem) |
Zmienność w czasie |
Wersje alternatywne (badanie jedno po drugim) |
Dobór treści |
Wersje alternatywne (przerwa czasowa między pierwszym i drugim badaniem) |
Dobór treści oraz zmienność w czasie |
Metoda połówkowa |
Dobór treści |
Współczynniki Kudera-Richardsona i α Cronbacha |
Dobór treści (hreterogoniczność pozycji testowych) |
Zgodność ocen sędziów |
Różnice między sędziami |
Rzetelność testów szybkości - metoda powtórnego testowania i metoda wersji alternatywnych; metoda połówkowa i współczynniki KR oraz α Cronbacha dadzą zawyżoną rzetelność równą 1.
Rzetelność testów zorientowanych na kryterium - metoda Lindermana i Merendę opracowana przez Aikena:
gdzie: b - liczba osób, które osiągnęły wyznaczone kryterium w obu badaniach danym testem; f - liczba osób, które spełniły kryterium tylko w pierwszym badaniu tym testem; s - liczba osób, które spełniły kryterium tylko w drugim badaniu tym testem; n - liczba osób, które w ogóle nie osiągnęły wyznaczonego kryterium; l - mniejsza z liczba f lub s
Czynniki wpływające na wielkość współczynnika rzetelności:
Długość testu
zwiększenie długości testu prowadzi bezpośrednio do zmniejszenia wielkości błędu pomiaru, a zwiększenia wariancji wyników prawdziwych
tzw. proroczy wzór Spearmana-Browna
Zawężenie zakresu mierzonej cechy
im większa wariancja wyników prawdziwych, tym większa rzetelność testu
gdzie:
- wariancja wyników testowych w próbie oryginalnej;
- wariancja wyników testowych w nowej próbie
Ocena rzetelności indywidualnego wyniku:
Standardowy błąd pomiaru.
SEM - odchylenie standardowe różnic między X i T; odchylenie standardowe rozkładu błędu, które popełniamy wtedy, kiedy przyjmujemy, że wynikiem prawdziwym danej osoby jest średni wynik, jaki uzyskałaby ona w nieskończenie wielu pomiarach tym samym testem
przedział ufności dla wyniku otrzymanego - odjęcie pewnej stałej wartości od wyniku otrzymanego (dolna granica przedziału) oraz dodaniu jej do wyniku otrzymanego (górna granica przedziału); ta stała wartość jest równa wyrażeniu zα/2 * SEM (iloczyn wartości wyniku standaryzowanego z odczytanego dla poziomu istotności α/2 i standardowego błędu pomiaru); wynik standardowy z relatywizuje przedział ufności do rozkładu normalnego i określa, z jaką pewnością będziemy budować nasz przedział
przedział ufności dla wyniku prawdziwego
- estymowany wynik prawdziwy
- standardowy błąd estymacji (odchylenie standardowe rozkładu różnic między T* a T)
- przedział ufności
którą metodę stosować?
jeśli rtt < 0,70, stosujemy przedział ufności dla wyniku prawdziwego
jeśli rtt > 0,80, stosujemy przedział ufności dla wyniku otrzymanego
czym się kierować, podejmując decyzję o szerokości przedziału ufności?
przedział powinien być na tyle precyzyjny, abyśmy mieli wystarczające zaufanie, co do wartości otrzymanego wyniku w teście
przedział powinien być na tyle wąski, aby nie sprawiał nam kłopotów interpretacyjnych
diagnoza indywidualna - 90% przedział ufności; badania naukowe - 95% przedział ufności
Standardowy błąd różnicy między dwoma wynikami.
- wzór ogólny
- różnica między wynikami dwóch testów wyrażonymi na różnych skalach
- różnica między wynikami dwóch testów wyrażonych na tej samej skali
- różnica między wynikami tego samego testu
jeżeli różnica między wynikami jest równa lub większa od różnicy minimalnej, to jest ona istotna statystycznie (ma znaczenie statystyczne)
różnica minimalna = zα/2 * SEM
Trafność
Trafność - stopień, w jakim test realizuje stawiane przed nim cele; odzwierciedla relację, jaka zachodzi między koncepcją właściwości psychologicznej a użytymi wskaźnikami tej właściwości, czyli trafność operacjonalizacji tej właściwości.
Walidacja testu - określanie jego trafności, polegające na zbieraniu i ocenie danych świadczących o trafności określonej interpretacji wyników testu. Procedura walidacji testu nie kończy się na podaniu jednego współczynnika trafności, a polega na prowadzeniu ciągłych badań i gromadzeniu informacji:
Obowiązki autora: podanie interpretacji potwierdzających każdej zalecanej interpretacji wyników testowych, a jeśli dane dotyczące określonej interpretacji nie zostały zebrane, to fakt ten powinien zostać podkreślony.
Obowiązki użytkownika: określenie trafności danego testu dla konkretnej grupy osób badanych
Rodzaje trafności:
Trafność treściowa (wewnętrzna, logiczna) - stopień, w jakim treść testu reprezentuje całokształt zachowań, których próbkę pobiera test.
aby potwierdzić trafność treściową zbioru wyników otrzymanych w teście, należy wykazać, że zachowania demonstrowane w badaniu testowym są reprezentująca próbką zachowań ujawniających się w interesującej badacza sferze
trafność fasadowa - to, co test wydaje się mierzyć; opisuje, jak spostrzegają test osoby badane i czy z ich punktu widzenia wydaje się on trafnie mierzyć to, co ma mierzyć
Trafność kryterialna - stopień, w jakim test pozwala na ocenę określonej właściwości psychologicznej innej niż ta, którą bezpośrednio mierzy.
trafność diagnostyczna - w jakim zakresie można wykorzystywać dany test do określania aktualnej pozycji osoby badanej względem kryterium
trafność prognostyczna - w jakim zakresie można wykorzystywać dany test do określania przyszłej pozycji osoby badanej względem kryterium
Trafność teoretyczna - stopień, w jakim test pozwala, na pomiar nasilenia u osoby badanej hipotetycznej właściwości (czyli psychologicznego konstruktu), o której mają świadczyć odpowiedzi na bodźce testowe.
definiowanie (tak jasno jak to możliwe) mierzonej cechy
wiązanie wyników testowych z zachowaniami osób badanych, w takich sytuacjach, w jakich (z założenia) mierzony konstrukt jest traktowany jako ważna zmienna
Sposoby badania trafności:
Trafność treściowa.
uniwersum treści - pełen zakres dziedziny, której test ma dotyczyć
reprezentatywność - odtwarzanie interesującego nas uniwersum odpowiednio proporcjonalnie
metoda Lawshego:
poproszenie każdego sędziego o ocenę każdej proponowanej pozycji testowej na następującej skali: pozycja ta ma zasadnicze znaczenie dla testu; pozycja ta jest użyteczna, jednak nie ma zasadniczego znaczenia; pozycja ta nie powinna znaleźć się w obrębie testu
ilu sędziów przyznało danej pozycji zasadnicze znaczenie - jeśli więcej niż połowa, można przyjąć że pozycja jest trafna treściowo; im większy stopień zgodności sędziów co do znaczenia danej pozycji testowej, tym oczywiście większa jej trafność treściowa
współczynnik trafności treściowej:
; gdzie n to liczba sędziów, którzy określili daną pozycję jako zasadniczą, a N to ogólna liczba sędziów
eliminacja tych pozycji, dla których szansa, że zaobserwowana zgodność sędziów ma u swojego podłoża wyłącznie czynniki przypadkowe, jest większa niż 5%
Trafność kryterialna.
definicja kryterium - kryterium jest to pewne zachowanie czy właściwość, o której chcemy wnioskować na podstawie wyników danego testu, jest to zmienna pozatestowa oraz kryterium jest pomiarem innej zmiennej niż ta, którą bezpośrednio mierzy dany test
cechy kryterium - rzetelność (
); zmienna istotna (adekwatna) z punktu widzenia tego, co mierzy dany test; zmienna trafna z punktu celu pomiaru
kontaminacja (skażenie) kryterium - mamy z nią do czynienia wtedy, kiedy znajomość wyników, jakie uzyskała osoba badana w teście, może wpływać na ocenę wyniku tej osoby względem analizowanej zmiennej kryterialnej
współczynnik trafności kryterialnej - współczynnik korelacji między wynikami testu a wynikami zmiennej kryterialnej, zebranymi dla tej samej grupy badanych osób
- poprawka na obniżenie wartości współczynnika
Trafność teoretyczna.
analiza różnic międzygrupowych - jeżeli test jest trafną miarą określonego konstruktu, to wyniki testowe otrzymane przez osoby różniące się między sobą ze względu na ten konstrukt także powinny być różne
analiza macierzy korelacji - korelacje wyników ocenianego testu z wynikami testów mierzących podobne cechy powinny być wysokie, zaś korelacje z wynikami testów mierzące inne cechy powinny być niskie
analiza macierzy wielu cech-wielu metod Campbella i Fiskego:
pomiar dwóch lub więcej niezależnych cech za pomocą dwóch lub więcej niezależnych metod
sporządzenie macierzy korelacji dla wszystkich cech i wszystkich metod
wyniki korelują odpowiednio wysoko z wynikami podobnych testów (aspekt zbieżny trafności) i nie korelują z wynikami testów mierzących inne cechy (aspekt różnicowy trafności)
analiza czynnikowa - odnalezienie nowej grupy zmiennych, mniej licznej niż grupa zmiennych oryginalnych, które wyrażają to, co jest wspólne między oryginalnymi czynnikami
analiza struktury wewnętrznej testu - stopień, w jakim dany test można uznać za miarę jednego konstruktu; można ją traktować tylko jako dane uzupełniające wnioski o trafności teoretycznej testu
analiza współczynników korelacji między wynikiem każdej pozycji testu a ogólnym wynikiem w teście - poszukiwanie takich pozycji testowych, które różnicują badaną grupę osób w takim samym kierunku co cały test, i eliminowanie tych pozycji, które nie spełniają tego warunku
analiza zmian nieprzypadkowych wyników testu - porównanie wyników dwukrotnego badania tym samym testem; w przerwie między badaniami wprowadza się oddziaływanie eksperymentalne, wyprowadzone z teorii mierzonej cechy; wynik porównania powinien być zgodny z założonymi efektami manipulacji; wymaga starannego zaplanowania procedury eksperymentalnej
analiza procesu rozwiązywania testu - analizowanie zadań testowych z punktu widzenia procesów przetwarzania informacji
technika dekompresji Embretson - manipulowanie złożonością zadania, liczbą dostarczanych wskazówek, kolejnością prezentowania jego elementów po to, aby określić, jakie procesy przetwarzania informacji są zaangażowane w rozwiązywanie określonych zadań i jaka wiedzy jest w tym celu niezbędna
Stronniczość testu - systematyczne niedoszacowywanie lub przeszacowywanie parametru populacyjnego na podstawie danych z próby (błąd systematyczny); stałe zniekształcenie danych testowych:
W sensie statystycznym - stronniczość wpływa na wyniki testowania zawsze w stały sposób.
W sensie psychometrycznym - poszczególne pozycje testowe są mniej lub bardziej trudne dla osób należących do różnych wyodrębnianych podgrup.
Shepard, Camilli i Averil - stronniczość jest rodzajem braku trafności, który dotyka jedną grupę bardziej niż drugą.
Potencjalne źródła stronniczości testu.
niewłaściwa treść testu
pomiar różnych charakterystyk
zakłócenie trafności prognostycznej
język, w jakim test został sformułowany
niewłaściwa próba standaryzacyjne
różnice grupowe w średnim wykonaniu testu
niejednakowe konsekwencje społeczne
Stronniczość testu a trafność treściowa.
Pozycja testowa może zostać określona jako stronnicza treściowo, jeżeli udowodniono, że jest ona relatywnie trudniejsza dla członków jednej grupy w porównaniu z drugą, mimo że ogólny poziom zdolności obu grup pozostaje taki sam i w żaden sposób nie można racjonalnie wyjaśnić obserwowanych różnic w jakości odpowiedzi na tę pozycję.
pozycje testowe są stronnicze, ponieważ wymagają od członków grupy mniejszości odpowiedzi na takie tematy, z którymi nigdy nie miały szansy się zetknąć
pozycje testowe są stronnicze, ponieważ nieprawidłowo został skonstruowany klucz do ich oceny (członkowie grupy mniejszości są karani za dawanie odpowiedzi prawidłowych z punktu własnej kultury, a nieprawidłowych z punktu widzenia kultury autora testu)
pozycje testowe są stronnicze, ponieważ sposób sformułowania pytania jest tak obcy dla członków grupy mniejszości, że go nie rozumieją
Stronniczość testu a trafność kryterialna.
Test może zostać potraktowany jako stronniczy z punktu widzenia jego trafności prognostycznej, jeżeli wnioski uzyskiwane na podstawie wyników testowych nie są wyprowadzane z najmniejszym dopuszczalnym błędem lub jeżeli pojawił się stały błąd w przewidywaniu przyszłych zachowań badanych osób, będący wynikiem ich przynależności do określonej grupy.
nieobciążone stronniczością prognozy będą odzwierciedlały poziom osiągnięć właściwy dla danej grupy i będzie się to działo z jednakową dokładnością dla każdej z grup
w kontekście stronniczości rozważane są zazwyczaj dwie grupy wyników - wyniki zastosowania określonego testu psychologicznego oraz wyniki innych zmiennych pozatestowych, stanowiących kryterium przewidywania przyszłych zachowań
Stronniczość testu a trafność teoretyczna.
O istnieniu stronniczości z punktu widzenia trafności teoretycznej mówimy wtedy, kiedy test mierzy różne konstrukty psychologiczne w wypadku różnych grup lub gdy mierzy tę samą cechę, ale z różnym stopniem dokładności.
Techniki szacowania stronniczości testu - test stronniczy to test nietrafny kryterialnie.
wskaźnikiem stronniczości jest wielkość korelacji między wynikami testu a wybranymi miarami kryterium
test bezstronny powinien posiadać podobne korelacje z tymi samymi miarami kryterium dla wszystkich analizowanych grup
stronniczość testu jest operacyjnie definiowana jako nierówność linii regresji w dwóch wyodrębnionych grupach
Normy
Norma - powszechność, masowość, częstość występowania określonego zachowania (cechy) w populacji; zgodność z oczekiwaniami, konwencją, wzorami zachowań charakterystycznymi dla danej populacji; zgodność z zasadami obowiązującymi w danej populacji:
Kryterium teoretyczne - norma wyznaczona jest przez jakąś teorię (koncepcje) psychologiczną.
Kryterium kulturowe - normę określają przepisy i wzory kulturowe.
Kryterium statystyczne - normą jest to, co jest opisywanie jako zachowanie większości lub jako zachowanie średnie lub przeciętne.
Pojęcie normy w psychometrii:
Norma w sensie psychometrycznym - standard ilościowy, wyznaczony przez średnią, medianę lub inną miarę tendencji centralnej obliczonej dla grupy przedstawicieli danego gatunku. Norma nie oznacza standardu dobrego wykonania testu; norma opisuje poziom typowego wykonania testu przez osoby należące do określonej grupy. Ocena, jak badany wypada na tle innych osób
Znaczenie grupy odniesienia.
normy przedstawione w podręczniku testowym powinny zostać opracowane dla wyraźnie zdefiniowanych populacji; populacje te muszą odpowiadać tym grupom osób, z którymi badający testem będzie na ogół porównywał osoby badane
struktura próby osób badanych powinna, tak dalece jak to jest możliwe, odzwierciedlać strukturę populacji, dla której ten test jest przeznaczony
dobór warstwowy - podzielenie populacji na warstwy (grupy osób minimalnie różniących się od siebie pod względem wartości cechy będącej kryterium podziały na warstwy) i niezależne losowanie określonej liczby osób z każdej warstwy
dobór kwotowy - taki dobór próby, aby uzyskać maksymalne podobieństwo do wyjściowej populacji
w podręczniku testowym opis próby normalizacyjnej powinien być na tyle dokładny, aby badający testem umiał ocenić jej adekwatność, biorąc pod uwagę sposób, w jaki korzysta z testu
wielkość grupy odniesienia
aktualność
Normy ogólnokrajowe i lokalne.
wynik uzyskany w teście należy interpretować jako ocenę wykonania testu w określonych warunkach, a nie jako bezwzględną właściwość badanego, dającą się uogólniać na wszelkie inne okoliczności
Rodzaje norm ze względu na sposób ich konstrukcji:
Normy standardowe - przekształcenie wyników surowych uzyskanych w teście na wyniki standardowe.
wyniki standardowe mają M = 0 i s = 1
wyniki bardzo niskie: -2z i poniżej (ok. 2,27% populacji)
wyniki niskie: -1z do -2z (ok. 13,59% populacji)
wyniki przeciętne: -1z do +1z (ok. 68,26% populacji)
wyniki wysokie: +1z do +2z (ok. 13,59% populacji)
wyniki bardzo wysokie:+2z i powyżej (ok. 2,27% populacji)
jednostka nowej skali = s * z + M (dzięki temu 0 to początek skali, a nie jej środek)
skala T (M = 50, s = 10; od 0 do 100 pkt) - skala o największym zakresie, znakomicie nadaje się do różnicowania zarówno bardzo niskich, jak i bardzo wysokich wyników; kwestionariusz MMPI)
skala stenowa (M = 5,5, s =2; od 1 do 10 pkt) - Kwestionariusz Temperamentu PTS
skala staninowa (M = 5, s = 2; od 1 do 9 pkt) - powstała dla potrzeb armii USA (karty perforowane do komputerów zawierały tylko 9 pól); najkrótsza ze skal i dlatego nadaje się do testów, które są przeznaczone dla szeroko rozumianej normy; Kwestionariusz Temperamentu FCZ-KT
skala ilorazów inteligencji IQ (M = 100, s = 15)
skala tetronowa (M = 10, s = 4; od 0 do 20 pkt) - często stosowana w testach stosowanych w poradniach pedagogiczno-psychologicznych w Polsce
czym się kierować przy wyborze skali
cel testowania: dobre różnicowanie w zakresie patologii - skala musi obejmująca swym zasięgiem granice rozkłady normalnego; dobre różnicowanie w zakresie normy - skala obejmująca swym zasięgiem środek rozkładu normalnego
długość testu: krótkie testy - krótkie skale, długie testy - długie skale; dopasowanie skali wyników surowych do skali wyników przeliczonych, w innym wypadku istnieje ryzyko, że nie wszystkie wyniki standardowe znalazłyby odpowiednik w wynikach surowych
normalizacja rozkładu - poprawka na ciągłość (dla każdego wyniku)
krok 1:
- poprawiony rozkład kumulowany
krok 2:
- skumulowana proporcja
krok 3: z tablic dystrybuanty rozkładu normalnego odczytujemy wyniki z odpowiadające kolejnym p
krok 4: przeliczenie wyników z na wybraną skalę standardową
Normy rangowe.
centyl - punkt na skali, poniżej którego leży określony odsetek rozkładu
centyl 50 odpowiada medianie rozkładu
centyl - odsetek osób, które znajdują się poniżej jakiegoś punktu na skali
wynik procentowy - wynik surowy, dotyczący poprawnie rozwiązanych zadań
wady skali centylowej - nie odzwierciedla kształtu rozkładów wyników surowych (posiada rozkład prostokątny); jeśli rozkład wyników surowych jest rozkładem normalnym, to prowadzi do przeceniania wielkości różnic w środku rozkładu i niedoceniania ich na jego krańcach; nie odzwierciedla względnych różnic między osobami (jednakże dobrze odzwierciedla uporządkowanie osób badanych w grupie normalizacyjnej)
siatka centylowa - centyle są tak rozmieszczone, aby odpowiadały równym odległościom w rozkładzie normalnym
Konstruowanie testu - strategia racjonalna
Strategia racjonalna - punktem wyjścia jest teoria mierzonej cechy (opisana poniżej).
Strategia empiryczna - rozpoczynamy od dowolnej puli pytań i poszukujemy empirycznie potwierdzonych różnic między odpowiednio dobranymi grupami kontrolnymi; kryterium zakwalifikowania twierdzeń do ostatecznej skali jest związek między kryterium podziały na grupy a treścią twierdzeń.
Etap 1.
Zdefiniowanie mierzonej właściwości i jej operacjonalizacji
Etap 2.
Określenie formatu bodźca i formatu odpowiedzi
Etap 3.
Generowanie pozycji testowych
Etap 4.
Analiza językowo-treściowa pozycji
Etap 5.
Ustalenie klucza odpowiedzi
Etap 6.
Badanie pilotażowe
Etap 7.
Obliczenie wybranych wskaźników statystycznych dla wszystkich pozycji testu
Etap 8.
Zbudowanie ostatecznej wersji testu
Dodatkowo
Zbyt mała ilość pozycji spełnia założone warunki - powrót do etapu 3.
Od czego zaczynamy:
Określenie celu pomiaru.
Procedura operacjonalizacji.
operacjonalizacja - procedura wiązania terminów teoretycznych (odnoszących się do nieobserwowalnych właściwości zdarzeń i obiektów) z terminami obserwacyjnymi (oznaczającymi obserwowalne właściwości i relacje)
zabieg operacjonalizacji - zbiór procedur pozwalających badaczowi na powiązanie mierzonej cechy z konkretnym zbiorem obserwacji; zabieg określający, co należy zrobić i co należy obserwować, żeby badane zachowania można było potraktować jako wskaźniki mierzonej cechy psychologicznej
Zasada budowania pozycji testowych:
Format otwarty.
pozycje do uzupełnienia - odpowiedź prawidłowa powinna się dać wyraźnie określić
pozycje wymagające krótkiej wypowiedzi
pozycje, na które odpowiedź ma formę opowiadania
Format zamknięty.
pozycje alternatywne - prosty język, brak sformułowań w postaci przeczeń
pozycje z wieloma opcjami do wyboru (jedno- lub wielokrotnego) - możliwości odpowiedzi gramatycznie równoważne i podobnej długości, zgodne gramatycznie z trzonem, dystraktory nie powinny być dziwacznie sformułowane
pozycje z dopasowywaniem - obie listy stosunkowo krótkie, lista odpowiedzi bez zbyt długich wyrażeń, pojedyncze zadania powinno dotyczyć jednego pojęcia lub obszaru pojęciowego, lista odpowiedzi nie powinna być tej samej długości co liczba bodźców, wszystkie zadania powinny być poprawne gramatycznie
pozycje w formacie skali Likerta (kategorie odpowiedzi typu całkowicie się zgadzam/zgadzam się/trudno powiedzieć/nie zgadzam się/całkowicie się nie zgadzam)
dwubiegunowe skale przymiotnikowe
Analiza zadań:
Analiza językowo-treściowa.
analiza językowa (przeprowadzana przez językoznawców) - pozycja testowa nie powinna być zbyt długa; powinna być raczej zbudowana ze zdań prostych, nie złożonych; powinna być sformułowana w trybie oznajmującym; stosowany język powinien być prosty; powinna być napisana językiem dostosowanym do kompetencji językowych badanych osób; nie powinna zawierać wielu określeń czasowych
analiza treściowa - czy wszystkie pozycje testowe można traktować jako operacjonalizację mierzonej cechy oraz czy pozycje testowe reprezentują uniwersum zachowań ważnych z punktu widzenia tej cechy
Badanie pilotażowe.
powinno zostać przeprowadzone na tej grupie osób, dla której test jest przeznaczony
liczebność grupy: 5-10 na każdą pozycję, nie mniej niż 100
przy stosunkowo długich testach możliwe jest podzielenie go na części i zbadanie każdą częścią innej grupy
powinno przebiegać w takich samych warunkach, w jakich test będzie stosowany
Wskaźnik trudności.
(im wyższy, tym zadanie łatwiejsze)
Najlepsze są te pozycje, których trudność oscyluje wokół 50%. Jeśli jednak pozycje są ze sobą skorelowane, to zaleca się użycie pozycji o różnych wskaźnikach trudności, których średnia powinna wynosić ok. 50%. Zróżnicowanie powinno być tym większe, im większa jest korelacja między pozycjami. Przy stosowaniu testu w celu selekcyjnym, owy średni poziom trudności powinien być niższy.
problem zgadywania (format zamknięty)
model losowego zgadywania - założenie, że osoby badane nie dysponują żadną wcześniejszą wiedzą i że odpowiadają w sposób całkowicie losowy
- wskaźnik trudności poprawiony ze względu na zgadywanie (p - proporcja osób faktycznie znających odpowiedź; q - proporcja osób zgadujących odpowiedź; m - liczba kategorii do wyboru; p = q = 0,5)
wartości średniego wskaźnika trudności testu dla różnych formatów odpowiedzi: format otwarty - 50%; pięć kategorii do wyboru - 70%; cztery - 74%; trzy - 77%; dwie - 85%
poprawka na zgadywanie - wymaga założenia, że wszystkie kategorie odpowiedzi mają jednakowe prawdopodobieństwo wyboru
(C - poprawiony wynik; R - liczba odpowiedzi poprawnych; F - liczba odpowiedzi niepoprawnych; m - liczba kategorii odpowiedzi)
(R - liczba osób, które rzeczywiście umiały rozwiązać zadanie; fi - liczba osób, które podały prawidłowe odpowiedzi; m - liczba kategorii odpowiedzi)
Współczynnik mocy dyskryminacyjnej - stopień, w jakim dana pozycja testowa różnicuje badaną populację w zakresie zachowania, które dany test ma mierzyć.
pozycja testowa o dodatniej mocy dyskryminacyjnej jest częściej rozwiązywana przez osoby badane o wysokich wynikach ogólnych w teście, a więc różnicuje te osoby w zgodzie z innymi pozycjami testu, i tym samym zwiększa wariancję wyników testowania
pozycja testowa o ujemnej mocy dyskryminacyjnej jest częściej rozwiązywana przez osoby badane o niskich wynikach ogólnych w teście, a więc różnicuje te osoby przeciwnie niż inne pozycje testu, i tym samym zmniejsza wariancję wyników testowania
wskaźnik dyskryminacji - tylko w wypadku pozycji dwukategorialnych; wymaga ustalenia punktu podziału osób badanych na dwie grupy (dolną, o niskich wynikach ogólnych, i górną, o wysokich wynikach ogólnych); najoptymalniejszym punktem podziału jest wyodrębnienie po 27% badanych osób na obu krańcach kontinuum; daje dobre oszacowanie mocy dyskryminacyjnej (mimo prostoty), nieznany jest kształt jego rozkładu z próby (nie możemy określić, jak duża wartość D jest statystycznie istotna)
(pu - proporcja odpowiedzi poprawnych w górnej grupie badanych; pi - proporcja odpowiedzi poprawnych w dolnej grupie badanych)
D = -1 - pozycja idealnie różnicuje w przeciwnym kierunku niż wynik ogólny)
D = 1 - pozycja idealnie różnicuje w tym samym kierunku co wynik ogólny)
D >= 0,40 - pozycję włączamy do testu
0,30 =< D =< 0,39 - pozycja wymaga niewielkich zmian
0,20 =< D =< 0,29 - pozycja ma znaczenie marginesowe i wymaga poważnych zmian
D =< 0,19 - pozycja powinna zostać wyeliminowania lub całkowicie zmieniona
korelacyjne współczynniki mocy dyskryminacyjnej - analiza korelacji między wynikiem danej pozycji testowej a ogólnym wynikiem w teście; najwyższe oszacowanie mocy dyskryminacyjnej daje rb, a najniższe phi; phi jest najlepsze, jeśli interesuje nas stworzenie testu zawierającego średnio trudne pozycje
współczynnik korelacji dwuseryjnej
założenia - 1. rozkład wyników cechy mierzonej daną pozycję jest de facto zmienną ciągłą o rozkładzie normalnym, a jedynie niedoskonałość narzędzia pomiarowego sprawia, że jest to zmienna dyskretna; 2. rozkład ogólnych wyników w teście też jest rozkładem normalnym
(Xp - średni wynik ogólny w tej grupie osób, które odpowiedziały diagnostycznie na daną pozycję; X - średni ogólny wynik w teście; sX - odchylenie standardowe ogólnych wyników w teście dla całej grupy; p - proporcja odpowiedzi diagnostycznych na daną pozycję; y - rzędna rozkładu normalnego w punkcie podziału między proporcjami p i q)
- istotność współczynnika rb
współczynnik korelacji punktowo-dwuseryjnej
założenia - 1. rozkład wyników cechy mierzonej przez daną pozycję jest zmienną dyskretną (dwukategorialną); 2. rozkład ogólnych wyników w teście jest rozkładem normalnym
(Xp - średni wynik ogólny w tej grupie osób, które odpowiedziały diagnostycznie na daną pozycję; X - średni ogólny wynik w teście; sX - odchylenie standardowe ogólnych wyników w teście dla całej grupy; p - proporcja odpowiedzi diagnostycznych na daną pozycję; q - proporcja odpowiedzi niediagnostycznych
- istotność współczynnika rpb
współczynnik korelacji punktowo-czteropolowej
założenia - wynik pozycji testowej i ogólny wynik w teście są traktowane jak zmienne dwukategorialne
(pg - proporcja osób, które odpowiedziały zgodnie z kluczem w górnej grupie; pd - proporcja osób, które odpowiedziały zgodnie z kluczem w dolnej grupie; p - proporcja osób, które odpowiedziały zgodnie z kluczem w całej grupie; q - proporcja osób, które odpowiedziały niezgodnie z kluczem w całej grupie)
- istotność współczynnika phi
czy przy obliczaniu współczynnika korelacji między wynikami danej pozycji a ogólnym wynikiem w teście wynik analizowanej pozycji powinien zostać wyłączony z wyniku ogólnego - tak
jak powinien wyglądać dobór pozycji testowych ze względu na rzetelność i trafność końcowej wersji testu - łączenie testów homogenicznych (o wysokiej rzetelności, więc z pozycjami o wynikach najbardziej korelującymi z wynikiem ogólnym) w heterogeniczne baterie
analizowanie różnic między skrajnymi grupami
Rzetelność i trafność pozycji testowej.
współczynnik trafności pozycji (chcemy zbudować test o maksymalnej trafności kryterialnej)
(rik - wielkość korelacji między wynikami danej pozycji testowej a wynikami zmiennej kryterialnej; si - odchylenie standardowe wyników w danej pozycji)
współczynnik rzetelności pozycji (chcemy zbudować test maksymalnie homogeniczny)
(rik - wielkość korelacji między wynikami danej pozycji testowej a wynikami ogólnymi; si - odchylenie standardowe wyników w danej pozycji)
związek między rzetelnością a trafnością pozycji
- trafność kryterialna
maksymalizacja trafności kryterialnej - wybór pozycji, dla których stosunek trafności i rzetelności będzie jak najwyższy
Analiza zadań w testach szybkości.
nie ograniczać analizy tylko do pozycji, na które odpowiedziały wszystkie osoby badane, gdyż współczynniki dla każdej pozycji będą się różnić
przeprowadzenie badania pilotażowego bez limitu czasów, ale ustalenie norm z limitami
Analiza zadań w testach zorientowanych na kryterium.
wrażliwość na instrukcję (obliczamy, kiedy stopień rozumienia instrukcji wchodzi w zakres mierzonej cechy) -
(ppost - proporcja osób, które odpowiedziały poprawnie po podaniu instrukcji; ppre - proporcja osób, które odpowiedziały poprawnie przed podaniem instrukcji)
dobór pozycji testowych w testach zorientowanych na kryterium
zdefiniowanie przedmiotu pomiaru
określenie formatu pozycji testowej i przygotowanie instrukcji dla osób generujących pozycje testowe
opracowanie odpowiednio licznej wyjściowej puli pozycji
stworzenie zespołu sędziów-ekspertów oceniających pozycje testowe
ocena poziomu wszystkich pozycji testowych pod kątem ich poprawności językowej
ocena wszystkich pozycji testowych pod kątem ich trafności treściowej
wyeliminowanie pozycji nie spełniających zakładanych kryteriów
powrót do opracowania..., jeżeli w wyniku analizy zostało za mało pozycji
Stronniczość pozycji testowych.
Ostateczna rewizja testu - walidacja krzyżowa:
Walidacja krzyżowa - ocena trafności testu na innej próbie niż ta, która była podstawą selekcji pozycji.
Podwójna walidacja krzyżowa - wykorzystanie jednej grupy do selekcji pozycji, a drugiej do ich walidacji krzyżowej i na odwrót (drugiej do selekcji pozycji, a pierwszej do ich walidacji krzyżowej).
Kurczenie trafności - obniżenie się (ze względu na działanie czynników losowych) wskaźników trafności pozycji wybranych do ostatecznej wersji testu (nieuchronna konsekwencja walidacji krzyżowej).
im większa była wyjściowa pula pozycji i im mniej pozycji z niej pozostało, tym większe będzie zmniejszenie trafności (sprzyja to bowiem działaniu przypadkowych różnic i zwiększa wskaźnik trafności)
im większa próba, tym łatwiej o uzyskanie wysokich wskaźników trafności, wraz ze zmniejszaniem się próby w badaniach krzyżowych maleć też będą wskaźniki trafności
jeśli pozycje testowe dobiera się na podstawie wcześniej sformułowanych hipotez wynikającej z teorii teoretycznej lub empirii, spadek trafności będzie mniejszy