Zestaw nr 1:
1. Test psychologiczny i jego pożądane własności.
Narzędzie do pomiaru modalnych cech zachowania
TEST PSYCHOLOGICZNY - POWTÓRZENIE I UZUPEŁNIENIE
• Jest narzędziem diagnostycznym/badawczym
- posługiwanie się nim musi być uzasadnione celem postępowania diagnostycznego/badawczego oraz musi wynikać z wysuniętych hipotez diagnostycznych/badawczych
• Jest zazwyczaj zbiorem różnorakich itemów (zadań, pytań, rysunków, słów, symboli itp.),
które umożliwiają uzyskanie (pobranie) pewnej próbki zachowań. Na podstawie tej
próbki można wnioskowań - w oparciu o określone założenia: (a) teoretyczne i (b) psychometryczne - o zachowaniu się osoby badanej w sytuacjach pozatekstowych
ZACHOWANIA TESTOWE (CZYLI REAKCJE BADANEGO NA ITEMY TESTU)
MAJĄ WSKAZYWAD NA NATĘŻENIE PEWNEJ OKREŚLONEJ WŁAŚCIWOŚCI MODALNEJ (ZMIENNEJ)
• Musi dostarczać reguł obliczania wartości mierzonej zmiennej. W związku z tym musi być oparty na określonej teorii psychologicznej oraz na odpowiednim modelu psychometrycznym
- w przypadku testów wykorzystywanych w praktyce diagnostycznej zazwyczaj wciąż jest to
Klasyczna Teoria Testów
• Zachowania testowe nie zawsze muszą ściśle przypominać zachowań, o których wnioskuje się na podstawie testu, jednak należy wykazać, że istnieje pomiędzy nimi określony związek
• Teoretyczny model mierzonej zmiennej musi być spójny z modelem interpretacji wyniku testowego
• Interpretacja treściowa wyniku testowego musi uwzględniać wnioski z jego interpretacji formalnej
Musi spełniać określone kryteria formalnej dobroci, takie jak:
• obiektywność - niezależność wyników testowych od tego kto, gdzie i kiedy dokonuje ich oceny
• standaryzacja - jednolitość reguł badania testem oraz procedur obliczania i interpretowania wyników
• rzetelność - precyzja pomiaru i stabilność uzyskiwanych rezultatów
• trafność - dokładność, z jaką test realizuje założone cele pomiarowe, czyli mierzy to, do
pomiaru czego został przeznaczony
• normalizacja - wyposażenie testu w statystyczne kryteria interpretacji wyniku testowego (normy), stanowiące układ odniesienia, z którym będzie można porównywać wynik indywidualny
• adaptacja kulturowa (w przypadku testów zagranicznych) - przystosowanie oryginalnego
testu do nowych warunków kulturowych
Standaryzacja procedury badania testem (wybór najważniejszych dezyderatów)
• Wskazówki dotyczące badania testem powinny być przedstawione na tyle jasno i wyraźnie, aby każdorazowo można było powtarzać sposób badania zastosowany przy ustalaniu norm
• W szczególności instrukcja powinna określać takie kwestie, jak limity czasowe, możliwość
powrotu do poprzednich itemów, kolejność itemów i testów, zakres pomocy udzielanej badanemu
• Stosując test należy dokładnie przestrzegać wszystkich zasad i procedur opisanych w podręczniku
• Jeżeli autorzy testu dopuszczają możliwość rozszerzania lub uszczegółowiania instrukcji
przedstawionej w podręczniku, to muszą być określone warunki, w jakich postępowanie to jest dopuszczalne
• Należy okresowo sprawdzać materiał testu, wyposażenie oraz stosowaną procedurę
Dobry test powinien
• Mieć autora, a test zagraniczny mieć również autora adaptacji
• Posiadać oryginalny komplet pomocy testowych oraz oryginalne arkusze odpowiedzi, a także ich opisy
• Być odpowiednio zabezpieczony przed możliwością posłużenia się nim przez osoby nieuprawnione
• Podlegać wyłącznie legalnej dystrybucji
• Mieć podręcznik
2. Składniki wariancji całkowitej wg Chojnowskiego (1971) (niektóre oznaczenia - Z.S.)
• „test” - związana z narzędziem (reprezentatywność itemów, jednolitość obszaru zachowania)
• „egz” - związana z osobą badającą (testorem)
• „proc” - związana z procedurą badania
• „syt” - związana z sytuacją badania
• „org” - związana z czasowym stanem organizmu badanego
• „osc” - związana z chwilowymi oscylacjami procesów psychicznych
• „sub.oc” - związana z niepełną standaryzacją kryteriów oceny zachowań testowych (niepełną obiektywnością testu)
• „resz” - związana z błędami w obliczaniu, zgadywaniem i innymi losowymi czynnikami
Wariancja to wielkość zróżnicowania otrzymanych wyników wokół ich wartośći średniej. Wariancja opisuje nam wielkość błędu, jaki popełniamy wtedy, kiedy średni wynik traktujemy jako dobre odzwierciedlenie wszystkich wyników indywidualnych. Wariancję możemy traktować jako miarę popełnionego błędu. Mała wariancja wskazuje, że średni wynik dobrze odzwierciedla wyniki indywidualne, duża wariancja zaś wskazuje, że wartości średniej nie można traktować jako rzetelnej miary wyników indywidualnych. Znając wielkość wariancji możemy wyciągać wazne wnioski dotyczące wielkości błędu, czyli wnioski dotyczące rzetelności testu.
W psychometrii różne źródła wariancji wynikają z różnych cech sytuacji testowania.
3. System relacyjny w teorii pomiaru.
Elementy(empiryczne lub formalne) tworzące pewien zbiór U oraz relacje
Rp ..., Rn pomiędzy nimi. Czasami w zbiorze U wyróżnia się podzbiory tego zbioru, w szczególności jednoelementowe
-- zbiór U to uniwersum (dziedzina, pole) systemu relacyjnego
-- relacje pomiędzy elementami zbioru U, a także jego podzbiory to charakterystyka (pola) systemu relacyjnego
-- formalnie: system relacyjny S jest skończonym ciągiem o postaci:
S = (U, R1, …, Rn)
Empiryczny system relacyjny α - struktura, której dziedziną jest zbiór konkretnych obiektów lub ich cech
α = {A,›,°}
A - uniwersum systemu relacyjnego
› - relacja wyprzedzania
° - operacja konkatenacji(działanie może być ujmowane jako specjalny rodzaj relacji)
Formalny, w szczególności - numeryczny(liczbowy) system relacyjny β - struktura, której dziedziną jest zbiór liczb rzeczywistych (lub jego podzbiór właściwy)
Β = {R,>,+}
R - uniwersum systemu relacyjnego
- relacja większości
+ - operacja dodawania(działanie może być ujmowane jako specjalny rodzaj relacji)
Zmienna ilościowa jako struktura
-dziedzina badań = empiryczny system relacyjny(poklasyfikowane i ustrukturalizowane jako obiekty i relacje pomiędzy nimi surowe wyniki doświadczenia)= zmienna(ilościowa)
-inaczej cecha modalna, tzn. mogąca przysługiwać w różnym stopniu
-reprezentowanie α przez β = funkcja skalująca (inaczej funkcja pomiarowa)
Zestaw nr 3:
1. Wymień wszystkie błędy standardowe używane w psychometrii (po odp na to pyt
pow, żebym omówiła 3 z nich).
Z wykładu:
Standardowy błąd pomiaru (Se, SEM)
Standardowy błąd pomiaru skorelowany z wynikiem prawdziwym [ Se(T), SEM(T) ]
Standardowy błąd estymacji wyniku prawdziwego (SEE)
Standardowy błąd różnicy (SED)
Standardowy błąd prognozy (SEP)
Standardowy błąd zastąpienia (SES)
Wg Brzezińskiego:
standardowy błąd pomiaru wyniku otrzymanego (SEM)
standardowy błąd pomiaru wyniku prawdziwego
standardowy błąd estymacji wyniku prawdziwego (SEE)
standardowy błąd prognozy (SEP)
standardowy błąd zastąpienia (SES)
Opis:
SEM - standardowy błąd pomiaru
Odchylenie standardowe obserwowanych wyników testowych jednostki , otrzymane w powtarzanych badaniach tym samym testem(lub równoległymi formami testu) w identycznych warunkach. Ponieważ zazwyczaj danych indywidualnych nie da się otrzymać są one szacowane na podstawie danych grupowych.
Niektóre istotne właściwości SEM:
1) Me= 0
(czyli jest losowy, niesystematyczny)
2) reT= 0
(czyli jest taki sam dla wszystkich wyników uzyskanych w danym teście)
3) Nie zależy od rozkładu mierzonej cechy w próbie.
SEE - standardowy błąd estymacji wyniku prawdziwego
SEE = SEM√rtt
SEE jest różnicą między estymowaną przez badacza wartością wyniku prawdziwego a jego rzeczywistą wartością.
Jest to błąd powstały na skutek niedokładności odtworzenia faktycznej wartości wyniku prawdziwego.
SEE jest odchyleniem standardowym rozkładu z próby różnicy „X' - X”.
SEP - standardowy błąd prognozy
SEP = SEM √1+rtt
SEP związany jest z formułowaniem prognozy wyniku testu równoległego na podstawie wyniku danego testu. Ten błąd, to różnica owych dwóch wyników.
SES - standardowy błąd zastąpienia
SES = SEM √2
Z błędem zastąpienia SES mamy do czynienia wówczas, gdy dokonując prognozy wyniku otrzymanego w jednym teście równoległym na podstawie wyniku otrzymanego w drugim teście zakładamy, że wynik w teście równoległym jest równy wynikowi w drugim teście. SES jest więc różnicą: wyniku w teście drugim a wynikiem w teście równoległym. Jest on odchyleniem standardowym rozkładu z próby owych różnic.
3. Psychologiczne i psychometryczne zastosowanie komputerów do testów psychologicznych.
Zastosowanie komputerów może ułatwić wypełnianie kwestionariuszy i obliczanie wyników. Odpowiedni skrypt, napisany w którymś z komputerowych języków, może wyręczyć badacza i za niego podsumować uzyskane punkty, a następnie w odpowiedzi wygenerować przygotowaną wcześniej interpretację. W ten sposób przenosi się do komputera istniejące już wcześniej papierowe testy, by ułatwić pracę badacza, lub umożliwić osobom zainteresowanym samodzielne wypełnianie testów. Wypełnianie niektórych rodzajów testów na papierze byłoby bardzo trudne, czasochłonne - łatwo mogliby się pogubić zarówno badacze jak i badani (Poprawnie napisany skrypt w którymś z komputerowych języków eliminuje te trudności bo, np. przejście od jednego ekranu do drugiego jest płynne i trwa ułamki sekund).
Komputer otwiera też zupełnie nowe możliwości obliczania wyników. Proste sumowanie punktów, znane z papierowych testów, jest tu najbardziej banalną operacją. Komputerowe skrypty mogą wykonywać wszystkie operacje matematyczne: dodawanie, odejmowanie, mnożenie, dzielenie oraz kombinacje wielu z nich, a następnie zaokrąglanie wyników do określonego miejsca po przecinku. Skrypty mogą także wykonywać działania logiczne, jak alternatywa, czy koniunkcja, oraz wykonywać żądane operacje w zależności od zadanych warunków: „jeśli zostanie spełniony warunek a, to wykonaj działanie x, jeśli zostanie spełniony warunek b, to wykonaj działanie y, w przeciwnym wypadku wykonaj działanie z”.
Zastosowanie komputerowych testów pozwala unikać zbędnych pytań (które już po pierwszym pytaniu są niepotrzebne)
Testy stosowane w wersji komputerowej wymagają specjalnego wyposażenia Dlatego traktowania. Dlatego należy:
Do zadań dołączyć dodatkowy pakiet przykładowych zadań, aby mieć pewność, że badany potrafi się posługiwać niezbędnym sprzętem,
W ramach standaryzacji - należy zapoznać badanych z materiałem bodźcowym, który może im być nieznany,
Należy stworzyć badanym odpowiednie warunki, tak by nabrały wprawy w posługiwaniu się określonym wyposażeniem (chyba, że stopień umiejętności posługiwania się takim sprzętem jest celem testowania) - możliwość poćwiczenia korzystania z nich, aby nabrać wprawy,
Testy są często administrowane przez komputer, odpowiedzi udziela się za pomocą klawiatury komputerowej, myszki lub innych podobnych urządzeń. Trzeba poinstruować badanych w razie kłopotów (dotyczy to szczególnie osób niewprawionych),
Nawet te osoby, które na co dzień posługują się sprzętem komputerowym, powinny poznać niektóre szczegóły procedury badania - trening w odpowiadaniu na te zadania które są dla nich nowe,
Jeśli osoba badana nie potrafi korzystać z urządzeń lub nie jest w stanie udzielić odpowiedzi, to należy rozważyć zastosowanie innej metody badania testem,
Ważną rolę może odgrywać oświetlenie pokoju, tak by źródła światłą nie odbijały się na ekranie monitora, (inne czynniki zakłócające to hałas, zakłócenia pracy, skrajne temperatury, ograniczone miejsce do pracy, itp.)
Zadbanie o ciszę (osoby badane pracują niezależnie, a każda kończy test w innym czasie niż siedząca obok),
Czasami interpretacje wyników testowych są generowane przez komputer - wymagają one potwierdzenia trafności, jeśli interpretacje komputerowe są przedstawiane przez profesjonalistę w połączeniu z komentarzem dotyczącym specyficznych okoliczności,
Zestaw nr 4:
1. Estymacja punktowa i przedziałowa wyniku prawdziwego
Przedziałowa- oparta na idei budowania przedziałów< jak na zajęciach>
Budujemy sobie przedział w którym z odpowiednik prawdopodobieństwem znajduje się wynik prawdziwy danej osoby. Do budowy musimy znać:
-wynik otrzymany w teście
- współczynnik rzetelności testu <rtt>
- błąd standardowy
Punktowa- przeprowadza się ja z wykorzystaniem regresji liniowej < w efekcie dostajemy konkretny wynik nie cały przedział>
Do budowy potrzebujemy:
-wynik otrzymany
-rzetelność testu < rtt>
-średnia wyników otrzymanych w teście z danej badanej próby
2. Jak sprawdzić treściową trafność testu (to coś z Hornowskiej ponoć było) . str 87
Test jest trafny gdy wszystkie pozycje tego testu należą do zdefiniowanego uniwersum i gdy cały test proporcjonalnie reprezentuje zdefiniowane uniwersum. Można przeprowadzić analizę logiczną treści testu. Dysponując definicją uniwersum poprosić sędziów-ekspertów o ocenę stopnia w jakim każda pozycja reprezentuje to uniwersum. Istnieje ilościowa metoda obliczania zgodności ocen sędziów. Każdy sędzia wyraża swoją opinię o pozycji testowej na skali:
- pozycja ma zasadnicze znaczenie dla testu
- pozycja jest użyteczna, ale nie ma zasadniczego znaczenia dla testu
- pozycja nie powinna znaleźć się w teście
Jeżeli ponad połowa uzna pozycję za istotną dla testu można ją uznać za trafną treściowo.
Zestaw nr 5
1. Kombinacje liniowe wyników testowych: selekcja wielokrotna.
2. Stronniczość testów.
3. SEM - zastosowanie, właściwości (coś tam jeszcze, ogólnie całe SEM wytłumaczyć).
Odp.2 (Hornowska str. 100-107) Doliński 854
Mówiąc kolokwialnie stronniczość to swego rodzaju „przychylność” zastosowanego danego narzędzia pomiarowego wobec pewnych grup osób. Zaczęto się nad stronniczością zastanawiać już w 1905 roku (Binnet) ponieważ powstawały różnice w wynikach testowych badanych osób, wynikające przypuszczalnie z przynależności do różnych warstw społecznych.
Stronniczość testu, występuje wtedy i tylko wtedy, gdy dana grupa osiąga niższe wyniki w teście, a nie osiąga niższych wyników w kryterium.
Zatem stronniczość to nietrafna różnica grupowa - test diagnozuje różnice nieobiektywne, nieistniejące lub nie mające znaczenia dla danego kryterium.
O stronniczości pozycji testowych mówimy zatem wtedy, gdy prawdopodobieństwo udzielenia prawidłowej odpowiedzi na daną pozycję testową jest różne dla osób o tej samej wartości mierzonej cechy, a pochodzących z różnych grup należących do tej samej populacji.
Stronniczość testu psychologicznego to błąd systematyczny
- w sensie statystycznym oznacza to tyle, że stronniczość wpływa na wyniki testowania zawsze w stały sposób;
- w sensie psychometrycznym natomiast, stronniczość wyraża się w tym, że poszczególne
pozycje testowe są mniej lub bardziej trudne dla osób należących do różnych wyodrębnianych podgrup (na przykład ze względu na wiek, czy płeć) w ramach tej samej populacji.
Uczciwość to termin odnoszący się do strony etycznej testowania.
- Pojęcie uczciwości, społecznej sprawiedliwości i jednakowej ochrony przez prawo to pojęcia moralne i prawne i w tym sensie należy je odróżniać od pojęcia stronniczości testu,
traktowanej jako cecha testu.
"Uczciwego" stosowania testu nie należy zatem utożsamiać z jego cechą formalną - tj. stronniczością
Czynniki, ze względu na które test może być stronniczy:
- wiek
- płeć
- rasa
- klasa społeczna
- narodowość
- religia
Wiek
- Test jest zwykle przeznaczony do badania odpowiedniej populacji (dzieci, młodzież, dorośli).
- Próba zmiany przeznaczenia testu pod tym względem wymaga dostosowania samego testu, nieraz nawet ingerencji na poziomie pozycji.
- Zazwyczaj adaptacja testu do różnych grup wieku polega na tworzeniu odrębnych wersji
wiekowych testu oraz w najprostszej postaci - na tworzeniu norm wiekowych.
Płeć
- Testy często faworyzują jedną z płci (zwykle mężczyzn)
- Testy powinny być opracowywane tak by czynnik ten neutralizować, a więc mieć wbudowane procedury decentracji - zawierać podtesty neutralne albo w równych proporcjach skale faworyzujące i dyskryminujące daną płeć.
- Jeśli test wykazuje różnice płciowe, to stronniczości można uniknąć wprowadzając
odrębne normy.
Rasa
- analogicznie jak dla płci
- badania dowiodły, że testy są w tym aspekcie trafne - oddają faktyczne różnice np. w kryteriach powodzenia zawodowego
Klasa społeczna
(status społeczno-ekonomiczny)
- dostępne dane wskazują, że testy są trafne, bo oddają faktyczne różnice w powodzeniu
szkolnym, zawodowym i społecznym pomiędzy klasami.
Przyczyny stronniczości testu:
Niewłaściwa treść testu - brak trafności treściowej testu
Pomiar różnych charakterystyk - ten sam test może mierzyć odmienne charakterystyki (wielkości psychologiczne), jeżeli stosowany jest w stosunku do osób pochodzących spoza kultury, która była źródłem pozycji testowych. Test jest zatem trafny teoretycznie w stosunku do osób należących do jednej kultury, a nietrafny w stosunku do osób spoza owej kultury
Zakłócenia trafności prognostycznej - test może umożliwiać dokonywanie dobrych prognoz w stosunku do grup większości, lecz nie pozwalać na skuteczne przewidywanie analogicznych zachowań w stosunku do członków grup mniejszości. Tym samym decyzje podejmowane na podstawie wyników testowych mogą być obciążone błędem stronniczości zawsze wtedy, gdy badania walidacyjne nie są pełne
Język w jakim test został sformułowany - osoby poddane badaniu testowemu w języku innym niż własny generalnie uzyskują niżesz wyniki
Niewłaściwa próba standaryzacyjna - jeżeli w próbie standaryzacyjnej nie są reprezentowane wszystkie grupy , które mogą być badane określonym testem, to test należy uznać za stronniczy w stosunku do tych grup, które nie zostały w próbie standaryzacyjnej uwzględnione
Różnice grupowe w średnim wykonaniu testu - każda różnica wykonania testu przez 2 grupy różniące się płcią, pochodzeniem, rasą jest traktowana jako dowód stronniczości testu
Niejednakowe konsekwencje społeczne - w efekcie stosowania stronniczego testu decyzje podejmowane na podstawie jego wyników (dotyczące np. przyszłości kształcenia osoby) mogą być niekorzystne w stosunku do członków grup mniejszości - którzy i tak przez przynależność do tych grup mieli mniejsze możliwości, co pogłębia istniejące nierówności społeczne.
Odp. 3 (wykład + Brzeziński)
SEM - standardowy błąd pomiaru
Def. - odchylenie standardowe rozkładu różnic wyniku otrzymanego i wyniku prawdziwego
(tj - Tj). Jest to błąd, który popełniamy, kiedy zakładamy, że wynikiem prawdziwym danej osoby jest średni wynik, jaki uzyskałaby ona w nieskończenie wielu pomiarach tym samym testem (czyli mówiąc to samo nieco inaczej - SEM to odchylenie standardowe rozkładu błędów, które popełniamy wtedy, kiedy zakładamy, że wynikiem prawdziwym danej osoby jest średni wynik jaki uzyskałaby ona w nieskończenie wielu pomiarach tym samym testem). SEM ma rozkład normalny.
Istotne właściwości SEM są następujące:
- Me = 0, czyli błąd jest losowy, niesystematyczny
- reT = 0, czyli błąd jest taki sam dla wszystkich wyników uzyskiwanych w danym teście
- Błąd nie zależy od rozkładu mierzonej cechy w próbie
SEM jest powszechnie wykorzystywany do estymacji przedziału ufności wokół wyniku otrzymanego, tą operację wykorzystuje się, kiedy wartość współczynnika rzetelności (rtt) jest większa od 0,80 (kiedy jest mniejsza od 0,70 to stosuje się estymację punktową wyniku prawdziwego z zastosowaniem SEE).
Odp. 1 - Nie mam nawet pojęcia, gdzie szukać odpowiedzi na to pytanie……
Zestaw nr 7:
1. Rodzaje norm, podział norm w psychometrii.
Norma to pewien typowy poziom wykonania testu przez określoną grupę odniesienia.
Normy to statystyczne kryteria interpretacji wyniku testowego.
Ustalenie tablic normalizacyjnych na podstawie wyników badania grupy normalizacyjnej jest niezbędne do interpretacji wyników otrzymanych przez poszczególne osoby badane.
Normy powinny być opracowane dla wyraźnie zdefiniowanych populacji. Należy odnosić wynik osoby tylko do norm właściwych dla osoby badanej.
Ze względu na sposób definiowania grupy odniesienia będziemy mówić o normach:
- ogólnokrajowych
- lokalnych
Ze względu na sposób konstrukcji o normach:
- typu standardowego - wymaga to przekształcenia surowych wyników testu na wyniki wyrażone w jednostkach skali standardowej
- typu rangowego (centyle)
- typu równoważnikowego (równoważniki wieku i klasy)
2. Przebieg wnioskowania psychometrycznego. Wnioskowanie - diagnozowanie - etapowość
Def diagnozy
Ogólny model postępowania diagnostycznego
Psychologiczny model testu
Psychometryczny model testu, wyniku testowego i jego formalnej interpretacji
Psychologiczny model interpretacji wyniku testowego i jego praktycznego zastosowania
Wnioskowanie wymaga:
- zbierania danych
- badań walidacyjnych
- analizy itemów
- określania trafności, rzetelności
- normalizacji
3. Prawa przysługujące osobie badanej.
- do wyrażenia świadomej zgody na badanie danym testem - dlaczego są testowane, jakie informacje o wynikach i komu zostaną przekazane
- do informacji o wynikach testowania
- do minimalizowania skutków etykietowania - aby interpretacja wyniku nie zawierała skrótowych etykiet, aby osoby do których on ma trafi nie nadawały jej fałszywego znaczenia
- do zachowania tajemnicy o wynikach testowania - również zabezpieczenie danych
- do prywatności wymaganie tylko niezbędnych informacji od badanego, nie wnikanie w jego intymne sprawy
2. Przebieg wnioskowania psychometrycznego
Proces wnioskowania psychometrycznego jest to proces wyprowadzania wniosków o wartościach cech psychologicznych badanych osób na podstawie wyników, jakie otrzymały one w testach psychologicznych.
Poniżej mamy model wnioskowania: zaczynając od góry mamy
1 osoba wypełnia test
2 robimy pomiar czyli sumujemy ilość zdobytych pkt
3 tym samym dostajemy wynik otrzymany w teście <ilość zdobytych pkt>, który nazywamy wynikiem obserwowalnym.
Wynik obserwowalny- jest to wynik, jaki badana osoba otrzymuje w teście psychologicznym.
4 przygladamy się rzetelności testu, bo im wyższa rzetelność tym dokładniej możemy oszacować wynik prawdziwy osoby badanej
5 szacujemy i dostajemy w ten sposób wynik prawdziwy
wynik prawdziwy- jest to wynik odzwierciedlający rzeczywista wartość mierzonej cechy u danej osoby
6 przyglądamy się danym na temat trafności < czy na pewno zmierzyliśmy tę cechę o która nam chodziło, czy może to jest cos innego>
7 znaleźliśmy cechę psychologiczną
Zestaw nr 8:
1. Pojecie losowości wyniku testowego i jego źródła
Błąd losowy - powstaje w wyniku działania przyczyn przypadkowych . Może zarówno zwiększać jak i zmniejszać wynik testowy. Sprawia, że test nie jest powtarzalny.Do czynników, które w sposób losowy wpływają na wynik testu zaliczamy:
-konstrukcja testu- źródłem tego błędu jest specyficzny dobór treści z jakiej zbudowane są pozycje testu. W każdej sytuacji testowania niektóre osoby badane otrzymują wyższe wyniki testowe tylko dlatego, że specyficzna treść pozycji testowych szczególnie im odpowiada lub ich dotyczy np. uczeń który świetnie zna historie polski z lat 20 lepiej wypadnie na olimpiadzie z historii jeśli trafia mu się pytania z tego właśnie okresu.
-sytuacja testowa - źródła błędu:
czynniki sytuacyjne: temperatura , światło, itp.
czynniki związane z osoba badaną: czy się wyspała, lęk, motywacja, itp.
Czynniki związane z osoba badającą: umiejętność nawiązywania kontaktu, obecność lub nie podczas badania , itp.
- sposób oceny wyników- wynikają z :
Błędów mechanicznych- źle podliczona suma wyników
Zbyt ogólne kryterium oceniania odpowiedzi -prawidłowość zależy od doświadczenia oceniającego <testy osobowości, inteligencji>
Zestaw nr 9:
Etyczne aspekty stosowania testów psychologicznych.
Etyczne aspekty odnoszą się do konsekwencji społecznych i życiowych dla osoby badanej, wynikających z pomiaru testem.. Od obiektywności i standaryzacji procedury badania, reprezentatywności norm oraz trafności i rzetelności testu zależy los człowieka. Im większym błędem jest zatem obciążony pomiar testowy, tym potencjalnie większe jest ryzyko błędnej diagnozy i szkody, wyrządzonej danemu człowiekowi. Ten problem etyczny, wynikający z małej trafności i obiektywności pomiaru testowego określa się mianem stronniczości (lub faworyzacji). Zjawiska te występują, gdy test mierzy nietrafnie cechy psychologiczne, tj. sugeruje istnienie różnic w nasileniu danej cechy, podczas gdy faktycznie różnice te nie istnieją. Prowadzi to do błędnej diagnozy psychologicznej i wysnuwania fałszywych wniosków psychologicznych. W przypadku, gdy wnioski te pociągają za sobą określone decyzje społeczne, to stronniczość pomiaru prowadzi do dyskryminowania (lub faworyzowania) określonych osób lub grup społecznych. Te zjawiska nierówności społecznej określa się mianem seksizmu, rasizmu, itp. Inny problem etyczny wiąże się z konsekwencjami ujawnienia tajemnicy pomiaru testowego osobom postronnym. Złamanie anonimowości jest naruszeniem praw osobistych, bowiem może prowadzić do negatywnych następstw emocjonalnych i społecznych u badanej osoby. Podobny problem dotyczy komunikowania wyników samej osobie badanej - jest to kwestia samej procedury badania, która wymaga wcześniejszego uprzedzenia o możliwych konsekwencjach badania (np. negatywna kwalifikacja lub możliwość doznania szkody emocjonalnej) oraz dobrowolności udziału, tj. przyznania osobie badanej prawa do odmówienia wzięcia udziału w badaniach (lub rezygnacji z badań nawet w ich trakcie). W przeciwnym razie prowadzi to do naruszenia wolności osobistej. Inne problemy etyczne wynikają z aspektu psychologicznego pomiaru i nastawienia wyłącznie na techniczną stronę badania testowego. Diagnoza pozbawiona jasno określonego celu badawczego i nie uwzględniająca "dobra" osoby badanej prowadzi do tzw. "etykietowania" lub stygmatyzowania (np. przypisywania komuś określeń typu "neurotyk", "wariat" - część psychologów uważa nawet, że pomiar testowy prowadzi nieuchronnie do etykietowania. W większości jednak problemy etyczne pomiaru testowego wynikają z ahumanistycznego celu badania, tzn. gdy nie realizuje on dobra danego człowieka.
Źródło: Zawadzki, Psychometria i metoda testów. Wykład 3.
Klasyfikacja zmiennych wg Stevensa.
Zmienne określane mianem nazw skal, do których są przyporządkowane, tak więc mówimy o zmiennych:
nominalnych- przy których stwierdzamy równość i różność, np. numeracja grup nieuporządkowanych
porządkowych-stwierdzanie równości, różności, większości i mniejszości, np. surowe wyniki ankiet kwestionariuszy
przedziałowych (interwałowych)-wszystkie ww. oraz stwierdzanie równości przedziałów i równości różnic, np. standaryzowane wyniki ankiet i kwestionariuszy
stosunkowych (ilorazowych)- wszystkie ww. oraz stwierdzanie równości stosunków między wartościami skal, np. temperatura absolutna, długość, masa, czas reakcji.
Źródło, wykład 2.
3. Estymacja zgodności wewnętrznej: analiza właściwości statystycznych itemów
Analiza rezultatów jednokrotnego badania próby:
-analiza związków itemów z wynikiem ogólnym (stosujemy wzór Spermana-Browna, Gulliksena)
-analiza właściwości statystycznych itemów ( wzory KR 20, KR 21)
Kurder i Richardson przyjęli, że maksymalna liczba części, na jaką można podzielić dany test, jest równa liczbie jego pozycji testowych. Analizując właściwości statystyczne poszczególnych pozycji testowych i poszukując współczynnika ich zgodności, możemy uzyskać informacje o rzetelności całego testu. Współczynnik ten nazywamy współczynnikiem zgodności wewnętrznej. Im wyższa wartość współczynnika, tym bardziej jednorodne pozycje testowe. Wzór KR 20 dotyczy sytuacji, kiedy bierzemy pod uwagę średnią wariancję wszystkich pozycji testowych, KR 21 zaś kiedy bierzemy pod uwagę średnią trudność. Współczynniki rzetelności Kudera i Richardsona nadają się do obliczania rzetelności testów złożonych z tzw. pozycji dwukategorialnych, dla których istnieją tylko dwa rodzaje odpowiedzi (diagnostycznie poprawne i niepoprawne). Cronbach rozszerzył wzór KR 20 na pozycje wielokategorialne. Wzór ten jest uznawany
dziś za najlepszy sposób szacowania rzetelności znany jako alfa Cronbacha.
KR 20:
Test mierzy jeden czynnik
Interkorelacje itemów są równe
Wariancje itemów są równe
KR 21
Test mierzy jeden czynnik
Interkorelacje itemów są równe
Wariancje itemów są równe
Itemy mają równą trudność
Wiąże się z SEM(T)
Źródło: wykład 6 oraz Hornowska s. 52-55.
Zestaw nr 10:
1. Równoważność międzypołówkowa. Wykł. 6 i str. 471 Brzeziński
Tylko testy mocy, nie szybkości. Jeżeli test homogeniczny, czyli jednolity pod względem treściowym można połówki wyznaczyć poprzez podział na itemy parzyste i nieparzyste. Jeżeli jest heterogeniczny należy kierować się przy podziale na pary trudnością, wariancją pozycji i treścią.
2. Historia psychometrii i teorii testów. ( na podstawie E.Hornowska)
Już 4 tysiące lat temu przedmiotem dociekań były te same zagadnienia, jakie są podejmowane przez współczesnych psychometrów. Zainteresowanie badaniami różnic indywidualnych systematycznie rosło w drugiej połowie XIX wieku, głównie za sprawą pojawienia się psychologii jako nauki oraz pracy K.Darwina "O powstaniu gatunków drogą doboru naturalnego". Wiele postaci odegrało pod koniec XIX w istotną rolę w tworzeniu podstaw współczesnej psychometrii.
Szczególnie:
1) Franciszek Galton 2) James McKeen Cattel 3) Alfred Binet.
1) Galton zajmował się dziedzicznymi podstawami inteligencji i technikami mierzenia zdolności, stworzył również wiele prostych testów psychomotorycznych i opracował kilkanaście metod analizy wielkości różnic indywidualnych, wprowadził także pojęcie i
technikę "ko-relacji".
2) James McKeen Cattel pracował jako asystent Galtona, poznał jego metody i sam zajął się
propagowaniem idei badań testowych.
3) Alfred Binet oraz współpracownik Teodor Simon otrzymali zadanie stworzenia metody identyfikującej dzieci mające trudności w uczeniu się. Binet wprowadził pojęcie wieku
umysłowego.
Do pionierów testowania należy również zaliczyć *Charlesa Spearmana- wkład do KTT
*Edwarda L.Thorndike- testy osiągnięć
*Lewisa Termana-testy inteligencji
*Edwarda K.Stronga- testy zainteresowań
Począwszy od I wojny światowej możemy obserwować bardzo dynamiczny rozwój zarówno teorii tesowania, jak i samych metod testowych
3. Wyniki w skalach a zmienne ilościowe/skala pomiarowa narzędzia a zmienna ilościowa (mówiłam o tym co było na wykładach, zapytał się o narzędzie idealne - Brzeziński). Wykł. 2
Zestaw nr 11:
1. SEE - definicja, właściwości (to szczególnie) i zastosowanie. Wykł 4 Brzeziński str 462 i 464 punktowa estymacja wyniku prawdziwego na podstawie regresji liniowej
2. Teoria pomiaru - kwestia jednoznaczności . wykł 2 str. 9 Jakie przekształcenia skali narzędzia pomiarowego są dopuszczalne?
3. Analiza intraprofilowa - wymagał konkretu z Brzezińskiego. - Brzeziński str 548
Jest to metoda, która umożliwia psychologowi dokonanie całościowej analizy profilu psychometrycznego, stanowiącego graficzną prezentację wyników badań wielowymiarowymi bateriami testów inteligencji czy wielowymiarowymi kwestionariuszami osobowości. Można za pomocą tej psychometrycznej metody wyznaczyć profil, a jego kształt i poziom będzie odzwierciedlał intraidywidualną zmienność osoby.
Zestaw nr 12:
1. Wynik prawdziwy według Gulliksena i Lorda i Novicka.
Na podstawie wykładu trzeciego:
Harold Gulliksen (1950):
a) „platońskie” ujęcie wyniku prawdziwego- jako istniejącego obiektywnie i niezależnie od pomiaru,
b) aksjomaty:
1) Me=0
Wartość oczekiwana błędu(średni błąd) równa się zero
2) reT=0
Błąd pomiaru i wynik prawdziwy (traktowany jako zmienna losowa) nie są skorelowane
3) ree=0
Błędy w dwóch kolejnych pomiarach są nieskorelowane
Jednak:
Krytyka KTT:
a) przede wszystkim: niesprawdzalność aksjomatów!
- Modelem semantycznym jakiegoś języka ( w szczególności-teorii naukowej)może być tylko taka dziedzina empiryczna, w której prawdziwe są wszystkie aksjomaty pozalogiczne tego języka
b) ponadto:
-stałość błędu (brak warunkowej miary błędu)
-uzależnienie parametrów testu jako całości oraz jego poszczególnych itemów od rozkładu mierzonej cechy w populacji
Alternatywa:
Frederic M.Lord& Melvin R.Novick (1968)
a) statystyczne i relatywne do podziałki narzędzia ujęcie wyniku prawdziwego jako wartości oczekiwanej rozkładu skłonności
-rozkład skłonności: rozkład prawdopodobieństw uzyskania przez daną osobę poszczególnych możliwych do uzyskania wyników w danym teście
b) reaksjomatyzacja:
1. rozkład skłonności ma skończoną wariancję
2. „liniowa eksperymentalna niezależność pomiarów”: wynik prawdziwy nie zależy od wyników obserwowanych w kolejnych pomiarach; in. mówiąc-rozkład skłonności ma skończoną wartość oczekiwaną.
c) estymacja przedziałowa uwzględnia „zl/2” (funkcję gęstości rozkładu normalnego jako
model cechy w populacji), czyli wciąż jest to KTT (choć niewątpliwie istotnie zmodyfikowana).
M.Nowakowska, ”Nieformalne ujęcie współczesnej teorii testów”:
-Problematykę estymacji wartości cechy przedstawił formalnie w 1950roku Gulliksen w postaci pewnego systemu aksjomatów, który został następnie zmodyfikowany i udoskonalony w 1968r. przez Lorda i Nowicka
1.Gulliksen:
a) zaadoptował do psychologii model pomiaru z nauk fizycznych;
Przyjął on, że podobnie jak każdy obiekt fizyczny ma określone wartości swoich cech fizycznych, niezależnie od aktu dokonywania pomiaru i wyboru narzędzia pomiarowego, tak też każdy człowiek( w danym momencie) ma nieznane prawdziwe wartości określonych cech
psychologicznych
Następnie założył, na wzór nauk fizycznych, że przy dokonywaniu pomiaru obserwujemy wartości prawdziwe mierzonej cechy, zakłócone błędem równym różnicy między obserwowaną wartością wyniku pomiaru a (nieobserwowaną) wartością prawdziwą mierzonej cechy. W konsekwencji, zarówno wartość prawdziwa, jak i błąd pomiaru są
nieobserwowalne.
Trzeba było również przyjąć pewne założenia dotyczące źródeł losowości wyników obserwowanych oraz przyjąć aksjomaty nakładające pewne warunki na tę losowość.
Założono że:
-losowość wyniku obserwowanego ma charakter „podwójny”: źródłem są zakłócenia przypadkowe w pomiarze wartości prawdziwej w pomiarze cechy danej osoby oraz
przypadkowość wyboru tej osoby z badanej populacji.
Zastosowanie testu w stosunku do wybranej osoby pozwala na uzyskanie próbki określonych przez test zachowań się tej osoby i na wyznaczenie wartości estymatora wyniku prawdziwego tej osoby.
Wynik prawdziwy- realizacja (nieobserwowalnej) zmiennej losowej, której rozkład wyznaczony jest przez przyjętą metodę wyboru tej osoby z badanej podpopulacji (Novick,1966)
Błąd pomiaru ma zatem dwa źródła losowości: jedno związane z procesem losowania osób do próbki, drugie związane specyficznie z zakłóceniami losowymi pomiaru wyniku prawdziwego tej osoby, dokonywanego za pomocą testu
Krytyka podejścia Gulliksena:
-główny przedmiot krytyki aksjomatyki Gulliksena- założenie o obiektywnym i niezależnym od faktu dokonywania pomiaru istnieniu wyniku prawdziwego (czyli prawdziwej wartości cechy badanego)
Thorndike zarzucał,że ponieważ wyniki prawdziwe nie są mierzalne bezpośrednio to przyjęcie wyniku prawdziwego jest mitem i nie może mieć znaczenia teoretycznego.
Loevinger uważała, że pojęcie to nie ma znaczenia praktycznego.
Przy obecnym stanie wiedzy statystycznej oba powyższe zarzuty nie dadzą się utrzymać, sam bowiem fakt niemożności poznania dokładnej wartości parametru nie może stanowić
argumentu przeciwko wprowadzeniu tego parametru.
-poważniejszy zarzut: Gulliksen przyjął postulaty, dla których weryfikacji nie istnieją empiryczne procedury.
G. przyjął, na wzór nauk fizycznych, że wartość prawdziwa cechy u człowieka istnieje niezależnie od faktu dokonywania pomiaru. To z kolei pozwala na zdefiniowanie błędu pomiaru (różnica między wartością obserwowaną i prawdziwą). Gulliksen musiał przyjąć jednak postulat orzekający coś o wartości oczekiwanej błędu (za.łożenie tzw. nieobciążoności
narzędzia pomiaru, czyli że średni błąd jest równy zeru).
Jednak w teorii testów-w odróżnieniu od nauk fizycznych-ze względu na nieobserwowalność błędu nie mogą istnieć żadne procedury empiryczne prowadzące do weryfikacji postulatu nieobciążoności narzędzia pomiaru. To samo stosuje się i do pozostałych postulatów Gulliksena.
2. Lord i Novick:
- Mimo powyższych zarzutów, intuicyjność pojęcia wyniku prawdziwego i postulatów Gulliksena, oparta na silnych analogiach z pomiarem fizycznym, oraz praktyczna użyteczność wyników uzyskanych w wyniku zastosowań teorii testów, spowodowały, że Lord i Novick podjęli próbę nowej aksjomatyzacji teorii testów, przy której zachowałyby się jako prawdziwe wszystkie twierdzenia klasycznej teorii testów (Gulliksena) a jednocześnie przyjęte aksjomaty dawałyby się weryfikować empirycznie.
-punkt wyjścia: pojęcie tzw. rozkładu skłonności.
Wynik testu dla danej osoby interpretowany jest jako realizacja pewnej zmiennej losowej, której wartościami są wszystkie potencjalnie możliwe u danej osoby wyniki tego testu, a rozkład prawdopodobieństwa tych wyników jest charakterystyczny dla tej osoby; ten
rozkład prawdopodobieństwa to rozkład skłonności.
Rozkład skłonności jest nieobserwowalny, to pewna konstrukcja teoretyczna, za której przyjęciem przemawia empirycznie sprawdzony fakt zmienności wyników testowych tej samej osoby (argument znacznie mocniejszy niż analogie z pomiarem fizycznym).
- rozkład skłonności ma skończoną wariancję- podstawowy postulat teorii Lorda i nowicka
-wynik prawdziwy- wartość oczekiwana (nieobserwowalna) rozkładu skłonności, co pozwala z kolei na zdefiniowanie błędu pomiaru (różnica między wartością obserwowaną a
prawdziwą)
Błąd jest tu również nieobserwowalny ale postulat Gulliksena, orzekający, że wartość oczekiwana błędu jest równa zeru, w teorii Lorda i Nowicka staje się twierdzeniem, przy dowolnym schemacie losowania próbki (dlatego,że dla każdej ustalonej osoby jej średni błąd, jako średnia wartość odchyleń od średniej, jest oczywiście równa zeru na mocy definicji średniej, wobec tego przy jakimkolwiek schemacie losowania osób do próbki średni błąd
losowo wybranej osoby jest również równy zeru)
Lord i Novick przyjęli wobec tego taką definicję wyniku prawdziwego, przy której zdanie orzekające,że błąd ma wartość oczekiwaną zero jest zdaniem analitycznym, czyli
zdaniem którego prawdziwość wynika dedukcyjnie z przyjętych definicji.
Podobnie z drugim aksjomatem Gulliksena: dla każdej ustalonej osoby wartość oczekiwana iloczynu wyniku prawdziwego tej osoby przez błąd dla tej osoby jest równa zeru, gdyż wynik każdej ustalonej osoby jest pewną stałą liczbą (równą wartości oczekiwanej rozkładu skłonności tej osoby) a średni błąd tej osoby jest równy zeru, na mocy definicji średniej. Przy dowolnym schemacie losowania osób do próbki: wartość prawdziwa staje się zmienną losową, wartość oczekiwana iloczynu wyniku prawdziwego przez błąd jest równa zeru. Wartość oczekiwana błędu też równa się zeru, zatem wynik prawdziwy i błąd nie są
skorelowane.
Aksjomat trzeci: dodatkowe założenie o tzw. liniowej eksperymentalnej niezależności pomiarów.
Podsumowanie:
Gulliksen:
-wynik prawdziwy jest „zabsolutyzowany” i zewnętrzny w stosunku do pomiaru,
-podejście tzw. „platońskie”
Lord i Novick:
-wynik prawdziwy ma charakter relatywny w odniesieniu do danego narzędzia, będącego źródłem statystycznych próbek określonych zachowań się badanego, jest więc również definicją cechy, jako wartości parametru rozkładu częstości tych zachowań się
-podejście tzw. statystyczne
Ponieważ z postulatów Lorda i Nowicka wynikają postulaty teorii Gulliksena, wyniki klasycznej teorii testów (Gulliksen) zawarte są we współczesnej teorii testów (Lorda i Novicka)
3. SEM(T) a związek z KR21 (coś takiego jest w 6. wykładzie).
KR21
• Test mierzy jeden czynnik
• Interkorelacje itemów są równe
• Wariancje itemów są równe
• Itemy mają równą trudność
• Wiąże się z SEM(T) - se2 jest wówczas stosunkiem średniej wariancji „indywidualnych” błędów
- co jest jednym z powodów niższej estymowanej rzetelności testu
- drugim jest nierówna trudność itemów
Zestaw nr 13:
1. Aksjomaty Gulliksena i Lorda i Novicka, reakcjomatyzacja przyczyny i skutki. Wykł 3
2. „Standardy…” dla procedury badania, obliczania i przedstawiania wyników. (~ rozdz. 5)
3. EFA. Wykł. 7
Eksploracyjna analiza czynnikowa
- technika redukcji liczby zmiennych
- czynnik - systematyczne współzmienianie się wyników pomiaru
- wyodrębnione czynniki są ze sobą nieskorelowane
- na zastosowanie w teorii trafności:
- współczynnik korelacji między testami = się tutaj sumie iloczynów (odpowiednich ładunków czynnikowych); jest rozumiany jako nasycenie testu czynnikami
- trafność testu po jego heterogenizacji (wprowadzeniu do kryterium nowych innych czynników; wzbogaceniu predykatora) = się iloczynowi „standardowego” ładunku czynnikowego predykatora i sumy ładunków czynnikowych kryterium
- szacowanie maxymalnej do uzyskania trafności przy zachowaniu rzetelności
Zestaw nr 14:
1. Główne zadania i zastosowania KTT.
Pojęcie i zastosowanie KTT
• Dział statystyki matematycznej mający zastosowanie przy konstruowaniu narzędzi pomiarowych w sytuacji, gdy nie jest możliwy wielokrotny pomiar tego samego obiektu
(konieczny dla wyskalowania narzędzia)
• Teoria formalna (pojęcia pierwotne + aksjomaty); wymaga sprawdzenia prawdziwości aksjomatów w dziedzinie jej zastosowań
Zadania KTT
1. Formalizacja pojęć charakteryzujących jakość pomiaru (rzetelność, trafność i
homogeniczność: równoległość a równoważność)
2. Formalizacja pojęć charakteryzujących formalną strukturę treści pomiaru (np. struktura czynnikowa, struktura latentna)
Zestaw nr 15:
1. Przedmiot pomiaru psychologicznego według teorii testów.
Za Coombsem:
Pomiar - postępowanie służące uczonemu do reprezentowania właściwości za pomocą liczb (by można było formułować prawo ilościowe, trzeba umieć opisać odpowiednie właściwości za pomocą liczb). Model numeryczny i także - tworzenie takiego modelu. Reprezentacja pewnego empirycznego systemu relacyjnego przez np. liczbowy, czyli numeryczny
(formalny) system relacyjny.
Teoria pomiaru - zajmuje się badaniem równych typów pomiaru i wyjaśnianiem ich znaczenia. Zadaniem tej teorii jest analiza logiczna procesu pomiaru (teoria ta zajmuje się uzasadnieniem różnych procedur pomiarowych oraz badaniem sensu uzyskiwanych we ten sposób wyników).
Za Nowakowską:
Przedmiotem pomiaru mogą być wyłącznie cechy modalne (in. empiryczny system relacyjny, zmienne ilościowe). Cechy modalne to takie własności obiektów, które mogą im przysługiwać w różnym stopniu. Wartość cech (psychologicznych człowieka) to parametr prawdopodobieństwa częstości występowania określonych zachowań się tego człowieka w danych sytuacjach (uzyskanie poprzez to statystycznych prognoz dotyczących zachowania się).
Cechy mające charakter wyjaśniający - pojęcia teoretyczne, konstrukt - wyjaśnienie to ma postać pewnej hipotezy lub zbioru hipotez, zawierających interpretację przyczynową współwystępowania tych zachowań się, które są dyskrypcją danej cechy.
Odznaczają się tym, że ich treść na ogół nie jest jasno i jednoznacznie sprecyzowana (jednej i tej samej nazwie cechy, przy tych samych hipotezach wyjaśniających może odpowiadać kilka różnych zbiorów zachowań się, z których każda stanowi dobrą dyskrypcje tej cechy) - co prowadzi do „nadwyżki znaczeń”.
2. SKŁADNIKI WARIANCJI CAŁKOWITEJ wg Magnussona
(rozkładu wyników otrzymanych)
Wielkość wariancji rozkładu otrzymanych wyników testowych (St2) składa się z sumy wariancji wyników prawdziwych (ST2) oraz wariancji rozkładu składników błędu
wchodzących do wyniku indywidualnego (Se2).
Błędy pomiaru mogą występować w : przebiegu badania testowego, zgadywaniu, ocenie
wyników.
Se2(bad) - wariancja rozkładu błędów pomiaru, wynikająca z tego, że procedura badania testem w różnych momentach czasu jest inna ( w wyniku zmiany osoby prowadzącej badanie i/lub w wyniku zmiany otoczenia)
- specyfika osoby prowadzącej badanie (ewentualny błąd może wynikać z zmiany sposobu przeprowadzania testu, jak również z powodu interakcji pomiędzy prowadzącym badanie i osobami badanymi)
- otoczenie w którym prowadzone jest badanie, w tym ilość zakłóceń zewnętrznych ich siłę itd.
- instrukcja (np. może być ona niejasna, niejednoznaczna, lub poszczególne osoby badane
inaczej ją zrozumieją)
Se2(zgd) - wariancja powstała w rezultacie zgadywania
Jeżeli osoba badana rozwiązuje test i nie zna prawidłowej odpowiedzi na dane pytanie może zgadywać. Może przy tym odgadnąć właściwe odpowiedzi w niektórych zadaniach, pomimo tego, że tak naprawdę nie jest w stanie ich rozwiązać. Dlatego musimy liczyć się z możliwością, że właściwa odpowiedź została odgadnięta i dlatego bierzemy pod uwagę ten
składnik.
Se2(ocn) - wariancja błędu będąca wynikiem subiektywności w ocenianiu
Ważną rolę w powstawaniu błędów pomiaru spełnia osoba oceniająca odpowiedzi, decydująca czy jest ona prawidłowa, czy błędna. Ten czynnik błędu nie odgrywa znaczącej roli w testach grupowych (ponieważ liczba prawidłowych odpowiedzi jest ograniczona i podane są wszystkie alternatywy). Większy problem pojawia się w badaniach indywidualnych, w których oceniający często nie ma jasnych reguł, które odpowiedzi uznać
za poprawne i rezultat oceniania zależy od jego biegłości i zdrowego rozsądku.
Se2(pam) - wariancja błędu wynikająca z efektów pamięciowych powstających przy powtórnym badaniu.
Jeśli stosujemy ten sam test w dwu następujących po sobie okresach, wówczas efekty przypominania sobie pierwszego badania będą wpływać ba wyniki drugiego. Zgodność ta wpływa na korelację między powtarzanymi pomiarami, jednak nie decyduje o rzetelności
metody.
ST2(osc) - oscylacja wyników prawdziwych osób badanych
Traktując korelację między testami równoległymi jako wyraz rzetelności każdego z tych testów, zakładamy, że wyniki prawdziwe każdej osoby w obydwu testach są takie same. Jednak wynik prawdziwy zmienia się w kolejnych testach, w różnych momentach czasu.
Część wariancji prawdziwej, która nie koreluje z wariancją prawdziwą w innym momencie jest uważana za wariancję błędu. Zależy ona od oscylacji pozycji prawdziwej danej osoby na kontinuum i nie ma nic wspólnego ze zdolnością testu do dokładnego pomiaru wyników
prawdziwych.
ST2(rów)- współczynnik równoważności , który przy obliczaniu rzetelności traktowany jest jako wariancja błędu.
Wynika on z faktu, żę przy konstrukcji testów do pomiarów równoległych niemożliwe jest całkowite spełnienie wymagań teoretycznych im stawianym. Wariancja prawdziwa traktowana przy obliczaniu współczynnika równoważności jako wariancja błędu będzie największa wówczas, gdy nie podejmiemy żadnych kroków, by test dla których obliczamy te współczynniki, były do siebie bardziej podobne niż to może wynikać z losowego wyboru zadań z odpowiedniej populacji.
3. Konteksty adaptacji kulturowej
Oceniając test, powinniśmy brać pod uwagę następujące konteksty:
1) Kontekst teorii psychologicznej, czyli rzetelne podstawy teoretyczne. Przystępując do adaptacji testu, musimy najpierw poznać jego zaplecze teoretyczne. Jeśli autor testu nie podaje wprost powiązań swojego testu z teorią, należy ją zrekonstruować (np. rekonstrukcji podstaw teoretycznych Skali Inteligencji WAIS-R dokonała Hornowska). Dobrze zaadaptowany test spełnia następujące warunki:
Jego związki z teorią psychologiczną są w sposób czytelny dla czytelnika opisane w podręczniku.
Wyniki można interpretować w terminach tej teorii.
2) Kontekst psychometryczny, czyli maksymalizacja dobroci testu w ramach określonego modelu teorii testów. Obejmuje takie parametry, jak:
rzetelność,
błąd standardowy SEM
korelacja pozycji z wynikiem ogólnym
trafność (zwłaszcza teoretyczne)
Wartości te nie mogą być gorsze niż w wersji oryginalnej.
Model pomiaru testowego dookreśla kryteria dobroci testu oraz nakreśla ramy formalne dla
interpretacji wyniku.
3) Kontekst celu.
Test adaptowany powinien realizować ten sam test, co test oryginalny.
Cel obejmuje aspekt treściowy (np. test neurotyczności) i psychometryczny (inaczej przebiega konstruowanie testu przeznaczonego do oceny poziomu jakiejś pojedynczej zmiennej w jednolitej populacji, inaczej testu przeznaczonego do różnicowania między osobami należącymi do jednej populacji).
Należy także uwzględnić zakres zastosowania testu - dwa możliwe zakresy:
Badawczy (naukowy)
Diagnostyczny (praktyczny)
Dokonując adaptacji powinniśmy być wierni celom założonym przez autora, w przeciwnym
razie nie będzie to adaptacja, ale parafraza.
4) Kontekst doświadczenia kulturowego osoby badanej, na który składa się:
1. Specyfika doświadczenia językowego osoby badanej ( kontekst ważny dla testów słownych)
2. Specyfika wykształcenia osoby badanej i zasób wiadomości „szkolnych” (znaczenie systemu oświatowego ważne np. dla testów słownikowych czy badających wiadomości)
3. Trening niespecyficzny w zakresie umiejętności objętych dziedziną pomiaru danego testu (dziecko bawiące się klockami jest w lepszej sytuacji startowej w przypadku badania testem operującym klockami, np. test Ravena)
4. Dotychczasowe doświadczenia życiowe, typowe dla danego kraju i kultury (ważne dla
testów inteligencji czy skal badających wartości)
5) Kontekst świadomości społecznej
Test stosowany jest w społeczeństwie, które posiada wiedze na temat testowania psychologicznego - jego wad i zalet.
Należy mieć świadomość, że wyniki testu będą decydowały o losach osoby badanej. Decyzje społeczne podejmowane na podstawie wyników testu mogą decydować o przyszłości badanego (np. wysłanie dziecka do szkoły specjalnej).
Test nie powinien wywoływać efektu stygmatyzacji osoby badanej, test powinien być
stosunkowa mało „jatrogenny”.
6) Kontekst kwalifikacji zawodowych użytkownika testu
Znajomość teorii psychologicznych, umiejętność zastosowania ich w diagnostyce, posiadanie
umiejętności psychometrycznych, pozwalających na poprawną interpretację wyników.
7) Kontekst użycia -tzw. administracja testu. Test powinien być używany zgodnie z zaleceniami autora. Istotny jest sposób podawania testu osobie badanej ( np. indywidualnie czy grupowo, z ograniczeniem czasowym czy bez ograniczeń). Błędne użycie - stosowanie niepełnych adaptacji, inna ekspozycja zadań testowych.
Z każdym z tych kontekstów wiążą się specyficzne błędy popełniane przy adaptacji
kulturowej testu.
Źródło: Brzeziński, Metodologia badań psychologicznych
Zestaw nr 16:
1. Zarzuty stawiane KTT
Problemy KTT
• Wnioskowanie o wartościach prawdziwych na podstawie obciążonych błędem wartości
zaobserwowanych
• Źródła tego błędu (losowości otrzymanego wyniku pomiaru):
1) przypadkowe zakłócenia w przebiegu pomiaru
2) wynik prawdziwy jako realizacja nieznanego rozkładu zmiennej losowej w populacji oszacowanego na podstawie próby
• Wnioskowanie o wartościach prawdziwych na podstawie obciążonych błędem wartości
zaobserwowanych
• Źródła tego błędu (losowości otrzymanego wyniku pomiaru):
1) przypadkowe zakłócenia w przebiegu pomiaru
2) wynik prawdziwy jako realizacja nieznanego rozkładu zmiennej losowej w populacji, oszacowanego na podstawie próby (rodzaj losowości specyficzny dla KTT)
Rozwiązanie - Harold Gulliksen (1950)
• „Platońskie” ujęcie wyniku prawdziwego - jako istniejącego obiektywnie i niezależnie od
pomiaru
• Aksjomaty
1) Me = 0
2) reT = 0
3) ree = 0
Krytyka KTT
• Przede wszystkim - niesprawdzalność aksjomatów!
- modelem semantycznym jakiegoś języka (w szczególności -
teorii naukowej) może być tylko taka dziedzina empiryczna,
w której prawdziwe są wszystkie aksjomaty pozalogiczne
tego języka
• Ponadto:
- stałość błędu (brak warunkowej miary błędu)
- uzależnienie parametrów testu jako całości oraz jego poszczególnych itemów od rozkładu mierzonej cechy w populacji
Zestaw nr 17:
1. Standaryzacja i obiektywność testu
( na podstawie „standardy dla testów” i Brzezińskiego)
Pierwsza właściwość dobrego testu psychologicznego wiąże się z wystandaryzowaniem .
Standaryzacja -w badaniu testem jest to dbanie o jednolite warunki badania i przeprowadzenie testu zgodnie z określonymi zasadami tak by badanie tym samym testem miało zawsze taki sam przebieg w wypadku wszystkich osób badanych( ma to zminimalizować wpływ czynników ubocznych)
Zatem dobrze wystandaryzowany test posiada:
1.Instrukcję którą podajemy w dosłownym brzmieniu, w sposób ściśle określony przez autora testu
2.Klucz czyli określone zasady wg których ocenia się odpowiedzi na poszczególne pozycje testu i interpretuje się wyniki.
Ze standaryzacja wiąże się drugie kryterium - obiektywność.
Test jest obiektywny jeśli dwie różne osoby opracowujące jego wyniki dochodzą do tego samego rezultatu. (Dlatego też należy podawać jednoznacznie brzmiące reguły przeliczania wyników surowych na wyniki określonej skali standardowej, w której wyrażone są normy dla danego testu.)
Test zaopatrzony w jasną instrukcję, odpowiednio sporządzony arkusz odpowiedzi i należycie
opracowany klucz wg którego ocenia się odpowiedzi to warunki spełnienia kryterium standaryzacji i obiektywności.
Zestaw nr 19:
1. TEORIA POMIARU: PROBLEM ISTENIENIA REPREZENTACJI
Problem istnienia reprezentacji - czy wszystkie cechy daje się mierzyć? Jeśli nie to jakie warunki muszą być spełnione, aby można było skonstruować skalę pomiarową? chodzi o
wykazanie, że reprezentacja liczbowa istnieje.
Problem istnienia reprezentacji jest podstawowym problemem teorii pomiaru (obok problemu jednoznaczności - problem scharakteryzowania związków pomiędzy istniejącymi reprezentacjami liczbowymi). Ma dwa aspekty: formalny i empiryczny.
formalny |
empiryczny |
Polega na znalezieniu zespołu sprawdzalnych założeń wystarczających do tego, by można było otrzymać pożądaną reprezentację.
Analiza formalna zagadnienia istnienia reprezentacji doprowadza do sformułowania układów aksjomatów dla systemów pomiarowych oraz dostarcza (jeśli aksjomaty są spełnione) metod konstruowania reprezentacji numerycznych. |
Dąży się do sprawdzenia, czy aksjomaty te są rzeczywiście spełnione oraz do skonstruowania odpowiednich skal.
Ze względu na sprawdzalność empiryczną można wyróżnić 2 typy aksjomatów: - proste - są niezbędne dla istnienia potrzebnej reprezentacji, mówią o relacjach między obserwacjami i są sprawdzalne, na nich koncentrują się szczegółowe badania; - egzystencjalne - postulują istnienie elementów o pewnych specjalnych własnościach. |
System relacyjny jest układem pewnych przedmiotów oraz relacji (jednej lub wielu)
pomiędzy tymi przedmiotami. Formalnie system relacyjny jest skończonym ciągiem
<A, R1…Rn> gdzie A jest zbiorem niepustym a R to relacje między elementami zbioru A.
System relacyjny nazywa się empirycznym, jeśli występują w nim obiekty empiryczne takie jak np. ludzie, ciężary.
System jest nazwany formalnym, jeśli jego obiekty są tworami formalnymi np. liczy czy
punkty.
Jakąś dowolną dziedzinę badań można potraktować jako empiryczny system relacyjny, a jej modele jako formalne systemy relacyjne. Związek między światem a jego modelem można traktować jako odpowiedniość pomiędzy empirycznym a formalnym systemem relacyjnym; inaczej - procesy modelowania i pomiaru opisuje się jako reprezentowanie systemów
empirycznych przez formalne.
Jeśli chodzi o znalezienie reprezentacji pewnego empirycznego systemu relacyjnego przez formalny system relacyjny, - jeśli jest to model numeryczny to reprezentację taką nazywa się pomiarem. Istotne jest, aby relacje pomiędzy przedmiotami świata rzeczywistego znajdowały swoje odbicie w relacji pomiędzy przypisywanymi im liczbami.
Pomiar jest, więc reprezentacją systemu empirycznego przez system liczbowy.
Niezbędnym warunkiem, aby można było daną relację empiryczną reprezentować przez relację między liczbami rzeczywistymi jest jej przechodniość. Istnienie poszukiwanej
reprezentacji jest równoważne przechodniości danej relacji empirycznej.
Jednym z najważniejszych zadań teorii pomiaru jest badanie warunków, których spełnienie
umożliwia konstrukcję różnych reprezentacji numerycznych.
Rezultaty takich badań są zazwyczaj podsumowane w tzw. twierdzeniach o istnieniu mówiących, że jeśli spełnione są pewne warunki to zbudowanie reprezentacji jest możliwe. Jeśli zbiór A nie jest skończony to wtedy nie wystarcza przechodniość relacji do tego, aby
istniała reprezentacja.
2. ESTYMACJA STABILNOŚCI TESTU
Estymacja stabilności testu jest jednym ze sposobów estymacji rzetelności.
Najbardziej znanymi metodami oszacowania stabilności są:
• stabilność bezwzględna - dwu- lub wielokrotne badanie tym samym testem z zachowaniem pewnego odstępu czasowego między badaniami
(Najpoważniejszym źródłem kłopotów metodologicznych jest to, ile powinien wynosić owy odstęp czasowy - im on będzie krótszy tym wyższego współczynnika korelacji między dwoma zbiorami wyników będziemy się spodziewać. Będzie to szczególnie widoczne w tych
testach, w których dużą rolę odgrywa czynnik pamięciowy.)
Na oszacowanie stabilności bezwzględnej rzutują błędy związane z chwilowymi oscylacjami procesów psychicznych (chodzi o np. zmęczenie, napięcie emocjonalne, wahania uwagi)
s2T(osc), a także związane z naszą pamięcią s2T(pam)
• stabilność względna - dwu- lub wielokrotne badanie równoległymi formami testu z
zachowaniem pewnego odstępu czasowego między badaniami
Tutaj bierze się też pod uwagę wariancję oscylacji (s2T(osc)) oraz wariancję równoważności (s2T(rów)) - treść pozycji nie jest identyczna w obu testach, dlatego nie można oczekiwać, że testy te będą dawać identyczne wyniki prawdziwe.
3. ANALIZA INTERPROFILOWA
(na podst. „Metodologii badań psychologicznych” Brzezińskiego, str. 559-574)
W przypadku, gdy psycholog musi dokonać oceny funkcjonowania klienta na skalach szacunkowych, na których koduje się bądź obserwuje zachowania ucznia w klasie czy pacjenta na oddziale lub uzyskuje w wywiadzie czy z kwestionariusza wypełnionego przez samego badanego.
1) Testy dychotomiczne („0, 1”) - współczynnik G - Holleya i Guilforda.
W najprostszej postaci skale szacunkowe przybierają postać skal dwubiegunowych - zero-jedynkowych. Możemy punktować np. „postępy w uczeniu się” jako 1 pkt., a „brak
postępów” jako 0 pkt.
Skale szacunkowe mogą być zebrane w jedną baterię ze względu na pewne kryteria, np. dotyczą różnych aspektów funkcjonowania osoby badanej. Taka bateria może zawierać od kilku do kilkudziesięciu (a nawet przeszło stu) skal dwupunktowych. „Wynik" osoby badanej
to seria zer i jedynek (łącznie zer i jedynek będzie tyle, ile skal liczy bateria).
Brzeziński nie poleca dodawania do siebie wyników cząstkowych, proponuje, aby w przypadku baterii k-skalowej zapisać wynik osoby badanej w postaci sekwencji k zer i jedynek. Mówiąc inaczej, chodzi o to, by posługiwać się profilem, czyli krzywą łączącą,
odpowiadające osobie badanej, punkty na odcinkach reprezentujących poszczególne skale.
Przykładowo, w 10-skalowej baterii samoobserwacyjnej osoba badana może uzyskać następujący wynik:
skała: |
I |
II |
III |
IV |
V |
VI |
VII |
VII |
IX |
X |
wynik: |
0 |
0 |
1 |
1 |
0 |
1 |
0 |
1 |
0 |
0 |
W jaki sposób obliczyć miarę podobieństwa profilów dwóch osób badanych, która w macierzy oznaczona jest literą G? Użyteczną i statystycznie poprawną miarę
podobieństwa zaproponowali Holley i Guilford:
Gk,k'=[(a+d)-(b+c)]/[a+b+c+d]
|
Osoba k': |
||
|
„1” |
„0” |
|
Osoba k: |
„1” |
a |
b |
|
„0” |
c |
d |
Pole osoba k: osoba k' wyniki:
a 1 1 zgodne - (1)
b 1 0 niezgodne
c 0 1 niezgodne
d 0 0 zgodne - (0)
Osoby badane o profilach takich samych (całkowicie, tj. bądź „1-zgodnych", bądź 0-zgodnych") uzyskują wskaźnik podobieństwa G=l,00. Osoby o G< l są w różnym stopniu niepodobne.
2) Testy trychotomiczne („-1, 0, +1”) - współczynnik GT-Vegeliusa.
Wiele kwestionariuszy obok odpowiedzi „tak” i „nie” dopuszcza jeszcze trzeci typ: „nie wiem” - osoba badana ma do dyspozycji trzy sposoby zareagowania na każde pytanie.
|
Osoba k': |
|||
|
+1 |
0 |
-1 |
|
Osoba fc |
+1 |
k |
i |
m |
|
0 |
D |
o |
P |
|
-1 |
q |
r |
s |
Vegelius (1979) zaadaptował współczynnik G do systemu punktacji trychotomicznej:
Litery: k, m itd. oznaczają liczby skal, na których porównywane osoby badane uzyskały oceny.
3) Testy o wynikach wyrażonych na skali dwubiegunowej - współczynnik rBP-Vergeliusa.
Przykład takiej skali: Mapa Osobowości B. Zawadzkiego:
Łatwo zniechęcający się wytrwały, uparty
-3 -2 -1 0 +1 +2 +3
Skala zawiera punkt neutralny, od którego, na lewo i na prawo, wzrasta natężenie cechy, aby osiągnąć swoje maksimum na krańcach. Jest to więc skala porządkowa o charakterze dwubiegunowym.
4) Wykorzystanie współczynnika korelacji rangowej (rs-Spearmana lub rK-Kendalla) dla
testów wielopunktowych.
5) Współczynnik rC-Cohena - dla wyników testowych wyrażonych na skalach
standardowych.
Wyniki testowe wyrażone na jednolitej skali standardowej (np. tenowa, stenowa,
IQ) - są to skale interwałowe.
Wyniki testowe wyrażone na różnych skalach standardowych - wtedy, gdy psycholog posługuje się baterią testów znormalizowanych ba różnych skalach standardowych, Można tutaj skorzystać z adaptacji współczynnika rC - Cohena przeprowadzonej przez Vegeliusa.
(Brzeziński pisze o tym więcej, umieszcza jakieś tabelki i różne cuda, wydaje mi się, że tyle powinno wystarczyć)
Zestaw nr 20:
Estymacja wiarygodności testu.
Porównanie dwukrotnych badań ( tej samej grupy osób) tym samym testem raz po razie. Z punktu widzenia osoby badanej jest to jedno badanie, w którym dwukrotnie powtarzają się te same pozycje. Współczynnik korelacji między wynikami pierwszego i drugiego testu, jest opisywany jako współczynnik wiarygodności (por. np. Brzeziński 1996, Hoynowski 1971). Metoda pozwala uchwycić wpływ wszystkich przypadkowych czynników, które są związane z osobą badaną, np. chwilowe fluktuacje uwagi, zmęczenie. Ta technika szacowania rzetelności budzi wiele wątpliwości ze względu na wpływ wielu czynników ubocznych, np. zapamiętywanie, uczenie się, różnice w warunkach badania. Technika ta daje się zaakceptować w przypadku testów motorycznych.
Źródło: Testy psychologiczne. Hornowska, s. 50-51, wykład 6, wiarygodność
Zagadnienie znaczenia. Kierunki analizy.
Co znaczą liczby występujące w pomiarze? Co znaczą zdania zawierające wartości liczbowe?
Znaczenie wyrażenia - pewna abstrakcyjna własność przysługująca temu wyrażeniu i wyrażeniom z nim równoznacznym, i tylko tym wyrażeniom; in. zbiór wyrażeń równoznacznych…
Kierunki analizy:
przewidywanie: wskaźniki liczbowe są wykorzystywane by przewidywać wartości pewnej zmiennej zależnej za pomocą wartości zmiennych niezależnych
przyporządkowanie bezpośrednie: miary są przyporządkowane wartościom przez osoby badane zgodnie z instrukcją. Znaczenia zdań zawierające wartości liczbowe są efektem subiektywnych doświadczeń i skojarzeń
opis: w pewnych sytuacjach liczby przyporządkowane obiektom, traktowane są jako opisowe wskaźniki statystyczne dotyczące danej próbki lub populacji. Statystycznym modelem danej próbki jest rozkład normalny. Założenie jest
charakterystyczna dla Klasycznej Teorii Testów.
Źródło: wykład 2. Podobno jest do tego rozdział w Coobmsie, ale niestety go nie posiadam ;)
3. "Standardy dla testów ..." badanie testowe osób niepełnosprawnych.
1.Badając testem osoby niepełnosprawne, należy się upewnić, że interesują nas wnioski związane z mierzonym konstruktem, a nie stopniem niepełnosprawności osoby badanej. Wręcz zakazane jest gromadzenie informacji o niepełnosprawności, wyjątkiem są informacje zawarte w samopisie, które przekazuje osoba.
2. Osoby odpowiedzialne za procedury i modyfikacje testu powinny mieć wiedzę na temat wpływu określonego rodzaju niepełnosprawności na poziom wykonania konkretnego typu testu.
3. Jeśli jest możliwe, zmodyfikowane testy powinny zostać poddane badaniom pilotażowym w grupie osób z podobnym rodzajem niepełnosprawności, po to by sprawdzić poprawność i możliwość wprowadzenia poprawek.
4. Modyfikacje, czy zalecenia modyfikacji ze względu na osoby niepełnosprawne powinny zostać szczegółowo opisane w podręczniku testowym. Jeśli jest możliwe, należy też przedstawić dane dot, trafności, w sensie jeżeli autorzy przyjmują, że zmodyfikowana wersja testu powinna być interpretowana jako porównywalna z wersją niemodyfikowaną, to należy przedstawić dane potwierdzające porównywalność wyników testowych.
5. Materiały techniczne i podręczniki dołączone do zmodyfikowanych testów powinny zawierać staranny opis procedur wykorzystywanych do modyfikacji.
6.Jeżeli autor testu zaleca stosowanie specjalnych limitów czasowych, to ustalając je, należy się odwołać -w miarę możliwości- do procedur empirycznych, a nie pozwalać osobom niepełnosprawnym na wielokrotne wydłużanie czasu badania.
7. Należy przeprowadzać badania walidacyjne, gdyż są jedynym sposobem gromadzenia informacji o przydatności zmodyfikowanych testów dla osób niepełnosprawnych.
8. Osoby stosujące test powinny a) mieć informacje niezbędne do wybrania właściwych narzędzi pomiarowych, b) mieć aktualne informacje dot. dostępności zmodyfikowanych wersji testu c) informować osoby badane, jeżeli ma to znaczenie, o istnieniu zmodyfikowanych wersji oraz d) postarać się, aby te wersje były dostępne-gdy to właściwe i możliwe- osobom badanym.
9.Normy podstawowe można wykorzystywać, kiedy celem testowania jest określenie poziomu funkcjonowania osoby badanej na tle populacji ogólnej. Natomiast, gdy gdy chcemy określić pozycję osoby badanej na tle grupy tak samo niepełnosprawnych osób, to należy odwołać się do danych normatywnych otrzymanych w grupie osób niepełnosprawnych.
10. Każda modyfikacja testu powinna być dostosowana do osoby badanej (jej cech, umiejętności, które mogą wpłynąć na poziom wykonania testu), ale o ile to możliwe, powinna posiadać wszystkie standardowe cechy testu.
11. Jeżeli istnieją przekonujące dane, które potwierdzają możliwość porównywania wyników testu standardowego i zmodyfikowanego, to wyniki testowe nie powinny być w żaden sposób oznaczane. Oznaczanie specjalnymi symbolami, może być niezgodne z celami polityki społecznej, w których położono nacisk na obiektywne traktowanie osób niepełnosprawnych.
12. Powinno się korzystać z wielu różnych źródeł informacji w celach diagnostycznych i terapeutycznych. Test nie powinien być jedynym wskaźnikiem
funkcjonowania osoby badanej.
Źródło: Standardy dla testów stosowanych w psychologii i pedagogice. s. 186-190.
Zestaw nr 21:
1. Psychometria a teoria testów (z wykładów), nigdzie indziej tego nie znalazłam, choć
szukałam)
PSYCHOMETRIA |
TEORIA TESTÓW |
Dziedzina (subdyscyplina) psychologii- nauki empirycznej
|
Dziedzina statystyki matematycznej - nauki formalnej
|
„praktyka” - szczegółowe i konkretne reguły praktyczne |
„teoria” - ogólne i abstrakcyjne twierdzenia teoretyczne (formalne) |
Weryfikacja reguł i ewentualne sprawdzanie hipotez |
Proponowanie aksjomatów i dowodzenie twierdzeń |
Określanie reguł konstruowania narzędzi diagnostycznych oraz zasad posługiwania się tymi narzędziami |
Formalizowanie pojęć określających strukturę testu i jakość pomiaru testowego |
Formułowanie ogólnych zasad TREŚCIOWEJ interpretacji wyniku pomiaru psychologicznego |
Formułowanie zasad FORMALNEJ interpretacji wyniku testowego |
2. Estymacja zgodności wewnętrznej: analiza związków itemów z wynikiem ogólnym.
(UWAGA! Ani w Brzezińskim, ani w Hornowskiej ani w wykładach nie znalazłam niczego, co w 100% pasowałoby do tego tematu, z tego co znalazłam skleiłam to, co poniżej, ale nie mam pewności, czy to dokładnie o to chodzi. Za wszelkie nieścisłości bardzo przepraszam ).
Zgodność wewnętrzna - stopień w jakim „...test jest czystą miarą mierzonej zmiennej i w jakim stopniu odpowiedzi na poszczególne pytania mierzą to samo co wynik w całym teście"
Współczynnik zgodności jest najwyższy gdy:
1. Korelacje między zadaniami są największe.
2. Wariancja zadań jest największa; jest ona największa wówczas, gdy proporcja tych, którzy rozwiązali zadanie, wynosi 0,50.
3. Zadania są jednakowej trudności; wówczas korelacje między zadaniami są największe
Współczynnik mocy dyskryminacyjnej - stopień, w jakim dana pozycja testowa różnicuje badaną populację w zakresie zachowania, które dany test ma badać. Pozycja o dodatniej mocy dyskryminacyjnej jest częściej rozwiązywana przez osoby o wysokich ogólnych wynikach w teście a więc różnicuje te osoby w zgodzie z innymi pozycjami testu i tym samym zwieksza wariancję wyników testowania.
Istnieją trzy kategorie tych współczynników:
- proste współczynniki dyskryminacyjne
- współczynniki oparte na analizie różnic między skrajnymi grupami
- współczynniki oparte na analizie korelacji między wynikiem danej pozycji a ogólnym wynikiem w teście:
a) współczynnik korelacji dwuseryjnej: może być obliczany, kiedy spełnione są dwa warunki: 1. rozkład wynikow cechy, mierzonej przez daną pozycję testową, jest de facto zmienną ciągłą o rozkładzie normalnym a jedynie niedoskonałość narzędzia pomiarowego sprawia, że jest to zmienna dyskretna (mająca wartości punktowe); 2. rozkład wyników ogólnych w teście również jest rozkładem normalnym. W takiej sytuacji możemy posłużyć się wzorem:
b) współczynnik korelacji punktowo - dwuseryjnej - liczymy kiedy: 1. rozkład wyników cechy mierzonej przez daną pozycję testową jest zmienną dyskretną (dwukategorialną) oraz rozkład ogólnych wynikow w teście jest rozkładem normalnym. Obliczamy za pomocą wzoru:
3. współczynnik korelacji punktowo - czteropolowej - liczymy wted, kiedy żadnego z
powyższych założeń nie da się utrzymać a więc i wynik pozycji testowej i ogólny wynik w teście są dychotomiczne. Liczymy wzorem:
Dzięki badaniu współczynnika mocy dyskryminacyjnej otrzymujemy zbiór współczynnikow korelacji każdej pozycji z wynikiem ogólnym testu. Możemy obliczyć też średnią tych korelacji. Istnieje związek pomiędzy średnią interkorelacją pozycji testowych i średnią korelacją pozycji z ogólnym wynikiem testowym.
Wzór spearmana - Browna:
gdzie: rii— średnia interkorelacja pozycji testowych; n — liczba pozycji w teście.
3. Pojęcie i aspekty trafności testu.
Obecnie trafność rozumie się jako stopień, w jakim dane empiryczne oraz teoria uzasadniają interpretację wyników testowych w zakładanym kierunku (dawniej trafność oznaczała stopień
a jakim test mierzył cechę, która miał mierzyć.)
Aspekty trafności:
kryterialny - kryterialne dane walidacyjne, dane dotyczące związku z innymi zmiennymi. Aspekt ten może mieć charakter diagnostyczny i prognostyczny. Na podstawie wyników testowych wnioskuje się o przypuszczalnej pozycji badanego względem innej zmiennej - kryterium (jest to empirycznie powiązane)
treściowy - dane walidacyjne oparte na treści testu. Zakres treściowy to zakres w jakim pozycje testowe właściwie reprezentują uniwersum pozycji testowych lub interesujący nas konstrukt (nie jest to aspekt empiryczny, jest niemierzalny, można go tylko oceniać, ale nie można zmierzyć. Określa się go dedukcyjnie, definiując uniwersum pozycji (pełen zakres dziedziny której test ma dotyczyć- np. chcąc badać poziom wiedzy z matematyki w klasie 5 uniwersum treści stanowić będą wymagania programowe z tego przedmiotu dla tej klasy - przykład z Hornowskiej) oraz pobierając z niego systematyczne próbki w celu tworzenia testu.(czyli wybierając określone zagadnienia czy zadania do testu)). Trafność treściową analizuje się szczególnie w przypadku testów wiadomości, umiejętności i osiągnięć szkolnych, niektórych testów uzdolnień, testów zawodowych czy testów zorientowanych na kryterium.
[Aspekt teoretyczny - wyrażenie zbyteczne wg Standardów, gdyż trafność zawsze jest trafnością teoretyczną, bo wyniki są zawsze miara jakiegoś teoretycznego konstruktu. Ogólnie trafność teoretyczną określa się jako ocenę stopnia w jakim dany test odzwierciedla konstrukt, który ma być przedmiotem pomiaru.]
Inne źródła danych walidacyjnych: (dane z różnych źródeł mogą potwierdzać różne aspekty trafności, a trafność wg nowych Standardów jest pojęciem spójnym i jest to stopień w jakim kumulujące się dane potwierdzają zamierzoną interpretację wyników testowych).
Dane oparte na analizie procesu udzielania odpowiedzi - mogą dostarczyć informacji o stopniu zgodności między konstruktem a zachowaniami czy odpowiedziami pojawiającymi się w trakcie rozwiązywania testu, uzyskuje się je analizując indywidualne odpowiedzi, można pytać osobę o stosowane przez nią strategie i zasady odpowiadania na pozycje testu, można ich obserwować itd.
Dane wynikające z analizy struktury wewnętrznej testu - umożliwia ocenę stopnia, w jakim powiązanie między pozycjami testowymi może potwierdzić rozumienie konstrukt leżącego u podstaw zamierzonej interpretacji wyników testowych. Analiza pojęciowa testu może obejmować pojedynczy wymiar zachowania lub dotyczyć kilku wymiarów, z których każdy jest traktowany jako niezależny od pozostałych. (np. pomiar stopnia komfortu w badaniach dot. Zdrowia, może dotyczyć zarówno zdrowia psychicznego, jak i fizycznego).
Dane oparte na konsekwencjach testowania (konsekwencje mogą być pożądane i niepożądane).Same konsekwencje jako takie nie mają wpływu na trafność zamierzonej interpretacji wyników testowych, ale mogą wpłynąć na decyzje o stosowaniu testu. Potencjalnym źródłem braku trafności może być niedoreprezentowanie konstrukt teoretycznego, lub włączenie w jego zakres nieistotnych komponentów ( czyli np. badanie zbyt wyszukanymi testami przy rekrutacji na stanowisko, na którym wymagane są jedynie podstawowe umiejętności.) Testy zazwyczaj stosuje się po to, by zamierzony kierunek interpretacji wyników przyniósł określone korzyści. Podstawowym celem badań walidacyjnych jest określenie, czy uda się osiągnąć taki korzyści, jak np. skuteczność terapii czy niedopuszczenie osób niewykwalifikowanych do określonych zawodów.(np. )
Zestaw nr 22:
1. Teoria uniwersalizacji wyników testowych Cronbacha
Stawia pytania dotyczące wielkości wariancji wynikających z określonego źródła błędu. „Co w konkretnej procedurze jest błędem pomiaru?” „Jaka jest wariancja wynikająca z każdego z tych źródeł”?
Dwie podstawowe różnice między KTT a teorią uniwersalizacji:
w KTT przyjmuje się założenie o ścisłej równoległości, a w TU słabsze założenie o losowej równoległości (dwa testy są losowo równoległe, jeśli można przyjąć, że pozycje tych testów są losowymi próbkami z tego samego uniwersum pozycji)
w KTT występuje jeden współczynnik rzetelności, a w TU uwzględnia się różne
źródła błędu, a więc można obliczyć różne współczynniki rzetelności.
WARIANCJA - wielkość zróżnicowania otrzymanych wynikow wokół ich wartości średniej, czyli wielkość błędu, jaki popełniamy, traktując średnią jako dobre odzwierciedlenie wszystkich wyników indywidualnych. A więc wariancja jest miarą popełnionego błędu. Mała
wariancja oznacza, że średni wynik dobrze odzwierciedla wyniki poszczególnych jednostek.
Źródła wariancji i związane z tym rodzaje rzetelności: (w Hornowskiej to jest wyjaśnione na przykładzie pracy pisemnej studenta, którą oceniają profesorowie)
- rzetelność wewnątrz osoby oceniającej - ten sam sędzia ocenia ten sam wynik wielokrotnie i oceny są zbliżone do siebie.
- rzetelność miedzy oceniającymi - wielu sędziów ocenia jedną pracę i ich oceny są zbliżone do siebie
- zgodność wewnętrzna (między pracami) - jeden sędzia ocenia kilka prac tej samej osoby, jeśli wyniki są do siebie podobne, to znaczy, że są zgodne wewnętrznie.
- wariancja między osobami badanymi - oceny prac różnych osób różnią się między sobą.
W TU zróżnicowanie ocen wewnątrz jednej osoby lub między osobami oceniającymi a także brak zgodności wewnętrznej świadczą o braku rzetelności pomiaru. Są to źródła niepożądane i określa się je jako wariancję błedu. Natomiast wariancja między osobami badanymi jest tym, co chcemy osiągnąć, bo celem testu jest określenie zróżnicowania cechy miedzy osobami
badanymi. Taką wariancję nazwiemy wariancją prawdziwą.
Elementem TU jest określanie schematów badawczych, które pozwalają uzyskać dane na temat wielkości wariancji, wynikające z konkretnych źródeł błędu. Stosuje się analizę wariancji ANOVA. Czynniki, które powinny być wzięte pod uwagę przy wyborze schematu:
- przedmiot pomiaru - w KTT liczymy tylko wariancję wyników prawdziwych i wariancję błędu. W TU możemy badać nie tylko osoby badane, ale też np. porównywać osoby oceniające.
- czynniki pomiaru - mamy do czynienia z różnymi źródłami wariancji wyników. Wariancja, której źródło stanowi przedmiot pomiaru jest wariancją prawdziwą, zaś źródła wariancji błędu (czyli wszystkich pozostałych wariancji) nazywane są czynnikami pomiaru. Każdy czynnik może mieć wiele poziomów (np. jeśli student odpowiada na 5 pytań to mamy 5 poziomów). Czynniki mogą być losowe (poziomy tych czynników są losową próbką wszystkich możliwych poziomów tego czynnika) i stałe (ich poziomy się nie zmieniają), odnoszą się do
wystandaryzownych warunków badania. Przynajmniej jeden czynnik musi być losowy.
Wynik uniwersalny - w TU oznacza odpowiedni wynik średni otrzymany przy losowym wyborze poziomów odpowiedniego czynnika.
Dwa rodzaje badań:
- badania typu G - ich celem jest oszacowanie wielkości wariancji związanej z każdym czynnikiem pomiaru. Znając te wariancje możemy określić konsekwencje zmiany w przyjętym schemacie myślenia i poszukać układu optymalnego.
- badania typu D - określanie rzetelności testu w róznych sytuacjach,
2. Aspekty prawne przeprowadzania badania testowego (to zbieranina z Brzezińskiego,
Hornowskiej i tekstu z nowego Strelaua, ale wszystko pokrywa się ze Standardami)
- Badanie testowe (testem psychologicznym) może przeprowadzać tylko osoba do tego uprawniona, posiadająca odpowiednie kompetencje, posiadająca odpowiednia wiedzę, by prawidłowo test dobrać do sytuacji, przeprowadzić go odpowiednio i obliczyć wyniki, a następnie trafnie je zinterpretować i ewentualnie podjąć kolejne kroki itd.
- Test powinien spełniać kryteria dobroci testu (nie opisuję kryteriów, bo to inne zagadnienie), ma to być test w oryginalnej wersji (tzn. nie można samemu nic zmieniać). Nie powinno się stosować testów, które nie spełniają kryteriów albo które wyszły z użycia z powodu np. braku pokrycia w teorii, albo teoria została podważona przez nowsze badania naukowe (tzn nie należy stosować takich przedawnionych testów do diagnozy, chyba, że jako forma pomocnicza; można za to w badaniach empirycznych porównywać wyniki takich testów z wynikami testów powszechnie używanych i spełniających kryteria - w celach porównawczych).
- Użytkownik testu zobowiązany jest do używania oryginalnych pomocy i arkuszy odpowiedzi do testu - poszanowanie praw autorskich.
- Przebieg badania musi być zgodny z procedurą opisaną w podręczniku do danego testu.
- Odejście od procedur może nastąpić jedynie w przypadkach wyszczególnionych przez autorów podręcznika. Jeśli nastąpiła jakaś modyfikacja to trzeba ja dokładnie opisać opisując procedurę badania czy oceniania wyników.
- Badacz ma obowiązek takiego doboru testu, by zbadać to, co powinien, lub co mu zlecono, nie może szkodzić badanemu (test musi też być trafny ze względu na cel diagnostyczny czy prognostyczny w jakim jest on stosowany).
- Użytkownik testu jest zobowiązany do zabezpieczenia testów w takim zakresie w jakim zaleca to autor testu
- Użytkownik testu zobowiązany jest do respektowania praw autorskich (prawo do nienaruszalności treści i formy utworu) a materiały do przeprowadzenia badania muszą pochodzi z legalnej dystrybucji.
- Należy zadbać o dokładne wyjaśnienie badanym jak będzie przebiegało badania i co powinni robić (chyba, że to jest też częścią badania), należy też zapewnić komfortową atmosferę i wyeliminować czynniki zakłócające.
- Nie można poddawać kogoś badaniu pod fałszywym pretekstem (chociaż utrzymywanie badanego w niewiedzy na temat interpretacji wyników może być konieczne ze względu na efektywność badania testowego.). By nie naruszać prawa badanego do prywatności należy mu wyjaśnić w jakim celu i w jaki sposób wykorzystamy otrzymane wyniki (ale nie można pokazywać pozycji testowych i omawiać sposobu ich oceny i interpretacji, nie można tez tego pokazywać rodzicom, gdy mamy zamiar badać dziecko). Badany musi wyrazić zgodę na badanie testem.
Prawa badanego (nie opisuje dokładniej, bo to było osobne pytanie):
-do dobrowolnej zgody na badanie
-do znajomości swoich wyników
-do tajemnicy jego wyników względem innych żeby się nie dowiedzieli
-do zmniejszenia wpływu etykietowania
-do prywatności
- Jeśli wyniki testu są przekazywane innym osobom - rodzicom, nauczycielom, instytucjom to należy dla nich opracować specjalna interpretację - ma ona być napisana jasno, prostym językiem, konkretny opis co test mierzył, jakie są otrzymane wyniki, co to oznacza, jaka jest dokładność wyników testowych, jak te wyniki są wykorzystane i jakich błędów interpretacyjnych mają ci odbiorcy unikać.
- Gdy interpretacje wyników opracowuje się komputerowo to należy podać źródła, uzasadnienie i empiryczne podstawy takiej interpretacji, brać pod uwagę ograniczenia - komputer nie bierze pod uwagę niuansów tylko twarde dane.
- Gdy przekazuje się wyniki urzędom lub instytucjom należy zachować poufność.
- Przechowywanie wyników i raportów z badań należy dostosować do polityki przechowywania informacji w danych instytucjach
Zestaw 23
2. Moc dyskryminacyjna pozycji testu a dyskryminatywność narzędzia badawczego
Moc dyskryminacyjna danej pozycji danego testu (ang. iłem) mówi nam o tym, w jakim stopniu różnicuje ona daną populację pod względem cechy (zmiennej), której dotyczy. W ujęciu operacyjnym moc dyskryminacyjna wyraża się współczynnikiem korelacji między pozycją i wynikiem ogólnym testu, traktowanym jako suma odpowiedzi zgodnych z kluczem (np. suma odpowiedzi poprawnych na 29 pytań testu „Wiadomości" Skali Inteligencji WAIS-R Wechslera
Najczęściej jako miary mocy dyskryminacyjnej używa się jednego z trzech współczynników korelacji:
współczynnika korelacji punktowo-dwuseryjnej (rphi), Ten typ współczynnika korelacji jest szczególnie przydatny w takich sytuacjach, gdy jedna ze zmiennych, de facto polinomiczna, została zdychotomizowana, jak np. w przypadku analizowania wyników testu uzdolnień, które ocenia się jako prawidłowe" lub „nieprawidłowe"
współczynnika korelacji dwuseryjnej (rbi)t Współczynnik korelacji dwuseryjnej stosuje się w takich samych sytuacjach, co omówiony poprzednio współczynnik, tzn., gdy jedna ze zmiennych została sprowadzona do dwóch klas, przy czym zmienna ta ma w rzeczywistości rozkład normalny (wymaganie rozkładu normalnego odnosi się do kształtu rozkładu w populacji, a nie w próbie).
współczynnika korelacji punktowo-czteropolowej (ę). Współczynnik ę jest przydatny szczególnie wtedy, gdy dysponujemy mało liczną próbą. Im liczniejszą próbą osób się posłużymy, tym niższa wartość współczynnika ę jest statystycznie istotna.
Aspekt, dysktyminatywny czyli różnicowy
W przypadku każdego testu, a zwłaszcza takiego o złożonej strukturze teoretycznej wymagane jest badani - nie tylko aspektu zbieżnego (i to za wszelką cenę!), ale także aspektu różnicowego trafności.
Analiza trafności teoretycznej przeprowadzona metodą analizy macierzy „wielu cech — wielu metod", WCWM (wg: Campbell, Fiske, 1959), umożliwiająca nie tylko zbadanie aspektu zbieżnego, ale także zanalizowanie aspektu różnicowego, jest jedyną sensowną metodą kompleksowego badania trafności teoretycznej testu psychologicznego.
3. IRT.
IRT pozwala na określenie związku pomiędzy odpowiedziami udzielanymi przez osobę badana a zakładana nieobserwowalną cecha leżącą u podstaw zachowań testowych
ZAŁOŻENIA IRT:
1. istnieje jeden czynnik wyjaśniający obserwowane kowariancje pomiędzy wszystkimi pozycjami testowymi - zmienna latentna
2. związek pomiędzy cechą latentną a obserwowana odpowiedzią na pozycje testu ma określony kształt. Graficzna forma tego związku to krzywa charakterystyczna pozycji testowej ( ICC)
3. każda krzywa ICC można opisać za pomocą określonych parametrów
a) współczynnik mocy dyskrimancyjnej
b) współczynnik trudności
c) współczynnik zgadywania
4. parametry krzywych ICC (a, b, c) są niezależne względem badanych grup osób. Jeżeli danym testem zbadamy kilka różnych grup osób to otrzymamy te same wartości szacowanych parametrów.
5. istnieje wiele matematycznych sposobów (modeli) opisywania krzywych ICC
6. w IRT wykorzystuje się wskaźnik informacji i przyjmuje się, że każda pozycja testowa ma swój odrębny wkład w stopień redukcji niepewności przez cały test. Wskaźnik = suma wskaźników informacji dostarczanych przez poszczególne pozycje testu
* GDZIE WYKORZYSTUJE SIĘ MODEL IRT?:
1. adaptacja językowa testu - celem jest prezentowanie osobie badanej jedynie takich pozycji testowych, których trudność odpowiada poziomowi mierzonej cechy latentnej. Osoba badana odpowiada jedynie na taki zestaw pozycji testowych, który w optymalny sposób pozwoli określić właściwy dla niej poziom mierzonej cechy
2. szacowanie stronniczości pozycji testowych - polega na porównywaniu krzywych ICC opisujących daną pozycję testową, a otrzymanych dla dwóch różnych grup osób należących do tej samej popul.
- stronniczość pozycji testowych def jest jako różnica między krzywymi ICC otrzymanymi dla dwóch grup wyłonionych z tej samej popul i nie różniących się ogólnym poziomem zdolności
Dla ambitniejszych więcej ;)
Ograniczenia modelu klasycznego
W klasycznej teorii testów przyjmuje się, że związek między wynikiem prawdziwym (rozumianym jako wynik standardowy z) a wynikiem otrzymanym w teście jest związkiem prostoliniowym (regresją liniową). Przedziały ufności są takie same dla wszystkich wyników, a wartość błędu pomiaru zależy od konkretnej badanej populacji. Podobnie, wartość parametrów charakteryzujących pozycje testowe również zależy od konkretnej populacji.
Natomiast w ramach teorii odpowiadania na pozycje testu związek między wynikiem prawdziwym a wynikiem otrzymanym nie jest związkiem liniowym, a szerokość przedziałów ufności jest inna w środku, a inna na krańcach rozkładu (przedziały są szersze dla skrajnych wyników). Błąd standardowy pomiaru nie jest związany z konkretną populacją, podobnie jak nie są z nią związane parametry opisujące pozycje testowe. W ramach IRT oszacowania poziomu badanej cechy dokonuje się oddzielnie dla każdej odpowiedzi testowej, kontrolując zarazem parametry danej pozycji testu
Założenia IRT
W teorii odpowiadania na pozycje testu przyjmuje się trzy podstawowe założenia: (1) o wymiarach przestrzeni latentnej, (2) o lokalnej niezależności pozycji testowych i wreszcie (3) o krzywej charakterystycznej pozycji testowej.
Pierwsze założenie dotyczy wymiarów przestrzeni latentnej (ang. dimen-tionality of latent space). W IRT przyjmuje się, że zachowanie osoby badanej w teście można przypisać pojedynczej cesze latentnej (nieobserwowalnej). Cecha latentna zaś to zmienna wyznaczająca zachowanie osób w danym teście. Ta zmienna właśnie determinuje obserwowane zależności statystyczne między pozycjami testu (por. Osterlind, 1983; Camilli, Shepard, 1994).
Test, który mierzy jedną cechę latentną, jest testem jednowymiarowym. Testami jednowymiarowymi są np. testy zdolności (np. matematycznych, językowych czy myślenia technicznego). Wszystkie zależności statystyczne stwierdzane między pozycjami testowymi są wyjaśniane przez odwołanie się do jednej cechy latentnej.
Założenie drugie dotyczy lokalnej niezależności pozycji testowych (ang. local independence of item). W założeniu tym przyjmuje się, że odpowiedzi każdej osoby badanej na jedną pozycje testową nie zależą od jej odpowiedzi na jakąkolwiek inną pozycję tego testu. Oznacza to zatem, że rozkład wyników poszczególnych pozycji testowych zależy jedynie od parametru 0; wyniki pozycji testowych są statystycznie niezależne. Jeżeli test jest rzeczywiście jednowymiarowy (założenie 1), to założenie o lokalnej niezależności pozycji testowych jest również spełnione. Wówczas możemy przyjąć, że cecha latentna jest mierzona w sposób niezależny k razy, gdzie k oznacza liczbę pozycji testowych.
Krzywa charakterystyczna pozycji testowej
Najważniejsze założenie przyjmowane w ramach IRT dotyczy krzywych charakterystycznych pozycji testowych (ang. item characteristic curve - ICC) i jest kluczowym założeniem teorii odpowiadania na pozycje testu. Krzywa charakterystyczna pozycji testowej to graficzny obraz funkcji matematycznej, wiążącej prawdopodobieństwo udzielenia odpowiedzi prawidłowej na daną pozycję testową z poziomem cechy, operacyjnie wyznaczonym przez ogólny wynik w teście.
Gdzie wykorzystuje się modele IRT?
Modele formułowane w ramach IRT są dzisiaj szeroko wykorzystywane. Typowym przykładem ich zastosowania są adaptacja językowa testu, testowanie adaptacyjne (interakcyjne) i szacowanie stronniczości pozycji testowych.
Zastosowanie modeli IRT do tłumaczeń językowych. W ramach IRT podejmowane są próby teoretycznego ujęcia problematyki oceny równoległości tłumaczeń. Analiza tłumaczeń w ramach IRT oparta jest na określaniu podobieństw związku między odpowiedziami na pozycje testowe a leżącą u ich podstaw cechą latentną dla dwóch języków (języka oryginału i języka tłumaczenia). O równoległości oryginalnej pozycji testowej i pozycji przetłumaczonej decyduje podobieństwo krzywych ICC wyznaczonych dla tych pozycji (por. Hulin, Drasgow, Parsons, 1983).
Testowanie adaptacyjne (interakcyjne). Konstruktorzy testów psychologicznych zainteresowani są zazwyczaj stworzeniem metody obejmującej szeroki zakres wartości interesujących ich charakterystyk. Jest to możliwe dzięki dobieraniu pozycji testowych o zróżnicowanym współczynniku trudności w taki sposób, aby średnia ich trudność oscylowała wokół 50%. Niezamierzoną konsekwencją takiego doboru pozycji testowych jest konieczność odpowiadania przez osobę badaną na wiele pozycji zbyt łatwych lub zbyt trudnych. Pomijając samą czasochłonność takiej procedury (zarówno w wypadku osoby badanej, jak i badającej), może on powodować u osoby badanej spadek motywacji do rzetelnego odpowiadania na pozycje testu.
Zastosowanie modeli IRT do szacowania stronniczości pozycji testowych. Strategia badania stronniczości pozycji testowych wywodząca się z IRT polega na porównywaniu krzywych ICC opisujących daną pozycję testową, a otrzymanych dla dwóch różnych grup osób należących do tej samej populacji. I tak „(...) zbiór pozycji testowych możemy traktować jako zbiór bezstronny, jeżeli krzywe ICC wyznaczone dla każdej pozycji testowej tworzącej ten zbiór będą takie same dla obu rozważanych grup należących do tej samej populacji" (Crocker, Algina, 1986, s. 377). Tak więc, w ramach IRT stronniczość pozycji testowych definiowana jest jako różnica między krzywymi ICC otrzymanymi dla dwóch grup (np. etnicznych), wyłonionych z tej samej populacji i nie różniących się ogólnym poziomem zdolności.
Najczęściej stosuje się dwie miary stronniczości: (1) wielkość przestrzeni między krzywymi ICC (Rudner, 1980) oraz (2) test hipotezy o równości trzech parametrów w porównywanych grupach (Lord, 1977; 1980), Na rys. 5.9 przedstawiono trzy hipotetyczne sytuacje, w których stronniczość pozycji testowej przypisywana jest (a) różnej mocy dyskryminacyjnej pozycji testowej w obu grupach, (b) różnej trudności i (c) różnym współczynnikom zgadywania (por. też Hornowska, 1999).
Stosowanie item response theory jako modelu teoretycznego dającego podstawę do konstruowania konkretnych technik szacowania stronniczości pozycji testowych jest najbardziej dojrzałym rozwiązaniem z wszystkich proponowanych w literaturze przedmiotu. Podstawową barierą utrudniającą jego szerokie stosowanie jest matematyczna złożoność obliczeń. Można mieć jednak nadzieję, że przy dzisiejszym tempie rozwoju oprogramowania komputerowego ta przeszkoda szybko zniknie (dostępnych jest już kilka programów obliczeniowych), a wówczas - nie tylko w omawianym przez nas obszarze zagadnień - teoria odpowiadania na pozycje testu, czyli item response theory, zastąpi klasyczną teorię testów.
Zestaw nr 24:
1. Kryteria klasyfikacji i rodzaje testów.
Test to każda standaryzowana metoda diagnostyczna
Format(rodzaj) pozycji testowych czyli itemów nie stanowi kryterium odróżniania testów od „nietestów”
Test psychologiczny jest specyficzną procedurą diagnozowania. Może on być zbiorem zadań lub pytań, które w standardowych warunkach mają wywołać określone rodzaje zachowań i dostarczać wyników o pożądanych właściwościach psychometrycznych, tj. posiadających wysoką rzetelność i wysoką trafność.
Test psychologiczny jest narzędziem, które:
-pozwala na uzyskanie takiej próbki zachowań, o których można przyjąć, że są wskaźnikami interesującej nas cechy psychologicznej. Zachowania te nie muszą ściśle przypominać zachowań, które chcemy oszacować na podstawie testu. Wystraczy wykazać, że istnieje między nimi określony związek
-dostarcza reguł obliczania wartości mierzonej cechy
-spełnia określone kryteria formalne
-jasno określa zakres i rodzaj dopuszczalnych zachowań ze strony diagnosty
-zakłada kooperacyjną postawę osoby badanej
Rodzaje testów
--standaryzowane i niestandaryzowane - testy standaryzowane to takie testy, które posiadają dokładnie sprecyzowane zasady ich stosowania oraz zostały wyposażone w normy, otrzymane w wyniku przebadania reprezentatywnej próby pochodzącej z populacji, dla której test mabyć stosowany. Do testów niestandaryzowanych można zaliczyć np. testy wiadomości budowane przez nauczycieli na ich własny użytek, w których dopuszcza się możliwość interakcyjnego modyfikowania sytuacji badania.
--indywidualne i grupowe
--szybkości i mocy - testy szybkości to takie testy, których czas rozwiązania jest ograniczony i żadna osoba badana nie powinna go ukończyć w wyznaczonym czasie; w teście tym różnice indywidualne są głównie determinowane szybkością wykonania. Testy mocy to testy stwarzające każdej osobie badanej szansę na podjęcie próby rozwiązania wszystkich pozycji testu, trudność zadań w takim teście stopniowo rośnie.
--obiektywne i nieobiektywne - testy obiektywne posiadają tak starannie opracowane, stałe metody obliczania wynków, że sam wynik może zostać obliczony nawet przez osobę bez pzrygotowania psychologicznego. W testach nieobiektywnych ocena odpowiedzi osoby badanej wymaga zazwyczaj dużej znajomości przedmiotu pomiaru i otrzymany wynik często odzwierciedla subiektywne umiejętności psychologa.
--słowne i bezsłowne - testy słowne zawierają zadania zbudowane wyłącznie z materiału werbalnego natomiast bezsłowne polegają na wykonywaniu określonych czynności.
--testy właściwości poznawczych i właściwości afektywnych - testy właściwości poznawczych to testy mierzące wytwory procesów poznawczych(testy zdolności, uwagi, pojemności pamięci). Testy właściwości afektywnych mierzą postawy, wartości, zainteresowania czy inne pozapoznawcze, aspekty osobowości.
--testy zorientowane na normy i zorientowane na kryterium - w testach zorientowanych na normy punktem odniesienia dla interpretacji wyników jest konkretna populacja osób, a w testach zorientowanych na kryterium tym punktem jest konkretny zakres wiedzy.
Zestaw nr 25:
2. Ewolucja pojmowania trafności testu.
Na podstawie wykładu siódmego:
Podejście tradycyjne:
trafność
-stopień, w jakim test mierzy cechę, którą miał mierzyć ( a na ile mierzy też inne uboczne
cechy)-ogólnie: na ile spełnia założenia pomiarowe;
-sensowność interpretacji wyniku (zasadność przypisania im określonego znaczenia psychologicznego)
Podejście tradycyjne-rodzaje trafności:
treściowa- na ile itemy są odpowiednie w stosunku do badanej cechy (są reprezentatywne dla uniwersum pozycji diagnostycznych dla danego konstruktu)
teoretyczna- stopień w jakim test odzwierciedla cechę, do pomiaru której jest przeznaczony (trafność zbieżna a trafność różnicowa)
kryterialna- na ile wyniki umożliwiają ocenę zmiennych zewnętrznych w stosunku do testu (zazwyczaj realnych kryteriów)
(?) fasadowa- wrażenie, jakie test wywiera na osobach badanych (trafność???)
Podejście współczesne:
Trafność- stopień, w jakim dane empiryczne oraz teoria uzasadniają interpretację wyników testowych w zakładanym kierunku
Podejście współczesne- aspekty trafności:
-„kryterialny”-kryterialne dane walidacyjne, dane dotyczące związku z innymi zmiennymi
-Diagnostyczny
-prognostyczny
-„treściowy”- dane walidacyjne oparte na treści testu
„teoretyczny”- wyrażenie redundantne: wszystkie wyniki są miarą jakiegoś konstruktu
(trafność = trafność teoretyczna)
E. Hornowska, Testy psychologiczne. Teoria i praktyka, s. 80-81 :
Pojęciu trafności nadawano różne znaczenie.
Pierwotnie przez trafność rozumiano po prostu dokładność, z jaką test realizuje założone cele. W tym rozumieniu trafność traktowana była- podobnie jak współczynnik rzetelności-jako stała właściwość wyników testowych.
Koncepcja ta staje się zrozumiała, jeśli uwzględnić jak tworzone były pierwsze testy: autor testu zazwyczaj z góry decydował co dany test będzie mierzył, i konstruował go tak, aby osiągnąć cel. Możliwość, że dany test równie dobrze mierzy inną cechę rzadko była brana pod
uwagę.
Prace Cronbacha i Meehla (1955) oraz Messicka(1989) spowodowały, że pojęcie trafności przestało być tak statycznie rozumiane. Pytanie: „ jak dobrze test realizuje
zamierzenia jego autora?” zastąpiono pytaniem: „ co test mierzy i jak dobrze to robi”
Messick (1989) : trafność- zintegrowany proces oceny stopnia, w jakim dowody empiryczne i rozważania natury teoretycznej potwierdzają adekwatność i poprawność interpretacji oraz programów działania wyprowadzonych na podstawie wyników testowych czy innych narzędzi pomiaru.
W tej definicji widać wyraźnie zmianę perspektywy oraz przesunięcie punktu ciężkości- z pojęcia trafności testu na pojęcie trafności interpretacji wyników testowych. W takim też
duchu definiują trafność Standardy…
Określenie trafności danego testu, nazywane w psychometrii procesem walidacji testu, polega na zbieraniu i ocenie danych świadczących o trafności określonej interpretacji wyników testu. Im więcej przeprowadza się badań z udziałem danego testu, tym szerszy jest obszar jego
zastosowania.
W procesie walidacji ważną rolę odgrywa zarówno autor testu, jak i jego użytkownik.
3. Założenia teoretycznej (statystycznej) definicji rzetelności testu (chciał definicje z Nowakowskiej, ponoć miała "tylko" dwa zdania, ale "jakże trafne"..., nie interesowały
go inne).
Założenie implikujące nieskorelowanie błędów - ZAŁOŻENIE TZW. LINIOWEJ EKSPERYMENTALNEJ NIEZALEŻNOŚCI POMIARÓW: dwa pomiary są liniowo eksperymentalnie niezależne, jeżeli dla każdej osoby wartość oczekiwana wyniku testowego przy jednym pomiarze nie zależy od wyniku zaobserwowanego w drugim pomiarze. Założenie liniowej eksperymentalnej niezależności odgrywa w teorii testów bardzo ważną rolę: zastępuje ono centralne dla wnioskowań statystycznych założenie niezależności obserwacji, będąc specyficznym dla teorii testów założeniem o powtarzanych pomiarach tej samej osoby.
Zestaw nr 26:
1. Rzetelność w pomiarze.
W sensie psychometrycznym rzetelność oznacza powtarzalność wyników testowych w kolejnych pomiarach. Wyniki obserwowalne testu nic nam nie mówią, bo nie wiemy, w jakim stopniu odzwierciedlają wyniki prawdziwe. Dlatego na początku korzystania z testu musimy dowiedzieć się, jaki jest związek między wynikami obserwowalnymi a prawdziwymi. Współczynnik korelacji między wynikami obserwowanymi a wynikami prawdziwymi nazywa się WSKAŹNIKIEM RZETELNOŚCI. RZETELNOŚĆ TESTU to kwadrat korelacji między wynikami otrzymanymi a prawdziwymi. Czyli jest to stosunek wariancji wyników prawdziwych do wyników otrzymanych. Inaczej mówiąc, rzetelność mówi nam o tym, w
jakim stopniu wariancja wyników prawdziwych określa wariancję wyników otrzymanych.
Ta definicja nie ma znaczenia praktycznego, ponieważ nie znamy nigdy wariancji wyników prawdziwych (wartość nieobserwowalna). Jeśli potraktujemy rzetelność jako powtarzalność, to możliwe byłoby ponowne przebadanie tej samej grupy tym samym testem po określonym czasie, wielkość współczynnika korelacji wyników pierwszego i drugiego testu dałaby nam odpowiedź o rzetelności testu. ALE badanie testowe jest uwrażliwiające, więc ponowne przebadanie tym samym testem nie jest wiarygodne. Aby rozwiązać ten problem wprowadzono TESTY RÓWNOLEGŁE, które spełniają następujące warunki:
średni wynik testu A = średni wynik testu B
odchylenie standardowe wyników otrzymanych w teście A = odchylenie standardowe wyników otrzymanych w teście B
interkorelacje pozycji w teście A są takie same jak interkorelacje pozycji w teście B
współczynnik korelacji wyników otrzymanych w teście A z pewną zmienną Z jest taki sam, jak współczynnik korelacji wyników otrzymanych w teście B z tą samą zmienną.
Współczynnik korelacji między wynikami otrzymanymi w dwóch testach równoległych,
określany jako WSPÓŁCZYNNIK RZETELNOŚCI jest miarą rzetelności testu.
Tłumacząc prosto:
Współczynnik rzetelności jest odsetkiem wariancji wynikow otrzymanych, jaką można przypisać wynikom prawdziwym.
Czyli
Jeśli rzetelność wynosi 0,81 to oznacza, że 81% wariancji wyników otrzymanych w teście stanowi wariancja wyników prawdziwych.
Jak badać rzetelność?
Technika test - retest czyli dwukrotne stosowanie tego samego testu. Rzetelność jest w tym wypadku wielkością współczynnika korelacji pomiędzy wynikami testowymi otrzymanymi za pierwszym i za drugim razem.
Współczynnik rzetelności szacowany tą metodą określany jest jako WSPÓŁCZYNNIK STABILNOŚCI BEZWZGLĘDNEJ, określa w jakim stopniu wyniki są wrażliwe na przypadkowe zmiany dotyczące badanego lub sytuacji badania. Istotna tu jest długość przerwy między badaniami (musi być na tyle długa, aby badany zapomniał, co było w teście, ale na tyle krótka, aby nie zdążyła się dokonać istotna zmiana rozwojowa). Można też badać dwa razy bez żadnej przerwy, uzyskujemy wtedy WSPÓŁCZYNNIK WIARYGODNOŚCI TESTU, pozwala wychwycić takie czynniki jak zmęczenie czy chwilowa fluktuacja uwagi (związane z osobą).
Metoda test - retest jest wystarczająca dla testów motorycznych czy różnicowania sensorycznego, ale w wypadku testów psychologicznych nie jest zalecana.
wykorzystanie alternatywnych wersji testu - dwóch wersji tego samego testu, świadomie konstruowanych tak, aby zostało spełnione założenie o równoległości. Jeśli testy wykonywane są jeden po drugim, uzyskujemy WSPÓŁCZYNNIK RÓWNOWAŻNOŚCI MIĘDZYTESTOWEJ, który mówi nam, w jaki sposób błąd jest uzależniony od różnic między wersjami testu. Jeśli zaś między testami występuje jakaś przerwa czasowa, wynik będzie WSPÓŁCZYNNIKIEM STABILNOŚCI WZGLĘDNEJ, który określa stabilność wyników testowych oraz wpływ treści na te wyniki.
Rzetelność można też szacować za pomocą jednokrotnego badania danym testem.
metoda połówkowa - dzielimy test na dwie, równoległe połowy (najlepszą metodą jest podział na pozycje parzyste i nie parzyste) i obliczamy współczynnik korelacji wyników otrzymanych w pierwszej i drugiej połowie testu, czyli WSPÓŁCZYNNIK RZETELNOŚCI MIĘDZYPOŁÓWKOWEJ. Uzyskujemy w ten sposób wynik rzetelności jednej połowy testu, który następnie przeliczamy za pomocą wzoru Spearmana Browna (rtt=2rpp/1+rpp). Warunkiem koniecznym tej metody jest udzielenie przez wszystkich badanych odpowiedzi na wszystkie pytania testowe (więc nadaje się tylko do testów mocy).
badanie zgodności wewnętrznej - założenie początkowe: skoro test można podzielić na połowy w różny sposób, to możemy otrzymać różne wyniki rzetelności. Stąd warto wiedzieć, jaki jest średni współczynnik rzetelności testu, biorąc pod uwagę wszystkie jego przepołowienia. Kuder i Richardson opracowali pojęcie WSPÓŁCZYNNIKA ZGODNOŚCI WEWNĘTRZNEJ. Najczęściej wykorzystujemy dwa wzory: KR20, kiedy bierzemy pod uwagę średnią wariancję wszystkich pozycji testowych (zalecany) i KR21, kiedy bierzemy pod uwagę średnią trudność pozycji testowych.
Te wzory nadają się do pozycji dwukategorialnych (odpowiedzi diagnostyczne i niediagnostyczne). Jeśli kategorii jest więcej, korzystamy z modyfikacji wzoru, zwanej alfa - Cronbacha (niestety nie jestem w stanie przepisać tu tego wzoru , takich cudów w Wordzie nie potrafię ).
Rzetelność jako zgodność ocen - dajemy test do oceny dwóm osobom oceniającym i obliczamy współczynnik korelacji między tymi ocenami.
Która metoda jest najlepsza? Wg Choynowskiego:
- współczynnik stabilności względnej, jako najbardziej rygorystyczna miara prowadzi do estymacji dolnej granicy rzetelności, dając niższe wyniki niż inne metody.
- współczynnik rzetelności międzypołówkowej daj przecenianie rzetelności gdyż nie bierze
pod uwagę błędów wynikających ze zmienności w czasie.
Nie istnieje coś takiego jak ogólna rzetelność - określając jej wysokość, trzeba koniecznie podać metodę, jaką została badana.
2. Quasi-normalizacja: wyniki standaryzowane, normy rangowe, normy
równoważnikowe.
Normy tworzy się aby umożliwić porównywanie wyników testowych.
Normalizacja rozkładu: nieliniowe przekształcenie wyników surowych do rozkładu
normalnego (o znanych właściwościach).
NORMY STANDARDOWE
Powstają przez przekształcenie wyników surowych otrzymanych w teście na wyniki standarodw z, wg wzoru:
z=Xi-Xśr/s
Xi - wynik surowy danej osoby, Xśr - średni wynik w teście dla właściwej grupy odniesienia, s - odchylenie standardowe dla tej samej grupy odniesienia. Wyniki standardowe mają średnia 0 i SD = 1.
Wynik standardowy mówi nam o tym, jak bardzo wynik surowy otrzymany przez daną oobę odbiega od średniego wyniku grupowego, ta odległość jest wyrażona w jednostkach odchylenia standardowego.
Najbardziej popularna typologia do porównywania:
wyniki bardzo niskie: -2z i mniej - ok. 2,27% populacji
wyniki niskie: od -1z do -2z - ok. 13,59% populacji
wyniki średnie: od -1z do 1z - ok. 68,26% populacji
wyniki wysokie: od 1z do 2z - ok. 13,59% populacji
wyniki bardzo wysokie: powyżej 2z - od 2,27% populacji.
Ta skala jest niewygodna, ponieważ 0 oznacza jej środek, dlatego korzystając z transformacji
liniowej stworzono inne skale, które mają początek równy 0 i wszystkie wartości dodatnie.
Przeliczanie: jednostka nowej skali = S*z+M
skala tetronowa M= 50, S=10, zakres 101 jednostek (ma największy zasięg ze wszystkich skal), obejmuje przedział od -5 do 5 pdchyleń standardowych w rozkładzie normalnym. Wykorzystywana w MMPI.
stenowa - M 5,5; S=2, zasięg -2,25 - 2,25 odchyleń standardowych, 10 punktów.
staninowa - 9 punktów, M=5, S=2, zasięg -2; 2 oodchylenia (tylko środek skali wiec nadaje się tylko do diagnozowania normy).
IQ Wechslera - M=100, S=15,
tetronowa - M=10, S=4, liczy 21 punktów.
NORMY RANGOWE:
Przedstawianie wynikow za pomocą wentyli. Centyl jest punktem na skali, poniżej którego leży określony odsetek rozkładu. 50 cetyl odpowiada medianie rozkładu, czyli opisuje poziom wykonania testu przez najbardziej typową osobę (znajdującą się dokładnie pośrodku).
NORMY TYPU RÓWNOWAŻNIKOWEGO - dziś rzadko stosowane. Mają charakter
opisowy, pozwalają określić jak daleko na drodze normalnego rozwoju znalazła się jednostka. Wyniki nie nadają się do obróbki psychometrycznej.
równoważniki wieku - to liczby wskazujące na kolejny rok i miesiąc życia badanych osób, odpowiadające średniej arytmetycznej lub medianie wykonania testu na danym etapie rozwoju. Przykład: wiek umysłowy (z testu Bineta i Simona). Metoda ma wady, podstawową jest to, że jednostka wieku umysłowego maleje z czasem, co innego oznacza roczne opóźnienie dla dziecka 5 letniego,a co innego dla 14 - latka.
Równoważniki klasy - podobne, ale uwzględniają rok i miesiąc nauczania w szkole. Typowe dziecko w piątej klasie, w trzecim miesiącu nauki powinno uzyskać wynik 5,3.
Zestaw 27
2. Klasyfikacja i modele pomiaru, rodzaje pomiaru, skale pomiarowe
RODZAJE SKAL ( z wykładu)
Kierunki analizy w odniesieniu do skal:
1. przewidywanie - wskaźniki liczbowe są wykorzystywane przede wszystkim do tego, aby przewidywać wartości pewnych zmiennych niezależnych. Można dążyć do skonstruowania takiej skali liczbowej, która by maksymalizowała korelację z pewnym kryterium zewnętrznym
2. opis - liczby przyporządkowane obiektom traktowane są jako opisowe wskaźniki statystyczne dotyczące pewnej próbki lub populacji
3. przyporząd. bezpoś. - skale liczbowe uzyskiwane są nie z pośrednictwem dobrze określonej relacji reprezentowania, lecz tworzone bezpośrednio przez osoby badane, które działają zgodnie z określoną instrukcją
Modele pomiaru:
Pomiar ekstensywny jest oparty na empirycznej operacji wiązania (konkatenacji) takiej jak zestawienie obu przedmiotów na jednej szalce, która to operacja odpowiada dodawaniu. W pozostałych przypadkach pomiar jest intensywny. Pomiar ekstensywny pozwala posłużyć się skalą przedziałową gdyż na niej można mierzyć tylko własności ekstensywne.
Ponieważ cechy psychologiczne są z natury intensywne to w psychologii nie jest w ogóle możliwy pomiar na skali przedziałowej. Pomiar intensywny jest wtedy gdy konkatenacja nie jest możliwa.
3. Zagadnienie zgadywania
Dwa znaczenia zgadywania:
- zgadywanie w testach wiadomości - zgadywanie prawdziwej odpowiedzi
- zgadywanie w innych testach - zgadywanie swojego położenia na kontinuum cech
*Paradoks psychometryczny: wyniki w itemach najsilniej różnicujących są najmniej stabilne (najtrudniejsze)
Zestaw nr 28:
2. Etapy konstrukcji narzędzia diagnostycznego
• Określenie celu postępowania i teoretyczne zdefiniowanie przedmiotu pomiaru (zmiennej)
• Wyróżnienie obszarów treściowych („wymiary”) i form manifestacji („przejawy”,
„wskaźniki”) zmiennej teoretycznej
- operacjonalizacja zmiennej
- „bateria wskaźników” (indeks)
• Określenie kryteriów i zasad posługiwania się narzędziem, m.in. ustalenie:
- badanie indywidualne czy zbiorowe?
- prowadzenie badania przez badającego czy samodzielne posługiwanie się narzędziem przez
badanego?
• kwestie instrukcji i ochrony danych
- badanie „bezpośrednie” czy „pośrednie” (np. wywiad środowiskowy, analiza wytworów, analiza dokumentów itp.)?
• Określenie „formatu itemów”
- np. opisy sytuacji i możliwe zachowania w nich, itemy dotyczące zachowao, czy itemy dotyczące cech i/lub dyspozycji?
- twierdzenia czy pytania?
- liczba i treśd kategorii odpowiedzi
• parzyste - nieparzyste
• liczby - określenia słowne
• krańce skali
• Wygenerowanie puli itemów
- wykorzystywanie istniejących narzędzi
- eksperci
- pytania otwarte w badaniach pilotażowych
- własne pomysły
• Analiza treściowa i językowa
- np. technika Delhi
• Opracowanie klucza odpowiedzi, instrukcji, budowy i formy kwestionariusza
(standaryzacja - w jednym ze znaczeo tego terminu)
• Zebranie danych - określenie zbiorowości generalnej, dobór próby, badanie pilotażowe
• Wielkośd próby walidacyjnej = liczba itemów × (min.) 5 do 10 osób, lecz nie mniej niż
200 o.b.
• Normalizacja „pierwotna” (in. standaryzacja w drugim znaczeniu) - transformacja wyników
surowych na skale standardowe
- np. teny, steny, staniny, tetrony itp.
• Analiza itemów
- moc dyskryminacyjna (np. D, rbi, t )
- wskaźnik „trudności”
- wskaźniki rzetelności i trafności poszczególnych itemów
- analiza efektów prostych
• Estymacja rzetelności narzędzia
- estymacja wiarogodności
- estymacja konsystencji
- estymacja stabilności
- (estymacja konsensyjności?)
• Badanie trafności narzędzia
- uwzględnienie różnorodnych danych walidacyjnych
• „Renormalizacja”
Zestaw nr 29:
2. Trafność fasadowa, niejasności wokół niej
Brzeziński mówi, że:
Trudno powiedzieć, dlaczego utrwaliło się wśród psychologów przekonanie, że oprócz tzw. Holy Trinity (Gunio) tj.:
trafności kryterialnej — diagnostycznej i prognostycznej
trafności treściowej
trafności teoretycznej
wyróżnia się jeszcze czwarty rodzaj „trafności", a właściwie pseudotrafności: trafność
fasadową
Ten rodzaj pseudotrafności upowszechnił się w Polsce, za sprawą Choynowskiego, który opublikował, artykuł Bechtoldta, pt.: Teoretyczne podstawy metod testowych: trafność i prognoza
Czytamy tam: „termin trafność fasadowa dotyczy sposobu, w jaki badani reagują na wygląd testu i na metodę testowania — niektóre testy są dla badanych bardziej strawne niż inne. Bardziej ogólnym terminem oddającym to, o co tu chodzi, jest kontakt stworzony między badanym a badającym przez instrukcję i postępowanie przy testowaniu"
Brzeziński uważa, że w tym wypadku nie należało odwoływać się do terminu trafność.
Guilford:„termin trafność fasadowa ma wiele znaczeń i stosowany jest nader swobodnie. Najczęściej wiąże się go z faktem, że test wydaje się trafny i to szczególnie tym osobom, które nie posiadają profesjonalnego wykształcenia w dziedzinie badań testowych. To, że test wydaje się trafny, nie jest jeszcze oczywiście żadną gwarancją rzeczywistej trafności tego testu (...) i nawet doświadczony psycholog powinien być bardzo ostrożny wobec tego typu informacji. Niektórzy mówiąc o zasadach akceptacji niektórych testów twierdzą żartobliwie,
że są one stosowane na zasadzie wiary w trafność".
Mosier krytyka „trafności fasadowej" zwrócił uwagę na tzw. trafność na mocy założenia, co Guilford skomentował następująco: „istnieją takie miary (np. wyniki testu osiągnięć), których trafność przyjmowana jest na mocy umowy. Innymi słowy zakładamy, że wyniki testowe rzeczywiście mierzą to, co chcemy aby mierzyły. (...) trafność niektórych testów (innych niż testy osiągnięć) również przyjmowana jest na mocy umowy. (...) Prawdziwym przeżyciem poznawczym jest praca nad testem, który tak dobrze wydaje się mierzyć daną cechę, że z całą pewnością nie może chybiać, a po zastosowaniu analizy korelacyjnej okazuje się mierzyć zupełnie inne czynniki". Błąd tkwi w przekonaniu, że: „dwie rzeczy, mające tę samą nazwę
(...) są skutkiem tego tym samym" (Bechtoldt, 1968, s. 37).
ze Standardów...: „Tak zwana trafność fasadowa będąca tylko pozorem trafności, nie jest
właściwą podstawą wniosków wyprowadzanych z wyników testowych".
Z notatek, które kserowałam: Brak respektowania trafności fasadowej może zaowocować
brakiem motywacji do rozwiązywania testu
Źródło: Brzeziński, Metodologia Badań Psychologicznych, s 516-517
3. O alfie Cronbacha, współczynniki psychometryczne
Wygodny w użyciu wzór na współczynnik rzetelności, stanowiący uogólnienie wzoru K-R 20 dla pozycji ocenianych w dowolny sposób, tj. nie tylko „0-1"
Bywa stosowany do obliczania współczynnika rzetelności skal postaw i kwestionariuszy osobowości, których pozycje wymagają wyboru jednej z kilku możliwych kategorii odpowiedzi (np. „tak", „nie wiem" „zgadzam się", „raczej zgadzam się", „raczej nie zgadzam się", „nie zgadzam się").
Podejście Kudera-Richardsona-Cronbacha można rekomendować jedynie w przypadku gdy:
test ma strukturę jednoczynnikową, tzn. zakłada się, że pozycje testu mierzą tę samą zmienną;
test zbudowany jest z pozycji równoległych.
w takiej sytuacji omawiane podejście daje najlepsze oszacowanie wewnętrznej zgodności testu.
Jego wartość będzie tym większa, im bardziej jednorodna będzie próbka pozycji tworzących test pobrana z populacji pozycji.
Nie jest miarą uniwersalną (nie bada wszystkich aspektów rzetelności)
nie jest wolna od ograniczeń. O tych ostatnich psycholog najczęściej zdaje się zapominać.
Może z powodzeniem zastąpić, w przypadku obliczania rzetelności baterii testów, współczynnik Mosier
Źródło: Brzeziński, Metodologia badań psychologicznych
Właściwości psychometryczne współczynnika alfa Cronbacha na podstawie artykułu
Lee Cronbacha:
Def: Współczynnik rzetelności pokazuje, czy twórca testu słusznie zakłada, że pewna pula pozycji testowych dostarczy nadających się do interpretacji wniosków n. t. różnic indywidualnych. (Kelley)
Ogólny wskaźnik alfa, którego szczególnym przypadkiem jest wzór KR 20 ma następujące
ważne właściwości:
1. Współczynnik alfa jako równoważnik losowej próby pozycji testowych:
Mierzy to samo co współczynniki połówkowe
Jeżeli podzielimy test na wszystkie możliwe połówki, to alfa będzie średnią z otrzymanych w ten sposób współczynników
Jeżeli wykonamy tylko jedno połówkowanie i przeprowadziliśmy ten podział losowo, to otrzymana wartość będzie leżała gdzieś w rozkładzie, którego średnią jest alfa
Jeżeli rozkład współczynników połówkowych jest bardziej lub mniej symetryczny, otrzymany współczynnik połówkowy będzie wyższy od alfa mniej więcej tak samo często jak niższy od alfa
Średnia, którą jest alfa powstaje w rezultacie podziałów na bardzo dobre połówki (w każdej części pozycje do siebie podobne ?) jak i w rezultacie podziałów na złe połówki (w każdej cz. testu połówki do siebie nie podobne)
W wypadku dwóch zaplanowanych prób (nie losowych) można oczekiwać wyższych korelacji, ale różnice te są zazwyczaj niewielkie.
2. Jest wartością oczekiwaną, kiedy dwie losowe próbki pozycji z puli, takie jak pozycje
zawarte w danym teście, są skorelowane.
3. Alfa jest dolną granicą współczynnika precyzji (dokładność tego samego testu złożonego z tych samych pozycji sprawdzana bez przerwy czasowej). Jest również dolną granicą współczynnika równoważności otrzymywanych przez równoczesne stosowanie dwóch testów o dobranych parami pozycjach. Jednak wypadku testów o umiarkowanej długości, które nie dają się podzielić na kilka różnych czynnikowo podtestów, alfa jest prawie równa współczynnikom równoważności dla "podziałów równoległych" lub "form
równoległych".
4. Alfa jest oszacowaniem oraz dolną granicą tej proporcji wariancji testu, którą można przypisać czynnikom wspólnym dla pozycji testowych. To znaczy, że jest wskaźnikiem nasycenia czynnikiem wspólnym. Ten współczynnik służy celom, które są przypisywane wskaźnikom homogeniczności. Wykorzystując zmodyfikowaną technikę, można zastosować
alfa do oceny nasycenia czynnikiem wspólnym baterii złożonej z podtestów.
5. Alfa jest dolną granicą nasycenia testu pierwszym czynnikiem. Dla testów o przeciętnej długości, niepodzielonych na kilka różnych czynnikowo podtestów, alfa jest tylko
trochę większa od tej proporcji wariancji, którą można przypisać pierwszemu czynnikowi.
6. Alfa jest konserwatywną estymacją, niedoszacowaniem, dolną granicą współczynnika rzetelności (zdanie Kuder-Richardson)
Ale: Alfa może być niższa od wartości otrzymanej w wyniku losowego podziału konkretnego testu na połówki, ale może też być od niej wyższa
Bo: 2 testy utworzone w taki spos, że odpowiadające sobie pozycje z różnych form mierzą te same czynniki, będą korelowały wyżej niż para testów utworzona przez losowanie z puli pozycji, nawet jeżeli każda z porównywalnych pozycji w pierwszej parze testów zawiera pewną specyficzną wariancję. (czy to znaczy, że Kuder Richardson nie mieli racji?)
i jeszcze inny fragment w tym artykule: Alfa zazwyczaj zaniża oszacowanie wariancji czynników wspólnych, ale niedoszacowanie nie jest poważne, chyba że test zawiera pozycje z różnych skupień.
7. Alfa może być albo wyższa albo niższa od współczynnika stabilności liczonego przy zastosowaniu odstępu czasowego między testem i retestem.
Dlaczego? Niektórzy badacze uważają, że alfa jest niższa ale artykuł pokazał, że to nie prawda; współczynnik stabilności- traktuje wariancję wyniku ogólnego między próbkami (wewnątrz osób) jako źródło błędu, a wariancję czynników specyficznych (między pozycjami testowymi wewn. osób) jako wariancję prawdziwą. W alfie wariancja czynników specyficznych jest uważana jako błąd. Zmienność między próbkami nie istnieje i nie redukuje wariancji prawdziwej. Obie wariancje będą pewnie małe w wypadku długich testów mierzących stabilne zmienne. Ale można też mierzyć niestabilne zmienne np. aktualny nastrój
czy wydajność pracy.
Współczynnik alfa a struktura wewnętrzna testów [w] Trafność i rzetelność testów psychologicznych. Wybór tekstów. Brzeziński.
Zestaw nr 30:
2. Zastosowanie analizy wariancji czynnikowej do badania rzetelności i trafności testu.
Analiza czynnikowa pozwala sprawdzić czy otrzymane dane empiryczne są zgodne z zakładaną strukturą teoretyczną testu. Czynniki otrzymane w wyniku zastosowania analizy czynnikowej powinny odpowiadać teoretycznie zakładanym wymiarom.
Celem analizy czynnikowej jest zredukowanie dużej liczby zmiennych losowych do mniejszego zbioru, co uzyskujemy przez założenie, że pewne grupy zmiennych losowych reprezentują zmienność tych samych czynników, czyli zmienne losowe w danej grupie są od siebie w pewnym stopniu zależne.
W analizie czynnikowej istnieją dwa podejścia:
eksploracyjna analiza czynnikowa czynniki są początkowo nieznane i zostają wyodrębnione dzięki analizie wartości zmiennych losowych, to podejście jest bardziej rozpowszechnione
konfirmacyjna analiza czynnikowa zakładamy istnienie pewnego określonego zbioru czynników i dzięki analizie wartości zmiennych losowych badamy zasadność naszego przypuszczenia i estymujemy parametry naszego modelu.
3. Porównanie wyników testowych rzetelność różnic i standardowy błąd różnicy
Obliczamy standardowy błąd różnicy między wynikami ze wzoru
SEMx-y =pierwiastek Sx?(1- rxx) + Sy?(1- ryy)
gdzie,
Sx to odchylenie standardowe wyników w pierwszym teście
rxx to rzetelność pierwszego testu
Sy to odchylenie standardowe wyników w drugim teście
ryy to rzetelność drugiego testu
Minimalną różnicę obliczamy ze wzoru:
Z?/2 SEM
Jeżeli różnica obliczona jest równa bądź większa od różnicy minimalnej, to jest ona istotna statystycznie - czyli ma znaczenie diagnostyczne.
Dwa nieznane numery zestawów:
1. Sposoby estymacji rzetelności (wymienić jakie są, kazał mi więcej opowiedzieć o
konsystencji).
Metody oparte na porównaniu dwukrotnego badania tym samym testem ( badamy 2
razy tą samą osobę 1 testem), są dwa sposoby:
Estymacja wiarygodności testu
Badanie drugie następuje po zakończeniu pierwszego (brak odstępu czasowego). Ma więcej wad niż zalet. Wady: pamięć poprzedniego badania, wprawa, zmęczenie, zmiany w motywacji. Możemy posłużyć się to metodą gdy jesteśmy pewni, że czynnik pamięci nie miał wpływu na wyniki retestu. Za miarę wiarygodności Estu przyjmuje się współczynnik korelacji dwóch
zbiorów wyników z dwukrotnego (test i retest) badania tej samej osoby.
Estymacja stabilności bezwzględnej testu (stałości)
Między badaniem pierwszym (test), a drugim (retest) jest odstęp czasowy np. 1 tydzień(długość przerwy jest nieokreślona). Im krótszy odcinek czasu pomiędzy badaniami tym wyższy współczynnik korelacji między wynikami. Przerwa pomiędzy badaniami może powodować szereg zakłóceń i wątpliwości np. (Nowakowska) możliwy wpływa czynników ubocznych: zapamiętywanie (badani po raz drugi mogą zapamiętać swoje odpowiedzi), uczenie się(badani mogą sprawdzić poprawne odpowiedzi np. w Internecie), różnice w warunkach
badania, różnice w zachowaniu osoby przeprowadzającej test itd.
Metody oparte na porównywaniu form alternatywnych (równoległych) testu:
Estymacja konsystencji testu (wg wykładu w literaturze nie ma nic takiego)
Skonstruowanie dwóch identycznych testów (równoległych, pararellnych). Osoby najpierw rozwiązują test 1 potem test 2. Badanie za pomocą tej metody zawiera zarówno estymację wiarygodności jak o stabilności bezwzględnej testu. Dodatkowe źródło wariancji to treść pozycji (która nie jest identyczna w dwóch testach)>
Kryteria testów równoległych:
Równość średnich wyników badania 1 i 2 testem
Równość wariancji
Równość interkorelacji pozycji każdego z testów
Estymacja stabilności względnej testu
Dwu lub wielokrotne badanie równoległymi formami testu z zachowaniem pewnego odstępu czasowego miedzy badaniami
Metody oparte na porównaniu części (połówek) tego samego testu
Estymacja konsystencji testu (wg wykładu w literaturze nie ma nic takiego)
Test można podzielić na:
Dwie części - połówki - METODA POŁÓWKOWA
Badanie najpierw jedną połówką, a zaraz potem drugą połówką. Podział testu na pół np. wg stopnia trudności itemów, lub wg numeracji parzyste- nieparzyste. Następnie obliczamy współczynnik korelacji między wynikami ogólnymi obu testów „półpołówkowych”. Na koniec szacujemy rzetelność testu za pomocą wzoru Spearmana - Browna lub Rulona lub Guttmana. Nie wolno przepoławiać testu 50%/50%!
n części - pojedyncze pozycje testu
Metody oparte na analizie właściwości statystycznych pozycji testowych
Estymacja konsystencji testu (wg wykładu w literaturze nie ma nic takiego)
Za pomocą tej metody badamy zgodność wewnętrzną testu czyli stopień w jakim test jest czystą miarą mierzonej zmiennej i w jakim stopniu odpowiedzi na poszczególne pytania mierzą to samo co wynik w całym teście. Metody
Kuder Richardson KR20 i KR 21
Zaproponowali podział testu - jedna część to jedna pozycja (item). Podstawowe założenia - równoległość pozycji testowych i test mierzy jeden czynnik.
KR21 stosujemy gdy nie znamy stopnia trudności poszczególnych itemów
Cronbach
Współczynnik rzetelności - uogólnienie wzoru KR20. Stosowany w testach gdzie musimy wybrać jedną odpowiedź z kilku możliwych.
Hoyt
Analiza wariancji jako estymacja zgodności wewnętrzne testu.
Lord Novik
Analiza składowych wariancji . Badają przede wszystkim dwa rodzaje czynników wyznaczających wariancję wyników testowych: osoby badane i wersje testu.
Winer
Macierz wyników o n wierszach odpowiadających osobom badanym i kolumnach odpowiadających pozycjom testowym.
Brzeziński
Metody oparte na analizie związku pozycji testowych z ogólnym wynikiem testu
Estymacja konsystencji testu (wg wykładu w literaturze nie ma nic takiego)
Badanie zgodności wewnętrznej testu.
Spearman - Brown
Ubocznym produktem analizy pozycji testowych jest zbiór współczynników korelacji każdej pozycji z wynikiem ogólnym testu.
Gulliksnen
Zaproponował wzór wykorzystujący zarówno informacje o wariancjach poszczególnych pozycji testowych jak i o korelacjach poszczególnych pozycji z ogólnym wynikiem testu.
Metody oparte na badaniu stopnia zgodności sędziów kompetentnych
Estymacja konsensyjności testu
Sposób oceny stopnia zgodności wydawanych przez sędziów (np. klinicysta) kompetentnych ocen (na podstawie specjalnych skal) dot. odpowiedzi osób badanych na poszczególne pozycje testu. Interesuje nas stopień zbieżności tych ocen (stopień korelacji między ocenami dot. obiektów). Miarą tej współzależności jest współczynnik zgodności W-Kendalla. Wysoki wynik W to zgodność sędziów co do kryteriów, którymi posługiwali się przy ocenianiu.
Źródło błędów to różnice pomiędzy sędziami.
Źródło Brzeziński i Hornowska (uzupełnienie)
3. Czym się charakteryzuje rzetelność testów szybkości i testów kryterium (Hornowska)
Testy szybkości
- polegają na tym, że skraca się czas rozwiązywania testu tak aby ograniczyć możliwość rozwiązania całego testu
- czynnikiem który wpływa na wynik testowy jest szybkość wykonywania zadań
- techniki szacowania rzetelności powinny być oparte na badaniu zgodności szybkości pracy
- aby oszacować rzetelność możemy się posłużyć:
-> metodą powtórnego testowania
-> metodą wersji alternatywnych
-> metodą połówkową, ale z pewną modyfikacją - dzielimy test na połowy i traktujemy każdą z nich jak osobny test -> badani rozwiązują te połówki również w czasie o połowę krótszym (podział dotyczy zarówno testu jak i czasu)
*nie można stosować testów jednokrotnych
Testy zorientowane na kryterium
- celem badania jest tutaj podział osób na dwie grupy: osoby, które osiągnęły wymagane kryterium, oraz osoby, które nie osiągnęły tego kryterium
- należy tutaj odrzucić tradycyjne metody szacowania rzetelności, dlaczego? Dlatego, że jak pamiętamy, rzetelność to stosunek wariancji wyników prawdziwych, do wariancji wyników otrzymanych, czyli - rzetelność testu zależy od zróżnicowania wariancji wyników otrzymanych. A w testach kryterium nie obchodzi nas zróżnicowanie pomiędzy wynikami osób, istotne jest jedynie to, czy osoby osiągają kryterium
- należy stosować metodę opartą na współczynniku kappa
Wzór:
K= bn - fs / bn + l (b+n+l)
Gdzie:
b(both) - liczba osób, które osiągnęły kryterium w obu badaniach danym testem
f(first) - liczba osób, które osiągnęły kryterium tylko w pierwszym badaniu danym testem
s(second) - liczba osób, które osiągnęły kryterium tylko w drugim badaniu danym testem
n(neither) - liczba osób, które w ogóle nie osiągnęły kryterium
l(lesser) - mniejsza z dwóch wartości s lub f
1. Co to jest pomiar, jakie są jego funkcje (wykład-podaje niektóre def)
- Najczęściej stosowana jest definicja Stanleya Smitha Stevensa: „przypisanie wartości liczbowych przedmiotom lub zdarzeniom zgodnie z jakimiś regułami”
„Definicje” pomiaru Coombsa i in., 1977
- postępowanie służące do reprezentowania właściwości za pomocą liczb (por. s. 25)
- model numeryczny; także - tworzenie takiego modelu (por. s. 29)
- reprezentacja (wzgl. - reprezentowanie) pewnego empirycznego systemu relacyjnego
przez np. liczbowy, czyli numeryczny (a ogólnie - formalny) system relacyjny
(por. s. 31 i 55)
- Przyporządkowywanie liczb przedmiotom [rzeczom, osobom, zdarzeniom, cechom, procesom itp.] zgodnie z określonymi regułami w taki sposób, aby liczby odzwierciedlały zachodzące między tymi przedmiotami stosunki
(Chojnowski, w: Kozielecki, red., 1971, s. 17)
Teorie pomiaru:
Pomiar w sensie logicznym - konstruowanie skali narzędzia pomiarowego (skalowanie jego podziałki): ustanowienie (odkrycie i sformułowanie) odpowiedniej funkcji pomiarowej (skalującej) zachowującej homomorfizm pomiędzy strukturą empiryczną (empirycznym systemem relacyjnym), a strukturą numeryczną (liczbowym systemem relacyjnym)
Pomiar w sensie empirycznym - czynność mierzenia (za pomocą narzędzia pomiaru):
przyporządkowywanie wynikom obserwacji wielkości liczbowych w taki sposób, aby relacje między liczbami odpowiadały relacjom między obiektami obserwacji, a działaniom
wykonywalnym na liczbach - możliwe do wykonania operacje na tych obiektach
Funkcje pomiaru w poznaniu naukowym
- Opis - uporządkowany, porównywanie i klasyfikacja
- Wyjaśnianie i przewidywanie: zastępowanie operacji „materialnych” działaniami
matematycznymi na modelu
- Odkrywanie nowych aspektów i właściwości oraz ukierunkowywanie badań empirycznych - zwłaszcza pomiar pośredni
3. Negatywne konsekwencje społeczne testowania (Hornowska)
-> pomiar psychologiczny nie jest pomiarem jednoznacznym, interpretacja wyników wymaga nie tylko odpowiedniego przygotowania merytorycznego (znajomość teorii), ale również znajomości podstaw pomiaru testowego (teoria psychometryczna) - bez tego klops
Niebezpieczeństwa:
1) Rozumienie inteligencji jako jedynej lub głównej cechy, która warunkuje powodzenie w bardzo wąsko definiowanych zadaniach
- ma to dwa źródła: przyjęcie, że o powodzeniu decyduje intelekt, oraz, przyjęcie, ze względów praktycznych, że inteligencja wyraża się w wynikach testów badających inteligencję
- Sternberg mówi, że przecież „nie ma absolutnej zgody co do tego czym jest inteligencja, a w dużej mierze jest ona naszym własnym tworem, stworzono ją po to aby opisać fakt, że niektórzy umieją więcej niż inni”
- w opinii publicznej może dojść do ograniczania innych społecznie potrzebnych umiejętności i oceniania sukcesów zawodowych tylko przez pryzmat umiejętności intelektualnych
2) Etykietowanie w zakresie statusu intelektualnego (przez określanie go jako niski, średni,
wysoki) i przewidywanie na tej podstawie przyszłego funkcjonowania osoby badanej
- narażenie na szwank godności, motywacji i poczucia własnej wartości osób etykietowanych
- etykietowanie to forma kategoryzacji, ma więc cechy rasizmu
- słowa używane przez psychologów etykietujących pochodzą z języka potocznego i przez laików mogą być błędnie rozumiane (np. „opóźniony”)
- przewidywanie o przyszłych umiejętnościach osoby, np. możliwości osiągnięcia sukcesu na podstawie IQ - samospełniające się proroctwo, determinowanie przyszłości osoby
3) Przypisywanie psychologom roli osób kontrolujących i determinujących losy życiowe
badanych osób.
Przyczyny:
- przypisywanie bezwarunkowego obiektywizmu testom oraz uznanie, że wynik podany w liczbach jest bardziej precyzyjny od np. „wysoki lęk”
- nadmierne chronienie tajemnicy własnego warsztatu przez psychologów i brak edukacji u urzędników nt testowania mogą powodować tego typu konsekwencje
- psychologowie podejmują decyzję za osoby badane na podstawie ich wyników
- psycholodzy mogą się zapomnieć i uważać się za osoby bardzo mądre i grać rolę Bogów w życiu innych na podstawie interpretacji wyników testu
4) Biurokratyczne podejmowanie decyzji dotyczących oceny badanych osób
- opieranie się na procedurach może doprowadzić do oderwania tej zalgorytmizowanej procedury od jej psychologicznego sensu i znaczenia
- tworzenie komputerowych systemów diagnostycznych, które niby są obiektywne (som gupie tak naprawdę)