1. Psychometria, a teoria testów. (wykład 1)
PSYCHOMETRIA |
TEORIA TESTÓW |
Dziedzina (subdyscyplina) psych.- nauki empirycznej
|
Dziedzina statystyki matematycznej - nauki formalnej
|
„praktyka” - szczegółowe i konkretne reguły praktyczne |
„teoria” - ogólne i abstrakcyjne twierdzenia teoretyczne (formalne) |
Weryfikacja reguł i ewentualne sprawdzanie hipotez |
Proponowanie aksjomatów i dowodzenie twierdzeń |
Określanie reguł konstruowania narzędzi diagnostycznych oraz zasad posługiwania się tymi narzędziami |
Formalizowanie pojęć określających strukturę testu i jakość pomiaru testowego |
Formułowanie ogólnych zasad TREŚCIOWEJ interpretacji wyniku pomiaru psychologicznego |
Formułowanie zasad FORMALNEJ interpretacji wyniku testowego |
2. Miejsce modelu psychometrycznego w diagnozie. (wykład 1)
STATUS PSYCHOMETRII W RAMACH DIAGNOSTYKI PSYCHOLOGICZNEJ
Pojęcie diagnozy
Dogłębne poznanie, czyli szczegółowy opis aktualnego stanu rzeczy oraz porównanie go
z pewnym wzorcem, standardem, modelem, w celu wprowadzenia zmiany (lub zachowania status quo)
Etymologia terminu „diagnoza”
w wolnym tłumaczeniu: dogłębne, wnikliwe poznanie, „wniknięcie umysłem w
poznawany przedmiot”
gr. diágnōsis = rozpoznanie; diá = przez, na wskroś, między + gnōsis = poznanie;
diagnōstikós = umiejący rozpoznad, rozpoznawczy
Diagnoza i terminy pokrewne
Diagnozowanie = proces postępowania diagnostycznego (etapowośd)
Warsztat diagnostyczny = ogół metod, technik, narzędzi i procedur diagnostycznych
Diagnoza = rezultat postępowania diagnostycznego, opis + wniosek
Diagnostyka = specjalistyczna dziedzina praktyki społecznej ukierunkowana na
formułowanie diagnoz
„Teoretyczne zaplecze” struktury diagnozowania
1. OGÓLNY MODEL POSTĘPOWANIA DIAGNOSTYCZNEGO
Zwł. tzw. diagnoza „psychometryczna” (in. statystyczna, sformalizowana, USTRUKTURALIZOWANA) vs. „kliniczna” (in. nieformalna, impresjonistyczna, NIEUSTRUKTURALIZOWANA)
2. PSYCHOLOGICZNY MODEL TESTU (teoria diagnozowanego obiektu)
3. MODEL PSYCHOMETRYCZNY narzędzia diagnostycznego TESTU, WYNIKU TESTOWEGO I JEGO FORMALNEJ (PSYCHOMETRYCZNEJ I STATYSTYCZNEJ) INTERPRETACJI
Ewolucja „modeli psychometrycznych”
Model Klasyczny - KTT (Guliksen 1950)
Zmodyfikowany Model Klasyczny (Lord, Novick1968)
Modele quasi-klasyczne (np. Cronbach i in. 1972)
Model(e) Odpowiedzi na Pozycje Testowe - IRT (nieklasyczne): Item Response Theory (od `80 XX, pierwsi - Lord,'52, Rasch 1960)
4. MODEL PSYCHOLOGICZNY INTERPRETACJI WYNIKU TESTOWEGO ORAZ JEGO PRAKTYCZNEGO ZASTOSOWANIA
2. Klasyfikacja zmiennych wg Stevensa. (wykład 2)
Zmienne określane mianem nazw skal, do których są przyporządkowane, tak więc mówimy o zmiennych:
nominalnych- przy których stwierdzamy równość i różność, np. numeracja grup nieuporządkowanych
porządkowych-stwierdzanie równości, różności, większości i mniejszości, np. surowe wyniki ankiet kwestionariuszy
przedziałowych (interwałowych)-wszystkie ww. oraz stwierdzanie równości przedziałów i równości różnic, np. standaryzowane wyniki ankiet i kwestionariuszy
stosunkowych (ilorazowych)- wszystkie ww. oraz stwierdzanie równości stosunków między wartościami skal, np. temperatura absolutna, długość, masa, czas reakcji.
Skala |
Podstawowe operacje empiryczne |
Dozwolone przekształcenia matematyczne |
Przykłady dopuszczalnych statystyk i testów statystycznych |
Typowe przykłady zastosowań w narzędziach pomiarowych |
NOMINALNA |
Stwierdzanie równości i różności |
Dowolne przekształcenie wzajemnie jednoznaczne |
Liczebności Frakcje i procenty Wartość modalna Korelacja punktowoczteropolowa Testy oparte na liczebnościach (chi2) |
Klasyfikacja dwudzielna i wielodzielna Numeracja grup nieuporządkowanych |
PORZĄDKOWA (RANGOWA) |
Stwierdzanie równości, różności, większości i mniejszości |
Dowolna funkcja wzrastająca monotonicznie |
Wszystkie ww. oraz: Mediana Centyle, decyle, kwartyle Korelacja rangowa Testy nieparametryczne |
Skala twardości minerałów Numeracja grup uporządkowanych Rangi Surowe wyniki ankiet i kwestionariuszy |
PRZEDZIAŁOWA (INTERWAŁOWA) |
Wszystkie ww. oraz: Stwierdzanie równości przedziałów i równości różnic |
Dodatnie przekształcenia liniowe: {T(x)=ax+b dla a>0} |
Wszystkie ww. oraz: Średnia arytmetyczna Wariancja i odchylenie standardowe Korelacja r Pearsona Test t oraz inne testy parametryczne |
Temperatura C, R i F Daty kalendarza Energia potencjalna Standaryzowane wyniki ankiet i kwestionariuszy |
STOSUNKOWA (ILORAZOWA) |
Wszystkie ww. oraz: Stwierdzanie równości stosunków między wartościami skali |
Przekształcenia multiplikatywne (podobieństwa): {T(x)=ax dla a>0} |
Wszystkie ww. oraz: Średnie - geometryczna i harmoniczna |
Temperatura absolutna Długość Masa Czas reakcji |
1. Główne zadania i zastosowania KTT. (wykład 3)
Pojęcie i zastosowanie KTT
• Dział statystyki matematycznej mający zastosowanie przy konstruowaniu narzędzi pomiarowych w sytuacji, gdy nie jest możliwy wielokrotny pomiar tego samego obiektu (konieczny dla wyskalowania narzędzia)
• Teoria formalna (pojęcia pierwotne + aksjomaty); wymaga sprawdzenia prawdziwości aksjomatów w dziedzinie jej zastosowań
Zadania KTT
1. Formalizacja pojęć charakteryzujących jakość pomiaru (rzetelność, trafność i homogeniczność: równoległość a równoważność)
2. Formalizacja pojęć charakteryzujących formalną strukturę treści pomiaru (np. struktura czynnikowa, struktura latentna
1. Zarzuty stawiane KTT. (wykład 3)
Problemy KTT
• Wnioskowanie o wartościach prawdziwych na podstawie obciążonych błędem wartości zaobserwowanych
• Źródła tego błędu (losowości otrzymanego wyniku pomiaru):
1) przypadkowe zakłócenia w przebiegu pomiaru
2) wynik prawdziwy jako realizacja nieznanego rozkładu zmiennej losowej w populacji oszacowanego na podstawie próby
• Wnioskowanie o wartościach prawdziwych na podstawie obciążonych błędem wartości zaobserwowanych
• Źródła tego błędu (losowości otrzymanego wyniku pomiaru):
1) przypadkowe zakłócenia w przebiegu pomiaru
2) wynik prawdziwy jako realizacja nieznanego rozkładu zmiennej losowej w populacji, oszacowanego na podstawie próby (rodzaj losowości specyficzny dla KTT)
Rozwiązanie - Harold Gulliksen (1950)
• „Platońskie” ujęcie wyniku prawdziwego - jako istniejącego obiektywnie i niezależnie od pomiaru
• Aksjomaty
1) Me = 0
2) reT = 0
3) ree = 0
Krytyka KTT
• Przede wszystkim - niesprawdzalność aksjomatów!
- modelem semantycznym jakiegoś języka (w szczególności - teorii naukowej) może być tylko taka dziedzina empiryczna, w której prawdziwe są wszystkie aksjomaty pozalogiczne tego języka
• Ponadto:
- stałość błędu (brak warunkowej miary błędu)
- uzależnienie parametrów testu jako całości oraz jego poszczególnych itemów od rozkładu mierzonej cechy w populacji
2. Wariancja wg Chojnowskiego. (wykład 5)
• „test” - związana z narzędziem (reprezentatywność itemów, jednolitość obszaru zachowania)
• „egz” - związana z osobą badającą (testorem)
• „proc” - związana z procedurą badania
• „syt” - związana z sytuacją badania
• „org” - związana z czasowym stanem organizmu badanego
• „osc” - związana z chwilowymi oscylacjami procesów psychicznych
• „sub.oc” - związana z niepełną standaryzacją kryteriów oceny zachowań testowych (niepełną obiektywnością testu)
• „resz” - związana z błędami w obliczaniu, zgadywaniem i innymi losowymi czynnikami
Wariancja to wielkość zróżnicowania otrzymanych wyników wokół ich wartośći średniej. Wariancja opisuje nam wielkość błędu, jaki popełniamy wtedy, kiedy średni wynik traktujemy jako dobre odzwierciedlenie wszystkich wyników indywidualnych. Wariancję możemy traktować jako miarę popełnionego błędu. Mała wariancja wskazuje, że średni wynik dobrze odzwierciedla wyniki indywidualne, duża wariancja zaś wskazuje, że wartości średniej nie można traktować jako rzetelnej miary wyników indywidualnych. Znając wielkość wariancji możemy wyciągać wazne wnioski dotyczące wielkości błędu, czyli wnioski dotyczące rzetelności testu.
W psychometrii różne źródła wariancji wynikają z różnych cech sytuacji testowania
3. SEM(T) a związek z KR21 (coś takiego jest w 6. wykładzie).
KR21
• Test mierzy jeden czynnik
• Interkorelacje itemów są równe
• Wariancje itemów są równe
• Itemy mają równą trudność
• Wiąże się z SEM(T) - se2 jest wówczas stosunkiem średniej wariancji „indywidualnych” błędów
- co jest jednym z powodów niższej estymowanej rzetelności testu
- drugim jest nierówna trudność itemów
SEM(T) to błąd pomiaru skorelowany z wynikiem prawdziwym.
Jego podstawowy wzór to:
SEM(T)=(k*p*q)^0,5
gdzie k oznacza ilość itemów, p ilość odpowiedzianych poprawnie a q odpowiedzianych błędnie.
Jako iż są „komponentami” wyniku otrzymanego, można przedstawić je jako zależność z estymowanym wynikiem prawdziwym, wtedy:
p = Tj/k ; q = 1 - Tj//k = 1 - p
Jeśli podstawimy to do pierwotnego wzoru, można go przekształcić na:
SEM(T) = ((k*Tj - Tj^2)/k)^0,5
Posiłkując się wykładem:
Jak zapewne wiecie, KR21 wyglada tak:
Mp oznacza średnią wyników p, natomiast Mq - średnią wyników q.
Wyprowadzanie tego wzoru wygląda jak następuje:
Jak widać, pierwsza część tego wzoru wygląda bardzo podobnie do SEM(T). st^2 - kpq to nic innego jak „wynik otrzymany minus błąd” - czyli wynik prawdziwy.
A jaki wiemy stosunek wariancji wyniku prawdziwego do otrzymanego to definicja rzetelności. Dlatego zginął ten pierwiastek ( sT = st - (k*p*q)^0,5 => sT^2 = st ^2 - k*p*q ).
Dlatego The Dziekan pisze:
„se jest wówczas stosunkiem średniej wariancji „indywidualnych” błędów”
mając na myśli że wariancja błędu w tym wzorze (wymagana do wstawienia estymowanego wyniku prawdziwego w liczniku) jest średnią błędów skorelowanych z wynikiem prawdziwym każdego z itemów.
Lub nie.
3. Pojęcie i aspekty trafności testu. (wykład 7)
(nie opisuję tego dawnego podejścia bo to jest w innym zagadnienia i tam są rodzaje trafności a nie aspekty trafności) (wykład + standardy, w innych książkach jest to opisane wg starszych podziałów).
Obecnie trafność = stopień, w jakim dane empiryczne oraz teoria uzasadniają interpretację wyników testowych w zakładanym kierunku (dawniej trafność oznaczała stopień a jakim test mierzył cechę, która miał mierzyć.)
Aspekty trafności:
kryterialny - kryterialne dane walidacyjne, dane dotyczące związku z innymi zmiennymi. Aspekt ten może mieć charakter diagnostyczny i prognostyczny. Na podstawie wyników testowych wnioskuje się o przypuszczalnej pozycji badanego względem innej zmiennej - kryterium (jest to empirycznie powiązane)
treściowy - dane walidacyjne oparte na treści testu. Zakres treściowy to zakres w jakim pozycje testowe właściwie reprezentują uniwersum pozycji testowych lub interesujący nas konstrukt (nie jest to aspekt empiryczny, jest niemierzalny, można go tylko oceniać, ale nie można zmierzyć. Określa się go dedukcyjnie, definiując uniwersum pozycji (pełen zakres dziedziny której test ma dotyczyć- np. chcąc badać poziom wiedzy z matematyki w klasie 5 uniwersum treści stanowić będą wymagania programowe z tego przedmiotu dla tej klasy - przykład z Hornowskiej) oraz pobierając z niego systematyczne próbki w celu tworzenia testu.(czyli wybierając określone zagadnienia czy zadania do testu)). Trafność treściową analizuje się szczególnie w przypadku testów wiadomości, umiejętności i osiągnięć szkolnych, niektórych testów uzdolnień, testów zawodowych czy testów zorientowanych na kryterium.
[Aspekt teoretyczny - wyrażenie zbyteczne wg Standardów, gdyż trafność zawsze jest trafnością teoretyczną, bo wyniki są zawsze miara jakiegoś teoretycznego konstruktu. Ogólnie trafność teoretyczną określa się jako ocenę stopnia w jakim dany test odzwierciedla konstrukt, który ma być przedmiotem pomiaru.]
Inne źródła danych walidacyjnych: (dane z różnych źródeł mogą potwierdzać różne aspekty trafności, a trafność wg nowych Standardów jest pojęciem spójnym i jest to stopień w jakim kumulujące się dane potwierdzają zamierzoną interpretację wyników testowych).
Dane oparte na analizie procesu udzielania odpowiedzi - mogą dostarczyć informacji o stopniu zgodności między konstruktem a zachowaniami czy odpowiedziami pojawiającymi się w trakcie rozwiązywania testu, uzyskuje się je analizując indywidualne odpowiedzi, można pytać osobę o stosowane przez nią strategie i zasady odpowiadania na pozycje testu, można ich obserwować itd.
Dane wynikające z analizy struktury wewnętrznej testu - umożliwia ocenę stopnia, w jakim powiązanie między pozycjami testowymi może potwierdzić rozumienie konstrukt leżącego u podstaw zamierzonej interpretacji wyników testowych. Analiza pojęciowa testu może obejmować pojedynczy wymiar zachowania lub dotyczyć kilku wymiarów, z których każdy jest traktowany jako niezależny od pozostałych. (np. pomiar stopnia komfortu w badaniach dot. Zdrowia, może dotyczyć zarówno zdrowia psychicznego, jak i fizycznego).
Dane oparte na konsekwencjach testowania (konsekwencje mogą być pożądane i niepożądane).Same konsekwencje jako takie nie mają wpływu na trafność zamierzonej interpretacji wyników testowych, ale mogą wpłynąć na decyzje o stosowaniu testu. Potencjalnym źródłem braku trafności może być niedoreprezentowanie konstrukt teoretycznego, lub włączenie w jego zakres nieistotnych komponentów ( czyli np. badanie zbyt wyszukanymi testami przy rekrutacji na stanowisko, na którym wymagane są jedynie podstawowe umiejętności.) Testy zazwyczaj stosuje się po to, by zamierzony kierunek interpretacji wyników przyniósł określone korzyści. Podstawowym celem badań walidacyjnych jest określenie, czy uda się osiągnąć taki korzyści, jak np. skuteczność terapii czy niedopuszczenie osób niewykwalifikowanych do określonych zawodów.(np. )
2. Ewolucja pojmowania trafności testu. (wykład 7)
Podejście tradycyjne:
trafność
-stopień, w jakim test mierzy cechę, którą miał mierzyć ( a na ile mierzy też inne uboczne cechy)-ogólnie: na ile spełnia założenia pomiarowe;
-sensowność interpretacji wyniku (zasadność przypisania im określonego znaczenia psychologicznego)
Podejście tradycyjne-rodzaje trafności:
treściowa- na ile itemy są odpowiednie w stosunku do badanej cechy (są reprezentatywne dla uniwersum pozycji diagnostycznych dla danego konstruktu)
teoretyczna- stopień w jakim test odzwierciedla cechę, do pomiaru której jest przeznaczony (trafność zbieżna a trafność różnicowa)
kryterialna- na ile wyniki umożliwiają ocenę zmiennych zewnętrznych w stosunku do testu (zazwyczaj realnych kryteriów)
(?) fasadowa- wrażenie, jakie test wywiera na osobach badanych (trafność???)
Podejście współczesne:
Trafność- stopień, w jakim dane empiryczne oraz teoria uzasadniają interpretację wyników testowych w zakładanym kierunku
Podejście współczesne- aspekty trafności:
-„kryterialny”-kryterialne dane walidacyjne, dane dotyczące związku z innymi zmiennymi
-Diagnostyczny
-prognostyczny
-„treściowy”- dane walidacyjne oparte na treści testu
„teoretyczny”- wyrażenie redundantne: wszystkie wyniki są miarą jakiegoś konstruktu
(trafność = trafność teoretyczna)
E. Hornowska, Testy psychologiczne. Teoria i praktyka, s. 80-81 :
Pojęciu trafności nadawano różne znaczenie.
Pierwotnie przez trafność rozumiano po prostu dokładność, z jaką test realizuje założone cele. W tym rozumieniu trafność traktowana była- podobnie jak współczynnik rzetelności-jako stała właściwość wyników testowych.
Koncepcja ta staje się zrozumiała, jeśli uwzględnić jak tworzone były pierwsze testy: autor testu zazwyczaj z góry decydował co dany test będzie mierzył, i konstruował go tak, aby osiągnąć cel. Możliwość, że dany test równie dobrze mierzy inną cechę rzadko była brana pod uwagę.
Prace Cronbacha i Meehla (1955) oraz Messicka(1989) spowodowały, że pojęcie trafności przestało być tak statycznie rozumiane. Pytanie: „ jak dobrze test realizuje zamierzenia jego autora?” zastąpiono pytaniem: „ co test mierzy i jak dobrze to robi”\
Messick (1989) : trafność- zintegrowany proces oceny stopnia, w jakim dowody empiryczne i rozważania natury teoretycznej potwierdzają adekwatność i poprawność interpretacji oraz programów działania wyprowadzonych na podstawie wyników testowych czy innych narzędzi pomiaru.
W tej definicji widać wyraźnie zmianę perspektywy oraz przesunięcie punktu ciężkości- z pojęcia trafności testu na pojęcie trafności interpretacji wyników testowych. W takim też duchu definiują trafność Standardy…
Określenie trafności danego testu, nazywane w psychometrii procesem walidacji testu, polega na zbieraniu i ocenie danych świadczących o trafności określonej interpretacji wyników testu. Im więcej przeprowadza się badań z udziałem danego testu, tym szerszy jest obszar jego zastosowania.
W procesie walidacji ważną rolę odgrywa zarówno autor testu, jak i jego użytkownik.
2. Etapy konstrukcji narzędzia diagnostycznego. (wykład 9)
• Określenie celu postępowania i teoretyczne zdefiniowanie przedmiotu pomiaru (zmiennej)
• Wyróżnienie obszarów treściowych („wymiary”) i form manifestacji („przejawy”, „wskaźniki”) zmiennej teoretycznej
- operacjonalizacja zmiennej
- „bateria wskaźników” (indeks)
• Określenie kryteriów i zasad posługiwania się narzędziem, m.in. ustalenie:
- badanie indywidualne czy zbiorowe?
- prowadzenie badania przez badającego czy samodzielne posługiwanie się narzędziem przez badanego?
• kwestie instrukcji i ochrony danych
- badanie „bezpośrednie” czy „pośrednie” (np. wywiad środowiskowy, analiza wytworów, analiza dokumentów itp.)?
• Określenie „formatu itemów”
- np. opisy sytuacji i możliwe zachowania w nich, itemy dotyczące zachowao, czy itemy dotyczące cech i/lub dyspozycji?
- twierdzenia czy pytania?
- liczba i treśd kategorii odpowiedzi
• parzyste - nieparzyste
• liczby - określenia słowne
• krańce skali
• Wygenerowanie puli itemów
- wykorzystywanie istniejących narzędzi
- eksperci
- pytania otwarte w badaniach pilotażowych
- własne pomysły
• Analiza treściowa i językowa
- np. technika Delhi
• Opracowanie klucza odpowiedzi, instrukcji, budowy i formy kwestionariusza
(standaryzacja - w jednym ze znaczeo tego terminu)
• Zebranie danych - określenie zbiorowości generalnej, dobór próby, badanie pilotażowe
• Wielkośd próby walidacyjnej = liczba itemów × (min.) 5 do 10 osób, lecz nie mniej niż
200 o.b.
• Normalizacja „pierwotna” (in. standaryzacja w drugim znaczeniu) - transformacja wyników
surowych na skale standardowe
- np. teny, steny, staniny, tetrony itp.
• Analiza itemów
- moc dyskryminacyjna (np. D, rbi, t )
- wskaźnik „trudności”
- wskaźniki rzetelności i trafności poszczególnych itemów
- analiza efektów prostych
• Estymacja rzetelności narzędzia
- estymacja wiarogodności
- estymacja konsystencji
- estymacja stabilności
- (estymacja konsensyjności?)
• Badanie trafności narzędzia
- uwzględnienie różnorodnych danych walidacyjnych
• „Renormalizacja”
1. Test psychologiczny i jego pożądane własności. (wykład 9)
Narzędzie do pomiaru modalnych cech zachowania
TEST PSYCHOLOGICZNY - POWTÓRZENIE I UZUPEŁNIENIE
• Jest narzędziem diagnostycznym/badawczym
- posługiwanie się nim musi być uzasadnione celem postępowania diagnostycznego/badawczego oraz musi wynikać z wysuniętych hipotez diagnostycznych/badawczych
• Jest zazwyczaj zbiorem różnorakich itemów (zadań, pytań, rysunków, słów, symboli itp.),
które umożliwiają uzyskanie (pobranie) pewnej próbki zachowań. Na podstawie tej
próbki można wnioskowań - w oparciu o określone założenia: (a) teoretyczne i (b) psychometryczne - o zachowaniu się osoby badanej w sytuacjach pozatekstowych
ZACHOWANIA TESTOWE (CZYLI REAKCJE BADANEGO NA ITEMY TESTU) MAJĄ WSKAZYWAĆ NA NATĘŻENIE PEWNEJ OKREŚLONEJ WŁAŚCIWOŚCI MODALNEJ (ZMIENNEJ)
• Musi dostarczać reguł obliczania wartości mierzonej zmiennej. W związku z tym musi być oparty na określonej teorii psychologicznej oraz na odpowiednim modelu psychometrycznym - w przypadku testów wykorzystywanych w praktyce diagnostycznej zazwyczaj wciąż jest to Klasyczna Teoria Testów
• Zachowania testowe nie zawsze muszą ściśle przypominać zachowań, o których wnioskuje się na podstawie testu, jednak należy wykazać, że istnieje pomiędzy nimi określony związek
• Teoretyczny model mierzonej zmiennej musi być spójny z modelem interpretacji wyniku testowego
• Interpretacja treściowa wyniku testowego musi uwzględniać wnioski z jego interpretacji formalnej
Musi spełniać określone kryteria formalnej dobroci, takie jak:
• obiektywność - niezależność wyników testowych od tego kto, gdzie i kiedy dokonuje ich oceny
• standaryzacja - jednolitość reguł badania testem oraz procedur obliczania i interpretowania wyników
• rzetelność - precyzja pomiaru i stabilność uzyskiwanych rezultatów
• trafność - dokładność, z jaką test realizuje założone cele pomiarowe, czyli mierzy to, do
pomiaru czego został przeznaczony
• normalizacja - wyposażenie testu w statystyczne kryteria interpretacji wyniku testowego (normy), stanowiące układ odniesienia, z którym będzie można porównywać wynik indywidualny
• adaptacja kulturowa (w przypadku testów zagranicznych) - przystosowanie oryginalnego
testu do nowych warunków kulturowych
Standaryzacja procedury badania testem (wybór najważniejszych dezyderatów)
• Wskazówki dotyczące badania testem powinny być przedstawione na tyle jasno i wyraźnie, aby każdorazowo można było powtarzać sposób badania zastosowany przy ustalaniu norm
• W szczególności instrukcja powinna określać takie kwestie, jak limity czasowe, możliwość
powrotu do poprzednich itemów, kolejność itemów i testów, zakres pomocy udzielanej badanemu
• Stosując test należy dokładnie przestrzegać wszystkich zasad i procedur opisanych w podręczniku
• Jeżeli autorzy testu dopuszczają możliwość rozszerzania lub uszczegółowiania instrukcji
przedstawionej w podręczniku, to muszą być określone warunki, w jakich postępowanie to jest dopuszczalne
• Należy okresowo sprawdzać materiał testu, wyposażenie oraz stosowaną procedurę
Dobry test powinien
• Mieć autora, a test zagraniczny mieć również autora adaptacji
• Posiadać oryginalny komplet pomocy testowych oraz oryginalne arkusze odpowiedzi, a także ich opisy
• Być odpowiednio zabezpieczony przed możliwością posłużenia się nim przez osoby nieuprawnione
• Podlegać wyłącznie legalnej dystrybucji
• Mieć podręcznik
3. Psychologiczne i psychometryczne zastosowanie komputerów do testów psychologicznych.
Zastosowanie komputerów może ułatwić wypełnianie kwestionariuszy i obliczanie wyników. Odpowiedni skrypt, napisany w którymś z komputerowych języków, może wyręczyć badacza i za niego podsumować uzyskane punkty, a następnie w odpowiedzi wygenerować przygotowaną wcześniej interpretację. W ten sposób przenosi się do komputera istniejące już wcześniej papierowe testy, by ułatwić pracę badacza, lub umożliwić osobom zainteresowanym samodzielne wypełnianie testów. Wypełnianie niektórych rodzajów testów na papierze byłoby bardzo trudne, czasochłonne - łatwo mogliby się pogubić zarówno badacze jak i badani (Poprawnie napisany skrypt w którymś z komputerowych języków eliminuje te trudności bo, np. przejście od jednego ekranu do drugiego jest płynne i trwa ułamki sekund).
Komputer otwiera też zupełnie nowe możliwości obliczania wyników. Proste sumowanie punktów, znane z papierowych testów, jest tu najbardziej banalną operacją. Komputerowe skrypty mogą wykonywać wszystkie operacje matematyczne: dodawanie, odejmowanie, mnożenie, dzielenie oraz kombinacje wielu z nich, a następnie zaokrąglanie wyników do określonego miejsca po przecinku. Skrypty mogą także wykonywać działania logiczne, jak alternatywa, czy koniunkcja, oraz wykonywać żądane operacje w zależności od zadanych warunków: „jeśli zostanie spełniony warunek a, to wykonaj działanie x, jeśli zostanie spełniony warunek b, to wykonaj działanie y, w przeciwnym wypadku wykonaj działanie z”.
Zastosowanie komputerowych testów pozwala unikać zbędnych pytań (które już po pierwszym pytaniu są niepotrzebne)
Testy stosowane w wersji komputerowej wymagają specjalnego wyposażenia Dlatego traktowania. Dlatego należy:
Do zadań dołączyć dodatkowy pakiet przykładowych zadań, aby mieć pewność, że badany potrafi się posługiwać niezbędnym sprzętem,
W ramach standaryzacji - należy zapoznać badanych z materiałem bodźcowym, który może im być nieznany,
Należy stworzyć badanym odpowiednie warunki, tak by nabrały wprawy w posługiwaniu się określonym wyposażeniem (chyba, że stopień umiejętności posługiwania się takim sprzętem jest celem testowania) - możliwość poćwiczenia korzystania z nich, aby nabrać wprawy,
Testy są często administrowane przez komputer, odpowiedzi udziela się za pomocą klawiatury komputerowej, myszki lub innych podobnych urządzeń. Trzeba poinstruować badanych w razie kłopotów (dotyczy to szczególnie osób niewprawionych),
Nawet te osoby, które na co dzień posługują się sprzętem komputerowym, powinny poznać niektóre szczegóły procedury badania - trening w odpowiadaniu na te zadania które są dla nich nowe,
Jeśli osoba badana nie potrafi korzystać z urządzeń lub nie jest w stanie udzielić odpowiedzi, to należy rozważyć zastosowanie innej metody badania testem,
Ważną rolę może odgrywać oświetlenie pokoju, tak by źródła światłą nie odbijały się na ekranie monitora, (inne czynniki zakłócające to hałas, zakłócenia pracy, skrajne temperatury, ograniczone miejsce do pracy, itp.)
Zadbanie o ciszę (osoby badane pracują niezależnie, a każda kończy test w innym czasie niż siedząca obok),
Czasami interpretacje wyników testowych są generowane przez komputer - wymagają one potwierdzenia trafności, jeśli interpretacje komputerowe są przedstawiane przez profesjonalistę w połączeniu z komentarzem dotyczącym specyficznych okoliczności
3. SEM - zastosowanie, właściwości (coś tam jeszcze, ogólnie całe SEM wytłumaczyć).
SEM - standardowy błąd pomiaru
Def. - odchylenie standardowe rozkładu różnic wyniku otrzymanego i wyniku prawdziwego
(tj - Tj). Jest to błąd, który popełniamy, kiedy zakładamy, że wynikiem prawdziwym danej osoby jest średni wynik, jaki uzyskałaby ona w nieskończenie wielu pomiarach tym samym testem (czyli mówiąc to samo nieco inaczej - SEM to odchylenie standardowe rozkładu błędów, które popełniamy wtedy, kiedy zakładamy, że wynikiem prawdziwym danej osoby jest średni wynik jaki uzyskałaby ona w nieskończenie wielu pomiarach tym samym testem). SEM ma rozkład normalny.
Istotne właściwości SEM są następujące:
- Me = 0, czyli błąd jest losowy, niesystematyczny
- reT = 0, czyli błąd jest taki sam dla wszystkich wyników uzyskiwanych w danym teście
- Błąd nie zależy od rozkładu mierzonej cechy w próbie
SEM jest powszechnie wykorzystywany do estymacji przedziału ufności wokół wyniku otrzymanego, tą operację wykorzystuje się, kiedy wartość współczynnika rzetelności (rtt) jest większa od 0,80 (kiedy jest mniejsza od 0,70 to stosuje się estymację punktową wyniku prawdziwego z zastosowaniem SEE).
(wykład + Brzeziński)
1. SEE - definicja, właściwości (to szczególnie) i zastosowanie.
SEE - Standardowy Błąd Estymacji (Standard Error of Estimation)
Generalnie stosujemy go wtedy, gdy budujemy przedział ufności symetryczny względem estymowanego wyniku prawdziwego, a nie wyniku otrzymanego.
Prostymi słowami - standardowy błąd pomiaru dodajemy, lub odejmujemy, od wyniku otrzymanego. Ale jego wartość jest jedna, czyli „przedział” gdzie szukamy wyniku prawdziwego jest równie odległy „w dół” od wyniku otrzymanego, co „w górę”. Natomiast można zakładać, że w skład wyników „wysokich” wchodzi „więcej błędu” podnoszącego ten wynik, natomiast w przypadku wyników niskich - obniżających wynik. Dlatego przedział budowany przy użyciu SEM będzie niesymetryczny względem wyniku prawdziwego.
Dlatego poprawnym postępowaniem jest jest zbudowanie przedziału ufności symetrycznego do estymowanego wyniku prawdziwego, i dopiero w tym przedziale „szukamy” wyniku prawdziwego.
Do estymowania wyniku prawdziwego stosujemy równanie McHugh'a: T'j = tj rtt + Mt (1- rtt
Zastosowanie praktyczne to:
SEE najwyższe wartości przyjmuje dla średniej rzetelności testu, natomiast przy niskiej bądź wysokiej zbliża się do zera. Inaczej sprawa wygląda z SEM, który jest coraz mniejszy przy zwiekszajacej sie, rzetelności. Stąd SEE stosujemy dla rtt mniejszego niż 0,70. Przy rzetelności rzędu 0,8 różnica między nimi jest tak niewielka, że w celu uniknięcia dodatkowych obliczeń można spokojnie stosować SEM. Między 0,7 a 0,8 użycie obu jest równie uzasadnione. Osobiście wolę SEE, ale słyszałem że Mike Tyson mocno promuje SEM w takich sytuacjach.
1. Pojęcie losowości wyniku testowego i jego źródła.
Błąd losowy - powstaje w wyniku działania przyczyn przypadkowych . Może zarówno zwiększać jak i zmniejszać wynik testowy. Sprawia, że test nie jest powtarzalny.Do czynników, które w sposób losowy wpływają na wynik testu zaliczamy:
-konstrukcja testu- źródłem tego błędu jest specyficzny dobór treści z jakiej zbudowane są pozycje testu. W każdej sytuacji testowania niektóre osoby badane otrzymują wyższe wyniki testowe tylko dlatego, że specyficzna treść pozycji testowych szczególnie im odpowiada lub ich dotyczy np. uczeń który świetnie zna historie polski z lat 20 lepiej wypadnie na olimpiadzie z historii jeśli trafia mu się pytania z tego właśnie okresu.
-sytuacja testowa - źródła błędu:
czynniki sytuacyjne: temperatura , światło, itp.
czynniki związane z osoba badaną: czy się wyspała, lęk, motywacja, itp.
Czynniki związane z osoba badającą: umiejętność nawiązywania kontaktu, obecność lub nie podczas badania , itp.
- sposób oceny wyników- wynikają z :
Błędów mechanicznych- źle podliczona suma wyników
Zbyt ogólne kryterium oceniania odpowiedzi -prawidłowość zależy od doświadczenia oceniającego <testy osobowości, inteligencji>
3. KR20 i KR21 - historia, założenia, właściwości.
-(Brzeziński)
W latach trzydziestych Kuder i Richardson (por. Kuder, Richardson, 1937) opracowali serię wzorów pozwalających na oszacowanie rzetelności testu na podstawie właściwości statystycznych poszczególnych pozycji, z których składa się test. Punktem wyjścia do konstrukcji nowych wzorów była krytyka, której poddali oni,opisaną w pkt. 7., metodę połówkową.
Aby uzyskać połówki testu, można go, jak wiadomo, podzielić na wiele sposobów. Każdy taki podział na połówki daje inne oszacowanie rzetelności testu. Aby tego uniknąć, Kuder i Richardson zaproponowali podział testu składającego się z n pozycji (zadań) na ...n części (zatem, jedna jego część, to jedna pozycja). Podstawowym założeniem, na którym opiera się pomysł jest założenie o równoległości pozycji testowych. Mówiąc inaczej, przyjmuje się, że pozycje są jednolite czynnikowo. Dla pozycji ocenianych 0 lub 1 i o równej trudności, tzn. gdy frakcja odpowiedzi zgodnych z kluczem (p) równa jest frakcji odpowiedzi z kluczem niezgodnych (q) uzyskujemy maksymalną wartość wariancji i-tej pozycji testowej:
vari=pią q,=1-p
Nietrudno zauważyć, iż wariancja pozycji jest największa, gdy pi = qi=0,5G (gdyż: 0,50x0,50 = 0,25).
Najbardziej znane wzory opracowane przez tę dwójkę psychometrów to K-R 20 oraz KR 21. Oto one:
varc — wariancja całkowita wyników całego testu;
piqi — wariancja i-tej pozycji testu;
n — liczba pozycji w teście;
p — średnia wartość p w zbiorze n pozycji testu;
q — średnia wartość q w zbiorze n pozycji testu.
Wzór K-R 21 znajduje zastosowanie w sytuacji, gdy psycholog nie zna stopnia trudności poszczególnych, składających się na dany test, pozycji testowych. Jeżeli zaś możemy przyjąć, iż trudność poszczególnych pozycji jest do siebie zbliżona,to wówczas wyrażenie ze wzoru:
n
„Σ piqi”
i=1
możemy zastąpić wyrażeniem:”n p q”
Dokonując niewielkich przekształceń we wzorze K-R 21 możemy otrzymać jego wygodną do obliczeń postać :
Jakie są słabości K-R 20, albo mówiąc inaczej, jakie odstępstwa od wyjściowych założeń mają zauważalny wpływ na dokładność obliczonego tą metodą współczynnika rtt? Na to pytanie usiłował odpowiedzieć Brogden (1946; podaję za: Guilford, 1954, s. 383). Manipulując średnimi wartościami p (od 0,3 do 0,97), wartościami interkorelacji pozycji testowych (od 0,2 do 0,8) oraz liczbą pozycji w teście (od 9 do 153) i zakładając jedną z trzech postaci rozkładu p — rozkład normalny, rozkład prostokątny oraz rozkład skośny — Brogden doszedł do wniosku, iż metoda ta daje obciążone wartości rtt w przypadku testów krótkich (9-18 pozycji) i o wysokich interkorelacjach pozycji testowych (0,60-0,0,80). Guilford podkreśla, że nie powinno się stosować, ani K-R 20, ani K-R 21 w przypadku badania z ograniczeniem czasu (testy szybkości).
Kuder i Richardson opracowali swoje wzory dla testów o pozycjach punktowanych „0-1". Ferguson (1951) zaadaptował wzór K-R 20 do pozycji m-kategorialnych. W miejsce wyrażenia
n
„Σ piqi”
i=1
we wzorze na KR-20 zaproponował on wstawienie nowego wyrażenia, uwzględniającego ważenie odpowiedzi, np. „+1", „0", „— 1" czy „0", „1", „2", „3", „4". Wariancję /-tej pozycji w teście, wymagającej udzielenia przez osobę badaną jednej z m kategorii odpowiedzi, Ferguson proponuje obliczać wg wzoru:
m m
var i= Σ wk² Pk-(Σ wkpk)2, k= l,...m; i== 1,...,n.
k=1 k=1
Po zsumowaniu wszystkich n wariancji pozycji testowych otrzymaną sumę
wstawia się do wzoru na KR-20 w miejsce wyrażenia :
n
„Σ piqi”.
i=1
Dla stosunkowo często używanych testów składających się z pozycji trójkategorialnych (tak — „1", nie wiem — „0", nie — „-1") wzór powyższy proponowany przez Fergusona przyjmuje uproszczoną postać:
vari = p2-p22 + 4p1p3,
gdzie: p1— proporcja osób, które udzieliły odpowiedzi o wadze „+1"; p2 — proporcja osób, które udzieliły odpowiedzi o wadze „0"; p3 — proporcja osób, które udzieliły odpowiedzi o wadze „-1"; wk — waga k-tej (i = l,...,m) odpowiedzi na i-tą pozycję testu.
Po zsumowaniu wszystkich wariancji obliczonych wg wzoru powyższego, obliczoną sumę wstawiamy do wzoru na KR20 w miejsce wyrażenia:
n
„Σ piqi”.
i=1
-(Słownik ważniejszych terminów)
Wzory Kudera-Richardsona-wzory służące do estymacji rzetelności testu metodą wewnętrznej zgodności.Założenie podstawowe:test składa się z n części(zadań)równoległych,tzn.zadań o jednakowych średnich i wariancjach.Najbardziej znane są wzory:KR20 i KR21.Najważniejsze własności wzorów KR:
-współczynniki wewnętrznej zgodności(wg niektórych teoretyków zgodność wewnętrzna jest jedynym poprawnym sposobem otrzymywania współczynnika rzetelności),
-estymacja jednolitości testu oraz średnia wszystkich możliwych współczynników równoważności międzypołówkowej.
-stosowanie wzorów KR wymaga jednak ukończenia testu przez wszystkich badanych(nie nadają się więc one do estymacji rzetelności w testach szybkości).
-(Hornowska)
1. Etyczne aspekty stosowania testów psychologicznych.
Etyczne aspekty odnoszą się do konsekwencji społecznych i życiowych dla osoby badanej, wynikających z pomiaru testem.. Od obiektywności i standaryzacji procedury badania, reprezentatywności norm oraz trafności i rzetelności testu zależy los człowieka. Im większym błędem jest zatem obciążony pomiar testowy, tym potencjalnie większe jest ryzyko błędnej diagnozy i szkody, wyrządzonej danemu człowiekowi. Ten problem etyczny, wynikający z małej trafności i obiektywności pomiaru testowego określa się mianem stronniczości (lub faworyzacji). Zjawiska te występują, gdy test mierzy nietrafnie cechy psychologiczne, tj. sugeruje istnienie różnic w nasileniu danej cechy, podczas gdy faktycznie różnice te nie istnieją. Prowadzi to do błędnej diagnozy psychologicznej i wysnuwania fałszywych wniosków psychologicznych. W przypadku, gdy wnioski te pociągają za sobą określone decyzje społeczne, to stronniczość pomiaru prowadzi do dyskryminowania (lub faworyzowania) określonych osób lub grup społecznych. Te zjawiska nierówności społecznej określa się mianem seksizmu, rasizmu, itp. Inny problem etyczny wiąże się z konsekwencjami ujawnienia tajemnicy pomiaru testowego osobom postronnym. Złamanie anonimowości jest naruszeniem praw osobistych, bowiem może prowadzić do negatywnych następstw emocjonalnych i społecznych u badanej osoby. Podobny problem dotyczy komunikowania wyników samej osobie badanej - jest to kwestia samej procedury badania, która wymaga wcześniejszego uprzedzenia o możliwych konsekwencjach badania (np. negatywna kwalifikacja lub możliwość doznania szkody emocjonalnej) oraz dobrowolności udziału, tj. przyznania osobie badanej prawa do odmówienia wzięcia udziału w badaniach (lub rezygnacji z badań nawet w ich trakcie). W przeciwnym razie prowadzi to do naruszenia wolności osobistej. Inne problemy etyczne wynikają z aspektu psychologicznego pomiaru i nastawienia wyłącznie na techniczną stronę badania testowego. Diagnoza pozbawiona jasno określonego celu badawczego i nie uwzględniająca "dobra" osoby badanej prowadzi do tzw. "etykietowania" lub stygmatyzowania (np. przypisywania komuś określeń typu "neurotyk", "wariat" - część psychologów uważa nawet, że pomiar testowy prowadzi nieuchronnie do etykietowania. W większości jednak problemy etyczne pomiaru testowego wynikają z ahumanistycznego celu badania, tzn. gdy nie realizuje on dobra danego człowieka.
1. Wynik prawdziwy w ujęciu Gulliksena, Lorda i Novicka. (wykład 3)
Harold Gulliksen (1950):
a) „platońskie” ujęcie wyniku prawdziwego- jako istniejącego obiektywnie i niezależnie od pomiaru,
b) aksjomaty:
1) Me=0 Wartość oczekiwana błędu(średni błąd) równa się zero
2) reT=0 Błąd pomiaru i wynik prawdziwy (traktowany jako zmienna losowa) nie są skorelowane
3) ree=0 Błędy w dwóch kolejnych pomiarach są nieskorelowane
Jednak:
Krytyka KTT:
a) przede wszystkim: niesprawdzalność aksjomatów!
- Modelem semantycznym jakiegoś języka ( w szczególności-teorii naukowej)może być tylko taka dziedzina empiryczna, w której prawdziwe są wszystkie aksjomaty pozalogiczne tego języka
b) ponadto:
-stałość błędu (brak warunkowej miary błędu)
-uzależnienie parametrów testu jako całości oraz jego poszczególnych itemów od rozkładu mierzonej cechy w populacji
Alternatywa:
Frederic M.Lord& Melvin R.Novick (1968)
a) statystyczne i relatywne do podziałki narzędzia ujęcie wyniku prawdziwego jako wartości oczekiwanej rozkładu skłonności
-rozkład skłonności: rozkład prawdopodobieństw uzyskania przez daną osobę poszczególnych możliwych do uzyskania wyników w danym teście
b) reaksjomatyzacja:
1. rozkład skłonności ma skończoną wariancję
2. „liniowa eksperymentalna niezależność pomiarów”: wynik prawdziwy nie zależy od wyników obserwowanych w kolejnych pomiarach; in. mówiąc-rozkład skłonności ma skończoną wartość oczekiwaną.
c) estymacja przedziałowa uwzględnia „zl/2” (funkcję gęstości rozkładu normalnego jako
model cechy w populacji), czyli wciąż jest to KTT (choć niewątpliwie istotnie zmodyfikowana).
M.Nowakowska, ”Nieformalne ujęcie współczesnej teorii testów”:
-Problematykę estymacji wartości cechy przedstawił formalnie w 1950roku Gulliksen w postaci pewnego systemu aksjomatów, który został następnie zmodyfikowany i udoskonalony w 1968r. przez Lorda i Nowicka
1.Gulliksen:
a) zaadoptował do psychologii model pomiaru z nauk fizycznych;
Przyjął on, że podobnie jak każdy obiekt fizyczny ma określone wartości swoich cech fizycznych, niezależnie od aktu dokonywania pomiaru i wyboru narzędzia pomiarowego, tak też każdy człowiek( w danym momencie) ma nieznane prawdziwe wartości określonych cech psychologicznych
Następnie założył, na wzór nauk fizycznych, że przy dokonywaniu pomiaru obserwujemy wartości prawdziwe mierzonej cechy, zakłócone błędem równym różnicy między obserwowaną wartością wyniku pomiaru a (nieobserwowaną) wartością prawdziwą mierzonej cechy. W konsekwencji, zarówno wartość prawdziwa, jak i błąd pomiaru są nieobserwowalne.
Trzeba było również przyjąć pewne założenia dotyczące źródeł losowości wyników obserwowanych oraz przyjąć aksjomaty nakładające pewne warunki na tę losowość.
Założono że:
-losowość wyniku obserwowanego ma charakter „podwójny”: źródłem są zakłócenia przypadkowe w pomiarze wartości prawdziwej w pomiarze cechy danej osoby oraz
przypadkowość wyboru tej osoby z badanej populacji.
Zastosowanie testu w stosunku do wybranej osoby pozwala na uzyskanie próbki określonych przez test zachowań się tej osoby i na wyznaczenie wartości estymatora wyniku prawdziwego tej osoby.
Wynik prawdziwy- realizacja (nieobserwowalnej) zmiennej losowej, której rozkład wyznaczony jest przez przyjętą metodę wyboru tej osoby z badanej podpopulacji (Novick,1966)
Błąd pomiaru ma zatem dwa źródła losowości: jedno związane z procesem losowania osób do próbki, drugie związane specyficznie z zakłóceniami losowymi pomiaru wyniku prawdziwego tej osoby, dokonywanego za pomocą testu
Krytyka podejścia Gulliksena:
-główny przedmiot krytyki aksjomatyki Gulliksena- założenie o obiektywnym i niezależnym od faktu dokonywania pomiaru istnieniu wyniku prawdziwego (czyli prawdziwej wartości cechy badanego)
Thorndike zarzucał,że ponieważ wyniki prawdziwe nie są mierzalne bezpośrednio to przyjęcie wyniku prawdziwego jest mitem i nie może mieć znaczenia teoretycznego.
Loevinger uważała, że pojęcie to nie ma znaczenia praktycznego.
Przy obecnym stanie wiedzy statystycznej oba powyższe zarzuty nie dadzą się utrzymać, sam bowiem fakt niemożności poznania dokładnej wartości parametru nie może stanowić
argumentu przeciwko wprowadzeniu tego parametru.
-poważniejszy zarzut: Gulliksen przyjął postulaty, dla których weryfikacji nie istnieją empiryczne procedury.
G. przyjął, na wzór nauk fizycznych, że wartość prawdziwa cechy u człowieka istnieje niezależnie od faktu dokonywania pomiaru. To z kolei pozwala na zdefiniowanie błędu pomiaru (różnica między wartością obserwowaną i prawdziwą). Gulliksen musiał przyjąć jednak postulat orzekający coś o wartości oczekiwanej błędu (za.łożenie tzw. nieobciążoności
narzędzia pomiaru, czyli że średni błąd jest równy zeru).
Jednak w teorii testów-w odróżnieniu od nauk fizycznych-ze względu na nieobserwowalność błędu nie mogą istnieć żadne procedury empiryczne prowadzące do weryfikacji postulatu nieobciążoności narzędzia pomiaru. To samo stosuje się i do pozostałych postulatów Gulliksena.
2. Lord i Novick:
- Mimo powyższych zarzutów, intuicyjność pojęcia wyniku prawdziwego i postulatów Gulliksena, oparta na silnych analogiach z pomiarem fizycznym, oraz praktyczna użyteczność wyników uzyskanych w wyniku zastosowań teorii testów, spowodowały, że Lord i Novick podjęli próbę nowej aksjomatyzacji teorii testów, przy której zachowałyby się jako prawdziwe wszystkie twierdzenia klasycznej teorii testów (Gulliksena) a jednocześnie przyjęte aksjomaty dawałyby się weryfikować empirycznie.
-punkt wyjścia: pojęcie tzw. rozkładu skłonności.
Wynik testu dla danej osoby interpretowany jest jako realizacja pewnej zmiennej losowej, której wartościami są wszystkie potencjalnie możliwe u danej osoby wyniki tego testu, a rozkład prawdopodobieństwa tych wyników jest charakterystyczny dla tej osoby; ten
rozkład prawdopodobieństwa to rozkład skłonności.
Rozkład skłonności jest nieobserwowalny, to pewna konstrukcja teoretyczna, za której przyjęciem przemawia empirycznie sprawdzony fakt zmienności wyników testowych tej samej osoby (argument znacznie mocniejszy niż analogie z pomiarem fizycznym).
- rozkład skłonności ma skończoną wariancję- podstawowy postulat teorii Lorda i nowicka
-wynik prawdziwy- wartość oczekiwana (nieobserwowalna) rozkładu skłonności, co pozwala z kolei na zdefiniowanie błędu pomiaru (różnica między wartością obserwowaną a
prawdziwą)
Błąd jest tu również nieobserwowalny ale postulat Gulliksena, orzekający, że wartość oczekiwana błędu jest równa zeru, w teorii Lorda i Nowicka staje się twierdzeniem, przy dowolnym schemacie losowania próbki (dlatego,że dla każdej ustalonej osoby jej średni błąd, jako średnia wartość odchyleń od średniej, jest oczywiście równa zeru na mocy definicji średniej, wobec tego przy jakimkolwiek schemacie losowania osób do próbki średni błąd losowo wybranej osoby jest również równy zeru)
Lord i Novick przyjęli wobec tego taką definicję wyniku prawdziwego, przy której zdanie orzekające,że błąd ma wartość oczekiwaną zero jest zdaniem analitycznym, czyli
zdaniem którego prawdziwość wynika dedukcyjnie z przyjętych definicji.
Podobnie z drugim aksjomatem Gulliksena: dla każdej ustalonej osoby wartość oczekiwana iloczynu wyniku prawdziwego tej osoby przez błąd dla tej osoby jest równa zeru, gdyż wynik każdej ustalonej osoby jest pewną stałą liczbą (równą wartości oczekiwanej rozkładu skłonności tej osoby) a średni błąd tej osoby jest równy zeru, na mocy definicji średniej. Przy dowolnym schemacie losowania osób do próbki: wartość prawdziwa staje się zmienną losową, wartość oczekiwana iloczynu wyniku prawdziwego przez błąd jest równa zeru. Wartość oczekiwana błędu też równa się zeru, zatem wynik prawdziwy i błąd nie są skorelowane.
Aksjomat trzeci: dodatkowe założenie o tzw. liniowej eksperymentalnej niezależności pomiarów.
Podsumowanie:
Gulliksen:
-wynik prawdziwy jest „zabsolutyzowany” i zewnętrzny w stosunku do pomiaru,
-podejście tzw. „platońskie”
Lord i Novick:
-wynik prawdziwy ma charakter relatywny w odniesieniu do danego narzędzia, będącego źródłem statystycznych próbek określonych zachowań się badanego, jest więc również definicją cechy, jako wartości parametru rozkładu częstości tych zachowań się
-podejście tzw. statystyczne
Ponieważ z postulatów Lorda i Nowicka wynikają postulaty teorii Gulliksena, wyniki klasycznej teorii testów (Gulliksen) zawarte są we współczesnej teorii testów (Lorda i Novicka)
1. Aksjomaty Gulliksena i Lorda i Novicka, reakcjomatyzacja przyczyny i skutki.
Aksjomaty Gulliksena
-wartość oczekiwana błędu(średni błąd) równa się zeru
-błąd pomiaru i wynik prawdziwy (traktowany jako zmienna losowa) są nieskorelowane
-błędy w dwóch kolejnych pomiarach są nieskorelowane
Zatem z tych aksjomatów wynika, że współczynnik korelacji między dwoma kolejnymi pomiarami jest równy rzetelności pomiaru, czyli równy jest stosunkowi wariancji wyniku prawdziwego do wariancji wyniku obserwowanego. W ten sposób przyjęcie aksjomatów pozwala na stworzenie metod szacowania wariancji błędu i w konsekwencji na budowę przedziałów ufności dla nieznanego wyniku prawdziwego danej osoby.
Lord i Novick
-rozkład skłonności-wynik prawdopodobieństw: wynik testu dla danej osoby interpretowany jest jako realizacja pewnej zmiennej losowej, której właściwościami są wszystkie potencjalnie możliwe u danej osoby wyniki tego testu, a rozkład prawdopodobieństwa jest charakterystyczny dla tej osoby. Rozkład skłonności jest nieobserwowalny,
Reaksjomatyzacja
-rozkład skłonności ma skończoną wariancję
-wynik prawdziwy danej osoby jako wartość oczekiwana(nieobserwowalna)rozkładu skłonności
-liniowa eksperymentalna niezależność pomiarów: wynik prawdziwy nie zależy od wyników obserwowanych w kolejnych pomiarach, inaczej mówiąc-rozkład skłonności ma skończoną wartość oczekiwaną.
Więc: wynik prawdziwy w teorii Lorsa i Novicka ma charakter relatywny w odniesieniu do danego narzędzia, będącego źródłem statystycznych próbek określonych zachowań się badanego, jest więc również definicją cechy jako wartości parametru rozkładu częstości tych zachowań
3. EFA.
Eksploracyjna analiza czynnikowa - czynniki są początkowo nieznane i zostają wyodrębnione dzięki analizie wartości zmiennych losowych,.
-technika redukcji liczby zmiennych
-czynnik- systematyczne współzmienianie się wyników pomiaru („hipotetyczna przyczyna”)
-rotacja ortogonalna-nieskorelowanie czynników
1. Przedmiot pomiaru psychologiczne według teorii testów.
Za Coombsem:
Pomiar - postępowanie służące uczonemu do reprezentowania właściwości za pomocą liczb (by można było formułować prawo ilościowe, trzeba umieć opisać odpowiednie właściwości za pomocą liczb).
Model numeryczny i także - tworzenie takiego modelu.
Reprezentacja pewnego empirycznego systemu relacyjnego przez np. liczbowy, czyli numeryczny (formalny) system relacyjny.
Teoria pomiaru - zajmuje się badaniem równych typów pomiaru i wyjaśnianiem ich znaczenia. Zadaniem tej teorii jest analiza logiczna procesu pomiaru (teoria ta zajmuje się uzasadnieniem różnych procedur pomiarowych oraz badaniem sensu uzyskiwanych we ten sposób wyników).
Za Nowakowską:
Przedmiotem pomiaru mogą być wyłącznie cechy modalne (in. empiryczny system relacyjny, zmienne ilościowe). Cechy modalne to takie własności obiektów, które mogą im przysługiwać w różnym stopniu. Wartość cech (psychologicznych człowieka) to parametr prawdopodobieństwa częstości występowania określonych zachowań się tego człowieka w danych sytuacjach (uzyskanie poprzez to statystycznych prognoz dotyczących zachowania się).
Cechy mające charakter wyjaśniający - pojęcia teoretyczne, konstrukt - wyjaśnienie to ma postać pewnej hipotezy lub zbioru hipotez, zawierających interpretację przyczynową współwystępowania tych zachowań się, które są dyskrypcją danej cechy.
Odznaczają się tym, że ich treść na ogół nie jest jasno i jednoznacznie sprecyzowana (jednej i tej samej nazwie cechy, przy tych samych hipotezach wyjaśniających może odpowiadać kilka różnych zbiorów zachowań się, z których każda stanowi dobrą dyskrypcje tej cechy) - co prowadzi do „nadwyżki znaczeń”.
1. Standaryzacja i obiektywność testu.
( na podstawie „standardy dla testów” i Brzezińskiego)
Pierwsza właściwość dobrego testu psychologicznego wiąże się z wystandaryzowaniem .
Standaryzacja -w badaniu testem jest to dbanie o jednolite warunki badania i przeprowadzenie testu zgodnie z określonymi zasadami tak by badanie tym samym testem miało zawsze taki sam przebieg w wypadku wszystkich osób badanych( ma to zminimalizować wpływ czynników ubocznych)
Zatem dobrze wystandaryzowany test posiada:
1.Instrukcję którą podajemy w dosłownym brzmieniu, w sposób ściśle określony przez autora testu
2.Klucz czyli określone zasady wg których ocenia się odpowiedzi na poszczególne pozycje testu i interpretuje się wyniki.
Ze standaryzacja wiąże się drugie kryterium - obiektywność.
Test jest obiektywny jeśli dwie różne osoby opracowujące jego wyniki dochodzą do tego samego rezultatu. (Dlatego też należy podawać jednoznacznie brzmiące reguły przeliczania wyników surowych na wyniki określonej skali standardowej, w której wyrażone są normy dla danego testu.)
Test zaopatrzony w jasną instrukcję, odpowiednio sporządzony arkusz odpowiedzi i należycie
opracowany klucz wg którego ocenia się odpowiedzi to warunki spełnienia kryterium standaryzacji i obiektywności
2. Krzywa rozkładu normalnego w kontekście KTT.
- „statystycznym modelem zbiorowości” jest rozkład normalny
(funkcja Gaussa, czyli funkcja gęstości rozkładu normalnego jako model cech w populacji)
założenie to jest charakterystyczne dla Klasycznej Teorii Testów (KTT)
CZY ROZKŁAD CECHY MODALNEJ ZAWSZE JEST NORMALNY?
„wyniki wielu badań empirycznych potwierdzają istnienie rozkładów dwu- i wielomodalnych” Aranowska, 2005
2. Problem adaptacji kulturowej testu. (Zawadzki)
Adaptacja kulturowa jest to tworzenie równoległej do oryginalnej kultury wersji narzędzia testowego, przystosowanie do nowych warunków kulturowych. Aby testy obcojęzyczne mogły być stosowane u nas, powinny być nie tylko tłumaczone, ale także zaadaptowane do warunków polskiej kultury. Podstawą dobrej adaptacji jest dobre przetłumaczenie oryginału, błędne byłoby bezmyślne tłumaczenie słowa po słowie.
1. Sposoby estymacji rzetelności (wymienić jakie są, kazał mi więcej opowiedzieć o konsystencji).
Metody oparte na porównaniu dwukrotnego badania tym samym testem ( badamy 2
razy tą samą osobę 1 testem), są dwa sposoby:
Estymacja wiarygodności testu
Badanie drugie następuje po zakończeniu pierwszego (brak odstępu czasowego). Ma więcej wad niż zalet. Wady: pamięć poprzedniego badania, wprawa, zmęczenie, zmiany w motywacji. Możemy posłużyć się to metodą gdy jesteśmy pewni, że czynnik pamięci nie miał wpływu na wyniki retestu. Za miarę wiarygodności Estu przyjmuje się współczynnik korelacji dwóch
zbiorów wyników z dwukrotnego (test i retest) badania tej samej osoby.
Estymacja stabilności bezwzględnej testu (stałości)
Między badaniem pierwszym (test), a drugim (retest) jest odstęp czasowy np. 1 tydzień(długość przerwy jest nieokreślona). Im krótszy odcinek czasu pomiędzy badaniami tym wyższy współczynnik korelacji między wynikami. Przerwa pomiędzy badaniami może powodować szereg zakłóceń i wątpliwości np. (Nowakowska) możliwy wpływa czynników ubocznych: zapamiętywanie (badani po raz drugi mogą zapamiętać swoje odpowiedzi), uczenie się(badani mogą sprawdzić poprawne odpowiedzi np. w Internecie), różnice w warunkach
badania, różnice w zachowaniu osoby przeprowadzającej test itd.
Metody oparte na porównywaniu form alternatywnych (równoległych) testu:
Estymacja konsystencji testu (wg wykładu w literaturze nie ma nic takiego)
Skonstruowanie dwóch identycznych testów (równoległych, pararellnych). Osoby najpierw rozwiązują test 1 potem test 2. Badanie za pomocą tej metody zawiera zarówno estymację wiarygodności jak o stabilności bezwzględnej testu. Dodatkowe źródło wariancji to treść pozycji (która nie jest identyczna w dwóch testach)>
Kryteria testów równoległych:
Równość średnich wyników badania 1 i 2 testem
Równość wariancji
Równość interkorelacji pozycji każdego z testów
Estymacja stabilności względnej testu
Dwu lub wielokrotne badanie równoległymi formami testu z zachowaniem pewnego odstępu czasowego miedzy badaniami
Metody oparte na porównaniu części (połówek) tego samego testu
Estymacja konsystencji testu (wg wykładu w literaturze nie ma nic takiego)
Test można podzielić na:
Dwie części - połówki - METODA POŁÓWKOWA
Badanie najpierw jedną połówką, a zaraz potem drugą połówką. Podział testu na pół np. wg stopnia trudności itemów, lub wg numeracji parzyste- nieparzyste. Następnie obliczamy współczynnik korelacji między wynikami ogólnymi obu testów „półpołówkowych”. Na koniec szacujemy rzetelność testu za pomocą wzoru Spearmana - Browna lub Rulona lub Guttmana. Nie wolno przepoławiać testu 50%/50%!
n części - pojedyncze pozycje testu
Metody oparte na analizie właściwości statystycznych pozycji testowych
Estymacja konsystencji testu (wg wykładu w literaturze nie ma nic takiego)
Za pomocą tej metody badamy zgodność wewnętrzną testu czyli stopień w jakim test jest czystą miarą mierzonej zmiennej i w jakim stopniu odpowiedzi na poszczególne pytania mierzą to samo co wynik w całym teście. Metody
Kuder Richardson KR20 i KR 21
Zaproponowali podział testu - jedna część to jedna pozycja (item). Podstawowe założenia - równoległość pozycji testowych i test mierzy jeden czynnik.
KR21 stosujemy gdy nie znamy stopnia trudności poszczególnych itemów
Cronbach
Współczynnik rzetelności - uogólnienie wzoru KR20. Stosowany w testach gdzie musimy wybrać jedną odpowiedź z kilku możliwych.
Hoyt
Analiza wariancji jako estymacja zgodności wewnętrzne testu.
Lord Novik
Analiza składowych wariancji . Badają przede wszystkim dwa rodzaje czynników wyznaczających wariancję wyników testowych: osoby badane i wersje testu.
Winer
Macierz wyników o n wierszach odpowiadających osobom badanym i kolumnach odpowiadających pozycjom testowym.
Brzeziński
Metody oparte na analizie związku pozycji testowych z ogólnym wynikiem testu
Estymacja konsystencji testu (wg wykładu w literaturze nie ma nic takiego)
Badanie zgodności wewnętrznej testu.
Spearman - Brown
Ubocznym produktem analizy pozycji testowych jest zbiór współczynników korelacji każdej pozycji z wynikiem ogólnym testu.
Gulliksnen
Zaproponował wzór wykorzystujący zarówno informacje o wariancjach poszczególnych pozycji testowych jak i o korelacjach poszczególnych pozycji z ogólnym wynikiem testu.
Metody oparte na badaniu stopnia zgodności sędziów kompetentnych
Estymacja konsensyjności testu
Sposób oceny stopnia zgodności wydawanych przez sędziów (np. klinicysta) kompetentnych ocen (na podstawie specjalnych skal) dot. odpowiedzi osób badanych na poszczególne pozycje testu. Interesuje nas stopień zbieżności tych ocen (stopień korelacji między ocenami dot. obiektów). Miarą tej współzależności jest współczynnik zgodności W-Kendalla. Wysoki wynik W to zgodność sędziów co do kryteriów, którymi posługiwali się przy ocenianiu.
Źródło błędów to różnice pomiędzy sędziami.
Źródło Brzeziński i Hornowska (uzupełnienie)
1. Teoria uniwersalizacji wyników testowych Cronbacha.
Stawia pytania dotyczące wielkości wariancji wynikających z określonego źródła błędu. „Co w konkretnej procedurze jest błędem pomiaru?” „Jaka jest wariancja wynikająca z każdego z tych źródeł”?
Dwie podstawowe różnice między KTT a teorią uniwersalizacji:
w KTT przyjmuje się założenie o ścisłej równoległości, a w TU słabsze założenie o losowej równoległości (dwa testy są losowo równoległe, jeśli można przyjąć, że pozycje tych testów są losowymi próbkami z tego samego uniwersum pozycji)
w KTT występuje jeden współczynnik rzetelności, a w TU uwzględnia się różne
źródła błędu, a więc można obliczyć różne współczynniki rzetelności.
WARIANCJA - wielkość zróżnicowania otrzymanych wynikow wokół ich wartości średniej, czyli wielkość błędu, jaki popełniamy, traktując średnią jako dobre odzwierciedlenie wszystkich wyników indywidualnych. A więc wariancja jest miarą popełnionego błędu. Mała
wariancja oznacza, że średni wynik dobrze odzwierciedla wyniki poszczególnych jednostek.
Źródła wariancji i związane z tym rodzaje rzetelności: (w Hornowskiej to jest wyjaśnione na przykładzie pracy pisemnej studenta, którą oceniają profesorowie)
- rzetelność wewnątrz osoby oceniającej - ten sam sędzia ocenia ten sam wynik wielokrotnie i oceny są zbliżone do siebie.
- rzetelność miedzy oceniającymi - wielu sędziów ocenia jedną pracę i ich oceny są zbliżone do siebie
- zgodność wewnętrzna (między pracami) - jeden sędzia ocenia kilka prac tej samej osoby, jeśli wyniki są do siebie podobne, to znaczy, że są zgodne wewnętrznie.
- wariancja między osobami badanymi - oceny prac różnych osób różnią się między sobą.
W TU zróżnicowanie ocen wewnątrz jednej osoby lub między osobami oceniającymi a także brak zgodności wewnętrznej świadczą o braku rzetelności pomiaru. Są to źródła niepożądane i określa się je jako wariancję błedu. Natomiast wariancja między osobami badanymi jest tym, co chcemy osiągnąć, bo celem testu jest określenie zróżnicowania cechy miedzy osobami
badanymi. Taką wariancję nazwiemy wariancją prawdziwą.
Elementem TU jest określanie schematów badawczych, które pozwalają uzyskać dane na temat wielkości wariancji, wynikające z konkretnych źródeł błędu. Stosuje się analizę wariancji ANOVA. Czynniki, które powinny być wzięte pod uwagę przy wyborze schematu:
- przedmiot pomiaru - w KTT liczymy tylko wariancję wyników prawdziwych i wariancję błędu. W TU możemy badać nie tylko osoby badane, ale też np. porównywać osoby oceniające.
- czynniki pomiaru - mamy do czynienia z różnymi źródłami wariancji wyników. Wariancja, której źródło stanowi przedmiot pomiaru jest wariancją prawdziwą, zaś źródła wariancji błędu (czyli wszystkich pozostałych wariancji) nazywane są czynnikami pomiaru. Każdy czynnik może mieć wiele poziomów (np. jeśli student odpowiada na 5 pytań to mamy 5 poziomów). Czynniki mogą być losowe (poziomy tych czynników są losową próbką wszystkich możliwych poziomów tego czynnika) i stałe (ich poziomy się nie zmieniają), odnoszą się do
wystandaryzownych warunków badania. Przynajmniej jeden czynnik musi być losowy.
Wynik uniwersalny - w TU oznacza odpowiedni wynik średni otrzymany przy losowym wyborze poziomów odpowiedniego czynnika.
Dwa rodzaje badań:
- badania typu G - ich celem jest oszacowanie wielkości wariancji związanej z każdym czynnikiem pomiaru. Znając te wariancje możemy określić konsekwencje zmiany w przyjętym schemacie myślenia i poszukać układu optymalnego.
- badania typu D - określanie rzetelności testu w róznych sytuacjach,
2. Aspekty prawne przeprowadzania badania testowego (to zbieranina z Brzezińskiego,
Hornowskiej i tekstu z nowego Strelaua, ale wszystko pokrywa się ze Standardami)
- Badanie testowe (testem psychologicznym) może przeprowadzać tylko osoba do tego uprawniona, posiadająca odpowiednie kompetencje, posiadająca odpowiednia wiedzę, by prawidłowo test dobrać do sytuacji, przeprowadzić go odpowiednio i obliczyć wyniki, a następnie trafnie je zinterpretować i ewentualnie podjąć kolejne kroki itd.
- Test powinien spełniać kryteria dobroci testu (nie opisuję kryteriów, bo to inne zagadnienie), ma to być test w oryginalnej wersji (tzn. nie można samemu nic zmieniać). Nie powinno się stosować testów, które nie spełniają kryteriów albo które wyszły z użycia z powodu np. braku pokrycia w teorii, albo teoria została podważona przez nowsze badania naukowe (tzn nie należy stosować takich przedawnionych testów do diagnozy, chyba, że jako forma pomocnicza; można za to w badaniach empirycznych porównywać wyniki takich testów z wynikami testów powszechnie używanych i spełniających kryteria - w celach porównawczych).
- Użytkownik testu zobowiązany jest do używania oryginalnych pomocy i arkuszy odpowiedzi do testu - poszanowanie praw autorskich.
- Przebieg badania musi być zgodny z procedurą opisaną w podręczniku do danego testu.
- Odejście od procedur może nastąpić jedynie w przypadkach wyszczególnionych przez autorów podręcznika. Jeśli nastąpiła jakaś modyfikacja to trzeba ja dokładnie opisać opisując procedurę badania czy oceniania wyników.
- Badacz ma obowiązek takiego doboru testu, by zbadać to, co powinien, lub co mu zlecono, nie może szkodzić badanemu (test musi też być trafny ze względu na cel diagnostyczny czy prognostyczny w jakim jest on stosowany).
- Użytkownik testu jest zobowiązany do zabezpieczenia testów w takim zakresie w jakim zaleca to autor testu
- Użytkownik testu zobowiązany jest do respektowania praw autorskich (prawo do nienaruszalności treści i formy utworu) a materiały do przeprowadzenia badania muszą pochodzi z legalnej dystrybucji.
- Należy zadbać o dokładne wyjaśnienie badanym jak będzie przebiegało badania i co powinni robić (chyba, że to jest też częścią badania), należy też zapewnić komfortową atmosferę i wyeliminować czynniki zakłócające.
- Nie można poddawać kogoś badaniu pod fałszywym pretekstem (chociaż utrzymywanie badanego w niewiedzy na temat interpretacji wyników może być konieczne ze względu na efektywność badania testowego.). By nie naruszać prawa badanego do prywatności należy mu wyjaśnić w jakim celu i w jaki sposób wykorzystamy otrzymane wyniki (ale nie można pokazywać pozycji testowych i omawiać sposobu ich oceny i interpretacji, nie można tez tego pokazywać rodzicom, gdy mamy zamiar badać dziecko). Badany musi wyrazić zgodę na badanie testem.
Prawa badanego (nie opisuje dokładniej, bo to było osobne pytanie):
-do dobrowolnej zgody na badanie
-do znajomości swoich wyników
-do tajemnicy jego wyników względem innych żeby się nie dowiedzieli
-do zmniejszenia wpływu etykietowania
-do prywatności
- Jeśli wyniki testu są przekazywane innym osobom - rodzicom, nauczycielom, instytucjom to należy dla nich opracować specjalna interpretację - ma ona być napisana jasno, prostym językiem, konkretny opis co test mierzył, jakie są otrzymane wyniki, co to oznacza, jaka jest dokładność wyników testowych, jak te wyniki są wykorzystane i jakich błędów interpretacyjnych mają ci odbiorcy unikać.
- Gdy interpretacje wyników opracowuje się komputerowo to należy podać źródła, uzasadnienie i empiryczne podstawy takiej interpretacji, brać pod uwagę ograniczenia - komputer nie bierze pod uwagę niuansów tylko twarde dane.
- Gdy przekazuje się wyniki urzędom lub instytucjom należy zachować poufność.
- Przechowywanie wyników i raportów z badań należy dostosować do polityki przechowywania informacji w danych instytucjach
3. IRT.
IRT pozwala na określenie związku pomiędzy odpowiedziami udzielanymi przez osobę badana a zakładana nieobserwowalną cecha leżącą u podstaw zachowań testowych
ZAŁOŻENIA IRT:
1. istnieje jeden czynnik wyjaśniający obserwowane kowariancje pomiędzy wszystkimi pozycjami testowymi - zmienna latentna
2. związek pomiędzy cechą latentną a obserwowana odpowiedzią na pozycje testu ma określony kształt. Graficzna forma tego związku to krzywa charakterystyczna pozycji testowej ( ICC)
3. każda krzywa ICC można opisać za pomocą określonych parametrów
a) współczynnik mocy dyskrimancyjnej
b) współczynnik trudności
c) współczynnik zgadywania
4. parametry krzywych ICC (a, b, c) są niezależne względem badanych grup osób. Jeżeli danym testem zbadamy kilka różnych grup osób to otrzymamy te same wartości szacowanych parametrów.
5. istnieje wiele matematycznych sposobów (modeli) opisywania krzywych ICC
6. w IRT wykorzystuje się wskaźnik informacji i przyjmuje się, że każda pozycja testowa ma swój odrębny wkład w stopień redukcji niepewności przez cały test. Wskaźnik = suma wskaźników informacji dostarczanych przez poszczególne pozycje testu
* GDZIE WYKORZYSTUJE SIĘ MODEL IRT?:
1. adaptacja językowa testu - celem jest prezentowanie osobie badanej jedynie takich pozycji testowych, których trudność odpowiada poziomowi mierzonej cechy latentnej. Osoba badana odpowiada jedynie na taki zestaw pozycji testowych, który w optymalny sposób pozwoli określić właściwy dla niej poziom mierzonej cechy
2. szacowanie stronniczości pozycji testowych - polega na porównywaniu krzywych ICC opisujących daną pozycję testową, a otrzymanych dla dwóch różnych grup osób należących do tej samej popul.
- stronniczość pozycji testowych def jest jako różnica między krzywymi ICC otrzymanymi dla dwóch grup wyłonionych z tej samej popul i nie różniących się ogólnym poziomem zdolności
Dla ambitniejszych więcej ;)
Ograniczenia modelu klasycznego
W klasycznej teorii testów przyjmuje się, że związek między wynikiem prawdziwym (rozumianym jako wynik standardowy z) a wynikiem otrzymanym w teście jest związkiem prostoliniowym (regresją liniową). Przedziały ufności są takie same dla wszystkich wyników, a wartość błędu pomiaru zależy od konkretnej badanej populacji. Podobnie, wartość parametrów charakteryzujących pozycje testowe również zależy od konkretnej populacji.
Natomiast w ramach teorii odpowiadania na pozycje testu związek między wynikiem prawdziwym a wynikiem otrzymanym nie jest związkiem liniowym, a szerokość przedziałów ufności jest inna w środku, a inna na krańcach rozkładu (przedziały są szersze dla skrajnych wyników). Błąd standardowy pomiaru nie jest związany z konkretną populacją, podobnie jak nie są z nią związane parametry opisujące pozycje testowe. W ramach IRT oszacowania poziomu badanej cechy dokonuje się oddzielnie dla każdej odpowiedzi testowej, kontrolując zarazem parametry danej pozycji testu
Założenia IRT
W teorii odpowiadania na pozycje testu przyjmuje się trzy podstawowe założenia: (1) o wymiarach przestrzeni latentnej, (2) o lokalnej niezależności pozycji testowych i wreszcie (3) o krzywej charakterystycznej pozycji testowej.
Pierwsze założenie dotyczy wymiarów przestrzeni latentnej (ang. dimen-tionality of latent space). W IRT przyjmuje się, że zachowanie osoby badanej w teście można przypisać pojedynczej cesze latentnej (nieobserwowalnej). Cecha latentna zaś to zmienna wyznaczająca zachowanie osób w danym teście. Ta zmienna właśnie determinuje obserwowane zależności statystyczne między pozycjami testu (por. Osterlind, 1983; Camilli, Shepard, 1994).
Test, który mierzy jedną cechę latentną, jest testem jednowymiarowym. Testami jednowymiarowymi są np. testy zdolności (np. matematycznych, językowych czy myślenia technicznego). Wszystkie zależności statystyczne stwierdzane między pozycjami testowymi są wyjaśniane przez odwołanie się do jednej cechy latentnej.
Założenie drugie dotyczy lokalnej niezależności pozycji testowych (ang. local independence of item). W założeniu tym przyjmuje się, że odpowiedzi każdej osoby badanej na jedną pozycje testową nie zależą od jej odpowiedzi na jakąkolwiek inną pozycję tego testu. Oznacza to zatem, że rozkład wyników poszczególnych pozycji testowych zależy jedynie od parametru 0; wyniki pozycji testowych są statystycznie niezależne. Jeżeli test jest rzeczywiście jednowymiarowy (założenie 1), to założenie o lokalnej niezależności pozycji testowych jest również spełnione. Wówczas możemy przyjąć, że cecha latentna jest mierzona w sposób niezależny k razy, gdzie k oznacza liczbę pozycji testowych.
Krzywa charakterystyczna pozycji testowej
Najważniejsze założenie przyjmowane w ramach IRT dotyczy krzywych charakterystycznych pozycji testowych (ang. item characteristic curve - ICC) i jest kluczowym założeniem teorii odpowiadania na pozycje testu. Krzywa charakterystyczna pozycji testowej to graficzny obraz funkcji matematycznej, wiążącej prawdopodobieństwo udzielenia odpowiedzi prawidłowej na daną pozycję testową z poziomem cechy, operacyjnie wyznaczonym przez ogólny wynik w teście.
Gdzie wykorzystuje się modele IRT?
Modele formułowane w ramach IRT są dzisiaj szeroko wykorzystywane. Typowym przykładem ich zastosowania są adaptacja językowa testu, testowanie adaptacyjne (interakcyjne) i szacowanie stronniczości pozycji testowych.
Zastosowanie modeli IRT do tłumaczeń językowych. W ramach IRT podejmowane są próby teoretycznego ujęcia problematyki oceny równoległości tłumaczeń. Analiza tłumaczeń w ramach IRT oparta jest na określaniu podobieństw związku między odpowiedziami na pozycje testowe a leżącą u ich podstaw cechą latentną dla dwóch języków (języka oryginału i języka tłumaczenia). O równoległości oryginalnej pozycji testowej i pozycji przetłumaczonej decyduje podobieństwo krzywych ICC wyznaczonych dla tych pozycji (por. Hulin, Drasgow, Parsons, 1983).
Testowanie adaptacyjne (interakcyjne). Konstruktorzy testów psychologicznych zainteresowani są zazwyczaj stworzeniem metody obejmującej szeroki zakres wartości interesujących ich charakterystyk. Jest to możliwe dzięki dobieraniu pozycji testowych o zróżnicowanym współczynniku trudności w taki sposób, aby średnia ich trudność oscylowała wokół 50%. Niezamierzoną konsekwencją takiego doboru pozycji testowych jest konieczność odpowiadania przez osobę badaną na wiele pozycji zbyt łatwych lub zbyt trudnych. Pomijając samą czasochłonność takiej procedury (zarówno w wypadku osoby badanej, jak i badającej), może on powodować u osoby badanej spadek motywacji do rzetelnego odpowiadania na pozycje testu.
Zastosowanie modeli IRT do szacowania stronniczości pozycji testowych. Strategia badania stronniczości pozycji testowych wywodząca się z IRT polega na porównywaniu krzywych ICC opisujących daną pozycję testową, a otrzymanych dla dwóch różnych grup osób należących do tej samej populacji. I tak „(...) zbiór pozycji testowych możemy traktować jako zbiór bezstronny, jeżeli krzywe ICC wyznaczone dla każdej pozycji testowej tworzącej ten zbiór będą takie same dla obu rozważanych grup należących do tej samej populacji" (Crocker, Algina, 1986, s. 377). Tak więc, w ramach IRT stronniczość pozycji testowych definiowana jest jako różnica między krzywymi ICC otrzymanymi dla dwóch grup (np. etnicznych), wyłonionych z tej samej populacji i nie różniących się ogólnym poziomem zdolności.
Najczęściej stosuje się dwie miary stronniczości: (1) wielkość przestrzeni między krzywymi ICC (Rudner, 1980) oraz (2) test hipotezy o równości trzech parametrów w porównywanych grupach (Lord, 1977; 1980), Na rys. 5.9 przedstawiono trzy hipotetyczne sytuacje, w których stronniczość pozycji testowej przypisywana jest (a) różnej mocy dyskryminacyjnej pozycji testowej w obu grupach, (b) różnej trudności i (c) różnym współczynnikom zgadywania (por. też Hornowska, 1999).
Stosowanie item response theory jako modelu teoretycznego dającego podstawę do konstruowania konkretnych technik szacowania stronniczości pozycji testowych jest najbardziej dojrzałym rozwiązaniem z wszystkich proponowanych w literaturze przedmiotu. Podstawową barierą utrudniającą jego szerokie stosowanie jest matematyczna złożoność obliczeń. Można mieć jednak nadzieję, że przy dzisiejszym tempie rozwoju oprogramowania komputerowego ta przeszkoda szybko zniknie (dostępnych jest już kilka programów obliczeniowych), a wówczas - nie tylko w omawianym przez nas obszarze zagadnień - teoria odpowiadania na pozycje testu, czyli item response theory, zastąpi klasyczną teorię testów.
1. Kryteria klasyfikacji i rodzaje testów.
Test to każda standaryzowana metoda diagnostyczna
Format(rodzaj) pozycji testowych czyli itemów nie stanowi kryterium odróżniania testów od „nietestów”
Test psychologiczny jest specyficzną procedurą diagnozowania. Może on być zbiorem zadań lub pytań, które w standardowych warunkach mają wywołać określone rodzaje zachowań i dostarczać wyników o pożądanych właściwościach psychometrycznych, tj. posiadających wysoką rzetelność i wysoką trafność.
Test psychologiczny jest narzędziem, które:
-pozwala na uzyskanie takiej próbki zachowań, o których można przyjąć, że są wskaźnikami interesującej nas cechy psychologicznej. Zachowania te nie muszą ściśle przypominać zachowań, które chcemy oszacować na podstawie testu. Wystraczy wykazać, że istnieje między nimi określony związek
-dostarcza reguł obliczania wartości mierzonej cechy
-spełnia określone kryteria formalne
-jasno określa zakres i rodzaj dopuszczalnych zachowań ze strony diagnosty
-zakłada kooperacyjną postawę osoby badanej
Rodzaje testów
--standaryzowane i niestandaryzowane - testy standaryzowane to takie testy, które posiadają dokładnie sprecyzowane zasady ich stosowania oraz zostały wyposażone w normy, otrzymane w wyniku przebadania reprezentatywnej próby pochodzącej z populacji, dla której test mabyć stosowany. Do testów niestandaryzowanych można zaliczyć np. testy wiadomości budowane przez nauczycieli na ich własny użytek, w których dopuszcza się możliwość interakcyjnego modyfikowania sytuacji badania.
--indywidualne i grupowe
--szybkości i mocy - testy szybkości to takie testy, których czas rozwiązania jest ograniczony i żadna osoba badana nie powinna go ukończyć w wyznaczonym czasie; w teście tym różnice indywidualne są głównie determinowane szybkością wykonania. Testy mocy to testy stwarzające każdej osobie badanej szansę na podjęcie próby rozwiązania wszystkich pozycji testu, trudność zadań w takim teście stopniowo rośnie.
--obiektywne i nieobiektywne - testy obiektywne posiadają tak starannie opracowane, stałe metody obliczania wynków, że sam wynik może zostać obliczony nawet przez osobę bez pzrygotowania psychologicznego. W testach nieobiektywnych ocena odpowiedzi osoby badanej wymaga zazwyczaj dużej znajomości przedmiotu pomiaru i otrzymany wynik często odzwierciedla subiektywne umiejętności psychologa.
--słowne i bezsłowne - testy słowne zawierają zadania zbudowane wyłącznie z materiału werbalnego natomiast bezsłowne polegają na wykonywaniu określonych czynności.
--testy właściwości poznawczych i właściwości afektywnych - testy właściwości poznawczych to testy mierzące wytwory procesów poznawczych(testy zdolności, uwagi, pojemności pamięci). Testy właściwości afektywnych mierzą postawy, wartości, zainteresowania czy inne pozapoznawcze, aspekty osobowości.
--testy zorientowane na normy i zorientowane na kryterium - w testach zorientowanych na normy punktem odniesienia dla interpretacji wyników jest konkretna populacja osób, a w testach zorientowanych na kryterium tym punktem jest konkretny zakres wiedzy.
1. Rzetelność w pomiarze/rzetelność pomiaru testowego.
W sensie psychometrycznym rzetelność oznacza powtarzalność wyników testowych w kolejnych pomiarach. Wyniki obserwowalne testu nic nam nie mówią, bo nie wiemy, w jakim stopniu odzwierciedlają wyniki prawdziwe. Dlatego na początku korzystania z testu musimy dowiedzieć się, jaki jest związek między wynikami obserwowalnymi a prawdziwymi. Współczynnik korelacji między wynikami obserwowanymi a wynikami prawdziwymi nazywa się WSKAŹNIKIEM RZETELNOŚCI. RZETELNOŚĆ TESTU to kwadrat korelacji między wynikami otrzymanymi a prawdziwymi. Czyli jest to stosunek wariancji wyników prawdziwych do wyników otrzymanych. Inaczej mówiąc, rzetelność mówi nam o tym, w jakim stopniu wariancja wyników prawdziwych określa wariancję wyników otrzymanych.
Ta definicja nie ma znaczenia praktycznego, ponieważ nie znamy nigdy wariancji wyników prawdziwych (wartość nieobserwowalna). Jeśli potraktujemy rzetelność jako powtarzalność, to możliwe byłoby ponowne przebadanie tej samej grupy tym samym testem po określonym czasie, wielkość współczynnika korelacji wyników pierwszego i drugiego testu dałaby nam odpowiedź o rzetelności testu. ALE badanie testowe jest uwrażliwiające, więc ponowne przebadanie tym samym testem nie jest wiarygodne. Aby rozwiązać ten problem wprowadzono TESTY RÓWNOLEGŁE, które spełniają następujące warunki:
średni wynik testu A = średni wynik testu B
odchylenie standardowe wyników otrzymanych w teście A = odchylenie standardowe wyników otrzymanych w teście B
interkorelacje pozycji w teście A są takie same jak interkorelacje pozycji w teście B
współczynnik korelacji wyników otrzymanych w teście A z pewną zmienną Z jest taki sam, jak współczynnik korelacji wyników otrzymanych w teście B z tą samą zmienną.
Współczynnik korelacji między wynikami otrzymanymi w dwóch testach równoległych, określany jako WSPÓŁCZYNNIK RZETELNOŚCI jest miarą rzetelności testu.
Tłumacząc prosto:
Współczynnik rzetelności jest odsetkiem wariancji wynikow otrzymanych, jaką można przypisać wynikom prawdziwym.
Czyli
Jeśli rzetelność wynosi 0,81 to oznacza, że 81% wariancji wyników otrzymanych w teście stanowi wariancja wyników prawdziwych.
Jak badać rzetelność?
Technika test - retest czyli dwukrotne stosowanie tego samego testu. Rzetelność jest w tym wypadku wielkością współczynnika korelacji pomiędzy wynikami testowymi otrzymanymi za pierwszym i za drugim razem.
Współczynnik rzetelności szacowany tą metodą określany jest jako WSPÓŁCZYNNIK STABILNOŚCI BEZWZGLĘDNEJ, określa w jakim stopniu wyniki są wrażliwe na przypadkowe zmiany dotyczące badanego lub sytuacji badania. Istotna tu jest długość przerwy między badaniami (musi być na tyle długa, aby badany zapomniał, co było w teście, ale na tyle krótka, aby nie zdążyła się dokonać istotna zmiana rozwojowa). Można też badać dwa razy bez żadnej przerwy, uzyskujemy wtedy WSPÓŁCZYNNIK WIARYGODNOŚCI TESTU, pozwala wychwycić takie czynniki jak zmęczenie czy chwilowa fluktuacja uwagi (związane z osobą).
Metoda test - retest jest wystarczająca dla testów motorycznych czy różnicowania sensorycznego, ale w wypadku testów psychologicznych nie jest zalecana.
wykorzystanie alternatywnych wersji testu - dwóch wersji tego samego testu, świadomie konstruowanych tak, aby zostało spełnione założenie o równoległości. Jeśli testy wykonywane są jeden po drugim, uzyskujemy WSPÓŁCZYNNIK RÓWNOWAŻNOŚCI MIĘDZYTESTOWEJ, który mówi nam, w jaki sposób błąd jest uzależniony od różnic między wersjami testu. Jeśli zaś między testami występuje jakaś przerwa czasowa, wynik będzie WSPÓŁCZYNNIKIEM STABILNOŚCI WZGLĘDNEJ, który określa stabilność wyników testowych oraz wpływ treści na te wyniki.
Rzetelność można też szacować za pomocą jednokrotnego badania danym testem.
metoda połówkowa - dzielimy test na dwie, równoległe połowy (najlepszą metodą jest podział na pozycje parzyste i nie parzyste) i obliczamy współczynnik korelacji wyników otrzymanych w pierwszej i drugiej połowie testu, czyli WSPÓŁCZYNNIK RZETELNOŚCI MIĘDZYPOŁÓWKOWEJ. Uzyskujemy w ten sposób wynik rzetelności jednej połowy testu, który następnie przeliczamy za pomocą wzoru Spearmana Browna (rtt=2rpp/1+rpp). Warunkiem koniecznym tej metody jest udzielenie przez wszystkich badanych odpowiedzi na wszystkie pytania testowe (więc nadaje się tylko do testów mocy).
badanie zgodności wewnętrznej - założenie początkowe: skoro test można podzielić na połowy w różny sposób, to możemy otrzymać różne wyniki rzetelności. Stąd warto wiedzieć, jaki jest średni współczynnik rzetelności testu, biorąc pod uwagę wszystkie jego przepołowienia. Kuder i Richardson opracowali pojęcie WSPÓŁCZYNNIKA ZGODNOŚCI WEWNĘTRZNEJ. Najczęściej wykorzystujemy dwa wzory: KR20, kiedy bierzemy pod uwagę średnią wariancję wszystkich pozycji testowych (zalecany) i KR21, kiedy bierzemy pod uwagę średnią trudność pozycji testowych.
Te wzory nadają się do pozycji dwukategorialnych (odpowiedzi diagnostyczne i niediagnostyczne). Jeśli kategorii jest więcej, korzystamy z modyfikacji wzoru, zwanej alfa - Cronbacha (niestety nie jestem w stanie przepisać tu tego wzoru , takich cudów w Wordzie nie potrafię ).
Rzetelność jako zgodność ocen - dajemy test do oceny dwóm osobom oceniającym i obliczamy współczynnik korelacji między tymi ocenami.
Która metoda jest najlepsza? Wg Choynowskiego:
- współczynnik stabilności względnej, jako najbardziej rygorystyczna miara prowadzi do estymacji dolnej granicy rzetelności, dając niższe wyniki niż inne metody.
- współczynnik rzetelności międzypołówkowej daj przecenianie rzetelności gdyż nie bierze
pod uwagę błędów wynikających ze zmienności w czasie.
Nie istnieje coś takiego jak ogólna rzetelność - określając jej wysokość, trzeba koniecznie podać metodę, jaką została badana.
3. Współczynniki psychometryczne (?) alfy Cronbacha (skorzystać przy tym pytaniu z artykułu Cronbacha).
3. O alfie Cronbacha, współczynniki psychometryczne
Wygodny w użyciu wzór na współczynnik rzetelności, stanowiący uogólnienie wzoru K-R 20 dla pozycji ocenianych w dowolny sposób, tj. nie tylko „0-1"
Bywa stosowany do obliczania współczynnika rzetelności skal postaw i kwestionariuszy osobowości, których pozycje wymagają wyboru jednej z kilku możliwych kategorii odpowiedzi (np. „tak", „nie wiem" „zgadzam się", „raczej zgadzam się", „raczej nie zgadzam się", „nie zgadzam się").
Podejście Kudera-Richardsona-Cronbacha można rekomendować jedynie w przypadku gdy:
test ma strukturę jednoczynnikową, tzn. zakłada się, że pozycje testu mierzą tę samą zmienną;
test zbudowany jest z pozycji równoległych.
w takiej sytuacji omawiane podejście daje najlepsze oszacowanie wewnętrznej zgodności testu.
Jego wartość będzie tym większa, im bardziej jednorodna będzie próbka pozycji tworzących test pobrana z populacji pozycji.
Nie jest miarą uniwersalną (nie bada wszystkich aspektów rzetelności)
nie jest wolna od ograniczeń. O tych ostatnich psycholog najczęściej zdaje się zapominać.
Może z powodzeniem zastąpić, w przypadku obliczania rzetelności baterii testów, współczynnik Mosier
Źródło: Brzeziński, Metodologia badań psychologicznych
Właściwości psychometryczne współczynnika alfa Cronbacha na podstawie artykułu Cronbacha:
Def: Współczynnik rzetelności pokazuje, czy twórca testu słusznie zakłada, że pewna pula pozycji testowych dostarczy nadających się do interpretacji wniosków n. t. różnic indywidualnych. (Kelley)
Ogólny wskaźnik alfa, którego szczególnym przypadkiem jest wzór KR 20 ma następujące ważne właściwości:
1. Współczynnik alfa jako równoważnik losowej próby pozycji testowych:
Mierzy to samo co współczynniki połówkowe
Jeżeli podzielimy test na wszystkie możliwe połówki, to alfa będzie średnią z otrzymanych w ten sposób współczynników
Jeżeli wykonamy tylko jedno połówkowanie i przeprowadziliśmy ten podział losowo, to otrzymana wartość będzie leżała gdzieś w rozkładzie, którego średnią jest alfa
Jeżeli rozkład współczynników połówkowych jest bardziej lub mniej symetryczny, otrzymany współczynnik połówkowy będzie wyższy od alfa mniej więcej tak samo często jak niższy od alfa
Średnia, którą jest alfa powstaje w rezultacie podziałów na bardzo dobre połówki (w każdej części pozycje do siebie podobne ?) jak i w rezultacie podziałów na złe połówki (w każdej cz. testu połówki do siebie nie podobne)
W wypadku dwóch zaplanowanych prób (nie losowych) można oczekiwać wyższych korelacji, ale różnice te są zazwyczaj niewielkie.
2. Jest wartością oczekiwaną, kiedy dwie losowe próbki pozycji z puli, takie jak pozycje
zawarte w danym teście, są skorelowane.
3. Alfa jest dolną granicą współczynnika precyzji (dokładność tego samego testu złożonego z tych samych pozycji sprawdzana bez przerwy czasowej). Jest również dolną granicą współczynnika równoważności otrzymywanych przez równoczesne stosowanie dwóch testów o dobranych parami pozycjach. Jednak wypadku testów o umiarkowanej długości, które nie dają się podzielić na kilka różnych czynnikowo podtestów, alfa jest prawie równa współczynnikom równoważności dla "podziałów równoległych" lub "form
równoległych".
4. Alfa jest oszacowaniem oraz dolną granicą tej proporcji wariancji testu, którą można przypisać czynnikom wspólnym dla pozycji testowych. To znaczy, że jest wskaźnikiem nasycenia czynnikiem wspólnym. Ten współczynnik służy celom, które są przypisywane wskaźnikom homogeniczności. Wykorzystując zmodyfikowaną technikę, można zastosować
alfa do oceny nasycenia czynnikiem wspólnym baterii złożonej z podtestów.
5. Alfa jest dolną granicą nasycenia testu pierwszym czynnikiem. Dla testów o przeciętnej długości, niepodzielonych na kilka różnych czynnikowo podtestów, alfa jest tylko
trochę większa od tej proporcji wariancji, którą można przypisać pierwszemu czynnikowi.
6. Alfa jest konserwatywną estymacją, niedoszacowaniem, dolną granicą współczynnika rzetelności (zdanie Kuder-Richardson)
Ale: Alfa może być niższa od wartości otrzymanej w wyniku losowego podziału konkretnego testu na połówki, ale może też być od niej wyższa
Bo: 2 testy utworzone w taki spos, że odpowiadające sobie pozycje z różnych form mierzą te same czynniki, będą korelowały wyżej niż para testów utworzona przez losowanie z puli pozycji, nawet jeżeli każda z porównywalnych pozycji w pierwszej parze testów zawiera pewną specyficzną wariancję. (czy to znaczy, że Kuder Richardson nie mieli racji?)
i jeszcze inny fragment w tym artykule: Alfa zazwyczaj zaniża oszacowanie wariancji czynników wspólnych, ale niedoszacowanie nie jest poważne, chyba że test zawiera pozycje z różnych skupień.
7. Alfa może być albo wyższa albo niższa od współczynnika stabilności liczonego przy zastosowaniu odstępu czasowego między testem i retestem.
Dlaczego? Niektórzy badacze uważają, że alfa jest niższa ale artykuł pokazał, że to nie prawda; współczynnik stabilności- traktuje wariancję wyniku ogólnego między próbkami (wewnątrz osób) jako źródło błędu, a wariancję czynników specyficznych (między pozycjami testowymi wewn. osób) jako wariancję prawdziwą. W alfie wariancja czynników specyficznych jest uważana jako błąd. Zmienność między próbkami nie istnieje i nie redukuje wariancji prawdziwej. Obie wariancje będą pewnie małe w wypadku długich testów mierzących stabilne zmienne. Ale można też mierzyć niestabilne zmienne np. aktualny nastrój
czy wydajność pracy.
Współczynnik alfa a struktura wewnętrzna testów [w] Trafność i rzetelność testów psychologicznych. Wybór tekstów. Brzeziński.
3. Porównywanie wyników testowych: rzetelność różnic i standardowy błąd różnicy.
Obliczamy standardowy błąd różnicy między wynikami ze wzoru
SEMx-y =pierwiastek Sx?(1- rxx) + Sy?(1- ryy)
Sx to odchylenie standardowe wyników w pierwszym teście
rxx to rzetelność pierwszego testu
Sy to odchylenie standardowe wyników w drugim teście
ryy to rzetelność drugiego testu
Minimalną różnicę obliczamy ze wzoru:
Z?/2 SEM
Jeżeli różnica obliczona jest równa bądź większa od różnicy minimalnej, to jest ona istotna statystycznie - czyli ma znaczenie diagnostyczne.
3. Długość testu a rzetelność
Każdy test o określonej wielkości prowadzi również do określonej wielkości błędu pomiaru. Zwiększanie długości narzędzia pomiarowego prowadzi w bezpośredni sposób do zmniejszania wielkości błędu, a zwiększania wariancji wyników prawdziwych. Im większa wariancja wyników prawdziwych, tym większa rzetelność naszego testu. Pozycje testowe dołączone do testu powinny spełniać warunek równloległości. Gdy test wyjściowy jest stosunkowo długi, dalsze wydłużanie zwiększy jego rzetelność tylko w nieznacznym stopniu. Wydłużanie testu ma sens tylko wtedy, gdy nowe pozycje są tak " dobre" jak pozycje w teście wyjściowym.
3. Argumentacja za estymacją T na podstawie równania McHugha i SEE/Argumenty przemawiające za stosowaniem SEE zamiast SEM przy wyznaczaniu przedziału ufności.
2. Estymacja stabilności testu. (pytanie 1 z pierwszego „Nieznanego zestawu”)
1. Estymacja wiarogodności testu. (pytanie 1 z pierwszego „Nieznanego zestawu”)
2. Estymacja zgodności wewnętrznej: analiza związków itemów z wynikiem ogólnym. (pytanie 1 z pierwszego „Nieznanego zestawu”)
3. Estymacja zgodności wewnętrznej: analiza właściwości statystycznych itemów. (pytanie 1 z pierwszego „Nieznanego zestawu”)
1. Estymacja konsensyjności. (pytanie 1 z pierwszego „Nieznanego zestawu”)
2. Estymacja równoważności międzytestowej. (pytanie 1 z pierwszego „Nieznanego zestawu”)
1. Równoważność międzypołówkowa. (pytanie 1 z pierwszego „Nieznanego zestawu”)
2. Co to jest błąd skorelowany z wynikiem prawdziwym i do czego służy.