TO JEST DO DRUKU 2 Opracowane zestawy 1,3 i 4 i 7 i 8(nc),9,10(nc),12,14,15,16 i 17(nc),19,20,21,22 i 24(nc),25,26,28(nc),29,30,1nn i 2nn(nc) (2)


Zestaw nr 1:

1. Test psychologiczny i jego pożądane własności.

Narzędzie do pomiaru modalnych cech zachowania

TEST PSYCHOLOGICZNY - POWTÓRZENIE I UZUPEŁNIENIE

• Jest narzędziem diagnostycznym/badawczym

- posługiwanie się nim musi być uzasadnione celem postępowania diagnostycznego/badawczego oraz musi wynikać z wysuniętych hipotez diagnostycznych/badawczych

• Jest zazwyczaj zbiorem różnorakich itemów (zadań, pytań, rysunków, słów, symboli itp.),

które umożliwiają uzyskanie (pobranie) pewnej próbki zachowań. Na podstawie tej

próbki można wnioskowań - w oparciu o określone założenia: (a) teoretyczne i (b) psychometryczne - o zachowaniu się osoby badanej w sytuacjach pozatekstowych

ZACHOWANIA TESTOWE (CZYLI REAKCJE BADANEGO NA ITEMY TESTU)

MAJĄ WSKAZYWAD NA NATĘŻENIE PEWNEJ OKREŚLONEJ WŁAŚCIWOŚCI MODALNEJ (ZMIENNEJ)

• Musi dostarczać reguł obliczania wartości mierzonej zmiennej. W związku z tym musi być oparty na określonej teorii psychologicznej oraz na odpowiednim modelu psychometrycznym

- w przypadku testów wykorzystywanych w praktyce diagnostycznej zazwyczaj wciąż jest to

Klasyczna Teoria Testów

• Zachowania testowe nie zawsze muszą ściśle przypominać zachowań, o których wnioskuje się na podstawie testu, jednak należy wykazać, że istnieje pomiędzy nimi określony związek

• Teoretyczny model mierzonej zmiennej musi być spójny z modelem interpretacji wyniku testowego

• Interpretacja treściowa wyniku testowego musi uwzględniać wnioski z jego interpretacji formalnej

Musi spełniać określone kryteria formalnej dobroci, takie jak:

• obiektywność - niezależność wyników testowych od tego kto, gdzie i kiedy dokonuje ich oceny

• standaryzacja - jednolitość reguł badania testem oraz procedur obliczania i interpretowania wyników

• rzetelność - precyzja pomiaru i stabilność uzyskiwanych rezultatów

• trafność - dokładność, z jaką test realizuje założone cele pomiarowe, czyli mierzy to, do

pomiaru czego został przeznaczony

• normalizacja - wyposażenie testu w statystyczne kryteria interpretacji wyniku testowego (normy), stanowiące układ odniesienia, z którym będzie można porównywać wynik indywidualny

• adaptacja kulturowa (w przypadku testów zagranicznych) - przystosowanie oryginalnego

testu do nowych warunków kulturowych

Standaryzacja procedury badania testem (wybór najważniejszych dezyderatów)

• Wskazówki dotyczące badania testem powinny być przedstawione na tyle jasno i wyraźnie, aby każdorazowo można było powtarzać sposób badania zastosowany przy ustalaniu norm

• W szczególności instrukcja powinna określać takie kwestie, jak limity czasowe, możliwość

powrotu do poprzednich itemów, kolejność itemów i testów, zakres pomocy udzielanej badanemu

• Stosując test należy dokładnie przestrzegać wszystkich zasad i procedur opisanych w podręczniku

• Jeżeli autorzy testu dopuszczają możliwość rozszerzania lub uszczegółowiania instrukcji

przedstawionej w podręczniku, to muszą być określone warunki, w jakich postępowanie to jest dopuszczalne

• Należy okresowo sprawdzać materiał testu, wyposażenie oraz stosowaną procedurę

Dobry test powinien

Mieć autora, a test zagraniczny mieć również autora adaptacji

Posiadać oryginalny komplet pomocy testowych oraz oryginalne arkusze odpowiedzi, a także ich opisy

Być odpowiednio zabezpieczony przed możliwością posłużenia się nim przez osoby nieuprawnione

Podlegać wyłącznie legalnej dystrybucji

Mieć podręcznik

2. Składniki wariancji całkowitej wg Chojnowskiego (1971) (niektóre oznaczenia - Z.S.)

0x01 graphic

• „test” - związana z narzędziem (reprezentatywność itemów, jednolitość obszaru zachowania)

• „egz” - związana z osobą badającą (testorem)

• „proc” - związana z procedurą badania

• „syt” - związana z sytuacją badania

• „org” - związana z czasowym stanem organizmu badanego

• „osc” - związana z chwilowymi oscylacjami procesów psychicznych

• „sub.oc” - związana z niepełną standaryzacją kryteriów oceny zachowań testowych (niepełną obiektywnością testu)

• „resz” - związana z błędami w obliczaniu, zgadywaniem i innymi losowymi czynnikami

Wariancja to wielkość zróżnicowania otrzymanych wyników wokół ich wartośći średniej. Wariancja opisuje nam wielkość błędu, jaki popełniamy wtedy, kiedy średni wynik traktujemy jako dobre odzwierciedlenie wszystkich wyników indywidualnych. Wariancję możemy traktować jako miarę popełnionego błędu. Mała wariancja wskazuje, że średni wynik dobrze odzwierciedla wyniki indywidualne, duża wariancja zaś wskazuje, że wartości średniej nie można traktować jako rzetelnej miary wyników indywidualnych. Znając wielkość wariancji możemy wyciągać wazne wnioski dotyczące wielkości błędu, czyli wnioski dotyczące rzetelności testu.

W psychometrii różne źródła wariancji wynikają z różnych cech sytuacji testowania. 

3. System relacyjny w teorii pomiaru.

Rp ..., Rn pomiędzy nimi. Czasami w zbiorze U wyróżnia się podzbiory tego zbioru, w szczególności jednoelementowe

-- zbiór U to uniwersum (dziedzina, pole) systemu relacyjnego

-- relacje pomiędzy elementami zbioru U, a także jego podzbiory to charakterystyka (pola) systemu relacyjnego

-- formalnie: system relacyjny S jest skończonym ciągiem o postaci:

S = (U, R1, …, Rn)

                         α = {A,›,°}

A - uniwersum systemu relacyjnego

› - relacja wyprzedzania

° - operacja konkatenacji(działanie może być ujmowane jako specjalny rodzaj relacji)

                   Β = {R,>,+}

R - uniwersum systemu relacyjnego

+ - operacja dodawania(działanie może być ujmowane jako specjalny rodzaj relacji)

-dziedzina badań  = empiryczny system relacyjny(poklasyfikowane i ustrukturalizowane jako obiekty i relacje pomiędzy nimi surowe wyniki doświadczenia)= zmienna(ilościowa)

-inaczej cecha modalna, tzn. mogąca przysługiwać w różnym stopniu

-reprezentowanie α  przez β = funkcja skalująca (inaczej funkcja pomiarowa) 

Zestaw nr 3:

1. Wymień wszystkie błędy standardowe używane w psychometrii (po odp na to pyt

pow, żebym omówiła 3 z nich).

Z wykładu:

  1. Standardowy błąd pomiaru (Se, SEM)

  2. Standardowy błąd pomiaru skorelowany z wynikiem prawdziwym [ Se(T), SEM(T) ]

  3. Standardowy błąd estymacji wyniku prawdziwego (SEE)

  4. Standardowy błąd różnicy (SED)

  5. Standardowy błąd prognozy (SEP)

  6. Standardowy błąd zastąpienia (SES)

Wg Brzezińskiego:

  1. standardowy błąd pomiaru wyniku otrzymanego (SEM)

  2. standardowy błąd pomiaru wyniku prawdziwego

  3. standardowy błąd estymacji wyniku prawdziwego (SEE)

  4. standardowy błąd prognozy (SEP)

  5. standardowy błąd zastąpienia (SES)

Opis:

SEM - standardowy błąd pomiaru

Odchylenie standardowe obserwowanych wyników testowych jednostki , otrzymane w powtarzanych badaniach tym samym testem(lub równoległymi formami testu) w identycznych warunkach. Ponieważ zazwyczaj danych indywidualnych nie da się otrzymać są one szacowane na podstawie danych grupowych.

Niektóre istotne właściwości SEM:

1) Me= 0

(czyli jest losowy, niesystematyczny)

2) reT= 0

(czyli jest taki sam dla wszystkich wyników uzyskanych w danym teście)

3) Nie zależy od rozkładu mierzonej cechy w próbie.

SEE - standardowy błąd estymacji wyniku prawdziwego

SEE = SEM√rtt

SEE jest różnicą między estymowaną przez badacza wartością wyniku prawdziwego a jego rzeczywistą wartością.

Jest to błąd powstały na skutek niedokładności odtworzenia faktycznej wartości wyniku prawdziwego.

SEE jest odchyleniem standardowym rozkładu z próby różnicy „X' - X”.

SEP - standardowy błąd prognozy

SEP = SEM √1+rtt

SEP związany jest z formułowaniem prognozy wyniku testu równoległego na podstawie wyniku danego testu. Ten błąd, to różnica owych dwóch wyników.

SES - standardowy błąd zastąpienia

SES = SEM √2

Z błędem zastąpienia SES mamy do czynienia wówczas, gdy dokonując prognozy wyniku otrzymanego w jednym teście równoległym na podstawie wyniku otrzymanego w drugim teście zakładamy, że wynik w teście równoległym jest równy wynikowi w drugim teście. SES jest więc różnicą: wyniku w teście drugim a wynikiem w teście równoległym. Jest on odchyleniem standardowym rozkładu z próby owych różnic.

3. Psychologiczne i psychometryczne zastosowanie komputerów do testów psychologicznych.

Testy stosowane w wersji komputerowej wymagają specjalnego wyposażenia Dlatego traktowania. Dlatego należy:

Zestaw nr 4:

1. Estymacja punktowa i przedziałowa wyniku prawdziwego

Przedziałowa- oparta na idei budowania przedziałów< jak na zajęciach>

Budujemy sobie przedział w którym z odpowiednik prawdopodobieństwem znajduje się wynik prawdziwy danej osoby. Do budowy musimy znać:

-wynik otrzymany w teście

- współczynnik rzetelności testu <rtt>

- błąd standardowy

Punktowa- przeprowadza się ja z wykorzystaniem regresji liniowej < w efekcie dostajemy konkretny wynik nie cały przedział>

Do budowy potrzebujemy:

-wynik otrzymany

-rzetelność testu < rtt>

-średnia wyników otrzymanych w teście z danej badanej próby

2. Jak sprawdzić treściową trafność testu (to coś z Hornowskiej ponoć było) . str 87

Test jest trafny gdy wszystkie pozycje tego testu należą do zdefiniowanego uniwersum i gdy cały test proporcjonalnie reprezentuje zdefiniowane uniwersum. Można przeprowadzić analizę logiczną treści testu. Dysponując definicją uniwersum poprosić sędziów-ekspertów o ocenę stopnia w jakim każda pozycja reprezentuje to uniwersum. Istnieje ilościowa metoda obliczania zgodności ocen sędziów. Każdy sędzia wyraża swoją opinię o pozycji testowej na skali:

- pozycja ma zasadnicze znaczenie dla testu

- pozycja jest użyteczna, ale nie ma zasadniczego znaczenia dla testu

- pozycja nie powinna znaleźć się w teście

Jeżeli ponad połowa uzna pozycję za istotną dla testu można ją uznać za trafną treściowo.

Zestaw nr 5
1. Kombinacje liniowe wyników testowych: selekcja wielokrotna.
2. Stronniczość testów.
3. SEM - zastosowanie, właściwości (coś tam jeszcze, ogólnie całe SEM wytłumaczyć).

Odp.2 (Hornowska str. 100-107) Doliński 854

Mówiąc kolokwialnie stronniczość to swego rodzaju „przychylność” zastosowanego danego narzędzia pomiarowego wobec pewnych grup osób. Zaczęto się nad stronniczością zastanawiać już w 1905 roku (Binnet) ponieważ powstawały różnice w wynikach testowych badanych osób, wynikające przypuszczalnie z przynależności do różnych warstw społecznych.

Stronniczość testu, występuje wtedy i tylko wtedy, gdy dana grupa osiąga niższe wyniki w teście, a nie osiąga niższych wyników w kryterium.

Zatem stronniczość to nietrafna różnica grupowa - test diagnozuje różnice nieobiektywne, nieistniejące lub nie mające znaczenia dla danego kryterium.

O stronniczości pozycji testowych mówimy zatem wtedy, gdy prawdopodobieństwo udzielenia prawidłowej odpowiedzi na daną pozycję testową jest różne dla osób o tej samej wartości mierzonej cechy, a pochodzących z różnych grup należących do tej samej populacji.

Stronniczość testu psychologicznego to błąd systematyczny

- w sensie statystycznym oznacza to tyle, że stronniczość wpływa na wyniki testowania zawsze w stały sposób;

- w sensie psychometrycznym natomiast, stronniczość wyraża się w tym, że poszczególne

pozycje testowe są mniej lub bardziej trudne dla osób należących do różnych wyodrębnianych podgrup (na przykład ze względu na wiek, czy płeć) w ramach tej samej populacji.

Uczciwość to termin odnoszący się do strony etycznej testowania.

- Pojęcie uczciwości, społecznej sprawiedliwości i jednakowej ochrony przez prawo to pojęcia moralne i prawne i w tym sensie należy je odróżniać od pojęcia stronniczości testu,

traktowanej jako cecha testu.

"Uczciwego" stosowania testu nie należy zatem utożsamiać z jego cechą formalną - tj. stronniczością

Czynniki, ze względu na które test może być stronniczy:

- wiek

- płeć

- rasa

- klasa społeczna

- narodowość

- religia

Wiek

- Test jest zwykle przeznaczony do badania odpowiedniej populacji (dzieci, młodzież, dorośli).

- Próba zmiany przeznaczenia testu pod tym względem wymaga dostosowania samego testu, nieraz nawet ingerencji na poziomie pozycji.

- Zazwyczaj adaptacja testu do różnych grup wieku polega na tworzeniu odrębnych wersji

wiekowych testu oraz w najprostszej postaci - na tworzeniu norm wiekowych.

Płeć

- Testy często faworyzują jedną z płci (zwykle mężczyzn)

- Testy powinny być opracowywane tak by czynnik ten neutralizować, a więc mieć wbudowane procedury decentracji - zawierać podtesty neutralne albo w równych proporcjach skale faworyzujące i dyskryminujące daną płeć.

- Jeśli test wykazuje różnice płciowe, to stronniczości można uniknąć wprowadzając

odrębne normy.

Rasa

- analogicznie jak dla płci

- badania dowiodły, że testy są w tym aspekcie trafne - oddają faktyczne różnice np. w kryteriach powodzenia zawodowego

Klasa społeczna

(status społeczno-ekonomiczny)

- dostępne dane wskazują, że testy są trafne, bo oddają faktyczne różnice w powodzeniu

szkolnym, zawodowym i społecznym pomiędzy klasami.

Przyczyny stronniczości testu:

Odp. 3 (wykład + Brzeziński)

SEM - standardowy błąd pomiaru

Def. - odchylenie standardowe rozkładu różnic wyniku otrzymanego i wyniku prawdziwego

(tj - Tj). Jest to błąd, który popełniamy, kiedy zakładamy, że wynikiem prawdziwym danej osoby jest średni wynik, jaki uzyskałaby ona w nieskończenie wielu pomiarach tym samym testem (czyli mówiąc to samo nieco inaczej - SEM to odchylenie standardowe rozkładu błędów, które popełniamy wtedy, kiedy zakładamy, że wynikiem prawdziwym danej osoby jest średni wynik jaki uzyskałaby ona w nieskończenie wielu pomiarach tym samym testem). SEM ma rozkład normalny.

Istotne właściwości SEM są następujące:

- Me = 0, czyli błąd jest losowy, niesystematyczny

- reT = 0, czyli błąd jest taki sam dla wszystkich wyników uzyskiwanych w danym teście

- Błąd nie zależy od rozkładu mierzonej cechy w próbie

SEM jest powszechnie wykorzystywany do estymacji przedziału ufności wokół wyniku otrzymanego, tą operację wykorzystuje się, kiedy wartość współczynnika rzetelności (rtt) jest większa od 0,80 (kiedy jest mniejsza od 0,70 to stosuje się estymację punktową wyniku prawdziwego z zastosowaniem SEE).

Odp. 1 - Nie mam nawet pojęcia, gdzie szukać odpowiedzi na to pytanie……

Zestaw nr 7:


1. Rodzaje norm, podział norm w psychometrii.

Norma to pewien typowy poziom wykonania testu przez określoną grupę odniesienia.

Normy to statystyczne kryteria interpretacji wyniku testowego.

Ustalenie tablic normalizacyjnych na podstawie wyników badania grupy normalizacyjnej jest niezbędne do interpretacji wyników otrzymanych przez poszczególne osoby badane.

Normy powinny być opracowane dla wyraźnie zdefiniowanych populacji. Należy odnosić wynik osoby tylko do norm właściwych dla osoby badanej.

Ze względu na sposób definiowania grupy odniesienia będziemy mówić o normach:

- ogólnokrajowych

- lokalnych

Ze względu na sposób konstrukcji o normach:

- typu standardowego - wymaga to przekształcenia surowych wyników testu na wyniki wyrażone w jednostkach skali standardowej

- typu rangowego (centyle)

- typu równoważnikowego (równoważniki wieku i klasy)


2. Przebieg wnioskowania psychometrycznego. Wnioskowanie - diagnozowanie - etapowość

Def diagnozy

Ogólny model postępowania diagnostycznego

Psychologiczny model testu

Psychometryczny model testu, wyniku testowego i jego formalnej interpretacji

Psychologiczny model interpretacji wyniku testowego i jego praktycznego zastosowania

Wnioskowanie wymaga:

- zbierania danych

- badań walidacyjnych

- analizy itemów

- określania trafności, rzetelności

- normalizacji

3. Prawa przysługujące osobie badanej.

- do wyrażenia świadomej zgody na badanie danym testem - dlaczego są testowane, jakie informacje o wynikach i komu zostaną przekazane

- do informacji o wynikach testowania

- do minimalizowania skutków etykietowania - aby interpretacja wyniku nie zawierała skrótowych etykiet, aby osoby do których on ma trafi nie nadawały jej fałszywego znaczenia

- do zachowania tajemnicy o wynikach testowania - również zabezpieczenie danych

- do prywatności wymaganie tylko niezbędnych informacji od badanego, nie wnikanie w jego intymne sprawy

2. Przebieg wnioskowania psychometrycznego

Proces wnioskowania psychometrycznego jest to proces wyprowadzania wniosków o wartościach cech psychologicznych badanych osób na podstawie wyników, jakie otrzymały one w testach psychologicznych.

Poniżej mamy model wnioskowania: zaczynając od góry mamy

1 osoba wypełnia test

2 robimy pomiar czyli sumujemy ilość zdobytych pkt

3 tym samym dostajemy wynik otrzymany w teście <ilość zdobytych pkt>, który nazywamy wynikiem obserwowalnym.

Wynik obserwowalny- jest to wynik, jaki badana osoba otrzymuje w teście psychologicznym.

4 przygladamy się rzetelności testu, bo im wyższa rzetelność tym dokładniej możemy oszacować wynik prawdziwy osoby badanej

5 szacujemy i dostajemy w ten sposób wynik prawdziwy

wynik prawdziwy- jest to wynik odzwierciedlający rzeczywista wartość mierzonej cechy u danej osoby

6 przyglądamy się danym na temat trafności < czy na pewno zmierzyliśmy tę cechę o która nam chodziło, czy może to jest cos innego>

7 znaleźliśmy cechę psychologiczną

0x01 graphic

Zestaw nr 8:

1. Pojecie losowości wyniku testowego i jego źródła

Błąd losowy - powstaje w wyniku działania przyczyn przypadkowych . Może zarówno zwiększać jak i zmniejszać wynik testowy. Sprawia, że test nie jest powtarzalny.Do czynników, które w sposób losowy wpływają na wynik testu zaliczamy:

-konstrukcja testu- źródłem tego błędu jest specyficzny dobór treści z jakiej zbudowane są pozycje testu. W każdej sytuacji testowania niektóre osoby badane otrzymują wyższe wyniki testowe tylko dlatego, że specyficzna treść pozycji testowych szczególnie im odpowiada lub ich dotyczy np. uczeń który świetnie zna historie polski z lat 20 lepiej wypadnie na olimpiadzie z historii jeśli trafia mu się pytania z tego właśnie okresu.

-sytuacja testowa - źródła błędu:

czynniki sytuacyjne: temperatura , światło, itp.

czynniki związane z osoba badaną: czy się wyspała, lęk, motywacja, itp.

Czynniki związane z osoba badającą: umiejętność nawiązywania kontaktu, obecność lub nie podczas badania , itp.

- sposób oceny wyników- wynikają z :

Błędów mechanicznych- źle podliczona suma wyników

Zbyt ogólne kryterium oceniania odpowiedzi -prawidłowość zależy od doświadczenia oceniającego <testy osobowości, inteligencji>

Zestaw nr 9:

  1. Etyczne aspekty stosowania testów psychologicznych.

Etyczne aspekty odnoszą się do konsekwencji społecznych i życiowych dla osoby badanej, wynikających z pomiaru testem.. Od obiektywności i standaryzacji procedury badania, reprezentatywności norm oraz trafności i rzetelności testu zależy los człowieka. Im większym błędem jest zatem obciążony pomiar testowy, tym potencjalnie większe jest ryzyko błędnej diagnozy i szkody, wyrządzonej danemu człowiekowi. Ten problem etyczny, wynikający z małej trafności i obiektywności pomiaru testowego określa się mianem stronniczości (lub faworyzacji). Zjawiska te występują, gdy test mierzy nietrafnie cechy psychologiczne, tj. sugeruje istnienie różnic w nasileniu danej cechy, podczas gdy faktycznie różnice te nie istnieją. Prowadzi to do błędnej diagnozy psychologicznej i wysnuwania fałszywych wniosków psychologicznych. W przypadku, gdy wnioski te pociągają za sobą określone decyzje społeczne, to stronniczość pomiaru prowadzi do dyskryminowania (lub faworyzowania) określonych osób lub grup społecznych. Te zjawiska nierówności społecznej określa się mianem seksizmu, rasizmu, itp. Inny problem etyczny wiąże się z konsekwencjami ujawnienia tajemnicy pomiaru testowego osobom postronnym. Złamanie anonimowości jest naruszeniem praw osobistych, bowiem może prowadzić do negatywnych następstw emocjonalnych i społecznych u badanej osoby. Podobny problem dotyczy komunikowania wyników samej osobie badanej - jest to kwestia samej procedury badania, która wymaga wcześniejszego uprzedzenia o możliwych konsekwencjach badania (np. negatywna kwalifikacja lub możliwość doznania szkody emocjonalnej) oraz dobrowolności udziału, tj. przyznania osobie badanej prawa do odmówienia wzięcia udziału w badaniach (lub rezygnacji z badań nawet w ich trakcie). W przeciwnym razie prowadzi to do naruszenia wolności osobistej. Inne problemy etyczne wynikają z aspektu psychologicznego pomiaru i nastawienia wyłącznie na techniczną stronę badania testowego. Diagnoza pozbawiona jasno określonego celu badawczego i nie uwzględniająca "dobra" osoby badanej prowadzi do tzw. "etykietowania" lub stygmatyzowania (np. przypisywania komuś określeń typu "neurotyk", "wariat" - część psychologów uważa nawet, że pomiar testowy prowadzi nieuchronnie do etykietowania. W większości jednak problemy etyczne pomiaru testowego wynikają z ahumanistycznego celu badania, tzn. gdy nie realizuje on dobra danego człowieka.

Źródło: Zawadzki, Psychometria i metoda testów. Wykład 3.

  1. Klasyfikacja zmiennych wg Stevensa.

Zmienne określane mianem nazw skal, do których są przyporządkowane, tak więc mówimy o zmiennych:

  1. nominalnych- przy których stwierdzamy równość i różność, np. numeracja grup nieuporządkowanych

  2. porządkowych-stwierdzanie równości, różności, większości i mniejszości, np. surowe wyniki ankiet kwestionariuszy

  3. przedziałowych (interwałowych)-wszystkie ww. oraz stwierdzanie równości przedziałów i równości różnic, np. standaryzowane wyniki ankiet i kwestionariuszy

  4. stosunkowych (ilorazowych)- wszystkie ww. oraz stwierdzanie równości stosunków między wartościami skal, np. temperatura absolutna, długość, masa, czas reakcji.

Źródło, wykład 2.

3. Estymacja zgodności wewnętrznej: analiza właściwości statystycznych itemów

Analiza rezultatów jednokrotnego badania próby:

-analiza związków itemów z wynikiem ogólnym (stosujemy wzór Spermana-Browna, Gulliksena)

-analiza właściwości statystycznych itemów ( wzory KR 20, KR 21)

Kurder i Richardson przyjęli, że maksymalna liczba części, na jaką można podzielić dany test, jest równa liczbie jego pozycji testowych. Analizując właściwości statystyczne poszczególnych pozycji testowych i poszukując współczynnika ich zgodności, możemy uzyskać informacje o rzetelności całego testu. Współczynnik ten nazywamy współczynnikiem zgodności wewnętrznej. Im wyższa wartość współczynnika, tym bardziej jednorodne pozycje testowe. Wzór KR 20 dotyczy sytuacji, kiedy bierzemy pod uwagę średnią wariancję wszystkich pozycji testowych, KR 21 zaś kiedy bierzemy pod uwagę średnią trudność. Współczynniki rzetelności Kudera i Richardsona nadają się do obliczania rzetelności testów złożonych z tzw. pozycji dwukategorialnych, dla których istnieją tylko dwa rodzaje odpowiedzi (diagnostycznie poprawne i niepoprawne). Cronbach rozszerzył wzór KR 20 na pozycje wielokategorialne. Wzór ten jest uznawany

dziś za najlepszy sposób szacowania rzetelności znany jako alfa Cronbacha.

KR 20:

  1. Test mierzy jeden czynnik

  2. Interkorelacje itemów są równe

  3. Wariancje itemów są równe

KR 21

  1. Test mierzy jeden czynnik

  2. Interkorelacje itemów są równe

  3. Wariancje itemów są równe

  4. Itemy mają równą trudność

  5. Wiąże się z SEM(T)

Źródło: wykład 6 oraz Hornowska s. 52-55.

Zestaw nr 10:

1. Równoważność międzypołówkowa. Wykł. 6 i str. 471 Brzeziński
Tylko testy mocy, nie szybkości. Jeżeli test homogeniczny, czyli jednolity pod względem treściowym można połówki wyznaczyć poprzez podział na itemy parzyste i nieparzyste. Jeżeli jest heterogeniczny należy kierować się przy podziale na pary trudnością, wariancją pozycji i treścią.

2. Historia psychometrii i teorii testów. ( na podstawie E.Hornowska)

Już 4 tysiące lat temu przedmiotem dociekań były te same zagadnienia, jakie są podejmowane przez współczesnych psychometrów. Zainteresowanie badaniami różnic indywidualnych systematycznie rosło w drugiej połowie XIX wieku, głównie za sprawą pojawienia się psychologii jako nauki oraz pracy K.Darwina "O powstaniu gatunków drogą doboru naturalnego". Wiele postaci odegrało pod koniec XIX w istotną rolę w tworzeniu podstaw współczesnej psychometrii.

Szczególnie:

1) Franciszek Galton 2) James McKeen Cattel 3) Alfred Binet.

1) Galton zajmował się dziedzicznymi podstawami inteligencji i technikami mierzenia zdolności, stworzył również wiele prostych testów psychomotorycznych i opracował kilkanaście metod analizy wielkości różnic indywidualnych, wprowadził także pojęcie i

technikę "ko-relacji".

2) James McKeen Cattel pracował jako asystent Galtona, poznał jego metody i sam zajął się

propagowaniem idei badań testowych.

3) Alfred Binet oraz współpracownik Teodor Simon otrzymali zadanie stworzenia metody identyfikującej dzieci mające trudności w uczeniu się. Binet wprowadził pojęcie wieku

umysłowego.

Do pionierów testowania należy również zaliczyć *Charlesa Spearmana- wkład do KTT

*Edwarda L.Thorndike- testy osiągnięć

*Lewisa Termana-testy inteligencji

*Edwarda K.Stronga- testy zainteresowań

Począwszy od I wojny światowej możemy obserwować bardzo dynamiczny rozwój zarówno teorii tesowania, jak i samych metod testowych

3. Wyniki w skalach a zmienne ilościowe/skala pomiarowa narzędzia a zmienna ilościowa (mówiłam o tym co było na wykładach, zapytał się o narzędzie idealne - Brzeziński). Wykł. 2

Zestaw nr 11:

1. SEE - definicja, właściwości (to szczególnie) i zastosowanie. Wykł 4 Brzeziński str 462 i 464 punktowa estymacja wyniku prawdziwego na podstawie regresji liniowej
2. Teoria pomiaru - kwestia jednoznaczności . wykł 2 str. 9 Jakie przekształcenia skali narzędzia pomiarowego są dopuszczalne?
3. Analiza intraprofilowa - wymagał konkretu z Brzezińskiego. - Brzeziński str 548

Jest to metoda, która umożliwia psychologowi dokonanie całościowej analizy profilu psychometrycznego, stanowiącego graficzną prezentację wyników badań wielowymiarowymi bateriami testów inteligencji czy wielowymiarowymi kwestionariuszami osobowości. Można za pomocą tej psychometrycznej metody wyznaczyć profil, a jego kształt i poziom będzie odzwierciedlał intraidywidualną zmienność osoby.

Zestaw nr 12:

1. Wynik prawdziwy według Gulliksena i Lorda i Novicka.

Na podstawie wykładu trzeciego:

Harold Gulliksen (1950):

a) „platońskie” ujęcie wyniku prawdziwego- jako istniejącego obiektywnie i niezależnie od pomiaru,

b) aksjomaty:

1) Me=0

Wartość oczekiwana błędu(średni błąd) równa się zero

2) reT=0

Błąd pomiaru i wynik prawdziwy (traktowany jako zmienna losowa) nie są skorelowane

3) ree=0

Błędy w dwóch kolejnych pomiarach są nieskorelowane

Jednak:

Krytyka KTT:

a) przede wszystkim: niesprawdzalność aksjomatów!

- Modelem semantycznym jakiegoś języka ( w szczególności-teorii naukowej)może być tylko taka dziedzina empiryczna, w której prawdziwe są wszystkie aksjomaty pozalogiczne tego języka

b) ponadto:

-stałość błędu (brak warunkowej miary błędu)

-uzależnienie parametrów testu jako całości oraz jego poszczególnych itemów od rozkładu mierzonej cechy w populacji

Alternatywa:

Frederic M.Lord& Melvin R.Novick (1968)

a) statystyczne i relatywne do podziałki narzędzia ujęcie wyniku prawdziwego jako wartości oczekiwanej rozkładu skłonności

-rozkład skłonności: rozkład prawdopodobieństw uzyskania przez daną osobę poszczególnych możliwych do uzyskania wyników w danym teście

b) reaksjomatyzacja:

1. rozkład skłonności ma skończoną wariancję

2. „liniowa eksperymentalna niezależność pomiarów”: wynik prawdziwy nie zależy od wyników obserwowanych w kolejnych pomiarach; in. mówiąc-rozkład skłonności ma skończoną wartość oczekiwaną.

c) estymacja przedziałowa uwzględnia „zl/2” (funkcję gęstości rozkładu normalnego jako

model cechy w populacji), czyli wciąż jest to KTT (choć niewątpliwie istotnie zmodyfikowana).

M.Nowakowska, ”Nieformalne ujęcie współczesnej teorii testów”:

-Problematykę estymacji wartości cechy przedstawił formalnie w 1950roku Gulliksen w postaci pewnego systemu aksjomatów, który został następnie zmodyfikowany i udoskonalony w 1968r. przez Lorda i Nowicka

1.Gulliksen:

a) zaadoptował do psychologii model pomiaru z nauk fizycznych;

Przyjął on, że podobnie jak każdy obiekt fizyczny ma określone wartości swoich cech fizycznych, niezależnie od aktu dokonywania pomiaru i wyboru narzędzia pomiarowego, tak też każdy człowiek( w danym momencie) ma nieznane prawdziwe wartości określonych cech

psychologicznych

Następnie założył, na wzór nauk fizycznych, że przy dokonywaniu pomiaru obserwujemy wartości prawdziwe mierzonej cechy, zakłócone błędem równym różnicy między obserwowaną wartością wyniku pomiaru a (nieobserwowaną) wartością prawdziwą mierzonej cechy. W konsekwencji, zarówno wartość prawdziwa, jak i błąd pomiaru są

nieobserwowalne.

Trzeba było również przyjąć pewne założenia dotyczące źródeł losowości wyników obserwowanych oraz przyjąć aksjomaty nakładające pewne warunki na tę losowość.

Założono że:

-losowość wyniku obserwowanego ma charakter „podwójny”: źródłem są zakłócenia przypadkowe w pomiarze wartości prawdziwej w pomiarze cechy danej osoby oraz

przypadkowość wyboru tej osoby z badanej populacji.

Zastosowanie testu w stosunku do wybranej osoby pozwala na uzyskanie próbki określonych przez test zachowań się tej osoby i na wyznaczenie wartości estymatora wyniku prawdziwego tej osoby.

Wynik prawdziwy- realizacja (nieobserwowalnej) zmiennej losowej, której rozkład wyznaczony jest przez przyjętą metodę wyboru tej osoby z badanej podpopulacji (Novick,1966)

Błąd pomiaru ma zatem dwa źródła losowości: jedno związane z procesem losowania osób do próbki, drugie związane specyficznie z zakłóceniami losowymi pomiaru wyniku prawdziwego tej osoby, dokonywanego za pomocą testu

Krytyka podejścia Gulliksena:

-główny przedmiot krytyki aksjomatyki Gulliksena- założenie o obiektywnym i niezależnym od faktu dokonywania pomiaru istnieniu wyniku prawdziwego (czyli prawdziwej wartości cechy badanego)

Thorndike zarzucał,że ponieważ wyniki prawdziwe nie są mierzalne bezpośrednio to przyjęcie wyniku prawdziwego jest mitem i nie może mieć znaczenia teoretycznego.

Loevinger uważała, że pojęcie to nie ma znaczenia praktycznego.

Przy obecnym stanie wiedzy statystycznej oba powyższe zarzuty nie dadzą się utrzymać, sam bowiem fakt niemożności poznania dokładnej wartości parametru nie może stanowić

argumentu przeciwko wprowadzeniu tego parametru.

-poważniejszy zarzut: Gulliksen przyjął postulaty, dla których weryfikacji nie istnieją empiryczne procedury.

G. przyjął, na wzór nauk fizycznych, że wartość prawdziwa cechy u człowieka istnieje niezależnie od faktu dokonywania pomiaru. To z kolei pozwala na zdefiniowanie błędu pomiaru (różnica między wartością obserwowaną i prawdziwą). Gulliksen musiał przyjąć jednak postulat orzekający coś o wartości oczekiwanej błędu (za.łożenie tzw. nieobciążoności

narzędzia pomiaru, czyli że średni błąd jest równy zeru).

Jednak w teorii testów-w odróżnieniu od nauk fizycznych-ze względu na nieobserwowalność błędu nie mogą istnieć żadne procedury empiryczne prowadzące do weryfikacji postulatu nieobciążoności narzędzia pomiaru. To samo stosuje się i do pozostałych postulatów Gulliksena.

2. Lord i Novick:

- Mimo powyższych zarzutów, intuicyjność pojęcia wyniku prawdziwego i postulatów Gulliksena, oparta na silnych analogiach z pomiarem fizycznym, oraz praktyczna użyteczność wyników uzyskanych w wyniku zastosowań teorii testów, spowodowały, że Lord i Novick podjęli próbę nowej aksjomatyzacji teorii testów, przy której zachowałyby się jako prawdziwe wszystkie twierdzenia klasycznej teorii testów (Gulliksena) a jednocześnie przyjęte aksjomaty dawałyby się weryfikować empirycznie.

-punkt wyjścia: pojęcie tzw. rozkładu skłonności.

Wynik testu dla danej osoby interpretowany jest jako realizacja pewnej zmiennej losowej, której wartościami są wszystkie potencjalnie możliwe u danej osoby wyniki tego testu, a rozkład prawdopodobieństwa tych wyników jest charakterystyczny dla tej osoby; ten

rozkład prawdopodobieństwa to rozkład skłonności.

Rozkład skłonności jest nieobserwowalny, to pewna konstrukcja teoretyczna, za której przyjęciem przemawia empirycznie sprawdzony fakt zmienności wyników testowych tej samej osoby (argument znacznie mocniejszy niż analogie z pomiarem fizycznym).

- rozkład skłonności ma skończoną wariancję- podstawowy postulat teorii Lorda i nowicka

-wynik prawdziwy- wartość oczekiwana (nieobserwowalna) rozkładu skłonności, co pozwala z kolei na zdefiniowanie błędu pomiaru (różnica między wartością obserwowaną a

prawdziwą)

Błąd jest tu również nieobserwowalny ale postulat Gulliksena, orzekający, że wartość oczekiwana błędu jest równa zeru, w teorii Lorda i Nowicka staje się twierdzeniem, przy dowolnym schemacie losowania próbki (dlatego,że dla każdej ustalonej osoby jej średni błąd, jako średnia wartość odchyleń od średniej, jest oczywiście równa zeru na mocy definicji średniej, wobec tego przy jakimkolwiek schemacie losowania osób do próbki średni błąd

losowo wybranej osoby jest również równy zeru)

Lord i Novick przyjęli wobec tego taką definicję wyniku prawdziwego, przy której zdanie orzekające,że błąd ma wartość oczekiwaną zero jest zdaniem analitycznym, czyli

zdaniem którego prawdziwość wynika dedukcyjnie z przyjętych definicji.

Podobnie z drugim aksjomatem Gulliksena: dla każdej ustalonej osoby wartość oczekiwana iloczynu wyniku prawdziwego tej osoby przez błąd dla tej osoby jest równa zeru, gdyż wynik każdej ustalonej osoby jest pewną stałą liczbą (równą wartości oczekiwanej rozkładu skłonności tej osoby) a średni błąd tej osoby jest równy zeru, na mocy definicji średniej. Przy dowolnym schemacie losowania osób do próbki: wartość prawdziwa staje się zmienną losową, wartość oczekiwana iloczynu wyniku prawdziwego przez błąd jest równa zeru. Wartość oczekiwana błędu też równa się zeru, zatem wynik prawdziwy i błąd nie są

skorelowane.

Aksjomat trzeci: dodatkowe założenie o tzw. liniowej eksperymentalnej niezależności pomiarów.

Podsumowanie:

Gulliksen:

-wynik prawdziwy jest „zabsolutyzowany” i zewnętrzny w stosunku do pomiaru,

-podejście tzw. „platońskie”

Lord i Novick:

-wynik prawdziwy ma charakter relatywny w odniesieniu do danego narzędzia, będącego źródłem statystycznych próbek określonych zachowań się badanego, jest więc również definicją cechy, jako wartości parametru rozkładu częstości tych zachowań się

-podejście tzw. statystyczne

Ponieważ z postulatów Lorda i Nowicka wynikają postulaty teorii Gulliksena, wyniki klasycznej teorii testów (Gulliksen) zawarte są we współczesnej teorii testów (Lorda i Novicka)

3. SEM(T) a związek z KR21 (coś takiego jest w 6. wykładzie).

KR21

• Test mierzy jeden czynnik

• Interkorelacje itemów są równe

• Wariancje itemów są równe

• Itemy mają równą trudność

• Wiąże się z SEM(T) - se2 jest wówczas stosunkiem średniej wariancji „indywidualnych” błędów

- co jest jednym z powodów niższej estymowanej rzetelności testu

- drugim jest nierówna trudność itemów

Zestaw nr 13:

1. Aksjomaty Gulliksena i Lorda i Novicka, reakcjomatyzacja przyczyny i skutki. Wykł 3
2. „Standardy…” dla procedury badania, obliczania i przedstawiania wyników. (~ rozdz. 5)
3. EFA. Wykł. 7

Eksploracyjna analiza czynnikowa

- technika redukcji liczby zmiennych

- czynnik - systematyczne współzmienianie się wyników pomiaru

- wyodrębnione czynniki są ze sobą nieskorelowane

- na zastosowanie w teorii trafności:

- współczynnik korelacji między testami = się tutaj sumie iloczynów (odpowiednich ładunków czynnikowych); jest rozumiany jako nasycenie testu czynnikami

- trafność testu po jego heterogenizacji (wprowadzeniu do kryterium nowych innych czynników; wzbogaceniu predykatora) = się iloczynowi „standardowego” ładunku czynnikowego predykatora i sumy ładunków czynnikowych kryterium

- szacowanie maxymalnej do uzyskania trafności przy zachowaniu rzetelności

Zestaw nr 14:

1. Główne zadania i zastosowania KTT.

Pojęcie i zastosowanie KTT

Dział statystyki matematycznej mający zastosowanie przy konstruowaniu narzędzi pomiarowych w sytuacji, gdy nie jest możliwy wielokrotny pomiar tego samego obiektu

(konieczny dla wyskalowania narzędzia)

Teoria formalna (pojęcia pierwotne + aksjomaty); wymaga sprawdzenia prawdziwości aksjomatów w dziedzinie jej zastosowań

Zadania KTT

1. Formalizacja pojęć charakteryzujących jakość pomiaru (rzetelność, trafność i

homogeniczność: równoległość a równoważność)

2. Formalizacja pojęć charakteryzujących formalną strukturę treści pomiaru (np. struktura czynnikowa, struktura latentna)

Zestaw nr 15:

1. Przedmiot pomiaru psychologicznego według teorii testów.

Za Coombsem:

Pomiar - postępowanie służące uczonemu do reprezentowania właściwości za pomocą liczb (by można było formułować prawo ilościowe, trzeba umieć opisać odpowiednie właściwości za pomocą liczb). Model numeryczny i także - tworzenie takiego modelu. Reprezentacja pewnego empirycznego systemu relacyjnego przez np. liczbowy, czyli numeryczny

(formalny) system relacyjny.

Teoria pomiaru - zajmuje się badaniem równych typów pomiaru i wyjaśnianiem ich znaczenia. Zadaniem tej teorii jest analiza logiczna procesu pomiaru (teoria ta zajmuje się uzasadnieniem różnych procedur pomiarowych oraz badaniem sensu uzyskiwanych we ten sposób wyników).

Za Nowakowską:

Przedmiotem pomiaru mogą być wyłącznie cechy modalne (in. empiryczny system relacyjny, zmienne ilościowe). Cechy modalne to takie własności obiektów, które mogą im przysługiwać w różnym stopniu. Wartość cech (psychologicznych człowieka) to parametr prawdopodobieństwa częstości występowania określonych zachowań się tego człowieka w danych sytuacjach (uzyskanie poprzez to statystycznych prognoz dotyczących zachowania się).

Cechy mające charakter wyjaśniający - pojęcia teoretyczne, konstrukt - wyjaśnienie to ma postać pewnej hipotezy lub zbioru hipotez, zawierających interpretację przyczynową współwystępowania tych zachowań się, które są dyskrypcją danej cechy.

Odznaczają się tym, że ich treść na ogół nie jest jasno i jednoznacznie sprecyzowana (jednej i tej samej nazwie cechy, przy tych samych hipotezach wyjaśniających może odpowiadać kilka różnych zbiorów zachowań się, z których każda stanowi dobrą dyskrypcje tej cechy) - co prowadzi do „nadwyżki znaczeń”.

2. SKŁADNIKI WARIANCJI CAŁKOWITEJ wg Magnussona

(rozkładu wyników otrzymanych)

0x01 graphic

Wielkość wariancji rozkładu otrzymanych wyników testowych (St2) składa się z sumy wariancji wyników prawdziwych (ST2) oraz wariancji rozkładu składników błędu

wchodzących do wyniku indywidualnego (Se2).

Błędy pomiaru mogą występować w : przebiegu badania testowego, zgadywaniu, ocenie

wyników.

Se2(bad) - wariancja rozkładu błędów pomiaru, wynikająca z tego, że procedura badania testem w różnych momentach czasu jest inna ( w wyniku zmiany osoby prowadzącej badanie i/lub w wyniku zmiany otoczenia)

- specyfika osoby prowadzącej badanie (ewentualny błąd może wynikać z zmiany sposobu przeprowadzania testu, jak również z powodu interakcji pomiędzy prowadzącym badanie i osobami badanymi)

- otoczenie w którym prowadzone jest badanie, w tym ilość zakłóceń zewnętrznych ich siłę itd.

- instrukcja (np. może być ona niejasna, niejednoznaczna, lub poszczególne osoby badane

inaczej ją zrozumieją)

Se2(zgd) - wariancja powstała w rezultacie zgadywania

Jeżeli osoba badana rozwiązuje test i nie zna prawidłowej odpowiedzi na dane pytanie może zgadywać. Może przy tym odgadnąć właściwe odpowiedzi w niektórych zadaniach, pomimo tego, że tak naprawdę nie jest w stanie ich rozwiązać. Dlatego musimy liczyć się z możliwością, że właściwa odpowiedź została odgadnięta i dlatego bierzemy pod uwagę ten

składnik.

Se2(ocn) - wariancja błędu będąca wynikiem subiektywności w ocenianiu

Ważną rolę w powstawaniu błędów pomiaru spełnia osoba oceniająca odpowiedzi, decydująca czy jest ona prawidłowa, czy błędna. Ten czynnik błędu nie odgrywa znaczącej roli w testach grupowych (ponieważ liczba prawidłowych odpowiedzi jest ograniczona i podane są wszystkie alternatywy). Większy problem pojawia się w badaniach indywidualnych, w których oceniający często nie ma jasnych reguł, które odpowiedzi uznać

za poprawne i rezultat oceniania zależy od jego biegłości i zdrowego rozsądku.

Se2(pam) - wariancja błędu wynikająca z efektów pamięciowych powstających przy powtórnym badaniu.

Jeśli stosujemy ten sam test w dwu następujących po sobie okresach, wówczas efekty przypominania sobie pierwszego badania będą wpływać ba wyniki drugiego. Zgodność ta wpływa na korelację między powtarzanymi pomiarami, jednak nie decyduje o rzetelności

metody.

ST2(osc) - oscylacja wyników prawdziwych osób badanych

Traktując korelację między testami równoległymi jako wyraz rzetelności każdego z tych testów, zakładamy, że wyniki prawdziwe każdej osoby w obydwu testach są takie same. Jednak wynik prawdziwy zmienia się w kolejnych testach, w różnych momentach czasu.

Część wariancji prawdziwej, która nie koreluje z wariancją prawdziwą w innym momencie jest uważana za wariancję błędu. Zależy ona od oscylacji pozycji prawdziwej danej osoby na kontinuum i nie ma nic wspólnego ze zdolnością testu do dokładnego pomiaru wyników

prawdziwych.

ST2(rów)- współczynnik równoważności , który przy obliczaniu rzetelności traktowany jest jako wariancja błędu.

Wynika on z faktu, żę przy konstrukcji testów do pomiarów równoległych niemożliwe jest całkowite spełnienie wymagań teoretycznych im stawianym. Wariancja prawdziwa traktowana przy obliczaniu współczynnika równoważności jako wariancja błędu będzie największa wówczas, gdy nie podejmiemy żadnych kroków, by test dla których obliczamy te współczynniki, były do siebie bardziej podobne niż to może wynikać z losowego wyboru zadań z odpowiedniej populacji.

3. Konteksty adaptacji kulturowej

Oceniając test, powinniśmy brać pod uwagę następujące konteksty:

1) Kontekst teorii psychologicznej, czyli rzetelne podstawy teoretyczne. Przystępując do adaptacji testu, musimy najpierw poznać jego zaplecze teoretyczne. Jeśli autor testu nie podaje wprost powiązań swojego testu z teorią, należy ją zrekonstruować (np. rekonstrukcji podstaw teoretycznych Skali Inteligencji WAIS-R dokonała Hornowska). Dobrze zaadaptowany test spełnia następujące warunki:

  1. Jego związki z teorią psychologiczną są w sposób czytelny dla czytelnika opisane w podręczniku.

  2. Wyniki można interpretować w terminach tej teorii.

2) Kontekst psychometryczny, czyli maksymalizacja dobroci testu w ramach określonego modelu teorii testów. Obejmuje takie parametry, jak:

Wartości te nie mogą być gorsze niż w wersji oryginalnej.

Model pomiaru testowego dookreśla kryteria dobroci testu oraz nakreśla ramy formalne dla

interpretacji wyniku.

3) Kontekst celu.

Test adaptowany powinien realizować ten sam test, co test oryginalny.

Cel obejmuje aspekt treściowy (np. test neurotyczności) i psychometryczny (inaczej przebiega konstruowanie testu przeznaczonego do oceny poziomu jakiejś pojedynczej zmiennej w jednolitej populacji, inaczej testu przeznaczonego do różnicowania między osobami należącymi do jednej populacji).

Należy także uwzględnić zakres zastosowania testu - dwa możliwe zakresy:

  1. Badawczy (naukowy)

  2. Diagnostyczny (praktyczny)

Dokonując adaptacji powinniśmy być wierni celom założonym przez autora, w przeciwnym

razie nie będzie to adaptacja, ale parafraza.

4) Kontekst doświadczenia kulturowego osoby badanej, na który składa się:

1. Specyfika doświadczenia językowego osoby badanej ( kontekst ważny dla testów słownych)

2. Specyfika wykształcenia osoby badanej i zasób wiadomości „szkolnych” (znaczenie systemu oświatowego ważne np. dla testów słownikowych czy badających wiadomości)

3. Trening niespecyficzny w zakresie umiejętności objętych dziedziną pomiaru danego testu (dziecko bawiące się klockami jest w lepszej sytuacji startowej w przypadku badania testem operującym klockami, np. test Ravena)

4. Dotychczasowe doświadczenia życiowe, typowe dla danego kraju i kultury (ważne dla

testów inteligencji czy skal badających wartości)

5) Kontekst świadomości społecznej

Test stosowany jest w społeczeństwie, które posiada wiedze na temat testowania psychologicznego - jego wad i zalet.

Należy mieć świadomość, że wyniki testu będą decydowały o losach osoby badanej. Decyzje społeczne podejmowane na podstawie wyników testu mogą decydować o przyszłości badanego (np. wysłanie dziecka do szkoły specjalnej).

Test nie powinien wywoływać efektu stygmatyzacji osoby badanej, test powinien być

stosunkowa mało „jatrogenny”.

6) Kontekst kwalifikacji zawodowych użytkownika testu

Znajomość teorii psychologicznych, umiejętność zastosowania ich w diagnostyce, posiadanie

umiejętności psychometrycznych, pozwalających na poprawną interpretację wyników.

7) Kontekst użycia -tzw. administracja testu. Test powinien być używany zgodnie z zaleceniami autora. Istotny jest sposób podawania testu osobie badanej ( np. indywidualnie czy grupowo, z ograniczeniem czasowym czy bez ograniczeń). Błędne użycie - stosowanie niepełnych adaptacji, inna ekspozycja zadań testowych.

Z każdym z tych kontekstów wiążą się specyficzne błędy popełniane przy adaptacji

kulturowej testu.

Źródło: Brzeziński, Metodologia badań psychologicznych

Zestaw nr 16:

1. Zarzuty stawiane KTT

Problemy KTT

• Wnioskowanie o wartościach prawdziwych na podstawie obciążonych błędem wartości

zaobserwowanych

• Źródła tego błędu (losowości otrzymanego wyniku pomiaru):

1) przypadkowe zakłócenia w przebiegu pomiaru

2) wynik prawdziwy jako realizacja nieznanego rozkładu zmiennej losowej w populacji oszacowanego na podstawie próby

• Wnioskowanie o wartościach prawdziwych na podstawie obciążonych błędem wartości

zaobserwowanych

• Źródła tego błędu (losowości otrzymanego wyniku pomiaru):

1) przypadkowe zakłócenia w przebiegu pomiaru

2) wynik prawdziwy jako realizacja nieznanego rozkładu zmiennej losowej w populacji, oszacowanego na podstawie próby (rodzaj losowości specyficzny dla KTT)

Rozwiązanie - Harold Gulliksen (1950)

• „Platońskie” ujęcie wyniku prawdziwego - jako istniejącego obiektywnie i niezależnie od

pomiaru

• Aksjomaty

1) Me = 0

2) reT = 0

3) ree = 0

Krytyka KTT

• Przede wszystkim - niesprawdzalność aksjomatów!

- modelem semantycznym jakiegoś języka (w szczególności -

teorii naukowej) może być tylko taka dziedzina empiryczna,

w której prawdziwe są wszystkie aksjomaty pozalogiczne

tego języka

• Ponadto:

- stałość błędu (brak warunkowej miary błędu)

- uzależnienie parametrów testu jako całości oraz jego poszczególnych itemów od rozkładu mierzonej cechy w populacji

Zestaw nr 17:

1. Standaryzacja i obiektywność testu

( na podstawie „standardy dla testów” i Brzezińskiego)

Pierwsza właściwość dobrego testu psychologicznego wiąże się z wystandaryzowaniem .

Standaryzacja -w badaniu testem jest to dbanie o jednolite warunki badania i przeprowadzenie testu zgodnie z określonymi zasadami tak by badanie tym samym testem miało zawsze taki sam przebieg w wypadku wszystkich osób badanych( ma to zminimalizować wpływ czynników ubocznych)

Zatem dobrze wystandaryzowany test posiada:

1.Instrukcję którą podajemy w dosłownym brzmieniu, w sposób ściśle określony przez autora testu

2.Klucz czyli określone zasady wg których ocenia się odpowiedzi na poszczególne pozycje testu i interpretuje się wyniki.

Ze standaryzacja wiąże się drugie kryterium - obiektywność.

Test jest obiektywny jeśli dwie różne osoby opracowujące jego wyniki dochodzą do tego samego rezultatu. (Dlatego też należy podawać jednoznacznie brzmiące reguły przeliczania wyników surowych na wyniki określonej skali standardowej, w której wyrażone są normy dla danego testu.)

Test zaopatrzony w jasną instrukcję, odpowiednio sporządzony arkusz odpowiedzi i należycie

opracowany klucz wg którego ocenia się odpowiedzi to warunki spełnienia kryterium standaryzacji i obiektywności.

Zestaw nr 19:

1. TEORIA POMIARU: PROBLEM ISTENIENIA REPREZENTACJI

Problem istnienia reprezentacji - czy wszystkie cechy daje się mierzyć? Jeśli nie to jakie warunki muszą być spełnione, aby można było skonstruować skalę pomiarową? chodzi o

wykazanie, że reprezentacja liczbowa istnieje.

Problem istnienia reprezentacji jest podstawowym problemem teorii pomiaru (obok problemu jednoznaczności - problem scharakteryzowania związków pomiędzy istniejącymi reprezentacjami liczbowymi). Ma dwa aspekty: formalny i empiryczny.

formalny

empiryczny

Polega na znalezieniu zespołu sprawdzalnych założeń wystarczających do tego, by można było otrzymać pożądaną reprezentację.

Analiza formalna zagadnienia istnienia reprezentacji doprowadza do sformułowania układów aksjomatów dla systemów pomiarowych oraz dostarcza (jeśli aksjomaty są spełnione) metod konstruowania reprezentacji numerycznych.

Dąży się do sprawdzenia, czy aksjomaty te są rzeczywiście spełnione oraz do skonstruowania odpowiednich skal.

Ze względu na sprawdzalność empiryczną można wyróżnić 2 typy aksjomatów:

- proste - są niezbędne dla istnienia potrzebnej reprezentacji, mówią o relacjach między obserwacjami i są sprawdzalne, na nich koncentrują się szczegółowe badania;

- egzystencjalne - postulują istnienie elementów o pewnych specjalnych własnościach.

System relacyjny jest układem pewnych przedmiotów oraz relacji (jednej lub wielu)

pomiędzy tymi przedmiotami. Formalnie system relacyjny jest skończonym ciągiem
<A, R1…Rn> gdzie A jest zbiorem niepustym a R to relacje między elementami zbioru A.

System relacyjny nazywa się empirycznym, jeśli występują w nim obiekty empiryczne takie jak np. ludzie, ciężary.

System jest nazwany formalnym, jeśli jego obiekty są tworami formalnymi np. liczy czy

punkty.

Jakąś dowolną dziedzinę badań można potraktować jako empiryczny system relacyjny, a jej modele jako formalne systemy relacyjne. Związek między światem a jego modelem można traktować jako odpowiedniość pomiędzy empirycznym a formalnym systemem relacyjnym; inaczej - procesy modelowania i pomiaru opisuje się jako reprezentowanie systemów

empirycznych przez formalne.

Jeśli chodzi o znalezienie reprezentacji pewnego empirycznego systemu relacyjnego przez formalny system relacyjny, - jeśli jest to model numeryczny to reprezentację taką nazywa się pomiarem. Istotne jest, aby relacje pomiędzy przedmiotami świata rzeczywistego znajdowały swoje odbicie w relacji pomiędzy przypisywanymi im liczbami.

Pomiar jest, więc reprezentacją systemu empirycznego przez system liczbowy.

Niezbędnym warunkiem, aby można było daną relację empiryczną reprezentować przez relację między liczbami rzeczywistymi jest jej przechodniość. Istnienie poszukiwanej

reprezentacji jest równoważne przechodniości danej relacji empirycznej.

Jednym z najważniejszych zadań teorii pomiaru jest badanie warunków, których spełnienie

umożliwia konstrukcję różnych reprezentacji numerycznych.

Rezultaty takich badań są zazwyczaj podsumowane w tzw. twierdzeniach o istnieniu mówiących, że jeśli spełnione są pewne warunki to zbudowanie reprezentacji jest możliwe. Jeśli zbiór A nie jest skończony to wtedy nie wystarcza przechodniość relacji do tego, aby

istniała reprezentacja.

2. ESTYMACJA STABILNOŚCI TESTU

Estymacja stabilności testu jest jednym ze sposobów estymacji rzetelności.

Najbardziej znanymi metodami oszacowania stabilności są:

stabilność bezwzględna - dwu- lub wielokrotne badanie tym samym testem z zachowaniem pewnego odstępu czasowego między badaniami

(Najpoważniejszym źródłem kłopotów metodologicznych jest to, ile powinien wynosić owy odstęp czasowy - im on będzie krótszy tym wyższego współczynnika korelacji między dwoma zbiorami wyników będziemy się spodziewać. Będzie to szczególnie widoczne w tych

testach, w których dużą rolę odgrywa czynnik pamięciowy.)

Na oszacowanie stabilności bezwzględnej rzutują błędy związane z chwilowymi oscylacjami procesów psychicznych (chodzi o np. zmęczenie, napięcie emocjonalne, wahania uwagi)

s2T(osc), a także związane z naszą pamięcią s2T(pam)

stabilność względna - dwu- lub wielokrotne badanie równoległymi formami testu z

zachowaniem pewnego odstępu czasowego między badaniami

Tutaj bierze się też pod uwagę wariancję oscylacji (s2T(osc)) oraz wariancję równoważności (s2T(rów)) - treść pozycji nie jest identyczna w obu testach, dlatego nie można oczekiwać, że testy te będą dawać identyczne wyniki prawdziwe.

3. ANALIZA INTERPROFILOWA

(na podst. „Metodologii badań psychologicznych” Brzezińskiego, str. 559-574)

W przypadku, gdy psycholog musi dokonać oceny funkcjonowania klienta na skalach szacunkowych, na których koduje się bądź obserwuje zachowania ucznia w klasie czy pacjenta na oddziale lub uzyskuje w wywiadzie czy z kwestionariusza wypełnionego przez samego badanego.

1) Testy dychotomiczne („0, 1”) - współczynnik G - Holleya i Guilforda.

W najprostszej postaci skale szacunkowe przybierają postać skal dwubiegunowych - zero-jedynkowych. Możemy punktować np. „postępy w uczeniu się” jako 1 pkt., a „brak

postępów” jako 0 pkt.

Skale szacunkowe mogą być zebrane w jedną baterię ze względu na pewne kryteria, np. dotyczą różnych aspektów funkcjonowania osoby badanej. Taka bateria może zawierać od kilku do kilkudziesięciu (a nawet przeszło stu) skal dwupunktowych. „Wynik" osoby badanej

to seria zer i jedynek (łącznie zer i jedynek będzie tyle, ile skal liczy bateria).

Brzeziński nie poleca dodawania do siebie wyników cząstkowych, proponuje, aby w przypadku baterii k-skalowej zapisać wynik osoby badanej w postaci sekwencji k zer i jedynek. Mówiąc inaczej, chodzi o to, by posługiwać się profilem, czyli krzywą łączącą,

odpowiadające osobie badanej, punkty na odcinkach reprezen­tujących poszczególne skale.

Przykładowo, w 10-skalowej baterii samoobserwacyjnej osoba badana może uzyskać następujący wynik:

skała:

I

II

III

IV

V

VI

VII

VII

IX

X

wynik:

0

0

1

1

0

1

0

1

0

0

W jaki sposób obliczyć miarę podobieństwa profi­lów dwóch osób badanych, która w macierzy oznaczona jest literą G? Użyteczną i statystycznie poprawną miarę

podobieństwa zaproponowali Holley i Guilford:

Gk,k'=[(a+d)-(b+c)]/[a+b+c+d]

Osoba k':

„1”

„0”

Osoba k:

„1”

a

b

„0”

c

d

Pole osoba k: osoba k' wyniki:

a 1 1 zgodne - (1)

b 1 0 niezgodne

c 0 1 niezgodne

d 0 0 zgodne - (0)

Osoby badane o profilach takich samych (całkowicie, tj. bądź „1-zgodnych", bądź 0-zgodnych") uzyskują wskaźnik podobieństwa G=l,00. Osoby o G< l są w różnym stopniu niepodobne.

2) Testy trychotomiczne („-1, 0, +1”) - współczynnik GT-Vegeliusa.

Wiele kwestionariuszy obok odpowiedzi „tak” i „nie” dopuszcza jeszcze trzeci typ: „nie wiem” - osoba badana ma do dyspozycji trzy sposoby zareagowania na każde pytanie.

Osoba k':

+1

0

-1

Osoba fc

+1

k

i

m

0

D

o

P

-1

q

r

s

Vegelius (1979) zaadaptował współczynnik G do systemu punktacji trychotomicznej:

0x01 graphic

Litery: k, m itd. oznaczają liczby skal, na których porównywane osoby ba­dane uzyskały oceny.

3) Testy o wynikach wyrażonych na skali dwubiegunowej - współczynnik rBP-Vergeliusa.

Przykład takiej skali: Mapa Osobowości B. Zawadzkiego:

Łatwo zniechęcający się wytrwały, uparty

-3 -2 -1 0 +1 +2 +3

Skala zawiera punkt neutralny, od którego, na lewo i na prawo, wzrasta natężenie cechy, aby osiągnąć swoje maksimum na krańcach. Jest to więc skala porządkowa o charakterze dwubiegunowym.

4) Wykorzystanie współczynnika korelacji rangowej (rs-Spearmana lub rK-Kendalla) dla

testów wielopunktowych.

5) Współczynnik rC-Cohena - dla wyników testowych wyrażonych na skalach

standardowych.

Wyniki testowe wyrażone na jednolitej skali standardowej (np. tenowa, stenowa,

IQ) - są to skale interwałowe.

Wyniki testowe wyrażone na różnych skalach standardowych - wtedy, gdy psycholog posługuje się baterią testów znormalizowanych ba różnych skalach standardowych, Można tutaj skorzystać z adaptacji współczynnika rC - Cohena przeprowadzonej przez Vegeliusa.

(Brzeziński pisze o tym więcej, umieszcza jakieś tabelki i różne cuda, wydaje mi się, że tyle powinno wystarczyć)

Zestaw nr 20:

  1. Estymacja wiarygodności testu.

Porównanie dwukrotnych badań ( tej samej grupy osób) tym samym testem raz po razie. Z punktu widzenia osoby badanej jest to jedno badanie, w którym dwukrotnie powtarzają się te same pozycje. Współczynnik korelacji między wynikami pierwszego i drugiego testu, jest opisywany jako współczynnik wiarygodności (por. np. Brzeziński 1996, Hoynowski 1971). Metoda pozwala uchwycić wpływ wszystkich przypadkowych czynników, które są związane z osobą badaną, np. chwilowe fluktuacje uwagi, zmęczenie. Ta technika szacowania rzetelności budzi wiele wątpliwości ze względu na wpływ wielu czynników ubocznych, np. zapamiętywanie, uczenie się, różnice w warunkach badania. Technika ta daje się zaakceptować w przypadku testów motorycznych.

0x01 graphic

Źródło: Testy psychologiczne. Hornowska, s. 50-51, wykład 6, wiarygodność

  1. Zagadnienie znaczenia. Kierunki analizy.

Co znaczą liczby występujące w pomiarze? Co znaczą zdania zawierające wartości liczbowe?

Znaczenie wyrażenia - pewna abstrakcyjna własność przysługująca temu wyrażeniu i wyrażeniom z nim równoznacznym, i tylko tym wyrażeniom; in. zbiór wyrażeń równoznacznych…

Kierunki analizy:

  1. przewidywanie: wskaźniki liczbowe są wykorzystywane by przewidywać wartości pewnej zmiennej zależnej za pomocą wartości zmiennych niezależnych

  2. przyporządkowanie bezpośrednie: miary są przyporządkowane wartościom przez osoby badane zgodnie z instrukcją. Znaczenia zdań zawierające wartości liczbowe są efektem subiektywnych doświadczeń i skojarzeń

  3. opis: w pewnych sytuacjach liczby przyporządkowane obiektom, traktowane są jako opisowe wskaźniki statystyczne dotyczące danej próbki lub populacji. Statystycznym modelem danej próbki jest rozkład normalny. Założenie jest

charakterystyczna dla Klasycznej Teorii Testów.

Źródło: wykład 2. Podobno jest do tego rozdział w Coobmsie, ale niestety go nie posiadam ;)

3. "Standardy dla testów ..." badanie testowe osób niepełnosprawnych.

1.Badając testem osoby niepełnosprawne, należy się upewnić, że interesują nas wnioski związane z mierzonym konstruktem, a nie stopniem niepełnosprawności osoby badanej. Wręcz zakazane jest gromadzenie informacji o niepełnosprawności, wyjątkiem są informacje zawarte w samopisie, które przekazuje osoba.

2. Osoby odpowiedzialne za procedury i modyfikacje testu powinny mieć wiedzę na temat wpływu określonego rodzaju niepełnosprawności na poziom wykonania konkretnego typu testu.

3. Jeśli jest możliwe, zmodyfikowane testy powinny zostać poddane badaniom pilotażowym w grupie osób z podobnym rodzajem niepełnosprawności, po to by sprawdzić poprawność i możliwość wprowadzenia poprawek.

4. Modyfikacje, czy zalecenia modyfikacji ze względu na osoby niepełnosprawne powinny zostać szczegółowo opisane w podręczniku testowym. Jeśli jest możliwe, należy też przedstawić dane dot, trafności, w sensie jeżeli autorzy przyjmują, że zmodyfikowana wersja testu powinna być interpretowana jako porównywalna z wersją niemodyfikowaną, to należy przedstawić dane potwierdzające porównywalność wyników testowych.

5. Materiały techniczne i podręczniki dołączone do zmodyfikowanych testów powinny zawierać staranny opis procedur wykorzystywanych do modyfikacji.

6.Jeżeli autor testu zaleca stosowanie specjalnych limitów czasowych, to ustalając je, należy się odwołać -w miarę możliwości- do procedur empirycznych, a nie pozwalać osobom niepełnosprawnym na wielokrotne wydłużanie czasu badania.

7. Należy przeprowadzać badania walidacyjne, gdyż są jedynym sposobem gromadzenia informacji o przydatności zmodyfikowanych testów dla osób niepełnosprawnych.

8. Osoby stosujące test powinny a) mieć informacje niezbędne do wybrania właściwych narzędzi pomiarowych, b) mieć aktualne informacje dot. dostępności zmodyfikowanych wersji testu c) informować osoby badane, jeżeli ma to znaczenie, o istnieniu zmodyfikowanych wersji oraz d) postarać się, aby te wersje były dostępne-gdy to właściwe i możliwe- osobom badanym.

9.Normy podstawowe można wykorzystywać, kiedy celem testowania jest określenie poziomu funkcjonowania osoby badanej na tle populacji ogólnej. Natomiast, gdy gdy chcemy określić pozycję osoby badanej na tle grupy tak samo niepełnosprawnych osób, to należy odwołać się do danych normatywnych otrzymanych w grupie osób niepełnosprawnych.

10. Każda modyfikacja testu powinna być dostosowana do osoby badanej (jej cech, umiejętności, które mogą wpłynąć na poziom wykonania testu), ale o ile to możliwe, powinna posiadać wszystkie standardowe cechy testu.

11. Jeżeli istnieją przekonujące dane, które potwierdzają możliwość porównywania wyników testu standardowego i zmodyfikowanego, to wyniki testowe nie powinny być w żaden sposób oznaczane. Oznaczanie specjalnymi symbolami, może być niezgodne z celami polityki społecznej, w których położono nacisk na obiektywne traktowanie osób niepełnosprawnych.

12. Powinno się korzystać z wielu różnych źródeł informacji w celach diagnostycznych i terapeutycznych. Test nie powinien być jedynym wskaźnikiem

funkcjonowania osoby badanej.

Źródło: Standardy dla testów stosowanych w psychologii i pedagogice. s. 186-190.

Zestaw nr 21:

1. Psychometria a teoria testów (z wykładów), nigdzie indziej tego nie znalazłam, choć

szukałam)

PSYCHOMETRIA

TEORIA TESTÓW

Dziedzina (subdyscyplina) psychologii- nauki empirycznej

Dziedzina statystyki matematycznej - nauki formalnej

„praktyka” - szczegółowe i konkretne reguły praktyczne

„teoria” - ogólne i abstrakcyjne twierdzenia teoretyczne (formalne)

Weryfikacja reguł i ewentualne sprawdzanie hipotez

Proponowanie aksjomatów i dowodzenie twierdzeń

Określanie reguł konstruowania narzędzi diagnostycznych oraz zasad posługiwania się tymi narzędziami

Formalizowanie pojęć określających strukturę testu i jakość pomiaru testowego

Formułowanie ogólnych zasad TREŚCIOWEJ interpretacji wyniku pomiaru psychologicznego

Formułowanie zasad FORMALNEJ interpretacji wyniku testowego

2. Estymacja zgodności wewnętrznej: analiza związków itemów z wynikiem ogólnym.

(UWAGA! Ani w Brzezińskim, ani w Hornowskiej ani w wykładach nie znalazłam niczego, co w 100% pasowałoby do tego tematu, z tego co znalazłam skleiłam to, co poniżej, ale nie mam pewności, czy to dokładnie o to chodzi. Za wszelkie nieścisłości bardzo przepraszam ).


Zgodność wewnętrzna - stopień w jakim „...test jest czystą miarą mierzonej zmiennej i w jakim stopniu odpowiedzi na poszczególne pytania mierzą to samo co wynik w całym teście"

Współczynnik zgodności jest najwyższy gdy:

1. Korelacje między zadaniami są największe.

2. Wariancja zadań jest największa; jest ona największa wówczas, gdy proporcja tych, którzy rozwiązali zadanie, wynosi 0,50.

3. Zadania są jednakowej trudności; wówczas korelacje między zadaniami są największe

Współczynnik mocy dyskryminacyjnej - stopień, w jakim dana pozycja testowa różnicuje badaną populację w zakresie zachowania, które dany test ma badać. Pozycja o dodatniej mocy dyskryminacyjnej jest częściej rozwiązywana przez osoby o wysokich ogólnych wynikach w teście a więc różnicuje te osoby w zgodzie z innymi pozycjami testu i tym samym zwieksza wariancję wyników testowania.

Istnieją trzy kategorie tych współczynników:

- proste współczynniki dyskryminacyjne

- współczynniki oparte na analizie różnic między skrajnymi grupami

- współczynniki oparte na analizie korelacji między wynikiem danej pozycji a ogólnym wynikiem w teście:

a) współczynnik korelacji dwuseryjnej: może być obliczany, kiedy spełnione są dwa warunki: 1. rozkład wynikow cechy, mierzonej przez daną pozycję testową, jest de facto zmienną ciągłą o rozkładzie normalnym a jedynie niedoskonałość narzędzia pomiarowego sprawia, że jest to zmienna dyskretna (mająca wartości punktowe); 2. rozkład wyników ogólnych w teście również jest rozkładem normalnym. W takiej sytuacji możemy posłużyć się wzorem:

0x01 graphic

0x01 graphic

b) współczynnik korelacji punktowo - dwuseryjnej - liczymy kiedy: 1. rozkład wyników cechy mierzonej przez daną pozycję testową jest zmienną dyskretną (dwukategorialną) oraz rozkład ogólnych wynikow w teście jest rozkładem normalnym. Obliczamy za pomocą wzoru:

0x01 graphic

3. współczynnik korelacji punktowo - czteropolowej - liczymy wted, kiedy żadnego z

powyższych założeń nie da się utrzymać a więc i wynik pozycji testowej i ogólny wynik w teście są dychotomiczne. Liczymy wzorem:

0x01 graphic

Dzięki badaniu współczynnika mocy dyskryminacyjnej otrzymujemy zbiór współczynnikow korelacji każdej pozycji z wynikiem ogólnym testu. Możemy obliczyć też średnią tych korelacji. Istnieje związek pomiędzy średnią interkorelacją pozycji testowych i średnią korelacją pozycji z ogólnym wynikiem testowym.

Wzór spearmana - Browna:

0x01 graphic

gdzie: rii— średnia interkorelacja pozycji testowych; n — liczba pozycji w teście.

3. Pojęcie i aspekty trafności testu.

Obecnie trafność rozumie się jako stopień, w jakim dane empiryczne oraz teoria uzasadniają interpretację wyników testowych w zakładanym kierunku (dawniej trafność oznaczała stopień

a jakim test mierzył cechę, która miał mierzyć.)

Aspekty trafności:

[Aspekt teoretyczny - wyrażenie zbyteczne wg Standardów, gdyż trafność zawsze jest trafnością teoretyczną, bo wyniki są zawsze miara jakiegoś teoretycznego konstruktu. Ogólnie trafność teoretyczną określa się jako ocenę stopnia w jakim dany test odzwierciedla konstrukt, który ma być przedmiotem pomiaru.]

Inne źródła danych walidacyjnych: (dane z różnych źródeł mogą potwierdzać różne aspekty trafności, a trafność wg nowych Standardów jest pojęciem spójnym i jest to stopień w jakim kumulujące się dane potwierdzają zamierzoną interpretację wyników testowych).

Zestaw nr 22:

1. Teoria uniwersalizacji wyników testowych Cronbacha

Stawia pytania dotyczące wielkości wariancji wynikających z określonego źródła błędu. „Co w konkretnej procedurze jest błędem pomiaru?” „Jaka jest wariancja wynikająca z każdego z tych źródeł”?

Dwie podstawowe różnice między KTT a teorią uniwersalizacji:

źródła błędu, a więc można obliczyć różne współczynniki rzetelności.

WARIANCJA - wielkość zróżnicowania otrzymanych wynikow wokół ich wartości średniej, czyli wielkość błędu, jaki popełniamy, traktując średnią jako dobre odzwierciedlenie wszystkich wyników indywidualnych. A więc wariancja jest miarą popełnionego błędu. Mała

wariancja oznacza, że średni wynik dobrze odzwierciedla wyniki poszczególnych jednostek.

Źródła wariancji i związane z tym rodzaje rzetelności: (w Hornowskiej to jest wyjaśnione na przykładzie pracy pisemnej studenta, którą oceniają profesorowie)

- rzetelność wewnątrz osoby oceniającej - ten sam sędzia ocenia ten sam wynik wielokrotnie i oceny są zbliżone do siebie.

- rzetelność miedzy oceniającymi - wielu sędziów ocenia jedną pracę i ich oceny są zbliżone do siebie

- zgodność wewnętrzna (między pracami) - jeden sędzia ocenia kilka prac tej samej osoby, jeśli wyniki są do siebie podobne, to znaczy, że są zgodne wewnętrznie.

- wariancja między osobami badanymi - oceny prac różnych osób różnią się między sobą.

W TU zróżnicowanie ocen wewnątrz jednej osoby lub między osobami oceniającymi a także brak zgodności wewnętrznej świadczą o braku rzetelności pomiaru. Są to źródła niepożądane i określa się je jako wariancję błedu. Natomiast wariancja między osobami badanymi jest tym, co chcemy osiągnąć, bo celem testu jest określenie zróżnicowania cechy miedzy osobami

badanymi. Taką wariancję nazwiemy wariancją prawdziwą.

Elementem TU jest określanie schematów badawczych, które pozwalają uzyskać dane na temat wielkości wariancji, wynikające z konkretnych źródeł błędu. Stosuje się analizę wariancji ANOVA. Czynniki, które powinny być wzięte pod uwagę przy wyborze schematu:

- przedmiot pomiaru - w KTT liczymy tylko wariancję wyników prawdziwych i wariancję błędu. W TU możemy badać nie tylko osoby badane, ale też np. porównywać osoby oceniające.

- czynniki pomiaru - mamy do czynienia z różnymi źródłami wariancji wyników. Wariancja, której źródło stanowi przedmiot pomiaru jest wariancją prawdziwą, zaś źródła wariancji błędu (czyli wszystkich pozostałych wariancji) nazywane są czynnikami pomiaru. Każdy czynnik może mieć wiele poziomów (np. jeśli student odpowiada na 5 pytań to mamy 5 poziomów). Czynniki mogą być losowe (poziomy tych czynników są losową próbką wszystkich możliwych poziomów tego czynnika) i stałe (ich poziomy się nie zmieniają), odnoszą się do

wystandaryzownych warunków badania. Przynajmniej jeden czynnik musi być losowy.

Wynik uniwersalny - w TU oznacza odpowiedni wynik średni otrzymany przy losowym wyborze poziomów odpowiedniego czynnika.

Dwa rodzaje badań:

- badania typu G - ich celem jest oszacowanie wielkości wariancji związanej z każdym czynnikiem pomiaru. Znając te wariancje możemy określić konsekwencje zmiany w przyjętym schemacie myślenia i poszukać układu optymalnego.

- badania typu D - określanie rzetelności testu w róznych sytuacjach,

2. Aspekty prawne przeprowadzania badania testowego (to zbieranina z Brzezińskiego,

Hornowskiej i tekstu z nowego Strelaua, ale wszystko pokrywa się ze Standardami)

- Badanie testowe (testem psychologicznym) może przeprowadzać tylko osoba do tego uprawniona, posiadająca odpowiednie kompetencje, posiadająca odpowiednia wiedzę, by prawidłowo test dobrać do sytuacji, przeprowadzić go odpowiednio i obliczyć wyniki, a następnie trafnie je zinterpretować i ewentualnie podjąć kolejne kroki itd.

- Test powinien spełniać kryteria dobroci testu (nie opisuję kryteriów, bo to inne zagadnienie), ma to być test w oryginalnej wersji (tzn. nie można samemu nic zmieniać). Nie powinno się stosować testów, które nie spełniają kryteriów albo które wyszły z użycia z powodu np. braku pokrycia w teorii, albo teoria została podważona przez nowsze badania naukowe (tzn nie należy stosować takich przedawnionych testów do diagnozy, chyba, że jako forma pomocnicza; można za to w badaniach empirycznych porównywać wyniki takich testów z wynikami testów powszechnie używanych i spełniających kryteria - w celach porównawczych).

- Użytkownik testu zobowiązany jest do używania oryginalnych pomocy i arkuszy odpowiedzi do testu - poszanowanie praw autorskich.

- Przebieg badania musi być zgodny z procedurą opisaną w podręczniku do danego testu.

- Odejście od procedur może nastąpić jedynie w przypadkach wyszczególnionych przez autorów podręcznika. Jeśli nastąpiła jakaś modyfikacja to trzeba ja dokładnie opisać opisując procedurę badania czy oceniania wyników.

- Badacz ma obowiązek takiego doboru testu, by zbadać to, co powinien, lub co mu zlecono, nie może szkodzić badanemu (test musi też być trafny ze względu na cel diagnostyczny czy prognostyczny w jakim jest on stosowany).

- Użytkownik testu jest zobowiązany do zabezpieczenia testów w takim zakresie w jakim zaleca to autor testu

- Użytkownik testu zobowiązany jest do respektowania praw autorskich (prawo do nienaruszalności treści i formy utworu) a materiały do przeprowadzenia badania muszą pochodzi z legalnej dystrybucji.

- Należy zadbać o dokładne wyjaśnienie badanym jak będzie przebiegało badania i co powinni robić (chyba, że to jest też częścią badania), należy też zapewnić komfortową atmosferę i wyeliminować czynniki zakłócające.

- Nie można poddawać kogoś badaniu pod fałszywym pretekstem (chociaż utrzymywanie badanego w niewiedzy na temat interpretacji wyników może być konieczne ze względu na efektywność badania testowego.). By nie naruszać prawa badanego do prywatności należy mu wyjaśnić w jakim celu i w jaki sposób wykorzystamy otrzymane wyniki (ale nie można pokazywać pozycji testowych i omawiać sposobu ich oceny i interpretacji, nie można tez tego pokazywać rodzicom, gdy mamy zamiar badać dziecko). Badany musi wyrazić zgodę na badanie testem.

Prawa badanego (nie opisuje dokładniej, bo to było osobne pytanie):
-do dobrowolnej zgody na badanie
-do znajomości swoich wyników
-do tajemnicy jego wyników względem innych żeby się nie dowiedzieli
-do zmniejszenia wpływu etykietowania
-do prywatności

- Jeśli wyniki testu są przekazywane innym osobom - rodzicom, nauczycielom, instytucjom to należy dla nich opracować specjalna interpretację - ma ona być napisana jasno, prostym językiem, konkretny opis co test mierzył, jakie są otrzymane wyniki, co to oznacza, jaka jest dokładność wyników testowych, jak te wyniki są wykorzystane i jakich błędów interpretacyjnych mają ci odbiorcy unikać.

- Gdy interpretacje wyników opracowuje się komputerowo to należy podać źródła, uzasadnienie i empiryczne podstawy takiej interpretacji, brać pod uwagę ograniczenia - komputer nie bierze pod uwagę niuansów tylko twarde dane.

- Gdy przekazuje się wyniki urzędom lub instytucjom należy zachować poufność.

- Przechowywanie wyników i raportów z badań należy dostosować do polityki przechowywania informacji w danych instytucjach

Zestaw 23

2. Moc dyskryminacyjna pozycji testu a  dyskryminatywność narzędzia badawczego

Moc dyskryminacyjna danej pozycji danego testu (ang. iłem) mówi nam o tym, w jakim stopniu różnicuje ona daną populację pod względem cechy (zmiennej), której dotyczy. W ujęciu operacyjnym moc dyskryminacyjna wyraża się współczynnikiem korelacji między pozycją i wynikiem ogólnym testu, traktowanym jako suma od­powiedzi zgodnych z kluczem (np. suma odpowiedzi poprawnych na 29 pytań testu „Wiadomości" Skali Inteligencji WAIS-R Wechslera


Najczęściej jako miary mocy dyskryminacyjnej używa się jednego z trzech współczynników korelacji:

  1. współczynnika korelacji punktowo-dwuseryjnej (rphi), Ten typ współczynnika korelacji jest szczególnie przydatny w takich sytuacjach, gdy jedna ze zmiennych, de facto polinomiczna, została zdychotomizowana, jak np. w przypadku analizowania wyników testu uzdolnień, które ocenia się jako prawidłowe" lub „nieprawidłowe"

  2. współczynnika korelacji dwuseryjnej (rbi)t Współczynnik korelacji dwuseryjnej stosuje się w takich samych sytuacjach, co omówiony poprzednio współczynnik, tzn., gdy jedna ze zmiennych została sprowa­dzona do dwóch klas, przy czym zmienna ta ma w rzeczywistości rozkład normalny (wymaganie rozkładu normalnego odnosi się do kształtu rozkładu w populacji, a nie w próbie).

współczynnika korelacji punktowo-czteropolowej (ę). Współczynnik ę jest przydatny szczególnie wtedy, gdy dysponujemy mało liczną próbą. Im liczniejszą próbą osób się posłużymy, tym niższa wartość współ­czynnika ę jest statystycznie istotna.

Aspekt, dysktyminatywny czyli różnicowy

W przypadku każdego testu, a zwłaszcza takiego o złożonej strukturze teoretycznej wymagane jest badani - nie tylko aspektu zbieżnego (i to za wszelką cenę!), ale także aspektu różnicowego trafności.

Analiza trafności teoretycznej przeprowadzona metodą analizy macierzy „wielu cech — wielu metod", WCWM (wg: Campbell, Fiske, 1959), umożliwiająca nie tylko zbadanie aspektu zbieżnego, ale także zanalizowanie aspektu różnicowe­go, jest jedyną sensowną metodą kompleksowego badania trafności teoretycznej testu psychologicznego.


3. IRT.

IRT pozwala na określenie związku pomiędzy odpowiedziami udzielanymi przez osobę badana a zakładana nieobserwowalną cecha leżącą u podstaw zachowań testowych

ZAŁOŻENIA IRT:

1. istnieje jeden czynnik wyjaśniający obserwowane kowariancje pomiędzy wszystkimi pozycjami testowymi - zmienna latentna

2. związek pomiędzy cechą latentną a obserwowana odpowiedzią na pozycje testu ma określony kształt. Graficzna forma tego związku to krzywa charakterystyczna pozycji testowej ( ICC)

3. każda krzywa ICC można opisać za pomocą określonych parametrów

a) współczynnik mocy dyskrimancyjnej
b) współczynnik trudności
c) współczynnik zgadywania

4. parametry krzywych ICC (a, b, c) są niezależne względem badanych grup osób. Jeżeli danym testem zbadamy kilka różnych grup osób to otrzymamy te same wartości szacowanych parametrów.

5. istnieje wiele matematycznych sposobów (modeli) opisywania krzywych ICC

6. w IRT wykorzystuje się wskaźnik informacji i przyjmuje się, że każda pozycja testowa ma swój odrębny wkład w stopień redukcji niepewności przez cały test. Wskaźnik = suma wskaźników informacji dostarczanych przez poszczególne pozycje testu

* GDZIE WYKORZYSTUJE SIĘ MODEL IRT?:

1. adaptacja językowa testu - celem jest prezentowanie osobie badanej jedynie takich pozycji testowych, których trudność odpowiada poziomowi mierzonej cechy latentnej. Osoba badana odpowiada jedynie na taki zestaw pozycji testowych, który w optymalny sposób pozwoli określić właściwy dla niej poziom mierzonej cechy

2. szacowanie stronniczości pozycji testowych -
polega na porównywaniu krzywych ICC opisujących daną pozycję testową, a otrzymanych dla dwóch różnych grup osób należących do tej samej popul.

- stronniczość pozycji testowych def jest jako różnica między krzywymi ICC otrzymanymi dla dwóch grup wyłonionych z tej samej popul i nie różniących się ogólnym poziomem zdolności

Dla ambitniejszych więcej ;)

Ograniczenia modelu klasycznego

W klasycznej teorii testów przyjmuje się, że związek między wynikiem prawdziwym (rozumianym jako wynik standardowy z) a wynikiem otrzyma­nym w teście jest związkiem prostoliniowym (regresją liniową). Przedziały ufności są takie same dla wszystkich wyników, a wartość błędu pomiaru zależy od konkretnej badanej populacji. Podobnie, wartość parametrów charakteryzujących pozycje testowe również zależy od konkretnej populacji.

Natomiast w ramach teorii odpowiadania na pozycje testu związek między wynikiem prawdziwym a wynikiem otrzymanym nie jest związkiem linio­wym, a szerokość przedziałów ufności jest inna w środku, a inna na krańcach rozkładu (przedziały są szersze dla skrajnych wyników). Błąd standardowy pomiaru nie jest związany z konkretną populacją, podobnie jak nie są z nią związane parametry opisujące pozycje testowe. W ramach IRT oszacowania poziomu badanej cechy dokonuje się oddzielnie dla każdej odpowiedzi testowej, kontrolując zarazem parametry danej pozycji testu

Założenia IRT

W teorii odpowiadania na pozycje testu przyjmuje się trzy podstawowe założenia: (1) o wymiarach przestrzeni latentnej, (2) o lokalnej niezależności pozycji testowych i wreszcie (3) o krzywej charakterystycznej pozycji testowej.

Pierwsze założenie dotyczy wymiarów przestrzeni latentnej (ang. dimen-tionality of latent space). W IRT przyjmuje się, że zachowanie osoby badanej w teście można przypisać pojedynczej cesze latentnej (nieobserwowalnej). Cecha latentna zaś to zmienna wyznaczająca zachowanie osób w danym teście. Ta zmienna właśnie determinuje obserwowane zależności statystyczne między pozycjami testu (por. Osterlind, 1983; Camilli, Shepard, 1994).

Test, który mierzy jedną cechę latentną, jest testem jednowymiarowym. Testami jednowymiarowymi są np. testy zdolności (np. matematycznych, językowych czy myślenia technicznego). Wszystkie zależności statystyczne stwierdzane między pozycjami testowymi są wyjaśniane przez odwołanie się do jednej cechy latentnej.

Założenie drugie dotyczy lokalnej niezależności pozycji testowych (ang. local independence of item). W założeniu tym przyjmuje się, że odpowiedzi każdej osoby badanej na jedną pozycje testową nie zależą od jej odpowiedzi na jakąkolwiek inną pozycję tego testu. Oznacza to zatem, że rozkład wyników poszczególnych pozycji testowych zależy jedynie od parametru 0; wyniki pozycji testowych są statystycznie niezależne. Jeżeli test jest rzeczy­wiście jednowymiarowy (założenie 1), to założenie o lokalnej niezależności pozycji testowych jest również spełnione. Wówczas możemy przyjąć, że cecha latentna jest mierzona w sposób niezależny k razy, gdzie k oznacza liczbę pozycji testowych.

Krzywa charakterystyczna pozycji testowej

Najważniejsze założenie przyjmowane w ramach IRT dotyczy krzywych charakterystycznych pozycji testowych (ang. item characteristic curve - ICC) i jest kluczowym założeniem teorii odpowiadania na pozycje testu. Krzywa charakterystyczna pozycji testowej to graficzny obraz funkcji matematycznej, wiążącej prawdopodobieństwo udzielenia odpowiedzi prawidłowej na daną pozycję testową z poziomem cechy, operacyjnie wyznaczonym przez ogólny wynik w teście.

Gdzie wykorzystuje się modele IRT?

Modele formułowane w ramach IRT są dzisiaj szeroko wykorzystywane. Typowym przykładem ich zastosowania są adaptacja językowa testu, testowa­nie adaptacyjne (interakcyjne) i szacowanie stronniczości pozycji testowych.

Zastosowanie modeli IRT do tłumaczeń językowych. W ramach IRT podejmowane są próby teoretycznego ujęcia problematyki oceny równoleg­łości tłumaczeń. Analiza tłumaczeń w ramach IRT oparta jest na określaniu podobieństw związku między odpowiedziami na pozycje testowe a leżącą u ich podstaw cechą latentną dla dwóch języków (języka oryginału i języka tłumaczenia). O równoległości oryginalnej pozycji testowej i pozycji prze­tłumaczonej decyduje podobieństwo krzywych ICC wyznaczonych dla tych pozycji (por. Hulin, Drasgow, Parsons, 1983).

Testowanie adaptacyjne (interakcyjne). Konstruktorzy testów psycho­logicznych zainteresowani są zazwyczaj stworzeniem metody obejmującej szeroki zakres wartości interesujących ich charakterystyk. Jest to możliwe dzięki dobieraniu pozycji testowych o zróżnicowanym współczynniku trud­ności w taki sposób, aby średnia ich trudność oscylowała wokół 50%. Niezamierzoną konsekwencją takiego doboru pozycji testowych jest koniecz­ność odpowiadania przez osobę badaną na wiele pozycji zbyt łatwych lub zbyt trudnych. Pomijając samą czasochłonność takiej procedury (zarówno w wypadku osoby badanej, jak i badającej), może on powodować u osoby badanej spadek motywacji do rzetelnego odpowiadania na pozycje testu.

Zastosowanie modeli IRT do szacowania stronniczości pozycji testowych. Strategia badania stronniczości pozycji testowych wywodząca się z IRT polega na porównywaniu krzywych ICC opisujących daną pozycję testową, a otrzymanych dla dwóch różnych grup osób należących do tej samej popu­lacji. I tak „(...) zbiór pozycji testowych możemy traktować jako zbiór bezstronny, jeżeli krzywe ICC wyznaczone dla każdej pozycji testowej tworzącej ten zbiór będą takie same dla obu rozważanych grup należących do tej samej populacji" (Crocker, Algina, 1986, s. 377). Tak więc, w ramach IRT stronniczość pozycji testowych definiowana jest jako różnica między krzywymi ICC otrzymanymi dla dwóch grup (np. etnicznych), wyłonionych z tej samej populacji i nie różniących się ogólnym poziomem zdolności.

Najczęściej stosuje się dwie miary stronniczości: (1) wielkość przestrzeni między krzywymi ICC (Rudner, 1980) oraz (2) test hipotezy o równości trzech parametrów w porównywanych grupach (Lord, 1977; 1980), Na rys. 5.9 przedstawiono trzy hipotetyczne sytuacje, w których stronniczość pozycji testowej przypisywana jest (a) różnej mocy dyskryminacyjnej pozycji testowej w obu grupach, (b) różnej trudności i (c) różnym współczynnikom zgadywania (por. też Hornowska, 1999).

Stosowanie item response theory jako modelu teoretycznego dającego podstawę do konstruowania konkretnych technik szacowania stronniczości pozycji testowych jest najbardziej dojrzałym rozwiązaniem z wszystkich proponowanych w literaturze przedmiotu. Podstawową barierą utrudniającą jego szerokie stosowanie jest matematyczna złożoność obliczeń. Można mieć jednak nadzieję, że przy dzisiejszym tempie rozwoju oprogramowania kom­puterowego ta przeszkoda szybko zniknie (dostępnych jest już kilka pro­gramów obliczeniowych), a wówczas - nie tylko w omawianym przez nas obszarze zagadnień - teoria odpowiadania na pozycje testu, czyli item response theory, zastąpi klasyczną teorię testów.

Zestaw nr 24:

1. Kryteria klasyfikacji i rodzaje testów.

-pozwala na uzyskanie takiej próbki zachowań, o których można przyjąć, że są wskaźnikami interesującej nas cechy psychologicznej. Zachowania te nie muszą  ściśle przypominać zachowań, które chcemy oszacować  na podstawie testu. Wystraczy wykazać, że istnieje między nimi określony związek

-dostarcza reguł obliczania wartości mierzonej cechy

-spełnia określone kryteria formalne

-jasno określa zakres i rodzaj dopuszczalnych zachowań ze strony diagnosty

-zakłada kooperacyjną  postawę osoby badanej

--standaryzowane i niestandaryzowane - testy standaryzowane to takie testy, które posiadają dokładnie sprecyzowane zasady ich stosowania oraz zostały wyposażone w normy, otrzymane w wyniku przebadania reprezentatywnej próby pochodzącej z populacji, dla której test mabyć stosowany. Do testów niestandaryzowanych można zaliczyć np. testy wiadomości budowane przez nauczycieli na ich własny użytek, w których dopuszcza się możliwość interakcyjnego modyfikowania sytuacji badania.

--indywidualne i grupowe

--szybkości i mocy -  testy szybkości to takie testy, których czas rozwiązania jest ograniczony i żadna osoba badana nie powinna go ukończyć w wyznaczonym czasie; w teście tym różnice indywidualne są głównie determinowane szybkością wykonania. Testy mocy to testy stwarzające każdej osobie badanej szansę  na podjęcie próby rozwiązania wszystkich pozycji testu, trudność zadań w takim teście stopniowo rośnie.

--obiektywne i nieobiektywne - testy obiektywne posiadają  tak starannie opracowane, stałe metody obliczania wynków, że sam wynik może zostać obliczony nawet przez osobę bez pzrygotowania psychologicznego. W testach nieobiektywnych ocena odpowiedzi osoby badanej wymaga zazwyczaj dużej znajomości przedmiotu pomiaru i otrzymany wynik często odzwierciedla subiektywne umiejętności psychologa.

--słowne i bezsłowne - testy słowne zawierają zadania zbudowane wyłącznie z materiału werbalnego natomiast bezsłowne polegają na wykonywaniu określonych czynności.

--testy właściwości poznawczych i właściwości afektywnych - testy właściwości poznawczych to testy mierzące wytwory procesów poznawczych(testy zdolności, uwagi, pojemności pamięci). Testy właściwości afektywnych mierzą  postawy, wartości, zainteresowania czy inne pozapoznawcze, aspekty osobowości.

--testy zorientowane na normy i zorientowane na kryterium - w testach zorientowanych na normy punktem odniesienia dla interpretacji wyników jest konkretna populacja osób, a w testach zorientowanych  na kryterium tym punktem jest konkretny zakres wiedzy. 

Zestaw nr 25:

2. Ewolucja pojmowania trafności testu.

Na podstawie wykładu siódmego:

Podejście tradycyjne:

trafność

-stopień, w jakim test mierzy cechę, którą miał mierzyć ( a na ile mierzy też inne uboczne

cechy)-ogólnie: na ile spełnia założenia pomiarowe;

-sensowność interpretacji wyniku (zasadność przypisania im określonego znaczenia psychologicznego)

Podejście tradycyjne-rodzaje trafności:

treściowa- na ile itemy są odpowiednie w stosunku do badanej cechy (są reprezentatywne dla uniwersum pozycji diagnostycznych dla danego konstruktu)

teoretyczna- stopień w jakim test odzwierciedla cechę, do pomiaru której jest przeznaczony (trafność zbieżna a trafność różnicowa)

kryterialna- na ile wyniki umożliwiają ocenę zmiennych zewnętrznych w stosunku do testu (zazwyczaj realnych kryteriów)

(?) fasadowa- wrażenie, jakie test wywiera na osobach badanych (trafność???)

Podejście współczesne:

Trafność- stopień, w jakim dane empiryczne oraz teoria uzasadniają interpretację wyników testowych w zakładanym kierunku

Podejście współczesne- aspekty trafności:

-„kryterialny”-kryterialne dane walidacyjne, dane dotyczące związku z innymi zmiennymi

-Diagnostyczny

-prognostyczny

-„treściowy”- dane walidacyjne oparte na treści testu

(trafność = trafność teoretyczna)

E. Hornowska, Testy psychologiczne. Teoria i praktyka, s. 80-81 :

Pojęciu trafności nadawano różne znaczenie.

Pierwotnie przez trafność rozumiano po prostu dokładność, z jaką test realizuje założone cele. W tym rozumieniu trafność traktowana była- podobnie jak współczynnik rzetelności-jako stała właściwość wyników testowych.

Koncepcja ta staje się zrozumiała, jeśli uwzględnić jak tworzone były pierwsze testy: autor testu zazwyczaj z góry decydował co dany test będzie mierzył, i konstruował go tak, aby osiągnąć cel. Możliwość, że dany test równie dobrze mierzy inną cechę rzadko była brana pod

uwagę.

Prace Cronbacha i Meehla (1955) oraz Messicka(1989) spowodowały, że pojęcie trafności przestało być tak statycznie rozumiane. Pytanie: „ jak dobrze test realizuje

zamierzenia jego autora?” zastąpiono pytaniem: „ co test mierzy i jak dobrze to robi”

Messick (1989) : trafność- zintegrowany proces oceny stopnia, w jakim dowody empiryczne i rozważania natury teoretycznej potwierdzają adekwatność i poprawność interpretacji oraz programów działania wyprowadzonych na podstawie wyników testowych czy innych narzędzi pomiaru.

W tej definicji widać wyraźnie zmianę perspektywy oraz przesunięcie punktu ciężkości- z pojęcia trafności testu na pojęcie trafności interpretacji wyników testowych. W takim też

duchu definiują trafność Standardy…

Określenie trafności danego testu, nazywane w psychometrii procesem walidacji testu, polega na zbieraniu i ocenie danych świadczących o trafności określonej interpretacji wyników testu. Im więcej przeprowadza się badań z udziałem danego testu, tym szerszy jest obszar jego

zastosowania.

W procesie walidacji ważną rolę odgrywa zarówno autor testu, jak i jego użytkownik.

3. Założenia teoretycznej (statystycznej) definicji rzetelności testu (chciał definicje z Nowakowskiej, ponoć miała "tylko" dwa zdania, ale "jakże trafne"..., nie interesowały

go inne).

Zestaw nr 26:

1. Rzetelność w pomiarze.

W sensie psychometrycznym rzetelność oznacza powtarzalność wyników testowych w kolejnych pomiarach. Wyniki obserwowalne testu nic nam nie mówią, bo nie wiemy, w jakim stopniu odzwierciedlają wyniki prawdziwe. Dlatego na początku korzystania z testu musimy dowiedzieć się, jaki jest związek między wynikami obserwowalnymi a prawdziwymi. Współczynnik korelacji między wynikami obserwowanymi a wynikami prawdziwymi nazywa się WSKAŹNIKIEM RZETELNOŚCI. RZETELNOŚĆ TESTU to kwadrat korelacji między wynikami otrzymanymi a prawdziwymi. Czyli jest to stosunek wariancji wyników prawdziwych do wyników otrzymanych. Inaczej mówiąc, rzetelność mówi nam o tym, w

jakim stopniu wariancja wyników prawdziwych określa wariancję wyników otrzymanych.

Ta definicja nie ma znaczenia praktycznego, ponieważ nie znamy nigdy wariancji wyników prawdziwych (wartość nieobserwowalna). Jeśli potraktujemy rzetelność jako powtarzalność, to możliwe byłoby ponowne przebadanie tej samej grupy tym samym testem po określonym czasie, wielkość współczynnika korelacji wyników pierwszego i drugiego testu dałaby nam odpowiedź o rzetelności testu. ALE badanie testowe jest uwrażliwiające, więc ponowne przebadanie tym samym testem nie jest wiarygodne. Aby rozwiązać ten problem wprowadzono TESTY RÓWNOLEGŁE, które spełniają następujące warunki:

  1. średni wynik testu A = średni wynik testu B

  2. odchylenie standardowe wyników otrzymanych w teście A = odchylenie standardowe wyników otrzymanych w teście B

  3. interkorelacje pozycji w teście A są takie same jak interkorelacje pozycji w teście B

  4. współczynnik korelacji wyników otrzymanych w teście A z pewną zmienną Z jest taki sam, jak współczynnik korelacji wyników otrzymanych w teście B z tą samą zmienną.

Współczynnik korelacji między wynikami otrzymanymi w dwóch testach równoległych,

określany jako WSPÓŁCZYNNIK RZETELNOŚCI jest miarą rzetelności testu.

Tłumacząc prosto:

Współczynnik rzetelności jest odsetkiem wariancji wynikow otrzymanych, jaką można przypisać wynikom prawdziwym.

Czyli

Jeśli rzetelność wynosi 0,81 to oznacza, że 81% wariancji wyników otrzymanych w teście stanowi wariancja wyników prawdziwych.

Jak badać rzetelność?

  1. Technika test - retest czyli dwukrotne stosowanie tego samego testu. Rzetelność jest w tym wypadku wielkością współczynnika korelacji pomiędzy wynikami testowymi otrzymanymi za pierwszym i za drugim razem.

Współczynnik rzetelności szacowany tą metodą określany jest jako WSPÓŁCZYNNIK STABILNOŚCI BEZWZGLĘDNEJ, określa w jakim stopniu wyniki są wrażliwe na przypadkowe zmiany dotyczące badanego lub sytuacji badania. Istotna tu jest długość przerwy między badaniami (musi być na tyle długa, aby badany zapomniał, co było w teście, ale na tyle krótka, aby nie zdążyła się dokonać istotna zmiana rozwojowa). Można też badać dwa razy bez żadnej przerwy, uzyskujemy wtedy WSPÓŁCZYNNIK WIARYGODNOŚCI TESTU, pozwala wychwycić takie czynniki jak zmęczenie czy chwilowa fluktuacja uwagi (związane z osobą).

Metoda test - retest jest wystarczająca dla testów motorycznych czy różnicowania sensorycznego, ale w wypadku testów psychologicznych nie jest zalecana.

  1. wykorzystanie alternatywnych wersji testu - dwóch wersji tego samego testu, świadomie konstruowanych tak, aby zostało spełnione założenie o równoległości. Jeśli testy wykonywane są jeden po drugim, uzyskujemy WSPÓŁCZYNNIK RÓWNOWAŻNOŚCI MIĘDZYTESTOWEJ, który mówi nam, w jaki sposób błąd jest uzależniony od różnic między wersjami testu. Jeśli zaś między testami występuje jakaś przerwa czasowa, wynik będzie WSPÓŁCZYNNIKIEM STABILNOŚCI WZGLĘDNEJ, który określa stabilność wyników testowych oraz wpływ treści na te wyniki.

Rzetelność można też szacować za pomocą jednokrotnego badania danym testem.

  1. metoda połówkowa - dzielimy test na dwie, równoległe połowy (najlepszą metodą jest podział na pozycje parzyste i nie parzyste) i obliczamy współczynnik korelacji wyników otrzymanych w pierwszej i drugiej połowie testu, czyli WSPÓŁCZYNNIK RZETELNOŚCI MIĘDZYPOŁÓWKOWEJ. Uzyskujemy w ten sposób wynik rzetelności jednej połowy testu, który następnie przeliczamy za pomocą wzoru Spearmana Browna (rtt=2rpp/1+rpp). Warunkiem koniecznym tej metody jest udzielenie przez wszystkich badanych odpowiedzi na wszystkie pytania testowe (więc nadaje się tylko do testów mocy).

  2. badanie zgodności wewnętrznej - założenie początkowe: skoro test można podzielić na połowy w różny sposób, to możemy otrzymać różne wyniki rzetelności. Stąd warto wiedzieć, jaki jest średni współczynnik rzetelności testu, biorąc pod uwagę wszystkie jego przepołowienia. Kuder i Richardson opracowali pojęcie WSPÓŁCZYNNIKA ZGODNOŚCI WEWNĘTRZNEJ. Najczęściej wykorzystujemy dwa wzory: KR20, kiedy bierzemy pod uwagę średnią wariancję wszystkich pozycji testowych (zalecany) i KR21, kiedy bierzemy pod uwagę średnią trudność pozycji testowych.

Te wzory nadają się do pozycji dwukategorialnych (odpowiedzi diagnostyczne i niediagnostyczne). Jeśli kategorii jest więcej, korzystamy z modyfikacji wzoru, zwanej alfa - Cronbacha (niestety nie jestem w stanie przepisać tu tego wzoru , takich cudów w Wordzie nie potrafię ).

  1. Rzetelność jako zgodność ocen - dajemy test do oceny dwóm osobom oceniającym i obliczamy współczynnik korelacji między tymi ocenami.

Która metoda jest najlepsza? Wg Choynowskiego:

- współczynnik stabilności względnej, jako najbardziej rygorystyczna miara prowadzi do estymacji dolnej granicy rzetelności, dając niższe wyniki niż inne metody.

- współczynnik rzetelności międzypołówkowej daj przecenianie rzetelności gdyż nie bierze

pod uwagę błędów wynikających ze zmienności w czasie.

Nie istnieje coś takiego jak ogólna rzetelność - określając jej wysokość, trzeba koniecznie podać metodę, jaką została badana.

2. Quasi-normalizacja: wyniki standaryzowane, normy rangowe, normy

równoważnikowe.

Normy tworzy się aby umożliwić porównywanie wyników testowych.

Normalizacja rozkładu: nieliniowe przekształcenie wyników surowych do rozkładu

normalnego (o znanych właściwościach).

NORMY STANDARDOWE

Powstają przez przekształcenie wyników surowych otrzymanych w teście na wyniki standarodw z, wg wzoru:

z=Xi-Xśr/s

Xi - wynik surowy danej osoby, Xśr - średni wynik w teście dla właściwej grupy odniesienia, s - odchylenie standardowe dla tej samej grupy odniesienia. Wyniki standardowe mają średnia 0 i SD = 1.

Wynik standardowy mówi nam o tym, jak bardzo wynik surowy otrzymany przez daną oobę odbiega od średniego wyniku grupowego, ta odległość jest wyrażona w jednostkach odchylenia standardowego.

Najbardziej popularna typologia do porównywania:

Ta skala jest niewygodna, ponieważ 0 oznacza jej środek, dlatego korzystając z transformacji

liniowej stworzono inne skale, które mają początek równy 0 i wszystkie wartości dodatnie.

Przeliczanie: jednostka nowej skali = S*z+M

  1. skala tetronowa M= 50, S=10, zakres 101 jednostek (ma największy zasięg ze wszystkich skal), obejmuje przedział od -5 do 5 pdchyleń standardowych w rozkładzie normalnym. Wykorzystywana w MMPI.

  2. stenowa - M 5,5; S=2, zasięg -2,25 - 2,25 odchyleń standardowych, 10 punktów.

  3. staninowa - 9 punktów, M=5, S=2, zasięg -2; 2 oodchylenia (tylko środek skali wiec nadaje się tylko do diagnozowania normy).

  4. IQ Wechslera - M=100, S=15,

  5. tetronowa - M=10, S=4, liczy 21 punktów.

NORMY RANGOWE:

Przedstawianie wynikow za pomocą wentyli. Centyl jest punktem na skali, poniżej którego leży określony odsetek rozkładu. 50 cetyl odpowiada medianie rozkładu, czyli opisuje poziom wykonania testu przez najbardziej typową osobę (znajdującą się dokładnie pośrodku).

NORMY TYPU RÓWNOWAŻNIKOWEGO - dziś rzadko stosowane. Mają charakter

opisowy, pozwalają określić jak daleko na drodze normalnego rozwoju znalazła się jednostka. Wyniki nie nadają się do obróbki psychometrycznej.

Zestaw 27

2. Klasyfikacja i modele pomiaru, rodzaje pomiaru, skale pomiarowe

RODZAJE SKAL ( z wykładu)

0x01 graphic

Kierunki analizy w odniesieniu do skal:

1. przewidywanie - wskaźniki liczbowe są wykorzystywane przede wszystkim do tego, aby przewidywać wartości pewnych zmiennych niezależnych. Można dążyć do skonstruowania takiej skali liczbowej, która by maksymalizowała korelację z pewnym kryterium zewnętrznym

2. opis - liczby przyporządkowane obiektom traktowane są jako opisowe wskaźniki statystyczne dotyczące pewnej próbki lub populacji

3. przyporząd. bezpoś. - skale liczbowe uzyskiwane są nie z pośrednictwem dobrze określonej relacji reprezentowania, lecz tworzone bezpośrednio przez osoby badane, które działają zgodnie z określoną instrukcją

Modele pomiaru:

Pomiar ekstensywny jest oparty na empirycznej operacji wiązania (konkatenacji) takiej jak zestawienie obu przedmiotów na jednej szalce, która to operacja odpowiada dodawaniu. W pozostałych przypadkach pomiar jest intensywny. Pomiar ekstensywny pozwala posłużyć się skalą przedziałową gdyż na niej można mierzyć tylko własności ekstensywne.

Ponieważ cechy psychologiczne są z natury intensywne to w psychologii nie jest w ogóle możliwy pomiar na skali przedziałowej. Pomiar intensywny jest wtedy gdy konkatenacja nie jest możliwa.

3. Zagadnienie zgadywania

Dwa znaczenia zgadywania:

- zgadywanie w testach wiadomości - zgadywanie prawdziwej odpowiedzi

- zgadywanie w innych testach - zgadywanie swojego położenia na kontinuum cech

*Paradoks psychometryczny: wyniki w itemach najsilniej różnicujących są najmniej stabilne (najtrudniejsze)

Zestaw nr 28:

2. Etapy konstrukcji narzędzia diagnostycznego

• Określenie celu postępowania i teoretyczne zdefiniowanie przedmiotu pomiaru (zmiennej)

• Wyróżnienie obszarów treściowych („wymiary”) i form manifestacji („przejawy”,

„wskaźniki”) zmiennej teoretycznej

- operacjonalizacja zmiennej

- „bateria wskaźników” (indeks)

• Określenie kryteriów i zasad posługiwania się narzędziem, m.in. ustalenie:

- badanie indywidualne czy zbiorowe?

- prowadzenie badania przez badającego czy samodzielne posługiwanie się narzędziem przez

badanego?

• kwestie instrukcji i ochrony danych

- badanie „bezpośrednie” czy „pośrednie” (np. wywiad środowiskowy, analiza wytworów, analiza dokumentów itp.)?

• Określenie „formatu itemów”

- np. opisy sytuacji i możliwe zachowania w nich, itemy dotyczące zachowao, czy itemy dotyczące cech i/lub dyspozycji?

- twierdzenia czy pytania?

- liczba i treśd kategorii odpowiedzi

• parzyste - nieparzyste

• liczby - określenia słowne

• krańce skali

• Wygenerowanie puli itemów

- wykorzystywanie istniejących narzędzi

- eksperci

- pytania otwarte w badaniach pilotażowych

- własne pomysły

• Analiza treściowa i językowa

- np. technika Delhi

• Opracowanie klucza odpowiedzi, instrukcji, budowy i formy kwestionariusza

(standaryzacja - w jednym ze znaczeo tego terminu)

• Zebranie danych - określenie zbiorowości generalnej, dobór próby, badanie pilotażowe

• Wielkośd próby walidacyjnej = liczba itemów × (min.) 5 do 10 osób, lecz nie mniej niż

200 o.b.

• Normalizacja „pierwotna” (in. standaryzacja w drugim znaczeniu) - transformacja wyników

surowych na skale standardowe

- np. teny, steny, staniny, tetrony itp.

• Analiza itemów

- moc dyskryminacyjna (np. D, rbi, t )

- wskaźnik „trudności”

- wskaźniki rzetelności i trafności poszczególnych itemów

- analiza efektów prostych

• Estymacja rzetelności narzędzia

- estymacja wiarogodności

- estymacja konsystencji

- estymacja stabilności

- (estymacja konsensyjności?)

• Badanie trafności narzędzia

- uwzględnienie różnorodnych danych walidacyjnych

• „Renormalizacja”

Zestaw nr 29:

2. Trafność fasadowa, niejasności wokół niej

Brzeziński mówi, że:

Trudno powiedzieć, dlaczego utrwaliło się wśród psychologów przekonanie, że oprócz tzw. Holy Trinity (Gunio) tj.:

wyróżnia się jeszcze czwarty rodzaj „trafności", a właściwie pseudotrafności: trafność

fasadową

Ten rodzaj pseudotrafności upowszechnił się w Polsce, za sprawą Choynowskiego, który opublikował, artykuł Bechtoldta, pt.: Teoretyczne podstawy metod testowych: trafność i prognoza

Czytamy tam: „termin trafność fasadowa dotyczy sposobu, w jaki badani reagują na wygląd testu i na metodę testowania — niektóre testy są dla badanych bardziej strawne niż inne. Bardziej ogólnym terminem oddającym to, o co tu chodzi, jest kontakt stworzony między badanym a badającym przez instrukcję i postępowanie przy testowaniu"

Brzeziński uważa, że w tym wypadku nie należało odwoływać się do terminu trafność.

Guilford:„termin trafność fasadowa ma wiele znaczeń i stosowany jest nader swobodnie. Najczęściej wiąże się go z faktem, że test wydaje się trafny i to szczególnie tym osobom, które nie posiadają profesjo­nalnego wykształcenia w dziedzinie badań testowych. To, że test wydaje się trafny, nie jest jeszcze oczywiście żadną gwarancją rzeczywistej trafności tego testu (...) i nawet doświadczony psycholog powinien być bardzo ostrożny wobec tego typu informacji. Niektórzy mówiąc o zasadach akceptacji niektórych testów twierdzą żartobliwie,

że są one stosowane na zasadzie wiary w trafność".

Mosier krytyka „trafności fasadowej" zwrócił uwagę na tzw. trafność na mocy założenia, co Guilford skomentował nastę­pująco: „istnieją takie miary (np. wyniki testu osiągnięć), których trafność przyj­mowana jest na mocy umowy. Innymi słowy zakładamy, że wyniki testowe rzeczywiście mierzą to, co chcemy aby mierzyły. (...) trafność niektórych testów (in­nych niż testy osiągnięć) również przyjmowana jest na mocy umowy. (...) Prawdzi­wym przeżyciem poznawczym jest praca nad testem, który tak dobrze wydaje się mierzyć daną cechę, że z całą pewnością nie może chybiać, a po zastosowaniu analizy korelacyjnej okazuje się mierzyć zupełnie inne czynniki". Błąd tkwi w przekonaniu, że: „dwie rzeczy, mające tę samą nazwę

(...) są skutkiem tego tym samym" (Bechtoldt, 1968, s. 37).

ze Standardów...: „Tak zwana trafność fasadowa będąca tylko pozorem trafności, nie jest

właściwą podstawą wniosków wyprowadzanych z wy­ników testowych".

Z notatek, które kserowałam: Brak respektowania trafności fasadowej może zaowocować

brakiem motywacji do rozwiązywania testu

Źródło: Brzeziński, Metodologia Badań Psychologicznych, s 516-517

3. O alfie Cronbacha, współczynniki psychometryczne

Źródło: Brzeziński, Metodologia badań psychologicznych

Właściwości psychometryczne współczynnika alfa Cronbacha na podstawie artykułu

Lee Cronbacha: 

Def: Współczynnik rzetelności pokazuje, czy twórca testu słusznie zakłada, że pewna pula pozycji testowych dostarczy nadających się do interpretacji wniosków n. t. różnic indywidualnych. (Kelley)  

Ogólny wskaźnik alfa, którego szczególnym przypadkiem jest wzór KR 20 ma następujące

ważne właściwości: 

1. Współczynnik alfa jako równoważnik losowej próby pozycji testowych:

2. Jest wartością oczekiwaną, kiedy dwie losowe próbki pozycji z puli, takie jak pozycje

zawarte w danym teście, są skorelowane.  

3. Alfa jest dolną  granicą współczynnika precyzji (dokładność tego samego testu złożonego z tych samych pozycji sprawdzana bez przerwy czasowej). Jest również dolną granicą współczynnika równoważności otrzymywanych przez równoczesne stosowanie dwóch testów o dobranych parami pozycjach. Jednak wypadku testów o umiarkowanej długości, które nie dają się podzielić na kilka różnych czynnikowo podtestów, alfa jest prawie równa współczynnikom równoważności dla "podziałów równoległych" lub "form

równoległych".  

4. Alfa jest oszacowaniem oraz dolną  granicą tej proporcji wariancji testu, którą można przypisać czynnikom wspólnym dla pozycji testowych. To znaczy, że jest wskaźnikiem nasycenia czynnikiem wspólnym. Ten współczynnik służy celom, które są przypisywane wskaźnikom homogeniczności. Wykorzystując zmodyfikowaną technikę, można zastosować

alfa do oceny nasycenia czynnikiem wspólnym baterii złożonej z podtestów.  

5. Alfa jest dolną  granicą nasycenia testu pierwszym czynnikiem. Dla testów o przeciętnej długości, niepodzielonych na kilka różnych czynnikowo podtestów, alfa jest tylko

trochę większa od tej proporcji wariancji, którą można przypisać pierwszemu czynnikowi.  

6. Alfa jest konserwatywną estymacją, niedoszacowaniem, dolną granicą współczynnika rzetelności (zdanie Kuder-Richardson)

Ale: Alfa może być niższa od wartości otrzymanej w wyniku losowego podziału konkretnego testu na połówki, ale może też być od niej wyższa

Bo: 2 testy utworzone w taki spos, że odpowiadające sobie pozycje z różnych form mierzą te same czynniki, będą korelowały wyżej niż para testów utworzona przez losowanie z puli pozycji, nawet jeżeli każda z porównywalnych pozycji w pierwszej parze testów zawiera pewną specyficzną wariancję. (czy to znaczy, że  Kuder Richardson nie mieli racji?)

7. Alfa może być albo wyższa albo niższa od współczynnika stabilności liczonego przy zastosowaniu odstępu czasowego między testem i retestem.

Dlaczego? Niektórzy badacze uważają, że alfa jest niższa ale artykuł pokazał, że to nie prawda; współczynnik stabilności- traktuje wariancję wyniku ogólnego między próbkami (wewnątrz osób) jako źródło błędu, a wariancję czynników specyficznych (między pozycjami testowymi wewn. osób) jako wariancję prawdziwą. W alfie wariancja czynników specyficznych jest uważana jako błąd. Zmienność między próbkami nie istnieje i nie redukuje wariancji prawdziwej. Obie wariancje będą pewnie małe w wypadku długich testów mierzących stabilne zmienne. Ale można też mierzyć niestabilne zmienne np. aktualny nastrój

czy wydajność pracy. 

Współczynnik alfa a struktura wewnętrzna testów [w] Trafność i rzetelność testów psychologicznych. Wybór tekstów. Brzeziński.

Zestaw nr 30:

2. Zastosowanie analizy wariancji czynnikowej do badania rzetelności i trafności testu.

Analiza czynnikowa pozwala sprawdzić czy otrzymane dane empiryczne są zgodne z zakładaną strukturą teoretyczną testu. Czynniki otrzymane w wyniku zastosowania analizy czynnikowej powinny odpowiadać teoretycznie zakładanym wymiarom.

Celem analizy czynnikowej jest zredukowanie dużej liczby zmiennych losowych do mniejszego zbioru, co uzyskujemy przez założenie, że pewne grupy zmiennych losowych reprezentują zmienność tych samych czynników, czyli zmienne losowe w danej grupie są od siebie w pewnym stopniu zależne.

W analizie czynnikowej istnieją dwa podejścia:

3. Porównanie wyników testowych rzetelność różnic i standardowy błąd różnicy

Obliczamy standardowy błąd różnicy między wynikami ze wzoru

SEMx-y =pierwiastek Sx?(1- rxx) + Sy?(1- ryy)

gdzie,

Sx to odchylenie standardowe wyników w pierwszym teście

rxx to rzetelność pierwszego testu

Sy to odchylenie standardowe wyników w drugim teście

ryy to rzetelność drugiego testu

Minimalną różnicę obliczamy ze wzoru:

Z?/2 SEM

Jeżeli różnica obliczona jest równa bądź większa od różnicy minimalnej, to jest ona istotna statystycznie - czyli ma znaczenie diagnostyczne.

Dwa nieznane numery zestawów:

1. Sposoby estymacji rzetelności (wymienić jakie są, kazał mi więcej opowiedzieć o

konsystencji).

  1. Metody oparte na porównaniu dwukrotnego badania tym samym testem ( badamy 2

razy tą samą  osobę 1 testem), są dwa sposoby:

    1. Estymacja wiarygodności testu

Badanie drugie następuje po zakończeniu pierwszego (brak odstępu czasowego). Ma więcej wad niż zalet. Wady: pamięć poprzedniego badania, wprawa, zmęczenie, zmiany w motywacji. Możemy posłużyć się to metodą gdy jesteśmy pewni, że czynnik pamięci nie miał wpływu na wyniki retestu. Za miarę wiarygodności Estu przyjmuje się współczynnik korelacji dwóch

zbiorów wyników z dwukrotnego (test i retest) badania tej samej osoby.

    1. Estymacja stabilności bezwzględnej testu (stałości)

Między badaniem pierwszym (test), a drugim (retest) jest odstęp czasowy np. 1 tydzień(długość przerwy jest nieokreślona). Im krótszy odcinek czasu pomiędzy badaniami tym wyższy współczynnik korelacji między wynikami. Przerwa pomiędzy badaniami może powodować szereg zakłóceń i wątpliwości np. (Nowakowska) możliwy wpływa czynników ubocznych: zapamiętywanie (badani po raz drugi mogą zapamiętać swoje odpowiedzi), uczenie się(badani mogą sprawdzić poprawne odpowiedzi np. w Internecie), różnice w warunkach

badania, różnice w zachowaniu osoby przeprowadzającej test itd.

  1. Metody oparte na porównywaniu form alternatywnych (równoległych) testu:

    1. Estymacja konsystencji testu (wg wykładu w literaturze nie ma nic takiego)

Skonstruowanie dwóch identycznych testów (równoległych, pararellnych). Osoby najpierw rozwiązują test 1 potem test 2. Badanie za pomocą tej metody zawiera zarówno estymację wiarygodności jak o stabilności bezwzględnej testu. Dodatkowe źródło wariancji to treść pozycji (która nie jest identyczna w dwóch testach)>

Kryteria testów równoległych: