1. Wszystkie Zestawy (I i II termin) - duże opracowanie, Egzamin


1. Psychometria, a teoria testów. (wykład 1)

PSYCHOMETRIA

TEORIA TESTÓW

Dziedzina (subdyscyplina) psych.- nauki empirycznej

Dziedzina statystyki matematycznej - nauki formalnej

„praktyka” - szczegółowe i konkretne reguły praktyczne

„teoria” - ogólne i abstrakcyjne twierdzenia teoretyczne (formalne)

Weryfikacja reguł i ewentualne sprawdzanie hipotez

Proponowanie aksjomatów i dowodzenie twierdzeń

Określanie reguł konstruowania narzędzi diagnostycznych oraz zasad posługiwania się tymi narzędziami

Formalizowanie pojęć określających strukturę testu i jakość pomiaru testowego

Formułowanie ogólnych zasad TREŚCIOWEJ interpretacji wyniku pomiaru psychologicznego

Formułowanie zasad FORMALNEJ interpretacji wyniku testowego

2. Miejsce modelu psychometrycznego w diagnozie. (wykład 1)

STATUS PSYCHOMETRII W RAMACH DIAGNOSTYKI PSYCHOLOGICZNEJ

Pojęcie diagnozy

Dogłębne poznanie, czyli szczegółowy opis aktualnego stanu rzeczy oraz porównanie go

z pewnym wzorcem, standardem, modelem, w celu wprowadzenia zmiany (lub zachowania status quo)

Etymologia terminu „diagnoza”

w wolnym tłumaczeniu: dogłębne, wnikliwe poznanie, „wniknięcie umysłem w

poznawany przedmiot”

gr. diágnōsis = rozpoznanie; diá = przez, na wskroś, między + gnōsis = poznanie;

diagnōstikós = umiejący rozpoznad, rozpoznawczy

Diagnoza i terminy pokrewne

Diagnozowanie = proces postępowania diagnostycznego (etapowośd)

Warsztat diagnostyczny = ogół metod, technik, narzędzi i procedur diagnostycznych

Diagnoza = rezultat postępowania diagnostycznego, opis + wniosek

Diagnostyka = specjalistyczna dziedzina praktyki społecznej ukierunkowana na

formułowanie diagnoz

„Teoretyczne zaplecze” struktury diagnozowania

1. OGÓLNY MODEL POSTĘPOWANIA DIAGNOSTYCZNEGO

Zwł. tzw. diagnoza „psychometryczna” (in. statystyczna, sformalizowana, USTRUKTURALIZOWANA) vs. „kliniczna” (in. nieformalna, impresjonistyczna, NIEUSTRUKTURALIZOWANA)

2. PSYCHOLOGICZNY MODEL TESTU (teoria diagnozowanego obiektu)

3. MODEL PSYCHOMETRYCZNY narzędzia diagnostycznego TESTU, WYNIKU TESTOWEGO I JEGO FORMALNEJ (PSYCHOMETRYCZNEJ I STATYSTYCZNEJ) INTERPRETACJI

Ewolucja „modeli psychometrycznych”

Model Klasyczny - KTT (Guliksen 1950)

Zmodyfikowany Model Klasyczny (Lord, Novick1968)

Modele quasi-klasyczne (np. Cronbach i in. 1972)

Model(e) Odpowiedzi na Pozycje Testowe - IRT (nieklasyczne): Item Response Theory (od `80 XX, pierwsi - Lord,'52, Rasch 1960)

4. MODEL PSYCHOLOGICZNY INTERPRETACJI WYNIKU TESTOWEGO ORAZ JEGO PRAKTYCZNEGO ZASTOSOWANIA  

2. Klasyfikacja zmiennych wg Stevensa. (wykład 2)

Zmienne określane mianem nazw skal, do których są przyporządkowane, tak więc mówimy o zmiennych:

  1. nominalnych- przy których stwierdzamy równość i różność, np. numeracja grup nieuporządkowanych

  2. porządkowych-stwierdzanie równości, różności, większości i mniejszości, np. surowe wyniki ankiet kwestionariuszy

  3. przedziałowych (interwałowych)-wszystkie ww. oraz stwierdzanie równości przedziałów i równości różnic, np. standaryzowane wyniki ankiet i kwestionariuszy

  4. stosunkowych (ilorazowych)- wszystkie ww. oraz stwierdzanie równości stosunków między wartościami skal, np. temperatura absolutna, długość, masa, czas reakcji.

  5. Skala

    Podstawowe operacje

    empiryczne

    Dozwolone

    przekształcenia

    matematyczne

    Przykłady

    dopuszczalnych

    statystyk i testów

    statystycznych

    Typowe przykłady zastosowań w narzędziach pomiarowych

    NOMINALNA

    Stwierdzanie równości

    i różności

    Dowolne przekształcenie

    wzajemnie

    jednoznaczne

    Liczebności

    Frakcje i procenty

    Wartość modalna

    Korelacja punktowoczteropolowa

    Testy oparte na liczebnościach

    (chi2)

    Klasyfikacja dwudzielna i wielodzielna

    Numeracja grup nieuporządkowanych

    PORZĄDKOWA

    (RANGOWA)

    Stwierdzanie równości,

    różności, większości

    i mniejszości

    Dowolna funkcja

    wzrastająca monotonicznie

    Wszystkie ww. oraz:

    Mediana

    Centyle, decyle, kwartyle

    Korelacja rangowa

    Testy nieparametryczne

    Skala twardości minerałów

    Numeracja grup uporządkowanych

    Rangi

    Surowe wyniki ankiet i

    kwestionariuszy

    PRZEDZIAŁOWA

    (INTERWAŁOWA)

    Wszystkie ww. oraz:

    Stwierdzanie równości

    przedziałów i równości

    różnic

    Dodatnie przekształcenia

    liniowe:

    {T(x)=ax+b dla a>0}

    Wszystkie ww. oraz:

    Średnia arytmetyczna

    Wariancja i odchylenie

    standardowe

    Korelacja r Pearsona

    Test t oraz inne testy

    parametryczne

    Temperatura C, R i F

    Daty kalendarza

    Energia potencjalna

    Standaryzowane wyniki

    ankiet i kwestionariuszy

    STOSUNKOWA

    (ILORAZOWA)

    Wszystkie ww. oraz:

    Stwierdzanie równości

    stosunków między

    wartościami skali

    Przekształcenia multiplikatywne

    (podobieństwa):

    {T(x)=ax dla a>0}

    Wszystkie ww. oraz:

    Średnie - geometryczna

    i harmoniczna

    Temperatura absolutna

    Długość

    Masa

    Czas reakcji


    1. Główne zadania i zastosowania KTT. (wykład 3)
    Pojęcie i zastosowanie KTT

    Dział statystyki matematycznej mający zastosowanie przy konstruowaniu narzędzi pomiarowych w sytuacji, gdy nie jest możliwy wielokrotny pomiar tego samego obiektu (konieczny dla wyskalowania narzędzia)

    Teoria formalna (pojęcia pierwotne + aksjomaty); wymaga sprawdzenia prawdziwości aksjomatów w dziedzinie jej zastosowań

    Zadania KTT

    1. Formalizacja pojęć charakteryzujących jakość pomiaru (rzetelność, trafność i homogeniczność: równoległość a równoważność)

    2. Formalizacja pojęć charakteryzujących formalną strukturę treści pomiaru (np. struktura czynnikowa, struktura latentna

    1. Zarzuty stawiane KTT. (wykład 3)

    Problemy KTT

    • Wnioskowanie o wartościach prawdziwych na podstawie obciążonych błędem wartości zaobserwowanych

    • Źródła tego błędu (losowości otrzymanego wyniku pomiaru):

    1) przypadkowe zakłócenia w przebiegu pomiaru

    2) wynik prawdziwy jako realizacja nieznanego rozkładu zmiennej losowej w populacji oszacowanego na podstawie próby

    • Wnioskowanie o wartościach prawdziwych na podstawie obciążonych błędem wartości zaobserwowanych

    • Źródła tego błędu (losowości otrzymanego wyniku pomiaru):

    1) przypadkowe zakłócenia w przebiegu pomiaru

    2) wynik prawdziwy jako realizacja nieznanego rozkładu zmiennej losowej w populacji, oszacowanego na podstawie próby (rodzaj losowości specyficzny dla KTT)

    Rozwiązanie - Harold Gulliksen (1950)

    • „Platońskie” ujęcie wyniku prawdziwego - jako istniejącego obiektywnie i niezależnie od pomiaru

    • Aksjomaty

    1) Me = 0

    2) reT = 0

    3) ree = 0

    Krytyka KTT

    • Przede wszystkim - niesprawdzalność aksjomatów!

    - modelem semantycznym jakiegoś języka (w szczególności - teorii naukowej) może być tylko taka dziedzina empiryczna, w której prawdziwe są wszystkie aksjomaty pozalogiczne tego języka

    • Ponadto:

    - stałość błędu (brak warunkowej miary błędu)

    - uzależnienie parametrów testu jako całości oraz jego poszczególnych itemów od rozkładu mierzonej cechy w populacji

    2. Wariancja wg Chojnowskiego. (wykład 5)

    0x01 graphic

    • „test” - związana z narzędziem (reprezentatywność itemów, jednolitość obszaru zachowania)

    • „egz” - związana z osobą badającą (testorem)

    • „proc” - związana z procedurą badania

    • „syt” - związana z sytuacją badania

    • „org” - związana z czasowym stanem organizmu badanego

    • „osc” - związana z chwilowymi oscylacjami procesów psychicznych

    • „sub.oc” - związana z niepełną standaryzacją kryteriów oceny zachowań testowych (niepełną obiektywnością testu)

    • „resz” - związana z błędami w obliczaniu, zgadywaniem i innymi losowymi czynnikami

    Wariancja to wielkość zróżnicowania otrzymanych wyników wokół ich wartośći średniej. Wariancja opisuje nam wielkość błędu, jaki popełniamy wtedy, kiedy średni wynik traktujemy jako dobre odzwierciedlenie wszystkich wyników indywidualnych. Wariancję możemy traktować jako miarę popełnionego błędu. Mała wariancja wskazuje, że średni wynik dobrze odzwierciedla wyniki indywidualne, duża wariancja zaś wskazuje, że wartości średniej nie można traktować jako rzetelnej miary wyników indywidualnych. Znając wielkość wariancji możemy wyciągać wazne wnioski dotyczące wielkości błędu, czyli wnioski dotyczące rzetelności testu.

    W psychometrii różne źródła wariancji wynikają z różnych cech sytuacji testowania
    0x01 graphic

    3. SEM(T) a związek z KR21 (coś takiego jest w 6. wykładzie).

    KR21

    • Test mierzy jeden czynnik

    • Interkorelacje itemów są równe

    • Wariancje itemów są równe

    • Itemy mają równą trudność

    • Wiąże się z SEM(T) - se2 jest wówczas stosunkiem średniej wariancji „indywidualnych” błędów

    - co jest jednym z powodów niższej estymowanej rzetelności testu

    - drugim jest nierówna trudność itemów

    SEM(T) to błąd pomiaru skorelowany z wynikiem prawdziwym.

    Jego podstawowy wzór to:

    SEM(T)=(k*p*q)^0,5

    gdzie k oznacza ilość itemów, p ilość odpowiedzianych poprawnie a q odpowiedzianych błędnie.

    Jako iż są „komponentami” wyniku otrzymanego, można przedstawić je jako zależność z estymowanym wynikiem prawdziwym, wtedy:

    p = Tj/k ; q = 1 - Tj//k = 1 - p

    Jeśli podstawimy to do pierwotnego wzoru, można go przekształcić na:

    SEM(T) = ((k*Tj - Tj^2)/k)^0,5

    Posiłkując się wykładem:

    0x01 graphic

    Jak zapewne wiecie, KR21 wyglada tak: 0x01 graphic

    Mp oznacza średnią wyników p, natomiast Mq - średnią wyników q.

    Wyprowadzanie tego wzoru wygląda jak następuje:

    0x01 graphic

    Jak widać, pierwsza część tego wzoru wygląda bardzo podobnie do SEM(T). st^2 - kpq to nic innego jak „wynik otrzymany minus błąd” - czyli wynik prawdziwy.

    A jaki wiemy stosunek wariancji wyniku prawdziwego do otrzymanego to definicja rzetelności. Dlatego zginął ten pierwiastek ( sT = st - (k*p*q)^0,5 => sT^2 = st ^2 - k*p*q ).

    Dlatego The Dziekan pisze:

    „se jest wówczas stosunkiem średniej wariancji „indywidualnych” błędów”

    mając na myśli że wariancja błędu w tym wzorze (wymagana do wstawienia estymowanego wyniku prawdziwego w liczniku) jest średnią błędów skorelowanych z wynikiem prawdziwym każdego z itemów.

    Lub nie.

    3. Pojęcie i aspekty trafności testu. (wykład 7)

    (nie opisuję tego dawnego podejścia bo to jest w innym zagadnienia i tam są rodzaje trafności a nie aspekty trafności) (wykład + standardy, w innych książkach jest to opisane wg starszych podziałów).

    Obecnie trafność = stopień, w jakim dane empiryczne oraz teoria uzasadniają interpretację wyników testowych w zakładanym kierunku (dawniej trafność oznaczała stopień a jakim test mierzył cechę, która miał mierzyć.)

    Aspekty trafności:

    [Aspekt teoretyczny - wyrażenie zbyteczne wg Standardów, gdyż trafność zawsze jest trafnością teoretyczną, bo wyniki są zawsze miara jakiegoś teoretycznego konstruktu. Ogólnie trafność teoretyczną określa się jako ocenę stopnia w jakim dany test odzwierciedla konstrukt, który ma być przedmiotem pomiaru.]

    Inne źródła danych walidacyjnych: (dane z różnych źródeł mogą potwierdzać różne aspekty trafności, a trafność wg nowych Standardów jest pojęciem spójnym i jest to stopień w jakim kumulujące się dane potwierdzają zamierzoną interpretację wyników testowych).

    2. Ewolucja pojmowania trafności testu. (wykład 7)

    Podejście tradycyjne:

    trafność

    -stopień, w jakim test mierzy cechę, którą miał mierzyć ( a na ile mierzy też inne uboczne cechy)-ogólnie: na ile spełnia założenia pomiarowe;

    -sensowność interpretacji wyniku (zasadność przypisania im określonego znaczenia psychologicznego)

    Podejście tradycyjne-rodzaje trafności:

    treściowa- na ile itemy są odpowiednie w stosunku do badanej cechy (są reprezentatywne dla uniwersum pozycji diagnostycznych dla danego konstruktu)

    teoretyczna- stopień w jakim test odzwierciedla cechę, do pomiaru której jest przeznaczony (trafność zbieżna a trafność różnicowa)

    kryterialna- na ile wyniki umożliwiają ocenę zmiennych zewnętrznych w stosunku do testu (zazwyczaj realnych kryteriów)

    (?) fasadowa- wrażenie, jakie test wywiera na osobach badanych (trafność???)

    Podejście współczesne:

    Trafność- stopień, w jakim dane empiryczne oraz teoria uzasadniają interpretację wyników testowych w zakładanym kierunku

    Podejście współczesne- aspekty trafności:

    -„kryterialny”-kryterialne dane walidacyjne, dane dotyczące związku z innymi zmiennymi

    -Diagnostyczny

    -prognostyczny

    -„treściowy”- dane walidacyjne oparte na treści testu

    (trafność = trafność teoretyczna)

    E. Hornowska, Testy psychologiczne. Teoria i praktyka, s. 80-81 :

    Pojęciu trafności nadawano różne znaczenie.

    Pierwotnie przez trafność rozumiano po prostu dokładność, z jaką test realizuje założone cele. W tym rozumieniu trafność traktowana była- podobnie jak współczynnik rzetelności-jako stała właściwość wyników testowych.

    Koncepcja ta staje się zrozumiała, jeśli uwzględnić jak tworzone były pierwsze testy: autor testu zazwyczaj z góry decydował co dany test będzie mierzył, i konstruował go tak, aby osiągnąć cel. Możliwość, że dany test równie dobrze mierzy inną cechę rzadko była brana pod uwagę.

    Prace Cronbacha i Meehla (1955) oraz Messicka(1989) spowodowały, że pojęcie trafności przestało być tak statycznie rozumiane. Pytanie: „ jak dobrze test realizuje zamierzenia jego autora?” zastąpiono pytaniem: „ co test mierzy i jak dobrze to robi”\

    Messick (1989) : trafność- zintegrowany proces oceny stopnia, w jakim dowody empiryczne i rozważania natury teoretycznej potwierdzają adekwatność i poprawność interpretacji oraz programów działania wyprowadzonych na podstawie wyników testowych czy innych narzędzi pomiaru.

    W tej definicji widać wyraźnie zmianę perspektywy oraz przesunięcie punktu ciężkości- z pojęcia trafności testu na pojęcie trafności interpretacji wyników testowych. W takim też duchu definiują trafność Standardy…

    Określenie trafności danego testu, nazywane w psychometrii procesem walidacji testu, polega na zbieraniu i ocenie danych świadczących o trafności określonej interpretacji wyników testu. Im więcej przeprowadza się badań z udziałem danego testu, tym szerszy jest obszar jego zastosowania.

    W procesie walidacji ważną rolę odgrywa zarówno autor testu, jak i jego użytkownik.

    2. Etapy konstrukcji narzędzia diagnostycznego. (wykład 9)

    • Określenie celu postępowania i teoretyczne zdefiniowanie przedmiotu pomiaru (zmiennej)

    • Wyróżnienie obszarów treściowych („wymiary”) i form manifestacji („przejawy”, „wskaźniki”) zmiennej teoretycznej

    - operacjonalizacja zmiennej

    - „bateria wskaźników” (indeks)

    • Określenie kryteriów i zasad posługiwania się narzędziem, m.in. ustalenie:

    - badanie indywidualne czy zbiorowe?

    - prowadzenie badania przez badającego czy samodzielne posługiwanie się narzędziem przez badanego?

    • kwestie instrukcji i ochrony danych

    - badanie „bezpośrednie” czy „pośrednie” (np. wywiad środowiskowy, analiza wytworów, analiza dokumentów itp.)?

    • Określenie „formatu itemów”

    - np. opisy sytuacji i możliwe zachowania w nich, itemy dotyczące zachowao, czy itemy dotyczące cech i/lub dyspozycji?

    - twierdzenia czy pytania?

    - liczba i treśd kategorii odpowiedzi

    • parzyste - nieparzyste

    • liczby - określenia słowne

    • krańce skali

    • Wygenerowanie puli itemów

    - wykorzystywanie istniejących narzędzi

    - eksperci

    - pytania otwarte w badaniach pilotażowych

    - własne pomysły

    • Analiza treściowa i językowa

    - np. technika Delhi

    • Opracowanie klucza odpowiedzi, instrukcji, budowy i formy kwestionariusza

    (standaryzacja - w jednym ze znaczeo tego terminu)

    • Zebranie danych - określenie zbiorowości generalnej, dobór próby, badanie pilotażowe

    • Wielkośd próby walidacyjnej = liczba itemów × (min.) 5 do 10 osób, lecz nie mniej niż

    200 o.b.

    • Normalizacja „pierwotna” (in. standaryzacja w drugim znaczeniu) - transformacja wyników

    surowych na skale standardowe

    - np. teny, steny, staniny, tetrony itp.

    • Analiza itemów

    - moc dyskryminacyjna (np. D, rbi, t )

    - wskaźnik „trudności”

    - wskaźniki rzetelności i trafności poszczególnych itemów

    - analiza efektów prostych

    • Estymacja rzetelności narzędzia

    - estymacja wiarogodności

    - estymacja konsystencji

    - estymacja stabilności

    - (estymacja konsensyjności?)

    • Badanie trafności narzędzia

    - uwzględnienie różnorodnych danych walidacyjnych

    • „Renormalizacja”

    1. Test psychologiczny i jego pożądane własności. (wykład 9)

    Narzędzie do pomiaru modalnych cech zachowania

    TEST PSYCHOLOGICZNY - POWTÓRZENIE I UZUPEŁNIENIE

    • Jest narzędziem diagnostycznym/badawczym

    - posługiwanie się nim musi być uzasadnione celem postępowania diagnostycznego/badawczego oraz musi wynikać z wysuniętych hipotez diagnostycznych/badawczych

    • Jest zazwyczaj zbiorem różnorakich itemów (zadań, pytań, rysunków, słów, symboli itp.),

    które umożliwiają uzyskanie (pobranie) pewnej próbki zachowań. Na podstawie tej

    próbki można wnioskowań - w oparciu o określone założenia: (a) teoretyczne i (b) psychometryczne - o zachowaniu się osoby badanej w sytuacjach pozatekstowych

    ZACHOWANIA TESTOWE (CZYLI REAKCJE BADANEGO NA ITEMY TESTU) MAJĄ WSKAZYWAĆ NA NATĘŻENIE PEWNEJ OKREŚLONEJ WŁAŚCIWOŚCI MODALNEJ (ZMIENNEJ)

    • Musi dostarczać reguł obliczania wartości mierzonej zmiennej. W związku z tym musi być oparty na określonej teorii psychologicznej oraz na odpowiednim modelu psychometrycznym - w przypadku testów wykorzystywanych w praktyce diagnostycznej zazwyczaj wciąż jest to Klasyczna Teoria Testów

    • Zachowania testowe nie zawsze muszą ściśle przypominać zachowań, o których wnioskuje się na podstawie testu, jednak należy wykazać, że istnieje pomiędzy nimi określony związek

    • Teoretyczny model mierzonej zmiennej musi być spójny z modelem interpretacji wyniku testowego

    • Interpretacja treściowa wyniku testowego musi uwzględniać wnioski z jego interpretacji formalnej

    Musi spełniać określone kryteria formalnej dobroci, takie jak:

    • obiektywność - niezależność wyników testowych od tego kto, gdzie i kiedy dokonuje ich oceny

    • standaryzacja - jednolitość reguł badania testem oraz procedur obliczania i interpretowania wyników

    • rzetelność - precyzja pomiaru i stabilność uzyskiwanych rezultatów

    • trafność - dokładność, z jaką test realizuje założone cele pomiarowe, czyli mierzy to, do

    pomiaru czego został przeznaczony

    • normalizacja - wyposażenie testu w statystyczne kryteria interpretacji wyniku testowego (normy), stanowiące układ odniesienia, z którym będzie można porównywać wynik indywidualny

    • adaptacja kulturowa (w przypadku testów zagranicznych) - przystosowanie oryginalnego

    testu do nowych warunków kulturowych

    Standaryzacja procedury badania testem (wybór najważniejszych dezyderatów)

    • Wskazówki dotyczące badania testem powinny być przedstawione na tyle jasno i wyraźnie, aby każdorazowo można było powtarzać sposób badania zastosowany przy ustalaniu norm

    • W szczególności instrukcja powinna określać takie kwestie, jak limity czasowe, możliwość

    powrotu do poprzednich itemów, kolejność itemów i testów, zakres pomocy udzielanej badanemu

    • Stosując test należy dokładnie przestrzegać wszystkich zasad i procedur opisanych w podręczniku

    • Jeżeli autorzy testu dopuszczają możliwość rozszerzania lub uszczegółowiania instrukcji

    przedstawionej w podręczniku, to muszą być określone warunki, w jakich postępowanie to jest dopuszczalne

    • Należy okresowo sprawdzać materiał testu, wyposażenie oraz stosowaną procedurę

    Dobry test powinien

    Mieć autora, a test zagraniczny mieć również autora adaptacji

    Posiadać oryginalny komplet pomocy testowych oraz oryginalne arkusze odpowiedzi, a także ich opisy

    Być odpowiednio zabezpieczony przed możliwością posłużenia się nim przez osoby nieuprawnione

    Podlegać wyłącznie legalnej dystrybucji

    Mieć podręcznik

    3. Psychologiczne i psychometryczne zastosowanie komputerów do testów psychologicznych.

    Testy stosowane w wersji komputerowej wymagają specjalnego wyposażenia Dlatego traktowania. Dlatego należy:

    3. SEM - zastosowanie, właściwości (coś tam jeszcze, ogólnie całe SEM wytłumaczyć).

    SEM - standardowy błąd pomiaru

    Def. - odchylenie standardowe rozkładu różnic wyniku otrzymanego i wyniku prawdziwego

    (tj - Tj). Jest to błąd, który popełniamy, kiedy zakładamy, że wynikiem prawdziwym danej osoby jest średni wynik, jaki uzyskałaby ona w nieskończenie wielu pomiarach tym samym testem (czyli mówiąc to samo nieco inaczej - SEM to odchylenie standardowe rozkładu błędów, które popełniamy wtedy, kiedy zakładamy, że wynikiem prawdziwym danej osoby jest średni wynik jaki uzyskałaby ona w nieskończenie wielu pomiarach tym samym testem). SEM ma rozkład normalny.

    Istotne właściwości SEM są następujące:

    - Me = 0, czyli błąd jest losowy, niesystematyczny

    - reT = 0, czyli błąd jest taki sam dla wszystkich wyników uzyskiwanych w danym teście

    - Błąd nie zależy od rozkładu mierzonej cechy w próbie

    SEM jest powszechnie wykorzystywany do estymacji przedziału ufności wokół wyniku otrzymanego, tą operację wykorzystuje się, kiedy wartość współczynnika rzetelności (rtt) jest większa od 0,80 (kiedy jest mniejsza od 0,70 to stosuje się estymację punktową wyniku prawdziwego z zastosowaniem SEE).

    (wykład + Brzeziński)


    1. SEE - definicja, właściwości (to szczególnie) i zastosowanie.

    0x01 graphic
    SEE - Standardowy Błąd Estymacji (Standard Error of Estimation)

    Generalnie stosujemy go wtedy, gdy budujemy przedział ufności symetryczny względem estymowanego wyniku prawdziwego, a nie wyniku otrzymanego.

    Prostymi słowami - standardowy błąd pomiaru dodajemy, lub odejmujemy, od wyniku otrzymanego. Ale jego wartość jest jedna, czyli „przedział” gdzie szukamy wyniku prawdziwego jest równie odległy „w dół” od wyniku otrzymanego, co „w górę”. Natomiast można zakładać, że w skład wyników „wysokich” wchodzi „więcej błędu” podnoszącego ten wynik, natomiast w przypadku wyników niskich - obniżających wynik. Dlatego przedział budowany przy użyciu SEM będzie niesymetryczny względem wyniku prawdziwego.

    Dlatego poprawnym postępowaniem jest jest zbudowanie przedziału ufności symetrycznego do estymowanego wyniku prawdziwego, i dopiero w tym przedziale „szukamy” wyniku prawdziwego.

    Do estymowania wyniku prawdziwego stosujemy równanie McHugh'a: T'j = tj rtt + Mt (1- rtt

    Zastosowanie praktyczne to:

    0x01 graphic

    SEE najwyższe wartości przyjmuje dla średniej rzetelności testu, natomiast przy niskiej bądź wysokiej zbliża się do zera. Inaczej sprawa wygląda z SEM, który jest coraz mniejszy przy zwiekszajacej sie, rzetelności. Stąd SEE stosujemy dla rtt mniejszego niż 0,70. Przy rzetelności rzędu 0,8 różnica między nimi jest tak niewielka, że w celu uniknięcia dodatkowych obliczeń można spokojnie stosować SEM. Między 0,7 a 0,8 użycie obu jest równie uzasadnione. Osobiście wolę SEE, ale słyszałem że Mike Tyson mocno promuje SEM w takich sytuacjach.

    1. Pojęcie losowości wyniku testowego i jego źródła.

    Błąd losowy - powstaje w wyniku działania przyczyn przypadkowych . Może zarówno zwiększać jak i zmniejszać wynik testowy. Sprawia, że test nie jest powtarzalny.Do czynników, które w sposób losowy wpływają na wynik testu zaliczamy:

    -konstrukcja testu- źródłem tego błędu jest specyficzny dobór treści z jakiej zbudowane są pozycje testu. W każdej sytuacji testowania niektóre osoby badane otrzymują wyższe wyniki testowe tylko dlatego, że specyficzna treść pozycji testowych szczególnie im odpowiada lub ich dotyczy np. uczeń który świetnie zna historie polski z lat 20 lepiej wypadnie na olimpiadzie z historii jeśli trafia mu się pytania z tego właśnie okresu.

    -sytuacja testowa - źródła błędu:

    czynniki sytuacyjne: temperatura , światło, itp.

    czynniki związane z osoba badaną: czy się wyspała, lęk, motywacja, itp.

    Czynniki związane z osoba badającą: umiejętność nawiązywania kontaktu, obecność lub nie podczas badania , itp.

    - sposób oceny wyników- wynikają z :

    Błędów mechanicznych- źle podliczona suma wyników

    Zbyt ogólne kryterium oceniania odpowiedzi -prawidłowość zależy od doświadczenia oceniającego <testy osobowości, inteligencji>


    3. KR20 i KR21 - historia, założenia, właściwości.

    -(Brzeziński)

    W latach trzydziestych Kuder i Richardson (por. Kuder, Richardson, 1937) opracowali serię wzorów pozwalających na oszacowanie rzetelności testu na podstawie właściwości statystycznych poszczególnych pozycji, z których składa się test. Pun­ktem wyjścia do konstrukcji nowych wzorów była krytyka, której poddali oni,opisaną w pkt. 7., metodę połówkową.

    Aby uzyskać połówki testu, można go, jak wiadomo, podzielić na wiele spo­sobów. Każdy taki podział na połówki daje inne oszacowanie rzetelności testu. Aby tego uniknąć, Kuder i Richardson zaproponowali podział testu składającego się z n pozycji (zadań) na ...n części (zatem, jedna jego część, to jedna pozycja). Podstawowym założeniem, na którym opiera się pomysł jest założenie o równoległości pozycji testowych. Mówiąc inaczej, przyjmuje się, że pozycje są jednolite czynnikowo. Dla pozycji ocenianych 0 lub 1 i o równej trudności, tzn. gdy frakcja od­powiedzi zgodnych z kluczem (p) równa jest frakcji odpowiedzi z kluczem niezgodnych (q) uzyskujemy maksymalną wartość wariancji i-tej pozycji testowej:

    vari=pią q,=1-p

    Nietrudno zauważyć, iż wariancja pozycji jest największa, gdy pi = qi=0,5G (gdyż: 0,50x0,50 = 0,25).

    Najbardziej znane wzory opracowane przez tę dwójkę psychometrów to K-R 20 oraz KR 21. Oto one:

    0x01 graphic
    0x01 graphic

    varc — wariancja całkowita wyników całego testu;

    piqi — wariancja i-tej pozycji testu;

    n — liczba pozycji w teście;

    p — średnia wartość p w zbiorze n pozycji testu;

    q — średnia wartość q w zbiorze n pozycji testu.

    Wzór K-R 21 znajduje zastosowanie w sytuacji, gdy psycholog nie zna stopnia trudności poszczególnych, składających się na dany test, pozycji testowych. Jeżeli zaś możemy przyjąć, iż trudność poszczególnych pozycji jest do siebie zbliżona,to wówczas wyrażenie ze wzoru:

    n

    „Σ piqi”

    i=1

    możemy zastąpić wyrażeniem:”n p q”

    Dokonując niewielkich przekształceń we wzorze K-R 21 możemy otrzymać jego wygodną do obliczeń postać :

    0x01 graphic

    0x01 graphic

    Jakie są słabości K-R 20, albo mówiąc inaczej, jakie odstępstwa od wyjścio­wych założeń mają zauważalny wpływ na dokładność obliczonego tą metodą współczynnika rtt? Na to pytanie usiłował odpowiedzieć Brogden (1946; podaję za: Guilford, 1954, s. 383). Manipulując średnimi wartościami p (od 0,3 do 0,97), wartościami interkorelacji pozycji testowych (od 0,2 do 0,8) oraz liczbą pozycji w teście (od 9 do 153) i zakładając jedną z trzech postaci rozkładu p — rozkład normalny, rozkład prostokątny oraz rozkład skośny — Brogden doszedł do wnio­sku, iż metoda ta daje obciążone wartości rtt w przypadku testów krótkich (9-18 pozycji) i o wysokich interkorelacjach pozycji testowych (0,60-0,0,80). Guilford podkreśla, że nie powinno się stosować, ani K-R 20, ani K-R 21 w przypadku badania z ograniczeniem czasu (testy szybkości).

    Kuder i Richardson opracowali swoje wzory dla testów o pozycjach punkto­wanych „0-1". Ferguson (1951) zaadaptował wzór K-R 20 do pozycji m-kategorialnych. W miejsce wyrażenia

    n

    „Σ piqi”

    i=1

    we wzorze na KR-20 zaproponował on wstawienie nowego wyrażenia, uwzględniającego ważenie odpowiedzi, np. „+1", „0", „— 1" czy „0", „1", „2", „3", „4". Wariancję /-tej pozycji w teście, wymagającej udzie­lenia przez osobę badaną jednej z m kategorii odpowiedzi, Ferguson proponuje obliczać wg wzoru:

    m m

    var i= Σ wk² Pk-(Σ wkpk)2, k= l,...m; i== 1,...,n.

    k=1 k=1

    Po zsumowaniu wszystkich n wariancji pozycji testowych otrzymaną sumę

    wstawia się do wzoru na KR-20 w miejsce wyrażenia :

    n

    „Σ piqi”.

    i=1

    Dla stosunkowo często używanych testów składających się z pozycji trójkategorialnych (tak — „1", nie wiem — „0", nie — „-1") wzór powyższy proponowany przez Fergusona przyjmuje uproszczoną postać:

    vari = p2-p22 + 4p1p3,

    gdzie: p1— proporcja osób, które udzieliły odpowiedzi o wadze „+1"; p2 — proporcja osób, które udzieliły odpowiedzi o wadze „0"; p3 — proporcja osób, które udzieliły odpowiedzi o wadze „-1"; wkwaga k-tej (i = l,...,m) odpowiedzi na i-tą pozycję testu.

    Po zsumowaniu wszystkich wariancji obliczonych wg wzoru powyższego, obliczoną sumę wstawiamy do wzoru na KR20 w miejsce wyrażenia:

    n

    „Σ piqi”.

    i=1

    -(Słownik ważniejszych terminów)

    Wzory Kudera-Richardsona-wzory służące do estymacji rzetelności testu metodą wewnętrznej zgodności.Założenie podstawowe:test składa się z n części(zadań)równoległych,tzn.zadań o jednakowych średnich i wariancjach.Najbardziej znane są wzory:KR20 i KR21.Najważniejsze własności wzorów KR:

    -współczynniki wewnętrznej zgodności(wg niektórych teoretyków zgodność wewnętrzna jest jedynym poprawnym sposobem otrzymywania współczynnika rzetelności),

    -estymacja jednolitości testu oraz średnia wszystkich możliwych współczynników równoważności międzypołówkowej.

    -stosowanie wzorów KR wymaga jednak ukończenia testu przez wszystkich badanych(nie nadają się więc one do estymacji rzetelności w testach szybkości).

    -(Hornowska)

    0x01 graphic

    0x01 graphic

    0x01 graphic

    1. Etyczne aspekty stosowania testów psychologicznych.

    Etyczne aspekty odnoszą się do konsekwencji społecznych i życiowych dla osoby badanej, wynikających z pomiaru testem.. Od obiektywności i standaryzacji procedury badania, reprezentatywności norm oraz trafności i rzetelności testu zależy los człowieka. Im większym błędem jest zatem obciążony pomiar testowy, tym potencjalnie większe jest ryzyko błędnej diagnozy i szkody, wyrządzonej danemu człowiekowi. Ten problem etyczny, wynikający z małej trafności i obiektywności pomiaru testowego określa się mianem stronniczości (lub faworyzacji). Zjawiska te występują, gdy test mierzy nietrafnie cechy psychologiczne, tj. sugeruje istnienie różnic w nasileniu danej cechy, podczas gdy faktycznie różnice te nie istnieją. Prowadzi to do błędnej diagnozy psychologicznej i wysnuwania fałszywych wniosków psychologicznych. W przypadku, gdy wnioski te pociągają za sobą określone decyzje społeczne, to stronniczość pomiaru prowadzi do dyskryminowania (lub faworyzowania) określonych osób lub grup społecznych. Te zjawiska nierówności społecznej określa się mianem seksizmu, rasizmu, itp. Inny problem etyczny wiąże się z konsekwencjami ujawnienia tajemnicy pomiaru testowego osobom postronnym. Złamanie anonimowości jest naruszeniem praw osobistych, bowiem może prowadzić do negatywnych następstw emocjonalnych i społecznych u badanej osoby. Podobny problem dotyczy komunikowania wyników samej osobie badanej - jest to kwestia samej procedury badania, która wymaga wcześniejszego uprzedzenia o możliwych konsekwencjach badania (np. negatywna kwalifikacja lub możliwość doznania szkody emocjonalnej) oraz dobrowolności udziału, tj. przyznania osobie badanej prawa do odmówienia wzięcia udziału w badaniach (lub rezygnacji z badań nawet w ich trakcie). W przeciwnym razie prowadzi to do naruszenia wolności osobistej. Inne problemy etyczne wynikają z aspektu psychologicznego pomiaru i nastawienia wyłącznie na techniczną stronę badania testowego. Diagnoza pozbawiona jasno określonego celu badawczego i nie uwzględniająca "dobra" osoby badanej prowadzi do tzw. "etykietowania" lub stygmatyzowania (np. przypisywania komuś określeń typu "neurotyk", "wariat" - część psychologów uważa nawet, że pomiar testowy prowadzi nieuchronnie do etykietowania. W większości jednak problemy etyczne pomiaru testowego wynikają z ahumanistycznego celu badania, tzn. gdy nie realizuje on dobra danego człowieka.

    1. Wynik prawdziwy w ujęciu Gulliksena, Lorda i Novicka. (wykład 3)

    Harold Gulliksen (1950):

    a) „platońskie” ujęcie wyniku prawdziwego- jako istniejącego obiektywnie i niezależnie od pomiaru,

    b) aksjomaty:

    1) Me=0 Wartość oczekiwana błędu(średni błąd) równa się zero

    2) reT=0 Błąd pomiaru i wynik prawdziwy (traktowany jako zmienna losowa) nie są skorelowane

    3) ree=0 Błędy w dwóch kolejnych pomiarach są nieskorelowane

    Jednak:

    Krytyka KTT:

    a) przede wszystkim: niesprawdzalność aksjomatów!

    - Modelem semantycznym jakiegoś języka ( w szczególności-teorii naukowej)może być tylko taka dziedzina empiryczna, w której prawdziwe są wszystkie aksjomaty pozalogiczne tego języka

    b) ponadto:

    -stałość błędu (brak warunkowej miary błędu)

    -uzależnienie parametrów testu jako całości oraz jego poszczególnych itemów od rozkładu mierzonej cechy w populacji

    Alternatywa:

    Frederic M.Lord& Melvin R.Novick (1968)

    a) statystyczne i relatywne do podziałki narzędzia ujęcie wyniku prawdziwego jako wartości oczekiwanej rozkładu skłonności

    -rozkład skłonności: rozkład prawdopodobieństw uzyskania przez daną osobę poszczególnych możliwych do uzyskania wyników w danym teście

    b) reaksjomatyzacja:

    1. rozkład skłonności ma skończoną wariancję

    2. „liniowa eksperymentalna niezależność pomiarów”: wynik prawdziwy nie zależy od wyników obserwowanych w kolejnych pomiarach; in. mówiąc-rozkład skłonności ma skończoną wartość oczekiwaną.

    c) estymacja przedziałowa uwzględnia „zl/2” (funkcję gęstości rozkładu normalnego jako

    model cechy w populacji), czyli wciąż jest to KTT (choć niewątpliwie istotnie zmodyfikowana).

    M.Nowakowska, ”Nieformalne ujęcie współczesnej teorii testów”:

    -Problematykę estymacji wartości cechy przedstawił formalnie w 1950roku Gulliksen w postaci pewnego systemu aksjomatów, który został następnie zmodyfikowany i udoskonalony w 1968r. przez Lorda i Nowicka

    1.Gulliksen:

    a) zaadoptował do psychologii model pomiaru z nauk fizycznych;

    Przyjął on, że podobnie jak każdy obiekt fizyczny ma określone wartości swoich cech fizycznych, niezależnie od aktu dokonywania pomiaru i wyboru narzędzia pomiarowego, tak też każdy człowiek( w danym momencie) ma nieznane prawdziwe wartości określonych cech psychologicznych

    Następnie założył, na wzór nauk fizycznych, że przy dokonywaniu pomiaru obserwujemy wartości prawdziwe mierzonej cechy, zakłócone błędem równym różnicy między obserwowaną wartością wyniku pomiaru a (nieobserwowaną) wartością prawdziwą mierzonej cechy. W konsekwencji, zarówno wartość prawdziwa, jak i błąd pomiaru są nieobserwowalne.

    Trzeba było również przyjąć pewne założenia dotyczące źródeł losowości wyników obserwowanych oraz przyjąć aksjomaty nakładające pewne warunki na tę losowość.

    Założono że:

    -losowość wyniku obserwowanego ma charakter „podwójny”: źródłem są zakłócenia przypadkowe w pomiarze wartości prawdziwej w pomiarze cechy danej osoby oraz

    przypadkowość wyboru tej osoby z badanej populacji.

    Zastosowanie testu w stosunku do wybranej osoby pozwala na uzyskanie próbki określonych przez test zachowań się tej osoby i na wyznaczenie wartości estymatora wyniku prawdziwego tej osoby.

    Wynik prawdziwy- realizacja (nieobserwowalnej) zmiennej losowej, której rozkład wyznaczony jest przez przyjętą metodę wyboru tej osoby z badanej podpopulacji (Novick,1966)

    Błąd pomiaru ma zatem dwa źródła losowości: jedno związane z procesem losowania osób do próbki, drugie związane specyficznie z zakłóceniami losowymi pomiaru wyniku prawdziwego tej osoby, dokonywanego za pomocą testu

    Krytyka podejścia Gulliksena:

    -główny przedmiot krytyki aksjomatyki Gulliksena- założenie o obiektywnym i niezależnym od faktu dokonywania pomiaru istnieniu wyniku prawdziwego (czyli prawdziwej wartości cechy badanego)

    Thorndike zarzucał,że ponieważ wyniki prawdziwe nie są mierzalne bezpośrednio to przyjęcie wyniku prawdziwego jest mitem i nie może mieć znaczenia teoretycznego.

    Loevinger uważała, że pojęcie to nie ma znaczenia praktycznego.

    Przy obecnym stanie wiedzy statystycznej oba powyższe zarzuty nie dadzą się utrzymać, sam bowiem fakt niemożności poznania dokładnej wartości parametru nie może stanowić

    argumentu przeciwko wprowadzeniu tego parametru.

    -poważniejszy zarzut: Gulliksen przyjął postulaty, dla których weryfikacji nie istnieją empiryczne procedury.

    G. przyjął, na wzór nauk fizycznych, że wartość prawdziwa cechy u człowieka istnieje niezależnie od faktu dokonywania pomiaru. To z kolei pozwala na zdefiniowanie błędu pomiaru (różnica między wartością obserwowaną i prawdziwą). Gulliksen musiał przyjąć jednak postulat orzekający coś o wartości oczekiwanej błędu (za.łożenie tzw. nieobciążoności

    narzędzia pomiaru, czyli że średni błąd jest równy zeru).

    Jednak w teorii testów-w odróżnieniu od nauk fizycznych-ze względu na nieobserwowalność błędu nie mogą istnieć żadne procedury empiryczne prowadzące do weryfikacji postulatu nieobciążoności narzędzia pomiaru. To samo stosuje się i do pozostałych postulatów Gulliksena.

    2. Lord i Novick:

    - Mimo powyższych zarzutów, intuicyjność pojęcia wyniku prawdziwego i postulatów Gulliksena, oparta na silnych analogiach z pomiarem fizycznym, oraz praktyczna użyteczność wyników uzyskanych w wyniku zastosowań teorii testów, spowodowały, że Lord i Novick podjęli próbę nowej aksjomatyzacji teorii testów, przy której zachowałyby się jako prawdziwe wszystkie twierdzenia klasycznej teorii testów (Gulliksena) a jednocześnie przyjęte aksjomaty dawałyby się weryfikować empirycznie.

    -punkt wyjścia: pojęcie tzw. rozkładu skłonności.

    Wynik testu dla danej osoby interpretowany jest jako realizacja pewnej zmiennej losowej, której wartościami są wszystkie potencjalnie możliwe u danej osoby wyniki tego testu, a rozkład prawdopodobieństwa tych wyników jest charakterystyczny dla tej osoby; ten

    rozkład prawdopodobieństwa to rozkład skłonności.

    Rozkład skłonności jest nieobserwowalny, to pewna konstrukcja teoretyczna, za której przyjęciem przemawia empirycznie sprawdzony fakt zmienności wyników testowych tej samej osoby (argument znacznie mocniejszy niż analogie z pomiarem fizycznym).

    - rozkład skłonności ma skończoną wariancję- podstawowy postulat teorii Lorda i nowicka

    -wynik prawdziwy- wartość oczekiwana (nieobserwowalna) rozkładu skłonności, co pozwala z kolei na zdefiniowanie błędu pomiaru (różnica między wartością obserwowaną a

    prawdziwą)

    Błąd jest tu również nieobserwowalny ale postulat Gulliksena, orzekający, że wartość oczekiwana błędu jest równa zeru, w teorii Lorda i Nowicka staje się twierdzeniem, przy dowolnym schemacie losowania próbki (dlatego,że dla każdej ustalonej osoby jej średni błąd, jako średnia wartość odchyleń od średniej, jest oczywiście równa zeru na mocy definicji średniej, wobec tego przy jakimkolwiek schemacie losowania osób do próbki średni błąd losowo wybranej osoby jest również równy zeru)

    Lord i Novick przyjęli wobec tego taką definicję wyniku prawdziwego, przy której zdanie orzekające,że błąd ma wartość oczekiwaną zero jest zdaniem analitycznym, czyli

    zdaniem którego prawdziwość wynika dedukcyjnie z przyjętych definicji.

    Podobnie z drugim aksjomatem Gulliksena: dla każdej ustalonej osoby wartość oczekiwana iloczynu wyniku prawdziwego tej osoby przez błąd dla tej osoby jest równa zeru, gdyż wynik każdej ustalonej osoby jest pewną stałą liczbą (równą wartości oczekiwanej rozkładu skłonności tej osoby) a średni błąd tej osoby jest równy zeru, na mocy definicji średniej. Przy dowolnym schemacie losowania osób do próbki: wartość prawdziwa staje się zmienną losową, wartość oczekiwana iloczynu wyniku prawdziwego przez błąd jest równa zeru. Wartość oczekiwana błędu też równa się zeru, zatem wynik prawdziwy i błąd nie są skorelowane.

    Aksjomat trzeci: dodatkowe założenie o tzw. liniowej eksperymentalnej niezależności pomiarów.

    Podsumowanie:

    Gulliksen:

    -wynik prawdziwy jest „zabsolutyzowany” i zewnętrzny w stosunku do pomiaru,

    -podejście tzw. „platońskie”

    Lord i Novick:

    -wynik prawdziwy ma charakter relatywny w odniesieniu do danego narzędzia, będącego źródłem statystycznych próbek określonych zachowań się badanego, jest więc również definicją cechy, jako wartości parametru rozkładu częstości tych zachowań się

    -podejście tzw. statystyczne

    Ponieważ z postulatów Lorda i Nowicka wynikają postulaty teorii Gulliksena, wyniki klasycznej teorii testów (Gulliksen) zawarte są we współczesnej teorii testów (Lorda i Novicka)

    1. Aksjomaty Gulliksena i Lorda i Novicka, reakcjomatyzacja przyczyny i skutki.

    Aksjomaty Gulliksena

    -wartość oczekiwana błędu(średni błąd) równa się zeru

    -błąd pomiaru i wynik prawdziwy (traktowany jako zmienna losowa) są nieskorelowane

    -błędy w dwóch kolejnych pomiarach są nieskorelowane

    Zatem z tych aksjomatów wynika, że współczynnik korelacji między dwoma kolejnymi pomiarami jest równy rzetelności pomiaru, czyli równy jest stosunkowi wariancji wyniku prawdziwego do wariancji wyniku obserwowanego. W ten sposób przyjęcie aksjomatów pozwala na stworzenie metod szacowania wariancji błędu i w konsekwencji na budowę przedziałów ufności dla nieznanego wyniku prawdziwego danej osoby.

    Lord i Novick

    -rozkład skłonności-wynik prawdopodobieństw: wynik testu dla danej osoby interpretowany jest jako realizacja pewnej zmiennej losowej, której właściwościami są wszystkie potencjalnie możliwe u danej osoby wyniki tego testu, a rozkład prawdopodobieństwa jest charakterystyczny dla tej osoby. Rozkład skłonności jest nieobserwowalny,

    Reaksjomatyzacja

    -rozkład skłonności ma skończoną wariancję

    -wynik prawdziwy danej osoby jako wartość oczekiwana(nieobserwowalna)rozkładu skłonności

    -liniowa eksperymentalna niezależność pomiarów: wynik prawdziwy nie zależy od wyników obserwowanych w kolejnych pomiarach, inaczej mówiąc-rozkład skłonności ma skończoną wartość oczekiwaną.

    Więc: wynik prawdziwy w teorii Lorsa i Novicka ma charakter relatywny w odniesieniu do danego narzędzia, będącego źródłem statystycznych próbek określonych zachowań się badanego, jest więc również definicją cechy jako wartości parametru rozkładu częstości tych zachowań

    3. EFA.
    Eksploracyjna analiza czynnikowa - czynniki są początkowo nieznane i zostają wyodrębnione dzięki analizie wartości zmiennych losowych,.

    -technika redukcji liczby zmiennych

    -czynnik- systematyczne współzmienianie się wyników pomiaru („hipotetyczna przyczyna”)

    -rotacja ortogonalna-nieskorelowanie czynników

    1. Przedmiot pomiaru psychologiczne według teorii testów.

    Za Coombsem:

    Pomiar - postępowanie służące uczonemu do reprezentowania właściwości za pomocą liczb (by można było formułować prawo ilościowe, trzeba umieć opisać odpowiednie właściwości za pomocą liczb).

    Model numeryczny i także - tworzenie takiego modelu.

    Reprezentacja pewnego empirycznego systemu relacyjnego przez np. liczbowy, czyli numeryczny (formalny) system relacyjny.

    Teoria pomiaru - zajmuje się badaniem równych typów pomiaru i wyjaśnianiem ich znaczenia. Zadaniem tej teorii jest analiza logiczna procesu pomiaru (teoria ta zajmuje się uzasadnieniem różnych procedur pomiarowych oraz badaniem sensu uzyskiwanych we ten sposób wyników).

    Za Nowakowską:

    Przedmiotem pomiaru mogą być wyłącznie cechy modalne (in. empiryczny system relacyjny, zmienne ilościowe). Cechy modalne to takie własności obiektów, które mogą im przysługiwać w różnym stopniu. Wartość cech (psychologicznych człowieka) to parametr prawdopodobieństwa częstości występowania określonych zachowań się tego człowieka w danych sytuacjach (uzyskanie poprzez to statystycznych prognoz dotyczących zachowania się).

    Cechy mające charakter wyjaśniający - pojęcia teoretyczne, konstrukt - wyjaśnienie to ma postać pewnej hipotezy lub zbioru hipotez, zawierających interpretację przyczynową współwystępowania tych zachowań się, które są dyskrypcją danej cechy.

    Odznaczają się tym, że ich treść na ogół nie jest jasno i jednoznacznie sprecyzowana (jednej i tej samej nazwie cechy, przy tych samych hipotezach wyjaśniających może odpowiadać kilka różnych zbiorów zachowań się, z których każda stanowi dobrą dyskrypcje tej cechy) - co prowadzi do „nadwyżki znaczeń”.

    1. Standaryzacja i obiektywność testu.

    ( na podstawie „standardy dla testów” i Brzezińskiego)

    Pierwsza właściwość dobrego testu psychologicznego wiąże się z wystandaryzowaniem .

    Standaryzacja -w badaniu testem jest to dbanie o jednolite warunki badania i przeprowadzenie testu zgodnie z określonymi zasadami tak by badanie tym samym testem miało zawsze taki sam przebieg w wypadku wszystkich osób badanych( ma to zminimalizować wpływ czynników ubocznych)

    Zatem dobrze wystandaryzowany test posiada:

    1.Instrukcję którą podajemy w dosłownym brzmieniu, w sposób ściśle określony przez autora testu

    2.Klucz czyli określone zasady wg których ocenia się odpowiedzi na poszczególne pozycje testu i interpretuje się wyniki.

    Ze standaryzacja wiąże się drugie kryterium - obiektywność.

    Test jest obiektywny jeśli dwie różne osoby opracowujące jego wyniki dochodzą do tego samego rezultatu. (Dlatego też należy podawać jednoznacznie brzmiące reguły przeliczania wyników surowych na wyniki określonej skali standardowej, w której wyrażone są normy dla danego testu.)

    Test zaopatrzony w jasną instrukcję, odpowiednio sporządzony arkusz odpowiedzi i należycie

    opracowany klucz wg którego ocenia się odpowiedzi to warunki spełnienia kryterium standaryzacji i obiektywności

    2. Krzywa rozkładu normalnego w kontekście KTT.

    - „statystycznym modelem zbiorowości” jest rozkład normalny

    (funkcja Gaussa, czyli funkcja gęstości rozkładu normalnego jako model cech w populacji)

    założenie to jest charakterystyczne dla Klasycznej Teorii Testów (KTT)

    CZY ROZKŁAD CECHY MODALNEJ ZAWSZE JEST NORMALNY?

    „wyniki wielu badań empirycznych potwierdzają istnienie rozkładów dwu- i wielomodalnych” Aranowska, 2005


    2. Problem adaptacji kulturowej testu. (Zawadzki)

    Adaptacja kulturowa jest to tworzenie równoległej do oryginalnej kultury wersji narzędzia testowego, przystosowanie do nowych warunków kulturowych. Aby testy obcojęzyczne mogły być stosowane u nas, powinny być nie tylko tłumaczone, ale także zaadaptowane do warunków polskiej kultury. Podstawą dobrej adaptacji jest dobre przetłumaczenie oryginału, błędne byłoby bezmyślne tłumaczenie słowa po słowie.

    1. Sposoby estymacji rzetelności (wymienić jakie są, kazał mi więcej opowiedzieć o konsystencji).

    1. Metody oparte na porównaniu dwukrotnego badania tym samym testem ( badamy 2

    razy tą samą  osobę 1 testem), są dwa sposoby:

      1. Estymacja wiarygodności testu

    Badanie drugie następuje po zakończeniu pierwszego (brak odstępu czasowego). Ma więcej wad niż zalet. Wady: pamięć poprzedniego badania, wprawa, zmęczenie, zmiany w motywacji. Możemy posłużyć się to metodą gdy jesteśmy pewni, że czynnik pamięci nie miał wpływu na wyniki retestu. Za miarę wiarygodności Estu przyjmuje się współczynnik korelacji dwóch

    zbiorów wyników z dwukrotnego (test i retest) badania tej samej osoby.

      1. Estymacja stabilności bezwzględnej testu (stałości)

    Między badaniem pierwszym (test), a drugim (retest) jest odstęp czasowy np. 1 tydzień(długość przerwy jest nieokreślona). Im krótszy odcinek czasu pomiędzy badaniami tym wyższy współczynnik korelacji między wynikami. Przerwa pomiędzy badaniami może powodować szereg zakłóceń i wątpliwości np. (Nowakowska) możliwy wpływa czynników ubocznych: zapamiętywanie (badani po raz drugi mogą zapamiętać swoje odpowiedzi), uczenie się(badani mogą sprawdzić poprawne odpowiedzi np. w Internecie), różnice w warunkach

    badania, różnice w zachowaniu osoby przeprowadzającej test itd.

    1. Metody oparte na porównywaniu form alternatywnych (równoległych) testu:

      1. Estymacja konsystencji testu (wg wykładu w literaturze nie ma nic takiego)

    Skonstruowanie dwóch identycznych testów (równoległych, pararellnych). Osoby najpierw rozwiązują test 1 potem test 2. Badanie za pomocą tej metody zawiera zarówno estymację wiarygodności jak o stabilności bezwzględnej testu. Dodatkowe źródło wariancji to treść pozycji (która nie jest identyczna w dwóch testach)>

    Kryteria testów równoległych:

  • Estymacja stabilności względnej testu

  • Dwu lub wielokrotne badanie równoległymi formami testu z zachowaniem pewnego odstępu czasowego miedzy badaniami

    1. Metody oparte na porównaniu części (połówek) tego samego testu

      1. Estymacja konsystencji testu (wg wykładu w literaturze nie ma nic takiego)

    Test można podzielić  na:

    Badanie najpierw jedną  połówką, a zaraz potem drugą połówką. Podział testu na pół np. wg stopnia trudności itemów, lub wg numeracji parzyste- nieparzyste. Następnie obliczamy współczynnik korelacji między wynikami ogólnymi obu testów „półpołówkowych”. Na koniec szacujemy rzetelność testu za pomocą wzoru Spearmana - Browna lub Rulona lub Guttmana. Nie wolno przepoławiać testu 50%/50%!