PSYCHOMETRIA DO DRUKU

BRZEŹIŃSKI

3. Wyniki w skalach a zmienne ilościowe/skala pomiarowa narzędzia a zmienna ilościowa (mówiłam o tym co było na wykładach, zapytał się o narzędzie idealne - Brzeziński).

Dla badacza pożądany jest taki stan, kiedy funkcja operacyjna byłaby funkcją jed-DO-jednoznaczną, a więc przyporządkowywałaby poszczególnym, różnym przedmiotom z zakresu zmiennej A różne liczby (przekształcenie izomorficzne).

Narzędzie n, ze względu na które funkcja operacyjna jest funkcją jedno—jednoznaczną jest narzędziem idealnym wtedy i tylko wtedy, gdy zbiór N£ jest _; identyczny ze zbiorem A. W konsekwencji mamy: v(n) jest identyczne z v(A), zaś ffid=S_A.

O narzędziu n można powiedzieć, że jest bardziej dyskryminatywne od narzędzia tC ze względu na zmienną A wtedy i tylko wtedy, gdy dla większej liczby klas abstrakcji składających się na N/ niż na A^ spełniony jest warunek: N_tjest podzbiorem właściwym N',. Zatem narzędzie idealne cechuje maksymalna dyskryminatywność'. Oczywiście, dyskryminatywność narzędzi rzeczywistych jest mniejsza (niekiedy dużo mniejsza) od dyskryminatywności narzędzi idealnych.

Jeżeli narzędzie n jest takie, że v(n) jest identyczne z v(A), to poza tym, że cechuje je (1) maksymalna dyskryminatywność, jest ono jeszcze (2) narzędziem o idealnym zakresie pomiarowym. Z takiego narzędzia można utworzyć zbiór narzędzi o wszystkich możliwych podzakresach pomiarowych.

Można zatem powiedzieć, iż dla każdej zmiennej istnieje narzędzie o idealnym I zakresie pomiarowym, a więc o idealnej dyskryminatywności, oraz że można utworzyć zbiór narzędzi rzeczywistych o niepełnych zakresach pomiarowych odpowiadających różnym podzakresom zmiennej A.

Rozważmy następujący przykład. Bardzo rozpowszechnionym wśród

psychologów i często przez nich stosowanym w różnych badaniach narzędziem do pomiaru I poziomu inteligencji (między innymi ilorazu inteligencji — II) jest Skala Inteligencji Wechslera WA1S-R. Jest ona typowym przykładem narzędzia o niepełnym zakresie I pomiarowym. Różnicuje jedynie osoby z określonego przedziału wartości II = 45 — I 150 (Skala Pełna WAIS-R; por. Brzeziński, Hornowska, 1993). Nie można za pomocą tego narzędzia zmierzyć poziomu inteligencji osób, których II jest mniejszy od I minimum lub większy od maksimum skali narzędzia. Jest ono, zatem zupełnie nie-I przydatne, jeżeli chodzi o badanie osób upośledzonych umysłowo w stopniu znacznym I i głębokim gdyż jego zakres nie obejmuje dolnej części zakresu badanej zmiennej. I Do tego celu należałoby użyć innego narzędzia, takiego, którego zakres pomiarowy I pokrywałby się z rozważanym podzakresem zmiennej inteligencji. Spełnia to I kryterium np. Skala Inteligencji Stanford-Bineta (S-B FE)

3. Analiza intraprofilowa - wymagał konkretu z Brzezińskiego

Stosuje się to, gdy dany test składa się z kilku „oddzielnych” testów, jak na przykład WAIS-R, z własną rzetelnością i błędem pomiaru. Na tą analizę składa się kilka następujących technik:

A. Wykreślenie profilu otrzymanego oraz profili górnych i dolnych granic przedziałów ufności.

Pierwszym krokiem jest, oprócz wykreślenia „profilu głównego”, utworzenie również „profilu dolnego” (P-d) i „górnego” (P-g). Robimy to łącząc ze sobą dolne granice przedziałów ufności wyniku prawdziwego w każdym „podteście” (profil dolny), i odpowiednio łączą ze sobą górne granice tych przedziałów. (profil górny).

B. Analiza dyspersji profilu.

Dodanie do wykresów profilu linii o wartości różnicy między najwyższym a najniższym wynikiem w różnych skalach tego „podtestu”. Brzeziński podaje przykład WISC-R. Jego 3 podtesty to Skala Pełna, Skala Słowna, Skala Bezsłowna. Każdy z nich ma swoje podskale. Pierwsza z nich ma najnizszy wynik 7, najwyższy 15; kolejne 7 i 12, 9 i 15. Zatem wskaźnik „G-D” (góra-dół) to kolejno 8, 5 i 6. Umieszczamy je na wykresach podtestu do którego należą.

C. Analiza odchyleń poszczególnych testów (Ti) od średniego profilu (P) - wskaźnik Ti-P.

Ti to jakiś test jakiejś skali P. Wskaźnik Ti-P liczymy po prostu odejmując od danego testu średnią wyników danej skali.

Wynik tego odejmowania jest istotny statystycznie gdy jest większy lub równy Błędowi Standartowemu Różnic między T a P pomnożonym przez „z” odpowiednie do przyjętego poziomu istotności.

Na przykład dla poziomu istotności α=0,05:

|Ti-P| ≥ z_0,05/2* SEMD_(Ti-P)

Takie działanie możemy wykonywać oddzielnie dla przypadku gdy wliczamy test Ti do P, jak i wtedy gdy go nie wliczamy. Wtedy go po prostu nie wliczamy.

D. Ocena istotności różnic wyników dwóch testów: Ti i Tj – wskaźnik : d(Ti-Tj)

Polega na porównaniu każdego testu z każdym.

Wyliczamy błąd standardowy różnic (SEMD) pomiędzy dwoma testami, po czym przemnażamy go przez z_α/2wyznaczając dla niej przedział ufności. Jeśli SEMD będzie mniejsze niż wynik tego działania, różnica między tymi dwoma testami jest nieistotna.

2. Zastosowanie analizy wariancji do badania rzetelności i trafności testu (czyt. Brzezinski).

Analiza czynnikowa pozwala sprawdzić czy otrzymane dane empiryczne są zgodne z zakładaną strukturą teoretyczną testu. Czynniki otrzymane w wyniku zastosowania analizy czynnikowej powinny odpowiadać teoretycznie zakładanym wymiarom.

Celem analizy czynnikowej jest zredukowanie dużej liczby zmiennych losowych do mniejszego zbioru, co uzyskujemy przez założenie, że pewne grupy zmiennych losowych reprezentują zmienność tych samych czynników, czyli zmienne losowe w danej grupie są od siebie w pewnym stopniu zależne.

W analizie czynnikowej istnieją dwa podejścia:

eksploracyjna analiza czynnikowa czynniki są początkowo nieznane i zostają wyodrębnione dzięki analizie wartości zmiennych losowych, to podejście jest bardziej rozpowszechnione
konfirmacyjna analiza czynnikowa zakładamy istnienie pewnego określonego zbioru czynników i dzięki analizie wartości zmiennych losowych badamy zasadność naszego przypuszczenia i estymujemy parametry naszego modelu

COOMBS

2. Zagadnienie znaczenia. Kierunki analizy. (Coombs, wykład 2)

Co znaczą liczby występujące w pomiarze? Co znaczą zdania zawierające wartości liczbowe?

Znaczenie wyrażenia – pewna abstrakcyjna własność przysługująca temu wyrażeniu i wyrażeniom z nim równoznacznym, i tylko tym wyrażeniom; in. zbiór wyrażeń równoznacznych…

Kierunki analizy:

przewidywanie: wskaźniki liczbowe są wykorzystywane by przewidywać wartości pewnej zmiennej zależnej za pomocą wartości zmiennych niezależnych
przyporządkowanie bezpośrednie: miary są przyporządkowane wartościom przez osoby badane zgodnie z instrukcją. Znaczenia zdań zawierające wartości liczbowe są efektem subiektywnych doświadczeń i skojarzeń
opis: w pewnych sytuacjach liczby przyporządkowane obiektom, traktowane są jako opisowe wskaźniki statystyczne dotyczące danej próbki lub populacji. Statystycznym modelem danej próbki jest rozkład normalny. Założenie jest

charakterystyczna dla Klasycznej Teorii Testów.

Źródło: wykład 2. Podobno jest do tego rozdział w Coobmsie, ale niestety go nie posiadam ;)

2. Teoria pomiaru - kwestia jednoznaczności . (Coombs, wykład 2).

Dopuszczalne przekształcenia skali narzędzia pomiarowego są to przekształcenia zachowujące reprezentowanie systemu empirycznego przez formalny.
- zbiór dopuszczalnych przekształceń wyznacza typ skali
- przekształcenia dopuszczalne nie zmieniają wartości logicznej zdań zawierających wartości liczbowe.
(Wykład 2)

Jeśli nastąpiło już rozstrzygnięcie problemu istnienia i zbudowania odpowiedniej skali dążymy do zbadania statusu otrzymanej skali czyli chcemy określić stopień swobody w konstruowaniu skali oraz scharakteryzować związki pomiędzy różnymi skalami opartymi na tym samym twierdzeniu o istnieniu. Nie każde przekształcenie zachowujące porządek jest w tym modelu dopuszczalne . Przekształcenie dopuszczalne musi zachować nie tylko porządek wartości lecz także porządek różnic pomiędzy wartościami na sakli. Jedynym przekształceniem które zachowuje uporządkowanie przedziałów jest dodatnia funkcja liniowa której wartości oblicza się mnożąc przez ustaloną liczbę dodatnią każdy wynik na skali i dodając drugą liczbę. Skale tego typu nazywane są skalami przedziałowymi i są one określone jednoznacznie z dokładnością do dodatniego przekształcenia liniowego .

Przekształcenie zbioru wartości na skali nazywane jest dopuszczalnym jeśli system liczbowy otrzymany przez zastąpienie B przekształconym zbiorem wartości również reprezentuje system empiryczny α.

Skale charakteryzuje się za pomocą dopuszczanych ich przekształceń. Zbiór przekształceń dopuszczanych dla zwykłej skali użyteczności opartej na porządkowaniu możliwości jest zbiorem wszystkich przekształceń zachowujących uporządkowanie. Związany z tym zbiorem typ skali nazywany jest porządkowym ponieważ w pomiarze są wykorzystywane tylko porządkowe własności liczb poza tym konkretne wartości liczbowe mogą być obierane całkiem dowolnie. Natomiast w pomiarze użyteczności opartym na porządkowaniu przedziałów lub w pomiarze temperatury zbiór przekształceń dopuszczanych zostaje ograniczony do dodatnich przekształceń liniowych postaci: T(x)=ax+b, gdzie a>0. Skale tego typu nazywane są przedziałowymi ponieważ sensowne jest porównanie przedziałów pomiędzy wartościami na skali. Pewne modele np. takie jakie wykorzystuje się do pomiaru masy i długości wymagają jeszcze silniejszych ograniczeń typu skali. Jeśli np. jedynymi przekształceniami dopuszczalnymi są podobieństwa tzw. Przekształcenia postaci T(x)= ax gdzie a> 0 - to takie skale nazywane są ilorazowymi a wartości na skali określane sa jednoznacznie po wybraniu jednostki pomiaru(a). Dwa mniej ważne typy skal to: skale nominalne i skale absolutne. Dla skali nominalnej dopuszczalne jest dowolne przekształcenie wzajemnie jednoznaczne. Numery są tu wykorzystywane jedynie jako etykietki i zachować należy tylko tę ich właściwość że różnią się między sobą. W skali absolutnej nie jest dopuszczalne żadne przekształcenie (liczenie jako pomiar może być przykładem skali absolutnej).
Typ skali jest zdefiniowany za pomocą zbioru przekształceń dopuszczalnych to istnieje nieskończenie wiele typów skal odpowiadających nieskończenie wielu zbiorom przekształceń dopuszczalnych. Określenie typu skali czyli scharakteryzowanie klasy przekształceń dopuszczalnych jest w wielu przypadkach trudnym zagadnieniem matematycznym.

( „Teoria pomiaru w psychologii” Coombs

HORNOWSKA

Jak sprawdzić trafność treściową testu?

Trafność treściowa, zwana też wewnętrzną- określana jest poprzez stwierdzenie, czy test jako całość ujawnia takie zachowanie osoby badanej, które będzie zgodne z ta cechą, którą objęto badaniami. (np. jeżeli test ma badać przydatność zawodową, to wszystkie zawarte w nim zadania powinny być zgodne z wymaganiami psychofizycznymi stawianymi przez pracę w tym zawodzie)
jest szczególnie ważna dla testów uzdolnień, umiejętności, osiągnięć szkolnych i wiadomości,dla kwestionariuszy osobowości, skal postaw i opinii oraz arkuszy obserwacyjnych.
Aby potwierdzić trafność treściową zbioru wyników otrzymanych w teście należy wykazać,że zachowania demonstrowane w badaniu testowym są reprezentatywną próbą zachowań ujawniających się w interesującej badacza sferze. Określenie tej sfery, określenie realizowanych przez badacza celów oraz metody dobierania próby jest szczególnie ważne w wypadku trafności treściowej.
Ustalenie trafności testowej wymaga, zdefiniowania uniwersum pozycji i wykazania, że pozycje włączone do testu stanowią faktycznie reprezentatywną dla tego uniwersum ich próbę. W celu określenia stopnia reprezentatywności próby pozycji psycholog powinien odwołać się do ekspertów. Z kolei do oceny stopnia zgodności ich sądów należy wykorzystać np. współczynnik zgodności sędziów kompetentnych W-Kendalla.

(Współczynnik zgodności sędziów: Sędziami kompetentnymi są specjaliści danej dziedziny, osoby kompetentne w zakresie zagadnienia nas interesującego. Należy jednak się upewnić, że tak jest. Wskaźnik W. Kentalla zawierający się w granicach od 0 do 1 określa stopień zgodności. 0, to brak zgodności, 1 - oznacza zgodność. Stosowanie tej metody pomiaru zgodności jest uzasadnione, gdy sędziowie kompetentni umieją posługiwać się w sposób rzetelny kryterium oceny, jakie zostały im zaproponowano oraz gdy mamy całkowita pewność, że oceniają w sposób niezależny od siebie. Wysokie W, to zgodność, która nie musi oznaczać, iż ocena określonych obiektów jest poprawna, sędziowie mogą bowiem zgodnie oceniać, posługując się fałszywym kryterium. Sędziów może być minimum 3 i maximum 20

Test psychologiczny klasyfikacyjny i selekcyjny/zastosowanie selekcji i klasyfikacji. (Magnusson)

1. Kombinacje liniowe wyników testowych: selekcja wielokrotna. (Magnusson)

3. Długość testu (i coś o zmienianiu się wariancji w populacji) a rzetelność testu/ Długość testu i wariancja cechy w próbie a rzetelność (w tym pytaniu odwołał mnie do końcówki rozdziału 5 z Magnussona).

3. Zagadnienie zgadywania. (Magnusson)

3. Rzetelność przewidywalna a trafność prognozy (podobno w magnussonie to jest)..

Błąd standardowy przewidywania.

Za pomocą współczynnika korelacji można dokonać przewidywania każdej pary zmiennych na podstawie drugiej zmiennej.Dokładność tego przewidywania jets zależna od związku Rxy. Jeżeli R =1.0 , przewidywanie będzie całkowicie pewne : wszytskie osoby uzyskają takie wyniki pomiaru y, jakie otrzymalibyśmy, gdybyśmy rzeczywiście przeprowadzili pomiary tej samiej zmiennej. Jeżeli R=0, przwidywanie będzie zgodne tylko przypadkowo : w stosunku do wszytskich osób będziemy mogli podać przewidywaną wartość, ale bardzo mało oso uzyska taki sam wynik przy rzeczywistym pomiarze zmiennej y. Niepewnośc przewidywania wzrasta wraz z osłabieniem się powiązania między zmiennymi.

Błąd standardowy przewidywania zależy od wielkości liczbowej standardowego odchylenia rozkładu, w stosunku do którego dokonujemy przewidywania oraz zależy od wielkości korelacji między tym rozkładem a rozkładem wyników , na podstawie których dokonujemy przewidywania. Jeżeli koreacja wynosi 1.0 wówczas bład standardowy równy jest 0. Występuje wtedy również całkowita zgodność między przewidywanymi a otrzymanymi wynikami y.

Założenie , że wariancja rozkładu wokół przewdywanych wyników y jest dla wszystkicvh wyników x jednakowa – zachodzi wtedy homoscedastyczność.

Współczynnik alienacji

Współczynnik trafności musi osiągnąć znaczną wielkość, aby dany test mógł być wykorzystywany do diagnozy lub prognozy. Wielkośc współczynnika trafności nie może być oceniana tylko ze względu na jego wartość liczbową, bo wartość ta zmienia się w zależności od sytauacji, w odniesieniu do których dany wspólczynnik miałby być stosowany. Niekiedy niewielkie liczbowo współczynniki trafności mogą mieć dużą wartość.

Współczynnik trafności a zmienność wyników przewidywanych

wynik określonej osoby j uzyskany przez nią w zmiennej y ( Yj), możemy podzielić na na dwie składowe : wynik przewidywany ( Y'j) oraz błąd pomiaru ( Y ej). Błąd jest jednym ze składników rozkładu wyników otrzymanych y wokół przewidywanej wartości y. Mamy więc do czynienia z trzema rozkładami wyników : z wynikami otzrymanymi, z wynikami przewiduywanymi i z błędami pomiaru.. Ponieważ wielkość błędu – przy założeniu , że zachodzi homoscedastyczność – nie jest zależna od wielkości wyniku przewidywanego, więc wariancję wyników otrzymanych możemy obliczyć jako sumę wariancji wyników przewidywanych i wariancji błędu wyników przewidywanych.

Nieformalne ujęcie współczesnej teorii testów

Przedmiot pomiaru psychologii
1. modalne cechy obiektów
2. wartość cechy określa prawdopodobieństwo zachowania się człowieka w określonych sytuacjach
3. cecha określa częstość zachowania
4. cecha oznacza obiekt , który nawet jeżeli nie istnieje to ludzie zgodnie z takim konstruktem się zachowują
5. poznanie takiej modalnej cechy umożliwia prognozowanie prawdopodobieństwa zachowania się człowieka w określonych sytuacjach
6. cecha wiąże swoją nazwą zachowania mające tendencje do współzmienności, współwystępowania, korelowania
7. część cech ma charakter wyjaśniający , na przykład teorie wyjaśniające wartość cechy na continuum introwersja – ekstrawersja
8. efektem „ nadwyżki znaczeń” jaką posiadają cechy jako pojęcia teoretyczne jest możliwość generowania wielu prawdziwych definicji tej samej cechy , ponieważ nie ma sprecyzowanych zbiorów zachowań należących do zakresu pojęciowego danej cechy, on ma charakter statystyczny, dynamiczny,
  - z tego wynika również powstawanie różnych narzędzi pomiaru , które zależą od definicji, od zbioru zachowań, które potraktujemy jako wyznaczniki pola statystycznego prawdopodobieństwa współwystępowania określonych zachowań syntetyzowanych przez nazwę cechy ~:)

Test jako narzędzie pomiaru

statystyczna definicja cechy :wartość cechy szuszczenia u Spendla zależy od tego jak często Spendel szuści
gdzie opisem (pojęcia, cechy) Szuścić są zachowania ze zbioru : szeleścić, pochrząkiwać, bełkotać, utrudniać komunikację, nie wyjaśniać motywów swojego zachowania itd..
czyli poznając cechę Szuścić u Spendla wiemy jak często Spendel sobie Szuści, tym samym przejawia zachowania ze zbioru zachowań opisujących cechę szuścić – czyli te zachowania są deskryptorami cechy Szuścić
ale komu się chce patrzeć na Spendla jak przejawia zachowania ze zbioru Szuszczeń dla oszacowania wartości jego Szuszczacji
jako, że nikomu na Spendla patrzeć się nie chce , wymyślono testy psychologiczne ,
testy psychologiczne , czyli narzędzie służące do pobierania próbki zachowań dla szacowania prawdopodobieństwa występowania zachowań z określonego zbioru zachowań opisującego daną cechę
czyli Spendel samotnie sobie test wypełnia , i dowiaduje się że cecha Szuszczenia wynosi u niego 0%(nigdy nie szuści) co oznacza że wystąpił tzw.: paradoks Szuszczaka zgodnie z którym osoby o ekstremalnie wysokiej wartości tej cechy , nie są w stanie prawidłowo komunikować się z żadnym istniejącym w rzeczywistości obiektem ,nawet testem nie mówiąc o studentach

Podstawy pojęciowe klasycznej teorii testów, wynik prawdziwy

Gulliksen : założenie jego , że każdy obiekt natury osobowej ma pewne prawdziwe a nieznane wartości cech go opisujących , które nie zależą ani od pomiaru ani od narzędzia pomiarowego
- czyli nie wiadomo co zrobimy prawdy i tak nie poznamy a na pocieszenie , że fizyk też przeżywa takie dylematy
- zarówno prawda jak i to jak bardzo zbłądziliśmy oddalając się od niej wymykają się naszemu poznaniu
jak to działa:
- przyjmujemy ,że mamy generator wartości losowych działający zgodnie z określonym rozkładem > czyli źle działający generator wartości losowych
- przyjmujemy że wynik uzyskany za pomocą testu estymuje prawdziwą wartość cechy (czyli to jest naciśnięcie guziczka LOSOWANIE w tym generatorze)
- teraz mimo tego że wiemy że nie wiemy przyjmujemy ,że wiemy :)

Aksjomatyka Guliksena
1. Guliksen: ” aby umocnić się w przekonaniu ,że wiemy przyjmujemy że”
  - wartość oczekiwana błędu (średni błąd równa się zero)
  - błąd pomiaru i wynik prawdziwy (traktowany jako zmienna losowa) są nieskorelowane
  - błędy w dwóch kolejnych pomiarach są nieskorelowane

Estymacja wariancji błędu : mimo tego że wiemy ,że się nie dowiemy jak bardzo nie wiemy, to próbujemy się tego dowiedzieć. Ta wiedza ma za zadanie umocnić w nas poczucie ,ze jednak coś wiemy.

efektem tego rozumowania jest stwierdzenie:

współczynnik korelacji między dwoma kolejnymi pomiarami jest równy rzetelności pomiaru , czyli równy jest stosunkowi wariancji wyniku prawdziwego do wariancji obserwowanego

w tym momencie można zacząć zadawać sobie pytanie jak bardzo UFAMY (przedziały ufności) w to czego się dowiedzieliśmy

Błogosławieni ci , którzy nie widzieli a uwierzyli (czy jakoś tak)

Krytyka podejścia Guliksena
1. u Guliksena opiera się to na silnych analogiach z pomiarem fizycznym jednak ze względu na nie obserwowalność błędu , nie da się zweryfikować postulatu nieobciążoności narzędzia pomiaru
  - oznacza to że teoria Guliksena jest prawdziwa o tyle o ile przymykamy oko na to co Guliksen dosztukował rzeczywistości w swoich aksjomatach

Podstawy pojęciowe współczesnej teorii testów.

ziarenko wiary zasiane przez Guliksena wydało swój owoc, nowi prorocy LORD i NOVICK zabrali się za tworzenie nowych aksjomatów (prawd wiary, dogmatów), takich które nie naruszając autorytetu starego proroka , można by zweryfikować empirycznie (tutaj chyba chodzi o termin CUD , ale nie jestem pewien)

kluczem do tego jest konstrukt rozkładu skłonności który jest...
- rozkładem wszystkich potencjalnie możliwych wyników testu jakie możemy uzyskać od danej osoby,
- charakterystyczny dla niej
- nieobserwowalny :)
- przemawia za tym potwierdzony empirycznie fakt zmienności wyników tego samego testu przeprowadzanego x razy u tej samej osoby

Definicja wyniku prawdziwego i jej konsekwencje wg Lorda Novicka.

jeżeli mówisz nieprawdę a chcesz mówić prawdę nie zmieniając tego co mówisz , zdefiniuj prawdę w taki sposób abyś mówił prawdę

Na mocy słów Lorda Novicka rozkład skłonności do dobra i zła każdej osoby ma skończoną wariancję ,

często wynika to z samej konstrukcji testu np.: w ramach testu opartego na skłonności do dobra i do zła możemy mieć dwie wartości np.: anioł wcielony i skurwiel ostateczny (przykład bez uwzględnienia specyfiki pamięci krótkotrwałej)
czyli sprowadza się to do tego, że sami decydujemy o wariancji konstruując test
etap w którym przyjęte że prawda potwierdza inne przyjęte że prawda , a gdyby sie okazało ,że to co przyjęte to brednia wówczas można powiedzieć ,że brednia napędza brednię ale jak powiada Lord Novick „to kwestia wiary , nie rozumu”
czyli jeżeli ktoś ma skłonność do zupy ogórkowej to w rzeczywistości testu skłonności do dobra i zła przestaje istnieć, ewentualnie skłonność do zupy ogórkowej jest wyjaśniana w kategoriach dobra i zła

Lord Novick definiuje
- wynik prawdziwy danej osoby jako wartość oczekiwaną rozkładu skłonności
- błąd pomiaru : różnica między wartością obserwowaną i prawdziwą
- zarówno jedna jak i druga wielkość jest nieobserwowalna

Uzasadnienie średniego błędu równego zeru co u Guliksena funkcjonuje jako aksjomat jest odpowiednio bardziej wiarygodne i na mocy przyjętych definicji zyskuje rangę twierdzenia
- ponieważ jeżeli średnia wartość błędu u jednej osoby badanej za pomocą danego testu jest równa zero (średnia wartość odchyleń od średniej) , inaczej: suma odchyleń od średniej zawsze jest równa zero
- to na Marsie istniało życie
- średni błąd losowo wybranej osoby jest również równy zero
- czyli średni błąd jest równy zero wtedy gdy nasza wartość oczekiwana staje się zmienną losową np. : losowy dobór do próbki

w podobny sposób zostaje wyprowadzony 2 i 3 aksjomat Guliksena
- okazują się być tutaj jeszcze bardziej wiarygodne niż we wcześniejszych podaniach

Treść i zadania teorii testów

opis pojęć:
- I: rzetelność, trafność, homogeniczność
- II: struktura czynnikowa, struktura latentna

pierwsze trzy parametry określają przydatność do celów praktycznych
- rzetelność : dokładność pomiaru
- trafność : prognoza zachowań
- homogeniczność : w jakim stopniu poszczególne zadania testu mierzą cechę , którą mierzy cały test

druga grupa pojęć służy do obsługi zależności , które się pojawiają przy stosowaniu jednoczesnego pomiaru wieloma narzędziami

Rzetelność

to Stosunek wariancji wyniku prawdziwego do wyniku obserwowanego
ma sens jedynie w relacji do badanej populacji
jest równa wartości współczynnika korelacji między wynikami w dwóch kolejnych badaniach
jest równa kwadratowi współczynnika korelacji między wynikiem prawdziwym a wynikiem obserwowanym
pomiar rzetelny to taki pomiar, I: którego wyniki wysoko korelują między sobą przy powtórzeniu badania i jednocześnie taki , II: którego wynik obserwowany wysoko koreluje z wynikiem prawdziwym
założenie jest takie dla I twierdzenia ,że rozkłady skłonności mają takie same wartości i wariancje a błędy są niezależne, twierdzenie to zostało odrzucone na rzecz poniższego ze względu na uczenie się itd... czyli ,że zakłada to co w rzeczywistości jest nieosiągalne
założenie liniowej eksperymentalnej niezależności: dwa pomiary są liniowo eksperymentalnie niezależne , jeżeli dla każdej osoby wartość oczekiwana wyniku testowego przy jednym pomiarze nie zależy od wyniku zaobserwowanego przy drugim pomiarze
twierdzenia te są cytat z książki „ oczywiście empirycznie niesprawdzalne” przy argumentacji „ że założenie o liniowej eksperymentalnej niezależności pomiarów , zostało przyjęte w teorii testów ze względu na fakt , że jest najsłabszym z niesprawdzalnych założeń, przy , którym daje się jeszcze otrzymać podstawowe wyniki teorii testów. Im słabsze niesprawdzalne założenia teorii tym większe szanse jej adekwatności” co poniekąd jest prawdą ponieważ im twoje kłamstwo jest bliższe rzeczywistości tym większa szansa ,że nikt się nie zorientuje że kłamałeś, i niewykluczone ,że przypadkiem powiedziałeś prawdę , - i cholera jakie ma to znaczenie jeżeli nikt i tak tego nie jest w stanie sprawdzić? grrr....
gdy dla każdej osoby wartości oczekiwane są równe a błędy są nieskorelowane i mają jednakowe wariancje to takie dwa pomiary nazywamy równoległymi: mierzą to samo i tak samo dokładnie

Estymacja rzetelności
1. Dla szacowania rzetelności testu istnieje kilka metod czyli różnych estymatorów dla rzetelności jako parametru
2. jeżeli chcemy to zrobić w ramach jednego badania a nie męczyć siebie i próbkę dwoma (żeby móc się posłużyć korelacją) , to rozbijamy test w sposób przypadkowy na dwa podtesty , te dwa podtesty muszą być w miarę równoległe i szacujemy rzetelności testu przez wariancję podtestów i wariancję całego testu

NOWAKOWSKA

1.Test jako narzędzie pomiaru i narzędzie diagnozowania. (Nowakowska)
-(Hornowska)

-(Nowakowska M.)

Rozstrzygnięcie problemu metodologii pomiaru cech oraz problemu reguł wnioskowania o prawdziwych wartościach cech na podstawie uzyskanych obserwacji narzucone jest przez przyjetą statystyczną definicję cechy,zgodnie z którą wartość cechy danego osobnika utożsamiana jest z parametrem rozkładu prawdopodobieństwa częstości występowania elementów zbioru zachowań się będących deskrypcją tej cechy u danego osobnika.Poznanie wiec wartości cechy u badanego(tzw. jego prawdziwej wartości cechy)jest równoznaczne z poznaniem prawdziwej wartości tego parametru,co osiąga się(w pewnym przybliżeniu,a więc z pewnym błędem)przez statystyczne szacowanie tej wartości za pomocą estymatorów.Aby taka estymacja była możliwa,konieczne jest pobieranie próbek określonych zachowań się danego człowieka;test psychologiczny jest,formalnie rzecz biorąc,z jednej strony narzędziem pozwalającym na uzyskanie takiej próbki zachowań się(stanowiących przyjętą deskrypcje danej cechy), z drugiej zaś-dostarcza reguły obliczania wartości estymatora tej cechy dla danych zaobserwowanych zachowań się;wartością ta jest po prostu wynik zaobserwowany w teście

3. Test homogeniczny i jego rodzaje. (Nowakowska)

Odzwierciedla ona własność testu polegająca na tym, że każdy z rozważanych podtestów mierzy tą samą cechę. W praktyce homogeniczność usiłuje się uzyskać za pomocą doboru pytań o odpowiedniej treści. Klasyczna teoria testów dostarcza formalnego kryterium pozwalającego na ocenę czy dany test jest homogeniczny względem określonego rozbicia go na składowe. Punktem wyjścia tego kryterium jest formalne wyrażenia tego, co to znaczy, że dwa testy mierzą to samo. Pomocne są: definicja wyniku prawdziwego, założenie liniowej eksperymentalnej niezależności.
rodzaje (?!)

3. Założenia teoretycznej (statystycznej) definicji rzetelności testu (chciał definicje z Nowakowskiej, ponoć miała "tylko" dwa zdania, ale "jakże trafne"..., nie interesowały go inne).

Założenie implikujące nieskorelowanie błędów – ZAŁOŻENIE TZW. LINIOWEJ EKSPERYMENTALNEJ NIEZALEŻNOŚCI POMIARÓW: dwa pomiary są liniowo eksperymentalnie niezależne, jeżeli dla każdej osoby wartość oczekiwana wyniku testowego przy jednym pomiarze nie zależy od wyniku zaobserwowanego w drugim pomiarze. Założenie liniowej eksperymentalnej niezależności odgrywa w teorii testów bardzo ważną rolę: zastępuje ono centralne dla wnioskowań statystycznych założenie niezależności obserwacji, będąc specyficznym dla teorii testów założeniem o powtarzanych pomiarach tej samej osoby.

2. Prognoza rzeczywista a przewidywana. Kurczliwość trafności testu i sposoby jej przewidywania(dopytał o sposoby przeciwdziałania temu, to jest w Nowakowskiej pod koniec).

Optymalna prognoza i wybór testów z puli opierają się na znajomości wartości oczekiwanych, wariancji i kowariancji między testami oraz miedzy testami a kryterium. W praktycznych sytuacjach nie znamy tych wartości i musimy je przewidywać na podstawie próbki, na takich wartościach opiera się wybór testów i wyznaczenie współczynników regresji, więc rzeczywista wartość prognozy różni się od szacowanej, przy czym szacowana jest zawsze zawyżona. Empirycznie widzimy to w fakcie, że zastosowanie uzyskanej metody prognozy do nowej próbki wykazuje, że jej trafność jest niższa od przewidywanej => KURCZLIWOŚĆ.

Przewidujemy sobie, więc to co robimy polega w głównej mierze na przypadku. A więc: wybór testów (wybór tych, gdzie korelacje są najwyższe), obliczanie współczynników regresji.

Owemu smutnemu i dołującemu faktowi zapobiegamy poprzez stosowanie następującej procedury:

Etap – wybór baterii testów oparty na wyniku uzyskanym w próbce obsiewowej
Etap – w oparciu o próbkę kalibracyjną wyznacza się współczynniki regresji dla wybranej baterii
Etap – trafność tak uzyskanej prognozy sprawdza się na próbce walidacyjnej.