BRZEŹIŃSKI
3. Wyniki w skalach a zmienne ilościowe/skala pomiarowa narzędzia a zmienna ilościowa (mówiłam o tym co było na wykładach, zapytał się o narzędzie idealne - Brzeziński).
Dla badacza pożądany jest taki stan, kiedy funkcja operacyjna byłaby funkcją jed-DO-jednoznaczną, a więc przyporządkowywałaby poszczególnym, różnym przedmiotom z zakresu zmiennej A różne liczby (przekształcenie izomorficzne).
Narzędzie n, ze względu na które funkcja operacyjna jest funkcją jedno—jednoznaczną jest narzędziem idealnym wtedy i tylko wtedy, gdy zbiór N£ jest ; identyczny ze zbiorem A. W konsekwencji mamy: v(n) jest identyczne z v(A), zaś ffid=SA.
O narzędziu n można powiedzieć, że jest bardziej dyskryminatywne od narzędzia tC ze względu na zmienną A wtedy i tylko wtedy, gdy dla większej liczby klas abstrakcji składających się na N/ niż na A^ spełniony jest warunek: Nt jest podzbiorem właściwym N',. Zatem narzędzie idealne cechuje maksymalna dyskryminatywność'. Oczywiście, dyskryminatywność narzędzi rzeczywistych jest mniejsza (niekiedy dużo mniejsza) od dyskryminatywności narzędzi idealnych.
Jeżeli narzędzie n jest takie, że v(n) jest identyczne z v(A), to poza tym, że cechuje je (1) maksymalna dyskryminatywność, jest ono jeszcze (2) narzędziem o idealnym zakresie pomiarowym. Z takiego narzędzia można utworzyć zbiór narzędzi o wszystkich możliwych podzakresach pomiarowych.
Można zatem powiedzieć, iż dla każdej zmiennej istnieje narzędzie o idealnym I zakresie pomiarowym, a więc o idealnej dyskryminatywności, oraz że można utworzyć zbiór narzędzi rzeczywistych o niepełnych zakresach pomiarowych odpowiadających różnym podzakresom zmiennej A.
Rozważmy następujący przykład. Bardzo rozpowszechnionym wśród
psychologów i często przez nich stosowanym w różnych badaniach narzędziem do pomiaru I poziomu inteligencji (między innymi ilorazu inteligencji — II) jest Skala Inteligencji Wechslera WA1S-R. Jest ona typowym przykładem narzędzia o niepełnym zakresie I pomiarowym. Różnicuje jedynie osoby z określonego przedziału wartości II = 45 — I 150 (Skala Pełna WAIS-R; por. Brzeziński, Hornowska, 1993). Nie można za pomocą tego narzędzia zmierzyć poziomu inteligencji osób, których II jest mniejszy od I minimum lub większy od maksimum skali narzędzia. Jest ono, zatem zupełnie nie-I przydatne, jeżeli chodzi o badanie osób upośledzonych umysłowo w stopniu znacznym I i głębokim gdyż jego zakres nie obejmuje dolnej części zakresu badanej zmiennej. I Do tego celu należałoby użyć innego narzędzia, takiego, którego zakres pomiarowy I pokrywałby się z rozważanym podzakresem zmiennej inteligencji. Spełnia to I kryterium np. Skala Inteligencji Stanford-Bineta (S-B FE)
3.
Analiza intraprofilowa - wymagał konkretu z Brzezińskiego
Stosuje się to, gdy dany test składa się z kilku „oddzielnych” testów, jak na przykład WAIS-R, z własną rzetelnością i błędem pomiaru. Na tą analizę składa się kilka następujących technik:
A. Wykreślenie profilu otrzymanego oraz profili górnych i dolnych granic przedziałów ufności.
Pierwszym krokiem jest, oprócz wykreślenia „profilu głównego”, utworzenie również „profilu dolnego” (P-d) i „górnego” (P-g). Robimy to łącząc ze sobą dolne granice przedziałów ufności wyniku prawdziwego w każdym „podteście” (profil dolny), i odpowiednio łączą ze sobą górne granice tych przedziałów. (profil górny).
B. Analiza dyspersji profilu.
Dodanie do wykresów profilu linii o wartości różnicy między najwyższym a najniższym wynikiem w różnych skalach tego „podtestu”. Brzeziński podaje przykład WISC-R. Jego 3 podtesty to Skala Pełna, Skala Słowna, Skala Bezsłowna. Każdy z nich ma swoje podskale. Pierwsza z nich ma najnizszy wynik 7, najwyższy 15; kolejne 7 i 12, 9 i 15. Zatem wskaźnik „G-D” (góra-dół) to kolejno 8, 5 i 6. Umieszczamy je na wykresach podtestu do którego należą.
C. Analiza odchyleń poszczególnych testów (Ti) od średniego profilu (P) - wskaźnik Ti-P.
Ti to jakiś test jakiejś skali P. Wskaźnik Ti-P liczymy po prostu odejmując od danego testu średnią wyników danej skali.
Wynik tego odejmowania jest istotny statystycznie gdy jest większy lub równy Błędowi Standartowemu Różnic między T a P pomnożonym przez „z” odpowiednie do przyjętego poziomu istotności.
Na przykład dla poziomu istotności α=0,05:
|Ti-P| ≥ z0,05/2 * SEMD(Ti-P)
Takie działanie możemy wykonywać oddzielnie dla przypadku gdy wliczamy test Ti do P, jak i wtedy gdy go nie wliczamy. Wtedy go po prostu nie wliczamy.
D. Ocena istotności różnic wyników dwóch testów: Ti i Tj – wskaźnik : d(Ti-Tj)
Polega na porównaniu każdego testu z każdym.
Wyliczamy błąd standardowy różnic (SEMD) pomiędzy dwoma testami, po czym przemnażamy go przez zα/2 wyznaczając dla niej przedział ufności. Jeśli SEMD będzie mniejsze niż wynik tego działania, różnica między tymi dwoma testami jest nieistotna.
2. Zastosowanie analizy wariancji do badania rzetelności i trafności testu (czyt. Brzezinski).
Analiza czynnikowa pozwala sprawdzić czy otrzymane dane empiryczne są zgodne z zakładaną strukturą teoretyczną testu. Czynniki otrzymane w wyniku zastosowania analizy czynnikowej powinny odpowiadać teoretycznie zakładanym wymiarom.
Celem analizy czynnikowej jest zredukowanie dużej liczby zmiennych losowych do mniejszego zbioru, co uzyskujemy przez założenie, że pewne grupy zmiennych losowych reprezentują zmienność tych samych czynników, czyli zmienne losowe w danej grupie są od siebie w pewnym stopniu zależne.
W analizie czynnikowej istnieją dwa podejścia:
eksploracyjna analiza czynnikowa czynniki są początkowo nieznane i zostają wyodrębnione dzięki analizie wartości zmiennych losowych, to podejście jest bardziej rozpowszechnione
konfirmacyjna analiza czynnikowa zakładamy istnienie pewnego określonego zbioru czynników i dzięki analizie wartości zmiennych losowych badamy zasadność naszego przypuszczenia i estymujemy parametry naszego modelu
COOMBS
2. Zagadnienie znaczenia. Kierunki analizy. (Coombs, wykład 2)
Co znaczą liczby występujące w pomiarze? Co znaczą zdania zawierające wartości liczbowe?
Znaczenie wyrażenia – pewna abstrakcyjna własność przysługująca temu wyrażeniu i wyrażeniom z nim równoznacznym, i tylko tym wyrażeniom; in. zbiór wyrażeń równoznacznych…
Kierunki analizy:
przewidywanie: wskaźniki liczbowe są wykorzystywane by przewidywać wartości pewnej zmiennej zależnej za pomocą wartości zmiennych niezależnych
przyporządkowanie bezpośrednie: miary są przyporządkowane wartościom przez osoby badane zgodnie z instrukcją. Znaczenia zdań zawierające wartości liczbowe są efektem subiektywnych doświadczeń i skojarzeń
opis: w pewnych sytuacjach liczby przyporządkowane obiektom, traktowane są jako opisowe wskaźniki statystyczne dotyczące danej próbki lub populacji. Statystycznym modelem danej próbki jest rozkład normalny. Założenie jest
charakterystyczna dla Klasycznej Teorii Testów.
Źródło: wykład 2. Podobno jest do tego rozdział w Coobmsie, ale niestety go nie posiadam ;)
2. Teoria pomiaru - kwestia jednoznaczności . (Coombs, wykład 2).
Dopuszczalne
przekształcenia skali narzędzia pomiarowego są to przekształcenia
zachowujące reprezentowanie systemu empirycznego przez formalny.
-
zbiór dopuszczalnych przekształceń wyznacza typ skali
-
przekształcenia dopuszczalne nie zmieniają wartości logicznej
zdań zawierających wartości liczbowe.
(Wykład 2)
Jeśli nastąpiło już rozstrzygnięcie problemu istnienia i zbudowania odpowiedniej skali dążymy do zbadania statusu otrzymanej skali czyli chcemy określić stopień swobody w konstruowaniu skali oraz scharakteryzować związki pomiędzy różnymi skalami opartymi na tym samym twierdzeniu o istnieniu. Nie każde przekształcenie zachowujące porządek jest w tym modelu dopuszczalne . Przekształcenie dopuszczalne musi zachować nie tylko porządek wartości lecz także porządek różnic pomiędzy wartościami na sakli. Jedynym przekształceniem które zachowuje uporządkowanie przedziałów jest dodatnia funkcja liniowa której wartości oblicza się mnożąc przez ustaloną liczbę dodatnią każdy wynik na skali i dodając drugą liczbę. Skale tego typu nazywane są skalami przedziałowymi i są one określone jednoznacznie z dokładnością do dodatniego przekształcenia liniowego .
Przekształcenie zbioru wartości na skali nazywane jest dopuszczalnym jeśli system liczbowy otrzymany przez zastąpienie B przekształconym zbiorem wartości również reprezentuje system empiryczny α.
Skale
charakteryzuje się za pomocą dopuszczanych ich przekształceń.
Zbiór przekształceń dopuszczanych dla zwykłej skali użyteczności
opartej na porządkowaniu możliwości jest zbiorem wszystkich
przekształceń zachowujących uporządkowanie. Związany z tym
zbiorem typ skali nazywany jest porządkowym ponieważ w pomiarze są
wykorzystywane tylko porządkowe własności liczb poza tym konkretne
wartości liczbowe mogą być obierane całkiem dowolnie. Natomiast w
pomiarze użyteczności opartym na porządkowaniu przedziałów lub w
pomiarze temperatury zbiór przekształceń dopuszczanych zostaje
ograniczony do dodatnich przekształceń liniowych postaci:
T(x)=ax+b, gdzie a>0. Skale tego typu
nazywane są przedziałowymi ponieważ sensowne jest porównanie
przedziałów pomiędzy wartościami na skali. Pewne modele np. takie
jakie wykorzystuje się do pomiaru masy i długości wymagają
jeszcze silniejszych ograniczeń typu skali. Jeśli np. jedynymi
przekształceniami dopuszczalnymi są podobieństwa tzw.
Przekształcenia postaci T(x)= ax gdzie a> 0 - to takie skale
nazywane są ilorazowymi a wartości na skali określane sa
jednoznacznie po wybraniu jednostki pomiaru(a). Dwa mniej ważne typy
skal to: skale nominalne i skale absolutne. Dla skali nominalnej
dopuszczalne jest dowolne przekształcenie wzajemnie jednoznaczne.
Numery są tu wykorzystywane jedynie jako etykietki i zachować
należy tylko tę ich właściwość że różnią się między sobą.
W skali absolutnej nie jest dopuszczalne żadne przekształcenie
(liczenie jako pomiar może być przykładem skali absolutnej).
Typ
skali jest zdefiniowany za pomocą zbioru przekształceń
dopuszczalnych to istnieje nieskończenie wiele typów skal
odpowiadających nieskończenie wielu zbiorom przekształceń
dopuszczalnych. Określenie typu skali czyli scharakteryzowanie klasy
przekształceń dopuszczalnych jest w wielu przypadkach trudnym
zagadnieniem matematycznym.
( „Teoria pomiaru w psychologii” Coombs
HORNOWSKA
Jak sprawdzić trafność treściową testu?
Trafność treściowa, zwana też wewnętrzną- określana jest poprzez stwierdzenie, czy test jako całość ujawnia takie zachowanie osoby badanej, które będzie zgodne z ta cechą, którą objęto badaniami. (np. jeżeli test ma badać przydatność zawodową, to wszystkie zawarte w nim zadania powinny być zgodne z wymaganiami psychofizycznymi stawianymi przez pracę w tym zawodzie)
jest szczególnie ważna dla testów uzdolnień, umiejętności, osiągnięć szkolnych i wiadomości,dla kwestionariuszy osobowości, skal postaw i opinii oraz arkuszy obserwacyjnych.
Aby potwierdzić trafność treściową zbioru wyników otrzymanych w teście należy wykazać,że zachowania demonstrowane w badaniu testowym są reprezentatywną próbą zachowań ujawniających się w interesującej badacza sferze. Określenie tej sfery, określenie realizowanych przez badacza celów oraz metody dobierania próby jest szczególnie ważne w wypadku trafności treściowej.
Ustalenie trafności testowej wymaga, zdefiniowania uniwersum pozycji i wykazania, że pozycje włączone do testu stanowią faktycznie reprezentatywną dla tego uniwersum ich próbę. W celu określenia stopnia reprezentatywności próby pozycji psycholog powinien odwołać się do ekspertów. Z kolei do oceny stopnia zgodności ich sądów należy wykorzystać np. współczynnik zgodności sędziów kompetentnych W-Kendalla.
(Współczynnik zgodności sędziów: Sędziami kompetentnymi są specjaliści danej dziedziny, osoby kompetentne w zakresie zagadnienia nas interesującego. Należy jednak się upewnić, że tak jest. Wskaźnik W. Kentalla zawierający się w granicach od 0 do 1 określa stopień zgodności. 0, to brak zgodności, 1 - oznacza zgodność. Stosowanie tej metody pomiaru zgodności jest uzasadnione, gdy sędziowie kompetentni umieją posługiwać się w sposób rzetelny kryterium oceny, jakie zostały im zaproponowano oraz gdy mamy całkowita pewność, że oceniają w sposób niezależny od siebie. Wysokie W, to zgodność, która nie musi oznaczać, iż ocena określonych obiektów jest poprawna, sędziowie mogą bowiem zgodnie oceniać, posługując się fałszywym kryterium. Sędziów może być minimum 3 i maximum 20
Test psychologiczny klasyfikacyjny i selekcyjny/zastosowanie selekcji i klasyfikacji. (Magnusson)
1. Kombinacje liniowe wyników testowych: selekcja wielokrotna. (Magnusson)
3. Długość testu (i coś o zmienianiu się wariancji w populacji) a rzetelność testu/ Długość testu i wariancja cechy w próbie a rzetelność (w tym pytaniu odwołał mnie do końcówki rozdziału 5 z Magnussona).
3. Zagadnienie zgadywania. (Magnusson)
3. Rzetelność przewidywalna a trafność prognozy (podobno w magnussonie to jest)..
Błąd standardowy przewidywania.
Za pomocą współczynnika korelacji można dokonać przewidywania każdej pary zmiennych na podstawie drugiej zmiennej.Dokładność tego przewidywania jets zależna od związku Rxy. Jeżeli R =1.0 , przewidywanie będzie całkowicie pewne : wszytskie osoby uzyskają takie wyniki pomiaru y, jakie otrzymalibyśmy, gdybyśmy rzeczywiście przeprowadzili pomiary tej samiej zmiennej. Jeżeli R=0, przwidywanie będzie zgodne tylko przypadkowo : w stosunku do wszytskich osób będziemy mogli podać przewidywaną wartość, ale bardzo mało oso uzyska taki sam wynik przy rzeczywistym pomiarze zmiennej y. Niepewnośc przewidywania wzrasta wraz z osłabieniem się powiązania między zmiennymi.
Błąd standardowy przewidywania zależy od wielkości liczbowej standardowego odchylenia rozkładu, w stosunku do którego dokonujemy przewidywania oraz zależy od wielkości korelacji między tym rozkładem a rozkładem wyników , na podstawie których dokonujemy przewidywania. Jeżeli koreacja wynosi 1.0 wówczas bład standardowy równy jest 0. Występuje wtedy również całkowita zgodność między przewidywanymi a otrzymanymi wynikami y.
Założenie , że wariancja rozkładu wokół przewdywanych wyników y jest dla wszystkicvh wyników x jednakowa – zachodzi wtedy homoscedastyczność.
Współczynnik alienacji
Współczynnik trafności musi osiągnąć znaczną wielkość, aby dany test mógł być wykorzystywany do diagnozy lub prognozy. Wielkośc współczynnika trafności nie może być oceniana tylko ze względu na jego wartość liczbową, bo wartość ta zmienia się w zależności od sytauacji, w odniesieniu do których dany wspólczynnik miałby być stosowany. Niekiedy niewielkie liczbowo współczynniki trafności mogą mieć dużą wartość.
Współczynnik trafności a zmienność wyników przewidywanych
wynik określonej osoby j uzyskany przez nią w zmiennej y ( Yj), możemy podzielić na na dwie składowe : wynik przewidywany ( Y'j) oraz błąd pomiaru ( Y ej). Błąd jest jednym ze składników rozkładu wyników otrzymanych y wokół przewidywanej wartości y. Mamy więc do czynienia z trzema rozkładami wyników : z wynikami otzrymanymi, z wynikami przewiduywanymi i z błędami pomiaru.. Ponieważ wielkość błędu – przy założeniu , że zachodzi homoscedastyczność – nie jest zależna od wielkości wyniku przewidywanego, więc wariancję wyników otrzymanych możemy obliczyć jako sumę wariancji wyników przewidywanych i wariancji błędu wyników przewidywanych.
Nieformalne ujęcie współczesnej teorii testów
Przedmiot pomiaru psychologii
modalne cechy obiektów
wartość cechy określa prawdopodobieństwo zachowania się człowieka w określonych sytuacjach
cecha określa częstość zachowania
cecha oznacza obiekt , który nawet jeżeli nie istnieje to ludzie zgodnie z takim konstruktem się zachowują
poznanie takiej modalnej cechy umożliwia prognozowanie prawdopodobieństwa zachowania się człowieka w określonych sytuacjach
cecha wiąże swoją nazwą zachowania mające tendencje do współzmienności, współwystępowania, korelowania
część cech ma charakter wyjaśniający , na przykład teorie wyjaśniające wartość cechy na continuum introwersja – ekstrawersja
efektem „ nadwyżki znaczeń” jaką posiadają cechy jako pojęcia teoretyczne jest możliwość generowania wielu prawdziwych definicji tej samej cechy , ponieważ nie ma sprecyzowanych zbiorów zachowań należących do zakresu pojęciowego danej cechy, on ma charakter statystyczny, dynamiczny,
z tego wynika również powstawanie różnych narzędzi pomiaru , które zależą od definicji, od zbioru zachowań, które potraktujemy jako wyznaczniki pola statystycznego prawdopodobieństwa współwystępowania określonych zachowań syntetyzowanych przez nazwę cechy ~:)
Test jako narzędzie pomiaru
statystyczna definicja cechy :wartość cechy szuszczenia u Spendla zależy od tego jak często Spendel szuści
gdzie opisem (pojęcia, cechy) Szuścić są zachowania ze zbioru : szeleścić, pochrząkiwać, bełkotać, utrudniać komunikację, nie wyjaśniać motywów swojego zachowania itd..
czyli poznając cechę Szuścić u Spendla wiemy jak często Spendel sobie Szuści, tym samym przejawia zachowania ze zbioru zachowań opisujących cechę szuścić – czyli te zachowania są deskryptorami cechy Szuścić
ale komu się chce patrzeć na Spendla jak przejawia zachowania ze zbioru Szuszczeń dla oszacowania wartości jego Szuszczacji
jako, że nikomu na Spendla patrzeć się nie chce , wymyślono testy psychologiczne ,
testy psychologiczne , czyli narzędzie służące do pobierania próbki zachowań dla szacowania prawdopodobieństwa występowania zachowań z określonego zbioru zachowań opisującego daną cechę
czyli Spendel samotnie sobie test wypełnia , i dowiaduje się że cecha Szuszczenia wynosi u niego 0%(nigdy nie szuści) co oznacza że wystąpił tzw.: paradoks Szuszczaka zgodnie z którym osoby o ekstremalnie wysokiej wartości tej cechy , nie są w stanie prawidłowo komunikować się z żadnym istniejącym w rzeczywistości obiektem ,nawet testem nie mówiąc o studentach
Podstawy pojęciowe klasycznej teorii testów, wynik prawdziwy
Gulliksen : założenie jego , że każdy obiekt natury osobowej ma pewne prawdziwe a nieznane wartości cech go opisujących , które nie zależą ani od pomiaru ani od narzędzia pomiarowego
czyli nie wiadomo co zrobimy prawdy i tak nie poznamy a na pocieszenie , że fizyk też przeżywa takie dylematy
zarówno prawda jak i to jak bardzo zbłądziliśmy oddalając się od niej wymykają się naszemu poznaniu
jak to działa:
przyjmujemy ,że mamy generator wartości losowych działający zgodnie z określonym rozkładem > czyli źle działający generator wartości losowych
przyjmujemy że wynik uzyskany za pomocą testu estymuje prawdziwą wartość cechy (czyli to jest naciśnięcie guziczka LOSOWANIE w tym generatorze)
teraz mimo tego że wiemy że nie wiemy przyjmujemy ,że wiemy :)
Aksjomatyka Guliksena
Guliksen: ” aby umocnić się w przekonaniu ,że wiemy przyjmujemy że”
wartość oczekiwana błędu (średni błąd równa się zero)
błąd pomiaru i wynik prawdziwy (traktowany jako zmienna losowa) są nieskorelowane
błędy w dwóch kolejnych pomiarach są nieskorelowane
Estymacja wariancji błędu : mimo tego że wiemy ,że się nie dowiemy jak bardzo nie wiemy, to próbujemy się tego dowiedzieć. Ta wiedza ma za zadanie umocnić w nas poczucie ,ze jednak coś wiemy.
efektem tego rozumowania jest stwierdzenie:
współczynnik korelacji między dwoma kolejnymi pomiarami jest równy rzetelności pomiaru , czyli równy jest stosunkowi wariancji wyniku prawdziwego do wariancji obserwowanego
w tym momencie można zacząć zadawać sobie pytanie jak bardzo UFAMY (przedziały ufności) w to czego się dowiedzieliśmy
Błogosławieni ci , którzy nie widzieli a uwierzyli (czy jakoś tak)
Krytyka podejścia Guliksena
u Guliksena opiera się to na silnych analogiach z pomiarem fizycznym jednak ze względu na nie obserwowalność błędu , nie da się zweryfikować postulatu nieobciążoności narzędzia pomiaru
oznacza to że teoria Guliksena jest prawdziwa o tyle o ile przymykamy oko na to co Guliksen dosztukował rzeczywistości w swoich aksjomatach
Podstawy pojęciowe współczesnej teorii testów.
ziarenko wiary zasiane przez Guliksena wydało swój owoc, nowi prorocy LORD i NOVICK zabrali się za tworzenie nowych aksjomatów (prawd wiary, dogmatów), takich które nie naruszając autorytetu starego proroka , można by zweryfikować empirycznie (tutaj chyba chodzi o termin CUD , ale nie jestem pewien)
kluczem do tego jest konstrukt rozkładu skłonności który jest...
rozkładem wszystkich potencjalnie możliwych wyników testu jakie możemy uzyskać od danej osoby,
charakterystyczny dla niej
nieobserwowalny :)
przemawia za tym potwierdzony empirycznie fakt zmienności wyników tego samego testu przeprowadzanego x razy u tej samej osoby
Definicja wyniku prawdziwego i jej konsekwencje wg Lorda Novicka.
jeżeli mówisz nieprawdę a chcesz mówić prawdę nie zmieniając tego co mówisz , zdefiniuj prawdę w taki sposób abyś mówił prawdę
Na mocy słów Lorda Novicka rozkład skłonności do dobra i zła każdej osoby ma skończoną wariancję ,
często wynika to z samej konstrukcji testu np.: w ramach testu opartego na skłonności do dobra i do zła możemy mieć dwie wartości np.: anioł wcielony i skurwiel ostateczny (przykład bez uwzględnienia specyfiki pamięci krótkotrwałej)
czyli sprowadza się to do tego, że sami decydujemy o wariancji konstruując test
etap w którym przyjęte że prawda potwierdza inne przyjęte że prawda , a gdyby sie okazało ,że to co przyjęte to brednia wówczas można powiedzieć ,że brednia napędza brednię ale jak powiada Lord Novick „to kwestia wiary , nie rozumu”
czyli jeżeli ktoś ma skłonność do zupy ogórkowej to w rzeczywistości testu skłonności do dobra i zła przestaje istnieć, ewentualnie skłonność do zupy ogórkowej jest wyjaśniana w kategoriach dobra i zła
Lord Novick definiuje
wynik prawdziwy danej osoby jako wartość oczekiwaną rozkładu skłonności
błąd pomiaru : różnica między wartością obserwowaną i prawdziwą
zarówno jedna jak i druga wielkość jest nieobserwowalna
Uzasadnienie średniego błędu równego zeru co u Guliksena funkcjonuje jako aksjomat jest odpowiednio bardziej wiarygodne i na mocy przyjętych definicji zyskuje rangę twierdzenia
ponieważ jeżeli średnia wartość błędu u jednej osoby badanej za pomocą danego testu jest równa zero (średnia wartość odchyleń od średniej) , inaczej: suma odchyleń od średniej zawsze jest równa zero
to na Marsie istniało życie
średni błąd losowo wybranej osoby jest również równy zero
czyli średni błąd jest równy zero wtedy gdy nasza wartość oczekiwana staje się zmienną losową np. : losowy dobór do próbki
w podobny sposób zostaje wyprowadzony 2 i 3 aksjomat Guliksena
okazują się być tutaj jeszcze bardziej wiarygodne niż we wcześniejszych podaniach
Treść i zadania teorii testów
opis pojęć:
I: rzetelność, trafność, homogeniczność
II: struktura czynnikowa, struktura latentna
pierwsze trzy parametry określają przydatność do celów praktycznych
rzetelność : dokładność pomiaru
trafność : prognoza zachowań
homogeniczność : w jakim stopniu poszczególne zadania testu mierzą cechę , którą mierzy cały test
druga grupa pojęć służy do obsługi zależności , które się pojawiają przy stosowaniu jednoczesnego pomiaru wieloma narzędziami
Rzetelność
to Stosunek wariancji wyniku prawdziwego do wyniku obserwowanego
ma sens jedynie w relacji do badanej populacji
jest równa wartości współczynnika korelacji między wynikami w dwóch kolejnych badaniach
jest równa kwadratowi współczynnika korelacji między wynikiem prawdziwym a wynikiem obserwowanym
pomiar rzetelny to taki pomiar, I: którego wyniki wysoko korelują między sobą przy powtórzeniu badania i jednocześnie taki , II: którego wynik obserwowany wysoko koreluje z wynikiem prawdziwym
założenie jest takie dla I twierdzenia ,że rozkłady skłonności mają takie same wartości i wariancje a błędy są niezależne, twierdzenie to zostało odrzucone na rzecz poniższego ze względu na uczenie się itd... czyli ,że zakłada to co w rzeczywistości jest nieosiągalne
założenie liniowej eksperymentalnej niezależności: dwa pomiary są liniowo eksperymentalnie niezależne , jeżeli dla każdej osoby wartość oczekiwana wyniku testowego przy jednym pomiarze nie zależy od wyniku zaobserwowanego przy drugim pomiarze
twierdzenia te są cytat z książki „ oczywiście empirycznie niesprawdzalne” przy argumentacji „ że założenie o liniowej eksperymentalnej niezależności pomiarów , zostało przyjęte w teorii testów ze względu na fakt , że jest najsłabszym z niesprawdzalnych założeń, przy , którym daje się jeszcze otrzymać podstawowe wyniki teorii testów. Im słabsze niesprawdzalne założenia teorii tym większe szanse jej adekwatności” co poniekąd jest prawdą ponieważ im twoje kłamstwo jest bliższe rzeczywistości tym większa szansa ,że nikt się nie zorientuje że kłamałeś, i niewykluczone ,że przypadkiem powiedziałeś prawdę , - i cholera jakie ma to znaczenie jeżeli nikt i tak tego nie jest w stanie sprawdzić? grrr....
gdy dla każdej osoby wartości oczekiwane są równe a błędy są nieskorelowane i mają jednakowe wariancje to takie dwa pomiary nazywamy równoległymi: mierzą to samo i tak samo dokładnie
Estymacja rzetelności
Dla szacowania rzetelności testu istnieje kilka metod czyli różnych estymatorów dla rzetelności jako parametru
jeżeli chcemy to zrobić w ramach jednego badania a nie męczyć siebie i próbkę dwoma (żeby móc się posłużyć korelacją) , to rozbijamy test w sposób przypadkowy na dwa podtesty , te dwa podtesty muszą być w miarę równoległe i szacujemy rzetelności testu przez wariancję podtestów i wariancję całego testu
NOWAKOWSKA
1.Test
jako narzędzie pomiaru i narzędzie diagnozowania.
(Nowakowska)
-(Hornowska)
-(Nowakowska M.)
Rozstrzygnięcie problemu metodologii pomiaru cech oraz problemu reguł wnioskowania o prawdziwych wartościach cech na podstawie uzyskanych obserwacji narzucone jest przez przyjetą statystyczną definicję cechy,zgodnie z którą wartość cechy danego osobnika utożsamiana jest z parametrem rozkładu prawdopodobieństwa częstości występowania elementów zbioru zachowań się będących deskrypcją tej cechy u danego osobnika.Poznanie wiec wartości cechy u badanego(tzw. jego prawdziwej wartości cechy)jest równoznaczne z poznaniem prawdziwej wartości tego parametru,co osiąga się(w pewnym przybliżeniu,a więc z pewnym błędem)przez statystyczne szacowanie tej wartości za pomocą estymatorów.Aby taka estymacja była możliwa,konieczne jest pobieranie próbek określonych zachowań się danego człowieka;test psychologiczny jest,formalnie rzecz biorąc,z jednej strony narzędziem pozwalającym na uzyskanie takiej próbki zachowań się(stanowiących przyjętą deskrypcje danej cechy), z drugiej zaś-dostarcza reguły obliczania wartości estymatora tej cechy dla danych zaobserwowanych zachowań się;wartością ta jest po prostu wynik zaobserwowany w teście
3. Test homogeniczny i jego rodzaje. (Nowakowska)
Odzwierciedla
ona własność testu polegająca na tym, że każdy z rozważanych
podtestów mierzy tą samą cechę. W praktyce homogeniczność
usiłuje się uzyskać za pomocą doboru pytań o odpowiedniej
treści. Klasyczna teoria testów dostarcza formalnego kryterium
pozwalającego na ocenę czy dany test jest homogeniczny względem
określonego rozbicia go na składowe. Punktem wyjścia tego
kryterium jest formalne wyrażenia tego, co to znaczy, że dwa testy
mierzą to samo. Pomocne są: definicja wyniku prawdziwego, założenie
liniowej eksperymentalnej niezależności.
rodzaje (?!)
3. Założenia teoretycznej (statystycznej) definicji rzetelności testu (chciał definicje z Nowakowskiej, ponoć miała "tylko" dwa zdania, ale "jakże trafne"..., nie interesowały go inne).
Założenie implikujące nieskorelowanie błędów – ZAŁOŻENIE TZW. LINIOWEJ EKSPERYMENTALNEJ NIEZALEŻNOŚCI POMIARÓW: dwa pomiary są liniowo eksperymentalnie niezależne, jeżeli dla każdej osoby wartość oczekiwana wyniku testowego przy jednym pomiarze nie zależy od wyniku zaobserwowanego w drugim pomiarze. Założenie liniowej eksperymentalnej niezależności odgrywa w teorii testów bardzo ważną rolę: zastępuje ono centralne dla wnioskowań statystycznych założenie niezależności obserwacji, będąc specyficznym dla teorii testów założeniem o powtarzanych pomiarach tej samej osoby.
2. Prognoza rzeczywista a przewidywana. Kurczliwość trafności testu i sposoby jej przewidywania(dopytał o sposoby przeciwdziałania temu, to jest w Nowakowskiej pod koniec).
Optymalna prognoza i wybór testów z puli opierają się na znajomości wartości oczekiwanych, wariancji i kowariancji między testami oraz miedzy testami a kryterium. W praktycznych sytuacjach nie znamy tych wartości i musimy je przewidywać na podstawie próbki, na takich wartościach opiera się wybór testów i wyznaczenie współczynników regresji, więc rzeczywista wartość prognozy różni się od szacowanej, przy czym szacowana jest zawsze zawyżona. Empirycznie widzimy to w fakcie, że zastosowanie uzyskanej metody prognozy do nowej próbki wykazuje, że jej trafność jest niższa od przewidywanej => KURCZLIWOŚĆ.
Przewidujemy sobie, więc to co robimy polega w głównej mierze na przypadku. A więc: wybór testów (wybór tych, gdzie korelacje są najwyższe), obliczanie współczynników regresji.
Owemu smutnemu i dołującemu faktowi zapobiegamy poprzez stosowanie następującej procedury:
Etap – wybór baterii testów oparty na wyniku uzyskanym w próbce obsiewowej
Etap – w oparciu o próbkę kalibracyjną wyznacza się współczynniki regresji dla wybranej baterii
Etap – trafność tak uzyskanej prognozy sprawdza się na próbce walidacyjnej.