Nieformalne ujęcie współczesnej teorii testów
Przedmiot pomiaru psychologii
modalne cechy obiektów
wartość cechy określa prawdopodobieństwo zachowania się człowieka w określonych sytuacjach
cecha określa częstość zachowania
cecha oznacza obiekt , który nawet jeżeli nie istnieje to ludzie zgodnie z takim konstruktem się zachowują
poznanie takiej modalnej cechy umożliwia prognozowanie prawdopodobieństwa zachowania się człowieka w określonych sytuacjach
cecha wiąże swoją nazwą zachowania mające tendencje do współzmienności, współwystępowania, korelowania
część cech ma charakter wyjaśniający , na przykład teorie wyjaśniające wartość cechy na continuum introwersja - ekstrawersja
efektem „ nadwyżki znaczeń” jaką posiadają cechy jako pojęcia teoretyczne jest możliwość generowania wielu prawdziwych definicji tej samej cechy , ponieważ nie ma sprecyzowanych zbiorów zachowań należących do zakresu pojęciowego danej cechy, on ma charakter statystyczny, dynamiczny,
z tego wynika również powstawanie różnych narzędzi pomiaru , które zależą od definicji, od zbioru zachowań, które potraktujemy jako wyznaczniki pola statystycznego prawdopodobieństwa współwystępowania określonych zachowań syntetyzowanych przez nazwę cechy ~:)
Test jako narzędzie pomiaru
statystyczna definicja cechy :wartość cechy szuszczenia u Spendla zależy od tego jak często Spendel szuści
gdzie opisem (pojęcia, cechy) Szuścić są zachowania ze zbioru : szeleścić, pochrząkiwać, bełkotać, utrudniać komunikację, nie wyjaśniać motywów swojego zachowania itd..
czyli poznając cechę Szuścić u Spendla wiemy jak często Spendel sobie Szuści, tym samym przejawia zachowania ze zbioru zachowań opisujących cechę szuścić - czyli te zachowania są deskryptorami cechy Szuścić
ale komu się chce patrzeć na Spendla jak przejawia zachowania ze zbioru Szuszczeń dla oszacowania wartości jego Szuszczacji
jako, że nikomu na Spendla patrzeć się nie chce , wymyślono testy psychologiczne ,
testy psychologiczne , czyli narzędzie służące do pobierania próbki zachowań dla szacowania prawdopodobieństwa występowania zachowań z określonego zbioru zachowań opisującego daną cechę
czyli Spendel samotnie sobie test wypełnia , i dowiaduje się że cecha Szuszczenia wynosi u niego 0%(nigdy nie szuści) co oznacza że wystąpił tzw.: paradoks Szuszczaka zgodnie z którym osoby o ekstremalnie wysokiej wartości tej cechy , nie są w stanie prawidłowo komunikować się z żadnym istniejącym w rzeczywistości obiektem ,nawet testem nie mówiąc o studentach
Podstawy pojęciowe klasycznej teorii testów, wynik prawdziwy
Gulliksen : założenie jego , że każdy obiekt natury osobowej ma pewne prawdziwe a nieznane wartości cech go opisujących , które nie zależą ani od pomiaru ani od narzędzia pomiarowego
czyli nie wiadomo co zrobimy prawdy i tak nie poznamy a na pocieszenie , że fizyk też przeżywa takie dylematy
zarówno prawda jak i to jak bardzo zbłądziliśmy oddalając się od niej wymykają się naszemu poznaniu
jak to działa:
przyjmujemy ,że mamy generator wartości losowych działający zgodnie z określonym rozkładem > czyli źle działający generator wartości losowych
przyjmujemy że wynik uzyskany za pomocą testu estymuje prawdziwą wartość cechy (czyli to jest naciśnięcie guziczka LOSOWANIE w tym generatorze)
teraz mimo tego że wiemy że nie wiemy przyjmujemy ,że wiemy :)
Aksjomatyka Guliksena
Guliksen: ” aby umocnić się w przekonaniu ,że wiemy przyjmujemy że”
wartość oczekiwana błędu (średni błąd równa się zero)
błąd pomiaru i wynik prawdziwy (traktowany jako zmienna losowa) są nieskorelowane
błędy w dwóch kolejnych pomiarach są nieskorelowane
Estymacja wariancji błędu : mimo tego że wiemy ,że się nie dowiemy jak bardzo nie wiemy, to próbujemy się tego dowiedzieć. Ta wiedza ma za zadanie umocnić w nas poczucie ,ze jednak coś wiemy.
efektem tego rozumowania jest stwierdzenie:
współczynnik korelacji między dwoma kolejnymi pomiarami jest równy rzetelności pomiaru , czyli równy jest stosunkowi wariancji wyniku prawdziwego do wariancji obserwowanego
w tym momencie można zacząć zadawać sobie pytanie jak bardzo UFAMY (przedziały ufności) w to czego się dowiedzieliśmy
Błogosławieni ci , którzy nie widzieli a uwierzyli (czy jakoś tak)
Krytyka podejścia Guliksena
u Guliksena opiera się to na silnych analogiach z pomiarem fizycznym jednak ze względu na nie obserwowalność błędu , nie da się zweryfikować postulatu nieobciążoności narzędzia pomiaru
oznacza to że teoria Guliksena jest prawdziwa o tyle o ile przymykamy oko na to co Guliksen dosztukował rzeczywistości w swoich aksjomatach
Podstawy pojęciowe współczesnej teorii testów.
ziarenko wiary zasiane przez Guliksena wydało swój owoc, nowi prorocy LORD i NOVICK zabrali się za tworzenie nowych aksjomatów (prawd wiary, dogmatów), takich które nie naruszając autorytetu starego proroka , można by zweryfikować empirycznie (tutaj chyba chodzi o termin CUD , ale nie jestem pewien)
kluczem do tego jest konstrukt rozkładu skłonności który jest...
rozkładem wszystkich potencjalnie możliwych wyników testu jakie możemy uzyskać od danej osoby,
charakterystyczny dla niej
nieobserwowalny :)
przemawia za tym potwierdzony empirycznie fakt zmienności wyników tego samego testu przeprowadzanego x razy u tej samej osoby
Definicja wyniku prawdziwego i jej konsekwencje wg Lorda Novicka.
jeżeli mówisz nieprawdę a chcesz mówić prawdę nie zmieniając tego co mówisz , zdefiniuj prawdę w taki sposób abyś mówił prawdę
Na mocy słów Lorda Novicka rozkład skłonności do dobra i zła każdej osoby ma skończoną wariancję ,
często wynika to z samej konstrukcji testu np.: w ramach testu opartego na skłonności do dobra i do zła możemy mieć dwie wartości np.: anioł wcielony i skurwiel ostateczny (przykład bez uwzględnienia specyfiki pamięci krótkotrwałej)
czyli sprowadza się to do tego, że sami decydujemy o wariancji konstruując test
etap w którym przyjęte że prawda potwierdza inne przyjęte że prawda , a gdyby sie okazało ,że to co przyjęte to brednia wówczas można powiedzieć ,że brednia napędza brednię ale jak powiada Lord Novick „to kwestia wiary , nie rozumu”
czyli jeżeli ktoś ma skłonność do zupy ogórkowej to w rzeczywistości testu skłonności do dobra i zła przestaje istnieć, ewentualnie skłonność do zupy ogórkowej jest wyjaśniana w kategoriach dobra i zła
Lord Novick definiuje
wynik prawdziwy danej osoby jako wartość oczekiwaną rozkładu skłonności
błąd pomiaru : różnica między wartością obserwowaną i prawdziwą
zarówno jedna jak i druga wielkość jest nieobserwowalna
Uzasadnienie średniego błędu równego zeru co u Guliksena funkcjonuje jako aksjomat jest odpowiednio bardziej wiarygodne i na mocy przyjętych definicji zyskuje rangę twierdzenia
ponieważ jeżeli średnia wartość błędu u jednej osoby badanej za pomocą danego testu jest równa zero (średnia wartość odchyleń od średniej) , inaczej: suma odchyleń od średniej zawsze jest równa zero
to na Marsie istniało życie
średni błąd losowo wybranej osoby jest również równy zero
czyli średni błąd jest równy zero wtedy gdy nasza wartość oczekiwana staje się zmienną losową np. : losowy dobór do próbki
w podobny sposób zostaje wyprowadzony 2 i 3 aksjomat Guliksena
okazują się być tutaj jeszcze bardziej wiarygodne niż we wcześniejszych podaniach
Treść i zadania teorii testów
opis pojęć:
I: rzetelność, trafność, homogeniczność
II: struktura czynnikowa, struktura latentna
pierwsze trzy parametry określają przydatność do celów praktycznych
rzetelność : dokładność pomiaru
trafność : prognoza zachowań
homogeniczność : w jakim stopniu poszczególne zadania testu mierzą cechę , którą mierzy cały test
druga grupa pojęć służy do obsługi zależności , które się pojawiają przy stosowaniu jednoczesnego pomiaru wieloma narzędziami
Rzetelność
to Stosunek wariancji wyniku prawdziwego do wyniku obserwowanego
ma sens jedynie w relacji do badanej populacji
jest równa wartości współczynnika korelacji między wynikami w dwóch kolejnych badaniach
jest równa kwadratowi współczynnika korelacji między wynikiem prawdziwym a wynikiem obserwowanym
pomiar rzetelny to taki pomiar, I: którego wyniki wysoko korelują między sobą przy powtórzeniu badania i jednocześnie taki , II: którego wynik obserwowany wysoko koreluje z wynikiem prawdziwym
założenie jest takie dla I twierdzenia ,że rozkłady skłonności mają takie same wartości i wariancje a błędy są niezależne, twierdzenie to zostało odrzucone na rzecz poniższego ze względu na uczenie się itd... czyli ,że zakłada to co w rzeczywistości jest nieosiągalne
założenie liniowej eksperymentalnej niezależności: dwa pomiary są liniowo eksperymentalnie niezależne , jeżeli dla każdej osoby wartość oczekiwana wyniku testowego przy jednym pomiarze nie zależy od wyniku zaobserwowanego przy drugim pomiarze
twierdzenia te są cytat z książki „ oczywiście empirycznie niesprawdzalne” przy argumentacji „ że założenie o liniowej eksperymentalnej niezależności pomiarów , zostało przyjęte w teorii testów ze względu na fakt , że jest najsłabszym z niesprawdzalnych założeń, przy , którym daje się jeszcze otrzymać podstawowe wyniki teorii testów. Im słabsze niesprawdzalne założenia teorii tym większe szanse jej adekwatności” co poniekąd jest prawdą ponieważ im twoje kłamstwo jest bliższe rzeczywistości tym większa szansa ,że nikt się nie zorientuje że kłamałeś, i niewykluczone ,że przypadkiem powiedziałeś prawdę , - i cholera jakie ma to znaczenie jeżeli nikt i tak tego nie jest w stanie sprawdzić? grrr....
gdy dla każdej osoby wartości oczekiwane są równe a błędy są nieskorelowane i mają jednakowe wariancje to takie dwa pomiary nazywamy równoległymi: mierzą to samo i tak samo dokładnie
Estymacja rzetelności
Dla szacowania rzetelności testu istnieje kilka metod czyli różnych estymatorów dla rzetelności jako parametru
jeżeli chcemy to zrobić w ramach jednego badania a nie męczyć siebie i próbkę dwoma (żeby móc się posłużyć korelacją) , to rozbijamy test w sposób przypadkowy na dwa podtesty , te dwa podtesty muszą być w miarę równoległe i szacujemy rzetelności testu przez wariancję podtestów i wariancję całego testu
dobra na razie dosyć jak komuś się chce to niech dopisze ciąg dalszy &)
Arvhan
Strona 4