„Zbiory pytań lub sytuacji służące do badania własności jednostek (są to testy projekcyjne) lub grup ludzkich przez wywoływanie u nich obserwowalnych reakcji werbalnych lub niewerbalnych (np. płacz), będących w miarę możliwości reprezentatywnymi próbkami ich zachowania (czyli taka, że na ogół inne zadanie algebraiczne rozwiąże dobrze)."
Gdyby tak miało być, to testy muszą spełniać określone kryteria:
„Powinny dostarczać wyników o pożądanych właściwościach psychometrycznych, tj. posiadających wysoką rzetelność i trafność." Jest to 6 podstawowych własności narzędzia psychologicznego, jakim jest test.
1) Trafność - mówi nam co dokładnie test mierzy, czyli to co miał zaplanowane mierzyć,
2) Rzetelność - mówi nam jak dobrze mierzy to co mierzy, ale nie koniecznie musi być trafny (wtedy oczywiście jest złym testem),
3) Obiektywność - oznacza, że ma tak dobrze zrobiony podręcznik, że każdy inny psycholog używając go identycznie zinterpretuje daną osobę.
4) Musi być wystandaryzowany - tzn. że każdy psycholog wykona tak samo badanie w tych samych warunkach i nie w innych. Zobowiązuje to psychologa do przedstawienia instrukcji badanemu bez zbędnych ozdobników, czyli dokładnie to co jest w instrukcji (bez komentarzy),
5) Musi być znormalizowany, czyli posiadać normy - wyliczane są z mediany (me): centylowe, kwartylowe, decylowe dla dowolnego rozkładu, zaś dla normalnego: tenach (100), stenach (10), Staninach (27 norm): mamy normy oddzielne dla kobiet i mężczyzn, a także dla różnych grup wiekowych,
6) Pozycje składające się na dany test musi cechować wysoka moc dyskryminacyjna - to korelacja pozycji testu z wynikiem ogólnym testu. Na ogół pozycja testu ma 2 kategorie odpowiedzi i koreluje ze skalą liczbową (ze zmienną przedziałową). Jeżeli zmienną ogólną podzielimy na wyniki wysokie i małe, to mamy jedną zmienną która ma 2 kategorie wartości i drugą mającą też 2 kategorie. Klasyczna tabela kontyngencji 2x2, wskaźnik korelacji „Fi-Jula". Im większa moc dyskryminacyjna, tym większa rzetelność.
Ostateczna pula pytań jest zawsze mniejsza od wyjściowej z tego względu, że owe pozycji musi cechować wysoka moc dyskryminacyjna.
Pojęcie rzetelności - klasyczny model rzetelności to teoria Gulliksena w 1950 roku, potem modyfikowana przez lorda Nowika. Około 1975 roku Cronbach wraz z innymi skonstruował teorię uniwersalizacji, mało znana w Europie (nad którą pracuje Aranowska).
Według Gulliksena wynik otrzymany przez osobę badaną, to wynik prawdziwy + błąd (może być dodatni lub ujemny).
Pojęcie lorda Nowika różniło się tym, że w jego ujęciu nie ma czegoś takiego jak wynik prawdziwy w postaci pojedynczego punkt, to jest pewna wartość uśredniona.
Dynamika cech badanych w psychologii jest olbrzymia i zależy od warunków w jakich ono się odbywa, stąd wynik 125 w badaniu inteligencji jest względny, ponieważ nawet przedmiot badań ulega zmianom (natężenie cech). Otóż Gulliksen traktował ów wynik prawdziwy jako granicę, do której zmierza przeciętna wyników i-tej osoby, czyli danego przedmiotu, w danej liczbie testów równoległych. Testem równoległym dla Wekslera jest test mający taką samą średnią dla całej populacji, taką samą wariancję i współczynnik korelacji (R-Pearsona) równy byłby jeden. Ponadto musielibyśmy mieć nieskończenie wiele narzędzi polegających na operacjach wykonywanych przez badaną osobę i jeżeli „k" zmierza ku +oo, to suma wszystkich punktów zdobytych we wszystkich narzędziach podzieloną przez tę liczbę „k", czyli średnia, daje właśnie ten wynik u i-tej osoby.
Jest to jednak bardzo idealistyczne podejście, ponieważ ów wynik prawdziwy może posiadać względną pozycję na skali. Ponadto ów wynik prawdziwy może oscylować pomiędzy dwoma punktami na osi chociażby ze względu na ciśnienie. Rzetelność pomiaru w fizyce polega na tym, że ze względu na własność badanego przedmiotu bada się wielokrotnie tym samym narzędziem.