Rozdział trzeci

> Sam wynik surowy w teście psychologicznym jest pozbawiony znaczenia jeśli brak jest danych pozwalających na interpretację. Przypuśćmy, mówiąc, że osoba rozwiązała poprawnie 15 zadań w teście rozumowania matematycznego nie przekazujemy żadnej albo prawie żadnej informacji na temat zajmowanej przez nią pozycji w grupie w zakresie mierzonej zdolności. Znaczenie wyniku zależy bowiem od stopnia trudności pozycji składających się na test. Tak jak wszystkie rodzaje wyników surowych, także wyniki wyrażone w procentach można interpretować jedynie w ramach określonego i jednolitego układu odniesienia.

- na ogół odnosząc je do norm, które odzwierciedlają poziom wykonania w próbie standaryzacyjnej. Normy ustala się więc empirycznie, określając, jak osoby z grupy reprezentatywnej rzeczywiście wykonują dany test. Następnie wynik surowy każdej osoby badanej odnosi się do rozkładu wyników uzyskanego w próbie standaryzacyjnej. Można wtedy stwierdzić w którym miejscu tego rozkładu plasuje się dana osoba (czy jej wynik odpowiada przeciętnemu, czy jest nieco powyżej itp.).

►po drugie, pozwalają na bezpośrednie porównywanie wyników w różnych testach. Wyników surowych nie można bezpośrednio porównywać ponieważ w różnych testach zazwyczaj wyraża się je w różnych jednostkach. Natomiast wyniki przeliczone dla różnych testów mogą być wyrażone w takich samych jednostkach i odnosić się do podobnych lub tych samych prób normalizacyjnych. Dzięki temu można porównywać względny poziom wyników danej jednostki w zakresie różnych funkcji.

Metody statystyczne stosuje się głównie po to by uporządkować i podsumować dane ilościowe w sposób ułatwiający ich zrozumienie. Przykładowo: mając rejestr zawierający 1000 wyników testowych nie mówi nam to za wiele. Aby uporządkować te surowe wyniki należy po pierwsze sporządzić tabelę zawierającą rozkład częstości wyników. Patrz tabela 3-1. s 79.Anastasi, Urbina.

Są to przykładowe wyniki jakie uzyskało 1000 studentów w teście uczenia się kodowania, w którym jeden ciąg sztucznych słów (bezsensownych sylab) trzeba było zastąpić drugim. Wyniki surowe, czyli liczba poprawnie zastąpionych sylab wahała się od 8 do 52. Zostały one pogrupowane w klasy o rozpiętości 4 punktów (od 52-55 na górnym krańcu do 8-11 na dolnym krańcu rozkładu). Z kolumny zawierającej częstości można odczytać, że 2 osoby uzyskały wynik między 8 a 11, 3 między
12 a 15 i.t.d.

Dane na takim rozkładzie przedstawione są w postaci graficznej. Na osi poziomej widoczne są wyniki pogrupowane w przedziały klasowe, na osi pionowej znajdują się częstości. Wykres ten wykonany jest na 2 sposoby: histogram i wielobok częstości. W przypadku histogramu wysokość kolumny wyrastającej z każdego przedziału klasowego odpowiada liczbie osób uzyskujących wynik w obrębie tego przedziału. W wieloboku częstości liczbę osób w każdym przedziale wskazuje punkt znajdujący się w środku przedziału klasowego na wysokości odpowiedniej częstości. Kolejne punkty łączy się następnie liniami Pomijając drobne nieregularności można uznać że rozkład ten przypomina krzywą normalną. Zwykle im większa grupa tym bardziej rozkład przypomina teoretyczną krzywą normalną.

> Zbiór wyników można też opisać posługując się pewnymi miarami tendencji centralnej. Taką miarą jest pojedynczy, najbardziej reprezentatywny wynik, który charakteryzuje poziom wykonania w całej grupie. Najbardziej znaną z tych miar jest przeciętna, czyli średnia (mean- M). Otrzymuje się ją przez dodanie wszystkich wyników i podzielenie otrzymanej sumy przez liczbę przypadków (N). Inną miarą jest modalna, czyli najczęściej występujący wynik. W rozkładzie częstości jest nią środek przedziału klasowego (najwyższa częstość wyników). Np. dla danych z tab.1 modalna przypada pośrodku między 32 i 35, a więc wynosi 33.5. Trzecią miarą tendencji centralnej jest mediana, czyli środkowy wynik otrzymany po uporządkowaniu pod względem wielkości wszystkich wyników. Mediana to punkt, który dzieli rozkład na dwie części (połowa przypadków poniżej, a połowa powyżej tego punktu).

> Dalszy opis zbioru wyników dostarczają nam miary zmienności (informujące o zakresie różnic indywidualnych w odniesieniu do tendencji centralnej). Najczęstszym sposobem informowania o zmienności jest podawanie rozstępu między najwyższym i najniższym wynikiem. Rozstęp jest jednak surową i niestabilną miarą, ponieważ określają go tylko dwa wyniki. Niezwykle wysoki lub niezwykle niski pojedynczy wynik może wpłynąć na wielkość rozstępu.

Dla oznaczenia wyników surowych stosuje się literę X, mała litera x odnosi się do odchyleń każdego wyniku od średniej dla grupy. Symbol ∑ oznacza sumę. Suma odchyleń zawsze jest równa zero (dodatnie i ujemne odchylenia od średniej równoważą się).

Użyteczną miarą zmienności jest odchylenie standardowe (standard deviation- oznaczane jako SD lub σ). Suma podzielona przez liczbę przypadków (∑x²/N) znana jest jako wariancja lub średnia kwadratów odchyleń. Wariancja ta jest szczególnie użyteczna przy określaniu wkładu różnych czynników w różnice indywidualne w wynikach testu.

Odchylenie standardowe, które stanowi pierwiastek kwadratowy z wariancji, jest miarą powszechnie używaną przy porównywaniu zmienności w różnych grupach. Jest ono większe w rozkładzie, w którym jest szerszy zakres różnic indywidualnych niż w rozkładzie w którym zakres ten jest węższy. Odchylenie standardowe jest podstawą ustalania norm, które służą do wyrażania wyników jednostki w różnych testach. W przypadku krzywej normalnej lub do niej zbliżonej istnieje ścisły związek między odchyleniem standardowym i proporcją przypadków:

(Między średnią a +1 odchyl.stand.przypada pod krzywą 34,13% przypadków, między średnią a -1 σ też przypada 34,13%. Niemal wszystkie przypadki (99,72%) znajdują się w obrębie 3 σ od średniej.)

Jednym ze sposobów nadawania znaczenia wynikom testowym jest pokazanie jak daleko na drodze normalnego rozwoju znalazła się jednostka np. o jakimś uczniu z czwartej klasy można powiedzieć, że osiąga poziom szóstej klasy w teście czytania i trzeciej w teście arytmetycznym.

Wyniki oparte na normach rozwojowych są psychometrycznie surowe i nie nadają się do precyzyjnej obróbki statystycznej. Są jednak przydatne do celów opisowych np.diagnozy klinicznej.

>Wiek umysłowy: do wieku podstawowego ( odpowiadającego poziomowi, dla którego i poniżej którego badany poprawnie wykonał wszystkie zadania) dodaje się odpowiednią liczbę miesięcy, za wszystkie poprawnie wykonane zadania z wyższych poziomów wieku.

Jednostka wieku umysłowego wskazuje tendencje do „kurczenia się” w miarę wzrastania wieku. Ponieważ tempo rozwoju umysłowego w młodszym wieku jest szybsze a potem spada (jeden rok przyspieszenia lub opóźnienia w wieku np. 5 lat stanowi większe odchylenie niż jeden rok opóźn. lub przysp. w wieku 10 lat).

Wyniki w testach osiągnięć szkolnych często interpretuje się określając odpowiadające im klasy. Normy dla klas opracowuje się w ten sposób, ż oblicza się średni wynik surowy uzyskany przez dzieci z każdej klasy(jeśli średnia zadań poprawnie rozwiązanych przez uczniów np. 4 klasy wynosi 23 to wynik surowy 23 jest odpowiednikiem tej klasy. Wady norm dla klas:

Skale porządkowe służą do określania etapu osiągniętego przez dziecko w rozwoju specyficznych funkcji. Wyniki można przedstawiać w postaci przybliżonych poziomów wieku. Porządkowy charakter takich skal wiąże się z jednostajnością przebiegu rozwoju przez kolejne stadia(np. wchodzenie na schody bez pomocy). Skale te maja te same istotne cechy co testy zorientowane na standard wykonania.

Dysponując nimi ocenia się poziom wyników jednostki na tle najbardziej odpowiadającej jej grupy standaryzacyjnej (np. porównuje się wynik surowy danego dziecka z wynikami dzieci w tym samym wieku).

Informują jaki procent osób w próbie standaryzacyjnej uzyskał wynik surowy niższy od danego. Np. jeśli 28% osób rozwiązuje poprawnie mniej niż 15 zadań w teście arytmetycznym to wynik surowy równy 15 odpowiada 28. centylowi (C 28). Centyl pokazuje względną pozycję jednostki w próbie standaryzacyjnej (im niższy centyl, tym gorszą pozycję zajmuje jednostka.

- nierówność jednostek centylowych, zwłaszcza na krańcach rozdziału (jeśli rozkład wyników surowych jest zbliżony do rozkładu normalnego to po przekształceniu na centyle różnice między wynikami surowymi zbliżonymi do mediany są wyolbrzymiane, a różnice między wynikami surowymi bliskimi końca rozkładu minimalizowane.

Wyrażają one odległość danego wyniku od średniej w jednostkach odchylenia standardowego rozkładu. Można je otrzymać zarówno poprzez liniowe, jak i nieliniowe przekształcenie pierwotnych wyników surowych. Jeśli stosujemy przekształcenie liniowe, to relacje między wynikami standaryzowanymi pozostają dokładnie takie same, jak relacje między pierwotnymi wynikami surowymi. Rozkład wyników standaryzowanych powiela wszystkie właściwości pierwotnego rozkładu wyników surowych.

- aby otrzymać wynik z (standaryzowany) należy obliczyć różnicę między wynikiem surowym danej jednostki a średnią grupy normalizacyjnej i następnie podzielić tę różnicę przez odchylenie standardowe dla grupy normalizacyjnej.

Wyniki standaryzowane będące efektem przekształceń liniowych są porównywalne tylko wtedy gdy pochodzą z rozkładów mających w przybliżeniu ten sam kształt. Jeżeli wyniki pochodzą z rozkładów o niepodobnych kształtach należy zastosować przekształcenie nieliniowe pozwalające dopasować wyniki do konkretnego typu rozkładu. Zazwyczaj dokonuje się przekształcenia na rozkład normalny.

To wyniki standaryzowane wyrażone w jednostkach rozkładu tak przekształconego by odpowiadał krzywej normalnej. Te wyniki są wyrażone w takiej samej postaci jak wyniki standaryzowane pochodzące z przekształcenia liniowego, czyli mają średnią równą zero i odchylenie standardowe równe 1.Znormalizowany wynik zero odpowiada średniej w rozkładzie normalnym i wskazuje, że jednostka jest lepsza niż 50% grupy. Wynik równy -1 oznacza, że przewyższa ona 16% grupy, a wynik równy +1 że jest lepsza od 84% osób grupy. Procenty te odpowiadają odległości poniżej i powyżej odchylenia standardowego od średniej w rozkładzie normalnym.

Stanin 1 2 3 4 5 6 7 8 9 Przekształceń można dokonać jeśli próba jest duża i reprezentatywna oraz gdy istnieje uzasadnione przypuszczenie, że odchylenie od rozkładu normalnego wynika raczej z niedostatków testu niż z właściwości próby .Jeśli wyniki surowe mają rozkład w przybliżeniu normalny to wyniki standaryzowane otrzymane w wyniku przekształcenia liniowego mają takie same zastosowania co znormalizowane wyniki standaryzowane.

Tradycyjne IQ to stosunek wieku umysłowego (WU) do wieku życia (WŻ) pomnożony przez 100, by wyeliminować części dziesiętne. IQ równy 100 odzwierciedlał więc normalny (przeciętny poziom wykonania). Problem tradycyjnego IQ polegał na tym, że jeśli odchylenia standardowe rozkładów IQ na poszczególnym wieku nie są w przybliżeniu takie same, to ilorazy inteligencji na tych poziomach nie są porównywalne.

Z tego powodu został on zastąpiony tak zwanym dewiacyjnym IQ , który stanowi pewien wariant wyniku standaryzowanego. Dewiacyjny IQ to wynik standaryzowany ze średnią równą 100 i odchyleniem standardowym zbliżonym do odchylenia standard. W rozkładzie IQ w Stanfordzkiej Skali Bineta, które oscylowało wokół wartości 16.

Dewiacyjne IQ są coraz powszechniej stosowane. Należy pamiętać, że ilorazy uzyskiwane w różnych testach można porównywać tylko wtedy gdy wartości odchyleń standardowych są w nich takie same lub zbliżone.

Wentyle mogą być wzięte za znormalizowane wyniki standaryzowane. Wyniki standaryzowane pochodzące z przekształcenia liniowego są nie do odróżnienia od znormalizowanych wyników standaryzowanych (o ile pierwotny rozkład wyników surowych jest zbliżony do rozkładu normalnego). Wyniki standaryzowane stają się ilorazami inteligencji i odwrotnie. Np. możemy wnioskować, że IQ równy 116 wypada w odległości jednego odchylenia standardowego powyżej średniej i odpowiada wynikowi standaryzowanemu równemu +1. podobnie IQ równy 132 odpowiada wynikowi standaryzowanemu +2 itd. (podsumowanie graficzne zależności (s.99).

Np. badania podłużne, jeśli w dokumentacji szkolnej dziecka są odnotowywane ilorazy inteligencji równe 118, 115, 101, odpowiednio w klasie IV, V, Vi to pierwsze pytanie należy zadać przed przystąpieniem do interpretacji zmian w IQ „jaki test wykonywało dziecko za każdym razem?”. Obniżenie wyników może odzwierciedlać jedynie różnice między testami.

Normy dla testu psychologicznego odzwierciedlają poziom wykonania testu przez osoby tworzące próbę standaryzacyjną. Przy doborze takiej próby zazwyczaj dąży się do uzyskania reprezentatywnego przekroju populacji, dla której test jest przeznaczony.

Przy doborze próby należy uwzględnić region geograficzny, poziom społ.-ekonom., i inne istotne właściwości, aby zagwarantować reprezentatywność próby dla określonej populacji.

Ważny jest także warunek reprezentatywności próby dla danej populacji. Z tym problemem ściśle wiąże się potrzeba określenia konkretnej populacji, dla której można stosować dane normy. Można to zapewnić poprzez np. zdefiniowanie populacji, by dokładnie pasowała do dostępnej dla badań próby.

Interpretując wyniki testowe należy brać pod uwagę specyficzne czynniki, które mogły oddziaływać na próbę normalizacyjną w toku standaryzacji danego testu np. warunki społeczne istniejące w czasie zbierania danych normalizacyjnych.

Jednym ze sposobów rozwiązywania problemu nieporównywalności norm jest zastosowanie testu bazowego, który umożliwiałby opracowanie tabel równoważności wyników w różnych testach. Tabele, które umożliwiają sprawdzenie, jakie wyniki w teście A odpowiadają poszczególnym wynikom w teście B sporządza się wykorzystując metodę równoważnych wentyli. Wyniki uważa się za równoważne, jeśli odpowiadają im takie same wentyle. Np. jeśli w danej grupie 80. centyl odpowiada w teście A IQ 115,a w teście B IQ 120 to te ilorazy uważa się za równoważne.

Należy pamiętać, że porównywalność uzyskana w danej sytuacji zależy nie tylko od podobieństwa testów pod względem treści oraz od własności psychometrycznych jak rzetelność i poziom trudności, ale także od procedur statystycznych stosowanych w celu jej uzyskania.

Istnieje także sposób polegający na standaryzowaniu testów dla węziej zdefiniowanych populacji, które odpowiadałyby specyficznemu przeznaczeniu każdego testu. Podając normy należy opisać ograniczenia populacji normalizacyjnej. Często przydają się oddzielne normy dla podgrup. Podgrupy mogą być zdefiniowane ze względu na wiek, klasę, rodzaj programu nauczania, płeć, region geograficzny, poziom społ.-ekonom. to jakiego rodzaju zmienne będą tu najbardziej istotne zależeć będą przewidywane zastosowania danego testu. Istnieją także normy lokalne, które są opracowywane dla konkretnych środowisk przez samych użytkowników testu np. pracodawca może opracować normy na podstawie gromadzonych wyników kandydatów do określonej pracy w obrębie konkretnego przedsiębiorstwa.

Wykorzystuje się ją w skali, w której dąży się do zapewnienia porównywalności i ciągłości wyników. W przypadku takiej skali interpretacja normatywna wymaga odniesienia się do niezależnie opracowanych norm, pochodzących z badania odpowiedniej populacji. W tym celu wykorzystuje się np. lokalne normy. Przykładem skalowania wykorzystującego stałą grupę odniesienia jest skala wyników w Teście Uzdolnień Szkolnych, przeznaczonym dla college'ów (SAT). Po 1941 roku wszystkie wyniki w SAT odnoszono do średniej i odchylenia standardowego rezultatów uzyskanych przez blisko 11 000 kandydatów, którzy wykonywali test w 1941 roku. Kandydaci ci stali się stałą grupą odniesienia wykorzystywaną przy skalowaniu kolejnych wersji testu. Czyli wynik równy 500 w którejkolwiek wersji SAT odpowiadał średniej dla próby z 1941 roku, wynik 600 wypadał o jedno odchylenie standardowe powyżej tej średniej itd.

Aby można było przekładać wyniki surowe poszczególnych wersji SAT na wyniki stałej grupy odniesienia do każdej wersji dołączano test bazowy (czyli zbiór wspólnych pozycji). Każda nowa wersja wiązana była więc z jedną lub dwiema wcześniejszymi wersjami, które były z kolei wiązane z jeszcze wcześniejszymi tworząc łańcuch zadań sięgających wstecz do wersji z 1941 roku.

Miara podstawowa : prawdopodobieństwo, że osoba o określonym poziomie zdolności (tak zwana cecha ukryta) odniesie powodzenie w zadaniu o określonym stopniu trudności. Nie zakłada się, że cechy ukryte istnieją w jakimkolwiek sensie fizycznym czy fizjologicznym. Są one konstruktami statystycznymi, wywiedzionymi matematycznie z empirycznie stwierdzanych związków między odpowiedziami w teście. Wynikiem surowym, czyli wstępnym oszacowaniem cechy ukrytej jest ogólny wynik uzyskany przez badanego w teście. Niektórzy zastąpili termin „cecha ukryta” bardziej precyzyjnym terminem : „ teoria odpowiedzi na pytania testu”.(IRT). To określenie przyjęło się w psychologii.

Do określenia początku skali i wielkości jednostek nie wykorzystuje się średniej i odchylenia stand. lecz określa się je na podstawie danych, które mogą pochodzić z szeregu prób i które reprezentują szeroki zakres zdolności trudności pozycji. Za początek często uważany jest środek tego zakresu. Jednostkę skali otrzymuje się matematycznie na podstawie danych dotyczących pozycji.

Komputery stosowano początkowo do analizy danych i obliczania wyników. Także do przeprowadzania badania tradycyjnymi testami. Większość stosowanych obecnie testów jest przystosowana do komputerowego obliczania wyników. W przypadku niektórych testów możliwa jest opisowa interpretacja komputerowa wyników testu. Program komputerowy łączy przygotowanie twierdzenia opisowe z określoną konfiguracją wyników testowych. Taki sposób podejścia znalazł zastosowanie zarówno w odniesieniu do testów osobowości jak o testów uzdolnień.

>Interakcyjne systemy komputerowe to przykład zindywidualizowanej interpretacji wyników testowych na złożonym poziomie. Umożliwiają one jednostce bezpośredni dialog z komputerem. Zastosowanie głównie w dziedzinie planowania kariery edukacyjnej i zawodowej i podejmowania decyzji.

Ważne aby wyniki otrzymane w badaniu były porównywalne (jeśli test jest stosowany w wersji komputerowej oraz w wersji tradycyjnej). Druga zasada mówi o tym, że jeśli raporty zawierające interpretację wyników mają być wykorzystywane do celów klinicznych lub w innych obszarach dotyczących człowieka to ważne jest aby brać pod uwagę inne dostępne źródła informacji na temat osoby badanej.

W testach zorientowany na standard wykonania punktem odniesienia przy interpretacji wyników jest konkretny zakres wiedzy, a nie określona populacja osób. Czyli sposób ten jest przeciwstawny do podejścia zorientowanego na normy. W testach zorientowanych na standard wykonania wyniki osoby badanej opisuje się wskazując na specyficzne operacje matematyczne, jakie opanowała, na rozmiar jej słownika.

Interpretacja tych testów dokonywana jest w kategoriach treściowych. Ważne jest tu to co osoby badane mogą zrobić i co wiedzą a nie to jak wypadają w porównaniu z innymi. Przy konstruowaniu takiego testu ważne jest więc jasne zdefiniowane zakresu wiedzy czy umiejętności, których ocenie ma służyć test.

Z testem zorientowanym na standard wykonania łączy się procedurę stosowaną przy badaniu biegłości. Dostarcza ona zazwyczaj wyniku zero-jedynkowego, który mówi o tym, czy jednostka osiągnęła wcześniej ustalony poziom biegłości czy nie. Jeśli bada się umiejętności podstawowe zazwyczaj oczekuje się prawie całkowitego ich opanowania (np. 80 do 85%) ewentualnie podziału na 3 kategorie: biegłość, brak biegłości i kategoria pośrednia np. z przypadkami wątpliwymi.

Jeśli chodzi o przedmioty bardziej zaawansowane i mniej strukturalizowane testowanie biegłości nie wystarcza. W funkcjach takich jak myślenie krytyczne, oryginalność czy rozumienie jednostka może osiągać prawie nieograniczone postępy. Zakres treści w ich ramach może też powiększać się w różnych kierunkach. Do oceny poziomu takich osiągnięć stosuje się wtedy testy, w których wynik odnoszony jest do norm.

Wiele sytuacji wymaga określenia wyników granicznych, np. przy zatrudnianiu pracowników elektrowni jądrowej czy selekcji pilotów linii lotniczych. W dziedzinie edukacji taką sytuacją gdzie klasyfikuje się zgodnie z regułą „ wszystko albo nic” jest kończenie kursu lub szkoły. Za stosowaniem wyników granicznych przemawia istnienie kluczowych właściwości koniecznych do wykonywania pewnych działań. Np. operatorzy urządzeń hydrolokacyjnych muszą charakteryzować się bardzo dobrym różnicowaniem słuchowym. Przy wykorzystywaniu wyników granicznych należy być świadomym mogących wystąpić błędów i starać się je redukować. Należy na przykład starać się aby wynikiem granicznym była wiązka wyników, a nie pojedynczy wynik. Także przy podejmowaniu indywidualnych decyzji należy brać pod uwagę wiele źródeł informacji na temat każdej osoby a wyniki testowe uzupełniać innymi istotnymi danymi mówiącymi o aktualnym i przyszłym poziomie funkcjonowania. Wyniki graniczne należy zawsze jak to jest tylko możliwe ustalać i weryfikować na podstawie danych empirycznych.

Jednym ze sposobów interpretowania wyników testowych jest analizowanie ich ze względu na oczekiwane rezultaty w kryterium takim jak wynik szkolenia czy osiągnięcia w pracy zawodowej

Wartości oczekiwane podaje się w tabeli. Podane jest w niej prawdopodobieństwo uzyskania różnych wyników kryterialnych przez osoby otrzymujące każdy z możliwych wyników w teście. Np. jeśli uczeń uzyskał 530 pkt w teście diagnozy szkolnej (SAT) to jakie są jego szanse że jego przeciętna ocena na 1 roku wyniesie A, B, C, D czy F? takie informacje można uzyskać analizując dwuzmiennowy rozkład wyników predykatora (SAT) i kryterium (przeciętna ocena na I roku) jeśli liczbę przypadków w każdej komórce zamienimy takiego dwuzmiennowego rozkładu zamienimy na procenty, to powstanie tabela wartości oczekiwanych (tab. S 119)

W praktycznych sytuacjach kryterium może mieć charakter dychotomiczny czyli być określone jako „ sukces” lub „porażka” w pracy, nauce itp. Wtedy można opracować wykres wartości oczekiwanych, który pokazuje prawdopodobieństwo sukcesu lub porażki odpowiadającemu każdemu przedziałowi wyników.