Rozdzial II, Rozdział II


Rozdział II. Pomiar pedagogiczny jako podstawa diagnostyki edukacyjnej

W poprzednim rozdziale określiliśmy pomiar jako przyporządkowywanie obiektom symboli według empirycznie sprawdzalnych reguł. Procedury pomiarowe są zobiektywizowane. Jaką mają wartość dla diagnostyki edukacyjnej? Jak dalece są potrzebne nauczycielowi-wychowawcy w jego codziennej pracy z uczniami-wychowankami oraz do ulepszania warsztatu pedagogicznego? By odpowiedzieć na te pytania, trzeba poznać najważniejsze procedury pomiarowe, począwszy od konstrukcji skali.

2.1. Skale pomiarowe

Skala pomiarowa jest systemem symboli przedstawiających wyniki pomiaru. Ten system ma swój skład w postaci zbioru symboli (nazw, liczb, innych znaków) i strukturę w postaci układu relacji między tymi symbolami.

Symbole pomiarowe są wymienne. Na przykład: liczba 5 (w Polsce), liczba 1 (w Niemczech), litera A (w Anglii), nazwa przymiotnikowa „bardzo dobry” lub rzeczownikowa „mistrz” i odpowiednio dobrane ikony (np. ) mogą mieć to samo znaczenie treściowe, a więc wskazywać na opanowanie tego samego zakresu treści kształcenia. Struktury pomiarowe natomiast nie są wymienne. Każda zmiana w nich dokonana powoduje zwiększenie lub zmniejszenie zakresu uprawnionych operacji matematycznych na symbolach. Z tego powodu specjaliści przywiązują znacznie większą wagę do relacji między symbolami niż do rodzaju symboli, jakie zastosowano w pomiarze.

Bardzo przydatna w diagnostyce edukacyjnej jest klasyfikacja skal pomiarowych dokonana przed ponad półwieczem przez S.S. Stevensa (1951), obejmująca cztery rodzaje skal: nominalną, porządkową, przedziałową i stosunkową.

2.1.1. Skala nominalna

Skala nominalna polega na rozróżnianiu jakości, a dokładniej - na zaliczaniu obiektów do określonych kategorii uznawanych za równorzędne. Decyzje podejmowane przy posługiwaniu się skalą nominalną polegają na przyporządkowaniu lub nie przyporządkowaniu obiektu do danej klasy.

Obiektywizacja procedury pomiarowej przy zastosowaniu skali nominalnej polega na dwóch zabiegach:

1. Kategorie wyników pomiaru muszą być zdefiniowane przed jego dokonaniem. Ta właściwość różni pomiar nominalny od jakościowych metod badawczych, w których badacz rozpoczyna od nieukierunkowanej obserwacji obiektów i przyjmuje założenie o ich niepowtarzalności (Konarzewski, 2000. r. 2 i 4). Pomiar należy do ilościowych metod badawczych, nastawionych na prawidłowości dotyczące powtarzalnych właściwości obiektów i sytuacji (tamże, r. 3). Jak widać, pomiar nie może objąć „całego człowieka”, który jest bez wątpienia bytem indywidualnym, ani całej jego sytuacji, która nigdy dokładnie się nie powtarza. Skala nominalna dotyczy tylko określonych właściwości (cech) obiektu, wybranych ze względu na cel diagnozy.

2. Sposób przyporządkowania określonej kategorii obiektom musi być ustalony i sprawdzony. Właściwości klasyfikowane są bezpośrednio, jak np. płeć ucznia na podstawie jego wyglądu, lub pośrednio, jak płeć na podstawie imiennego rejestru uczniów. W każdym przypadku posługujemy się wskaźnikami badanej właściwości, czyli danymi, na podstawie których wnioskujemy o istnieniu tej właściwości.

Wskaźniki ułatwiają klasyfikację, ale nie są niezawodne. Przy obserwacji ucznia-wychowanka jego rysy twarzy, uczesanie, ubiór, a nawet brzmienie głosu, mogą wprowadzać obserwatora w błąd co do płci. Rejestr uczniów może zawierać pomyłki, wiele nazwisk nie przybiera końcówek rodzajowych, a niektóre imiona (np. amerykańskie) mogą być wspólne dla chłopców i dziewcząt. Z tego względu procedurę trzeba sprawdzić, gdy zaś diagnozowana właściwość nie jest bezpośrednio obserwowalna (jak motywacja, inteligencja, aspiracje edukacyjne), każdy sposób przyporządkowania kategorii skali danego rodzaju obiektom podlega uzasadnionej krytyce.

Zakres posługiwania się nominalną skalą pomiarową jest w diagnostyce edukacyjnej szeroki. Obejmuje większość właściwości kontekstu kształcenia, w tym zwłaszcza jego cechy kulturowe (ekonomiczne, populacyjne, obyczajowe), które chcemy rozpoznać i nazwać, ale nie wartościować. Także poszczególne cechy osobowości uczniów (zdolności, temperament, aspiracje) mogą być skategoryzowane, jako elementy struktury osobowości. Wszelkie działania edukacyjne (ich cele, metody, środki) mają charakter jakościowy, nie ilościowy, ale możemy je rozróżniać i ogólnie klasyfikować. Wreszcie wyniki uczenia się, zwłaszcza w dziedzinie emocjonalnej, bywają dostępne pomiarowi tylko na szczeblu nominalnym.

Dane przedstawione w skali nominalnej mogą być poddane operacjom matematycznym opartym na liczeniu obiektów każdej kategorii oraz na porównywaniu liczebności między kategoriami. Jeżeli na przykład dwanaścioro uczniów wykazało - jako główne - zainteresowania sportowe, ośmioro - zainteresowania artystyczne, pięcioro - humanistyczne i troje - matematyczno-przyrodnicze, to możemy te dane przedstawić w procentach (odpowiednio: 42%, 29%, 18%, 11%), ustalić wartość modalną, najczęstszą (zainteresowania sportowe), a tabelę poddać testowi istotności różnic między liczebnościami (statystyka chi-kwadrat). Wnioski mogą dotyczyć zarówno pojedynczego ucznia-wychowanka, jak też grupy, ale nie mogą wybiegać poza rozróżnienie jakości.

2.1.2. Skala porządkowa

Skala porządkowa polega na ustaleniu hierarchii wartości, a więc na odróżnianiu wartości wyższych i niższych (większych i mniejszych). Jej kategorie są uporządkowane w ten sposób, że każda wyższa jest bardziej ceniona niż od niej niższa. Gdy można ustalić, co więcej zawiera wyższa kategoria w stosunku do niższej kategorii, a więc niższa kategoria jest częścią wyższej, mówimy o kumulatywności skali porządkowej.

Zbudowanie skali porządkowej w pedagogice i w innych naukach społecznych jest niełatwym zadaniem. Zasadniczą trudność stanowi takie jej unormowanie, by przyporządkowanie stopnia skali obiektowi pomiaru było maksymalnie zobiektywizowane. Staramy się to uzyskać przez zastosowanie następującej procedury:

1. Zdefiniowanie każdej kategorii wyników pomiaru w taki sposób, by odróżnienie kategorii bezpośrednio wyższej i bezpośrednio niższej było możliwie dokładne. Nadają się do tego zwłaszcza definicje operacyjne, zawierające informacje o wskaźnikach, jakie mają być zastosowane. Na przykład określenie „płynnie czyta głośno” nie wystarczy do precyzyjnego odróżnienia biegłych i mniej biegłych czytelników. Niezbędne bywają wskaźniki szybkości czytania (liczba słów typowego tekstu na minutę), dopuszczalnej liczby błędów (potknięć, zahamowań) i ewentualnie poziomu zrozumienia tekstu.

2. Sprawdzenie wytworzonej hierarchii przez różnych użytkowników wobec różnych obiektów. Tę czynność jest podstawą standaryzacją skali porządkowej, a jej pozytywny wynik pozwala uznać mierzoną właściwość za stopniowalną, czyli za możliwą do przedstawienia w kategoriach skali porządkowej.

Wzorem nauk przyrodniczych (klasyfikacji roślin i zwierząt dokonanej przez Linneusza), w naukach społecznych rosnącą rolę odgrywają taksonomie, czyli hierarchiczne klasyfikacje obiektów realnych i abstrakcyjnych. W poprzednim rozdziale przypomniano taksonomię potrzeb człowieka, zaproponowaną w psychologii przez Maslowa, a w podręcznikach dydaktyki (np. Niemierko, 2007) pojawiają się taksonomie: zmian w uczniu, celów kształcenia, odbioru informacji, zaangażowania nauczyciela, trafności sprawdzania i inne. Także podręczniki socjologii (Sztompka, 2002) zawierają liczne układy hierarchicznie uporządkowanych pojęć.

Jako modele rzeczywistości taksonomie nigdy nie są jej w pełni wierne, zawsze stanowią duże uproszczenie i z tego względu wywołują ostre dyskusje (zob. Niemierko, 1990, s. 212 - 215). Ich rola bywa większa w projektowaniu kształcenia. Gdy standardy edukacyjne, jako opisy osiągnięć uznanych za niezbędne na danym szczeblu kształcenia ogólnego lub zawodowego, są zbudowane w postaci wielostopniowej, mogą służyć zarówno do diagnozy wstępnej osiągnięć uczniów i doboru właściwego poziomu kształcenia, do regulowania przebiegu kształcenia, jak też do diagnozy końcowej, egzaminowania i dyplomowania. Dobrym przykładem tego jest „Europejski system opisu kształcenia językowego” (Coste i in., 2001).

2.1.3. Skala porządkowa znajomości języka obcego

Zespół czterech autorów powołany przez Radę Europy - Daniel Coste, Brian North, Joseph Sheils i John Trim - dokonał opracowania, które może być wzorem normowania wybranej dziedziny kształcenia przez budowanie skali porządkowej wymaganych osiągnięć. Międzynarodowy przepływ uczniów i studentów oraz siły roboczej wywołał potrzebę takiego systemu.

Wyznaczono trzy poziomy biegłości językowej: A. Poziom podstawowy, B. Poziom samodzielności i C. Poziom biegłości, a każdy z nich podzielono dodatkowo na dwa szczeble, tworząc sześciokategorialną taksonomię: A1 „Przełom”, A2 „Fundament”, B1 „Próg”, B2 „Perspektywa”, C1 „Skuteczność”, C2 „Mistrzostwo”.

A oto standardy osiągnięć na trzech z sześciu wyróżnionych poziomów (tamże, s. 33):

A2. Osoba posługująca się językiem na tym poziomie rozumie wypowiedzi i często używane wyrażenia podstawowe w zakresie tematów związanych z życiem codziennym (są to np.: bardzo podstawowe informacje dotyczące rozmówcy i jego rodziny, zakupów, otoczenia, pracy). Potrafi porozumiewać się w rutynowych, prostych sytuacjach komunikacyjnych, wymagających jedynie bezpośredniej wymiany zdań na tematy znane i typowe. Potrafi w prosty sposób opisywać swoje pochodzenie i otoczenie, w którym żyje, a także poruszać sprawy związane z najważniejszymi potrzebami życia codziennego.

B2. Osoba posługująca się językiem na tym poziomie rozumie znaczenie głównych wątków przekazu w złożonych teksach na tematy konkretne i abstrakcyjne, łącznie z rozumieniem dyskusji na tematy techniczne ze swojej specjalności. Potrafi porozumiewać się na tyle płynnie i spontanicznie, by prowadzić normalną rozmowę z rodzimym użytkownikiem języka, nie powodując przy tym napięcia u którejkolwiek ze stron. Potrafi - w szerokim zakresie tematów - formułować przejrzyste i szczegółowe wypowiedzi ustne lub pisemne, a także wyjaśniać swoje stanowisko w sprawach będących przedmiotem dyskusji, rozważając wady i zalety rożnych rozwiązań.

C2. Osoba posługująca się językiem na tym poziomie może z łatwością zrozumieć praktycznie wszystko, co usłyszy lub przeczyta. Potrafi streszczać informacje pochodzące z rożnych źródeł, pisanych lub mówionych, w spójny sposób odtwarzając zawarte w nich tezy i wyjaśnienia. Potrafi wyrażać swoje myśli płynnie, spontanicznie i precyzyjnie, subtelnie różnicując odcienie znaczeniowe nawet w bardzo złożonych wypowiedziach.

O powyższych standardach i o ich układzie warto poczynić następujące uwagi:

1. Autorzy zadbali o operacyjność sformułowań. Opisują konkretne czynności (zachowania) „osoby posługującej się językiem” w określonych sytuacjach, a nie tylko nazywają jej umiejętności (rozumienie, porozumiewanie się, wyrażanie). Charakterystyczny zwrot „potrafi” kieruje naszą myśl ku sprawdzeniu, czy dana czynność jest opanowana (czy kandydat rzeczywiście potrafi ją wykonać).

2. Między poziomami osiągnięć występuje kumulatywność w tym sensie, że „rozumie praktycznie wszystko” (C2), mieści w sobie „rozumie znaczenie głównych wątków przekazu w złożonych tekstach” (B2), a to z kolei obejmuje „rozumie wypowiedzi i często używane wyrażenia podstawowe” (A2). Podobnie „potrafi wyrażać swoje myśli płynnie, spontanicznie i precyzyjnie” (C2) zawiera „potrafi porozumiewać się na tyle płynnie i spontanicznie, by prowadzić normalną rozmowę” (B2) i z kolei „potrafi porozumiewać się w rutynowych, prostych sytuacjach komunikacyjnych” (A2). Nie da się uzyskać wyższego poziomu osiągnięć w danym zakresie bez uzyskania niższego poziomu.

3. Opisy poziomów sa zwięzłe (trzyzdaniowe), co pozwala na uzyskanie jasnego wyobrażenia umiejętności językowych, ale nie wystarcza na to, by je ćwiczyć i mierzyć. Dlatego autorzy „Europejskiego systemu opisu kształcenia językowego” rozwinęli w swym opracowaniu standardy ogólne w bardziej szczegółowe opisy poziomów opanowania pięciu głównych umiejętności: słuchania, czytania, porozumiewania się, mówienia i pisania, co uporządkowało dziedzinę i pogłębiło operacyjność sformułowań.

4. Dopełnieniem standardów są narzędzia pomiaru osiągnięć. Wydawnictwo odsyła do testów języka angielskiego stosowanych w Cambridge, ale inne testy językowe także mogą być dopasowane do norm Rady Europy. Zastępczą, znacznie mniej rzetelną procedurą pomiarową może być zastosowanie tabel samooceny biegłości językowej (tamże, s. 34 - 35), w których normy są zredagowane w pierwszej osobie liczby pojedynczej („Potrafię zrozumieć znane mi słowa…” itd.). Daje to wstępną orientację co do testów, jakie należałoby wybrać dla potwierdzenia poziomu osiągnięć.

2.1.4. Skala przedziałowa

Skala przedziałowa powstaje przez ustalenie jednostki pomiaru jako wzorcowej ilości tej właściwości, która chcemy zmierzyć. Wymaga założenia o jednorodności (homogeniczności), czyli wewnętrznej spójności mierzonej właściwości (cechy obiektów), pozwalającej na jej przedstawianie ilościowe. Jednostka pomiaru jest zwykle niewielka, tak by różnice ilościowe mogły być precyzyjne. Każda para symboli skali przedziałowej przedstawia różnicę między obiektami wyrażone liczbą jednostek pomiarowych.

Nauki fizykalne (matematyczno-przyrodnicze) operują dokładnie zdefiniowanymi jednostkami pomiaru: długości, pola, objętości, masy, siły, czasu, energii, ciepła i wieloma innymi. Daje to im prawo dokonywania zaawansowanych operacji matematycznych na symbolach przedstawiających wyniki pomiaru. Tej możliwości nie mają nauki humanistyczne, obejmujące właściwości, które nie są jednorodne. Już konsekwentne porządkowanie klas jakościowych, jak to sygnalizowano w p. 2.1.2, nastręcza wiele trudności, gdyż różnice między klasami są wielowymiarowe i np. rozumienie języka obcego, mówienie, czytanie i pisanie (sklasyfikowane w p. 2.1.3) mogą przybrać wartości rozbieżne. Nadto są to różnice strukturalne, jakościowe, i sprowadzenie ich do liczby jednostek elementarnych, jakimi są głoski, wyrazy i wzory zdań, miałoby zgoła niewielki sens praktyczny.

A jednak pedagogom trudno wyrzec się korzyści, jakie daje odmierzanie wyników uczenia się w jednostkach skali przedziałowej. Możliwe są tu dwa wyjścia:

1. Uproszczenie. Przyjmujemy, że przedziały skali porządkowej, czyli różnice między kolejnymi stopniami, są równe (a więc np. ocena „celująca” - „bardzo dobra” = „bardzo dobra” - „dobra”) i w ten sposób tworzymy jednostkę pomiaru. To założenie pozwala nam wykonywać na stopniach działania arytmetyczne, obliczać średnią, miary rozrzutu i miary korelacji, a także stosować indukcję statystyczną (szacowanie istotności różnic i siły związków).

Gdy stopnie lub inne symbole dotyczą różnych zakresów przedmiotu szkolnego, a nawet różnych przedmiotów, uproszczenia towarzyszące działaniom arytmetycznym na tych stopniach są jeszcze większe, bo cała treść osiągnięć uczniów jest traktowana jako jednorodna. Mimo naiwności takiego założenia jest ono przyjmowane w diagnostyce nieformalnej.

2. Zastąpienie. Jednostkę pomiaru uzyskujemy wtórnie, interpretując rozkład właściwości w populacji obiektów i zakładając, że działają w niej prawa rachunku prawdopodobieństwa. Na takim założeniu wyrosła klasyczna psychometria, metoda badawcza psychologii różnic indywidualnych.

Gdy wyniki pomiaru są zadowalająco zróżnicowane, ich rozkład da się przekształcić na przybliżenie rozkładu normalnego (Gaussa), o charakterystycznym kształcie dzwonowym: spiętrzeniu wyników w części środkowej i ramionach rozciągających się symetrycznie w obie strony. Takie przekształcenie nazywamy normalizacją rozkładu, a skalę wytworzoną u jego podstawy (na osi poziomej) nazywamy skalą znormalizowaną. O skali znormalizowanej możemy sądzić, że przedstawia dostatecznie jednorodną właściwość jednakowo dokładnie we wszystkich częściach rozkładu wyników pomiaru.

Pozostaje nam teraz podzielić uzyskana prostą (kontinuum) na jednakowej długości odcinki. Dokonujemy tego według odchylenia standardowego rozkładu, tworząc skalę standardową. Jednostką skali standardowej bywa od 1/2 do 1/100 odchylenia standardowego, zależnie od tego, z jaką dokładnością chcemy przedstawiać wyniki pomiaru. Skale zbudowane z jednostek tych dwu wielkości przedstawia rys. 5.

0x08 graphic
0x01 graphic
Odchylenie standardowe |__________|

Skala staninowa 1 2 3 4 5 6 7 8 9

______________|_____|_____|_____|_____|_____|_____|_____|____________

4% 7% 12% 17% 20% 17% 12% 7% 4%

Skala akademicka 200 300 400 500 600 700 800

|___________|__________|__________|__________|__________|__________|

2% 14% 34% 34% 14% 2%

Rysunek 5. Rozkład normalny i dwie standardowe skale znormalizowane

Rys. 5 wymaga kilku objaśnień:

1. Ponieważ odchylenia standardowe rozkładu odmierzamy od średniej wyników pomiaru, połowa przedziałów skali standardowej miałaby numery ujemne, co utrudniłoby obliczenia i miałoby niekorzystny efekt psychiczny, sugerując badanemu porażkę. Zapobiegamy temu, dodając do numeru przedziału stałą o zadowalającej wielkości: 5 i 500 jednostek.

2. Pierwsza z dwu skal, popularna w normowaniu testów osiągnięć w Stanach Zjednoczonych, a stosowana w Polsce do przedstawiania wyników sprawdzianu po szkole podstawowej i egzaminu gimnazjalnego, skala staninowa (dziewiątkowa, stanine = standard + nine) ma dziewięć jednostek (1 - 9), z których siedem środkowych stanowi równe przedziały, a dwa krańcowe są półotwarte. Wynik „pięć staninów” uzyskuje aż 20 procent badanych (w próbie standaryzacyjnej), wyniki „cztery staniny” i „sześć staninów” - po 17 procent itd. Tak ogólne grupowanie badanych odpowiada rzetelności pomiaru, jaką możemy uzyskać w edukacji, a jednocyfrowe numery staninów ułatwiają dokumentowanie i analizę wyników. W Polsce uzgodniono (Niemierko, 1999, s. 272) następujące nazwy kolejnych staninów: najniższy, bardzo niski, niski, niżej średni, średni, wyżej średni, wysoki, bardzo wysoki i najwyższy.

3. Druga z przedstawionych skal, skala akademicka (w Stanach Zjednoczonych znana jako CEEB scale, gdyż jest stosowana w College Entrance Examination Board), proponowana do przedstawiania wyników polskiej matury, ma 601 jednostek (200 - 800). Tak wielka dokładność ma znaczenie tylko przy obliczaniu i porównywaniu średnich, a w stosunku do jednego kandydata ogranicza się ją zazwyczaj do pełnych dziesiątek.

4. Skale standardowe wydają się niespecjalistom trudne z dwu powodów:

a. Stanowią miary pozycyjne, gdyż oszacowanie jakości zastąpiono w nich oszacowaniem pozycji w zbiorze (grupie), nazywanej w statystyce rangą wyniku. Ranga jest wartością względną, zależną od wyników innych badanych, dość obcą pedagogice, nastawionej na planowe zmiany w uczniach-wychowankach.

b. Wymagają przekształcenia rozkładu wyników. Jest to wprawdzie operacja dość prosta, oparta na wyznaczeniu centyli, jako punktów na (dostatecznie długiej) skali wyników surowych (nieprzekształconych), poniżej których mieści się określony procent wyników (np. w skali staninowej: 4%, 4 + 7 = 11%, 11 + 12 = 23% itd., patrz: Niemierko, s. 267-269), ale łatwo przy niej zgubić sens przekształcenia. Wykonując te obliczenia, traktujemy skalę wyników surowych jako jednorodną skalę porządkową, przedstawiającą mierzoną właściwość jednolicie na całej swej długości, a pedagog dostrzega odmienne znaczenie treściowe różnych wyników. Na interpretację tego znaczenia musi czekać do chwili gotowości skali standardowej, dlatego normalizacja rozkładu wydaje mu się abstrakcją, zwłaszcza iż nie da się wprost dowieść, że mierzona właściwość podlega prawom rachunku prawdopodobieństwa.

Wynik pomiaru w skali standardowej jest zależny od populacji obiektów (uczniów-wychowanków), reprezentowanej przez próbę standaryzacyjną, to jest przez zbiór elementów populacji wykorzystany w procesie standaryzacji narzędzia. Ten sam wynik surowy będzie zamieniony na więcej staninów i więcej punktów skali akademickiej, gdy populację stanowić będzie ogół uczniów danej klasy w Polsce, a mniej staninów i mniej punktów skali akademickiej, gdy populację stanowić będą jedynie kandydaci do selekcyjnych szkół wyższego szczebla, a więc na ogół lepiej przygotowani do egzaminu. Badana populacja ustanawia skalę i dyktuje normy.

Tej wady nie ma skala teta, uzyskiwana przez zastosowanie teorii wyniku zadania (teorii odpowiadania na pozycję testu, ang. item response theory, IRT), obejmującej probabilistyczne modele pomiaru (Hambleton i Swaminathan, 1985; Hornowska, 2001, s. 193-204). Wymaga ona jeszcze silniejszego założenia o jednorodności mierzonej właściwości niż skale standardowe, oparte na klasycznej teorii testu. Tym założeniem jest lokalna niezależność zadań, oznaczająca że wynik każdego zadania jest u wszystkich badanych statystycznie niezależny od wyniku jakiegokolwiek innego zadania testu, a zależny jedynie od mierzonej właściwości. Grupy zadań mają być więc pozbawione wyróżniającej je spójności.

Dla zbiorów zadań spełniających założenie o lokalnej niezależności funkcja teta wyznacza prawdopodobieństwo prawidłowego rozwiązania poszczególnego zadania. Zero skali przypada w punkcie, w którym prawdopodobieństwo rozwiązania tych zadań wynosi 0,5 (lub nieco więcej, gdy istnieje możliwość zgadywania odpowiedzi). Skala teta jest zwykle użytkowana w granicach od -3,00 do 3,00 (co odpowiada rozstępowi wyników 200 - 800 w skali akademickiej), gdyż wyniki poza tymi granicami, choć niekiedy zdarzają się, są rzadkie i bardzo niedokładne.

Do poprawnego skalowania testu tą metodą potrzebne są duże próby standaryzacyjne (2 tysiące i więcej badanych) i zaawansowane oprogramowanie. Jest najczęściej stosowana do tworzenia banków zadań, w postaci komputerowych baz danych o właściwościach zadań, które mogą być wykorzystane do budowy nowego narzędzia (Szaleniec, 2005).

Gdy skala teta jest oparta na założeniu rozkładu normalnego mierzonej właściwości (co nie jest konieczne, ale często stosowane), wyniki pomiaru w niej wyrażone okazują się wysoko skorelowane z wynikami przedstawionymi w skalach standardowych, mimo iż sposób ich szacowania jest odmienny (Ciżkowicz, 2005). Mała intuicyjność pojęć teorii wyniku zadania oraz matematyczne zaawansowanie programów obliczeniowych powodują, że jej wykorzystanie jest na razie ograniczone do wąskiego grona specjalistów psychometrii. Zalety matematyczne skali teta mogą jednak w przyszłości przeważyć szalę na jej korzyść.

2.1.5. Skala stosunkowa

Skala stosunkowa ma równe przedziały i nadto bezwzględne (naturalne) zero, tak że wyniki ujemne w niej nie istnieją. Dzięki temu pary symboli tej skali przedstawiają stosunki wartości obiektów pod względem mierzonej właściwości i możemy np. powiedzieć, że jakieś osiągnięcia są dwa razy większe lub dwa razy mniejsze od innych osiągnięć.

Wbrew temu, co mogłoby się wydawać, bezwzględne zero wiadomości i umiejętności jest bardzo trudne, a w większości dziedzin niemożliwe do ustalenia. Nie jest nim nierozwiązanie żadnego zadania, bo zwykle łatwo jest zbudować zadania łatwiejsze, które badany mógłby rozwiązać. Wyjątkiem są testy szybkości, w których miarą osiągnięć jest liczba prostych czynności (przeczytanych wyrazów, napisanych znaków, przebytych odcinków drogi) w określonym czasie (np. minuty). Niewykonanie żadnej czynności w tym czasie jest naturalnym zerem osiągnięć. Takie diagnozy jednak odgrywają w pedagogice marginesową rolę.

Psychometria obywa się niemal zupełnie bez skal stosunkowych, ale - przez analogię do pomiarów fizykalnych - są one mocno zakorzenione w powszechnej świadomości. Opinia publiczna traktuje rozwiązanie wszystkich zadań (wykonanie wszystkich przewidzianych czynności) jako bezwzględny pułap (maksimum) osiągnięć, nierozwiązanie żadnego zadania jako bezwzględne zero osiągnięć, a każdy wynik uzyskany w tym przedziale jako procent opanowanej treści. Tak powstają pseudonormy wymagań, to jest normy oparte na nieuprawnionych założeniach statystycznych (bezwzględne zero, maksimum, równe przedziały), pozbawione jakościowego uzasadnienia programowego.

Możliwe są pewne ulepszenia pseudonorm wymagań. Na przykład Leszek Ciesielski (2006) zaproponował dolną granicę dziewiątego stanina (1,75 odchylenia standardowego, 675 punktów skali akademickiej) w ogólnokrajowym rozkładzie wyników matury jako umowne 100 procent oczekiwanych osiągnięć. Dzięki temu, zakładając stałość osiągnięć w populacji maturzystów, wahania trudności testów maturalnych z roku na rok i między przedmiotami mogą być zniwelowane. Dalszy postęp może przynieść ustalenie znaczenia treściowego wybranych punktów nowej skali (np. 20%, 40%, 60%, 80%, 100%).

2.2. Pomiar sprawdzający i różnicujący

W psychologii dąży się do ujęcia różnic indywidualnych w ograniczoną, możliwie niewielką liczbę jednorodnych wymiarów, takich jak inteligencja ogólna, introwersja-ekstrawersja, neurotyzm, tolerancja na stres. Takie podejście, przy założeniu rozkładu normalnego każdej właściwości, umożliwia budowanie skal przedziałowych dla poszczególnych właściwości człowieka. Pojedyncze zadanie (pozycja testowa lub kwestionariuszowa) reprezentuje, lepiej lub gorzej, zmienną ukrytą (latentną), stanowiącą o interkorelacji wyników zadań jako wskaźników tej zmiennej. Te wskaźniki - suma punktów lub prawdopodobieństwo rozwiązania podobnych zadań w teorii wyniku zadania - wyznaczają pozycję badanego na skali hipotetycznej zmiennej ukrytej.

Właściwości interesujące pedagoga są jednak różnorodne (heterogeniczne), mało spójne. Czynności opanowywane przez ucznia-wychowanka mogą być zróżnicowane ze względu na informację potrzebną do ich wykonania (dziedzina wiedzy), typ procesów umysłowych (myślenie reproduktywne i produktywne), poziom złożoności zadania, wyposażenie dydaktyczne (czynności umysłowe i praktyczne) oraz na wiele innych sposobów. Przy takiej rozmaitości lepiej niż jednowymiarowa linia prosta reprezentuje je dwuwymiarowe pole, a jeszcze lepiej - przestrzeń wielowymiarowa o dużej liczbie wymiarów.

Sposobem planowania narzędzi diagnozy edukacyjnej opartym na założeniu różnorodności zajmiemy się w następnym rozdziale, a tutaj dokonamy tylko rozróżnienia dwu rodzajów pomiaru.. Pomiar różnicujący (odniesiony do norm ilościowych, norm-referenced measurement) polega na porównaniu każdego wyniku z wynikami innych osób z określonej populacji. Pomiar sprawdzający (odniesiony do kryterium, criterion-referenced measurement) polega na porównaniu każdego wyniku ze standardem edukacyjnym lub z inną wybraną reprezentacją wymagań jako układem odniesienia tego wyniku. Te podejścia są odmienne pod względem planowania, standaryzacji i zastosowań narzędzi, ale zasadniczy dla podziału jest sposób budowanie norm pomiarowych.

Normy pomiarowe to zbiory danych jakościowych i ilościowych ułatwiających interpretację wyniku pomiaru. W pomiarze różnicującym stosowane są normy ilościowe (empiryczne), stanowiące punkty na skali wyników surowych lub pochodnych (jak na rys. 5), ustalone na podstawie przebadania próby standaryzacyjnej. W pomiarze sprawdzającym niezbędne są normy wymagań, oparte na analizie treści kształcenia i oczekiwań związanych z jego dalszym przebiegiem, udziałem w życiu społecznym lub pracą zawodową (jak w p. 1.2.3).

2.2.1. Wyznaczanie normy ilościowej w pomiarze sprawdzającym

Poprawne sformułowanie norm wymagań jest kluczowe dla praktyki pedagogicznej i edukacyjnej diagnostyki rozwojowej, ale nie wystarcza do pomiaru sprawdzającego. Procedura zamiany zawartych w nich definicji osiągnięć na liczby punktów w punktowej skali porządkowej wyników pomiaru musi być także określona.

Rozróżnimy jakościowe normy wymagań (performance levels, mastery levels, thresholds, standards), stanowiące werbalne opisy oczekiwanych wyników pomiaru, i ilościowe normy wymagań (passing scores, cut scores, cutoff scores), rozdzielające badanych na kategorie, a w szczególności - na wykazujących pewną jakość (np. opanowanie przedmiotu szkolnego) lub niewykazujących jej.

Zamiana normy jakościowej, publikowanej w dokumentach oświatowych lub intuicyjnie formułowanej przez nauczyciela-wychowawcę, na normę ilościową, pozwalającą na wykorzystanie określonego narzędzia pomiaru, jest wielkim i wciąż otwartym teoretycznym i praktycznym problemem pomiaru pedagogicznego (Niemierko, 1990, s. 332n). Tę zamianę należy traktować jako ostatni etap operacjonalizacji celu kształcenia - zbudowanie reguły decyzyjnej rozstrzygania o osiągnięciu bądź nieosiągnięci celu. Dla ucznia i dla innych osób zainteresowanych wynikami kształcenia jest to etap szczególnie doniosły, decydujący o ocenie skuteczności uczenia się („Ile punktów muszę uzyskać, by przedmiot zaliczyć?”).

Aby problem rozwiązać, trzeba porównać normę jakościową ze znaczeniem treściowym wybranych punktów pierwotnej (surowej lub pochodnej) skali wyników pomiaru. Nie musi to być skala przedziałowa, wystarczy, że jest porządkowa (stale rosnąca, monotoniczna), co znaczy, że więcej punktów oznacza wyższy poziom mierzonej właściwości. Metody normowania ilościowego wyników pomiaru sprawdzającego są dwojakie:

1. Metody oparte na założeniu, iż mierzona właściwość jest jednorodna, a potrzebne jest jedynie znalezienie punktu, w którym jej ilość (np. liczba akceptowanych twierdzeń natury moralnej, ilość pamiętanych wiadomości, proporcja przypadków poprawnego zastosowania umiejętności) jest zadowalająca. Najbardziej znana metoda normowania ilościowego, metoda Angoffa, polega na wyobrażeniu ucznia granicznego (borderline examinee), takiego, który ledwie, ledwie spełnia oczekiwania (osiąga cel kształcenia), a następnie zsumowaniu punktów za prawidłowe odpowiedzi lub oszacowanych prawdopodobieństw ich uzyskania (Angoff, 1971; Niemierko, 1990, s. 338). Zauważmy, że ta metoda jest w pewien sposób zależna od populacji uczniów, bowiem wyobrażenie ucznia granicznego jest ukształtowane przez doświadczenie pedagogiczne normujących narzędzie.

Najnowszą i najbardziej zalecaną metodą wyznaczania normy ilościowej w pomiarze sprawdzającym jest metoda zakładkowa (bookmark method), polegajaca na utworzeniu katalogu zadań (pozycji narzędzia), uporządkowanych według rosnącej trudności (rzadkości aprobaty) - najlepiej według odpowiedniego parametru (parametr b) teorii wyniku zadania, a następnie umieszczenia w nim „zakładki” rozdzielającej zadania (pozycje kwestionariusza), które z określonym prawdopodobieństwem (najczęściej przyjmowanym jako 0,67, a więc 2/3) będą prawidłowo rozwiązane (zaaprobowane) przez granicznego ucznia-wychowanka (Hambleton i Pitoniak, 2006, s. 442-444).

Obydwie scharakteryzowane tu metody bazują na doświadczeniu sędziów kompetentnych, to jest osób dokonujących oszacowań normatywnych. W procesie standaryzacji egzaminów doniosłych, w których nawet jednopunktowe różnice normy ilościowej mogą decydować o losie wielu tysięcy kandydatów, grupy (panele) sędziów mogą liczyć kilkunastu, a nawet kilkudziesięciu specjalistów. Ponieważ odpowiedzialność za skutki wdrożenia normy ilościowej spada na zespól sędziów, powinni oni posiadać możliwie wysokie kwalifikacje merytoryczne i etyczne. Procedura normowania obejmuje jedenaście szczegółowych kroków: (1) wybór metody, (2) dobór sędziów, (3) pisemną charakterystykę ucznia granicznego, (4) ćwiczenia (trening) sędziów, (5) zebranie oszacowań, (6) zestawienie oszacowań, (7) dyskusję sędziów, (8) ustalenie norm, (9) ocenę jakości normowania, (10) udokumentowanie trafności norm i (11) końcową redakcję norm (tamże, s. 436 - 464).

Gdy ustala się kilka poziomów wymagań, procedura jest kilkakrotnie powtarzana, gdyż mamy kilku uczniów granicznych (np. według skali stopni szkolnych: „dostatecznego”, „dobrego” itd.) i tyle samo zakładek w katalogu zadań. W każdym przypadku sędziowie dokonują arbitralnego cięcia (sztucznej dychotomizacji) zmiennej ciągłej niewykazującej przedtem różnic jakościowych w żadnym punkcie. To stanowi o logicznej słabości metod normowania opartych na założeniu jednorodności mierzonej właściwości.

2. Metody oparte na założeniu, że mierzona właściwość jest różnorodna, a więc potrzebne jest rozpoznanie jej jakości w wybranych punktach skali. Może to polegać na przebadaniu pewnej liczby osób (uczniów) dobranych w następujący sposób (Niemierko, 1990, s. 346-349):

a. Jako znani sędziom uczniowie graniczni. Będzie to metoda grupy granicznej, w której mediana osiągnięć, czyli wynik środkowy, wyznacza punkt na skali stanowiący normę ilościową.

b. Jako znani sędziom uczniowie: (1) którzy na pewno spełniają oczekiwania i (2) którzy na pewno nie spełniają oczekiwań. Będzie to metoda grup kontrastowych, w której punkt skali rozdzielający te (równoliczne) grupy wyznacza normę ilościową. Ponieważ rozkłady dwu grup są zwykle nie w pełni rozłączne, znajdujemy punkt, w którym liczebności wyników dwu grup równoważą się (krzywe dwu rozkładów przecinają się), a więc szansa na to, że uczeń uzyskujący tę liczbę punktów należy do grupy spełniających oczekiwania i do grupy nie spełniających oczekiwań sa równe. Doświadczenie pokazuje, że sędziom-nauczycielom łatwiej wytypować grupy kontrastowe niż grupę graniczną, ale James Popham zauważył, że w nich także o miejscu normy na skali decydują uczniowie graniczni, tyle iż błędnie zaklasyfikowani (1978b, s. 30).

Współczesnym rozwinięciem metod normowania opartych na testowaniu wybranych grup uczniów jest metoda instruktażowa (Haertel, 2002), w której zespół sędziów otrzymuje następujące materiały („instruktaż”):

a. wykaz dziesięciu kolejnych norm, na przykład od 30% do 75% punktów, w odstępach co 5%,

b. standardy wymagań egzaminacyjnych zredukowane do tych części tekstu,

które trafnie opisują osiągnięcia danego procentu uczniów,

c. przykładowe zadania, które - według wskaźników klasycznej analizy zadań

lub parametrów teorii wyniku zadania - najlepiej różnicują uczniów na tych progach,

d. opisy umiejętności mierzonych przez te zadania, jako wypisy z kartoteki narzędzia

standaryzowanego, czyli rozwinięcia planu tabelarycznego testu lub innego narzędzia

w postaci dokładnego wykazu czynności mierzonych poszczególnymi zadaniami (pozycjami),

e. oszacowanie procentu uczniów niezaliczających egzaminu, ogółem i w wybranych warstwach,

f. rozkład przewidywanych osiągnięć szkół w procentach uczniów zaliczających egzamin (0% - 100%).

Ta metoda jest pracochłonna i kosztowna (dobór próby reprezentatywnej szkół i uczniów, przygotowanie instruktażu, długie dyskusje w zespole ekspertów), pozwala jednak ustalić normę ilościową pomiaru świadome i odpowiedzialnie. Dyktowanie „zza biurka” normy ilościowej egzaminów doniosłych (matury, egzaminu potwierdzającego kwalifikacje zawodowe) przez władze oświatowe jest tańsze, ale bardzo ryzykowne. Bez gruntownej analizy danych nie da się bowiem przewidzieć skutków społecznych decyzji o wysokości normy .

Zauważmy, że nowe metody wyznaczania normy ilościowej w pomiarze sprawdzającym, metoda zakładkowa i metoda instruktażowa, wykorzystują wcześniej uzyskaną informację o wynikach pomiaru (zadań, uczniów) oraz współczesną technikę komputerową, podczas gdy dawne metody były oparte głównie na doświadczeniu sędziów. Ilościowe normy pedagogiczne pozostają jednak równie arbitralne, jak na przykład normy pożarowe, zdrowotne, ochrony środowiska czy bezpieczeństwa na drogach (Hambleton, 1980). Uzasadnia je zawsze „osąd wsparty informacją” (informed judgement), a jedynie zakres tej informacji poszerza się.

2.3. Narzędzia pomiaru pedagogicznego

Narzędzia pomiaru pedagogicznego są zbiorami zadań, pytań lub rodzajów spostrzeżeń, przeznaczonymi do uzyskiwania informacji o właściwościach badanych osób. Ich budowa jest zwykle złożona z następujących przyczyn:

1. Gdy właściwości są różnorodne, ich przestrzeń jest rozległa, a wszystkie jej dziedziny powinny być proporcjonalnie reprezentowane. Opanowywane czynności mogą być rozmaite, wykorzystywana informacja - różnoraka, teren zachowań - odmienny, kryteria oceny - mnogie. To powoduje, że musimy rejestrować wiele szczegółowej informacji.

2. Gdy właściwości są jednorodne, są mierzone za pomocą skali o pewnej długości. Ta skala rzadko bywa zero-jedynkowa („tak - nie”), jak w przypadku pytania o obecność ucznia na pojedynczej lekcji. Diagnostę interesują raczej stopniowalne właściwości uczniów-wychowanków, jak np. natężenie uwagi na tej lekcji, wymagające rozwinięcia skali uwagi i sprawdzenia, ilu osobom można przyporządkować kolejne punkty tej skali.

3. Nawet wtedy, gdy chodzi o dwupunktową klasyfikację, jak w przypadku znajomości lub nieznajomości określonego faktu, pojedyncze wskaźniki są zbyt słabe (nie dość silnie związane ze znajomością faktu) na to, by na ich podstawie można było rzetelnie tej klasyfikacji dokonać. Trzeba zadać kilka pytań o ten fakt i okoliczności jego poznania, by móc zbudować odpowiednią regułę decyzyjną („zna” - „nie zna”). Podobnie postępuje nauczyciel w toku lekcji, gdy chce dokładnie sprawdzić wiedzę ucznia o pewnym zagadnieniu. Stosowanie wielu pytań lub wielu różnych metod poznawania rzeczywistości, nazywane w naukach społecznych triangulacją, podnosi trafność diagnozy.

Elementy składowe narzędzia (items), nazywane często jego „pozycjami”, przybierają różne nazwy ze względu na charakter czynności wykonywanej przez badanego i przez diagnostę. Stanowią:

1. Zadania, gdy sprawdzane są wiadomości i umiejętności badanych. Na przykład diagnosta sprawdza, czy uczeń potrafi pomnożyć ułamek przez ułamek.

2. Pytania, gdy badany może usunąć lub obniżyć niepewność zadającego pytanie co do określonego stanu rzeczy. Na przykład diagnosta pyta ucznia o jego warunki uczenia się w domu rodzinnym.

3. Zachowania, gdy w działaniach jednostki lub grupy rejestrowane są poszczególne akcje lub reakcje badanych. Na przykład rejestrowane są przypadki podniesienia ręki (zgłoszenia się do odpowiedzi) w toku lekcji.

Na użytek diagnostyki edukacyjnej narzędzia pomiaru pedagogicznego mogą być poklasyfikowane według udziału czynnika emocjonalno-motywacyjnego i czynnika poznawczego w rejestrowanych wynikach uczenia się: od arkuszy obserwacji i skal postaw, nastawionych na zachowania samodzielne i spontaniczne, do skal opisowych i testów, rejestrujących rzeczywistość regulowaną obiektywnymi prawami natury i rozwoju społecznego, a w szczególności - systemami kształcenia. Między tymi biegunami mieści się wiele odmian kwestionariuszy, za pomocą których poznajemy postawy i wydarzenia we wzajemnym uwikłaniu, przy różnych i zmiennych proporcjach dwu aspektów uczenia się .

2.3.1. Arkusz obserwacji

Obserwacja jest planowym spostrzeganiem różnorodnych obiektów i zjawisk, a arkusz obserwacji w diagnostyce edukacyjnej to wykaz lub tabela o takim zestawieniu kategorii, by obserwator mógł jak najsprawniej rejestrować wystąpienie i czas trwania określonych zachowań badanych osób. Jest stosowany bezpośrednio, na przykład przy obserwacji zachowań małych dzieci, nie zwracających uwagi na notowanie wydarzeń przez obserwatora, lub, częściej, do obserwacji pośredniej, w której rejestracja zachowań (filmowa, magnetowidowa, protokolarna) i ich interpretacja pedagogiczna są rozdzielone w czasie.

Pierwszy etap obserwacji, gromadzenie danych, jest kluczowy. Jak stwierdził Colin Robson (1993, s. 191): „Główną zaletą obserwacji jako techniki jest jej bezpośredniość. Nie pytasz ludzi o ich poglądy, uczucia i postawy; patrzysz, co robią i słyszysz, co mówią.”

Jest kilka powodów stosowania obserwacji pośredniej w diagnostyce edukacyjnej:

a. Obecność obserwatora, a w tym zwłaszcza zapisywanie przez niego spostrzeżeń, może zdeformować zachowania osób obserwowanych. Powstają artefakty, to jest zjawiska nieintencjonalnie (niechcący) wywołane przez obserwatora: odgrywanie przed nim wybranej roli, jak w przypadku zachowań nauczyciela i uczniów przed oczyma wizytatorów szkoły.

b. Interpretacje mogą być zbyt rozbudowane na to, by zmieścić się w czasie obserwacji. Tak było w badaniach dydaktycznych przeprowadzonych przez Krzysztofa Kruszewskiego, w których „na każdą minutę lekcji przypadały 74 minuty czynności przygotowawczych i czynności zbierania danych”, nie licząc czasu potrzebnego na napisanie książki (1993, s. 7).

c. Interpretacje dokonywane na poczekaniu mogą być pochopne. Ostrzega przed tym Andrzej Janowski, piętnując „zapis mieszany” wydarzeń, to jest taki, w którym notowanie faktów przeplata się z odkrywaniem przyczyn obserwowanych zachowań (2002, s. 128).

d. Dane z obserwacji mogą być potem (1) uzupełniane, jak w badaniach Kruszewskiego, w których uczniowie wysłuchiwali i komentowali taśmy z nagraniami dyskusji w grupach i wypowiedzi nauczyciela, i (2) analizowane jakościowo i ilościowo (statystycznie), co wymaga ich wielokrotnego przeglądania.

O znaczeniu czynnika emocjonalno-motywacyjnego zachowań podlegających obserwacji w naukach społecznych świadczą przykłady dwu najbardziej znanych narzędzi badawczych z tego zakresu:

A. System analizy procesu interakcji (Bales, 1976) obejmuje dwanaście kategorii zachowań członka grupy wykonującej określone zadanie:

1. Przejawia solidarność, pomaga, zachęca.

2. Okazuje zadowolenie i swobodę, żartuje.

3. Akceptuje, zgadza się, podporządkowuje.

4. Udziela wskazówek, rad i wyjaśnień.

5. Wyraża poglądy, oceny, uczucia.

6. Informuje, przekazuje wiadomości.

7. Pyta o wskazówki, prosi o potwierdzenie.

8. Prosi o opinię, analizę, ocenę.

9. Prosi o wytyczne, o wskazanie, co ma robić.

10. Odmawia udziału, pomocy, akceptacji.

11. Okazuje napięcie, przeczekuje, unika.

12. Przejawia antagonizm, atakuje, poniża.

Jak łatwo zauważyć, zachowania są pogrupowane od najsilniej integrujących grupę (1 - 3), przez emocjonalnie neutralne (6 - 7), do najsilniej destrukcyjnych (10 - 12). Rejestracja zachowań członków grupy w tych kategoriach pozwala zarówno określić ich indywidualne role, jak też obserwować dynamikę grupy (zmiany spoistości) jako całości.

B. System analizy interakcji w klasie szkolnej (Flanders, 1970) obejmuje dziesięć kategorii zachowań nauczyciela i uczniów:

1. Nauczyciel akceptuje uczucia uczniów, nazywa je, wykazuje zrozumienie.

2. Nauczyciel chwali uczniów, uznaje, zachęca.

3. Nauczyciel wykorzystuje pomysły uczniów, rozwija je, uzasadnia.

4. Nauczyciel pyta ucznia w przekonaniu, że uzyska odpowiedź.

5. Nauczyciel wykłada, odwołując się do autorytetu nauki.

6. Nauczyciel wydaje polecenia do wykonania przez uczniów.

7. Nauczyciel krytykuje uczniów, poleca im zmienić zachowanie.

8. Uczeń odpowiada na pytanie nauczyciela według jego oczekiwań.

9. Uczeń wypowiada się swobodnie, pyta, zaczyna rozmowę.

10. Cisza lub chaos, interakcja nie da się zinterpretować.

Także i tutaj mamy przewagę emocji pozytywnych (1 - 3, 9) lub negatywnych (7, 10) nad zachowaniami emocjonalnie neutralnymi lub bliskimi neutralności (pozycje 4 - 5 i 8 - 9). Ich odczytywanie i rejestrowanie zapewniło obydwu systemom analizy interakcji niezwykłą popularność w psychologii, socjologii i pedagogice. Nie miałyby one tej wartości, gdyby ograniczały się do klasyfikacji ilości i zakresu informacji rzeczowej, przekazywanej w zespole zadaniowym lub w klasie szkolnej.

2.3.2. Skala postaw

Skala postaw jest narzędziem pomiaru postawy, czyli względnie stałej skłonności do pozytywnego lub negatywnego ustosunkowywania się do pewnego obiektu (Wojciszke, 2000, s. 79). Tym obiektem może być podmiot (nosiciel) postawy, inny człowiek, grupa społeczna, przedmiot żywy lub martwy, wydarzenie, idea. Ustosunkowanie się do niego ma składniki emocjonalne (uczucia) i poznawcze (znajomość faktów i ich ocena), z przewagą emocjonalnych, co wyraża definicja podana przez Nachmiasów (Frankfort-Nachmias i Nachmias, 2001, s. 606): „postawa [to] wszelkie skłonności uprzedzenia, opinie, lęki i przekonania co do określonego obiektu.”

Postawy rozpoznajemy przez obserwację zachowań, która musi być na to zadowalająco długa i wnikliwa, a mimo to interpretacje zachowań bywają zawodne. Istnieje wszakże możliwość wykorzystania podmiotu postawy jako pośredniego - w stosunku do diagnosty - obserwatora swoich zachowań.

„W sytuacji sprawozdawania na swój temat - napisał Robson (1993, s. 267) - respondent działa faktycznie jako obserwator własnego zachowania. Obserwacja bezpośrednia redukuje możliwe błędy i zakłócenia, jakie powstają w tym procesie, ale jest ograniczona, rzecz jasna, do zjawisk, jakie mogą być bezpośrednio obserwowane. Myśli i uczucia, przekonania i postawy wymagają sprawozdawania na swój temat. Zachowania nieczęste i osobiste najlepiej poznawać w ten sposób, gdyż ich obserwacja bezpośrednia byłaby kosztowna i natrętna”.

By móc tak sprawozdawać, obserwator własnej postawy musi spełniać trzy warunki:

1. Musi mieć tę postawę: znać obiekt, przyjrzeć się mu i przemyśleć swoje stanowisko, uznać je za dostatecznie ważne. Ten warunek ogranicza zastosowanie skal postaw do starszej młodzieży i dorosłych.

2. Musi chcieć wyrazić tę postawę. Dziedziny osobiste, zastrzeżone dla rodziny lub grupy rówieśniczej, konfliktowe i grożące sankcjami nie nadają się do reprezentowania skalą postaw. Diagnoza nie uda się także i wtedy, gdy jej dziedzina jest dla danego rodzaju respondentów mało atrakcyjna, nudna.

3. Musi móc wyrazić tę postawę. Rozumieć cel podania informacji i sens każdego zdania, zadowalająco płynnie czytać, nie pogubić się w instrukcji wpisywania lub zaznaczania odpowiedzi, a nade wszystko - mieć w rękach odpowiednio zaprojektowane narzędzie.

Świat postaw istotnych w diagnozie edukacyjnej jest rozległy. Można go uporządkować w sześć kręgów (Janowski, 2002, s. 68):

1. Własna osoba: wygląd, charakter, osiągnięcia, przeszłość, teraźniejszość i przyszłość, pozycja w grupie i aspiracje, rozumiane jako życzenia co do przyszłej pozycji społecznej i zawodowej, będące „czymś pośrednim między marzeniami, a sprecyzowanymi, konkretnymi dążeniami [do pewnych stanów rzeczy]” (tamże, s. 72). Diagnostę interesują zwłaszcza aspiracje edukacyjne, jako dążenia młodzieży do ukończenia szkół i nabycia określonych kwalifikacji.

2. Inne osoby: koleżanka, kolega, przyjaciel, nauczyciel, jedno z rodziców, znany człowiek, młodzieżowy idol, postać historyczna lub literacka.

3. Grupy ludzi: rówieśnicy, klasa szkolna, dorośli, własny naród, inne narody, ludzkość jako całość.

4. Instytucje: rodzina, szkoła, Kościół, państwo, Unia Europejska. Szkoła i jej części składowe (pomieszczenia, personel, treść zajęć, organizacja, obyczaje) odgrywają szczególna rolę ze względu na długi czas przebywania, określone wymagania i doniosłość edukacyjną.

5. Przedmioty naturalne i wytworzone przez człowieka: krajobraz, przyroda, architektura, dzieła sztuki, książki, komputery, urządzenia techniczne.

6. Wartości: wolność, odpowiedzialność, sprawiedliwość, solidarność, gospodarność, praca, ojczyzna, własność, pieniądze.

Skala postaw składa się zwykle z kilkunastu pozycji w postaci twierdzeń, o których prawdziwości ma rozstrzygnąć respondent. Najczęściej stopniuje się w niej pewność rozstrzygnięcia, posługując się dodatkową skalą porządkową: „Zdecydowanie tak” - „Raczej tak” - „Nie mam zdania” - „Raczej nie” - „Zdecydowanie nie”, punktowaną od 5 do 1 (lub od 1 do 5, gdy twierdzenie reprezentuje postawę ujemną). Taki układ stanowi skalę Likerta (Likert, 1932), wytworzoną przez sumowanie punktów uzyskanych przez respondenta za oceny prawdziwości poszczególnych twierdzeń.

Skala Likerta ma charakter porządkowy, gdyż ani jej pozycje nie są równoważne, ani szacowanie pewności nie dokonuje się w równych przedziałach. Próby uzyskania przedziałowych skal postaw podjęto już w początkach rozwoju psychologii społecznej. Skala Thurstone'a (Thurstona, Chave, 1929) jest oparta na typowaniu przez duże (kilkudziesięcioosobowe) zespoły sędziów dystansu każdego twierdzenia od minimum (całkowite odrzucenie) i maksimum (bezwarunkowa zgoda) postawy. Mimo zastosowania zaawansowanych technik statystycznych stosowanych do konstrukcji takiej skali, nie zyskała ona pełnego uznania przedziałowości (Guilford i Comrey, 1961) ani tak szerokich zastosowań jak skala Likerta.

Ponieważ większość postaw uczniów-wychowanków interesujących diagnostę edukacyjnego to postawy stanowiące cele wychowania, ich pomiar można by potraktować jako pomiar sprawdzający i wprowadzić, stosując metody przedstawione w p. 2.2.1, normy ilościowe osiągnięć uczniów-wychowanków. Tak się jednak nie postępuje, gdyż wymuszenie postawy lub choćby tylko jej deklaracji byłoby działaniem autorytarnym i nieuprawnionym egzaminowaniem z emocji i motywacji (Niemierko, 2007, s. 268-270).

Pomiar postaw jest więc pomiarem różnicującym. Zakładając rozkład normalny postawy w populacji, można jego wyniki przedstawiać za pomocą skal standardowych.

2.3.3. Test socjometryczny

Test socjometryczny jest narzędziem pomiaru związków między jednostkami w grupie nieformalnej, czyli w grupie opartej na ich bezpośredniej więzi jej członków. Aby można go było zastosować, pewien poziom tych związków musi być wytworzony, a przynajmniej członkowie grupy muszą dobrze znać się nawzajem, gdyż „badanie socjometryczne polega (…) na zapytywaniu każdego członka zespołu o to, kogo w zespole obdarza szczególnymi uczuciami sympatii, szacunku, zaufania czy wrogości.” (Janowski, 2002, s. 147).

Test socjometryczny składa się z jednego lub więcej pytań o nazwiska lub imiona osób o następujących właściwościach:

a. byliby najlepszymi partnerami do wykonania jakiegoś zadania (w szkole, na wycieczce, w pozaszkolnej pracy projektowej),

b. nadają się do pewnej roli, np. do starostowania w grupie,

c. wyróżniają się pod określonym względem: koleżeństwa, chęci pomocy, pilności w nauce, sukcesów sportowych, zdolności artystycznych, wesołego usposobienia (technika „Zgadnij kto?”).

Dyskusyjna jest kwestia przypisywania innym wad charakteru (np. wszczynanie bójek, kłótliwość, zarozumiałość) i wszelkich wyborów negatywnych (odrzuceń). Można ich wydźwięk złagodzić, pytając o „najmniejsze dobro” (najmniej pożądany partner, najmniej nadający się do roli, najmniej chętny do zgody itd.). Szczególnej rozwagi wymaga ujawnianie uzyskanej informacji. Jak stwierdza Andrzej Janowski (tamże, s. 151), „trzeba bardzo ostrożnie odnosić się do rozpowszechniania wyników badania socjometrycznego w klasie. Raczej nie należy tych spraw omawiać publicznie, a już zupełnie nie wolno wskazywać, kto jest odrzucany, czy wyjawiać wobec wszystkich, kto kogo lubi, a kto nie”.

Socjometria opiera się na zaufaniu, które diagnosta (nauczyciel-wychowawca lub osoba z zewnątrz) musi zdobyć. Lepiej też, gdy przynajmniej część następstw takiego badania odpowiada treści testu socjometrycznego, a więc role społeczne, projektowane w teście, są rzeczywiście przydzielone, a szczególne sukcesy są we właściwy sposób nagrodzone.

Każda wybór (lub przypadek odrzucenia) w teście socjometrycznym, bez względu na osobę wybierającego, można uznać za równorzędny, a to pozwala taktować sumę wyborów (odrzuceń) jako skalę stosunkową, z naturalnym zerem i równymi przedziałami atrakcyjności. Ta zaleta socjometrii zaowocowała rozkwitem statystyk pozycji jednostki i struktury grupy, a także technik graficznego przedstawiania struktur (Pilkiewicz, 1963, Pilkiewicz, 1973; Zaborowski, 1973, s. 279-283). Kto jednak chce poznać głębiej cele, organizację, normy etyczne i obyczaje grupy, musi sięgnąć do innych metod diagnozy: do obserwacji i wywiadu

2.3.4. Kwestionariusz wywiadu i szczególna rola ankietera

Wywiad jest uzyskiwaniem informacji o faktach i o opiniach respondenta przez bezpośrednie zadawanie mu pytań. Narzędziem wywiadu jest kwestionariusz, będący uporządkowanym zbiorem pytań kierowanych do respondenta. „Gdy prowadzimy badania z udziałem ludzi - zauważa Robson (1993, s. 227) - dlaczego mielibyśmy nie wykorzystać faktu, że mogą nam wiele powiedzieć o samych sobie?” I dodaje (s. 229), że „wywiad jest elastycznym i podatnym na modyfikacje sposobem dowiadywania się o różnych sprawach. Stosowanie języka przez ludzi fascynuje zarówno jako samoistne zachowanie, jak i swego rodzaju okno, otwierające się na to, co kryje się za naszymi działaniami”.

W otwieraniu tego okna pomaga ankieter, czyli osoba prowadząca wywiad. Wprowadza wykładnię kwestionariusza, rozwija go - według potrzeb - emocjonalnie i poznawczo. Musi zyskać zaufanie respondenta i nawiązać partnerską współpracę, a więc nie powinien zanadto wyróżniać się ubiorem, sposobem bycia i językiem. Zasady jego działania są następujące (Robson, 1993, s. 232):

1. Więcej słuchaj niż mów. Przydatne jest tu czynne słuchanie, polegające na powtarzaniu myśli rozmówcy, aby upewnić go o ich pozytywnym odbiorze. Czynny słuchacz nie kwestionuje, nie osądza, nie poucza, nie interpretuje i nadmiernie nie wypytuje (Gordon, 1997). Zalecane jest sondowanie (drążenie, dopytywanie), jako upewnianie się o okolicznościach i ocenie zdarzeń (Nachmias-Frankfort i Nachmias, 2001, s. 257-258), ale gdy jest ono intensywne, łatwiej o artefakty niż o prawdziwe dane.

2. Pytaj prosto i jasno, bez stwarzania zagrożeń. Wywiadowi mocno szkodzi sztywny język naukowo-urzędowy, a sprzyja język respondenta i wolne tempo wypowiedzi ankietera (około dwu słów na sekundę). Ankieter musi umieć zapobiegać przyjęciu przez respondenta postawy obronnej, będącej najniższym poziomem komunikacji międzyludzkiej (Covey, 2000). Taki poziom zdarza się w szkole, do której dany uczeń może być zrażony i „głęboko przekonany o tym, iż nauczycielom [i ich współpracownikom - BN] nic nie należy mówić, bo w zasadzie nie można znaleźć z nimi wspólnego języka i nauczyciel, bez względu na swoje chęci, zawsze będzie mu szkodził” (Janowski, 2002, s. 142).

3. Usuń zwroty mogące sugerować odpowiedź. Chodzi o zwroty takie, jak „porządek publiczny”, „rozwój kraju”, „dobro szkoły”, „poszanowanie zdrowia”, „uczciwe życie”. Respondent może bać się zaprzeczyć uznanym wartościom lub po prostu chcieć sprawić przyjemność ankieterowi, odpowiadając zgodnie z jego domniemanym oczekiwaniem. Jeżeli notowanie lub nagrywanie odpowiedzi utrudnia respondentowi zajęcie niezależnego stanowiska, trzeba odłożyć zarejestrowanie wywiadu na później.

4. Pokaż, że wywiad sprawia ci przyjemność! Nie przejawiaj zmęczenia, znudzenia, zniecierpliwienia. Jak zalecają Nachmiasowie (Frankfurt-Nachmias i Nachmias, 2001, s. 292), „ankieterzy powinni być co najmniej mili. Ponieważ będą oni wtrącać się w prywatne życie i poglądy respondenta, muszą komunikować szczere zainteresowanie poznaniem respondenta, bez sprawiania wrażenia szpiegowania. Muszą być odprężeni i przyjaźnie nastawieni, bez zbytniej swobody ani namolności. (…) Poza tym, ponieważ respondenci proszeni sa o dobrowolne poświęcenie czasu i o ujawnienie informacji na tematy osobiste, zasługują oni na jak najprzyjemniejsze przeżycia dostarczane przez badacza i ankietera”. Wiele badań wskazuje na to, że kobiety szybciej opanowują sztukę ankietowania niż mężczyźni, którym trudniej o taką komunikację (Mayntz i in., 1985, s. 151-1544; Nęcki, 2000, s. 226-230).

Wywiad może być ustrukturowany (standardowy), częściowo ustrukturowany (półstandardowy) lub nieustrukturowany (swobodny, nieformalny). W tym pierwszym wypadku kolejność i brzmienie pytań są ustalone, co sprzyja porównywaniu wyników między respondentami i ich grupami, w drugim wypadku, najczęstszym w diagnostyce edukacyjnej, porównywalność jest w pewnym stopniu ograniczona, a w trzecim - wywiad jest luźno zaprogramowaną rozmową, bogatą w uboczne wątki, płodną, lecz zupełnie nieporównywalną.

W kwestionariuszu wywiadu ustrukturowanego przeważają pytania zamknięte, zaopatrzone w gotowe wypowiedzi do wyboru, by uzyskać pewność, że respondent wziął odpowiednie warianty odpowiedzi (opcje) pod uwagę. W kwestionariuszu wywiadu nieustrukturowanego przeważają pytania otwarte, na które respondent sam formułuje odpowiedź, co zapewnia mu swobodę interpretacji treści pytań. Stosowane są także pytania półotwarte, po których respondent ma możliwość albo wybrać gotową odpowiedź, albo sformułować własną.

Wywiady sa czasochłonne, ale pedagogicznie płodne. Jako „pozapoznawcze funkcje wywiadu” Janowski wymienia (2002, s. 141):

  1. Poprawienie stosunków między nauczycielem a uczniami.

  2. Uświadomienie sobie przez ucznia własnych problemów.

  3. Zwrócenie uwagi ucznia na jego postępowanie.

  4. Rozładowanie napięcia emocjonalnego ucznia.

Obok wywiadów indywidualnych, z pojedynczymi uczniami-wychowankami i pedagogami, w edukacji są stosowane także wywiady grupowe. Podręczniki zalecają grupy złożone z 6 - 8 osób, najlepiej o charakterze grup tematycznych (fokusowych), nastawionych na rozwiązanie problemów związanych z trudnym tematem (Konarzewski, s. 123-126). Taka organizacja uczestników nieustrukturowanego wywiadu angażuje ich emocjonalnie, a diagnoście przynosi oszczędność czasu, zbliżającą tę metodę do ankiety.

2.3.5. Kwestionariusz ankiety

Najwięcej różnorakich zastosowań w badaniach pedagogicznych ma kwestionariusz ankiety, jako metody uzyskiwania informacji o faktach i opiniach respondenta przez zadawanie mu pytań na piśmie. Czy słusznie?

„Kwestionariusze wypełniane samodzielnie przez respondentów - zauważa Robson (1993, s. 243) - są bardzo ekonomiczne pod względem czasu i wysiłku badacza. (…) Są z tym jednak problemy. Dane są niewątpliwie powierzchowne. Mamy mało lub wcale nie mamy kontroli nad uczciwością i powagą odpowiedzi. Odpowiedzi muszą być wciśnięte w z góry przygotowane ramki, które mogą być lub mogą nie być odpowiednie”.

Na tym nie koniec. Pojawiają się koszty ukryte: konieczność bardzo starannego przygotowania kwestionariusza, tak by nieporozumień między diagnostą a respondentem było jak najmniej, i ogromna praca diagnosty nad klasyfikacją i interpretacją odpowiedzi na pytania otwarte. Dlatego (tamże) „chęć stosowania pytań otwartych, która wydaje się niemal powszechna wśród nowicjuszy, zazwyczaj szybko zamiera wraz z doświadczeniem. Pilotaż w formie wywiadu z zastosowaniem pytań otwartych może dostarczyć pomysłów zamknięcia tych pytań gotowymi odpowiedziami do wyboru”.

Dobrze zbudowany kwestionariusz zawiera następujące części:

1. Instrukcja, przedstawiająca diagnostę lub instytucję oraz informująca o celu ankiety, zasadzie wyboru respondentów, sposobie udzielania odpowiedzi i planowanym wykorzystaniu wyników ankiety.

2. Pytania wstępne, buforowe, łagodzące wejście w wybraną tematykę i stanowiące „rozgrzewkę”, zachęcające respondenta do udziału w diagnozie przez nawiązanie do wiedzy na pewno posiadanej przez niego.

3. Pytania główne, rozwijające zasadniczą kwestię w przemyślany i wypróbowany sposób. Mogą być zamknięte, w formie wyboru wielokrotnego (WW), umożliwiającej wybór jednej (najlepszej) lub kilku właściwych odpowiedzi, półotwarte, otwarte krótkiej odpowiedzi (KO), gdzie odpowiedź jest liczbowa, wyrazowa lub, co najwyżej, pełnozdaniowa, otwarte rozszerzonej odpowiedzi (RO), wymagające kilkuzdaniowej wypowiedzi, lub skalowane, np. za pomocą jednostki skali Likerta. Formy pytań mogą przeplatać się w kwestionariuszu, ale lepiej nie bawić się zanadto ich konstrukcją, bo to utrudnia pracę respondentowi.

4. Pytania końcowe, „ochładzające”, podsumowujące kwestię lecz możliwie proste, dające respondentowi zadowolenie z rozwiązania problemu.

5. Metryczka respondenta w postaci niezbędnych danych osobowych i zachęty, lecz nie zobowiązania, do podpisania swojej wypowiedzi.

Pytania główne w kwestionariuszu ankiety mogą być uporządkowane według dwu strategii (Nachmias-Frankfort i Nachmias, 2001, s. 278-280):

1. „Strategia lejka” (dedukcyjna), polegająca na przechodzeniu od zagadnień ogólnych do zagadnień szczegółowych, na przykład przez takie pogrupowanie pytań:

a. Najważniejsze problemy młodzieży.

b. Problemy młodzieży związane ze szkołą.

c. Znaczenie samorządności szkolnej.

d. Aktualne zadania samorządu szkolnego.

W tym układzie, zdominowanym przez ogólne problemy młodzieży, uczniowie będą zapewne proponowali samorządowi podjęcie nowych, szerokich zadań.

2. „Strategia odwróconego lejka” (indukcyjna), polegająca na przechodzeniu od zagadnień szczegółowych do zagadnień ogólnych, a więc w naszym przykładzie:

a. Aktualne zadania samorządu szkolnego.

b. Znaczenie samorządności szkolnej.

c. Problemy młodzieży związane ze szkołą.

d. Najważniejsze problemy młodzieży.

W tym układzie, zdominowanym przez zadania samorządu we własnej szkole, uczniowie ocenią problemy młodzieży według doświadczeń tego samorządu i dojdą, być może, do pesymistycznych wniosków o możliwości ich rozwiązana.

Każdą strategię można zaburzyć wprowadzając do kwestionariusza pytania zagrażające, wywołujące lęk związany z naruszaniem norm społecznych (tamże, s. 282). Gdybyśmy na przykład spytali o wagarowanie, alkoholizm, narkomanię lub wczesne doświadczenia seksualne, moglibyśmy wywołać opór wobec tematyki diagnozy.

2.3.6. Skala opisowa

Skala opisowa jest narzędziem szacowania jakości zaobserwowanych przedmiotów, wydarzeń i ludzkich zachowań. Ma przedstawić tę jakość obiektywnie, nie zaś zarejestrować postawę respondenta wobec tych obiektów, jak w przypadku skali postaw.

Skale opisowe nadają się do rozpoznawania kontekstu i przebiegu działań edukacyjnych. Podobnie jak w innych metodach kwestionariuszowych, wykorzystuje się w nich świadków, mających okazję do zaobserwowania wydarzeń. Zwłaszcza uczniowie są cennym sprawozdawcą, gdyż „uczniowskie spostrzeżenia tego, co dzieje się w klasie, są bardziej trafne niż spostrzeżenia wyćwiczonych obserwatorów i, zapewne, nauczycieli” (Purves, 1989, s. 82). Ponieważ nie odpowiadają za edukację, nie pojawia się u nich, jak u nauczycieli, myślenie życzeniowe, zmieniające obraz rzeczywistości na zgodny z oczekiwaniami.

Szacowanie jakości obiektów może być dokonywane w skali trzypunktowej (Tak - Nie wiem - Nie) lub w pięciopunktowej skali Likerta. Tak właśnie był punktowany inwentarz diagnostyczny, czyli system skal pomiarowych, o nazwie „Opis przedmiotu szkolnego” (Niemierko, 1999, s. 230-236; Niemierko, 2002, s. 107-111). Jedna z pięciu skal tego inwentarza ma postać następującą:

D. Przebieg kształcenia

Ta część kwestionariusza odpowiada na pytania o świadomość celów i swobodę uczenia się.

31. Uczniowie dobrze wiedzą, czego mają się uczyć.

32. Uczniowie dobrze wiedzą, jak się tego uczyć.

33. Metody kształcenia są urozmaicone.

34. Wiadomo, co trzeba umieć na każdy stopień.

35. Ocenianie wyników uczenia się przedmiotu jest sprawiedliwe.

36. Nauczyciel traktuje uczniów przyjaźnie.

37. Każdy uczeń może liczyć na pomoc nauczyciela.

38. Słabsi uczniowie też czują się dobrze podczas lekcji.

39. Nauczyciel chętnie przyznaje rację uczniom.

40. Na lekcjach panuje twórcza atmosfera.

W kilkudziesięciu liceach i technikach średnia arytmetyczna oszacowań uczniowskich w obu zakresach przebiegu kształcenia („Jasność celów i wymagań”, pozycje 31-35, oraz „Przyjazny stosunek nauczyciela”, pozycje 36-40) wyniosła po około 20 punktów (przy 25 punktach możliwych do przyznania), a więc w strefie odpowiedzi „Raczej tak”, przy umiarkowanym rozrzucie ocen. Należy sądzić, że dokonana przez uczniów charakterystyka zajęć przedmiotowych i panującej podczas nich atmosfery była rzeczowa, pozbawiona uprzedzeń, które mogłyby zaciemnić obraz.

Oceny przebiegu zajęć edukacyjnych nie należy mylić z wynikami kształcenia. Osobno zmierzony poziom osiągnięć uczniów z poszczególnych przedmiotów nie wykazał korelacji z oszacowaniami jakości kształcenia (Niemierko, 1999, s. 235), zapewne z tego powodu, iż zdolniejsi uczniowie są zwykle bardziej krytyczni wobec wszelkich poczynań szkoły.

2.3.7. Test osiągnięć

Test osiągnięć jest zbiorem zadań przeznaczonych do rozwiązania w toku jednej sesji egzaminacyjnej, reprezentujących wybrany zakres poznawczej treści uczenia się. Akcent pada w nim na reprezentowanie tej treści, co ma zapewnić możliwość wnioskowania z wyniku testu o poziomie opanowania jej przez badanego. Gdy treść uczenia się jest wyznaczona przez program kształcenia, znaczenie treściowe wyników testu osiągnięć jest na nim oparte.

Najmniejszym, względnie niezależnym, osobno punktowanym elementem testu osiągnięć jest zadanie testowe. „Względna niezależność” znaczy, iż zadanie może być rozwiązane przez ucznia, który nie rozwiązał innych zadań testu, ale wynik zadania może, a nawet powinien być dodatnio skorelowany z wynikami innych zadań. Ten wynik może być punktowany w skali 0 - 1 lub w dłuższej skali rozwiniętej, zależnie od stopnia złożoności zadania.

Wielkość zadania testowego może być bardzo rozmaita: od kilkugodzinnej próby pracy i eseju egzaminacyjnego do kilkudziesięciosekundowych zadań zamkniętych. Tab. 6. (źródło: Niemierko, 1999, s. 56) pokazuje tę rozpiętość:

Tabela 6. Główne formy zadań testów praktycznych i pisemnych

Rodzaj testu

Forma zadania

P o s t a ć r o z w i ą z a n i a

Czas pracy

Liczba*)

Praktyczny

Próba pracy

Nisko

symulowane

Wysoko

symulowane

Wykonywanie czynności zawodowych

na w pełni wyposażonym stanowisku pracy

Wykonywanie działań praktycznych w warunkach

zbliżonych do sytuacji naturalnej (np. w pracowni)

Wykonywanie działań praktycznych w sytuacji

umownej (inscenizacje, modele, diagramy itp.)

100'

20'

10'

1

5

10

Pisemny

Rozszerzonej

odpowiedzi

Krótkiej

odpowiedzi

Z luką

Wyboru

wielokrotnego

Na dobieranie

Prawda-fałsz

Rozprawka na zadany temat, oceniana według

rozwinięcia tematu, struktury i poprawności

Rozwiązanie podane w formie pojedynczego słowa,

liczby, zdania lub wyrażenia matematycznego

Wstawienie słowa lub wyrażenia brakującego w zdaniu

Wskazanie prawidłowej lub najlepszej odpowiedzi

spośród kilku odpowiedzi podanych

Dopasowywanie danych z dwu lub więcej kolumn

Ocena prawdziwości podanego twierdzenia

20'

3'

40”

90”

60”

30'

5

35

150

70

100

200

*) Orientacyjna liczba zadań w dwugodzinnym teście

Proporcje średniego czasu pracy nad zadaniami w różnej formie trzeba brać pod uwagę przy ocenie jakości testowania osiągnięć dokonywanego za pomocą tych zadań. Dwugodzinnemu wypracowaniu odpowiada co najmniej 5 zadań rozszerzonej odpowiedzi, ponad 30 zadań krótkiej odpowiedzi i prawie 70 zadań wyboru wielokrotnego. Im więcej zadań, tym łatwiej reprezentować wybrany zakres różnorodnej treści kształcenia, ale im drobniejsze zadanie, tym węziej ujmuje strukturę tej treści. Tak więc duże liczby zadań nie mogą zastąpić wypracowania, jeśli potraktujemy je jako literacką próbę pracy, a nadto przypiszemy mu wartość emocjonalną, wykraczającą poza dziedzinę poznawczą.

Zadania otwarte przeważają w testach nauczycielskich, stosowanych wyłącznie przez ich autorów, a zadania wielokrotnego wyboru są częste w testach szerokiego użytku, stosowanych masowo i poddanych standaryzacji (Mulawa i in. 2007a-d). Testy nauczycielskie służą głównie do pomiaru sprawdzającego, a testy standaryzowane służą głównie do pomiaru różnicującego. Najtrudniejsze do zbudowania są testy sprawdzające wielostopniowe, oparte na hierarchii wymagań w ten sposób, że odrębne grupy zadań mierzą osiągnięcia kolejnych poziomów. Standaryzacja tych testów musi bowiem potwierdzić hierarchię wymagań (Niemierko, 1990, s. 367-380).

2.4. Etapy przygotowań do pomiaru pedagogicznego

Proces konstrukcji i standaryzacji narzędzia diagnozy, czyli jego prób, ulepszeń i normowania, może być ujęty w dwanaście następujących etapów:

I. Wstępne rozpoznanie systemu kształcenia, w którym pomiar ma być stosowany. Ważne są: struktura systemu, jego skład i organizacja, metody kierowania uczeniem się, tradycje pomiarowe, osiągnięcia emocjonalno-motywacyjne i poznawcze uczniów-wychowan-ków, kompetencje nauczycieli-wychowawców. Chodzi nie tylko o dostosowanie narzędzia i sposobu jego stosowania do potrzeb systemu, lecz także, i to przede wszystkim, o etyczne kwestie diagnozy, a zwłaszcza o jej skutki społeczne (por. p. 1.4.3).

II. Odczytanie lub, częściej, sformułowanie celów operacyjnych systemu w postaci opisów czynności, jakie miały być przez uczniów-wychowanków opanowane emocjonalnie i poznawczo. Cele ogólne systemów są zwykle zawarte w dokumentach placówek edukacyjnych, ale by pomiar był możliwy, wymagają konkretyzacji (Niemierko, 1999, s. 40-42).

III. Sporządzenie koncepcji narzędzia, jako zbioru decyzji o jego przeznaczeniu, treści, formie i normowaniu. Dokument musi wskazać cele diagnozy, zakres treści, rodzaj narzędzia i formę jego elementów (pozycji, pytań, zadań), użytkownika narzędzia, zasady interpretacji wyników. Koncepcja narzędzia pomiaru podlega dyskusji i ocenie recenzentów.

IV. Zbudowanie planu narzędzia, jako wytycznej treści jego elementów. Plan powinien objaśniać, jakie elementy i w jakiej liczbie powinny się znaleźć w jego końcowej wersji. Pominięcie tego etapu spowodowałoby nadmiar pozycji łatwych, a brak pozycji trudnych do skonstruowania, dotyczących zagadnień mniej znanych autorowi narzędzia.

V. Konstrukcja elementów narzędzia. Ponieważ ani teoria pomiaru, ani doświadczenie pedagogiczne, ani staranne planowanie narzędzia nie gwarantują wysokiej jakości pozycji, pytań i zadań, trzeba ich skonstruować (lub dobrać z wcześniejszych zapasów) znacznie więcej niż przewiduje plan narzędzia, by w następnym etapie dokonać selekcji.

VI. Wypróbowanie elementów narzędzia. Wszystkie elementy narzędzia muszą zostać próbnie zastosowane w małych lub większych zbiorach, dostatecznie dużych na to, by można było porównywać wyniki między elementami. Równie ważne jest, by badani tymi zbiorami elementów tworzyli grupy o podobnych właściwościach, tak by można było uogólnić wyniki zastosowania elementów na populację, którą grupy badanych reprezentują.

VII. Analiza elementów narzędzia, będąca ich wartościowaniem ze względu na przydatność do określonych zastosowań. Obejmuje procedury jakościowe, oparte na opiniowaniu przez specjalistów i przez badanych, oraz procedury ilościowe, oparte na wskaźnikach statystycznych uzyskanych w toku próbnych zastosowań tych elementów.

VIII. Skonstruowanie i zastosowanie jednej lub więcej wersji próbnych narzędzia, zbudowanych ze sprawdzonych elementów, ale niepewnych co do właściwości łącznych. Wersje próbne powinny być zaopatrzone w instrukcje dla badanych, wyjaśniającą im sens i wartość pomiaru, jego zakres, budowę narzędzia i sposób udzielania odpowiedzi.

IX. Analiza jakościowa narzędzia, obejmująca sytuację pomiarową, punktowanie, trafność i obiektywizm. Te właściwości, ujawnione w zastosowaniach wersji próbnych narzędzia, zdecydują o jego praktycznej przydatności, toteż wszelkie spostrzeżenia poczynione na tym etapie powinny być wykorzystane do ulepszenia narzędzia.

X. Analiza ilościowa narzędzia, obejmująca bezstronność, rzetelność, błąd pomiaru i niektóre aspekty trafności. Wynikiem tej analizy są wskaźniki liczbowe pozwalające oszacować pewność wnioskowania o właściwościach obiektów, wobec których narzędzie pomiaru będzie w przyszłości stosowane.

XI. Zbudowanie wersji końcowej narzędzia, która nie będzie już ulegać istotnym zmianom w kolejnych zastosowaniach, i podręcznika narzędzia, zawierającego opis narzędzia oraz wytyczne do posługiwania się nim w różnych okolicznościach. Podejmowane tu decyzje o doborze elementów, ich redakcji, liczbie, kolejności, prezentacji, punktacji i interpretacji są ostateczne.

XII. Unormowanie narzędzia, jako uzyskanie i przetworzenie - zgodnie z koncepcją narzędzia - odpowiednich danych empirycznych. Ze względu na potrzeby praktyki diagnostycznej i uciążliwość organizacyjną szerokich badań, dokonuje się zwykle jednoczesnego normowania kilku wersji równoległych, czyli narzędzi mierzących to samo i tak samo dokładnie, lub jednoczesnego normowania kilku różnych narzędzi pomiaru.

Ten długi i złożony proces wytwarzania standaryzowanego narzędzia diagnozy edukacyjnej, obejmujący - obok wielu etapów prac konstrukcyjno-analitycznych (komputerowych) - trzykrotne zastosowania terenowe (etapy VI, VIII i XII), trwa zwykle około dwu lat. Jest możliwy do zorganizowania tylko przez odpowiednie instytucje lub w ramach indywidualnych badań naukowych. W diagnostyce nieformalnej może być skrócony do kilku tygodni lub nawet do kilku dni, ale procedury standaryzacyjne powinny być przynajmniej naśladowane. Z tego względu będą one dokładniej przedstawione (w rozdziałach III - V), a sposoby ich skracania i upraszczania będą przedmiotem rozważań i zaleceń (w rozdziale VI).

Najważniejsze pojęcia

Narzędzie pomiaru (measurement tool)- w diagnostyce edukacyjnej: zbiór pytań, zadań lub rodzajów spostrzeżeń, przeznaczony do uzyskiwania informacji o właściwościach badanych osób. Uporządkowane od najbardziej do najmniej nasyconych czynnikiem emocjonalno-motywacyjnym uczenia się, a zarazem od najmniej do najbardziej nasyconych czynnikiem poznawczym uczenia się, tworzą układ następujący: 1) arkusz obserwacji (coding sheet) , rejestrujący zachowania osób, 2) skala postaw (attitude scale), mierząca ustosunkowanie się do pewnego obiektu, 3) test socjometryczny (sociometric test), służący do pomiaru związków w grupie nieformalnej, 4) kwestionariusz wywiadu (interview questionnaire), złożony z pytań do odpowiedzi ustnej, 5) kwestionariusz ankiety (enquiry questionnaire), złożony z pytań do odpowiedzi pisemnej, 6) skala opisowa (descriptive scale), służąca do szacowania jakości obiektów obserwacji, 7) test osiągnięć (achievement test), mierzący opanowanie określonych czynności

Norma wymagań (performance standard) - zbiór danych do interpretacji wyników pomiaru, oparty na analizie treści kształcenia i potrzeb społecznych. Ma dwa składniki: jakościowy i ilościowy. Norma jakościowa (descriptive standard) jest opisem oczekiwanych wyników pomiaru, a norma ilościowa (passing score, cutoff score), stanowiąca kategorie wyników, jest liczbą punktów, jaką badany ma uzyskać dla przyznania jego wynikowi danej kategorii, np. oceny szkolnej.

Pomiar różnicujący (norm-referenced measurement) - pomiar pedagogiczny oparty na porównaniu każdego wyniku z wynikami innych osób z określonej populacji. Jego podstawą teoretyczną jest psychometria (psychometry), metodologia psychologii różnic indywidualnych. Drugim rodzaje pomiaru pedagogicznego jest pomiar sprawdzający (criterion-referenced measurement), oparty na porównaniu wyniku ze standardem edukacyjnym lub z inną reprezentacją wymagań (normą wymagań). Taki pomiar przeważa w pedagogice ze względu na planowość działania edukacyjnego.

Skala pomiarowa (measurement scale) - system symboli przedstawiających wyniki pomiaru. W diagnostyce edukacyjnej stosujemy skale nominalne (nominal s.), ograniczone do rozróżniania jakości, skale porządkowe (ordinal s.), oparte na hierarchiach wartości, skale przedziałowe (interval s.), wyznaczone przez jednostkę pomiaru, i skale stosunkowe (ratio s.), wymagające określenia bezwzględnego zera mierzonej właściwości. Im więcej założeń o relacjach między symbolami spełnia skala, tym bardziej zaawansowane operacje matematyczne na jej wynikach są uprawnione.

Standaryzacja narzędzia (standardization) - proces ulepszania i normowania narzędzia pomiaru. Obejmuje wszystkie etapy przygotowania narzędzia pomiaru pedagogicznego: 1) analizę systemu kształcenia, operacjonalizacji celów, budowę koncepcji (conception, draft) i planu (outline, specifications, design) narzędzia, 2) skonstruowanie, zastosowanie i analizę elementów (items) narzędzia, 3) zbudowanie wersji próbnych (pilot forms, tryoutforms), ich zastosowanie i analizę, 4) zbudowanie wersji końcowej (final form), jej zastosowanie i ustalenie norm. Te etapy są naśladowane w wytwarzaniu narzędzi nieformalnych, w tym zwłaszcza testów nauczycielskich (teacher-made tests), przeznaczonych do wykorzystania tylko przez ich autora.

Taksonomia (taxonomy) - hierarchiczna klasyfikacja obiektów realnych lub abstrakcyjnych. Jej podstawą jest kumulatywność (cumulativeness) kategorii, uzyskiwana wtedy, gdy każda niższa kategoria jest częścią wyższej, a różnica między kolejnymi kategoriami może być określona. Ze względu na możliwość porządkowania wartości obiektów i zjawisk oraz trudność definiowania odpowiednich jednostek pomiaru, taksonomie (potrzeb, celów, warunków, metod, osiągnięć) odgrywają ważną rolę w diagnostyce edukacyjnej.

Ćwiczenia

2.1 (Narzędzie pomiaru). Nauczyciele dyskutują o potrzebach diagnostycznych. Pan A chciałby wiedzieć, co uczniowie naprawdę umieją z jego przedmiotu; pani B za najważniejsze uważa pytanie, czy chcą się go uczyć; pani C pragnie dotrzeć do przyczyn trudności w uczeniu się; pani D chce więcej wiedzieć o warunkach, w jakich uczniowie odrabiają prace domowe; panu E brak ogólnej informacji o środowisku, w jakim żyją; pan F chciałby wiedzieć, który uczeń przewodzi w klasie; pani G jest ciekawa, jakimi środkami to osiąga.

Zaproponuj narzędzia, jakimi mogliby się posłużyć nauczyciele, by uzyskać potrzebną im informację. Zapisz nazwy narzędzi przy literach A - G. Obok zapisz w nawiasach nazwy narzędzi, które też by się do tego celu nadawały, jako narzędzia pomocnicze (na zasadzie triangulacji metod diagnozy).

2.2 (Norma wymagań). Ze względów bezpieczeństwa, na kurs kajakowy mogą być przyjęci tylko tacy uczniowie, którzy potrafią pływać. Zbuduj normę wymagań do tego celu w postaci (A) opisu poziomu umiejętności pływania, jaka wystarczy do bezpiecznego kajakowania, i (B) danych liczbowych (odległości do pokonania, czasu utrzymania się na wodzie), uściślających te normę. Porównaj to z propozycjami innych osób lub grup osób. Jakie procedury ustalania normy byłyby wskazane w przypadku ustanawiania przepisu prawnego?

2.3 (Pomiar różnicujący i sprawdzający). Nauczyciel sprawdza wypracowania uczniów na temat, który jest nowy dla obu stron. Najpierw czyta, nie oceniając, kilka wypracowań uczniów, których uważa za dobrych, średnich i słabych polonistów, by wytworzyć sobie obraz przeciętnego poziomu tekstu. Potem zastanawia się nad tym, czy ten poziom go zadowala i, z westchnieniem, uznaje go za „dostateczny”. Teraz już może wrócić do poprzednio przeczytanych wypracowań i, porównując je z przeciętnym, wystawić oceny. Dalej idzie mu coraz łatwiej, choć nie ma pewności, czy jego wyobrażenie wymagań nie odchyla się stopniowo w górę lub w dół pod wpływem kolejnych tekstów i zmęczenia pracą.

Zinterpretuj tę procedurę w świetle założeń (a) pomiaru różnicującego i (b) pomiaru sprawdzającego. Które z nich przeważają? Jak można by ulepszyć tę metodykę? Jak ją wystandaryzować na użytek egzaminu zewnętrznego?

2.4 (Skala pomiarowa). Oto czynności wykonane przez czterech nauczycieli:

W klasie I gimnazjum nauczyciel A zastosował arkusz egzaminu końcowego dla gimnazjalistów, unormowany przed dwoma laty, przedstawił uzyskane wyniki w skali standardowej (staninowej) i pokazał swoim uczniom, jak wiele ich jeszcze dzieli od poziomu krajowego absolwenta gimnazjum.

Nauczyciel B chce odróżnić poglądy uczniów na swój przedmiot: treściowy, akcentujący wiadomości, i funkcjonalny, akcentujący umiejętności. Zdefiniował je i dobrał po dziesięć twierdzeń charakteryzujących pierwszy i drugi pogląd. Ponieważ większość uczniów podpisała swoje deklaracje, zorientował się, że jego przedmiot jest traktowany funkcjonalnie tylko przez niewielką grupę uczniów o najwyższych osiągnięciach szkolnych.

W szkole podstawowej nauczyciel C policzył błędy gramatyczne i stylistyczne popełnione przez uczniów w ostatniej „kartkówce”. Obliczył średnie arytmetyczne liczby błędów oraz przedstawił je tabelarycznie i graficznie. Do tego dołączył procentowe zestawienia błędów według ich rodzaju. Na koniec obliczył współczynnik korelacji liczby błędów z oceną „kartkówki” ucznia i otrzymał wartość -0,90.

Nauczyciel D zbudował następującą hierarchię: I. Uczeń odtwarza fakty opisane w tekście, II. Uczeń wiąże fakty opisane w tekście w logiczną całość, III. Uczeń wyjaśnia intencje autora tekstu i porównuje je z własnymi poglądami. Następnie zastosował tę hierarchię do analizy recenzji artykułu prasowego, napisanych przez uczniów, i stwierdził, że większość licealistów osiągnęła poziom II.

Jakie skale pomiarowe stosowali nauczyciele A - D? Z jakiego powodu je wybrali? Którą z procedur oceniasz pedagogicznie najwyżej, a którą najniżej? Porównaj swój pogląd z poglądami innych osób lub grup osób i przedyskutuj różnice.

2.5 (Standaryzacja narzędzia). Przygotowujesz referat (pracę seminaryjną, artykuł) o tematyce naukowej. Zestaw w kilku punktach kolejne etapy tej pracy. Porównaj je z etapami przygotowania narzędzia pomiaru i umieść w następujących fazach: 1. cel, koncepcja i plan referatu, 2. zbieranie danych z literatury, porównywanie, ocenianie przydatności i wiązanie, 3. napisanie pierwszej wersji („na brudno”) i poddanie jej krytyce przyjaciół, 4. napisanie wersji końcowej („na czysto”) i próba jej wygłoszenia (głośnego odczytania).

Dlaczego praca nad tekstem naukowym przypomina standaryzację narzędzi pomiaru? Jakie są główne różnice miedzy tymi procesami? Dlaczego nie można pominąć żadnej z faz przygotowań? W jakim sensie tekst naukowy jest „standaryzowany”? Jaki cel ma tego rodzaju „standaryzacja”?

2.6 (Taksonomia). Zbuduj kilkupoziomową taksonomię umiejętności gotowania potraw lub innej umiejętności ze znanej ci dziedziny. Zacznij od minimalnych umiejętności „przetrwania” żywieniowego, a skończ na twórczych recepturach okolicznościowych i dietetycznych. Podaj przykłady dań dla każdej kategorii umiejętności.

W której kategorii mieszczą się twoje umiejętności? W której kategorii mieszczą się umiejętności osoby będącej dla ciebie wzorem w danej dziedzinie. Na czym polega kumulatywność zbudowanej przez ciebie taksonomii? Co należałoby uczynić, aby ta taksonomia nadawała się do publikacji i do szerokiego użytku?

Zalecenia

0x08 graphic

1. Gdy chcesz uściślić i pogłębić diagnozę, stosuj narzędzia pomiaru. Pozwolą ci uzyskać więcej informacji i zwiększyć prawdopodobieństwo jej przydatności. Nie licz natomiast na to, że w ten sposób przyspieszysz lub ułatwisz sobie wykonanie zadania.

2. Dołóż starań, by norma wymagań była optymalna. To dotyczy zarówno jej składnika jakościowego, jak i składnika ilościowego. Obydwa mają znaczenie dla uczenia się i diagnozowania, a błędy w nich popełnione są trudne do naprawienia.

3. Ceń wyżej sprawdzanie niż różnicowanie. Nawet najdokładniejsze porównania wyników między badanymi nie powiedzą ci, którzy z nich spełnili wymagania. Pedagogika jest oparta na osiąganiu celów uczenia się, a nie na konkurencji między uczniami.

4. Poprawna hierarchia wymagań przyda ci się w diagnostyce. Znacznie bardziej niż działania arytmetyczne na wynikach pomiaru. Nie staraj się o jednostkę pomiaru za cenę rezygnacji z jego ważnych dziedzin i utraty znaczenia treściowego wyników.

5. Standaryzacja narzędzia jest twoim sprzymierzeńcem. Pozwoli ci uniknąć wielu błędów i wątpliwości. Dlatego staraj się zapewnić jak najwięcej jej elementów nawet wtedy, gdy nie stać cię na szerokie badania i nie dysponujesz gotowym narzędziem.

6. Ujmuj zjawiska pedagogiczne w odpowiednie taksonomie. Ta podstawowa operacja pozwoli ci je wartościować i szukać dróg podnoszenia jakości kształcenia. Zaawansowana statystyka może wspierać diagnozę, ale nie może zastąpić wartościowania zjawisk.

0x08 graphic

1. Nie stosuj narzędzi pomiaru pedagogicznego bezkrytycznie. Gdy są nadużywane, mogą wyrządzić szkodę. Mogą zdarzyć się nieuprawnione wnioski oraz straty moralne płynące z diagnozowania błędnie rozumianych zjawisk.

2. Wystrzegaj się myślenia życzeniowego w ustalaniu norm wymagań. Nie wystarczy o czymś pomyśleć, aby to zaistniało. Pedagogika zna wiele naiwnych postulatów i bezowocnych wysiłków w celu ich spełnienia.

3. Nie wyolbrzymiaj różnic między uczniami, nauczycielami i szkołami. Twoim zadaniem jest sprawdzać, jak cele kształcenia sa osiągane i wytyczać drogi do ich osiągania, a nie dostarczać dane do różnicowania i selekcji.

4. Nie ulegaj urokom statystyki matematycznej! Stosuje się do pedagogiki w ograniczonym zakresie. Wskaźniki ogólne nie są bardziej trafne niż dane, z których powstały, a słabe zależności statystyczne mają małe znaczenie w typowej sytuacji.

5. Nie unikaj standaryzowanych narzędzi pomiaru pedagogicznego. Trud przeczytania podręcznika narzędzia i nabrania wprawy w szczegółowych czynnościach diagnozy opłaci ci się wkrótce w działaniu edukacyjnym. To będzie twój krok naprzód!

6. Nie oczekuj jednomyślności w stosowaniu taksonomii. Nie wystarczy zdefiniować kategorie, by zapewnić zgodność między diagnostami w ich rozumieniu. Potrzebne ci będą własne doświadczenia pedagogiczne i odpowiednie narzędzia pomiaru.

2%

2%%%

14%%

14%

34%

34%

TAK

NIE



Wyszukiwarka