Typy pomiaru w edukacjii (Bolesław Niemierko) rozdz 3


Bolesław Niemierko  Pomiar wyników kształcenia
1
Rozdział 3
Tworzenie koncepcji testu
Zaczynamy budować test osiągnięć szkolnych, czyli narzędzie pomiaru dydaktycznego. Zanim jednak
test powstanie, a nawet zanim powstanie plan testu, musimy podjąć decyzje dotyczące pomiaru, jaki
ma być dokonany. Te decyzje składają się na koncepcję testu.
Najpierw zajmiemy się ewaluacją i pomiarem osiągnięć uczniów, potem testami i, wstępnie,
zadaniami testowymi, a na koniec - dokumentacją procesu standaryzacji testów.
Ewaluacja osiągnięć uczniów
Ewaluacja osiągnięć uczniów jest sprawdzaniem i ocenianiem tych osiągnięć traktowanym jako
proces łączny i wielostronnie uwarunkowany.
Etapy sprawdzania (upewniania się o wynikach kształcenia) i oceniania (wartościowania tych
wyników) przeplatają się. Ewaluacja osiągnięć uczniów może być głównym, ale nigdy nie jedynym,
składnikiem ewaluacji systemu kształcenia, może też być podejmowana niezależnie.
Współcześnie oczekuje się od nauczyciela samodzielnego tworzenia metod ewaluacji osiągnięć
uczniów. Przydatne do tego jest podejście systemowe w następującym ujęciu:
Tabela 6. Systemowe tworzenie metod ewaluacji osiągnięć uczniów
Składnik
Wskaznik Minimum Wartość środkowa Maksimum
sytuacji
Zastosowanie
Ingerencja Samokontrola i Pytania wybrane dla
Nauczyciel gotowych narzędzi
nauczyciela samoocena ucznia określonego ucznia
pomiaru
Rozwiązywanie Działania praktyczne
Obserwowalność Ustne lub pisemne
Uczniowie zadań wyłącznie w z wytworem
czynności ucznia wypowiedzi ucznia
myśli fizycznym
Kilka złożonych
Analityczność Jedno przekrojowe Duża liczba prostych
Treść zadań dobranych i
doboru treści zadanie oceniane zadań z całego
kształcenia ocenianych według
kształcenia intuicyjnie programu kształcenia
planu
Wykorzystanie Tylko papier i Środowisko w pełni
Wyposażenie
Wyposażenie środków ołówek lub tablica i naturalne, "teren" lub
laboratoryjne
dydaktycznych kreda zakład pracy
Zbiorowe zajęcia
Bieżąca obserwacja Indywidualna praca z
Wyodrębnienie w sprawdzające
Organizacja pracy uczniów w testem lub maszyną
procesie kształcenia poziom osiągnięć
toku lekcji egzaminacyjną
uczniów
Rozważając kolejno składniki sytuacji dydaktycznej (pomiarowej) według tab. 6, nauczyciel może
wytworzyć oryginalną metodę ewaluacji osiągnięć uczniów. W tabeli zaproponowano obserwowalne
(empiryczne) wskazniki udziału poszczególnych składników w projektowanej metodzie i określono
wartości tych wskazników (minimum, wartość środkową i maksimum), a dopuszczalne są także
wszelkie wartości pośrednie, np. w przypadku ingerencji nauczyciela możliwe jest zastosowanie
nieformalnych narzędzi sprawdzania w postaci tematów do wyboru i list pytań, a także włączenie
elementów działań praktycznych (np. czytanie tekstów, rysowanie) do pisemnego pomiaru testowego.
(C) Centrum Otwartej i Multimedialnej Edukacji UW 2000
http://www.come.uw.edu.pl
Bolesław Niemierko  Pomiar wyników kształcenia
2
Pomiar dydaktyczny
Pomiar dydaktyczny jest przyporządkowywaniem symboli (ocen) uczniom w taki sposób, by relacje
między symbolami odpowiadały relacjom między uczniami ze względu na określone osiągnięcia.
Zasady przyporządkowania powinny być ustalone i możliwie dokładnie przestrzegane, a proces
pomiarowy powinien podlegać obiektywnej kontroli.
Wyniki pomiaru są przedstawiane za pomocą skali pomiarowej. Skala pomiarowa to system symboli
(liczbowych, słownych, graficznych lub innych) przedstawiających wyniki pomiaru. Od konstrukcji
skali, to jest od znaczenia poszczególnych symboli i związków między nimi, zależy szczebel pomiaru,
a więc jego jakość formalna.
Najszerzej znaną klasyfikację skal pomiarowych zawdzięczamy S. S. Stevensowi (1951), który
uporządkował je hierarchicznie (tab. 7.):
Tabela 7. Uproszczona typologia skal pomiarowych (według S. S. Stevensa)
Nazwa skali Własności Przykład dydaktyczny Przykład spoza dydaktyki
Numery linii
Nominalna klasy jakościowe Rejestr zainteresowań
tramwajowych
Porządkowa jw. + hierarchia klas Skala stopni szkolnych Przemysłowe klasy jakości
Przedziałowa jw. + jednostka pomiaru Skala znormalizowana Lata kalendarzowe
Stosunkowa jw. + zero bezwzględne Wyniki testu szybkości Liczba elementów zbioru
Gdy rejestrujemy zainteresowania uczniów, grupując je w klasy jakościowe, np. "zainteresowania
literackie", "matematyczne", "przyrodnicze", "artystyczne", "sportowe", lub gdy numerujemy obiekty
o tych samych właściwościach, jak np. wozy tramwajowe obsługujące kolejne linie, tworzymy klasy
jakościowe wartości zmiennych, nie przewidziane do porządkowania jako klasy "wyższe" - "niższe",
"większe" - "mniejsze" lub "lepsze" - "gorsze".
Zupełnie inaczej jest ze stopniami szkolnymi lub przemysłowymi klasami jakości. Skale zostały
zbudowane właśnie po to, by odróżniać wyższe i niższe wartości, większe i mniejsze osiągnięcia,
lepsze lub gorsze rozwiązania tych samych zadań. Nauczyciel przedstawiający wyniki sprawdzania
osiągnięć uczniów w stopniach szkolnych porównuje te osiągnięcia z wymaganiami przewidzianymi
na poszczególne stopnie. Na przykład, gdy uczeń spełnia wymagania na stopień dostateczny, ale nie
spełnia wymagań na stopień dobry, otrzymuje ocenę dostateczną. Tę operację nazywamy "pomiarem
dydaktycznym", jeżeli wymagania poszczególnych stopni są wystarczająco ściśle określone, a
procedura porównywania wyniku ucznia z wymaganiami jest ujęta w odpowiedni algorytm decyzyjny,
według którego możemy ją kontrolować. Ponieważ poprawnie ustalone wymagania programowe
poszczególnych stopni lub w inny sposób określone punkty skali wyników tworzą hierarchię, czyli
ustalony porządek, tego rodzaju skale nazywamy porządkowymi.
Wyższy szczebel pomiaru polega na określeniu jednostki miary, np. roku kalendarzowego, co pozwala
na zbudowanie skali przedziałowej i na dostatecznie dokładne obliczanie na przykład średniej długości
życia ludzkiego. Podobne walory mają psychologiczne "skale znormalizowane". Zakres porównań
byłby jeszcze szerszy, gdybyśmy znali datę początku świata (zero bezwzględne wieku świata), co
pozwoliłoby na zbudowanie skali stosunkowej, dominującej w matematyce oraz w naukach
przyrodniczych i technicznych (Ackoff, 1969, rozdz. 6). W szkole taki pomiar jest ograniczony prawie
wyłącznie do testów szybkości, w których rejestruje się liczbę sukcesów (np. przeczytanych wyrazów
lub napisanych na maszynie liter) w jednostce czasu.
Najważniejszą różnicą między pomiarem fizykalnym, stosowanym w naukach przyrodniczych i
technicznych, a pomiarem stosowanym w naukach społecznych (psychologii, socjologii i pedagogice)
jest brak określonej jednostki miary i znajomości zera bezwzględnego mierzonej wielkości. Cóż zatem
jest ustalone? Wybrane punkty skali wyników, z którymi porównuje się poszczególne wyniki pomiaru.
Może powstać pytanie, czy tak ubogą matematycznie procedurę, jaką jest porządkowanie wielkości
według wybranych punktów skali, warto nazywać pomiarem? Większość współczesnych
metodologów nauki uważa, że korzyści w postaci uściślenia kontroli oszacowań dokonywanych w
naukach społecznych przeważają nad stratą, jaką są pewne rozmycie pojęcia pomiaru i częste
nadinterpretacje pomiaru niższych szczebli.
(C) Centrum Otwartej i Multimedialnej Edukacji UW 2000
http://www.come.uw.edu.pl
Bolesław Niemierko  Pomiar wyników kształcenia
3
Uporządkowany zbiór wybranych punktów skali, z którymi porównuje się wyniki pomiaru, będziemy
nazywali układem odniesienia wyników pomiaru. Według układu odniesienia wyników pomiar
dydaktyczny dzieli się na różnicujący i sprawdzający.
Pomiar różnicujący
W pomiarze różnicującym (ang. norm-referenced measurement) układem odniesienia wyniku każdego
ucznia są wyniki innych uczniów. Ci uczniowie tworzą wraz z danym uczniem określoną populację, to
jest zbiorowość o istotnych cechach wspólnych, np. oddział szkolny, grupę kandydatów na wyższą
uczelnię lub ogół absolwentów liceum ekonomicznego w Polsce. Układ odniesienia wyniku jest
reprezentowany przez jeden punkt skali, zwykle średnią arytmetyczną, przez pewną liczbę podobnych
punktów lub przez skomplikowane układy testowych norm empirycznych, to jest danych opartych na
planowym przebadaniu populacji uczniów (Niemierko, 1975b, s. 136-159).
Pomiar różnicujący jest stosowany wtedy, gdy nie umiemy lub nie chcemy określić wymagań
programowych, np. w psychologicznym badaniu inteligencji uczniów lub podczas egzaminu
konkursowego dla kandydatów na wyższą uczelnię. W pierwszym przypadku normy są ustanowione
przez zestawienie średnich wyników testowania kolejnych populacji wiekowych dzieci i młodzieży.
W drugim przypadku o położeniu punktu odniesienia na skali decyduje liczba kandydatów, jaką
uczelnia może przyjąć danego roku. Kandydaci są przyjmowani według rangi uzyskanego wyniku, to
jest według kolejności, począwszy od najwyższego wyniku.
Nauczyciel stosuje intuicyjnie zasadę pomiaru różnicującego wtedy, gdy na przykład - nie dysponując
hierarchią wytworów danego rodzaju (np. wypracowań pisemnych na dany temat) - wstrzymuje się z
ocenami do chwili uzyskania obrazu wyników pracy kilku lub kilkunastu uczniów, potem określa
średnią tych wyników (np. jako "dobry" lub "dostateczny"), a wreszcie ustala indywidualne oceny
przez porównanie z tą średnią.
Pomiar różnicujący w dydaktyce jest szerzej stosowany w tych krajach, które mają długą tradycję
badań psychologicznych i pedagogicznych, przede wszystkim w krajach anglosaskich. Jako teoria
rozwinął się już w pierwszej połowie XX wieku w postaci klasycznej teorii testu (Gulliksen, 1950).
Wiele procedur analitycznych wytworzonych w tym okresie zachowało przydatność w dydaktyce do
dzisiaj, mimo zasadniczej zmiany układu odniesienia wyników pomiaru.
Pomiar sprawdzający
W pomiarze sprawdzającym (ang. criterion-referenced measurement) układem odniesienia wyniku
każdego ucznia są wymagania programowe. Narzędzia pomiaru (testy) buduje się według tych
wymagań, tak by je możliwie dokładnie reprezentowały i by można było orzec, czy są spełnione.
Wobec nagminnej ogólnikowości programów kształcenia w tej kwestii konstruktorzy narzędzi
pomiaru sprawdzającego ponoszą niemały trud precyzowania wymagań programowych na wstępie
swej pracy.
Z powodu rozmaitych stanowisk nauczycieli każdego przedmiotu szkolnego co do wymagań,
psychologowie przez długie lata zaprzeczali poprawności naukowej testów budowanych na podstawie
wymagań programowych. Przełom dokonał się w okresie powszechnego zainteresowania nauczaniem
programowanym, to jest kształceniem uczniów poprzez udzielanie małych dawek informacji wraz z
zadaniami sprawdzającymi przyswojenie tej informacji (Kupisiewicz, 1970). Ukazał się wtedy artykuł
Roberta Glasera  Technologia kształcenia a pomiar wyników uczenia się (1963) wykazujący
bezużyteczność porównywania osiągnięć między uczniami w eksperymentach dydaktycznych
mających na celu pełne opanowanie określonej informacji przez każdego ucznia. Zdaniem Glasera
zasadne było tylko porównywanie wiedzy ucznia z programem kształcenia. Wkrótce pojawiły się
analizy podstaw teoretycznych i konsekwencji nowego podejścia (Popkam i Husek, 1969). Od tego
czasu zainteresowanie pedagogów pomiarem sprawdzającym stale wzrasta.
(C) Centrum Otwartej i Multimedialnej Edukacji UW 2000
http://www.come.uw.edu.pl
Bolesław Niemierko  Pomiar wyników kształcenia
4
W Polsce i w wielu innych krajach, w których pomiar różnicujący - z różnych przyczyn, nie
wyłączając ideologicznych - nigdy w szkolnictwie nie dominował, teorię pomiaru sprawdzającego
przyjmuje się jako uporządkowanie oczywistych zasad pracy dydaktycznej nauczyciela.
Pomiar sprawdzający wielostopniowy
W USA, ojczyznie teorii pomiaru sprawdzającego, stosuje się niemal wyłącznie pomiar
jednostopniowy, oparty na jednym poziomie wymagań (ang. mastery tests, pass-fail scaling).
Wszystkie zadania reprezentujące wybrany zakres treści kształcenia traktuje się jako równorzędne, a
problemem pozostaje tylko odpowiednia norma ilościowa - procent zadań, które trzeba rozwiązać, by
można bylo uznać ten zakres za opanowany.
W Polsce już w latach siedemdziesiątych (Niemierko, 1975a) zaproponowano pomiar wielostopniowy,
to jest pomiar sprawdzający oparty na wymaganiach wielostopniowych, w szczególnym zaś
przypadku - na skali stopni szkolnych; po 15 latach studiów i doświadczeń powstała monografia
takiego pomiaru (Niemierko, 1990a).
Model wielostopniowy zakłada możliwość wyodrębnienia warstw treści kształcenia odpowiadających
ustopniowanym wymaganiom, czyli ustalenia struktury warstwowej programu kształcenia.
Ustopniowanie (hierarchia) wymagań wyraża się tym, że treść każdej warstwy niższej stanowi część
treści każdej warstwy wyższej. Warstwy niższe mogą być np. zaznaczone wytłuszczonym drukiem lub
kursywą w wykazach celów, materiału i wymagań programowych.
Model ten wraz z charakterystycznym nazewnictwem przedstawia rys. 6.
Rysunek 6. Podział treści kształcenia w modelu wielostopniowym
Pełny model wielostopniowy pomiaru sprawdzającego obejmuje, po wydlużeniu obowiązujacej w
Polsce skali stopni szkolnych do sześciu stopni, następujące warstwy treści kształcenia:
1. Treść konieczna (K), odpowiadająca ocenie "dopuszczającej" ("miernej").
2. Treść podstawowa (P), dodatkowo wymagana na ocenę "dostateczną".
3. Treść rozszerzająca (R), dodatkowo wymagana na ocenę "dobrą".
4. Treść dopełniająca (D), dodatkowo wymagana na ocenę "bardzo dobrą".
5. Treść wykraczająca (W), dodatkowo wymagana na ocenę "celującą".
Na strukturze warstwowej treści kształcenia opiera się struktura warstwowa testu wielostopniowego,
to jest takie pogrupowanie zadań, iż czynności sprawdzane zadaniami reprezentującymi warstwy
niższe są także niezbędne do rozwiązania zadań reprezentujących warstwy wyższe treści ksztalcenia.
Pomiar sprawdzający wielostopniowy zyskał w Polsce dużą popularność wśród dydaktyków
przedmiotowych, zwłaszcza w przedmiotach przyrodniczych.
Psychologowie natomiast nadal powątpiewają w możliwość uzgodnienia decyzji dotyczących
warstwowania treści kształcenia oraz norm ilościowych, tym bardziej że każda z tych warstw
potrzebuje osobnej normy (Konarzewski, 1993).
(C) Centrum Otwartej i Multimedialnej Edukacji UW 2000
http://www.come.uw.edu.pl
Bolesław Niemierko  Pomiar wyników kształcenia
5
Rodzaje testów
Test osiągnięć szkolnych jest zbiorem zadań przeznaczonych do rozwiązania w toku jednego zajęcia
szkolnego, reprezentujących wybrany zakres treści kształcenia w taki sposób, by z ich wyników
można było wnioskować o poziomie opanowania tej treści. Jest narzędziem pomiaru dydaktycznego,
zbudowanym w celu sprawdzania i oceniania osiągnięć uczniów.
Główne rodzaje testów są zestawione w tab. 8.:
Tabela 8. Główne rodzaje testów osiągnięć szkolnych
Zasada podziału Nazwa testu Najważniejsze właściwości
Różnicujący Układem odniesienia wyniku każdego ucznia są wyniki innych
uczniów.
Sprawdzający Układem odniesienia wyniku są wymagania programowe.
Rodzaj pomiaru
Sprawdzający Układem odniesienia wyniku są wymagania programowe,
wielostopniowy może być oparty na skali stopni szkolnych.
Nieformalny Nie był poddany analizom, recenzjom i próbnym
Zaawansowanie zastosowaniom
konstrukcyjne Standaryzowany Przeszedł standaryzację, to jest proces prób, ulepszeń i
normowania.
Nauczycielski Stosowany wyłącznie przez autora testu.
Zasięg stosowania
Szerokiego użytku Stosowany masowo, powinien być standaryzowany
Praktyczny Uczeń demonstruje sposób wykonywania działań lub wytwór
fizyczny.
Sposób udzielania
Ustny Uczeń wymawia słowa i zdania stanowiące rozwiązanie zadań.
odpowiedzi
Uczeń zapisuje swoje rozwiązania zadań lub wskazuje gotowe
Pisemny odpowiedzi.
Podziały testów dokonane w tab. 8 są niezależne (z wyjątkiem obowiązku standaryzacji testu
szerokiego użytku), a więc test może być "sprawdzający, nieformalny, nauczycielski, praktyczny" lub
"różnicujący, standaryzowany, szerokiego użytku, pisemny".
Ponadto istnieje wiele bardziej szczegółowych odmian testów osiągnięć szkolnych (Niemierko, 1975b,
s. 26-34).
Nauczycielski nieformalny test sprawdzający jest często nazywany sprawdzianem. Nazwa ta utrwaliła
się w Polsce w okresie, gdy testy uważano za narzędzia pedagogiki "burżuazyjnej", całkowicie obcej
doktrynie socjalistycznej (Niemierko, 1990, s. 64).
Formy zadań testowych
Zadanie testowe jest najmniejszą względnie niezależną cząstką testu, wymagającą od ucznia
udzielenia odpowiedzi. Może mieć postać polecenia, pytania, wypowiedzi niekompletnej lub
twierdzenia podawanego w wątpliwość. "Względna niezależność" znaczy, iż zadanie może być
rozwiązane przez ucznia, który nie rozwiązał innych zadań testu, ale wynik zadania może (a nawet
powinien) być powiązany (dodatnio skorelowany) z wynikami innych zadań.
Zadanie może być proste, wymagać pokonania jednej trudności, lub złożone, gdy liczy się nie tylko
wykonanie wielu czynności prostych, lecz także strategia i struktura powiązania tych czynności w
funkcjonalną całość. Czas pracy nad takimi zadaniami jest różny, co ma duże znaczenie przy
tworzeniu koncepcji testu.
(C) Centrum Otwartej i Multimedialnej Edukacji UW 2000
http://www.come.uw.edu.pl
Bolesław Niemierko  Pomiar wyników kształcenia
6
Tabela 9. Główne formy zadań testów praktycznych i pisemnych
Rodzaj Forma Czas
Postać rozwiązania Liczba*
testu zadania pracy
Próba pracy Wykonywanie czynności zawodowych na w pełni 100' 1
wyposażonym stanowisku pracy
Nisko Wykonywanie działań praktycznych w warunkach 20' 5
Praktyczny
symulowane zbliżonych do sytuacji naturalnej (np. w pracowni)
Wysoko Wykonywanie działań praktycznych w sytuacji 10' 10
symulowane umownej (inscenizacje, modele, diagramy itp.)
Rozszerzonej Rozprawka na zadany temat, oceniana według 20' 5
odpowiedzi rozwinięcia tematu, struktury i poprawności
Krótkiej Rozwiązanie podane w formie pojedynczego słowa, 3' 35
odpowiedzi liczby, zdania lub wyrażenia matematycznego
Z luką W stawienie słowa lub wyrażenia brakującego w 40'' 150
Pisemny
zdaniu
Wyboru Wskazanie prawidłowej lub najlepszej odpowiedzi 90'' 70
wielokrotnego spośród kilku odpowiedzi podanych.
Na dobieranie Dobranie jednej pary danych z dwu kolumn 60'' 100
Prawda-fałsz Ocena prawdziwości podanego twierdzenia 30'' 200
* Orientacyjna liczba zadań w 2-godz. teście
Koncepcja testu
Koncepcja testu jest zbiorem decyzji dotyczących przeznaczenia, treści i formy narzędzia pomiaru
dydaktycznego, które ma być zbudowane. W przypadku testu szerokiego użytku koncepcja przybiera
formę dokumentu pisemnego, gdyż każdy użytkownik testu powinien dokładnie poznać założenia
przyjęte przez jego autora. W przypadku testu nauczycielskiego, stosowanego tylko przez autora,
dokument pisemny nie jest konieczny.
Tworząc koncepcję, musimy godzić chęci dokładnego poznania poziomu opanowania całej wybranej
treści kształcenia przez wszystkich uczniów z możliwościami, to jest z czasem do dyspozycji,
materiałami i urządzeniami oraz kompetencją pomiarową nauczycieli i uczniów. Kompromis bywa
trudny. Jego uzyskanie może ułatwić Procedura 3.
Procedura 3. TWORZENIE KONCEPCJI TESTU
1. Ustalenie nazwy testu. Nazwa powinna być zwięzła, ale dokładna. Powinna zawierać
poprawne określenie głównej umiejętności (lub grupy umiejętności) do sprawdzenia oraz
klasy i typu szkoły, dla których test jest przeznaczony.
2. Charakterystyka programowa testu. Należy wskazać zakres i rodzaj programu kształcenia
(modułów programowych) objętych testem oraz objaśnić stosunek tego zakresu do całości
programu danej klasy lub szkoły.
3. Określenie przeznaczenia testu. Najważniejsze jest tu rozróżnienie ewaluacji kształtującej
nauczycielski system kształcenia i ewaluacji sumującej. Test może także służyć do wstępnej
diagnozy osiągnięć uczniów, do selekcji najlepszych (olimpijczyków) lub najsłabszych
(wymagających opieki) uczniów, do badań programowych.
(C) Centrum Otwartej i Multimedialnej Edukacji UW 2000
http://www.come.uw.edu.pl
Bolesław Niemierko  Pomiar wyników kształcenia
7
4. Ustalenie rodzaju testu. Do tego celu może posłużyć tab. 8. Należy wykorzystać każdą z
zawartych w niej czterech klasyfikacji testów.
5. Wybór formy zadań. Do tego celu może posłużyć tab. 9. Czas pracy nad zadaniami dotyczy
typowych licealistów i typowych zadań. Konstruktorzy zadań często przeceniają czas
potrzebny na rozwiązanie zadań prostych, a nie doceniają czasu potrzebnego uczniom na
rozwiązanie zadań złożonych, zwłaszcza praktycznych. Zwiększenie liczby zadań wydłuża,
rzecz jasna, czas potrzebny konstruktorowi na ich zbudowanie.
6. Zbudowanie planu testu. Sposoby budowania planu testu są przedstawione w osobnym (IV)
rozdziale tej książki. Jeden plan może służyć dowolnej liczbie wersji równoległych testu,
które najlepiej jest wytwarzać jednocześnie.
7. Ustalenie warunków testowania. Do warunków tych należą: urządzenie pomieszczenia, w
którym testowanie się odbywa, wyposażenie każdego ucznia (stanowisko pracy,
dopuszczalność notatek i podręczników), organizacja testowania.
8. Zaplanowanie podręcznika testowania. Treść podręcznika jest wyszczególniona i objaśniona
w końcowej części tego rozdziału.
Podręcznik testowania
Podręcznik testowania to broszura objaśniająca przeznaczenie, konstrukcję i sposób wykorzystania
testu standaryzowanego. Jest niezbędnym załącznikiem do każdego testu szerokiego użytku, choć nie
w każdym przypadku musi być w pełni rozbudowany.
Podręcznik testowania może być wspólny dla baterii testów, to jest dla zbioru testów z różnych
zakresów pewnego przedmiotu (np. bateria testów pisemnego i praktycznego) lub z różnych
przedmiotów kształcenia (np. bateria testów egzaminacyjnych z języka polskiego i matematyki),
przeznaczonych do zastosowania w jednej sesji egzaminacyjnej. Może także być wspólny dla całej
serii testów, to jest dla zbioru testów lub zbioru baterii z kolejnych działów (modułów) programowych
lub dla kolejnych klas szkolnych.
Kompletny podręcznik testowania ma następujące części:
1. Strona tytułowa, zawierająca nazwiska autorów, nazwę i przeznaczenie testu, wydawcę, a
niekiedy także stosowną ilustrację tub fragment treści (by zachęcić do sięgnięcia po test).
2. Informacja o autorach testu z krótką notatką o ich karierze zawodowej i doświadczeniu w
zakresie pomiarowym (dla wzbudzenia zaufania do testu).
3. Krótka historia prac nad testem i ew, kolejnych wydań.
4. Koncepcja testu (baterii lub serii), obejmująca konstrukcję baterii lub serii, charakterystykę
programową, przeznaczenie, rodzaj testu (lub rodzaje testów), formy zadań, plan testu (lub
plany testów), niezbędne warunki testowania.
5. Informacja o przebiegu standaryzacji testu: recenzenci, dobór próby standaryzacyjnej
uczniów, dokonane analizy jakościowe i ilościowe.
6. Informacja o właściwościach pomiarowych testu (baterii, serii): obiektywizmie, trafności
i rzetelności.
7. Plan organizacyjny testowania: wybór testu, przygotowanie uczniów (m.in. przez
rozwiązywanie zadań i testów ćwiczebnych), przygotowanie pomieszczenia i wyposażenia,
rozsadzenie uczniów, kierowanie przebiegiem testowania, zebranie testów i kart odpowiedzi.
(C) Centrum Otwartej i Multimedialnej Edukacji UW 2000
http://www.come.uw.edu.pl
Bolesław Niemierko  Pomiar wyników kształcenia
8
8. Dokładna instrukcja testowania, obejmująca wszystkie przewidywane wypowiedzi
prowadzącego testowanie.
9. Klucz i instrukcja punktowania zadań oraz wzory tabel zbierających wyniki uczniów.
10. Normy testowe (normy wymagań, normy empiryczne), jako podstawa interpretacji formalnej
wyników pomiaru, wraz z objaśnieniem głównych pojęć i sposobu stosowania danego rodzaju
norm.
11. Sposoby interpretacji nieformalnej dokonanego pomiaru, opartej na zachowaniu uczniów
przed testowaniem, w toku testowania i po testowaniu oraz na ich wypowiedziach.
12. Sposób wykorzystania wyników pomiaru: uprawnione wnioski o programie i systemie
kształcenia oraz o osiągnięciach uczniów, przykłady sposobu komunikowania wyników
testowania uczniom, ich rodzicom, nauczycielom, administracji szkolnej.
W Polsce mamy niewiele kompletnych podręczników testowania do publikowanych baterii i serii
testów. Pierwsze doświadczenia (Sitarska-Niemierko i Niemierko, 1994) pokazują, że takie
podręczniki są trudne w odbiorze dla niespecjalistów. Należy oczekiwać, że z roku na rok większe
liczby nauczycieli zdobędą odpowiednie przygotowanie pomiarowe na studiach podyplomowych i
kursach, a w związku z tym pojawi się popyt na testy standaryzowane oraz spadnie popyt na byle jak
zbudowane i nie objaśnione testy, rozpowszechniane przez mało odpowiedzialne instytucje i
wydawnictwa.
Główne wnioski praktyczne:
TAK
1. Nazywaj pomiarem dydaktycznym tylko takie działanie, które możesz poddać kontroli.
2. Gdy chcesz dokonać porównań między uczniami lub szkołami, stosuj pomiar różnicujący.
3. Gdy chcesz sprawdzić, czy uczniowie spełnili wymagania, stosuj pomiar sprawdzający.
4. Gdy potrafisz określić kilka poziomów wymagań, stosuj pomiar wielostopniowy.
5. Dobrze zastanów się nad rodzajem testu, jaki zamierzasz zbudować lub zastosować.
6. Im więcej będziesz wiedzieć o pomiarze, tym więcej czasu poświęcisz koncepcji testu.
7. W podręczniku testowania uprzedz wątpliwości użytkowników testu.
NIE
1. Nie myl pomiaru dydaktycznego z liczeniem lub mierzeniem obiektów fizykalnych.
2. Nie ufaj testom szerokiego użytku, którym brak standaryzacji.
3. Nie naśladuj żadnego gotowego testu, gdy tworzysz własny test.
4. Budując test osiągnięć szkolnych, nie oczekuj łatwych sukcesów autorskich.
5. Nie traktuj zadań otwartych i zadań zamkniętych jako równorzędnych.
6. Jako konstruktor testu nie bądz człowiekiem bez koncepcji.
7. Nie każ użytkownikowi testu domyślać się koncepcji testu.
(C) Centrum Otwartej i Multimedialnej Edukacji UW 2000
http://www.come.uw.edu.pl
Bolesław Niemierko  Pomiar wyników kształcenia
9
Ćwiczenia
1. Przypomnij sobie jakieś zastosowanie pomiaru dydaktycznego w twojej klasie lub szkole. Czy
należałoby je nazwać ewaluacją osiągnięć uczniów? Podaj argumenty za i przeciw. Jaka była
rola diagnozy kontekstu osiągnięć uczniów?
2. Dokonujesz dokładnego pomiaru wzrostu uczniów. Jaka skala pomiarowa jest przy tym
zastosowana? Wyobraz sobie teraz, że uczniowie stoją po pas w wodzie na dnie basenu
nieznanej głębokości. Jaka najmocniejsza skala pomiarowa wzrostu może być tu jeszcze
zastosowana? A gdyby ich ustawić według wzrostu, to jaką skalę stworzyłoby odliczanie
kolejno? A gdyby przynieść wzorcowe ubranie (np. dres sportowy) i podzielić uczniów na "za
dużych", "w sam raz" i "za małych" na to ubranie, to jaki pomiar dydaktyczny byłby
zilustrowany?
3. Posługując się Tabelą 8, ustal rodzaj testu, jaki podejmiesz się zbudować ze swojego
przedmiotu kształcenia. Nadaj mu nazwę wskazującą na rodzaj narzędzia, jego przeznaczenie
i zakres materiału.
4. Posługując się Tabelą 9, ustal (jedną!) formę zadań testu, o którym była mowa w poprzednim
ćwiczeniu. Przyjmując czas testowania 40 minut, ustal orientacyjną liczbę zadań tego testu.
5. Napisz wstępną część podręcznika testowania do swego testu według pozycji 1-4 Procedury 3.
Czym różniłaby się koncepcja twojego testu, gdyby był budowany przez duży zespół
specjalistów do szerokiego użytku w całym kraju? Jaką rolę przypisujesz koncepcji swojego
testu?
(C) Centrum Otwartej i Multimedialnej Edukacji UW 2000
http://www.come.uw.edu.pl


Wyszukiwarka

Podobne podstrony:
Bolesław Niemierko Znaczenie edukacyjne egzaminu doniosłego
Pomiar zabezpieczen Różnicowoprądowych i ich typy
153 Omow typy drgan oscylacyjnych oraz zastosowanie pomiaru widma oscylacyjnego
ANALIZA KOMPUTEROWA SYSTEMÓW POMIAROWYCH — MSE
Instrukcja do cwiczenia 4 Pomiary oscyloskopowe
Język niemiecki dwujęzyczna arkusz II
Edukacja

więcej podobnych podstron