Typy pomiaru w edukacji (Bolesław Niemierko)

background image

Bolesław Niemierko „Pomiar wyników kształcenia”

(C) Centrum Otwartej i Multimedialnej Edukacji UW 2000

http://www.come.uw.edu.pl

1

Rozdział 3
Tworzenie koncepcji testu

Zaczynamy budować test osiągnięć szkolnych, czyli narzędzie pomiaru dydaktycznego. Zanim jednak
test powstanie, a nawet zanim powstanie plan testu, musimy podjąć decyzje dotyczące pomiaru, jaki
ma być dokonany. Te decyzje składają się na koncepcję testu.
Najpierw zajmiemy się ewaluacją i pomiarem osiągnięć uczniów, potem testami i, wstępnie,
zadaniami testowymi, a na koniec - dokumentacją procesu standaryzacji testów.

Ewaluacja osiągnięć uczniów

Ewaluacja osiągnięć uczniów jest sprawdzaniem i ocenianiem tych osiągnięć traktowanym jako
proces łączny i wielostronnie uwarunkowany.
Etapy sprawdzania (upewniania się o wynikach kształcenia) i oceniania (wartościowania tych
wyników) przeplatają się. Ewaluacja osiągnięć uczniów może być głównym, ale nigdy nie jedynym,
składnikiem ewaluacji systemu kształcenia, może też być podejmowana niezależnie.
Współcześnie oczekuje się od nauczyciela samodzielnego tworzenia metod ewaluacji osiągnięć
uczniów. Przydatne do tego jest podejście systemowe w następującym ujęciu:

Tabela 6. Systemowe tworzenie metod ewaluacji osiągnięć uczniów

Składnik
sytuacji

Wskaźnik

Minimum

Wartość środkowa Maksimum

Nauczyciel

Ingerencja
nauczyciela

Samokontrola i
samoocena ucznia

Zastosowanie
gotowych narzędzi
pomiaru

Pytania wybrane dla
określonego ucznia

Uczniowie

Obserwowalność
czynności ucznia

Rozwiązywanie
zadań wyłącznie w
myśli

Ustne lub pisemne
wypowiedzi ucznia

Działania praktyczne
z wytworem
fizycznym

Treść
kształcenia

Analityczność
doboru treści
kształcenia

Jedno przekrojowe
zadanie oceniane
intuicyjnie

Kilka złożonych
zadań dobranych i
ocenianych według
planu

Duża liczba prostych
zadań z całego
programu kształcenia

Wyposażenie

Wykorzystanie
środków
dydaktycznych

Tylko papier i
ołówek lub tablica i
kreda

Wyposażenie
laboratoryjne

Środowisko w pełni
naturalne, "teren" lub
zakład pracy

Organizacja

Wyodrębnienie w
procesie kształcenia

Bieżąca obserwacja
pracy uczniów w
toku lekcji

Zbiorowe zajęcia
sprawdzające
poziom osiągnięć
uczniów

Indywidualna praca z
testem lub maszyną
egzaminacyjną


Rozważając kolejno składniki sytuacji dydaktycznej (pomiarowej) według tab. 6, nauczyciel może
wytworzyć oryginalną metodę ewaluacji osiągnięć uczniów. W tabeli zaproponowano obserwowalne
(empiryczne) wskaźniki udziału poszczególnych składników w projektowanej metodzie i określono
wartości tych wskaźników (minimum, wartość środkową i maksimum), a dopuszczalne są także
wszelkie wartości pośrednie, np. w przypadku ingerencji nauczyciela możliwe jest zastosowanie
nieformalnych narzędzi sprawdzania w postaci tematów do wyboru i list pytań, a także włączenie
elementów działań praktycznych (np. czytanie tekstów, rysowanie) do pisemnego pomiaru testowego.

background image

Bolesław Niemierko „Pomiar wyników kształcenia”

(C) Centrum Otwartej i Multimedialnej Edukacji UW 2000

http://www.come.uw.edu.pl

2

Pomiar dydaktyczny

Pomiar dydaktyczny jest przyporządkowywaniem symboli (ocen) uczniom w taki sposób, by relacje
między symbolami odpowiadały relacjom między uczniami ze względu na określone osiągnięcia.
Zasady przyporządkowania powinny być ustalone i możliwie dokładnie przestrzegane, a proces
pomiarowy powinien podlegać obiektywnej kontroli.
Wyniki pomiaru są przedstawiane za pomocą skali pomiarowej. Skala pomiarowa to system symboli
(liczbowych, słownych, graficznych lub innych) przedstawiających wyniki pomiaru. Od konstrukcji
skali, to jest od znaczenia poszczególnych symboli i związków między nimi, zależy szczebel pomiaru,
a więc jego jakość formalna.
Najszerzej znaną klasyfikację skal pomiarowych zawdzięczamy S. S. Stevensowi (1951), który
uporządkował je hierarchicznie (tab. 7.):

Tabela 7. Uproszczona typologia skal pomiarowych (według S. S. Stevensa)

Nazwa skali Własności

Przykład dydaktyczny Przykład spoza dydaktyki

Nominalna

klasy jakościowe Rejestr

zainteresowań

Numery linii
tramwajowych

Porządkowa jw. + hierarchia klas

Skala stopni szkolnych Przemysłowe klasy jakości

Przedziałowa jw. + jednostka pomiaru Skala znormalizowana Lata kalendarzowe
Stosunkowa jw. + zero bezwzględne Wyniki testu szybkości Liczba elementów zbioru

Gdy rejestrujemy zainteresowania uczniów, grupując je w klasy jakościowe, np. "zainteresowania
literackie", "matematyczne", "przyrodnicze", "artystyczne", "sportowe", lub gdy numerujemy obiekty
o tych samych właściwościach, jak np. wozy tramwajowe obsługujące kolejne linie, tworzymy klasy
jakościowe wartości zmiennych, nie przewidziane do porządkowania jako klasy "wyższe" - "niższe",
"większe" - "mniejsze" lub "lepsze" - "gorsze".
Zupełnie inaczej jest ze stopniami szkolnymi lub przemysłowymi klasami jakości. Skale zostały
zbudowane właśnie po to, by odróżniać wyższe i niższe wartości, większe i mniejsze osiągnięcia,
lepsze lub gorsze rozwiązania tych samych zadań. Nauczyciel przedstawiający wyniki sprawdzania
osiągnięć uczniów w stopniach szkolnych porównuje te osiągnięcia z wymaganiami przewidzianymi
na poszczególne stopnie. Na przykład, gdy uczeń spełnia wymagania na stopień dostateczny, ale nie
spełnia wymagań na stopień dobry, otrzymuje ocenę dostateczną. Tę operację nazywamy "pomiarem
dydaktycznym", jeżeli wymagania poszczególnych stopni są wystarczająco ściśle określone, a
procedura porównywania wyniku ucznia z wymaganiami jest ujęta w odpowiedni algorytm decyzyjny,
według którego możemy ją kontrolować. Ponieważ poprawnie ustalone wymagania programowe
poszczególnych stopni lub w inny sposób określone punkty skali wyników tworzą hierarchię, czyli
ustalony porządek, tego rodzaju skale nazywamy porządkowymi.
Wyższy szczebel pomiaru polega na określeniu jednostki miary, np. roku kalendarzowego, co pozwala
na zbudowanie skali przedziałowej i na dostatecznie dokładne obliczanie na przykład średniej długości
życia ludzkiego. Podobne walory mają psychologiczne "skale znormalizowane". Zakres porównań
byłby jeszcze szerszy, gdybyśmy znali datę początku świata (zero bezwzględne wieku świata), co
pozwoliłoby na zbudowanie skali stosunkowej, dominującej w matematyce oraz w naukach
przyrodniczych i technicznych (Ackoff, 1969, rozdz. 6). W szkole taki pomiar jest ograniczony prawie
wyłącznie do testów szybkości, w których rejestruje się liczbę sukcesów (np. przeczytanych wyrazów
lub napisanych na maszynie liter) w jednostce czasu.
Najważniejszą różnicą między pomiarem fizykalnym, stosowanym w naukach przyrodniczych i
technicznych, a pomiarem stosowanym w naukach społecznych (psychologii, socjologii i pedagogice)
jest brak określonej jednostki miary i znajomości zera bezwzględnego mierzonej wielkości. Cóż zatem
jest ustalone? Wybrane punkty skali wyników, z którymi porównuje się poszczególne wyniki pomiaru.

Może powstać pytanie, czy tak ubogą matematycznie procedurę, jaką jest porządkowanie wielkości
według wybranych punktów skali, warto nazywać pomiarem? Większość współczesnych
metodologów nauki uważa, że korzyści w postaci uściślenia kontroli oszacowań dokonywanych w
naukach społecznych przeważają nad stratą, jaką są pewne rozmycie pojęcia pomiaru i częste
nadinterpretacje pomiaru niższych szczebli.

background image

Bolesław Niemierko „Pomiar wyników kształcenia”

(C) Centrum Otwartej i Multimedialnej Edukacji UW 2000

http://www.come.uw.edu.pl

3

Uporządkowany zbiór wybranych punktów skali, z którymi porównuje się wyniki pomiaru, będziemy
nazywali układem odniesienia wyników pomiaru. Według układu odniesienia wyników pomiar
dydaktyczny dzieli się na różnicujący i sprawdzający.

Pomiar różnicujący

W pomiarze różnicującym (ang. norm-referenced measurement) układem odniesienia wyniku każdego
ucznia są wyniki innych uczniów. Ci uczniowie tworzą wraz z danym uczniem określoną populację, to
jest zbiorowość o istotnych cechach wspólnych, np. oddział szkolny, grupę kandydatów na wyższą
uczelnię lub ogół absolwentów liceum ekonomicznego w Polsce. Układ odniesienia wyniku jest
reprezentowany przez jeden punkt skali, zwykle średnią arytmetyczną, przez pewną liczbę podobnych
punktów lub przez skomplikowane układy testowych norm empirycznych, to jest danych opartych na
planowym przebadaniu populacji uczniów (Niemierko, 1975b, s. 136-159).

Pomiar różnicujący jest stosowany wtedy, gdy nie umiemy lub nie chcemy określić wymagań
programowych, np. w psychologicznym badaniu inteligencji uczniów lub podczas egzaminu
konkursowego dla kandydatów na wyższą uczelnię. W pierwszym przypadku normy są ustanowione
przez zestawienie średnich wyników testowania kolejnych populacji wiekowych dzieci i młodzieży.
W drugim przypadku o położeniu punktu odniesienia na skali decyduje liczba kandydatów, jaką
uczelnia może przyjąć danego roku. Kandydaci są przyjmowani według rangi uzyskanego wyniku, to
jest według kolejności, począwszy od najwyższego wyniku.

Nauczyciel stosuje intuicyjnie zasadę pomiaru różnicującego wtedy, gdy na przykład - nie dysponując
hierarchią wytworów danego rodzaju (np. wypracowań pisemnych na dany temat) - wstrzymuje się z
ocenami do chwili uzyskania obrazu wyników pracy kilku lub kilkunastu uczniów, potem określa
średnią tych wyników (np. jako "dobry" lub "dostateczny"), a wreszcie ustala indywidualne oceny
przez porównanie z tą średnią.

Pomiar różnicujący w dydaktyce jest szerzej stosowany w tych krajach, które mają długą tradycję
badań psychologicznych i pedagogicznych, przede wszystkim w krajach anglosaskich. Jako teoria
rozwinął się już w pierwszej połowie XX wieku w postaci klasycznej teorii testu (Gulliksen, 1950).
Wiele procedur analitycznych wytworzonych w tym okresie zachowało przydatność w dydaktyce do
dzisiaj, mimo zasadniczej zmiany układu odniesienia wyników pomiaru.

Pomiar sprawdzający

W pomiarze sprawdzającym (ang. criterion-referenced measurement) układem odniesienia wyniku
każdego ucznia są wymagania programowe. Narzędzia pomiaru (testy) buduje się według tych
wymagań, tak by je możliwie dokładnie reprezentowały i by można było orzec, czy są spełnione.
Wobec nagminnej ogólnikowości programów kształcenia w tej kwestii konstruktorzy narzędzi
pomiaru sprawdzającego ponoszą niemały trud precyzowania wymagań programowych na wstępie
swej pracy.

Z powodu rozmaitych stanowisk nauczycieli każdego przedmiotu szkolnego co do wymagań,
psychologowie przez długie lata zaprzeczali poprawności naukowej testów budowanych na podstawie
wymagań programowych. Przełom dokonał się w okresie powszechnego zainteresowania nauczaniem
programowanym, to jest kształceniem uczniów poprzez udzielanie małych dawek informacji wraz z
zadaniami sprawdzającymi przyswojenie tej informacji (Kupisiewicz, 1970). Ukazał się wtedy artykuł
Roberta Glasera „Technologia kształcenia a pomiar wyników uczenia się” (1963) wykazujący
bezużyteczność porównywania osiągnięć między uczniami w eksperymentach dydaktycznych
mających na celu pełne opanowanie określonej informacji przez każdego ucznia. Zdaniem Glasera
zasadne było tylko porównywanie wiedzy ucznia z programem kształcenia. Wkrótce pojawiły się
analizy podstaw teoretycznych i konsekwencji nowego podejścia (Popkam i Husek, 1969). Od tego
czasu zainteresowanie pedagogów pomiarem sprawdzającym stale wzrasta.

background image

Bolesław Niemierko „Pomiar wyników kształcenia”

(C) Centrum Otwartej i Multimedialnej Edukacji UW 2000

http://www.come.uw.edu.pl

4

W Polsce i w wielu innych krajach, w których pomiar różnicujący - z różnych przyczyn, nie
wyłączając ideologicznych - nigdy w szkolnictwie nie dominował, teorię pomiaru sprawdzającego
przyjmuje się jako uporządkowanie oczywistych zasad pracy dydaktycznej nauczyciela.

Pomiar sprawdzający wielostopniowy

W USA, ojczyźnie teorii pomiaru sprawdzającego, stosuje się niemal wyłącznie pomiar
jednostopniowy, oparty na jednym poziomie wymagań (ang. mastery tests, pass-fail scaling).
Wszystkie zadania reprezentujące wybrany zakres treści kształcenia traktuje się jako równorzędne, a
problemem pozostaje tylko odpowiednia norma ilościowa - procent zadań, które trzeba rozwiązać, by
można bylo uznać ten zakres za opanowany.

W Polsce już w latach siedemdziesiątych (Niemierko, 1975a) zaproponowano pomiar wielostopniowy,
to jest pomiar sprawdzający oparty na wymaganiach wielostopniowych, w szczególnym zaś
przypadku - na skali stopni szkolnych; po 15 latach studiów i doświadczeń powstała monografia
takiego pomiaru (Niemierko, 1990a).

Model wielostopniowy zakłada możliwość wyodrębnienia warstw treści kształcenia odpowiadających
ustopniowanym wymaganiom, czyli ustalenia struktury warstwowej programu kształcenia.
Ustopniowanie (hierarchia) wymagań wyraża się tym, że treść każdej warstwy niższej stanowi część
treści każdej warstwy wyższej. Warstwy niższe mogą być np. zaznaczone wytłuszczonym drukiem lub
kursywą w wykazach celów, materiału i wymagań programowych.

Model ten wraz z charakterystycznym nazewnictwem przedstawia rys. 6.

Rysunek 6. Podział treści kształcenia w modelu wielostopniowym

Pełny model wielostopniowy pomiaru sprawdzającego obejmuje, po wydlużeniu obowiązujacej w
Polsce skali stopni szkolnych do sześciu stopni, następujące warstwy treści kształcenia:

1. Treść konieczna (K), odpowiadająca ocenie "dopuszczającej" ("miernej").

2. Treść podstawowa (P), dodatkowo wymagana na ocenę "dostateczną".

3. Treść rozszerzająca (R), dodatkowo wymagana na ocenę "dobrą".

4. Treść dopełniająca (D), dodatkowo wymagana na ocenę "bardzo dobrą".

5. Treść wykraczająca (W), dodatkowo wymagana na ocenę "celującą".

Na strukturze warstwowej treści kształcenia opiera się struktura warstwowa testu wielostopniowego,
to jest takie pogrupowanie zadań, iż czynności sprawdzane zadaniami reprezentującymi warstwy
niższe są także niezbędne do rozwiązania zadań reprezentujących warstwy wyższe treści ksztalcenia.

Pomiar sprawdzający wielostopniowy zyskał w Polsce dużą popularność wśród dydaktyków
przedmiotowych, zwłaszcza w przedmiotach przyrodniczych.

Psychologowie natomiast nadal powątpiewają w możliwość uzgodnienia decyzji dotyczących
warstwowania treści kształcenia oraz norm ilościowych, tym bardziej że każda z tych warstw
potrzebuje osobnej normy (Konarzewski, 1993).

background image

Bolesław Niemierko „Pomiar wyników kształcenia”

(C) Centrum Otwartej i Multimedialnej Edukacji UW 2000

http://www.come.uw.edu.pl

5

Rodzaje testów

Test osiągnięć szkolnych jest zbiorem zadań przeznaczonych do rozwiązania w toku jednego zajęcia
szkolnego, reprezentujących wybrany zakres treści kształcenia w taki sposób, by z ich wyników
można było wnioskować o poziomie opanowania tej treści. Jest narzędziem pomiaru dydaktycznego,
zbudowanym w celu sprawdzania i oceniania osiągnięć uczniów.

Główne rodzaje testów są zestawione w tab. 8.:

Tabela 8. Główne rodzaje testów osiągnięć szkolnych

Zasada podziału Nazwa

testu

Najważniejsze właściwości

Rodzaj pomiaru

Różnicujący

Sprawdzający

Sprawdzający
wielostopniowy

Układem odniesienia wyniku każdego ucznia są wyniki innych
uczniów.
Układem odniesienia wyniku są wymagania programowe.

Układem odniesienia wyniku są wymagania programowe,
może być oparty na skali stopni szkolnych.

Zaawansowanie
konstrukcyjne

Nieformalny

Standaryzowany

Nie był poddany analizom, recenzjom i próbnym
zastosowaniom
Przeszedł standaryzację, to jest proces prób, ulepszeń i
normowania.

Zasięg stosowania

Nauczycielski
Szerokiego użytku

Stosowany wyłącznie przez autora testu.
Stosowany masowo, powinien być standaryzowany

Sposób udzielania
odpowiedzi

Praktyczny

Ustny

Pisemny

Uczeń demonstruje sposób wykonywania działań lub wytwór
fizyczny.
Uczeń wymawia słowa i zdania stanowiące rozwiązanie zadań.
Uczeń zapisuje swoje rozwiązania zadań lub wskazuje gotowe
odpowiedzi.

Podziały testów dokonane w tab. 8 są niezależne (z wyjątkiem obowiązku standaryzacji testu
szerokiego użytku), a więc test może być "sprawdzający, nieformalny, nauczycielski, praktyczny" lub
"różnicujący, standaryzowany, szerokiego użytku, pisemny".

Ponadto istnieje wiele bardziej szczegółowych odmian testów osiągnięć szkolnych (Niemierko, 1975b,
s. 26-34).

Nauczycielski nieformalny test sprawdzający jest często nazywany sprawdzianem. Nazwa ta utrwaliła
się w Polsce w okresie, gdy testy uważano za narzędzia pedagogiki "burżuazyjnej", całkowicie obcej
doktrynie socjalistycznej (Niemierko, 1990, s. 64).

Formy zadań testowych

Zadanie testowe jest najmniejszą względnie niezależną cząstką testu, wymagającą od ucznia
udzielenia odpowiedzi. Może mieć postać polecenia, pytania, wypowiedzi niekompletnej lub
twierdzenia podawanego w wątpliwość. "Względna niezależność" znaczy, iż zadanie może być
rozwiązane przez ucznia, który nie rozwiązał innych zadań testu, ale wynik zadania może (a nawet
powinien) być powiązany (dodatnio skorelowany) z wynikami innych zadań.

Zadanie może być proste, wymagać pokonania jednej trudności, lub złożone, gdy liczy się nie tylko
wykonanie wielu czynności prostych, lecz także strategia i struktura powiązania tych czynności w
funkcjonalną całość. Czas pracy nad takimi zadaniami jest różny, co ma duże znaczenie przy
tworzeniu koncepcji testu.

background image

Bolesław Niemierko „Pomiar wyników kształcenia”

(C) Centrum Otwartej i Multimedialnej Edukacji UW 2000

http://www.come.uw.edu.pl

6

Tabela 9. Główne formy zadań testów praktycznych i pisemnych

Rodzaj

testu

Forma

zadania

Postać rozwiązania

Czas

pracy

Liczba*

Praktyczny

Próba pracy


Nisko
symulowane

Wysoko
symulowane

Wykonywanie czynności zawodowych na w pełni
wyposażonym stanowisku pracy

Wykonywanie działań praktycznych w warunkach
zbliżonych do sytuacji naturalnej (np. w pracowni)

Wykonywanie działań praktycznych w sytuacji
umownej (inscenizacje, modele, diagramy itp.)

100'


20'


10'

1


5


10

Pisemny

Rozszerzonej
odpowiedzi

Krótkiej
odpowiedzi

Z luką

Wyboru
wielokrotnego

Na dobieranie

Prawda-fałsz

Rozprawka na zadany temat, oceniana według
rozwinięcia tematu, struktury i poprawności

Rozwiązanie podane w formie pojedynczego słowa,
liczby, zdania lub wyrażenia matematycznego

W stawienie słowa lub wyrażenia brakującego w
zdaniu
Wskazanie prawidłowej lub najlepszej odpowiedzi
spośród kilku odpowiedzi podanych.

Dobranie jednej pary danych z dwu kolumn

Ocena prawdziwości podanego twierdzenia

20'


3'


40''

90''


60''

30''

5


35


150

70


100

200

* Orientacyjna liczba zadań w 2-godz. teście

Koncepcja testu

Koncepcja testu jest zbiorem decyzji dotyczących przeznaczenia, treści i formy narzędzia pomiaru
dydaktycznego, które ma być zbudowane. W przypadku testu szerokiego użytku koncepcja przybiera
formę dokumentu pisemnego, gdyż każdy użytkownik testu powinien dokładnie poznać założenia
przyjęte przez jego autora. W przypadku testu nauczycielskiego, stosowanego tylko przez autora,
dokument pisemny nie jest konieczny.

Tworząc koncepcję, musimy godzić chęci dokładnego poznania poziomu opanowania całej wybranej
treści kształcenia przez wszystkich uczniów z możliwościami, to jest z czasem do dyspozycji,
materiałami i urządzeniami oraz kompetencją pomiarową nauczycieli i uczniów. Kompromis bywa
trudny. Jego uzyskanie może ułatwić Procedura 3.
Procedura 3. TWORZENIE KONCEPCJI TESTU

1. Ustalenie nazwy testu. Nazwa powinna być zwięzła, ale dokładna. Powinna zawierać

poprawne określenie głównej umiejętności (lub grupy umiejętności) do sprawdzenia oraz
klasy i typu szkoły, dla których test jest przeznaczony.

2. Charakterystyka programowa testu. Należy wskazać zakres i rodzaj programu kształcenia

(modułów programowych) objętych testem oraz objaśnić stosunek tego zakresu do całości
programu danej klasy lub szkoły.

3. Określenie przeznaczenia testu. Najważniejsze jest tu rozróżnienie ewaluacji kształtującej

nauczycielski system kształcenia i ewaluacji sumującej. Test może także służyć do wstępnej
diagnozy osiągnięć uczniów, do selekcji najlepszych (olimpijczyków) lub najsłabszych
(wymagających opieki) uczniów, do badań programowych.

background image

Bolesław Niemierko „Pomiar wyników kształcenia”

(C) Centrum Otwartej i Multimedialnej Edukacji UW 2000

http://www.come.uw.edu.pl

7

4. Ustalenie rodzaju testu. Do tego celu może posłużyć tab. 8. Należy wykorzystać każdą z

zawartych w niej czterech klasyfikacji testów.

5. Wybór

formy zadań. Do tego celu może posłużyć tab. 9. Czas pracy nad zadaniami dotyczy

typowych licealistów i typowych zadań. Konstruktorzy zadań często przeceniają czas
potrzebny na rozwiązanie zadań prostych, a nie doceniają czasu potrzebnego uczniom na
rozwiązanie zadań złożonych, zwłaszcza praktycznych. Zwiększenie liczby zadań wydłuża,
rzecz jasna, czas potrzebny konstruktorowi na ich zbudowanie.

6. Zbudowanie

planu testu. Sposoby budowania planu testu są przedstawione w osobnym (IV)

rozdziale tej książki. Jeden plan może służyć dowolnej liczbie wersji równoległych testu,
które najlepiej jest wytwarzać jednocześnie.

7. Ustalenie warunków testowania. Do warunków tych należą: urządzenie pomieszczenia, w

którym testowanie się odbywa, wyposażenie każdego ucznia (stanowisko pracy,
dopuszczalność notatek i podręczników), organizacja testowania.

8. Zaplanowanie

podręcznika testowania. Treść podręcznika jest wyszczególniona i objaśniona

w końcowej części tego rozdziału.

Podręcznik testowania

Podręcznik testowania to broszura objaśniająca przeznaczenie, konstrukcję i sposób wykorzystania
testu standaryzowanego. Jest niezbędnym załącznikiem do każdego testu szerokiego użytku, choć nie
w każdym przypadku musi być w pełni rozbudowany.

Podręcznik testowania może być wspólny dla baterii testów, to jest dla zbioru testów z różnych
zakresów pewnego przedmiotu (np. bateria testów pisemnego i praktycznego) lub z różnych
przedmiotów kształcenia (np. bateria testów egzaminacyjnych z języka polskiego i matematyki),
przeznaczonych do zastosowania w jednej sesji egzaminacyjnej. Może także być wspólny dla całej
serii testów, to jest dla zbioru testów lub zbioru baterii z kolejnych działów (modułów) programowych
lub dla kolejnych klas szkolnych.

Kompletny podręcznik testowania ma następujące części:

1. Strona tytułowa, zawierająca nazwiska autorów, nazwę i przeznaczenie testu, wydawcę, a

niekiedy także stosowną ilustrację tub fragment treści (by zachęcić do sięgnięcia po test).

2. Informacja o autorach testu z krótką notatką o ich karierze zawodowej i doświadczeniu w

zakresie pomiarowym (dla wzbudzenia zaufania do testu).

3. Krótka historia prac nad testem i ew, kolejnych wydań.

4. Koncepcja testu (baterii lub serii), obejmująca konstrukcję baterii lub serii, charakterystykę

programową, przeznaczenie, rodzaj testu (lub rodzaje testów), formy zadań, plan testu (lub
plany testów), niezbędne warunki testowania.

5. Informacja o przebiegu standaryzacji testu: recenzenci, dobór próby standaryzacyjnej

uczniów, dokonane analizy jakościowe i ilościowe.

6. Informacja o właściwościach pomiarowych testu (baterii, serii): obiektywizmie, trafności

i rzetelności.

7. Plan organizacyjny testowania: wybór testu, przygotowanie uczniów (m.in. przez

rozwiązywanie zadań i testów ćwiczebnych), przygotowanie pomieszczenia i wyposażenia,
rozsadzenie uczniów, kierowanie przebiegiem testowania, zebranie testów i kart odpowiedzi.

background image

Bolesław Niemierko „Pomiar wyników kształcenia”

(C) Centrum Otwartej i Multimedialnej Edukacji UW 2000

http://www.come.uw.edu.pl

8

8. Dokładna instrukcja testowania, obejmująca wszystkie przewidywane wypowiedzi

prowadzącego testowanie.

9. Klucz i instrukcja punktowania zadań oraz wzory tabel zbierających wyniki uczniów.

10. Normy testowe (normy wymagań, normy empiryczne), jako podstawa interpretacji formalnej

wyników pomiaru, wraz z objaśnieniem głównych pojęć i sposobu stosowania danego rodzaju
norm.

11. Sposoby interpretacji nieformalnej dokonanego pomiaru, opartej na zachowaniu uczniów

przed testowaniem, w toku testowania i po testowaniu oraz na ich wypowiedziach.

12. Sposób wykorzystania wyników pomiaru: uprawnione wnioski o programie i systemie

kształcenia oraz o osiągnięciach uczniów, przykłady sposobu komunikowania wyników
testowania uczniom, ich rodzicom, nauczycielom, administracji szkolnej.

W Polsce mamy niewiele kompletnych podręczników testowania do publikowanych baterii i serii
testów. Pierwsze doświadczenia (Sitarska-Niemierko i Niemierko, 1994) pokazują, że takie
podręczniki są trudne w odbiorze dla niespecjalistów. Należy oczekiwać, że z roku na rok większe
liczby nauczycieli zdobędą odpowiednie przygotowanie pomiarowe na studiach podyplomowych i
kursach, a w związku z tym pojawi się popyt na testy standaryzowane oraz spadnie popyt na byle jak
zbudowane i nie objaśnione testy, rozpowszechniane przez mało odpowiedzialne instytucje i
wydawnictwa.

Główne wnioski praktyczne:

TAK

1. Nazywaj pomiarem dydaktycznym tylko takie działanie, które możesz poddać kontroli.

2. Gdy chcesz dokonać porównań między uczniami lub szkołami, stosuj pomiar różnicujący.

3. Gdy chcesz sprawdzić, czy uczniowie spełnili wymagania, stosuj pomiar sprawdzający.

4. Gdy potrafisz określić kilka poziomów wymagań, stosuj pomiar wielostopniowy.

5. Dobrze zastanów się nad rodzajem testu, jaki zamierzasz zbudować lub zastosować.

6. Im

więcej będziesz wiedzieć o pomiarze, tym więcej czasu poświęcisz koncepcji testu.

7. W

podręczniku testowania uprzedź wątpliwości użytkowników testu.

NIE

1. Nie myl pomiaru dydaktycznego z liczeniem lub mierzeniem obiektów fizykalnych.

2. Nie ufaj testom szerokiego użytku, którym brak standaryzacji.

3. Nie

naśladuj żadnego gotowego testu, gdy tworzysz własny test.

4. Budując test osiągnięć szkolnych, nie oczekuj łatwych sukcesów autorskich.

5. Nie traktuj zadań otwartych i zadań zamkniętych jako równorzędnych.

6. Jako konstruktor testu nie bądź człowiekiem bez koncepcji.

7. Nie

każ użytkownikowi testu domyślać się koncepcji testu.

background image

Bolesław Niemierko „Pomiar wyników kształcenia”

(C) Centrum Otwartej i Multimedialnej Edukacji UW 2000

http://www.come.uw.edu.pl

9

Ćwiczenia

1. Przypomnij sobie jakieś zastosowanie pomiaru dydaktycznego w twojej klasie lub szkole. Czy

należałoby je nazwać ewaluacją osiągnięć uczniów? Podaj argumenty za i przeciw. Jaka była
rola diagnozy kontekstu osiągnięć uczniów?

2. Dokonujesz dokładnego pomiaru wzrostu uczniów. Jaka skala pomiarowa jest przy tym

zastosowana? Wyobraź sobie teraz, że uczniowie stoją po pas w wodzie na dnie basenu
nieznanej głębokości. Jaka najmocniejsza skala pomiarowa wzrostu może być tu jeszcze
zastosowana? A gdyby ich ustawić według wzrostu, to jaką skalę stworzyłoby odliczanie
kolejno? A gdyby przynieść wzorcowe ubranie (np. dres sportowy) i podzielić uczniów na "za
dużych", "w sam raz" i "za małych" na to ubranie, to jaki pomiar dydaktyczny byłby
zilustrowany?

3. Posługując się Tabelą 8, ustal rodzaj testu, jaki podejmiesz się zbudować ze swojego

przedmiotu kształcenia. Nadaj mu nazwę wskazującą na rodzaj narzędzia, jego przeznaczenie
i zakres materiału.

4. Posługując się Tabelą 9, ustal (jedną!) formę zadań testu, o którym była mowa w poprzednim

ćwiczeniu. Przyjmując czas testowania 40 minut, ustal orientacyjną liczbę zadań tego testu.

5. Napisz

wstępną część podręcznika testowania do swego testu według pozycji 1-4 Procedury 3.

Czym różniłaby się koncepcja twojego testu, gdyby był budowany przez duży zespół
specjalistów do szerokiego użytku w całym kraju? Jaką rolę przypisujesz koncepcji swojego
testu?


Document Outline


Wyszukiwarka

Podobne podstrony:
Bolesław Niemierko Znaczenie edukacyjne egzaminu doniosłego
Pomiary1, Edukacja, studia, Semestr VIII, Projekt Grupowy
Kształtowanie liczby jako wyniku pomiaru, edukacja matematyczna z metodyką
typy deklinacyjne, edukacja, GHJP
Bolesław Niemierko Rozdział 9
1 Badanie statystyczne i zbiorowość statystyczna, podział cech statystycznych, skale pomiaru cech mi
Bolesław Niemierko Rozdział 8
Bolesław Niemierko Rozdział 10
Globalizacja edukacji – doświadczenia niemieckie
Rodzina, EWiP - Edukacja wczesnoszkolna i przedszkolna, Wprowadzenie do Socjologi, Typy rodzin
RODZINA, EWiP - Edukacja wczesnoszkolna i przedszkolna, Wprowadzenie do Socjologi, Typy rodzin
153 Omow typy drgan oscylacyjnych oraz zastosowanie pomiaru widma oscylacyjnego
taks cel nau wb niemierki, Edukacja wczesnoszkolna, edukacja wczesnoszkolna
Rzetelność i błędy pomiaru, pliki zamawiane, edukacja
typy rodzin, EWiP - Edukacja wczesnoszkolna i przedszkolna, Wprowadzenie do Socjologi, Typy rodzin
FUNKCJE RODZINY, EWiP - Edukacja wczesnoszkolna i przedszkolna, Wprowadzenie do Socjologi, Typy rodz
Konspekt - Rodzina, EWiP - Edukacja wczesnoszkolna i przedszkolna, Wprowadzenie do Socjologi, Typy r
ZRÓŻNICOWANIE RODZIN-KRYTERIA I KLASYFIKACJE, EWiP - Edukacja wczesnoszkolna i przedszkolna, Wprowad

więcej podobnych podstron