Rozdzial IV, Rozdział IV


Rozdział IV. Konstrukcja i analiza elementów narzędzi diagnozy

Budowanie elementów narzędzi pomiaru pedagogicznego jest powszechnie uważane za trudną sztukę, do której trzeba dojrzeć po wstępnym opanowaniu zasad. Dotyczy to zarówno pozycji kwestionariuszowych, jak i zadań testowych. O tych drugich napisano, że „tak jak nie może być zbioru przepisów na produkcję dobrej noweli lub dobrego obrazu, tak nie może być zbioru reguł, które dadzą gwarancję produkcji dobrych zadań” (Wesman, 1971, s. 81).

Wbrew temu, co mogłoby się wydawać, każdy element narzędzia ma więcej cech ilustracji lub krótkiej opowieści niż tekstu naukowego. Przyczyna tkwi w badanym, który nie jest specjalistą dziedziny i nie posługuje się pojęciami teoretycznymi. Aby się z nim porozumieć, musimy użyć takich środków porozumiewania, które sa dla niego dostępne. Stąd obrazowość i prostota komunikatu, który ma nam w następstwie przynieść potrzebną informację.

4.1. Zasady konstrukcji elementów narzędzi diagnozy

Zasady, które będą tu przedstawione i objaśnione, mogą być traktowane tylko jako przestrogi przed najczęstszymi błędami w konstrukcji elementów narzędzi diagnozy i, szerzej, w komunikacji z badanymi. Nie zapewniają wysokiej jakości narzędzi, na co potrzeba jeszcze dobrej znajomości dziedziny, starannej analizy i selekcji elementów, poprawnej konstrukcji narzędzia i jego odpowiedniej standaryzacji.

Zasady będą podzielone na grupę treści i grupę formy elementów. Jedne i drugie błędy obniżają, a w skrajnych przypadkach - niweczą wartość nawet bardzo dobrego planu.

4.1.1. Treść elementu

W zakresie treści narzędzia diagnozy obowiązują następujące zasady:

1. Zgodność z planem narzędzia. Autor każdej kategorii obserwacji, pytania kwestionariuszowego, pozycji skali lub zadania testowego powinien kierować się planem, to jest wiedzieć, jaką jego część planu dany element reprezentuje, i uzyskać potwierdzenie tej reprezentacji w opinii niezależnych ekspertów.

To są wysokie wymagania. Często spotyka się narzędzia wytworzone jako kopie wcześniej istniejących arkuszy, kwestionariuszy, skal i testów, w których zmieniono tylko przykładowe dane, układ lub słownictwo tekstu. W wielu wypadkach są to elementy bardzo różnych narzędzi, które „wpadły w oko” konstruktora nowego narzędzia lub były zamieszczone w podręczniku pomiaru. Należy przestrzec przed wiarą w przydatność takiej taktyki, ograniczającej planowość konstrukcji narzędzi i dostosowanie ich do systemu edukacyjnego, w którym mają być używane do określonych potrzeb.

2. Poprawność rzeczowa. Błędna może być informacja zawarta w pytaniu („Jak oceniasz plany skrócenia nauki w gimnazjum do dwu lat?”) i błędne może być założenie pytania co do właściwości badanego („Na jaką uczelnię wybierasz się po maturze?”), ale najwięcej błędów rzeczowych można znaleźć w trzonach (częściach informujących) i w kluczach punktowania zadań testów osiągnięć. To powód, dla którego wielu autorów kurczowo trzyma się wiedzy podręcznikowej, nie ryzykując ostrych uwag recenzentów.

Historia pomiaru dydaktycznego zna wiele przypadków kompromitujących błędów w testach standaryzowanych, wywołujących wrzawę w środkach masowego przekazu (zob. Niemierko, 1990, s. 69. Ukazywały się też dzieła poświęcone tropieniu błędów w testach (Hoffman, 1962). Nieraz szły one za daleko, przypisując ignorancję autorom, którzy upraszczali zagadnienie, chcąc je zbliżyć, być może nieporadnie, do poziomu wiedzy dziecka.

Recenzje ekspertów (pedagogów, psychologów, socjologów, specjalistów przedmiotowych) narzędzi standaryzowanych, przeznaczonych do szerokiego użytku, są niezbędne. Powinny być uzyskane zanim dane narzędzie będzie opublikowane, a jeszcze lepiej - zanim jego elementy zostaną poddane empirycznej próbie, czyli przekazane w ręce badanych osób. Wprawdzie obawy o to, że błąd rzeczowy natychmiast się utrwali, niszcząc wiedzę i osobowość badanego, są zwykle przesadzone, ale straty wychowawcze spowodowane byle jakim pomiarem są zwykle duże.

3. Tworzenie sytuacji pomiarowej. Tekst narzędzia powinien wprowadzać badanych w rzeczywistość, której diagnoza dotyczy. Tylko w przypadku arkusza obserwacji nie wymaga to specjalnych zabiegów, a jedynie wyboru naturalnej sytuacji, w której mogą wystąpić odpowiednie zachowania obserwowanych osób. Inne narzędzia powinny zawierać bodźce charakterystyczne dla środowiska, w którym dane reakcje są właściwe, czyli symulację.

Symulacja w diagnostyce jest upodobnieniem sytuacji pomiarowej do sytuacji rzeczywistej danego rodzaju działania. Jest dokonywana przez wprowadzenie słowne (opowieść o wydarzeniach), rysunki i fotografie w tekście kwestionariusza lub testu, zewnętrzne środki dydaktyczne (np. mapa, przy której odbywa się wywiad, lub film, przypominający ludzi i okolice), osobę i zachowanie ankietera (rzeczowe, przyjacielskie, zatroskane itp.). Symulacja jest niezbędna w sprawdzaniu umiejętności praktycznych dokonywanych w warsztatach i pracowniach, ale bywa niedoceniana w innych dziedzinach diagnozy, gdzie sytuacja przypomina raczej klasówkę lub egzamin - kontrolę, podczas której trzeba oderwać się od osobistych doświadczeń i możliwie dokładnie trafić w oczekiwania nauczyciela. Im młodszy jest badany, tym bardziej jest podatny na atmosferę sytuacji pomiarowej.

4. Unikanie sugestii i podpowiedzi. Obiegowe, wielokrotnie czytane i słyszane zdania znieczulają na sens zawartych w nich myśli i wywołują automatyzm reakcji na słowa. Stereotypowa frazeologia (np. „godność człowieka”, „obowiązki ucznia”, „uczciwe traktowanie”, „grzeczne dziecko”) kojarzy się z pewnymi określeniami, „szanować”, „wykonywać” „mówić prawdę”, „zachowywać spokój”) bez względu na poglądy ucznia-wychowanka. Szczególnie powierzchowna jest książkowa mądrość, bezrefleksyjnie pamiętana przez uczniów, a mierzona zadaniami opartymi na podręcznikach szkolnych,.

Stereotypowe są także hasła polityczne, obfitujące w silnie emocjonalne, lecz nieostre nazwy („demokracja”, „samorządność”, „solidarność”, „liberalizm”, „prawo naturalne”). Pojawienie się takich określeń sugeruje powszechną aprobatę haseł. Można tylko, na pocieszenie, zauważyć, że jeszcze niedawno były to inne pojęcia („wyzysk człowieka przez człowieka”, „walka klas”, „świadomość klasowa”, „socjalizm”), a sugestia, by się pod nimi podpisać, była w badaniach społecznych jeszcze silniejsza (Lutyńska, 1984, s. 120-123).

Badani, wykonujący ciężką pracę udzielania odpowiedzi na wiele pytań, są zwykle podatni na różnego rodzaju niezamierzone podpowiedzi. Obejmujemy je wspólną nazwą ukrytych wskazówek. W pytaniach i zadaniach zamkniętych należą do nich, obok zbitek frazeologicznych, podobieństwo sformułowań w pytaniu i odpowiedzi, użycie pojęć naukowych w odpowiedzi, odpowiedź oczekiwana dłuższa i dokładniejsza niż pozostałe, odpowiedź oczekiwana stale na tym samym miejscu.

5. Kontrolowanie liczby pytań pamięciowych. Badanie diagnostyczne nie powinno zamieniać się w prokuratorskie przesłuchiwanie świadka wydarzeń ani w odtwarzanie z pamięci tekstu podręcznika. Wyższe kategorie odpowiednich taksonomii celów kształcenia więcej nam mówią o uczniu-wychowanków i lepiej prognozują jego przyszłe osiągnięcia. Tymczasem dążenie do ścisłości zbieranej informacji oraz łatwość budowania najprostszych pytań powodują ograniczenie rozpoznania do pojedynczych faktów i pozostawienie interpretacji faktów diagnoście, bez należytej orientacji w ich znaczeniu dla badanego.

Autor pytań i zadań doszukuje się w nich głębi i przypisuje im zazwyczaj wyższą kategorię procesów umysłowych niż czynią to inne osoby. Dlatego warto poprosić recenzentów o poklasyfikowanie elementów narzędzia według wybranej taksonomii celów kształcenia i w ten sposób zwiększyć kontrolę nad budowanym narzędziem.

6. Zróżnicowanie trudności. By mieć pełny przegląd postaw, przekonań, umiejętności i wiadomości uczniów-wychowanków, trzeba im zadać pytania o różnej trudności. Jedni z nich dokładnie odpowiedzą na pytania łatwe, a na pytania trudniejsze udzielą dość przypadkowych odpowiedzi. Inni niedbale „przelecą” wszystkie pytania proste, a skupią się na pytaniach trudnych i dostarczą odkrywczych odpowiedzi na te pytania. Ze względu na różnorodność zainteresowań i kompetencji respondentów nie da się uzyskać całej potrzebnej informacji bez zróżnicowania poziomu trudności pytań, poleceń i zadań.

7. Logiczne uporządkowanie elementów. Rozkawałkowanie treści narzędzia na osobne elementy i konieczność przeskakiwania od zagadnienia do zagadnienia są bardzo męczące dla badanych. Dlatego stosuje się, gdzie to tylko jest możliwe, porządkowanie elementów w szereg o możliwie gładkich przejściach. Bywa to uporządkowanie według ogólności pytania („strategia lejka” i „strategia odwróconego lejka” w p. 2.3.5). Może to być uporządkowanie pytań i zadań od łatwych, odgrywających rolę „buforową”, do trudniejszych i trudnych, ewentualnie pomijanych pod koniec pracy przez słabiej przygotowanych uczniów-wychowan-ków. Może to być także odtworzenie chronologii zdarzeń, jeżeli działy się one kolejno, lub nadanie im chronologii, jeśli można je ująć fabularnie.

Układy fabularne polegają na powiązaniu wszystkich lub przynajmniej niektórych elementów w chronologiczne ciągi (Niemierko, 1999, s. 130-132). Często wprowadza się do nich fikcyjnych bohaterów (dzieci na wycieczce, badacz w laboratorium, postaci historyczne w akcji). Taki układ ułatwia zrozumienie kolejnych sytuacji i redukuje znużenie wywołane ich zmiennością, gdyż badany może mieć poczucie własnego uczestnictwa w zdarzeniach.

4.1.2. Forma elementu

1. Zwięzłość. Tekst pisemny elementów powinien być zwięzły i jasny. Krótkie zdania są lepsze niż długie, zdania pojedyncze są lepsze niż złożone. Tekst elementów trzeba oczyścić ze zbędnych słów i symboli, chyba że właśnie chodzi o sprawdzenie umiejętności czytania i rozumienia ze słuchu trudnych tekstów.

Nadmiar informacji może występować - i zwykle występuje - tylko w materiałach pomocniczych, jak mapy, ilustracje, przybory, słowniki. Wprowadzenie tych materiałów zwiększy jednak niechybnie czas pracy badanego nad udzieleniem odpowiedzi.

2. Poprawność językowa. Obowiązuje posługiwanie się językiem poprawnym gramatycznie, a to ze względu na komunikację oraz na dostarczanie dobrych wzorów badanym, którzy zwykle są jeszcze uczniami. Najczęściej spotykane błędy to lekceważenie przestankowania, niezborność gramatyczna trzonu zadania i niektórych odpowiedzi (np. „Okrągły Stół w Polsce zakończył okres … Żadne z powyższych”) oraz, niestety, pomyłki ortograficzne.

Wątpliwości językowe nie są niczym wstydliwym, a fachowa pomoc w tym zakresie jest na ogół dostępna. Wszystkie standaryzowane narzędzia diagnozy edukacyjnej powinny być poddane tak samo starannej redakcji wydawniczej jak książki i czasopisma.

3. Właściwy poziom ścisłości. Terminologia kwestionariuszy i testów musi być dostosowana do poziomu znajomości dziedziny przez badanych. Pytając, na przykład uczniów o uczenie się przedmiotu szkolnego nie możemy zastosować pojęć „dydaktyka tradycyjna” i „encyklopedyzm” ani nawet „cel kształcenia i „program kształcenia”. Wyrażenia „dawna szkoła”, „nadmiar materiału”, „to, co mamy osiągnąć” i „to, czego się uczymy” są z pewnością mniej ścisłe, ale będą lepiej zrozumiane. Jeszcze większą barierę może stwarzać naukowa terminologia przedmiotów szkolnych. Musimy zdecydować, czy chcemy sprawdzić znajomość tej terminologii, czy rozumienie zjawisk i procesów, których dotyczy.

Wszędzie, gdzie to możliwe, należy stosować język badanego, a nie - język badającego. Wielokrotnie stwierdzano, że „ankietowy” i „testowy” język ucznia jest w pełni zrozumiały dla nauczycieli i dyrektorów szkół, natomiast język „pokoju nauczycielskiego” jest uczniom na ogół obcy. Może się jednak zdarzyć, że zdolny i krytycznie nastawiony uczeń udzieli nam rzekomo absurdalnej odpowiedzi (np. zaprzeczając, że jest uczniem klasy IVB, bo IVB to dla niego oddział szkolny, lub nie zgadzając się na to, ze rok ma 365 dni; Niemierko, 1999, s. 149). Między naukowym i suchym „językiem uniwersytetu” a barwnym i wieloznacznym językiem codziennym jest wiele pośrednich poziomów ścisłości, z których, po odpowiednich próbach, wybieramy ten, na którym najskuteczniej możemy się porozumiewać.

4. Naturalność formy. Z dwu form sytuacji pomiarowej do dyspozycji zawsze lepiej wybrać tę, która jest bardziej naturalna, w tym sensie, ze uczniowie do niej przywykli i że z własnej ochoty porozumiewają się podobnie. Gdy istnieją odpowiednie warunki (co do treści diagnozy, jej czasu, wyposażenia) stosujemy raczej wywiad (rozmowę) niż ankietę (kartkówkę) i raczej zadania otwarte (pytania) niż zamknięte (zaopatrzone w propozycje odpowiedzi).

Niedozwolone są pytania i zadania pułapki, a niepożądane są pytania i zadania trickowe, szaradowe, o przeroście formy nad treścią. Diagnoza edukacyjna nie jest bowiem salonową (dla autora narzędzia) ani szkolną (dla badanego ucznia) rozrywką czy indywidualnym ćwiczeniem intelektualnym, lecz jest poważną, skoordynowaną pracą obu stron.

5. Stałość formy. Warto ograniczyć rozmaitość form pytań i zadań w jednym narzędziu, nawet wtedy, gdy mamy poczucie, że zmiana formy nieco lepiej służyłaby nowej treści. Bywa, że początkujący autorzy narzędzi chcą zabłysnąć swoim warsztatem lub wypróbować jak najwięcej wariantów konstrukcji elementów. Cierpi na tym badany, który nie zdąża przywyknąć do zmieniającej się formy i zużywa wysiłek na zrozumienie, jakiej nowej czynności technicznej oczekuje się od niego w danej chwili. Lepiej, gdy może się skupić na treści, a nie na formie współdziałania z diagnostą.

Zmiana formy elementów może być związana z przejściem od łatwiejszej do trudniejszej części narzędzia. Tak jest w szkolnych egzaminach zewnętrznych w Polsce, w których na początku są umieszczane zadania zamknięte, łatwiejsze i reprezentujące niższe kategorie taksonomii celów kształcenia, a po nich następują zadania otwarte (typu krótkiej i rozszerzonej odpowiedzi), trudniejsze i bardziej twórcze. Tu zmiana formy jest uzasadniona, a konsekwencje pomiarowe tej zmiany będą przedstawione w następnym rozdziale. W innych przypadkach, zwłaszcza w skalach opisowych i w skalach postaw, trzeba się dobrze zastanowić, czy zmiana formy kolejnych pozycji jest rzeczywiście potrzebna.

6. Przewidywanie odpowiedzi na pytania otwarte. Pytania i zadania mają być otwarte dla badanych, ale nie dla diagnosty! Powinien on przewidywać rozkład odpowiedzi. Strategia „łowienia”, na zasadzie zanurzania wędki w ciemną otchłań i oczekiwania, że coś da się złowić, jest znacznie mniej skuteczna niż strategia „polowania” na z góry upatrzoną informację.

Doświadczony konstruktor narzędzia z miejsca przewiduje najczęstsze odpowiedzi na pytania i zadania otwarte, a uzupełnia tę listę po badaniach próbnych. Musi napisać własne rozwiązania zadań krótkiej i rozszerzonej odpowiedzi, co oczywiście nie znaczy, że ograniczy punktowanie odpowiedzi do porównania z tym wzorcem. Jak najszybciej powinny być wytworzone klucze kodowe, jako systemy symboli reprezentujących kategorie odpowiedzi na pytania, ułatwiające klasyfikację odpowiedzi, oraz schematy punktowania, jako wykazy pożądanych cech odpowiedzi wraz ze skalami ocen tych właściwości.

7. Właściwy dobór odpowiedzi na pytania zamknięte. Gotowe odpowiedzi na kwestionariuszowe pytania zamknięte są nazywane kafeterią. Ta nazwa ma oznaczać samoobsługę i korzystanie z wcześniej przygotowanych produktów, jak w barze. Spotyka się też kafeterie półotwarte, w których obok gotowych odpowiedzi jest zachęta do wpisania własnej, oryginalnej odpowiedzi („Inna odpowiedź: …”).

W pomiarze dydaktycznym sztuka wytwarzania dystraktorów, czyli odpowiedzi towarzyszących, mających pozory prawidłowości lub stanowiących alternatywne, ale słabsze rozwiązania zadania, jest równie trudna, jak sztuka budowania zadań. Zaleca się czerpanie ich z potocznych doświadczeń i z błędnych rozumowań ucznia, ale jednorodność tematyczną i redakcyjną z odpowiedzią prawidłową, unikanie sformułowań banalnych i jawnie fałszywych, unikanie silnych zależności logicznych (np. stosunku podporządkowania) między nimi, usunięcie określeń nieznanych badanemu i wiele podobnych ostrożności. By przekonać się, czy dystraktory nie wypaczają zadania i nie zawierają ukrytych wskazówek do jego rozwiązania, trzeba zastosować to zadanie w badaniach próbnych.

4.1.3. Inwentarz modeli uczenia się

Inwentarz „Jak się uczę?” powstał według planu zamieszczonego w p. 3.3.3. Jego standaryzacja została poprzedzona badaniami próbnymi, umożliwiającymi ilościową analizę pozycji, która będzie zaprezentowana w p. 4.2.3 i 4.2.4. Obecnie inwentarz nadaje się już do szerokiego użytku, z ograniczeniami, które będą zasygnalizowane w następnym rozdziale.

Inwentarz jest przeznaczony dla uczniów wyższych (V - VI) klas szkoły podstawowej oraz dla wszystkich uczniów gimnazjum i liceum. Praca ucznia nad nim nie powinna przekraczać 15 - 20 minut.

JAK SIĘ UCZĘ?

W tabeli poniżej znajdują się opinie wyrażone przez innych uczniów na temat ich sposobu uczenia się. Oceń, na ile się zgadzasz lub nie zgadzasz z każdą z tych opinii.

W każdym wierszu tabeli zaznacz jedną odpowiedź

M o j e u c z e n i e s i ę

Zdecydo-wanie tak

Raczej tak

Nie potrafię tego ocenić

Raczej nie

Zdecydo-wanie nie

1. Staram się uczyć systematycznie wszystkiego, co mamy w szkole.

5

4

3

2

1

2. Chcę uczyć się tylko tego, co przyda mi się poza szkołą.

5

4

3

2

1

3. Lubię się uczyć, ale raczej nie tego, co mamy w szkole.

5

4

3

2

1

4. Uczę się chętnie, gdy pracujemy razem w grupie koleżeńskiej.

5

4

3

2

1

5. Zawsze dokładnie sprawdzam wszystko, co wykonuję.

5

4

3

2

1

6. Czasem zdarza mi się „ściąganie” podczas klasówki…

5

4

3

2

1

7. Pracuję najlepiej wtedy, gdy nauczyciel powierza mi osobne zadania.

5

4

3

2

1

8. Podczas lekcji lubię uczestniczyć w dyskusjach na tematy ogólne.

5

4

3

2

1

9. Uczę się dużo i dzięki temu uzyskuję dobre stopnie.

5

4

3

2

1

10. Spełnienie oczekiwań niektórych nauczycieli jest ponad moje siły.

5

4

3

2

1

11. Uważam, że nasze uczenie się w szkole jest źle zorganizowane.

5

4

3

2

1

12. Dzięki mojej działalności w organizacjach mam wyższe oceny.

5

4

3

2

1

13. Dzięki szkole mogę nauczyć się wytrwale pracować.

5

4

3

2

1

14. Lubię zadania praktyczne, wymagające zręczności i dobrej orientacji.

5

4

3

2

1

15. Nad ciekawymi i trudnymi zadaniami mogę pracować kilka dni.

5

4

3

2

1

16. Chętnie robię coś dla innych, w szkole i poza szkołą.

5

4

3

2

1

17. Wolę dokładnie wszystkiego się nauczyć niż ryzykować błędy.

5

4

3

2

1

18. Wolę słuchać, co mówi nauczyciel, niż myśleć po swojemu.

5

4

3

2

1

19. Wolę dyskutować o życiu niż rozwiązywać zadania z podręcznika.

5

4

3

2

1

20. Wolę ćwiczenia w pracowni niż uczenie się z podręcznika.

5

4

3

2

1

21. Wolę konkretne prace do wykonania niż głębokie rozmyślania.

5

4

3

2

1

22. Wolę konkretne prace niż działania w organizacjach szkolnych.

5

4

3

2

1

23. Wolę książkę historyczną lub przyrodniczą niż podręcznik.

5

4

3

2

1

24. Wolę czytać o odkryciach naukowych niż działać praktycznie.

5

4

3

2

1

25. Wolę czytanie książek niż działania w organizacjach szkolnych.

5

4

3

2

1

26. Wolę dyskutować w grupie koleżeńskiej niż uczyć się w ciszy.

5

4

3

2

1

27. Wolę działać w organizacji szkolnej niż zajmować się tylko sobą.

5

4

3

2

1

28. Wolę dyskutować o życiu niż rozwiązywać zadania z podręcznika.

5

4

3

2

1

O tym przykładzie inwentarza warto poczynić następujące uwagi:

1. Temat uczenia się został trzykrotnie wyeksponowany: w tytule, w instrukcji i w nagłówku pierwszej kolumny. Nadto wszystkie pozycje skalowe są zredagowane w pierwszej osobie liczby pojedynczej. Badany nie powinien mieć wątpliwości, ze chodzi o jego uczenie się i o to, jakie jest, a nie jakie być powinno.

2. Założenia inwentarza są nieczytelne dla badanego. Układ czterech modeli uczenia się (alfa - beta - gamma - delta), powtarzający się rytmicznie w pozycjach 1 - 16 i skrzyżowany w pozycjach 17 - 28, nie da się wykryć w krótkim czasie kontaktu z narzędziem. Ułatwia on potem odczytywanie i punktowanie wyników.

3. Cztery skale zostały określone jako skale opisowe, gdyż obejmują przegląd typowych sytuacji uczenia się i ocenę tych sytuacji. Nie można ich nazwać „skalami postaw”, bo brak w nich stałego obiektu postawy

4. Stałość formy pozycji jest maksymalna, bo wszystkie twierdzenia zostały zaopatrzone w pięciopunktową skalę Likerta. W takich przypadkach badany automatyzuje posługiwanie się ta skalą już po kilku pozycjach i może w pełni skupić się na szacowaniu, jak dokładnie kolejne twierdzenia opisują jego uczenie się.

5. Terminologia twierdzeń jest - po licznych zmianach redakcyjnych - oczyszczona z trudnych pojęć. Występują takie swojskie określenia, jak „to, co mamy w szkole” (treść kształcenia), , „wszystkiego się dokładnie nauczyć” (osiągnąć cele kształcenia), „myśleć po swojemu” (wiedza osobista).

6. Inwentarz nie podważa autorytetu szkoły, gdyż to byłoby naruszeniem norm moralnych diagnostyki. W twierdzeniach krytycznych wobec uczenia się w szkole (2, 3, 10, 11) akcent pada na własne zachowania i chęci ucznia („chcę”. „lubię”, „moje siły”, „nasze uczenie się”), a nie na zachowania nauczyciela.

7. Ze względu na „nie” występujące w skali Likerta, przeczenie „nie” usunięto ze sformułowania pozycji. Zaprzeczenia pewnych form uczenia się występuje tylko w pozycjach 17 - 28, w których wybór pierwszej z form oznacza, że druga nie jest w tym samym stopniu aprobowana.

4.1.4. Inwentarz atrybucji egzaminu szkolnego

Inwentarz „Egzaminy”, zbudowany według planu podanego w p. 3.3.4, ma dostarczać pedagogom wiedzy o stosunku uczniów kończących szkołę podstawową, gimnazjalistów i maturzystów do egzaminu jako formy sprawdzania i oceniania ich osiągnięć. Jest tu przedstawiony w wersji próbnej, nie poddanej jeszcze standaryzacji. W toku analiz, jakie będą przeprowadzone, sformułowania poszczególnych pozycji mogą ulec zmianie.

EGZAMINY

W tej ankiecie masz okazję wyrazić swój pogląd na egzaminy szkolne. Egzamin to każda wcześniej zapowiedziana próba wiadomości i umiejętności uczniów: odpytywanie, kartkówka, klasówka, a także sprawdzian po szkole podstawowej, egzamin po gimnazjum i matura. Twoje poglądy mają wartość dla szkół w całym kraju, a więc staraj się je dokładnie wyrazić. Stawiaj znak v w odpowiednim kwadracie z prawej strony każdego z czterdziestu zdań, pokazujący, czy zgadzasz się, czy nie zgadzasz z tym zdaniem.

P o g l ą d y

Zdecy-dowanie

TAK

Ra-czej

TAK

Nie

wiem

Ra-czej NIE

Zdecy-dowanie

NIE

1. Egzaminy zmuszają uczniów do systematycznej pracy.

5

4

3

2

1

2. Im lepszy nauczyciel, tym mniej wagi przykłada do egzaminów.

5

4

3

2

1

3. Egzaminy pokazują uczniom, co rzeczywiście potrafią.

5

4

3

2

1

4. Bez egzaminów szkoła byłaby znacznie przyjemniejsza.

5

4

3

2

1

5. Przed każdym egzaminem potrzebne są powtórki.

5

4

3

2

1

6. Wynik egzaminu zależy głównie od egzaminatora.

5

4

3

2

1

7. W czasie ćwiczeń i powtórek można odkryć wiele ciekawego.

5

4

3

2

1

8. Szczegółowe przygotowania do egzaminu niewiele dają.

5

4

3

2

1

9. Trzeba uczyć się z lekcji na lekcję, a nie tuż przed egzaminem.

5

4

3

2

1

10. Przewaga nauczyciela nad uczniem jest zbyt silna na egzaminie.

5

4

3

2

1

11. Przygotowując się do egzaminu, rozwiązuję przykłady zadań.

5

4

3

2

1

12. Na wynikach egzaminu bardziej zależy nauczycielom niż uczniom!

5

4

3

2

1

13. Kto pilnie wykonuje prace domowe, ma łatwiej na egzaminie.

5

4

3

2

1

14. Nauczyciele uprzedzają się do niektórych uczniów.

5

4

3

2

1

15. Wolę pytania problemowe niż pamięciowe.

5

4

3

2

1

16. Egzamin to los szczęścia do łatwych pytań lub zadań.

5

4

3

2

1

17. Niektóre przedmioty szkolne wymagają bardzo dużo pracy.

5

4

3

2

1

18. Stopnie w szkole zależą od opinii nauczyciela o uczniu.

5

4

3

2

1

19. Denerwuję się mocno przed każdym egzaminem!

5

4

3

2

1

20. Kto płynnie mówi i pisze, ma łatwiej na egzaminie.

5

4

3

2

1

21. Do niektórych przedmiotów potrzeba specjalnych zdolności.

5

4

3

2

1

22. Na egzaminie musisz walczyć i nigdy się nie poddawać!

5

4

3

2

1

23. Przed egzaminem mam żal do siebie, że nie umiem wszystkiego.

5

4

3

2

1

24. Egzaminy są dla kujonów!

5

4

3

2

1

25. Egzamin powinien obejmować tylko materiał przerobiony w klasie.

5

4

3

2

1

26. Egzamin szkolny to gra z wymagającym przeciwnikiem!

5

4

3

2

1

27. Słaby wynik egzaminu to wstyd przed sobą i przed bliskimi.

5

4

3

2

1

28. Trzeba wywrzeć dobre wrażenie na egzaminatorze…

5

4

3

2

1

29. Przed każdym egzaminem trzeba wiele wykuć!

5

4

3

2

1

30. Trochę sprytu może pomóc w każdym egzaminie.

5

4

3

2

1

31. Dobry wynik egzaminu zawsze mnie zaskakuje.

5

4

3

2

1

32. Sukcesy egzaminacyjne a praca zawodowa to dwie różne sprawy!

5

4

3

2

1

33. Egzamin sprawdza, jak dokładnie znamy przedmiot szkolny.

5

4

3

2

1

34. Trzeba umieć dostrzegać pułapki w pytaniach!

5

4

3

2

1

35. Jeszcze długo po egzaminie odczuwam napięcie.

5

4

3

2

1

36. W życiu są ważne inne umiejętności niż w egzaminie szkolnym.

5

4

3

2

1

37. Stale boję się, że w trakcie egzaminu zdarzy mi się luka w pamięci.

5

4

3

2

1

38. Podpowiadanie bywa koleżeńską przysługą…

5

4

3

2

1

39. Straszenie egzaminem przeszkadza w przygotowaniach.

5

4

3

2

1

40. Tylko mięczak dręczy się egzaminami!

5

4

3

2

1

Tu możesz, ale nie musisz podpisać się imieniem i nazwiskiem:

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

Inwentarz wyraża postawy, które niemal wszyscy nauczyciele zaaprobują (np. poz. 1, 3, 5, 7, 9), takie, które zaaprobuje tylko część nauczycieli (np. poz. 2, 4, 6, 10, 12) oraz takie, na które nauczyciele nie powinni się zgodzić (np. poz. 14, 18, 24, 38, 40). Te ostatnie mogą być odczytane jako prowokacja i zachęta do niewłaściwych zachowań, toteż przed zastosowaniem inwentarza należy pokazać go dyrektorowi szkoły i wychowawcy klasy, by mogli ustosunkować się do jego treści. Postawy uczniów wobec egzaminów bywają, niestety, dość dalekie od tego, czego pedagodzy by chcieli. Mierząc je, stwarzamy okazję do ich wyrażenia, a nie tylko do ewentualnego zaprzeczenia obowiązującym w szkole wzorom.

4.2. Analiza elementów

Analiza elementów, czyli ich wartościowanie ze względu na przydatność do budowanego narzędzia, odgrywa zasadniczą rolę w pomiarze standaryzowanym, gdyż - ze względów pragmatycznych i etycznych - narzędzie powinno być solidne w każdym elemencie. Narzędzia nieformalne, przeznaczone do jednorazowego użytku, mogą być podane jedynie ogólnej refleksji metodologicznej i pedagogicznej przed zastosowaniem oraz przeglądowi wyników po zastosowaniu. Tak ograniczona analiza jest również pożyteczna w ulepszaniu narzędzia i we wzbogacaniu warsztatu diagnostycznego jego autora.

Jakościowa analiza elementów jest dokonywana już w trakcie ich budowania. Autor pytań lub zadań kieruje się planem narzędzia, dopasowuje do niego treść i poziom trudności elementu, dba o poprawność rzeczową i właściwą redakcję, przewiduje odpowiedzi. Może także poprosić innego pedagoga o sprawdzenie wstępnej puli elementów i o wyrażenie swoich wątpliwości merytorycznych i redakcyjnych.

Ilościowa analiza elementów może być dokonana dopiero po ich próbnym zastosowaniu i po uzyskaniu kilkudziesięciu, a w przypadku najważniejszych narzędzi - kilkuset i więcej wyników. Jej dwa główne zakresy to aprobata/łatwość i moc różnicująca elementów, a dwa pomocnicze zakresy to czas pracy badanego i opuszczenia. Objaśnienie procedur zaczniemy od tych drugich, mniej zaawansowanych statystycznie.

4.2.1. Czas pracy

Czas pracy badanego nad udzieleniem odpowiedzi obejmuje czytanie (oglądanie, słuchanie) treści elementu i reakcję na tę treść (mówienie, pisanie, wykonywanie innej czynności praktycznej). Jest przedmiotem systematycznego zainteresowania konstruktorów narzędzi dopiero od niedawna, gdy pojawiła się możliwość badania komputerowego i łatwego uzyskiwania zapisu, jak długo badany pracuje nad każdym elementem.

Zarówno nieoczekiwanie długa praca nad jednym elementem, jak i zbyt szybkie przechodzenie do następnej pozycji narzędzia mogą wskazywać na wadę elementu. W tym drugim przypadku udowodniono, że w egzaminach powszednich („niskich stawek”) ostrzeżenie badanego przez komputer, że nie wkłada należytego wysiłku w rozwiązywanie zadań zamkniętych, skutkuje podniesieniem trafności pomiaru (Wise i in., 2006). W pytaniach i zadaniach otwartych zgadywanie odpowiedzi jest wprawdzie rzadsze, ale też mogą się zdarzyć nieprzemyślane odpowiedzi lub „utknięcie” na zbyt trudnych sformułowaniach.

4.2.2. Opuszczenia

Opuszczenie elementu występuje, gdy bez względu na czas pracy badany nie dostarczył żadnej odpowiedzi. Zdarza się to w różnych częściach narzędzia. W końcowej części znaczy zwykle, że badanemu zabrakło czasu na odpowiedź, ale w początkowej i środkowej części może znaczyć, że badany nie rozumie treści elementu lub czynności, jaką ma wykonać, by podać rozwiązanie. Za wartość alarmową uważa się na ogół 15 procent opuszczeń. Funkcję zbliżoną do opuszczeń spełniają odpowiedzi „Nie potrafię tego ocenić”, „Nie mam zdania” i „Nie wiem” w skalach opisowych i w skalach postaw, a więc można dla nich wyznaczyć taki sam limit.

Połączenie informacji o czasie pracy i o opuszczeniach lub braku zdania podnosi możliwość interpretacji wysiłku badanego, jednak luksus komputerowego rejestrowania przebiegu diagnozy zdarza się jeszcze rzadko. Możemy tylko spytać badanych po zakończeniu pracy, które elementy narzędzia zabrały im najwięcej czasu i sprawiały najwięcej trudności oraz jakie były przyczyny ewentualnych opuszczeń.

4.2.3. Aprobata i łatwość

Aprobata oznacza udzielanie odpowiedzi potwierdzającej zdanie wyrażone w pozycji skalowej, a łatwość jest stosunkiem punktów uzyskanych za rozwiązanie danego zadania do maksymalnej liczby punktów możliwych do uzyskania przez określoną liczbę badanych. Obydwa wskaźniki określonego elementu narzędzia mogą być wyrażone w procentach (potwierdzających, poprawnie rozwiązujących) lub jako wskaźniki p (ułamki), przybierające wartości od 0 (brak aprobaty i poprawnych rozwiązań) do 1 (pełna aprobata i komplet rozwiązań). Ten drugi sposób jest w statystyce wygodniejszy i szerzej w Polsce przyjęty.

Interpretacja wskaźnika p w umownych przedziałach wartości przybiera określenia podane w tab. 13.

Tab. 13. Interpretacja wskaźnika p aprobaty/łatwości elementów narzędzia

Wskaźnik aprobaty/łatwości

Interpretacja

0,00 - 0,19

bardzo niski

0,20 - 0,49

niski

0.50 - 0,69

umiarkowany

0,70 - 0,89

wysoki

0,90 - 1,00

bardzo wysoki

W skalach opisowych, skalach postaw i typowych testach osiągnięć szkolnych przeważają umiarkowane i wysokie wskaźniki p. Dzieje się tak z różnych przyczyn. W badaniach opinii występuje nastawienie na potakiwanie - tendencja do wyrażania aprobaty, jako intelektualnie prostszej niż negacja, która wymaga zajęcia własnego stanowiska. W badaniach osiągnięć zadania trudne (łatwość niska) i bardzo trudne (łatwość bardzo niska) obniżają, gdy są w nadmiarze, samoocenę badanych i zniechęcają ich do wysiłku.

4.2.4. Przykład zastosowania wskaźnika aprobaty

Zastosowanie wskaźnika p do porównań aprobaty wybranych pozycji skal modeli uczenia się przedstawia tab. 14. Pod nagłówkiem „Standaryzacja” umieszczono w niej wskaźniki trzech najwyżej i trzech najniżej aprobowanych twierdzeń inwentarza „Jak się uczę” przez ponad 1500 uczniów III klasy 94 warstwowo wylosowanych gimnazjów z terenu całego kraju. Pod nagłówkiem „Mała próba” umieszczono w niej rozkład odpowiedzi i wskaźniki w grupie 16 uczniów VI klasy szkoły podstawowej, uzyskane w Tczewie (przez Iwonę Stormę).

Tabela 14. Porównanie skrajnych wartości wskaźników p w dwu niezależnych diagnozach

Model

P o z y c j a i n w e n t a r z a

Standaryzacja

Średnia p

M a ł a p r ó b a

5 4 3 2 1 Średnia p

beta

2. Chcę uczyć się tylko tego, co przyda mi się poza szkołą.

3,9

,72

2

4

1

7

2

2,8

,45

beta

21. Wolę konkretne prace do wykonania niż głębokie rozmyślania.

3,8

`70

3

7

5

2

-

3,8

,70

delta

28. Wolę dyskutować o życiu niż rozwiązywać zadania z podręcznika.

3,8

,70

9

5

-

2

-

4,2

,80

alfa

19. Wolę słuchać, co mówią inni, niż uczestniczyć w dyskusji.

2,9

,48

2

6

-

5

3

2,9

,48

gamma

11. Uważam, że nasze uczenie się w szkole jest źle zorganizowane.

2,8

,45

-

-

-

8

8

1,5

,12

gamma

24. Wolę czytać o odkryciach naukowych niż działać praktycznie.

2,8

,45

2

8

-

5

1

3,3

,58

O wskaźnikach aprobaty zamieszczonych w tab. 14 można poczynić następujące spostrzeżenia:

1. Z dwunastu wskaźników p w tabeli jeden jest bardzo niski, pięć jest niskich, jeden umiarkowany i pięć wysokich. W inwentarzu przeważały wartości umiarkowane wskaźnika, ale w tabeli ujęto tylko wartości najwyższe i najniższe.

2. Badani z Tczewa nie opuszczali pozycji skalowych i tylko w jednej z nich (21) liczba odpowiedzi „Nie potrafię tego ocenić” jest niepokojąco duża. Zapewne wyrażenie „głębokie rozmyślania” nie jest dostatecznie bliskie uczniom szkoły podstawowej. W pozostałych przypadkach unikali odpowiedzi neutralnej.

3. Rozstęp wartości wskaźnika p w małej próbie (0.80 - 0,12 = 0,68) jest ponad dwukrotnie większy niż w danych ze standaryzacji (0,72 - 0,45 = 0,27). To jest prawidłowość statystyczna: większa próba niweluje lokalne (grupowe) skrajności. Na rozchwianie wartości p mogła wpłynąć także duża różnica wieku badanych między dwiema próbami.

4. Duże różnice między opiniami uczniów szkoły podstawowej z Tczewa a gimnazjalistami z całego kraju wystąpiły w dwu przypadkach: (2) mniej chęci ograniczenia uczenia się tylko do tego, co przydatne poza szkołą, i (11) brak pretensji (do nauczycieli, do uczniów) o źle zorganizowaną pracę. To można potraktować jako osiągnięcie szkoły, ale także jako mniejszą dojrzałość młodszych uczniów do krytyki.

4.2.5. Profil zadania testu sprawdzającego

Przykładu wykorzystania wskaźnika p w pomiarze sprawdzającym do porównań osiągnięć uczniów dostarczy nam analiza profilów zadań. Profilem zadania nazwiemy zestawienie pokazujące jego łatwość w grupach badanych o różnym poziomie osiągnięć w dziedzinie objętej pomiarem. W pomiarze sprawdzającym te grupy mogą być wyodrębnione według poziomów osiągnięć oznaczonych stopniami szkolnymi.

Test wielostopniowy Karola Szymańskiego i Mariana Waszkiewicza „Liczby wymierne” rozwiązywali uczniowie czterech oddziałów VII klasy w czterech szkołach warszawskich (Niemierko, 1990, s. 328-331). Z tego testu wybieramy cztery następujące zadania:

28 (poziom podstawowy): Oblicz: (-1 ) : (-0,1)

24 (poziom rozszerzony): Oblicz najprostszym sposobem wartości iloczynu:

0x01 graphic
0x01 graphic

25 (poziom rozszerzony): Podaj nazwy praw, z których korzystałeś w zadaniu 24.

20 (poziom pełny): Rozwiąż równanie, stosując prawo monotonii dodawania: x + 7 = 2

Uczniowie zostali podzieleni według ogólnego wyniku testowania na grupy „niedostatecznych”, „dostatecznych”, „dobrych” i „bardzo dobrych”. Profile zadań przy tym podziale przybrały kształty jak na rys. 8.

Wartość p

1,00

0,90

0,80

0,60

0,50

0,40

0,30

0,70

0,20

0,10

0,000x08 graphic
0x01 graphic

Poziom niedostateczny dostateczny dobry bardzo dobry

Rysunek 8. Profile czterech zadań testu sprawdzającego „Liczby wymierne”

(28 - lina ciągła, 24 - linia kropkowana, 25 - linia przerywane, długie odcinki,

20 - linia przerywana, krótkie odcinki)

A oto komentarz do rys. 8:

1. Najłatwiejsze jest zadanie 28 (linia biegnąca górą), zaprojektowane jako podstawowe („na trójkę”). Już uczniowie „dostateczni” nie mają na ogół kłopotów ze znakami algebraicznymi i dzieleniem przez ułamek, co ich ostro odróżnia od uczniów „niedostatecznych”.

2. Najtrudniejsze jest zadanie 25 (linia biegnąca dołem), zaprojektowane jako rozszerzające („na czwórkę”). Świadomość praw matematycznych uzasadniających działania jest pełna dopiero u uczniów „bardzo dobrych” i to ich wyraźnie odróżnia od uczniów „dobrych”. Zadanie nadawałoby się zatem lepiej do dopełniającej części testu („na piątkę”).

3. Zadanie 24 (większa część linii bliska poziomu) nie różnicuje uczniów między poziomami „dostatecznym”, „”dobrym” i „bardzo dobrym”. Polecenie „najprostszym sposobem” jest przez nich być może odczytywane jako „najbardziej pomysłowym sposobem”. Zadanie wymaga spostrzeżenia, że czynnik 4. w iloczynie czterech czynników jest odwrotnością czynnika 2., co powoduje, że iloczyn tych dwu czynników wynosi 1. Jest zapewne w pewien sposób twórcze, ale nie przynosi sukcesu uczniom o najwyższych wynikach testowania.

4. Najlepiej różnicuje osiągnięcia uczniów zadanie 20 (linia środkowa, pnąca się stromo w górę od minimalnego do maksymalnego wskaźnika łatwości p). Tą właściwością zadań, kluczową dla pomiaru różnicującego, zajmiemy się w dalszych częściach tego rozdziału.

4.2.6. Moc różnicująca

Moc różnicująca (moc dyskryminująca, dyskryminacja) elementu narzędzia jest jego zdolnością do rozróżniania badanych (rzadziej: innych obiektów) pod względem mierzonej właściwości. Ponieważ nie dysponujemy zwykle inną miarą tej właściwości niż wyniki pozostałych elementów tego samego narzędzia, moc różnicującą jest szacowana jako korelacja wyników danego elementu z ogólnym wynikiem pomiaru, nie wyłączając - dla wygody obliczeń - tego właśnie elementu. Jest to zatem korelacja części z całością, w której ta część się mieści, co powoduje, że jest tym wyższa, im elementów jest mniej (kwestionariusz lub test jest krótszy).

Głównym czynnikiem zmienności korelacyjnego wskaźnika mocy różnicującej jest jednak nie rozmiar narzędzia, a siła związku między jego elementami. W narzędziach jednorodnych, mierzących silnie wyodrębnioną i spójną właściwość obiektów, interkorelacja elementów jest wysoka, a zatem średnia moc różnicująca poszczególnych elementów jest także wysoka. W narzędziach różnorodnych, mierzących właściwość chwiejnie rozumianą, wieloaspektową i niespójną, interkorelacja elementów jest niska, a więc i moc różnicująca elementów jest niska. Nadto moc różnicująca elementu zależy od jakości jego konstrukcji, gdyż elementy nietrafne, wieloznaczne lub w inny sposób wadliwe, mogą przynosić wyniki przypadkowe, nieskorelowane z mierzoną właściwością i z innymi elementami.

W pomiarze pedagogicznym, inaczej niż psychometrii (por. p. 2.1.4), staramy się nie tyle wyodrębniać różnice indywidualne między badanymi, ile reprezentować określone pola osiągnięć uczniów-wychowanków i właściwości innych obiektów. Dążenie do spójności narzędzia przez usuwanie elementów odległych od centrum mierzonej właściwości ograniczałoby jej pole ze szkodą dla diagnozy edukacyjnej.

Jaki więc mamy pożytek z szacowania mocy różnicującej elementów narzędzi pomiaru pedagogicznego, a węziej - pomiaru sprawdzającego? Jest on dwojaki:

1. Wskaźnik mocy różnicującej sygnalizuje elementy, które mogą zawierać błędy w treści, konstrukcji lub kluczu (schemacie) punktowania. Bardzo niski (poniżej 0,20), a niekiedy nawet ujemny współczynnik korelacji znaczy, że dany element albo mierzy coś innego niż reszta elementów, albo nie mierzy niczego i przynosi wyniki przypadkowe. Warto przyjrzeć się takiemu twierdzeniu, pytaniu lub zadaniu, skorygować błąd w nim zawarty lub wymienić element na bardziej udany.

2. Im wyższa jest moc różnicująca elementów narzędzia, tym wyższa jest rzetelność pomiaru, rozumiana ogólnie jako jego powtarzalność w określonych warunkach. Tą zaletą pomiaru zajmiemy się w następnym rozdziale.

4.2.7. Moc różnicująca pozycji skalowych i zadań testowych

Przykładów zastosowania korelacyjnego wskaźnika mocy różnicującej dostarczą nam wyniki wybranych pozycji inwentarza „Jak się uczę?”. W tab. 15 zestawiono po trzy najwyżej i najniżej różnicujące pozycje w badaniach standaryzacyjnych gimnazjalistów oraz odpowiednie wskaźniki w małej próbie, pobranej z jednego oddziału szkoły podstawowej (jak w p. 4.2.4).

Tabela 15. Porównanie wskaźników r mocy różnicującej w dwu niezależnych diagnozach

Model

P o z y c j a i n w e n t a r z a

Standaryzacja

p r

Mała próba

p r

Delta

8. Podczas lekcji lubię uczestniczyć w dyskusjach na tematy ogólne.

,62

,62

,81

,71

Beta

21. Wolę konkretne prace do wykonania niż głębokie rozmyślania.

,70

,59

,70

,39

Alfa

1. Staram się uczyć systematycznie wszystkiego, co mamy w szkole.

,65

,52

,70

,66

Gamma

23. Wolę książkę historyczną lub przyrodniczą niż podręcznik.

,62

,37

,56

,82

Gamma

3. Lubię się uczyć, ale raczej nie tego, co mamy w szkole.

,58

,34

,28

,49

Beta

2. Chcę uczyć się tylko tego, co przyda mi się poza szkołą.

,72

,30

,45

,61

Wśród danych zamieszczonych w tab. 15 zauważamy następujące prawidłowości:

1. Wskaźniki aprobaty p i wskaźniki mocy różnicującej r są niezależne. Niskim, umiarkowanym i wysokim wskaźnikom aprobaty mogą towarzyszyć niskie, umiarkowane i wysokie wskaźniki mocy różnicującej. Dopiero bardzo wysokie lub bardzo niskie p (wysokie podobieństwo wyników wszystkich badanych, a więc brak różnicowania) powodowałyby ograniczenie wartości korelacyjnych wskaźników mocy różnicującej.

2. W malej próbie wskaźniki mocy różnicującej są wyraźnie wyższe (średnio o około 0,15) niż w dużej próbie standaryzacyjnej, w której poglądy uczniów ulegają wymieszaniu między szkołami. Oddział szkolny jest bardziej jednorodny co do wzorów uczenia się niż krajowa populacja uczniów. Istnieje coś takiego jak „dusza szkoły” (Touhy, 2002), jednocząca poglądy uczniów.

3. Gdy przyjmiemy wartość 0,30 współczynnika r jako minimalną przy 10 pozycjach pojedynczej skali, a wartość 0,60 jako w pełni zadowalającą (Niemierko, 1999, s. 158, tab. 27), to wszystkie wskaźniki umieszczone w tab. 15 są do przyjęcia, a około połowy z nich wskazuje na silny związek zachowania wyrażonego danym twierdzeniem z odpowiednim modelem uczenia się. Dla narzędzia złożonego z 25 elementów odpowiednie progi wielkości współczynnika r wynosiłyby około 0,20 i 0,40, a dla narzędzia złożonego ze 100 elementów wynosiłyby około 0,10 i 0,20 - tak skutkuje zmniejszanie się roli danego elementu w całości narzędzia przy jego powiększaniu (Niemierko, 1975a, s. 265-268).

Przybliżenie wartości wskaźnika korelacyjnego mocy różnicującej r możemy uzyskać przez oszacowanie uproszczone w postaci wskaźnika zastępczego mocy różnicującej D, będącego różnicą wskaźników łatwości między dwiema skrajnymi grupami badanych. Te grupy stanowią zwykle od 25% do 50% całości próby, a wskaźniki zastępcze mają, odpowiednio, symbole od D25 do D50. W tym ostatnim wariancie, D50, stosowanym przy bardzo małej liczbie badanych, zbiór wyników dzieli się na dwie połówki: wyników wysokich, W, powyżej mediany, i wyników niskich, N, poniżej mediany ogólnych wyników pomiaru. Gdy odpowiedzi na niektóre pozycje skal opisowych i skal postaw, a jeszcze częściej - rozwiązania zadań testowych, są oceniane w skali 0 - 1 (1 punkt za odpowiedź zgodną z kluczem, 0 punktów za inną odpowiedź lub brak odpowiedzi), wskaźnik zastępczy dalej się upraszcza, gdyż łatwość/aprobata p jest stosunkiem liczby badanych uzyskujących oczekiwany wynik do wielkości grupy.

Właściwości wskaźnika D50 mocy różnicującej będą przedstawione na przykładzie trzech par zadań - bardzo łatwych, trudnych i bardzo trudnych - wersji próbnej testu „Książka”, przygotowywanego jako ćwiczebny sprawdzian zewnętrzny dla klasy VI przez Zofię Kujawę wraz z zespołem, a rozwiązywanego przez 68 uczniów z kilku szkół podstawowych.

Zadanie 6. Jak inaczej chrześcijanie nazywają Pismo Święte?

A. Tora B Biblia. C. Koran D. Awesta

Zadanie 18. Czytając na głos w źle oświetlonym miejscu, narażasz się na uszkodzenie narządu

A. mowy. B. słuchu. C. dotyku. D. wzroku.

Zadanie 8. Ile maksymalnie kartek formatu A4 można wyciąć z arkusza formatu A0? [Zamieszczono rysunek formatów A0 - A8).

A. 4 B. 6 C. 8 D. 16

Zadanie 15. Co decyduje o kolejności umieszczenia informacji o książce w katalogu alfabetycznym?

A. Imię autora B. Tytuł woluminu C. Nazwisko autora D. Nazwa wydawnictwa

Zadanie 22. Do ponumerowania stron książki użyto 187 cyfr. Po obu stronach pierwszej kartki nie umieszczono numerów, a pierwszą numerowaną jest strona trzecia. Pamiętaj, że nienumerowane strony pierwszej kartki należy doliczyć do ogólnej liczby stron ksiązki. Ile kartek ma książka? Zapisz wszystkie obliczenia.

[23.1. Ustalenie sposobu obliczenia liczby stron ponumerowanych liczbami jednocyfrowymi.]

[23.5. Analiza otrzymanego wyniku i ustalenie odpowiedzi.]

Ilościowa analiza tych zadań mieści się w tab. 16.

Tabela 16. Wskaźniki łatwości p oraz mocy różnicującej: korelacyjny r i zastępczy D25

Zadanie

Łatwość

Prawidłowe rozwiązania

W N

Łatwość w grupach

W N

Moc różnicująca

D25 r

6

0,96

16

15

0,94

0,88

0,06

0,12

18

0,94

16

15

0,94

0,88

0,06

0,08

8

0,49

13

2

0,76

0,12

0,64

0,56

15

0.44

12

1

0,71

0.06

0,65

0,40

22.I

0,07

4

0

0,23

0,00

0,23

0,40

22.V

0,03

1

0

0.06

0,00

0,06

0,23

A oto najważniejsze spostrzeżenia o zadaniach, ich mocy różnicującej i wskaźnikach w tab. 16:

1. Wszystkie wskaźniki mocy różnicującej są dodatnie, ale prawie połowa z nich nie osiąga wielkości 0,15, minimalnej dla narzędzi złożonych z 40 elementów. Dotyczy to przede wszystkim zadań 6 i 18, bardzo łatwych dla szóstoklasisty, w których błędna odpowiedź może być raczej wynikiem nieuwagi niż niewiedzy.

2. Zadania 22.I i 22.V, skrajnie trudne, słabo różnicują uczniów, gdyż tylko pojedynczy uczniowie podjęli dość jałowe poznawczo obliczanie cyfr w numeracji, a prawie żaden nie był w stanie podać prawidłowej odpowiedzi (50 kartek). W sprawozdaniu z badań nie wymieniono, zapewne dużej, liczby opuszczeń zadania.

3. Zadania 8 i 15, trudne, ale blisko granicy umiarkowanej trudności, różnicują szóstoklasistów świetnie. To pokazuje, że zadania wyboru wielokrotnego nie muszą być ani łatwe, ani rozwiązywane przez zgadywanie, gdyby bowiem uczniowie „na ślepo” zgadywali odpowiedzi na te zadania, szanse sukcesu byłyby równe w obu grupach i wskaźnik D25 byłby bliski zeru.

4. Wskaźnik zastępczy mocy różnicującej D25 podobnie klasyfikuje zadania jak wskaźnik korelacyjny r, ale jego zakres zmienności (0,06 - 0,65) jest w tab. 16 nieco większy niż zakres zmienności wskaźnika korelacyjnego (0,08 - 0,56). Gdyby posłużyć się połówkami zbioru wyników i obliczyć wskaźnik D50, te zakresy byłyby bliższe wyrównania, ale ostrość rozróżnień między zadaniami zmalałaby.

4.2.8. Planowanie testu a łatwość i moc różnicująca zadań

Planując złożone narzędzie diagnozy, zakładamy, że jego elementy będą reprezentować dziedzinę w ustalonych proporcjach, jednakowych (jak w tab. 12) lub zróżnicowanych według względnego znaczenia. Właściwości poszczególnych elementów, wykazane w toku ich analizy, mogą jednak zmienić te proporcje.

Pozycje wysoko aprobowane i zadania łatwe dostarczają badanym więcej punktów, a zatem ich udział w ogólnym wyniku diagnozy jest większy. Pozycje i zadania wysokich wskaźnikach mocy różnicującej w większym stopniu przyczyniają się do odróżniania badanych o wysokich i niskich wartościach mierzonej właściwości niż pozycje i zadania o niskich wskaźnikach mocy różnicującej. Rozważymy to na przykładzie ogólnopolskich wyników sprawdzianu po VI klasie szkoły podstawowej uzyskanych w 2004 roku (Niemierko, 2004a; Niemierko, 2007, s. 357), przedstawionych w tab. 17.

Tabela 17. Planowany i uzyskany udział pięciu umiejętności

w ogólnopolskim sprawdzianie osiągnięć uczniów szkoły podstawowej w 2004 roku

Umiejętność

Planowanie

Waga Punkty

Sprawdzanie

Rodzaj zadań Łatwość Punkty Udział

Różnicowanie

Moc różnic. Wskaźnik Udział

Czytanie

25%

10

zamknięte

,82

8,19

32%

,38

1,39

18%

Pisanie

30%

12

otwarte

,69

8,25

32%

,45

2,40

31%

Rozumowanie

20%

8

zamknięte otwarte

,48

,44

3,68

14%

,44

,54

1,81

23%

Korzystanie

z informacji

5%

2

zamknięte

otwarte

,74

,75

1,49

6%

,48

,48

0,42

5%

Wykorzystywanie

wiedzy w praktyce

20%

8

zamknięte otwarte

,62

,29

3,95

16%

,40

,61

1,78

23%

R a z e m

100%

40

zamknięte otwarte

łącznie

,70

,58

,64

14,0

11,6

25,6

55%

45%

100%

,40

,49

,45

3,41

4,42

7,83

44%

56%

100%

Tab. 17 zawiera następujące informacje:

1. Począwszy od 2002 roku, sprawdziany zaplanowano jako narzędzia pomiaru pięciu rodzajów (obszarów) umiejętności w stałych proporcjach, tak by czytanie i pisanie stanowiły ponad połowę (55%) treści sprawdzianu i przynosiły ponad połowę (22 z 40) punktów.

2. Zastosowano zadania zamknięte i otwarte, co zmieniło te proporcje, bo zadania zamknięte okazały się łatwiejsze (średni wskaźnik 0,70) od zadań otwartych (0,58), ale słabiej różnicujące (średni wskaźnik korelacyjny (0,40) od zadań otwartych (0,49). Takie różnice w charakterystyce zadań dwu rodzajów są dość typowe.

3. Duży, większy od planowanego, udział w sprawdzaniu osiągnięć (dostarczaniu punktów) ma czytanie (32%), reprezentowane przez stosunkowo najłatwiejsze zadania wyboru wielokrotnego. To powoduje, że czytanie i pisanie (umiejętności językowe) wnoszą prawie 2/3 punktów (64%) do przeciętnego wyniku sprawdzianu. Uczniowie uzyskują nadspodziewanie wiele punktów za planowo mierzoną umiejętność czytania (rozumienia czytanego tekstu), a przecież reszta zadań też wymaga odczytania.

4. Najwyższą moc różnicującą mają zadania otwarte z obszaru wykorzystywania wiedzy w praktyce (0,61) i rozumowania (0,54), nasycone problematyką matematyczną. To powoduje, że te dwa rodzaje umiejętności mają większy udział (łącznie 46%) w zróżnicowaniu ogólnych wyników sprawdzianu mierzonym odchyleniem standardowym niż był planowany (40%). Ten udział jest mierzony wskaźnikiem rzetelności, iloczynem mocy różnicującej i odchylenia standardowego elementu lub grupy elementów, a suma wskaźników rzetelności wszystkich części narzędzia stanowi odchylenie standardowe wyników całości. Zadania o najwyższych wskaźnikach rzetelności nazwano potocznie „zadaniami rozrywającymi” (Stożek, 2006; Stożek i Dąbrowski, 2006; Jurek, 2007; Stożek, 2008), gdyż powodują one spłaszczenie rozkładu wyników pomiaru, a nawet ich dwumodalność (dwa punkty skupienia na skali wyników pomiaru) - „rozrywanie” rozkładu wyników na części (Dubiecka, 2006).

5. Tak więc typowy szóstoklasista większość punktów w obowiązkowym sprawdzianie osiągnięć zdobywa za czytanie z pisaniem oraz za zadania zamknięte (56% punktów). To stanowi wspólny trzon przeciętnych i wysokich wyników sprawdzianu. O różnicach między tymi wynikami, a zatem i o sukcesie w ewentualnej selekcji kandydatów do konkurencyjnych gimnazjów, decydują jednak inne umiejętności, w przewadze matematyczne, oraz inne zadania - otwarte (55% udziału w różnicowaniu), gdyż to one mają wyższą moc różnicującą.

4.2.9. Komputerowe programy analizy elementów

Jest wiele programów komputerowych wspomagających analizę elementów narzędzi pomiaru psychologicznego i pedagogicznego. Najprostszy i najbardziej znany w Polsce jest program ITEMAN™, amerykańskiej firmy Assessment Systems Corporation. Jest przeznaczony do analizy pozycji skalowych punktowanych według skali Likerta oraz do analizy zadań wyboru wielokrotnego. To drugie zastosowanie poznamy na przykładzie trzech zadań z nieformalnego testu „Elementy teorii pomiaru dydaktycznego”, zastosowanego wobec 33 uczestników Podyplomowego Studium Pomiaru Dydaktycznego i Oceniania na Uniwersytecie Gdańskim w 2003 roku. Oto trzy wybrane zadania tego testu:

2. Doskonały pomiar sprawdzający osiągnięć uczniów jest

A. niemożliwy.

B. możliwy tylko wewnątrz szkoły.

C. możliwy tylko na egzaminie zewnętrznym.

D. możliwy tylko w teorii.

15. Obiektywizm pomiaru sprawdzającego uzyskujemy głównie przez

A. zakodowanie danych personalnych.

B. uszczegółowienie schematów punktowania.

C. uściślenie standardów wymagań.

D. systematyczne kształcenie egzaminatorów

39. Dlaczego skale różnicowe bywają stosowane w edukacji?

A. Uzgodnienie wymagań jest bardzo trudne.

B. Sprecyzowanie wymagań jest niemożliwe.

C. Porównania są ważniejsze niż spełnienie wymagań.

D. Skale różnicowe są dokładniejsze niż skale ocen.

W każdym z zadań mamy cztery odpowiedzi do wyboru. Jedna odpowiedź jest uznana za najlepszą i punktowana jako prawidłowa (1 punkt). Trzy pozostałe odpowiedzi stanowią dystraktory, uznane przez konstruktora za słabsze, a więc nieprawidłowe (0 punktów). Wydruk programu ITEMAN™ zawiera dane statystyczne do analizy dystraktorów, czyli do wartościowania każdego z dystraktorów ze względu na przydatność do danego zadania. Te dane to (1) atrakcyjność dystraktora, a, wskaźnik częstości wyboru tego dystraktora w skali 0 - 1, a więc odpowiednik wskaźnika p prawidłowego rozwiązania i (2) moc różnicująca dystraktora, r lub D, zwykle ujemna, gdyż częściej wybierają go badani o niższym ogólnym wyniku testowania.

Wydruk programu ITEMAN™ dla trzech wybranych zadań przedstawia (w wersji polskiej) tab. 18.

Tab. 18. Analiza zadania i analiza dystraktorów w programie ITEMAN™

Numer zadania

kolejny w skali

Wskaźniki statystyczne zadania

p D27 r

Odpowiedzi

Wskaźniki statystyczne odpowiedzi

a aN aW r

Klucz

2

1-2

0,65

0,19

0,21

A

B

C

D

inne

0,65

0,00

0.09

0,26

0,00

0,56

0,00

0.11

0,33

0,00

0,75

0,00

0,00

0,25

0,00

0,21

-0,21

-0,09

*

15

1-15

0,82

0,49

0,35

A

B

C

D

inne

0,00

0,18

0,35

0,00

0,00

0,00

0,56

0,44

0,00

0,00

0,00

0.06

0,94

0,00

0,00

-0,35

0,35

*

39

2-19

0,09 0,10 0,20

Skontroluj klucz:

A podano, B działa lepiej

A

B

C

D

inne

0,09

0,12

0,21

0,50

0,09

0,06

0,06

0,19

0,50

0,00

0,17

0,25

0,08

0,50

0,00

0,20

0,29

-0,06

0,10

-0,62

*

?

A oto interpretacja wyników analizy dystraktorów:

1. Zadanie 2 jest umiarkowanie trudne, ale słabo różnicujące uczestników Podyplomowego Studium. Odpowiedź B okazała się „martwa”, przez nikogo nie wybierana. Z dwu pozostałych dystraktorów, bardziej atrakcyjny okazał się dystraktor D, ponieważ co czwartemu z badanych o najlepszych wynikach (grupa W o wielkości 27%) i co trzeciemu w grupie o najniższych wynikach (grupa N) wydawało się, że teoria pomiaru (i, być może, wszelka teoria) tworzy modele idealne, a nie zajmuje się ograniczeniami ich zastosowań. (Wewnętrzna sprzeczność pojęcia „idealnego narzędziu pomiaru” będzie wykazana w następnym rozdziale.)

2. Zadanie 15 jest łatwe i dobrze różnicujące, ale sprowadzało się u badanych do wyboru między odpowiedzią prawidłowa C a dystraktorem B. Pozostałe dwa dystraktory, A i D, były martwe, choć autorowi zadania mogło wydawać się, że powinny być atrakcyjne, bo kodowanie danych o uczniach i systematyczne przygotowania sędziów kompetentnych uważa się powszechnie za warunki obiektywizmu egzaminowania.

3. Zadanie 39 reprezentuje wymagania ponadpodstawowe, tworzące odrębną skalę, oznaczoną jako 2 w drugiej kolumnie tabeli. Jest bardzo trudne i źle różnicuje uczestników Podyplomowego Studium. Wszystkie cztery odpowiedzi mają swoich zwolenników, pojawiły się też opuszczenia zadania, oznaczone jako „inne”. Tylko odpowiedź C, jawnie pedagogicznie fałszywa, lekko ujemnie różnicuje badanych. Pozostałe dystraktory, B i D - stanowiące zdania prawdziwe, choć mniej trafne jako rozwiązania zadania - dodatnio korelują z ogólnym wynikiem testowania w części ponadpodstawowej, przy czym dystraktor B, bliski znaczeniowo odpowiedzi prawidłowej, ma wyższe wskaźniki mocy różnicującej niż ona. Tylko opuszczenie zadania umiarkowanie ujemnie koreluje z wynikiem testu.

Analiza dystraktorów prowadzi do ulepszenia konstrukcji zadania zamkniętego lub do jego eliminacji. W zadaniach 2 i 15 warto wymienić martwe dystraktory na odpowiedzi, które mogłyby być atrakcyjne dla słabiej przygotowanych uczestników studiów, jak np. „B. możliwy tylko nieskończenie długim testem” w zadaniu 2 oraz „A. zapewnienie bezstronności sytuacji egzaminacyjnej” i „D. zastosowanie wyłącznie zadań zamkniętych” w zadaniu 15. Zadanie 39 powinno być wymienione na inne, z innymi odpowiedziami.

Jak widać, zbudowanie dobrze funkcjonującego zadania lub pytania zamkniętego jest pracochłonne. Z tego powodu diagności starają się przechować udane elementy narzędzi pomiaru, tworząc banki elementów.

4.3. Banki elementów

Bank elementów narzędzi pomiaru pedagogicznego jest kartoteką lub komputerową bazą danych zawierającą informację o tych elementach przydatną do ich ponownego zastosowania. Najbardziej rozpowszechnione są banki zadań testów osiągnięć szkolnych, prowadzone przez edukacyjne firmy usługowe, które zwykły gromadzić i chronić przed intruzami wielkie liczby wystandaryzowanych zadań. Nie ma wszakże powodów, dla których pytania kwestionariuszowe i pozycje skalowe nie miałyby być przechowywane z równą pieczołowitością.

O każdym z elementów w banku elementów powinniśmy mieć następujące dane:

1. Przeznaczenie: mierzona właściwość (ew. przedmiot szkolny, szczebel szkoły i klasa, dział materiału, poziom wymagań), kategoria taksonomii celów kształcenia.

2. Treść: tekst werbalny i graficzny oraz niezbędne wyposażenie, kluczowe słowa, ewentualne opinie badanych i recenzentów o treści elementu.

3. Klucz punktowania, gdy pytanie lub zadanie jest zamknięte, lub schemat kodowania i punktowania odpowiedzi.

4. Informacja o zastosowaniach: gdzie (wobec jakiej populacji) i kiedy je wykorzystano. Istotna jest cała „historia” elementu, obejmująca też ewentualne ogłaszanie drukiem, gdyż wszelkie publikacje i zastosowania wywołują starzenie się zadań testowych, przejawiające się wzrostem łatwości i spadkiem mocy różnicującej, spowodowane ujawnieniem ich treści uczniom i nauczycielom. Obawy przed ujawnianiem i starzeniem się zadań bywają jednak przesadne (Mulawa i in., 2004).

5. Analiza ilościowa: czas pracy, opuszczenia, aprobata/łatwość, moc różnicująca, wyniki ewentualnej analizy dystraktorów.

Tak opisane elementy mogą być wykorzystane jako prefabrykaty do szybkiego budowania narzędzi o przewidywalnych własnościach. Co więcej, umożliwiają pomiar adaptacyjny (interakcyjny, sekwencyjny), w którym kolejne elementy są indywidualnie i na poczekaniu dobierane na podstawie poprzednich odpowiedzi badanego. Gdy nie ma wiarygodnych danych o poziomie określonej właściwości badanego, pomiar zaczyna się od środka skali, od pytania o postawę neutralną lub od zadania o średniej łatwości, a potem, zależnie od odpowiedzi, program komputerowy wędruje w górę lub w dół skali, sięgając po odpowiednie elementy do swego banku. To samo może robić nauczyciel lub uczeń na podstawie informacji o łatwości zadań.

Popularne w naszym kraju, zwłaszcza przed egzaminami, zbiory zadań testowych, rzadko jednak przypominają banki zadań. Wśród przyczyn tego mogą być następujące:

1. Przekonanie, że wysoka jakość treści i redakcji zadania są zagwarantowane przez kompetencję autora, więc zadanie nie wymaga próbnych zastosowań.

2. Przekonanie, ze uczeń każdy uczeń powinien umieć rozwiązać każde zadanie z . danej dziedziny Bywa jednak, ze trudne - według autora zbioru - zadania oznacza się symbolem T lub gwiazdką.

3. Brak wiary w stałość wskaźników empirycznych, gdyż łatwość i moc różnicująca zadań, a także działanie dystraktorów, silnie zależą od doboru próby badanych.

Ta ostatnia słabość, od dawna dostrzegana w psychometrii, została przezwyciężona w teorii wyniku zadania, coraz szerzej stosowanej w profesjonalnych bankach zadań testów osiągnięć szkolnych.

4.3.1. Teoria wyniku zadania

Teoria wyniku zadania (probabilistyczna teoria testu) jest teorią matematyczną dotyczącą związku wyniku zadania z właściwością mierzoną przez zadania danego testu (Hambleton, 1993, s. 40). Ta właściwość stanowi zmienną ukrytą, zdefiniowaną przez diagnostę, ale nieobserwowalną, przejawiającą się tylko w postaci wyników poszczególnych zadań, a dokładniej: w postaci prawidłowości układów tych wyników. By badać te prawidłowości, musimy przyjąć mocne założenie o lokalnej niezależności wyników poszczególnych zadań (patrz p. 2.1.4), czyli o pełnej jednorodności mierzonej właściwości. „Pytanie o to, czy narzędzie pomiarowe jest wystarczająco jednowymiarowe, stanowi podstawowe pytanie umożliwiające stosowanie modeli IRT [teorii wyniku zadania]” - czytamy w podręczniku tej teorii (Hulin i in., 2005, s. 239).

To założenie nie wyklucza pomiaru właściwości wielowymiarowych, jak np. umiejętności geometrycznych, na które składają się zdolności matematyczne i wyobraźnia przestrzenna, ale każdy z tych wymiarów musi być jednorodny, a jego wewnętrzna spójność musi znaleźć potwierdzenie w układzie wyników zadań. Zadania, które naruszają ten układ, muszą być wyeliminowane z analiz, co w testach osiągnięć szkolnych może obejmować od kilku do kilkudziesięciu procent zadań. Z reguły są to zadania o niskiej mocy różnicującej mierzonej współczynnikiem r (Fricke, 1972, s. 106 - 108).

Drugie, jeszcze mocniejsze założenie, dotyczy zależności wyniku zadania od trudności zadania i zdolności badanego, mierzonych ich pozycją na skali zmiennej ukrytej, a więc - na wspólnej skali. Gdy te pozycje są jednakowe, badany ma prawdopodobieństwo równe 0,50 rozwiązania zadania, gdy pozycja zadania jest wyższa, to prawdopodobieństwo jest mniejsze, a gdy pozycja badanego jest wyższa - większe. Można to obrazowo określić jako szanse „pokonania” badanego przez zadanie i „pokonania” zadania przez badanego. Matematyczny model wiążący prawdopodobieństwo rozwiązania zadania przez badanego, gdy znane są ich pozycje na skali zmiennej ukrytej, jest reprezentowany przez krzywą charakterystyczną zadania, przedstawiającą graficznie tę funkcję matematyczną. Dokładność dopasowania modelu, a zatem i zasadność opartych na nim oszacowań, jest, podobnie jak lokalna niezależność zadań, sprawdzana empirycznie (Hambleton, 1989, s. 172 - 182).

Gdy pojawiły się (w latach pięćdziesiątych ubiegłego stulecia) pierwsze modele teorii wyniku zadania, wcześniejszą (zarysowaną już w początku tamtego stulecia) teorię zaczęto nazywać „klasyczną teorią testu”. Klasyczna teoria testu oparta jest na założeniu istnienia wyniku prawdziwego każdego badanego określonym testem oraz błędu losowego pomiaru, wywołanego niepełną rzetelnością pomiaru. Wynik prawdziwy i błąd pomiaru składają się na wynik otrzymany, uzyskiwany przez badanego w danym teście. Klasyczna teoria testu jest określana jako „słaba”, co znaczy, że warunki jej stosowania są łatwe do przyjęcia. Dotyczą błędu pomiaru: ma mieć średnią (w populacji) zero oraz być niezależny od wyniku prawdziwego (jednakowo prawdopodobny dla każdego badanego) oraz od wersji testu (nieskorelowany między wersjami) (Niemierko, 1975a, s. 221n.).

Teoria klasyczna dotyczyła testu, jako zbioru zadań, a wskaźniki statystyczne analizy zadań, przedstawione w tym rozdziale (p. 4.2.3 - 4.2.9), miały służyć do podniesienia jakości całego testu. Teoria probabilistyczna sięga głębiej, gdyż dotyczy pojedynczego zadania, które może być elementem wielu testów bez zmiany swoich właściwości. Statystyczne wskaźniki jakości zadania uzyskują w niej znaczenie pierwszorzędne. Te wskaźniki, nazywane ze względu na swoją stałość (niezmienność) parametrami, są następujące:

1. Parametr a, różnicowanie, jest nachyleniem (stromością) krzywej charakterystycznej w punkcie przegięcia między częścią wklęsłą a wypukłą, wyznaczonym przez parametr b. Może przybierać wartości od nieskończenie niskich do nieskończenie wysokich, ale w praktyce mieści się najczęściej między 0,5 a 2,5 (Hornowska, 2001, s. 198). Znaczenie różnicowania jest dla teorii wyniku zadania zasadnicze: im jest wyższe, tym więcej mamy informacji o badanych uzyskujących wyniki w zasięgu różnicowania przez zadanie.

2. Parametr b, trudność, jest położeniem na skali zdolności badanych (teta) punktu, w którym prawdopodobieństwo rozwiązania zadania wynosi 0,50. Także i ten parametr może przybierać wartości od nieskończenie niskich do nieskończenie wysokich, ale przedział od -3,00 do 3,00 zwykle wystarcza, by przedstawić jego wartości. Przeciwnie niż w przypadku wskaźnika łatwości p, gdy wartość b rośnie, to łatwość zadania maleje. Tak więc zadanie, dla którego b = -2,00 jest bardzo łatwe, a zadanie, dla którego b = 2 jest bardzo trudne.

3. Parametr c, zgadywanie, jest położeniem lewego ramienia (dolnej asymptoty) krzywej charakterystycznej na skali prawdopodobieństwa rozwiązania zadania. Pojawia się tylko w zadaniach zamkniętych i może przybierać wartości od 0 (zgadywanie nie występuje) do 1 (wszyscy badani zgadują odpowiedź), ale w praktyce nie przewyższa wartości 0,25, bo nawet najsłabiej przygotowani badani dysponują zwykle pewną wiedzą lub intuicją, która pozwala im uniknąć „ślepego” zgadywania odpowiedzi.

Cztery krzywe charakterystyczne o różnych parametrach przedstawia rys. 9.

Prawdopodobieństwo

sukcesu

0x08 graphic
0x08 graphic
1,00

0,75

0x08 graphic

0,50

0,25

0x08 graphic
0,00

0x08 graphic
0x01 graphic

Zdolność (teta) -3 -2 -1 0 1 2 3

Rysunek 9. Cztery krzywe charakterystyczne zadań testowych

(zadanie 1 - linia ciągła, zadanie 2 - linia kropkowana,

zadanie 3 - linia przerywana, krótkie odcinki, zadanie 3 - linia przerywana, długie odcinki)

Krzywe charakterystyczne na rys. 9 przypominają kształtem profile zadań, które były przedstawione na rys. 8. Różne jest jednak ich znaczenie. Na osi pionowej rys. 8 mieliśmy odłożone (od 0 do 1) przedziały wskaźnika łatwości zadania dla grupy badanych wyodrębnionej według ogólnej oceny wyniku testu, a na tej samej osi na rys. 9 mamy oszacowanie prawdopodobieństwa (także od 0 do 1) rozwiązania zadania (sukcesu) przez badanego o określonym poziomie mierzonej zdolności. Na osi poziomej na rys. 8 mieliśmy zaznaczone cztery grupy uczniów, od „niedostatecznych” do „bardzo dobrych”, a na rys. 9 mamy skalę teta zdolności uczniów w granicach od -3,00 do 3,00. Upraszczając, możemy powiedzieć, że profile zadań na rys. 8 są obrazem jednego przypadku testowania, a krzywe charakterystyczne na rys. 9 są uogólnieniem wykrytej prawidłowości, dokonanym za pomocą rachunku prawdopodobieństwa.

Zadanie 1 na rys. 9 ma następujące (oszacowane komputerowo) parametry: a = 2,0, b = 0,0, c = 0, co znaczy, że bardzo dobrze różnicuje badanych o przeciętnej zdolności, a zgadywanie odpowiedzi w nim nie występuje, gdyż jest zapewne otwarte. Krzywa charakterystyczna tego zadania stromo wspina się do góry w środkowej części wykresu. Pod względem jakości można je porównać z zadaniem 20 z rys. 8.

Zadanie 2 ma następujące parametry: a = 2,0, b = -1,5, c = 0,2, co znaczy, że jest podatne na zgadywanie, zapewne zamknięte, i łatwe, ale bardzo dobrze różnicuje badanych o niskiej pozycji zmiennej ukrytej. Krzywa przebiega w lewej górnej części rys. 9, a jej środkowy odcinek przypomina profil zadania 28 z rys. 8.

Zadanie 3 ma następujące parametry: a = 1,5, b = 2,2, c = 0, co znaczy, ze jest bardzo trudne, ale dobrze różnicuje badanych o wysokiej pozycji zmiennej ukrytej. Krzywa wznosi się w prawej części rys. 9 i jest jeszcze mocniej odsunięta od jego środka niż profil zadania 25 na rys. 8.

Zadanie 4 ma następujące parametry: a = 0,6, b = -0,4, c = 0,25, co znaczy, że jest umiarkowanie trudne, ale słabo różnicuje badanych. Badani o niższej zdolności (wartości teta) zgadują prawidłowe odpowiedzi, a badani o wysokiej zdolności nie osiągają w nim prawdopodobieństwa sukcesu ponad 0,80. Prawa część krzywej przypomina profil zadania 28 na rys. 8. I w jednym, i w drugim przypadku występuje zjawisko, które nazwiemy nadinterpretacją treści zadania, polegające na skłonności badanych o najwyższym poziomie zdolności w danej dziedzinie do podawania rozwiązań nieprzewidywanych jako odpowiedź prawidłowa (por. p. 4.1.2, p. 3. właściwy poziom ścisłości). Nieściśle lub banalnie sformułowany trzon zadań i wieloznacznie dystraktory powodują, że zadanie jest nierozwiązywalne dla zaawansowanych uczniów bądź prowokuje ich do sprzeciwu wobec rutynowej odpowiedzi (Boba i Michlowicz, 2003). Niektórzy teoretycy wyniku zadania proponują więc dodatkowy, czwarty parametr zadania (Hambleton, 1989, s. 157):

4. Parametr d, nadinterpretacja, jako położenie prawego ramienia (górnej asymptoty) krzywej charakterystycznej na skali prawdopodobieństwa rozwiązania zadania. Może przyjąć wartości od 0 do 1, ale na ogół nie przekracza 0,5, a w przypadku zadania 4 wynosi 0,20, gdyż tyle brakuje najzdolniejszym badanym do pewności (prawdopodobieństwa równego 1) prawidłowego rozwiązania tego zadania. Ustalenie dlaczego najzdolniejsi badani „nie chcą” podać prawidłowej odpowiedzi jest interesującym doświadczeniem dydaktycznym, ale parametr d nie występuje jeszcze w dostępnych programach komputerowych, a więc jego analizę musimy pozostawić nauczycielom odpowiednich przedmiotów szkolnych.

Zastosowanie teorii wyniku zadania do zarządzania profesjonalnymi bankami zadań, a w przyszłości także bankami pozycji skal opisowych i skal postaw, przynosi następujące korzyści:

1. Niezależność parametrów zadania od badanej populacji. Parametry a, b i c mogą być oszacowane na podstawie wyników bardziej lub mniej zdolnych badanych, a odpowiedni model matematyczny odtwarza brakujące części krzywej charakterystycznej. Sprawdzono to empirycznie, testując niezależność parametrów (analizując wcześniej zgromadzone dane) w próbach złożonych wyłącznie z dobrych i wyłącznie ze słabych uczniów, a więc celowo naruszając porównywalność badanych grup (Wright, 1967; Tinsley i Davis, 1975).

2. Niezależność wyników pomiaru od doboru zadań. Poziom osiągnięć badanego może być oszacowany za pomocą dowolnych zadań mierzących daną zmienną ukrytą, a optymalizacji podlega jedynie dokładność tego oszacowania. To także sprawdzono empirycznie, tworząc łatwe i trudne testy, a różnice na korzyść badanych w oszacowaniach ich zdolności dokonywanych za pomocą łatwiejszego testu okazywały się znikome. Niezależność parametrów zadania od badanej populacji i niezależność wyników pomiaru od doboru zadań, ujmowane łącznie, są nazywane swoistym obiektywizmem pomiaru, uzyskiwanym dzięki eliminacji zadań przynoszących wyniki niezgodne z założeniami.

3. Dostępność wielu odmian modeli i programów. Modele matematyczne teorii wyniku zadania są liczne i bardzo zróżnicowane, zależnie od rodzajów zadań i szczegółowych założeń. Najpopularniejsze są: trójparametrowy model logistyczny (3PL, posługujący się wielkością logarytmu naturalnego), dający oszacowanie parametrów a, b i c zadania, dwuparametrowy model logistyczny (2PL), dający oszacowanie parametrów a, b zadania, przy założeniu, że c = 0, stosownym dla zadań i pytan otwartych, oraz jednoparametrowy model logistyczny (1PL, model Rascha), dający oszacowanie tylko parametru b zadania przy założeniu, że a = 1 i c = 0, stosownym dla zadań o wysokiej i wyrównanej mocy różnicującej (Hulin i in. 2005, s. 228-238). Poza tym istnieją odmiany modeli właściwe dla zadań otwartych punktowanych skalą rozwiniętą, wielokategorialną (politomiczne) i według wielu kryteriów. Twórczość w tym zakresie jest niemal lawinowa, a wraz z nią pojawiają się na rynku programy komputerowe, z których najpopularniejsze to BILOG, LOGIST, MULTILOG i RUMM.

4. Wzbogacenie analizy dystraktorów. Modele wielokategorialne pozwalają na analizowanie każdej odpowiedzi oddzielnie i na wykreślenie dla niej krzywej charakterystycznej. Te krzywe mogą mieć kształt przeciwny (odwrócona litera „s”) do krzywej prawidłowej odpowiedzi, ale mogą też przybierać inne, wiele mówiące kształty. Jeszcze bardziej interesujące są prawidłowości wyboru poszczególnych odpowiedzi w skalach opisowych i w skalach postaw, gdyż ujawniają interpretacje tych odpowiedzi przez badanych o różnych poziomach zmiennej ukrytej.

5. Dostosowanie testu do grupy badanych lub do pojedynczego badanego. Na podstawie parametrów zadania można wykreślić nie tylko jego krzywą charakterystyczną, lecz także krzywą informacyjną, pokazującą, ile informacji dostarcza to zadanie w każdym punkcie skali zdolności teta. Ta krzywa przybiera postać rozkładu normalnego o wierzchołku w punkcie parametru b, wysokości (rzędnej) proporcjonalnej do parametru a i zasięgu ramion obejmującym obszar wzrostu krzywej. Informacja dostarczana przez poszczególne zadania sumuje się dla testu złożonego z tych zadań, co pozwala na wymodelowanie krzywej informacyjnej testu według potrzeb diagnostycznych grupy (Szaleniec, 2002). Jeszcze większe znaczenie ma to w testowaniu adaptacyjnym, gdyż pozwala na dobieranie zadania, które dostarczy najwięcej informacji o badanym według bieżącego oszacowania jego poziomu zdolności (teta).

Lista ograniczeń i przeszkód w stosowaniu teorii wyniku zadania w diagnostyce edukacyjnej jest równie długa:

1. Warunki formalne niełatwe do spełnienia. By korzystać z dobrodziejstw zasadnego wnioskowania o zdolności badanego, modele matematyczne muszą znaleźć potwierdzenie w układzie danych empirycznych. „Wszystkie modele są niepoprawne w tym sensie, że niekompletnie reprezentują dane, do których są stosowane” - napisał czołowy teoretyk tej dziedziny, Ronald Hambleton (1993, s. 39). I dalej: „Pytaniem jest zatem, czy pewien model pasuje do tych danych na tyle dobrze, by pokierować procesem pomiarowym. Dane statystyczne i osąd [użytkownika] odgrywają ważną rolę w udzielaniu odpowiedzi na to pytanie”. Dostępne są testy statystyczne sprawdzające, na ile dane empiryczne są zgodne z modelami teoretycznymi, ale procedury ich stosowania są raczej żmudne (Hambleton, 1989, s. 172-182).

2. Zwężenie pola pomiaru. Rygorystyczne założenie jednorodności cechy ukrytej (lokalnej niezależności zadań), prowadzi do usuwania z testów wszystkich luźniej z nią związanych (peryferyjnych) zagadnień, jakkolwiek wysoką miałyby wartość społeczną i praktyczną. Zadania o niskiej mocy różnicującej nie nadają się do modeli probabilistycznych, bo zbyt słabo wiążą te zadania z cechą ukrytą. Tylko podstawowe umiejętności, takie jak czytanie (nawet wtedy, gdy w grę wchodzą różne teksty, co mogłoby naruszać lokalną niezależność wyników związanych z nimi zadań), pisanie, liczenie, proste umiejętności matematyczne i ogólna znajomość przyrody dadzą się dostatecznie dokładnie interpretować liniowo. Bardzo trudno byłoby dopasować model teorii wyniku zadania do testu międzyprzedmiotowego, np. do sprawdzianu po szkole podstawowej (por. p. 4.2.8).

3. Niezbędność dużych prób. Przyjmuje się, że właściwa wielkość próby do ustalenia parametrów zadań wynosi około 2000 badanych, a minimalna - około 1000 badanych, podczas gdy do klasycznej analizy zadań mogły wystarczyć próby złożone z 200 badanych, a nawet, w testach nauczycielskich, mniejsze. Duże próby mogą być sprawnie pobierane tylko przez wyspecjalizowane instytucje.

4. Zaawansowany aparat matematyczny. Zrozumienie teorii wyniku zadania wymaga znajomości wyższego poziomu algebry i rachunku prawdopodobieństwa niż zrozumienie klasycznej teorii testu. Liczba diagnostów twórczo posługujących się tą teorią będzie więc niewielka. Reszta będzie korzystać z programów komputerowych na podobnej zasadzie, jak korzysta z telewizji lub telefonu komputerowego, nie wnikając w zachodzące w nich procesy. Może stwarzać to złudzenie automatyzmu diagnozy - zagrożenie brakiem refleksji metodologicznej i pedagogicznej.

5. Brak norm wymagań. Prawdopodobieństwo rozwiązania zadania i wymagania programowe wobec uczniów - to pojęcia z dwóch całkowicie odrębnych dziedzin. Nawet doskonałe różnicowanie nie wyznaczy nam normy jakościowej i ilościowej osiągnięć uczniów, niezbędnej w pomiarze sprawdzającym. Pomiar sprawdzający nie zakłada istnienia zmiennej ukrytej. Programowo trafne zadanie, które wcale nie różnicuje, bo rozwiązują je poprawnie wszyscy uczniowie, przynosi wynik dydaktycznie wartościowy, mogący wprawić w dumę wszystkich zainteresowanych.

Pomyślna przyszłość teorii wyniku zadania wydaje się przesądzona dzięki żywiołowym postępom informatyki i techniki komputerowej. Przewiduje się pojawienie modeli dynamicznych tej teorii, zintegrowanych z uczeniem się, na bieżąco wspomagających procesy edukacyjne (Yen i Fitzpatrick, 2007, s. 145), a to otworzy przed diagnostyką edukacyjną nowe horyzonty.

Najważniejsze pojęcia

Analiza dystraktorów (distracter analysis) - wartościowanie każdego z dystraktorów (distracters), czyli odpowiedzi towarzyszących odpowiedzi prawidłowej, ze względu na przydatność do danego zadania wyboru wielokrotnego. Od dystraktora oczekuje się atrakcyjności (attractiveness), czyli wyboru przez pewną część badanych, oraz ujemnej mocy różnicującej, wskazującej na to, że wybierają go badani słabiej znający dziedzinę

Analiza elementów (item analysis) - wartościowanie elementów ze względu na przydatność do określonego narzędzia pomiaru. Obejmuje procedury jakościowe i ilościowe. Procedury jakościowe są stosowane przez ich konstruktora w trakcie wytwarzania elementów oraz przez zewnętrznych recenzentów po ich wytworzeniu. Procedury ilościowe opierają się na wynikach badań próbnych i obejmują oszacowania statystyczne: 1) czasu pracy nad elementem, 2) częstości opuszczeń, 3) aprobaty lub łatwości, 4) mocy różnicującej. Celem analizy elementów jest ich ulepszenie lub selekcja - odrzucenie wadliwych i wybór udanych.

Aprobata elementu (item approval) - udzielanie odpowiedzi potwierdzającej opinię zawartą w pozycji skalowej. Może być wyrażona wskaźnikiem p, przybierającym wartości od 0 (wszyscy badani zdecydowanie zaprzeczają tej opinii) do 1 (wszyscy badani zdecydowanie potwierdzają opinię). Wskaźnik aprobaty bywa podwyższony przez nastawienie na potakiwanie (response setting), czyli przez tendencję badanych do wyrażania aprobaty w sytuacji niezdecydowania.

Bank elementów (item bank) - zbiór danych przydatny do ponownego zastosowania elementów narzędzia pomiaru. Obok informacji o przeznaczeniu, treści i punktowaniu elementów, zawiera wyniki statystycznej analizy elementów według klasycznej teorii testu (wskaźniki p i r) lub według teorii wyniku zadania (parametry a, b i c). Banki elementów umożliwiają pomiar adaptacyjny (adaptive measurement), w którym kolejne elementy są na poczekaniu dobierane komputerowo na podstawie poprzednich odpowiedzi badanego.

Zasady konstrukcji dotyczące formy elementu (item form) narzędzia diagnozy sformułowano następująco: 1) zwięzłość, 2) poprawność językowa, 3) właściwy poziom ścisłości, 4) naturalność formy, 5) stałość formy, 6) przewidywanie odpowiedzi na pytania otwarte, 7) właściwy dobór odpowiedzi na pytania zamknięte. Przestrzeganie tych zasad nie gwarantuje wysokiej jakości zadnia, ale może ustrzec konstruktora przed poważnymi błędami.

Łatwość elementu (item easiness, p-value) - stosunek punktów uzyskanych w danym elemencie do maksymalnej liczby punktów możliwych do uzyskania przez określoną liczbę badanych. Mocno zależy od badanej grupy i od jej uwarstwienia ze względu na badaną właściwość. Może być wyrażona wskaźnikiem p, przybierającym wartości od 0 (żaden z badanych nie uzyskał punktu) do 1 (każdy z badanych uzyskał maksimum punktów). Wartość p w granicach 0,50 - 0,70, uważana za umiarkowaną, jest zalecana w pomiarze dydaktycznym.

Moc różnicująca (discriminating power, discrimination) - zdolność elementu do rozróżniania badanych pod względem mierzonej właściwości. Jest szacowana na podstawie siły związku wyników elementu z wynikami całego narzędzia, w którym ten element zastosowano. Może być wyrażona współczynnikiem korelacji r między tymi wynikami lub wskaźnikiem zastępczym D (discrimination index), różnicą wskaźników łatwości między dwiema skrajnymi grupami, obejmującymi zwykle 25%, 27% lub 50% badanych. Im wyższa jest moc różnicująca elementów, tym większa jest spójność narzędzia, które z nich się składa.

Zasady konstrukcji dotyczące treści elementu (item content) narzędzia diagnozy sformułowano następująco: 1) zgodność z planem, 2) poprawność rzeczowa, 3) tworzenie właściwej sytuacji pomiarowej, 4) unikanie sugestii i podpowiedzi, 5) kontrolowanie liczby pytań pamięciowych, 6) zróżnicowanie trudności, 7) logiczne uporządkowanie elementów.

Ćwiczenia

4.1 (Analiza dystraktorów). Oto jedno z zadań testu „Elementy teorii pomiaru dydaktycznego”:

25. Im test osiągnięć szkolnych jest bardziej analityczny, tym wewnętrzna zgodność jego wyników jest

A. niższa. B. wyższa. C. łatwiejsza do oszacowania. D. trudniejsza do oszacowania.

Wydruk z programu ITEMAN™ miał dla tego zadania postać następującą:

Numer zadania

kolejny w skali

Wskaźniki statystyczne zadania

p D27 r

Odpowiedzi

Wskaźniki statystyczne odpowiedzi

a aN aW r

Klucz

25

5-2

0,15 0,27 0,06

Skontroluj klucz:

A podano, B działa lepiej

A

B

C

D

inne

0,15

0,59

0,18

0,03

0,06

0,06

0,50

0.25

0,06

0,00

0,33

0,58

0,08

0,00

0,00

0,06

0,33

-0,14

-0,04

-0,53

*

?

Skomentuj: 1. treść zadania, 2. odpowiedź oznaczoną jako prawidłowa, 3. działanie dystraktorów, 4. opuszczenia („inne”). Co zalecisz konstruktorowi testu w związku z tym zadaniem? Jak możesz określić rolę analizy dystraktorów w pomiarze dydaktycznym?

4.2 (Analiza elementów). Oto podstawowe wskaźniki dwu pozycji inwentarza „Jak się uczę?”. Standaryzacja inwentarza została dokonana na ogólnopolskiej reprezentatywnej próbie gimnazjalistów, a mała próba pochodzi z jednego oddziału szkoły podstawowej.

Model

P o z y c j a i n w e n t a r z a

Standaryzacja

p r

Mała próba

p r

Beta

10. Tylko nauczyciele, którzy dużo wymagają, są w stanie zmusić mnie do wysiłku

0,55

0,35

0,47

0,41

Beta

14. W szkole lubię zadania praktyczne, wymagające zręczności i szybkiej orientacji

0,65

0,51

0,67

0,17

Co wiemy o młodzieży z tych danych? Co wiemy o dwóch pozycjach inwentarza? Która z nich bardziej nadaje się do diagnozowania modeli uczenia się: a) w szkole podstawowej, b) w gimnazjum? Jaką rolę odgrywają takie wskaźniki: a) w konstrukcji narzędzia, b) w diagnozie modeli uczenia się?

4.3 (Aprobata elementu). Pewne pozycje inwentarza „Jak się uczę?” mają postać „Wolę (x) niż (y)”. W badaniach standaryzacyjnych okazało się, że aprobata zachowań x wynosiła (p) od 0,45 do 0,70, ze średnią 0,60, podczas gdy aprobata zachowań y wynosiła od 0,30 do 0,55, ze średnią 0,40. Czemu przypiszesz te różnice? Jak je potraktować w planowaniu skali?

4.4 (Bank elementów). Jakie analogie do banku zadań testowych dostrzegasz: a) w nabywaniu doświadczeń egzaminacyjnych przez nauczyciela, b) w zjawisku „giełdy” pod drzwiami egzaminatora na uczelni? Jakie analogie do pomiaru adaptacyjnego dostrzegasz w egzaminie ustnym? W czym banki elementów narzędzi pomiaru przypominają działanie pamięci długotrwałej człowieka, a w czym są różne?

4.5 (Forma elementu). Przeczytaj uważnie listę zasad konstrukcji dotyczących formy elementu narzędzia diagnozy. Które z tych zasad uważasz za najważniejsze (wybierz dwie lub trzy)? Które są najczęściej łamane? Z jakich powodów?

4.6 (Łatwość elementu). W początkach rozwoju teorii pomiaru sprawdzającego pojawiła się propozycja, by do analizy zadań testów sprawdzających włączyć czułość zadania, jako różnicę wskaźników łatwości po nauczaniu i przed nauczaniem odpowiedniej czynności (Cox i Vargas, 1966; Hornowska, 2001, s. 185). Wkrótce jednak ten postulat wycofano. Spróbuj domyślić się przyczyn rozczarowania do tego wskaźnika jakości zadania. Wskazówka: rozważ jego możliwe wartości dla kolejnych kategorii taksonomii celów dziedziny poznawczej.

4.7 (Moc różnicująca). Pewien nauczyciel zmierzył postawę 32 uczniów wobec szkoły samodzielnie zbudowaną skalą postaw z odpowiedziami „Tak” - „Nie”. Zauważył, że w pozycji „Wolę naszą szkołę niż inne szkoły” w grupie ośmiorga uczniów o najwyższych wynikach punktowych tej skali (W), siedmioro odpowiedziało „Tak”, a w grupie ośmiorga uczniów o najniższych wynikach punktowych tej skali (N), sześcioro odpowiedziało „Tak”. Odpowiednie liczby dla pozycji „Chętnie spędzam w szkole dodatkowe godziny” wyniosły cztery i zero. Co powiesz o mocy różnicującej tych pozycji? Jak ocenisz ich przydatność do tej skali? Jaką wartość pedagogiczną przypiszesz uzyskanej informacji?

4.8 (Treść elementu). Przeczytaj uważnie listę zasad konstrukcji dotyczących treści elementu narzędzia diagnozy. Które z tych zasad odwołują się do kompetencji merytorycznej konstruktora narzędzia? Które odwołują się do jego doświadczenia diagnostycznego? W których pomoc recenzenta może być najcenniejsza?

Zalecenia

0x08 graphic

1. Dystraktory czerp wprost od uczniów, obserwując ich błędy. Zadanie lub pytanie otwarte dostarczy ci wzorów rozumowań opartych na niepełnym opanowaniu czynności. Im bardziej naturalne są gotowe odpowiedzi, tym lepiej działa element narzędzia diagnozy.

2. Wykorzystuj wszystkie okazje przyjrzenia się rozkładowi odpowiedzi na pytania i zadania. Bardzo cenna jest analiza zadań przed badaniem głównym, ale pożyteczna jest także po tym badaniu. Jacy uczniowie podali poszczególne odpowiedzi?

3. Aprobata proponowanych opinii podnosi spójność grupy. Nie dziw się zatem nastawieniu badanych na potakiwanie, ale daj też im okazję do zaprzeczania. Za wiele potakiwania prowadzi do utraty samodzielności, a czasami do buntu.

4. Zbieraj skrzętnie udane pytania i zadania. Będą stanowić twój arsenał diagnostyczny. Możesz je znaleźć w literaturze metodycznej, ale lepiej gdy będą twojego autorstwa. Własne doświadczenie jest najcenniejsze także i na tym polu.

5. Pisz pytania i zadania, jak pisze się poezję! Ze wszystkich sił staraj się dotrzeć do odbiorcy. Liczy się nie tylko każde słowo przekazu, ale także i nastrój, który może zachęcać lub zniechęcać do działania wymagającego od badanego wysiłku.

6. Starannie kontroluj łatwość pytań i zadań. Elementy zbyt trudne i zbyt łatwe dla badanych dostarczą ci mniej informacji niż elementy dopasowane trudnością do grupy, a jeszcze lepiej - do każdego z badanych indywidualnie.

7. Doceniaj moc różnicującą elementu. Elementy rozproszone, nie powiązane tematycznie, mogą co najwyżej przynieść informację o fakcie. Elementy tworzące spójną całość przynoszą nadto informację o prawidłowościach dziedziny.

8. Dobrze przygotuj pisanie pytań i zadań. Odnów znajomość dziedziny, przemyśl plan narzędzia, wyobraź sobie sytuację badanego, naszkicuj projekty elementów, zredaguj elementy, sprawdź ich poprawność, poradź się właściwego specjalisty.

0x08 graphic

1. Unikaj dystraktorów pustych treściowo i martwych. Takich jak powtórzenia, odpowiedzi „tak” i „nie”, „wszystkie powyższe”, „żadne z powyższych” lub podobne. Unikaj też nazbyt błyskotliwych pomysłów, mijających się z przekonaniami badanych .

2. Nie lekceważ analizy elementów narzędzi diagnozy. Analiza powie ci wiele o skłonnościach badanych osób i jeszcze więcej o twoich własnych umiejętnościach konstruktorskich. Trud włożony w „rozdzielanie włosa na czworo” opłaca się w diagnostyce!

3. Nie prowokuj badanych do łatwego potakiwania. Podejmij ryzyko sformułowania także trudniejszych do zaakceptowania twierdzeń dla „wybicia badanych z rytmu”. Okaże się zapewne, że takie twierdzenia silnie ich różnicują.

4. Publikowane narzędzia nie zastąpią ci banku elementów. Są na to za wąskie i zwykle nie dość udokumentowane. Znajdziesz w nich co najwyżej kilka elementów wartych ponownego zastosowania. Resztę musisz wytworzyć samodzielnie.

5. Oto przepis na partacką formę narzędzia: 1) rozlazłość, 2) bełkotliwość, 3) „akademicki” lub dziecinny poziom, 4) wydumanie, 5) szaradowość, 6) niepewność prawidłowej odpowiedzi i 7) dystraktory, które mają ośmieszyć lub rozbawić badanego.

6. Unikaj złudzenia łatwości swoich pytań i zadań. Większość konstruktorów ulega myśleniu życzeniowemu. Nie twórz też pytań i zadań na jednym poziomie trudności, gdyż będą za trudne dla jednych, a za łatwe dla innych uczniów.

7. Pozbądź się nieróżnicujących pytań i zadań, jeśli ich aprobata lub łatwość są umiarkowane. Stanowią jedynie balast w narzędziu diagnozy. Co innego, gdy aprobata lub łatwość są skrajne, gdyż wtedy mogą przynieść ważną informację.

8. Oto przepis na treść narzędzia kompromitującą autora: 1) bezplanowość, 2) błędy naukowe, 3) wytwarzanie terroru i grozy, 4) podpowiadanie odpowiedzi, 5) apelowanie wyłącznie do pamięci, 6) powierzchowność lub drobiazgowość, 7) bałaganiarski układ.

TAK

NIE



Wyszukiwarka

Podobne podstrony:
Łobocki Rozdział IV, Pedagogika Przedszkolna i Wczesnoszkolna Uniwersytet Pedagogiczny Licencjat, Te
Rozdzial IV Nessie
ROZDZIAŁ IV
Rozdział IV
Makro4 , Rozdział IV
06. Rozdzial 4, ROZDZIAL IV
POJĘCIA ROZDZIAŁ IV
Rozdział IV Przyjaźń
Skuteczny terapeuta Rozdzial IV Jaimi ludymi sa skutecyni terapeuci
Rozdział IV KONTEKST PSYCHOLOGICZNY ZMIAN?UKACYJNYCH
Sri Chinmoy Rozdział IV Mądrość (1), Siri Chinmoy Dokumenty
Wybrane zagadnienia ps Rozdział IV
Wybrane zagadnienia ps Rozdział IV
zeszyt IV rozdzial 1 Kukulka(1) Nieznany
rozdział IV ściąga, Prawo Administracyjne, Gospodarcze i ogólna wiedza prawnicza
Rozdział IV, Etnologia religii
Rozdzia³ IV, VII, VIII
Rozdzia³ IV, VII, VIII (2) , ROZDZIAŁ III - PRAWO I SĄD POD ZABORAMI

więcej podobnych podstron