Pierwsza rekomendacja wydaje się nie generować dodatkowych kosztów po okresie wdrożenia, gdyż jest funkcjonalnością wbudowaną bezpośrednio w gotowy już system e-oceniania. Natomiast korzyści płynące z losowego przydziału prac (zadań) z całego kraju pomiędzy egzaminatorów z różnych OKE wydają się nie do przecenienia w kontekście możliwości monitorowania efektów egzaminatora na poziomie większych zbiorowości egzaminatorów jak cała OKE, ale również na niższym poziomie, np. zespołów egzaminatorów (ZE). W sytuacji, w której prace pomiędzy wszystkimi egzaminatorami byłyby rozprowadzone w sposób losowy, jakiekolwiek istotne statystycznie różnice w rozkładach wyników uzyskiwanych między OKE lub między zespołami egzaminatorów musiałyby być uznane za przejaw różnic w sposobie oceniania prac, a nie umiejętności uczniów. W szczególności:
1. różnice w średnich wynikach na poziomie zadań oraz całych arkuszy egzaminacyjnych świadczyłyby o zróżnicowaniu w zakresie łagodności/surowości;
2. różnice w zakresie rozproszenia wyników na poziomie zadań oraz całych arkuszy egzaminacyjnych świadczyłyby o posze-rzeniu/zawężeniu skali;
3. różnice w zakresie rzetelności części egzaminów zawierającej zadania otwarte świadczyłyby o występowaniu zróżnicowania w zakresie błędów losowych przy ocenie prac, tj. o zróżnicowanej nierzetelności ocen.
Zebrane z takiej analizy wyniki stanowiłyby bardzo wartościową informację o występowaniu różnic w sposobie oceniania prac między OKE i ZE, które można by wykorzystać w celach monitorowania skali zjawisk związanych z efektem egzaminatora na poziomie wybranych zbiorowości. Należy również zauważyć, że pod względem metodologicznej trafności oraz mocy statystycznej wyciąganych wniosków o systematycznych efektach egzaminatora na poziomie całych OKE, analizy tak zebranych danych przewyższałaby znacznie te, które przedstawiono w niniejszym raporcie. Osiągnięcie większej mocy wnioskowania byłoby skutkiem objęcia analizą całej populacji zdających egzamin oraz wszystkich egzaminatorów. Trafność analiz nie byłaby w żaden sposób zagrożona, gdyż badanie dotyczyłoby faktycznych danych egzaminacyjnych i byłoby, ze względu na zastosowanie losowego przydziału prac (zadań), przeprowadzone de facto w zgodzie ze schematem eksperymentalnym.
Druga rekomendacja postuluje wykorzystanie informacji zbieranych z wielokrotnych ocen pracy egzaminacyjnej do automatycznego obliczania dla każdego egzaminatora wskaźników określających stopień rzetelności dokonywanych przez niego ocen, na podstawie zgodności z innymi ocenami danej pracy. Część prac egzaminacyjnych jest poddawana wielokrotnej ocenie, lecz nie stworzono spójnych dla całego systemu instrukcji ani procedur, które na podstawie zebranej w ten sposób informacji o zgodności ocen umożliwiałyby w sposób ilościowy oraz obiektywny profilowanie jakości pracy poszczególnych egzaminatorów względem ogólnokrajowych norm. Taka obiektywna ocena jakości pracy egzaminatora ułatwiałaby identyfikację egzaminatorów, którzy wymagaliby odpowiedniej informacji zwrotnej czy dodatkowego szkolenia mającego na celu poprawę sposobu, w jaki oceniają lub nawet wykluczenia z dalszego oceniania.
Trzecia rekomendacja jest powiązana z drugą w taki sposób, że ma na celu zoptymalizowanie decyzji o przekazywaniu pracy do powtórnej oceny. Wiadomo, że każda dodatkowa ocena pracy generuje dodatkowe jednostkowe koszty, które powodują, że ze względów ekonomicznych system egzaminów zewnętrznych może sobie pozwolić na powtórną, zwiększającą rzetelność, ocenę jedynie pewnego odsetka wszystkich prac. W związku z tym, zamiast rozsyłać do powtórnej oceny prace bez uwzględnienia jakichkolwiek kryteriów (losowo), racjonalne wydaje się rozważenie możliwości identyfikacji w czasie rzeczywistym prac, co do których istnieją pewne przesłanki, że mogą one być ocenione nierzetelnie, i wysłanie do powtórnej oceny takich właśnie prac.
W zakresie trzeciej rekomendacji postuluje się wprowadzenie rozwiązania, które, w ramach procedury e-oceniania, umożliwiałoby identyfikowanie potencjalnie nierzetelnych ocen w czasie rzeczywistym na podstawie przesłanek statystycznych. Podczas sesji egzaminacyjnej zbierane jest wiele danych o zdających egzamin, które spełniają dwie przesłanki: (I) są/mogą być dostępne przed przystąpieniem do oceny pracy przez egzaminatora oraz (II) są istotnie skorelowane z wynikami uzyskiwanymi w zadaniach podlegających ocenie przez egzaminatorów. Nazwijmy te dane „danymi warunkującymi". Wśród takich potencjalnych danych warunkujących można wymienić wyniki z części danego egzaminu zawierającej zadania zamknięte, ale również wyniki zadań zamkniętych z arkuszy egzaminacyjnych z innych przedmiotów lub części egzaminu.
W momencie, gdy pewien odsetek zadań otwartych z danego egzaminu zostałby oceniony, możliwe byłoby wykalibrowanie modelu statystycznego, który przewidywałby oceny za zadania otwarte z danego egzaminu na podstawie danych warunkujących. Umożliwiałoby szacowanie na bieżąco odchylenia oceny danego zadania przez egzaminatora od oceny przewidywanej przez
■