które można uważać za niemożliwe lub krańcowo nieprawdopodobne z racji znaczenia samej obserwacji. Przykładem może być temperatura ciała wynosząca 10*C lub podanie w rubryce „stan cywilny" dziesięcioletniej pacjentki informacji „zamężna". Tego typu błędne dane mogą być eliminowane ręcznie bądź też automatycznie z wykorzystaniem komputera, po ustaleniu odpowiednich dla każdego typu danych reguł i zasad.
Drugim sposobem eliminacji jest wykorzystanie znajomości własności statystycznych materiału obserwacyjnego. Najbardziej znaną zasadą z tej grupy jest tzw. reguła trzech sigm. Otóż najczęściej spotykamy się z danymi o rozkładzie normalnym lub zbliżonym do normalnego. W takich przypadkach prawdopodobieństwo tego. że wartość zmiennej losowej znajdzie się w przedziale, którego środkiem jest wartość oczekiwana p, a granice wynoszą p - 3o oraz p + 3a (o to oznaczenie odchylenia standardowego), jest równe 0,9973 czyli jest to zdarzenie prawie pewne. Jeżeli więc zaobserwujemy wartości spoza przedziału o promieniu 3a, to do tej wartości należy podejść z dużym sceptycyzmem. Postulowane jest wyeliminowanie jej. zwłaszcza jeżeli istnieje jakiś dodatkowy powód zewnętrzny wskazujący na przykład, że obserwację wykonał niedoświadczony technik lub że agregat klimatyzacyjny uległ awarii w pewnym momencie trwania eksperymentu, itd. Gdy jednak nic podejrzewa się wpływu dodatkowych czynników zewnętrznych, to wskazane jest raczej pozostawienie podejrzanej obserwacji.
W ogóle należy stwierdzić, że problem eliminacji obserwacji nietypowych i błędnych jest zagadnieniem bardzo trudnym i ciężko poddającym się jakiejkolwiek unifikacji. Wymaga dużej wnikliwości, doświadczenia i rutyny oraz indywidualnego podejścia do każdego przypadku. Jednocześnie jest to zagadnienie bardzo ważne, gdyż decyzja odnośnie pozostawienia lub wyeliminowania obserwacji krańcowych może w znacznym stopniu rzutować na wyniki całej analizy statystycznej.
26