wykresów, ale mnicpa liczba obserwacji w klatach powoduje większe zmiany w wysokości słupków. Należy zatem odpowiedzieć na pytanie, czy obserwowana zgodność jest wystarczająca czy też należy żądać zgodności ściślejszej lub inaczej mówiąc, czy kształt histogramu częstości istotnie różni się od kształtu proponowanej funkcji gęstości? Aby odpowiedzieć na to pytanie, należy dokładniej zrozumieć histogram. Mając dany rzeczywisty rozkład zmiennej losowej i zbiór przedziałów klasowych, obserwowane częstości w przedziałach klasowych są zmiennymi losowymi, wprost proporcjonalnymi do liczby obserwacji z próby należących do tych przedziałów. Liczby te są zmiennymi losowymi o łącznym rozkładzie wielomianowym. Dla ustalonej liczby klas k, wzrost liczebności n próby może uczynić zgodność histogramu częstości z. funkcją gęstości niemal pewną. Z drugiej strony, zmniejszenie liczby klas k da ten sam efekt. Jednak w tej sytuacji wiele różnych modeli rozkładu będzie miało niemal identyczną zgodność. Ta niejednoznaczność może być zmniejszona i kształt właściwego rozkładu dokładniej wyznaczony, tylko dzięki zastosowaniu większej liczby klas k. ale wiąże się to z większą zmiennością w obserwowanych wartościach częstości w poszczególnych klasach konkretnego histogramu. Duża zgodność nie jest w tym przypadku możliwa i dlatego jest mało prawdopodobne, aby można było znaleźć wyraźne wizualne potwierdzenie swojego rozkładu w danych. Zatem, porównując kształt histogramu częstości danych z funkcją gęstości rozkładu hipotetycznego, należy tak wybrać liczbę klas histogramu aby wypaśrodkować między większą niejednoznacznością a większą zmiennością Więc jeżeli się adekwatność swojego rozkładu na podstawie wizualnego porównania,
to trzeba pamiętać, te jeśli przyjmie się małą liczbę klas to inne rozkłady będą miały też prawie identyczną zgodność, a jeśli wybierze się zbyt dużą liczbę klas, to duże podobieństwo kształtów będzie mało prawdopodobne.
3.2.I.2. Porównani* histogramu skumulowanej częstości / dystrybuantą
Zamiast porównywać zaobserwowany histogram częstości danych z funkcją gęstości, można porównywać histogram skumulowanej częstości (dystrybuantę empiryczną) z wykresem dystrybuanty. Porównanie kształtu histogramu skumulowanej częstości z dystrybuantą ma wyraźną przewagę nad porównaniem histogramu częstości z funkcją gęstości. W tym poypadku znacznie zmniejsza się niejednoznaczność i zmienność histogramu związana z koniecznością grupowania danych. Należy jednak pamiętać, że można oczekiwać zmienności histogramu skumulowanej częstości w stosunku do dystrybuanty nawet wtedy, gdy dane mają rozkład określony tą dystrybuantą oraz żc inne prawo probabilistyczne może rządzić generowaniem danych nawet, jeśli wydają się one zgodne z proponowanym rozkładem.
W praktyce porównywanie wykresów może być uproszczone przez, zmianę skali, to jest dzięki specjalnie wykonanej siatce zwanej siatką prawdopodobieństwa. Skale na osiach współrzędnych siatki dobiera się tak, że wykres dystrybuanty odpowiedniego hipotetycznego rozkładu jest linią prostą. Używąjąc takiej siatki, porównanie hipotetycznego rozkładu z danymi sprowadza się do porównania skumulowanych częstości tych danych (wykreślonych na tej siatce) z linią prostą
32