77
41 Dystrybuanta empiryczna i histogram
Rozkład typu ciągłego jest łatwiejszy do wstępnego zidentyfikowania przy pomocy histogramu, niż przy pomocy dystrybuanty empirycznej. O ile dystrybuanta empiryczna przybliża dystrybuantę teoretyczną, to histogram przybliża gęstość.
korzenie Histogram buduje się następująco. Dla ciągu danych (jcł ,x2,. - - ,xn) znajduje-
klstogmmu my wartość najmniejszą xf i największą xn. Następnie oś liczbową dzielimy
na rozłączne klasy punktami xf ~ al < a2 < * • • < ak = xff. Niech teraz ni będzie liczbą danych należących do przedziału [ai}a^{) dla i — 1,2,...,/: — 2 oraz nk będzie liczbą danych należących do [ak_v ak]. Histogramem nazywamy funkcję h(x) określoną wzorem
0
dla x < xf lub x > x!!, dla * € {ai7ai+[).
(4.2.4)
Wykres histogramu jest wykresem słupkowym, w którym słupki mają pole proporcjonalne do liczby danych w poszczególnych klasach. Zauważmy, że histogram określony wzorem (4.2.4), ma własności gęstości zmiennej losowej określone w twierdzeniu 2.1.3.
Jeżeli danych jest bardzo dużo, to mogą one już być pogrupowane w klasy i jest to czasem jedyna postać danych, w której są one dostępne. Jeżeli klasy na które dane są podzielone, mają małą szerokość, tzn. mała jest liczba max(a/+l — a,),
to statystyki x> s2 i s2 można obliczyć z następujących wzorów:
x
1
n
r
S
2
i i
gdzie r jest liczbą klas, a xi jest środkiem f-tego przedziału klasowego, czyli
Xj — (ai + ai+[)/2. Wzory te wynikają z przyjętego założenia, że dane mają rozkład jednostajny w każdym przedziale klasowym.
Jest jasne, że statystyki obliczone przy użyciu powyższych wzorów różnią się od prawdziwych wartości tych statystyk tym bardziej, im szersze są przedziały klasowe albo (co na to samo wychodzi), im mniejsza jest liczba klas.
Ustalenie liczby klas k zależy od liczby obserwacji n. W literaturze podaje się