12
1.5 Statystyka opisowa dla danych grupowanych
jest jednocześnie górnym krańcem poprzedniego przedziału. Może się również zdarzyć, że dolny kraniec pierwszego przedziału i / lub górny kraniec ostatniego przedziału są nieokreślone, tzn. nie mają podanych skończonych wartości liczbowych. W takim przypadku pierwszy i / lub ostatni przedział jest nieograniczony.
Najczęściej dane grupowane zapisujemy za pomocą tabeli, zawierającej przedziały i liczebności danych w przedziałach. Analogiczną tabelę otrzymujemy w procesie konstruowania histogramu na podstawie szeregu szczegółowego.
Średnią dla takich danych otrzymujemy ze wzoru
(1.28)
gdzie i, jest środkiem i-tego przedziału, an = ni+...+% jest liczbą wszystkich obserwacji.
Z kolei mediana dana jest wzorem
n _
Me = ZMe + 3 --*Me , (1.29)
gdzie jest dolnym krańcem przedziału, w którym znajduje się mediana, - numerem przedziału, w którym znajduje się mediana, ą(e - szerokością przedziału, w którym znajduje się mediana, nm« - liczba danych w przedziale, w którym jest mediana. Przedział, w którym znajduje się mediana jest to ten przedział, w którym znajduje się obserwacja o numerze równym połowie liczby obserwacji. W celu jej znalezienia najlepiej posłużyć się licznościami skumulowanymi, obliczanymi dla poszczególnych przedziałów. Liczności takie mają postać
ni,»i +«2,ni +n2-ł-na,...,ni +7i2 + ... + n«» . (1.30)
Na ich podstawie tworzy się również wykres liczebności skumulowanych.
Kwartyle obliczane są według wzoru
22. _ ~l
Qj = xq + —-—--żq , (1-31)
gdzie użyte symbole mają podobne znaczenie co we wzorze (1.29). Przedziały, w których znajdują się kwartyle są to te przedziały, w których znajdują się obserwacje o numerze odpowiednio równym 25% n dla pierwszego kwartyla i 75% n dla trzeciego.
Kwartyle i mediana są szczególnie przydatne, gdy skrajne (pierwszy i / lub ostatni) przedziały nie są ograniczone. W takim przypadku nie jest bowiem możliwe obliczenie średniej ze wzoru (1.28).
Zarówno mediana, jak i kwartyle mają interpretacje geometryczną. W tym celu musimy stworzyć wspomniany wcześniej wykres skumulowanych liczebności obserwacji. Na osi X tego wykresu odkładamy granice poszczególnych przedziałów. Następnie rysujemy krzywą łączącą poszczególne wartości liczebności skumulowanych (1.30), a na osi Y odkładamy proste odpowiadające odpowiednio jednej czwartej, połowie i trzem czwartym liczby wszystkich obserwacji n. Przecięcia krzywej z tymi prostymi zrzutowane na oś odciętych wyznaczają kolejno pierwszy kwartyl, medianę i trzeci kwartyl.