11
S tatystyka opisowa
gdzie k jest poszukiwaną, liczbą klas. Oczywiście, wartość k należy zawsze zaokrąglić do wartości całkowitej.
Po ustaleniu liczby klas, należy policzyć ile obserwacji „wpada” do każdego z przedziałów. Na tej podstawie tworzymy związany z klasami ciąg liczności obserwacji w poszczególnych przedziałach.
Ostatnim krokiem jest narysowanie wykresu, który składa się z przylegających do siebie prostokątów. Postawy prostokątów, odpowiadające poszczególnym przedziałom, znajdują się na osi odciętych, a wysokości tych prostokątów odpowiadają liczbie obserwacji w poszczególnych przedziałach.
Histogram jest często utożsamiany z tzw. empirycznym rozkładem danych. Pojęcie to omówimy dokładniej w dalszej części pracy.
Przykład 1.7. Narysuj przykładowy histogram. Zastanów się, jak wyglądają histogramy dla danych o zerowej, ujemnej i dodatniej skośności, o ujemnej i dodatniej kurt ozie, o małej i dużej wariancji.
Wykres skrzynkowy (ang. box-whisker plot), czasem nazywany skrzynkowym z wąsami lub pudełkowym, pozwala badać zależności pomiędzy miarami pozycyjnymi dla obserwacji. Składa się on ze skrzynki z wąsami i w syntetyczny sposób przedstawia najważniejsze z tych miar. Wąsy rozciągają się od minimalnej do maksymalnej wartości obserwacji, natomiast dolny i górny kraniec pudełka odpowiadają odpowiednio pierwszemu i trzeciemu kwartylowi. Wewnątrz pudełka znajduje się pozioma kreska lub kwadracik na wysokości mediany. Poniżej dolnego i powyżej górnego wrąsa, okręgami zaznaczane są obserwacje podejrzane o odstawanie, a „gwiazdkami” - obserwacje odstające. Wykorzystywana jest przy tym następująca reguła: obserwacja jest podejrzewana o odstawanie, jeśli leży poza skrzynką w odległości od 1,5 do 3 rozstępów mię-dzykwartylowych (czyli Q3 - Q1), zaś obserwacja jest odstająca, jeśli leży poza skrzynką w odległości przekraczającej 3 rozstępy międzykwartyłowe.
Przykład 1.8. Analogicznie jak w poprzednim przykładzie, zastanów się jak wygląda wykres sb'zynkowy dla różnych wartości skośności, kurtozy i miar zróżnicowania.
W przypadku, gdy obserwacje są danymi grupowanymi (przedziałowymi), nie można zastosować wzorów wprowadzonych w rozdziale 1.3. Zamiast tego stosuje się inne wzory, które teraz pokrótce przedstawimy. Należy jednak podkreślić, że interpretacja poszczególnych miar statystycznych nadal pozostaje taka sama. Oznacza to, że podobnie jak dla danych dokładnych (czyli np. szeregu szczegółowego) wariancja jest miarą rozrzutu, średnia to miara przeciętna pozycyjna, itd.
Dane grupowane (dane przedziałowe) przedstawione są za pomocą ciągu wartości granic przedziałów X| , Xj, x^\..., Xm oraz ciągu liczności obserwacji zawartych w poszczególnych przedziałach ni,n?,..., rtm. Liczby x^,x^ oznaczają zatem początek i koniec i-tego przedziału (zazwyczaj zapisywanego w postaci a n, to liczba danych w tym przedziale. Bardzo czę
sto zachodzi przy tym x£J.\ = x^, czyli dolny kraniec następnego przedziału