IM
3.1.2.3 Wykresy pudełkowe: boxplot(graphics)
# wyznaczamy dystrybuantę empiryczną
# używamy przeciążonej funkcji plot
# używamy zwykłej funkcji plot O
Wybrane procedury statystyczne
Jądrowy estymator rozkładu wieku
20 40
N - 204 Bandwidth » 4.302
RyHtmok 3.3: Wykres jądrowego estyma- Rysunek 3.4: Wykres jądrowego estvm: tom gęstości density(). tora gęstości dla mniejszego okna.
> # dystrybuanta empiryczna dla wektora 1000 losowych liczb
> d.emp = ecdf (morm(lOOO) ) Jt* d.emp jest funkcją
> d.emp(c(-l.96,0,1.96)) U wyznaczamy wartości w punktach [1] 0.025 0.496 0.972
Wynik funkcji ecdf O jest obiektem klasy ecdf. Dla tej klasy zaimplementowano przeciążoną wersję funkcji plot O prezentującą graficznie dystrybuantę empiryi (zobacz przykład na rysunku 3.6). Poniżej przykłady operacji na jądrowym estyi torze gęstości i dystrybuancie empirycznej. lała zm - rnorni(30)
tf wyznaczamy estymator gęstości metodą nieobciążoną CV gestosc = densityCzm, from=:-3,tp=3, bw~bw.ucv(zm)) plot (gestosc) # używamy przeciążonej funkcji plot O -i
plot(geśtośc$x, gestosc$y) # używamy zwykłej funkcji plot O
dystrybuanta - ećdf(zm) x * seq(-3,3,0.1) y = dystrybuanta<x) plot(dystrybuanta) plot(x, y)
# wywołanie ecdf dla przykładowego wykesu
plot(ecdf(dane$wiek), main-"Dystrybuanta empiryczna wieku") rug(dane$wiek, side=>l, ticksize=0.03, col=fi,'rodw)
Statystyki opisowe
Dystrybuanta empiryczna wieku
30 40 50 60
Rysunek 3.5: Pięć wybranych jąder do- Rysunek 3.6: Wykres dystrybuanty empi-- stępnych w funkcji densityf). ryczucj ecd}().
Wykres pudełkowy jest bardzo popularną metodą prezentacji zmienności pojedynczej zmiennej. Można go wyznaczać również dla kilku zmiennych (dzięki czemu możemy porównać rozkłady tych zmiennych) lub dla pojedynczej zmiennej w rozbiciu na grupy obserwacji (dzięki czemu możemy porównać rozkład zmieimej w podpopu-lacjach). Deklaracja funkcji boxplot() jest następująca:
boxplot(x, ..., rangę = 1.5, width = NULL, varwidth ** FALSE, notch = FALSE, outline = TRUE, names, plot = TRUE, log *= horizontal = FALSE, add - FALSE, at « NULL)
Argument x określa wektor wartości lub listę wektorów wartości (też ramkę danych), które mają znaleźć się na wykresie pudełkowym. Można też podać kilka wek-forów zmiennych jako kolejne argumenty. Jeżeli argumentem będzie wektor liczb, 1 to narysowane będzie jedno pudełko, jeżeli będzie to kilka wektorów liczb, to na-c. rysowane będzie kilka pudelek, a jeżeli argumentom będzie formuła opisująca za-. leżność. pomiędzy zmienną ilościową a zmienną jakościową, to narysowane będzie ' osobne pudełko dla każdego poziomu zmiennej jakościowej. Pozostałe argumenty funkcji boxplot() to: rangę określający szerokość przedziału (wielokrotność rozstępu kwartylowego) poza którym obserwacje są traktowane jako odstające, argument. , varuidth powodujący, że grubość pudelka będzie proporcjonalna do pierwiastka z liczby obserwacji w wektorze, argument outline określający, czy mają być rysowane wartości odstające, argument plot określający, czy wykres pudełkowy ma być rysowany (domyślnie jest rysowany). Wynikiem funkcji boxplot() jest obiekt '. opisujący charakterystyki wektora wejściowego. Zawiera on pola z informacją o war-t/p tościacli odstających, brzegach pudelka i brzegach wąsów. Są to wartości wyzna-•• czone przez funkcję boxplot. stats(grDevices) wywołaną pośrednio przez funkcję boxplot().
Kształt wykresu pudełkowego jest bardzo charakterystyczny i przypomina pudełko 7. wąsami, stąd też inna nazwa tego wykresu: wykres ramka-wąsy. Pomiędzy
1.1.1