128 Wybrane procedury statystyczne
128 Wybrane procedury statystyczne
3.1.1.1 Podsumowanie wartości wektora, macierzy lub ramki danych, funkcja: summary(base) y*™
Funkcja summary (base) wyświetla proste podsumowania wektora obserwacji. W przepadku zmiennej jakościowej, występującej na kilku poziomach, funkcja summaryfj.ć? pokaże liczebność obserwacji w każdym z możliwych poziomów.
> summary(wyksztalęenie)
podstawowe średnie wyzsze zawodowe
22 34 93 55
W przypadku zmiennych ilościowych, wynikiem funkcji summary() jest wekffifB z wartościami minimum, maksimum, średniej, mediany i kwartyli pierwszego i trze-ciego (nazywanego też dolnym i górnym). Wszystkie te wartości poza średnią są'., również wyznaczane przez funkcje f ivenum(stats), wyznaczającą t.zw. pięć liczb '"V Tukeya. Jeżeli w zmiennej występują brakujące obserwacje, to w podsumowaniu wypisywana jest też liczba brakujących obserwacji.
summary(wiek) Min. Ust Qu. 22.00 30.00
Median
45.00
Mean 3rd Qu. 43.16 53.00
Mar.
75.00
ajiii k
..........................i'
Argumentem funkcji summary O może być również obiekt typu data. f ramę.
W tym przypadku podsumowania wyznaczane są dla każdej kolumny wskazaną) ramki danych.
y | ^ W powyższych przykładach wynikiem funkcji summary O jest obiekt klasy summary, będący w rzeczywistości macierzą lub ramką da-nych. Za wyświetlenie na konsoli wyniku tej funkcji odpowiada funk-cja print .summary() (wywoływana domyślnie, o ile wynik funkcji summaryO nie zostanie przypisany do jakiejś zmiennej).
Funkcja summaryO bywa często przeciążana. Wykorzystywana jest często do tekstowej prezentacji złożonych obiektów (np. modeli liniowych, analizy wariancji itp).
3.1.1.2 Tablice kontyngencji, funkcja: table(base)
Do wyznaczenia liczebności występowania poszczególnych kombimicji poziomów zmień-: nych typu wyliczeniowego możemy wykorzystać funkcję table(base). Funkcja ta wyznacza tablice kontyngencji jednej, dwóch lub większej liczby zmiennych wy- ,; liczeniowych. Tablice kontyngencji można również wyznaczaj": funkcjami xtabsO ; i ftableO opisanymi w rozdziale 2.1.1.
> table(wykształcenie, praca)
%
•i
nie pracuje uczeń lub pracuje pódstawowe 8 14
Statystyki opisowe
129
3 1.2 Graficzne statystyki opisowo
poniżej przedstawiamy najpopularniejsze wykresy wykorzystywane do graficznej re-f ńrczentaiji zmiennych. Mniej popularno, alo równie ciekawe i użyteczne wykresy '^ przedstawione są w rozdziale 4.1.
: 3.1.2.1 Histogram, funkcja: hist(graphics)
H jilstograni jest bez wątpienia najpopularniejszą statystyką graficzną. Przedstawia liczebności obiektów w poszczególnych przedziałach danej zmiennej (te przedziały- nazywane są również klasami lub kubełkami). Deklaracja tej funkcji (pomijając , argumenty graficzne) jest następująca:
hlst(x, breaks = "Sturges", freq = NULL, probability * !freq, right = TRUE, plot = TRUE, labels = FALSE, ...)
Argument x określa wektor wartości, dla których histogram ma być wyznaczony, argument breaks określa podział zakresu zmienności wektora x na przedziały, argument freq określa, czy przy rysowaniu histogramu mają być zaznaczane frakcje, czy liczebności elementów w przedziałach. Argument right określa, czy przedziały mają być traktowane jako domknięte prawostronnie czy lewostronnie, argument plot określa, czy histogram ma być rysowany, czy tylko wyznaczany ma być opis :: histogramu, argument labels pozwala na wskazanie wektora napisów, które będą naniesione na słupki odpowiadające kolejnym przedziałom, i Jeżeli nie podamy liczby przedziałów, to zostanie ona dobrana w zależności od liczby obserwacji oraz zmienności danej zmiennej. Do określania liczby i szerokości przedziałów służy argument breaks. Jeżeli podamy za wartość tego argumentu ■ liczbę, to będzie ona potraktowana jako sugestia oczekiwanej liczby automatycznie wyznaczonych przedziałów (sugestia, funkcja histO może liczbę przedziałów zwiększyć lub zmniejszyć). Jeżeli podany będzie wektor liczb, to będzie on uznany za wektor punktów rozdzielających przedziały (przedziały nie muszą mieć równych szerokości). Jeżeli argumentem będzie napis, to zostanie on zinterpretowany jako nazwa algorytmu do wyznaczenia liczby przedziałów (możliwe wartości to "Sturges", "Scott", "FD" i "Freedman-Diaconis").
■f Poniżej przedstawiamy dwa przykładowe wywołania funkcji histO, wyniki wywołania tych funkcji można zobaczyć na rysunkach 3.1 i 3.2.
> hist(wiak,5,raain“"Hlstograin zmiennej wiek",ylab«"liczebnosci")
> rug(wiek,side”l,ticksi2e«0.03,col«="red")
> h « hist(wiek,20,main="Histogram zmiennej wiek",ylab="liczebnosci")
> rug(jitter(wiek, factor=2) ,side=*l ,ticksize=0.03,col="red")
> atr(h)
..Łdst of 7
; $ breaks : num Cl:283 22 24 26 28 30 32 34 36 38 40 ...
$ counts : int [1:27] 15 14 11 13 10 12 5 7 5 4 ...
'=$ intensities: num [1:27] 0.0368 0.0343 0.0270 0.0319 0.0245 ... v$ density : num [1:27] 0.0368 0.0343 0.0270 0.0319 0.0245 ...
V $ mlds : num [1:27] 23 25 27 29 31 33 35 37 39 41 ...
$ xname ; chr "wiek"
$ equidist : logi TRUE
- attr(», "class")= chr "histogram"