przewodnikPoPakiecieR9

przewodnikPoPakiecieR9



130 Wybrane procedury statystyczne

Histogram zmiennej wiek


Histogram zmiennej


Rysunek 3.1: Funkcja hist() dla 6 klas (ku- Rysunek 3.2: Aukcja hist() dla 20 klas.

belków).

Wynikiejn funkcji histO jest obiekt klasy histogram przechowujący informę o wyznaczonych liczebnościach i częstościach. Domyślnie histogram jest rysowań ale można to rysowanie wyłączyć argumentem plot=FALSE. Dla funkcji histO i pozostałych funkcji opisanych poniżej można określać parametry graficzne takie jak <1 funkcji plot O, dzięki czemu mamy kontrolę nad wyglądem poszczególnych elein tów wykresu.

W powyższym przykładzie użyto dodatkowo funkcji rug(graphics). Zazn"”* ona na osi poziomej (lub pionowej, w zależności od wartości argumentu side) wartości poszczególnych obserwacji. Ponieważ w przykładzie zmienna wiek przyjmuj" tylko wartości całkowite, to (aby przedstawić ją bardziej czytehiie) zmienna ta została dodatkowo zaburzona zastrzykiem szumu, dzięki czemu można np. ocenić i" jest osób w wieku 50 lat. Takie doszumianie zostało wykonane z użyciem funkcją jitter (base).

Domyślnie, funkcja histO na osi y zaznacza liczebności obserwacji w poszczę^ gólnych klasach. Jeżeli chcemy, by rysowane były proporcje, to należy w funkcji histO podać argument freq=F lub (równoważnie) probability=T.

3.1.2.2 Jądrowy estymator gęstości i dystrybuanta empiryczna, funkcją density(stats) i ecdf(stats)

Jeżeli przeszkadzają komuś kanciaste brzegi histogramu, to może spodoba mu się wygładzona wersja histogramu, czyli jądrowy estymator gęstości wyznaczany przez; funkcję density(stats). Pomimo zakręconej nazwy z funkcji densityO korzył się naprawdę prosto.

Idea jądrowego estymatora gęstości polega na wyznaczeniu oceny gęstości w (P nym punkcie na podstawie koncentracji obserwacji w okolicy tego punktu. Obser cje położone bliżej interesującego punktu wpływają na oceny gęstości z większą i niż obserwacje bardziej oddalone. Szablon tych wag określony jest przez paramfi'. nazywany jądrem. To, które obserwacje są uznawane za bliskie odpowiada parametr nazywany szerokością okna, szerokością pasma lub też stopniem wygładzenia.

Hv&Dcklaracja funkcji densityO jest następująca:

•: '(jen3jty(x, bw = "nrdO", adjuat - 1, kernel, weights » NULL,

§'¥■' window « kernel, n » 512, from, to, ...)

Argument. x określa wektor wartości, dla których chcemy wyznaczyć ocenę gę-5 • gtości. Argumenty from i to określają początek i koniec przedziału, w którym wy-£iiimczona ma być gęstość, argument n określa liczbę punktów, w których wartość fev^gęstości ma być wyznaczona (gęstość wyliczana jest dla regularnej siatki punktów), fy.parainetry kernel i bw służą do określenia rodzaju jądra i szerokości okna. Wynikiem funkcji densityO jest obiekt klasy density, którego składowe przechowują Sytości ocen gęstości we wskazanych punktach. Obiekty tej klasy można przedsta-i wjaó graficznie przeciążoną funkcją plot O.

;. Domyślnie, ocena gęstości wyznaczana jest z użyciem jądra gaussowskiego. Prze-glądając plik pomocy dla funkcji densityO zainteresowany czytelnik odkryje jak wykorzystywać inne jądra i czym one się różnią (a wybór jest spory, dostępne są .. . prostokątne, trójkątne i wiele innych, patrz parametr kernel oraz rysunek 3.5, na , którym przedstawiamy przykładowe jądra).

Szerokość pasma (szerokość okna) można ustalić ręcznie lub wskazać regułę wyboru szerokości okna, która automatycznie wybierze najodpowiedniejszą szerokość. W pakiecie stats zaimplementowanych jest pięć różnych metod automatycznego : wyboru szerokości pasma. Domyślnie stosowana jest pewna reguła kciuka (stosowa-l na gdy bw="nrdO") zaproponowana przez Silvermana. Zgodnie z tą regułą szerokość okna h wyznaczana jest ze wzoru

hbw.nnK) = 0.9min(ó,/<3/i/1.34)n_1/5,    (3.1)

gdzie ćr to ocena odchylenia standardowego, 1QH to rozstęp kwartylowy z próby a n to liczba oł>serwacji (magiczna stała 1.34 bierze się stąd, że dla rozkładu normalnego 1QR/1.34 ~ <y). Inną popularną regułą kciuka jest reguła Scotfa (stosowana gdy bw="nrd'')

h-bw.nrd = 1.06dn~i/6.    (3.2)

: Można wybrać też inne reguły wyboru szerokości pasma, np., oparte o metodę S cross validatiou (nieobciążoną dla argumentu bw="ucv" i obciążoną dla argumentu bv="bcv") lub estymator typu plug-in Sheathera Jonesa (dla argumentu bw="SJ"). W większości przypadków najlepsze wyniki dla oceny szerokości pasma otrzymuje się ; wykorzystując metodę Sheathera Jonesa. Poniżej przedstawiamy przykłady dwóch ocen gęstości wyznaczonych dla różnych parametrów szerokości pasma. Efekt wykonania tych instrukcji znajduje się na rysunkach 3.3 i 3.4.

■V'

* automatyczny dobór szerokości pasma

Zaskakująco wyglądać może zapis ccdf(x)(z), jest on jednak poprawny i powoduje wyznaczenie wartości dystrybuanty empirycznej dla wektora w punktach jej skoków.


;jilot (density(dane$wiek) ,main=" Jądrowy estymator rozkładu wieku") fug(jitter(dane$wiek, factor-2), side-1, ticksize-0.03, col="red") ręczny wybór szerokości pasma

plQt(density(dane$wiek,bv=l),main-"Jądrowy estymator rozkładu wieku") ,tfig(jitter(dane$wiek, factor=2) , side-1, ticksize=0.03, col^red")

j Inną przydatną statystyką do opisu rozkładu, z którego pochodzą zmienne jest dystrybuanta empiryczna. Do wyznaczania dystrybuanty empirycznej służy funkcja ecdf(stats). Jej wynikiem jest funkcja wyznaczająca dystrybuantę empiryczną. Poniżej przedstawiamy przykład wywołania funkcji ecdf ().


Wyszukiwarka

Podobne podstrony:
przewodnikPoPakiecieR3 158 Wybrano procedury statystyczno >    # ze. zmiennej mod
przewodnikPoPakiecieR 3 I 178 Wybrane procedury statystyczno W powyższym przykładzie wygląda na to,
przewodnikPoPakiecieR 3 I 178 Wybrane procedury statystyczno W powyższym przykładzie wygląda na to,
przewodnikPoPakiecieR 3 I 178 Wybrane procedury statystyczno W powyższym przykładzie wygląda na to,
przewodnikPoPakiecieR4 140 Wybrane procedury statystyczne >    U ustawiamy ziarno
przewodnikPoPakiecieR 1 I m 174 Wybrane procedury statystyczne. P So good «dvice here is: Bewarc
75190 przewodnikPoPakiecieR 1 I m 174 Wybrane procedury statystyczne. P So good «dvice here is: B
przewodnikPoPakiecieR7 166 Wybrane procedury statystyczne mezczyzna piec Niepowodzenia Rysunek 3.23
przewodnikPoPakiecieR7 126 Wybrane procedury statystyczne Statystyki opisowe127 Tabela 3.1: Statyst
przewodnikPoPakiecieR8 128 Wybrane procedury statystyczne 128 Wybrane procedury statystyczne 3.1.1.
przewodnikPoPakiecieR1 134 Wybrane procedury statystyczne Domyślnie, przedział ufności dla med
przewodnikPoPakiecieR3 138 Wybrane procedury statystyczne 138 Wybrane procedury statystyczne Za aut
przewodnikPoPakiecieR4 —■4 140 Wybrane proceduiy statystyczne >    # ustawiamy zi

więcej podobnych podstron