170 Wybrane procedury statystyczno
170 Wybrane procedury statystyczno
Zacznijmy od prostego przykładu, w którym cenę mieszkania będziemy szaci na podstawie jego powierzchni oraz liczby pokoi.
There’s probably bo me exampleB, but there »re gonie
:owa£
rxAHi(>l«H of people using
solvc(t(X)%*%X)%*9 > modelPP <- lm(cena~powierzchnia+pokoi, data = mieszkania)
t(X)%*%Y to v V
compute rcgression .
chowujący informacje o dopasowanym modelu liniowym. Obiekt ten ma szereg pó]
Funkcja lm() wykonuje dopasowanie modelu liniowego, wyznacza oceny współ-Thomas Uimicy czynników ft oraz wylicza wartości residuów. Wynikiem jest obiekt klasy lm przę.
przydatniejsze przedstawiamy w tabeli 3.5. Na obiekcie klasy lm wykonywać można funkcje wymienione w tabeli 3.7.
Poniżej przedstawiamy pełną deklaracje funkcji lmO
lmfformula, data, subset, weights, na.action, method="qr", model=TRUE, x=FALSE, y=FALSE, qr=TRUE, singular.ok=TRUE, contrasts=NULL, offset, ...)
Argument, formula opisuje formulę modelu liniowego. W formule możemy korzystać z nazw zmiennych dostępnych w przestrzeni roboczej oraz z nazw kolumn ramki danych podanej jako argument data. Argument subset pozwala wskazać podzbiór obserwacji, które będą wykorzystane do dopasowania modelu. Kolejny argument weights pozwala określić wektor wag dla poszczególnych obserwacji. W przypadku wskazania wektora wag, estymacja parametrów będzie polegała na minimalizacji ważonej sumy kwadratów £?=i w«(Vj — F,)2, użyte będą inne wzory do oceny współczynników f), mianowicie zamiast wzoru 3.9 stosowany będzie
(3.10)
gdzie W to macierz diagonalna z wartościami wag w, na przekątnej. Argument; na.action określa jaka akcja ma hyć podjęta w przypadku występowania wartości, brakujących. Argumenty': model, x, y, qr określają, czy w obiekcie, będącym wynikiem funkcji lmO, ma być przechowywana informacja o użytej formule, wartościach. X i Y oraz o metodzie estymacji. Argument singular. ok określa, czy w sytuacji, gdy' macierz XTX będzie osobliwa, sygnalizowany ma być błąd (singular. ok=FALSE).'. czy też zwracany ma być dopasowany model z ocenami /?, =NA przy wspólliniowych kolumnach (singular.ok=TRUE). Argument contrasts pozwala na określenie jak kodowane mają być zmienne jakościowe. Argument offset pozwala w modelu regresji podać wartości wybranych współczynników /9, będą one traktowane jako znane , współczynniki i nie będą estymowane.
Tabela 3.5: Wybrane właściwości obiektu klasy lm
$coefficients Sresiduals
Dopasowane współczynniki modelu fi.
Wektor residuów i.
: $fitted.values
$df.residual
Wektor wartości ocenionych przez model Y.
Liczba stopni swobody dla residuów, wyznaczona jako liczba i ■ obserwacji minus liczba parametrów modelu. _j ■
Ramka danych użyta do estymacji współczynników modelu, j
Tabela 3.6: Wybrane właściwości obiektów klasy summary.lm
jfresiduals |
Wektor residuów, tak jak dla obiektu klasy lm. |
f$coeffic i ent s Wź: >$sig®a [Sfstatistic |
Macierz wymiaru p x 4. Dla każdego współczynnika w macierzy znajdują się informacje o ocenie jego wartości, błędzie standardowym tej oceny, wartości statystyki testowej dla tego współczynnika oraz odpowiadającej mu p-wartości dla hipotezy dwustronnej. Ocena odchylenia standardowego dla wektora błędów a = Wektor z wartość statystyki F dla modelu, liczbą stopni swobody w mianowniku i liczniku. |
j$r.sąuared |
Wartość Rz, nazywana proporcją wyjaśnionej wariacji. |
:$adj.r.sąuared |
Wartość Rz potrafi być bardzo wysoka nawet dla źle dopa- |
sowanych modeli z dużą liczbą parametrów. | |
j$cov.unscaled |
Macierz kowariancji dla ocen współczynników /?. |
[$correlation |
Macierz korelacji dla ocen współczynników 0. |
Tabela 3.7: Wybrane przeciążone funkcje do operacji na obiektach klasy lm
summary(base) coef(stats) i resid(stats)
i fitted(stats)
Wynikiem jest opis dopasowania modelu liniowego. Wynikiem jest wektor ocen współczynników /?» w modelu. Wynikiem jest wektor residuów dla dopasowanego modelu Y Y.
Wynikiem jest wektor wartości dopasowanych w modelu Y. Wynikiem jest RSS (residual sum of sguares), czyli suma kwadratów residuów.
anova(stats) Wynikiem jest obiekt z podsumowaniem analizy wariancji
dla modelu.
! pic
predict (stats) Funkcja pozwala na użycie dopasowanego modelu, do wykonania predykcji zmiennej objaśniającej na nowym zbiorze danych.
plot (stats) Funkcja do rysowania wykresów diagnostycznych dla dopa
sowanego modelu liniowego.
Spróbujmy z dopasowanego modelu wydobyć wektor współczynników.
> ff możemy informacje o dopasowanym modelu wyciągać bezpośrednio, podając hY nazwę odpowiedniej właściwości obiektu, w tym przypadku $coeffićients
> modelPP$coefficients
^(Ihtercept) powierzchnia pokoi
V 82407.0883 2070.8966 -840.1008
> U nie musimy podawać całej nazwy pola *coefficients*, wystarczy prefix
coeff
> modelPPScoeff
% (Intercept) powierzchnia pokoi
Wł 82407.0883 2070.8966 -840.1008