Wybrane procedury statystyczne
wyr az modelu, formuły -1 albo
Otrzymane wyniki oznaczają, że przy zadanym modelu średnią cenę mieszkań' można wyznaczyć z równania
średnia cena = 82407 + 2071 * powierzchnia - 840 * liczba pokoi. ' Dziwić może ujemna wartość współczynnika przy liczbie pokoi, ale jak się za chwi.
lę okaże, zmienna pokoi jest w tym modelu nieistotnie różne od zera i może być usunięta z modelu. Więcej informacji o modelu można uzyskać używając przeciążonej funkcji summary (base). W wyniku jej wywołania wyznaczane są informacje o residuach w dopasowanym modelu, wartości wyestymowanych współczynników' w modelu liniowym oraz wyniki dla testów istotności dotyczących ocen współczynników A Wynikiem tej funkcji jest obiekt klasy summary. Im, którego właściwości wymienione są w tabeli 3.6. Część z tych właściwości wyświetlana jest przez funkcję print. summary. Im O, wywoływaną automatycznie, gdy wynik polecenia summaryf) nie zostanie przypisany do jakiejś zmiennej. Pokażmy to na przykładzie.
> # wyświetlamy podsumowanie dopasowanego modelu liniowego
> summary(modelPP)
Cali:
lmCformula = cena ~ powierzchnia + pokoi, data = mieszkania)
Residuals:
Min 1Q Median 3Q Max
-39705.0 -9386.1 -863.5 9454.3 35097.5
Coefficients:
Estimate Std. Error t value Pr(>lt!)
(Intercept) 82407.1 2569.9 32.066 <2e-16 **»
powierzchnia 2070.9 149.2 13.883 <2e-16 ***
powierzchnia
pokoi
-840.1 2765.1 -0.304 0.762
Signif. codes: 0 0.001 '**’ 0.01 0.05 0.1 ' ’ 1
Residual standard error: 14110 on 197 degrees of freedom Multiple R-Squared: 0.8937, Adjusted R-squared: 0.8926
Dwóm polom poświęcimy więcej uwagi, mianowicie ocenom współczynników i wartości Ii2. W macierzy $coeff icients cztery kolumny opisują oceny kolejnych współ*; czynników. W kolumnie pierwszej (o nagłówku Estimate) przedstawione są oceny, wartości współczynników regresji. Spójrzmy na wartość -840.1 dla zmiennej pokoi. Biorąc pod uwagę ceny mieszkań rzędu setek tysięcy ta wartość jest relatywnie mała, Pojawia się pytanie, czy ta wartość jest istotnie różna od zera, czy też jest może wynikiem losowych fluktuacji. Można pokazać, że gdy rozkład zakłóceń jest w rzeczywi-'
stości rozkładem normalnym, to oceny współczynników A mają rozkład t- o średniej ft.Znajomość tego rozkładu pozwala nam na weryfikacje hipotezy zerowej.
przeciwko hipotezie alternatywnej
Rysunek 3.25: Wykres rozrzutu przedstawiający ceny mieszkań w zależności oo ich powierzchni Ukośna linia to linia regresji o równaniu y = 0o + P\ r.
Wartość p przy t.ej alternatywie wyznaczona dla testu t-studenta znajduje się w czwartej kolumnie macierzy Ścoeff icients (czwarta kolumna tej macierzy ma nazwę Pr (> 111)). W poniższym przykładzie, pokazujemy, jak dla zmiennej pokoi wydobyć tę wartość z obiektu klasy lm(). Wartość p dla zmiennej pokoi wynosi 0.762, co oznacza, żo nie ma podstaw, by uznać w modelu ten współczyimik za istotnie różny od 0.
> podsumowanieModeluPP = summary(modelPP)
> U wyciągamy p-wartości
> podsumowańieHodeluPP$coef[2:3,4]
powierzchnia pokoi
6.241555e-31 7.615836e-01
> tt wartości ocen współczynników beta
> podsumowanieModeluPPScoef[,1]
(Intercept) powierzchnia pokoi
- 82407.0883 2070.8966 -840.1008
Przy ocenie dopasowania modelu liniowego należy zwrócić uwagę na wartość R‘ przedstawiającą procent wariancji wyjaśnionej przez model. Im wyższa wartość współczynnika R2 (maksymalna to 1) tym lepsze dopasowanie modelu do danych. Niestety również im więcej zmiennych w modelu tym wyższa wartość współczynnika R2 Aby uwzględnić liczbę zmiennyc.li w modelu stosuje się modyfikację wspótczyu-' nika R2 nazywaną zmodyfikowanym R? (ang. adjusted R2).
:•> » odczytujemy informacje o współczynniku R~2 i zmodyfikowanym R~2
> c(podsumowanieModeluPP$r.squared, podsumowańieModeluPP$adj.r.sąuared)
,.fl] 0.8937227 0.8926437
Co ciekawe, zupełnie iuny wniosek otrzymamy, jeżeli w modelu nic będzie zmiennej powierzchnia. Dlaczego? Sprawdź!
W przykładzie po lewej stronie do właściwości coefficients odwołujemy «ię poprzez jej alias, coe.f.