Modele liniowe i mieszane na przykładzie analizy danych biologicznych Ćwiczenie nr 2 (Regresja liniowa)
1. Na podstawie danych zamieszczonych na stronie http://theta.edu.pl (dane z ćwiczeń nr 1) zaproponować dwa proste modele regresji liniowej, w których zmienną zależną (objaśnianą) będzie poziom enzymu sTfR a zmiennymi niezależnymi (objaśniającymi):
i. w pierwszym modelu wiek;
ii. w drugim modelu płeć.
Następnie wykonać następujące polecenia i odpowiedzieć na poniższe pytania:
a) Podać interpretację otrzymanych estymatorów.
b) Jaki poziom enzymu sTfR będą mieli ludzie w wieku sześćdziesięciu lat?
c) Czy estymatory parametrów są statystycznie istotne na poziomie istotności a = 0.05? Jak zmieni się istotność estymatorów jeśli zmienimy poziom istotności na 0.01?
d) Jak prezentuje się współczynnik R2 dla każdego z modeli?
e) Wykonać wykres na którym znajdą się zarówno obserwacje jak i wyznaczona prosta regresji.
f) Czy residua modeli mają rozkład normalny? Do rozwiązania tego zadania należy użyć zarówno procedur graficznych jak i odpowiednich testów statystycznych.
g) Wyznaczyć 95°/: przedziały ufności dla otrzymanych estymatorów.
h) Który model jest „lepszy" ze względu na kryterium AIC, a który ze względu na kryterium BIC? Na podstawie jakich innych kryteriów możemy wybrać „lepszy" model?
2. Utworzyć wieloczynnikowy model regresji liniowej, w której zmienną zależną będzie poziom enzymu sTfR, a zmiennymi niezależnymi: płeć, wiek, anemia oraz genotyp genu. Następnie wykonać następujące polecenia i odpowiedzieć na poniższe pytania:
a) Jak powinniśmy zakodować zmienną genotyp?
b) Podać interpretację otrzymanych estymatorów.
c) Jaki poziom enzymu sTfR będą mieli mężczyźni z anemią w wieku sześćdziesięciu pięciu lat z genotypem AA?
d) Wykonać metodę krokową typu „backward" wyboru istotnych zmiennych do modelu przy wykorzystaniu kryterium AIC i BIC. Czy dla obydwu kryteriów otrzymujemy ten sam model? Jakie inne typy metody krokowej są możliwe?
e) Czy residua modelu mają rozkład normalny? Do rozwiązania tego zadania należy użyć zarówno procedur graficznych jak i odpowiednich testów statystycznych.
f) Wyznaczyć 99°/; przedziały ufności dla otrzymanych estymatorów.