Wielowymiarowa Analiza Statystyczna z systemem SAS Warszawa 2013
EGZAMIN gr A
Zadanie1. [5pkt]
Na podstawie pliku danych German należy dokonać grupowania obiektów na k grup wykorzystując zmienne: duration credit_amt age. Następnie proszę odpowiedzieć na pytania:
a) jaka jest optymalna liczba skupień (k), wybór uzasadnić.
b) określić profil otrzymanych skupień wykorzystując statystyki proste: średnia arytmetyczna, odchylenie standardowe.
c) wymień podstawowe metody grupowania i wskaż, która jest metodą właściwą dla dużych liczebnie zbiorowości.
Zadanie 2. [5 pkt]
Wykorzystując zbiór Gosp2004 przeprowadzić analizę głównych składowych na zmiennych: dochg, wiek, wydg, ld17, gredu. Następnie proszę odpowiedzieć na pytania:
a) jeżeli redukcja wymiaru jest podstawowym celem analizy to ile głównych składowych wybrałbyś do dalszej analizy kierując się wynikami z programu, odpowiedź uzasadnij podając co najmniej 2 argumenty
b) patrząc na macierz korelacji czy uzasadnione jest stosowanie metody głównych składowych na tym zbiorze? Odpowiedź uzasadnij.
Zadanie 3. [5 pkt]
Na podstawie zbioru Gosp2004 wykorzystując dane dla grupy wykształcenia (gredu: 1-wyższe, 2-średnie, 3-zawodowe, 4-podstawowe) oraz oceny sytuacji życiowej (d61: 1-bardzo zła, 2-zła, 3-przeciętna, 4-dobra, 5-bardzo dobra) należy przeprowadzić analizę korespondencji a następnie opisać uzyskaną mapę percepcji:
Zadanie 4. [5 pkt]
Wykorzystując dane z Gosp2004 i zmienne: dochg, wiek, wydg, ld17, gredu oszacować funkcję dyskryminacji liniowej dla grup: U28=0 brak samochodu osobowego, U28=1 posiadanie samochodu. Następnie należy:
1. zapisać funkcję dyskryminacyjną dla U28=1
2. Ocenić czy otrzymana funkcja dobrze dyskryminuje (odróżnia) gospodarstwa posiadające samochód od gospodarstw nie posiadających samochodu (tablica klasyfikacji).