Wielowymiarowa Analiza Statystyczna z systemem SAS Warszawa 2013

EGZAMIN gr A

Zadanie1. [5pkt]

Na podstawie pliku danych German należy dokonać grupowania obiektów na k grup wykorzystując zmienne: duration credit_amt age. Następnie proszę odpowiedzieć na pytania:

a) jaka jest optymalna liczba skupień (k), wybór uzasadnić.

b) określić profil otrzymanych skupień wykorzystując statystyki proste: średnia arytmetyczna, odchylenie standardowe.

c) wymień podstawowe metody grupowania i wskaż, która jest metodą właściwą dla dużych liczebnie zbiorowości.

Zadanie 2. [5 pkt]

Wykorzystując zbiór Gosp2004 przeprowadzić analizę głównych składowych na zmiennych: dochg, wiek, wydg, ld17, gredu. Następnie proszę odpowiedzieć na pytania:

a) jeżeli redukcja wymiaru jest podstawowym celem analizy to ile głównych składowych wybrałbyś do dalszej analizy kierując się wynikami z programu, odpowiedź uzasadnij podając co najmniej 2 argumenty

b) patrząc na macierz korelacji czy uzasadnione jest stosowanie metody głównych składowych na tym zbiorze? Odpowiedź uzasadnij.

Zadanie 3. [5 pkt]

Na podstawie zbioru Gosp2004 wykorzystując dane dla grupy wykształcenia (gredu: 1-wyższe, 2-średnie, 3-zawodowe, 4-podstawowe) oraz oceny sytuacji życiowej (d61: 1-bardzo zła, 2-zła, 3-przeciętna, 4-dobra, 5-bardzo dobra) należy przeprowadzić analizę korespondencji a następnie opisać uzyskaną mapę percepcji:

Zadanie 4. [5 pkt]

Wykorzystując dane z Gosp2004 i zmienne: dochg, wiek, wydg, ld17, gredu oszacować funkcję dyskryminacji liniowej dla grup: U28=0 brak samochodu osobowego, U28=1 posiadanie samochodu. Następnie należy:

1. zapisać funkcję dyskryminacyjną dla U28=1

2. Ocenić czy otrzymana funkcja dobrze dyskryminuje (odróżnia) gospodarstwa posiadające samochód od gospodarstw nie posiadających samochodu (tablica klasyfikacji).