1
Metody analizy
danych
Wiesław Szczesny
KATEDRA INFORMATYKI SGGW
tel. 0601 810 996
Wieslaw_Szczesny@SGGW.pl
2
Warunki „zaliczenia”
przedmiotu:
• Zaliczenie ćwiczeń (
według wymagań prowadzącego
ćwiczenia
- czyli ogólnie rzecz biorąc weryfikacja
hipotezy H0(student nie opanował materiału)
na poziomie istotności 0.05- metodę weryfikacji ustala
prowadzący
)
• Pozytywna ocena przez prowadzącego ćwiczenia
pracy okresowej (
wykonana analiza na własnym zbiorze
danych rzeczywistych, dopuszcza się prace indywidualne lub
w grupach 1-3 osobowych
)
• Test sprawdzający wiedzę z przedmiotu obejmującą
zagadnienia omawiane na wykładzie i ćwiczeniach.
3
Diagram ilustrujący graficznie zmiany w kierunkach badania
danych wielowymiarowych
4
Program wykładu
Metody analizy danych
• 1. Zagadnienia wstępne. Schemat analizy danych
wielowymiarowych
(punkt ciężkości badań dawniej – dzisiaj)
.
• 2-9. Klasyczne metody analizy danych: wielowymiarowa
analiza porównawcza (WAP), analiza regresji, analiza
klasyfikacyjna (z nauczycielem i bez)
• 10-11 Wybrane informacje dotyczące metod: składowych
głównych, analizy odpowiedniości i analizy czynnikowej,
• 12-13. Wybrane informacje dotyczące niestandardowych
metod
analizy
danych:
GCCA
(
gradacyjna
analiza
odpowiedniości i skupień
), GAP (
Generalized Association Plots
),
wizualizacja
wyników
,
uzupełnianie
braków
danych
i
wyszukiwanie elementów odstających.
• 14. Studium przypadku:
porównanie wyników uzyskanych przy
wykorzystaniu klasycznych i nowo-proponowanych technik analizy
i wizualizacji danych wielowymiarowych oraz przegląd pakietów
komputerowych (komercyjnych i bezpłatnych dostępnych przez
Internet) pod tym kątem.
• 15. Wykorzystanie technik symulacji komputerowej do
badania użyteczności omówionych metod.
5
schemat złożony z trzech bloków:
A B C,
gdzie
A:
ustalenia dotyczące badań wstępnych (określenie
tematyki badawczej i typu badań, dokonanie
wyboru obiektów i cech, które je opisują;
B:
utworzenie macierzy danych i jej analiza,
połączona z oczyszczeniem danych z grubych
błędów i elementów odstających od „głównego
trendu” oraz uzupełnieniem brakujących danych;
wyznaczenie struktury danych;
C:
synteza, wizualizacja, weryfikacja i interpretacja
praktyczna uzyskanych informacji.
Wspólny rdzeń statystyki matematycznej
i analizy danych w przypadku danych
wielowymiarowych:
6
Przykład z pracy: Chun Houh Chen, Generalized Assoctiation Plots: Information
Visualization
Via Iteratively Generated Correlation Matrices, Statistica
Sinica 12 (2002) 7-29
Przykład 0.
danych do
analizy:
Wybrane
symptomy
chorobowe
(
kilkaset cech
oraz ok. 1 tys.
pacj.
).
7
Klasyczny schemat
analizy danych
prowadzącej do
porządkowania
obiektów na
podstawie
utworzonego miernika
syntetycznego i
podziału badanego
zbioru na podzbiory -
ten schemat często
oznacza się symbolem
WAP
Schemat ten nie
obejmuje elementów
wstępnej danych – w
szczególności
elementów
odstających.
8
Przyjęliśmy, że cechy te odnoszą się do oddziałów pewnego banku, gdzie D1 –
D3 są to dochody poszczególnych dziedzin działalności z uwzględnieniem
kosztów transferu funduszy, K1 – K3 to kategorie kosztów działalności a W –
wynik ekonomiczny (finansowy) oddziału.
Przykład 1.
danych do
analizy:
Wyniki
oddziałów
pewnego
Banku
9
Przykład 2.
danych do
analizy:
Spożycie
produktów
żywnościowy
ch w kg w
ciągu roku w
Europie.
Problem:
DOKONAĆ
PODZIAŁU
KRAJÓW NA
PODOBNE
GRUPY
10
11
Przykład 3.
Wyniki 10 Banków.
Problem:
uporządkować pod względem atrakcyjności dla
inwestora i podzielić na 4 grupy
Na ćwiczeniach:
ustalimy które cechy są Stymulantami
destymulantami. oraz nominantami oraz przeprowadzimy
normowania tego zbioru danych oraz konstrukcję miernika
syntetycznego. Podział dopiero na kolejnych zajęciach.
12
Trudniejsze przykłady WAD.
• Wybór dostawcy oprogramowania wspomagającego
kompleksowo zarządzanie w firmie finansowej (banku,
towarzystwie ubezpieczeniowym)
• Wybór dostawcy konkretnego oprogramowania
realizującego postawione zadania przed pewnym
obszarem dużej firmy (np. Data Mining, Integracja
Danych, Bussines Intelligence, ERP itp.)
• Wybór kredytu konsumpcyjnego lub hipotecznego z
punktu widzenia interesu klienta
• Wybór Banku z którym wiążemy się na dłużej….
• Wybór portfela inwestycyjnego na GPW lub w innym
kraju
• Ranking Uczelni ….
13
Literatura
Borkowski B, Dudek H., Szczesny W. 2003: Ekonometria. Wybrane zagadnienia, PWN,
Warszawa.
Cun Houh Chen: Generalized Assoctiation Plots: Information Visualization Via Iteratively Generated
Correlation Matrices. Statistica Sinica 12 (2002), 7-29. (Dostępny w Internecie:
http://gap.stat.sinica.edu.tw/index.html
)
Charemza W., Deadman D. : Nowa Ekonometria, PWE 1997.
Kowalczyk T., Pleszczyńska E., Ruland F. (Eds), Grade Models and Methods for Data Analysis, Studies
in Fuzziness and Soft Computing No 151, Springer, Berlin-Heidelberg-New York 2004, 1-477.
Kukuła K.: Metoda unitaryzacji zerowej, PWN 2000.
Koronacki J., Ćwik J.: Statystyczne systemy uczące się. WNT Warszawa 2005.
Koronacki J., Mielniczuk J.: Statystyka dla kierunków technicznych i przyrodniczych WNT Warszawa
2001.
Malina A. [2004]; Wielowymiarowa analiza przestrzennego zróżnicowania struktury
gospodarki Polski według województw, AE, Seria Monografie nr 162, Kraków.
Młodak A.[2006]; Analiza taksonomiczna w statystyce regionalnej, Warszawa.
Mardia K. V. , Kent J. T., Bibby J.,M.: Mutlivariate Analysis, Academic Press, London, New York, Toronto
1979
Morison D. F.: Wielowymiarowa Analiza Statystyczna, PWN Warszawa 1990.
Ostasiewicz W (red): Statystyczne metody analizy danych. Wydawnictwo Akademii
Ekonomicznej im. Oskara Lanego we Wrocławiu, Wrocław 1999.
Szczesny W.: Grade correspondence analysis applied to contingency tables and questionnaire data.
Intelligent Data Analysis 6 (2002), No 1, 17-51.
Tadeusz Marek: Analiza skupień w badaniach empirycznych, M. Metody SAHN, PWN Warszawa 1989.
Zeliaś A. (red): Taksonomiczna analiza przestrzennego zróżnicowania poziomu życia w Polsce w ujęciu
dynamicznym, Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków 2000.
14
Typowe dylematy analityka danych i
współpracujących z nim przedstawicieli
IT:
(
występujące w centrali dużej instytucji
)
• jakie dane są potrzebne aby odpowiedzieć na
postawione pytanie i jak „mocne” należy przygotować
uzasadnienie do przygotowanej odpowiedzi;
• jak zdobyć i jak przygotować do analizy zdobyte dane;
• jakich narzędzi analitycznych użyć do zebranych
danych;
• przy
pomocy
jakich
narzędzi
(programów)
obliczeniowych zrealizować zadanie analityczne;
• jak szybko dokonać syntezy podstawowych informacji
zawartych w danych;
• jak w prosty sposób przekonać odbiorcę, że wnioski
przedstawione
przez
niego
wynikają
ze
zgromadzonego materiału liczbowego;