Metody analizy danych

background image

1

Metody analizy

danych

Wiesław Szczesny

KATEDRA INFORMATYKI SGGW

tel. 0601 810 996

Wieslaw_Szczesny@SGGW.pl

background image

2

Warunki „zaliczenia”

przedmiotu:

• Zaliczenie ćwiczeń (

według wymagań prowadzącego

ćwiczenia

- czyli ogólnie rzecz biorąc weryfikacja

hipotezy H0(student nie opanował materiału)

na poziomie istotności 0.05- metodę weryfikacji ustala

prowadzący

)

• Pozytywna ocena przez prowadzącego ćwiczenia

pracy okresowej (

wykonana analiza na własnym zbiorze

danych rzeczywistych, dopuszcza się prace indywidualne lub
w grupach 1-3 osobowych

)

• Test sprawdzający wiedzę z przedmiotu obejmującą

zagadnienia omawiane na wykładzie i ćwiczeniach.

background image

3

Diagram ilustrujący graficznie zmiany w kierunkach badania

danych wielowymiarowych

background image

4

Program wykładu

Metody analizy danych

• 1. Zagadnienia wstępne. Schemat analizy danych

wielowymiarowych

(punkt ciężkości badań dawniej – dzisiaj)

.

• 2-9. Klasyczne metody analizy danych: wielowymiarowa

analiza porównawcza (WAP), analiza regresji, analiza

klasyfikacyjna (z nauczycielem i bez)

• 10-11 Wybrane informacje dotyczące metod: składowych

głównych, analizy odpowiedniości i analizy czynnikowej,

• 12-13. Wybrane informacje dotyczące niestandardowych

metod

analizy

danych:

GCCA

(

gradacyjna

analiza

odpowiedniości i skupień

), GAP (

Generalized Association Plots

),

wizualizacja

wyników

,

uzupełnianie

braków

danych

i

wyszukiwanie elementów odstających.

• 14. Studium przypadku:

porównanie wyników uzyskanych przy

wykorzystaniu klasycznych i nowo-proponowanych technik analizy

i wizualizacji danych wielowymiarowych oraz przegląd pakietów

komputerowych (komercyjnych i bezpłatnych dostępnych przez

Internet) pod tym kątem.

• 15. Wykorzystanie technik symulacji komputerowej do

badania użyteczności omówionych metod.

background image

5

schemat złożony z trzech bloków:

A B C,

gdzie

A:

ustalenia dotyczące badań wstępnych (określenie

tematyki badawczej i typu badań, dokonanie

wyboru obiektów i cech, które je opisują;

B:

utworzenie macierzy danych i jej analiza,

połączona z oczyszczeniem danych z grubych

błędów i elementów odstających od „głównego

trendu” oraz uzupełnieniem brakujących danych;

wyznaczenie struktury danych;

C:

synteza, wizualizacja, weryfikacja i interpretacja

praktyczna uzyskanych informacji.

Wspólny rdzeń statystyki matematycznej

i analizy danych w przypadku danych

wielowymiarowych:

background image

6

Przykład z pracy: Chun Houh Chen, Generalized Assoctiation Plots: Information
Visualization
Via Iteratively Generated Correlation Matrices, Statistica
Sinica 12 (2002) 7-29

Przykład 0.

danych do

analizy:

Wybrane

symptomy

chorobowe

(

kilkaset cech

oraz ok. 1 tys.

pacj.

).

background image

7

Klasyczny schemat

analizy danych

prowadzącej do

porządkowania

obiektów na

podstawie

utworzonego miernika

syntetycznego i

podziału badanego

zbioru na podzbiory -

ten schemat często

oznacza się symbolem

WAP

Schemat ten nie

obejmuje elementów

wstępnej danych – w

szczególności

elementów

odstających.

background image

8

Przyjęliśmy, że cechy te odnoszą się do oddziałów pewnego banku, gdzie D1 –

D3 są to dochody poszczególnych dziedzin działalności z uwzględnieniem
kosztów transferu funduszy, K1 – K3 to kategorie kosztów działalności a W –
wynik ekonomiczny (finansowy) oddziału.

Przykład 1.

danych do

analizy:

Wyniki

oddziałów

pewnego

Banku

background image

9

Przykład 2.

danych do

analizy:

Spożycie

produktów

żywnościowy

ch w kg w

ciągu roku w

Europie.

Problem:

DOKONAĆ

PODZIAŁU

KRAJÓW NA

PODOBNE

GRUPY

background image

10

background image

11

Przykład 3.

Wyniki 10 Banków.

Problem:

uporządkować pod względem atrakcyjności dla

inwestora i podzielić na 4 grupy

Na ćwiczeniach:

ustalimy które cechy są Stymulantami

destymulantami. oraz nominantami oraz przeprowadzimy

normowania tego zbioru danych oraz konstrukcję miernika

syntetycznego. Podział dopiero na kolejnych zajęciach.

background image

12

Trudniejsze przykłady WAD.

• Wybór dostawcy oprogramowania wspomagającego

kompleksowo zarządzanie w firmie finansowej (banku,

towarzystwie ubezpieczeniowym)

• Wybór dostawcy konkretnego oprogramowania

realizującego postawione zadania przed pewnym

obszarem dużej firmy (np. Data Mining, Integracja

Danych, Bussines Intelligence, ERP itp.)

• Wybór kredytu konsumpcyjnego lub hipotecznego z

punktu widzenia interesu klienta

• Wybór Banku z którym wiążemy się na dłużej….
• Wybór portfela inwestycyjnego na GPW lub w innym

kraju

• Ranking Uczelni ….

background image

13

Literatura

Borkowski B, Dudek H., Szczesny W. 2003: Ekonometria. Wybrane zagadnienia, PWN,

Warszawa.

Cun Houh Chen: Generalized Assoctiation Plots: Information Visualization Via Iteratively Generated

Correlation Matrices. Statistica Sinica 12 (2002), 7-29. (Dostępny w Internecie:

http://gap.stat.sinica.edu.tw/index.html

)

Charemza W., Deadman D. : Nowa Ekonometria, PWE 1997.
Kowalczyk T., Pleszczyńska E., Ruland F. (Eds), Grade Models and Methods for Data Analysis, Studies

in Fuzziness and Soft Computing No 151, Springer, Berlin-Heidelberg-New York 2004, 1-477.

Kukuła K.: Metoda unitaryzacji zerowej, PWN 2000.
Koronacki J., Ćwik J.: Statystyczne systemy uczące się. WNT Warszawa 2005.
Koronacki J., Mielniczuk J.: Statystyka dla kierunków technicznych i przyrodniczych WNT Warszawa

2001.

Malina A. [2004]; Wielowymiarowa analiza przestrzennego zróżnicowania struktury

gospodarki Polski według województw, AE, Seria Monografie nr 162, Kraków.

Młodak A.[2006]; Analiza taksonomiczna w statystyce regionalnej, Warszawa.
Mardia K. V. , Kent J. T., Bibby J.,M.: Mutlivariate Analysis, Academic Press, London, New York, Toronto

1979

Morison D. F.: Wielowymiarowa Analiza Statystyczna, PWN Warszawa 1990.

Ostasiewicz W (red): Statystyczne metody analizy danych. Wydawnictwo Akademii

Ekonomicznej im. Oskara Lanego we Wrocławiu, Wrocław 1999.

Szczesny W.: Grade correspondence analysis applied to contingency tables and questionnaire data.

Intelligent Data Analysis 6 (2002), No 1, 17-51.

Tadeusz Marek: Analiza skupień w badaniach empirycznych, M. Metody SAHN, PWN Warszawa 1989.
Zeliaś A. (red): Taksonomiczna analiza przestrzennego zróżnicowania poziomu życia w Polsce w ujęciu

dynamicznym, Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków 2000.

background image

14

Typowe dylematy analityka danych i

współpracujących z nim przedstawicieli

IT:

(

występujące w centrali dużej instytucji

)

• jakie dane są potrzebne aby odpowiedzieć na

postawione pytanie i jak „mocne” należy przygotować

uzasadnienie do przygotowanej odpowiedzi;

• jak zdobyć i jak przygotować do analizy zdobyte dane;
• jakich narzędzi analitycznych użyć do zebranych

danych;

• przy

pomocy

jakich

narzędzi

(programów)

obliczeniowych zrealizować zadanie analityczne;

• jak szybko dokonać syntezy podstawowych informacji

zawartych w danych;

• jak w prosty sposób przekonać odbiorcę, że wnioski

przedstawione

przez

niego

wynikają

ze

zgromadzonego materiału liczbowego;


Document Outline


Wyszukiwarka

Podobne podstrony:
Metody analizy danych
Braki danych, Informatyka SGGW, Semestr 4, Metody analizy danych
metody analizy danych dane ilosciowe
Wymagania pierwszego projektu, Informatyka SGGW, Semestr 4, Metody analizy danych
Prof Kukuła tekst HD, Informatyka SGGW, Semestr 4, Metody analizy danych
Informatyka-MAD Wszczesny, Informatyka SGGW, Semestr 4, Metody analizy danych, Wykład 1
1 Metody analizy danych w marketingu
Mikroekonometria Modele i metody analizy danych indywidualnych RedGruszczynski Marek
Baza danych upraszcza i przyspiesza analizę danych, Dokumenty do szkoły, przedszkola; inne, Metody,
Metody i techniki odkrywania wiedzy Narzedzia CAQDAS w procesie analizy danych jakosciowych e 0e7e
Analiza danych jakościowych SPSS metody badań geografii społeczno ekonomicznej
Metody i techniki odkrywania wiedzy Narzedzia CAQDAS w procesie analizy danych jakosciowych e
Metody i techniki odkrywania wiedzy Narzedzia CAQDAS w procesie analizy danych jakosciowych e 0e7e
Metody i techniki odkrywania wiedzy Narzedzia CAQDAS w procesie analizy danych jakosciowych

więcej podobnych podstron