Eksploracja danych - Studia Informatyczne
/**/
/**/
Eksploracja danych
From Studia Informatyczne
Spis treści [schowaj]
1 Forma zajęć
2 Opis
3 Sylabus
3.1 Autorzy
3.2 Wymagania wstępne
3.3 Zawartość
3.4 Literatura
4 Moduły
4.1 Wykłady
4.2 Laboratoria
4.2.1 Materiały pomocnicze
4.2.2 Dodatkowe zasoby
if (window.showTocToggle) { var tocShowText = "pokaż"; var tocHideText = "schowaj"; showTocToggle(); }
[Edytuj] Forma zajęć
Wykład (30 godzin) + laboratorium (30 godzin)
[Edytuj] Opis
Rozwój technologii systemów baz danych, hurtowni danych oraz
repozytoriów danych, z jednej strony, z drugiej, upowszechnienie
systemów informatycznych w najróżniejszych dziedzinach zastosowań,
takich jak: administracja, przemysł, bankowość, handel, nauka, itp.,
wreszcie, powszechność korzystania z sieci WWW, jako globalnego systemu
informatycznego, spowodowało nagromadzenie olbrzymich wolumenów danych i
informacji. Ta eksplozja gromadzonych i przetwarzanych danych
spowodowała, że śtoniemy” w gromadzonych danych. Ta powódź danych i
potrzeba wydobycia z tych danych użytecznej wiedzy legła u podstaw
rozwoju technologii eksploracji danych, obejmującej metody i algorytmy
automatycznej analizy i eksploracji danych. Celem wykładu jest
zapoznanie studentów z podstawowymi pojęciami, metodami i algorytmami
technologii eksploracji danych. Wykład jest ilustrowany licznymi
przykładami zastosowań prezentowanych metod i algorytmów, oraz
ćwiczeniami laboratoryjnymi.
[Edytuj] Sylabus
[Edytuj] Autorzy
Kurs został przygotowany przez zespół pracowników Instytutu
Informatyki Politechniki Poznańskiej pod kierunkiem prof. dr. hab. inż.
Tadeusza Morzego, w składzie:
prof. dr hab. inż. Tadeusz Morzy
dr inż. Mikołaj Morzy
mgr inż. Anna Leśniewska
[Edytuj] Wymagania wstępne
Podstawowe wiadomości z zakresu systemów baz danych, magazynów danych oraz analizy danych.
[Edytuj] Zawartość
Wykłady:
Kurs rozpoczyna się wprowadzeniem do tematu eksploracji danych.
(2 godz.)Omówione zostały tutaj podstawowe zagadnienia związane z
dziedziną eksploracji danych, przedstawiono główne kierunki rozwoju oraz
metody eksploracji danych, jak również możliwości zastosowań w świecie
rzeczywistym.
Drugi moduł kursu poświęcony jest problematyce związanej z
odkrywaniem asocjacji. (7 godz.) W ramach tej części kursu zostały
przedstawione następujące zagadnienia: wprowadzenie do problematyki
odkrywania asocjacji, sformułowanie problemu, typy reguł asocjacyjnych,
podstawowe algorytmy odkrywania binarnych reguł asocjacyjnych - algorytm
A-Priori oraz algorytm FP-Growth, wielopoziomowe i wielowymiarowe
reguły asocjacyjne, korelacje vs asocjacje.
Trzeci moduł kursu jest poświęcony odkrywaniu wzorców
sekwencji. (4 godz.) Moduł porusza następujące zagadnienia:
sformułowanie problemu odkrywania wzorców sekwencji, podstawowe
algorytmy - algorytm GSP oraz algorytm PrefixSpan, odkrywanie wzorców
sekwencji z ograniczeniami, uogólnione wzorce sekwencji.
Czwarty moduł poświęcony jest problematyce klasyfikacji. (6
godz.) W module przedstawiono następujące zagadnienia: sformułowanie
problemu klasyfikacji, metody klasyfikacji, kryteria oceny metod
klasyfikaji, kryteria podziału - Indeks Gini oraz Zysk Informacyjny,
obcinanie drzewa, naiwny klasyfikator Bayes'a, kNN, dokładnośc
klasyfikacji.
Piąty moduł poświęcony jest tematyce grupowania. (4 godz.) W
tej cześci kursu omówione zostały następujące zagadnienia: wprowadzenie
do problemu grupowania, klasyfikacja metod grupowania, metody grupowania
hierarchicznego, metody grupowania iteracyjno-optymalizacyjne,
podstawowe algorytmy grupowania - algorytm k-średnich oraz algorytm
k-medoidów.
Szósty moduł poświęcony jest eksploracji tekstu. (4 godz.)
Omówione zostały tutaj następujące zagadnienia: wprowadzenie do problemu
eksploracji tekstu, wyszukiwanie dokumentów, reprezentacje tekstu,
ukryte indeksowanie semantyczne SVD, struktury danych.
Ostatni moduł porusza tematykę eksploracji sieci Web. (3
godz.) Przedstawiono tutaj zagadnienia związane z klasyfikacją metod,
podstawowe algorytmy rankingu stron - algorytm PageRank oraz
Hubs&Authorities, eksploracja logów.
Laboratoria:
Laboratorium ma na celu zaznajomienie studentów z nowoczesnymi
technologiami eksploracji danych. Głównym zadaniem laboratorium jest
ilustracja zagadnień przedstawianych podczas wykładu. W trakcie
laboratorium studenci zapoznają się z komercyjnym systemem eksploracji
na przykładzie Oracle Data Mining i implementują wybrane algorytmy
eksploracji danych przy użyciu języka PL/SQL.
Moduł pierwszy poświęcony jest procesowi przygotowaniu danych,
które mają zostać poddane procesowi eksploracji. (3 godz.) Omówione
zostały tutaj zagadnienia związane z wstępnym przetwarzaniem danych,
takie jak dyskretyzacja, normalizacja, identyfikacja osobliwości.
Moduł drugi związany jest z dalszym etapem przetwarzania
danych i przedstawia dostępne metody określania ważności atrybutów (2
godz.).
Moduł trzeci rozpoczyna cykl kursu ilustrujący wykorzystanie
metod eksploracji danych. (3 godz.) Przedstawiono tutaj podstawowe
metody i algorytmy odkrywania reguł asocjacyjnych.
Moduł czwarty poświęcony jest tematyce ekstrakcji cech. (2
godz.) Student zapoznaje się z tematyką odkrywania cech z wykorzystaniem
algorytmu Non-Negative Matrix Factorization.
Moduł piąty przedstawia problematykę klasyfikacji. (9 godz.)
Przedstawiono tutaj następujące techniki klasyfikacji: naiwny
klasyfikator Bayesa, adaptatywna sieć Bayesa, indukcja drzew
decyzyjnych, algorytm Support Vector Machines.
Kolejny moduł prezentuje techniki związane z problematyką
analizy skupień. (4 godz.) Przedstawiono tutaj metody grupowania z
wykorzystaniem algorytmów k-średnich (k-Means) oraz algorytmu O-Cluster.
Moduł siódmy poświęcony jest tematyce regresji oraz wykrywaniu
anomalii. (2 godz.) W ramach tego modułu przedstawiono metodę regresji z
wykorzystaniem algorytmu One-Class-SVM.
Moduł ósmy poświęcony jest problematyce odkrywania osobliwości
(ang. outliers). (2 godz.) W ramach laboratorium przeprowadzono
ćwiczenie z wykorzystaniem algorytmu SVM.
Ostatni moduł przybliża tematykę eksploracji danych
tekstowych. (3 godz.) Moduł ten ilustruje w pierwszej części kroki
wstępne niezbędne do przetwarzania tekstu w środowisku SQL, oraz za
pomocą narzędzia Oracle Data Miner, jak i wykorzystanie narzędzia ODM
bezpośrednio do eksploracji danych tekstowych.
[Edytuj] Literatura
Data Mining: Concepts and Techniques, J. Han, M. Kamber, Morgan Kaufman, 2000
Data Mining: Practical Machine Learning Tools and Techniques
with Java Implementations, I. H. Witten, E. Frank, Morgan Kaufman, 2000
Pricinciples of Data Mining, J. Hand, H. Mannila, P. Smyth, MIT Press, 2001
Systemy uczące się, P. Cichosz, WNT, 2000
Odkrywanie asocjacji: Algorytmy i struktury danych, T. Morzy, OWN, 2004
[Edytuj] Moduły
[Edytuj] Wykłady
Wprowadzenie WIKI, PDFk, PDF, TEST, FLASH
Odkrywanie asocjacji WIKI, PDFk, PDF, TEST, FLASH
Algorytmy odkrywania binarnych reguł asocjacyjnych WIKI, PDFk, PDF, TEST, FLASH
Wielopoziomowe i wielowymiarowe reguły asocjacyjne WIKI, PDFk, PDF, TEST, FLASH
Odkrywanie wzorców sekwencji I WIKI, PDFk, PDF, TEST, FLASH
Odkrywanie wzorców sekwencji II WIKI, PDFk, PDF, TEST, FLASH
Klasyfikacja I WIKI, PDFk, PDF, TEST, FLASH
Klasyfikacja II WIKI, PDFk, PDF, TEST, FLASH
Klasyfikacja III WIKI, PDFk, PDF, TEST, FLASH
Grupowanie I, WIKI, PDFk, PDF, TEST, FLASH
Grupowanie II, WIKI, PDFk, PDF, TEST, FLASH
Eksploracja tekstu I, WIKI, PDFk, PDF, TEST, FLASH
Eksploracja tekstu II WIKI, PDFk, PDF, TEST, FLASH
Eksploracja sieci Web WIKI, PDFk, PDF, TEST, FLASH
[Edytuj]Laboratoria
Przygotowanie danych do eksploacji DOC, PDFk, PDF, WIKI
Określanie ważności atrybutów DOC, PDFk, PDF, WIKI
Odkrywanie reguł asocjacyjnych DOC, PDFk, PDF, WIKI
Naiwny klasyfikator Bayesa DOC, PDFk, PDF, WIKI
Adaptywna sieć Bayesa DOC, PDFk, PDF, WIKI
Indukcja drzew decyzyjnych DOC, PDFk, PDF, WIKI
Support Vector Machine (klasyfikacja) DOC, PDFk, PDF, WIKI
Grupowanie (K-Means) DOC, PDFk, PDF, WIKI
Grupowanie (O-Cluster) DOC, PDFk, PDF, WIKI
Odkrywanie cech i algorytm Non-Negative Matrix Factorization DOC, PDFk, PDF, WIKI
Regresja SVM DOC, PDFk, PDF, WIKI
Odkrywanie osobliwości DOC, PDFk, PDF, WIKI
Eksploracja danych tekstowych DOC, PDFk, PDF, WIKI
[Edytuj]Materiały pomocnicze
Przygotowanie danych
Odkrywanie reguł asocjacyjnych
Odkrywanie cech - algorytm Non-Negative Matrix Factorization
Regresja - algorytm SVM
Klasyfikacja - algorytm SVM
[Edytuj]Dodatkowe zasoby
GnuPlot
Źródło: "http://wazniak.mimuw.edu.pl/index.php?title=Eksploracja_danych"
if (window.isMSIE55) fixalpha();
Nawigacja
Strona główna
Przedmioty
Uczelnie
O nas
MIMINF
MIMMAT
Szukaj
Napisz do nas
maruda@mimuw.edu.pl
Tę stronę ostatnio zmodyfikowano o 11:54, 10 wrz 2006; Tę stronę obejrzano 76860 razy; O Wikipedii Disclaimers
_uacct = "UA-321791-4";
urchinTracker();
Wyszukiwarka
Podobne podstrony:
GKIW Moduł 5 Reprezentacja przestrzeni trójwymiarowej na płaszczyźnie Studia InformatyczneModul 9(Eksploracja danych)Gliniecki W Ochrona danych osobowych i informacji niejawnychBezpieczeństwo danych w systemach informatycznych baz logistycznychSerwer SQL 2008 Usługi biznesowe Analiza i eksploracja danychBazy danych i systemy informacyjne (2)Istota i struktury hurtowni danych Zasady eksploracji danychUstawa o udostępnianiu informacji gospodarczych i wymianie danych gospodarczychinformatyka mysql mechanizmy wewnetrzne bazy danych sasha pachev ebookklasyfikacja informacji i danych chronionychTECHNOLOGIA INFORMACYJNA bazy danychwięcej podobnych podstron