01 Wykład1


DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Wykład 1
Wstęp do data mining
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Struktura wykładu:
" Wstęp  czym jest data mining?
" Dane w procesach data mining
" Metodologia SEMMA
" Business Intelligence
" Text mining
2
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Czym jest data mining?
Data mining is the process of discovering meaningful new correlations,
pattern and trends by through large amounts of data stored in
repositories, using pattern recognition technologies as well as
statistical and mathematical techniques.
Data mining  proces  drążenia danych , służący uzyskaniu
maksimum istotnych informacji z danych umożliwiających szybkie
podejmowanie wiarygodnych i efektywnych decyzji.
Data mining - proces eksploracji, modelowania i analizy danych
mający na celu znalezienie istotnych reguł i zależności.
Data mining to analiza zazwyczaj dużych, wcześniej zgromadzonych
zbiorów danych w celu odkrycia nowych prawidłowości i opisania
danych w nowy sposób, który jest zrozumiały i użyteczny dla
właściciela danych.
3
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Interdyscyplinarność data mining
Data mining łączy w sobie i wykorzystuje metody i pojęcia stosowane
w różnych dziedzinach nauki, takich jak:
" Statystyka
" Sztuczna inteligencja
" Bazy danych
" Rozpoznawanie wzorców
" Sieci neuronowe
" Maszynowe uczenie się
Data mining  interdyscyplinarne podejście wykorzystujące techniki
uczenia maszynowego, rozpoznawania obrazów, statystyki, baz
danych oraz wizualizacji w celu wydobycia informacji z dużych baz
danych.
4
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
The Cross-Industry Standard Process for Data Mining (CRISP-DM)
Sześć faz CRISP-DM:
1. Zrozumienie problemu biznesowego (Business understanding
phase)  określenie celów projektu, wyrażenie ich w języku problemów
data mining, określenie wstępnej strategii osiągnięcia tych celów.
2. Poznanie danych (Data understanding phase)  zbieranie danych,
wykorzystanie prostych metod analizy danych do zapoznania się
z danymi, ocena jakości danych, ewentualne wstępne określenie
podzbiorów danych, które mogą zawierać informacje prowadzące
do ważnych prawidłowości.
3. Przygotowanie danych (Data preparation phase)  przygotowanie
wstępnego oraz ostatecznego zbioru danych, wybór zmiennych
i obiektów do analizy, ewentualna analiza niektórych zmiennych,
czyszczenie danych.
5
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
The Cross-Industry Standard Process for Data Mining (CRISP-DM)
4. Modelowanie (Modeling phase)  wybór technik modelowania,
budowa modelu.
5. Ocena (Evaluation phase)  ocena zbudowanych modeli pod względem
poziomu dopasowania, efektywności, interpretowalności, użyteczności
w realizacji celów projektu; określenie elementów, których znaczenie
nie zostało uwzględnione, wstępne określenie możliwości wdrożenia
wyników w praktyce.
6. Wdrożenie (Deployment phase)  przygotowanie raportu, wykorzystanie
modeli, zastosowanie modelu do podobnego zagadnienia lub innych
obiektów, ocena efektów biznesowych.
6
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
The Cross-Industry Standard Process for Data Mining (CRISP-DM)
Business/Research Data understanding
understanding phase phase
Deployment phase
Data preparation phase
Evaluation phase Modeling phase
7
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
CRISP-DM - przykład
Przykład 1
(D.T. Larose, Discovering Knowledge in Data: An Introduction to Data Mining, Wiley, New York 2005 )
Przewidywanie bankructwa firm za pomocą drzew decyzyjnych zgodnie
ze standardem postępowania CRISP-DM.
1. Zrozumienie problemu biznesowego
Ostatni ekonomiczny kryzys we wschodniej Azji skutkował dużą liczbą
bankructw w tym regionie i na całym świecie. Grupa uczonych z kilku
uniwersytetów postawiła sobie za cel zbudowanie modeli
przewidujących bankructwa firm, które maksymalizowałyby
interpretowalność wyników. Wymóg interpretowalności jest kluczowy,
oznacza bowiem, że prognoza bankructwa musi być poparta silnym
i logicznym uzasadnieniem. W tym przypadku model prognostyczny
typu czarna skrzynka nie jest wystarczający. Z tego powodu wybrano
drzewa decyzyjne jako metodę analityczną.
8
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
CRISP-DM - przykład
2. Analiza danych
Zbiór danych zawierał dane dla dwóch grup firm koreańskich: firm,
które zbankrutowały w okresie dobrej koniunktury lat 1991-1995 oraz
firm, które zbankrutowały w warunkach kryzysu ekonomicznego
1997-1998. Wybrano 29 firm głównie z sektora przedsiębiorstw
produkcyjnych. Dane finansowe zostały zebrane z koreańskiej giełdy
i zweryfikowane przez dwa banki.
3. Przygotowanie danych
Na podstawie literatury badacze wskazali na 56 potencjalnych
wskazników mierzących czynniki wpływające na bankructwo firmy,
16 z nich pominięto ze względu na ich nadmiarowość. Pozostawiono
zatem 40, wyrażających wielkości wzrostu, dochodowości,
zabezpieczeń/ zadłużeń, aktywności/efektywności i produktywności.
9
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
CRISP-DM  przykład c.d.
4. Modelowanie
Utworzono dwa modele drzew decyzyjnych osobno dla firm, które
zbankrutowały w okresie  stabilnym i kryzysu.
Otrzymano, że przepływ pieniędzy i produktywność kapitału są istotne
niezależnie od warunków ekonomicznych. Tylko pierwszy wskaznik jest
znany w teorii bankructw firm, zatem drugi wymaga dodatkowej
weryfikacji.
5. Ocena
Otrzymany rezultat dotyczący produktywności kapitału został
potwierdzony przez ekspertów.
Aby upewnić się, że model jest możliwy do wykorzystania sprawdzono
go na kontrolnej próbie firm, których dane nie były wykorzystane do
budowy modelu i które nie zbankrutowały.
6. Wdrożenie
Ten model nie został wdrożony  decyzja o zastosowaniu modelu
zależy od jego użytkownika.
10
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Zastosowania data mining
Biznes:
" Segmentacja klientów (credit scoring, churn)
" Zarządzanie relacjami z klientami
" Pozyskiwanie nowych klientów
" Określanie grup docelowych
" Aączenie ofert (cross-selling)
" Wykrywanie nadużyć
" Modelowanie odpowiedzi na kampanię marketingową.
Medycyna:
" Badanie podatności na określone choroby
" Badanie skuteczności leków
Internet:
" Rozpoznawanie SPAMu
Socjologia:
" Badanie opinii publicznej
11
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Przykłady
Przykład 2
Problem: Kierownictwo banku zauważa nasilenie problemu
niewypłacalności klientów, którym udzielono kredytu.
Cel: Minimalizacja strat w przyszłości.
Zadanie: Konstrukcja reguły decyzyjnej, pozwalającej ocenić ryzyko
niespłacenia kredytu przez pojedynczego klienta
(tzw. credit scoring).
Przykład 3
Problem: Kierownictwo firmy telekomunikacyjnej zauważa nasilenie
zjawiska rezygnacji klientów z jej usług.
Cel: Minimalizacja strat w przyszłości.
Zadanie: Konstrukcja reguły decyzyjnej, pozwalającej na identyfikację
klientów charakteryzujących się dużym prawdopodobieństwem
rezygnacji z usług firmy (tzw. churn).
12
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Konstrukcja reguły decyzyjnej
Dane Model Klienci
historyczne prognostyczny  ryzykowni
" Model budujemy w oparciu o dane historyczne dotyczące jednego
rodzaju produktu będącego przedmiotem naszego zainteresowania,
np. tylko kredyty hipoteczne.
" Korzystając z metod data mining dla każdego klienta wyznaczamy
prawdopodobieństwo (niespłacenia kredytu, odejścia).
" Wybieramy tzw. graniczną wartość prawdopodobieństwa, w oparciu
o którą podejmujemy decyzję co do konkretnego klienta.
13
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Dwa nurty data mining
Data mining
Skierowany Nieskierowany
Umożliwia on redukcję rozmiaru Służy do eksploracji danych w celu
badanego problemu, ponieważ szuka uzyskania interesujących i istotnych
odpowiedzi na postawione konkretnie informacji z danych, a nie szukania
pytania. odpowiedzi na konkretnie pytania.
Np. Np.
Którzy klienci charakteryzują się wysokim Czy można zauważyć segmentację
ryzykiem niespłacenia kredytu? wśród klientów firmy?
Którzy klienci charakteryzują się wysokim Czy można zauważyć segmentację
prawdopodobieństwem rezygnacji z usług wśród produktów firmy?
firmy?
14
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Dwa nurty data mining
Data mining
Modelowanie predykcyjne Rozpoznawanie wzorców
" Drzewa decyzyjne " Statystyka opisowa
" Regresja " Analiza skupień
" Sieci neuronowe " Analiza asocjacji i sekwencjii
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Dane w procesach data mining
" yródła i rodzaje danych
" Jakość danych
" Próbkowanie
" Podział zbiorów
16
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
yródła i rodzaje danych
" Urzędy statystyczne  dane ze spisów powszechnych
" Banki  dane osobowe klientów, transakcje, dostępne debety, salda,
wielkości kredytów
" Firmy telekomunikacyjne  dane osobowe klientów, wielkości
rachunków, godziny rozmów, czas trwania rozmów, wybrane numery
" Firmy obsługujące karty kredytowe  data i czas transakcji, kwoty
obciążenia
" Firmy kurierskie  kody pocztowe, czas przyjęcia przesyłki
17
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Jakość danych
Dane:
" powinny być indywidualne - jeden wiersz odpowiada jednemu
obiektowi należącemu do badanej populacji
" powinny być w postaci płaskiej tabeli lub widoku
" powinny być możliwie najczystsze
" powinny być najnowsze dostępne z odpowiednio długiego okresu
Kolumny (zmienne):
" dzielimy na zmienne wejściowe (objaśniające) i zmienne celu
(objaśniane)
" powinny zawierać informacje istotne dla problemu, który rozważamy
" zawierające taką samą wartość dla prawie wszystkich obserwacji
(rekordów) powinny być usunięte
" objaśniane powinny być jednoznacznie określone (usuwamy kolumny
do nich synonimiczne), nie powinny zawierać braków danych
18
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Jakość danych
Dane do procesów data mining są najczęściej olbrzymich rozmiarów
i mogą pochodzić z różnych zródeł. Dlatego istotne jest, aby dane
były odpowiedniej jakości, były zgodne i w miarę aktualne.
Podstawowe problemy związane z danymi dotyczą:
" braków danych (puste wartości  niosą ze sobą pewną informację,
nieistniejące wartości)
" niejednoznaczności formatu danych (w każdej kolumnie musi istnieć
jeden, unikalny format zapisu danych)
" wartości nieprawidłowych
Poprawy jakości danych dokonujemy w procesie ich czyszczenia.
19
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Braki danych
Występowanie braków stanowi problem dla wszystkich metod
modelowania z wyjątkiem drzew decyzyjnych.
Proces uzupełniania braków danych należy rozpocząć od sprawdzenia,
ile zmiennych i jakie zmienne zawierają niekompletne informacje.
Można próbować brakujące dane uzupełnić przy użyciu tzw. wiedzy
eksperckiej, np. biznesowej.
Najczęściej stosowane zautomatyzowane metody uzupełniania braków
danych :
" zastępowanie stałą wartością;
" zastępowanie średnią, medianą (zmienne ciągłe) lub najczęściej
występującą wartością (zmienne dyskretne)
" zastępowanie wartością wylosowaną z rozkładu danej zmiennej
" uzupełnianie na podstawie wartości innych zmiennych dla
określonej obserwacji (wymaga budowy modelu drzewa
decyzyjnego)
20
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Ilość danych
Proces data mining wymaga danych historycznych z odpowiednio
długiego okresu czasu.
Dostępna ogromna ilość danych  setki tysięcy wierszy
(obserwacji) oraz setki, a nawet tysiące kolumn (zmiennych)
Zbyt wiele zmiennych preselekcja zmiennych, agregacje,
kombinacje zmiennych,
transformacje liniowe
i nieliniowe zbioru danych
Zbyt wiele obserwacji próbkowanie
21
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Preselekcja zmiennych
Wybrane metody wstępnej selekcji
zmiennych
Wnioskowanie statystyczne:
" Kryterium R-kwadrat
" Kryterium chi-kwadrat
Metody modelowania:
22
" Drzewa decyzyjne
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Próbkowanie
Próbkowanie jest procesem wybierania podzbioru z danego zbioru.
Próbkowanie stosujemy, gdy:
" nie możemy analizować wszystkich posiadanych danych;
" chcemy podzielić zbiór na kilka części.
23
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Schematy próbkowania
Losowanie bez zwracania (zależne)  każdy wylosowany do próbki
element nie jest już brany pod uwagę w kolejnym losowaniu, a wybór
kolejnych elementów zależy od rezultatów wcześniejszego losowania.
Losowanie systematyczne  polega na wyborze z uporządkowanego
zbioru elementów odpowiedniej liczby jednostek w równych
odstępach, tj. do próbki jest wybierany co n-ty element
Wzięcie do próbki N  pierwszych obserwacji
24
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Schematy próbkowania
Losowanie warstwowe
Przed przystąpieniem do losowania są tworzone warstwy:
" każdy element populacji jest zaliczony do jednej i tylko jednej
warstwy;
" nie ma elementów pozostających poza warstwami;
" jednostki w danej warstwie muszą być jak najbardziej podobne;
" warstwy mają jak najbardziej różnić się między sobą.
Losowania określonej liczby elementów dokonuje się z każdej warstwy
w sposób niezależny.
Próbę stanowią elementy wylosowane ze wszystkich warstw.
25
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Schematy próbkowania
Losowanie warstwowe proporcjonalne  dzielimy zbiór na warstwy
i próbkujemy z każdej warstwy według określonego schematu.
Aby próba była reprezentacyjna dla całego zbioru, rozmiar próbki
w każdej warstwie powinien być proporcjonalny do jej liczności.
26
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Schematy próbkowania
Losowanie warstwowe stosujemy, kiedy warstw jest niewiele, a istnieją
istotne różnice w ich liczebnościach. Wówczas taki schemat
losowania umożliwia otrzymanie próbki lepiej reprezentującej dany
zbiór.
Jeśli warstwy interesujące nas pod kątem danego zawiaska są małe
w porównaniu z pozostałymi stosuje się tzw. przepróbkowanie
(oversampling)  losując tak samo dużą próbę z każdej warstwy,
niezależnie od jej rozmiaru. Taki schemat losowania stosujemy przy
analizach typu credit scoring lub przy badaniu zjawiska churn.
27
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Podział zbiorów w analizach data mining
Istotnym elementem analiz data mining jest testowanie skuteczności
otrzymanych modeli. W tym celu dokonujemy podziału badanego
zbioru (próby) na trzy części.
Zbiór
wejściowy
Zbiór uczący Zbiór walidacyjny Zbiór testowy
(treningowy)
28
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Podział zbiorów w analizach data mining
" Zbiór uczący (treningowy)  służy do  nauczenia modelu, czyli
znalezienia szukanej zależności panujące w zbiorze, w celu
stworzenia modelu opisującego dane (około 50% całego zbioru).
" Zbiór walidacyjny  część zbioru służąca do porównania
skuteczności otrzymanych modeli (około 25% całego zbioru).
" Zbiór testowy  część zbioru służąca do ostatecznej oceny
skuteczności modelu, który najlepiej wypadł w części porównawczej
(około 25% całego zbioru).
29
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Trening, walidacja i test modeli
" W przypadku braku możliwości wyboru jednego z kilku modeli,
skuteczność modelu może być sprawdzana tylko na próbie
walidacyjnej. Najczęściej stosowany wówczas podział to:
67% dla próby trenującej i 33% dla próby walidacyjnej.
" Testowanie skuteczności modelu na danych, które służą do jego
 uczenia sztucznie zawyża jakość modelu.
30
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Metodologia SEMMA
Proces analizy danych składa się z kilku etapów:
" Próbkowanie SAMPLE
" Eksploracja danych EXPLORE
" Modyfikacja danych MODIFY
" Budowa modelu MODEL
" Ocena skuteczności i jakości modelu ASSESS
Pięć przedstawionych etapów składa się na metodologię SEMMA,
zgodnie z którą zbudowane jest środowisko analityczne SAS
Enterprise Miner.
31
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Business Intelligence
Zarządzanie firmą
Podejmowanie decyzji
Na podstawie informacji uzyskanych
Na podstawie własnego
z posiadanych zasobów danych
doświadczenia i intuicji.
 business intelligence.
" Business intelligence (BI) to system dostarczania właściwych
informacji właściwym osobom we właściwym czasie, aby
wspomagać procesy podejmowania decyzji przez analizę danych
i w efekcie uzyskać przewagę konkurencyjną.
32
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Business Intelligence
Data Mining Statystyka
Business Intelligence
33
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Business Intelligence
Business Intelligence is a broad category of applications and
technologies for gathering, storing, analyzing, and providing access
to data to help enterprise users make better business decisions.
BI applications include the activities of decision support systems,
query and reporting, online analytical processing (OLAP), statistical
analysis, forecasting, and data mining.
Business Intelligence  obszerna grupa aplikacji i technologii, których
celem jest gromadzenie, analiza i udostępnianie danych
w celu umożliwiania podejmowania lepszych decyzji biznesowych.
34
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Business Intelligence  hurtownie danych
" Zasobem danych, służącym podejmowaniu decyzji w systemach BI, jest
zdefiniowana uprzednio hurtownia danych.
Hurtownia danych (data warehouse)  zbiór danych, w którym niezależnie,
zorientowane tematycznie dane są przechowywane z oznaczeniem
czasu ich wprowadzenia, a dane wprowadzone wcześniej nie mogą
podlegać żadnym modyfikacjom. Dane w hurtowni są przechowywane
w postaci przetworzonej i przygotowanej na potrzeby raportów i analiz.
Własności hurtowni danych:
" zorientowanie tematycznie
" zintegrowanie
" niezmienniczość
" wielowersyjność czasowa
35
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Funkcjonalność rozwiązań BI
Business Intelligence jest to system informatyczny, który:
" zapewnia integrację danych za pomocą szerokiego zestawu
rozwiązań technologicznych;
" umożliwia składowanie dużych wolumenów danych w sposób
pozwalający na szybkie wykonanie pożądanych analiz i zapytań
ad hoc;
" dostarcza mechanizmów przetwarzania danych, aby realizować
zaawansowane analizy;
" umożliwia udzielanie odpowiedzi na zapytania, generowanie
raportów oraz prezentację informacji w sposób przyjazny dla
użytkownika.
36
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Funkcjonalności rozwiązań BI
Narzędzia hurtowni danych (Data warehouse Tools)
" Dostęp do zródeł danych  dostęp do zewnętrznych zródeł danych, pozwalający
na budowanie hurtowni danych bez potrzeby korzystania z dodatkowych narzędzi.
" Zarządzanie procesami ETL (Extract, Transform, Load)  pobieranie danych
z systemów zródłowych, ich transformacja (przekształcanie) i umieszczanie
w hurtowniach.
" Point & click interface  interfejs użytkownika, umożliwiający łatwe definiowanie
procesów przetwarzania danych i zarządzania nimi.
Raportowanie (Business Intelligence in general)
" Raportowanie operacyjne  wspiera działania na poziomie transakcyjnym i pomaga
w podejmowaniu bieżących decyzji.
" Raportowanie OLAP  zapewnia szybki dostęp do danych zorganizowanych
w kostkach OLAP.
" Raportowanie oparte na przeglądarce internetowej  dostęp do raportów z poziomu
przeglądarki internetowej
" Powiązane raporty  funkcjonalność pozwalającą na spójny i zintegrowany wgląd
w informacje.
" Analizy w raportowaniu  możliwość użycia w raportach podstawowych statystyk
opisowych.
37
" Wsparcie dla portali  możliwość udostępniania informacji przez portale.
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Funkcjonalność rozwiązań BI
Analityka (Analytics)
" Analizy opisowe  możliwość tworzenia różnorodnych analiz statystycznych.
" Eksploracja danych  pobieranie przydatnych informacji z dużych zbiorów
danych.
" Prognozowanie  możliwość budowania modeli prognostycznych.
Zarządzanie efektywnością (Performance Management)
" Pozafinansowe KPI (Key Performance Indicator)  śledzenie pozafinansowych
kluczowych wskazników efektywności.
" Finansowe KPI  śledzenie finansowych kluczowych wskazników efektywności.
" Branżowe KPI  śledzenie predefiniowanych kluczowych wskazników
efektywności określonych dla konkretnej branży.
Platforma BI (Platform Tools)
" Zintegrowane metadane  możliwość posługiwania się informacjami opartymi
na metadanych.
" Dwukierunkowy wpływ  wpływ wszelkich zmian w modelu biznesowym na
proces ETL.
" Wspólne reguły bezpieczeństwa  proste i przejrzyste reguły bezpieczeństwa,
określane dla całej platformy, pozwalające na efektywne zarządzanie.
38
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Czym jest text mining?
Text mining (also known as text data mining and knowledge discovery
in textual data-bases) is the process of deriving novel information
from a collection of texts (also known as a corpus). Novel
information is meaning as associations, hypotheses, or trends that
are not explicitly present in the text source being analyzed.
So what does text mining do? On most basic level, it numericalizes
an unstructured text document and then, using data mining tools
and techniques from them.
Text mining  proces mający na celu wydobycie z zasobów
tekstowych nieznanych wcześniej informacji
Text mining  proces automatycznego uzyskiwania znaczącej
i przydatnej wiedzy zawartej w dokumentach tekstowych.
39
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Text mining
Stały i szybki wzrost informacji w większości zapisanej w postaci
dokumentów w języku naturalnym:
" publikacje książek, artykułów prasowych, artykułów naukowych;
" prowadzenie dokumentacji w postaci elektronicznej w firmach,
różnego rodzaju instytucjach;
" tekst zapisany na stronach internetowych.
Text mining - wyszukanie wzorców w tekście zapisanym w języku
naturalnym.
Dziedziny, w których wykorzystywany jest text mining:
" marketing;
" bezpieczeństwo narodowe;
" medycyna;
" public relations.
40
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Zastosowania text mining
Pozyskiwanie informacji z dokumentów
Mechanizm pozyskiwania informacji bazuje głównie na próbie
dopasowania do poszczególnych fragmentów tekstu wzorców
określających rodzaj poszukiwanych treści. Najprostszym typem
wzorców jest zbiór słów kluczowych. Uzyskane w ten sposób
informacje po przetworzeniu mogą być umieszczane w klasycznych
bazach danych i podlegać dalszemu przetwarzaniu.
Identyfikacja wiadomości zawierających określone treści
Taka analiza ma za zadanie stworzenie systemu monitorującego dużą
liczbę dokumentów w celu identyfikacji tych, które mogą być istotne
z punktu widzenia zdefiniowanego i przyjętego kryterium.
Automatyzujemy jedynie proces wybierania dokumentów, ich analiza
jest dokonywana przez człowieka.
41
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Zastosowania text mining
Generowanie streszczeń
Automatyczny system generowania streszczeń, ma na celu
pozyskanie z dokumentu najistotniejszych faktów i ich wyrażeniu
za pomocą poprawnie sformułowanych zdań w języku naturalnym.
Klasyfikacja wzorcowa
Polega na analizie zbioru dokumentów i przypisaniu każdego z nich,
na podstawie zawartych w nim informacji, do jednej z wcześniej
wyróżnionych klas.
Grupowanie
Polega na określeniu jednorodności zestawu dokumentów,
wydzieleniu grup dokumentów podobnych, określeniu zależności
między grupami oraz określeniu cech charakterystycznych dla
dokumentów należących do określonej grupy.
42
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Zastosowania text mining
Identyfikacja powiązań
Może dotyczyć wykrywania związków istniejących pomiędzy
informacjami pozyskanymi z dokumentów tekstowych.
Może być to również identyfikacja dokumentów powiązanych ze sobą
ze względu na zawarte w nich treści.
Wizualizacja
Umożliwia prostą interpretację wyników.
Generowanie odpowiedzi na pytania
Zagadnienie to dotyczy możliwości zrozumienia przez maszynę
pytania zadanego przez człowieka sformułowanego w języku
naturalnym  zagadnienia sztucznej inteligecji.
43
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Text mining
" Dokumenty papierowe dokumenty elektroniczne
" Nadanie struktury tekstowej bazy danych dostępnym zbiorom danych
tekstowych.
" Przygotowanie dokumentów poprzez ich transformację do plików
tekstowych o jednolitym sposobie kodowania znaków.
" Wstępne przetwarzanie  wyznaczanie istotnych cech, usunięcie
wyrazów nieistotnych.
" Analiza  wykrywanie związków między cechami zależnie od celu
analizy.
" Tworzenie charakterystyk dokumentów.
" Interpretacja wyników.
" Wykorzystanie zdobytej wiedzy w podejmowaniu decyzji i predykcji.
44
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Text mining, a data mining
" Text mining tak, jak data mining ma charakter interdyscyplinarny.
" Text mining tak, jak data mining, to proces służący odkryciu
nieznanych wcześniej prawidłowości przez eksploracje dużych
zbiorów danych.
" Podejście data miningu dotyczy analizy danych o ściśle określonej
strukturze, o wartościach wyrażonych na klasycznych skalach
pomiarowych.
" Podejście text miningu dotyczy analizy tekstu, a więc zasobu nie
mającego określonej struktury lub o strukturze określonej w sposób
nieprecyzyjny i dość dowolny.
45
DATA MINING  nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Dziękuję za uwagę !
46


Wyszukiwarka

Podobne podstrony:
01 wykład ped
01 Wykładid&78
krz 01 wyklad 5
01 Wykład 1
Pytania ZALICZENIE WYKŁADÓW Sem3 (22 01 2015)
Wykład 01
Wyklad 01 a Wstep
Wykład z Ch Organicznej 15 01 2013
WYKŁAD 01 WprowInzynSterowania [tryb zgodności]
1 292011 01 07 WIL Wyklad 14id?34
socjo wykład z 7 01
01 mechanika budowli wykład 01 wstep przypomnienie praca na przemieszczeniach

więcej podobnych podstron