Dr Jacek Bazarnik
jacek.bazarnik@uek.krakow.pl
Uniwersytet Ekonomiczny w Krakowie
Informatyka
w turystyce i rekreacji
(3)
CRM analityczny
Jacek Bazarnik
“Kluczem do biznesu jest wiedzieć to, czego nikt inny
nie wie.”
— Aristotle Onassis
Źródło: A. Mazur, K. Jaworska, D. Mazur, CRM Zarządzanie Kontaktami z klientami,
Madar, Zabrze
Moduły CRM
CRM analityczny
CRM analityczny - przechowuje, przechwytuje, przetwarza i
interpretuje dane o klientach, tworząc z nich raporty. Dane te
mogą być przechwytywane z wielu źródeł a przechowuje się je w
hurtowniach danych . Dane poddawane są skomplikowanym
analizom statystycznym, których wyniki pomagają zrozumieć
potrzeby i zachowania klientów, a wartością podstawą takiej
aplikacji jest zdolność
personalizacji analiz pod kątem
korzystającego z niej użytkownika.
ERP
Internet
Zastane
systemy
Pozyskiwanie
danych
Magazyn
danych
Zarządzanie danymi
przedsiębiorstwa
Magazyn danych
operacyjnych
Systemy operacyjne
Dostarcza
nie
danych
Magazyn danych
przeszukiwanych
Magazyn danych
analitycznych
Magazyn danych
zbiorczych
Zarządzanie meta danymi
Inne
Zewnętrzny
Data Mining
Raporty
Wizualizacja
Modele
CRM analityczny
Aplikacje analitycznego CRM dotyczą przygotowania,
wsparcia i optymalizacji wewnętrznych i zewnętrznych
procesów decyzyjnych zorientowanych na klienta.
W systemy te wkomponowane są specjalne moduły do analizowania
danych o klientach. W zależności od specyficznych funkcji moduły te
naszą różne nazwy:
Business Intelligence,
Customer Inteligence,
Customer Insight,
Data Mining,
Data Warehousing,
OLAP.
Business Intelligence
Termin ten odnosi się do umiejętności zbierania,
ekstrapolowania, interpretowania i analizowania
dużej ilości danych dotyczących klientów,
dostawców, rynków, procesów wewnętrznych
i środowiska biznesowego.
Business Intelligence obejmuje szerokie
spektrum technologii:
- narzędzia OLAP (On-Line Analytical Processing) -
oprogramowanie umożliwiające analizę wielowymiarową danych
biznesowych w czasie rzeczywistym,
- narzędzia eksploracji danych (Data miting) – algorytmy do
automatycznej analizy dużych wolumenów danych zarówno
ilościowych jak i jakościowych,
- narzędzia zarządzania wiedzą (Knowledge management) –
umożliwiające składowanie, indeksowanie, i analize dokumentów
tekstowych oraz powiązanie ich z innymi danymi
- narzędzia zarządzania danymi (Data Warehousing) -
umożliwiają ujednolicenie, uporządkowanie i powiązanie danych
zgromadzonych z różnorodnych systemów informatycznych
przedsiębiorstwa
Technologia OLAP –
On Line Analilytical Processing
(Systemy Analitycznego Przetwarzania na Bie
żą
co)
Wykorzystywana ona jest do wspierania
bardziej zaawansowanych systemów typu
SIK oraz systemów wspomagania decyzji.
Systemy tego typu wymagają bardzo
szybkiego dostępu do wielkich i coraz
większych zbiorów danych
Hurtownie danych
(Data Warehouse)
Hurtownie danych, w sensie strukturalnym i funkcjonalnym,
to na ogół wielowymiarowe, dedukcyjne bazy danych.
Gromadzone dane mają często charakter wirtualny a ich
struktury zaprojektowano tak aby możliwe było
zaspakajanie już zdefiniowanych lub potencjalnych
potrzeb informacyjnych użytkowników.
Dzięki temu możliwe jest udostępnianie wymaganej
informacji natychmiast, tj. w ciągu kilku sekund, oraz
prowadzenie złożonych analiz i symulacji typu „co jeśli”.
Technologia exploracji danych
(Data Mining)
Stosowana ona jest do odkrywania (wydobywania) i
udostępniania użytkownikom uogólnionych reguł i
wiedzy zawartych w bardzo dużych bazach danych. W
tej metodzie nie poszukuje się określonych
elementarnych informacji, ale zadaje pytanie, czy w
zgromadzonych danych występują jakieś korelacje oraz
trendy i jakie one są
Szczególnie istotne w tej technologii jest to, że programy
realizujące te funkcje działają autonomicznie i operują
na zawartości baz wiedzy oraz, że poszukują korelacji
pomiędzy wartościami określonych atrybutów oraz
wskazują atrybuty pomiędzy którymi zachodzą jakieś
korelacje.
Segmentacja i klasyfikowanie klientów.
Na przykład może pomóc sklasyfikować klientów w następujących
segmentach:
Klienci, którzy mają podobne zachowania zakupowe (co do
częstości, wielkości i struktury zakupów)
Klienci, którzy reagują na nowe promocje,
Klienci, którzy reagują na wprowadzenie na rynek nowych
produktów,
Klienci, którzy reagują na obniżki,
Klienci, którzy okazują skłonność do kupowania specyficznych
produktów.
Business Intelligence
Analiza skuteczności kampanii promocyjnej
Analiza skuteczności kampanii promocyjnej może dawać
odpowiedzi na pytania takie jak:
Które kanały medialne odniosły największy sukces w przeszłości
dla różnych kampanii?
Które lokalizacje geograficzne dobrze zareagowały na
poszczególne kampanie?
Jakie były względne koszty i korzyści z tej kampanii?
Które segmenty klientów zareagowały na kampanię?
Business Intelligence
Sprzedaż krzyżowa (cross-selling):
Detaliści dzięki analizom BI dostają odpowiedź na następujące
pytania:
Jakie produkty są razem kupowane?
Jakie produkty są razem kupowane przez podobnych klientów?
Czym różnią się klienci którzy kupili dany produkt od tych , którzy
nie kupili?
Jakie produkty jest skłonny kupić dany klient?
Jaki produkt powinien być zaoferowany klientowi w przyszłości?
Którzy klienci chętnie kupują dany produkt – profilowanie?
Jak długa jest przerwa między zakupami?
Business Intelligence
Analiza LTV (Lifetime value ).
Analiza lojalności klienta.
Prognozowanie churn
Analiza koszykowa
Zarządzanie kategorią (Stock Keeping Unit - SKU)
Analiza Braków
Business Intelligence
Ustalanie ceny produktu:
Korzystając z hurtowni danych i eksploracji danych, detaliści mogą
opracowywać złożone modele cenowe dla różnych produktów, które
mogą ustalać relację cena - sprzedaż dla produktu i sposób, w jaki
zmiany w cenach wpływają na sprzedaż innych produktów.
Marketing docelowy
Handlowcy mogą optymalizować wysiłki związane z ogólnym
marketingiem i promocją przez kierowanie kampanii do konkretnych
klientów albo grup klientów. Marketing docelowy może opierać się na
bardzo prostej analizie zwyczajów zakupowych klientów albo grup
klientów; jednak coraz częściej narzędzia eksploracji danych są
używane do określania konkretnych segmentów klientów, które
prawdopodobnie zareagują na określone typy kampanii.
Business Intelligence
Analiza Web Logów
z jakiego adresu domenowego lub IP łączył się użytkownik,
jakiej przeglądarki używał,
datę i czas nawiązania sesji z poszczególnymi planszami serwisu
internetowego,
liczbę wizyt wykluczając jednocześnie odwiedziny powtarzające
się z tego samego komputera,
ilość pobranych informacji i liczbę ściągniętych plików,
za pomocą jakiego słowa kluczowego użytego w wyszukiwarce
została odnaleziona strona,
stronę, z której użytkownik przeszedł do serwisu,
informację jak często użytkownik oglądał dany produkt zanim
dokonał jego zakupu.
Business Intelligence
Nawigacja w sieci
Analiza typowych ścieżek, którymi podążają użytkownicy poruszając
się po witrynach internetowych
Analiza odnośników
Analiza witryn, które skutecznie przekierowują użytkowników do
witryny internetowej firmy.
Analiza błędów
Analiza błędów, na które natykają się użytkownicy podczas
poruszania się po witrynie internetowej
Analiza słów kluczowych
Analiza najpopularniejszych słów kluczowych wpisywanych przez
użytkowników w wyszukiwarki internetowe, w celu odnalezienia
handlowych witryn internetowych sprzedawców.
Business Intelligence
Web housing:
Dyskretne poznawanie zainteresowań odwiedzających stronę, profile
użytkowników są przetwarzane w czasie rzeczywistym jak tylko
przybywa więcej informacji zachowaniach internauty.
Automatyczne dobieranie reklam do zainteresowań odwiedzających.
Przedstawiać w rzeczywistym czasie odpowiedź na pytanie: ”Czy ten
klient zdecyduje się na zakup?”
Przedstawiać w rzeczywistym czasie szacunek możliwości: „Ile
klient jest gotów wydać pieniędzy?”
Business Intelligence w internecie
Web housing:
Przewidywać kiedy klient chce opuścić stronę i dostarczyć zachętę
aby został na stronie.
Identyfikować i prowadzić sprzedaż krzyżową.
Wyjawiać typy strumienia kliknięć na stronę. „Jaką ścieżką klienci
zazwyczaj podążają?”, „Jaką ścieżką podążają najbardziej cenni
użytkownicy?” „W jaki sposób trafili na stronę?”
analizy w czasie rzeczywistym wykonywane są w oparciu o
technologie OLAP (On Line Analythical Processing)
Business Intelligence w internecie
Typowe zbiory danych
Strukturalne zbiory danych
Dane o zachowaniach internautów
Niestrukturalne zbiory danych tekstowych
Metody pozyskiwania informacji o
internautach
cookie
analiza logów serwera
rejestracja użytkowników
Cookie (dos
ł
.ciastko)
Jest to porc ja informa cji wysyłana przez serwer do
prz egląda rki użytkow nika. Prze glą darka informac ję tę
z achow uje i na polece nie serwera udostępnia.
Po na da niu polece nia w yświe tlenia strony przez
prz egląda rkę serwe r kie ruje odpow iedni dokument
w raz z c ookie który wystę puje jako e leme nt nagłówka
H TTP . Na stępnie prze glądarka informac ję tę
z atrzymuje na dysku użytkownika. W przypadku
kolejnej wizyty internauty na tej samej stronie WWW
serwer otrzyma za pisany c ookie, który pozwoli mu
odtworzyć poprze dni stan strony.
log serwera
• jest to informacja, jaką przekazuje
serwerowi komputer użytkowni ka przy
każdym połączeniu, może zawierać różne
dane (np. numer IP)
Elementy danych
Dane adresowe
Dane klienta – typ i status
Dane o transakcjach
Charakterystyki demograficzne
Rejestracja akcji promocyjnych
Prawdopodobne wpływy zewnętrzne
Dane dotyczące użycia telefonu
Dane wywnioskowane
Negatywne elementy danych
Ź
ródła pozyskiwania danych
adresowych
Bazy
stworzone
od
podstaw
(komercyjne)
przeznaczone na sprzedaż lub do wynajęcia.
Bazy własnych klientów.
Bazy skompilowane z mniejszych baz.
Bazy instytucji publicznych i firm państwowych, np.
ZUS, firm ciepłowniczych, abonentów telefonicznych,
uczniów szkół wyższych;
Bazy nazwisk pozyskanych w czasie promocji
sprzedaży
Baza PESEL - czyli powszechny, elektroniczny spis
ludności. Jej używanie do celów komercyjnych jest
wyraźnie zabronione przez prawo. PESEL sprzedaje
adresy, ale tylko do badań rynku i opinii publicznej.
Ź
ródła pozyskiwania danych
marketingowych
Rejestracja zakupów
Informacje z biur obsługi i call center
Tworzenie bazy danych w ramach promocji
sprzedaży.
Karty stałego klienta
Oferty w gazetach i czasopismach
Wykorzystanie reklamy bezpośredniej realizowanej
przez pocztę do tworzenia bazy danych
Wspólne oferty pocztowe,
Wielkie bazy danych
•
wielkie bazy danych (Very Large Databases) i magazyny
danych (Data Warehouses)
•
rozmiary współczesnych systemów baz danych
–
sieć sprzedaży Wal-Mart gromadzi dziennie dane dotyczące ponad
20 milionów transakcji
–
koncern Mobil Oil rozwija magazyn danych pozwalający na
przechowywanie ponad 100 terabajtów danych o wydobyciu ropy
naftowej
–
system satelitarnej obserwacji EOS zbudowany przez NASA
generuje w każdej godzinie dziesiątki gigabajtów danych
–
niewielkie supermarkety rejestrują codziennie sprzedaż tysięcy
artykułów
tak wielkie wolumeny danych są trudne w analizowaniu
Problem normalizacji
Problem ważności cech (detrminant)
Problem wspólnej wariancji
Problem współzależności cech – brak ortogonalności
W teorii im więcej danych tym lepiej.
Jednakże w praktyce rodzi to kilka problemów
metodologicznych.
5
10
5
10
x
y
5
10
5
10
x
y
Ortogonalno
ść
Ortogonalno
ść
zmiennych
zmiennych
Nadmiar informacji
Przyrost ilo
ś
ci dziennych informacji na jednego e-pracownika
1970
1980
1990
2000
64x
Dzi
ś
otrzymujemy 64 razy wi
ę
cej informacji ni
ż
w
roku 1970!
Ludzkie mo
ż
liwo
ś
ci
Ź
ródło: Executive Systems Research Center
Data Mining - Eksploracja
danych
Eksploracja danych (Data Mining): zbiór technik
automatycznego odkrywania nietrywialnych
zależności i schematów w dużych zbiorach danych
(bazach danych)
Eksploracja danych (Data Mining) często
nazywana jest również odkrywaniem wiedzy w
bazach danych (Knowledge Discovery in
Databases) lub eksploracją baz danych (Database
Mining) i coraz częściej Customer Intelligence
DANE
DATA
MINING
SCHEMATY
Geneza Data Mining
Zmiany w otoczeniu biznesowym
Konsumenci staj
ą
si
ę
bardziej wymagaj
ą
cy
Rynki s
ą
nasycone
Dzisiejsze bazy danych s
ą
ogromne:
Wi
ę
cej ni
ż
1,000,000 rejestrów
Od 10 do 10,000 zmiennych
Gigabajty i terabajty
Bazy danych rosn
ą
do bezprecedensowych
rozmiarów
Decyzje musz
ą
by
ć
podejmowane natychmiastowo
Podejmowane decyzje musz
ą
by
ć
poparte rozległ
ą
wiedz
ą
Data Mining
Niebanalne wydobycie nowej, bezwarunkowej i zdolnej
do działania wiedzy z ogromnych zbiorów danych.
Technologia umożliwiająca badanie, analizowanie i
wizualizację danych z ogromnego zbioru danych w
znacznym stopniu abstrakcyjnych, bez wymyślania
specyficznych hipotez.
Wyszukane umiejętności przeszukiwania danych
umożliwiające użycie statystycznych algorytmów do
odkrywania wzorów i współzależności w danych.
Data Mining (składniki)
Sk
ą
d pochodzi
Data Mining
Mechanizm
nauczania
Bazy danych
Wizualizacja
Stosowane
statystyki
Rozpoznanie
wzorca
Analogiczne
algorytmy
Wysoko
wyspecjalizowane
komputery
Data Mining (składniki)
Data Mining jest krokiem do zdobycia wiedzy w
procesie przekształcania baz danych (Knowledge
Discovery in Databases) KDD
–
Gromadzenie danych
–
Selekcja danych
–
Wstępne przetwarzanie danych
–
Transformacja danych
–
Data Mining – Wydobywanie danych
–
Interpretacja/Opracowanie danych
Data Mining jest czasem nazywane odkrywaniem
wiedzy w procesie przekształcania baz danych
KDD. Obydwa terminy stosuje się zamiennie.
Data Mining nie jest …
Gromadzeniem danych
Sprawozdaniem ( SQL/Ad Hoc Queries)
Przedstawieniem oprogramowania
(Software Agents)
Komputerowym procesem analizowania
(Online Analytical Processing – OLAP)
Prezentowaniem danych
Zastosowanie Data Mining:
Sprzeda
ż
detaliczna
Przedstawienie wyników analizy
–
Które produkty klienci starają się nabywać razem. Ta
wiedza może podnieść obroty, polepszyć strategię
sprzedaży i wpłynąć na lepszą promocję.
Prognozy handlowe
–
Badanie wyników opartych na czasie pomaga
sprzedawcom podjąć decyzje związane z dostawą.
Jeśli klient kupuje produkt dzisiaj, kiedy zakupi
podobny?
Zastosowanie Data Mining:
Sprzeda
ż
detaliczna
Database marketing
–
Sprzedawcy mogą stworzyć profile konsumentów o
pewnych zachowaniach, na przykład, ci którzy kupują
markową odzież lub ci, którzy po prostu kupują. Takie
informacje mogą być używane do skupiania się na
promocjach nie wymagających dużych nakładów
finansowych.
Planowanie i przydział towarów
–
Kiedy sprzedawcy otwierają nowe sklepy mogą
ulepszyć planowanie i przydział towarów przez
sprawdzenie wzorów w sklepach o podobnych cechach
demograficznych. Sprzedawcy mogą również użyć
data mining do ustalenia idealnego układu dla
konkretnego sklepu.
Zastosowanie Data Mining:
Bankowo
ść
Marketing kart kredytowych
–
Przez identyfikację segmentów klientów, wydawców kart kredytowych i ich
nabywców można polepszyć dochodowość z dużo większą skutecznością
programów zdobywania i dochodów, z ukierunkowanym rozwojem produkcji i
negocjowanymi cenami.
Ceny i dochodowość posiadaczy kart kredytowych
–
Wydający karty kredytowe mogą skorzystać z technik data mining do wyceny
swoich produktów tak aby zmaksymalizować dochody ale zminimalizować
straty klientów, zawierając cenę ryzyka.
Wykrywanie fałszerstw
–
Fałszerstwa są ogromnie kosztowne. Przez analizowanie minionych transakcji,
które później okazały się fałszywymi, banki mogą odkryć schemat oszustw.
Przez analizowanie minionych transakcji, wychwytuje on-line próby
oszustwa.
Zarządzanie przewidywaniem cyklu życia
–
Data Mining pomaga bankom przewidzieć cykl życia każdego klienta i
zaoferować odpowiedni przedział np. oferując specjalne umowy i rachunki
bankowe.
Zastosowanie Data Mining:
Telekomunikacja
Analiza szczegółowych rejestrów rozmów
telefonicznych
–
Firmy telekomunikacyjne gromadzą szczegółowe rejestry
rozmów telefonicznych. Przez identyfikację przedziałów
klientów o podobnym charakterze korzystania z usług
telekomunikacyjnych operatorzy mogą stworzyć atrakcyjną
ofertę i przygotować dostosowane do klientów promocje.
Lojalność konsumentów
–
Niektórzy klienci ciągle zmieniają dostawców usług
telekomunikacyjnych by skorzystać z konkurencyjnych
ofert operatorów. Firmy mogą wykorzystać z Data Mining
do określenia profilu klientów, którzy najprawdopodobniej
będą lojalni wobec raz wybranej firmy telekomunikacyjnej,
co umożliwi im trafienie z ofertą do tych klientów, którzy
przyniosą największy dochód.
Zastosowanie Data Mining:
Inne zastosowania
Segmentacja klientów
–
Wszystkie rodzaje biznesu mogą czerpać korzyści z
Data Mining do odkrywania segmentów ich klientów
rozważając dodatkowe zmienne leżące poza tradycyjną
analizą.
Gwarancje
–
Producenci muszą przewidzieć ilość klientów, którzy
mogą złożyć reklamację i oszacować średnią kosztów
tych reklamacji.
Częste promocje dla pasażerów linii lotniczych
–
Linie lotnicze mogą określić grupę klientów, którą
można zachęcić by częściej z nich korzystała.
Data Mining w CRM:
Cykl
ż
ycia klienta
Cykl życia klienta
–
Etapy rozwoju stosunków między klientem a firmą
DM pomaga w
–
Ustaleniu zachowań towarzyszących szczególnym
wydarzeniom w cyklu życia klienta
–
Znalezieniu innych ludzi na podobnym etapie
ż
ycia i ustaleniu, którzy z tych klientów będą
realizowali podobne wzorce konsumenckie
Jest ważne by znać wydarzenia w cyklu życia
klienta (np. moment przejścia na emeryturę)
Techniki Data Mining
Techniki Data Mining
Opisowe
Prognostyczne
Gromadzenie
Powi
ą
zanie
Klasyfikacja
Regresja
Analiza Sekwencyjna
Drzewo Decyzyjne
Zasada Indukcyjna
Komputerowe Sieci Neuronowe
Taksonomia
Metody eksploracji danych
klasyfikacja
odkrywanie asocjacji
regresja
grupowanie
odkrywanie sekwencji
odkrywanie charakterystyk
dyskryminacja
wykrywanie zmian i odchyleń
Metody eksploracji:
klasyfikacja
klasyfikacja: znajdowanie sposobu odwzorowywania
danych w zbiór predefiniowanych klas (podzbiorów)
przykład klasyfikacji: automatyczny podział kierowców
na powodujących i nie powodujących wypadków
drogowych:
– kierowcy prowadzący czerwone pojazdy o pojemności 650 ccm
powodują wypadki drogowe
– kierowcy, którzy posiadają prawo jazdy ponad 3 lata lub jeżdżą
niebieskimi samochodami nie powodują wypadków drogowych
zastosowania klasyfikacji:
– diagnostyka medyczna
–
rozpoznawanie trendów na rynkach finansowych
–
automatyczne rozpoznawanie obrazów
–
przydział kredytów bankowych
Metody eksploracji:
odkrywanie asocjacji
odkrywanie asocjacji: znajdowanie związków
pomiędzy występowaniem grup elementów w
zbiorach danych
przykładem wykrywania asocjacji jest analiza
koszykowa
– klienci, którzy kupują piwo, kupują również orzeszki
– klienci, którzy kupują chleb, masło i ser, kupują również wodę
mineralną i ketchup
zastosowania odkrytych asocjacji:
–
planowanie kampanii promocyjnych
–
planowanie rozmieszczenia stoisk sprzedaży w supermarketach
Analiza koszykowa
Zale
ż
no
ś
ci w bazach danych
kierowcy w wieku powyżej 40 lat jeżdżą
samochodami o pojemności większej niż 1600
ccm
kierowcy o mniejszym stażu częściej powodują
wypadki
wybór koloru auta zależy od wieku
wiek
lat prawo
kolor
poj.
moc
razem
kierowcy
jazdy
pojazdu
silnika
szkody
------------- ------------- -------------- ------------- ------ -------
42
24
biały
1610
100
0
19
1
czerwony
650
24
2500
28
4
czerwony
1100
40
0
41
20
czarny
1800
130
0
21
3
czerwony
650
24
1300
20
1
niebieski
650
24
0
Zale
ż
no
ś
ci w bazach danych
piwo i orzeszki są zawsze kupowane wspólnie
chleb uczestniczy w transakcjach na kwotę mniejszą niż
50 złotych
transakcja
produkt
dzie
ń
cena
------------ ------------- ------------- --------------
1
pizza
sobota
48,40
1
mleko
sobota
2,80
1
chleb
sobota
1,50
2
piwo
wtorek
16,20
2
orzeszki
wtorek
8,50
3
chleb
sobota
1,50
3
orzeszki
sobota
25,50
3
piwo
sobota
32,40
Metody eksploracji:
grupowanie
klastrowanie: znajdowanie sko
ń
czonego zbioru klas
(podzbiorów) w bazie danych
5
10
5
10
•
zastosowania klastrowania:
–
okre
ś
lanie segmentów rynku na podstawie cech klientów
klasa 1: x<5
klasa 2: 5<x<10 i y>5
klasa 3: y<5
x
y
Metody eksploracji:
odkrywanie sekwencji
odkrywanie sekwencji: znajdowanie najczęściej
występujących po sobie zdarzeń
przykład odkrywania sekwencji:
– klienci, którzy kupili farbę emulsyjną, kupią w najbliższym czasie
pędzel płaski
– kurs akcji BPH, który podczas ostatnich trzech sesji wzrósł o
0.5%, 0.9%, 0.1%, na następnej sesji spadnie o 0.5%
zastosowania odkrytych sekwencji:
–
planowanie inwestycji giełdowych
–
przewidywanie sprzedaży
Metody eksploracji:
odkrywanie charakterystyk
odkrywanie charakterystyk: znajdowanie zwięzłych
opisów (charakterystyk, statystyk, parametrów) podanego
zbioru danych
przykład odkrywania charakterystyk: opis pacjentów
chorujących na anginę
–
pacjenci chorujący na anginę cechują się temperaturą
ciała większą niż 37.5 C, bólem gardła, osłabieniem
organizmu
zastosowania odkrywania charakterystyk:
– znajdowanie zależności funkcyjnych pomiędzy
zmiennymi
– określanie profilu klienta - zbioru cech
charakterystycznych
1
Sie
ć
neuronowa
... jest to system symulujący pracę mózgu
Nazwą tą określa się symulatory
(programowe lub sprzętowe) modeli
matematycznych realizujące
pseudorównoległe przetwarzanie informacji,
składające się z wielu wzajemnie
połączonych neuronów i naśladujący
działanie biologicznych struktur mózgowych.
Neuron
Liczba komórek nerwowych w mózgu człowieka wynosi ok. 10
10
Liczba połączeń między nimi sięga 10
15
Szybkość przetwarzania mózgu oceniana jest na 10
18
, operacji
na sekundę
Neuron
1
2
[ ,
,...,
]
T
N
x x
x
=
x
1
2
[
,
,...,
]
T
i
i
i
iN
W W
W
=
W
( )
i
i
y
f u
=
- wektor wejściowy
- wektor wag i-tego neuronu
- próg
0
i
W
- funkcja aktywacji
0
1
N
i
ij
j
i
j
u
W x
W
=
=
+
∑
Neuron
Jak działa neuron?
Schemat sieci wielowarstwowej
http://republika.pl/edward_ch/
•Przykładem sieci jednokierunkowej wielowarstwowej jest
perceptron wielowarstwowy.
•Sieć tego typu posiada warstwę wejściową, wyjściową oraz
jedną lub więcej warstw ukrytych.
•Zadaniem elementów w warstwie wejściowej jest wstępne
przetwarzanie obrazu wejściowego x=[x
1
, x
2
, x
3
, ..., x
N
], które
może obejmować normalizację lub skalowanie sygnałów.
•Zasadnicze przetwarzanie neuronowe obrazu wejściowego
odbywa się w warstwach ukrytych oraz w warstwie
wyjściowej.
•Należy zauważyć, że połączenia pomiędzy poszczególnymi
warstwami są zaprojektowane, że każdy element warstwy
poprzedniej jest połączony z każdym elementem warstwy
następnej.
Proces uczenia
sztucznych sieci neuronowych
Metoda z nauczycielem
Nauczyciel podaje:
- wzorcowe obiekty na wej
ś
ciu;
- oczekiwane warto
ś
ci na wyj
ś
ciu;
Sie
ć
:
- uczy si
ę
wzorców „na pami
ęć
” oraz
nabywa zdolno
ść
uogólniania wiedzy
(rozpoznawanie podobnych obiektów);
- zmienia warto
ś
ci wag w celu
dopasowania swojego działania do
wzorców (nauczonych wyników).
Metoda samouczenia
- brak wzorcowych wag (sie
ć
generuje je
losowo);
- sie
ć
odbiera sygnał wej
ś
ciowy i na jego
podstawie wyznacza swoje wyj
ś
cie;
- sie
ć
ocenia warto
ść
na wyj
ś
ciu ka
ż
dego
neuronu warstwy wyj
ś
ciowej;
- wagi poszczególnych neuronów
zmieniane s
ą
zgodnie z okre
ś
lonymi w
danej metodzie zasadami.
8
Podstawowe właściwości sieci
neuronowych
BEZ TRUDU ODWZOROWUJĄ ZALEśNOŚCI NIELINIOWE
WYMAGANIA WIEDZY TEORETYCZNEJ SĄ MNIEJSZE NIś W PRZYPADKU
STOSOWANIA TRADYCYJNYCH METOD STATYSTYCZNYCH
UMOśLIWIAJĄ KONTROLĘ NAD ZŁOśONYM PROCESEM
WIELOWYMIAROWOŚCI
CECHUJĄ SIĘ ŁATWOŚCIĄ UśYCIA
POSIADAJA NIEOGRANICZONE MOśLIWOSĆI ZASTOSOWAŃ
Mała wrażliwość na błędy (szumy) w zbiorze danych - w klasycznym programie
komputerowym błąd w danych może prowadzić do całkowicie błędnych wyników, sieć
potrafi błąd pominąć.
Zdolność do efektywnej pracy nawet po częściowym uszkodzeniu sieci (usunięciu kilku
neuronów lub połączeń między nimi), co w klasycznym programie komputerowych jest
nie do pomyślenia.
Przetwarzanie równoległe i rozproszone.
ZALETY
WADY
nie dają dokładnych precyzyjnych wyników.
nie potrafią analizować wieloetapowo.
nie tworzy modeli
Ze względu na specyficzne cechy i niepodważalne
zalety obszar zastosowań sieci neuronowych jest
rozległy:
Rozpoznawanie wzorców (znaków, liter, kształtów, sygnałów mowy,
sygnałów sonarowych)
Klasyfikowanie obiektów
Prognozowanie i ocena ryzyka ekonomicznego
Prognozowanie zmian cen rynkowych (giełdy, waluty)
Ocena zdolności kredytowej podmiotów
Diagnostyka medyczna
Dobór pracowników
Prognozowanie sprzedaży
Aproksymowanie wartości funkcji
Text mining definiowane jest jako
odkrywanie i wykorzystanie wiedzy
zawartej w zbiorze dokumentów
– m.in. ustalenie powi
ą
za
ń
mi
ę
dzy dokumentami
w zbiorze, ł
ą
czenie wolnego tekstu i zmiennych
ilo
ś
ciowych w celu uzyskania nowych informacji
- czytanie plików tekstowych,
- wstępne przetwarzanie,
- redukcja danych,
- analiza dokumentów.
Proces Text Mining
Wstępne przetwarzanie polega na:
-
identyfikacji jednostek tekstu: paragrafy, zdania, wyrazy, a
także frazy
- wyznaczeniu miara bogactwa słownictwa: słowo jest tym
ważniejsze (ma większą wagę), im więcej razy pojawia się w
danym dokumencie
- zastosowanie wszystkich technik znanych z klasycznych
systemów wyszukiwawczych, a więc:
stoplisty pozwalające na eliminację często występujących słów nie
niosących znaczenia;
stemming, czyli sprowadzanie wyrazów do podstawowej formy
gramatycznej;
normalizacja – określenie, jaką część mowy stanowi dane słowo;
wykorzystanie synonimów oraz możliwość definiowania wyrażeń.
NLP
NLP (ang. Natural Language Processing)
zbiór technik komputerowych służących do
analizy i reprezentacji tekstów występujących na
poziomie analizy lingwistycznej w celu uzyskania
przypominającego ludzki sposobu przetwarzania
języka w określonym zakresie zadań i zastosowań.
NLP, NLU, NLG, ...
NLP – Natural Language Processing
–
Właściwie wszystko, co jest związane z przetwarzaniem
informacji zapisanej w języku naturalnym
–
Inne nazwy: Computational Linguistics (CL), Human Language
Technology (HLT), Natural Language Engineering (NLE)
NLU – Natural Language Understanding
–
Dosłownie „rozumienie języka naturalnego”
–
Co to jednak znaczy „rozumienie”?
–
Semantyka i logika
NLG – Natural Language Generation
–
To akurat jest proste (o ile nie mamy wygórowanych wymagań)
Dwa podej
ś
cia w NLP
„Gramatyczne”
–
Język naturalny można opisać wykorzystując aparat logiki
matematycznej
–
Lingwistyka porównawcza – Jakob Grimm, Rasmus Rask
–
Noam Chomsky – I-Language i E-language
–
Argument „poverty of stimulus”
„Statystyczne”
–
Przekonanie, iż struktura i reguły użycia słów w języku
naturalnym można odkryć, analizując rzeczywiste wypowiedzi
–
Najlepiej analizować dużo wypowiedzi...
–
Bardzo dużo wypowiedzi...
–
Statystyka
–
Pierwsze próby – Markow /łańcuchy Markowa/, Shannon /gra
Shannona/
Zadania Text Mining
Klasyfikacja dokumentów (ang. Document classification)
Grupowanie dokumentów (ang. Document clustering)
Sumaryzacja (ang. Summarization)
Automatyczne rozpoznawanie języka (ang. Automatic Language
Identification)
Grupowanie pojęć (ang. Concept clustering)
Wizualizacja i nawigacja
Web Mining
Wyszukiwanie informacji (ang. Information Retrieval, IR)
Ekstrakcja informacji (ang. Information Extraction, IE)