plik

Wszelkie prawa zastrzeĪone. Nieautoryzowane rozpowszechnianie caáoĞci lub fragmentu niniejszej
publikacji w jakiejkolwiek postaci jest zabronione. Wykonywanie kopii metodą kserograficzną,
fotograficzną, a takĪe kopiowanie ksiąĪki na noĞniku filmowym, magnetycznym lub innym
powoduje naruszenie praw autorskich niniejszej publikacji.

Wszystkie znaki wystĊpujące w tekĞcie są zastrzeĪonymi znakami firmowymi bądĨ towarowymi
ich wáaĞcicieli.

Autor oraz Wydawnictwo HELION doáoĪyli wszelkich staraĔ, by zawarte w tej ksiąĪce informacje
byáy kompletne i rzetelne. Nie biorą jednak Īadnej odpowiedzialnoĞci ani za ich wykorzystanie, ani
za związane z tym ewentualne naruszenie praw patentowych lub autorskich. Autor oraz
Wydawnictwo HELION nie ponoszą równieĪ Īadnej odpowiedzialnoĞci za ewentualne szkody
wynikáe z wykorzystania informacji zawartych w ksiąĪce.

Redaktor prowadzący: Michaá Mrowiec
Korekta merytoryczna: Radosáaw àebkowski
Projekt okáadki: Jan Paluch

Fotografia na okáadce zostaáa wykorzystana za zgodą Shutterstock.com

Wydawnictwo HELION
ul. KoĞciuszki 1c, 44-100 GLIWICE
tel. 32 231 22 19, 32 230 98 63
e-mail: helion@helion.pl
WWW: http://helion.pl (ksiĊgarnia internetowa, katalog ksiąĪek)

Drogi Czytelniku!
JeĪeli chcesz oceniü tĊ ksiąĪkĊ, zajrzyj pod adres
http://helion.pl/user/opinie?sqlsme
MoĪesz tam wpisaü swoje uwagi, spostrzeĪenia, recenzjĊ.

Kody Ĩródáowe wybranych przykáadów dostĊpne są pod adresem:
ftp://ftp.helion.pl/przyklady/sqlsme.zip

ISBN: 978-83-246-3440-8

Printed in Poland.

•

Kup książkę

•

Poleć książkę

•

Oceń książkę

•

Księgarnia internetowa

•

Lubię to! » Nasza społeczność

Spis tre"ci

Wst"p .................................................................................................... 9

Proces eksploracji danych .............................................................................................. 10
Instalacja i konfiguracja narz4dzi ................................................................................... 12

Serwer SQL .............................................................................................................. 12
Arkusz kalkulacyjny Excel ....................................................................................... 15
Dodatek Data Mining do pakietu Office .................................................................. 15
Przyk9ady ................................................................................................................. 16

Konwencje i oznaczenia ................................................................................................. 20

Cz"#$ I

Modelowanie ................................................................ 23

Rozdzia% 1. Eksploracja danych jako technika wspomagania decyzji ........................ 25

Modelowanie <wiata ....................................................................................................... 25

Obiekty, zdarzenia i regu9y  ...................................................................................... 26
Dane  ......................................................................................................................... 27
Informacje  ................................................................................................................ 27
Wiedza  ..................................................................................................................... 29
Decyzje ..................................................................................................................... 31

Eksploracja danych ......................................................................................................... 32

Hipotezy ................................................................................................................... 32
K9opoty ze sformu9owaniem problemu .................................................................... 33

Rozdzia% 2. Analiza biznesowa ................................................................................. 35

Cele modelowania i eksploracji danych ......................................................................... 35

Opisywanie danych czy wspieranie decyzji? ............................................................ 36
Decydenci ................................................................................................................. 38

Zakres projektu eksploracji danych ................................................................................ 39

Dane Nród9owe ......................................................................................................... 40
Kontekst ................................................................................................................... 40

Sprecyzowanie spodziewanych wyników .................................................................... 42

Modele deskrypcyjne ............................................................................................... 43
Modele predykcyjne ................................................................................................. 43

PrawdopodobieUstwo sukcesu projektu eksploracji danych ........................................... 44
Ocena ryzyka .................................................................................................................. 45

Kup ksi

ąĪkĊ

Pole

ü ksiąĪkĊ

Microsoft SQL Server. Modelowanie i eksploracja danych

Rozdzia% 3. Ocena danych ....................................................................................... 49

Dane Nród9owe ................................................................................................................ 49

B94dy pomiaru .......................................................................................................... 50

Przypadki, czyli to, co badamy ....................................................................................... 51
Profilowanie danych za pomocX us9ugi SQL Server Integration Services ...................... 54
Atrybuty i ich stany ........................................................................................................ 57

Atrybuty jednowarto<ciowe i wielowarto<ciowe ...................................................... 57
Atrybuty monotoniczne ............................................................................................ 59
Rozk9ad warto<ci ...................................................................................................... 59

Integralno<[ danych ........................................................................................................ 62

Duplikaty .................................................................................................................. 62
Zakres warto<ci ........................................................................................................ 63
Zgodno<[ ze wzorcem .............................................................................................. 63

Próbkowanie i reprezentatywno<[ danych ...................................................................... 64

Próbkowanie danych  ................................................................................................ 64
Zbie\no<[ do rzeczywistego rozk9adu  ...................................................................... 65
Odchylenie standardowe  .......................................................................................... 67
Zmienno<[ atrybutów tekstowych  ............................................................................ 68

BrakujXce dane ............................................................................................................... 69

Model brakujXcych danych ....................................................................................... 70

Zale\no<ci pomi4dzy atrybutami .................................................................................... 73

Niezale\ne atrybuty .................................................................................................. 74
Nadmiarowe atrybuty ............................................................................................... 75
Anachronizmy .......................................................................................................... 76

Mierzenie informacji ...................................................................................................... 76

Bity ........................................................................................................................... 77
Zaskoczenie .............................................................................................................. 77
Kontekst ................................................................................................................... 78

Rozdzia% 4. Przygotowanie danych .......................................................................... 79

PrzestrzeU stanów ........................................................................................................... 79
Atrybuty dyskretne ......................................................................................................... 81

Grupowanie .............................................................................................................. 81
Numerowanie stanów ............................................................................................... 84
Atrybuty porzXdkowe ............................................................................................... 85
Atrybuty okresowe ................................................................................................... 86

Atrybuty ciXg9e ............................................................................................................... 86

Warto<ci skrajne ....................................................................................................... 87
Normalizacja zakresu ............................................................................................... 87
Dyskretyzacja ........................................................................................................... 90

Serie danych ................................................................................................................... 92

Trend ........................................................................................................................ 96
Okresowo<[ i sezonowo<[ ........................................................................................ 96
Szum ......................................................................................................................... 97

Rozdzia% 5. Poprawa jako#ci danych ....................................................................... 99

Uzupe9nienie warto<ci .................................................................................................... 99
Wzbogacenie danych .................................................................................................... 103
Redukcja wymiarów ..................................................................................................... 105

Korelacje ................................................................................................................ 106

Kup ksi

ąĪkĊ

Pole

ü ksiąĪkĊ

Spis tre#ci

Dane dla modeli deskrypcyjnych .................................................................................. 108
Dane dla modeli predykcyjnych ................................................................................... 109

Zmiana proporcji .................................................................................................... 109

Dane na potrzeby analizy wariantowej ......................................................................... 111

Analiza wariantowa ................................................................................................ 111

Wydzielenie danych testowych .................................................................................... 113

Cz"#$ II Eksploracja ................................................................ 117

Rozdzia% 6. Techniki eksploracji danych ............................................................ 119

Zastosowania ................................................................................................................ 119
Dodatek Data Mining do pakietu Office ....................................................................... 121

Ocena i przygotowanie danych Nród9owych ........................................................... 121

Techniki eksploracji danych ......................................................................................... 126

Klasyfikacja ............................................................................................................ 126
Szacowanie ............................................................................................................. 136
Asocjacja ................................................................................................................ 141
Grupowanie ............................................................................................................ 145
Analiza sekwencyjna .............................................................................................. 151
Analiza wariantowa ................................................................................................ 152
Prognozowanie ....................................................................................................... 156

Rozdzia% 7. Serwer SQL jako platforma eksploracji danych ................................ 161

Excel jako klient SQL Server Analysis Services .......................................................... 162

Narz4dzia eksploracji zewn4trznych danych .......................................................... 162
Praca z modelami eksploracji danych .................................................................... 184
Formu9y arkusza Excel ........................................................................................... 191

Projekty eksploracji danych .......................................................................................... 192

Business Intelligence Development Studio  ............................................................ 192
bród9a danych ......................................................................................................... 195
Widoki danych Nród9owych .................................................................................... 196
Struktury eksploracji danych .................................................................................. 199
Modele eksploracji danych ..................................................................................... 206
Zapytania predykcyjne  ........................................................................................... 210
Zagnie\d\anie przypadków  .................................................................................... 213

ZarzXdzanie serwerem SSAS i modelami eksploracji danych poprzez SQL

Server Management Studio .......................................................................................... 216

Us9ugi eksploracji danych serwera SQL ....................................................................... 218

Architektura ............................................................................................................ 219
BezpieczeUstwo ...................................................................................................... 221
Integracja z pozosta9ymi us9ugami Business Intelligence ....................................... 223

Rozdzia% 8. DMX ................................................................................................... 227

Terminologia ................................................................................................................ 227

Atrybut ................................................................................................................... 227
Warto<[ i stan ......................................................................................................... 229
Przypadek ............................................................................................................... 229
Klucze .................................................................................................................... 230
Struktury eksploracji danych .................................................................................. 231
Modele eksploracji danych ..................................................................................... 232

Kup ksi

ąĪkĊ

Pole

ü ksiąĪkĊ

Microsoft SQL Server. Modelowanie i eksploracja danych

Sk9adnia j4zyka DMX .................................................................................................. 232

Tworzenie struktur eksploracji danych ................................................................... 233
Tworzenie modeli eksploracji danych .................................................................... 235
Przetwarzanie struktur i modeli eksploracji danych  ............................................... 239
Odczytywanie zawarto<ci struktur i modeli eksploracji danych ............................. 243
Zapytania predykcyjne  ........................................................................................... 245
Funkcje predykcyjne  .............................................................................................. 251

Rozdzia% 9. Naiwny klasyfikator Bayesa firmy Microsoft ........................................ 253

Omówienie ................................................................................................................... 253

Ograniczenia .......................................................................................................... 255
Parametry ............................................................................................................... 256

Zastosowania naiwnego klasyfikatora Bayesa ........................................................... 258

Badanie zale\no<ci pomi4dzy atrybutami .............................................................. 258
Klasyfikacja dokumentów ...................................................................................... 260

Rozdzia% 10. Drzewa decyzyjne firmy Microsoft

i algorytm regresji liniowej firmy Microsoft .......................................... 267

Omówienie ................................................................................................................... 268

Ograniczenia .......................................................................................................... 272
Parametry ............................................................................................................... 273

Zastosowania drzew decyzyjnych ................................................................................ 275

Klasyfikacja klientów ............................................................................................. 275
Szacowanie potencjalnych zysków ........................................................................ 277
Asocjacja klientów i wypo\yczanych przez nich filmów ........................................... 279

Rozdzia% 11. Szeregi czasowe firmy Microsoft ......................................................... 281

Omówienie ................................................................................................................... 281

Ograniczenia .......................................................................................................... 285
Parametry ............................................................................................................... 286

Zastosowania szeregów czasowych firmy Microsoft .................................................... 288

Prognozowanie sprzeda\y ...................................................................................... 289
Prognozowanie sprzeda\y na podstawie przeplatanych serii danych ..................... 291
Prognozowanie sprzeda\y na podstawie danych odczytanych

z kostki wielowymiarowej ................................................................................... 292

Prognozowanie sprzeda\y na podstawie krótkich serii danych .............................. 293
Analiza wariantowa ................................................................................................ 295

Rozdzia% 12. Algorytm klastrowania firmy Microsoft ................................................ 297

Omówienie ................................................................................................................... 297

Ograniczenia .......................................................................................................... 302
Parametry ............................................................................................................... 303

Zastosowania algorytmu klastrowania .......................................................................... 305

Analiza skupieU komórek ....................................................................................... 305
Klasyfikacja komórek ............................................................................................. 309
Przygotowanie danych do dalszej eksploracji ........................................................ 312
Wykrywanie anomalii ............................................................................................ 314

Kup ksi

ąĪkĊ

Pole

ü ksiąĪkĊ

Spis tre#ci

Rozdzia% 13. Algorytm klastrowania sekwencyjnego firmy Microsoft ....................... 319

Omówienie ................................................................................................................... 320

Ograniczenia .......................................................................................................... 323
Parametry ............................................................................................................... 323

Zastosowania algorytmu klastrowania sekwencyjnego ................................................ 324

Analiza sekwencji odwiedzanych stron WWW ...................................................... 324
Klasyfikacja klientów na podstawie kolejno<ci kupowanych przez nich

towarów ............................................................................................................... 327

Przewidywanie kolejnych zdarzeU ......................................................................... 329
Wykrywanie nietypowych sekwencji zdarzeU ........................................................ 332

Rozdzia% 14. Algorytm odkrywania regu% asocjacyjnych firmy Microsoft ................... 335

Omówienie ................................................................................................................... 336

Ograniczenia .......................................................................................................... 340
Parametry ............................................................................................................... 341

Zastosowania regu9 asocjacyjnych ................................................................................ 341

Badanie zale\no<ci pomi4dzy warto<ciami atrybutów  ........................................... 342
Analiza koszykowa  ................................................................................................ 343
Analiza typu cross-selling  ...................................................................................... 347

Rozdzia% 15. Sieci neuronowe firmy Microsoft

i algorytm regresji logistycznej firmy Microsoft .................................... 351

Omówienie ................................................................................................................... 352

Ograniczenia .......................................................................................................... 358
Parametry ............................................................................................................... 360

Zastosowania sieci neuronowych i regresji logistycznej .............................................. 361

Szacowanie potencjalnych zysków ........................................................................ 362
Klasyfikacja dokumentów ...................................................................................... 366

Rozdzia% 16. Ocena i poprawa modeli ...................................................................... 369

Powrót do <redniej ........................................................................................................ 369
Kryteria porównawcze .................................................................................................. 371

gatwo<[ interpretacji  .............................................................................................. 373
Dok9adno<[ predykcji ............................................................................................. 374
Wiarygodno<[ predykcji ......................................................................................... 374
Wydajno<[ i skalowalno<[  ..................................................................................... 375
Przydatno<[  ............................................................................................................ 375

Metody oceniania modeli eksploracji danych ............................................................... 376

Wykresy podniesienia i zysku  ................................................................................ 376
Macierz klasyfikacji  ............................................................................................... 384
Ocena dok9adno<ci modeli algorytmu szeregów czasowych firmy Microsoft ........ 386
Walidacja krzy\owa  ............................................................................................... 387
Odchylenie wewnXtrz- i mi4dzyklastrowe .............................................................. 390

Problemy ...................................................................................................................... 391

Niew9a<ciwie postawione zadania  .......................................................................... 391
Niew9a<ciwe dane Nród9owe  ................................................................................... 392
Nieprzygotowane dane Nród9owe  ........................................................................... 393
Niew9a<ciwe lub Nle sparametryzowane algorytmy eksploracji danych  ................. 394

Kup ksi

ąĪkĊ

Pole

ü ksiąĪkĊ

Microsoft SQL Server. Modelowanie i eksploracja danych

Rozdzia% 17. Programowanie predykcyjne ............................................................ 397

Narz4dzia programistyczne  .......................................................................................... 397
Wizualizatory modeli eksploracji danych  ................................................................. 398
Raporty us9ugi SSRS  .................................................................................................... 399
Inteligentne aplikacje .................................................................................................... 401

Kontrola poprawno<ci danych ................................................................................ 401
Uzupe9nianie brakujXcych danych .......................................................................... 404
Adaptacyjny interfejs ............................................................................................. 406

Skorowidz .......................................................................................... 413

Kup ksi

ąĪkĊ

Pole

ü ksiąĪkĊ

Rozdzia! 9.

Naiwny klasyfikator
Bayesa firmy Microsoft

Dlaczego klasyfikator Bayesa nazywany jest naiwnym?

Jakie sX wady i zalety naiwnego klasyfikatora Bayesa firmy Microsoft?

Jak tworzy[ modele eksploracji danych u\ywajXce naiwnego klasyfikatora
Bayesa firmy Microsoft?

Jak parametryzowa[ naiwny klasyfikator Bayesa firmy Microsoft?

Jak za pomocX naiwnego klasyfikatora Bayesa firmy Microsoft bada[
zale\no<ci pomi4dzy atrybutami?

Jak zbudowa[ klasyfikujXcy dokumenty filtr antyspamowy przy u\yciu
naiwnego klasyfikatora Bayesa firmy Microsoft?

Nazwy wszystkich przedstawionych algorytmów eksploracji danych zawieraj& okre-
'lenie firmy Microsoft nie dlatego, (e algorytmy te zosta!y wymy'lone przez Micro-
soft, ale dlatego, (e to ta firma stworzy!a zastosowane w serwerze SQL implemen-
tacje tych algorytmów.

Omówienie

Opracowany przez brytyjskiego matematyka i prezbiteriaUskiego duchownego Tho-
masa Bayesa klasyfikator nale\y do klasycznych algorytmów uczenia przez obserwacj4

WyobraNmy sobie, \e sp4dzamy wolny czas, obserwujXc klientów w9a<nie otwartego
butiku. Interesuje nas, kto (kobieta czy m4\czyzna) za chwil4 wejdzie do tego sklepu.

B4dXce podstawX opisywanego klasyfikatora twierdzenie Bayesa zosta9o opublikowane w wydanym
w 1763 roku eseju Essay Towards Solving a Problem in the Doctrine of Chances. Dokument ten jest
dost4pny pod adresem http://www.stat.ucla.edu/history/essay.pdf.

Kup ksi

ąĪkĊ

Pole

ü ksiąĪkĊ

254

Cz"#$ II Eksploracja

Poniewa\ w naszym miasteczku mieszka wi4cej kobiet ni\ m4\czyzn (60% mieszkaU-
ców to kobiety, a 40% — m4\czyNni), poczXtkowo prawdopodobieUstwo, \e klientem b4-
dzie kobieta, wynosi 60%. Jednak po pewnym czasie zebrali<my wi4cej informacji
o rozk9adzie dnia klientów i zauwa\yli<my m.in., \e przed po9udniem butik odwiedzajX
g9ównie (w 80%) kobiety, a po godzinie 15.00 75% klientów to m4\czyNni. Je\eli od te-
raz us9yszymy, \e kto< wchodzi do tego sklepu o 11.15, wiemy, \e prawdopodobnie
jest to kobieta (60%*80% = 48%), a nie m4\czyzna (40%*20% = 8%). Natomiast
gdyby<my us9yszeli osob4 wchodzXcX do butiku o 15.30, mieliby<my podstawy przy-
puszcza[, \e jest to m4\czyzna (40%*75% = 30%), a nie kobieta (60%*25% = 15%).
Ten uproszczony przyk9ad pokazuje istot4 naiwnego klasyfikatora Bayesa.

Naiwny klasyfikator Bayesa zlicza zale\no<ci wyst4pujXce pomi4dzy atrybutami wyj-
<ciowymi a poszczególnymi atrybutami wej<ciowymi, uwzgl4dniajXc warunkowe i bez-
warunkowe prawdopodobieUstwo ich wystXpienia:

PrawdopodobieUstwo bezwarunkowe (poczXtkowe) zale\y od rozk9adu
przypadków — w powy\szym przyk9adzie reprezentowane jest ono przez fakt,
\e 60% mieszkaUców miasteczka to kobiety.

Warunkowe prawdopodobieUstwo zale\y od zaobserwowanych zdarzeU —
w powy\szym przyk9adzie zaobserwowali<my, \e 75% klientów odwiedzajXcych
butik po po9udniu to m4\czyNni.

Obliczone na podstawie twierdzenia Bayesa (

)

prawdopodobieUstwa

sX nast4pnie mno\one, a wi4c ka\de z nich ma taki sam wp9yw na ostateczny wynik.
To za9o\enie jest prawdziwe, o ile poszczególne atrybuty wej<ciowe sX od siebie nie-
zale\ne

. W przeciwnym razie wp9yw atrybutu skorelowanego z innym atrybutem jest

wi4kszy, ni\ by[ powinien. Poniewa\ w praktyce atrybuty bardzo cz4sto sX ze sobX
powiXzane (np. wykszta9cenie wp9ywa na dochód, wciX\ te\ wyst4puje statystyczna
zale\no<[ pomi4dzy p9ciX a zawodem), ignorujXcy je klasyfikator Bayesa nazywa si4
naiwnym.

Naiwno<[ klasyfikatora Bayesa wynika równie\ z tego, \e gdy pewna zale\no<[ nie
wystXpi9a w przypadkach treningowych (np. dotychczas w sobot4 butik odwiedza9y
wy9Xcznie kobiety), obliczone przez niego prawdopodobieUstwo, \e klientem butiku
w sobot4 b4dzie m4\czyzna, wyniesie 0%. Problem ten mo\emy rozwiXza[, dodajXc 1 do
wszystkich przyporzXdkowaU stanów atrybutów do klas wyj<ciowych, czyli stosujXc
estymacj4 Laplace’a.

Obliczanie wyniku poprzez mno\enie prawdopodobieUstw ma jeszcze jednX wad4. Je-
\eli te prawdopodobieUstwa sX bardzo ma9e, co ma miejsce, gdy lista atrybutów jest d9uga
i gdy atrybuty przyjmujX wiele stanów, b94dy ich zaokrXglania zaczynajX wp9ywa[ na
wyniki.

P(A) oznacza prawdopodobieUstwo a priori wystXpienia klasy A, tj. prawdopodobieUstwo, \e przypadek
nale\y do klasy A; P(B|A) oznacza prawdopodobieUstwo a posteriori, \e przypadek A nale\y do klasy B,
natomiast P(B) — prawdopodobieUstwo a priori wystXpienia przypadku B.

Nieprzyj4cia za9o\enia o niezale\no<ci zmiennych wej<ciowych wymaga9oby obliczenie k

prawdopodobieUstw, gdzie p jest liczbX zmiennych, a p — liczbX ich stanów. Na przyk9ad dla 30
zmiennych binarnych trzeba by wykona[ 2

(1 073 741 824) operacji.

Kup ksi

ąĪkĊ

Pole

ü ksiąĪkĊ

Rozdzia% 9. Naiwny klasyfikator Bayesa firmy Microsoft

255

Ograniczenia

Pierwsze ograniczenie wynika ze sposobu dzia9ania naiwnego klasyfikator Bayesa —
policzenie prawdopodobieUstwa wystXpienia danego stanu jest mo\liwe tylko dla atrybu-
tów dyskretnych, a wi4c atrybuty ciXg9e sX ignorowane przez naiwny klasyfikator
Bayesa firmy Microsoft.

Drugie ograniczenie jest mniej oczywiste — naiwny klasyfikator Bayesa nale\y do
klasyfikatorów liniowych i nie nadaje si4 do rozwiXzywania problemów nieliniowych,
czyli takich, w których stan atrybutu wyj<ciowego zale\y od kombinacji stanów atry-
butów wej<ciowych. Problemem nieliniowym jest np. kwestia okre<lenia koloru pól
na szachownicy.

Po9owa pól na szachownicy jest bia9a, druga po9owa — czarna. Czy znajXc kolumn4
i wiersz, jeste<my w stanie okre<li[ kolor pola znajdujXcego si4 na ich przeci4ciu?
Spróbujmy u\y[ naiwnego klasyfikatora Bayesa firmy Microsoft do znalezienia od-
powiedzi na to pytanie.

Otwórz przyk9adowy skoroszyt Excela i przejdN do arkusza Chessboard.

Zaznacz znajdujXcX si4 w nim tabel4. Jej pierwsza kolumna zawiera litery
kolumn, druga — numery wierszy, a trzecia kolory pól szachownicy.

Kliknij znajdujXcy si4 w sekcji Data Modeling przycisk Classify.

Jako parametr wyj<ciowy i wej<ciowy wybierz

Color

, a jako u\yty do klasyfikacji

algorytm wybierz Microsoft Naive Bayes.

Przeznacz wszystkie dane do treningu i zakoUcz dzia9anie kreatora, tworzXc
tymczasowy model eksploracji danych.

Oka\e si4, \e algorytm nie znalaz9 \adnych zale\no<ci pomi4dzy kolumnX i wierszem
pola na szachownicy a kolorem pola znajdujXcego si4 na ich przeci4ciu — wszystkie
zak9adki wizualizatora b4dX puste, z wyjXtkiem zak9adki Dependency Network, w której
znajdziemy wy9Xcznie wyj<ciowy atrybut

Color

Zastanówmy si4, od czego zale\y kolor pól szachownicy. Czy zale\y on od wierszy?
Nie, w ka\dym wierszu 50% pól jest czarnych, a 50% bia9ych. Nie zale\y on równie\
od kolumn, lecz od kombinacji wierszy i kolumn. Poniewa\ naiwny klasyfikator Bayesa
jest klasyfikatorem liniowym, nie znalaz9 powy\szych zale\no<ci nieliniowych.

Tak postawiony problem nie zosta9by rozwiXzany równie\ przez drzewa decyzyjne,
czyli klasyfikator nieliniowy — w ka\dym wierszu i w ka\dej kolumnie bia9ych pól
jest dok9adnie tyle samo co czarnych. Ró\nic4 pomi4dzy klasyfikatorami liniowymi
i nieliniowymi pokazuje kolejny przyk9ad. Tym razem kszta9t figury równie\ nie za-
le\y od jego poszczególnych wspó9rz4dnych, ale od ich kombinacji (rysunek 9.1).

PrzejdN do arkusza

Linear

PrzeprowadN klasyfikacj4 znajdujXcych si4 w nim danych, wybierajXc na atrybuty
wej<ciowe kolumny

RangeX

RangeY

Shape

, a na atrybut wyj<ciowy kolumn4

Shape

Jako u\yty do klasyfikacji algorytm wybierz Microsoft Naive Bayes.

Kup ksi

ąĪkĊ

Pole

ü ksiąĪkĊ

256

Cz"#$ II Eksploracja

Rysunek 9.1.
W pierwszej i trzeciej
0wiartce znajduj1 si2
wy31cznie krzy4yki,
w drugiej i czwartej
— same kwadraty

Przeznacz wszystkie dane do treningu i zakoUcz dzia9anie kreatora, tworzXc
tymczasowy model eksploracji danych.

Tym razem algorytm równie\ nie znajdzie \adnych zale\no<ci pomi4dzy wspó9rz4dnymi
a kszta9tem figur.

Pomimo tych ograniczeU naiwny klasyfikator Bayesa firmy Microsoft dobrze radzi sobie
z wykrywaniem zale\no<ci pomi4dzy poszczególnymi atrybutami, a jego prostota
(i zwiXzane z niX szybko<[ oraz ma9e zapotrzebowanie na pami4[ i moc obliczeniowX),
jak równie\ 9atwo<[ interpretacji wyników czyniX z niego przydatny i cz4sto u\ywany
algorytm eksploracji danych.

Parametry

Naiwny klasyfikator Bayesa firmy Microsoft przyjmuje nast4pujXce parametry:

1. MAXIMUM_INPUT_ATTRIBUTES

— parametr dost4pny tylko w edycji Enterprise;

okre<la maksymalnX liczb4 atrybutów wej<ciowych (obja<niajXcych). Po jej
przekroczeniu (domy<lna warto<[ wynosi 255) analizowanych b4dzie tylko
255 atrybutów wej<ciowych najsilniej powiXzanych z atrybutami wyj<ciowymi
(obja<nianymi). Zmiana tego parametru na 0 spowoduje uwzgl4dnienie
wszystkich atrybutów wej<ciowych

Maksymalna liczba atrybutów wynosi 65 535 i jest tak du\a, \e w praktyce nie spotkamy si4
z wynikajXcymi z niej ograniczeniami. Z pierwszej cz4<ci ksiX\ki wiadomo, \e dane wej<ciowe
powinny zawiera[ jak najwi4cej informacji (a dok9adnie, \e entropia atrybutów wej<ciowych wzgl4dem
wyj<ciowych powinna by[ jak najwi4ksza), tymczasem utworzenie kilkudziesi4ciu tysi4cy atrybutów
raczej zmniejszy9oby (a nie zwi4kszy9o) ilo<[ tych informacji. Ponadto dane w9a<ciwie reprezentujXce
wszystkie mo\liwe zale\no<ci pomi4dzy tyloma atrybutami by9yby liczone w milionach terabajtów.

Kup ksi

ąĪkĊ

Pole

ü ksiąĪkĊ

Rozdzia% 9. Naiwny klasyfikator Bayesa firmy Microsoft

257

2. MAXIMUM_OUTPUT_ATTRIBUTES

— parametr dost4pny tylko w edycji Enterprise;

okre<la maksymalnX liczb4 atrybutów wyj<ciowych. Po jej przekroczeniu
(domy<lna warto<[ wynosi 255) zostanie uwzgl4dnionych tylko 255 najcz4<ciej
wyst4pujXcych atrybutów wyj<ciowych. Zmiana tego parametru na 0 spowoduje
uwzgl4dnienie wszystkich atrybutów wyj<ciowych.

3. MAXIMUM_STATES

— parametr dost4pny tylko w edycji Enterprise; okre<la

maksymalnX liczb4 uwzgl4dnianych stanów atrybutów. Po jej przekroczeniu
(domy<lna warto<[ wynosi 100) analizowanych b4dzie tylko 100 najcz4<ciej
wyst4pujXcych stanów atrybutów, a pozosta9e zostanX potraktowane jak
warto<ci brakujXce. Zmiana tego parametru na 0 spowoduje uwzgl4dnienie
wszystkich stanów atrybutów.

4. MINIMUM_DEPENDENCY_PROBABILITY

— okre<la (w skali od 0 do 1) minimalne

prawdopodobieUstwo znalezienia zale\no<ci pomi4dzy atrybutami wej<ciowymi
a wyj<ciowymi. Zmiana tego parametru nie ma \adnego wp9ywu na trening
algorytmu, a jedynie na liczb4 zwracanych (znalezionych) zale\no<ci. Domy<lna
warto<[ wynosi 0,5 — jest to warto<[, przy której wizualizatory tego algorytmu
zwracajX informacje tylko o zale\no<ciach, których prawdopodobieUstwo
wystXpienia jest wi4ksze od prawdopodobieUstwa ich braku.

seby przekona[ si4, jak zmiana parametru

MINIMUM_DEPENDENCY_PROBABILITY

wp9ynie

na zdolno<[ naiwnego klasyfikatora Bayesa firmy Microsoft do rozwiXzywania pro-
blemów nieliniowych, raz jeszcze przeprowadN klasyfikacj4 kolorów pól na szachow-
nicy, tym razem ustawiajXc warto<[ tego parametru na 0,01 (rysunek 9.2).

Rysunek 9.2.
Naiwny klasyfikator
Bayesa firmy
Microsoft to prosty
algorytm eksploracji
danych; jego
dzia3aniem mo4emy
sterowa0 w bardzo
ograniczonym zakresie

Zgodnie z oczekiwaniami obni\enie warto<ci tego parametru nie wp9yn49o na otrzy-
mane wyniki — algorytm nadal nie jest w stanie znaleN[ \adnych zale\no<ci pomi4dzy
kolumnX i wierszem pola na szachownicy a jego kolorem.

Kup ksi

ąĪkĊ

Pole

ü ksiąĪkĊ

258

Cz"#$ II Eksploracja

Zastosowania naiwnego
klasyfikatora Bayesa

„Naiwno<[” klasyfikatora Bayesa ogranicza jego stosowanie w modelach klasyfikacyj-
nych, ale w \aden sposób nie zmniejsza jego warto<ci dla modeli opisowych. W szczegól-
no<ci jego szybko<[ i ma9e wymagania dotyczXce pami4ci czyniX z niego doskona9e
narz4dzie do oceny danych wej<ciowych.

Drugi z opisanych poni\ej przyk9adów demonstruje predykcyjne mo\liwo<ci naiwne-
go klasyfikatora Bayesa — je\eli tylko atrybuty wej<ciowe rzeczywi<cie sX od siebie
niezale\ne lub ewentualne zale\no<ci mi4dzy nimi sX nieistotne w ramach przyj4tego
modelu (jak ma to miejsce np. podczas oceniania wiadomo<ci e-mail na podstawie po-
szczególnych s9ów, czy jest ona spamem), algorytm ten okazuje si4 szybkim i dok9ad-
nym klasyfikatorem.

W serwerze SQL klasyfikator Bayesa firmy Microsoft stosowany jest do klasyfikacji
i — z pewnymi ograniczeniami — asocjacji.

Badanie zale&no#ci pomi"dzy atrybutami

Naiwny klasyfikator Bayesa firmy Microsoft doskonale nadaje si4 (o czym powiedziano
w rozdziale 3.) do analizowania zale\no<ci pomi4dzy atrybutami. W tym punkcie
utworzymy model analizujXcy zale\no<ci pomi4dzy atrybutami klientów firmy Adven-
ture Works:

Uruchom konsol4 SSMS i po9Xcz si4 z serwerem SSAS.

Zaznacz baz4 analitycznX

DataMining

i wy<wietl okno edytora DMX.

Utwórz w tej bazie poni\szy model eksploracji danych (tworzXc model za pomocX
instrukcji

CREATE MINING MODEL

, automatycznie utworzymy struktur4 o nazwie

tworzonego modelu, uzupe9nionX o sufiks

_Structure

CREATE MINING MODEL CustomersAnalysis (
    [ID]                   LONG KEY,
    [Age]                  LONG DISCRETIZED(CLUSTERS,5),
    [MaritalStatus]        TEXT DISCRETE PREDICT,
    [Gender]               TEXT DISCRETE PREDICT,
    [TotalChildren]        LONG DISCRETE PREDICT,
    [NumberChildrenAtHome] LONG DISCRETE PREDICT,
    [Education]            TEXT DISCRETE PREDICT,
    [Occupation]           TEXT DISCRETE PREDICT,
    [YearlyIncome]         LONG DISCRETIZED(CLUSTERS,8),
    [HouseOwnerFlag]       TEXT DISCRETE PREDICT,
    [NumberCarsOwned]      LONG DISCRETE PREDICT,
    [TotalAmount]          LONG DISCRETIZED(CLUSTERS,8) PREDICT,
    [TotalQuantity]        LONG DISCRETE PREDICT,
    [BikesQuantity]        LONG DISCRETE PREDICT,
    [BikesAmount]          LONG DISCRETIZED(CLUSTERS,8) PREDICT,

Kup ksi

ąĪkĊ

Pole

ü ksiąĪkĊ

Rozdzia% 9. Naiwny klasyfikator Bayesa firmy Microsoft

259

    [ClothingQuantity]     LONG DISCRETE PREDICT,
    [ClothingAmount]       LONG DISCRETIZED(CLUSTERS,8) PREDICT,
    [AccessoriesQuantity]  LONG DISCRETE PREDICT,
    [AccessoriesAmount]    LONG DISCRETIZED(CLUSTERS,8) PREDICT,
    [MonthsAsCustomer]     LONG DISCRETIZED(CLUSTERS,10) PREDICT )
USING Microsoft_Naive_Bayes

Zwró[ uwag4, \e wszystkie atrybuty sX dyskretne lub poddane dyskretyzacji oraz \e
wszystkie one zosta9y u\yte w roli atrybutów wej<ciowych i wyj<ciowych.

Utwórz, np. korzystajXc z do9Xczonego do ksiX\ki skryptu XMLA, Nród9o danych

Adventure Works DW

i skonfiguruj nazw4 i has9o u\ytkownika, z którego uprawnieniami

serwer SSAS b4dzie 9Xczy9 si4 z tym Nród9em danych, a nast4pnie przetwórz ten mo-
del, wykonujXc poni\szX instrukcj4:

INSERT INTO CustomersAnalysis([ID], [Age], [MaritalStatus], [Gender], [TotalChildren]
,[NumberChildrenAtHome], [Education], [Occupation], [YearlyIncome], [HouseOwnerFlag]
,[NumberCarsOwned], [TotalAmount], [TotalQuantity], [BikesQuantity], [BikesAmount]
,[ClothingQuantity], [ClothingAmount], [AccessoriesQuantity], [AccessoriesAmount]
,[MonthsAsCustomer])
OPENQUERY ([Adventure Works DW], 'SELECT [ID], [Age], [MaritalStatus],
[Gender], [TotalChildren], [NumberChildrenAtHome], [Education], [Occupation],
[YearlyIncome], [HouseOwnerFlag], [NumberCarsOwned], [TotalAmount], [TotalQuantity],
[BikesQuantity], [BikesAmount], [ClothingQuantity], [ClothingAmount],
[AccessoriesQuantity], [AccessoriesAmount] ,[MonthsAsCustomer]
FROM [dbo].[CustomersHistoryTrain]')

Po wy<wietleniu raportu Dependency Network (\eby wy<wietli[ okno z wizualizatorami
bezpo<rednio z konsoli SSMS, nale\y kliknX[ model eksploracji danych i wybra[
z menu kontekstowego Browse) przekonamy si4, \e u\ywany w poprzednich modelach
w roli atrybutu wyj<ciowego atrybut

TotalAmount

jest silnie powiXzany nie tylko z atrybu-

tami opisujXcymi klientów (takimi jak

Age

Occupation

czy

TotalChildren

), ale równie\

z atrybutami opisujXcymi histori4 zakupów tych klientów (takimi jak

AccessoriesAmount

BikesAmount

ClothingAmount

czy

TotalQuantity

). Jednak te ostatnie atrybuty sX silnie

powiXzane nie tylko z obja<nianym atrybutem

TotalAmount

, ale równie\ ze sobX na-

wzajem. Z rozdzia9u 5. wiadomo, \e w modelach klasyfikacyjnych nie nale\y u\ywa[
w roli atrybutów wej<ciowych silnie powiXzanych ze sobX atrybutów, dlatego atry-
buty te nie by9y u\ywane w utworzonych wcze<niej modelach.

Raport zale\no<ci nie zawiera informacji na temat stanów poszczególnych atrybutów.
Te dane znajdziemy w pozosta9ych raportach wizualizatora naiwnego klasyfikatora
Bayesa firmy Microsoft lub odczytujXc struktur4 modelu. Wizualizator ka\dego algo-
rytmu eksploracji danych mo\na zastXpi[ ogólnym wizualizatorem Microsoft Generic
Content Tree Viewer, zwracajXcym informacj4 na temat struktury modelu.

Wy<wietl go, a nast4pnie z listy w4z9ów modelu wybierz w4ze9 opisujXcy zale\no<ci
pomi4dzy atrybutem

Education

a poszczególnymi stanami atrybutu

TotalAmount

(ry-

sunek 9.3).

Kup ksi

ąĪkĊ

Pole

ü ksiąĪkĊ

260

Cz"#$ II Eksploracja

Rysunek 9.3. Szczegó3owe informacje na temat modeli eksploracji danych wraz z ich formatowaniem
mo4na skopiowa0 do schowka i wklei0 np. do dokumentu Worda

Modele naiwnego klasyfikatora Bayesa firmy Microsoft liczX tyle w4z9ów drugiego
poziomu (w4z9ów typu 9.), ile jest zdefiniowanych atrybutów wej<ciowych (w4z9em
pierwszego poziomu jest sam model eksploracji danych). List4 tych w4z9ów wraz z ich
identyfikatorami mo\na odczyta[, wywo9ujXc poni\szX procedur4:

CALL GetPredictableAttributes ('CustomersAnalysis')

Na trzecim poziomie znajdujX si4 w4z9y zawierajXce atrybuty wej<ciowe (w4z9y typu 10.),
a na czwartym (w w4z9ach typu 11.) — znalezione zale\no<ci pomi4dzy poszczególnymi
atrybutami wej<ciowymi a atrybutem wyj<ciowym, nadrz4dnym dla danego w4z9a.

Klasyfikacja dokumentów

Analiza dokumentów tekstowych wymaga ich wcze<niejszego podzielenia na frazy —
to wyst4powanie lub brak w dokumencie poszczególnych fraz b4dzie podstawX ich
oceny. Analiza dokumentów tekstowych przypomina wi4c analiz4 koszykowX: koszyki
zakupów analizowane sX pod kXtem wyst4powania w nich poszczególnych towarów,
dokumenty tekstowe — pod kXtem wyst4powania w nich poszczególnych fraz.

Podzielone na frazy dokumenty mogX by[:

Klasyfikowane — frazy zapisane w tabeli zagnie\d\onej b4dX podstawX
zaklasyfikowania dokumentu np. jako spam.

Kup ksi

ąĪkĊ

Pole

ü ksiąĪkĊ

Rozdzia% 9. Naiwny klasyfikator Bayesa firmy Microsoft

261

Dzielone na segmenty na podstawie cz4stotliwo<ci wyst4powania w nich
poszczególnych fraz.

Kojarzone ze sobX na podstawie wyst4pujXcych w nich fraz.

W tym punkcie przeprowadzimy klasyfikacj4 wiadomo<ci e-mail. Wymaga to:

Zbudowania s9ownika zawierajXcego wszystkie frazy wyst4pujXce w tych
dokumentach.

Dekompozycji poszczególnych dokumentów na frazy zapisane w s9owniku.

Zbudowania modelu klasyfikacyjnego.

Roz9o\enia ocenianych dokumentów na frazy i sklasyfikowania ich przy u\yciu
zbudowanego modelu.

Do zbudowania s9ownika u\yjemy transformacji Term Extraction us9ugi SSIS:

Uruchom Business Intelligence Development Studio, utwórz nowy projekt typu
Integration Services i nazwij go

Text Analysis

Dodaj do pakietu SSIS zadanie Data Flow Task i nazwij je

Build Dictionary

PrzejdN na zak9adk4 Data Flow.

Dodaj do zadania

Build Dictionary

transformacj4 ADO.NET Source i pobierz

za jego pomocX dane z tabeli

EMails

, znajdujXcej si4 w przyk9adowej bazie danych

DataMiningDW

Dodaj do tego zadania transformacj4 Term Extraction i po9Xcz jX z domy<lnym
(zielonym) wyj<ciem utworzonego Nród9a danych.

Dwukrotnie kliknij t4 transformacj4 — wy<wietli si4 okno edytora Term
Extraction Transformation Editor:

Na zak9adce Term Extraction wybierz kolumn4, w której przechowywane
sX tre<ci wiadomo<ci e-mail (rysunek 9.4).

Zak9adka Exclusion pozwala wskaza[ tabel4 zawierajXcX frazy wykluczone
ze s9ownika.

PrzejdN na zak9adk4 Advanced. Pozwala ona skonfigurowa[ sposób
rozk9adania tekstu na frazy: m.in. to, czy ma on by[ dzielony na pojedyncze
wyrazy lub tylko na frazy, wybra[ sposób oceniania fraz (mogX by[ one
oceniane tylko na podstawie cz4stotliwo<ci wyst4powania w danym
dokumencie oraz z uwzgl4dnieniem tego, jak cz4sto fraza wyst4powa9a
we wszystkich dokumentach

), minimalnX liczb4 wystXpieU fraz oraz ich

maksymalnX d9ugo<[ w s9owach.

Zamknij okno edytora przyciskiem OK.

Ocena frazy jest tym wy\sza, im cz4<ciej wyst4puje ona w dokumencie, ale metoda TFIDF dodatkowo
obni\a oceny fraz cz4sto wyst4pujXcych we wszystkich dokumentach.

Kup ksi

ąĪkĊ

Pole

ü ksiąĪkĊ

262

Cz"#$ II Eksploracja

Rysunek 9.4. Wynikiem transformacji b2d1 dwie nowe kolumny: w kolumnie o domy?lnej nazwie Term
zostan1 zapisane frazy znaczeniowe, w kolumnie Score — punkty obliczone na podstawie cz2stotliwo?ci
ich wyst2powania

Dodaj do zadania transformacj4 ADO.NET Destination i utwórz za pomocX
tego zadania w bazie danych

DataMining

tabel4

Dictionary

, w której zapisane

zostanX frazy i ich oceny.

Uruchom pakiet SSIS (rysunek 9.5).

Po zbudowaniu s9ownika mo\emy roz9o\y[ poszczególne wiadomo<ci e-mail na frazy:

PrzejdN do zak9adki Control Flow, dodaj do pakietu kolejne zadanie Data Flow
Task i nazwij je

Decompose Documents

Po9Xcz zadanie

Build Dictionary

z zadaniem

Decompose Documents

— w ten

sposób najpierw zostanie utworzony s9ownik, który nast4pnie zostanie u\yty
do dekompozycji wiadomo<ci e-mail.

Kliknij dwukrotnie to zadanie lewym przyciskiem myszy — wy<wietli si4 ono
w edytorze przep9ywu danych.

Dodaj do zadania

Decompose Documents

transformacj4 ADO.NET Source i pobierz

za jego pomocX dane z tabeli

EMails

znajdujXcej si4 w przyk9adowej bazie

danych

DataMiningDW

Dodaj do tego zadania transformacj4 Term Lookup i po9Xcz jX z domy<lnym
(zielonym) wyj<ciem utworzonego Nród9a danych.

Kup ksi

ąĪkĊ

Pole

ü ksiąĪkĊ

Rozdzia% 9. Naiwny klasyfikator Bayesa firmy Microsoft

263

Rysunek 9.5. Pakiet SSIS tworz1cy s3ownik fraz wyst2puj1cych w wiadomo?ciach e-mail (frazy zosta3y
pokazane poprzez klikni2cie strza3ki 31cz1cej dwa ostatnie zadania i wybranie opcji Enable Data Viewer)

Dwukrotnie kliknij t4 transformacj4 — wy<wietli si4 okno edytora Term Lookup
Transformation Editor:

Zak9adka Reference Table pozwala wskaza[ tabel4 s9ownikowX — po9Xcz
si4 z bazX

DataMiningDW

i wybierz tabel4

Dictionary

PrzejdN na zak9adk4 Term Lookup i po9Xcz kolumn4

Body

tabeli

Emails

z kolumnX

Term

tabeli

Dictionary

. Poniewa\ tabela utworzona za pomocX

tej transformacji b4dzie musia9a zosta[ powiXzana z nadrz4dnX tabelX

Emials

, dodaj do jej wyniku zawarto<[ kolumny

(rysunek 9.6).

ZatwierdN zmiany przyciskiem OK.

Dodaj do zadania transformacj4 ADO.NET Destination i utwórz za jego pomocX
w bazie danych

DataMinigDW

tabel4

EmailsFragments

, w której zapisane zostanX

zdekomponowane wiadomo<ci e-mail.

seby ponowne uruchomienie pakietu nie powodowa9o duplikowania wierszy zapisanych
w tabelach

Dictionary

EmailsFragments

Dodaj do niego zadanie Execute T-SQL Statement Task.

Po9Xcz je z lokalnym serwerem SQL.

Kup ksi

ąĪkĊ

Pole

ü ksiąĪkĊ

264

Cz"#$ II Eksploracja

Rysunek 9.6.
Transformacja Term
Lookup pozwoli nam
zapisa0 w tabeli
podrz2dnej fraz
informacje o tym, ile
razy wyst1pi3y one
w ka4dym dokumencie,
oraz identyfikatory
dokumentów,
w których te frazy
zosta3y znalezione

W polu T-SQL Statement wpisz poni\sze instrukcje:

USE DataMiningDW
GO
IF EXISTS (SELECT * FROM sys.tables WHERE name='Dictionary')
TRUNCATE TABLE dbo.Dictionary
GO
IF EXISTS (SELECT * FROM sys.tables WHERE name='EmailsFragments')
TRUNCATE TABLE dbo.EmailsFragments
GO

Po9Xcz to zadanie z zadaniem

Build Dictionary

Uruchom i zapisz gotowy pakiet SSIS.

DysponujXc przygotowanymi w ten sposób danymi Nród9owymi, mo\emy ju\ zbudo-
wa[ model klasyfikujXcy dokumenty. Nasz model b4dzie je klasyfikowa9 wy9Xcznie
na podstawie tematów i priorytetów wiadomo<ci oraz znajdujXcych si4 w nich fraz —
to, ile razy wyst4puje w nich dana fraza, pominiemy. Dla odmiany model ten utwo-
rzymy w <rodowisku BIDS:

Kup ksi

ąĪkĊ

Pole

ü ksiąĪkĊ

Rozdzia% 9. Naiwny klasyfikator Bayesa firmy Microsoft

265

Po9Xcz si4 z analitycznX bazX danych

DataMining

Utwórz nowy widok danych Nród9owych i dodaj do niego tabele

Emails

EmailsFragments

Po9Xcz te tabele, przeciXgajXc kolumn4

tabeli

EmailsFragments

do kolumny

tabeli

Emails

AnalizujXc przyk9adowe dane, zwró[ uwag4, \e zaledwie 371 (1,5%) fraz
pochodzi z wiadomo<ci oznaczonych jako spam. Poniewa\ nasz model ma
klasyfikowa[ dokumenty, musimy zmieni[ rozk9ad atrybutu wyj<ciowego,
sztucznie zwi4kszajXc cz4stotliwo<[ wyst4powania fraz wskazujXcych na
niechciane wiadomo<ci:

Dodaj do widoku danych Nród9owych nazwane zapytanie

SelectedFragments

Odczytaj w tym zapytaniu wszystkie fragmenty niechcianych wiadomo<ci
uzupe9nione o 2% losowo wybranych fragmentów pozosta9ych wiadomo<ci:

SELECT E.ID, Term, Frequency, NEWID() as n
FROM dbo.EmailsFragments AS F
JOIN dbo.EMails AS E ON E.ID=F.ID
WHERE E.Category='SPAM'
UNION ALL
SELECT TOP 2 PERCENT E.ID, Term, Frequency, NEWID()
FROM dbo.EmailsFragments AS F
JOIN dbo.EMails AS E ON E.ID=F.ID
WHERE E.Category<>'SPAM'
ORDER BY NEWID();

Po9Xcz utworzone zapytanie z tabelX

Emails

, przeciXgajXc jego kolumn4

do kolumny

tabeli

Emails

Zapisz zmiany i zamknij edytor widoku danych Nród9owych.

Z wykorzystaniem kreatora utwórz nowX struktur4 i model eksploracji danych:

Pobierz dane z tabel relacyjnej bazy danych.

Wybierz naiwny klasyfikator Bayesa firmy Microsoft.

Wska\ widok danych Nród9owych utworzony w poprzednich punktach.

Na tabel4 nadrz4dnX (ang. Case) wybierz tabel4

Emails

, na tabel4

zagnie\d\onX (ang. Nested) — nazwane zapytanie

SelectedFragments

Zaznacz kolumn4 klucza zagnie\d\onego przypadku (kolumn4

Term

dodaj do listy wej<ciowych atrybutów kolumny

Category

U\yj wszystkich danych jako przypadków treningowych.

Zwró[ uwag4, \e naiwny klasyfikator Bayesa firmy Microsoft nie umo\liwia
zaznaczenia opcji Allow drill through (przedstawiona w poprzednim punkcie
struktura modeli tego algorytmu jest ma9o intuicyjna i nie pozwala w prosty
sposób powiXza[ znalezionych zale\no<ci z poszczególnymi przypadkami).
ZakoUcz prac4 kreatora.

Kup ksi

ąĪkĊ

Pole

ü ksiąĪkĊ

266

Cz"#$ II Eksploracja

Przetwórz zbudowany model. Wy<wietlX si4 dwa ostrze\enia:

Automatic feature selection has been applied to model, due to the large
number of attributes. Set MAXIMUM_INPUT_ATTRIBUTES and/or
MAXIMUM_OUTPUT_ATTRIBUTES to increase the number of attributes
considered by the algorithm — to ostrze\enie dotyczy zagnie\d\onego
atrybutu

Term

Cardinality reduction has been applied on column, Subject of model, E Mails
due to the large number of states in that column. Set MAXIMUM_STATES
to increase the number of states considered by the algorithm — to ostrze\enie
dotyczy atrybutu

Subject

Wy<wietl okno w9a<ciwo<ci algorytmu i ustaw na

warto<ci parametrów

MAXIMUM_INPUT_ATTRIBUTES

oraz

MAXIMUM_STATES

Ponownie przetwórz model eksploracji danych i zapoznaj si4 z jego wynikami.

10.

PrzejdN na zak9adk4 Data Mining Prediction i wykonaj zapytanie czasu
rzeczywistego, oceniajXce, czy e-mail zawierajXcy wybrane frazy b4dzie
sklasyfikowany jako spam (rysunek 9.7).

Rysunek 9.7. Business Intelligence Development Studio pozwala wybra0 z listy warto?ci
zagnie4d4onego atrybutu te, których chcemy u4y0 w zapytaniach czasu rzeczywistego

Kup ksi

ąĪkĊ

Pole

ü ksiąĪkĊ

Skorowidz

abstrakcja, 30
adaptacyjny interfejs, 406
AdventureWorksDW, 16, 52
algorytmy

CART, 268
drzew decyzyjnych, 72, 166
ID3, 268
klastrowania, 297
klastrowania sekwencyjnego, 319
odkrywania regu9 asocjacyjnych, 335
regresji liniowej, 267
regresji logistycznej, 351

anachronizmy, 76
analiza

biznesowa, 35
dokumentów tekstowych, 260
koszykowa, 142, 335, 343
odwiedzin stron WWW, 324
sekwencyjna, 151
skupieU komórek, 305
typu cross-selling, 347
wariantowa, 111, 152, 295
zale\no<ci pomi4dzy atrybutami, 73, 258, 342

anomalie, 149, 314, 332
aplikacje inteligentne, 401
architektura SSAS, 219
asocjacja, 141, 177, 279
atrybuty, 57, 227

bez warto<ci, 237
ciXg9e, 57, 86
dyskretne, 57, 81
grupowanie, 81
jednowarto<ciowe, 57
monotoniczne, 59
nadmiarowe, 75
niezale\ne, 74
okresowe, 86

porzXdkowe, 85
rozk9ad warto<ci, 59
stany, 57
tekstowe, 68
wielowarto<ciowe, 57
zale\no<ci, 73, 258, 342

AUTO_DETECT_PERIODICITY, 286

Bayesa naiwny klasyfikator, 72, 253

analiza dokumentów tekstowych, 260
analiza zale\no<ci pomi4dzy atrybutami, 258
ograniczenia, 255
omówienie, 253
parametry, 256
zastosowania, 258

bazy danych

AdventureWorksDW, 16
DataMiningDW, 17
DataMiningSolutions, 19

bezpieczeUstwo SSAS, 221
Bias, 50
BIDS, 162, 192

interfejs, 193
tryb offline, 194
tryb online, 194

bity informacji, 77
b94dy

pomiaru, 50
przypadkowy, 51
systematyczny, 50

brakujXce dane, 69

uzupe9nienie, 404

Breiman, Leo, 268
Business Intelligence Development Studio,

Patrz BIDS

Kup ksi

ąĪkĊ

Pole

ü ksiąĪkĊ

414

Microsoft SQL Server. Modelowanie i eksploracja danych

cele

eksploracji danych, 35
modelowania, 35

ciXg9e atrybuty, 57, 86
CLUSTER_COUNT, 303, 323
CLUSTER_SEED, 303
CLUSTERING_METHOD, 304
Co b4dzie, je\eli?, 155
COMPLEXITY_PENALTY, 273, 286
CRISP-DM, 11
cross-selling, 347
czynniki kluczowe, 128, 129

dane

brakujXce, 69, 404
diagnostyczne, 115
dla modeli deskrypcyjnych, 108
dla modeli predykcyjnych, 109
duplikaty, 62
integralno<[, 62
kontrola poprawno<ci, 401
korelacja, 106
modelowanie, 27
na potrzeby analizy wariantowej, 111
ocena, 49, 121
oczyszczanie, 122
odchylenie standardowe, 67
opisywanie, 36
podzia9, 124
poprawa jako<ci, 99
profilowanie, 54
próbkowanie, 64
przygotowanie, 79

do dalszej eksploracji, 312

reprezentatywno<[, 64
serie, 92

krótkie, 293
przeplatane, 291

testowe, 113
treningowe, 114

filtrowanie, 209

wyniki eksploracji, 42
wzbogacenie, 103
zakres warto<ci, 63
zbie\no<[, 65
zewn4trzne, 162
zgodno<[ ze wzorcem, 63
Nród9a, 195, 240
Nród9owe, 40, 49, 121

nieprzygotowane, 393

niew9a<ciwe, 392
widoki, 196

Data Mining, 15, 121, 162

analiza koszykowa, 142
dane Nród9owe, 121
instalacja, 15
ocena danych, 121
oczyszczanie danych, 122
podzia9 danych, 124

Data Mining Extensions to SQL, Patrz DMX
Data Profile Viewer, 55
DataMiningDW, 17
DataMiningSolutions, 19
decydenci, 38
decyzje

mapa, 37
modelowanie, 31
typy, 36
wspomaganie, 25, 36

deskrypcyjne modele eksploracji danych, 43, 108
diagnostyczne dane, 115
diagramy Ishikawy, 40
DMCONTENTQUERY, 191
DMPREDICT, 191
DMPREDICTTABLEROW, 191
DMX, 227

funkcje predykcyjne, 251
modele eksploracji danych, 235

odczytywanie zawarto<ci, 243
przetwarzanie, 239

sk9adnia, 232
struktury eksploracji danych, 233

odczytywanie zawarto<ci, 243
przetwarzanie, 239

wstawianie wierszy, 242, 243
wybieranie przypadków, 239
zagnie\d\anie przypadków, 236
zagnie\d\anie tabel, 234
zapytania predykcyjne, 245
Nród9a danych, 240

dok9adno<[ predykcji modeli eksploracji danych, 374
dokumenty tekstowe, 260
drzewa decyzyjne, 72, 166, 267

asocjacja, 279
klasyfikacja, 275
ograniczenia, 272
omówienie, 268
parametry, 273
szacowanie, 277
zastosowania, 275

Dudek, Daniel, 398
duplikaty, 62
dyskretne atrybuty, 57, 81
dyskretyzacja, 90

Kup ksi

ąĪkĊ

Pole

ü ksiąĪkĊ

Skorowidz

415

eksploracja danych, 9, 25, 32, 117

cele, 35
dane Nród9owe, 40
etapy, 10
formu9owanie problemu, 33
hipotezy, 32
kontekst, 40
modele, 182, 184, 206, 232, 235

dane brakujXce, 70
deskrypcyjne, 43
dok9adno<[ predykcji, 374
korzystanie, 185
kryteria porównawcze, 371
9atwo<[ interpretacji, 373
ocena, 369, 376
odczytywanie zawarto<ci, 243
poprawa, 369
powrót do <redniej, 369
predykcyjne, 43
problemy, 391
przetwarzanie, 210, 220, 239
przydatno<[, 375
skalowalno<[, 375
wiarygodno<[ predykcji, 374
wizualizatory, 398
wstawianie wierszy, 242
wydajno<[, 375
zarzXdzanie, 190
zarzXdzanie poprzez SSMS, 216

narz4dzia, 162
ocena ryzyka, 45
proces, 10, 11
serwer SQL, 218
struktury, 182, 199, 231

odczytywanie zawarto<ci, 243
przetwarzanie, 204, 220, 239
wstawianie wierszy, 242

sukces projektu, 44
techniki, 119, 126
wyniki, 42
zakres projektu, 39
zastosowania, 119

entropia, 78
etapy eksploracji danych, 10
Excel, 15

asocjacja, 177
formu9y, 191
grupowanie, 173
jako klient SSAS, 162
klasyfikacja, 163
modele eksploracji danych, 182, 184
narz4dzia eksploracji danych, 162
prognozowanie, 179

struktury eksploracji danych, 182
szacowanie, 170
wersja demonstracyjna, 15

filtrowanie danych treningowych, 209
FORCE_REGRESSOR, 273
FORECAST_METHOD, 286
formu9owanie problemu, 33
formu9y arkusza Excel, 191
Friedman, Jerome, 268
funkcje

Co b4dzie, je\eli?, 155
predykcyjne, 251
szukania wyniku, 153
uzupe9niania, 132, 136
wykrywania anomalii, 149
wykrywania kategorii, 146

Fuzzy Grouping, 82

Garbage In, Garbage Out, 49
grupowanie, 81, 145, 173

funkcja wykrywania kategorii, 146
rozmyte, 82

HIDDEN_NODE_RATIO, 360
hipotezy, 32
HISTORIC_MODEL_COUNT, 286, 386
HISTORIC_MODEL_GAP, 286, 386
HOLDOUT_PERCENTAGE, 360
HOLDOUT_SEED, 360
Hopfield, John, 352

informacje

bity, 77
kontekst, 78
mierzenie, 76
modelowanie, 27
zaskakujXce, 77

INSTABILITY_SENSITIVITY, 287
instalacja

Data Mining, 15
serwera SQL, 13

integracja serwera SQL

z SSAS, 223
z SSIS, 226
z SSRS, 226

Kup ksi

ąĪkĊ

Pole

ü ksiąĪkĊ

416

Microsoft SQL Server. Modelowanie i eksploracja danych

integralno<[ danych, 62
inteligentne aplikacje, 401

adaptacyjny interfejs, 406
kontrola poprawno<ci danych, 401
uzupe9nianie brakujXcych danych, 404

interfejs adaptacyjny, 406
Ishikawy diagramy, 40

jako<[ danych, 99
jeden do wielu, 84
jednowarto<ciowe atrybuty, 57

kalkulator predykcyjny, 138
kategorie, 146
klastrowanie, 297

analiza skupieU komórek, 305
klasyfikacja, 309
ograniczenia, 302
omówienie, 297
parametry, 303
przygotowanie danych do dalszej eksploracji, 312
szacowanie, 309
wykrywanie anomalii, 314
zastosowania, 305

klastrowanie sekwencyjne, 319

analiza odwiedzin stron WWW, 324
klasyfikacja, 327
ograniczenia, 323
omówienie, 320
parametry, 323
przewidywanie kolejnych zdarzeU, 329
wykrywanie anomalii, 332
zastosowania, 324

klasyczna standaryzacja, 89
klasyfikacja, 109, 126, 163, 275, 309, 327, 366

funkcja uzupe9niania, 132
wykrycie kluczowych czynników, 128, 129
zapytanie predykcyjne, 134

klasyfikator naiwny Bayesa, 72, 253

analiza dokumentów tekstowych, 260
analiza zale\no<ci pomi4dzy atrybutami, 258
ograniczenia, 255
omówienie, 253
parametry, 256
zastosowania, 258

klucze, 230
kluczowe czynniki, 128, 129
k9opoty ze sformu9owaniem problemu, 33

kodowanie

jeden do wielu, 84
wiele do wielu, 85

kontekst

eksploracji danych, 40
informacji, 78

kontrola poprawno<ci danych, 401
korelacja danych, 106
korzystanie z modeli eksploracji danych, 185
kostka wielowymiarowa, 292
kryteria porównawcze modeli eksploracji

danych, 371

9aUcuch Markowa, 320
9atwo<[ interpretacji modeli eksploracji danych, 373

macierz klasyfikacji, 384
mapa decyzji, 37
Market Basket Analysis, 142
Markowa 9aUcuch, 320
MAXIMUM_INPUT_ATTRIBUTES, 273, 304,

361

MAXIMUM_ITEMSET_COUNT, 341
MAXIMUM_ITEMSET_SIZE, 341
MAXIMUM_OUTPUT_ATTRIBUTES, 273, 361
MAXIMUM_SEQUENCE_STATES, 323
MAXIMUM_SERIES_VALUE, 287
MAXIMUM_STATES, 304, 323, 361
MAXIMUM_SUPPORT, 341
McCulloch, Warren, 352
metody oceny modeli eksploracji danych, 376

macierz klasyfikacji, 384
odchylenie mi4dzyklastrowe, 390
odchylenie wewnXtrzklastrowe, 390
walidacja krzy\owa, 387
wykres podniesienia, 376
wykres punktowy, 381
wykres zysku, 376

Microsoft

drzewa decyzyjne, 267
klastrowanie, 297
klastrowanie sekwencyjne, 319
naiwny klasyfikator Bayesa, 253
odkrywanie regu9 asocjacyjnych, 335
regresja liniowa, 267
regresja logistyczna, 351
sieci neuronowe, 351
szeregi czasowe, 281

mierzenie informacji, 76

Kup ksi

ąĪkĊ

Pole

ü ksiąĪkĊ

Skorowidz

417

MINIMUM_IMPORTANCE, 341
MINIMUM_ITEMSET_SIZE, 341
MINIMUM_PROBABILITY, 341
MINIMUM_SERIES_VALUE, 287
MINIMUM_SUPPORT, 273, 287, 304, 323, 341
MISSING_VALUE_SUBSITUTION, 287, 386
modele eksploracji danych, 182, 184, 206, 232, 235

dane brakujXce, 70
deskrypcyjne, 43, 108
dok9adno<[ predykcji, 374
korzystanie, 185
kryteria porównawcze, 371
9atwo<[ interpretacji, 373
ocena, 369, 376
odczytywanie zawarto<ci, 243
poprawa, 369
powrót do <redniej, 369
predykcyjne, 43, 109
problemy, 391
przetwarzanie, 210, 220, 239
przydatno<[, 375
skalowalno<[, 375
wiarygodno<[ predykcji, 374
wizualizatory, 398
wstawianie wierszy, 242
wydajno<[, 375
zarzXdzanie, 190
zarzXdzanie poprzez SSMS, 216

MODELING_CARDINALITY, 304
modelowanie, 23, 25

abstrakcja, 30
cele, 35
dane, 27
decyzje, 31
informacje, 27
obiekty, 26
paradygmaty, 29
regu9y, 26
symbole, 30
wiedza, 29
wzorce, 30
zdarzenia, 26

monotoniczne atrybuty, 59

nadmiarowe atrybuty, 75
naiwny klasyfikator Bayesa, 72, 253

analiza dokumentów tekstowych, 260
analiza zale\no<ci pomi4dzy atrybutami, 258
ograniczenia, 255
omówienie, 253
parametry, 256
zastosowania, 258

narz4dzia eksploracji danych, 162

nieprzygotowane dane Nród9owe, 393
nietypowe przypadki, 149
niew9a<ciwe

algorytmy eksploracji danych, 394
dane Nród9owe, 392

niew9a<ciwie postawione zadania, 391
niezale\ne atrybuty, 74
Noise, 51
normalizacja zakresu, 87
numerowanie stanów, 84

obiekty, 26
ocena

danych, 49, 121
modeli eksploracji danych, 369

dok9adno<[ predykcji, 374
kryteria porównawcze, 371
9atwo<[ interpretacji, 373
metody, 376
powrót do <redniej, 369
przydatno<[, 375
skalowalno<[, 375
wiarygodno<[ predykcji, 374
wydajno<[, 375

ryzyka, 45

oczyszczanie danych, 122
odchylenie

mi4dzyklastrowe, 390
standardowe, 67
wewnXtrzklastrowe, 390

odkrywanie regu9 asocjacyjnych, 335
ograniczenia

drzew decyzyjnych, 272
klastrowania, 302
klastrowania sekwencyjnego, 323
naiwnego klasyfikatora Bayesa, 255
regresji logistycznej, 358
regu9 asocjacyjnych, 340
sieci neuronowych, 358
szeregów czasowych, 285

okresowe atrybuty, 86
okresowo<[, 96
OLE DB/DM, 232
Olshen, Richard, 268
opisywanie danych, 36

paradygmaty, 29
parametry

drzew decyzyjnych, 273
klastrowania, 303
klastrowania sekwencyjnego, 323

Kup ksi

ąĪkĊ

Pole

ü ksiąĪkĊ

418

Microsoft SQL Server. Modelowanie i eksploracja danych

parametry

naiwnego klasyfikatora Bayesa, 256
regresji logistycznej, 360
regu9 asocjacyjnych, 341
sieci neuronowych, 360
szeregów czasowych, 286

Pearsona wspó9czynnik korelacji liniowej, 106
PERIODICITY_HINT, 287
Pits, Walter, 352
podzia9 danych, 124
poprawa

jako<ci danych, 99
modeli eksploracji danych, 369

poprawno<[ danych, 401
porzXdkowe atrybuty, 85
powrót do <redniej, 369
prawdopodobieUstwo sukcesu projektu

eksploracji danych, 44

PREDICTION_SMOOTHING, 287
predykcja, 109, 111
predykcyjne

funkcje, 251
modele eksploracji danych, 43, 109
programowanie, 397
zapytania, 245

problem, formu9owanie, 33
problemy z modelami eksploracji danych, 391

nieprzygotowane dane Nród9owe, 393
niew9a<ciwe algorytmy, 394
niew9a<ciwe dane Nród9owe, 392
niew9a<ciwie postawione zadania, 391
Nle sparametryzowane algorytmy, 394

proces eksploracji danych, 10, 11
profilowanie danych, 54
prognozowanie, 156, 179, 289

kostka wielowymiarowa, 292
krótkie serie danych, 293
przeplatane serie danych, 291

programowanie predykcyjne, 397

inteligentne aplikacje, 401
narz4dzia, 397
raporty us9ugi SSRS, 399
wizualizatory modeli eksploracji danych, 398

projekt eksploracji danych

dane Nród9owe, 40
kontekst, 40
ocena ryzyka, 45
sukces, 44
zakres, 39

proporcja, zmiana, 109
próbkowanie danych, 64
przestrzeU stanów, 79
przetwarzanie

modeli eksploracji danych, 210, 220
struktur eksploracji danych, 204, 220

przewidywanie kolejnych zdarzeU, 329
przydatno<[ modeli eksploracji danych, 375
przygotowanie danych, 79

do dalszej eksploracji, 312

przyk9adowe bazy danych

AdventureWorksDW, 16
DataMiningDW, 17
DataMiningSolutions, 19

przypadki, 51, 229

wybieranie, 239
zagnie\d\anie, 213, 236

Quinlan, John Ross, 268

raporty us9ugi SSRS, 399
redukcja wymiarów, 105
regresja liniowa, 267
regresja logistyczna, 351

klasyfikacja, 366
ograniczenia, 358
omówienie, 352
parametry, 360
szacowanie, 362
zastosowania, 361

regu9y, 26
regu9y asocjacyjne, 335

analiza koszykowa, 343
analiza typu cross-selling, 347
analiza zale\no<ci pomi4dzy atrybutami, 342
ograniczenia, 340
omówienie, 336
parametry, 341
zastosowania, 341

reprezentatywno<[ danych, 64
Rosenblatt, Frank, 352
rozk9ad warto<ci atrybutów, 59
ryzyko, 45

SAMPLE_SIZE, 304, 361
SCORE_METHOD, 274
serie danych, 92

krótkie, 293
przeplatane, 291

serwer SQL, 12

eksploracja danych, 161, 218
instalacja, 13
integracja z SSAS, 223

Kup ksi

ąĪkĊ

Pole

ü ksiąĪkĊ

Skorowidz

419

integracja z SSIS, 226
integracja z SSRS, 226
us9ugi, 12
wersja demonstracyjna, 13
wymagane sk9adniki, 14

sezonowo<[, 96
sieci neuronowe, 351

klasyfikacja, 366
ograniczenia, 358
omówienie, 352
parametry, 360
szacowanie, 362
zastosowania, 361

Silesian Code Camp, 398
skalowalno<[ modeli eksploracji danych, 375
skalowanie

liniowe, 88
logistyczne, 89

sk9adniki serwera SQL, 14
skrajne warto<ci, 87
skupienia komórek, 305
SPLIT_METHOD, 274
SQL Server Analysis Services, Patrz SSAS
SQL Server Database Engine, 12
SQL Server Integration Services, Patrz SSIS
SQL Server Reporting Services, Patrz SSRS
SSAS, 12, 126, 162

architektura, 219
bezpieczeUstwo, 221
zarzXdzanie poprzez SSMS, 216

SSIS, 12, 54

profilowanie danych, 54

SSMS, 162, 216
SSRS, 13

raporty us9ugi, 399

sta9e, 57
standaryzacja klasyczna, 89
stany

atrybutów, 57, 229
numerowanie, 84
przestrzeU, 79

Stone, Charles, 268
STOPPING_TOLERANCE, 304
struktury eksploracji danych, 182, 199, 231, 233

odczytywanie zawarto<ci, 243
przetwarzanie, 204, 220, 239
wstawianie wierszy, 242

sukces projektu eksploracji danych, 44
symbole, 30
szacowanie, 136, 170, 277, 309, 362

funkcja uzupe9niania, 136
kalkulator predykcyjny, 138

szeregi czasowe, 281

analiza wariantowa, 295

ocena dok9adno<ci, 386
ograniczenia, 285
omówienie, 281
parametry, 286
prognozowanie, 289

kostka wielowymiarowa, 292
krótkie serie danych, 293
przeplatane serie danych, 291

zastosowania, 288

sztuczna inteligencja, 352
szukanie wyniku, 153
szum, 97

tabele zagnie\d\one, 234

wstawianie wierszy, 243

TABLESAMPLE, 115
Targeted Mailing Decision Tree, 134
techniki eksploracji danych, 119, 126

analiza sekwencyjna, 151
analiza wariantowa, 152
asocjacja, 141
grupowanie, 145
klasyfikacja, 126
prognozowanie, 156
szacowanie, 136

tekstowe atrybuty, 68
testowe dane, 113
trend, 96
treningowe dane, 114

filtrowanie, 209

typy decyzji, 36

us9ugi serwera SQL, 12

eksploracja danych, 218

uzupe9nienie

brakujXcych danych, 404
warto<ci, 99

walidacja krzy\owa, 116, 387
warto<ci

atrybutów, 59, 229
skrajne, 87
uzupe9nienie, 99
zakres, 63

wersje demonstracyjne

Excela, 15
serwera SQL, 13

Kup ksi

ąĪkĊ

Pole

ü ksiąĪkĊ

Czytaj dalej...

420

Microsoft SQL Server. Modelowanie i eksploracja danych

What-If, 155
wiarygodno<[ predykcji modeli eksploracji

danych, 374

widoki danych Nród9owych, 196
wiedza, 29
wiele do wielu, 85
wielowarto<ciowe atrybuty, 57
wielowymiarowa kostka, 292
Wightman, Charles, 352
wizualizatory modeli eksploracji danych, 398
wspomaganie decyzji, 25, 36
wspó9czynnik korelacji liniowej Pearsona, 106
wstawianie wierszy

do modeli eksploracji danych, 242
do struktur eksploracji danych, 242
do tabel zagnie\d\onych, 243

wybieranie przypadków, 239
wydajno<[ modeli eksploracji danych, 375
wydzielenie danych testowych, 113
wykresy

podniesienia, 376
punktowy, 381
zysku, 376

wykrywanie

anomalii, 149, 314, 332
kategorii, 146

wymiary, redukcja, 105
wyniki eksploracji danych, 42
wzbogacenie danych, 103
wzorce, 30, 63

xml, 55

zagnie\d\anie

przypadków, 213, 236
tabel, 234

zakres

normalizacja, 87
warto<ci danych, 63

zale\no<ci pomi4dzy atrybutami, 73, 258, 342
zapytanie predykcyjne, 134, 210, 245
zarzXdzanie modelami eksploracji danych, 190
zaskakujXce informacje, 77
zastosowania

drzew decyzyjnych, 275
eksploracji danych, 119
klastrowania, 305
klastrowania sekwencyjnego, 324
naiwnego klasyfikatora Bayesa, 258
regresji logistycznej, 361
regu9 asocjacyjnych, 341
sieci neuronowych, 361
szeregów czasowych, 288

zbie\no<[ danych, 65
zdarzenia, 26
zewn4trzne dane, 162
zgodno<[ danych ze wzorcem, 63
zmiana proporcji, 109
zmienne, 58
zmienno<[ atrybutów tekstowych, 68

Nle sparametryzowane algorytmy eksploracji

danych, 394

Nród9a danych, 195, 240
Nród9owe dane, 40, 49, 121

nieprzygotowane, 393
niew9a<ciwe, 392
widoki, 196

Kup ksi

ąĪkĊ

Pole

ü ksiąĪkĊ