background image

Ewa Figielska 2012

Ewa Figielska 2012

1

1

Eksploracja danych 

Eksploracja danych 

w. 1

w. 1

Wprowadzenie

Wprowadzenie

Zadania eksploracji danych

Zadania eksploracji danych

Definicje wybranych poj

Definicje wybranych poj

Wst pna obróbka danych

Wst pna obróbka danych

background image

2

2

Ewa Figielska 2012

Ewa Figielska 2012

Literatura

Literatura

D. T. 

D. T. 

Larose

Larose

, "Odkrywanie wiedzy z danych. Wprowadzenie 

, "Odkrywanie wiedzy z danych. Wprowadzenie 

do eksploracji danych”. Wyd. Naukowe PWN 2006.

do eksploracji danych”. Wyd. Naukowe PWN 2006.

D. T. 

D. T. 

Larose

Larose

, "Metody i modele eksploracji danych". Wyd. 

, "Metody i modele eksploracji danych". Wyd. 

Naukowe PWN 2008.

Naukowe PWN 2008.

D. 

D. 

Hand

Hand

, H. 

, H. 

Mannila

Mannila

, P. 

, P. 

Smyth

Smyth

, "Eksploracja danych". WNT 

, "Eksploracja danych". WNT 

2005.

2005.

ródła internetowe:

ródła internetowe:

Statiscics

Statiscics

Homepage

Homepage

Glossary

Glossary

www.statsoft.pl

www.statsoft.pl

/

/

textbook

textbook

/

/

glosfra.html

glosfra.html

Wikipedia

Wikipedia

Tanagra

Tanagra

Tutorials

Tutorials

data

data

-

-

mining

mining

-

-

tutorials.blogspot.com

tutorials.blogspot.com

background image

3

3

Ewa Figielska 2012

Ewa Figielska 2012

Eksploracja danych 

Eksploracja danych 

przykładowe definicje

przykładowe definicje

Eksploracja danych jest procesem odkrywania 

Eksploracja danych jest procesem odkrywania 

znacz cych nowych powi za , wzorców i trendów 

znacz cych nowych powi za , wzorców i trendów 

przez przeszukiwanie du ych ilo ci danych 

przez przeszukiwanie du ych ilo ci danych 

zgromadzonych w skarbnicach danych, przy 

zgromadzonych w skarbnicach danych, przy 

wykorzystaniu metod rozpoznawania wzorców, jak 

wykorzystaniu metod rozpoznawania wzorców, jak 

równie  metod statystycznych i matematycznych. 

równie  metod statystycznych i matematycznych. 

(

(

www.gartner.com

www.gartner.com

)

)

Eksploracja danych jest 

Eksploracja danych jest 

mi dzydyscyplinarn

mi dzydyscyplinarn

dziedzin  ł cz c   techniki uczenia maszynowego, 

dziedzin  ł cz c   techniki uczenia maszynowego, 

rozpoznawania wzorców, statystyki, baz danych i 

rozpoznawania wzorców, statystyki, baz danych i 

wizualizacji w celu uzyskiwania informacji z du ych 

wizualizacji w celu uzyskiwania informacji z du ych 

baz danych. 

baz danych. 

(

(

P.Cabena

P.Cabena

i inni, 

i inni, 

Discovering

Discovering

Data 

Data 

Mining

Mining

From

From

Concept

Concept

to 

to 

Implementation

Implementation

Prentice

Prentice

Hall

Hall

Upper

Upper

Saddle

Saddle

River

River

, NJ 1998)

, NJ 1998)

background image

4

4

Ewa Figielska 2012

Ewa Figielska 2012

Zadania eksploracji danych

Zadania eksploracji danych

Opis

Opis

Szacowanie (estymacja)

Szacowanie (estymacja)

Przewidywanie (predykcja)

Przewidywanie (predykcja)

Klasyfikacja 

Klasyfikacja 

Grupowanie

Grupowanie

Odkrywanie reguł

Odkrywanie reguł

background image

5

5

Ewa Figielska 2012

Ewa Figielska 2012

Opis

Opis

Opis wzorców i trendów znajduj cych si  w danych, 

Opis wzorców i trendów znajduj cych si  w danych, 

co cz sto sugeruje mo liwe wyja nienia wzorców i 

co cz sto sugeruje mo liwe wyja nienia wzorców i 

trendów. 

trendów. 

Np. ludzie, którzy zostali zwolnieni z pracy w trakcie 

Np. ludzie, którzy zostali zwolnieni z pracy w trakcie 

kadencji obecnego prezydenta s  teraz gorzej sytuowani, 

kadencji obecnego prezydenta s  teraz gorzej sytuowani, 

jest wi c mniej  prawdopodobne,  e popr  oni obecnego 

jest wi c mniej  prawdopodobne,  e popr  oni obecnego 

prezydenta. 

prezydenta. 

Wyniki eksploracji danych powinny opisywa  jasne 

Wyniki eksploracji danych powinny opisywa  jasne 

wzorce i trendy, które mo na intuicyjnie 

wzorce i trendy, które mo na intuicyjnie 

zinterpretowa  i wyja ni .

zinterpretowa  i wyja ni .

Wysoka jako  opisu mo e by  cz sto osi gni ta 

Wysoka jako  opisu mo e by  cz sto osi gni ta 

przez eksploracyjn  analiz  danych.

przez eksploracyjn  analiz  danych.

background image

6

6

Ewa Figielska 2012

Ewa Figielska 2012

Szacowanie (estymacja)

Szacowanie (estymacja)

Np. nale y oszacowa  skurczowe ci nienie krwi pacjenta w 

Np. nale y oszacowa  skurczowe ci nienie krwi pacjenta w 

szpitalu w zale no ci od wieku, płci, wagi pacjenta oraz 

szpitalu w zale no ci od wieku, płci, wagi pacjenta oraz 

poziomu sodu we krwi. Zwi zek pomi dzy skurczowym 

poziomu sodu we krwi. Zwi zek pomi dzy skurczowym 

ci nieniem krwi pacjenta a zmiennymi opisuj cymi w 

ci nieniem krwi pacjenta a zmiennymi opisuj cymi w 

zbiorze ucz cym okre la model estymacji, który potem 

zbiorze ucz cym okre la model estymacji, który potem 

mo na stosowa  do nowych przypadków.

mo na stosowa  do nowych przypadków.

Inne przykłady:

Inne przykłady:

szacowanie  redniej ocen słuchacza studiów magisterskich na 

szacowanie  redniej ocen słuchacza studiów magisterskich na 

podstawie jego  redniej ocen ze studiów in ynierskich,

podstawie jego  redniej ocen ze studiów in ynierskich,

szacowanie, ile pieni dzy wyda losowo wybrana czteroosobowa 

szacowanie, ile pieni dzy wyda losowo wybrana czteroosobowa 

rodzina na przygotowanie dzieci do szkoły przed zbli aj cym si  

rodzina na przygotowanie dzieci do szkoły przed zbli aj cym si  

rozpocz ciem roku szkolnego.

rozpocz ciem roku szkolnego.

W modelach szacowania zmienna celu ma charakter 

W modelach szacowania zmienna celu ma charakter 

ilo ciowy.

ilo ciowy.

Metody szacowania: szacowanie warto ci punktu i 

Metody szacowania: szacowanie warto ci punktu i 

przedziału ufno ci, regresja liniowa i korelacja, regresja 

przedziału ufno ci, regresja liniowa i korelacja, regresja 

wielokrotna.

wielokrotna.

background image

7

7

Ewa Figielska 2012

Ewa Figielska 2012

Przewidywanie (predykcja)

Przewidywanie (predykcja)

W przewidywaniu wynik dotyczy przyszło ci. Np. 

W przewidywaniu wynik dotyczy przyszło ci. Np. 

przewidywanie ceny akcji po upływie 3 miesi cy,

przewidywanie ceny akcji po upływie 3 miesi cy,

przewidywanie,  e dana cz steczka w procesie 

przewidywanie,  e dana cz steczka w procesie 

odkrywania leków doprowadzi do wytworzenia nowego 

odkrywania leków doprowadzi do wytworzenia nowego 

leku rentownego leku dla firmy farmaceutycznej.

leku rentownego leku dla firmy farmaceutycznej.

Metody przewidywania: tradycyjne metody 

Metody przewidywania: tradycyjne metody 

wykorzystywane w klasyfikacji i szacowaniu, a 

wykorzystywane w klasyfikacji i szacowaniu, a 

tak e sieci neuronowe, drzewa decyzyjne, metoda 

tak e sieci neuronowe, drzewa decyzyjne, metoda 

k

k

-

-

najbli szych

najbli szych

s siadów.

s siadów.

background image

8

8

Ewa Figielska 2012

Ewa Figielska 2012

Klasyfikacja

Klasyfikacja

Zadanie klasyfikacji posiada jako ciow  zmienn  

Zadanie klasyfikacji posiada jako ciow  zmienn  

celu. Np. 

celu. Np. 

Zmienna celu 

Zmienna celu 

grupa dochodu

grupa dochodu

mo e by  podzielona na 

mo e by  podzielona na 

trzy  kategorie: wysoki dochód,  redni dochód, niski 

trzy  kategorie: wysoki dochód,  redni dochód, niski 

dochód. 

dochód. 

Model eksploracji danych sprawdza du e zbiory 

Model eksploracji danych sprawdza du e zbiory 

rekordów, z których ka dy zawiera warto  zmiennej 

rekordów, z których ka dy zawiera warto  zmiennej 

celu oraz warto ci zmiennych wej ciowych (np. płe , 

celu oraz warto ci zmiennych wej ciowych (np. płe , 

wiek zawód) 

wiek zawód) 

-

-

> uczenie si  algorytmu na zbiorze 

> uczenie si  algorytmu na zbiorze 

ucz cym. 

ucz cym. 

Zadaniem klasyfikacji b dzie okre lenie grupy dochodu 

Zadaniem klasyfikacji b dzie okre lenie grupy dochodu 

osób 

osób 

niezapisanych

niezapisanych

w bazie danych na podstawie ich 

w bazie danych na podstawie ich 

warto ci zmiennych wej ciowych.

warto ci zmiennych wej ciowych.

Metody klasyfikacji: algorytm 

Metody klasyfikacji: algorytm 

k

k

-

-

najbli szych

najbli szych

s siadów, drzewa decyzyjne, sieci neuronowe.

s siadów, drzewa decyzyjne, sieci neuronowe.

background image

9

9

Ewa Figielska 2012

Ewa Figielska 2012

Grupowanie (

Grupowanie (

clustering

clustering

)

)

Grupowanie 

Grupowanie 

grupowanie

grupowanie

rekordów, obserwacji 

rekordów, obserwacji 

lub przypadków w klasy podobnych obiektów. 

lub przypadków w klasy podobnych obiektów. 

Grupa jest zbiorem rekordów, które s  podobne do 

Grupa jest zbiorem rekordów, które s  podobne do 

siebie nawzajem i niepodobne do rekordów z 

siebie nawzajem i niepodobne do rekordów z 

innych grup.

innych grup.

Np.

Np.

namierzenie grupy potencjalnych klientów pewnego 

namierzenie grupy potencjalnych klientów pewnego 

produktu z niszy rynkowej wyprodukowanego przez mał  

produktu z niszy rynkowej wyprodukowanego przez mał  

firm  z małym bud etem reklamowym,

firm  z małym bud etem reklamowym,

redukcja wymiarów, gdy zbiór danych ma setki 

redukcja wymiarów, gdy zbiór danych ma setki 

atrybutów.

atrybutów.

Metody: grupowanie hierarchiczne, metody 

Metody: grupowanie hierarchiczne, metody 

k

k

-

-

rednich

rednich

, sieci 

, sieci 

Kohonena

Kohonena

.

.

background image

10

10

Ewa Figielska 2012

Ewa Figielska 2012

Odkrywanie reguł

Odkrywanie reguł

Zadanie odkrywania reguł polega na poszukiwaniu 

Zadanie odkrywania reguł polega na poszukiwaniu 

powi zanych ze sob  atrybutów.

powi zanych ze sob  atrybutów.

Np. 

Np. 

supermaket

supermaket

mo e odkry ,  e z 1000 klientów 

mo e odkry ,  e z 1000 klientów 

robi cych zakupy w czwartek wieczorem  200 kupiło 

robi cych zakupy w czwartek wieczorem  200 kupiło 

pieluszki, a z tych 200, 50 kupiło piwo. Reguła 

pieluszki, a z tych 200, 50 kupiło piwo. Reguła 

asocjacyjna: "je eli kupuje pieluszki, to kupuje piwo" ze 

asocjacyjna: "je eli kupuje pieluszki, to kupuje piwo" ze 

wsparciem 200/1000=20% i ufno ci  50/200=25%.

wsparciem 200/1000=20% i ufno ci  50/200=25%.

Metody: algorytm a priori, algorytm GRI 

Metody: algorytm a priori, algorytm GRI 

background image

Ewa Figielska 2012

Ewa Figielska 2012

11

11

Definicje wybranych poj

Definicje wybranych poj

rednia, odchylenie standardowe, 

rednia, odchylenie standardowe, 

mediana, odchylenie 

mediana, odchylenie 

medianowe

medianowe

, modalna, 

, modalna, 

kwartyl

kwartyl

, rozst p 

, rozst p 

kwartylowy

kwartylowy

, sko no , 

, sko no , 

kurtoza

kurtoza

histogram, wykres rozrzutu

histogram, wykres rozrzutu

background image

12

12

Ewa Figielska 2012

Ewa Figielska 2012

Definicje poj  (1)

Definicje poj  (1)

rednia (i  rednia z próby)

rednia (i  rednia z próby)

-

-

miara "tendencji centralnej" 

miara "tendencji centralnej" 

danej zmiennej. Czym wi ksza jest liczno  próby tym 

danej zmiennej. Czym wi ksza jest liczno  próby tym 

lepsza jest  rednia. Wraz ze wzrostem wariancji danych 

lepsza jest  rednia. Wraz ze wzrostem wariancji danych 

rednia staje si  mniej pewna. 

rednia staje si  mniej pewna. 

µ=

µ=

i

i

x

x

i

i

/N

/N

µ 

µ 

-

-

rednia w populacji, 

rednia w populacji, 

x

x

i

i

-

-

warto  i

warto  i

-

-

tej próbki, 

tej próbki, 

-

-

liczebno  populacji. 

liczebno  populacji. 

Odchylenie standardowe

Odchylenie standardowe

miara zmienno ci, 

miara zmienno ci, 

odchylenie standardowe populacji 

odchylenie standardowe populacji 

 = [

 = [

i

i

(x

(x

i

i

-

-

µ)

µ)

2

2

/N]

/N]

1/2

1/2

odchylenie standardowe próby 

odchylenie standardowe próby 

s = [

s = [

i

i

(x

(x

i

i

-

-

x

x

r

r

)

)

2

2

/(n

/(n

-

-

1)]

1)]

1/2

1/2

x

x

r

r

rednia z próby 

rednia z próby 

x

x

r

r

=

=

i

i

x

x

i

i

/n

/n

liczno  próby

liczno  próby

background image

13

13

Ewa Figielska 2012

Ewa Figielska 2012

Definicje poj  (2)

Definicje poj  (2)

Mediana

Mediana

miara "tendencji centralnej", dla której połowa 

miara "tendencji centralnej", dla której połowa 

obserwacji (50%) jest wi ksza, a druga połowa jest mniejsza 

obserwacji (50%) jest wi ksza, a druga połowa jest mniejsza 

b d  równa jej warto ci (mediana =  redniej z dwu  rodkowych 

b d  równa jej warto ci (mediana =  redniej z dwu  rodkowych 

warto ci, je eli liczba obserwacji jest parzysta). 

warto ci, je eli liczba obserwacji jest parzysta). 

Mediana jest znacznie bardziej odporna na 

Mediana jest znacznie bardziej odporna na 

obserwacje odstaj ce

obserwacje odstaj ce

ni  

ni  

rednia arytmetyczna: nawet du e zmiany skrajnych obserwacji nie

rednia arytmetyczna: nawet du e zmiany skrajnych obserwacji nie

wpływaj  na jej warto . 

wpływaj  na jej warto . 

Odchylenie 

Odchylenie 

medianowe

medianowe

-

-

miara zmienno ci równa medianie z 

miara zmienno ci równa medianie z 

bezwzgl dnych odchyle  od mediany zbioru danych.

bezwzgl dnych odchyle  od mediany zbioru danych.

Np. dla danych (1, 1, 2, 2, 4, 6, 9) mediana = 2. Warto ci bezwz

Np. dla danych (1, 1, 2, 2, 4, 6, 9) mediana = 2. Warto ci bezwz

gl dnych 

gl dnych 

odchyle  od warto ci 2 wynosz  odpowiednio (1, 1, 0, 0, 2, 4, 7)

odchyle  od warto ci 2 wynosz  odpowiednio (1, 1, 0, 0, 2, 4, 7)

. Dla 

. Dla 

powstałego zbioru danych mediana = 1. Zatem odchylenie 

powstałego zbioru danych mediana = 1. Zatem odchylenie 

medianowe

medianowe

wynosi 1.

wynosi 1.

Odchylenie 

Odchylenie 

medianowe

medianowe

jest bardziej odporne na obserwacje odstaj ce 

jest bardziej odporne na obserwacje odstaj ce 

ni  odchylenie standardowe (w odchyleniu standardowym odległo ci

ni  odchylenie standardowe (w odchyleniu standardowym odległo ci

od 

od 

redniej s  podnoszone do kwadratu, wi c wpływ du ych odległo ci

redniej s  podnoszone do kwadratu, wi c wpływ du ych odległo ci

jest 

jest 

w tym przypadku du y). W odchyleniu 

w tym przypadku du y). W odchyleniu 

medianowym

medianowym

wielko ci odległo ci 

wielko ci odległo ci 

niewielkiej liczby obserwacji odstaj cych nie s  znacz ce.

niewielkiej liczby obserwacji odstaj cych nie s  znacz ce.

background image

14

14

Ewa Figielska 2012

Ewa Figielska 2012

Definicje poj   (3)

Definicje poj   (3)

Modalna (moda)

Modalna (moda)

miara "tendencji centralnej", modalna z 

miara "tendencji centralnej", modalna z 

próby oznacza najcz ciej wyst puj ca warto  w danych 

próby oznacza najcz ciej wyst puj ca warto  w danych 

w próbie.

w próbie.

Kwartyl

Kwartyl

pierwszy (dolny)

pierwszy (dolny)

warto  zmiennej, poni ej której 

warto  zmiennej, poni ej której 

znajduje si  25% warto ci danej zmiennej.

znajduje si  25% warto ci danej zmiennej.

Kwartyl

Kwartyl

trzeci (górny) 

trzeci (górny) 

warto  zmiennej, poni ej której 

warto  zmiennej, poni ej której 

znajduje si  75% warto ci danej zmiennej.

znajduje si  75% warto ci danej zmiennej.

Rozst p 

Rozst p 

kwartylowy

kwartylowy

(

(

mi dzykwartylowy

mi dzykwartylowy

)

)

ró nica mi dzy 

ró nica mi dzy 

trzecim a pierwszym 

trzecim a pierwszym 

kwartylem

kwartylem

(szeroko  przedziału 

(szeroko  przedziału 

wokół mediany, który obejmuje 50% przypadków).

wokół mediany, który obejmuje 50% przypadków).

background image

15

15

Ewa Figielska 2012

Ewa Figielska 2012

Definicje poj  (4) 

Definicje poj  (4) 

Sko no  (asymetria)

Sko no  (asymetria)

mierzy odchylenie 

mierzy odchylenie 

rozkładu od symetrii. Je li warto  

rozkładu od symetrii. Je li warto  

sko no ci jest wyra nie ró na od zera, 

sko no ci jest wyra nie ró na od zera, 

wówczas dany rozkład jest asymetryczny 

wówczas dany rozkład jest asymetryczny 

Sko no  = n*

Sko no  = n*

i

i

(x

(x

i

i

-

-

x

x

r

r

)

)

3

3

/ [(n

/ [(n

-

-

1)*(n

1)*(n

-

-

2)*

2)*

3

3

liczba wa nych przypadków

liczba wa nych przypadków

Sko no  wskazuje, czy rozkład ma pojedynczy 

Sko no  wskazuje, czy rozkład ma pojedynczy 

długi kraniec, np. rozkład dochodów ludzi mo e 

długi kraniec, np. rozkład dochodów ludzi mo e 

pokaza ,  e wi kszo  ludzi zarabia od małych 

pokaza ,  e wi kszo  ludzi zarabia od małych 

do  rednich kwot, a niewiele osób zarabia du e 

do  rednich kwot, a niewiele osób zarabia du e 

sumy.

sumy.

Wykorzystanie warto ci 

Wykorzystanie warto ci 

kwartyli

kwartyli

w interpretacji 

w interpretacji 

sko no ci rozkładu: 

sko no ci rozkładu: 

Q3 

Q3 

Q2 = 

Q2 = 

Q2

Q2

-

-

Q1 ( sko no  zerowa) 

Q1 ( sko no  zerowa) 

Q3 

Q3 

Q2 > 

Q2 > 

Q2

Q2

-

-

Q1 ( sko no  dodatnia) 

Q1 ( sko no  dodatnia) 

Q3 

Q3 

Q2 < 

Q2 < 

Q2

Q2

-

-

Q1 ( sko no  ujemna)

Q1 ( sko no  ujemna)

0

5

10

15

20

25

30

background image

16

16

Ewa Figielska 2012

Ewa Figielska 2012

Definicje poj  (5)

Definicje poj  (5)

Kurtoza

Kurtoza

miara tego, czy rozkład jest "wysmukły" 

miara tego, czy rozkład jest "wysmukły" 

(

(

leptokurtyczny

leptokurtyczny

) czy "spłaszczony" (

) czy "spłaszczony" (

platokurtyczny

platokurtyczny

wykorzystywany do okre lenia stopnia koncentracji 

wykorzystywany do okre lenia stopnia koncentracji 

warto ci zmiennej wokół  redniej. Dla rozkładu 

warto ci zmiennej wokół  redniej. Dla rozkładu 

wysmukłego kurtoza>0, dla rozkładu 

wysmukłego kurtoza>0, dla rozkładu 

spłaszczonego kutoza<0.

spłaszczonego kutoza<0.

Wy sza 

Wy sza 

kurtoza

kurtoza

oznacza,  e wi ksza wariancja jest 

oznacza,  e wi ksza wariancja jest 

spowodowana niezbyt cz stymi ale du ymi 

spowodowana niezbyt cz stymi ale du ymi 

odchyleniami.

odchyleniami.

Ni sza 

Ni sza 

kurtoza

kurtoza

oznacza cz ste niezbyt du e odchylenia.

oznacza cz ste niezbyt du e odchylenia.

background image

17

17

Ewa Figielska 2012

Ewa Figielska 2012

Definicje poj  (6)

Definicje poj  (6)

Histogram

Histogram

-

-

graficzny sposób 

graficzny sposób 

przedstawienia rozkładu liczebno ci 

przedstawienia rozkładu liczebno ci 

wybranej zmiennej, na którym kolumny 

wybranej zmiennej, na którym kolumny 

s  wykre lane ponad przedziałami 

s  wykre lane ponad przedziałami 

klasowymi, a wysoko  kolumn jest 

klasowymi, a wysoko  kolumn jest 

proporcjonalna do liczebno ci klas.

proporcjonalna do liczebno ci klas.

Wykres rozrzutu

Wykres rozrzutu

-

-

słu y do wizualizacji 

słu y do wizualizacji 

relacji pomi dzy dwiema zmiennymi X i 

relacji pomi dzy dwiema zmiennymi X i 

Y (np. mas  i wysoko ci  ciała). Dane 

Y (np. mas  i wysoko ci  ciała). Dane 

dla zmiennych X i Y s  reprezentowane 

dla zmiennych X i Y s  reprezentowane 

jako punkty w dwuwymiarowej 

jako punkty w dwuwymiarowej 

przestrzeni.

przestrzeni.

Je li dwie zmienne s  mocno powi zane, 

Je li dwie zmienne s  mocno powi zane, 

wówczas punkty danych tworz  regularny 

wówczas punkty danych tworz  regularny 

kształt (np. lini  prost  lub wyra n  krzyw ). 

kształt (np. lini  prost  lub wyra n  krzyw ). 

Je li dane dwie zmienne nie s  powi zane 

Je li dane dwie zmienne nie s  powi zane 

ze sob , wówczas punkty na wykresie 

ze sob , wówczas punkty na wykresie 

tworz  nieregularn  "chmur ".

tworz  nieregularn  "chmur ".

background image

Ewa Figielska 2012

Ewa Figielska 2012

18

18

Wst pna obróbka danych

Wst pna obróbka danych

background image

19

19

Ewa Figielska 2012

Ewa Figielska 2012

Wst pna obróbka danych

Wst pna obróbka danych

Wi kszo  surowych danych przechowywanych w 

Wi kszo  surowych danych przechowywanych w 

bazach danych jest nieobrobiona, niekompletna i 

bazach danych jest nieobrobiona, niekompletna i 

zaszumiona

zaszumiona

, np. zawieraj :

, np. zawieraj :

zb dne i przestarzałe pola,

zb dne i przestarzałe pola,

rekordy z brakuj cymi warto ciami,

rekordy z brakuj cymi warto ciami,

punkty oddalone (obserwacje/punkty odstaj ce),

punkty oddalone (obserwacje/punkty odstaj ce),

dane w formacie nieodpowiednim dla modeli eksploracji 

dane w formacie nieodpowiednim dla modeli eksploracji 

danych,

danych,

warto ci niezgodne z zasadami lub ze zdrowym 

warto ci niezgodne z zasadami lub ze zdrowym 

rozs dkiem

rozs dkiem

Czyszczenie danych

Czyszczenie danych

przekształcanie danych

przekształcanie danych

(wst pna obróbka danych) przygotowuje baz  

(wst pna obróbka danych) przygotowuje baz  

danych do eksploracji.

danych do eksploracji.

background image

20

20

Ewa Figielska 2012

Ewa Figielska 2012

Obsługa brakuj cych danych

Obsługa brakuj cych danych

Brak pewnych warto ci pól dla 

Brak pewnych warto ci pól dla 

pewnych rekordów 

pewnych rekordów 

post powanie:

post powanie:

Zast pienie brakuj cej warto ci 

Zast pienie brakuj cej warto ci 

pewn  stał , okre lon  przez 

pewn  stał , okre lon  przez 

analityka,

analityka,

Zast pienie brakuj cej warto ci 

Zast pienie brakuj cej warto ci 

warto ci   redni  (dla zmiennych 

warto ci   redni  (dla zmiennych 

liczbowych) lub warto ci  modaln  

liczbowych) lub warto ci  modaln  

(dla zmiennych jako ciowych),

(dla zmiennych jako ciowych),

Zast pienie brakuj cych warto ci 

Zast pienie brakuj cych warto ci 

warto ci  wygenerowan  losowo 

warto ci  wygenerowan  losowo 

zgodnie z obserwowanym 

zgodnie z obserwowanym 

rozkładem zmiennej.

rozkładem zmiennej.

350

350

4

4

10

10

400

400

8

8

9

9

302

302

8

8

8

8

89

89

4

4

7

7

285.25

285.25

8

8

6

6

350

350

8

8

5

5

285.25

285.25

8

8

4

4

89

89

8

8

3

3

400

400

4

4

2

2

302

302

8

8

1

1

pojemno  

pojemno  

silnika (zm. 

silnika (zm. 

liczbowa)

liczbowa)

lb

lb

. cylindrów 

. cylindrów 

(zm. 

(zm. 

jako ciowa)

jako ciowa)

background image

21

21

Ewa Figielska 2012

Ewa Figielska 2012

Punkty oddalone (obserwacje/elementy odstaj ce)

Punkty oddalone (obserwacje/elementy odstaj ce)

Punkty oddalone 

Punkty oddalone 

skrajne warto ci, które znajduj  

skrajne warto ci, które znajduj  

si  blisko granic zakresu danych lub s  sprzeczne 

si  blisko granic zakresu danych lub s  sprzeczne 

z ogólnym trendem pozostałych danych. 

z ogólnym trendem pozostałych danych. 

Punkty oddalone mog  reprezentowa  bł dy 

Punkty oddalone mog  reprezentowa  bł dy 

powstałe podczas wprowadzania danych 

powstałe podczas wprowadzania danych 

wa na 

wa na 

jest ich identyfikacja.

jest ich identyfikacja.

Pewne metody statystyczne s  wra liwe na 

Pewne metody statystyczne s  wra liwe na 

obecno  punktów oddalonych i mog  da  

obecno  punktów oddalonych i mog  da  

niestabilne wyniki, nawet je eli punkty te 

niestabilne wyniki, nawet je eli punkty te 

reprezentuj  poprawne warto ci danych.

reprezentuj  poprawne warto ci danych.

background image

22

22

Ewa Figielska 2012

Ewa Figielska 2012

Identyfikacja punktów oddalonych z wykorzystaniem 

Identyfikacja punktów oddalonych z wykorzystaniem 

pakietu 

pakietu 

Tanagra

Tanagra

background image

23

23

Ewa Figielska 2012

Ewa Figielska 2012

Zbiór danych

Zbiór danych

Plik danych 

Plik danych 

body_mass_index.xls

body_mass_index.xls

zawiera 50 

zawiera 50 

przykładów z 3 zmiennymi: 

przykładów z 3 zmiennymi: 

waga (WEIGHT) w kilogramach,

waga (WEIGHT) w kilogramach,

wysoko  (HEIGHT) w metrach,

wysoko  (HEIGHT) w metrach,

indeks masy ciała (BODY MASS). 

indeks masy ciała (BODY MASS). 

Celem jest wykrycie nie pasuj cych warto ci dla 

Celem jest wykrycie nie pasuj cych warto ci dla 

ka dej zmiennej (punktów oddalonych).

ka dej zmiennej (punktów oddalonych).

background image

24

24

Ewa Figielska 2012

Ewa Figielska 2012

Tworzenie nowego diagramu

Tworzenie nowego diagramu

Aby bezpo rednio importowa  plik z danymi typu XLS 

Aby bezpo rednio importowa  plik z danymi typu XLS 

przez utworzenie nowego diagramu, nale y:

przez utworzenie nowego diagramu, nale y:

wybra  menu 

wybra  menu 

File

File

/New,

/New,

okre li  nazw  pliku XLS i nazw  pliku diagramu (Uwaga: zbiór 

okre li  nazw  pliku XLS i nazw  pliku diagramu (Uwaga: zbiór 

danych musi by  w pierwszym arkuszu).

danych musi by  w pierwszym arkuszu).

background image

25

25

Ewa Figielska 2012

Ewa Figielska 2012

Histogramy zmiennych

Histogramy zmiennych

Histogramy daj  mo liwo  krótkiego opisu głównych 

Histogramy daj  mo liwo  krótkiego opisu głównych 

charakterystyk kolekcji obserwowanych danych.

charakterystyk kolekcji obserwowanych danych.

Post powanie:

Post powanie:

Zdefiniowa  zmienne wej ciowe (INPUT) z wykorzystaniem 

Zdefiniowa  zmienne wej ciowe (INPUT) z wykorzystaniem 

komponentu DEFINE STATUS

komponentu DEFINE STATUS

background image

26

26

Ewa Figielska 2012

Ewa Figielska 2012

Histogramy zmiennych, 

Histogramy zmiennych, 

cd

cd

.

.

Wstawi  (przeci gn ) do diagramu komponent MORE UNIVARIATE 

Wstawi  (przeci gn ) do diagramu komponent MORE UNIVARIATE 

CONT STAT

CONT STAT

Aby obejrze  statystyki, nale y wybra  

Aby obejrze  statystyki, nale y wybra  

View

View

po naci ni ciu lewym 

po naci ni ciu lewym 

przyciskiem myszy na MORE UNIVARIATE CONT STAT 

przyciskiem myszy na MORE UNIVARIATE CONT STAT 

background image

27

27

Ewa Figielska 2012

Ewa Figielska 2012

Histogram wagi (WEIGHTKG)

Histogram wagi (WEIGHTKG)

background image

28

28

Ewa Figielska 2012

Ewa Figielska 2012

Histogram wysoko ci (HEIGHTM) 

Histogram wysoko ci (HEIGHTM) 

background image

29

29

Ewa Figielska 2012

Ewa Figielska 2012

Histogram indeksu masy ciała (BODYMASS)

Histogram indeksu masy ciała (BODYMASS)

background image

30

30

Ewa Figielska 2012

Ewa Figielska 2012

Opis statystyk

Opis statystyk

Kurtoza

Kurtoza

Kurtosis

Kurtosis

Sko no

Sko no

Skewness

Skewness

1

1

-

-

szy i 3

szy i 3

-

-

ci 

ci 

kwartyl

kwartyl

1st * 3rd quartile

1st * 3rd quartile

Warto  minimalna i maksymalna

Warto  minimalna i maksymalna

Min *  Max

Min *  Max

Odchylenie medianowe

MAD (median absolute 

deviation)

Odchylenie standardowe

Odchylenie standardowe

Std dev. 

Std dev. 

Mediana

Mediana

Median

Median

Warto   rednia

Warto   rednia

Average

Average

Opis

Opis

Nazwa

Nazwa

background image

31

31

Ewa Figielska 2012

Ewa Figielska 2012

Wykres rozrzutu

Wykres rozrzutu

Umo liwia wykrycie odchyle  próbek bior c pod uwag  

Umo liwia wykrycie odchyle  próbek bior c pod uwag  

zale no ci mi dzy zmiennymi.

zale no ci mi dzy zmiennymi.

Post powanie: wstawi  do diagramu komponent SCATTER 

Post powanie: wstawi  do diagramu komponent SCATTER 

WHITH LABEL (DATA VISUALIZATION 

WHITH LABEL (DATA VISUALIZATION 

tab

tab

).

).

background image

32

32

Ewa Figielska 2012

Ewa Figielska 2012

Wykres rozrzutu (HEIGHTM 

Wykres rozrzutu (HEIGHTM 

vs

vs

. WEIGHTKG)

. WEIGHTKG)

Próbki 19 i 22 

Próbki 19 i 22 

wydaj  si  nie 

wydaj  si  nie 

pasowa  do 

pasowa  do 

głównego 

głównego 

wzoru 

wzoru 

punktów

punktów

background image

33

33

Ewa Figielska 2012

Ewa Figielska 2012

Wykres rozrzutu (BODYMASS 

Wykres rozrzutu (BODYMASS 

vs

vs

. WEIGHTKG)

. WEIGHTKG)

Znów próbki 

Znów próbki 

19 i 22 s  

19 i 22 s  

oddalone od 

oddalone od 

pozostałych 

pozostałych 

punktów.

punktów.

background image

34

34

Ewa Figielska 2012

Ewa Figielska 2012

Automatyczna detekcja punktów oddalonych

Automatyczna detekcja punktów oddalonych

Komponent UNIVARIATE OUTLIER  DETECTION próbuje wykry  próbki, k

Komponent UNIVARIATE OUTLIER  DETECTION próbuje wykry  próbki, k

tóre 

tóre 

s  oddalone od pozostałych. 

s  oddalone od pozostałych. 

W PARAMETERS (po naci ni ciu prawego przycisku myszy na UNIVARIA

W PARAMETERS (po naci ni ciu prawego przycisku myszy na UNIVARIA

TE 

TE 

OUTLIER  DETECTION ) nale y dokona  odpowiedniego wyboru w oknie

OUTLIER  DETECTION ) nale y dokona  odpowiedniego wyboru w oknie

FILTERING i PARAMETERS.

FILTERING i PARAMETERS.

background image

35

35

Ewa Figielska 2012

Ewa Figielska 2012

Testy wykrywaj ce punkty oddalone

Testy wykrywaj ce punkty oddalone

Test 

Test 

Grubbsa

Grubbsa

dla jednej zmiennej, przy zało eniu,  e zbiór danych 

dla jednej zmiennej, przy zało eniu,  e zbiór danych 

da si  przybli y  za pomoc  rozkładu normalnego. Test 

da si  przybli y  za pomoc  rozkładu normalnego. Test 

Grubbsa

Grubbsa

jest 

jest 

zdefiniowany dla hipotez:

zdefiniowany dla hipotez:

H

H

0

0

brak punktów oddalonych w zbiorze danych,

brak punktów oddalonych w zbiorze danych,

H

H

a

a

istnieje przynajmniej jeden punkt oddalony w zbiorze danych.

istnieje przynajmniej jeden punkt oddalony w zbiorze danych.

gdzie      =  rednia z próby, s = odchylenie standardowe.      

gdzie      =  rednia z próby, s = odchylenie standardowe.      

Hipoteza o braku punktów oddalonych zostaje odrzucona przy 

Hipoteza o braku punktów oddalonych zostaje odrzucona przy 

poziomie 

poziomie 

istotno ci 

istotno ci 

, je eli  

, je eli  

gdzie t

gdzie t

/(2N),N

/(2N),N

-

-

2

2

jest górn  krytyczn  warto ci  rozkładu t Studenta o N

jest górn  krytyczn  warto ci  rozkładu t Studenta o N

-

-

stopniach swobody i poziomie istotno ci   /(2N)

stopniach swobody i poziomie istotno ci   /(2N)

Y

background image

36

36

Ewa Figielska 2012

Ewa Figielska 2012

Testy wykrywaj ce punkty oddalone

Testy wykrywaj ce punkty oddalone

Test 3

Test 3

-

-

sigma

sigma

Test z wykorzystaniem rozst pu 

Test z wykorzystaniem rozst pu 

mi dzykwartylowego

mi dzykwartylowego

.

.

Niech Q1 oznacza pierwszy 

Niech Q1 oznacza pierwszy 

kwartyl

kwartyl

, Q3 

, Q3 

trzeci 

trzeci 

kwartyl

kwartyl

Dolne wewn trzne ograniczenie: Q1 

Dolne wewn trzne ograniczenie: Q1 

-

-

1.5*(Q3

1.5*(Q3

-

-

Q1). 

Q1). 

Górne wewn trzne ograniczenie: Q3 + 1.5*(Q3

Górne wewn trzne ograniczenie: Q3 + 1.5*(Q3

-

-

Q1).

Q1).

Dolne zewn trzne ograniczenie : Q1 

Dolne zewn trzne ograniczenie : Q1 

-

-

3*(Q3

3*(Q3

-

-

Q1). 

Q1). 

Górne zewn trzne ograniczenie : Q3 + 3*(Q3

Górne zewn trzne ograniczenie : Q3 + 3*(Q3

-

-

Q1).

Q1).

Warto  danych jest punktem oddalonym, je eli jest poło ona 

Warto  danych jest punktem oddalonym, je eli jest poło ona 

poni ej dolnego ograniczenia lub 

poni ej dolnego ograniczenia lub 

powy ej górnego ograniczenia.

powy ej górnego ograniczenia.

Y

background image

37

37

Ewa Figielska 2012

Ewa Figielska 2012

Wyniki dla poszczególnych zmiennych

Wyniki dla poszczególnych zmiennych

Test 

Test 

Grubbsa

Grubbsa

z poziomem istotno ci = 5%:  punkty oddalone wyst puj  

z poziomem istotno ci = 5%:  punkty oddalone wyst puj  

tylko dla BODYMASS.

tylko dla BODYMASS.

Test 3

Test 3

-

-

sigma: BODYMASS zawiera  2 punkty oddalone.

sigma: BODYMASS zawiera  2 punkty oddalone.

Testy z wykorzystaniem rozst pu 

Testy z wykorzystaniem rozst pu 

mi dzykwartylowego

mi dzykwartylowego

:

:

wewn trzne ograniczenie: 1 punkt oddalony dla WEIGHTKG i 2 dla 

wewn trzne ograniczenie: 1 punkt oddalony dla WEIGHTKG i 2 dla 

BODYMASS,

BODYMASS,

zewn trzne ograniczenie: 2 oddalone warto ci dla BODYMASS.

zewn trzne ograniczenie: 2 oddalone warto ci dla BODYMASS.

background image

38

38

Ewa Figielska 2012

Ewa Figielska 2012

Po usuni ciu punktów oddalonych

Po usuni ciu punktów oddalonych

Statystyki dla zbioru danych po usuni ciu punktów 

Statystyki dla zbioru danych po usuni ciu punktów 

oddalonych. 

oddalonych. 

Reguła, okre laj ca punkty do usuni cia, zaznaczona została w 

Reguła, okre laj ca punkty do usuni cia, zaznaczona została w 

zakładce 

zakładce 

Filtering

Filtering

przy ustawianiu automatycznej detekcji. 

przy ustawianiu automatycznej detekcji. 

Nale y wstawi  

Nale y wstawi  

UNIVARIATE 

UNIVARIATE 

CONTINUOUS 

CONTINUOUS 

STAT 1 do 

STAT 1 do 

diagramu.

diagramu.

background image

39

39

Ewa Figielska 2012

Ewa Figielska 2012

Porównanie wyników

Porównanie wyników

Odchylenie ma najwi ksz  warto  dla BODYMASS

Odchylenie ma najwi ksz  warto  dla BODYMASS

+3.13%

+3.13%

26.8400

26.8400

27.6806

27.6806

BODYMASS

BODYMASS

-

-

0.25%

0.25%

1.6623

1.6623

1.6581

1.6581

HEIGHTM

HEIGHTM

+2.23%

+2.23%

74.3796

74.3796

76.0402

76.0402

WEIGHTKG

WEIGHTKG

Odchylenie

Odchylenie

rednia dla 48 

rednia dla 48 

przypadków (bez 19 i 22)

przypadków (bez 19 i 22)

rednia dla 50 

rednia dla 50 

przypadków

przypadków

Zmienna

Zmienna

background image

40

40

Ewa Figielska 2012

Ewa Figielska 2012

Punkty oddalone 

Punkty oddalone 

-

-

podsumowanie

podsumowanie

Wiele statystycznych technik jest wra liwych na obecno  

Wiele statystycznych technik jest wra liwych na obecno  

punktów oddalonych, np.  rednia i odchylenie standardowe 

punktów oddalonych, np.  rednia i odchylenie standardowe 

mog  zosta  zniekształcone przez pojedynczy 

mog  zosta  zniekształcone przez pojedynczy 

nieprecyzyjny punkt danych.

nieprecyzyjny punkt danych.

Poszukiwanie punktów oddalonych zawsze powinno by  

Poszukiwanie punktów oddalonych zawsze powinno by  

cz ci  analizy danych.

cz ci  analizy danych.

Potencjalne punkty oddalone powinny by  sprawdzane pod 

Potencjalne punkty oddalone powinny by  sprawdzane pod 

wzgl dem poprawno ci reprezentowanych przez nie 

wzgl dem poprawno ci reprezentowanych przez nie 

danych.

danych.

Je eli punkt oddalony jest bł dny, to powinien by  poprawiony lu

Je eli punkt oddalony jest bł dny, to powinien by  poprawiony lu

b, 

b, 

je eli nie jest to mo liwe, usuni ty.

je eli nie jest to mo liwe, usuni ty.

Nie nale y usuwa  punktów oddalonych zbyt pochopnie.

Nie nale y usuwa  punktów oddalonych zbyt pochopnie.

Pewne techniki pozwalaj  wyeliminowa  negatywne skutki 

Pewne techniki pozwalaj  wyeliminowa  negatywne skutki 

wyst powania punktów oddalonych bez konieczno ci ich usuwania. 

wyst powania punktów oddalonych bez konieczno ci ich usuwania. 

background image

41

41

Ewa Figielska 2012

Ewa Figielska 2012

Przekształcanie danych

Przekształcanie danych

Uzasadnienie: 

Uzasadnienie: 

Zakresy zmiennych zwykle ró ni  si  znacznie  mi dzy 

Zakresy zmiennych zwykle ró ni  si  znacznie  mi dzy 

sob .

sob .

Dla pewnych algorytmów ró nice zakresów powoduj , 

Dla pewnych algorytmów ró nice zakresów powoduj , 

e zmienne z wi kszym zakresem b d  miały nadmierny 

e zmienne z wi kszym zakresem b d  miały nadmierny 

wpływ na wyniki.

wpływ na wyniki.

Nale y dokona  normalizacji zmiennych numerycznych, 

Nale y dokona  normalizacji zmiennych numerycznych, 

aby ujednolici  wpływ ka dej zmiennej na wyniki.

aby ujednolici  wpływ ka dej zmiennej na wyniki.

Techniki normalizacji:

Techniki normalizacji:

Normalizacja min

Normalizacja min

-

-

max,

max,

Standaryzacja.

Standaryzacja.

Oznaczenia:

Oznaczenia:

oryginalna warto  pola,

oryginalna warto  pola,

X* 

X* 

-

-

znormalizowana warto  pola.

znormalizowana warto  pola.

background image

42

42

Ewa Figielska 2012

Ewa Figielska 2012

Przekształcanie danych, 

Przekształcanie danych, 

cd

cd

.

.

Normalizacja

Normalizacja

X* = (X 

X* = (X 

-

-

min(X

min(X

)) / (

)) / (

max(X

max(X

-

-

min(X

min(X

))

))

Znormalizowane warto ci nale  do przedziału <0,1>.

Znormalizowane warto ci nale  do przedziału <0,1>.

Standaryzacja

Standaryzacja

X* = (X 

X* = (X 

-

-

rednie(X

rednie(X

)) /  (X)

)) /  (X)

Warto ci po standaryzacji nale  zwykle do przedziału <

Warto ci po standaryzacji nale  zwykle do przedziału <

-

-

4,4>. 

4,4>. 

rodek rozkładu znajduje si  w punkcie 0.

rodek rozkładu znajduje si  w punkcie 0.

acceleration

NORMALIZACJA

STANDARYZACJA

11.5

0.208333333

-1.4537

min=

8

11

0.178571429

-1.6431

max=

24.8

10.5

0.148809524

-1.8326

rednia =

15.3363

10

0.119047619

-2.0221

odch.std.= 2.63903

8.5

0.029761905

-2.5904

10

0.119047619

-2.0221

10

0.119047619

-2.0221

8

0

-2.7799

10

0.119047619

-2.0221

15

0.416666667

-0.1274

15.5

0.446428571

0.0620

20.5

0.744047619

1.9567

17.5

0.56547619

0.8199

17.5

0.56547619

0.8199

12.5

0.267857143

-1.0747

14

0.357142857

-0.5063

15

0.416666667

-0.1274

18.5

0.625

1.1988

background image

43

43

Ewa Figielska 2012

Ewa Figielska 2012

Histogram przed 

Histogram przed 

przekształceniem 

przekształceniem 

danych

danych

Histogram po 

Histogram po 

normalizacji

normalizacji

Histogram po 

Histogram po 

standaryzacji

standaryzacji

background image

44

44

Ewa Figielska 2012

Ewa Figielska 2012

Standaryzacja 

Standaryzacja 

Tanagrze

Tanagrze

background image

45

45

Ewa Figielska 2012

Ewa Figielska 2012

Słowniczek

Słowniczek

Univariate

Univariate

statistics

statistics

statystyka jednej zmiennej

statystyka jednej zmiennej

Scatter

Scatter

plot 

plot 

wykres rozrzutu

wykres rozrzutu

Outliers

Outliers

punkty oddalone (obserwacje/elementy odstaj ce)

punkty oddalone (obserwacje/elementy odstaj ce)

Clustering

Clustering

grupowanie

grupowanie

Exploratory

Exploratory

data 

data 

analysis

analysis

eksploracyjne analiza danych

eksploracyjne analiza danych