cw1 wprowadzenie wstepna obrobka danych

background image

Ewa Figielska 2012

Ewa Figielska 2012

1

1

Eksploracja danych

Eksploracja danych

w. 1

w. 1

Wprowadzenie

Wprowadzenie

Zadania eksploracji danych

Zadania eksploracji danych

Definicje wybranych poj

Definicje wybranych poj

Wst pna obróbka danych

Wst pna obróbka danych

background image

2

2

Ewa Figielska 2012

Ewa Figielska 2012

Literatura

Literatura

D. T.

D. T.

Larose

Larose

, "Odkrywanie wiedzy z danych. Wprowadzenie

, "Odkrywanie wiedzy z danych. Wprowadzenie

do eksploracji danych”. Wyd. Naukowe PWN 2006.

do eksploracji danych”. Wyd. Naukowe PWN 2006.

D. T.

D. T.

Larose

Larose

, "Metody i modele eksploracji danych". Wyd.

, "Metody i modele eksploracji danych". Wyd.

Naukowe PWN 2008.

Naukowe PWN 2008.

D.

D.

Hand

Hand

, H.

, H.

Mannila

Mannila

, P.

, P.

Smyth

Smyth

, "Eksploracja danych". WNT

, "Eksploracja danych". WNT

2005.

2005.

ródła internetowe:

ródła internetowe:

Statiscics

Statiscics

Homepage

Homepage

Glossary

Glossary

:

:

www.statsoft.pl

www.statsoft.pl

/

/

textbook

textbook

/

/

glosfra.html

glosfra.html

Wikipedia

Wikipedia

Tanagra

Tanagra

Tutorials

Tutorials

:

:

data

data

-

-

mining

mining

-

-

tutorials.blogspot.com

tutorials.blogspot.com

background image

3

3

Ewa Figielska 2012

Ewa Figielska 2012

Eksploracja danych

Eksploracja danych

przykładowe definicje

przykładowe definicje

Eksploracja danych jest procesem odkrywania

Eksploracja danych jest procesem odkrywania

znacz cych nowych powi za , wzorców i trendów

znacz cych nowych powi za , wzorców i trendów

przez przeszukiwanie du ych ilo ci danych

przez przeszukiwanie du ych ilo ci danych

zgromadzonych w skarbnicach danych, przy

zgromadzonych w skarbnicach danych, przy

wykorzystaniu metod rozpoznawania wzorców, jak

wykorzystaniu metod rozpoznawania wzorców, jak

równie metod statystycznych i matematycznych.

równie metod statystycznych i matematycznych.

(

(

www.gartner.com

www.gartner.com

)

)

Eksploracja danych jest

Eksploracja danych jest

mi dzydyscyplinarn

mi dzydyscyplinarn

dziedzin ł cz c techniki uczenia maszynowego,

dziedzin ł cz c techniki uczenia maszynowego,

rozpoznawania wzorców, statystyki, baz danych i

rozpoznawania wzorców, statystyki, baz danych i

wizualizacji w celu uzyskiwania informacji z du ych

wizualizacji w celu uzyskiwania informacji z du ych

baz danych.

baz danych.

(

(

P.Cabena

P.Cabena

i inni,

i inni,

Discovering

Discovering

Data

Data

Mining

Mining

:

:

From

From

Concept

Concept

to

to

Implementation

Implementation

,

,

Prentice

Prentice

Hall

Hall

,

,

Upper

Upper

Saddle

Saddle

River

River

, NJ 1998)

, NJ 1998)

background image

4

4

Ewa Figielska 2012

Ewa Figielska 2012

Zadania eksploracji danych

Zadania eksploracji danych

Opis

Opis

Szacowanie (estymacja)

Szacowanie (estymacja)

Przewidywanie (predykcja)

Przewidywanie (predykcja)

Klasyfikacja

Klasyfikacja

Grupowanie

Grupowanie

Odkrywanie reguł

Odkrywanie reguł

background image

5

5

Ewa Figielska 2012

Ewa Figielska 2012

Opis

Opis

Opis wzorców i trendów znajduj cych si w danych,

Opis wzorców i trendów znajduj cych si w danych,

co cz sto sugeruje mo liwe wyja nienia wzorców i

co cz sto sugeruje mo liwe wyja nienia wzorców i

trendów.

trendów.

Np. ludzie, którzy zostali zwolnieni z pracy w trakcie

Np. ludzie, którzy zostali zwolnieni z pracy w trakcie

kadencji obecnego prezydenta s teraz gorzej sytuowani,

kadencji obecnego prezydenta s teraz gorzej sytuowani,

jest wi c mniej prawdopodobne, e popr oni obecnego

jest wi c mniej prawdopodobne, e popr oni obecnego

prezydenta.

prezydenta.

Wyniki eksploracji danych powinny opisywa jasne

Wyniki eksploracji danych powinny opisywa jasne

wzorce i trendy, które mo na intuicyjnie

wzorce i trendy, które mo na intuicyjnie

zinterpretowa i wyja ni .

zinterpretowa i wyja ni .

Wysoka jako opisu mo e by cz sto osi gni ta

Wysoka jako opisu mo e by cz sto osi gni ta

przez eksploracyjn analiz danych.

przez eksploracyjn analiz danych.

background image

6

6

Ewa Figielska 2012

Ewa Figielska 2012

Szacowanie (estymacja)

Szacowanie (estymacja)

Np. nale y oszacowa skurczowe ci nienie krwi pacjenta w

Np. nale y oszacowa skurczowe ci nienie krwi pacjenta w

szpitalu w zale no ci od wieku, płci, wagi pacjenta oraz

szpitalu w zale no ci od wieku, płci, wagi pacjenta oraz

poziomu sodu we krwi. Zwi zek pomi dzy skurczowym

poziomu sodu we krwi. Zwi zek pomi dzy skurczowym

ci nieniem krwi pacjenta a zmiennymi opisuj cymi w

ci nieniem krwi pacjenta a zmiennymi opisuj cymi w

zbiorze ucz cym okre la model estymacji, który potem

zbiorze ucz cym okre la model estymacji, który potem

mo na stosowa do nowych przypadków.

mo na stosowa do nowych przypadków.

Inne przykłady:

Inne przykłady:

szacowanie redniej ocen słuchacza studiów magisterskich na

szacowanie redniej ocen słuchacza studiów magisterskich na

podstawie jego redniej ocen ze studiów in ynierskich,

podstawie jego redniej ocen ze studiów in ynierskich,

szacowanie, ile pieni dzy wyda losowo wybrana czteroosobowa

szacowanie, ile pieni dzy wyda losowo wybrana czteroosobowa

rodzina na przygotowanie dzieci do szkoły przed zbli aj cym si

rodzina na przygotowanie dzieci do szkoły przed zbli aj cym si

rozpocz ciem roku szkolnego.

rozpocz ciem roku szkolnego.

W modelach szacowania zmienna celu ma charakter

W modelach szacowania zmienna celu ma charakter

ilo ciowy.

ilo ciowy.

Metody szacowania: szacowanie warto ci punktu i

Metody szacowania: szacowanie warto ci punktu i

przedziału ufno ci, regresja liniowa i korelacja, regresja

przedziału ufno ci, regresja liniowa i korelacja, regresja

wielokrotna.

wielokrotna.

background image

7

7

Ewa Figielska 2012

Ewa Figielska 2012

Przewidywanie (predykcja)

Przewidywanie (predykcja)

W przewidywaniu wynik dotyczy przyszło ci. Np.

W przewidywaniu wynik dotyczy przyszło ci. Np.

przewidywanie ceny akcji po upływie 3 miesi cy,

przewidywanie ceny akcji po upływie 3 miesi cy,

przewidywanie, e dana cz steczka w procesie

przewidywanie, e dana cz steczka w procesie

odkrywania leków doprowadzi do wytworzenia nowego

odkrywania leków doprowadzi do wytworzenia nowego

leku rentownego leku dla firmy farmaceutycznej.

leku rentownego leku dla firmy farmaceutycznej.

Metody przewidywania: tradycyjne metody

Metody przewidywania: tradycyjne metody

wykorzystywane w klasyfikacji i szacowaniu, a

wykorzystywane w klasyfikacji i szacowaniu, a

tak e sieci neuronowe, drzewa decyzyjne, metoda

tak e sieci neuronowe, drzewa decyzyjne, metoda

k

k

-

-

najbli szych

najbli szych

s siadów.

s siadów.

background image

8

8

Ewa Figielska 2012

Ewa Figielska 2012

Klasyfikacja

Klasyfikacja

Zadanie klasyfikacji posiada jako ciow zmienn

Zadanie klasyfikacji posiada jako ciow zmienn

celu. Np.

celu. Np.

Zmienna celu

Zmienna celu

grupa dochodu

grupa dochodu

mo e by podzielona na

mo e by podzielona na

trzy kategorie: wysoki dochód, redni dochód, niski

trzy kategorie: wysoki dochód, redni dochód, niski

dochód.

dochód.

Model eksploracji danych sprawdza du e zbiory

Model eksploracji danych sprawdza du e zbiory

rekordów, z których ka dy zawiera warto zmiennej

rekordów, z których ka dy zawiera warto zmiennej

celu oraz warto ci zmiennych wej ciowych (np. płe ,

celu oraz warto ci zmiennych wej ciowych (np. płe ,

wiek zawód)

wiek zawód)

-

-

> uczenie si algorytmu na zbiorze

> uczenie si algorytmu na zbiorze

ucz cym.

ucz cym.

Zadaniem klasyfikacji b dzie okre lenie grupy dochodu

Zadaniem klasyfikacji b dzie okre lenie grupy dochodu

osób

osób

niezapisanych

niezapisanych

w bazie danych na podstawie ich

w bazie danych na podstawie ich

warto ci zmiennych wej ciowych.

warto ci zmiennych wej ciowych.

Metody klasyfikacji: algorytm

Metody klasyfikacji: algorytm

k

k

-

-

najbli szych

najbli szych

s siadów, drzewa decyzyjne, sieci neuronowe.

s siadów, drzewa decyzyjne, sieci neuronowe.

background image

9

9

Ewa Figielska 2012

Ewa Figielska 2012

Grupowanie (

Grupowanie (

clustering

clustering

)

)

Grupowanie

Grupowanie

grupowanie

grupowanie

rekordów, obserwacji

rekordów, obserwacji

lub przypadków w klasy podobnych obiektów.

lub przypadków w klasy podobnych obiektów.

Grupa jest zbiorem rekordów, które s podobne do

Grupa jest zbiorem rekordów, które s podobne do

siebie nawzajem i niepodobne do rekordów z

siebie nawzajem i niepodobne do rekordów z

innych grup.

innych grup.

Np.

Np.

namierzenie grupy potencjalnych klientów pewnego

namierzenie grupy potencjalnych klientów pewnego

produktu z niszy rynkowej wyprodukowanego przez mał

produktu z niszy rynkowej wyprodukowanego przez mał

firm z małym bud etem reklamowym,

firm z małym bud etem reklamowym,

redukcja wymiarów, gdy zbiór danych ma setki

redukcja wymiarów, gdy zbiór danych ma setki

atrybutów.

atrybutów.

Metody: grupowanie hierarchiczne, metody

Metody: grupowanie hierarchiczne, metody

k

k

-

-

rednich

rednich

, sieci

, sieci

Kohonena

Kohonena

.

.

background image

10

10

Ewa Figielska 2012

Ewa Figielska 2012

Odkrywanie reguł

Odkrywanie reguł

Zadanie odkrywania reguł polega na poszukiwaniu

Zadanie odkrywania reguł polega na poszukiwaniu

powi zanych ze sob atrybutów.

powi zanych ze sob atrybutów.

Np.

Np.

supermaket

supermaket

mo e odkry , e z 1000 klientów

mo e odkry , e z 1000 klientów

robi cych zakupy w czwartek wieczorem 200 kupiło

robi cych zakupy w czwartek wieczorem 200 kupiło

pieluszki, a z tych 200, 50 kupiło piwo. Reguła

pieluszki, a z tych 200, 50 kupiło piwo. Reguła

asocjacyjna: "je eli kupuje pieluszki, to kupuje piwo" ze

asocjacyjna: "je eli kupuje pieluszki, to kupuje piwo" ze

wsparciem 200/1000=20% i ufno ci 50/200=25%.

wsparciem 200/1000=20% i ufno ci 50/200=25%.

Metody: algorytm a priori, algorytm GRI

Metody: algorytm a priori, algorytm GRI

background image

Ewa Figielska 2012

Ewa Figielska 2012

11

11

Definicje wybranych poj

Definicje wybranych poj

rednia, odchylenie standardowe,

rednia, odchylenie standardowe,

mediana, odchylenie

mediana, odchylenie

medianowe

medianowe

, modalna,

, modalna,

kwartyl

kwartyl

, rozst p

, rozst p

kwartylowy

kwartylowy

, sko no ,

, sko no ,

kurtoza

kurtoza

histogram, wykres rozrzutu

histogram, wykres rozrzutu

background image

12

12

Ewa Figielska 2012

Ewa Figielska 2012

Definicje poj (1)

Definicje poj (1)

rednia (i rednia z próby)

rednia (i rednia z próby)

-

-

miara "tendencji centralnej"

miara "tendencji centralnej"

danej zmiennej. Czym wi ksza jest liczno próby tym

danej zmiennej. Czym wi ksza jest liczno próby tym

lepsza jest rednia. Wraz ze wzrostem wariancji danych

lepsza jest rednia. Wraz ze wzrostem wariancji danych

rednia staje si mniej pewna.

rednia staje si mniej pewna.

µ=

µ=

i

i

x

x

i

i

/N

/N

µ

µ

-

-

rednia w populacji,

rednia w populacji,

x

x

i

i

-

-

warto i

warto i

-

-

tej próbki,

tej próbki,

N

N

-

-

liczebno populacji.

liczebno populacji.

Odchylenie standardowe

Odchylenie standardowe

miara zmienno ci,

miara zmienno ci,

odchylenie standardowe populacji

odchylenie standardowe populacji

= [

= [

i

i

(x

(x

i

i

-

-

µ)

µ)

2

2

/N]

/N]

1/2

1/2

odchylenie standardowe próby

odchylenie standardowe próby

s = [

s = [

i

i

(x

(x

i

i

-

-

x

x

r

r

)

)

2

2

/(n

/(n

-

-

1)]

1)]

1/2

1/2

x

x

r

r

rednia z próby

rednia z próby

x

x

r

r

=

=

i

i

x

x

i

i

/n

/n

n

n

liczno próby

liczno próby

background image

13

13

Ewa Figielska 2012

Ewa Figielska 2012

Definicje poj (2)

Definicje poj (2)

Mediana

Mediana

miara "tendencji centralnej", dla której połowa

miara "tendencji centralnej", dla której połowa

obserwacji (50%) jest wi ksza, a druga połowa jest mniejsza

obserwacji (50%) jest wi ksza, a druga połowa jest mniejsza

b d równa jej warto ci (mediana = redniej z dwu rodkowych

b d równa jej warto ci (mediana = redniej z dwu rodkowych

warto ci, je eli liczba obserwacji jest parzysta).

warto ci, je eli liczba obserwacji jest parzysta).

Mediana jest znacznie bardziej odporna na

Mediana jest znacznie bardziej odporna na

obserwacje odstaj ce

obserwacje odstaj ce

ni

ni

rednia arytmetyczna: nawet du e zmiany skrajnych obserwacji nie

rednia arytmetyczna: nawet du e zmiany skrajnych obserwacji nie

wpływaj na jej warto .

wpływaj na jej warto .

Odchylenie

Odchylenie

medianowe

medianowe

-

-

miara zmienno ci równa medianie z

miara zmienno ci równa medianie z

bezwzgl dnych odchyle od mediany zbioru danych.

bezwzgl dnych odchyle od mediany zbioru danych.

Np. dla danych (1, 1, 2, 2, 4, 6, 9) mediana = 2. Warto ci bezwz

Np. dla danych (1, 1, 2, 2, 4, 6, 9) mediana = 2. Warto ci bezwz

gl dnych

gl dnych

odchyle od warto ci 2 wynosz odpowiednio (1, 1, 0, 0, 2, 4, 7)

odchyle od warto ci 2 wynosz odpowiednio (1, 1, 0, 0, 2, 4, 7)

. Dla

. Dla

powstałego zbioru danych mediana = 1. Zatem odchylenie

powstałego zbioru danych mediana = 1. Zatem odchylenie

medianowe

medianowe

wynosi 1.

wynosi 1.

Odchylenie

Odchylenie

medianowe

medianowe

jest bardziej odporne na obserwacje odstaj ce

jest bardziej odporne na obserwacje odstaj ce

ni odchylenie standardowe (w odchyleniu standardowym odległo ci

ni odchylenie standardowe (w odchyleniu standardowym odległo ci

od

od

redniej s podnoszone do kwadratu, wi c wpływ du ych odległo ci

redniej s podnoszone do kwadratu, wi c wpływ du ych odległo ci

jest

jest

w tym przypadku du y). W odchyleniu

w tym przypadku du y). W odchyleniu

medianowym

medianowym

wielko ci odległo ci

wielko ci odległo ci

niewielkiej liczby obserwacji odstaj cych nie s znacz ce.

niewielkiej liczby obserwacji odstaj cych nie s znacz ce.

background image

14

14

Ewa Figielska 2012

Ewa Figielska 2012

Definicje poj (3)

Definicje poj (3)

Modalna (moda)

Modalna (moda)

miara "tendencji centralnej", modalna z

miara "tendencji centralnej", modalna z

próby oznacza najcz ciej wyst puj ca warto w danych

próby oznacza najcz ciej wyst puj ca warto w danych

w próbie.

w próbie.

Kwartyl

Kwartyl

pierwszy (dolny)

pierwszy (dolny)

warto zmiennej, poni ej której

warto zmiennej, poni ej której

znajduje si 25% warto ci danej zmiennej.

znajduje si 25% warto ci danej zmiennej.

Kwartyl

Kwartyl

trzeci (górny)

trzeci (górny)

warto zmiennej, poni ej której

warto zmiennej, poni ej której

znajduje si 75% warto ci danej zmiennej.

znajduje si 75% warto ci danej zmiennej.

Rozst p

Rozst p

kwartylowy

kwartylowy

(

(

mi dzykwartylowy

mi dzykwartylowy

)

)

ró nica mi dzy

ró nica mi dzy

trzecim a pierwszym

trzecim a pierwszym

kwartylem

kwartylem

(szeroko przedziału

(szeroko przedziału

wokół mediany, który obejmuje 50% przypadków).

wokół mediany, który obejmuje 50% przypadków).

background image

15

15

Ewa Figielska 2012

Ewa Figielska 2012

Definicje poj (4)

Definicje poj (4)

Sko no (asymetria)

Sko no (asymetria)

mierzy odchylenie

mierzy odchylenie

rozkładu od symetrii. Je li warto

rozkładu od symetrii. Je li warto

sko no ci jest wyra nie ró na od zera,

sko no ci jest wyra nie ró na od zera,

wówczas dany rozkład jest asymetryczny

wówczas dany rozkład jest asymetryczny

Sko no = n*

Sko no = n*

i

i

(x

(x

i

i

-

-

x

x

r

r

)

)

3

3

/ [(n

/ [(n

-

-

1)*(n

1)*(n

-

-

2)*

2)*

3

3

]

]

n

n

liczba wa nych przypadków

liczba wa nych przypadków

Sko no wskazuje, czy rozkład ma pojedynczy

Sko no wskazuje, czy rozkład ma pojedynczy

długi kraniec, np. rozkład dochodów ludzi mo e

długi kraniec, np. rozkład dochodów ludzi mo e

pokaza , e wi kszo ludzi zarabia od małych

pokaza , e wi kszo ludzi zarabia od małych

do rednich kwot, a niewiele osób zarabia du e

do rednich kwot, a niewiele osób zarabia du e

sumy.

sumy.

Wykorzystanie warto ci

Wykorzystanie warto ci

kwartyli

kwartyli

w interpretacji

w interpretacji

sko no ci rozkładu:

sko no ci rozkładu:

Q3

Q3

Q2 =

Q2 =

Q2

Q2

-

-

Q1 ( sko no zerowa)

Q1 ( sko no zerowa)

Q3

Q3

Q2 >

Q2 >

Q2

Q2

-

-

Q1 ( sko no dodatnia)

Q1 ( sko no dodatnia)

Q3

Q3

Q2 <

Q2 <

Q2

Q2

-

-

Q1 ( sko no ujemna)

Q1 ( sko no ujemna)

0

5

10

15

20

25

30

background image

16

16

Ewa Figielska 2012

Ewa Figielska 2012

Definicje poj (5)

Definicje poj (5)

Kurtoza

Kurtoza

miara tego, czy rozkład jest "wysmukły"

miara tego, czy rozkład jest "wysmukły"

(

(

leptokurtyczny

leptokurtyczny

) czy "spłaszczony" (

) czy "spłaszczony" (

platokurtyczny

platokurtyczny

)

)

wykorzystywany do okre lenia stopnia koncentracji

wykorzystywany do okre lenia stopnia koncentracji

warto ci zmiennej wokół redniej. Dla rozkładu

warto ci zmiennej wokół redniej. Dla rozkładu

wysmukłego kurtoza>0, dla rozkładu

wysmukłego kurtoza>0, dla rozkładu

spłaszczonego kutoza<0.

spłaszczonego kutoza<0.

Wy sza

Wy sza

kurtoza

kurtoza

oznacza, e wi ksza wariancja jest

oznacza, e wi ksza wariancja jest

spowodowana niezbyt cz stymi ale du ymi

spowodowana niezbyt cz stymi ale du ymi

odchyleniami.

odchyleniami.

Ni sza

Ni sza

kurtoza

kurtoza

oznacza cz ste niezbyt du e odchylenia.

oznacza cz ste niezbyt du e odchylenia.

background image

17

17

Ewa Figielska 2012

Ewa Figielska 2012

Definicje poj (6)

Definicje poj (6)

Histogram

Histogram

-

-

graficzny sposób

graficzny sposób

przedstawienia rozkładu liczebno ci

przedstawienia rozkładu liczebno ci

wybranej zmiennej, na którym kolumny

wybranej zmiennej, na którym kolumny

s wykre lane ponad przedziałami

s wykre lane ponad przedziałami

klasowymi, a wysoko kolumn jest

klasowymi, a wysoko kolumn jest

proporcjonalna do liczebno ci klas.

proporcjonalna do liczebno ci klas.

Wykres rozrzutu

Wykres rozrzutu

-

-

słu y do wizualizacji

słu y do wizualizacji

relacji pomi dzy dwiema zmiennymi X i

relacji pomi dzy dwiema zmiennymi X i

Y (np. mas i wysoko ci ciała). Dane

Y (np. mas i wysoko ci ciała). Dane

dla zmiennych X i Y s reprezentowane

dla zmiennych X i Y s reprezentowane

jako punkty w dwuwymiarowej

jako punkty w dwuwymiarowej

przestrzeni.

przestrzeni.

Je li dwie zmienne s mocno powi zane,

Je li dwie zmienne s mocno powi zane,

wówczas punkty danych tworz regularny

wówczas punkty danych tworz regularny

kształt (np. lini prost lub wyra n krzyw ).

kształt (np. lini prost lub wyra n krzyw ).

Je li dane dwie zmienne nie s powi zane

Je li dane dwie zmienne nie s powi zane

ze sob , wówczas punkty na wykresie

ze sob , wówczas punkty na wykresie

tworz nieregularn "chmur ".

tworz nieregularn "chmur ".

background image

Ewa Figielska 2012

Ewa Figielska 2012

18

18

Wst pna obróbka danych

Wst pna obróbka danych

background image

19

19

Ewa Figielska 2012

Ewa Figielska 2012

Wst pna obróbka danych

Wst pna obróbka danych

Wi kszo surowych danych przechowywanych w

Wi kszo surowych danych przechowywanych w

bazach danych jest nieobrobiona, niekompletna i

bazach danych jest nieobrobiona, niekompletna i

zaszumiona

zaszumiona

, np. zawieraj :

, np. zawieraj :

zb dne i przestarzałe pola,

zb dne i przestarzałe pola,

rekordy z brakuj cymi warto ciami,

rekordy z brakuj cymi warto ciami,

punkty oddalone (obserwacje/punkty odstaj ce),

punkty oddalone (obserwacje/punkty odstaj ce),

dane w formacie nieodpowiednim dla modeli eksploracji

dane w formacie nieodpowiednim dla modeli eksploracji

danych,

danych,

warto ci niezgodne z zasadami lub ze zdrowym

warto ci niezgodne z zasadami lub ze zdrowym

rozs dkiem

rozs dkiem

Czyszczenie danych

Czyszczenie danych

i

i

przekształcanie danych

przekształcanie danych

(wst pna obróbka danych) przygotowuje baz

(wst pna obróbka danych) przygotowuje baz

danych do eksploracji.

danych do eksploracji.

background image

20

20

Ewa Figielska 2012

Ewa Figielska 2012

Obsługa brakuj cych danych

Obsługa brakuj cych danych

Brak pewnych warto ci pól dla

Brak pewnych warto ci pól dla

pewnych rekordów

pewnych rekordów

post powanie:

post powanie:

Zast pienie brakuj cej warto ci

Zast pienie brakuj cej warto ci

pewn stał , okre lon przez

pewn stał , okre lon przez

analityka,

analityka,

Zast pienie brakuj cej warto ci

Zast pienie brakuj cej warto ci

warto ci redni (dla zmiennych

warto ci redni (dla zmiennych

liczbowych) lub warto ci modaln

liczbowych) lub warto ci modaln

(dla zmiennych jako ciowych),

(dla zmiennych jako ciowych),

Zast pienie brakuj cych warto ci

Zast pienie brakuj cych warto ci

warto ci wygenerowan losowo

warto ci wygenerowan losowo

zgodnie z obserwowanym

zgodnie z obserwowanym

rozkładem zmiennej.

rozkładem zmiennej.

350

350

4

4

10

10

400

400

8

8

9

9

302

302

8

8

8

8

89

89

4

4

7

7

285.25

285.25

8

8

6

6

350

350

8

8

5

5

285.25

285.25

8

8

4

4

89

89

8

8

3

3

400

400

4

4

2

2

302

302

8

8

1

1

pojemno

pojemno

silnika (zm.

silnika (zm.

liczbowa)

liczbowa)

lb

lb

. cylindrów

. cylindrów

(zm.

(zm.

jako ciowa)

jako ciowa)

background image

21

21

Ewa Figielska 2012

Ewa Figielska 2012

Punkty oddalone (obserwacje/elementy odstaj ce)

Punkty oddalone (obserwacje/elementy odstaj ce)

Punkty oddalone

Punkty oddalone

skrajne warto ci, które znajduj

skrajne warto ci, które znajduj

si blisko granic zakresu danych lub s sprzeczne

si blisko granic zakresu danych lub s sprzeczne

z ogólnym trendem pozostałych danych.

z ogólnym trendem pozostałych danych.

Punkty oddalone mog reprezentowa bł dy

Punkty oddalone mog reprezentowa bł dy

powstałe podczas wprowadzania danych

powstałe podczas wprowadzania danych

wa na

wa na

jest ich identyfikacja.

jest ich identyfikacja.

Pewne metody statystyczne s wra liwe na

Pewne metody statystyczne s wra liwe na

obecno punktów oddalonych i mog da

obecno punktów oddalonych i mog da

niestabilne wyniki, nawet je eli punkty te

niestabilne wyniki, nawet je eli punkty te

reprezentuj poprawne warto ci danych.

reprezentuj poprawne warto ci danych.

background image

22

22

Ewa Figielska 2012

Ewa Figielska 2012

Identyfikacja punktów oddalonych z wykorzystaniem

Identyfikacja punktów oddalonych z wykorzystaniem

pakietu

pakietu

Tanagra

Tanagra

background image

23

23

Ewa Figielska 2012

Ewa Figielska 2012

Zbiór danych

Zbiór danych

Plik danych

Plik danych

body_mass_index.xls

body_mass_index.xls

zawiera 50

zawiera 50

przykładów z 3 zmiennymi:

przykładów z 3 zmiennymi:

waga (WEIGHT) w kilogramach,

waga (WEIGHT) w kilogramach,

wysoko (HEIGHT) w metrach,

wysoko (HEIGHT) w metrach,

indeks masy ciała (BODY MASS).

indeks masy ciała (BODY MASS).

Celem jest wykrycie nie pasuj cych warto ci dla

Celem jest wykrycie nie pasuj cych warto ci dla

ka dej zmiennej (punktów oddalonych).

ka dej zmiennej (punktów oddalonych).

background image

24

24

Ewa Figielska 2012

Ewa Figielska 2012

Tworzenie nowego diagramu

Tworzenie nowego diagramu

Aby bezpo rednio importowa plik z danymi typu XLS

Aby bezpo rednio importowa plik z danymi typu XLS

przez utworzenie nowego diagramu, nale y:

przez utworzenie nowego diagramu, nale y:

wybra menu

wybra menu

File

File

/New,

/New,

okre li nazw pliku XLS i nazw pliku diagramu (Uwaga: zbiór

okre li nazw pliku XLS i nazw pliku diagramu (Uwaga: zbiór

danych musi by w pierwszym arkuszu).

danych musi by w pierwszym arkuszu).

background image

25

25

Ewa Figielska 2012

Ewa Figielska 2012

Histogramy zmiennych

Histogramy zmiennych

Histogramy daj mo liwo krótkiego opisu głównych

Histogramy daj mo liwo krótkiego opisu głównych

charakterystyk kolekcji obserwowanych danych.

charakterystyk kolekcji obserwowanych danych.

Post powanie:

Post powanie:

Zdefiniowa zmienne wej ciowe (INPUT) z wykorzystaniem

Zdefiniowa zmienne wej ciowe (INPUT) z wykorzystaniem

komponentu DEFINE STATUS

komponentu DEFINE STATUS

background image

26

26

Ewa Figielska 2012

Ewa Figielska 2012

Histogramy zmiennych,

Histogramy zmiennych,

cd

cd

.

.

Wstawi (przeci gn ) do diagramu komponent MORE UNIVARIATE

Wstawi (przeci gn ) do diagramu komponent MORE UNIVARIATE

CONT STAT

CONT STAT

Aby obejrze statystyki, nale y wybra

Aby obejrze statystyki, nale y wybra

View

View

po naci ni ciu lewym

po naci ni ciu lewym

przyciskiem myszy na MORE UNIVARIATE CONT STAT

przyciskiem myszy na MORE UNIVARIATE CONT STAT

background image

27

27

Ewa Figielska 2012

Ewa Figielska 2012

Histogram wagi (WEIGHTKG)

Histogram wagi (WEIGHTKG)

background image

28

28

Ewa Figielska 2012

Ewa Figielska 2012

Histogram wysoko ci (HEIGHTM)

Histogram wysoko ci (HEIGHTM)

background image

29

29

Ewa Figielska 2012

Ewa Figielska 2012

Histogram indeksu masy ciała (BODYMASS)

Histogram indeksu masy ciała (BODYMASS)

background image

30

30

Ewa Figielska 2012

Ewa Figielska 2012

Opis statystyk

Opis statystyk

Kurtoza

Kurtoza

Kurtosis

Kurtosis

Sko no

Sko no

Skewness

Skewness

1

1

-

-

szy i 3

szy i 3

-

-

ci

ci

kwartyl

kwartyl

1st * 3rd quartile

1st * 3rd quartile

Warto minimalna i maksymalna

Warto minimalna i maksymalna

Min * Max

Min * Max

Odchylenie medianowe

MAD (median absolute

deviation)

Odchylenie standardowe

Odchylenie standardowe

Std dev.

Std dev.

Mediana

Mediana

Median

Median

Warto rednia

Warto rednia

Average

Average

Opis

Opis

Nazwa

Nazwa

background image

31

31

Ewa Figielska 2012

Ewa Figielska 2012

Wykres rozrzutu

Wykres rozrzutu

Umo liwia wykrycie odchyle próbek bior c pod uwag

Umo liwia wykrycie odchyle próbek bior c pod uwag

zale no ci mi dzy zmiennymi.

zale no ci mi dzy zmiennymi.

Post powanie: wstawi do diagramu komponent SCATTER

Post powanie: wstawi do diagramu komponent SCATTER

WHITH LABEL (DATA VISUALIZATION

WHITH LABEL (DATA VISUALIZATION

tab

tab

).

).

background image

32

32

Ewa Figielska 2012

Ewa Figielska 2012

Wykres rozrzutu (HEIGHTM

Wykres rozrzutu (HEIGHTM

vs

vs

. WEIGHTKG)

. WEIGHTKG)

Próbki 19 i 22

Próbki 19 i 22

wydaj si nie

wydaj si nie

pasowa do

pasowa do

głównego

głównego

wzoru

wzoru

punktów

punktów

background image

33

33

Ewa Figielska 2012

Ewa Figielska 2012

Wykres rozrzutu (BODYMASS

Wykres rozrzutu (BODYMASS

vs

vs

. WEIGHTKG)

. WEIGHTKG)

Znów próbki

Znów próbki

19 i 22 s

19 i 22 s

oddalone od

oddalone od

pozostałych

pozostałych

punktów.

punktów.

background image

34

34

Ewa Figielska 2012

Ewa Figielska 2012

Automatyczna detekcja punktów oddalonych

Automatyczna detekcja punktów oddalonych

Komponent UNIVARIATE OUTLIER DETECTION próbuje wykry próbki, k

Komponent UNIVARIATE OUTLIER DETECTION próbuje wykry próbki, k

tóre

tóre

s oddalone od pozostałych.

s oddalone od pozostałych.

W PARAMETERS (po naci ni ciu prawego przycisku myszy na UNIVARIA

W PARAMETERS (po naci ni ciu prawego przycisku myszy na UNIVARIA

TE

TE

OUTLIER DETECTION ) nale y dokona odpowiedniego wyboru w oknie

OUTLIER DETECTION ) nale y dokona odpowiedniego wyboru w oknie

FILTERING i PARAMETERS.

FILTERING i PARAMETERS.

background image

35

35

Ewa Figielska 2012

Ewa Figielska 2012

Testy wykrywaj ce punkty oddalone

Testy wykrywaj ce punkty oddalone

Test

Test

Grubbsa

Grubbsa

dla jednej zmiennej, przy zało eniu, e zbiór danych

dla jednej zmiennej, przy zało eniu, e zbiór danych

da si przybli y za pomoc rozkładu normalnego. Test

da si przybli y za pomoc rozkładu normalnego. Test

Grubbsa

Grubbsa

jest

jest

zdefiniowany dla hipotez:

zdefiniowany dla hipotez:

H

H

0

0

brak punktów oddalonych w zbiorze danych,

brak punktów oddalonych w zbiorze danych,

H

H

a

a

istnieje przynajmniej jeden punkt oddalony w zbiorze danych.

istnieje przynajmniej jeden punkt oddalony w zbiorze danych.

gdzie = rednia z próby, s = odchylenie standardowe.

gdzie = rednia z próby, s = odchylenie standardowe.

Hipoteza o braku punktów oddalonych zostaje odrzucona przy

Hipoteza o braku punktów oddalonych zostaje odrzucona przy

poziomie

poziomie

istotno ci

istotno ci

, je eli

, je eli

gdzie t

gdzie t

/(2N),N

/(2N),N

-

-

2

2

jest górn krytyczn warto ci rozkładu t Studenta o N

jest górn krytyczn warto ci rozkładu t Studenta o N

-

-

2

2

stopniach swobody i poziomie istotno ci /(2N)

stopniach swobody i poziomie istotno ci /(2N)

Y

background image

36

36

Ewa Figielska 2012

Ewa Figielska 2012

Testy wykrywaj ce punkty oddalone

Testy wykrywaj ce punkty oddalone

Test 3

Test 3

-

-

sigma

sigma

Test z wykorzystaniem rozst pu

Test z wykorzystaniem rozst pu

mi dzykwartylowego

mi dzykwartylowego

.

.

Niech Q1 oznacza pierwszy

Niech Q1 oznacza pierwszy

kwartyl

kwartyl

, Q3

, Q3

trzeci

trzeci

kwartyl

kwartyl

.

.

Dolne wewn trzne ograniczenie: Q1

Dolne wewn trzne ograniczenie: Q1

-

-

1.5*(Q3

1.5*(Q3

-

-

Q1).

Q1).

Górne wewn trzne ograniczenie: Q3 + 1.5*(Q3

Górne wewn trzne ograniczenie: Q3 + 1.5*(Q3

-

-

Q1).

Q1).

Dolne zewn trzne ograniczenie : Q1

Dolne zewn trzne ograniczenie : Q1

-

-

3*(Q3

3*(Q3

-

-

Q1).

Q1).

Górne zewn trzne ograniczenie : Q3 + 3*(Q3

Górne zewn trzne ograniczenie : Q3 + 3*(Q3

-

-

Q1).

Q1).

Warto danych jest punktem oddalonym, je eli jest poło ona

Warto danych jest punktem oddalonym, je eli jest poło ona

poni ej dolnego ograniczenia lub

poni ej dolnego ograniczenia lub

powy ej górnego ograniczenia.

powy ej górnego ograniczenia.

Y

background image

37

37

Ewa Figielska 2012

Ewa Figielska 2012

Wyniki dla poszczególnych zmiennych

Wyniki dla poszczególnych zmiennych

Test

Test

Grubbsa

Grubbsa

z poziomem istotno ci = 5%: punkty oddalone wyst puj

z poziomem istotno ci = 5%: punkty oddalone wyst puj

tylko dla BODYMASS.

tylko dla BODYMASS.

Test 3

Test 3

-

-

sigma: BODYMASS zawiera 2 punkty oddalone.

sigma: BODYMASS zawiera 2 punkty oddalone.

Testy z wykorzystaniem rozst pu

Testy z wykorzystaniem rozst pu

mi dzykwartylowego

mi dzykwartylowego

:

:

wewn trzne ograniczenie: 1 punkt oddalony dla WEIGHTKG i 2 dla

wewn trzne ograniczenie: 1 punkt oddalony dla WEIGHTKG i 2 dla

BODYMASS,

BODYMASS,

zewn trzne ograniczenie: 2 oddalone warto ci dla BODYMASS.

zewn trzne ograniczenie: 2 oddalone warto ci dla BODYMASS.

background image

38

38

Ewa Figielska 2012

Ewa Figielska 2012

Po usuni ciu punktów oddalonych

Po usuni ciu punktów oddalonych

Statystyki dla zbioru danych po usuni ciu punktów

Statystyki dla zbioru danych po usuni ciu punktów

oddalonych.

oddalonych.

Reguła, okre laj ca punkty do usuni cia, zaznaczona została w

Reguła, okre laj ca punkty do usuni cia, zaznaczona została w

zakładce

zakładce

Filtering

Filtering

przy ustawianiu automatycznej detekcji.

przy ustawianiu automatycznej detekcji.

Nale y wstawi

Nale y wstawi

UNIVARIATE

UNIVARIATE

CONTINUOUS

CONTINUOUS

STAT 1 do

STAT 1 do

diagramu.

diagramu.

background image

39

39

Ewa Figielska 2012

Ewa Figielska 2012

Porównanie wyników

Porównanie wyników

Odchylenie ma najwi ksz warto dla BODYMASS

Odchylenie ma najwi ksz warto dla BODYMASS

+3.13%

+3.13%

26.8400

26.8400

27.6806

27.6806

BODYMASS

BODYMASS

-

-

0.25%

0.25%

1.6623

1.6623

1.6581

1.6581

HEIGHTM

HEIGHTM

+2.23%

+2.23%

74.3796

74.3796

76.0402

76.0402

WEIGHTKG

WEIGHTKG

Odchylenie

Odchylenie

rednia dla 48

rednia dla 48

przypadków (bez 19 i 22)

przypadków (bez 19 i 22)

rednia dla 50

rednia dla 50

przypadków

przypadków

Zmienna

Zmienna

background image

40

40

Ewa Figielska 2012

Ewa Figielska 2012

Punkty oddalone

Punkty oddalone

-

-

podsumowanie

podsumowanie

Wiele statystycznych technik jest wra liwych na obecno

Wiele statystycznych technik jest wra liwych na obecno

punktów oddalonych, np. rednia i odchylenie standardowe

punktów oddalonych, np. rednia i odchylenie standardowe

mog zosta zniekształcone przez pojedynczy

mog zosta zniekształcone przez pojedynczy

nieprecyzyjny punkt danych.

nieprecyzyjny punkt danych.

Poszukiwanie punktów oddalonych zawsze powinno by

Poszukiwanie punktów oddalonych zawsze powinno by

cz ci analizy danych.

cz ci analizy danych.

Potencjalne punkty oddalone powinny by sprawdzane pod

Potencjalne punkty oddalone powinny by sprawdzane pod

wzgl dem poprawno ci reprezentowanych przez nie

wzgl dem poprawno ci reprezentowanych przez nie

danych.

danych.

Je eli punkt oddalony jest bł dny, to powinien by poprawiony lu

Je eli punkt oddalony jest bł dny, to powinien by poprawiony lu

b,

b,

je eli nie jest to mo liwe, usuni ty.

je eli nie jest to mo liwe, usuni ty.

Nie nale y usuwa punktów oddalonych zbyt pochopnie.

Nie nale y usuwa punktów oddalonych zbyt pochopnie.

Pewne techniki pozwalaj wyeliminowa negatywne skutki

Pewne techniki pozwalaj wyeliminowa negatywne skutki

wyst powania punktów oddalonych bez konieczno ci ich usuwania.

wyst powania punktów oddalonych bez konieczno ci ich usuwania.

background image

41

41

Ewa Figielska 2012

Ewa Figielska 2012

Przekształcanie danych

Przekształcanie danych

Uzasadnienie:

Uzasadnienie:

Zakresy zmiennych zwykle ró ni si znacznie mi dzy

Zakresy zmiennych zwykle ró ni si znacznie mi dzy

sob .

sob .

Dla pewnych algorytmów ró nice zakresów powoduj ,

Dla pewnych algorytmów ró nice zakresów powoduj ,

e zmienne z wi kszym zakresem b d miały nadmierny

e zmienne z wi kszym zakresem b d miały nadmierny

wpływ na wyniki.

wpływ na wyniki.

Nale y dokona normalizacji zmiennych numerycznych,

Nale y dokona normalizacji zmiennych numerycznych,

aby ujednolici wpływ ka dej zmiennej na wyniki.

aby ujednolici wpływ ka dej zmiennej na wyniki.

Techniki normalizacji:

Techniki normalizacji:

Normalizacja min

Normalizacja min

-

-

max,

max,

Standaryzacja.

Standaryzacja.

Oznaczenia:

Oznaczenia:

X

X

oryginalna warto pola,

oryginalna warto pola,

X*

X*

-

-

znormalizowana warto pola.

znormalizowana warto pola.

background image

42

42

Ewa Figielska 2012

Ewa Figielska 2012

Przekształcanie danych,

Przekształcanie danych,

cd

cd

.

.

Normalizacja

Normalizacja

X* = (X

X* = (X

-

-

min(X

min(X

)) / (

)) / (

max(X

max(X

)

)

-

-

min(X

min(X

))

))

Znormalizowane warto ci nale do przedziału <0,1>.

Znormalizowane warto ci nale do przedziału <0,1>.

Standaryzacja

Standaryzacja

X* = (X

X* = (X

-

-

rednie(X

rednie(X

)) / (X)

)) / (X)

Warto ci po standaryzacji nale zwykle do przedziału <

Warto ci po standaryzacji nale zwykle do przedziału <

-

-

4,4>.

4,4>.

rodek rozkładu znajduje si w punkcie 0.

rodek rozkładu znajduje si w punkcie 0.

acceleration

NORMALIZACJA

STANDARYZACJA

11.5

0.208333333

-1.4537

min=

8

11

0.178571429

-1.6431

max=

24.8

10.5

0.148809524

-1.8326

rednia =

15.3363

10

0.119047619

-2.0221

odch.std.= 2.63903

8.5

0.029761905

-2.5904

10

0.119047619

-2.0221

10

0.119047619

-2.0221

8

0

-2.7799

10

0.119047619

-2.0221

15

0.416666667

-0.1274

15.5

0.446428571

0.0620

20.5

0.744047619

1.9567

17.5

0.56547619

0.8199

17.5

0.56547619

0.8199

12.5

0.267857143

-1.0747

14

0.357142857

-0.5063

15

0.416666667

-0.1274

18.5

0.625

1.1988

background image

43

43

Ewa Figielska 2012

Ewa Figielska 2012

Histogram przed

Histogram przed

przekształceniem

przekształceniem

danych

danych

Histogram po

Histogram po

normalizacji

normalizacji

Histogram po

Histogram po

standaryzacji

standaryzacji

background image

44

44

Ewa Figielska 2012

Ewa Figielska 2012

Standaryzacja

Standaryzacja

w

w

Tanagrze

Tanagrze

background image

45

45

Ewa Figielska 2012

Ewa Figielska 2012

Słowniczek

Słowniczek

Univariate

Univariate

statistics

statistics

statystyka jednej zmiennej

statystyka jednej zmiennej

Scatter

Scatter

plot

plot

wykres rozrzutu

wykres rozrzutu

Outliers

Outliers

punkty oddalone (obserwacje/elementy odstaj ce)

punkty oddalone (obserwacje/elementy odstaj ce)

Clustering

Clustering

grupowanie

grupowanie

Exploratory

Exploratory

data

data

analysis

analysis

eksploracyjne analiza danych

eksploracyjne analiza danych


Wyszukiwarka

Podobne podstrony:
cw1 wprowadzenie
WYKLAD I - wprowadzenie modele baz danych, Uczelnia, sem V, bazy danych, wyklad Rudnik
BD Wykad 1 Wprowadzenie do baz danych id 8 (2)
Wyklad 1 Wstepne przetwarzania danych
Obrobka danych sekwencyjnych
wyklad 1 Wstepne przetwarzania danych
Tablice cw1 Wprowadz do przedsieb
WYWIAD WSTĘPNY - wręcznik - A.Gabińska, WYWIAD WSTĘPNY - ZBIERANIE DANYCH FAKTOGRAFICZNYCH
Wprowadzenie do baz danych, Bazy Danych
cw1 wprowadzenie
Wprowadzenie do baz danych
Wprowadzenie do baz danych wpbada
Wprowadzenie do baz danych wpbada

więcej podobnych podstron