Ewa Figielska 2012
Ewa Figielska 2012
1
1
Eksploracja danych
Eksploracja danych
–
–
w. 1
w. 1
Wprowadzenie
Wprowadzenie
Zadania eksploracji danych
Zadania eksploracji danych
Definicje wybranych poj
Definicje wybranych poj
Wst pna obróbka danych
Wst pna obróbka danych
2
2
Ewa Figielska 2012
Ewa Figielska 2012
Literatura
Literatura
D. T.
D. T.
Larose
Larose
, "Odkrywanie wiedzy z danych. Wprowadzenie
, "Odkrywanie wiedzy z danych. Wprowadzenie
do eksploracji danych”. Wyd. Naukowe PWN 2006.
do eksploracji danych”. Wyd. Naukowe PWN 2006.
D. T.
D. T.
Larose
Larose
, "Metody i modele eksploracji danych". Wyd.
, "Metody i modele eksploracji danych". Wyd.
Naukowe PWN 2008.
Naukowe PWN 2008.
D.
D.
Hand
Hand
, H.
, H.
Mannila
Mannila
, P.
, P.
Smyth
Smyth
, "Eksploracja danych". WNT
, "Eksploracja danych". WNT
2005.
2005.
ródła internetowe:
ródła internetowe:
Statiscics
Statiscics
Homepage
Homepage
Glossary
Glossary
:
:
www.statsoft.pl
www.statsoft.pl
/
/
textbook
textbook
/
/
glosfra.html
glosfra.html
Wikipedia
Wikipedia
Tanagra
Tanagra
Tutorials
Tutorials
:
:
data
data
-
-
mining
mining
-
-
tutorials.blogspot.com
tutorials.blogspot.com
3
3
Ewa Figielska 2012
Ewa Figielska 2012
Eksploracja danych
Eksploracja danych
–
–
przykładowe definicje
przykładowe definicje
Eksploracja danych jest procesem odkrywania
Eksploracja danych jest procesem odkrywania
znacz cych nowych powi za , wzorców i trendów
znacz cych nowych powi za , wzorców i trendów
przez przeszukiwanie du ych ilo ci danych
przez przeszukiwanie du ych ilo ci danych
zgromadzonych w skarbnicach danych, przy
zgromadzonych w skarbnicach danych, przy
wykorzystaniu metod rozpoznawania wzorców, jak
wykorzystaniu metod rozpoznawania wzorców, jak
równie metod statystycznych i matematycznych.
równie metod statystycznych i matematycznych.
(
(
www.gartner.com
www.gartner.com
)
)
Eksploracja danych jest
Eksploracja danych jest
mi dzydyscyplinarn
mi dzydyscyplinarn
dziedzin ł cz c techniki uczenia maszynowego,
dziedzin ł cz c techniki uczenia maszynowego,
rozpoznawania wzorców, statystyki, baz danych i
rozpoznawania wzorców, statystyki, baz danych i
wizualizacji w celu uzyskiwania informacji z du ych
wizualizacji w celu uzyskiwania informacji z du ych
baz danych.
baz danych.
(
(
P.Cabena
P.Cabena
i inni,
i inni,
Discovering
Discovering
Data
Data
Mining
Mining
:
:
From
From
Concept
Concept
to
to
Implementation
Implementation
,
,
Prentice
Prentice
Hall
Hall
,
,
Upper
Upper
Saddle
Saddle
River
River
, NJ 1998)
, NJ 1998)
4
4
Ewa Figielska 2012
Ewa Figielska 2012
Zadania eksploracji danych
Zadania eksploracji danych
Opis
Opis
Szacowanie (estymacja)
Szacowanie (estymacja)
Przewidywanie (predykcja)
Przewidywanie (predykcja)
Klasyfikacja
Klasyfikacja
Grupowanie
Grupowanie
Odkrywanie reguł
Odkrywanie reguł
5
5
Ewa Figielska 2012
Ewa Figielska 2012
Opis
Opis
Opis wzorców i trendów znajduj cych si w danych,
Opis wzorców i trendów znajduj cych si w danych,
co cz sto sugeruje mo liwe wyja nienia wzorców i
co cz sto sugeruje mo liwe wyja nienia wzorców i
trendów.
trendów.
Np. ludzie, którzy zostali zwolnieni z pracy w trakcie
Np. ludzie, którzy zostali zwolnieni z pracy w trakcie
kadencji obecnego prezydenta s teraz gorzej sytuowani,
kadencji obecnego prezydenta s teraz gorzej sytuowani,
jest wi c mniej prawdopodobne, e popr oni obecnego
jest wi c mniej prawdopodobne, e popr oni obecnego
prezydenta.
prezydenta.
Wyniki eksploracji danych powinny opisywa jasne
Wyniki eksploracji danych powinny opisywa jasne
wzorce i trendy, które mo na intuicyjnie
wzorce i trendy, które mo na intuicyjnie
zinterpretowa i wyja ni .
zinterpretowa i wyja ni .
Wysoka jako opisu mo e by cz sto osi gni ta
Wysoka jako opisu mo e by cz sto osi gni ta
przez eksploracyjn analiz danych.
przez eksploracyjn analiz danych.
6
6
Ewa Figielska 2012
Ewa Figielska 2012
Szacowanie (estymacja)
Szacowanie (estymacja)
Np. nale y oszacowa skurczowe ci nienie krwi pacjenta w
Np. nale y oszacowa skurczowe ci nienie krwi pacjenta w
szpitalu w zale no ci od wieku, płci, wagi pacjenta oraz
szpitalu w zale no ci od wieku, płci, wagi pacjenta oraz
poziomu sodu we krwi. Zwi zek pomi dzy skurczowym
poziomu sodu we krwi. Zwi zek pomi dzy skurczowym
ci nieniem krwi pacjenta a zmiennymi opisuj cymi w
ci nieniem krwi pacjenta a zmiennymi opisuj cymi w
zbiorze ucz cym okre la model estymacji, który potem
zbiorze ucz cym okre la model estymacji, który potem
mo na stosowa do nowych przypadków.
mo na stosowa do nowych przypadków.
Inne przykłady:
Inne przykłady:
szacowanie redniej ocen słuchacza studiów magisterskich na
szacowanie redniej ocen słuchacza studiów magisterskich na
podstawie jego redniej ocen ze studiów in ynierskich,
podstawie jego redniej ocen ze studiów in ynierskich,
szacowanie, ile pieni dzy wyda losowo wybrana czteroosobowa
szacowanie, ile pieni dzy wyda losowo wybrana czteroosobowa
rodzina na przygotowanie dzieci do szkoły przed zbli aj cym si
rodzina na przygotowanie dzieci do szkoły przed zbli aj cym si
rozpocz ciem roku szkolnego.
rozpocz ciem roku szkolnego.
W modelach szacowania zmienna celu ma charakter
W modelach szacowania zmienna celu ma charakter
ilo ciowy.
ilo ciowy.
Metody szacowania: szacowanie warto ci punktu i
Metody szacowania: szacowanie warto ci punktu i
przedziału ufno ci, regresja liniowa i korelacja, regresja
przedziału ufno ci, regresja liniowa i korelacja, regresja
wielokrotna.
wielokrotna.
7
7
Ewa Figielska 2012
Ewa Figielska 2012
Przewidywanie (predykcja)
Przewidywanie (predykcja)
W przewidywaniu wynik dotyczy przyszło ci. Np.
W przewidywaniu wynik dotyczy przyszło ci. Np.
przewidywanie ceny akcji po upływie 3 miesi cy,
przewidywanie ceny akcji po upływie 3 miesi cy,
przewidywanie, e dana cz steczka w procesie
przewidywanie, e dana cz steczka w procesie
odkrywania leków doprowadzi do wytworzenia nowego
odkrywania leków doprowadzi do wytworzenia nowego
leku rentownego leku dla firmy farmaceutycznej.
leku rentownego leku dla firmy farmaceutycznej.
Metody przewidywania: tradycyjne metody
Metody przewidywania: tradycyjne metody
wykorzystywane w klasyfikacji i szacowaniu, a
wykorzystywane w klasyfikacji i szacowaniu, a
tak e sieci neuronowe, drzewa decyzyjne, metoda
tak e sieci neuronowe, drzewa decyzyjne, metoda
k
k
-
-
najbli szych
najbli szych
s siadów.
s siadów.
8
8
Ewa Figielska 2012
Ewa Figielska 2012
Klasyfikacja
Klasyfikacja
Zadanie klasyfikacji posiada jako ciow zmienn
Zadanie klasyfikacji posiada jako ciow zmienn
celu. Np.
celu. Np.
Zmienna celu
Zmienna celu
grupa dochodu
grupa dochodu
mo e by podzielona na
mo e by podzielona na
trzy kategorie: wysoki dochód, redni dochód, niski
trzy kategorie: wysoki dochód, redni dochód, niski
dochód.
dochód.
Model eksploracji danych sprawdza du e zbiory
Model eksploracji danych sprawdza du e zbiory
rekordów, z których ka dy zawiera warto zmiennej
rekordów, z których ka dy zawiera warto zmiennej
celu oraz warto ci zmiennych wej ciowych (np. płe ,
celu oraz warto ci zmiennych wej ciowych (np. płe ,
wiek zawód)
wiek zawód)
-
-
> uczenie si algorytmu na zbiorze
> uczenie si algorytmu na zbiorze
ucz cym.
ucz cym.
Zadaniem klasyfikacji b dzie okre lenie grupy dochodu
Zadaniem klasyfikacji b dzie okre lenie grupy dochodu
osób
osób
niezapisanych
niezapisanych
w bazie danych na podstawie ich
w bazie danych na podstawie ich
warto ci zmiennych wej ciowych.
warto ci zmiennych wej ciowych.
Metody klasyfikacji: algorytm
Metody klasyfikacji: algorytm
k
k
-
-
najbli szych
najbli szych
s siadów, drzewa decyzyjne, sieci neuronowe.
s siadów, drzewa decyzyjne, sieci neuronowe.
9
9
Ewa Figielska 2012
Ewa Figielska 2012
Grupowanie (
Grupowanie (
clustering
clustering
)
)
Grupowanie
Grupowanie
–
–
grupowanie
grupowanie
rekordów, obserwacji
rekordów, obserwacji
lub przypadków w klasy podobnych obiektów.
lub przypadków w klasy podobnych obiektów.
Grupa jest zbiorem rekordów, które s podobne do
Grupa jest zbiorem rekordów, które s podobne do
siebie nawzajem i niepodobne do rekordów z
siebie nawzajem i niepodobne do rekordów z
innych grup.
innych grup.
Np.
Np.
namierzenie grupy potencjalnych klientów pewnego
namierzenie grupy potencjalnych klientów pewnego
produktu z niszy rynkowej wyprodukowanego przez mał
produktu z niszy rynkowej wyprodukowanego przez mał
firm z małym bud etem reklamowym,
firm z małym bud etem reklamowym,
redukcja wymiarów, gdy zbiór danych ma setki
redukcja wymiarów, gdy zbiór danych ma setki
atrybutów.
atrybutów.
Metody: grupowanie hierarchiczne, metody
Metody: grupowanie hierarchiczne, metody
k
k
-
-
rednich
rednich
, sieci
, sieci
Kohonena
Kohonena
.
.
10
10
Ewa Figielska 2012
Ewa Figielska 2012
Odkrywanie reguł
Odkrywanie reguł
Zadanie odkrywania reguł polega na poszukiwaniu
Zadanie odkrywania reguł polega na poszukiwaniu
powi zanych ze sob atrybutów.
powi zanych ze sob atrybutów.
Np.
Np.
supermaket
supermaket
mo e odkry , e z 1000 klientów
mo e odkry , e z 1000 klientów
robi cych zakupy w czwartek wieczorem 200 kupiło
robi cych zakupy w czwartek wieczorem 200 kupiło
pieluszki, a z tych 200, 50 kupiło piwo. Reguła
pieluszki, a z tych 200, 50 kupiło piwo. Reguła
asocjacyjna: "je eli kupuje pieluszki, to kupuje piwo" ze
asocjacyjna: "je eli kupuje pieluszki, to kupuje piwo" ze
wsparciem 200/1000=20% i ufno ci 50/200=25%.
wsparciem 200/1000=20% i ufno ci 50/200=25%.
Metody: algorytm a priori, algorytm GRI
Metody: algorytm a priori, algorytm GRI
Ewa Figielska 2012
Ewa Figielska 2012
11
11
Definicje wybranych poj
Definicje wybranych poj
rednia, odchylenie standardowe,
rednia, odchylenie standardowe,
mediana, odchylenie
mediana, odchylenie
medianowe
medianowe
, modalna,
, modalna,
kwartyl
kwartyl
, rozst p
, rozst p
kwartylowy
kwartylowy
, sko no ,
, sko no ,
kurtoza
kurtoza
histogram, wykres rozrzutu
histogram, wykres rozrzutu
12
12
Ewa Figielska 2012
Ewa Figielska 2012
Definicje poj (1)
Definicje poj (1)
rednia (i rednia z próby)
rednia (i rednia z próby)
-
-
miara "tendencji centralnej"
miara "tendencji centralnej"
danej zmiennej. Czym wi ksza jest liczno próby tym
danej zmiennej. Czym wi ksza jest liczno próby tym
lepsza jest rednia. Wraz ze wzrostem wariancji danych
lepsza jest rednia. Wraz ze wzrostem wariancji danych
rednia staje si mniej pewna.
rednia staje si mniej pewna.
µ=
µ=
i
i
x
x
i
i
/N
/N
µ
µ
-
-
rednia w populacji,
rednia w populacji,
x
x
i
i
-
-
warto i
warto i
-
-
tej próbki,
tej próbki,
N
N
-
-
liczebno populacji.
liczebno populacji.
Odchylenie standardowe
Odchylenie standardowe
–
–
miara zmienno ci,
miara zmienno ci,
odchylenie standardowe populacji
odchylenie standardowe populacji
= [
= [
i
i
(x
(x
i
i
-
-
µ)
µ)
2
2
/N]
/N]
1/2
1/2
odchylenie standardowe próby
odchylenie standardowe próby
s = [
s = [
i
i
(x
(x
i
i
-
-
x
x
r
r
)
)
2
2
/(n
/(n
-
-
1)]
1)]
1/2
1/2
x
x
r
r
–
–
rednia z próby
rednia z próby
x
x
r
r
=
=
i
i
x
x
i
i
/n
/n
n
n
–
–
liczno próby
liczno próby
13
13
Ewa Figielska 2012
Ewa Figielska 2012
Definicje poj (2)
Definicje poj (2)
Mediana
Mediana
–
–
miara "tendencji centralnej", dla której połowa
miara "tendencji centralnej", dla której połowa
obserwacji (50%) jest wi ksza, a druga połowa jest mniejsza
obserwacji (50%) jest wi ksza, a druga połowa jest mniejsza
b d równa jej warto ci (mediana = redniej z dwu rodkowych
b d równa jej warto ci (mediana = redniej z dwu rodkowych
warto ci, je eli liczba obserwacji jest parzysta).
warto ci, je eli liczba obserwacji jest parzysta).
Mediana jest znacznie bardziej odporna na
Mediana jest znacznie bardziej odporna na
obserwacje odstaj ce
obserwacje odstaj ce
ni
ni
rednia arytmetyczna: nawet du e zmiany skrajnych obserwacji nie
rednia arytmetyczna: nawet du e zmiany skrajnych obserwacji nie
wpływaj na jej warto .
wpływaj na jej warto .
Odchylenie
Odchylenie
medianowe
medianowe
-
-
miara zmienno ci równa medianie z
miara zmienno ci równa medianie z
bezwzgl dnych odchyle od mediany zbioru danych.
bezwzgl dnych odchyle od mediany zbioru danych.
Np. dla danych (1, 1, 2, 2, 4, 6, 9) mediana = 2. Warto ci bezwz
Np. dla danych (1, 1, 2, 2, 4, 6, 9) mediana = 2. Warto ci bezwz
gl dnych
gl dnych
odchyle od warto ci 2 wynosz odpowiednio (1, 1, 0, 0, 2, 4, 7)
odchyle od warto ci 2 wynosz odpowiednio (1, 1, 0, 0, 2, 4, 7)
. Dla
. Dla
powstałego zbioru danych mediana = 1. Zatem odchylenie
powstałego zbioru danych mediana = 1. Zatem odchylenie
medianowe
medianowe
wynosi 1.
wynosi 1.
Odchylenie
Odchylenie
medianowe
medianowe
jest bardziej odporne na obserwacje odstaj ce
jest bardziej odporne na obserwacje odstaj ce
ni odchylenie standardowe (w odchyleniu standardowym odległo ci
ni odchylenie standardowe (w odchyleniu standardowym odległo ci
od
od
redniej s podnoszone do kwadratu, wi c wpływ du ych odległo ci
redniej s podnoszone do kwadratu, wi c wpływ du ych odległo ci
jest
jest
w tym przypadku du y). W odchyleniu
w tym przypadku du y). W odchyleniu
medianowym
medianowym
wielko ci odległo ci
wielko ci odległo ci
niewielkiej liczby obserwacji odstaj cych nie s znacz ce.
niewielkiej liczby obserwacji odstaj cych nie s znacz ce.
14
14
Ewa Figielska 2012
Ewa Figielska 2012
Definicje poj (3)
Definicje poj (3)
Modalna (moda)
Modalna (moda)
–
–
miara "tendencji centralnej", modalna z
miara "tendencji centralnej", modalna z
próby oznacza najcz ciej wyst puj ca warto w danych
próby oznacza najcz ciej wyst puj ca warto w danych
w próbie.
w próbie.
Kwartyl
Kwartyl
pierwszy (dolny)
pierwszy (dolny)
–
–
warto zmiennej, poni ej której
warto zmiennej, poni ej której
znajduje si 25% warto ci danej zmiennej.
znajduje si 25% warto ci danej zmiennej.
Kwartyl
Kwartyl
trzeci (górny)
trzeci (górny)
–
–
warto zmiennej, poni ej której
warto zmiennej, poni ej której
znajduje si 75% warto ci danej zmiennej.
znajduje si 75% warto ci danej zmiennej.
Rozst p
Rozst p
kwartylowy
kwartylowy
(
(
mi dzykwartylowy
mi dzykwartylowy
)
)
–
–
ró nica mi dzy
ró nica mi dzy
trzecim a pierwszym
trzecim a pierwszym
kwartylem
kwartylem
(szeroko przedziału
(szeroko przedziału
wokół mediany, który obejmuje 50% przypadków).
wokół mediany, który obejmuje 50% przypadków).
15
15
Ewa Figielska 2012
Ewa Figielska 2012
Definicje poj (4)
Definicje poj (4)
Sko no (asymetria)
Sko no (asymetria)
–
–
mierzy odchylenie
mierzy odchylenie
rozkładu od symetrii. Je li warto
rozkładu od symetrii. Je li warto
sko no ci jest wyra nie ró na od zera,
sko no ci jest wyra nie ró na od zera,
wówczas dany rozkład jest asymetryczny
wówczas dany rozkład jest asymetryczny
Sko no = n*
Sko no = n*
i
i
(x
(x
i
i
-
-
x
x
r
r
)
)
3
3
/ [(n
/ [(n
-
-
1)*(n
1)*(n
-
-
2)*
2)*
3
3
]
]
n
n
–
–
liczba wa nych przypadków
liczba wa nych przypadków
Sko no wskazuje, czy rozkład ma pojedynczy
Sko no wskazuje, czy rozkład ma pojedynczy
długi kraniec, np. rozkład dochodów ludzi mo e
długi kraniec, np. rozkład dochodów ludzi mo e
pokaza , e wi kszo ludzi zarabia od małych
pokaza , e wi kszo ludzi zarabia od małych
do rednich kwot, a niewiele osób zarabia du e
do rednich kwot, a niewiele osób zarabia du e
sumy.
sumy.
Wykorzystanie warto ci
Wykorzystanie warto ci
kwartyli
kwartyli
w interpretacji
w interpretacji
sko no ci rozkładu:
sko no ci rozkładu:
Q3
Q3
–
–
Q2 =
Q2 =
Q2
Q2
-
-
Q1 ( sko no zerowa)
Q1 ( sko no zerowa)
Q3
Q3
–
–
Q2 >
Q2 >
Q2
Q2
-
-
Q1 ( sko no dodatnia)
Q1 ( sko no dodatnia)
Q3
Q3
–
–
Q2 <
Q2 <
Q2
Q2
-
-
Q1 ( sko no ujemna)
Q1 ( sko no ujemna)
0
5
10
15
20
25
30
16
16
Ewa Figielska 2012
Ewa Figielska 2012
Definicje poj (5)
Definicje poj (5)
Kurtoza
Kurtoza
–
–
miara tego, czy rozkład jest "wysmukły"
miara tego, czy rozkład jest "wysmukły"
(
(
leptokurtyczny
leptokurtyczny
) czy "spłaszczony" (
) czy "spłaszczony" (
platokurtyczny
platokurtyczny
)
)
wykorzystywany do okre lenia stopnia koncentracji
wykorzystywany do okre lenia stopnia koncentracji
warto ci zmiennej wokół redniej. Dla rozkładu
warto ci zmiennej wokół redniej. Dla rozkładu
wysmukłego kurtoza>0, dla rozkładu
wysmukłego kurtoza>0, dla rozkładu
spłaszczonego kutoza<0.
spłaszczonego kutoza<0.
Wy sza
Wy sza
kurtoza
kurtoza
oznacza, e wi ksza wariancja jest
oznacza, e wi ksza wariancja jest
spowodowana niezbyt cz stymi ale du ymi
spowodowana niezbyt cz stymi ale du ymi
odchyleniami.
odchyleniami.
Ni sza
Ni sza
kurtoza
kurtoza
oznacza cz ste niezbyt du e odchylenia.
oznacza cz ste niezbyt du e odchylenia.
17
17
Ewa Figielska 2012
Ewa Figielska 2012
Definicje poj (6)
Definicje poj (6)
Histogram
Histogram
-
-
graficzny sposób
graficzny sposób
przedstawienia rozkładu liczebno ci
przedstawienia rozkładu liczebno ci
wybranej zmiennej, na którym kolumny
wybranej zmiennej, na którym kolumny
s wykre lane ponad przedziałami
s wykre lane ponad przedziałami
klasowymi, a wysoko kolumn jest
klasowymi, a wysoko kolumn jest
proporcjonalna do liczebno ci klas.
proporcjonalna do liczebno ci klas.
Wykres rozrzutu
Wykres rozrzutu
-
-
słu y do wizualizacji
słu y do wizualizacji
relacji pomi dzy dwiema zmiennymi X i
relacji pomi dzy dwiema zmiennymi X i
Y (np. mas i wysoko ci ciała). Dane
Y (np. mas i wysoko ci ciała). Dane
dla zmiennych X i Y s reprezentowane
dla zmiennych X i Y s reprezentowane
jako punkty w dwuwymiarowej
jako punkty w dwuwymiarowej
przestrzeni.
przestrzeni.
Je li dwie zmienne s mocno powi zane,
Je li dwie zmienne s mocno powi zane,
wówczas punkty danych tworz regularny
wówczas punkty danych tworz regularny
kształt (np. lini prost lub wyra n krzyw ).
kształt (np. lini prost lub wyra n krzyw ).
Je li dane dwie zmienne nie s powi zane
Je li dane dwie zmienne nie s powi zane
ze sob , wówczas punkty na wykresie
ze sob , wówczas punkty na wykresie
tworz nieregularn "chmur ".
tworz nieregularn "chmur ".
Ewa Figielska 2012
Ewa Figielska 2012
18
18
Wst pna obróbka danych
Wst pna obróbka danych
19
19
Ewa Figielska 2012
Ewa Figielska 2012
Wst pna obróbka danych
Wst pna obróbka danych
Wi kszo surowych danych przechowywanych w
Wi kszo surowych danych przechowywanych w
bazach danych jest nieobrobiona, niekompletna i
bazach danych jest nieobrobiona, niekompletna i
zaszumiona
zaszumiona
, np. zawieraj :
, np. zawieraj :
zb dne i przestarzałe pola,
zb dne i przestarzałe pola,
rekordy z brakuj cymi warto ciami,
rekordy z brakuj cymi warto ciami,
punkty oddalone (obserwacje/punkty odstaj ce),
punkty oddalone (obserwacje/punkty odstaj ce),
dane w formacie nieodpowiednim dla modeli eksploracji
dane w formacie nieodpowiednim dla modeli eksploracji
danych,
danych,
warto ci niezgodne z zasadami lub ze zdrowym
warto ci niezgodne z zasadami lub ze zdrowym
rozs dkiem
rozs dkiem
Czyszczenie danych
Czyszczenie danych
i
i
przekształcanie danych
przekształcanie danych
(wst pna obróbka danych) przygotowuje baz
(wst pna obróbka danych) przygotowuje baz
danych do eksploracji.
danych do eksploracji.
20
20
Ewa Figielska 2012
Ewa Figielska 2012
Obsługa brakuj cych danych
Obsługa brakuj cych danych
Brak pewnych warto ci pól dla
Brak pewnych warto ci pól dla
pewnych rekordów
pewnych rekordów
–
–
post powanie:
post powanie:
Zast pienie brakuj cej warto ci
Zast pienie brakuj cej warto ci
pewn stał , okre lon przez
pewn stał , okre lon przez
analityka,
analityka,
Zast pienie brakuj cej warto ci
Zast pienie brakuj cej warto ci
warto ci redni (dla zmiennych
warto ci redni (dla zmiennych
liczbowych) lub warto ci modaln
liczbowych) lub warto ci modaln
(dla zmiennych jako ciowych),
(dla zmiennych jako ciowych),
Zast pienie brakuj cych warto ci
Zast pienie brakuj cych warto ci
warto ci wygenerowan losowo
warto ci wygenerowan losowo
zgodnie z obserwowanym
zgodnie z obserwowanym
rozkładem zmiennej.
rozkładem zmiennej.
350
350
4
4
10
10
400
400
8
8
9
9
302
302
8
8
8
8
89
89
4
4
7
7
285.25
285.25
8
8
6
6
350
350
8
8
5
5
285.25
285.25
8
8
4
4
89
89
8
8
3
3
400
400
4
4
2
2
302
302
8
8
1
1
pojemno
pojemno
silnika (zm.
silnika (zm.
liczbowa)
liczbowa)
lb
lb
. cylindrów
. cylindrów
(zm.
(zm.
jako ciowa)
jako ciowa)
21
21
Ewa Figielska 2012
Ewa Figielska 2012
Punkty oddalone (obserwacje/elementy odstaj ce)
Punkty oddalone (obserwacje/elementy odstaj ce)
Punkty oddalone
Punkty oddalone
–
–
skrajne warto ci, które znajduj
skrajne warto ci, które znajduj
si blisko granic zakresu danych lub s sprzeczne
si blisko granic zakresu danych lub s sprzeczne
z ogólnym trendem pozostałych danych.
z ogólnym trendem pozostałych danych.
Punkty oddalone mog reprezentowa bł dy
Punkty oddalone mog reprezentowa bł dy
powstałe podczas wprowadzania danych
powstałe podczas wprowadzania danych
–
–
wa na
wa na
jest ich identyfikacja.
jest ich identyfikacja.
Pewne metody statystyczne s wra liwe na
Pewne metody statystyczne s wra liwe na
obecno punktów oddalonych i mog da
obecno punktów oddalonych i mog da
niestabilne wyniki, nawet je eli punkty te
niestabilne wyniki, nawet je eli punkty te
reprezentuj poprawne warto ci danych.
reprezentuj poprawne warto ci danych.
22
22
Ewa Figielska 2012
Ewa Figielska 2012
Identyfikacja punktów oddalonych z wykorzystaniem
Identyfikacja punktów oddalonych z wykorzystaniem
pakietu
pakietu
Tanagra
Tanagra
23
23
Ewa Figielska 2012
Ewa Figielska 2012
Zbiór danych
Zbiór danych
Plik danych
Plik danych
body_mass_index.xls
body_mass_index.xls
zawiera 50
zawiera 50
przykładów z 3 zmiennymi:
przykładów z 3 zmiennymi:
waga (WEIGHT) w kilogramach,
waga (WEIGHT) w kilogramach,
wysoko (HEIGHT) w metrach,
wysoko (HEIGHT) w metrach,
indeks masy ciała (BODY MASS).
indeks masy ciała (BODY MASS).
Celem jest wykrycie nie pasuj cych warto ci dla
Celem jest wykrycie nie pasuj cych warto ci dla
ka dej zmiennej (punktów oddalonych).
ka dej zmiennej (punktów oddalonych).
24
24
Ewa Figielska 2012
Ewa Figielska 2012
Tworzenie nowego diagramu
Tworzenie nowego diagramu
Aby bezpo rednio importowa plik z danymi typu XLS
Aby bezpo rednio importowa plik z danymi typu XLS
przez utworzenie nowego diagramu, nale y:
przez utworzenie nowego diagramu, nale y:
wybra menu
wybra menu
File
File
/New,
/New,
okre li nazw pliku XLS i nazw pliku diagramu (Uwaga: zbiór
okre li nazw pliku XLS i nazw pliku diagramu (Uwaga: zbiór
danych musi by w pierwszym arkuszu).
danych musi by w pierwszym arkuszu).
25
25
Ewa Figielska 2012
Ewa Figielska 2012
Histogramy zmiennych
Histogramy zmiennych
Histogramy daj mo liwo krótkiego opisu głównych
Histogramy daj mo liwo krótkiego opisu głównych
charakterystyk kolekcji obserwowanych danych.
charakterystyk kolekcji obserwowanych danych.
Post powanie:
Post powanie:
Zdefiniowa zmienne wej ciowe (INPUT) z wykorzystaniem
Zdefiniowa zmienne wej ciowe (INPUT) z wykorzystaniem
komponentu DEFINE STATUS
komponentu DEFINE STATUS
26
26
Ewa Figielska 2012
Ewa Figielska 2012
Histogramy zmiennych,
Histogramy zmiennych,
cd
cd
.
.
Wstawi (przeci gn ) do diagramu komponent MORE UNIVARIATE
Wstawi (przeci gn ) do diagramu komponent MORE UNIVARIATE
CONT STAT
CONT STAT
Aby obejrze statystyki, nale y wybra
Aby obejrze statystyki, nale y wybra
View
View
po naci ni ciu lewym
po naci ni ciu lewym
przyciskiem myszy na MORE UNIVARIATE CONT STAT
przyciskiem myszy na MORE UNIVARIATE CONT STAT
27
27
Ewa Figielska 2012
Ewa Figielska 2012
Histogram wagi (WEIGHTKG)
Histogram wagi (WEIGHTKG)
28
28
Ewa Figielska 2012
Ewa Figielska 2012
Histogram wysoko ci (HEIGHTM)
Histogram wysoko ci (HEIGHTM)
29
29
Ewa Figielska 2012
Ewa Figielska 2012
Histogram indeksu masy ciała (BODYMASS)
Histogram indeksu masy ciała (BODYMASS)
30
30
Ewa Figielska 2012
Ewa Figielska 2012
Opis statystyk
Opis statystyk
Kurtoza
Kurtoza
Kurtosis
Kurtosis
Sko no
Sko no
Skewness
Skewness
1
1
-
-
szy i 3
szy i 3
-
-
ci
ci
kwartyl
kwartyl
1st * 3rd quartile
1st * 3rd quartile
Warto minimalna i maksymalna
Warto minimalna i maksymalna
Min * Max
Min * Max
Odchylenie medianowe
MAD (median absolute
deviation)
Odchylenie standardowe
Odchylenie standardowe
Std dev.
Std dev.
Mediana
Mediana
Median
Median
Warto rednia
Warto rednia
Average
Average
Opis
Opis
Nazwa
Nazwa
31
31
Ewa Figielska 2012
Ewa Figielska 2012
Wykres rozrzutu
Wykres rozrzutu
Umo liwia wykrycie odchyle próbek bior c pod uwag
Umo liwia wykrycie odchyle próbek bior c pod uwag
zale no ci mi dzy zmiennymi.
zale no ci mi dzy zmiennymi.
Post powanie: wstawi do diagramu komponent SCATTER
Post powanie: wstawi do diagramu komponent SCATTER
WHITH LABEL (DATA VISUALIZATION
WHITH LABEL (DATA VISUALIZATION
tab
tab
).
).
32
32
Ewa Figielska 2012
Ewa Figielska 2012
Wykres rozrzutu (HEIGHTM
Wykres rozrzutu (HEIGHTM
vs
vs
. WEIGHTKG)
. WEIGHTKG)
Próbki 19 i 22
Próbki 19 i 22
wydaj si nie
wydaj si nie
pasowa do
pasowa do
głównego
głównego
wzoru
wzoru
punktów
punktów
33
33
Ewa Figielska 2012
Ewa Figielska 2012
Wykres rozrzutu (BODYMASS
Wykres rozrzutu (BODYMASS
vs
vs
. WEIGHTKG)
. WEIGHTKG)
Znów próbki
Znów próbki
19 i 22 s
19 i 22 s
oddalone od
oddalone od
pozostałych
pozostałych
punktów.
punktów.
34
34
Ewa Figielska 2012
Ewa Figielska 2012
Automatyczna detekcja punktów oddalonych
Automatyczna detekcja punktów oddalonych
Komponent UNIVARIATE OUTLIER DETECTION próbuje wykry próbki, k
Komponent UNIVARIATE OUTLIER DETECTION próbuje wykry próbki, k
tóre
tóre
s oddalone od pozostałych.
s oddalone od pozostałych.
W PARAMETERS (po naci ni ciu prawego przycisku myszy na UNIVARIA
W PARAMETERS (po naci ni ciu prawego przycisku myszy na UNIVARIA
TE
TE
OUTLIER DETECTION ) nale y dokona odpowiedniego wyboru w oknie
OUTLIER DETECTION ) nale y dokona odpowiedniego wyboru w oknie
FILTERING i PARAMETERS.
FILTERING i PARAMETERS.
35
35
Ewa Figielska 2012
Ewa Figielska 2012
Testy wykrywaj ce punkty oddalone
Testy wykrywaj ce punkty oddalone
Test
Test
Grubbsa
Grubbsa
–
–
dla jednej zmiennej, przy zało eniu, e zbiór danych
dla jednej zmiennej, przy zało eniu, e zbiór danych
da si przybli y za pomoc rozkładu normalnego. Test
da si przybli y za pomoc rozkładu normalnego. Test
Grubbsa
Grubbsa
jest
jest
zdefiniowany dla hipotez:
zdefiniowany dla hipotez:
H
H
0
0
–
–
brak punktów oddalonych w zbiorze danych,
brak punktów oddalonych w zbiorze danych,
H
H
a
a
–
–
istnieje przynajmniej jeden punkt oddalony w zbiorze danych.
istnieje przynajmniej jeden punkt oddalony w zbiorze danych.
gdzie = rednia z próby, s = odchylenie standardowe.
gdzie = rednia z próby, s = odchylenie standardowe.
Hipoteza o braku punktów oddalonych zostaje odrzucona przy
Hipoteza o braku punktów oddalonych zostaje odrzucona przy
poziomie
poziomie
istotno ci
istotno ci
, je eli
, je eli
gdzie t
gdzie t
/(2N),N
/(2N),N
-
-
2
2
jest górn krytyczn warto ci rozkładu t Studenta o N
jest górn krytyczn warto ci rozkładu t Studenta o N
-
-
2
2
stopniach swobody i poziomie istotno ci /(2N)
stopniach swobody i poziomie istotno ci /(2N)
Y
36
36
Ewa Figielska 2012
Ewa Figielska 2012
Testy wykrywaj ce punkty oddalone
Testy wykrywaj ce punkty oddalone
Test 3
Test 3
-
-
sigma
sigma
Test z wykorzystaniem rozst pu
Test z wykorzystaniem rozst pu
mi dzykwartylowego
mi dzykwartylowego
.
.
Niech Q1 oznacza pierwszy
Niech Q1 oznacza pierwszy
kwartyl
kwartyl
, Q3
, Q3
–
–
trzeci
trzeci
kwartyl
kwartyl
.
.
Dolne wewn trzne ograniczenie: Q1
Dolne wewn trzne ograniczenie: Q1
-
-
1.5*(Q3
1.5*(Q3
-
-
Q1).
Q1).
Górne wewn trzne ograniczenie: Q3 + 1.5*(Q3
Górne wewn trzne ograniczenie: Q3 + 1.5*(Q3
-
-
Q1).
Q1).
Dolne zewn trzne ograniczenie : Q1
Dolne zewn trzne ograniczenie : Q1
-
-
3*(Q3
3*(Q3
-
-
Q1).
Q1).
Górne zewn trzne ograniczenie : Q3 + 3*(Q3
Górne zewn trzne ograniczenie : Q3 + 3*(Q3
-
-
Q1).
Q1).
Warto danych jest punktem oddalonym, je eli jest poło ona
Warto danych jest punktem oddalonym, je eli jest poło ona
poni ej dolnego ograniczenia lub
poni ej dolnego ograniczenia lub
powy ej górnego ograniczenia.
powy ej górnego ograniczenia.
Y
37
37
Ewa Figielska 2012
Ewa Figielska 2012
Wyniki dla poszczególnych zmiennych
Wyniki dla poszczególnych zmiennych
Test
Test
Grubbsa
Grubbsa
z poziomem istotno ci = 5%: punkty oddalone wyst puj
z poziomem istotno ci = 5%: punkty oddalone wyst puj
tylko dla BODYMASS.
tylko dla BODYMASS.
Test 3
Test 3
-
-
sigma: BODYMASS zawiera 2 punkty oddalone.
sigma: BODYMASS zawiera 2 punkty oddalone.
Testy z wykorzystaniem rozst pu
Testy z wykorzystaniem rozst pu
mi dzykwartylowego
mi dzykwartylowego
:
:
wewn trzne ograniczenie: 1 punkt oddalony dla WEIGHTKG i 2 dla
wewn trzne ograniczenie: 1 punkt oddalony dla WEIGHTKG i 2 dla
BODYMASS,
BODYMASS,
zewn trzne ograniczenie: 2 oddalone warto ci dla BODYMASS.
zewn trzne ograniczenie: 2 oddalone warto ci dla BODYMASS.
38
38
Ewa Figielska 2012
Ewa Figielska 2012
Po usuni ciu punktów oddalonych
Po usuni ciu punktów oddalonych
Statystyki dla zbioru danych po usuni ciu punktów
Statystyki dla zbioru danych po usuni ciu punktów
oddalonych.
oddalonych.
Reguła, okre laj ca punkty do usuni cia, zaznaczona została w
Reguła, okre laj ca punkty do usuni cia, zaznaczona została w
zakładce
zakładce
Filtering
Filtering
przy ustawianiu automatycznej detekcji.
przy ustawianiu automatycznej detekcji.
Nale y wstawi
Nale y wstawi
UNIVARIATE
UNIVARIATE
CONTINUOUS
CONTINUOUS
STAT 1 do
STAT 1 do
diagramu.
diagramu.
39
39
Ewa Figielska 2012
Ewa Figielska 2012
Porównanie wyników
Porównanie wyników
Odchylenie ma najwi ksz warto dla BODYMASS
Odchylenie ma najwi ksz warto dla BODYMASS
+3.13%
+3.13%
26.8400
26.8400
27.6806
27.6806
BODYMASS
BODYMASS
-
-
0.25%
0.25%
1.6623
1.6623
1.6581
1.6581
HEIGHTM
HEIGHTM
+2.23%
+2.23%
74.3796
74.3796
76.0402
76.0402
WEIGHTKG
WEIGHTKG
Odchylenie
Odchylenie
rednia dla 48
rednia dla 48
przypadków (bez 19 i 22)
przypadków (bez 19 i 22)
rednia dla 50
rednia dla 50
przypadków
przypadków
Zmienna
Zmienna
40
40
Ewa Figielska 2012
Ewa Figielska 2012
Punkty oddalone
Punkty oddalone
-
-
podsumowanie
podsumowanie
Wiele statystycznych technik jest wra liwych na obecno
Wiele statystycznych technik jest wra liwych na obecno
punktów oddalonych, np. rednia i odchylenie standardowe
punktów oddalonych, np. rednia i odchylenie standardowe
mog zosta zniekształcone przez pojedynczy
mog zosta zniekształcone przez pojedynczy
nieprecyzyjny punkt danych.
nieprecyzyjny punkt danych.
Poszukiwanie punktów oddalonych zawsze powinno by
Poszukiwanie punktów oddalonych zawsze powinno by
cz ci analizy danych.
cz ci analizy danych.
Potencjalne punkty oddalone powinny by sprawdzane pod
Potencjalne punkty oddalone powinny by sprawdzane pod
wzgl dem poprawno ci reprezentowanych przez nie
wzgl dem poprawno ci reprezentowanych przez nie
danych.
danych.
Je eli punkt oddalony jest bł dny, to powinien by poprawiony lu
Je eli punkt oddalony jest bł dny, to powinien by poprawiony lu
b,
b,
je eli nie jest to mo liwe, usuni ty.
je eli nie jest to mo liwe, usuni ty.
Nie nale y usuwa punktów oddalonych zbyt pochopnie.
Nie nale y usuwa punktów oddalonych zbyt pochopnie.
Pewne techniki pozwalaj wyeliminowa negatywne skutki
Pewne techniki pozwalaj wyeliminowa negatywne skutki
wyst powania punktów oddalonych bez konieczno ci ich usuwania.
wyst powania punktów oddalonych bez konieczno ci ich usuwania.
41
41
Ewa Figielska 2012
Ewa Figielska 2012
Przekształcanie danych
Przekształcanie danych
Uzasadnienie:
Uzasadnienie:
Zakresy zmiennych zwykle ró ni si znacznie mi dzy
Zakresy zmiennych zwykle ró ni si znacznie mi dzy
sob .
sob .
Dla pewnych algorytmów ró nice zakresów powoduj ,
Dla pewnych algorytmów ró nice zakresów powoduj ,
e zmienne z wi kszym zakresem b d miały nadmierny
e zmienne z wi kszym zakresem b d miały nadmierny
wpływ na wyniki.
wpływ na wyniki.
Nale y dokona normalizacji zmiennych numerycznych,
Nale y dokona normalizacji zmiennych numerycznych,
aby ujednolici wpływ ka dej zmiennej na wyniki.
aby ujednolici wpływ ka dej zmiennej na wyniki.
Techniki normalizacji:
Techniki normalizacji:
Normalizacja min
Normalizacja min
-
-
max,
max,
Standaryzacja.
Standaryzacja.
Oznaczenia:
Oznaczenia:
X
X
–
–
oryginalna warto pola,
oryginalna warto pola,
X*
X*
-
-
znormalizowana warto pola.
znormalizowana warto pola.
42
42
Ewa Figielska 2012
Ewa Figielska 2012
Przekształcanie danych,
Przekształcanie danych,
cd
cd
.
.
Normalizacja
Normalizacja
X* = (X
X* = (X
-
-
min(X
min(X
)) / (
)) / (
max(X
max(X
)
)
-
-
min(X
min(X
))
))
Znormalizowane warto ci nale do przedziału <0,1>.
Znormalizowane warto ci nale do przedziału <0,1>.
Standaryzacja
Standaryzacja
X* = (X
X* = (X
-
-
rednie(X
rednie(X
)) / (X)
)) / (X)
Warto ci po standaryzacji nale zwykle do przedziału <
Warto ci po standaryzacji nale zwykle do przedziału <
-
-
4,4>.
4,4>.
rodek rozkładu znajduje si w punkcie 0.
rodek rozkładu znajduje si w punkcie 0.
acceleration
NORMALIZACJA
STANDARYZACJA
11.5
0.208333333
-1.4537
min=
8
11
0.178571429
-1.6431
max=
24.8
10.5
0.148809524
-1.8326
rednia =
15.3363
10
0.119047619
-2.0221
odch.std.= 2.63903
8.5
0.029761905
-2.5904
10
0.119047619
-2.0221
10
0.119047619
-2.0221
8
0
-2.7799
10
0.119047619
-2.0221
15
0.416666667
-0.1274
15.5
0.446428571
0.0620
20.5
0.744047619
1.9567
17.5
0.56547619
0.8199
17.5
0.56547619
0.8199
12.5
0.267857143
-1.0747
14
0.357142857
-0.5063
15
0.416666667
-0.1274
18.5
0.625
1.1988
43
43
Ewa Figielska 2012
Ewa Figielska 2012
Histogram przed
Histogram przed
przekształceniem
przekształceniem
danych
danych
Histogram po
Histogram po
normalizacji
normalizacji
Histogram po
Histogram po
standaryzacji
standaryzacji
44
44
Ewa Figielska 2012
Ewa Figielska 2012
Standaryzacja
Standaryzacja
w
w
Tanagrze
Tanagrze
45
45
Ewa Figielska 2012
Ewa Figielska 2012
Słowniczek
Słowniczek
Univariate
Univariate
statistics
statistics
–
–
statystyka jednej zmiennej
statystyka jednej zmiennej
Scatter
Scatter
plot
plot
–
–
wykres rozrzutu
wykres rozrzutu
Outliers
Outliers
–
–
punkty oddalone (obserwacje/elementy odstaj ce)
punkty oddalone (obserwacje/elementy odstaj ce)
Clustering
Clustering
–
–
grupowanie
grupowanie
Exploratory
Exploratory
data
data
analysis
analysis
–
–
eksploracyjne analiza danych
eksploracyjne analiza danych