Modele i metody

eksploracji danych

Transformacja danych

Podstawowymi pojęciami w eksploracji danych są pojęcia

obiektu

cechy

(atrybutu)

Obiektem

będzie się nazywać element

pewnego zbioru, badany ze względu na pewne swoje właściwości,
które noszą nazwę

cech

(atrybutów). Te same cechy dla różnych

obiektów mogą przyjmować różne

wartości

. Reprezentantem

obiektu w bazie danych jest zwykle rekord, a wartości cech
charakteryzujących ten obiekt – pola tego rekordu, przy czym
cechami są nazwy pół rekordu, jednakowe dla wszystkich
obiektów-rekordów.
Przyjmuje się następujące oznaczenia:

•I={1,2,…,n}

– zbiór numerów obiektów, będących przedmiotem

eksploracji,

•J={1,2,…,m}

– zbiór numerów cech opisujących każdy obiekt ze

zbioru

•X={X

,…,X

}

- zbiór wektorów wartości cech obiektów postaci:

przy czym wiersz (rekord)

=(x

, x

, …, x

)

odpowiada

jednemu obiektowi o numerze

, a kolumna

=(x

, x

, …, x

)

–

wektorowi wartości cechy o numerze

Pojęcia podstawowe

ij n m

… x

X = x

…

… …

… x

�

� � =

� �

�

GK (PED(02) - 2010)

Metody eksploracji danych takie, jak klasyfikacja,

grupowanie czy rangowanie należą do metod

statystycznej analizy

wielowymiarowej

, który to termin oznacza grupę metod

statystycznych, umożliwiających jednoczesną analizę przynajmniej
dwóch cech (własności, atrybutów) obiektów wielocechowych, przy
czym takimi obiektami mogą być określone rzeczy, osoby,
kategorie abstrakcyjne lub zdarzenia, np. produkty spożywcze,
studenci, zjawiska przyrody, przestępstwa.

Ze względu na to, że metody eksploracji danych (ogólnie:

statystycznej analizy wielowymiarowej) z zasady wymagają, aby
wartości cech (atrybutów) badanych obiektów były liczbami
rzeczywistymi, zachodzi potrzeba uprzedniego rozpoznania skali
pomiarowej, w której są wyrażone wartości cechy obiektu.
Podstawowy katalog skal pomiarowych obejmuje skale [Stevens,
1959]:

•nominalną,

•porządkową (rangową),

•przedziałową (interwałową),

•ilorazową (stosunkową).
Skale są uporządkowane od najsłabszej do najmocniejszej według
przekształceń dopuszczalnych na wartościach cechy (danych).
Dwie pierwsze z nich noszą często nazwę skal

niemierzalnych

, a

dwie ostatnie –

mierzalnych

, co przekłada się na nazewnictwo

cech.

Skale pomiarowe

GK (PED(02) - 2010)

Skala nominalna:

- przyporządkowuje poszczególnym wartościom cechy wyłącznie

nazwy,

- pozwala jedynie na stwierdzenie identyczności lub różnic

porównywanych obiektów oraz na zliczanie obiektów
identycznych i różnych,

- przykład pomiaru na tej skali: przyporządkowanie płci (kobieta,

mężczyzna) porównywanym ze względu na tą cechę osobom,

- jedyną dopuszczalną procedurą arytmetyczną jest zliczanie, a

spośród procedur statystycznych - tylko te, które oparte są na
zliczaniu.

Skala porządkowa (rangowa):

- wartości cechy (liczby) oznaczają rangi, tj. kolejność obiektów,

przy czym rangi odwzorowują nie tylko równość obiektów, ale też
ich uporządkowanie pod względem rozpatrywanej cechy

(liniowe

porządkowanie obiektów), zatem można stwierdzać, czy obiekt
jest lepszy (większy) od innego, czy też gorszy (mniejszy),

- umożliwia zliczanie obiektów uporządkowanych (liczby relacji

równości (identyczności), większości i mniejszości),

- nie pozwala określić odległości między obiektami,

- przykład pomiaru na tej skali: poziom wykształcenia,

- dozwolone są w tej skali wszelkie przekształcenia liczb nie

zmieniające porządku obiektów, np. potęgowanie,
pierwiastkowanie, logarytmowanie itp.

Skale pomiarowe

GK (PED(02) - 2010)

Skala przedziałowa

(interwałowa):

- pozwala dodatkowo, w stosunku do skali porządkowej, obliczyć

odległości między obiektami, dokonując pomiaru wartości cech
za pomocą liczb rzeczywistych,

- dla skali tej możliwe jest, obok operacji arytmetycznych

dopuszczalnych dla skal poprzednich, także dodawanie i
odejmowanie,

- wartość zerowa na tej skali ma charakter umowny (np. 0

w skali

Celsjusza), co prowadzi do zachowania różnic między
wartościami cechy przy zmianie jednostek miary,

- przykład pomiaru na tej skali: średnie dochody pracowników w

przemyśle,

- wartości cech mogą być przekształcane liniowo, ponieważ

transformacja liniowa zachowuje nie tylko kolejność mierzonych
wartości cech, ale także względne ich odległości. Nie jest
natomiast dozwolone ani mnożenie, ani dzielenie, gdyż operacje
te wynikają z założenia o istnieniu rzeczywistego punktu
zerowego. Dopuszczalnymi technikami statystycznymi dla tej
skali, oprócz odpowiednich dla skal poprzednich są: średnia
arytmetyczna, wariancja, rachunek korelacji i regresji oraz
wiele testów parametrycznych

Skale pomiarowe

GK (PED(02) - 2010)

Skala ilorazowa

(stosunkowa):

- ma podobny charakter jak skala przedziałowa z tym, że

występuje na niej zero bezwzględne (zero ogranicza
lewostronnie zakres tej skali),

- pozwala dodatkowo, w stosunku do skal poprzednich,

dokonywać także dzielenia i mnożenia, a tym samym
przedstawiać dowolną wartość cechy danego obiektu jako
wielokrotność wartości cechy dla innego obiektu,

- przykład pomiaru na tej skali: waga ludzi,

- wartości cech w skali ilorazowej traktować można jako odległość

mierzoną od bezwzględnego zera. Dozwolone są tym przypadku
wszelkie operacje arytmetyczne, z mnożeniem i dzieleniem
włącznie. Również możliwe jest stosowanie dowolnych technik
statystycznych

Skale pomiarowe

GK (PED(02) - 2010)

Skale pomiarowe

Skale pomiarowe są uporządkowane od najsłabszej do
najmocniejszej: nominalna, porządkowa, przedziałowa i
ilorazowa.

GK (PED(02) - 2010)

Ponieważ wartości cech niemierzalnych (skala nominalna i

porządkowa) są wyrażane w postaci kategorii (poziomów) (np.
kolor oczu) ich bezpośrednie wykorzystanie w algorytmach
statystycznej analizy wielowymiarowej jest bardzo ograniczone,
zachodzi więc konieczność ich uprzedniego przekodowania na
liczby rzeczywiste. W tym zakresie wykorzystuje się najczęściej
dwa następujące sposoby przekodowywania wartości cech
niemierzalnych na liczby:

•bez względu na liczbę kategorii (poziomów) cechy,
poszczególnym jej kategoriom można przypisać kolejne liczby
naturalne w sposób dowolny, bez względu na to, czy te kategorie
można uporządkować według intensywności oddziaływania, czy
nie. Np. dla cechy zachowanie ucznia, która ma cztery kategorie:
niepoprawne, poprawne, dobre i bardzo dobre, poszczególnym
kategoriom przypisuje się kolejne liczby naturalne od 1 do 4
(niepoprawne - 1, poprawne - 2, dobre – 3, bardzo dobre – 4),

•jeżeli cecha ma tylko dwie kategorie (cecha binarna, np. płeć),
można ją zamienić na pojedynczą tzw. cechę sztuczną, najczęściej
zero-jedynkową, poprzez nadanie jednej kategorii wartości 0, a
drugiej – 1 (np. mężczyzna – 0, kobieta – 1),

Skale pomiarowe

GK (PED(02) - 2010)

• jeżeli cecha ma więcej niż dwie kategorie, można ją zamienić

nie

na pojedynczą cechę sztuczną, ale na zespół takich cech, także
najczęściej zero-jedynkowych, przy czym liczba wprowadzanych
cech sztucznych musi być najmniejszą liczbą całkowitą,
spełniającą następujący warunek:

liczba cech sztucznych

≥ liczba kategorii cechy

przekodowywanej

W takim przypadku reprezentowanie poszczególnych kategorii

cechy wymaga nadania odpowiednich wartości wszystkim
wprowadzonym cechom sztucznym. Np. dla cechy zachowanie
ucznia, która ma cztery kategorie: niepoprawne, poprawne,
dobre i bardzo dobre, wprowadza się 2 sztuczne cechy,
zdefiniowane następująco:

Pojęcia podstawowe

Zachowanie ucznia

Cecha

sztuczna 1

Cecha

sztuczna 2

Niepoprawne

Poprawne

Dobre

Bardzo dobre

GK (PED(02) - 2010)

odstawą stosowania wielu metod eksploracji danych jak

np. klasyfikacja, grupowanie czy rangowanie obiektów
wielocechowych jest macierz wartości cech obiektów (macierz

Istotą tych metod jest porównywanie ze sobą cech różniących się
wartościami i mianami. Aby takie porównanie było sensowne,
należy wszystkie cechy sprowadzić do porównywalnej postaci
poprzez tzw.

transformację danych

Cele transformacji danych:

•ujednolicenie charakteru cech obiektów (postulat jednolitej
preferencji),

•doprowadzenie różnoimiennych cech do wzajemnej
porównywalności (postulat addytywności),

•zastąpienie zróżnicowanych zakresów zmienności poszczególnych
cech zakresem stałym (postulat stałości rozstępu lub stałości
wartości ekstremalnych),

•wyeliminowanie z obliczeń wartości ujemnych (postulat
dodatniości).

Transformacja danych, w zależności od skali pomiarowej

cechy może być realizowana za pomocą wielu metod spośród,
których najczęściej stosuje się: rangowanie, normowanie
analityczne i ważenie cech.

Transformacja danych

GK (PED(02) - 2010)

Rangowanie cech

jest najprostszym sposobem

transformowania cech i polega na przypisaniu każdej wartości
(kategorii) cechy pewnej liczby, tzw.

rangi

, która określa pozycję

zajmowaną przez daną wartość cechy w uporządkowanym ciągu
wartości tej cechy. Najczęściej stosuje się

rangi normalne

(rangi w

postaci kolejnych liczb naturalnych)

lub

rangi Spearmana

Normowanie przez rangowanie można stosować do cech
mierzonych w skali porządkowej lub silniejszej.

Normowanie analityczne.

Niech oznacza

wektor wartości

-tej cechy obiektów przed unormowaniem, a

oznacza ten wektor z unormowanymi wartościami

-tej cechy.

Normowanie analityczne opiera się na przekształceniu
wyrażającym się następującą formułą:

gdzie:

•A

– parametr zmiany skali wartości cechy,

•B

– parametr skalujący wartości cechy (pozbawia cechę miana),

•p

– parametry przekształcenia (na ogół p = 1). Większe wartości

parametru powodują zwiększenie wariancji. Parzyste naturalne
wartości parametru dają w wyniku wszystkie dodatnie wartości
cechy po unormowaniu.

(

)

X = x ,x ,…x

(

)

X = x ,x ,…,x

i=1,2,...,n; j=1,2,...m,

�

=�

�

Transformacja danych

GK (PED(02) - 2010)

Parametr

najczęściej przybiera następujące wartości:

stałą równą

wartość oczekiwaną

(średnią arytmetyczną)

wartości cech (elementów wektora

), mini

aln

(

min

), bą

dź

maksymalną (

max

) wartość spośród aktualnych wartości

cechy

(elementów wektor

)

Parametr

najczęściej przybiera następujące wartości:

mini

aln

(

min

), bą

dź

maksymalną (

max

) wartość spośród

aktualnych wartości

cechy

(elementów wektor

)

, różnicę

wartości maksymalnej i minimalnej (

max

- x

min

sumę

wszystkich

aktualnych wartości cechy (elementów wektora

wartość

oczekiwaną

(średnią arytmetyczną) wartości cech (elementów

wektora

), odchylenie standardowe (

) obliczone na podstawie

wszystkich aktualnych wartości cechy (elementów wektora

Szczególnym przypadkiem normalizacji jest

standaryzacja

, która

jest przeprowadzana według następującej formuły:

Wektor wartości cechy po standaryzacji ma następujące własności:
jego elementy są liczbami na ogół z przedziału

(-3,3)

, wartość

średnia z wszystkich elementów jest równa

, a odchylenie

standardowe – równe

Transformacja danych

i=1,2,...,n; j=1,2,...,m.

GK (PED(02) - 2010)

Innym przypadkiem normowania analitycznego jest

unitaryzacja

, która jest realizowana przy następujących

wartościach parametrów

Na ogół w praktyce przyjmuje się

min

oraz

, uzyskując

unitaryzację zerową

której formuła przekształcająca przyjmie

postać:

Unitaryzacja zerowa powoduje, że elementy wektora



mają

następujące własności: wszystkie elementy są liczbami przedziału

[0,1]

, wartość maksymalna jest równa

, a minimalna

Przykład

: wartości cechy:

2.0, -3.4, 5.8, 2.4, -6.2, 0.0, 1.2, -4.2

Wartości cech po:

•standaryzacji:

0.7967, -0.6868, 1.8406, -0.4121, -1.456, 0.2472,

0.5769, -0.9066

•unitaryzacji:

0.6833, 0.2333, 1, 0.3167, 0, 0.5167, 0.6167,

0.1667

Transformacja danych

min

max

min

max

j=1,2,...,m

x , B =x

- x , p=0.5,1,2...;

�

=�

�

min

max

min

i=1,2,...,n; j=1,2,...,m

GK (PED(02) - 2010)

Kolejny przypadkiem normowania analitycznego jest

normalizacja w przedziale[-1,1]

, która jest realizowana przy

następujących wartościach parametrów

Formuła rozpatrywanej normalizacji przyjmie postać:

Normalizacja w przedziale

[-1,1]

powoduje, że elementy wektora



mają następujące własności: wszystkie elementy są liczbami

przedziału

[-1,1]

wartości oczekiwanej równej

W ramach normowania analitycznego stosuje się też wiele

metod zorientowanych na cechy mierzone tylko w skali ilorazowej;
noszą one wspólną nazwę

przekształceń ilorazowych

. Przykłady

przekształceń:

Transformacja danych

j=1,2,...,m

x , B

max x

x , p=1;

i=1,2,...,n; j=1,2,...,m

max x

max

min

i=1,2,...,n; j=1,2,...,m.

, x

max x

�

GK (PED(02) - 2010)

Ważenie cech

jest stosowane w przypadkach, gdy zachodzi

potrzeba określenia, na ile są ważne cechy z punktu widzenia
przyjętego kryterium oraz takiego przekształcenia wartości tych
cech, aby cechy po przekształceniu mogły zachować swój wpływ
proporcjonalny do ważności w końcowych wynikach eksploracji.
Najczęściej ważenie cech jest stosowane w procesie
konstruowania uogólnionych ocen obiektów, stanowiących
podstawę ich porównywania. Ważność cech na ogół ustala się za
pomocą

wag

Ważenie cech powinno być przeprowadzane dopiero po ich

transformacji,
najlepiej po standaryzacji.

Przyjmuje się, że waga przypisana dowolnej cesze jest

dowolną liczbą nieujemną (

 0

). Niech wektor

W=(w

,...,w

)

będzie wektorem wag (tzw. wag surowych), a jego element

(j=1,2,…,m)

– surową wagą przypisaną cesze

. Ocena wpływu wag

na określenie hierarchii ważności cech w zbiorze cech wymaga ich
unormowania. Niech wektor

 =(w



,...,w



)

będzie wektorem

wag unormowanych.

Ważoną macierz danych



uzyskuje się przez

przemożenie każdego elementu macierzy unormowanej (lub
zestandaryzowanej)



przez odpowiednią wagę unormowaną, tj.

Transformacja danych

i=1,2,...,n; j=1,2,...,m

x w ,

= �

GK (PED(02) - 2010)

Istnieje wiele sposobów normowania wag, ale najczęściej

stosowane są następujące:

1. Suma unormowanych wag wynosi

2. Suma kwadratów unormowanych wag wynosi

3. Suma wag jest równa dowolnej wartości

c > 0

Transformacja danych

( )

j=1

j =1,2,...,m

w =

=1.

�

j=1

c >0; j =1,2,...,m

w =

w =c.

�

j=1

j =1,2,...,m

w =

w =1.

�

GK (PED(02) - 2010)

Ustalanie wag surowych

, (j=1,2,…,m)

może być

dokonywane przez ekspertów lub statystycznie. W przypadku
ustalania wartości wag na drodze statystycznej, uwzględnia się
naturalną zmienność cechy mierzoną za pomocą współczynnika
zmienności

, (j=1,2,…,m)

lub siłę naturalnego powiązania cechy

z pozostałymi, mierzoną za pomocą współczynnika korelacji

(i,j=1,2,…,m)

1.Wagi uwzględniające naturalną zmienność cechy (wagi są
wyznaczane na podstawie wartości cech

przed

ich normalizacją

2.Wagi uwzględniające skorelowanie cechy z pozostałymi (wagi
są wyznaczane na podstawie wartości cech

po ich normalizacji

Transformacja danych

j=1

j =1,2,...,m; v

w =

�

i=1

m m

i=1 j=1

i, j =1,2,...,m.

w =

�

��

GK (PED(02) - 2010)

W procesie badania obiektów wielocechowych istotne jest
określenie ich liniowego uporządkowania (nadanie rangi) w

wymiarowej unormowanej przestrzeni cech.

Przed wykonaniem

działań zmierzających do rangowania obiektów konieczne jest
określenie charakteru poszczególnych cech i zakwalifikowanie
ich do jednej z następujących grup:

•stymulant,

•destymulant,

•nominant.

Stymulantą

nazywana jest taka cecha, której wysokie

wartości są pożądane z punktu widzenia celu rangowania. Wyższe
wartości stymulanty (np. średnia płaca) kwalifikują obiekt jako
lepszy ze względu na tę cechę.

Destymulantą

nazywana jest taka cecha, której niskie

wartości są pożądane z punktu widzenia celu rangowania. Niższe
wartości destymulanty (np. poziom bezrobocia) kwalifikują
obiekt jako lepszy ze względu na tę cechę.

Nominantą

nazywana jest taka cecha, której „normalne”

wartości (np. normalna temperatura ciała człowieka) są
pożądane z punktu widzenia celu rangowania; nie są pożądane
natomiast wartości stanowiące duże odchylenia w dół i w górę od
wartości „normalnych”. Wartość cechy uważana za „normalną”
(najlepszą) może być wyznaczana arbitralnie lub na podstawie
wartości średniej (oczekiwanej).

Zmiana charakteru cech

GK (PED(02) - 2010)

walifikacja cech powinna odpowiedzieć na pytanie, czy

wszystkie cechy rangowanych obiektów są

stymulantami

(destymulantami)

, gdyż tylko taka „jednokierunkowość” cech

zapewnia właściwe rangowanie. Jeżeli przyjąć, że rangowanie
będzie oparte na stymulantach, to wszystkie wykryte w trakcie
analizy cechy będące

destymulantami

nominantami

będą

musiały być przetransformowane na

stymulanty

przed

rozpoczęciem rangowania.

Zamiana destymulanty na stymulantę

. Rozpatruje się

jedną cechę

o wartościach

, (i=1,2,…,n; j=1,2,…,m)

będącą

destymulantą. Można ją zamienić na stymulatę

o wartościach

stosując najczęściej jedno z dwóch następujących

przekształceń:

Zmiana charakteru cech

{ }

(

)

{ }

i=1,2,...,n

min x

a= max x

i=1,2,...,m; j=1,2,...,m

a =0, a = max x , a =2x ,

a =1,

a x ,

�

= -

�

GK (PED(02) - 2010)

Zamiana nominanty na stymulantę

. Niech cecha

wartościach

, (i=1,2,…,n; j=1,2,…,m)

będzie nominantą.

Pożądaną („normalną”) wartością nominaty może być jedna
wartość (nominanta punktowa) lub przedział wartości
(nominanta przedziałowa). Niech rozpatrywana nominanta

będzie nomintą przedziałową, która przyjmuje wartości
„normalne” z

przedziału pożądanego

, x

], (d,g=1,2,…,m; d



. Nominanta punktowa przyjmowałaby jedną wartość pożądaną

równą

x = x

= x

Lewym przedziałem

nominanty

nazywa się

przedział

, x

)

, a

prawym przedziałem

– przedział

, x

]

Niech wektor

o wartościach

oznacza stymulatę.

Przekształcenia nominanty

w stymulantę

można dokonać

stosując np. formułę:

gdzie:

a, b

- miejsca zerowe funkcji

f(x)

, p

– parametry odpowiedzialne za typ funkcji, odpowiednio

lewego i prawego przedziału nominanty.

Zmiana charakteru cech

( )

(

)

(

)

dla x

x ,x

dla x

x -

x -a

f x

x - x

b- x

+�

� - �

�

� �

�

� �

�

� �

�

=�

�

� �

�

� �

�

� �

�

GK (PED(02) - 2010)

W przypadku, gdy nominanta
przyjmuje tylko jedną „normalną”
wartość,

pożądany przedział

jej

wartości sprowadza się do jednej
wartości (jednego elementu)

takiej, że

= x

. Przykładowy

wykres funkcji

f(x)

dla

rozpatrywanego przypadku
nominanty, przy założeniu, że

= 2

Zmiana charakteru cech

Przykładowy wykres funkcji

f(x)

przekształcenia nominanty w
stymulantę przy założeniu, że

= 2

GK (PED(02) - 2010)

Możliwość stosowania funkcji

f(x)

przekształcania

nominanty w stymulantę wymaga określenia wartości progowych

, występujących w tej funkcji. Jednym z częściej stosowanych

sposobów wyznaczania tych wartości jest sposób przedstawiony
niżej:



jeżeli spełniona jest nierówność



jeżeli spełniona jest nierówność

Zmiana charakteru cech

{ }

i=1,2,...,n

x - min x

max x - x ,

�

{ }

i=1,2,...,n

a x

max x ,

b max x ,

+ -

{ }

i=1,2,...,n

min x ,

b x

min x .

+ -

{ }

i=1,2,...,n

x - min x

max x - x ,

GK (PED(02) - 2010)

Mogą wystąpić przypadki, gdy z góry zostaje ustalone

miejsce zerowe

lub

funkcji przekształcającej nominantę w

stymulantę. W takim przypadku pozostaje tylko wyznaczenie
drugiego miejsca zerowego tej funkcji:



jeżeli została ustalona wartość

(a < x

)

, to wartość

wyznacza

się z zależności:



jeżeli została ustalona wartość

(b > x

)

, to wartość

wyznacza

się z zależności:

Inna metoda zamiany nominanty na stymulantę opiera się na
funkcji postaci:

przy oznaczeniach jak poprzednio.
Uzyskana stymulanta przyjmuje wartości zerowe w przedziale

]

a poza nim –

ujemne.

Zmiana charakteru cech

a x

+ -

b x

+ -

GK (PED(02) - 2010)

( )

(

)

(

)

dla x

x ,x

dla x

f x

+�

� - �

�

=�

�

W eksploracji danych opartej na klasyfikacji, bądź

grupowaniu istotną rolę odgrywa określanie

odległości

(podobieństwa) między obiektami. Do określania tych odległości
służy

metryka

. Niech

oznacza metrykę, a

d(o

)

- odległość

metryczną obiektu

od obiektu

Metryką nazywa się funkcję dwuargumentową

, która

spełnia następujące własności:

1.d(o

) > 0

– odległość między dwoma różnymi obiektami jest

zawsze dodatnia,

2.d(o

) = d(o

)

– odległość od obiektu

do obiektu

jest

taka sama jak odległość od obiektu

do obiektu

3.d(o

) = 0

– odległość od punktu

do siebie jest równa

4.d(o

)

 d(o

) + d(o

)

– odległość między dowolnymi trzema

obiektami

spełnia własność trójkąta: suma dowolnych

dwóch odległości jest nie mniejsza od odległości trzeciej.
Dogodną formą przedstawiania odległości między obiektami jest
macierz odległości

. Jest to macierz kwadratowa, symetryczna, z

zerowymi wartościami na głównej przekątnej (to wynika z
własności 1, 2 i 3 metryki). Ponadto każda podmacierz

3

macierzy

spełnia następującą własność: suma każdych dwóch

spośród trzech elementów nad główną przekątną podmacierzy jest
nie mniejsza od elementu trzeciego (własność trójkąta – 4-ta
własność metryki).

Miary odległości dla

obiektów

GK (PED(02) - 2010)

Macierz

odległości między obiektami:

Macierz

jest tworzona tylko na podstawie unormowanej

macierzy



. Elementami macierzy

są liczby określające

odległości między obiektami reprezentowanymi przez jej wiersze a
obiektami reprezentowanymi przez jej kolumny. Istnieje wiele
mierników odległości, a ich stosowanie zależy od:

•skali pomiarowej wartości cech; istnieje wiele miar odległości dla
przypadku, gdy wartości wszystkich cech obiektu są mierzone w
takiej samej skali pomiarowej,

•zastosowanej formuły transformacji danych do przekształcenia
wartości cech,

•spełnienia przez formułę obliczeniową dodatkowych wymagań,
np. nierówności trójkąta,

•skal pomiarowych wartości cech obiektu, gdy te skale są inne.

Miary odległości dla

obiektów

... d

...

... ...

... 0

�

GK (PED(02) - 2010)

W przypadku

cech mierzalnych

najczęściej stosuje się:

1.Odległość Minkowskiego:

gdzie:

– odległość obiektu

od obiektu



– wartości unormowanej

-tej cechy obiektów, odpowiednio

oraz

(elementy macierzy



– parametr (

p = 1

– odległość miejska (Hamminga),

p = 2

–

odległość euklidesowa (stosowana najczęściej),

p =



- odległość

Czebyszewa).

Największą wartość elementy

macierzy

osiągają dla

p = 1

która maleje wraz ze wzrostem

, a dla

p =



wyraża się

zależnością:

Miary odległości dla

obiektów

i,k=1,2,...,n; j=1,2,...,m,

�

{

}

j 1,2,...,m

i,k=1,2,...,n

max x

x ,

�

GK (PED(02) - 2010)

2. Odległość Braya-Curtisa:

3. Odległość Canberry:

4. Odległość łukowa:

j=1

i,k =1,2,...,n

x - x

d =

�

j=1

i,k =1,2,...,n

x - x

d =

�

(

)

( )

j=1

i,k =1,2,...,n

x x

d =

�

Miary odległości dla

obiektów

GK (PED(02) - 2010)

5. Odległość Mahalanobisa:

gdzie:

•

–

-elementowy wektor, którego elementami

są różnice

unormowanych wartości cech obiektów

oraz

•

-1

– macierz odwrotna do macierzy kowariancji utworzona na

podstawie nieunormowanej macierzy

, tj. macierz

kwadratowa

m

o elementach:

przy czym

Odległość ta powinna być stosowana w przypadku, gdy cechy

mają rozkłady normalne oraz zachodzi potrzeba
uwzględnienia korelacji między nimi.

-1

i,k=1,2,...,n,

d =Z C Z

j=1,2,...,m

z =x - x ,

(

)

(

)

i=1

j,l=1,2,...,m

c =

x - x

x - x ,

�

i=1

j =1,2,...,m

x =

x ,

�

Miary odległości dla

obiektów

GK (PED(02) - 2010)

6. Odległość miejska (taksówkowa, manhatańska):

W przypadku

cech niemierzalnych

(skala nominalna lub

porządkowa, cechy jakościowe)

najczęściej stosowaną miarą

podobieństwa obiektów

oraz

jest

współczynnik

podobieństwa Sneatha

, definiowany jako:

gdzie

(warunek)

indykator (funkcja) postaci:

Miary odległości dla

obiektów

(

)

j=1

i,k =1,2,...,n

d =

x ,

�

(

)

warunek = prawda

warunek

inaczej .

�

j=1

i,k =1,2,...,n

d =

x - x ,

�

GK (PED(02) - 2010)

W przypadku

cech niemierzalnych

(skala nominalna, cechy

binarne)

konieczne

jest ustalenie sposobu kodowania wartości

tych cech, tj. ich kategorii: cecha „występuje” (+) i cecha „nie
występuje” (-) w badanych obiektach:

Przyjmuje się oznaczenia:

gdzie:

– liczba przypadków jednoczesnego występowania (

) lub nie

występowania (

) cechy w badanych obiektach

oraz

– liczba przypadków występowania cechy w obiekcie

i nie

występowania w obiekcie

(

) lub nie występowania cechy w

obiekcie

i występowania w obiekcie

(

Miary odległości dla

obiektów

Cecha X

Obiekt





GK (PED(02) - 2010)

W przypadku

cech niemierzalnych binarnych

najczęściej stosuje się:

1.Odległość Czekanowskiego:

2.Odległość Jaccarda:

3.Odległość Sokala i Michenera:

4.Odległość Russela i Rao:

Miary odległości dla

obiektów

i,k=1,2,...,n,

2 a

2 a+b+c

�

i,k=1,2,...,n,

a+b+c

i,k=1,2,...,n,

a d

a+b+c d

i,k=1,2,...,n.

a+b+c d

GK (PED(02) - 2010)

W celu określenia podobieństwa cech badanych obiektów

stosuje się miary odległości, które są

semimetrykami

, ponieważ

nie spełniają własności trójkąta. Miary te są oparte na
współczynnikach korelacji między cechami. Do konstrukcji

macierzy odległości

D dla cech

stosuje się zwykle następujące

semimetryki:

•semimetryka 1:

gdzie:

– współczynnik korelacji dla

-tej i

-tej cechy obiektu,

•semimetryka 2:

•semimetryka 3:

•semimetryka 4:

Miary odległości dla cech

obiektów





1,2,...,









1,2,...,







1,2,...,







1,2,...,







GK (PED(02) - 2010)

Document Outline

Slide 1
Slide 2
Slide 3
Slide 4
Slide 5
Slide 6
Slide 7
Slide 8
Slide 9
Slide 10
Slide 11
Slide 12
Slide 13
Slide 14
Slide 15
Slide 16
Slide 17
Slide 18
Slide 19
Slide 20
Slide 21
Slide 22
Slide 23
Slide 24
Slide 25
Slide 26
Slide 27
Slide 28
Slide 29
Slide 30
Slide 31
Slide 32
Slide 33

Wyszukiwarka

Podobne podstrony:
MADE(02) Transformacja danych
MADE(02) Transformacja danych
02 Bazy danych - bibliografia skrocona, INIB rok II, PIOSI janiak
02 PREZENTACJA DANYCH STATYSTYCZNYCH
02 Reprezentacja danychid 3439 ppt
02 Modelowanie danych
02 Wizualizacja danych przestrz Nieznany
03 TRANSFORMACJE DANYCH I METODY ICH PREZENTACJI
APP 02 Typy Danych Podstawy 2010
Maszyny elektryczne 02 TRANSFORMATORY
02 Bazy danych - bibliografia skrocona, INIB rok II, PIOSI janiak
2009 02 Centrum danych
2010 02 Odzyskiwanie danych z systemów RAID
02 wpisywanie danych

więcej podobnych podstron

PED(02) Transformacja danych(1)

Document Outline