background image

 

Analiza dyskryminacyjna 

 

 

Analiza  dyskryminacyjna  stanowi  zespół  metod  dyskryminacyjnych 

i klasyfikacyjnych.  

 

Jej  celem  jest  znalezienie  modelu  pozwalającego  zaklasyfikować 

badane  obiekty  do  grupy,  jak  najbardziej  do  siebie  podobnych  ze 

względu na opisujące je właściwości.  

 

 

Analiza dyskryminacyjna składa się z dwóch etapów: 

1)

 

dyskryminacji - na podstawie zbioru uczącego zawierającego poprawnie 

sklasyfikowane obiekty tworzy się funkcje dyskryminacyjne, która mają 

na celu podział porównywanych obiektów na grupy do siebie podobne; 

2)

 

 klasyfikacji  -  na  podstawie  zbudowanej  funkcji  dyskryminacyjnej 

ustala się, do której z utworzonych grup należy przyporządkować dany 

obiekt  wykorzystując  w  tym  celu  te  zmienne,  które  miały  największą 

moc dyskryminacyjną. 

 

 

 

Przykład 1 

 

Mamy  grupę  więźniów,  którzy  ubiegają  się  o  warunkowe  zwolnienie  (np. 

za  dobre  sprawowanie).  Dysponując  informacjami  na  ich  temat  (sytuacja 

rodzinna, przystosowanie do rynku pracy, nałogi, historia ich konfliktów z 

prawem)  mamy  ich  zaklasyfikować do dwóch  grup: tych  którzy  wrócą  na 

drogę przestępstwa, tych którzy wrócą do społeczeństwa. 

 

Przykład 2 

background image

 

 

Mając  pocisk  karabinu  i  dysponując  jego  składem  chemicznym  ustalić  od 

jakiego producenta pochodzi 

 

 

Przykład 3 

Mając  informacje  na  temat  osoby  (firmy)  ubiegającej  się  o  kredyt  ustalić, 

czy osoba ta będzie czy nie będzie w stanie go spłacić 

 

Przykład 4 

Badając  pacjenta,  który  skarży  się  na  określone  dolegliwości  oraz  ma 

określony  poziom  pewnych  zmiennych  diagnostycznych  zakwalifikować 

go do odpowiedniej grupy leczenia. 

 

 

 

 

Liniowa funkcja dyskryminacyjna 

 

Punktem  wyjścia  konstrukcji  funkcji  dyskryminacyjnych  jest 

budowa macierzy danych 

[ ]

ijk

x

=

X

, gdzie: 

n

i

,

,

1 K

=

n – liczba obiektów 

we  wszystkich  grupach, 

=

=

g

k

k

n

n

1

k

n

  -  liczba  obiektów  w  k-tej  grupie 

(

k

G

); 

p

j

,

,

1 K

=

p – liczba zmiennych diagnostycznych; 

g

k

,

,

1 K

=

g – liczba grup.  

 

background image

 

 

Funkcje  dyskryminacyjne  wyznacza  się  w  taki  sposób,  aby 

maksymalizować 

zróżnicowanie 

wartości 

między 

grupami, 

względem zróżnicowania wartości wewnątrz grupy. 

 

Jednocześnie  dokonuje  się  oceny,  które  ze  zmiennych  najsilniej 

różnicują (dyskryminują) grupy.  

 

 

Liniowe funkcje dyskryminacyjne są postaci: 

p

pq

q

q

q

q

q

q

X

a

X

a

X

a

a

a

Z

+

+

+

+

=

+

=

...

2

2

1

1

0

0

T

X

a

 

gdzie: 

[

]

pq

q

q

q

a

a

a

...

2

1

=

a

wektor 

współczynników 

funkcji 

dyskryminacyjnych, 

{

}

p

g

q

,

1

min

=

 - maksymalna liczba funkcji dyskryminacyjnych. 

 

Wyznaczenie liniowej funkcji dyskryminacyjnej polega na maksymalizacji 

funkcji postaci: 

max

=

T

T

aWa

aBa

F

gdzie: B – macierz wariancji-kowariancji międzygrupowej:  

(

) (

)

=

=

g

k

k

k

k

n

1

x

x

x

x

B

T

, 

W – macierz wariancji-kowariancji wewnątrzgrupowej: 

(

) (

)

∑∑

=

=

=

g

k

n

i

k

ik

k

ik

k

1

1

x

x

x

x

W

T

, 

ik

x

 - wektor reprezentujący i-tą obserwację w k-tej grupie, 

[

]

pk

jk

k

k

x

x

x

K

...

1

=

x

  -  wektor  średnich  wartości  zmiennych  w  k-tej  grupie,

 

 

[

]

p

j

x

x

x

K

K

1

=

x

 - wektor średnich wszystkich wartości zmiennych. 

background image

 

Wykorzystując funkcję dyskryminacyjną można zapisać: 

(

)

(

)

max

1

1

2

1

2

=

=

∑∑

=

=

=

g

k

n

i

k

ik

g

k

k

k

k

z

z

z

z

n

q

q

T

T

W

B

aWa

aBa

Zmienność funkcji dyskryminacyjnej można dekomponować:  

(

)

∑∑

=

=

=

+

=

g

k

n

i

ik

k

z

z

q

q

q

1

1

2

W

B

 

Gdzie: 

k

z

  -    wartość  średnia  funkcji  dyskryminacyjnej  dla  obiektów 

należących do k-tej grupy, 

 - wartość średnia funkcji dyskryminacyjnej dla wszystkich obiektów. 

 

 

Funkcja F zdefiniowana osiąga maksimum dla wektora a, który jest 

wektorem własnym macierzy 

B

W

1

 

 

Po wyznaczeniu pierwszej funkcji dyskryminacyjne wyznaczana jest 

kolejna 

 

Kolejna  funkcja  dyskryminacyjna  jest  ortogonalna  do  pierwszej  i 

spełnia warunek minimalizacyjny 

 

Procedura trwa tak długo, aż zostaną wyznaczone wszystkie funkcje 

dyskryminacyjne  albo  kolejne  funkcje  dyskryminacyjne  okażą  się 

przestaną mieć istotny wpływ na dyskryminację obiektów 

 

 

background image

 

 

I

NTERPRETACJA WYNIKÓW ANALIZY DYSKRYMINACYJNEJ

 

 

 

Interpretacja 

oszacowanych 

współczynników 

funkcji 

dyskryminacyjnych  przypisanych  do  poszczególnych  zmiennych 

objaśniających  sprowadza  się  do  badania  znaku  i  wartości  ocen 

parametrów.  

 

 

W  wypadku  zmiennych  standaryzowanych  wartości  bezwzględne 

współczynników funkcji, określają siłę dyskryminacyjną zmiennych 

diagnostycznych.  Im  wyższa  wartość  danego  współczynnika,  tym 

większa  moc dyskryminacyjna danej zmiennej.  

 

W

ERYFIKACJA STATYSTYCZNA FUNKCJI DYSKRYMINACYJNEJ

 

 

Do oceny zdolności dyskryminacyjnej modelu zostaną wykorzystane dwie 

miary: 

- współczynnik korelacji kanonicznej; 

- współczynnik lambda Wilksa. 

 

Współczynnik korelacji kanonicznej jest miarą siły dyskryminacji całego 

zbioru zmiennych diagnostycznych i można go wyznaczyć ze wzoru: 

q

q

R

c

B

=

 

gdzie: 

B

q

 oraz 

q

 zdefiniowane są powyżej. 

Współczynnik  ten  przyjmuje  wartości  z  przedziału 

1

;

0

.  Im  wartość 

współczynnika jest bliższa 1, tym większa jest siła dyskryminacyjna całego 

zbioru zmiennych diagnostycznych. 

background image

 

Współczynnik  lambda  Wilksa  jest  miarą  wykorzystywaną  do  oceny 

zdolności dyskryminacyjnej i zdefiniowany wzorem: 

q

q

W

=

Λ

 

Współczynnik ten przyjmuje wartości z przedziału 

1

;

0

.  

 

Jeżeli  wartość 

Λ

  jest  wysoka  (bliska  1),  oznacza  to,  że  wartości 

zmiennych  występujących  w  funkcji  dyskryminacyjnej  nie  są 

istotnie zróżnicowane między rozważanymi grupami.  

 

Natomiast im mniejsza wartość współczynnika 

Λ

 Wilksa tym jakość 

oszacowania  jest  lepsza.  Jeżeli  wartość 

Λ

  równa  jest  zero  wtedy 

mamy doskonałą dyskryminację. 

 

 

Istotność  uzyskanego  rozwiązania  sprawdza  się  testem  Bartletta,  w 

którym  ocenia  się  istotność  funkcji  dyskryminacyjnych,  czyli,  istotność 

różnic  pomiędzy  grupami.  Badanie  istotności  przeprowadza  się 

weryfikując następującą hipotezę: 

1

:

=

Λ

o

H

 (nie istnieją różnice pomiędzy grupami), 

1

:

1

<

Λ

H

W celu weryfikacji hipotezy wykorzystujemy statystykę testową postaci: 

( )

Λ

+

=

ln

1

2

2

p

g

n

χ

 

Statystyka ta ma rozkład 

2

χ

 o 

(

)

1

g

p

 stopniach swobody. 

 

Klasyfikacja obiektów do grup 

 

Po  wyznaczeniu  funkcji  dyskryminacyjnej  można  przejść  do  etapu 

klasyfikacji obiektów ( zazwyczaj nowych obiektów) do grup.  

background image

 

Klasyfikację obiektów przeprowadzamy przy pomocy: 

 

Funkcji klasyfikacyjnych 

 

Odległości Mahalanobisa 

 

Prawdopodobieństw a posteriori 

 

 

Funkcje klasyfikacyjne  

Funkcje  klasyfikacyjne,  wyznaczane  dla  każdej  z  grup,  mają 

następującą postać: 

+

+

+

+

+

=

n

n

X

c

X

c

X

c

c

F

k

p

pk

k

k

k

k

ln

...

2

2

1

1

0

 

Współczynniki 

jk

c

 

(

)

p

j

,...,

1

=

 oblicza się ze wzoru: 

(

)

1

1

1

,...,





=

=

W

x

c

g

n

c

c

k

pk

k

k

 

n – liczba obiektów, g – liczba grup. 

Wartość współczynnika 

k

c

0

 wyznaczamy ze wzoru: 

T

x

c

k

k

k

c

2

1

0

=

 

Klasyfikacja polega na: 

 

Wyznaczeniu  wartości  każdej  funkcji  klasyfikacyjnej  dla  danego 

obiektu 

 

Przyporządkowaniu  obiektu  do  grupy,  dla  której  funkcja 

klasyfikacyjna przyjęła największą wartość 

 

Odległość Mahalanobisa 

 

 

Wyznaczamy centroidy dla każdej grupy 

background image

 

 

Wyznaczamy  odległość  danego  obiektu  od  każdej  z  centroid  – 

wykorzystujemy odległość Mahalanobisa 

 

Klasyfikujemy obiekt do tej grupy, do której ma najbliżej 

 

Prawdopodobieństwa a posteriori

 

 

prawdopodobieństwa  obliczane  na  podstawie  wartości  zmiennych 

istotnie  dyskryminujących  obiekty  użyte  do  zbudowania  funkcji 

klasyfikacyjnych 

 

wykorzystujemy regułę klasyfikacyjną opartą na twierdzeniu Bayesa 

 

-

 

definiujemy  prawdopodobieństwo  warunkowe,  że  obiekt  należy  do 

danej  grupy  obiektów,  przy  założeniu  znajomości  wartości  zmiennych 

w badanych obiektach (istotnie dyskryminujących obiekty): 

(

)

(

)

(

)

=

=

z

r

r

i

r

r

i

r

r

i

G

P

p

G

P

p

G

P

1

'

'

'

'

'

O

x

O

x

x

O

i

i'

i

gdzie: 

p

r’

 – prawdopodobieństwo a priori zakwalifikowania i-tego obiektu do r’-

tej grupy, 

x

i

, 

x

i’

 

– 

wektor 

wartości 

zmiennych 

wejściowych, 

istotnie 

dyskryminujących obiekty, w odpowiednio i-tym i i’-tym klasyfikowanym 

obiekcie, 

(

) (

)

'

'

,

r

i

r

i

G

P

G

P

O

x

O

x

i'

i

  –  prawdopodobieństwo  warunkowe, 

otrzymania  wektora  wartości  zmiennych  odpowiednio  x

i

  albo  x

i’

 

opisujących  klasyfikowany  odpowiednio  i-ty  albo  i’-ty  obiekt,  jeżeli 

wiemy, że obiekt ten należy odpowiednio do r-tej albo r’-tej grupy. 

 

background image

 

wyznaczamy prawdopodobieństwo błędnej klasyfikacji a posteriori 

(

)

=

=

=

z

r

r

r

r

i

r

i

z

r

r

BK

G

G

P

p

P

'

1

'

'

1

O

O

gdzie: 

(

)

r

i

r

i

G

G

P

O

O

'

  –  prawdopodobieństwo  błędnego  zakwalifiko-

wania i-tego obiektu do r’-tej grupy pomimo, że należy on do r-tej grupy 

 

klasyfikujemy  obiekty  minimalizując  prawdopodobieństwa  błędnej 

klasyfikacji 

 

 

 

 Ocena trafności prognoz 

 

Poprawność  klasyfikacji  jest  oceniana  po  zliczeniu  liczby  trafnych 

klasyfikacji w porównaniu do całkowitej liczby przypadków 

background image

 

10 

Przykład  

 

Przeprowadzić  analizę  dyskryminacji  na  zbiorze  danych  Iris, 

przygotowanym  przez  Fishera  [1936].  Zbiór  danych  zawiera 

charakterystykę 3 gatunków kwiatu Irysa tj. Setosa, Versiclor, Virginica 

na którą składają się 4 zmienne objaśniające: 

 

Długość działki kielicha 

 

Szerokość działki kielicha 

 

Długość płatka 

 

Szerokość płatka 

 

Setosa 

Versiclor 

Virginica