1
Analiza dyskryminacyjna
•
Analiza dyskryminacyjna stanowi zespół metod dyskryminacyjnych
i klasyfikacyjnych.
•
Jej celem jest znalezienie modelu pozwalającego zaklasyfikować
badane obiekty do grupy, jak najbardziej do siebie podobnych ze
względu na opisujące je właściwości.
Analiza dyskryminacyjna składa się z dwóch etapów:
1)
dyskryminacji - na podstawie zbioru uczącego zawierającego poprawnie
sklasyfikowane obiekty tworzy się funkcje dyskryminacyjne, która mają
na celu podział porównywanych obiektów na grupy do siebie podobne;
2)
klasyfikacji - na podstawie zbudowanej funkcji dyskryminacyjnej
ustala się, do której z utworzonych grup należy przyporządkować dany
obiekt wykorzystując w tym celu te zmienne, które miały największą
moc dyskryminacyjną.
Przykład 1
Mamy grupę więźniów, którzy ubiegają się o warunkowe zwolnienie (np.
za dobre sprawowanie). Dysponując informacjami na ich temat (sytuacja
rodzinna, przystosowanie do rynku pracy, nałogi, historia ich konfliktów z
prawem) mamy ich zaklasyfikować do dwóch grup: tych którzy wrócą na
drogę przestępstwa, tych którzy wrócą do społeczeństwa.
Przykład 2
2
Mając pocisk karabinu i dysponując jego składem chemicznym ustalić od
jakiego producenta pochodzi
Przykład 3
Mając informacje na temat osoby (firmy) ubiegającej się o kredyt ustalić,
czy osoba ta będzie czy nie będzie w stanie go spłacić
Przykład 4
Badając pacjenta, który skarży się na określone dolegliwości oraz ma
określony poziom pewnych zmiennych diagnostycznych zakwalifikować
go do odpowiedniej grupy leczenia.
Liniowa funkcja dyskryminacyjna
Punktem wyjścia konstrukcji funkcji dyskryminacyjnych jest
budowa macierzy danych
[ ]
ijk
x
=
X
, gdzie:
n
i
,
,
1 K
=
, n – liczba obiektów
we wszystkich grupach,
∑
=
=
g
k
k
n
n
1
;
k
n
- liczba obiektów w k-tej grupie
(
k
G
);
p
j
,
,
1 K
=
, p – liczba zmiennych diagnostycznych;
g
k
,
,
1 K
=
,
g – liczba grup.
3
•
Funkcje dyskryminacyjne wyznacza się w taki sposób, aby
maksymalizować
zróżnicowanie
wartości
między
grupami,
względem zróżnicowania wartości wewnątrz grupy.
•
Jednocześnie dokonuje się oceny, które ze zmiennych najsilniej
różnicują (dyskryminują) grupy.
Liniowe funkcje dyskryminacyjne są postaci:
p
pq
q
q
q
q
q
q
X
a
X
a
X
a
a
a
Z
+
+
+
+
=
+
=
...
2
2
1
1
0
0
T
X
a
gdzie:
[
]
pq
q
q
q
a
a
a
...
2
1
=
a
-
wektor
współczynników
funkcji
dyskryminacyjnych,
{
}
p
g
q
,
1
min
−
=
- maksymalna liczba funkcji dyskryminacyjnych.
Wyznaczenie liniowej funkcji dyskryminacyjnej polega na maksymalizacji
funkcji postaci:
max
→
=
T
T
aWa
aBa
F
,
gdzie: B – macierz wariancji-kowariancji międzygrupowej:
(
) (
)
∑
=
−
−
=
g
k
k
k
k
n
1
x
x
x
x
B
T
,
W – macierz wariancji-kowariancji wewnątrzgrupowej:
(
) (
)
∑∑
=
=
−
−
=
g
k
n
i
k
ik
k
ik
k
1
1
x
x
x
x
W
T
,
ik
x
- wektor reprezentujący i-tą obserwację w k-tej grupie,
[
]
pk
jk
k
k
x
x
x
K
...
1
=
x
- wektor średnich wartości zmiennych w k-tej grupie,
[
]
p
j
x
x
x
K
K
1
=
x
- wektor średnich wszystkich wartości zmiennych.
4
Wykorzystując funkcję dyskryminacyjną można zapisać:
(
)
(
)
max
1
1
2
1
2
→
−
−
=
=
∑∑
∑
=
=
=
g
k
n
i
k
ik
g
k
k
k
k
z
z
z
z
n
q
q
T
T
W
B
aWa
aBa
,
Zmienność funkcji dyskryminacyjnej można dekomponować:
(
)
∑∑
=
=
−
=
+
=
g
k
n
i
ik
k
z
z
q
q
q
1
1
2
W
B
Gdzie:
k
z
- wartość średnia funkcji dyskryminacyjnej dla obiektów
należących do k-tej grupy,
z - wartość średnia funkcji dyskryminacyjnej dla wszystkich obiektów.
•
Funkcja F zdefiniowana osiąga maksimum dla wektora a, który jest
wektorem własnym macierzy
B
W
1
−
•
Po wyznaczeniu pierwszej funkcji dyskryminacyjne wyznaczana jest
kolejna
•
Kolejna funkcja dyskryminacyjna jest ortogonalna do pierwszej i
spełnia warunek minimalizacyjny
•
Procedura trwa tak długo, aż zostaną wyznaczone wszystkie funkcje
dyskryminacyjne albo kolejne funkcje dyskryminacyjne okażą się
przestaną mieć istotny wpływ na dyskryminację obiektów
5
I
NTERPRETACJA WYNIKÓW ANALIZY DYSKRYMINACYJNEJ
•
Interpretacja
oszacowanych
współczynników
funkcji
dyskryminacyjnych przypisanych do poszczególnych zmiennych
objaśniających sprowadza się do badania znaku i wartości ocen
parametrów.
•
W wypadku zmiennych standaryzowanych wartości bezwzględne
współczynników funkcji, określają siłę dyskryminacyjną zmiennych
diagnostycznych. Im wyższa wartość danego współczynnika, tym
większa moc dyskryminacyjna danej zmiennej.
W
ERYFIKACJA STATYSTYCZNA FUNKCJI DYSKRYMINACYJNEJ
Do oceny zdolności dyskryminacyjnej modelu zostaną wykorzystane dwie
miary:
- współczynnik korelacji kanonicznej;
- współczynnik lambda Wilksa.
Współczynnik korelacji kanonicznej jest miarą siły dyskryminacji całego
zbioru zmiennych diagnostycznych i można go wyznaczyć ze wzoru:
q
q
R
c
B
=
gdzie:
B
q
oraz
q
zdefiniowane są powyżej.
Współczynnik ten przyjmuje wartości z przedziału
1
;
0
. Im wartość
współczynnika jest bliższa 1, tym większa jest siła dyskryminacyjna całego
zbioru zmiennych diagnostycznych.
6
Współczynnik lambda Wilksa jest miarą wykorzystywaną do oceny
zdolności dyskryminacyjnej i zdefiniowany wzorem:
q
q
W
=
Λ
Współczynnik ten przyjmuje wartości z przedziału
1
;
0
.
•
Jeżeli wartość
Λ
jest wysoka (bliska 1), oznacza to, że wartości
zmiennych występujących w funkcji dyskryminacyjnej nie są
istotnie zróżnicowane między rozważanymi grupami.
•
Natomiast im mniejsza wartość współczynnika
Λ
Wilksa tym jakość
oszacowania jest lepsza. Jeżeli wartość
Λ
równa jest zero wtedy
mamy doskonałą dyskryminację.
Istotność uzyskanego rozwiązania sprawdza się testem Bartletta, w
którym ocenia się istotność funkcji dyskryminacyjnych, czyli, istotność
różnic pomiędzy grupami. Badanie istotności przeprowadza się
weryfikując następującą hipotezę:
1
:
=
Λ
o
H
(nie istnieją różnice pomiędzy grupami),
1
:
1
<
Λ
H
.
W celu weryfikacji hipotezy wykorzystujemy statystykę testową postaci:
( )
Λ
−
+
−
−
=
ln
1
2
2
p
g
n
χ
Statystyka ta ma rozkład
2
χ
o
(
)
1
−
g
p
stopniach swobody.
Klasyfikacja obiektów do grup
•
Po wyznaczeniu funkcji dyskryminacyjnej można przejść do etapu
klasyfikacji obiektów ( zazwyczaj nowych obiektów) do grup.
7
Klasyfikację obiektów przeprowadzamy przy pomocy:
•
Funkcji klasyfikacyjnych
•
Odległości Mahalanobisa
•
Prawdopodobieństw a posteriori
Funkcje klasyfikacyjne
Funkcje klasyfikacyjne, wyznaczane dla każdej z grup, mają
następującą postać:
+
+
+
+
+
=
n
n
X
c
X
c
X
c
c
F
k
p
pk
k
k
k
k
ln
...
2
2
1
1
0
Współczynniki
jk
c
(
)
p
j
,...,
1
=
oblicza się ze wzoru:
(
)
1
1
1
,...,
−
−
=
=
W
x
c
g
n
c
c
k
pk
k
k
n – liczba obiektów, g – liczba grup.
Wartość współczynnika
k
c
0
wyznaczamy ze wzoru:
T
x
c
k
k
k
c
2
1
0
−
=
.
Klasyfikacja polega na:
•
Wyznaczeniu wartości każdej funkcji klasyfikacyjnej dla danego
obiektu
•
Przyporządkowaniu obiektu do grupy, dla której funkcja
klasyfikacyjna przyjęła największą wartość
Odległość Mahalanobisa
•
Wyznaczamy centroidy dla każdej grupy
8
•
Wyznaczamy odległość danego obiektu od każdej z centroid –
wykorzystujemy odległość Mahalanobisa
•
Klasyfikujemy obiekt do tej grupy, do której ma najbliżej
Prawdopodobieństwa a posteriori:
•
prawdopodobieństwa obliczane na podstawie wartości zmiennych
istotnie dyskryminujących obiekty użyte do zbudowania funkcji
klasyfikacyjnych
•
wykorzystujemy regułę klasyfikacyjną opartą na twierdzeniu Bayesa
-
definiujemy prawdopodobieństwo warunkowe, że obiekt należy do
danej grupy obiektów, przy założeniu znajomości wartości zmiennych
w badanych obiektach (istotnie dyskryminujących obiekty):
(
)
(
)
(
)
∑
=
∈
∈
=
∈
z
r
r
i
r
r
i
r
r
i
G
P
p
G
P
p
G
P
1
'
'
'
'
'
O
x
O
x
x
O
i
i'
i
,
gdzie:
p
r’
– prawdopodobieństwo a priori zakwalifikowania i-tego obiektu do r’-
tej grupy,
x
i
,
x
i’
–
wektor
wartości
zmiennych
wejściowych,
istotnie
dyskryminujących obiekty, w odpowiednio i-tym i i’-tym klasyfikowanym
obiekcie,
(
) (
)
'
'
,
r
i
r
i
G
P
G
P
∈
∈
O
x
O
x
i'
i
– prawdopodobieństwo warunkowe,
otrzymania wektora wartości zmiennych odpowiednio x
i
albo x
i’
opisujących klasyfikowany odpowiednio i-ty albo i’-ty obiekt, jeżeli
wiemy, że obiekt ten należy odpowiednio do r-tej albo r’-tej grupy.
9
wyznaczamy prawdopodobieństwo błędnej klasyfikacji a posteriori
(
)
∑
∑
≠
=
=
∈
∈
=
z
r
r
r
r
i
r
i
z
r
r
BK
G
G
P
p
P
'
1
'
'
1
O
O
,
gdzie:
(
)
r
i
r
i
G
G
P
∈
∈
O
O
'
– prawdopodobieństwo błędnego zakwalifiko-
wania i-tego obiektu do r’-tej grupy pomimo, że należy on do r-tej grupy
klasyfikujemy obiekty minimalizując prawdopodobieństwa błędnej
klasyfikacji
Ocena trafności prognoz
Poprawność klasyfikacji jest oceniana po zliczeniu liczby trafnych
klasyfikacji w porównaniu do całkowitej liczby przypadków
10
Przykład
Przeprowadzić analizę dyskryminacji na zbiorze danych Iris,
przygotowanym przez Fishera [1936]. Zbiór danych zawiera
charakterystykę 3 gatunków kwiatu Irysa tj. Setosa, Versiclor, Virginica
na którą składają się 4 zmienne objaśniające:
•
Długość działki kielicha
•
Szerokość działki kielicha
•
Długość płatka
•
Szerokość płatka
Setosa
Versiclor
Virginica