W praktyce wartość miar jakości podziału liczy się na podstawie tablicy kontyngencji budowanej dla każdej cechy. W tablicy 9.2 K, oznacza i-tą klasę, do której należą obiekty, a w,,.... wk to wartości cechy X.
Tablica 92. Tablica fcontyngencji
a:. |
X, |
Suma | ||
■u |
"l ł |
«».. I | ||
W, |
"u |
■ |
»u | |
*■« |
"u | |||
Suzaa |
. 1 |
Hj |
n 1 |
Mając np. tablicę 93 dla cechy dochód oraz dwóch klas: przyjąć i odrzucić (chodzi o klasyfikację wniosków kredytowych), można obliczyć wartość wskaźnika zróżnicowania Giniego:
oraz funkcji entropii:
ĘQf) - 0,626.
Tablica 93. Tablica Łodyngatcji dla cechy dochód
Dochód < 500 |
Przyjąć T | 2 ■ |
| Odrzucić 1 1 5 I |
Suma f |
500 < dochód < 800 |
4 |
2 I |
6 i |
Dochód > 800 |
1 |
■ |
tmml |
Sama |
7 1 .• |
■8 MS |
ml |
Wśród proporcji innych miar jakości podziału znajduje się także statystyka yj. Jej wartość liczy się zgodnie z formułą:
X2 = . (9.9)
s. ■ •.-.iiifhni ■
gdzie e,,- --
/J
Ponieważ wartość z1 rośnie wraz ze wzrostem wartości n, statystyka ta nie jest wygodną miarą asocjacji. Zwykle stosuje się jej modyfikację w postaci współczynnika Yiile’a: -
Autor prowadził eksperymenty wykorzystując inne miary podobieństwa oparte na statystyce || przyjmujące wartości z przedziału [0,1]: pj l —. współczynnik Czuprowa
li
(9.13)
—współczynnik Cramera
■ współczynnik kontyngenćyjności Pearsona
B9
nćyjnośc
lecz jakość. klasyfikacji, liczona jako odsetek obiektów ze Zbioru rozpoznawanego, które zostały błędnie zaklasyfikowane, nie poprawiła się ^znacznie; -'.o
Wszystkie omawiane dośtej pory miary nie wykorzystują, wiedzy o uporządkowaniu zbioru wartości cechy X (tablica. 9.2). Zatem gdy reprezentuje ją zmienna mierzona na skali porządkowej, informacja ta nie jest uwzględniana.
W Wyniku prowadzonych eksperymentów autor uzyskał' znacznie lepsze rezultaty klasyfikacji, gdy do wyboru cechy decydującej ó podziale zbioru obiektów w Węźle drzewa użył współczynnika t Kendalla (Kendall
MM)
I
gdzie wartości p^Orazi#/* są Wyznaczane w następujący sposób:
175