(9.15)
(9.16)
Symbole atJ oraz btj we wzorach (9.15) i (9.16) reprezentują uporządkowanie wartości obu cech.
Współczynnik r przyjmuje wartości z przedziału [—1,1], które interpretuje sic podobnie jak w przypadku współczynnika korelacji liniowej. Przy okazji warto dodać, że M. Walesiak zwrócił uwagę na to. iż współczynnik t Kendalla jest szczególną postacią współczynnika korelacji liniowej Pearsona (Walesiak 1993). Miara ta ma jeszcze jedną istotną zaletę. Otóż można ją stosować nawet wtedy, gdy w tablicy 9.2 występują wiersze i kolumny 6. liczebnościach równych zero.
Chociaż współczynnik ten zakłada, że obie cechy mierzy się na skali porządkowej (co w przypadku klas nie występuje), dokładność klasyfikacji w prowadzonych eksperymentach była nieco większą. Ze względu na konstrukcję tej miary nie można jej stosować w . odniesieniu dęTcećh ilościowych poddawanych dyskretyzacji.
Kolejny problem związany z konstruowaniem drzew klasyfikacyjnych dotyczy decyzji o tym, kiedy zaprzestać dalszego podziału podzbiorów. Chodzi o to, by U2yskać^drzewo o minimalnej liczbie węzłów, nie obniżając przy tym .jakości” reguł klasyfikacji obiektów. Nazywa się to porządkowaniem drzewa.
W tym celu można zastosować jedną z dwóch metod. Pierwsza określana jest w literaturze jako porządkowanie wstępne (ang. pre-pruning) i polega na ustaleniu granicznej wartości miary jakości podziału J*, której przekroczenie oznacza zakończenie podziału i utworzenie liścia:
Metoda ta stosowana jest m.in. w algorytmie ASSISTANT (Cestnik i in. 1987). Ponieważ jednak trudno z góry ustalić wartość J*, podział kończy się zwykle zbyt wcześnie lub zbyt późno.
Można wykorzystać także inne reguły stopu. Najprostsza mówi o tym, by zakończyć podział zbioru obiektów Ss (utworzyć liść), gdy jest on odpowiednio jednorodny. Homogeniczńość można mierzyć za pomocą częstości:
(9.18)
gdzie ty to liczba obiektów w zbiorze Slt 4ux— liczebność najliczniejszej klasy w 5,, tj. 1^ — max {//}. Na przykład wartość parametru c = 1
oznacza, że zbiór nie będzie dzielony, jeśli wszystkie obiekty należą do tej'samej klasy. ’
Inne rozwiązanie polega na uniknięciu tworzenia podzbiorów w sytuacji, gdy zbiór S^jest nieliczny. Do oceny tego stosuje się parametr
n
(9.19)
garien ’ tp.^^mfeÓl>mktqv| w całym zbiorze ucżąćyim Jeśli przyjmie się np^WąrtoŚć oznacza to, że zbiór'Ą me będzie dzielony, gdy
jeMp^^^^ll^dnre pdniźój 5% wszystkich Obiektów.
Odmienną koncepcję rozwiązania tego samego problemu zaproponowano Zamiast okreśiania‘ kryterium stopu dla
propsu dzielenia zbiorów obiektów należy utworzyć pełne drzewo
IBBHa
Rys. 9.6. Porządkowanie drzewa klasyfikacyjnego
II— Synbaficae metodjr_
177