klasa oznacza zbiór obiektów charakteryzujący się pewnymi wspólnymi własnościami.
W zależności od rodzaju dostępnej informacji w ramach klasyfikacji można wyodrębnić dwa zagadnienia:
| Klasyfikację wzorcową, nazywaną także analizą dyskryminacyjną, gdy struktura kategorii jest znana, tj. gdy dysponuje się — choćby częściową — charakterystyką klas, z których pochodzą obiekty.
• Klasyfikację bezwzorcową, znaną jako taksonomia albo analiza skupień, gdy nic nie wiadomo o strukturze klas (należy ją dopiero odkryć).
Sttosując terminologię cybernetyczną lub zaczerpniętą z teorii rozpoznawania obrazów, pierwsze z omawianych zagadnień można nazwać uczeniem lub rozpoznawaniem z nauczycielem. Oznacza to sytuację, gdy układ zwany „nauczycielem" przedstawia układowi zwanemu ^uczniem" kolejne, obiekty od razu podając, do której kategorii każdy z nich należy. Rezultatem uczenia jest więc charakterystyka tych kategorii.
Drogi rodzaj klasyfikacji" nazywany jest uczeniem lub rozpoznawaniem bez nauczyciela. „Uczeń” nie dysponuje żadnymi informacjami o strukturze klas, do których należą rozpoznawane obiekty i musi znaleźć reguły klasyfikacji jedynie na podstawie obserwacji2.
Jednym z podstawowych celów klasyfikacji jest uzyskanie jednorodnych przedmiotów badań, w których łatwiej wyróżnić czynniki systematyczne. Pociąga to za sobą zredukowanie dużej liczby obiektów (cech) do kilku podstawowych kategorii, a co za tym idzie zmniejszenie nakładu pracy i czasu analiz dzięki ograniczeniu liczby danych. Kolejną przyczyną stosowania metod klasyfikacji jest chęć odkrycia nieznanej struktury analizowanych danych lub porównanie obiektów wielocecho-wych. Warto wspomnieć także o możliwości weryfikacji hipotez dotyczących charakteru danych i wnioskowania o nieznanych cechach obiektów na podstawie znajomości klasy, do której należą.
Chociaż wniniejszej pracy przedmiotem zainteresowania jest wyłącznie klasyfikacja obiektów, warto pamiętać1 że czasem grupowane są także cechy (zmienne) oraz okresy. W pierwszym przypadku mówi się o doborze cech diagnostycznych, a w drugim o periodyzacji okresów. Dodatkowo
w analizie poziomu rozwoju obiektów gospodarczych oraz jednostek terytorialnych dokonuje się klasyfikacji tzw. obiekto-okresów (Grabiński 1992).
Zadaniem niniejszej książki jest, jak wskazuje tytuł, omówienie symbolicznych metod klasyfikacji obiektów. Ponieważ termin „metody symboliczne” nie ma w polskiej literaturze z zakresu statystyki ugruntowanego znaczenia, czytelnikowi należą się wyjaśnienia dotyczące używanej terminologii.
Po pierwsze, określenie „symboliczny” jest traktowane jako antonim terminu „numeryczny”. Wydaje się, że lepiej oddaje ono sens znanego z literatury przeciwstawienia: metody Jakościowe”—metody „ilościowe”. Można więc powiedzieć, że przedmiotem rozważań niniejszej pracy jest wykorzystanie do klasyfikacji danych metod nienumerycznych, czyli ńieklasycznych. Metody numeryczne, rozwijane od wielu lat na gruncie statystyki i szeroko wykorzystywane w praktyce, są bowiem traktowane jako klasyczne.
Termin „klasyfikacja jakościowa” był używany m.in. przez T. Borysa w jego pracy (1984), lecz nie został — moim zdaniem niesłusznie — szerzej rozpowszechniony. Klasyfikacja jakościowa rozumiana jest tam jako podział zbioru obiektów na podzbiory w oparciu o jakościowe kryterium klasyfikacyjne, które tworzą cechy jakościowe, ich zbiory oraz wartości tych cech; Borys ten rodzaj klasyfikacji nazywa „podziałem naturalnym”, ponieważ w kryterium jakości podziału wykorzystywane są naturalne cechy jakościowe obiektów. Również M. Sobczyk wspomina o jakościowych i ilościowych metodach taksonomicznych, lecz podział ten wynika jedynie z charakteru cech klasyfikowanych obiektów (Sobczyk 1990): Dalsze etapy grupowania są już identyczne.
Wydaje się więc, że określenie „klasyfikacja jakościowa” nie oddaje w pełni wszystkich różnic między metodami omawianymi w książce a metodami klasycznymi — numerycznymi. Ważny jest także np. sposób ujmowania podobieństwa obiektów, konstrukcja miar jakości podziału obiektów na klasy itd. Termin „klasyfikacja symboliczna” bardziej wyraźnie podkreśla te różnice.
Po drugie, w literaturze anglojęzycznej w pracach poświęconych
15
B.B. Rozin w ramach rozpoznawania obrazów rozważa jeszcze jedno zagadnienie, polegające na minimalizacji opisu, tj. redukcji wymiaru przestrzeni cech klasyfikowanych obiektów (Rozin 1979).