Klasyfikacja polega na odwzorowywaniu danych w zbiory predefiniowanych klas. Na podstawie baz danych budowany jest model, który służy do klasyfikowania nowych obiektów lub też do zrozumienia już istniejących klas.
Grupowanie, inaczej klastrowanie polega na grupowaniu rekordów, obserwacji lub przypadków do odpowiednich klas opisujących dane. Klasa jest zbiorem danych, które są podobne do siebie nawzajem i niepodobne do danych z innych klas.
Metody grupowania:
metody hierarchiczne (aglomeracyjne i deglomeracyjne),
metody optymalizujące wstępny podział zbioru obiektów (metody optymalizacji iteracyjnej). - Punktem wyjścia tych metod jest wstępny podział zbioru obiektów na k klas, otrzymany np. przy zastosowaniu dowolnej metody klasyfikacji lub ustalony losowo. Zadaniem tych metod jest „poprawienie” z punktu widzenia pewnej zdefiniowanej funkcji kryterium wstępnego podziału zbioru obiektów na k klas.
metody obszarowe i gęstościowe,
W praktycznych zastosowaniach metod grupowania w badaniach ekonomicznych szczególne znacznie mają hierarchiczne metody aglomeracyjne oraz metody optymalizujące wstępny podział zbioru.
Hierarchiczne metody aglomeracyjne charakteryzują się (w ujęciu klasycznym) następującymi cechami:
Punktem wyjścia jest n klas jednoelementowych (jest tyle klas, ile jest obiektów),
Po każdym kroku klasyfikacji liczba klas zmniejsza się o jeden, przy czym zmniejszenie liczby klas następuje przez połączenie dwóch istniejących,
Istnieje n-1 kroków klasyfikacji; po n-1 krokach otrzymuje się jedną klasę zawierającą wszystkie obiekty.
Hierarchiczne metody deglomeracyjne
Klasyfikacja deglomeracyjna zwana też klasyfikacją dedukcyjną, zstępującą lub klasyfikacją przez podział rozpoczyna się od sytuacji, w której punktem wyjścia jest jedna klasa obejmująca wszystkie obiekty badania A1,...,An. W każdym kroku klasyfikacji liczba klas zwiększa się o jeden, przy czym jej zwiększenie następuje przez rozdzielenie jednej z istniejących klas. Po n-1 krokach otrzymuje się liczbę klas równą liczbie obiektów badania, tzn. każdy obiekt tworzy jedną klasę.
NORMALIZACJA ZMIENNYCH
Standaryzacja
gdzie: wartość średnia, S(x) - odchylenie standardowe
Unitaryzacja
lub
Przekształcenie ilorazowe
Metoda k średnich
Istota metody
Dokonuje się wstępnego podziału jednostek na k grup a następnie przeprowadza się korektę rozwiązania początkowego. Procedura jest realizowana tak długo aż wyczerpie się zadana liczba iteracji lub zmiany w kolejnych rozwiązaniach będą mało istotne.
Przebiega wg następującego algorytmu:
Określenie a priori liczby segmentów k,
Wybranie losowo, arbitralnie, lub wg innego schematu k jednostek, dla których wartości zmiennych grupowych (kryteria segmentacji) stanowią tzw. zalążki środków ciężkości k skupień,
Obliczenie odległości każdej jednostki od wyznaczonych środków ciężkości,
Rozdzielenie jednostek na k grup. Jednostki są przydzielane do tych grup, względem których położone są najbliżej, na podstawie odległości obliczonych w kroku poprzednim,
Wyznaczenie środków ciężkości dla utworzonych skupień. Są to wartości średnie zmiennych, które stanowią podstawę grupowania,
Kroki 3, 4 i 5 są powtarzane tak długo aż nie będzie podstaw do dalszego przemieszczania jednostek.
Analiza dyskryminacyjna
Analiza dyskryminacyjna stwarza możliwość konstrukcji formuły matematycznej zwanej funkcją dyskryminacyjną identyfikującej przynależność obiektów do jednej z wyróżnionych klas. Liczba funkcji dyskryminacyjnych jest zawsze o 1 mniejsza od liczby klas.
Metody klasyfikacji wzorcowej opartej na funkcjach dyskryminacyjnych polegają na zastosowaniu k funkcji w postaci:
Postać funkcji dyskryminacyjnej może być dowolna, jednak najczęściej w praktyce stosuje się liniowe funkcje dyskryminacyjne.
Konstrukcja reguły przynależności opiera się na proponowanym zestawie zmiennych profilowych, tworzących wielowymiarową informację o każdym obiekcie oraz na przynależności obiektu do określonej klasy. Zmienne profilowe pełnią rolę zmiennych niezależnych w modelu analizy dyskryminacyjnej.
Postać funkcji dyskryminacyjnej:
gdzie:
i - numer funkcji dyskryminacyjnej,
Yi - zmienna grupująca, której wartości rozstrzygają o przynależności jednostki do określonego segmentu,
Xj - zmienna profilowa (niezależna),
αi - współczynniki funkcji dyskryminacyjnej.
Sieci Kohonena realizują uczenie w trybie bez nauczyciela (bez nadzoru). Sieci uczące się bez nauczyciela w trakcie uczenia opierają się wyłącznie na obserwacji danych wejściowych. Sieci te uczą się rozpoznawania skupień występujących w zbiorze nieskategoryzowanych (nie podzielonych na żadne klasy) danych uczących.
W sieci Kohonena poszczególne neurony identyfikują i rozpoznają poszczególne skupienia danych.
W sieci Kohonena przebiega specyficzny proces samouczenia nazywany często samoorganizacją. W wyniku tej samoorganizacji zbliżone do siebie skupienia danych reprezentowane są (po zakończeniu procesu nauki) przez położone blisko siebie neurony warstwy wyjściowej, co powoduje, że neurony te tworzą mapę topologiczną danych wejściowych.
Drzewa decyzyjne w uczeniu maszynowym służą do wyodrębniania wiedzy z zestawu przykładów. Zakładamy, że posiadamy zestaw przykładów: obiektów opisanych przy pomocy atrybutów, którym przyporządkowujemy jakąś decyzję.
Na podstawie tabeli decyzyjnej tworzymy drzewo, którego węzłami są poszczególne atrybuty, gałęziami wartości odpowiadające tym atrybutom, a liście tworzą poszczególne decyzje. Na podstawie przykładowych danych wygenerowano drzewo decyzyjne. Drzewo w takiej postaci odzwierciedla, w jaki sposób na podstawie atrybutów były podejmowane decyzje klasyfikujące. Drzewem nazywamy dowolny spójny graf acykliczny. Krawędzie takiego grafu nazywane są gałęziami. Wierzchołki, z których wychodzi co najmniej jedna krawędź nazywamy węzłami, Wierzchołki nie będące węzłami nazywamy liściami.
Dla każdego liścia istnieje dokładnie jedna ścieżka łącząca go z korzeniem. Zbiór wszystkich takich ścieżek może być przekształcony w zbiór reguł (zwykle koniunkcji pewnych warunków elementarnych) klasyfikujących przykłady w sposób identyczny jak robi to drzewo. Możliwa jest więc konwersja drzewa decyzyjnego do zbioru reguł.
Algorytm zachłanny, który konstruuje rekurencyjnie drzewo decyzyjne metodą top-down.
Warianty algorytmu:
algorytm ID3, C4.5,
algorytm CART
algorytm CHAID
Podstawowa różnica - kryterium podziału:
Indeks Gini( algorytm CART)
(wybierany jest atrybut, który minimalizuje indeks Gini)
Zysk informacyjny (algorytm ID3, C4.5)
(wybierany jest ten atrybut, który maksymalizuje redukcję entropii)
Indeks korelacji χ2 (algorytm CHAID)
(mierzona jest korelacja pomiędzy każdym atrybutem a każdą klasą (wartością atrybutu decyzyjnego). Wybieramy atrybut o maksymalnej korelacji.
(oryginalnie tylko dla zmiennych nominalnych)
Algorytm wykonywany jest w dwóch fazach:
Faza I: Konstrukcja drzewa decyzyjnego w oparciu o zbiór treningowy
Faza II: Przycinanie drzewa w celu poprawy dokładności, interpretowalności i uniezależnienia się od efektu przetrenowania
Metoda detekcji iterakcji (AID)
Cele metody:
Identyfikacja zmiennych najlepiej różnicujących wybrane zjawisko,
Stworzenie rankingu zmiennych ze względu na siłę ich wpływu,
Identyfikacja cech warunkujących występowanie danej wartości zmiennej zależnej.
Algorytm metody detekcji i iterakcji
1. Określenie wszystkich zmiennych niezależnych mających wpływ na zmienna zależną,
2. Dla każdych dwóch klas wyróżnionych na podstawie binarnej zmiennej niezależnej oblicza się międzyklasową sumę kwadratów odchyleń (SSB) lub wewnątrzklasową sumę kwadratów odchyleń (SSW). Jako pierwszą wybieramy tę zmienną binarną dla której SSB (SSW) przyjmuje maksimum (minimum). Jeśli podzielimy wszystkie obserwacje na zmiennej zależnej Y na dwie klasy t=1,2 - warianty binarnej zmiennej niezależnej) o liczebnościach n1 i n2 to całkowitą sumę kwadratów odchyleń wartości zmiennej zależnej yit od jej średniej rozkłada się następująco:
Drzewa regresyjne
Przypisują obiektom wartości numerycznej zmiennej objaśnianej,
Wartość zmiennej objaśnianej uzależniona jest od wartości zmiennych objaśniających.
Odkrywanie reguł asocjacyjnych polega na wyszukiwaniu grup obiektów, które występują razem w określonym kontekście. Wykorzystywane tutaj algorytmy pozwalają odkrywać reguły, które przyjmują postać:
jeśli element A jest składnikiem danego zdarzenia, to w X % przypadków element B jest także składnikiem tego zdarzenia
Reguły asocjacji zwykle przybierają formę:
Jeżeli poprzednik to następnik
Miary siły asocjacji:
Wsparcie (w). Prawdopodobieństwo koniunkcji zdarzeń P(XY), czyli prawdopodobieństwo łącznego zajścia dwóch zdarzeń. (udział transakcji, w których jednocześnie kupiono X i Y w całym zbiorze transakcji)
Ufność (u). Prawdopodobieństwo warunkowe P(Y/X), (udział w zbiorze transakcji, w których kupiono X, transakcji w których kupiono także Y)
Zarówno miara w jaki i u są wartościami z przedziału [0,1].
Wskaźniki oceny klasyfikatora. W celu zbadania skuteczności danego klasyfikatora należy przeprowadzić szereg testów z wykorzystaniem dwóch zbiorów: treningowego, na podstawie którego klasyfikator "uczy się" poprawnej klasyfikacji, oraz testowego, na podstawie którego jest sprawdzana jakość generalizacji badanego klasyfikatora tzn. jak dobrze, klasyfikator "nauczony" na zbiorze treningowym, radzi sobie z klasyfikacją danych ze zbioru treningowego. Aby ocenić jakość klasyfikacji zbioru testowego, konieczna jest znajomość prawdziwej przynależność jego elementów do klas i porównanie jej z przyporządkowaniem elementów do klas zaproponowanym przez klasyfikator. W celu określenia jakości rzeczywistego klasyfikatora definiuje się następujące wielkości m. in.: Czułość SE (sensitivity) - określa prawdopodobieństwo zaklasyfikowania stanu patologicznego do patologii - jak dobrze algorytm wykrywa patologie; Trafność SP (specifity) - określa prawdopodobieństwo zaklasyfikowania stanu normalnego do normalnych - jak dobrze algorytm radzi sobie z rozpoznawaniem stanu normalnego; False Positive Fraction FPF - określa prawdopodobieństwo sklasyfikowania stanu normalnego jako patologii - jak często algorytm popełnia błąd "wykrycia" nieistniejącej patologii.
W analizie skupień dąży się do takiego wyodrębnienia skupień obiektów aby były one wewnętrznie minimalnie a zewnętrznie maksymalnie zróżnicowane. Jeżeli uzyskany zostaje taki podział mówi się, że jest on „wysokiej jakości”. Ta wysoka jakość interpretowana jest także w kontekście wybranej liczby skupień. Jeżeli podział jest „wysokiej jakości” to znaczy, że liczba skupień została prawidłowo ustalona. W literaturze tematu można znaleźć wiele wskaźników jakości grupowania (ang. cluster validity index, cluster separation index). Są to miary wskazujące w sposób ilościowy na optymalny podział obiektów z pewnego, przyjętego przez dany wskaźnik, punktu widzenia.
V-krotny sprawdzian krzyżowy - Metoda ta polega na v-krotnym (np. trzykrotnym) powtórzeniu procedury wylosowania z danych próbki do analizy i zbudowaniu na jej podstawie modelu. Tak więc otrzymuje się v zestawów ocen jakości modelu, co pozwala analitykowi wyrobić sobie opinię o funkcjonowaniu danego modelu lub metody predykcji. Metody tej używa się w odniesieniu do drzew klasyfikacyjnych i regresji
Sprawdzian polega na losowym podziale danych uczących na kilka części i zbadaniu trafności drzew uczonych na losowych podzbiorach danych. Zwróćmy uwagę, że v-krotny sprawdzian wymaga wielokrotnego utworzenia drzew i dlatego jego włączenie powoduje zwiększenie czasu obliczeń.