ZW 1 x0


Klasyfikacja polega na odwzorowywaniu danych w zbiory predefiniowanych klas. Na podstawie baz danych budowany jest model, który służy do klasyfikowania nowych obiektów lub też do zrozumienia już istniejących klas.

Grupowanie, inaczej klastrowanie polega na grupowaniu rekordów, obserwacji lub przypadków do odpowiednich klas opisujących dane. Klasa jest zbiorem danych, które są podobne do siebie nawzajem i niepodobne do danych z innych klas.

Metody grupowania:

W praktycznych zastosowaniach metod grupowania w badaniach ekonomicznych szczególne znacznie mają hierarchiczne metody aglomeracyjne oraz metody optymalizujące wstępny podział zbioru.

Hierarchiczne metody aglomeracyjne charakteryzują się (w ujęciu klasycznym) następującymi cechami:

Hierarchiczne metody deglomeracyjne

Klasyfikacja deglomeracyjna zwana też klasyfikacją dedukcyjną, zstępującą lub klasyfikacją przez podział rozpoczyna się od sytuacji, w której punktem wyjścia jest jedna klasa obejmująca wszystkie obiekty badania A1,...,An. W każdym kroku klasyfikacji liczba klas zwiększa się o jeden, przy czym jej zwiększenie następuje przez rozdzielenie jednej z istniejących klas. Po n-1 krokach otrzymuje się liczbę klas równą liczbie obiektów badania, tzn. każdy obiekt tworzy jedną klasę.

NORMALIZACJA ZMIENNYCH

0x08 graphic

gdzie: wartość średnia, S(x) - odchylenie standardowe

lub

Metoda k średnich

Istota metody

Dokonuje się wstępnego podziału jednostek na k grup a następnie przeprowadza się korektę rozwiązania początkowego. Procedura jest realizowana tak długo aż wyczerpie się zadana liczba iteracji lub zmiany w kolejnych rozwiązaniach będą mało istotne.

Przebiega wg następującego algorytmu:

  1. Określenie a priori liczby segmentów k,

  2. Wybranie losowo, arbitralnie, lub wg innego schematu k jednostek, dla których wartości zmiennych grupowych (kryteria segmentacji) stanowią tzw. zalążki środków ciężkości k skupień,

  3. Obliczenie odległości każdej jednostki od wyznaczonych środków ciężkości,

  4. Rozdzielenie jednostek na k grup. Jednostki są przydzielane do tych grup, względem których położone są najbliżej, na podstawie odległości obliczonych w kroku poprzednim,

  5. Wyznaczenie środków ciężkości dla utworzonych skupień. Są to wartości średnie zmiennych, które stanowią podstawę grupowania,

Kroki 3, 4 i 5 są powtarzane tak długo aż nie będzie podstaw do dalszego przemieszczania jednostek.

Analiza dyskryminacyjna

Analiza dyskryminacyjna stwarza możliwość konstrukcji formuły matematycznej zwanej funkcją dyskryminacyjną identyfikującej przynależność obiektów do jednej z wyróżnionych klas. Liczba funkcji dyskryminacyjnych jest zawsze o 1 mniejsza od liczby klas.

0x08 graphic
Metody klasyfikacji wzorcowej opartej na funkcjach dyskryminacyjnych polegają na zastosowaniu k funkcji w postaci:

Postać funkcji dyskryminacyjnej może być dowolna, jednak najczęściej w praktyce stosuje się liniowe funkcje dyskryminacyjne.

Konstrukcja reguły przynależności opiera się na proponowanym zestawie zmiennych profilowych, tworzących wielowymiarową informację o każdym obiekcie oraz na przynależności obiektu do określonej klasy. Zmienne profilowe pełnią rolę zmiennych niezależnych w modelu analizy dyskryminacyjnej.

0x08 graphic
Postać funkcji dyskryminacyjnej:

gdzie:

i - numer funkcji dyskryminacyjnej,

Yi - zmienna grupująca, której wartości rozstrzygają o przynależności jednostki do określonego segmentu,

Xj - zmienna profilowa (niezależna),

αi - współczynniki funkcji dyskryminacyjnej.

Sieci Kohonena realizują uczenie w trybie bez nauczyciela (bez nadzoru). Sieci uczące się bez nauczyciela w trakcie uczenia opierają się wyłącznie na obserwacji danych wejściowych. Sieci te uczą się rozpoznawania skupień występujących w zbiorze nieskategoryzowanych (nie podzielonych na żadne klasy) danych uczących.

W sieci Kohonena poszczególne neurony identyfikują i rozpoznają poszczególne skupienia danych.

W sieci Kohonena przebiega specyficzny proces samouczenia nazywany często samoorganizacją. W wyniku tej samoorganizacji zbliżone do siebie skupienia danych reprezentowane są (po zakończeniu procesu nauki) przez położone blisko siebie neurony warstwy wyjściowej, co powoduje, że neurony te tworzą mapę topologiczną danych wejściowych.

Drzewa decyzyjne w uczeniu maszynowym służą do wyodrębniania wiedzy z zestawu przykładów. Zakładamy, że posiadamy zestaw przykładów: obiektów opisanych przy pomocy atrybutów, którym przyporządkowujemy jakąś decyzję.

Na podstawie tabeli decyzyjnej tworzymy drzewo, którego węzłami są poszczególne atrybuty, gałęziami wartości odpowiadające tym atrybutom, a liście tworzą poszczególne decyzje. Na podstawie przykładowych danych wygenerowano drzewo decyzyjne. Drzewo w takiej postaci odzwierciedla, w jaki sposób na podstawie atrybutów były podejmowane decyzje klasyfikujące. Drzewem nazywamy dowolny spójny graf acykliczny. Krawędzie takiego grafu nazywane są gałęziami. Wierzchołki, z których wychodzi co najmniej jedna krawędź nazywamy węzłami, Wierzchołki nie będące węzłami nazywamy liściami.

Dla każdego liścia istnieje dokładnie jedna ścieżka łącząca go z korzeniem. Zbiór wszystkich takich ścieżek może być przekształcony w zbiór reguł (zwykle koniunkcji pewnych warunków elementarnych) klasyfikujących przykłady w sposób identyczny jak robi to drzewo. Możliwa jest więc konwersja drzewa decyzyjnego do zbioru reguł.

Algorytm zachłanny, który konstruuje rekurencyjnie drzewo decyzyjne metodą top-down.

Warianty algorytmu:

Podstawowa różnica - kryterium podziału:

(wybierany jest atrybut, który minimalizuje indeks Gini)

(wybierany jest ten atrybut, który maksymalizuje redukcję entropii)

(mierzona jest korelacja pomiędzy każdym atrybutem a każdą klasą (wartością atrybutu decyzyjnego). Wybieramy atrybut o maksymalnej korelacji.

(oryginalnie tylko dla zmiennych nominalnych)

Algorytm wykonywany jest w dwóch fazach:

Faza I: Konstrukcja drzewa decyzyjnego w oparciu o zbiór treningowy

Faza II: Przycinanie drzewa w celu poprawy dokładności, interpretowalności i uniezależnienia się od efektu przetrenowania

Metoda detekcji iterakcji (AID)

Cele metody:

Algorytm metody detekcji i iterakcji

Drzewa regresyjne

Odkrywanie reguł asocjacyjnych polega na wyszukiwaniu grup obiektów, które występują razem w określonym kontekście. Wykorzystywane tutaj algorytmy pozwalają odkrywać reguły, które przyjmują postać:

Reguły asocjacji zwykle przybierają formę:

Miary siły asocjacji:

Wsparcie (w). Prawdopodobieństwo koniunkcji zdarzeń P(XY), czyli prawdopodobieństwo łącznego zajścia dwóch zdarzeń. (udział transakcji, w których jednocześnie kupiono X i Y w całym zbiorze transakcji)

Ufność (u). Prawdopodobieństwo warunkowe P(Y/X), (udział w zbiorze transakcji, w których kupiono X, transakcji w których kupiono także Y)

Zarówno miara w jaki i u są wartościami z przedziału [0,1].

Wskaźniki oceny klasyfikatora. W celu zbadania skuteczności danego klasyfikatora należy przeprowadzić szereg testów z wykorzystaniem dwóch zbiorów: treningowego, na podstawie którego klasyfikator "uczy się" poprawnej klasyfikacji, oraz testowego, na podstawie którego jest sprawdzana jakość generalizacji badanego klasyfikatora tzn. jak dobrze, klasyfikator "nauczony" na zbiorze treningowym, radzi sobie z klasyfikacją danych ze zbioru treningowego. Aby ocenić jakość klasyfikacji zbioru testowego, konieczna jest znajomość prawdziwej przynależność jego elementów do klas i porównanie jej z przyporządkowaniem elementów do klas zaproponowanym przez klasyfikator. W celu określenia jakości rzeczywistego klasyfikatora definiuje się następujące wielkości m. in.: Czułość SE (sensitivity) - określa prawdopodobieństwo zaklasyfikowania stanu patologicznego do patologii - jak dobrze algorytm wykrywa patologie; Trafność SP (specifity) - określa prawdopodobieństwo zaklasyfikowania stanu normalnego do normalnych - jak dobrze algorytm radzi sobie z rozpoznawaniem stanu normalnego; False Positive Fraction FPF - określa prawdopodobieństwo sklasyfikowania stanu normalnego jako patologii - jak często algorytm popełnia błąd "wykrycia" nieistniejącej patologii.

W analizie skupień dąży się do takiego wyodrębnienia skupień obiektów aby były one wewnętrznie minimalnie a zewnętrznie maksymalnie zróżnicowane. Jeżeli uzyskany zostaje taki podział mówi się, że jest on „wysokiej jakości”. Ta wysoka jakość interpretowana jest także w kontekście wybranej liczby skupień. Jeżeli podział jest „wysokiej jakości” to znaczy, że liczba skupień została prawidłowo ustalona. W literaturze tematu można znaleźć wiele wskaźników jakości grupowania (ang. cluster validity index, cluster separation index). Są to miary wskazujące w sposób ilościowy na optymalny podział obiektów z pewnego, przyjętego przez dany wskaźnik, punktu widzenia.

V-krotny sprawdzian krzyżowy - Metoda ta polega na v-krotnym (np. trzykrotnym) powtórzeniu procedury wylosowania z danych próbki do analizy i zbudowaniu na jej podstawie modelu. Tak więc otrzymuje się v zestawów ocen jakości modelu, co pozwala analitykowi wyrobić sobie opinię o funkcjonowaniu danego modelu lub metody predykcji. Metody tej używa się w odniesieniu do drzew klasyfikacyjnych i regresji

Sprawdzian polega na losowym podziale danych uczących na kilka części i zbadaniu trafności drzew uczonych na losowych podzbiorach danych. Zwróćmy uwagę, że v-krotny sprawdzian wymaga wielokrotnego utworzenia drzew i dlatego jego włączenie powoduje zwiększenie czasu obliczeń.

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic



Wyszukiwarka

Podobne podstrony:
Akumulator do BOBCAT X0 X5 X0 X5
Triton X0
Akumulator do?UTZ?HR OTHERS RUBIN X0
ZW LAB USTAWY, OCHRONA
X~1
05 BIOCHEMIA Zw wysokoenergetyczne ATP
DMB ZW nr 02(30) luty 1993
zw rozniczk
szkar tk zw, Ochrona Środowiska, Biologia
Tekst ze str 0
Akumulator do HAKO00 D00 D00 D00 D
Witryna w Internecie – zasady tworzenia i funkcjonowania odpowiedzi na0
str0 1
Akumulator do AVTO T`0`4 T`0`4
T0
str0 1
Akumulator do BOLINDERS VOLVO Others S?0 S00

więcej podobnych podstron