05 Wykład5 rozpoznawanie wzorcow

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Wykład 5

Rozpoznawanie wzorców

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Struktura wykładu:

• Metody grupowania

• Analiza skupień

• Analiza asocjacji i sekwencji

• Statystyka opisowa

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Metody grupowania

Grupowanie pod nadzorem

Grupowanie bez nadzoru

Dana jest jednoznacznie określona
zmienna celu.

Nie istnieje jednoznacznie
określona zmienna celu.
Algorytm eksploracji danych
poszukuje wzorców i struktur
wśród wszystkich zmiennych.

• Drzewa decyzyjne
• Regresja logistyczna
• Metoda k-najbliższych sąsiadów

• Metoda k-śrenich
• Metoda SOM – Kohonena

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Metody grupowania – inny podział

Metody hierarchiczne:

•

Skupienia tworzą drzewa binarne i w ten sposób uzyskiwana jest hierarchia
tj. jedne skupienia są zawarte w drugich.

•

Uwzględniając kryterium rozpoczęcia procesu grupowania wyróżniamy:
metody aglomeracyjne i metody podziałowe.

•

Ze względu na sposób wyznaczania odległości między skupieniami
najczęściej spotykane metody aglomeracyjne to: najbliższego sąsiedztwa,
najdalszego sąsiedztwa, mediany, środka ciężkości, średniej odległości
wewnątrz skupień, średniej odległości między skupieniami, minimalnej

wariancji Warda.

Metody optymalizacyjno-iteracyjne:

•

Wymagają wstępnego podziału zbioru obiektów na określona liczbę
podzbiorów. Wybrany sposób podziału jest iteracyjnie modyfikowany.
Np. metoda k-średnich.

Metody obszarowe:

•

Przestrzeń grupowania jest dzielona na rozłączne obszary a obiekty
znajdujące się w otrzymanych obszarach tworzą grupy.

Inne metody

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Grupowanie – analiza skupień

Grupa, skupienie (cluster) – zbiór obiektów, które są podobne

do siebie nawzajem i niepodobne do obiektów z innych grup.

Grupowanie (clustering) – oznacza grupowanie obserwacji (rekordów)

w klasy (grupy) podobnych obiektów.

Zmienność pomiędzy grupami (between-cluster variation, BCV)

Zmienność wewnątrz grupy (within-cluster variation, WCV)

Analiza skupień (cluster analysis) – grupowanie bez nadzoru, ma za

cel wykrycie w zbiorze obserwacji skupień, czyli grup.

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Liczba grup (skupień)

Dwa skupienia

Dwa lub cztery skupienia

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Algorytm k-średnich

Określamy na ile grup (k) zbiór danych ma zostać podzielony.

Losowo wybieramy k rekordów (obserwacji) jako początkowe
ś

rodki grup.

Dla każdego rekordu znajdujemy najbliższy środek grupy,
wyznaczając w ten sposób podział zbioru na k grup.

Dla każdej z k grup wyznaczamy centroid grupy i aktualizujemy
położenie każdego środka grupy jako nową wartość centroidu.

Powtarzamy punkty od 3 do 5 aż do osiągnięcia określonego
warunku stopu.

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Algorytm k-średnich – warunek stopu

•

Algorytm k-średnich kończy działanie, gdy centroidy już się nie
zmieniają.

•

Algorytm może skończyć działanie, gdy zostanie spełnione pewne
kryterium zbieżności, np. brak istotnego zmniejszania
sumarycznego błędu kwadratowego:

–

grupy

–

centroid i-tej grupy

–

punkt danych z i-tej grupy

(

)

∑

∈

SSE

∈

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Metoda k-średnich - przykład

•

Przypuścimy, że mamy
zbiór punktów danych
w dwuwymiarowej
przestrzeni.

•

Jesteśmy zainteresowani
odkryciem np. trzech grup.

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Metoda k-średnich - przykład

•

Wybieramy k=3 elementów, które
traktujemy jako potencjalne
ś

rednie (środki) skupień.

•

Wszystkie pozostałe elementy
są przydzielane do skupienia,
którego środek jest mu
najbliższy.

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Metoda k-średnich - przykład

•

W każdym ze skupień na nowo
wyznaczany jest centroid
(średnia, środek) i powtarzany
jest ostatni krok.

•

Algorytm kończy swoje działanie,
jeśli w danym kroku nie zostanie
zmienione przypisanie żadnego
z punktów.

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Charakterystyka obiektów

•

Badane obiekty tworzą skończony zbiór (populacja lub próba wylosowana
z populacji).

•

Każdy obiekt opisany jest przez pewien zestaw zmiennych przyjmujących
wartości liczbowe.

•

Obiekt opisany przez zmienne przedstawiamy jako punkt

z n-wymiarowej przestrzeni.

•

Zbiór punktów jest reprezentowany w przestrzeni wielowymiarowej
zwanej przestrzenią grupowania.

UWAGA: Metody wykorzystywane w analizie skupień dają możliwość uwzględnienia

dużej ilości zmiennych, ale nie dostarczają żadnych wskazówek, które zmienne
należy wybrać.

(

)

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Wyznaczanie odległości

Dla większego wymiaru:

Metryka euklidesowa

Metryka taksówkowa

(

)

, y

(

)

, x

(

)

(

)

(

)

−

(

)

−

(

)

, y

(

)

, x

(

)

(

)

∑

−

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Pułapka wymuszonego grupowania przykład

•

W metodzie k-średnich istnieje ryzyko złego doboru liczby skupień.

Przykład 1
Analizie poddano zakupy mydła przez klientów: wyróżniono dwie zmienne:
cena za sztukę i liczba sztuk.

Podział na 2 grupy (k-średnich)

Faktyczna liczba grup klientów = 3

cena

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Metoda SOM – sieci Kohonena

Sieci samoorganizujące (Self Organization Maps, SOM) stanowią

klasę sieci neuronowych bez warstwy ukrytej.

Szczególnym przypadkiem sieci samoorganizujących są

sieci

Kohonena.

Sieci samoorganizujące:

•

Przekształcają złożone, wielowymiarowe sygnały wejściowe
w prostsze, mniej wymiarowe odwzorowania.

•

Neurony położone bliżej siebie są bardziej podobne do siebie
niż do innych neuronów znajdujących się dalej.

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Procesy sieci samoorganizujących

Rywalizacja: neurony wyjściowe rywalizują ze sobą, by uzyskać
najlepszą wartość odległości np. euklidesowej. Węzeł wyjściowy
z najmniejszą odległością euklidesową pomiędzy danymi
wejściowymi a wagami zostaje zwycięzcą.

Współdziałanie: pobudzany jest neuron wygrywający oraz inne
neurony z nim sąsiadujące.

Adaptacja: wszystkie neurony z sąsiedztwa neuronu
wygrywającego uczestniczą w adaptacji czyli uczeniu. Wagi ich są
tak dopasowywane, aby neurony te miały większe szanse
na ponowne wygranie rywalizacji w przypadku podobnego rekordu.

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Sieci Kohonena - przykład

Przykład 2
•

Rozważmy zbiór danych, w którym każdy rekord (obserwacja) jest opisany przez

10 zmiennych, zatem mamy dziesięciowymiarowy wektor wejściowy.

•

Załóżmy, że chcemy użyć sieci Kohonena o rozmiarze 5 x 5.

•

Każdy neuron jest również opisany przez dziesięciowymiarowy wektor wag.

•

W procesie uczenia sieci wagi są modyfikowane.

i-ty rekord

sieć

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Sieci Kohonena

•

Z wykorzystaniem odpowiedniego odwzorowania każda obserwacja
otrzymuje swoją reprezentację w siatce neuronów (punktów).

•

Ponieważ każda kratka w siatce odpowiada jednemu skupieniu,
zatem liczba obserwacji (rekordów) musi być większa niż liczba
zadeklarowanych węzłów w siatce.

sąsiad

najbliższy
sąsiad

sąsiad

Reprezentacja
obserwacji na siatce

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Sieci Kohonena

•

Każdy neuron jest zdefiniowany przez wektor wag i lokalizację w siatce.

•

W procesie budowy sieci wagi neuronów są modyfikowane.

•

Wektory wag podążają w stronę punktów centralnych skupień danych.

•

Obszar utworzony przez neurony, w którym znajduje się dana
obserwacja jest następnie zacieśniany.

•

Proces jest kontynuowany dla wszystkich pozostałych obserwacji.

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Sieci Kohonena

•

Ostatecznie otrzymujemy siatkę z neuronami odzwierciedlającymi

skupienia.

•

Sąsiadujące neurony reprezentują grupy rekordów o zbliżonych

cechach.

•

Na rysunku większe natężenie koloru odpowiada większej liczności

danego skupienia.

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Metoda k-średnich i metoda SOM – Kohonena

Przed wykorzystaniem obu metod grupowania bez nadzoru należy
dokonać normalizacji/standaryzacji danych.

( )

min

max

min

zakres

min

−

( )

rednia

−

Normalizacja:

Standaryzacja:

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Analiza asocjacji

•

Analiza asocjacji zajmuje się badaniem związków między
zachodzeniem pewnych wydarzeń lub istnieniem cech

•

Analiza asocjacji kryje się również pod nazwą „analiza koszykowa
(koszyka sklepowego)” (market basket analysis), daje ona możliwość
znajdowania odpowiedzi m.in. na pytanie:

„Czy jeśli klient kupi produkt A, to czy kupi również produkt B? ”

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Reguły asocjacyjne

Regułą asocjacyjną nazwiemy każdą implikację: A

„ Jeśli poprzednik, to następnik”.

•

Odpowiednie miary wyznaczają jakość takiej reguły asocjacyjnej.

•

Liczba możliwych reguł asocjacyjnych rośnie wykładniczo wraz
ze wzrostem liczby atrybutów. Dla k atrybutów binarnych liczba
możliwych reguł asocjacyjnych wynosi: , dla 10 rodzajów
różnych usług (artykułów) mamy

•

Do odkrywania reguł asocjacyjnych wykorzystywany jest

algorytm

a priori, który daje możliwość zredukowania przedstawionego
problemu do mniejszego wymiaru.

⇒

−

⋅

5120

⋅

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Prezentacja danych w analizie koszykowej

Transakcja

Artykuł

Transakcja

Transakcyjny format danych

Macierzowy format danych

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Reguły asocjacyjne (A B)

Podstawowe miary w analizie asocjacji:

•

Wsparcie (Support)

(suma transakcji zawierających produkt A i B)

(suma wszystkich transakcji )

•

Zaufanie (Confidence)

(suma transakcji zawierających produkt A i B)

(suma transakcji zawierających produkt A)

•

Oczekiwane zaufanie (Expected Confidence)

(suma transakcji zawierających produkt B)

(suma wszystkich transakcji )

•

Korelacja asocjacyjna (Lift)

Zaufanie

Oczekiwane zaufanie

⇒

(

)

∩ B

(

)

(

)

( )

∩

( )

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Reguły asocjacyjne – przykład

Przykład 3
Zbadamy na podstawie poniższych danych, czy istniej reguła asocjacyjna
łącząca dwie usługi ubezpieczeń samochodowych:
ubezpieczenie NW i AC.

AC → NW
Support = 50%
Confidence = 75%
Expected Confidence = 77,8%
Lift = 0,75/0,778 = 0.96 < 1 brak zależności

500 2500

1500 4500

Tak

Nie

Tak

Nie

3000

6000

9000

2000

7000

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Reguły asocjacyjne – przykład

Przykład 4
Zbadamy na podstawie poniższych danych, czy istniej reguła asocjacyjna
łącząca dwie usługi ubezpieczeń: samochodowe ubezpieczenie AC
i ubezpieczenie domu.

AC → Dom
Support = 50%
Confidence = 64%
Expected Confidence = 57%
Lift = 0,64/0,57 = 1,12>1 badana reguła jest prawdziwa

1000 500

2000 3500

Dom

Tak

Nie

Tak

Nie

1500

5500

7000

3000

4000

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Prawdziwa reguła asocjacyjna

Przykład 4 c.d.

Proponowane działania marketingowe maksymalizujące zysk ze

sprzedaży obu usług: ubezpieczenia AC i ubezpieczenia domu:

•

zakwalifikować każdy z produktów do różnych pakietów

•

nie reklamować jednocześnie obu produktów

•

do sprzedaży obu tych produktów dołączyć inny słabo sprzedawany
produkt

•

podnieść cenę jednego produktu obniżyć cenę drugiego

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Odkrywanie reguł asocjacyjnych

Częstość zbioru zdarzeń – liczba transakcji zawierająca dany zbiór

zdarzeń.

Zbiór częsty – zbiór zdarzeń, który występuje przynajmniej pewną

minimalna liczbę razy, czyli z określoną częstością

Odkrywanie reguł asocjacyjnych:

1. Należy znaleźć wszystkie zbiory częste.

2. Na podstawie zbiorów częstych należy wyznaczyć reguły

asocjacyjne, spełniające warunek minimalnego wsparcia i zaufania.

Własność a priori w analizie asocjacji – jeśli zbiór zdarzeń nie jest

częsty, to dodanie dowolnego artykułu

A do tego zbioru nie

spowoduje tego, że zbiór ten będzie zbiorem częstym.

≥

DATA MINING – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Tworzenie reguł asocjacyjnych

Tworzenie reguł asocjacyjnych za pomocą częstych zbiorów zdarzeń:
1. Utworzyć niepuste podzbiory częstego zbioru zdarzeń.
2. Przeanalizować regułę asocjacyjną:

niepusty podzbiór częstego zbioru zdarzeń
częsty zbiór zdarzeń bez uwzględnionego podzbioru

3. Rozważ wszystkie reguły asocjacyjne dla wszystkich podzbiorów

częstego zbioru zdarzeń.

Przykład 5
Przyjmijmy następujący zbiór częsty trzyelementowy: {A, B, C}.
Właściwe podzbiory: {A}, {B}, {C}, {A, B}, {A, C}, {B, C}.
Reguły asocjacyjne:
{A} {B, C}
{B} {A, C}
{C} {A, B}
{A, B} {C}
{A, C} {B}
{B, C} {A}

⇒

⇒
⇒
⇒