EKSPLORACJA DANYCH zagadnienia

EKSPLORACJA DANYCH → Test

28.01.2014 r.

1. Źródła danych → złożenie zapytania

2. Metody eksploracji danych:
•

klasyfikacja

•

grupowanie

•

odkrywanie asocjacji

•

odkrywanie wzorców sekwencji

•

odkrywanie charakterystyk

3. ODKRYWANIE ASOCJACJI (metoda koszykowa) → Celem procesu odkrywania asocjacji jest

znalezienie interesujących zależności lub korelacji, nazwanych ogólnie asocjacjami, pomiędzy danymi w
dużych zbiorach danych. Wynikiem procesu odkrywania asocjacji jest zbiór reguł asocjacyjnych
opisujących znalezione zależności lub korelacje pomiędzy danymi. Klasyczny problem analizy koszyka
zakupów polega na analizie danych zawierających informacje o zakupach zrealizowanych przez klientów
supermarketu. Celem takiej analizy jest znalezienie naturalnych wzorców zachowań konsumenckich
klientów poprzez analizę produktów (grup produktów), najczęściej kupowanych razem przez klientów
supermarketu.

4. Analiza koszyka zakupów → znalezienie naturalnych wzorców zachowań konsumenckich klientów,

poprzez analizę produktów, które są przez klientów supermarketu kupowane najczęściej wspólnie. MBA
znajduje zastosowanie wszędzie tam, gdzie „klienci” nabywają łącznie pewien zbiór dóbr lub usług.

5. Model koszyka zakupów → Model koszyka zakupów jest pewną abstrakcją umożliwiającą modelowanie

relacji wiele-do-wiele pomiędzy encjami „produkty” i „koszyki”.Model koszyka zakupów modelujemy
najczęściej w postaci tzw. tablicy obserwacji (Za pomocą tablicy obserwacji można za modelować różne
przypadki świata rzeczywistego). Rozwiązanie problemu MBA musi być skalowalne!!

6. Elementy tablicy obserwacji:
•

Atrybuty tablicy reprezentują wystąpienia encji „produkty”

•

Wiersze tablicy reprezentują wystąpienia encji „koszyki”

•

Dodatkowy atrybut TR_id – wartościami atrybutu są identyfikatory poszczególnych obserwacji

•

Pozycja Ti [Aj] = 1 tablicy wskazuje, że i-ta obserwacja zawiera wystąpienie j-tego atrybutu

7. Reguły asocjacyjne:
•

{(Ai1 = 1) … (Aik = 1)} → {(Aik+1 = 1) … (Aik+l = 1)} => „jeżeli klient kupił produkty Ai1,

∧ ∧

Ai2, ..., Aik, to prawdopodobnie kupił również produkty Aik+1, Aik+2, ..., Aik+l”

•

Znalezienie reguły i wniosku – to zbiór reguł asocjacyjnych między którymi zachodzą relacje, można ją

przedstawić w równoważnej postaci.

•

WAŻNOŚĆ → sup.

•

UFNOŚĆ → conf.

8. Klasyfikacja reguł zwgl. na :

- typ przetwarzania danych → binarne (dane są zmienne) i ilościowe (dane są ciągłe lub kategoryczne)
reguły asocjacyjne
- wymiarowość przetwarzania danych → jednowymiarowe (dane reprezentują tę samą dziedzinę
wartości) i wielowymiarowe (dane reprezentują różne dziedziny wartości) reguły asocjacyjne
- stopień abstrakcji przetwarzania danych → jednopoziomowe (ten sam poziom abstrakcji) i
wielopoziomowe (różny poziom abstrakcji)

9. ODKRYWANIE BINARNYCH REGUŁ ASOCJACJI → odkrywania silnych jednopoziomowych

jednowymiarowych binarnych reguł asocjacyjnych. Binarną regułą asocjacyjną nazywamy implikację
postaci X -> Y, gdzie X I, Y I, i X ∩Y = . Zbiór X nazywamy poprzednikiem reguł natomiast zbiór Y

⊂

∅

następnikiem reguły.

10. OGRANICZENIA MIAR → dwie główne miary to :

* minimalne wsparcie → minsup
* minimalna ufność → minconf

Wsparcie jest miarą SYMETRYCZNĄ, bo jeśli zamienimy elementy miejscami wynik będzie taki sam.

Ufność to miara ASYMETRYCZNA.

•

WSPARCIE → nazywać będziemy stosunek liczby obserwacji, które spełniają warunek θ φ, do liczby

∧

wszystkich obserwacji (wsparcie reguły = prawdopodobieństwu zajścia zdarzenia θ φ. Określa liczbę

∧

transakcji w analizowanym zbiorze D, które potwierdzają daną regułę.

•

UFNOŚĆ → φ nazywać będziemy stosunek liczby obserwacji, które spełniają warunek θ φ ,do liczby

∧

obserwacji, które spełniają warunek θ ( ufność reguły = warunkowemu prawdopodobieństwu p (φ|θ).
Ufność reguły określa na ile odkryta reguła asocjacyjna jest "pewna"'.

Istnieją jeszcze inne miary określające ocenę otrzymanych reguł asocjacyjnych, np.: Coviction, Lift oraz Interest

11. Algorytm NAIWNY → odkrywanie zbiorów częstych.

12. Algorytm A-PRIORI → Wykorzystuje własność monotoniczności miary wsparcia do ograniczenia

przestrzeni poszukiwań zbiorów częstych. Jest iteracyjny, taki który w kolejnych krokach (iteracjach)
znajduje zbiory częste o rozmiarach 1, 2, ..., k. Następnie, w oparciu o zbiory częste jednoelementowe
algorytm generuje zbiory kandydujące dwuelementowe,które, potencjalnie mogą być zbiorami częstymi
(dla każdego oblicz wsparcie, jeśli zbiór osiągnie minimalne wsparcie to zaliczany jest do dalszej
generacji zbiorów). Następnie, zbiory częste trzy-elementowe są wykorzystywane do generacji zbiorów
kandydujących cztero-elementowych, itd. Wynikiem działania algorytmu jest suma k-elementowych
zbiorów częstych (k=1, 2,...).

13. Kolekcja → ilość zbiorów (w niej mieszczą się zbiory)

14. Zbiór częsty → jest to zbiór, którego wsparcie jest większe od minimalnego wsparcia przez nas

założonego. Zbiór częsty nie może zawierać zbiorów nieczęstych. Miara wsparcia wykorzystwana do
redukcji przestrzeni poszukiwań zb częstych.

15. Generowanie zbiorów częstych → dodawanie do każdego zbioru częstego kolejno elementy z bazy

danych.

16. Własność monotoniczności → wszystkie podzbiory zbioru częstego muszą być częste, innymi słowy

jeżeli B jest zbiorem częstym i A B, to A jest równe zb. częstym

17. Generacja zbioru kandydującego → dwa kroki generowania: Połączenie (zbiór Lk1 ze zbiorem Lk2) z

następującym warunkiem połączeniowym – pierwszych k-1 elementów musi być identycznych oraz
Lk1[k]<Lk2[k]. Gdzie lki[k] oznacza k-ty element zbioru Lki. Odcięcie, polega na usunięciu wszystkich
zbiorów kandydujących, które posiadają nieczęste podzbiory.

18. Funkcja Apriori_gen → jest realizowana w dwóch krokach: kroku generacji zbiorów kandydujących

oraz kroku usuwania zbiorów kandydujących. W kroku pierwszym, zbiory kandydujące k-elementowe
(Ck) są generowane poprzez łączenie zbiorów częstych (k-1)-elementowych (Lk-1). W kroku drugim, ze
zbioru Ck są usuwane te zbiory kandydujące, których jakikolwiek podzbiór nie jest zbiorem częstym.

19. Ostatnia faza algorytmu → jest sprawdzenie, które z wygenerowanych reguł spełniają warunek

minimalnej ufności minconf. Reguły, których ufność jest mniejsza od minconf są odrzucane.

20. Algorytm FP-Growth → odbywa się w dwóch krokach - Kompresja bazy danych D do FP-drzewa:

baza danych D jest kompresowana i przekształcana do postaci tak zwanego FP-drzewa. Eksploracja FP-
drzewa: FP-drzewo jest analizowane w celu znalezienia zbiorów częstych.

21. Kompresja baz danych → rozpoczyna się od odczytu bazy danych D w celu znalezienia wszystkich 1-

elementowych zbiorów częstych. Następnie, z każdej transakcji Ti należących do bazy danych D, i=1,..., n,
są usuwane te elementy, które nie są częste, to jest, nie są 1-elementowymi zbiorami częstymi. W wyniku
otrzymujemy zmodyfikowany zbiór transakcji T = T1,T2,..., Tn, zawierających wyłącznie elementy
będące 1-elementowymi zbiorami częstymi.

22. FP-drzewo → ukorzeniony, etykietowany w wierzchołkach graf acykliczny (brak cykli). Korzeń grafu

posiada etykietę ''null', pozostałe wierzchołki grafu, zarówno wierzchołki wewnętrzne jak i liście,
reprezentują1-elementowe zbiory częste.

23. Transformacja FP-drzewa → Tworzymy korzeń FP- drzewa i przypisujemy mu etykietę ''null'.

Następnie, dokonujemy ponownego odczytu bazy danych D i dla pierwszej transakcji T1 należącej do D,
tworzymy ścieżkę w FP-drzewie, której początkiem jest korzeń drzewa. Kolejność występowania
elementów w posortowanej transakcji odpowiada kolejności wierzchołków w ścieżce reprezentującej daną
transakcję. Dla każdego wierzchołka należącego do ścieżki, wartość licznika transakcji jest, początkowo,
równa 1. Dla kolejnej transakcji T2 należącej do D tworzymy następną ścieżkę n rozpoczynającą się od
korzenia.

24. Eksploracja FP-drzewa → jest eksplorowane w celu znalezienia wszystkich zbiorów częstych. Proces

eksploracji FP-drzewo bazuje na obserwacji, że dla każdego 1-elementowego zbioru częstego α, wszystkie
częste nadzbiory zbioru α są reprezentowane w FP-drzewie przez ścieżki zawierające wierzchołek
(wierzchołki) α

25. Ścieżka prefiksowa → pojedyncza ścieżka, której końcowym wierzchołkiem jest α (alfa)

26. Warunkowa baza wzorcowa → zbiór wszystkich ścieżek prefiksowych

27. Tablica nagłówków elementów (tablica nagłówkowa) → Struktura pełniąca rolę katalogu, która dla

każdego elementu wskazuje jego lokalizację w FP-drzewie. Przyspiesza i ułatwia przeszukiwanie FP-
drzewa. Jeżeli dany element występuje wielokrotnie w FP-drzewie, wskaźniki do wierzchołków
reprezentujących dany element tworzą listę wskaźników

28. klasyfikacja danych DANE WEJŚCIOWE → zbiór treningowy, będący listą wartości atrybutów

opisowych i wybranego atrybutu decyzyjnego

29. Dane wyjściowe → model, przydziela każdej krotce wartość atrybutu decyzyjnego w oparciu o wartości

pozostałych atrybutów

30. Klasyfikator → służy do predykcji wartości atrybutu decyzyjnego (klasy) krotek, dla których wartość

atrybutu decyzyjnego, tj. przydział do klasy, nie jest znany.

31. Etapy budowy klasyfikatorów:

Etap 1 → budowa modelu (klasyfikatora) opisującego predefiniowany zbiór klas danych lub zbiór pojęć
Etap 2 → zastosowanie opracowanego modelu do klasyfikacji nowych danych

32. Wynik klasyfikatorów/klasyfikacji:
•

Reguły klasyfikacyjne postaci if - then

•

Formuły logiczne

•

Drzewa decyzyjne

33. Współczynnik dokładności modelu → jest liczony jako procent przykładów testowych poprawnie

zaklasyfikowanych przez model. Jeśli dokładność modelu jest akceptowalna, model może być użyty do
klasyfikacji przyszłych danych i przewidywania wartości nowych krotek, dla których wartość atrybutu
decyzyjnego jest nieznana.

34. Klasyfikacja → Proces klasyfikacji składa się z kilku etapów – budowania modelu, po czym następuje

faza testowania oraz predykcji nieznanych wartości. Głównym celem klasyfikacji jest zbudowanie
formalnego modelu zwanego klasyfikatorem.

35. Predykcja → modelowanie funkcji ciągłych

36. Kryteria porównawcze metod klasyfikacyjnych:
•

Dokładność predykcji - zdolność modelu do poprawnej predykcji wartości atrybutu decyzyjnego (klasy)
nowego przykładu

•

Efektywność - koszt obliczeniowy związany z wygenerowaniem i zastosowaniem klasyfikatora

•

Odporność modelu - zdolność modelu do poprawnej predykcji klas w przypadku braku części danych lub
występowania danych zaszumionych

•

Skalowalność - zdolność do konstrukcji klasyfikatora dla dowolnie dużych wolumenów danych

•

Interpretowalność - odnosi się do stopnia w jakim konstrukcja klasyfikatora pozwala na zrozumienie
mechanizmu klasyfikacji danych

•

Kryteria dziedzinowo-zależne

37. Metody klasyfikacji:
•

Klasyfikacja poprzez indukcję drzew decyzyjnych
• Klasyfikatory Bayes’owskie
• Sieci Neuronowe
• Analiza statystyczna
• Metaheurystyki (np. algorytmy genetyczne)
• Zbiory przybliżone
• k-NN – k-najbliższe sąsiedztwo

38. Drzewo decyzyjne → Drzewo decyzyjne rekurencyjnie dzieli zbiór treningowy na partycje do momentu,

w którym każda partycja zawiera dane należące do jednej klasy, lub, gdy w ramach partycji dominują dane
należące do jednej klasy, natomiast rozmiar partycji jest ograniczony.

39. Indeks Gini → popularne kryterium podziału, wykorzystuje algorytm sprint. Podział wariantów.

40. Zysk informacji → W algorytmach tych punktem podziału jest cały atrybut. Problem konstrukcji drzewa

decyzyjnego przy użyciu miary zysku informacyjnego może być przedstawiony następująco. Najpierw
zostaje wybrany atrybut, który jest korzeniem drzewa decyzyjnego. Dla każdej wartości wybranego
atrybutu tworzona jest gałąź w tym drzewie decyzyjnym, z którą będzie związany zbiór rekordów
posiadający tą samą wartość wybranego atrybutu. Następnie proces partycjonowania jest powtarzany dla
każdej partycji związanej z każdą gałęzią. Jeżeli wszystkie rekordy podanego węzła należą do tej samej
klasy, proces partycjonowania jest zakończony, dalszy podział węzłów jest niepotrzebny. Jeżeli nie,
wówczas proces partycjonowania zbioru rekordów związany z daną gałęzią jest kontynuowany.

41. Entropia → można ją policzyć dla każdego zbioru. Jeśli entropia ma wartość 0 to jest uporządkowana,

gdy rośnie to zbiór jest bardziej chaotyczny i nieuporządkowany. Jeśli po podziale jest ona większa to
dobrze bo jest większy zysk

42. Obcinanie drzewa → Przycinanie drzew decyzyjnych – usuwanie mało wiarygodnych gałęzi →

poprawia efektywność klasyfikacji– poprawia zdolność klasyfikatora do klasyfikacji nowych przypadków.
Metody przycinania drzew decyzyjnych – bazują najczęściej na miarach statystycznych (np. MDL)

43. Naiwny klasyfikator Bayesa → jest klasyfikatorem statystycznym - oparty na twierdzeniu Bayesa.

Charakteryzuje się dużą dokładnością i skalowalnością nawet dla bardzo dużych wolumenów danych.
Naiwny klasyfikator Bayes’a zakłada, że wartości atrybutów w klasach są niezależne. Założenie to jest
zwane założeniem o niezależności warunkowej klasy. Zadaniem klasyfikatora Bayes’a jest
przyporządkowanie nowego przypadku do jednej z klas decyzyjnych, przy czym zbiór klas decyzyjnych
musi być skończony i zdefiniowany.

44. Twierdzenie Bayesa → P(C|X) = (P(X|C) * P(C))/P(X)
•

P(C) oznacza prawdopodobieństwo a-priori wystąpienia klasy C(tj. prawdopodobieństwo, że dowolny
przykład należy do klasy C),

•

P(X|C) oznacza prawdopodobieństwo a-posteriori, że X należy do klasy C,

•

P(X) oznacza prawdopodobieństwo a-priori wystąpienia przykładu X

45. Klasyfikator kNN → klasyfikator k-najbliższych sąsiadów. Idea klasyfikacji metodą najbliższych

sąsiadów: klasyfikacja nowych przypadków jest realizowana „na bieżąco”, tj. wtedy, gdy pojawia się
potrzeba klasyfikacji nowego przypadku. Algorytm kNN nie buduje klasyfikatora. Przykład ze zbioru
treningowego - n-wymiarowy wektor reprezentujący punkt w przestrzeni n-wielowymiarowej. Metoda jest
bardzo czuła na punkty osobliwe i szum w danych treningowych

46. Funkcje odległości - jeżeli mamy do czynienia z atrybutami liczbowymi, klasyfikatory kNN stosują

euklidesową miarę odległości. Stosuje się również inne miary odległości: blokową (Manhattan),
Minkowskiego, itd. Bezpośrednie zastosowanie funkcji odległości może spowodować dominację pewnych
atrybutów nad pozostałymi.

47. Dokładność klasyfikatora/ów → klasyfikatora na danym zbiorze testowym - procent przykładów

testowych poprawnie zaklasyfikowanych przez klasyfikator. Dokładności klasyfikatora nie testujemy na
zbiorze treningowym! Zjawisko przetrenowania klasyfikatora oszacowanie dokładności klasyfikatora na
danych treningowych będzie zbyt optymistyczne, stąd, zafałszowane. Do oszacowania dokładności
klasyfikatora stosujemy niezależny (od zbioru treningowego) zbiór danych – zbiór testowy.

48. Testowanie:

49. Walidacja krzyżowa → podział wszystkich przypadków na niezależne sobie części, każda część użyta k-

razy do konstrukcji drzewa i raz do testowania. Procedura powtarza się tyle razy ile mamy części.

50. N-krotna walidacji krzyżowej / kroswalidacja → każda część (podzbiór) jest przykładem, każdy

przykład jest testowany ra, są zakwalifikowane ale w zbiorze treningowym w sumie wh nie występują.
Dobry dla małych ilości danych.

51. Reprópkowanie → zwielokrotnienie przykładów, losowanie ze wzracaniem z oryginalnego zbioru.

Przykłady mogą się powtarzać, jedne z nich mogą nie wystąpić (nie był wylosowany) wtedy stają się
zbiorem testowym. Wylosowane to zbiór treningowy.

52. Grupowanie danych → proces grupowania obiektów, rzeczywistych bądź abstrakcyjnych, w klasy,

nazywane klastrami lub skupieniami, o podobnych cechach. Grupowanie może dotyczyć zarówno
obiektów rzeczywistych, jak również obiektów abstrakcyjnych.

53. Klaster → Zbiór obiektów, które są “podobne”. Zbiór obiektów, takich, że odległość pomiędzy dwoma

dowolnymi obiektami należącymi do klastra jest mniejsza aniżeli odległość pomiędzy dowolnym
obiektem należącym do klastra i dowolnym obiektem nie należącym do tego klastra. Spójny obszar
przestrzeni wielowymiarowej, charakteryzujący się dużą gęstością występowania obiektów

54. Zbiór dokumentów → Zbiór punktów w przestrzeni wielowymiarowej, w której pojedynczy wymiar

odpowiada jednemu słowu z określonego słownika. Klastry dokumentów odpowiadają grupom
dokumentów dotyczących podobnej tematyki.

55. Zbiór sekwencji stron www → Pojedyncza sekwencja opisuje sekwencję dostępów do stron WWW

danego serwera realizowaną w ramach jednej sesji przez użytkownika. Klastry sekwencji odpowiadają
grupom użytkowników danego serwera, którzy realizowali dostęp do tego serwera w podobny sposób.

56. Proces grupowania → jest procesem wieloetapowym i iteracyjnym. Punktem wyjścia jest

charakterystyka zbioru grupowanych obiektów. Najczęściej, obiekt jest opisany licznym zbiorem bardzo
heterogenicznych atrybutów o różnym stopniu znaczenia. Stąd, pierwszym etapem procesu jest wybór
cech (atrybutów), które najlepiej charakteryzują dany typ obiektu. Wybór cech zależy również od celu
grupowania.

57. Miary odległości → odległości pomiędzy dwoma obiektami x i y reprezentowanymi przez punkty w

przestrzeni wielowymiarowej. Każdy obiekt można traktować jako punkt w k-wymiarowej przestrzeni
euklidesowej i za miarę odległości można przyjąć dowolną z tradycyjnych miar stosowanych dla tej
przestrzeni. Najpopularniejsze miary odległości punktów w przestrzeni euklidesowej to odległość
euklidesowa (tzw. norma L2 => standaryzacja danych), odległość Manhattan (tzw. norma L1 => wartość
bezwzględna między atrybutami), maksimum z wymiarów (tzw. norma L ∞ => wartość większa jest
istotna), czy odległość Minkowskiego.

58. Zmienne binarne → trzeba skonstruować macierz podobieństwa (lub niepodobieństwa), badamy na ilu

pozycjach wystąpiły podobne wartości. Macierz ta pozwala na policzenie podobieństwa. Te które są
niepodobne dzielimy przez wszystkie atrybuty (wartości)

59. Zmienne binarne symetryczne → Zmienną binarną nazywamy symetryczną jeżeli obie wartości tej

zmiennej posiadają tą samą wagę (np. płeć). Niepodobieństwo pomiędzy obiektami i oraz j jest
zdefiniowane następująco: d(i,j) = r+s/q+r+s+t

60. Zmienne binarne asymetryczne → gdy obie wartości tej wartości posiadają różne wagi.

Nieprawdopodobieństwo: d(i,j) = r+s/q+r+s

61. Zmienna kategoryczna → generalizacja zmiennej binarnej, może przyjąć dwie wartości.

Nieprawdopodobieństwo między obiektami.

62. Metody grupowania danych. Typy metod → Istnieje wiele różnych metod i algorytmów grupowania:

– Dla danych liczbowych i/lub danych symbolicznych
– Deterministyczne i probabilistyczne
– Rozłączne i przecinające się
– Hierarchiczne i płaskie
– Monoteiczny i politeiczny
– Przyrostowe i nieprzyrostowe

63. Metody hierarchiczne → generują zagnieżdżoną sekwencję podziałów zbiorów obiektów w procesie

grupowania. Sekwencja operacji grupowania tworzy tak zwane drzewo klastrów, nazywane
dendrogramem. Dwa podejścia po tego podziału:

•

podziałowe → zakładamy, że każdy każdy obiekt jest klastrem; następnie, w kolejnych iteracjach, klaster
jest dzielony na mniejsze klastry, które, z kolei, dzielone są na kolejne mniejsze klastry.

•

aglomeracyjne → początkowo, każdy obiekt stanowi osobny klaster, następnie, w kolejnych iteracjach,
klastry są łączone w większe klastry

Użytkownik decyduje o ilości klastrów.

64. Miara odległości między klastrami – podobieństwo
•

minimalna odległość – min. odległość między obiektami w klastrze

•

maksymalna odległość – max, odległości między obiektami w klastrze

•

odległość średnia – średnia dwóch klastrów

•

średnia odległość – wszystkie odległości dzielone na połączenia wszystkich obiektów w klastrach

65. Algorytm aglomeracyjny → schemat łączenia. Łączymy najbardziej podobne do siebie. Macierz

niepodobieństwa się zmienia.

66. Metody interacyjno-optymalizacyjne → generują tylko jeden podział (partycję) zbioru obiektów w

dowolnym momencie procesu grupowania. Tworzą jeden podział zbioru obiektów (partycję) w miejsce
hierarchicznej struktury podziałów, jak ma to miejsce w przypadku algorytmów hierarchicznych. Idea
podejścia jest następująca: tworzony jest początkowy podział obiektów (zbiór klastrów k), a następnie,
stosując technikę iteracyjnej realokacji obiektów pomiędzy klastrami, podział ten jest modyfikowany w
taki sposób, aby uzyskać poprawę podziału zbioru obiektów pomiędzy klastry. Przenoszenie z klastra do
klastra by poprawić funkcję kryterialną.

67. Funkcje kryterialne →
•

notacja

•

aspekty grupowania – klasy powinny być zwarte, maxymalne rozłożenie

•

odchylenie wewnątrzklastrowe (wc) – suma odległości odchyleń wewnątrz klastra

•

odchylenie międzyklastrowe (bc) – suma odległości wszystkich do kwadratu między środkami klastrów

•

średnia klastra – środek klastra

68. Grupowanie optymalizacyjno-literacyjne → by znaleźć optimum należy przejrzeć wszystkie możliwe

podziały C obiektów na k klastrów i wybieramy ten, który optymalizuje funkcję kryterialną. Możemy do
tego wykorzystać tzw. algorytm zachłanny/algorytm k-medoidów (szukanie mediany w klastrze)

69. Algorytm zachłanny → losowo wybierany jest początkowy podział zbioru obiektów na k klastrów, a

następnie, stosując technikę iteracyjnej realokacji obiektów pomiędzy klastrami, początkowy podział jest
modyfikowany w taki sposób, aby uzyskać poprawę funkcji kryterialnej aż do osiągnięcia warunku stopu.

70. Algorytm k-średnich → Algorytm składa się z 3 kroków. W kroku pierwszym, wybieranych jest losowo

k obiektów jako początkowe środki k klastrów. W kroku drugim, obiekty alokowane są do klastrów.
Każdy obiekt jest przydzielany do tego klastra, dla którego odległość obiektu od środka klastra jest
najmniejsza. Następnie, po alokacji obiektów do klastrów, uaktualniane są wartości średnie klastrów
(środki klastrów) i ponownie wracamy do kroku alokacji obiektów do klastrów. Proces realokacji
obiektów i uaktualniania średnich klastrów jest powtarzany tak długo, jak długo występują zmiany
przydziału obiektów do klastrów.

71. Sztuczne sieci neuronowe → jest to próba zbudowania sztucznego mózgu. Neuron jako uproszczony

model matematyczny.

72. Strojenie sieci neuronowej → do tej procedury potrzebne są dane historyczne (testowe).

73. Inicjowanie wag – następuje to w sposób losowy

74. Proces uczenia neuronu:

Wi(k+1) = Wi(k) + Wi(k) ← proces uczenia wag neuronu

Do tego potrzeba dobrać wagi i bias (dodatkowe wejście, które ma wartość 1- wykorzystujemy to do obliczeń
przez potencjał membranowy). Proces uczenia powtarzamy literycznie!

1 epoka ucząca to prezentacja pojedynczego nauronu.

75. Uczenie on line → podaje 1 wzorzec uczący, to co dostanie porównuje z tym co chce otrzymać.

Modyfikuje wzorzec. Po prezentacji wzorca musi dokonać modyfikacji wag jeśli wystąpił błąd.

76. Uczenie offline → na czas uczenia (1 epoki) zamrażamy wagi. Zapamiętuje modyfikację wag, gdy minie

epoka robi sumę modyfikowanych wag i wtedy wprowadzam jedną modyfikację.

77. Warunek stopu → 100 epok lub gdy nastąpi nauczenie się nauronu. T=Y

78. Wartości błędu:

Wyszukiwarka

Podobne podstrony:
EKSPLORACJA DANYCH, zagadnienia
EKSPLORACJA DANYCH 9
EKSPLORACJA DANYCH 10
D Hand, H Mannila, P Smyth Eksploracja danych
Algorytmy i struktury danych Zagadnienia do cwiczen
Bazy danych - zagadnienia do zal, IV Semestr, Bazy Danych
Modul 9(Eksploracja danych)
EKSPLORACJA DANYCH 12
Istota i struktury hurtowni danych Zasady eksploracji danych
EKSPLORACJA DANYCH 7
EKSPLORACJA DANYCH 8
EKSPLORACJA DANYCH 11
EKSPLORACJA DANYCH 9
Microsoft SQL Server Modelowanie i eksploracja danych sqlsme
Microsoft SQL Server Modelowanie i eksploracja danych
informatyka microsoft sql server modelowanie i eksploracja danych danuta mendrala ebook

więcej podobnych podstron