28.01.2014 r.
1. Źródła danych → złożenie zapytania
2. Metody eksploracji danych:
•
klasyfikacja
•
grupowanie
•
odkrywanie asocjacji
•
odkrywanie wzorców sekwencji
•
odkrywanie charakterystyk
3. ODKRYWANIE ASOCJACJI ( metoda koszykowa) → Celem procesu odkrywania asocjacji jest znalezienie interesujących zależności lub korelacji, nazwanych ogólnie asocjacjami, pomiędzy danymi w dużych zbiorach danych. Wynikiem procesu odkrywania asocjacji jest zbiór reguł asocjacyjnych opisujących znalezione zależności lub korelacje pomiędzy danymi. Klasyczny problem analizy koszyka zakupów polega na analizie danych zawierających informacje o zakupach zrealizowanych przez klientów supermarketu. Celem takiej analizy jest znalezienie naturalnych wzorców zachowań konsumenckich klientów poprzez analizę produktów (grup produktów), najczęściej kupowanych razem przez klientów supermarketu.
4. Analiza koszyka zakupów → znalezienie naturalnych wzorców zachowań konsumenckich klientów, poprzez analizę produktów, które są przez klientów supermarketu kupowane najczęściej wspólnie. MBA znajduje zastosowanie wszędzie tam, gdzie „klienci” nabywają łącznie pewien zbiór dóbr lub usług.
5. Model koszyka zakupów → Model koszyka zakupów jest pewną abstrakcją umożliwiającą modelowanie relacji wiele-do-wiele pomiędzy encjami „produkty” i „koszyki”.Model koszyka zakupów modelujemy najczęściej w postaci tzw. tablicy obserwacji (Za pomocą tablicy obserwacji można za modelować różne przypadki świata rzeczywistego). Rozwiązanie problemu MBA musi być skalowalne!!
6. Elementy tablicy obserwacji:
•
Atrybuty tablicy reprezentują wystąpienia encji „produkty”
•
Wiersze tablicy reprezentują wystąpienia encji „koszyki”
•
Dodatkowy atrybut TR_id – wartościami atrybutu są identyfikatory poszczególnych obserwacji
•
Pozycja Ti [Aj] = 1 tablicy wskazuje, że i-ta obserwacja zawiera wystąpienie j-tego atrybutu 7. Reguły asocjacyjne:
•
{(Ai1 = 1) …
∧
(A
∧ ik = 1)} → {(Aik+1 = 1) …
∧
(A
∧ ik+l = 1)} => „jeżeli klient kupił produkty Ai1,
Ai2, ..., Aik, to prawdopodobnie kupił również produkty Aik+1, Aik+2, ..., Aik+l”
•
Znalezienie reguły i wniosku – to zbiór reguł asocjacyjnych między którymi zachodzą relacje, można ją przedstawić w równoważnej postaci.
•
WAŻNOŚĆ → sup.
•
UFNOŚĆ → conf.
8. Klasyfikacja reguł zwgl. na :
- typ przetwarzania danych → binarne (dane są zmienne) i ilościowe (dane są ciągłe lub kategoryczne) reguły asocjacyjne
- wymiarowość przetwarzania danych → jednowymiarowe (dane reprezentują tę samą dziedzinę wartości) i wielowymiarowe (dane reprezentują różne dziedziny wartości) reguły asocjacyjne
- stopień abstrakcji przetwarzania danych → jednopoziomowe (ten sam poziom abstrakcji) i wielopoziomowe (różny poziom abstrakcji)
9. ODKRYWANIE BINARNYCH REGUŁ ASOCJACJI → odkrywania silnych jednopoziomowych
jednowymiarowych binarnych reguł asocjacyjnych. Binarną regułą asocjacyjną nazywamy implikację postaci X -> Y, gdzie X I
⊂, Y I
⊂ , i X ∩Y = . Z
∅ biór X nazywamy poprzednikiem reguł natomiast zbiór Y
następnikiem reguły.
10. OGRANICZENIA MIAR → dwie główne miary to :
* minimalne wsparcie → minsup
* minimalna ufność → minconf
Wsparcie jest miarą SYMETRYCZNĄ, bo jeśli zamienimy elementy miejscami wynik będzie taki sam.
Ufność to miara ASYMETRYCZNA.
•
WSPARCIE → nazywać będziemy stosunek liczby obserwacji, które spełniają warunek θ φ
∧ , do liczby
wszystkich obserwacji (wsparcie reguły = prawdopodobieństwu zajścia zdarzenia θ φ
∧ . Określa liczbę
transakcji w analizowanym zbiorze D, które potwierdzają daną regułę.
•
UFNOŚĆ → φ nazywać będziemy stosunek liczby obserwacji, które spełniają warunek θ φ
∧ ,do liczby
obserwacji, które spełniają warunek θ ( ufność reguły = warunkowemu prawdopodobieństwu p (φ|θ).
Ufność reguły określa na ile odkryta reguła asocjacyjna jest "pewna"'.
Istnieją jeszcze inne miary określające ocenę otrzymanych reguł asocjacyjnych, np.: Coviction, Lift oraz Interest 11. Algorytm NAIWNY → odkrywanie zbiorów częstych.
12. Algorytm A-PRIORI → Wykorzystuje własność monotoniczności miary wsparcia do ograniczenia przestrzeni poszukiwań zbiorów częstych. Jest iteracyjny, taki który w kolejnych krokach (iteracjach) znajduje zbiory częste o rozmiarach 1, 2, ..., k. Następnie, w oparciu o zbiory częste jednoelementowe algorytm generuje zbiory kandydujące dwuelementowe,które, potencjalnie mogą być zbiorami częstymi (dla każdego oblicz wsparcie, jeśli zbiór osiągnie minimalne wsparcie to zaliczany jest do dalszej generacji zbiorów). Następnie, zbiory częste trzy-elementowe są wykorzystywane do generacji zbiorów kandydujących cztero-elementowych, itd. Wynikiem działania algorytmu jest suma k-elementowych zbiorów częstych (k=1, 2,...).
13. Kolekcja → ilość zbiorów (w niej mieszczą się zbiory)
14. Zbiór częsty → jest to zbiór, którego wsparcie jest większe od minimalnego wsparcia przez nas założonego. Zbiór częsty nie może zawierać zbiorów nieczęstych. Miara wsparcia wykorzystwana do redukcji przestrzeni poszukiwań zb częstych.
15. Generowanie zbiorów częstych → dodawanie do każdego zbioru częstego kolejno elementy z bazy danych.
16. Własność monotoniczności → wszystkie podzbiory zbioru częstego muszą być częste, innymi słowy jeżeli B jest zbiorem częstym i A B, to A jest równe zb. częstym
17. Generacja zbioru kandydującego → dwa kroki generowania: Połączenie (zbiór Lk1 ze zbiorem Lk2) z następującym warunkiem połączeniowym – pierwszych k-1 elementów musi być identycznych oraz Lk1[k]<Lk2[k]. Gdzie lki[k] oznacza k-ty element zbioru Lki. Odcięcie, polega na usunięciu wszystkich zbiorów kandydujących, które posiadają nieczęste podzbiory.
18. Funkcja Apriori_gen → jest realizowana w dwóch krokach: kroku generacji zbiorów kandydujących oraz kroku usuwania zbiorów kandydujących. W kroku pierwszym, zbiory kandydujące k-elementowe (Ck) są generowane poprzez łączenie zbiorów częstych (k-1)-elementowych (Lk-1). W kroku drugim, ze zbioru Ck są usuwane te zbiory kandydujące, których jakikolwiek podzbiór nie jest zbiorem częstym.
19. Ostatnia faza algorytmu → jest sprawdzenie, które z wygenerowanych reguł spełniają warunek minimalnej ufności minconf. Reguły, których ufność jest mniejsza od minconf są odrzucane.
20. Algorytm FP-Growth → odbywa się w dwóch krokach - Kompresja bazy danych D do FP-drzewa: baza danych D jest kompresowana i przekształcana do postaci tak zwanego FP-drzewa. Eksploracja FP-drzewa: FP-drzewo jest analizowane w celu znalezienia zbiorów częstych.
21. Kompresja baz danych → rozpoczyna się od odczytu bazy danych D w celu znalezienia wszystkich 1-elementowych zbiorów częstych. Następnie, z każdej transakcji Ti należących do bazy danych D, i=1,..., n, są usuwane te elementy, które nie są częste, to jest, nie są 1-elementowymi zbiorami częstymi. W wyniku otrzymujemy zmodyfikowany zbiór transakcji T = T1,T2,..., Tn, zawierających wyłącznie elementy będące 1-elementowymi zbiorami częstymi.
22. FP-drzewo → ukorzeniony, etykietowany w wierzchołkach graf acykliczny (brak cykli). Korzeń grafu posiada etykietę ''null', pozostałe wierzchołki grafu, zarówno wierzchołki wewnętrzne jak i liście, reprezentują1-elementowe zbiory częste.
23. Transformacja FP-drzewa → Tworzymy korzeń FP- drzewa i przypisujemy mu etykietę ''null'.
Następnie, dokonujemy ponownego odczytu bazy danych D i dla pierwszej transakcji T1 należącej do D, tworzymy ścieżkę w FP-drzewie, której początkiem jest korzeń drzewa. Kolejność występowania elementów w posortowanej transakcji odpowiada kolejności wierzchołków w ścieżce reprezentującej daną transakcję. Dla każdego wierzchołka należącego do ścieżki, wartość licznika transakcji jest, początkowo, równa 1. Dla kolejnej transakcji T2 należącej do D tworzymy następną ścieżkę n rozpoczynającą się od korzenia.
24. Eksploracja FP-drzewa → jest eksplorowane w celu znalezienia wszystkich zbiorów częstych. Proces eksploracji FP-drzewo bazuje na obserwacji, że dla każdego 1-elementowego zbioru częstego α, wszystkie częste nadzbiory zbioru α są reprezentowane w FP-drzewie przez ścieżki zawierające wierzchołek (wierzchołki) α
25. Ścieżka prefiksowa → pojedyncza ścieżka, której końcowym wierzchołkiem jest α (alfa) 26. Warunkowa baza wzorcowa → zbiór wszystkich ścieżek prefiksowych
27. Tablica nagłówków elementów (tablica nagłówkowa) → Struktura pełniąca rolę katalogu, która dla każdego elementu wskazuje jego lokalizację w FP-drzewie. Przyspiesza i ułatwia przeszukiwanie FP-drzewa. Jeżeli dany element występuje wielokrotnie w FP-drzewie, wskaźniki do wierzchołków reprezentujących dany element tworzą listę wskaźników
28. klasyfikacja danych DANE WEJŚCIOWE → zbiór treningowy, będący listą wartości atrybutów opisowych i wybranego atrybutu decyzyjnego
29. Dane wyjściowe → model, przydziela każdej krotce wartość atrybutu decyzyjnego w oparciu o wartości pozostałych atrybutów
30. Klasyfikator → służy do predykcji wartości atrybutu decyzyjnego (klasy) krotek, dla których wartość atrybutu decyzyjnego, tj. przydział do klasy, nie jest znany.
31. Etapy budowy klasyfikatorów:
Etap 1 → budowa modelu (klasyfikatora) opisującego predefiniowany zbiór klas danych lub zbiór pojęć Etap 2 → zastosowanie opracowanego modelu do klasyfikacji nowych danych
32. Wynik klasyfikatorów/klasyfikacji:
•
Reguły klasyfikacyjne postaci if - then
•
Formuły logiczne
•
Drzewa decyzyjne
33. Współczynnik dokładności modelu → jest liczony jako procent przykładów testowych poprawnie zaklasyfikowanych przez model. Jeśli dokładność modelu jest akceptowalna, model może być użyty do klasyfikacji przyszłych danych i przewidywania wartości nowych krotek, dla których wartość atrybutu decyzyjnego jest nieznana.
34. Klasyfikacja → Proces klasyfikacji składa się z kilku etapów – budowania modelu, po czym następuje faza testowania oraz predykcji nieznanych wartości. Głównym celem klasyfikacji jest zbudowanie formalnego modelu zwanego klasyfikatorem.
35. Predykcja → modelowanie funkcji ciągłych
36. Kryteria porównawcze metod klasyfikacyjnych:
•
Dokładność predykcji - zdolność modelu do poprawnej predykcji wartości atrybutu decyzyjnego (klasy) nowego przykładu
•
Efektywność - koszt obliczeniowy związany z wygenerowaniem i zastosowaniem klasyfikatora
•
Odporność modelu - zdolność modelu do poprawnej predykcji klas w przypadku braku części danych lub występowania danych zaszumionych
•
Skalowalność - zdolność do konstrukcji klasyfikatora dla dowolnie dużych wolumenów danych
•
Interpretowalność - odnosi się do stopnia w jakim konstrukcja klasyfikatora pozwala na zrozumienie mechanizmu klasyfikacji danych
•
Kryteria dziedzinowo-zależne
37. Metody klasyfikacji:
•
Klasyfikacja poprzez indukcję drzew decyzyjnych
• Klasyfikatory Bayes’owskie
• Sieci Neuronowe
• Analiza statystyczna
• Metaheurystyki (np. algorytmy genetyczne)
• Zbiory przybliżone
• k-NN – k-najbliższe sąsiedztwo
38. Drzewo decyzyjne → Drzewo decyzyjne rekurencyjnie dzieli zbiór treningowy na partycje do momentu, w którym każda partycja zawiera dane należące do jednej klasy, lub, gdy w ramach partycji dominują dane należące do jednej klasy, natomiast rozmiar partycji jest ograniczony.
39. Indeks Gini → popularne kryterium podziału, wykorzystuje algorytm sprint. Podział wariantów.
40. Zysk informacji → W algorytmach tych punktem podziału jest cały atrybut. Problem konstrukcji drzewa decyzyjnego przy użyciu miary zysku informacyjnego może być przedstawiony następująco. Najpierw zostaje wybrany atrybut, który jest korzeniem drzewa decyzyjnego. Dla każdej wartości wybranego atrybutu tworzona jest gałąź w tym drzewie decyzyjnym, z którą będzie związany zbiór rekordów posiadający tą samą wartość wybranego atrybutu. Następnie proces partycjonowania jest powtarzany dla każdej partycji związanej z każdą gałęzią. Jeżeli wszystkie rekordy podanego węzła należą do tej samej klasy, proces partycjonowania jest zakończony, dalszy podział węzłów jest niepotrzebny. Jeżeli nie, wówczas proces partycjonowania zbioru rekordów związany z daną gałęzią jest kontynuowany.
41. Entropia → można ją policzyć dla każdego zbioru. Jeśli entropia ma wartość 0 to jest uporządkowana, gdy rośnie to zbiór jest bardziej chaotyczny i nieuporządkowany. Jeśli po podziale jest ona większa to dobrze bo jest większy zysk
42. Obcinanie drzewa → Przycinanie drzew decyzyjnych – usuwanie mało wiarygodnych gałęzi →
poprawia efektywność klasyfikacji– poprawia zdolność klasyfikatora do klasyfikacji nowych przypadków.
Metody przycinania drzew decyzyjnych – bazują najczęściej na miarach statystycznych (np. MDL) 43. Naiwny klasyfikator Bayesa → jest klasyfikatorem statystycznym - oparty na twierdzeniu Bayesa.
Charakteryzuje się dużą dokładnością i skalowalnością nawet dla bardzo dużych wolumenów danych.
Naiwny klasyfikator Bayes’a zakłada, że wartości atrybutów w klasach są niezależne. Założenie to jest zwane założeniem o niezależności warunkowej klasy. Zadaniem klasyfikatora Bayes’a jest
przyporządkowanie nowego przypadku do jednej z klas decyzyjnych, przy czym zbiór klas decyzyjnych musi być skończony i zdefiniowany.
44. Twierdzenie Bayesa → P(C|X) = (P(X|C) * P(C))/P(X)
•
P(C) oznacza prawdopodobieństwo a-priori wystąpienia klasy C(tj. prawdopodobieństwo, że dowolny przykład należy do klasy C),
•
P(X|C) oznacza prawdopodobieństwo a-posteriori, że X należy do klasy C,
•
P(X) oznacza prawdopodobieństwo a-priori wystąpienia przykładu X
45. Klasyfikator kNN → klasyfikator k-najbliższych sąsiadów. Idea klasyfikacji metodą najbliższych sąsiadów: klasyfikacja nowych przypadków jest realizowana „na bieżąco”, tj. wtedy, gdy pojawia się potrzeba klasyfikacji nowego przypadku. Algorytm kNN nie buduje klasyfikatora. Przykład ze zbioru treningowego - n-wymiarowy wektor reprezentujący punkt w przestrzeni n-wielowymiarowej. Metoda jest bardzo czuła na punkty osobliwe i szum w danych treningowych
46. Funkcje odległości - jeżeli mamy do czynienia z atrybutami liczbowymi, klasyfikatory kNN stosują euklidesową miarę odległości. Stosuje się również inne miary odległości: blokową (Manhattan), Minkowskiego, itd. Bezpośrednie zastosowanie funkcji odległości może spowodować dominację pewnych atrybutów nad pozostałymi.
47. Dokładność klasyfikatora/ów → klasyfikatora na danym zbiorze testowym - procent przykładów testowych poprawnie zaklasyfikowanych przez klasyfikator. Dokładności klasyfikatora nie testujemy na zbiorze treningowym! Zjawisko przetrenowania klasyfikatora oszacowanie dokładności klasyfikatora na danych treningowych będzie zbyt optymistyczne, stąd, zafałszowane. Do oszacowania dokładności klasyfikatora stosujemy niezależny (od zbioru treningowego) zbiór danych – zbiór testowy.
48. Testowanie:
49. Walidacja krzyżowa → podział wszystkich przypadków na niezależne sobie części, każda część użyta k-razy do konstrukcji drzewa i raz do testowania. Procedura powtarza się tyle razy ile mamy części.
50. N-krotna walidacji krzyżowej / kroswalidacja → każda część (podzbiór) jest przykładem, każdy przykład jest testowany ra, są zakwalifikowane ale w zbiorze treningowym w sumie wh nie występują.
Dobry dla małych ilości danych.
51. Reprópkowanie → zwielokrotnienie przykładów, losowanie ze wzracaniem z oryginalnego zbioru.
Przykłady mogą się powtarzać, jedne z nich mogą nie wystąpić (nie był wylosowany) wtedy stają się zbiorem testowym. Wylosowane to zbiór treningowy.
52. Grupowanie danych → proces grupowania obiektów, rzeczywistych bądź abstrakcyjnych, w klasy, nazywane klastrami lub skupieniami, o podobnych cechach. Grupowanie może dotyczyć zarówno obiektów rzeczywistych, jak również obiektów abstrakcyjnych.
53. Klaster → Zbiór obiektów, które są “podobne”. Zbiór obiektów, takich, że odległość pomiędzy dwoma dowolnymi obiektami należącymi do klastra jest mniejsza aniżeli odległość pomiędzy dowolnym obiektem należącym do klastra i dowolnym obiektem nie należącym do tego klastra. Spójny obszar przestrzeni wielowymiarowej, charakteryzujący się dużą gęstością występowania obiektów
54. Zbiór dokumentów → Zbiór punktów w przestrzeni wielowymiarowej, w której pojedynczy wymiar odpowiada jednemu słowu z określonego słownika. Klastry dokumentów odpowiadają grupom
dokumentów dotyczących podobnej tematyki.
55. Zbiór sekwencji stron www → Pojedyncza sekwencja opisuje sekwencję dostępów do stron WWW
danego serwera realizowaną w ramach jednej sesji przez użytkownika. Klastry sekwencji odpowiadają grupom użytkowników danego serwera, którzy realizowali dostęp do tego serwera w podobny sposób.
56. Proces grupowania → jest procesem wieloetapowym i iteracyjnym. Punktem wyjścia jest charakterystyka zbioru grupowanych obiektów. Najczęściej, obiekt jest opisany licznym zbiorem bardzo heterogenicznych atrybutów o różnym stopniu znaczenia. Stąd, pierwszym etapem procesu jest wybór cech (atrybutów), które najlepiej charakteryzują dany typ obiektu. Wybór cech zależy również od celu grupowania.
57. Miary odległości → odległości pomiędzy dwoma obiektami x i y reprezentowanymi przez punkty w przestrzeni wielowymiarowej. Każdy obiekt można traktować jako punkt w k-wymiarowej przestrzeni euklidesowej i za miarę odległości można przyjąć dowolną z tradycyjnych miar stosowanych dla tej przestrzeni. Najpopularniejsze miary odległości punktów w przestrzeni euklidesowej to odległość euklidesowa (tzw. norma L2 => standaryzacja danych), odległość Manhattan (tzw. norma L1 => wartość bezwzględna między atrybutami), maksimum z wymiarów (tzw. norma L ∞ => wartość większa jest istotna), czy odległość Minkowskiego.
58. Zmienne binarne → trzeba skonstruować macierz podobieństwa (lub niepodobieństwa), badamy na ilu pozycjach wystąpiły podobne wartości. Macierz ta pozwala na policzenie podobieństwa. Te które są niepodobne dzielimy przez wszystkie atrybuty (wartości)
59. Zmienne binarne symetryczne → Zmienną binarną nazywamy symetryczną jeżeli obie wartości tej zmiennej posiadają tą samą wagę (np. płeć). Niepodobieństwo pomiędzy obiektami i oraz j jest zdefiniowane następująco: d(i,j) = r+s/q+r+s+t
60. Zmienne binarne asymetryczne → gdy obie wartości tej wartości posiadają różne wagi.
Nieprawdopodobieństwo: d(i,j) = r+s/q+r+s
61. Zmienna kategoryczna → generalizacja zmiennej binarnej, może przyjąć dwie wartości.
Nieprawdopodobieństwo między obiektami.
62. Metody grupowania danych. Typy metod → Istnieje wiele różnych metod i algorytmów grupowania:
– Dla danych liczbowych i/lub danych symbolicznych
– Deterministyczne i probabilistyczne
– Rozłączne i przecinające się
– Hierarchiczne i płaskie
– Monoteiczny i politeiczny
– Przyrostowe i nieprzyrostowe
63. Metody hierarchiczne → generują zagnieżdżoną sekwencję podziałów zbiorów obiektów w procesie grupowania. Sekwencja operacji grupowania tworzy tak zwane drzewo klastrów, nazywane
dendrogramem. Dwa podejścia po tego podziału:
•
podziałowe → zakładamy, że każdy każdy obiekt jest klastrem; następnie, w kolejnych iteracjach, klaster jest dzielony na mniejsze klastry, które, z kolei, dzielone są na kolejne mniejsze klastry.
•
aglomeracyjne → początkowo, każdy obiekt stanowi osobny klaster, następnie, w kolejnych iteracjach, klastry są łączone w większe klastry
Użytkownik decyduje o ilości klastrów.
64. Miara odległości między klastrami – podobieństwo
•
minimalna odległość – min. odległość między obiektami w klastrze
•
maksymalna odległość – max, odległości między obiektami w klastrze
•
odległość średnia – średnia dwóch klastrów
•
średnia odległość – wszystkie odległości dzielone na połączenia wszystkich obiektów w klastrach 65. Algorytm aglomeracyjny → schemat łączenia. Łączymy najbardziej podobne do siebie. Macierz niepodobieństwa się zmienia.
66. Metody interacyjno-optymalizacyjne → generują tylko jeden podział (partycję) zbioru obiektów w dowolnym momencie procesu grupowania. Tworzą jeden podział zbioru obiektów (partycję) w miejsce hierarchicznej struktury podziałów, jak ma to miejsce w przypadku algorytmów hierarchicznych. Idea podejścia jest następująca: tworzony jest początkowy podział obiektów (zbiór klastrów k), a następnie, stosując technikę iteracyjnej realokacji obiektów pomiędzy klastrami, podział ten jest modyfikowany w taki sposób, aby uzyskać poprawę podziału zbioru obiektów pomiędzy klastry. Przenoszenie z klastra do klastra by poprawić funkcję kryterialną.
67. Funkcje kryterialne →
•
notacja
•
aspekty grupowania – klasy powinny być zwarte, maxymalne rozłożenie
•
odchylenie wewnątrzklastrowe (wc) – suma odległości odchyleń wewnątrz klastra
•
odchylenie międzyklastrowe (bc) – suma odległości wszystkich do kwadratu między środkami klastrów
•
średnia klastra – środek klastra
68. Grupowanie optymalizacyjno-literacyjne → by znaleźć optimum należy przejrzeć wszystkie możliwe podziały C obiektów na k klastrów i wybieramy ten, który optymalizuje funkcję kryterialną. Możemy do tego wykorzystać tzw. algorytm zachłanny/algorytm k-medoidów (szukanie mediany w klastrze) 69. Algorytm zachłanny → losowo wybierany jest początkowy podział zbioru obiektów na k klastrów, a następnie, stosując technikę iteracyjnej realokacji obiektów pomiędzy klastrami, początkowy podział jest modyfikowany w taki sposób, aby uzyskać poprawę funkcji kryterialnej aż do osiągnięcia warunku stopu.
70. Algorytm k-średnich → Algorytm składa się z 3 kroków. W kroku pierwszym, wybieranych jest losowo k obiektów jako początkowe środki k klastrów. W kroku drugim, obiekty alokowane są do klastrów.
Każdy obiekt jest przydzielany do tego klastra, dla którego odległość obiektu od środka klastra jest najmniejsza. Następnie, po alokacji obiektów do klastrów, uaktualniane są wartości średnie klastrów (środki klastrów) i ponownie wracamy do kroku alokacji obiektów do klastrów. Proces realokacji obiektów i uaktualniania średnich klastrów jest powtarzany tak długo, jak długo występują zmiany przydziału obiektów do klastrów.
71. Sztuczne sieci neuronowe → jest to próba zbudowania sztucznego mózgu. Neuron jako uproszczony model matematyczny.
72. Strojenie sieci neuronowej → do tej procedury potrzebne są dane historyczne (testowe).
73. Inicjowanie wag – następuje to w sposób losowy
74. Proces uczenia neuronu:
Wi(k+1) = Wi(k) + Wi(k) ← proces uczenia wag neuronu
Do tego potrzeba dobrać wagi i bias (dodatkowe wejście, które ma wartość 1- wykorzystujemy to do obliczeń przez potencjał membranowy). Proces uczenia powtarzamy literycznie!
1 epoka ucząca to prezentacja pojedynczego nauronu.
75. Uczenie on line → podaje 1 wzorzec uczący, to co dostanie porównuje z tym co chce otrzymać.
Modyfikuje wzorzec. Po prezentacji wzorca musi dokonać modyfikacji wag jeśli wystąpił błąd.
76. Uczenie offline → na czas uczenia (1 epoki) zamrażamy wagi. Zapamiętuje modyfikację wag, gdy minie epoka robi sumę modyfikowanych wag i wtedy wprowadzam jedną modyfikację.
77. Warunek stopu → 100 epok lub gdy nastąpi nauczenie się nauronu. T=Y
78. Wartości błędu: