Opracowanie do egzaminu — kopia

Part 1.

Miara wsparcia.

Mamy regułę, na zasadzie: jeśli wystąpi A to wystąpi też B. Koniunkcja- wynikanie. [A->B].

Jeśli mamy zestawy typu ABCD/ADB/ADDA/ADDD. To sprawdzamy w których sytuacjach prawdą jest iż jeśli wystąpiło A to wystąpiło też B.

Mamy tu sytuację wystąpienia tej koniunkcji 2 razy, spośród 4ch. Zatem wsparcie to 2/4 = 50%.

Miara ufności

Jeśli jest poprzednik to jaka jest szansa na następnik. [A->B] Jeśli jest A to jaka szansa na B.

Mamy zestawy ACB/AEFB/TYOP/AX/.

W tych zestawach, 2 spełniają pełną koniunkcję czyli ACB/AEFB. Dodatkowo jedne spełnia poprzednik: AX.

Teraz w sumie mamy 3 zestawy. Pytanie brzmi jaką ilość spośród tych 3 zestawów stanowią te które spełniają koniunkcję. 2/3 = 66,{6} %.

Reguła silna – Taka dla której ufność lub wsparcie jest większe od zadanego progu minimalnego.

Naiwny algorytm

Nie nadaje się do dużych zbiorów. Liczba podzbiorów to (2^n)-1, gdzie N to elementy zbioru.
Uwaga! Jeśli mamy. ABC i sprawdzamy ufność AC. To dla ABC jest 0. Nie ma tej samej kolejności liter.

Reguły asocjacyjne ( X jest podzbiorem Y )

Algorytm Apriori

Jeśli zbiór jest częsty (55-58) to jego pozdbiory też są częste.

Jeśli zbiór nie jest częsty (59-61, od piel ) to jego nadzbiory też są nieczęste.

Reguła wielowymiarowa- dane występujące w regule reprezentują różne dziedziny wartości(np. Id, wiek, płeć, dochód )

Binaryzacja danych (83) . Jeśli mamy np. wiek to tworzymy przedziały (dysretyzacja)

W przypadku np. kolorów to każdy kolor jest osobnym atrybutem

Dyskretyzacja statyczna- przedziały mają równą szerokość/gęstość Np.:

Równy zakres dla zarobku [0-200] [201-400].
Gęstość- [11,30,40] [ 45,10,300] Po tyle samo elementów.

Dyskretyzacja dynamiczna­- rozkład wartości atrybutu.

Part 2

Klasyfikacja- Znalezienie zbioru danych –funkcji klasyfikacji-(deskryptorów/atrybutów opisowych) które odwzorowują każdy rekord w klasę(etykieta klasy/atrybut decyzyjny)

Deskryptor: Łysy, powolny, podparty, zmęczony, stary

Klasa: staruszek

Funkcja klasyfikacji­- służy do przewidywania atrybutów decyzyjnych. Podaje się zbiór uczący i sprawdza na testowym.

Kiedy przestać dzielić:

ID3- atrybuty opisowe muszą być nominalne, podział zawsze grupuje przykład wg. Wartości atrybutu (np. wzrost: rozgałęzia się na „niski, wysoki”. Do wyboru atrybutu stosuje się miarę zysku informacyjnego.

Liczymy outlok wg. play(klasy).

Entropia- miara stanu nieuporządkowania układu. Entropia rośnie gdy podział jest równy np. 2x A 2x B. Daje entropie 1. AAAA Entropia 0. AAAB ~0,25

Przeuczenie klasyfikatora:

Klasyfikator Bayesa: Przydziela obiektowi najbardziej prawdopodobną klasę.

Miary odległości kNN:

Współczynnik Jaccarda- oblicza prawdopodobieństwo między obiektami binarnymi

Odległość Hamminga- oblicza prawdopodobieństwo między obiektami nominalnymi

Używanie funkcji na bezpośrednich danych może powodować przekłamania. Nie wszystkie atrybuty mają taką samą skalę. Np. Temp Ciała i miesięczne zarobki. Trzeba nadać wagi, standaryzować wartości atrybutów.

Mapowanie atrybutów porządkowych: niski= 0 / średni=1/ Duży=2/ Gigant=3

Normalizacja atrybutów porządkowych-np: mamy oceny:

Odległość między obiektami liczbowymi(Normalizowanymi !!): np. porównujemy średnie ocen które normalizowaliśmy na str. 149. Porównujemy ocenę 1 z 3. To odejmujemy te wartość od siebie. Od 1ej odejmujemy 3ą.
W przypadku wartości mapowanych- Wartość bezwzgl. Z różnicy wartości. Dzielone, przez (ilość mapowanych wartości)-1.

Gdy już poobliczamy prawdopodobieństwa i odległości różnych wartości:

Ocena Jakości klasyfikatorów: podaje się zbiór uczący i testujący. Klasyfikator buduje się z uczącego a testującym sprawdza się poprawność. Wynikiem testu jest macierz pomyłek.

Macierz pomyłek: przedstawia w jaki sposób faktycznie zaklasyfikowano dane klasy

Preccision / F-means/ recall:

Walidacja skrośna- ocenia algorytm klasyfikacji i jego parametry. Dzielimy zbiór danych na kilka części, z reguły (10). Wybieramy 1n element który będzie testujący. Pozostałymi częściami uczymy i budujemy klasyfikator. Sprawdzamy zbiorem testującym. Powtarzamy to dal wszystkim elementów.

Part 3

Grupowanie-zbiór obiektów o podobnych cechach

Podobne-odległość dwóch dowolnych obiektów klastra jest < od dowolnego obiektu w klastrze i dowolnego obiektu poza klastrem.

Proces grupowania:

Miary odległości: bardzo często są to metryki (Minkowskiego);

STR 224-244; + dodatkowe materiały;

Grupowanie AHC

1 21 42
2 32 2
3 21 2
4 56 1
1 2 3 4
1 0 1.3=pierw.2(21-21)^2+(42-2)^2
2 0 Itp.
3 0
4 0

K-Means

Najpierw ustalamy na ile grup będziemy dzielić, wybieramy jakieś losowe :K ( 1-5 np. )

Wybieramy jakieś początkowe środki grup, np. punkty o zadanych współrzędnych.

Odległość punktów w układzie współrzędnych:


Nowe środki obliczy na zasadzie

(1/n)*(E(x,y)

[gdzie n, to liczba lepszych dopasowani, np. 4 wyniki są lepsze w rzędzie]

[E(x,y) to suma współrzędnych tych punktów które mają lepsze dopasowanie]

Przy czym w każdej kolumnie wybieram [n] takie które jest najlepsze ze wszystkich rzędów.


Wyszukiwarka

Podobne podstrony:
J. Sławiński Odbiór i odbiorca w procesie historycznoliterackim, Teoria Literatury, TEORIA LITERATUR
J. Sławiński O problemach „sztuki interpretacji”, Teoria Literatury, TEORIA LITERATURY - opracowania
Opracowanie pytań na surowce cz. 7, Technologia Chemiczna, sem V, surowce, opracowania do egzaminu
Opracowanie do egzaminu anatomia część I
opracowanie do egzaminu z osobowosci
Teoria kultury- opracowanie do egzaminu, kulturoznawstwo, III SEMESTR, teoria kultury II
Odtwarzalne, Technologia Chemiczna, sem V, surowce, opracowania do egzaminu
Odpady, Technologia Chemiczna, sem V, surowce, opracowania do egzaminu
opracowania do egzaminu
Makro, Blacha opracowanie do egzaminu
Makro, Blacha opracowanie do egzaminu
Opracowanie do egzaminu
psychologia sciąga, opracowania do egzaminu
Wegiel, Technologia Chemiczna, sem V, surowce, opracowania do egzaminu

więcej podobnych podstron