Algorytmy Ekslporacji Danych wykład 1, ALGORYTMY


Laboratoria zaliczenie dobre - zalicza wykład

xir.wi.ps.pl - zadania na laboratoria

Kilka pojęć:

GROMADZENIE DANYCH

Dawno Dawno temu:

Współcześnie:

Zbiór danych

Tabela z danymi - formalnie para (U,A)

Ważne odstępstwa od schematu (U,a)

Zbiór danych a próba losowa

i.i.d szczególny ale dość częsty przypadek danych ( ang independent and identically-distributed)

stacjonarność rozumiana jako niezależność rozkładu od czasu

niestacjonarność zależność rozkładu od historii i czasu

probki ależne proces losowy , szereg czasowy, strumień danych

Problemy z danymi

Wnioski

Małe i duży zbiory danych

Mały - zbiór danych mieści się w pamięci operacyjnej komputera

Duży - zbiór danych niemiejcie się w całości w pamięci operacyjnej

Mały - wybrany algorytm eksploracji wykonuje się szybko

Duży - wybrany algorytm eksploracji wykonuje się wolno

W jaki sposób aliczymy średnia

0x01 graphic

0x01 graphic

0x01 graphic
[wyszukać w necie ] najefektywniejszy sposób liczenia danych przy dużej ilości danych dla algorytmów eksploracji

Narzędzia analizy danych

Matlab Optimization Toolbox, Neutral Network Toolbar, Bayes Network

Komponenty zadania eksploracji danych

Rodzaje zadań eksploracji danych

Identyfikacja rozkładu podstawowe zdanie statystyki

Klasyfikacja przyporządkowanie obiektu do jednej z klas decyzyjnych

Regresja prognozowanie wartości zmiennej ciągłej

Wyszukiwanie reguł i wzorców wyszukiwanie zależności/ warunkowych zależności w danych

Selekcja i ekstrakcja atrybutów

Klasteryzacja podział zbioru danych na grupy obiektów podobnych

Struktura modelu - przykłady

Funkcje oceny

Błąd średniokwadratowy ocena modelu liniowego jak i i nnych

Dokładność klasyfikacji miara jakości klasyfikatora

Błąd kwantyzacji mierzy jakość grupowania danych

BIC miara uwzględnia złożoność modelu

Metody przeszukiwana - przykłady

Programowania kwadratowe bez lub z ograniczeniami ( metoda najmniejszych kwadratów, SVM)

metody gradientowe ( sieci neuronowe, regresja logistyczna)

Przeszukiwanie wszerz / w głąb ( z przcinaniem) ( wyszukiwanie reguł i wzorców)

Przeszukiwanie zachłanne z wykorzystaniem heurystyki (drzewa decyzyjne )

PRZETWARZANIE WSTEPNE I WIZUALIZACJA

Rozkład normalny

Jednowymiarowy - funkcja gęstości

0x01 graphic

Wielowymiarowy - funkcja gęstość

\0x01 graphic
(dokończyć)

Zadania

Normalizacja

Zachowująca zero

0x01 graphic

Skalowanie

0x01 graphic

Standaryzacja zmiennej ( z- score)

0x01 graphic

Standaryzacja wektorowa

Dyskretyzacja

Zastąpienie atrybutu ciąglłęgo atrybutem dyskretnym (przyjmującym skończoną liczbę wartości )niosącym zbliżoną informacje do oryginału. Wyróżniami zasadniczo dwa podejścia do dyskretyzacji

Bez nadzoru uwzględniana jes t jedynie informacja rozkładzie dyskretyzowanego atrybutu

Nadzorowane uwzględniana jest informacja o rozkładzie łąćznum atrybutu dyskretyzowanego i decyzji

Binaryzacja

Zastąpienie atrybutu dyskretnego - przyjmującego m wartości m atrybutami binarnymi, jedynkującemu się dla odpowiednich wartości

Color green red blue

Green 1 0 0

Red 0 1 0

Red 0 1 0

Green 1 0 0

Blue 0 0 1

Analiza składowych głównych

Technika rzutowania zbioru dancyh lub zmiany układu odniesienia w ten sposób aby:

Zastosowania:

Przypomnienie

Dla macierzy symetrycznej można napisać rozkład spektralny postaci

A=P∆PT=Lambda1 * P1T

Analiza składowych głównych

0x08 graphic

Zatem szukamy takiego a który maksymalizje

Wprowadzając mnożnik Lagrange'a dostajemy problem optymalizacji bez ograniczeń

L(a, lambda)=aTcov(X)a - lambada(aTa-1)

Różniczkujemy po a dostajemy

0x01 graphic

Zatem musi być det(cov(X)- 0x01 graphic
II) =0 oraz 0x01 graphic
jest największą liczbą spełniającą to równanie

Eig(A) !!!

Odległości Mahalanobis'a

Odległości pomiędzy próbkami

Manhattan

0x01 graphic

Euklidesowa

0x01 graphic

Mahalanobisa - lepsze wyniki np przy klasteryzacji

0x01 graphic

Odległość Hamminga - nie wszystkie wyniki da się policzyć metodą MAhalanobisa

0x01 graphic
(uzupełnić)

Braki w danych

Brak wartości wybranych atrybutów dla pewnej liczby obiektów. Rodzaje braków:

Braki losowe - rozkład braków w danym atrybucie jest niezależny od wartości atrybutu oraz pozostałych atrybutów

Braki nielosowe - rozkład braków w danym atrybucie jest zależny od wartości atrybutu lub pozostałych atrybutów. ( przekroczenie skali pomiarowej przyrządu, prawdopodobieństwo niepodania wielkości zarobków zależy od ich wysokości)

Sposoby radzenia sobie z brakami

Selekcja atrybutów

Wybór atrybutów skorelowanych ze zmienną decyzyjną - umożliwiający tak dokładne przewidywanie zmiennej decyzyjnej jak pełen zbiór atrybutów. Usunięcie zmiennych bez znaczenia dla podejmowanej decyzji

0x01 graphic



Wyszukiwarka

Podobne podstrony:
Algorytmy i struktury danych Wykład 1 Reprezentacja informacji w komputerze
Algorytmy i struktury danych Wykład 3 i 4 Tablice, rekordy i zbiory
Algorytmy i struktury danych Wykład 2 Typ danych,Proste typy danych
Algorytmy i struktury danych Wykład 8 Języki programowania
Algorytmy i Struktury Danych Wykład
Algorytmy i struktury danych Wykład 9 Metody algorytmiczne
Algorytmy i struktury danych Wykład 1 Reprezentacja informacji w komputerze
Algorytmy i struktury danych Wykład 3 i 4 Tablice, rekordy i zbiory
Bazy Danych, STUDIA, SEMESTR III, Bazy Danych, Wykład
bazy danych wyklad1 id 81713 Nieznany (2)
WYKLAD I - wprowadzenie modele baz danych, Uczelnia, sem V, bazy danych, wyklad Rudnik
Projektowanie baz danych Wykłady Sem 5, pbd 2006.01.07 wykład03, Podstawy projektowania
Bazy Danych wykład
podstawy relacyjnych baz danych wyklad cz1 architektura
pierwsza czesc wykladu, SiMR, Inżynierskie Bazy Danych, IBD 2koło, od żółwia, od żółwia, Bazy danych
Bazy Danych wyklady sem III, POLITECHNIKA ŚLĄSKA Wydział Mechaniczny-Technologiczny - MiBM POLSL, Se
pakiety, Studia PŚK informatyka, Semestr 4, Bazy Danych 2, Wyklady 2011
podstawy relacyjnych baz danych wyklad cz3 projektowanie

więcej podobnych podstron