plik


ÿþPrzemysBaw WBodarczyk Wizualizacja danych Praca magisterska pod kierunkiem prof. WBodzisBawa Ducha WydziaB Matematyki i Informatyki Uniwersytet MikoBaja Kopernika, ToruD 2007 Spis tre[ci 1.Wstp...................................................................................................................................4 2. Eksploracyjna Analiza Danych (EDA)..............................................................................6 2.1. Wprowadzenie.............................................................................................................6 2.2. Metody graficzne.........................................................................................................9 2.2.1. Wykresy jednej zmiennej..................................................................................9 2.2.2. Rzut na dwie wspóBrzdne...............................................................................12 2.2.3. Metody u|ywajce koloru i odcieni.................................................................14 2.2.4. Metody korzystajce z osi gwiazdowych (radarowych)..................................16 2.2.5. Metody wykorzystujce osie wspóBrzdnych..................................................17 2.2.6. Wykresy wykorzystujce predyspozycje czBowieka.......................................18 2.2.7. Podsumowanie metod graficznych..................................................................19 3. Problem danych wielowymiarowych...............................................................................21 3.1. Psychologiczne podstawy wizualizacji danych.........................................................21 3.2.Redukcja wymiarowo[ci ............................................................................................22 3.2.1. Analiza GBównych SkBadowych (PCA)...........................................................23 3.2.2. Liniowa Analiza Dyskryminacyjna (LDA) oraz Analiza Dyskryminacyjna Fishera (FDA)..................................................................................................26 3.2.3. Analiza SkBadowych Niezale|nych.................................................................28 3.2.4. Filtry cech........................................................................................................29 2 4. Zaimplementowany pakiet metod wizualizacji................................................................31 4.1. Struktura aplikacji......................................................................................................31 4.1.1. Podstawowe informacje o zbiorze danych......................................................32 4.1.2. Statystyki cech.................................................................................................33 4.1.3. Zbiór danych przedstawiony za pomoc wspóBrzdnych równolegBych.........35 4.1.4. Rzutowanie danych na dwa wymiary..............................................................38 4.1.5. Histogramy......................................................................................................41 4.1.6. Macierz wykresów rozproszonych..................................................................46 4.1.7. Wizualizator cech nieuporzdkowanych........................................................48 5. Podsumowanie..................................................................................................................53 Spis ilustracji........................................................................................................................55 Bibliografia...........................................................................................................................57 3 1. Wstp Eksploracja danych (ang. data mining) to jeden z etapów procesu odkrywania wiedzy z baz danych. Obszary jej zastosowania obejmuj miejsca, w których stosuje si systemy informatyczne gromadzce pozyskane dane w postaci baz. Jak wiadomo bazy danych charakteryzuj si du| prostot konstrukcji co powoduje, |e znajduj zastosowanie prawie we wszystkich dziedzinach |ycia. Oczywi[cie kolejnym powodem ich tworzenia jest potrzeba skBadowania danych takich jak: dane klientów w firmach, dane pacjentów w szpitalach, wyniki badaD , do[wiadczeD, dane towarów produkowanych bdz sprzedawanych lub jakiekolwiek inne informacje. Natomiast wszdzie tam, gdzie zostaBa ju| utworzona taka baza, pojawia si potrzeba analizy zgromadzonych w niej danych w celu odkrycia nieznanej dotd wiedzy, takiej jak np. okre[lenie grupy klientów do jakich trafiaj produkty firmy, stworzenie dBugoterminowej prognozy pogody itp. Istnieje wiele technik eksploracji danych, i wBa[nie jedn z nich jest tytuBowa wizualizacja. Celem wizualizacji danych jest pokazanie posiadanych informacji w sposób pozwalajcy na ich dokBadne i efektywne zrozumienie oraz analiz. Dzieje si tak dlatego poniewa| ludzie dobrze  skanuj , rozpoznaj i zapamituj przedstawione im obrazy (ksztaBt, dBugo[, budowa itp.). Dziki wizualizacji mo|emy Bczy wielkie zbiory danych i 4 pokaza wszystkie informacje jednocze[nie, co znacznie uBatwia analiz. Mo|emy równie| stosowa porównania wizualne, dziki którym du|o Batwiej stwierdzi wiele faktów. Kolejn zalet jest mo|liwo[ analizy danych na kilku poziomach szczegóBowo[ci. Z wizualizacj mamy do czynienia na ka|dym kroku naszego |ycia. Reprezentacja graficzna jest u|ywana w telewizji, w prasie i w ka|dym innym zródle informacji (wyBczajc stacje radiowe), gdy tylko mamy do czynienia z danymi numerycznymi. Wizualizacja jest niezbdna gdy chcemy: pokaza kurs pewnej waluty na przeBomie okre[lonego czasu (wykres liniowy), wyniki wyborów (histogramy) lub chocia|by prognoz pogody. Jednak nie s to jedyne przykBady reprezentacji graficznej danych. Mo|e ona sBu|y nie tylko uBatwieniu dostrze|enia pewnych wBasno[ci, lecz wrcz ich odkryciu. Dotyczy to przede wszystkim wielkich zbiorów danych, które s kompletowane przez wiele lat na rzecz pózniejszych badaD. WBa[nie w takim celu tworzone s narzdzia do wizualizacji danych w aplikacjach typu GhostMiner lub Yale. 5 2. Eksploracyjna Analiza Danych (EDA) 2.1. Wprowadzenie Eksploracyjna Analiza Danych (EDA  Exploratory Data Analysis) wykorzystuje ró|nego rodzaju techniki (przede wszystkim graficzne) w celu: odkrycia istotnych zmiennych, szumu danych, struktury danych, przetestowania podstawowych zaBo|eD. Jednak nie chodzi tylko o zbiór technik. EDA przede wszystkim oznacza inne podej[cie do analizy danych. W porównaniu do analizy klasycznej: problem => dane => model => analiza => wnioski, oraz analizy Bayes owskiej: problem => dane => model => rozkBad danych => analiza => wnioski, kolejno[ postpowania w EDA jest nastpujca: problem => dane => analiza => model => wnioski. Jak wida ka|de z wy|ej wymienionych podej[ do analizy danych zaczyna si od jakiego[ naukowego bdz technicznego problemu, a koDczy si na odpowiednich wnioskach. Jednak bardzo istotne s kroki po[rednie. W podej[ciu klasycznym oraz Bayes owkim narzucany jest pewien model danych, a ich analiza oparta jest o ten model. EDA nie zakBada |adnego, lecz skupia si na strukturze danych i pozwala im  zasugerowa jaki model bdzie dla nich najlepszy. Techniki skBadajce si na podej[cie klasyczne s mocno 6 sformalizowane, podczas gdy EDA oferuje metody, których wyniki s zale|ne od interpretacji osoby (ka|dy analityk mo|e wycign inne wnioski). W podej[ciu klasycznym dane zazwyczaj reprezentuje kilka liczb, które z jednej strony opisuj wa|ne warto[ci takie jak wariancja , ale z drugiej strony koncentrujc si tylko na nich (mo|emy pomin inne, równie istotne). EDA oferuje techniki, które czsto wykorzystuj wszystkie dostpne dane. Testy, które bazuj na technikach klasycznych s bardzo wra|liwe na poczynione zaBo|enia, a prawdziwo[ wyników zale|y od prawdziwo[ci zaBo|eD. Czsto zaBo|enia te s nieznane lub nie zostaBy przetestowane, wtedy ci|ko okre[li czy test daje dobre wyniki. Wikszo[ technik EDA nie czyni |adnych zaBo|eD, tylko przedstawia wszystkie dane w niezmienionej postaci, co pozwala unikn wielu bBdów (zaBo|enie o modelu, przykBad poni|ej). EDA opiera si na metodach graficznych, poniewa| s one najkrótsz drog do odkrycia modelu, danych, korelacji bdz szumu. Wezmy na przykBad cztery zbiory: Zbiór 1 Zbiór 2 Zbiór 3 Zbiór 4 X1 Y1 X2 Y2 X3 Y3 X4 Y4 10.00 8.04 10.00 9.14 10.00 7.46 8.00 6.58 8.00 6.95 8.00 8.14 8.00 6.77 8.00 5.76 13.00 7.58 13.00 8.74 13.00 12.74 8.00 7.71 9.00 8.81 9.00 8.77 9.00 7.11 8.00 8.84 11.00 8.33 11.00 9.26 11.00 7.81 8.00 8.47 14.00 9.96 14.00 8.10 14.00 8.84 8.00 7.04 6.00 7.24 6.00 6.13 6.00 6.08 8.00 5.25 4.00 4.26 4.00 3.10 4.00 5.39 19.00 12.50 12.00 10.84 12.00 9.13 12.00 8.15 8.00 5.56 7.00 4.82 7.00 7.26 7.00 6.42 8.00 7.91 5.00 5.68 5.00 4.74 5.00 5.73 8.00 6.89 7 Nastpnie obliczamy dla nich ilo[ próbek, warto[ [redni X, warto[ [redni Y, korelacj oraz dopasowujemy funkcje liniowe postaci Y = aX +b (zakBadany model). Dla ka|dego zbioru mamy: N = 11 Warto[ [rednia X = 9.0 Warto[ [rednia Y = 9.0 a = 0.5 b = 3 Korelacja = 0.816 (zbiór 4 0.817) U|ywajc zwykBych metod statystycznych mo|emy zaBo|y, |e zbiory te s bardzo do siebie podobne (a nawet takie same). Jednak gdy przeanalizujemy wszystkie dane i dla ka|dego z nich stworzymy wykres rozproszony (rys. 2. 1) wówczas mo|emy stwierdzi |e: 2.1 Wykresy rozproszone przedstawiajce cztery zbiory 8 Pierwszy zbiór jest liniowy z delikatnym rozproszeniem, drugi jest kwadratowy, trzeci ma jednego  wyrzutka (ang. outlier), a czwarty jest sBabo zaprojektowany, z jednym punktem mocno oddalonym od wikszo[ci. Statystyka ilo[ciowa w tym przypadku nie jest bBdna, ale jest niekompletna. Wynika to z zaBo|enia liniowo[ci modelu danych. Dopiero dziki metodom EDA mo|emy dostrzec prawdziwe struktury zbiorów. 2.2. Metody graficzne EDA charakteryzuje du|y nacisk na metody graficzne, co pozwala na lepszy wgld w dane. Technik wizualizacyjnych jest wiele i nie sposób wszystkie opisa, dlatego skupimy si na opisaniu najbardziej istotnych w kontek[cie dalszej pracy. Ze wzgldu na du| ró|norodno[ metod graficznych mo|na wprowadzi pewn ich klasyfikacj. ZakBadamy, |e ka|dy z u|ytych zbiorów danych skBada si z wektorów o takiej samej ilo[ci cech, gdzie jedn z cech wektora mo|e by numer, bdz nazwa klasy, do której on nale|y. 2.2.1. Wykresy jednej zmiennej S to metody, które pozwalaj na wizualizacj jednej cechy (dwóch liczc uwzgldnienie klasy na wykresie np. przez kolor). Dziki nim mo|emy obejrze rozkBad cechy, warto[ci [rednie, odchylenie standardowe itp.. Zaliczamy do nich m.in. wykresy pudeBkowe oraz histogramy. Histogramy s narzdziem, dziki któremu mo|emy graficznie odtworzy rozkBad danej 9 cechy. Poza tym pozwalaj one równie| dostrzec rozpito[, sko[no[ oraz szum danych. Czsto podczas tworzenia histogramów wprowadza si podziaB na klasy (rys. 2.2). 2.2 Histogram przedstawiajcy rozkBad dBugo[ci gatunków ryb z zaznaczon optymaln granic podziaBu Aby stworzy histogram musimy najpierw okre[li ilo[ n oraz wielko[ poszczególnych przedziaBów (zazwyczaj wielko[ci s sobie równe). ZakBadajc n = 20 wielko[ jednego przedziaBu wynosi: "=(xmax-xmin)/n (2.1) Nastpnie okre[lamy kolejne przedziaBy: ri=[xmin+(i-1)", xmin+i"], gdzie i=1...n (2.2) Oraz obliczamy ile wektorów do nich  wpada (sprawdzamy do jakiego przedziaBu nale|y okre[lona cecha poszczególnych wektorów). Reprezentacja graficzna powstaje poprzez zaznaczenie ilo[ci przypadków na osi pionowej, a na osi poziomej odpowiadajcej im warto[ci (przedziaBu). 10 Mo|na te| tworzy histogramy, w których przedziaBy s równej, nie szeroko[ci, a wysoko[ci. Oznacza to, |e ka|dym z nich musi znalez si równa ilo[ wektorów. W tym wypadku dzielimy ilo[ próbek na n cz[ci i odpowiednio dobieramy wielko[ci przedziaBów. Metoda ta nie pozwala jednak ujawni wa|nych wBasno[ci danych i w kontek[cie analizy danych ma niewielkie zastosowanie. Istniej tak|e histogramy dwuwymiarowe przedstawiane w trzech wymiarach (odnosz si one do dwóch cech). W celu pokazania statystyk takich jak warto[ [rednia, maksymalna, minimalna, bdz odchylenie standardowe warto zastosowa wykresy pudeBkowe (rys. 2.3). 2.3 Wykres pudeBkowy WedBug definicji lewy bok pudeBka powinien wyznacza wielko[ pierwszego kwartyla (wielko[ cechy, do której znajduje si 25% wszystkich obserwacji  w naszym przypadku wektorów), prawy wielko[ trzeciego kwartyla (75% obserwacji) oraz dodatkowo powinna by zaznaczona mediana (50% obserwacji). Jednak ze wzgldu na okre[lone zastosowanie wykresy pudeBkowe mo|na stworzy w nastpujcy sposób: zaznaczamy warto[ najmniejsz, najwiksz oraz [redni, a wielko[ pudeBka jest okre[lona przez odchylenie standardowe (przy czym [rodek pudeBka to warto[ [rednia). Mo|na oczywi[cie zestawi 11 kilka takich wykresów. Zestawienie takie mo|e sBu|y do wstpnej analizy, która pozwoli nam stwierdzi zakres warto[ci poszczególnych cech, okre[li wielko[ ich wariancji (kwadrat odchylenia standardowego) itd. 2.2.2. Rzuty na dwie wspóBrzdne Do tej grupy zaliczamy metody, które pozwalaj pokaza jednocze[nie dwie wspóBrzdne. Techniki te umo|liwiaj odkrycie zwizków midzy cechami (np. korelacja). Wykresy rozproszone (ang. scatterplot) s podstawowym narzdziem, które rzutuje dane na dwie wspóBrzdne. Ich analiza powinna odbywa si pod ktem odkrycia korelacji midzy poszczególnymi cechami oraz klasteryzacji danych. Wykresy rozproszone s tworzone poprzez zaznaczanie kolejnych punktów danych w przestrzeni dwuwymiarowej. Warto[ wspóBrzdnej X odnosi si do pierwszej cechy, a Y do drugiej. Czsto mamy do czynienia z danymi podzielonymi na klasy (rys. 2.4). 2.4 Wykres rozproszony na podstawie danych  Iris Plants Database 12 W powy|szym przypadku o[ pionowa odpowiada szeroko[ci li[cia, a o[ pozioma dBugo[ci li[cia. Aatwo zauwa|y, i| wybór tych dwóch cech dobrze oddziela klas Iris Setosa od dwóch pozostaBych. Dziki wykresom rozproszonym Batwo mo|emy okre[li, które pary cechy s redundantne. Umo|liwiaj one równie| znalezienie, jak w powy|szym przypadku, pary cech, która pozwala na okre[lenie klasy wektora. GBówn wad wykresów rozproszonych jest nakBadanie si punktów, gdy mamy do czynienia z cechami dyskretnymi. Gdy mamy do czynienia z du|ymi zbiorami danych mo|emy stworzy macierz wykresów rozproszonych. DokBadnie chodzi o zestawienie wszystkich bdz kilku wykresów rozproszonych mo|liwych do uzyskania w obrbie jednego zbioru danych. Pozwala ono na szybkie okre[lenie, które z par cech mog okaza si istotne, które s redundantne, oraz które nie s istotne dla okre[lonego problemu (np. nie separuj |adnej z klas od reszty). Drug metod pozwalajc jednoczesne pokazanie dwóch cech s, wcze[niej wymienione, histogramy dwuwymiarowe (rys. 2.5) 2.5 PrzykBady histogramów dwuwymiarowych przedstawionych w trzech wymiarach. 13 Jednak w przypadku podziaBu danych na dwie lub wicej klas, ze wzgldu na swoj konstrukcj, staj si one bardzo ci|kie do analizy. Powoduje to, |e metoda ta mo|e by przydatna tylko w okre[lonych przypadkach, a w pozostaBych nie jest wystarczajco efektywna, by byBa warta zastosowania. 2.2.3. Metody u|ywajce koloru oraz odcieni Jest to kolejny pomysB na wizualizacj danych, wykorzystujcy naturalne ludzkie zdolno[ci rozró|niania kolorów (dotyczy ludzi nie cierpicych na choroby takie jak daltonizm). Do metod tych nale| prostokty Fortsona. Pozwalaj one na wizualizacj wielu cech jednocze[nie. Wielko[ zmiennych jest wyra|ona odcieniem szaro[ci kolejnych prostoktów (rys. 2.6). 2.6 Prostokty Fortsona Nie jest to jednak metoda pozwalajca na wnikliw analiz danych. Mo|na oczywi[cie zestawi kilka wektorów (jak na rysunku powy|ej), ale wycignicie jakichkolwiek przydatnych informacji z takiego zestawienia jest bardzo trudne. Zamieszczenie ich w tym zestawieniu ma bardziej na celu pokazanie ró|norodno[ metod, poniewa| praktyczne zastosowanie prostoktów Fortsona jest znikome. 14 Istniej te| specjalne histogramy u|ywane w bioinformatyce. W odró|nieniu od wcze[niej opisanych, wysoko[ci poszczególnych sBupków zastpione s odpowiednim kolorem. 2.7 Histogramy w bioinformatyce W powy|szym przypadku mamy do czynienia z dwiema cechami dyskretnymi (16 genów i próbki) oraz z jedn cigB (aktywno[ poszczególnych genów), która zostaBa znormalizowana do przedziaBu [-1, +1]. U|ywamy kolorów: jasny zielony  sBaba aktywno[ genu (czyli -1), czarny  normalna aktywno[ (0), jasny czerwony  wysoka aktywno[ (+1). Warto[ci po[rednie reprezentuj kolejne odcienie danych kolorów. Jak wida na powy|szym przykBadzie nawet metody, na pierwszy  rzut oka niezbyt wyrazne i Batwe do przeanalizowania znajduj obszerne zastosowanie w pewnych dziedzinach |ycia. 15 2.2.4. Metody korzystajce z osi gwiazdowych (radarowych) Ta grupa skBada si tylko z jednej metody czyli wykresów gwiazdowych (ang. star plot, radar plot). Technika pozwala na zaprezentowanie danych wielowymiarowych z dowoln ilo[ci zmiennych. Ka|dy przypadek jest reprezentowany przez wykres, przypominajcy gwiazd, w którym ka|dy promieD przedstawia jedn zmienn (rys. 2.8). 2.8 Wykres gwiazdowy (radarowy) przedstawiajcy wektor skBadajcy si z piciu zmiennych Analizowanie pojedynczych  gwiazd mo|e okaza si maBo efektywne, dlatego wBa[nie nale|y zestawi kilka wykresów. Aatwiej jest zauwa|y schemat w danych, kiedy wektory s przedstawione w nie arbitralnym porzdku, a cechy s przyporzdkowane do promieni w logicznej kolejno[ci. Metoda ta jest szczególnie przydatna, gdy wszystkie zmienne maj taki sam wymiar. Niestety w przypadku bardzo du|ych zbiorów danych staje si bezu|yteczna (analiza wykresu skBadajcego si np. z 700  gwiazd ). 16 2.2.5. Metody wykorzystujce osie wspóBrzdnych Ponownie bierzemy pod uwag tylko jedn metod, czyli wspóBrzdne równolegBe. Polega ona na zaznaczeniu kolejnych warto[ci zmiennych na odpowiadajcych im, równolegBych do siebie osiach (rys. 2.9). 2.9 Punkt C = (c , c , c , c , c ) przedstawiony za pomoc wspóBrzdnych równolegBych 1 2 3 4 5 Powy|szy przypadek jest bardzo prosty. Mamy dany punkt (wektor) skBadajcy si z piciu zmiennych (cech), ka|d z pionowych osi traktujemy jako przestrzeD kolejnych zmiennych. WspóBrzdne równolegBe s bardzo istotnym narzdziem. Pozwalaj one na wizualizacj caBego zbioru danych, co z kolei pozwala na odkrycie zale|no[ci pomidzy przypadkami (wektorami) jak i cechami (zmiennymi). Nie jest to jednak takie proste ze wzgldu na nakBadanie si linii. Na poni|szym rysunku (rys. 2.10) przedstawiona jest 5- wymiarowa kula. Gdy chcieliby[my przyjrze si tylko jednemu wektorowi, okazuje si to praktycznie niemo|liwe, nawet przy tak okre[lonej strukturze zbioru. 17 2.10 Trójwymiarowa kula przedstawiona za pomoc wspóBrzdnych równolegBych 2.2.6. Wykresy wykorzystujce predyspozycje czBowieka Zajmiemy si metodami, które aby uBatwi ich analiz, wykorzystuj elementy dobrze, przez ludzi, rozpoznawalne. Dotyczy to przede wszystkim schematycznych rysunków, które czBowiek czsto poddaje analizie, co powoduje zwikszon wra|liwo[ na zmiany w ich strukturze. Twarze Chernoffa jest to metoda zaproponowana w 1973 roku przez Hermana Chernoffa (rys. 2.11). W tym wypadku warto[ci ró|nych wymiarów prezentowane s przez wielko[, ksztaBt bdz rozmieszczenie poszczególnych elementów twarzy (nos, oczy, brwi itd.). Wikszo[ ludzi przez caBe |ycie musi rozpoznawa spogldajc na twarze: rodzin, znajomych lub osoby publiczne. Powoduje to, i| w mózgu tworz si struktury odpowiedzialna za rozpoznawanie twarzy. Oczywi[cie istnieje wiele takich struktur (zdolno[ci manualne, umiejtno[ prowadzenia samochodu, ogólnie pojte poczucie estetyki itd.), jednak czynno[ odró|niania od siebie twarzy wydaje si by jedn z najbardziej powszechnych umiejtno[ci. Dziki czemu osoba analizujca z Batwo[ci 18 dostrze|e ró|nice pomidzy wykresami (twarzami). Jednak podobnie jak w przypadku wykresów gwiazdowych analiza jednocze[nie kilkuset przypadków mo|e okaza si niemo|liwa. 2.11 Twarze Chernoffa Metody tego typu pokazuj przede wszystkim, |e mo|na próbowa bardziej niekonwencjonalnych rozwizaD, stara si wykorzysta naturalne ludzkie predyspozycje. 2.2.7. Podsumowanie metod graficznych Wymienione wy|ej techniki wizualizacji danych pokazuj zarówno ró|norodne podej[cie do problemu, jak i tak naprawd szerok gam zadaD, z którymi metody te musz sobie radzi. Istnieje oczywi[cie jeszcze wiele innych metod reprezentacji graficznej. Jednak wybrane metody, z jednej strony pozwalaj stworzy funkcjonalny i kompletny pakiet wizualizacyjny (wykresy pudeBkowe, histogramy, wykresy rozproszone, wspóBrzdne równolegBe) jak i pokaza inne podej[cie do problemu (twarze Chernoffa, wykresy gwiazdowe, histogramy dwuwymiarowe przedstawione w trzech wymiarach itd.). Oczywi[cie spogldajc na poszczególne techniki musimy zwróci uwag nie tylko na ich 19 przydatno[ (nawet du|) w okre[lonych przypadkach, ale bardziej na uniwersalno[. Metoda jest wtedy efektywna i warta zastosowania, gdy mo|emy jej u|y zarówno do danych dyskretnych jak i cigBych, wielowymiarowych jak i niskowymiarowych, z du| ilo[ci przypadków oraz gdy jest ich kilka itd. no i oczywi[cie gdy za ka|dym razem mo|na wycign przydatne wnioski. 20 3. Problem danych wielowymiarowych 3.1. Psychologiczne podstawy wizualizacji danych Techniki wizualizacji maj na celu zaprezentowanie czBowiekowi danych w sposób dokBadnie przekazujcy informacje w nich zawarte oraz wymagajcy jak najmniejszego wysiBku do ich zrozumienia. Powoduje to, |e obrazy graficzne u|yte w procesie wizualizacji powinny powstawa w oparciu o dobre zrozumienie ludzkiego ukBadu wzrokowego. Techniki wizualizacji maj tak|e umo|liwi zarówno analizowanie jak i operowanie na danych. Dlatego struktura informacji powinna by zgodna z wymaganiami reprezentacyjnymi oraz preferencjami ludzkich procesów poznawczych. Jest to pierwszy powód, dla którego techniki modelowania danych u|yte podczas wizualizacji powinny by oparte o zrozumienie dziaBania ludzkiej pamici oraz reprezentacji kognitywnej. Drugi mówi o silnym zwizku midzy percepcj, a procesami poznawczym, przez co percepcja jest bardzo wra|liwa na strukturaln budow ludzkiej pamici. W oparciu o powy|sze stwierdzenia psychologia czsto nakazuje nam najpierw uzyska odpowiedni reprezentacj danych, a dopiero potem ich wizualizacj (rys. 3.1). 21 3.1 Schemat przedstawiajcy podstawowe aspekty wizualizacji danych. W przypadku danych wielowymiarowych czsto nie jeste[my w stanie wybra odpowiednich cech potrzebnych do wizualizacji (metody wykorzystujce mniejsz ilo[ wymiarów), bdz |adne nie s odpowiednie i nale|y stworzy nowe. Wówczas wystpuje najbardziej znany problem przygotowania danych, czyli zbyt du|a ilo[ wymiarów (cech) w zbiorze. Rozwizanie polega na redukcji wymiarowo[ci. 3.2. Redukcja wymiarowo[ci GBówny problemem zwizanym z wizualizacj s dane wielowymiarowe. Oznacza to, |e ka|dy przypadek opisany jest du| ilo[ci cech. Oczywi[cie istniej techniki, które s w stanie zobrazowa wszystkie wymiary jednocze[nie (np. wspóBrzdne równolegBe), jednak metody te sprawdzaj si tak naprawd dla niewielkiej liczby cech. W takim przypadku nale|y przygotowa dane do wizualizacji, tak aby pózniej uzyskana reprezentacja graficzna pozwalaBa wycign odpowiednie wnioski (nale|y stworzy 22 odpowiedni reprezentacj danych). Rozwizaniem jest redukcja wymiarowo[ci. Problem stanowi jedynie wybór wymiarów (bdz stworzeniu nowych w oparciu o ju| istniejce), tak aby zachowaBy one informacje istotne dla osoby analizujcej dane. Czsto tak informacj jest miara podobieDstwa, dystans, bdz wariancja punktu wewntrznego. Najcz[ciej u|ywane w tym celu narzdzia to: Analiza GBównych SkBadowych (PCA  Principal Component Analysis), Analiza SkBadowych Niezale|nych (ICA  Independent Component Analysis), Liniowa Analiza Dyskryminacyjna (LDA  LineaB Discriminant Analysis), Analiza Dyskryminacyjna Fishera (FDA  Fisher Discriminant Analysis) oraz filtry cech. 3.2.1. Analiza GBównych SkBadowych (PCA) Analiza GBównych SkBadowych (PCA  Principal Component Analysis) oprócz redukcji wymiarowo[ci pozwala na odkrycie wzorców zawartych w danych. Jest to szczególnie przydatne w przypadku danych wielowymiarowych, gdzie nie mo|emy sobie pozwoli na reprezentacj graficzn caBego zbioru. Gdy znajdziemy odpowiednie wzorce mo|emy zredukowa ilo[ wymiarów minimalizujc strat informacji. ZaBó|my, |e mamy pewien zbiór danych, skBadajcy si z m przypadków, gdzie ka|dy z nich jest opisany przez n cech. Aby wyznaczy gBówne skBadowe (ang. principal components) nale|y: - wyznaczy warto[ [redni dla ka|dej z cech: n —à (3.1) X = X " i i=1 23 - obliczy kowariancje dla ka|dej pary cech: n —à —à žà X - X ŸàžàY -Y Ÿà " i i (3.2) i=1 cov žà X ,Y Ÿà= žàn-1Ÿà - po obliczeniu wszystkich kowariancji (dla ka|dej pary cech) tworzymy ich macierz: covžà X , X Ÿà covžà X , X Ÿà covžà X , X Ÿà ... 1 1 1 2 1 n covžà X , X Ÿà covžà X , X Ÿà ... covžà X , X Ÿà 2 1 2 2 2 n cov= (3.3) ... ... ... ... žà Ÿà ... covžà X , X Ÿà covžà X , X Ÿà covžà X , X Ÿà n 1 n 2 n n Oczywi[cie kowariancje znajdujce si na przektnej s równe wariancjom poszczególnych cech. Kolejnym krokiem jest obliczenie wektorów oraz warto[ci wBasnych macierzy kowariancji. Wektor wBasny macierzy jest to wektor, który po pomno|eniu z lewej przez t macierz w wyniku daje swoj wielokrotno[. Wielko[ przez jak musimy pomno|y wektor wBasny, aby otrzyma wynik wy|ej opisanego mno|enia nazywamy warto[ci wBasn np. dla macierzy: 2 3 2 3 3 12 3 × = = 4 × , mamy žà Ÿà žà Ÿà žà Ÿà žà Ÿà žà Ÿà 2 1 2 1 2 8 2 3 wektor jest wektorem wBasny, a 4 warto[ci wBasn dla tego wektora. Wektory žà Ÿà 2 wBasne przedstawiamy w postaci jednostkowej (nie jest to problemem, poniewa| o tym, |e wektor jest wektorem wBasnym [wiadczy kierunek, a nie jego dBugo[). Macierz kowariancji jest kwadratowa i ma wymiar n x n, wic posiada n wektorów wBasnych. Kolejnym krokiem jest uporzdkowanie jednostkowych wektorów wBasnych (o dBugo[ci równej jeden) wedBug odpowiadajcych im warto[ci wBasnych, od najwikszej do 24 najmniejszej oraz umieszczenie ich w macierzy, któr nazwiemy wektorem cech: WektorCech=žàwekw1 wekw2 ... wekwnŸà , (3.4) warw1„àwarw2„à...„àwarwn gdzie Nastpnie nale|y wybra k pierwszych wektorów wBasnych, aby otrzyma transformacj do danych k-wymiarowych. Ostatnim krokiem jest obliczenie macierzy: (3.5) DaneKoDcoweT=WektorCechT× DaneT , gdzie DaneT , jest to macierz z danymi wej[ciowymi, gdzie ka|da kolumna oznacza pojedynczy przypadek, a ka|dy wiersz jeden z wymiarów (jedn cech). W ten oto sposób powstaje nowa macierz DaneKoDcowe wymiaru m x k. Dziki zastosowaniu techniki PCA powstaj nowe, nieskorelowane cechy. Redukcja wymiarowo[ci jest uzyskana poprzez odrzucenie cech z maB wariancj. Kolejn zalet Analizy GBównych SkBadowych jest mo|liwo[ rekonstrukcji macierzy kowariancji w przypadku danych nisko wymiarowych. Z drugiej strony podczas stosowania PCA najwiksze wariancje decyduj, które cechy zostan u|yte, co nie gwarantuje nam dobrej klasteryzacji danych. Po zastosowaniu kombinacji liniowych tracimy znaczenie cech. Kolejnym ograniczeniem redukcji wymiarowo[ci przez PCA jest brak przystosowania do wizualizacji danych o nieliniowej strukturze (rys. 3.2). Jak wida na poni|szym rysunku zastosowanie PCA na zbiorze  simplex5 (po lewej stronie) nie jest efektywne, poniewa| klasy 2, 3 oraz 5 nakBadaj si. Dopiero odwzorowanie nieliniowe przynosi po|dany efekt (rysunek po prawej stronie). 25 3.2 Wizualizacja zbioru danych  simplex5 poprzez liniowe i nieliniowe odwzorowania 3.2.2. Liniowa Analiza Dyskryminacyjna (LDA) oraz Analiza Dyskryminacyjna Fishera (FDA) Liniowa analiza dyskryminacyjna (LDA  Linear Discriminant Analysis) jest to kolejna metoda, która nie tylko sBu|y do redukcji wymiarów, ale równie| do klasyfikacji. LDA znajduje optymaln macierz transformacji, która zachowuje jak najwicej informacji pozwalajcych rozdzieli poszczególne klasy. ZaBó|my, |e mamy zbiór testowy skBadajcy si z N próbek, a ka|d z nich opisuje p cech i s one podzielone na g klas. Aby sformuBowa procedur optymalizacji musimy najpierw wyznaczy warto[ci [rednie (3.6) oraz macierze kowariancji (3.7) poszczególnych klas: N j 1 , (3.6) x = xi —àj " N i=1 j N j 1 —à , (3.7) W = žà xi-x Ÿàžà xi-x ŸàT " —à —à j j j N i=1 j 26 a nastpnie zrobi to samo dla caBego zbioru: N 1 , (3.8) x= xi —à " N i=1 N —à= 1 žà xi-xŸàžà xi-xŸàT , (3.9) T " —à —à N i=1 gdzie N ilo[ próbek klasy J. Mo|emy wic zdefiniowa kryterium optymalizacji: j —à cT T c #" #" p p c=arg max , (3.10) c —à p cT W c #" #" p p gdzie J 1 —à —à (3.11) W = N W " j j N j=1 Kryterium pozwala jednocze[nie zmaksymalizowa  odlegBo[ midzy klasami oraz zminimalizowa  wielko[ ka|dej z nich. Gwarantuje to zachowanie wikszo[ci, istotnych w kontek[cie separacji, informacji w nowej przestrzeni cech. Analiza Dyskryminacyjna Fishera (FDA  Fisher's Discriminant Analysis) ró|ni si od LDA tylko nielicznymi szczegóBami. Najbardziej istotna jest ró|nica u|ytego kryterium. Dla FDA jest to kryterium Fishera (3.12): cT Bci cT Bc i = max , (3.12) —à —à cT W ci c" Rp ,c`"0 cT W c i gdzie B oznacza macierz kowariancji pomidzy klasami: g 1 (3.13) B= N žà x -xŸàžà x -xŸàT " —à —à —à —à j j j g-1 j=1 27 Podobnie jak PCA zarówno LDA jak i FDA s maBo skuteczne je|eli mamy do czynienia ze zbiorami o strukturze nieliniowej. Z drugiej strony du|ym plusem tych metod jest mo|liwo[ klasteryzacji. 3.2.3. Analiza SkBadowych Niezale|nych (ICA) Analiza SkBadowych Niezale|nych (ICA  Independent Components Analysis) to technika dziki której mo|emy odkry w danych ukryte cechy. W przypadku ogólnym mamy dane reprezentowane przez wektory x = (x1,& ,xm), a skBadowe jako losowy wektor s = (s1,& sn). Naszym zadaniem jest transformacja danych x, przy u|yciu transformacji liniowej s = Wx, do postaci maksymalnie niezale|nych skBadowych s. Niezale|no[ mierzymy przy u|yciu funkcji niezale|no[ci F(s1,& ,sn). Komponenty xi wektora xT s generowane przez niezale|ne skBadowe sk (k = 1,& n), przy u|yciu wag ai,k: xi=ai ,1 s1ƒà...ƒàai , k skƒà...ƒàai ,n sn (3.14) Wic ka|dy wektor x mo|na zapisa w postaci: n (3.15) x= ak sk " k=1 Gdy zBo|ymy wszystkie wektory bazowe wektorów x, postaci ak = (a1,k,& am,k)T, w macierz A = (a1,& ,an) otrzymamy równanie x = As, gdzie s = (s1,& sn)T. Musimy wyznaczy wektory s poprzez obliczenie kolejnych wektorów w oraz ustalanie funkcji kosztu, która albo maksymalizuje  niegaussowo[ obliczonego sk = (wT*x) lub 28 minimalizuje informacj wzajemn. Czasami wiedza a priori na temat rozkBadu funkcji prawdopodobieDstwa danych wej[ciowych mo|e by wykorzystana do skonstruowania funkcji kosztu. Wektory s mo|emy obliczy mno|c wektory danych wej[ciowych x przez macierz W = A-1. Powszechny problem, dla którego stosowane jest ICA to tzw. problem  [lepej separacji zródeB . Mamy do czynienia z danymi (wektor x  np. zapis dzwiku z ró|nych mikrofonów) , które s mieszanin statystycznie niezale|nych sygnaBów (wektor s  np. gBosy kilku jednocze[nie mówicych osób). Za pomoc analizy skBadowych niezale|nych mo|emy odseparowa sygnaBy wektora s. 3.2.4. Filtry cech Kolejn metod s filtry cech. S to funkcje zwracajce indeks istotno[ci J(S|D), który pozwala stwierdzi jak istotny jest podzbiór cech S zbioru danych D dla zadania Y. Zazwyczaj dane D oraz zadanie s ustalone wic funkcj mo|emy zapisa w postaci J(S). Aby wyznaczy istotno[ danej cechy, bdz cech mo|emy u|ywa nie tylko prostych funkcji, jak korelacje, ale nawet skomplikowanych algorytmów. Indeksy mo|emy wyznacza dla pojedynczych cech Xi, i = 1& N, co pozwala ustali ranking J(Xi1)d" J(Xi2)d"& J(Fin). Nastpnie mo|emy usun cechy plasujce si na koDcu rankingu. Takie podej[cie jest wBa[ciwe tylko, gdy poszczególne cechy s niezale|ne. Zazwyczaj jednak tak nie jest. W przypadku, gdy cechy s skorelowane wybranie pary najwa|niejszych nie jest równoznaczne z wybraniem dwóch najwy|ej sklasyfikowanych wedBug rankingu. Jest wiele sposobów na sprawdzenie istotno[ci cech m. in. korelacja, odlegBo[ midzy 29 rozkBadami prawdopodobieDstwa, teoria informacji lub drzewa decyzji. Ci|ko jest orzec, która jest z nich najlepsza, poniewa| wszystko zale|y od danych wej[ciowych oraz klasyfikatora. Je|eli jaka[ metoda dziaBa w przypadku du|ej ilo[ci klas, cech i próbek prawdopodobnie nie sprawdzi si w sytuacji gdy ilo[ klas, cech i próbek jest maBa. Filtry s jedn z najtaDszych metod selekcji cech. W przypadku du|ych zbiorów danych s one niezbdne. Dopiero po odrzuceniu wikszo[ci cech przez filtry realne jest zastosowanie bardziej wyrafinowanych technik. Ich wielk zalet jest prostota konstrukcji, wBa[ciwie wszystko zale|y od testu istotno[ci cech. Je|eli jest to korelacja metoda ta bdzie bardzo szybka. Oprócz wy|ej opisanych metod istniej równie| techniki neuronowe (uczenie konkurencyjne  competitive learning, SOM  Self-Organizing Maps), statystyczne (skalowanie wielowymiarowe  multidimensional scaling) oraz kernelowe. S to metody nieliniowe, du|a bardziej zaawansowane ni| PCA, LDA, FDA czy ICA. 30 4. Zaimplementowany pakiet metod wizualizacji Pakiet narzdzi sBu|cych do wizualizacji danych zostaB stworzony na potrzeby nowego narzdzia do analitycznej eksploracji danych  Intemi. Aplikacja zostaBa napisana w jzyku C# w [rodowisku .Net z wykorzystaniem pakietu do tworzenia wykresów TeeChart firmy Steema. Uzyskane rozwizania s efektem analizy metod wizualizacji danych proponowanych przez EDA, oraz przez dostpne pakiety takie jak: GhostMiner, Yale oraz WEKA. W oparciu o wnioski powstaBa aplikacja skBadajca si z o[miu ró|nych moduBów (ka|dy ukazuje dane w inny sposób). W tym rozdziale przedstawione zostan kolejne metody skBadajce si na stworzony pakiet do wizualizacji danych. W celu prezentacji tych rozwizaD zostaBy wykorzystane dane  Iris Plants Database . S one podzielone na trzy klasy (Setosa, Virginica, Versicolor), a ka|dy przypadek (wektor) okre[laj cztery cechy (sepal lenght, sepal width, petal lenght, petal width). 4.1. Struktura aplikacji Aplikacja skBada si, z o[miu moduBów. Ka|dy z nich zamieszczony jest na osobnej zakBadce (rys. 4.1). Program zawiera nie tylko same wykresy, ale równie| dane numeryczne takie jak: korelacje, warto[ci [rednie, wariancje, warto[ci brakujce itd. Zaimplementowane zostaBy tak|e dodatkowe narzdzia, które maj na celu uBatwienie u|ytkownikowi analiz danych. Pozwalaj one osobie korzystajcej z pakietu na m.in. 31 modyfikowanie ustawieD, dodawanie nowych wykresów lub dziaBanie na podzbiorze danych. 4.1.1. Podstawowe informacje o zbiorze danych Podstawowe informacje o zbiorze danych s zawarte w dwóch zakBadkach. Przegldajc zakBadk Info u|ytkownik mo|e pozna: [cie|k dostpu do zbioru danych, oraz ilo[ci wektorów, klas, cech, brakujcych warto[ci (rys. 4.1). 4.1 Informacje ogólne o zbiorze danych  Irirs Plants Database Zawiera ona równie| dwa wykresy, które przedstawiaj ilo[ przypadków (wektorów) nale|cych do poszczególnych klas. ZakBadka sBu|y do przybli|enia u|ytkownikowi danych, z którymi bdzie pracowaB. Zastosowane metody wizualizacji, mimo i| s bardzo proste, w znacznym stopniu uBatwiaj wstpne  spojrzenie na dane. Osoba korzystajca z 32 aplikacji nie musi analizowa liczb, poniewa| na wykresach s one wyraznie wyeksponowane i wystarczy krótkie spojrzenie, aby dostrzec ró|nic. Pierwszy wykres jest widoczny na dole rysunku 4.1, a drugi na rysunku 4.2. 4.2 Alternatywny sposób wy[wietlania ilo[ci wektorów nale|cych do poszczególnych klas. ZakBadka Data zawiera zbiór danych przedstawiony w postaci tabeli. U|ytkownik mo|e obejrze zarówno caBy zbiór, jak i tylko wektory nale|ce do jednej z klas. Umo|liwione zostaBo równie| sortowanie przypadków wedBug wybranej cechy. Dziki zakBadkom Info oraz Data osoba korzystajca z pakietu mo|e wstpnie zapozna si ze zbiorem danych, co pozwala na dobranie odpowiednich metod do dalszej pracy. Mo|liwe jest równie| analizowanie wektorów w wersji oryginalnej. Jest to do[ przydatne w sytuacji gdy na podstawie ni|ej przedstawionych metod odkrywamy interesujce nas przypadki i chcemy si im przyjrze w postaci numerycznej. 33 4.1.2. Statystyki cech Statystyki cech, opisujcych wektory nale|ce do zbioru danych, s przedstawione w zakBadce Statistics (rys. 4.3). Mo|liwe jest ich wy[wietlanie zarówno dla caBego zbioru jak i poszczególnych klas. W ostatnim wierszu tabeli, o nazwie Ordered, jest okre[lone czy, dana cecha jest uporzdkowana (warto[ true), czy nie (false). Jest to istotna informacja, która mo|e wpByn na dalsz obróbk danych (np. metoda Multidimensional Visualiser korzysta tylko i wyBcznie z cech nieuporzdkowanych). Zastosowany wykres jest specyficzn postaci wykresu pudeBkowego, zaznaczone na nim warto[ci to: warto[ maksymalna, minimalna, [rednia, a wielko[ pudeBka jest równa odchyleniu standardowemu w ka|d ze stron liczc od warto[ci [redniej. Jest to kolejny sposób na dosy ogólne spojrzenie na dane, aczkolwiek zostaj ujawnione pewne wBa[ciwo[ci, które pozwalaj wycign wnioski na temat budowy zbioru. 4.3 Statystyki cech zbioru  Iris Plant Database . 34 4.1.3. Zbiór danych przedstawiony za pomoc wspóBrzdnych równolegBych W zakBadce N-Dots znajduje si wykres zawierajcy caBy zbiór danych przedstawiony za pomoc wspóBrzdnych równolegBych (metoda omówiona w rozdziale 2.2.5.). Bezpo[rednio po wczytaniu danych generowane s jedynie punkty. Wynika to z faktu, i| tworzenie kompletnego wykresu wspóBrzdnych równolegBych dla du|ych zbiorów danych mo|e by zbyt czasochBonne (zarówno ze wzgldu na du| ilo[ wektorów jak i cech je opisujcych). S dwa sposoby na utworzenie linii, które Bcz odpowiednie punkty w wektory. Mo|emy wej[ w menu o nazwie Parallel coordinates setup (rys. 4.4), co pozwoli wygenerowa linie dla okre[lonych klas. Drugi sposób polega na naci[niciu lewego przycisku myszy na interesujcym nas punkcie. Zostanie wtedy wygenerowana linia wektora, do którego nale|y ten punkt, a na legendzie zostanie podany jego numer (rys 4.5). 4.4 WspóBrzdne równolegBe ustawione dla dwóch klas (Setosa, Versicolor), oraz menu konfiguracji wspóBrzdnych równolegBych 35 Po naci[niciu przycisku Features setup pojawia si menu wyboru cech. Jest ono bardzo przydatne gdy mamy do czynienia z wieloma wymiarami, gdy| mo|emy wybra tylko te, które nas interesuj oraz uporzdkowa je w wybrany przez nas sposób. Pomagaj nam w tym narzdzia takie jak Select All (zaznacza wszystkie cechy), Clear Selection (odznacza wszystkie), Invert Selection (zamienia zaznaczone na odznaczone i na odwrót) oraz Use Formula. Ostatnie z nich pozwala nam stworzy prost funkcj liniow postaci aX + b, która jest przydatna przede wszystkim, gdy mamy do czynienia z du| ilo[ci cech. Poprzez parametr a oznaczamy, co który element chcemy zaznaczy, a poprzez parametr b oznaczamy, od którego zaczynamy wybór. Gdy zostan wybrane interesujce cechy nale|y nacisn przycisk Move selected, nastpnie wybrane przez u|ytkownika wymiary zostan przeniesione do okna znajdujcego si po prawej stronie menu. Tam za pomoc klawiszy Up oraz Down mo|emy ustawi odpowiedni kolejno[ w jakiej zostan one zamieszczone na wykresie. 4.5 WspóBrzdne równolegBe dla dwóch wybranych wektorów o numerach 108 i 98 36 4.6 Menu wyboru cech Istnieje jeszcze przycisk Mark chosen points (widoczny na rys. 4.4), który sBu|y do wyznaczenia wektorów wybranych podczas analizowania wykresów dwuwymiarowych (dokBadniej wyja[nione w 4.1.4.). WspóBrzdne równolegBe pozwalaj osobie analizujcej dane zobaczy jak gsto rozkBadaj si warto[ci poszczególnych cech. Dziki zaimplementowanym narzdziom mo|na równie| podejrze tylko interesujce wymiary oraz zauwa|y wiele prawidBowo[ci. Mamy do wyboru ró|ne poziomy szczegóBowo[ci, poniewa| mo|na oprze badania zarówno na caBym zbiorze, tylko na okre[lonych klasach bdz wrcz na kilku wektorach. Istnieje równie| mo|liwo[ dziaBania na wybranych wymiarach. Metoda pozwala na odkrycie cech mocno skorelowanych i wykluczenie ich z dalszych badaD. Dziki lini u|ytym w tej metodzie mo|emy zauwa|y prawidBowo[ci dla poszczególnych klas bdz cech (np. po wy[wietleniu linii dla caBego zbioru Batwo dostrzec warto[ci cech krzy|ujce 37 si, czyli gdy dla cechy pierwszej liczba prezentujca dany wymiar jest bliska maksymalne to dla cechy drugiej liczba jest bliska minimalnej). 4.1.4. Rzutowanie danych na dwa wymiary W tym przypadku zastosowane zostaBy wykresy rozproszone. Jak wida na rysunku 4.7 zaimplementowane zostaBy równie| dodatkowe funkcje. UBatwiaj one analiz utworzonego wykresu jak i pozwalaj na jego modyfikacj oraz wybór danych. 4.7 ZakBadka wy[wietlajca wykresy rozproszone Jak ju| byBo wspomniane w rozdziale drugim, podczas kreowania wykresów rozproszonych czsto mamy do czynienia z nakBadajcymi si punktami. Wówczas nie zawsze jeste[my w stanie stwierdzi, gdzie skupia si wiksza ilo[ danych. W celu rozwizania tego problemu zostaB stworzony suwak odpowiedzialny za stopieD  dr|enia 38 danych (ang. jitter). Za ka|dym razem gdy zostaje on przesunity kolejne punkty na wykresie s przesuwane w ró|nych (losowych) kierunkach. Z ka|dym przesuniciem suwaka w prawo rozproszenie punktów staje si wiksze, a w lewo mniejsze. Efekt jego dziaBania najlepiej obrazuje przykBad zilustrowany na rysunku 4.8. Na wykresie po lewej stronie wydaje si, |e punktów jest kilkana[cie, a w rzeczywisto[ci jest ich du|o wicej (wykres po prawej). 4.8 Zastosowanie suwaka odpowiedzialnego za  dr|enie danych. Istnieje równie| mo|liwo[ wyboru danych, które chcemy podda dalszej wizualizacji. W tym celu nale|y wybra (przybli|y) interesujcy nas obszar po czym nacisn przycisk Select. Spowoduje to zapisanie wybranych wektorów do pliku (co umo|liwi przegld wybranego podzbioru). Mo|na równie| podejrze zaznaczone przez u|ytkownika przypadki w kontek[cie caBego zbioru. Wystarczy naci[nicie przycisku Mark chosen points wtedy wybrane wektory zostan wyselekcjonowane w sposób widoczny na rysunku 39 4.9. Mo|e to dosy istotnie pomóc w wyborze dalszych metod analizy oraz stworzeniu nowych reguB klasyfikacji danych. Wektory te mo|emy równie| obejrze w zakBadce N-Dots po naci[niciu przycisku o takiej samej nazwie  Mark chosen points (4.1.3.). 4.9 Wykresy rozproszone pokazujce zastosowanie przycisku Select Powy|ej zostaBo zaprezentowane przykBadowe u|ycie opisanej wcze[niej metody. Na wykresie po lewej górnej stronie (o[ X: sepal lenght, o[ Y: sepal width) zaznaczono problematyczne dane (ci|ko w tym obszarze na podstawie wybranych cech stwierdzi czy wektor nale|y do klasy Virginica czy Versicolor). Dlatego przypadki te zostaBy wyszczególnione prawa górna strona rysunku. Z kolei poni|ej wybrane zostaBy inne cechy, aby znalez dobry klasyfikator dla wektorów znajdujcych si w wybranym obszarze. Od 40 razu mo|na zauwa|y, |e lepiej jest wybra cechy tworzce wykres z lewej (o[ X: petal lenght, o[ Y: petal width) ni| ten z prawej (o[ X: petal lenght, o[ Y: sepal width). Mo|emy równie| skorzysta z utworzonego podzbioru, na który skBadaj si wyBcznie wybrane przypadki i znalez klasyfikator wyBcznie dla interesujcego nas obszaru bez obawy, i| dane do niego nie nale|ce przeszkodz w analizie. 4.1.5. Histogramy W zakBadce Histogram zaimplementowane zostaBy dwie metody wizualizacji. Obydwie maj na celu przybli|enie rozkBadu wybranego wymiaru. Wszystko zale|y od tego, czy okre[lona przez u|ytkownika cecha jest uporzdkowana, czy nieuporzdkowana. W pierwszym przypadku tworzony jest histogram z liczb przedziaBów równ liczbie warto[ci jakie maj wektory w podanym wymiarze. Istnieje mo|liwo[ samodzielnego wyboru ilo[ci przedziaBów. Mo|e okaza si to niezbdne w przypadku, gdy cecha przyjmuje bardzo du|o ró|nych warto[ci, poniewa| wykres ze zbyt du| ilo[ci  sBupków mo|e okaza si nieczytelny. Kolejnym uBatwieniem jest mo|liwo[ wyboru dwóch sposobów wy[wietlania histogramów: stacked oraz side. Domy[lnie ustawiony jest side i wy[wietla on osobny  sBupek dla ka|dej z klasy (rys. 4.10). Z kolei stacked tworzy klasyczny histogram z podziaBem na klasy (rys. 4.11). 41 4.10 Histogram dla cechy sepal lenght z ustalon liczb sze[ciu przedziaBów i stylem side 4.11 Histogram z rysunku 4.10 w stylu stacked 42 W przypadku gdy cecha jest cigBa utworzony zostaje wykres liniowy (rys. 4.12), który przybli|a jej rozkBad dla ka|dej klasy. W celu uzyskania takiego efektu zaimplementowany zostaB algorytm opierajcy si na metodzie  okienek Parzena . Polega ona na stworzeniu przedziaBu o, okre[lonej przez u|ytkownika lub domy[lnej, szeroko[ci. Nastpnym krokiem jest ustalenie [rodka pierwszego przedziaBu (wynosi on warto[ minimaln dla danej cechy plus poBowa wielko[ci przedziaBu).  Okienko Parzena przesuwamy w do[ prosty sposób (wedBug ni|ej opisanej w pseudokodzie procedury), który pozwala dosy dokBadnie przybli|y rozkBad cechy: count_Center(array, min, max, center, win_Size) minimum = center  0,5*win_Size maximum = center + 0,5*win_Size difference1 = array[min]  minimum difference2 = array[max +1]  maximum if (difference1 < difference2) center = center + difference1 return center else center = center + difference2 return center 43 Funkcja odpowiedzialna za ustalanie kolejnych centrów okien na wej[ciu dostaje pi parametrów: posortowan tablic kolejnych warto[ci cechy, indeks najmniejszego elementu mieszczcego si w oknie, indeks najwikszego elementu mieszczcego si w oknie, [rodek okna oraz rozmiar okna. Procedura polega na obliczeniu dwóch odlegBo[ci. Pierwsza jest to dystans midzy pocztkiem okna (minimum), a najmniejsz warto[ci do niego nale|c. Druga to odlegBo[ midzy koDcem okna (maksimum), a nastpn warto[ci znajdujc si w tablicy. Nastpnym krokiem jest wybór mniejszej z nich oraz przesunicie o wBa[nie t odlegBo[ [rodka okna. Dziki tak skonstruowanej procedurze przedziaB jest przesuwany tak aby podczas ka|dego kolejnego kroku wpadaBa bdz byBa usuwana z niego tylko jedna warto[ (w przypadku równych odlegBo[ci mog te dwa zdarzenia nastpi jednocze[nie). Aplikacja oferuje u|ytkownikowi równie| trzy miary okre[lajce ilo[ wektorów wpadajcych do takiego przedziaBu (wyboru dokonujemy w menu Parzen Window setup  rysunek 4.12). Pierwsza  kwadratowa polega na zliczeniu przypadków, które znajduj si w oknie. W pozostaBych dwóch ka|demu wektorowi wpadajcemu do odpowiedniego przedziaBu jest przypisywana waga, która zale|y bezpo[rednio od jego odlegBo[ci od [rodka okna. I tak w mierze  trójktnej ka|da z wag jest obliczana wzorem 4.1: array[i]-centerƒà0,5"winSize w= , (4.1) center-0,5"winSize je|eli array [i]„àcenter , w przeciwnym przypadku centerƒà0,5"winSize-array [i ] w= , (4.2) center-0,5"winSize gdzie w oznacza obliczon wag, center [rodek okna, dla którego jest robione obliczenie, winSize wielko[ okna, a array[i] element, dla którego obliczamy wag. 44 Miar  gaussowsk obliczamy wedBug wzoru 4.3: -žàarray [i]-ÂàŸà2 1 2 w= e , (4.3) 2Æà à gdzie za ¼ podstawiamy liczb równ [rodkowi okna, dla którego waga jest liczona. Posiadanie trzech ró|nych miar pozwala u|ytkownikowi na samodzielne ustalenie jak bardzo jest dla niego istotna odlegBo[ wektora od centrum przedziaBu. Dziki temu sami decydujemy o stopniu wygBadzenia wykresu i ilo[ci wykonywanych obliczeD. 4.12 RozkBad cechy sepal width przy miarze  gaussowskiej z wBczon opcj Marks Je|eli cecha jest cigBa aplikacja umo|liwia korzystanie zarówno z histogramów jak i wykresów liniowych, w przeciwnym przypadku dostpne s jedynie histogramy (nie ma 45 sensu stosowania drugiej metody). Dziki przyciskowi Marks mo|liwe jest wy[wietlanie informacji na temat wykresu bezpo[rednio na nim np. [rodki przedziaBów i przyporzdkowane im liczby (rys. 4.12). Metody zaimplementowane w module Histogram pozwalaj na do[ dokBadne przybli|enia rozkBadów poszczególnych wymiarów. Jest to bardzo istotne w kontek[cie dalszej analizy. Dziki temu mo|emy  na oko stwierdzi czy rozkBad danej cechy jest np. normalny, co umo|liwia zastosowanie wielu algorytmów. Znajc rozkBad mo|na m.in. uzupeBni warto[ci brakujce. 4.1.6. Macierz wykresów rozproszonych Macierz wykresów rozproszonych jest bardzo przydatnym narzdziem. Ogldajc caBo[ bdz cz[ takiej macierzy mo|emy zauwa|y, które cechy warto wybra do stworzenia wykresu rozproszonego, które z nich dobrze separuj klasy itd.. Jednak ze wzgldu na czsto du| ilo[ wymiarów w analizowanych zbiorach danych nie mo|na sobie pozwoli na domy[ln wizualizacj takiej macierzy w caBo[ci. W przypadku tysica wymiarów u|ytkownik na pewno musiaBby dBugo czeka na efekt. Dlatego stworzony pakiet pozwala na wybranie zakresu cech dla jakich chcemy stworzy macierz, bdz zaznaczenie opcji all i wy[wietlenie caBo[ci (rys.4.13). 46 4.13 Macierz wykresów rozproszonych. Jak wida powy|ej tak naprawd wizualizowana jest tylko poBowa macierzy, poniewa| jest ona symetryczna i nie ma potrzeby pokazywania caBo[ci. Nazwy kolumn odpowiadaj warto[ci znajdujcym si na osiach wspóBrzdnych X-ów, wierszy Y-ów. Po klikniciu mysz na wybrany wykres zostanie od wy[wietlony w zakBadce 2D. Pozwala to na pBynne przemieszczanie si pomidzy tymi dwoma, mocno ze sob zwizanymi, moduBami. 47 4.1.7. Wizualizator cech nieuporzdkowanych ZakBadka Multidimensional Visualiser zawiera do[ innowacyjne podej[cie do wizualizacji danych. Wyniki dziaBania moduBu zostaBy zaprezentowane na podstawie zbioru danych Lbreast, poniewa| zawieraj one du| ilo[ cech nieuporzdkowanych. Metoda (rys.4.14) polega na rysowaniu okrgów. Po wci[niciu przycisku Multidimensional visualiser configuration... uka|e si menu, po lewej stronie stworzona zostaje lista wszystkich cech nieuporzdkowanych oraz klasy. U|ytkownik ma mo|liwo[ wybrania kilku, ustawienie ich w okre[lonym przez siebie porzdku, dodawanie do utworzonego wykresu itd. (rys.4.15). W dolnej cz[ci menu wy[wietlana jest informacja ile elementów bdzie miaB zewntrzny okrg, je|eli bdzie ich wicej ni| tysic utworzenie wykresu nie jest mo|liwe. 4.14 Wykres koBowy oraz kolory odpowiadajce warto[ci cechy  tumor-size . 48 4.15 Menu wyboru cech. Po utworzeniu wykresu (jak wida na rysunku 4.14) zostaj obliczone trzy warto[ci, które uBatwiaj analiz: warto[ Number of rules oznacza ilo[ reguB jakie zostaBy stworzone (liczba elementów okrgu zewntrznego), Number of condotions jest to ilo[ przesBanek (okrgów wewntrznych), oraz Accuracy czyli dokBadno[ obliczamy wzorem 4.4: m acci " (4.4) 1 Acc= m gdzie: rk acc = j R j (4.5) ri " 0 , przez Acc oznaczmy dokBadno[ caBkowit (wzór 4.4) jest ona sum dokBadno[ci acc czstkowych obliczanych wedBug wzoru 4.5. Aby obliczy wyznaczamy zbiór j R c1j'"c2j'"...'"cnj reguB , które speBniaj okre[lone przesBanki . Wybieramy reguB, j 49 rk która zawiera najwicej przypadków oraz dzielimy przez ilo[ przypadków R nale|cych do reguB z . j Tworzenie wykresu zaczynamy od pierwszej wybranej przez u|ytkownika cechy, okrg reprezentuje caBy zbiór i jest podzielony na cz[ci, które odpowiadaj ró|nym warto[ci wybranej cechy (pojedynczym lub kilku naraz, je|eli zostaBy utworzone grupy cech). Wizualizacja kolejnej cechy jest zale|na od cechy poprzedniej ze wzgldu na to, i| dzielimy wcze[niej utworzone podzbiory na ilo[ cz[ci równ liczbie warto[ci kolejnego wymiaru. Je|eli u|ytkownik chce zobaczy ile jest elementów w danym podzbiorze wystarczy klikn mysz na okre[lony kawaBek, a uka|e okno dialogowe z dokBadn informacj jakie cechy s brane pod uwag, jakie przyjmuj warto[ci oraz ile dokBadnie ich jest w podzbiorze (rys 4.16). 4.16 Okno dialogowe z informacj o okre[lonym kawaBku trzeciego okrgu z rys. 4.14. Oprócz informacji okno dialogowe zawiera pytanie  Make selected slice center? , poprzez naci[nicie przycisku Tak mo|emy na wykresie obejrze tylko wybrany przez nas podzbiór. Przycisk  back <-- , staje si aktywny i dziki niemu mo|emy wróci do poprzedniego wykresu. Je|eli naci[niemy Nie warto[ci wybranego przez nas okrgu zostan wy[wietlone wraz z kolorami, które im odpowiadaj (widoczne na rys 4.14). Jak ju| wcze[niej zostaBo wspomniane warto[ci cech mo|na grupowa dziki menu Groups. Po lewej stronie okna dialogowego znajduj si warto[ci jakie przyjmuje cecha, poprzez wybranie kilku i naci[nicie przycisku Create Group Bczymy cechy i na wykresie bd 50 oznaczane jako jedna (rys 4.17). 4.17 Menu wyboru grup warto[ci dla cechy  tumor-size . Jak wida powy|ej zostaBy wybrane stworzone dwie grupy, pierwsza na wykresie zostanie oznaczona kolorem czerwonym, a druga zielonym. Jest to nowy sposób na wizualizacj, którego inspiracj byBy drzewa decyzji. Metoda wizualizuje caBy zbiór i dziki niej mo|emy zobaczy kilka wymiarów naraz. Mo|na dostrzec równie| jak rozkBadaj si warto[ci poszczególnych cech. Aatwo znalez zarówno cechy s skorelowane, jak i nieskorelowane. Badania mo|na prowadzi na ró|nych poziomach szczegóBowo[ci, istnieje mo|liwo[ podgldania tylko cz[ci zbioru (rys. 4.18). 51 4.18 Dwa wykresy koBowe. Powy|sze wykresy ukazuj mo|liwo[ci utworzonego narzdzia do wizualizacji. Wykres po lewej jest kombinacj czterech cech (zaczynajc od najmniejszego okrgu:  menopause ,  tumor-size ,  breast ,  irradiant ). Je|eli cecha  menopause , przyjmuje warto[ci oznaczone kolorami |óBtym oraz zielonym, dalszy rozkBad jest dosy czytelny jednak wycignicie wniosków na temat siedmiu wektorów jest prawie niemo|liwe. Wykres po lewej stronie zostaB stworzony poprzez kliknicie mysz na element oznaczony strzaBk. Pozwala on na bardziej szczegóBow analiz okre[lonego podzbioru danych. Od razu mo|na zauwa|y, |e je|eli cecha  menopause przyjmuje warto[  lt40 to  irradiant jest równa  no . 52 5. Podsumowanie Stworzenie pakietu wizualizacyjnego na potrzeby nowego systemu sBu|cego do eksploracji danych  Intemi zostaBo poprzedzone, zarówno analiz metod dostpnych w tego typu aplikacjach, jak i licznymi konsultacjami z osobami z nich korzystajcymi. Dziki temu zaimplementowane metody s poBczeniem technik istniejcych i sprawdzajcych si, oraz nowych rozwizaD zaproponowanych w trakcie przygotowania si do tworzenia projektu (np. nowa metoda do wizualizacji Multidimensiona visuliser do pokazania zale|no[ci midzy cechami nieuporzdkowanymi). Metody opieraj si na technikach Eksploracyjnej Analizy Danych, która jest podstawowym podej[ciem do problemu wizualizacji. Ka|da z stworzonych metod dostarcza u|ytkownikowi istotnych informacji w kontek[cie analizy danych. Dziki narzdziom oferowanym przez stworzon aplikacj mo|na uzyska podstawowe informacje na temat badanego zbioru oraz przeprowadzi bardziej szczegóBowe badania. Ka|da z metod (histogramy, wykresy pudeBkowe, wykresy rozproszone, wspóBrzdne równolegBe, wizualizator do cech nieuporzdkowanych) pozwala na wizualizacj zarówno caBego zbioru jak i pojedynczych klas. Mo|na zaj si kilkoma wektorami (wspóBrzdne równolegBe, wykresy rozproszone), lub delikatnie zmieni struktur danych w celu lepszej analizy. Z kolei macierz wykresów rozproszonych pozwala na wikszy przegld sytuacji. Dziki tym narzdziom analiza danych jest w wielu przypadkach intuicyjna, poniewa| wystarczy chwilowe spojrzenie na wykres bdz kilka z nich, aby odkry jaki jest model 53 danych i jakie metody nale|y zastosowa do dalszych badaD. Struktura aplikacji pozwala tak|e na u|ycie jej jako osobnego narzdzia. Jedynym wej[ciem s dane i nie ma znaczenia czy s one w postaci oryginalnej czy zmodyfikowanej przez wcze[niejsze operacj (jak chocia|by PCA, LDA itp.). Bardzo wa|n cech jest mo|liwo[ podejrzenia tylko cz[ci zbioru danych w celu analizy przypadków spornych. Wszystkie te wBa[ciwo[ci sprawiaj, |e aplikacja jest zarówno praktyczna jak i kompletna. Brak bardziej wyszukanych, aczkolwiek mniej efektywnych rozwizaD, zapewnia szybko[ dziaBania i maB niezawodno[. Nawet na podstawie dwóch zbiorów danych, które posBu|yBy do zaprezentowania mo|liwo[ci stworzonego programu, wida jak przydatn metod jest wizualizacja. Mo|na nawet zaryzykowa stwierdzenie, i| w wikszo[ci przypadków jest ona niezbdna do kompletnej analizy, a na pewno zawsze jest bardzo pomocna. W bardzo rozlegBej dziedzinie jak jest  data mining potrzebna jest aplikacja, skupiajca zarówno metody numeryczne jak i wykorzystujce naturalne zdolno[ci czBowieka (percepcja). Program, jak ju| wcze[niej zostaBo wspomniane, zostaB stworzony jako rozbudowany moduB do aplikacji Intemi, która ma by systemem Bczcym wiele metod do analizy danych. Dziki temu mo|emy wykorzysta mo|liwo[ci stworzonego programu po wcze[niejszej  obróbce danych. 54 Spis ilustracji 2.1 Wykresy rozproszone przedstawiajce cztery zbiory......................................................8 2.2 Histogram przedstawiajcy rozkBad dBugo[ci gatunków ryb z zaznaczon optymaln granic podziaBu.............................................................................................................10 2.3 Wykres pudeBkowy.........................................................................................................11 2.4 Wykres rozproszony na podstawie danych  Iris Plants Database ................................12 2.5 PrzykBady histogramów dwuwymiarowych przedstawionych w trzech wymiarach......13 2.6 Prostokty Fortsona........................................................................................................14 2.7 Histogramy w bioinformatyce........................................................................................15 2.8 Wykres gwiazdowy (radarowy) przedstawiajcy wektor skBadajcy si z piciu zmiennych......................................................................................................................16 2.9 Punkt C=(c , c , c , c , c ) przedstawiony za pomoc wspóBrzdnych równolegBych.....17 1 2 3 4 5 2.10 Trójwymiarowa kula przedstawiona za pomoc wspóBrzdnych równolegBych.........18 2.11 Twarze Chernoffa.........................................................................................................19 3.1 Schemat przedstawiajcy podstawowe aspekty wizualizacji danych............................22 3.2 Wizualizacja zbioru danych simplex5 poprzez liniowe i nieliniowe odwzorowania.....26 4.1 Informacje ogólne o zbiorze danych  Irirs Plants Database .........................................32 4.2 Alternatywny sposób wy[wietlania ilo[ci wektorów nale|cych do poszczególnych klas.................................................................................................................................33 4.3 Statystyki cech zbioru  Iris Plant Database ..................................................................34 55 4.4 WspóBrzdne równolegBe ustawione dla dwóch klas (Setosa, Versicolor), oraz menu konfiguracji wspóBrzdnych równolegBych...................................................................35 4.5 WspóBrzdne równolegBe dla dwóch wybranych wektorów o numerach 108 i 98.........36 4.6 Menu wyboru cech.......................................................................................................37 4.7 ZakBadka wy[wietlajca wykresy rozproszone..............................................................38 4.8 Zastosowanie suwaka odpowiedzialnego za  dr|enie danych....................................39 4.9 Wykresy rozproszone pokazujce zastosowanie przycisku Select................................40 4.10 Histogram dla cechy sepal lenght z ustalon liczb sze[ciu przedziaBów i stylem side................................................................................................................................42 4.11 Histogram z rysunku 4.10 w stylu stacked...................................................................42 4.12 RozkBad cechy sepal width przy miarze  gaussowskiej z wBczon opcj Marks.....45 4.13 Macierz wykresów rozproszonych..............................................................................47 4.14 Wykres koBowy oraz kolory odpowiadajce warto[ci cechy  tumor-size ...............48 4.15 Menu wyboru cech.......................................................................................................49 4.16 Okno dialogowe z informacj o okre[lonym kawaBku trzeciego okrgu z rys. 4.14...50 4.17 Menu wyboru grup warto[ci dla cechy  tumor-size ...................................................51 4.18 Dwa wykresy koBowe...................................................................................................52 56 Bibliografia Literatura: 1) T. Hill, P. Lewicki. STATISTICS Methods and Applications. Wydawnictwo StatSoft Inc., Tulsa, 2006. 2) S. Balakrishnama, A. Ganapathiraju, J. Picone. Linear discriminant analysis for signal processing problems . Southeastcon '99. Proceedings. IEEE, Lexington, 1999. 3) M. Lee, D. Vickers. Psychological Approaches to Data Visualization. Wydawnictwo DSTO Electronics and Surveillance Research Laboratory, Salisbury Lipiec 1998. 4) A. Naud. Neural and Statistical Methods for the Visualization of Multidimensional Data. Katedra Metod Komputerowych, Uniwersytet MikoBaja Kopernika, ToruD, 2001. http://www.phys.uni.torun.pl/publications/kmk/01phd-an.pdf. 5) W. Duch, Y. Hayashi. Computational Intelligence: Methods and Applications. Katedra Informatyki Stosowanej, Uniwersytet MikoBaja Kopernika w Toruniu, Katedra Informatyki, Uniwersytet Meiji. http://www.fizyka.umk.pl/publications/kmk/00koszyce.pdf 57 6) C. Ware. Information Visualization, Second Edition: Perception for Design. Wydawnictwo Morgan Kaufmann, San Francisco, KwiecieD 2004. Strony internetowe: 7) NIST/SEMATECH e-Handbook of Statistical Methods, http://www.itl.nist.gov/div898/handbook/ 8) http://pl.wikipedia.org/ 58

Wyszukiwarka

Podobne podstrony:
07 logistyka przemyslowa
PUBL rocznik statystyczny przemyslu 07(2)
07 Charakteryzowanie budowy pojazdów samochodowych
9 01 07 drzewa binarne
02 07
str 04 07 maruszewski
07 GIMP od podstaw, cz 4 Przekształcenia
07 Komórki abortowanych dzieci w Pepsi
07 Badanie „Polacy o ADHDâ€
CKE 07 Oryginalny arkusz maturalny PR Fizyka
07 Wszyscy jesteśmy obserwowani
R 05 07
07 kaertchen wortstellung hs

więcej podobnych podstron