Normalizacja i graficzne prezentacje danych wielowymiarowych

background image

Metody normalizacji danych oraz

techniki graficzne prezentacji

danych wielowymiarowych

Wiesław Szczesny

Katedra Informatyki

Szkoła Główna Gospodarstwa

Wiejskiego w Warszawie

e-mail: wieslaw_szczesny@sggw.pl

background image

Najczęściej stosowane

przekształcenia cech

Unitaryzacja

lub

Standaryzacja

Przekształcenie ilorazowe (na R

+

)

Rangowanie (

w przypadku gdy mamy do czynienia ze skalą porządkową

)

gdzie i- oznacza numer obiektu, a j - numer zmiennej (cechy).

Wskaźnik syntetyczny W jest najczęściej budowany jako suma lub suma ważona

zmiennych Z

j

. Praktyczny sposób wykorzystania:

podział funduszu premiowego na

oddziały w korporacji wielooddziałowej

gdzie i- numer obiektu j – numer zmiennej

2

ij

i

ij

i

ij

i

ij

ij

x

x

x

x

z

]

[

]

[

]

[

min

max

min

)

(

/

)

(

lub

)

(

/

)

(

j

j

ij

j

j

ij

X

S

X

x

X

S

X

x

ij

i

ij

i

ij

ij

i

ij

x

x

x

x

z

]

[

]

[

]

[

min

max

max

ij

j

j

ij

x

X

X

x

/

oraz

)

/

(

background image

Inne funkcje normujące - przykład

zastosowania :

zastosowanie praktyczne:

kontrakty menedżerskie MbO

Najczęściej wykorzystywane funkcje oceniające

realizację wykonania rocznego zadnia (budżet)

według poszczególnych ilościowych KPI (tzn. takich

Kluczowych wskaźników, które mają wartości na

skali przedziałowej) wykorzystują 3 standardy a, b

(budżet) i c (a<b<c), którym przypisane jest

odpowiednio 80, 100 i 120 punktów.

Typowymi przykładami są funkcje określone

następującymi wzorami:



c

x

dla

c

x

b

(c-b)

(x-b)

b

x

a

(b-a)

(x-a)

a

x

dla

x

f

120

dla

100

dla

80

0

)

(



c

x

la

c

x

b

b

x

a

a

x

dla

x

g

d

120

dla

100

dla

80

0

)

(

background image

Sposoby normowania cech

Ogólnie wielu praktyków postuluje aby normalizacja
zachowywała współzależność (współczynnik korelacji
Pearsona) oraz podstawowe wskaźniki opisujące kształt
rozkładu (skośność i spłaszczenie).

Takie postulaty spełnia przekształcenie liniowe:

Łatwo zauważyć, że przedstawione 3 przykłady
normalizacji (unitaryzacja, standaryzacja, przekształcenie
ilorazowe to przekształcenia liniowe tego typu. Jednakże
nie zawsze zależy nam na spełnieniu wymienionych
postulatów. Dlatego np. przy ocenie realizacji zadań
wykorzystuje się funkcje wykorzystuje się m. in funkcje
podane na poprzednim. Slajdzie.

n

i

b

a

x

z

j

j

ij

ij

,...,

1

,

background image

Sposoby porządkowania obiektów :

(konstrukcja wskaźników syntetycznych przy założeniu

iż wszystkie dane w tabeli danych są porównywalne,

czyli została dokonana normalizacja.)

• Współczynnik syntetyczny (średnia w wierszu ew.

ważona)

• „Odległość” od wzorca negatywnego - Stymulanta
• „Odległość” od wzorca pozytywnego

Destymulanta

• Wskaźniki wykorzystujące oba wzorce
• Wskaźniki oparte o pojęcie koncentracji
• Funkcje użyteczności
• Wskaźniki oparte o wizualizacje danych

wielowymiarowych

Prezentacja struktur – co to jest? Jak otrzymuje się

struktury?

Czy może przez przekształcenie ilorazowe? Jakie?

background image

Wizualizacja danych wielowymiarowych (wykresy

radarowe, słupkowe)

background image

Wizualizacja danych wielowymiarowych (wykresy

radarowe, słupkowe itp.) c. d.

background image

Mapa wartości

(lewa)

i mapa

nadreprezentacji

(prawa).

Co to jest mapa nadreprezentacji będzie na następnych

slajdach. W przypadku mapy danych wszystkie komórki mają

jednakowe wymiary, natomiast w przypadku mapy

nadreprezentacji komórki mają różne wymiary.

Z1

Z2

Z3

Z4

Z5

Z6

Z7

B1

B2

B3

B4

B5

B6

B7

B8

B9

B10

0.01

0.09

0.15

0.21

0.27

0.33

0.39

0.45

0.51

0.57

0.63

0.69

0.75

0.81

0.87

0.93

Z1

Z2

Z3 Z4

Z5

Z6

Z7

B1

B2

B3

B4

B5

B6

B7
B8
B9

B10

0.6

0.65

0.69

0.74

0.79

0.84

0.89

0.95

1.01

1.07

1.14

1.21

1.29

1.37

1.45

1.55

background image

Krótkie podsumowanie w zakresie

graficznej prezentacji zbiorów danych

wielowymiarowych

• W przypadku małej liczby wymiarów

(<=7) i malej liczby obiektów, to mogą to
być: „pokolorowane skater ploty” ,
wykresy słupkowe, liniowe lub radarowe
obok siebie z ew. naniesioną wartością
średnią w zbiorze,

• W przypadku dużej liczby wymiarów i

obiektów mogą to być mapy wartości lub
mapy nad-reprezentacji (czyli gęstości
prawdopodobieństwa na [0;1]x[0;1])

background image

Wykresy danych wielowymiarowych –

struktura eksportu Polski

19

8

0

1

99

3

19

97

20

0

0

2

00

3

20

05

20

0

6

2

00

7

2

00

8

2

00

9

2

01

0

Polska

S2-00

S2-05

S2-03

S2-02

S2-09

S2-06

S2-01

S2-08

S2-07

S2-04

background image

Przykłady wykorzystania graficznej

prezentacji danych do budowy wskaźników

syntetycznych

1. Gdyby szerokości prostokątów (rysunek lewy) były równe

narzuconym wagom to pole tych prostokątów będzie równe
wskaźnikowi syntetycznemu W wykorzystującemu wagi.

2. Czy skaźnik oparty o pole radaru ( prawy rysunek) będzie miał

dobre własności? Np. czy jego wartość będzie zależeć od kolejności
zmiennych? Jeśli tak czy to dobra własność?

background image

Przykłady wykorzystania graficznej prezentacji

danych na wykresie radarowym do budowy

wskaźnika syntetycznego

(wiecej o wskaźnikach radarowych można przeczytać w pracach Binderman,

Borkowski Szczesny)

Dla ustalenia uwagi załóżmy że dysponujemy zmiennymi o wartościach z

przedziału [0;1] – czyli są to dane na przykład po przekształceniu

zwanym unitaryzacja:

background image

13

Własności tak zbudowanego wskaźnika

syntetycznego

background image

14

Radarowy wskaźnik syntetyczny – kontynuacja

przykładu dotyczącego wrażliwości na

kolejność cech

background image

15

Radarowy wskaźnik syntetyczny – kontynuacja

przykładu dotyczącego wrażliwości na

kolejność cech

background image

16

Inne własności radarowego wskaźnika

syntetycznego

background image

17

Jak zmodyfikować radarowy wskaźnik

syntetyczny aby nie był wrażliwy na kolejność

cech?

background image

Miary niepodobieństwa obiektów

(zakładamy że mamy już dane unormowane np.: unitaryzacja, standaryzacja,

przekształcenie ilorazowe, rangowanie (czyli ogólnie bądź przekształcenie liniowe

aX+b lub według ściśle zadanej funkcji związanej z danym zagadnieniem)

Niech X oznacza dowolny, niepusty zbiór, funkcja

dla dowolnych elementów x, y zbioru X spełnia

następujące warunki:

1.

2.

3.
taką funkcję d(x,y) można traktować, jako miarę

zróżnicowania (niepodobieństwa) elementów x i y.

Jest ona czasami w literaturze także nazywana jest krótko

odległością, ale należy wyraźnie podkreślić iż nie jest to
metryka
. Oczywiście, każda metryka jest odległością.

(x,y) 0,

d

:X X

: (

,

)

� � � = - �+�

d

(x,x) 0,

=

d

(x,y)

(y,x)

=

d

d

background image

Miary niepodobieństwa

obiektów c.d.

Średnicą zbioru X nazywamy liczbę .

Funkcję nazywać będziemy miarą podobieństwa

jeżeli dla dowolnych elementów x, y zbioru X

spełnia dwa następujące warunki:

s(x,x)=1,
s(x,y)=s(y,x).
Niech średnica zbioru X - będzie skończona.

Zauważmy, że korzystając z miary zróżnicowania

elementów d określić można miarę

podobieństwa przy pomocy wzoru:

W szczególnym przypadku, jeżeli to

powyższy wzór przyjmuje postać:

X

X

,

: sup ( , )

x y

x y

r

=

d

X

x,y

x,y

1

(

)

(

) = -

r

d

d

s

X

1

r =

x,y

1

x,y

(

)

(

)

= -

d

s

d

background image

Miary niepodobieństwa

obiektów c.d

Zatem można sprowadzić w każdym skończonym

zbiorze do sytuacji, iż zarówno d jak i s mogą
przyjmować wartości z przedziału [0;1]!

Przykład:
s_rho- znane powszechnie podobieństwo cech (wektory

kolumnowe - podobieństwo) obliczone według wzoru na
współczynnik korelacji Pearsona (wartości z przedziału [-
1;1] można unormować następująco:

s= (1+s_rho)/2 lub d=(1-s_rho)/2
wtedy tak określone miary mają wartości z przedziału [0;1].
Oczywiście można wprowadzić dużo różnych miar

podobieństwa i niepodobieństwa także
wykorzystując intuicje związane z wizualizacją np.
unormowane wspólne pole dwu wykresów
radarowych wizualizujących dwa obiekty.

background image

21

Wzorcowe metody porządkowania obiektów

(czyli wskaźniki syntetyczne jako funkcje odległości od

wzorców)

background image

22

Wzorcowe metody porządkowania obiektów

c. d.

background image

23

Wzorcowe metody porządkowania obiektów

c. d.

background image

24

Wzorcowe metody porządkowania obiektów

c. d.

(w domu należy sprawdzić czy poniżej zapisane stwierdzenia są

prawdziwe !)

background image

25

Niech Qi oznacza i-ty obiekt opisany przez wartości n cech w postaci

wektora

x

i

= (x

i1

,…, x

in

), i =1,…, m, dodatkowo niech x

0

oraz

x

m+1

będą określone

wzorem

:

background image

26

background image

27

background image

Wykresy danych wielowymiarowych – o

tym co to jest mapa nadreprezentacji i

nie tylko

19

8

0

19

93

19

97

2

00

0

20

03

20

05

20

06

20

07

2

00

8

20

09

2

01

0

Polska

S2-00

S2-05

S2-03

S2-02

S2-09

S2-06

S2-01

S2-08

S2-07

S2-04

Podstawowe intuicje – rozszerzenie idei

pokazywanej na podstawie GAP – do obliczeń i

ilustracji graficznej będzie wykorzystywany

pakiet GradeStat

background image

Tabela 1. Wartość eksportu produktów rolnych w roku

1991 i 2009. Struktura średnia m powstała jako
średnia arytmetyczna odpowiednich współrzędnych
wektorów p i q, a struktura średnia m* jako udział
sumarycznej wartości sprzedaży poszczególnych grup
produktów w 1991 i 2009 do wartości sprzedaży
ogółem w tych dwu latach.

Źródło: opracowanie własne na podstawie danych empirycznych, gdzie: żywiec (S2-00), mięso i

wyroby mięsne (S2-01), jaja i nabiał (S2-02), ryby i owoce morza (S2-03), zboża i przetwory
zbożowe (S2-04), warzywa i owoce (S2-05), cukier, wyroby cukiernicze i miód (S2-06),
przyprawy i używki (S2-07), pasze (S2-08), tłuszcze i inne (S2-09)

background image

Graficznie zróżnicowanie obu struktur można przedstawić

na 3 sposoby przy wykorzystaniu narzędzi GCCA.

Pierwszym sposobem jest krzywa koncentracji

(zróżnicowania) struktury q względem struktury p.

Jest to łamana w kwadracie jednostkowym łącząca

punkty (0;0), (p1;q1), (p1+p2;q1+q2),….,(p1+…pk;q1+

…+qk)=(1;1). Nachylenie kolejnych odcinków łamanej

do osi OX wyznacza iloraz hi=qi/pi (współczynnik

kierunkowy odpowiedniej prostej). Oczywiście ilorazy

hi=qi/pi mogą być rosnące ale mogą też przebiegać

dowolnie. Na poniższym rysunku zamieszczamy krzywe

koncentracji rozkładu q względem rozkładu p

oznaczoną jako C(Fq:Fp) według uporządkowania jak w

tab. 1, oraz krzywą maksymalnej koncentracji

oznaczoną jako Cmax(Fq:Fp), która powstaje poprzez

zmianę rosnącego uporządkowania przedziałów

klasowych od takich które najwięcej tracą w strukturze

do takich które najwięcej zyskują tzn. według

wielkości ilorazu h(q:p) z Tab. 1. Po takim

przestawieniu otrzymujemy krzywą wypukłą.

Natomiast symbolem C(Fp:Fm) oznaczymy krzywą

zróżnicowania struktury p względem struktury średniej

m według porządku grup produktów jak w tabeli 1.

background image

Rysunek 1. Krzywe zróżnicowania: (a) cienką linią

C(Fq:Fp) oraz linią grubą Cmax(Fq:Fp), (b) C(Fp:Fm)-

linia cienka, C(Fq:Fm)- linia gruba,

(a)

(b)

Pierwszy rysunek

pokazuje bezpośrednie zróżnicowanie pomiędzy dwiema

strukturami, a drugi zróżnicowanie w stosunku do struktury średniej, co jest
wygodniejszym rozwiązaniem, jeśli chcemy wizualizować na jednym rysunku kilka
struktur. Jeśli dwie struktury są identyczne to oczywiście zarówno krzywa
zróżnicowania według ustalonego porządku współrzędnych jak i krzywa
maksymalnego zróżnicowania pokrywają się z przekątna y = x.

background image

Wskaźnik niepodobieństwa

strutur

Dlatego naturalnym liczbowym miernikiem

zróżnicowania dwu struktur jest wskaźnik określony
wzorem

:

gdzie C(u) oznacza funkcję opisującą krzywą

koncentracji (zróżnicowania) dwu struktur (według
zadanego przez badacza porządku współrzędnych).
Zauważmy iż spełnione są następujące nierówności
dla dowolnych dwu wektorów p i q:

• Cmax(Fq:Fp)(u)<= (C(Fq:Fp)(u) dla u[0;1]
• ar(Cmax(Fq:Fp))  ar(C(Fq:Fp).

,

)

)

(

2

1

)

)

(

(

2

)

(

1

0

1

0

du

u

C

du

u

C

u

C

ar

background image

Co to jest mapa nadreprezentacji?

Innym sposobem wizualizacji niepodobieństwa struktur jest tzw.

mapa nad-reprezentacji. Obrazuje ona stosunek wartości wybranej

składowej każdej ze struktur do odpowiedniej wartości składowej

ze struktury średniej. Czyli wizualizacja wierszy h(p:m) i h(q:m)

lub h(p:m*) i h(q:m*) z Tabeli 1 w postaci stopnia szarości.

Wizualizację przedstawiają Rys. 2 i Rys. 3. Szerokość kolumn

przedstawia wielkość poszczególnych składowych średniej

struktury. Na Rys. 2 jest to struktura, która jest średnią

arytmetyczną współrzędnych, a na Rys. 3 jest struktura, której

składowe obliczono jako udział wartości sprzedaży danej grupy

produktów w obu latach do łącznej wartości sprzedaży produktów

rolnych w tych latach. Ponadto na Rys. 3 szerokość wiersza jest

proporcjonalna do wartości sprzedaży w danym roku. Jest to

wygodna forma przedstawiania zmian wielkości i struktury

eksportu w okresie. Na Rys. 4 przedstawiono zmiany struktury i

wartości eksportu w okresie 1980-2010 dla Polski i 6-ciu

wybranych krajów europejskich. Szerokość wierszy jest

proporcjonalna do struktury wartości eksportu w zakresie tych 10-

ciu grup produktów rolnych w okresie 31 lat, a szerokości kolumn

są proporcjonalne do wartości całości eksportu produktów rolnych

w poszczególnych latach.

background image

Rysunek 2. Mapa nad-reprezentacji struktury

eksportu w roku 1991 i 2009 obrazująca stosunek

wartości współrzędnych wektorów p i q w stosunku

do średniej struktury m (średnia arytmetyczna

współrzędnych wektorów p i q ).

Źródło: opracowanie własne przy wykorzystaniu programu

GradeStat

S

2-

00

S

2-

01

S

2-

02

S

2-

0

3

S

2-

04

S

2-

05

S

2-

06

S

2-

0

8

1991

2009

0.2

0.54

0.9

1.51

2.54

4.25

background image

Rysunek 3. Mapa nad-reprezentacji struktury eksportu w

roku 1991 i 2009 obrazująca stosunek wartości

współrzędnych wektorów p i q w stosunku do średniej

struktury m* uwzględniająca wielkość eksportu w

poszczególnych latach (szerokość wiersza).

S

2-

00

S

2-

01

S

2-

02

S

2-

03

S

2-

04

S

2-

05

S

2-

06

S

2-

08

1991

2009

0.2

0.54

0.9

1.51

2.54

4.25


Document Outline


Wyszukiwarka

Podobne podstrony:
Graficzna prezentacja danych, Logistyka
Graficzna prezentacja danych st Nieznany
Metody graficznej prezentacji danych statystycznych
4. Graficzne i tabelaryczne metody prezentacji danych statystycznych, licencjat(1)
Tablice statystyczne oraz metody graficzne jako narzędzie opisu i prezentacji danych statystycznych
wyklad 2 Prezentacja danych PL
02 PREZENTACJA DANYCH STATYSTYCZNYCH
Graficzna prezentacja wyników pomiarów
15 Graficzna prezentacja wynikow pomiarow
Analiza warunków technicznych elementów nawierzchni kolejowej oraz graficzna prezentacja
05 Normalizacja struktury bazy danych (AC)
Metody Metody prezentacji danych statystycznych, BHP Ula
praca semestralna - metody prezentacji danych statystycznych, SPIS TREŚCI
Graficzna prezentacja wyników pomiarów
Prezentacja danych statystycznych
Z1 Graficzna prezentacja algorytmów

więcej podobnych podstron