background image

Metody normalizacji danych oraz 

techniki graficzne prezentacji 

danych wielowymiarowych

 

Wiesław Szczesny

Katedra Informatyki

Szkoła Główna Gospodarstwa 

Wiejskiego w Warszawie

e-mail: wieslaw_szczesny@sggw.pl 

background image

Najczęściej stosowane 

przekształcenia cech

• Unitaryzacja

                                     

lub

                      

• Standaryzacja

 

• Przekształcenie ilorazowe  (na R

+ 

)

• Rangowanie  (

w przypadku gdy mamy do czynienia ze skalą porządkową

)

gdzie i- oznacza numer obiektu, a - numer zmiennej (cechy). 

Wskaźnik syntetyczny W  jest najczęściej budowany jako suma lub suma ważona 

zmiennych  Z

j

 . Praktyczny sposób wykorzystania: 

podział funduszu premiowego na 

oddziały w korporacji wielooddziałowej 

•  

gdzie i- numer obiektu j – numer zmiennej 

2

ij

i

ij

i

ij

i

ij

ij

x

x

x

x

z

]

[

]

[

]

[

min

max

min

)

(

/

)

(

  

lub

  

)

(

/

)

(

j

j

ij

j

j

ij

X

S

X

x

X

S

X

x

ij

i

ij

i

ij

ij

i

ij

x

x

x

x

z

]

[

]

[

]

[

min

max

max

 

ij

j

j

ij

x

X

X

x

/

  

oraz

  

)

/

(

 

background image

Inne funkcje normujące - przykład 

zastosowania : 

zastosowanie  praktyczne: 

kontrakty menedżerskie MbO

Najczęściej wykorzystywane funkcje oceniające 

realizację wykonania rocznego zadnia (budżet) 

według poszczególnych ilościowych KPI (tzn. takich 

Kluczowych wskaźników, które mają wartości na 

skali przedziałowej) wykorzystują 3 standardy a, b 

(budżet) i c (a<b<c), którym przypisane jest 

odpowiednio 80, 100 i 120 punktów.    

Typowymi przykładami są funkcje określone 

następującymi wzorami: 



c

x

dla

c

x

b

(c-b)

(x-b)

b

x

a

(b-a)

(x-a)

a

x

dla

x

f

  

       

          

120

 

dla

    

100

 

 

dla

     

80

  

   

          

          

0

)

(



c

x

la

c

x

b

b

x

a

a

x

dla

x

g

  

d

         

120

 

dla

    

100

 

 

dla

     

80

  

   

          

0

)

(

background image

Sposoby normowania cech

Ogólnie  wielu  praktyków  postuluje  aby  normalizacja 
zachowywała  współzależność  (współczynnik  korelacji 
Pearsona)  oraz  podstawowe  wskaźniki  opisujące  kształt 
rozkładu (skośność i spłaszczenie).

 

Takie postulaty spełnia przekształcenie liniowe:

Łatwo  zauważyć,  że    przedstawione  3  przykłady 
normalizacji  (unitaryzacja,  standaryzacja,  przekształcenie 
ilorazowe  to  przekształcenia  liniowe  tego  typu.  Jednakże 
nie  zawsze  zależy  nam  na  spełnieniu  wymienionych 
postulatów.    Dlatego  np.  przy  ocenie  realizacji  zadań 
wykorzystuje  się  funkcje  wykorzystuje  się  m.  in  funkcje 
podane na poprzednim. Slajdzie.

n

i

b

a

x

z

j

j

ij

ij

,...,

1

    

,

background image

Sposoby porządkowania obiektów :

(konstrukcja wskaźników syntetycznych  przy założeniu 

iż wszystkie dane w tabeli danych są porównywalne, 

czyli została dokonana normalizacja.)

• Współczynnik syntetyczny (średnia  w wierszu ew. 

ważona)

• „Odległość” od wzorca negatywnego - Stymulanta
• „Odległość” od wzorca pozytywnego

 – 

Destymulanta

• Wskaźniki wykorzystujące oba wzorce 
• Wskaźniki oparte o pojęcie koncentracji
• Funkcje użyteczności
• Wskaźniki oparte o wizualizacje danych 

wielowymiarowych

Prezentacja struktur – co to jest? Jak otrzymuje się 

struktury?

Czy może przez przekształcenie ilorazowe? Jakie?

background image

Wizualizacja danych wielowymiarowych (wykresy 

radarowe, słupkowe)

background image

Wizualizacja danych wielowymiarowych (wykresy 

radarowe, słupkowe itp.)  c. d.

background image

Mapa wartości 

(lewa) 

i mapa 

nadreprezentacji 

(prawa).

Co to jest mapa nadreprezentacji będzie na następnych 

slajdach. W przypadku mapy danych wszystkie komórki mają 

jednakowe wymiary, natomiast  w przypadku mapy 

nadreprezentacji komórki  mają różne wymiary.

Z1

Z2

Z3

Z4

Z5

Z6

Z7

B1

B2

B3

B4

B5

B6

B7

B8

B9

B10

0.01

0.09

0.15

0.21

0.27

0.33

0.39

0.45

0.51

0.57

0.63

0.69

0.75

0.81

0.87

0.93

Z1

Z2

Z3 Z4

Z5

Z6

Z7

B1

B2

B3

B4

B5

B6

B7
B8
B9

B10

0.6

0.65

0.69

0.74

0.79

0.84

0.89

0.95

1.01

1.07

1.14

1.21

1.29

1.37

1.45

1.55

background image

Krótkie podsumowanie w zakresie 

graficznej  prezentacji zbiorów danych 

wielowymiarowych

• W przypadku małej liczby wymiarów 

(<=7) i malej liczby obiektów, to mogą to 
być: „pokolorowane skater ploty” , 
wykresy słupkowe, liniowe lub radarowe 
obok siebie  z ew. naniesioną wartością 
średnią w zbiorze, 

• W przypadku dużej liczby wymiarów i 

obiektów mogą to być mapy wartości lub 
mapy nad-reprezentacji (czyli gęstości 
prawdopodobieństwa na [0;1]x[0;1])

background image

Wykresy danych wielowymiarowych – 

struktura eksportu Polski

19

8

0

1

99

3

19

97

20

0

0

2

00

3

20

05

20

0

6

2

00

7

2

00

8

2

00

9

2

01

0

Polska

S2-00

S2-05

S2-03

S2-02

S2-09

S2-06

S2-01

S2-08

S2-07

S2-04

background image

Przykłady wykorzystania graficznej 

prezentacji danych do budowy wskaźników 

syntetycznych 

1. Gdyby szerokości prostokątów (rysunek lewy) były równe 

narzuconym wagom to pole tych  prostokątów będzie równe 
wskaźnikowi syntetycznemu W wykorzystującemu wagi. 

2. Czy skaźnik oparty o pole radaru ( prawy rysunek) będzie miał 

dobre własności? Np. czy jego wartość będzie zależeć od kolejności 
zmiennych? Jeśli tak czy to dobra własność?

background image

Przykłady wykorzystania graficznej prezentacji 

danych na wykresie radarowym do budowy 

wskaźnika syntetycznego

 

(wiecej o wskaźnikach radarowych można przeczytać w pracach Binderman, 

Borkowski Szczesny)

Dla ustalenia uwagi załóżmy że dysponujemy zmiennymi o wartościach z 

przedziału [0;1] – czyli są to dane  na przykład  po przekształceniu 

zwanym  unitaryzacja:

background image

13

Własności  tak zbudowanego wskaźnika 

syntetycznego

background image

14

Radarowy wskaźnik syntetyczny – kontynuacja 

przykładu dotyczącego  wrażliwości na 

kolejność cech

background image

15

Radarowy wskaźnik syntetyczny – kontynuacja 

przykładu dotyczącego  wrażliwości na 

kolejność cech

background image

16

Inne własności radarowego wskaźnika 

syntetycznego

background image

17

Jak zmodyfikować radarowy wskaźnik 

syntetyczny aby nie był  wrażliwy na kolejność 

cech?

background image

Miary niepodobieństwa obiektów 

(zakładamy że mamy już dane unormowane np.: unitaryzacja, standaryzacja, 

przekształcenie ilorazowe, rangowanie  (czyli ogólnie bądź przekształcenie liniowe 

aX+b lub według ściśle zadanej funkcji związanej z danym zagadnieniem)

Niech X oznacza dowolny, niepusty zbiór, funkcja

dla dowolnych elementów xy zbioru X spełnia 

następujące warunki:

1. 

2. 

3. 
taką funkcję d(x,y) można traktować, jako miarę 

zróżnicowania (niepodobieństwa) elementów x i y.

 

Jest ona czasami w literaturze także  nazywana jest krótko 

odległością, ale należy wyraźnie podkreślić iż nie jest to 
metryka
. Oczywiście, każda metryka jest odległością.

 

(x,y) 0,

d

:X X

: (

,

)

� � � = - �+�

d

(x,x) 0,

=

d

(x,y)

(y,x)

=

d

d

background image

Miary niepodobieństwa 

obiektów c.d. 

Średnicą zbioru X nazywamy liczbę .

Funkcję  nazywać będziemy miarą podobieństwa 

jeżeli dla dowolnych elementów xy zbioru X 

spełnia dwa następujące warunki:

s(x,x)=1,
s(x,y)=s(y,x).
Niech średnica zbioru X -  będzie skończona. 

Zauważmy, że korzystając z miary zróżnicowania 

elementów  d  określić można miarę 

podobieństwa przy pomocy wzoru:

W szczególnym przypadku, jeżeli                 to 

powyższy wzór przyjmuje postać:

X

X

,

: sup ( , )

x y

x y

r

=

d

X

x,y

x,y

1

(

)

(

) = -

r

d

d

s

X

1

r =

x,y

1

x,y

(

)

(

)

= -

d

s

d

background image

Miary niepodobieństwa 

obiektów c.d

Zatem można sprowadzić w każdym skończonym 

zbiorze do sytuacji, iż zarówno d jak i s mogą 
przyjmować wartości z przedziału [0;1]!

Przykład:
s_rho- znane powszechnie podobieństwo cech (wektory 

kolumnowe - podobieństwo) obliczone według wzoru na 
współczynnik korelacji Pearsona (wartości z przedziału [-
1;1] można unormować następująco:

          s= (1+s_rho)/2    lub        d=(1-s_rho)/2
wtedy tak określone miary mają wartości z przedziału [0;1].
Oczywiście można wprowadzić dużo różnych miar 

podobieństwa  i niepodobieństwa także 
wykorzystując intuicje związane z wizualizacją np. 
unormowane wspólne pole dwu wykresów  
radarowych wizualizujących dwa obiekty. 

background image

21

Wzorcowe metody porządkowania obiektów 

(czyli wskaźniki syntetyczne jako funkcje odległości od 

wzorców)

background image

22

Wzorcowe metody porządkowania obiektów 

c. d.  

background image

23

Wzorcowe metody porządkowania obiektów 

c. d.  

background image

24

Wzorcowe metody porządkowania obiektów 

c. d.

(w domu należy sprawdzić czy poniżej zapisane stwierdzenia są 

prawdziwe !)

  

background image

  

25

Niech Qi oznacza i-ty obiekt opisany przez wartości n cech w postaci 

wektora

x

(x

i1

,…, x

in

),  i =1,…, m, dodatkowo  niech x

 oraz 

 

x

m+1  

będą określone 

wzorem

background image

26

background image

27

background image

Wykresy danych wielowymiarowych – o 

tym co to jest mapa nadreprezentacji  i 

nie tylko 

19

8

0

19

93

19

97

2

00

0

20

03

20

05

20

06

20

07

2

00

8

20

09

2

01

0

Polska

S2-00

S2-05

S2-03

S2-02

S2-09

S2-06

S2-01

S2-08

S2-07

S2-04

Podstawowe intuicje – rozszerzenie idei 

pokazywanej na podstawie GAP – do obliczeń i 

ilustracji graficznej będzie wykorzystywany 

pakiet GradeStat

background image

Tabela 1. Wartość eksportu produktów rolnych w roku 

1991 i 2009. Struktura średnia m powstała jako 
średnia arytmetyczna odpowiednich współrzędnych 
wektorów p i q, a struktura średnia  m*  jako udział 
sumarycznej wartości sprzedaży poszczególnych grup 
produktów w  1991 i 2009 do wartości  sprzedaży 
ogółem w tych dwu latach.

Źródło: opracowanie własne na podstawie danych empirycznych, gdzie: żywiec (S2-00), mięso i 

wyroby mięsne (S2-01), jaja i nabiał (S2-02), ryby i owoce morza (S2-03), zboża i przetwory 
zbożowe (S2-04), warzywa i owoce (S2-05), cukier, wyroby cukiernicze i miód (S2-06), 
przyprawy i używki (S2-07), pasze (S2-08), tłuszcze i inne (S2-09)

background image

Graficznie zróżnicowanie obu struktur można przedstawić 

na 3 sposoby przy wykorzystaniu narzędzi GCCA. 

Pierwszym sposobem jest krzywa koncentracji 

(zróżnicowania) struktury  q względem struktury p. 

Jest  to łamana w kwadracie jednostkowym łącząca 

punkty (0;0), (p1;q1), (p1+p2;q1+q2),….,(p1+…pk;q1+

…+qk)=(1;1). Nachylenie kolejnych odcinków łamanej 

do osi OX  wyznacza iloraz hi=qi/pi (współczynnik 

kierunkowy odpowiedniej prostej). Oczywiście ilorazy 

hi=qi/pi mogą być rosnące ale mogą też przebiegać 

dowolnie. Na poniższym rysunku zamieszczamy krzywe 

koncentracji rozkładu q względem rozkładu p 

oznaczoną jako C(Fq:Fp) według uporządkowania jak w 

tab. 1, oraz krzywą maksymalnej koncentracji 

oznaczoną jako Cmax(Fq:Fp), która powstaje poprzez 

zmianę rosnącego uporządkowania przedziałów 

klasowych od takich które najwięcej tracą w strukturze 

do takich które najwięcej zyskują  tzn.  według 

wielkości ilorazu h(q:p)  z Tab. 1.  Po takim 

przestawieniu otrzymujemy  krzywą wypukłą. 

Natomiast symbolem C(Fp:Fm) oznaczymy krzywą 

zróżnicowania struktury względem struktury średniej 

według porządku grup produktów jak w tabeli 1.

background image

Rysunek 1. Krzywe zróżnicowania: (a) cienką linią 

C(Fq:Fp) oraz linią grubą Cmax(Fq:Fp), (b)  C(Fp:Fm)- 

linia cienka,  C(Fq:Fm)- linia gruba,

 

(a)

(b) 

 

Pierwszy rysunek

 

pokazuje bezpośrednie zróżnicowanie pomiędzy dwiema 

strukturami, a drugi zróżnicowanie w stosunku do struktury średniej, co jest 
wygodniejszym rozwiązaniem, jeśli chcemy wizualizować na jednym rysunku kilka 
struktur. Jeśli dwie struktury są identyczne to oczywiście zarówno krzywa 
zróżnicowania według ustalonego porządku współrzędnych jak i krzywa 
maksymalnego zróżnicowania pokrywają się z przekątna y = x. 

background image

Wskaźnik niepodobieństwa

 

strutur

Dlatego naturalnym liczbowym miernikiem 

zróżnicowania dwu struktur jest wskaźnik określony 
wzorem

:

gdzie C(u) oznacza funkcję opisującą krzywą 

koncentracji (zróżnicowania) dwu struktur (według 
zadanego przez badacza porządku współrzędnych). 
Zauważmy iż spełnione są  następujące nierówności 
dla dowolnych dwu wektorów p i q:

 

•   Cmax(Fq:Fp)(u)<= (C(Fq:Fp)(u) dla u[0;1] 
•             ar(Cmax(Fq:Fp))  ar(C(Fq:Fp).

,

)

)

(

2

1

)

)

(

(

2

)

(

1

0

1

0

du

u

C

du

u

C

u

C

ar

background image

Co to jest mapa nadreprezentacji?

Innym sposobem wizualizacji niepodobieństwa struktur jest tzw. 

mapa nad-reprezentacji. Obrazuje ona stosunek wartości wybranej 

składowej każdej ze struktur  do odpowiedniej wartości składowej 

ze struktury średniej. Czyli wizualizacja wierszy h(p:m) i h(q:m) 

lub h(p:m*) i h(q:m*)  z Tabeli 1 w postaci stopnia szarości.  

Wizualizację przedstawiają Rys. 2 i Rys. 3. Szerokość kolumn 

przedstawia wielkość poszczególnych składowych średniej 

struktury. Na Rys. 2 jest to struktura, która jest średnią 

arytmetyczną współrzędnych, a na Rys. 3 jest struktura, której 

składowe obliczono jako  udział wartości sprzedaży danej grupy 

produktów w obu latach do łącznej wartości sprzedaży produktów 

rolnych w tych latach.  Ponadto na Rys. 3 szerokość wiersza jest 

proporcjonalna do wartości sprzedaży w danym roku. Jest to 

wygodna forma przedstawiania zmian wielkości i struktury 

eksportu w okresie. Na Rys. 4 przedstawiono zmiany struktury i 

wartości eksportu w okresie 1980-2010 dla Polski i 6-ciu 

wybranych krajów europejskich. Szerokość wierszy jest 

proporcjonalna do struktury wartości eksportu w zakresie tych 10-

ciu grup produktów rolnych w okresie 31 lat, a szerokości kolumn 

są proporcjonalne do wartości całości eksportu produktów rolnych 

w poszczególnych latach.

background image

Rysunek 2. Mapa nad-reprezentacji struktury 

eksportu w roku 1991 i 2009 obrazująca stosunek 

wartości współrzędnych wektorów p i q w stosunku 

do średniej struktury m (średnia arytmetyczna 

współrzędnych wektorów p i q ).

Źródło: opracowanie własne przy wykorzystaniu programu 

GradeStat

S

2-

00

S

2-

01

S

2-

02

S

2-

0

3

S

2-

04

S

2-

05

S

2-

06

S

2-

0

8

1991

2009

0.2

0.54

0.9

1.51

2.54

4.25

background image

Rysunek 3. Mapa nad-reprezentacji struktury eksportu w 

roku  1991  i  2009  obrazująca  stosunek  wartości 

współrzędnych  wektorów  p  i  q  w  stosunku  do  średniej 

struktury  m*  uwzględniająca  wielkość  eksportu  w 

poszczególnych latach (szerokość wiersza).

S

2-

00

S

2-

01

S

2-

02

S

2-

03

S

2-

04

S

2-

05

S

2-

06

S

2-

08

1991

2009

0.2

0.54

0.9

1.51

2.54

4.25


Document Outline