Metody normalizacji danych oraz
techniki graficzne prezentacji
danych wielowymiarowych
Wiesław Szczesny
Katedra Informatyki
Szkoła Główna Gospodarstwa
Wiejskiego w Warszawie
e-mail: wieslaw_szczesny@sggw.pl
Najczęściej stosowane
przekształcenia cech
• Unitaryzacja
lub
• Standaryzacja
• Przekształcenie ilorazowe (na R
+
)
• Rangowanie (
w przypadku gdy mamy do czynienia ze skalą porządkową
)
gdzie i- oznacza numer obiektu, a j - numer zmiennej (cechy).
Wskaźnik syntetyczny W jest najczęściej budowany jako suma lub suma ważona
zmiennych Z
j
. Praktyczny sposób wykorzystania:
podział funduszu premiowego na
oddziały w korporacji wielooddziałowej
•
gdzie i- numer obiektu j – numer zmiennej
2
ij
i
ij
i
ij
i
ij
ij
x
x
x
x
z
]
[
]
[
]
[
min
max
min
)
(
/
)
(
lub
)
(
/
)
(
j
j
ij
j
j
ij
X
S
X
x
X
S
X
x
ij
i
ij
i
ij
ij
i
ij
x
x
x
x
z
]
[
]
[
]
[
min
max
max
ij
j
j
ij
x
X
X
x
/
oraz
)
/
(
Inne funkcje normujące - przykład
zastosowania :
zastosowanie praktyczne:
kontrakty menedżerskie MbO
Najczęściej wykorzystywane funkcje oceniające
realizację wykonania rocznego zadnia (budżet)
według poszczególnych ilościowych KPI (tzn. takich
Kluczowych wskaźników, które mają wartości na
skali przedziałowej) wykorzystują 3 standardy a, b
(budżet) i c (a<b<c), którym przypisane jest
odpowiednio 80, 100 i 120 punktów.
Typowymi przykładami są funkcje określone
następującymi wzorami:
c
x
dla
c
x
b
(c-b)
(x-b)
b
x
a
(b-a)
(x-a)
a
x
dla
x
f
120
dla
100
dla
80
0
)
(
c
x
la
c
x
b
b
x
a
a
x
dla
x
g
d
120
dla
100
dla
80
0
)
(
Sposoby normowania cech
Ogólnie wielu praktyków postuluje aby normalizacja
zachowywała współzależność (współczynnik korelacji
Pearsona) oraz podstawowe wskaźniki opisujące kształt
rozkładu (skośność i spłaszczenie).
Takie postulaty spełnia przekształcenie liniowe:
Łatwo zauważyć, że przedstawione 3 przykłady
normalizacji (unitaryzacja, standaryzacja, przekształcenie
ilorazowe to przekształcenia liniowe tego typu. Jednakże
nie zawsze zależy nam na spełnieniu wymienionych
postulatów. Dlatego np. przy ocenie realizacji zadań
wykorzystuje się funkcje wykorzystuje się m. in funkcje
podane na poprzednim. Slajdzie.
n
i
b
a
x
z
j
j
ij
ij
,...,
1
,
Sposoby porządkowania obiektów :
(konstrukcja wskaźników syntetycznych przy założeniu
iż wszystkie dane w tabeli danych są porównywalne,
czyli została dokonana normalizacja.)
• Współczynnik syntetyczny (średnia w wierszu ew.
ważona)
• „Odległość” od wzorca negatywnego - Stymulanta
• „Odległość” od wzorca pozytywnego
–
Destymulanta
• Wskaźniki wykorzystujące oba wzorce
• Wskaźniki oparte o pojęcie koncentracji
• Funkcje użyteczności
• Wskaźniki oparte o wizualizacje danych
wielowymiarowych
Prezentacja struktur – co to jest? Jak otrzymuje się
struktury?
Czy może przez przekształcenie ilorazowe? Jakie?
Wizualizacja danych wielowymiarowych (wykresy
radarowe, słupkowe)
Wizualizacja danych wielowymiarowych (wykresy
radarowe, słupkowe itp.) c. d.
Mapa wartości
(lewa)
i mapa
nadreprezentacji
(prawa).
Co to jest mapa nadreprezentacji będzie na następnych
slajdach. W przypadku mapy danych wszystkie komórki mają
jednakowe wymiary, natomiast w przypadku mapy
nadreprezentacji komórki mają różne wymiary.
Z1
Z2
Z3
Z4
Z5
Z6
Z7
B1
B2
B3
B4
B5
B6
B7
B8
B9
B10
0.01
0.09
0.15
0.21
0.27
0.33
0.39
0.45
0.51
0.57
0.63
0.69
0.75
0.81
0.87
0.93
Z1
Z2
Z3 Z4
Z5
Z6
Z7
B1
B2
B3
B4
B5
B6
B7
B8
B9
B10
0.6
0.65
0.69
0.74
0.79
0.84
0.89
0.95
1.01
1.07
1.14
1.21
1.29
1.37
1.45
1.55
Krótkie podsumowanie w zakresie
graficznej prezentacji zbiorów danych
wielowymiarowych
• W przypadku małej liczby wymiarów
(<=7) i malej liczby obiektów, to mogą to
być: „pokolorowane skater ploty” ,
wykresy słupkowe, liniowe lub radarowe
obok siebie z ew. naniesioną wartością
średnią w zbiorze,
• W przypadku dużej liczby wymiarów i
obiektów mogą to być mapy wartości lub
mapy nad-reprezentacji (czyli gęstości
prawdopodobieństwa na [0;1]x[0;1])
Wykresy danych wielowymiarowych –
struktura eksportu Polski
19
8
0
1
99
3
19
97
20
0
0
2
00
3
20
05
20
0
6
2
00
7
2
00
8
2
00
9
2
01
0
Polska
S2-00
S2-05
S2-03
S2-02
S2-09
S2-06
S2-01
S2-08
S2-07
S2-04
Przykłady wykorzystania graficznej
prezentacji danych do budowy wskaźników
syntetycznych
1. Gdyby szerokości prostokątów (rysunek lewy) były równe
narzuconym wagom to pole tych prostokątów będzie równe
wskaźnikowi syntetycznemu W wykorzystującemu wagi.
2. Czy skaźnik oparty o pole radaru ( prawy rysunek) będzie miał
dobre własności? Np. czy jego wartość będzie zależeć od kolejności
zmiennych? Jeśli tak czy to dobra własność?
Przykłady wykorzystania graficznej prezentacji
danych na wykresie radarowym do budowy
wskaźnika syntetycznego
(wiecej o wskaźnikach radarowych można przeczytać w pracach Binderman,
Borkowski Szczesny)
Dla ustalenia uwagi załóżmy że dysponujemy zmiennymi o wartościach z
przedziału [0;1] – czyli są to dane na przykład po przekształceniu
zwanym unitaryzacja:
13
Własności tak zbudowanego wskaźnika
syntetycznego
14
Radarowy wskaźnik syntetyczny – kontynuacja
przykładu dotyczącego wrażliwości na
kolejność cech
15
Radarowy wskaźnik syntetyczny – kontynuacja
przykładu dotyczącego wrażliwości na
kolejność cech
16
Inne własności radarowego wskaźnika
syntetycznego
17
Jak zmodyfikować radarowy wskaźnik
syntetyczny aby nie był wrażliwy na kolejność
cech?
Miary niepodobieństwa obiektów
(zakładamy że mamy już dane unormowane np.: unitaryzacja, standaryzacja,
przekształcenie ilorazowe, rangowanie (czyli ogólnie bądź przekształcenie liniowe
aX+b lub według ściśle zadanej funkcji związanej z danym zagadnieniem)
Niech X oznacza dowolny, niepusty zbiór, funkcja
dla dowolnych elementów x, y zbioru X spełnia
następujące warunki:
1.
2.
3.
taką funkcję d(x,y) można traktować, jako miarę
zróżnicowania (niepodobieństwa) elementów x i y.
Jest ona czasami w literaturze także nazywana jest krótko
odległością, ale należy wyraźnie podkreślić iż nie jest to
metryka. Oczywiście, każda metryka jest odległością.
(x,y) 0,
�
d
:X X
: (
,
)
� � � = - �+�
d
(x,x) 0,
=
d
(x,y)
(y,x)
=
d
d
Miary niepodobieństwa
obiektów c.d.
Średnicą zbioru X nazywamy liczbę .
Funkcję nazywać będziemy miarą podobieństwa
jeżeli dla dowolnych elementów x, y zbioru X
spełnia dwa następujące warunki:
s(x,x)=1,
s(x,y)=s(y,x).
Niech średnica zbioru X - będzie skończona.
Zauważmy, że korzystając z miary zróżnicowania
elementów d określić można miarę
podobieństwa przy pomocy wzoru:
W szczególnym przypadku, jeżeli to
powyższy wzór przyjmuje postać:
X
X
,
: sup ( , )
x y
x y
�
r
=
d
X
x,y
x,y
1
(
)
(
) = -
r
d
d
s
X
1
r =
x,y
1
x,y
(
)
(
)
= -
d
s
d
Miary niepodobieństwa
obiektów c.d
Zatem można sprowadzić w każdym skończonym
zbiorze do sytuacji, iż zarówno d jak i s mogą
przyjmować wartości z przedziału [0;1]!
Przykład:
s_rho- znane powszechnie podobieństwo cech (wektory
kolumnowe - podobieństwo) obliczone według wzoru na
współczynnik korelacji Pearsona (wartości z przedziału [-
1;1] można unormować następująco:
s= (1+s_rho)/2 lub d=(1-s_rho)/2
wtedy tak określone miary mają wartości z przedziału [0;1].
Oczywiście można wprowadzić dużo różnych miar
podobieństwa i niepodobieństwa także
wykorzystując intuicje związane z wizualizacją np.
unormowane wspólne pole dwu wykresów
radarowych wizualizujących dwa obiekty.
21
Wzorcowe metody porządkowania obiektów
(czyli wskaźniki syntetyczne jako funkcje odległości od
wzorców)
22
Wzorcowe metody porządkowania obiektów
c. d.
23
Wzorcowe metody porządkowania obiektów
c. d.
24
Wzorcowe metody porządkowania obiektów
c. d.
(w domu należy sprawdzić czy poniżej zapisane stwierdzenia są
prawdziwe !)
25
Niech Qi oznacza i-ty obiekt opisany przez wartości n cech w postaci
wektora
x
i
= (x
i1
,…, x
in
), i =1,…, m, dodatkowo niech x
0
oraz
x
m+1
będą określone
wzorem
:
26
27
Wykresy danych wielowymiarowych – o
tym co to jest mapa nadreprezentacji i
nie tylko
19
8
0
19
93
19
97
2
00
0
20
03
20
05
20
06
20
07
2
00
8
20
09
2
01
0
Polska
S2-00
S2-05
S2-03
S2-02
S2-09
S2-06
S2-01
S2-08
S2-07
S2-04
Podstawowe intuicje – rozszerzenie idei
pokazywanej na podstawie GAP – do obliczeń i
ilustracji graficznej będzie wykorzystywany
pakiet GradeStat
Tabela 1. Wartość eksportu produktów rolnych w roku
1991 i 2009. Struktura średnia m powstała jako
średnia arytmetyczna odpowiednich współrzędnych
wektorów p i q, a struktura średnia m* jako udział
sumarycznej wartości sprzedaży poszczególnych grup
produktów w 1991 i 2009 do wartości sprzedaży
ogółem w tych dwu latach.
Źródło: opracowanie własne na podstawie danych empirycznych, gdzie: żywiec (S2-00), mięso i
wyroby mięsne (S2-01), jaja i nabiał (S2-02), ryby i owoce morza (S2-03), zboża i przetwory
zbożowe (S2-04), warzywa i owoce (S2-05), cukier, wyroby cukiernicze i miód (S2-06),
przyprawy i używki (S2-07), pasze (S2-08), tłuszcze i inne (S2-09)
Graficznie zróżnicowanie obu struktur można przedstawić
na 3 sposoby przy wykorzystaniu narzędzi GCCA.
Pierwszym sposobem jest krzywa koncentracji
(zróżnicowania) struktury q względem struktury p.
Jest to łamana w kwadracie jednostkowym łącząca
punkty (0;0), (p1;q1), (p1+p2;q1+q2),….,(p1+…pk;q1+
…+qk)=(1;1). Nachylenie kolejnych odcinków łamanej
do osi OX wyznacza iloraz hi=qi/pi (współczynnik
kierunkowy odpowiedniej prostej). Oczywiście ilorazy
hi=qi/pi mogą być rosnące ale mogą też przebiegać
dowolnie. Na poniższym rysunku zamieszczamy krzywe
koncentracji rozkładu q względem rozkładu p
oznaczoną jako C(Fq:Fp) według uporządkowania jak w
tab. 1, oraz krzywą maksymalnej koncentracji
oznaczoną jako Cmax(Fq:Fp), która powstaje poprzez
zmianę rosnącego uporządkowania przedziałów
klasowych od takich które najwięcej tracą w strukturze
do takich które najwięcej zyskują tzn. według
wielkości ilorazu h(q:p) z Tab. 1. Po takim
przestawieniu otrzymujemy krzywą wypukłą.
Natomiast symbolem C(Fp:Fm) oznaczymy krzywą
zróżnicowania struktury p względem struktury średniej
m według porządku grup produktów jak w tabeli 1.
Rysunek 1. Krzywe zróżnicowania: (a) cienką linią
C(Fq:Fp) oraz linią grubą Cmax(Fq:Fp), (b) C(Fp:Fm)-
linia cienka, C(Fq:Fm)- linia gruba,
(a)
(b)
Pierwszy rysunek
pokazuje bezpośrednie zróżnicowanie pomiędzy dwiema
strukturami, a drugi zróżnicowanie w stosunku do struktury średniej, co jest
wygodniejszym rozwiązaniem, jeśli chcemy wizualizować na jednym rysunku kilka
struktur. Jeśli dwie struktury są identyczne to oczywiście zarówno krzywa
zróżnicowania według ustalonego porządku współrzędnych jak i krzywa
maksymalnego zróżnicowania pokrywają się z przekątna y = x.
Wskaźnik niepodobieństwa
strutur
Dlatego naturalnym liczbowym miernikiem
zróżnicowania dwu struktur jest wskaźnik określony
wzorem
:
gdzie C(u) oznacza funkcję opisującą krzywą
koncentracji (zróżnicowania) dwu struktur (według
zadanego przez badacza porządku współrzędnych).
Zauważmy iż spełnione są następujące nierówności
dla dowolnych dwu wektorów p i q:
• Cmax(Fq:Fp)(u)<= (C(Fq:Fp)(u) dla u[0;1]
• ar(Cmax(Fq:Fp)) ar(C(Fq:Fp).
,
)
)
(
2
1
)
)
(
(
2
)
(
1
0
1
0
du
u
C
du
u
C
u
C
ar
Co to jest mapa nadreprezentacji?
Innym sposobem wizualizacji niepodobieństwa struktur jest tzw.
mapa nad-reprezentacji. Obrazuje ona stosunek wartości wybranej
składowej każdej ze struktur do odpowiedniej wartości składowej
ze struktury średniej. Czyli wizualizacja wierszy h(p:m) i h(q:m)
lub h(p:m*) i h(q:m*) z Tabeli 1 w postaci stopnia szarości.
Wizualizację przedstawiają Rys. 2 i Rys. 3. Szerokość kolumn
przedstawia wielkość poszczególnych składowych średniej
struktury. Na Rys. 2 jest to struktura, która jest średnią
arytmetyczną współrzędnych, a na Rys. 3 jest struktura, której
składowe obliczono jako udział wartości sprzedaży danej grupy
produktów w obu latach do łącznej wartości sprzedaży produktów
rolnych w tych latach. Ponadto na Rys. 3 szerokość wiersza jest
proporcjonalna do wartości sprzedaży w danym roku. Jest to
wygodna forma przedstawiania zmian wielkości i struktury
eksportu w okresie. Na Rys. 4 przedstawiono zmiany struktury i
wartości eksportu w okresie 1980-2010 dla Polski i 6-ciu
wybranych krajów europejskich. Szerokość wierszy jest
proporcjonalna do struktury wartości eksportu w zakresie tych 10-
ciu grup produktów rolnych w okresie 31 lat, a szerokości kolumn
są proporcjonalne do wartości całości eksportu produktów rolnych
w poszczególnych latach.
Rysunek 2. Mapa nad-reprezentacji struktury
eksportu w roku 1991 i 2009 obrazująca stosunek
wartości współrzędnych wektorów p i q w stosunku
do średniej struktury m (średnia arytmetyczna
współrzędnych wektorów p i q ).
Źródło: opracowanie własne przy wykorzystaniu programu
GradeStat
S
2-
00
S
2-
01
S
2-
02
S
2-
0
3
S
2-
04
S
2-
05
S
2-
06
S
2-
0
8
1991
2009
0.2
0.54
0.9
1.51
2.54
4.25
Rysunek 3. Mapa nad-reprezentacji struktury eksportu w
roku 1991 i 2009 obrazująca stosunek wartości
współrzędnych wektorów p i q w stosunku do średniej
struktury m* uwzględniająca wielkość eksportu w
poszczególnych latach (szerokość wiersza).
S
2-
00
S
2-
01
S
2-
02
S
2-
03
S
2-
04
S
2-
05
S
2-
06
S
2-
08
1991
2009
0.2
0.54
0.9
1.51
2.54
4.25