skrypt lab IV


Ćwiczenie nr 10:
ANALIZA GAÓWNYCH SKAADOWYCH
Celem przedostatniego ćwiczenia laboratoryjnego jest wykonanie analizy podobieństwa
cech i obiektów metodą o największym ciężarze gatunkowym, jaką jest analiza głównych
składowych (ang. Principle Component Analysis, PCA). Realizacja tego celu gwarantuje masę
zabawy i niezapomnianych wrażeń.
I. PRZYGOTOWANIE DANYCH DO PROGRAMU PCA.EXE.
Należy przygotować dwa pliki danych wejściowych do programu PCA.EXE. Pierwszy
plik, o przykładowej nazwie dane.nzw (wymagane jest rozszerzenie *.nzw26), powinien
zawierać nazwy wszystkich obiektów, umieszczone w kolumnie. Długość nazwy obiektu nie
może przekraczać ośmiu znaków. Drugi plik, o przykładowej nazwie dane.txt (nazwa
pierwszego pliku musi pokrywać się z nazwą drugiego - powinny różnić się jedynie
rozszerzeniami!) powinien zawierać wartości z tabeli danych autoskalowanych  bez nazw
zmiennych oraz obliczonych wartości średnich i odchyleń standardowych. Koniecznie trzeba
pamiętać, aby w pliku dane.txt zamienić przecinki na kropki!
II. WYKONANIE OBLICZEC.
Po przygotowaniu dwóch plików z danymi wejściowymi, należy umieścić je w tym
samym folderze, w którym znajduje się PCA.EXE, a następnie uruchomić program. W wyniku
tych działań wywiąże się kolejna, pełna wzajemnego szacunku dyskusja pomiędzy Studentem a
programem PCA.EXE.
PCA: ANALIZA CZYNNIKÓW!
STUDENT:
PCA: Ilosc zmiennych&
STUDENT:
PCA: Liczba obiektow&
STUDENT:
PCA: Zapis wynikow?
STUDENT: t
PCA: Nazwa pliku wynikowego:
STUDENT: wynikowego, złożoną z maksymalnie 8 znaków, wpisuje
jÄ… i naciska Enter>
26
Częstym problemem, który pojawia się w trakcie zajęć, a który nadzwyczaj skutecznie zniechęca
program PCA.EXE do działania, jest przygotowywanie pliku o nazwie dane.nzw.txt, zamiast
dane.nzw. Aby przygotować plik z rozszerzeniem *.nzw, należy otworzyć Notatnik, umieścić w oknie
wymaganą zawartość, a następnie wybrać opcję Zapisz jako& , zaś typ pliku ustawić na Wszystkie
pliki (*.*). Dopiero przy takich ustawieniach podanie nazwy pliku jako dane.nzw zaowocuje
utworzeniem pliku o pożądanym rozszerzeniu.
77
PCA: WCZYTANIE DANYCH.
Nazwa zestawu obiektow&
STUDENT: rozszerzenia, np.> dane
PCA: Nazwa zmiennej 1:
STUDENT: autoskalowanych stanowi pierwszÄ… kolumnÄ™ od lewej i
naciska Enter>
PCA:
STUDENT:
PCA: drukujemy?
STUDENT: t
PCA: Liczymy
dalej?
STUDENT: t
PCA: pytanie:> Liczymy dalej? t PCA wyświetli następujący komunikat:>
n-ta27 skladowa
n-ta wartosc wlasna: 0.0000
wyjasnia 0.0% zmiennosci
dotychczasowe składowe: 100%
Odchylenie resztowe: 0.00
Liczymy dalej?
STUDENT: n
PCA: Ile składowych
uznajesz za istotne?
STUDENT: tabeli, tj. wartości wlasne oraz sumaryczny % , a
następnie podejmuje decyzję:>
1) większe od 1 oraz druga od lewej wartość w
wierszu sumaryczny % jest bliska 90, odpowiada:>
2
2) większe od 1, i/lub druga od lewej wartość w
wierszu sumaryczny % jest na poziomie 60-70 
odpowiada:> 3
3) 4
PCA: pyta> drukujemy?
STUDENT: t
PCA: Wykonac Varimax?
STUDENT: t
PCA: po rotacji VARIMAX>
27
Jeżeli wszystko zostało wykonane poprawnie, w miejscu n pojawi się wartość o jeden większa, nizli
liczba zmiennych. Oznacza to, że liczba składowych, które wyjaśniają więcej, nizli 0,0% zmienności, jest
dokładnie taka, jak liczba zmiennych.
78
STUDENT:
PCA: Drukowac?
STUDENT: t
PCA: UZYSKANE CZYNNIKI:

Drukujemy?
STUDENT: t
PCA: NOWY ZESTAW?
STUDENT: n
PCA:
STUDENT:
PROWADZCY:
III. WYKRES ZMIENNYCH W PRZESTRZENI VARIWEKTORÓW I MAPA
LINIOWA OBIEKTÓW.
Wyniki wykonanych w sekcji II obliczeń zostały umieszczone w pliku wynikowym o
rozszerzeniu *.OUT.
Przykład:
Zestaw MIECZE, który zawiera 7 zmiennych i 20 obiektów, poddaliśmy
analizie głównych składowych. Po wykonaniu obliczeń i uwzględnieniu
dwóch pierwszych składowych jako istotnych, otrzymaliśmy następujące
wyniki:
G L O W N E S K L A D O W E
Odchylenie ogolne = 0.97
wartosci wlasne: 4.7770 0.8973 0.4589 0.2813
% informacji 71.84 13.49 6.90 4.23
sumaryczny % 71.84 85.33 92.23 96.46
resztowe od.sta. 0.5587 0.4417 0.3594 0.2800
Za istotne uznano 2 skladowe !
Po udzieleniu pozytywnej odpowiedzi na propozycje wykonania
rotacji VARIMAX otrzymaliśmy następujące wyniki końcowe:
Ladunki skladowych Dlugosc skladowych
(DC*) 0.9431 0.1077 0.9493
(DG*) 0.8947 0.1244 0.9033
(DR) 0.7540 0.1157 0.7629
(M) 0.9361 0.0104 0.9362
79
(SM) 0.8455 -0.1693 0.8623
(T) 0.9053 0.0658 0.9077
(CR*) 0.2357 0.9359 0.9652
W Y L I C Z O N E C Z Y N N I K I :
czyn 1 czyn 2
AER 0.280 1.193
AND 7.024 -1.922
AZU -4.121 -0.356
BAL -3.552 -1.104
DUR -2.434 -0.742
EXC 1.878 0.545
GLA 1.604 0.224
GOL -2.613 1.517
GRA -1.066 -0.711
GUR 0.447 -0.014
GWY -3.005 0.152
HER -4.276 -1.028
HUR -3.536 -0.360
JOY -2.483 -1.090
LOD -1.884 -0.565
ORK 2.526 0.627
SIH 1.691 0.119
UMB 12.580 1.996
URI 8.649 2.100
ZAD -7.709 -0.581
Na końcu pliku wynikowego programu PCA.EXE znajdują się dwie tabele.
Kolejne wiersze pierwszej z nich odpowiadajÄ… kolejnym zmiennym w przestrzeni
dwóch lub trzech pierwszych variwektorów. Zmienne te są reprezentowane przez wektory o
składowych równych obliczonym ładunkom (po rotacji VARIMAX) i mogą nadawać
znaczenia (interpretacje) poszczególnym variwektorom.
Aby wykonać wykres zmiennych w przestrzeni variwektorów, należy nanieść te
wektory na układ współrzędnych, którego osie reprezentują dwa lub trzy pierwsze
variwektory28.
Przykład, c.d.:
Wykonujemy wykres zmiennych zestawu MIECZE w przestrzeni dwóch
pierwszych variwektorów:
28
Istnieje uzasadnione niebezpieczeństwo, że za istotne zostaną uznane trzy pierwsze główne składowe.
Będzie to wiązało się z koniecznością wykonania wykresów trójwymiarowych (XYZ). Instrukcja
stworzenia ich w Excelu (a dokładniej: ich iluzji) znajduje się w Dodatku E na końcu niniejszej instrukcji.
80
Cena repliki (CR*) wyraznie odbiega od pozostałych cech,
samodzielnie nadając znaczenie osi pionowej (vwII). Pozostałe zmienne
zgrupowały się wokół osi poziomej (vwI), nadając jej sens "rozmiarów
repliki". Jednocześnie, duża odległość zmiennej CR* od pozostałych cech
(zauważona przez nas już wcześniej na diagramie wiązkowym i diagramie
Czekanowskiego; patrz: ćwiczenie nr 5) wskazuje, że cena repliki nie
jest liniowo zależna od jej rozmiaru.
Druga tabela, czyli WYLICZONE CZYNNIKI, zawiera współrzędne kolejnych
obiektów w przestrzeni dwóch lub trzech pierwszych variwektorów. Jest zatem rzutem
rozmieszczenia obiektów w n-wymiarowej hiperprzestrzeni na dwu- lub trójwymiarową
podprzestrzeń tzw. mapy liniowej. Osie mapy liniowej obiektów są tymi samymi
variwektorami, co na wykresie rozmieszczenia zmiennych  majÄ… zatem identyczne
znaczenia (interpretacje).
Mapa liniowa pozwala uzyskać obraz w dużym stopniu odpowiadający wzajemnym
relacjom obiektów w wielowymiarowej hiperprzestrzeni. Trzeba jednak pamiętać, iż jest to
zaledwie rzut i nie odtwarza tych relacji w sposób doskonały. Miarą jakości odtworzenia jest
sumaryczny % informacji, wyjaśniany przez składowe uznane za istotne.
Po wykonaniu mapy liniowej obiektów należy:
1) określić rodzaj i stopień niejednorodności zbioru obiektów (ocenić, czy zbiór
dzieli siÄ™ na podgrupy, zawiera punkty odosobnione, etc.);
2) korzystając ze znaczenia nadanego variwektorom (osiom mapy) podjąć próbę
interpretacji rozmieszczenia podgrup i obiektów odosobnionych. Należy przy
tym pamiętać, że wartościom 0 na osiach mapy odpowiadają wartości średnie cech w
analizowanym zbiorze obiektów.
81
Przykład, c.d.:
Wykonujemy mapę liniową obiektów zestawu MIECZE w przestrzeni
dwóch pierwszych variwektorów:
Na mapie liniowej dostrzegamy dwa zwarte skupienia obiektów
(wewnÄ…trz szarych elips) i kilka mniej lub bardziej rozrzuconych
obiektów odosobnionych.
Uzyskana mapa pozwala na scharakteryzowanie poszczególnych podgrup
obiektów, zgodnie ze znaczeniem osi: oś pozioma = rozmiar repliki, oś
pionowa = cena repliki.
I tak:
1) obiekt AND jest replikÄ… o znacznych rozmiarach, a przy tym
zdecydowanie najtańszą;
2) obiekty URI i UMB są replikami największymi i najdroższymi;
3) grupę obiektów {EXC, GLA, GUR, ORK, SIH} charakteryzują
rozmiary i ceny lekko powyżej przeciętnych;
4) grupę obiektów {AZU, BAL, DUR, GRA, HER, HUR, JOY, LOD}
charakteryzują rozmiary i ceny lekko poniżej przeciętnych;
82
5) obiekt ZAD jest najmniejszy, lecz jego cena plasuje siÄ™
zaledwie lekko poniżej średniej (drogie materiały? kunszt
kowala?);
6) obiekty AER i GOL mają przeciętne rozmiary, lecz są dość
drogie;
7) obiekt GWY ma prawie identyczne rozmiary, jak obiekt GOL, lecz
jest od niego o wiele tańszy (konkurencja rynkowa!).
Skonfrontujmy powyższe wnioski z wejściową tabelą danych (patrz:
ćwiczenie nr 2). Teraz dopiero jesteśmy w stanie zauważyć niektóre
prawidłowości, istniejące w danych od początku, lecz ujawnione dopiero
po zastosowaniu analizy głównych składowych. Rzeczywiście: ZAD jest
repliką najmniejszą, AND najtańszą, zaś UMB i URI są największe i
jednocześnie najdroższe. Jednakże wypowiedzenie się o cechach
pozostałych replik na podstawie samej li tylko tabeli danych jest
praktycznie niemożliwe.
IV. SPRAWOZDANIE.
W sprawozdaniu należy umieścić wykres zmiennych oraz mapę liniową obiektów w
przestrzeni odpowiedniej liczby variwektorów, wraz z komentarzem. Prosimy również o
dołączenie pliku wynikowego z programu PCA.EXE.
83
Dodatek E:
Tworzenie iluzji wykresu trójwymiarowego w Excelu.
Zgodnie ze stanem wiedzy Autorów tego opracowania, Excel nie posiada "przyrodzonej"
zdolności do tworzenia wykresów punktowych w trójwymiarowym układzie współrzędnych.
Ergo, w celu stworzenia takiego wykresu w Excelu, należy posłużyć się odpowiednim trikiem
matematycznym. Jeżeli Czytelnik zetknął się w swojej karierze z rysunkiem technicznym,
powinien znać ten trik - zamiast zatem tłumaczyć jego ideę, przejdziemy od razu do praktyki.
Przykład:
20 modeli myśliwskich celowników optycznych opisano 7 cechami. Po
wykonaniu analizy PCA za istotne uznaliśmy trzy pierwsze główne
składowe. Po rotacji VARIMAX uzyskaliśmy następujące ładunki:
Ladunki skladowych
0.8663 0.1944 -0.0288
0.2647 0.8354 0.0780
0.8157 -0.3052 0.1775
0.8830 0.2552 0.0906
0.1394 0.8587 0.1618
-0.4623 0.7732 0.1410
0.0354 0.1633 0.9771
Musimy teraz wykonać wykres 3D, obrazujący rozmieszczenie wektorów
siedmiu zmiennych (opisanych przez zaprezentowane powyżej ładunki) w
przestrzeni trzech ortogonalnych variwektorów; a w praktyce  w
układzie współrzędnych XYZ.
Załóżmy, że oś pozioma układu współrzędnych będzie odpowiadała variwektorowi I
(vwI; Å‚adunki w kolumnie lewej), oÅ› pionowa  variwektorowi II (vwII; Å‚adunki w kolumnie
środkowej), zaś oś skierowana w stronę Czytelnika  variwektorowi III (vwIII; ładunki w
kolumnie prawej).
84
Iluzję wykresu 3D można zatem uzyskać, przy pomocy Excela, w następujący sposób:
1) Najpierw, należy odpowiednio zmodyfikować wartości ładunków dwóch
pierwszych variwektorów za pomocą wartości ładunków trzeciego variwektora (dla
wszystkich zmiennych), zgodnie z wzorami:
xJ = xJ  0,5"zJ
yJ = yJ  0,5"zJ
gdzie:
xJ  wartość ładunku variwektora I J-tej zmiennej;
yJ  wartość ładunku variwektora II J-tej zmiennej;
zJ  wartość ładunku variwektora III J-tej zmiennej.
Otrzymuje się w ten sposób współrzędne wektorów zmiennych, [x ,y ].
2) Następnie, należy obliczyć współrzędne rzutów prostokątnych końców tych
wektorów na płaszczyznę, wyznaczoną przez vwI i vwIII [x",y"]; zgodnie z
wzorami:
xJ" = xJ'
yJ" =  0,5"zJ
Punkty te mają za zadanie ułatwić określenie, w której części przestrzeni znajdują
się końce wektorów "oryginalnych" zmiennych.
3) Ostatecznie, należy wykonać w Excelu wykres punktowy (X,Y) z wartości x i y
(pierwsza seria danych) oraz x" i y" (druga seria danych); zaÅ› oÅ› skierowanÄ… w
stronę Czytelnika dorysować& ręcznie, za pomocą narzędzia Autokształty.
Korzystając z tego samego narzędzia, należy również dorysować wektory
85
zmiennych (połączyć początek układu współrzędnych z końcem wektora) i linie
rzutowania (połączyć koniec wektora z jego rzutem na płaszczyznę).
Przykład, c.d.:
Tabelę zawierającą obliczone współrzędne wektorów (oraz ich rzutów
na płaszczyznę), a także wykonaną iluzję wykresu 3D dla powyższych
danych zaprezentowaliśmy poniżej.
x y z x' y' x" y"
0,866 0,194 -0,029 0,881 0,209 0,881 0,014
0,265 0,835 0,078 0,226 0,796 0,226 -0,039
0,816 -0,305 0,178 0,727 -0,394 0,727 -0,089
0,883 0,255 0,091 0,838 0,210 0,838 -0,045
0,139 0,859 0,162 0,059 0,778 0,059 -0,081
-0,462 0,773 0,141 -0,533 0,703 -0,533 -0,071
0,035 0,163 0,977 -0,453 -0,325 -0,453 -0,489
86
Ćwiczenie nr 11:
ANALIZA SKUPIEC
Efektem wykonania analizy podobieństwa obiektów jest otrzymanie obrazu
rozmieszczenia obiektów w wielowymiarowej przestrzeni cech. Obraz ten może mieć postać
diagramu Czekanowskiego, dendrytu lub diagramu wiązkowego. Często jednak, w
przypadku niejednorodnego zbioru obiektów, nie jest oczywiste, na ile podzbiorów (i o jakim
charakterze) można go sensownie podzielić. Pewnych sugestii w tym zakresie może dostarczyć
analiza głównych składowych, a zwłaszcza mapa liniowa obiektów. Przy pomocy mapy
liniowej możliwe jest podjęcie próby dokonania podziału zbioru obiektów metodą najstarszą,
subiektywnÄ…, ale niekiedy zadziwiajÄ…co skutecznÄ…, tj. "na oko".
Reguły sztuki domagają się jednak zastosowania możliwie obiektywnej metody podziału
zestawu obiektów na podzbiory. Metody takie oferuje dział chemometrii zwany analizą
skupień; należą do nich, m.in., naturalny podział diagramu wiązkowego oraz naturalny
podział dendrytu. Ponieważ w trakcie ćwiczenia nr 6 został wykonany dendryt obiektów,
poniżej opiszemy zastosowanie naturalnego podziału dendrytu.
I. NATURALNY PODZIAA DENDRYTU.
W celu zobrazowania poszczególnych kroków tej metody, posłużymy się dendrytem
wykonanym dla zestawu MIECZE. Do dzieła!
1) Podział dendrytu rozpoczyna się od umieszczenia go w zasięgu ręki.
Kopiujemy dendryt dla zestawu MIECZE w miejsce łatwo dostępne:
2) Następnie, należy wypisać wiązadła pomiędzy obiektami w dendrycie. W
wykonaniu zadania bardzo pomocna jest tabela sporzÄ…dzona zgodnie z poleceniami
87
zawartymi w punkcie 2) sekcji III instrukcji do ćwiczenia nr 6, zawierająca spis
wiązadeł pomiędzy obiektami w obrębie skupień pierwotnych. Wystarczy zatem
skopiować ww. tabelę do używanego obecnie arkusza i uzupełnić ją o brakujące
połączenia między skupieniami pierwotnymi.
Interesująca nas tabela została wcześniej opisana jako tabela
VI.1. Kopiujemy ją zatem do nowego arkusza i uzupełniamy
informacjami o połączeniach AZU-BAL, GRA-GUR oraz ORK-URI,
uzyskanymi dzięki tabelom VI.3., VI.4. oraz VI.5.
Obiekt: Sąsiad: Odległość:
GWY AZU 1,332
ZAD AZU 2,033
GRA DUR 0,907
GLA EXC 0,930
GUR EXC 1,006
SIH GLA 1,048
LOD GRA 1,064
GOL GWY 2,397
AZU HUR 0,899
HER HUR 0,879
BAL JOY 0,596
DUR JOY 0,423
AND ORK 4,237
EXC ORK 0,512
AER SIH 1,653
UMB URI 2,619
AZU BAL 1,054
GRA GUR 1,576
ORK URI 3,116
3) Kolejnym krokiem jest posortowanie tabeli względem kolumny Odległość od
wartości największej do najmniejszej.
Obiekt: Sąsiad: Odległość:
AND ORK 4,237
ORK URI 3,116
UMB URI 2,619
GOL GWY 2,397
ZAD AZU 2,033
AER SIH 1,653
GRA GUR 1,576
GWY AZU 1,332
LOD GRA 1,064
AZU BAL 1,054
SIH GLA 1,048
GUR EXC 1,006
GLA EXC 0,930
GRA DUR 0,907
AZU HUR 0,899
HER HUR 0,879
BAL JOY 0,596
EXC ORK 0,512
DUR JOY 0,423
88
4) Następnie, należy dodać do tabeli kolumnę Ilorazy. Umieszcza się w niej
wartości ilorazów dwóch sąsiednich odległości (górna/dolna) na poziomie
odległości dolnej.
Wypełnienie nowej kolumny "Ilorazy" rozpoczynamy w drugim
wierszu od góry, definiując iloraz odległości obiektów AND-ORK
i ORK-URI, a następnie formułę tę przeciągamy w dół, do końca
tabeli.
Obiekt: Sąsiad: Odległość: Ilorazy:
AND ORK 4,237
ORK URI 3,116 1,360
UMB URI 2,619 1,190
GOL GWY 2,397 1,093
ZAD AZU 2,033 1,179
AER SIH 1,653 1,230
GRA GUR 1,576 1,049
GWY AZU 1,332 1,183
LOD GRA 1,064 1,252
AZU BAL 1,054 1,009
SIH GLA 1,048 1,006
GUR EXC 1,006 1,042
GLA EXC 0,930 1,082
GRA DUR 0,907 1,025
AZU HUR 0,899 1,009
HER HUR 0,879 1,023
BAL JOY 0,596 1,475
EXC ORK 0,512 1,164
DUR JOY 0,423 1,210
W tak przygotowanej tabeli poszukuje się dostatecznie dużych wartości lokalnie
największych ilorazów (LNI). Przez pojęcie "lokalnie największego ilorazu"
rozumiemy wartość w kolumnie Ilorazy, która: i) jest większa, niż jej sąsiedzi
(górny i dolny); ii) nie jest ostatnia w tabeli (ale może być pierwsza, pomimo braku
sąsiada "od góry"). Do dalszej analizy używa się jednak tylko tych LNI, które
spełniają kolejne kryteria: i) ich wartość jest większa od pewnej wartości krytycznej,
zwykle równej 1,2; ii) nie znajdują się zbyt blisko dolnego końca tabeli. Użycie LNI
znajdujących się w dolnych rejonach tabeli doprowadziłoby bowiem do rozpadu
dendrytu na niemal wyłącznie pojedyncze obiekty, a przez to do utraty informacji o
wewnętrznej strukturze zbioru obiektów.
Podane powyżej kryteria spełniają wartości LNI wyróżnione w
poniższej tabeli ciemnym tłem:
Obiekt: Sąsiad: Odległość: Ilorazy:
AND ORK 4,237
ORK URI 3,116 1,360
UMB URI 2,619 1,190
GOL GWY 2,397 1,093
ZAD AZU 2,033 1,179
AER SIH 1,653 1,230
GRA GUR 1,576 1,049
GWY AZU 1,332 1,183
89
LOD GRA 1,064 1,252
AZU BAL 1,054 1,009
SIH GLA 1,048 1,006
GUR EXC 1,006 1,042
GLA EXC 0,930 1,082
GRA DUR 0,907 1,025
AZU HUR 0,899 1,009
HER HUR 0,879 1,023
BAL JOY 0,596 1,475
EXC ORK 0,512 1,164
DUR JOY 0,423 1,210
Ilorazy 1,475 oraz 1,210 nie spełniają ww. kryteriów z uwagi na
swe położenie w tabeli.
5) Kolejnym krokiem jest ustalenie wersji podziału dendrytu. Wyboru dokonuje się
pomiędzy dwiema wersjami podziału: jednoznaczną i hierarchiczną. Wersja
jednoznaczna zakłada jednoetapowy podział dendrytu, zaś wersja hierarchiczna 
stopniowy.
Podział jednoetapowy wymaga odnalezienia największej z wartości LNI, a
następnie usunięcia z dendrytu wszystkich połączeń znajdujących się w
wierszach powyżej odnalezionego maximum maximorum.
Dla zestawu MIECZE, największa wartość LNI znajduje się w
drugim wierszu tabeli i wynosi 1,360. Zastosowanie wersji
jednoznacznej sprowadza się zatem do usunięcia połączenia AND-
ORK, co prowadzi do wyodrębnienia punktu odbiegającego AND.
W tym przypadku, wersja jednoznaczna nie ujawniła żadnych
nowych informacji dotyczących wewnętrznej struktury zbioru
danych. Oddzielenie siÄ™ obiektu AND jako punktu odbiegajÄ…cego
90
było doskonale widoczne już w trakcie analizy głównych
składowych, zatem do stwierdzenia wyjątkowości ww. obiektu
wykonanie analizy skupień nie było konieczne.
Wersja hierarchiczna zakłada stopniowy, hierarchiczny podział dendrytu w celu
uzyskania dokładniejszych informacji o wewnętrznej strukturze zbioru danych.
Podział ten przeprowadza się, usuwając stopniowo z dendrytu połączenia znajdujące
się w wierszach powyżej kolejnych LNI.
Podział hierarchiczny dendrytu, wykonanego dla zestawu MIECZE,
rozpoczynamy od usunięcia połączeń znajdujących się w wierszach
powyżej wartości pierwszego LNI (równej 1,360), a zatem od
usunięcia połączenia AND-ORK (połączenie to usunęliśmy
całkowicie z poniższej wizualizacji dendrytu).
Następnie, usuwamy połączenia znajdujące się w wierszach
powyżej wartości drugiego LNI (równej 1,230), czyli połączenia:
ORK-URI, UMB-URI, GOL-GWY oraz AZU-ZAD (połączenia te
przedstawiliśmy w postaci szarych linii przerywanych).
Na końcu, usuwamy połączenia znajdujące się w wierszach powyżej
wartości trzeciego (i ostatniego) LNI (równej 1,252), czyli
połączenia: AER-SIH, GRA-GUR oraz AZU-GWY (połączenia te
przedstawiliśmy w postaci linii przerywanych).
W tym konkretnym przypadku, pierwszy etap podziału
hierarchicznego doprowadził do takiego samego obrazu, jak
podział jednoznaczny. Takie zjawisko nie jest regułą.
Drugi etap podziału wyodrębnił pojedyncze obiekty, stanowiące
punkty odbiegające drugiego rzędu, czyli: GOL, UMB, URI oraz
ZAD.
91
Ostatni etap podziału ujawnił istnienie dwóch jednorodnych
podzbiorów, złożonych z obiektów: {AZU, BAL, DUR, GRA, LOD,
HER, HUR, JOY} oraz {EXC, GLA, GUR, ORK, SIH}. Pojawiły się
również punkty odbiegające trzeciego rzędu, czyli AER oraz ZAD.
Naturę uzyskanych podzbiorów można w pełni określić dopiero po konfrontacji
uzyskanego obrazu z tabelą danych wejściowych oraz z wynikami analizy głównych
składowych. Radość tę pozostawimy sobie jednak na sam koniec  doświadczą jej w pełni
jedynie ci, którzy wybrali dla swoich danych problem analizy skupień. Tych, którzy wybrali
jeden z dwóch pozostałych problemów, zapraszamy do prześledzenia przykładu,
zaprezentowanego w sekcji IV instrukcji do sprawozdania końcowego.
II. SPRAWOZDANIE.
W sprawozdaniu Student powinien umieścić tabelę zaprezentowaną w punkcie 4) sekcji
I, a także dokonać podziału dendrytu metodą jednoznaczną lub hierarchiczną (jeżeli wersja
jednoznaczna nie ujawni wewnętrznej struktury zbioru, należy zastosować wersję
hierarchiczną). Mile widziana będzie próba dokonania wstępnej interpretacji natury
otrzymanych podzbiorów.
92
Zadanie domowe:
SPRAWOZDANIE KOCCOWE
W instrukcji do ćwiczenia nr 1 sformułowaliśmy propozycje problemów, które są
możliwe do rozwiązania w trakcie zajęć laboratoryjnych z chemometrii, a które miały dotyczyć
przygotowanych przez Studentów zestawów danych. Propozycje te prezentowały się
następująco:
1. Modelowanie zależności wybranej cechy od pozostałych zmiennych
(nazywanych wówczas zmiennymi objaśniającymi).
2. Analiza podobieństwa zmiennych i obiektów (poznanie wewnętrznej struktury
zbioru danych).
3. Analiza skupień pozwalająca na obiektywny podział niejednorodnego zbioru
obiektów na jednorodne podgrupy.
Niniejsza, ostatnia już instrukcja ma na celu pomóc Studentowi w przygotowaniu
sprawozdania końcowego, którego treść ma stanowić możliwie jednoznaczne rozwiązanie
problemu, wybranego dla Jego zestawu danych.
Jeżeli Student skorzystał z sugestii podanej we wprowadzeniu do niniejszego skryptu,
tj. gromadził wszystkie wyniki w jednym pliku (zawierającym obliczenia dla każdego z
ćwiczeń w osobnym arkuszu) - sprawozdanie końcowe może przyjąć postać kolejnego
arkusza kalkulacyjnego, do którego zostaną przeniesione (skopiowane) wyniki cząstkowe
z odpowiednich arkuszy, wraz z ewentualnymi uzupełnieniami. Jeżeli jednak Student
odczuwa potrzebę bardziej "literackiej" prezentacji wyników, możliwe jest oczywiście
przygotowanie sprawozdania w całości w postaci pliku tekstowego.
Ponieważ sposób przygotowania wszystkich składników sprawozdania końcowego
został już podany w poprzednich instrukcjach, poniżej nie będziemy powtarzali ich opisu.
Mimo tego prosimy, aby Student nie odwdzięczał się nam tym samym  w sprawozdaniu
końcowym należy umieścić wymagane obliczenia, wykresy, opisy i wnioski w jednym
miejscu i w podanym poniżej porządku.
Do przeprowadzenia przykładowej dyskusji końcowej wykorzystamy wyniki uzyskane
dla bardzo dobrze znanego już Czytelnikowi zestawu MIECZE.
I. CZŚĆ WSPÓLNA.
Niezależnie od natury postawionego problemu, początkowa część sprawozdania
powinna zawierać następujące elementy:
żð przygotowanÄ… do dalszych analiz tabelÄ™ danych wejÅ›ciowych, zawierajÄ…cÄ…: zródÅ‚o
danych, datÄ™ utworzenia i modyfikacji, imiÄ™ i nazwisko Studenta, definicjÄ™ problemu
oraz objaśnienia skrótów;
93
żð wszystkie elementy sprawozdania z ćwiczenia nr 3 ("Kontrola pojedynczych
zmiennych");
żð wszystkie elementy sprawozdania z ćwiczenia nr 4 ("Korelacje pomiÄ™dzy
zmiennymi");
żð wszystkie elementy sprawozdania z ćwiczenia nr 5 ("Analiza podobieÅ„stwa
cech").
Wszystkie wymienione wyżej elementy, wykonane dla zestawu MIECZE,
znajdują się w instrukcjach do odpowiednich ćwiczeń.
II. MODELOWANIE ZALEŻNOŚCI WYBRANEJ CECHY OD POZOSTAAYCH
ZMIENNYCH.
W przypadku, gdy celem Studenta jest skonstruowanie liniowego modelu zależności
zmiennej zależnej od pozostałych zmiennych, należy zwrócić szczególną uwagę na postać
zależności pomiędzy zmienną zależną i pozostałymi zmiennymi. Warto wykorzystać w tym
celu odpowiednie wykresy korelacyjne, wykonane w trakcie ćwiczenia nr 4. Jeżeli okaże się,
że występują wyrazne zależności nieliniowe, należy podjąć próbę ich linearyzacji (patrz:
ćwiczenie nr 9). Jeżeli zakończy się ona powodzeniem, radykalnie wzrosną szanse na
uzyskanie eleganckiego i istotnego modelu liniowego. W takim przypadku, niestety trzeba
będzie powtórzyć analizę transformowanej zmiennej (ćwiczenie nr 3), analizę
podobieństwa cech (ćwiczenie nr 5) oraz analizę głównych składowych (ćwiczenie nr 10)
dla nowego, zlinearyzowanego zestawu zmiennych.
W sprawozdaniu końcowym należy umieścić ponadto:
żð informacje o (ewentualnie) użytych funkcjach linearyzujÄ…cych;
żð tabelÄ™ danych autoskalowanych (jeżeli zastosowano funkcje linearyzujÄ…ce 
autoskalowanie należy wykonać ponownie, wykorzystując dane po linearyzacji!);
żð wykres rozmieszczenia zmiennych w przestrzeni istotnych variwektorów:
üð jeżeli nie dokonano linearyzacji zmiennych  należy użyć elementów
sprawozdania z ćwiczenia nr 10 ("Analiza głównych składowych");
üð w przeciwnym wypadku  należy wykonać obliczenia i wykres od nowa (dla
danych po linearyzacji);
żð wnioski dotyczÄ…ce relacji pomiÄ™dzy zmiennymi:
üð czy wybrana zmienna zależna jest skorelowana z pozostaÅ‚ymi zmiennymi?;
üð czy zmienne objaÅ›niajÄ…ce sÄ… skorelowane pomiÄ™dzy sobÄ…?;
żð decyzjÄ™, wraz z uzasadnieniem, o podjÄ™ciu próby stworzenia modelu zależnoÅ›ci
lub o rezygnacji z niej;
żð w przypadku podjÄ™cia próby stworzenia modelu zależnoÅ›ci: wszystkie etapy
tworzenia modelu przez program MEOD.EXE oraz ocenę jakości ostatecznego
modelu.
Przykład:
94
Dla zestawu MIECZE, najbardziej naturalną cechą, której wartości
chcielibyśmy modelować w oparciu o wartości pozostałych zmiennych, jest
cena repliki, CR*.
Wartości współczynniki korelacji liniowej oraz determinacji
(ćwiczenie nr 4, sekcja I) wskazują na kompletny brak liniowych
zależności zmiennej CR* od pozostałych zmiennych. Wykresy korelacyjne
zmiennej CR* (nieumieszczone w instrukcjach) nie wskazują również na
istnienie jakichkolwiek zależności nieliniowych.
Analiza wiązkowa zmiennych (ćwiczenie nr 5, sekcja II) oraz
diagram Czekanowskiego dla cech (ćwiczenie nr 5, sekcja III) wyraznie
wskazują, iż spośród wszystkich cech zmienna CR* jest najmniej
skorelowana z pozostałymi. W rzeczywistości możemy mówić o braku
korelacji.
Wykres zmiennych w przestrzeni dwóch pierwszych variwektorów
(ćwiczenie nr 10, sekcja III) potwierdza, iż zmienna CR* jest prawie
ortogonalna do zmiennych objaśniających. Z kolei same zmienne
objaśniające są na tyle do siebie podobne, że w praktyce opisują tylko
jedną cechę replik - ich wielkość.
Wszystkie powyższe obserwacje skłaniają nas ku wnioskowi, iż
podejmowanie próby stworzenia liniowego modelu zależności zmiennej CR*
od pozostałych zmiennych jest pozbawione sensu.
Odpowiedz na postawiony problem jest zatem następująca:
niemożliwie jest modelowanie ceny repliki w oparciu o wartości
pozostałych cech.
Wykazaliśmy tym samym, że cena repliki nie zależy od jej
rozmiarów, lecz od innych parametrów, takich jak: i) rodzaju materiału,
z którego ją wykonano; ii) kunsztu kowala oraz iii) ewentualnych
zdobień. Tego typu parametry trudno jest wyrazić w postaci liczbowej,
przez co nie znalazły się one w tabeli danych wejściowych.
III. ANALIZA PODOBIECSTWA ZMIENNYCH I OBIEKTÓW.
Jeżeli celem Studenta jest poznanie wewnętrznej struktury zbioru danych, w
sprawozdaniu końcowym powinien umieścić (prócz elementów opisanych w sekcji I):
żð wszystkie elementy sprawozdania z ćwiczenia nr 6 ("Analiza podobieÅ„stwa
obiektów");
żð wszystkie elementy sprawozdania z ćwiczenia nr 10 ("Analiza głównych
składowych");
żð zestawienie wniosków dotyczÄ…cych analizy podobieÅ„stwa zmiennych, tj. wnioski
z ćwiczeń nr 4, 5 i 10;
żð zestawienie wniosków dotyczÄ…cych analizy podobieÅ„stwa obiektów, tj. wnioski z
ćwiczeń nr 6 i 10;
żð podsumowanie, zawierajÄ…ce okreÅ›lenie wewnÄ™trznej struktury zbioru danych, tj.
odpowiedzi na pytania: i) czy wszystkie zmienne pochodzÄ… z jednej populacji
generalnej?; oraz ii) czy wszystkie obiekty pochodzÄ… z jednej populacji generalnej?.
95
Przykład:
Ponieważ większość z podanych wyżej elementów znajduje się w
przykładach zawartych w instrukcjach do odpowiednich ćwiczeń, nie
będziemy prezentowali ich ponownie (o czym lojalnie uprzedziliśmy).
Odpowiedz na pytanie i) (dotyczące zmiennych) została w dużej
części sformułowana w przykładzie zaprezentowanym w sekcji II. W tym
miejscu wypada nam ją tylko powtórzyć w następującej postaci: wszystkie
zmienne, poza CR*, należą do jednej populacji generalnej. Zmienna CR*,
wyraznie "odstająca" od pozostałych, należy do innej populacji
generalnej.
Wnioski, zebrane z ćwiczeń nr 6 i 10 pozwalają na sformułowanie
odpowiedzi na pytanie ii). Dendryt obiektów (ćwiczenie 6, sekcja III),
diagram Czekanowskiego dla obiektów (ćwiczenie 6, sekcja IV) oraz mapa
liniowa obiektów w przestrzeni dwóch pierwszych variwektorów (ćwiczenie
10, sekcja III) wyraznie sugerują niejednorodność zbioru obiektów,
ergo: obiekty z zestawu MIECZE nie pochodzÄ… z jednej populacji
generalnej.
Mapa liniowa obiektów pozwoliła nam również na oszacowanie
charakteru niejednorodności zbioru. Zawiera on szereg punktów
odbiegajÄ…cych oraz prawdopodobnie dwa, w miarÄ™ jednorodne podzbiory.
Charakterystykę przypuszczalnych podzbiorów i punktów
odbiegających opisaliśmy w przykładzie, zawartym w sekcji III ćwiczenia
nr 10. Wykorzystaliśmy w tym celu interpretacje nadane dwóm pierwszym
variwektorom.
IV. ANALIZA SKUPIEC, POZWALAJCA NA OBIEKTYWNY PODZIAA
NIEJEDNORODNEGO ZBIORU OBIEKTÓW NA JEDNORODNE PODGRUPY.
Jeżeli celem Studenta jest podzielenie niejednorodnego zbioru danych na wewnętrznie
jednorodne podzbiory, w sprawozdaniu końcowym powinien umieścić (prócz elementów
opisanych w sekcji I):
żð wszystkie elementy sprawozdania z ćwiczenia nr 6 ("Analiza podobieÅ„stwa
obiektów");
żð wszystkie elementy sprawozdania z ćwiczenia nr 10 ("Analiza głównych
składowych");
żð wszystkie elementy sprawozdania z ćwiczenia nr 11 ("Analiza skupieÅ„");
żð zestawienie wniosków dotyczÄ…cych analizy podobieÅ„stwa obiektów, tj. wnioski z
ćwiczeń nr 6, 10 i 11;
żð w przypadku uprzedniej znajomoÅ›ci liczby i charakteru podzbiorów: podsumowanie
zawierające potwierdzenie (lub brak potwierdzenia) podziału obiektów na
znane wcześniej podzbiory, na podstawie wniosków z ćwiczeń nr 10 i 11;
96
żð w przypadku nieznajomoÅ›ci liczby i charakteru podzbiorów (ale przy uzasadnionym
podejrzeniu niejednorodności zestawu obiektów): podsumowanie zawierające
podział obiektów na nieznane wcześniej podzbiory oraz próbę określenia ich
charakteru (natury), na podstawie wniosków z ćwiczeń nr 10 i 11.
Przykład:
Elementy podane w pierwszych czterech punktach znajdujÄ… siÄ™ w
przykładach zawartych w instrukcjach do odpowiednich ćwiczeń. W drodze
wyjątku, w tej sekcji niektóre z nich zaprezentujemy ponownie:
1) tabela surowych danych wejściowych:
Obiekt\Zmienna DC DG DR M SM T CR
AER 119 92 15 1900 5 1,5 500
AND 152 100 32 2500 12 2 260
AZU 88 71 14 1200 7 1 380
BAL 95 75 13 1400 7 1 320
DUR 102 81 14 1400 8 1 342
EXC 120 90 18 1800 10 1,5 450
GLA 120 95 12 1900 10 1,5 419
GOL 100 69 26 1100 6 1 600
GRA 106 83 15 1600 10 1 350
GUR 104 81 15 1800 10 1,5 406
GWY 103 81 15 1450 5 1 400
HER 85 60 14 1500 8 1 340
HUR 90 65 16 1600 7 1 380
JOY 100 80 14 1500 8 1 320
LOD 92 80 10 1800 10 1 375
ORK 130 97 18 1800 10 1,5 450
SIH 123 95 14 2200 8 1,5 390
UMB 180 125 40 3200 15 2 600
URI 160 120 25 2700 12 2 650
ZAD 68 54 13 800 5 1 375
2) mapa liniowa obiektów w przestrzeni istotnych variwektorów:
97
3) wynik analizy skupień uzyskany metodą naturalnego podziału
dendrytu (wersja hierarchiczna):
W trakcie kompletowania danych do zestawu MIECZE nie posiadaliśmy
żadnych informacji, dotyczących ewentualnej niejednorodności zbioru
98
danych. Surowa tabela danych oczywiście również nie dostarczyła żadnych
sugestii w tym zakresie.
Dendryt obiektów, wykonany w trakcie ćwiczenia nr 6, ujawnił
tendencję obiektów do formowania grup oraz istnienie punktów
odbiegających. Mapa liniowa obiektów, wykonana w trakcie ćwiczenia nr
10, potwierdziła informacje ujawnione przez dendryt. Co więcej,
pozwoliła na subiektywne oszacowanie liczby i składu utworzonych
podzbiorów oraz na ich charakterystykę w oparciu o interpretację
variwektorów.
Subiektywnie utworzoną ośmioelementową grupę #1, {AZU, BAL, DUR,
GRA, LOD, HER, HUR, JOY}, możemy opisać jako "repliki o cenach i
rozmiarach lekko poniżej przeciętnej", natomiast pięcioelementową grupę
#2, {EXC, GLA, GUR, ORK, SIH}, jako "repliki o cenach i rozmiarach
lekko powyżej przeciętnej". Nie są to opisy wyczerpujące. Pozostałe
punkty, nienależące do żadnej grupy, czyli obiekty AER, AND, GOL, GWY,
UMB, URI oraz ZAD, zostały opisane adekwatnie do pozycji zajmowanych na
mapie liniowej.
Punktem odbiegajÄ…cym jest obiekt AND. Kontrola pojedynczych
zmiennych nie wykazała istnienia punktu odbiegającego  okazało się
jednak, iż wyjątkowość obiektu AND objawia się dopiero po uwzględnieniu
większej liczby zmiennych.
Naturalny podział dendrytu, który jest metodą dalece bardziej
obiektywną, nizli subiektywne odczytanie mapy liniowej, doprowadził do
identycznych wniosków. Grupy, widoczne na powyższym dendrycie, mają, w
porównaniu do grup utworzonych na podstawie mapy liniowej, identyczny
skład. Wygląda na to, iż zaproponowany podział możemy uznać za
ostateczny i "obowiÄ…zujÄ…cy".
Pojawia się jednak pytanie: czy jesteśmy w stanie nieco poszerzyć
charakterystykę utworzonych grup i uzasadnić ich jednorodność?
Odpowiedzi na to pytanie udziela konfrontacja składu uzyskanych
grup z tabelą danych wejściowych. Okazuje się bowiem, iż wszystkie
repliki należące do grupy #1 są mieczami jednoręcznymi, co tłumaczy ich
"rozmiary lekko poniżej przeciętnej", ponieważ średnia arytmetyczna
wartości zmiennej T wynosi 1,30. Z kolei grupa #2 zawiera wszystkie
miecze półtoraręczne obecne w zestawie danych, co tłumaczy ich
"rozmiary lekko powyżej przeciętnej". Trzy wyraznie odstające od reszty
obiekty, tj. AND, UMB i URI, są replikami mieczy dwuręcznych o
skrajnych cenach.
Na koniec, chcielibyśmy odwołać się do dwóch uwag, zawartych w instrukcji do
ćwiczenia nr 2.
Po pierwsze, ostrzegaliśmy przed uwzględnianiem w danych zmiennych nieciągłych,
takich jak zmienna T, z uwagi na ich potencjalnie wysoki wpływ na wynik analizy
podobieństwa obiektów oraz analizy skupień. Jak się okazało  niebezpodstawnie.
99
Po drugie, wykonanie analiz chemometrycznych i przedstawienie ich wyników w formie
graficznej (dendryt, diagram wiązkowy, mapa liniowa obiektów, etc.) rzeczywiście
umożliwia odnajdywanie prawidłowości, których oko, w chemometryczne narzędzia
nieuzbrojone, nie jest w stanie dostrzec.
***
I taki był cel tych ćwiczeń. Mamy nadzieję, że dostarczyły one Studentom odrobiny
satysfakcji (i radości) z zabawy metodami chemometrycznymi. Na pierwszy rzut oka zdają
się one być trudne i nieprzystępne; zyskują jednak przy bliższym poznaniu. Iucundi acti
labores.29
Mamy nadzieję, że przekonaliśmy Czytelnika, iż nawet z pozoru chaotyczne zbiory
liczb mogą zawierać użyteczną informację i być atrakcyjnym obiektem dociekań.
29
"Miłe są trudy zakończone" - Cyceron.
100


Wyszukiwarka

Podobne podstrony:
skrypt lab 5
skrypt lab III
madej skrypt2014 lab pel
skrypt 2 lab
Skrypt Lab
maszyny skrypt lab
T2 Skrypt do lab OU Rozdział 6 Wiercenie 3
Skrypt do lab OU R7 Zaborski 3
Skrypt do lab OU R Miernik 3
Skrypt do lab OU R Zaborski 3

więcej podobnych podstron