Metody analizy
danych
eksperymentalnych
Metody redukcji wymiaru
Metoda analizy składowych głównych
(ang.
Principal Component Analysis - PCA),
obok
analizy
czynnikowej i metody komponentów definiowanych przez
użytkownika,
należy do metod redukcji wymiaru i polega
na określaniu nowego zbioru zmiennych (atrybutów,
cech), tzw.
składowych głównych
, analizowanej
rzeczywistości na potrzeby budowy modelu tej
rzeczywistości. Utworzone zmienne w pewnym sensie są
nowymi abstrakcyjnymi źródłami danych. Są one
jednoczenie pewnymi kombinacjami (często liniowymi)
oryginalnych zmiennych. Zatem jest metoda redukująca
wymiarowo pierwotny zbiór zmiennych. Metoda PCE
określa równie (w postaci wartości liczbowej) w jakim
stopniu oryginalne zmienne wpływają na wyliczone
zmienne, czyli jaka jest ich wartość informacyjna. Nowe
zmienne z reguły nie mają jasnej interpretacji fizycznej.
Są jednak użyteczne przy realizacji różnych zdań
eksploracyjnych.
Metoda analizy składowych
głównych (PCA)
2
GK (MADE(03) - 2010)
Metoda PCA
charakteryzuje się tym, że:
opiera się na obserwacji zmienności w jej naturalnym
przebiegu,
nie ustala arbitralnie (jak np. w metodzie regresji)
zbioru zmiennych, które mają być badane,
nie wymaga wstępnych założeń odnośnie zmiennych, w
szczególności nie wymaga spełnienia warunku rozkładu
normalnego zmiennych, jak w metodzie regresji,
nie wymaga wstępnych założeń co do tego, które
zmienne są niezależne, a które nie, nie przesądza sprawy
związku przyczynowego.
Ze względu na swoje zalety metoda PCA jest stosowana w
analizie zjawisk ekonomicznych, w badaniach
psychologicznych i socjologicznych.
Metoda analizy składowych
głównych (PCA)
3
GK (MADE(03) - 2010)
Niech
X
1
, X
2
, …, X
m
będą równolicznymi wektorami
rzeczywistych (zaobserwowanych) wartości
m
zmiennych,
będących dowolnymi cechami dowolnej badanej grupy obiektów
np. osób (wzrost, waga, wiek itp.),
samochodów
(długość, rozstaw
osi, pojemność silnika, moment obrotowy itp
.). Jeżeli grupa
obiektów liczy
n
egzemplarzy (osób, samochodów itp.), to każda
zmienna
X
i
,
(i=1,2,…,m)
jest wektorem wartości
i
-tej cechy
zaobserwowanej u wszystkich obiektów, tj.
Zmienne
X
i
, nazywane dalej
zmiennymi oryginalnymi
, tworzą
układ współrzędnych w
m
-wymiarowej przestrzeni.
Składowe
główne
reprezentują nowy układ współrzędnych, uzyskany poprzez
odpowiednie rzutowanie układu oryginalnego.
Czynnością poprzedzającą wyznaczanie składowych
głównych musi być
standaryzacja zmiennych oryginalnych
, co
oznacza wyznaczenie nowych wartości zmiennych oryginalnych
poprzez wykonanie następujących obliczeń:
gdzie:
Podstawy PCA
(
)
T
i
i1
i2
it
in
i=1,2,...,m; t=1,2,...,n
X
x ,x ,...,x ,...,x ,
.
=
it
i
it
i
i=1,2,…,m; t=1,2,…,n
x
m
z
,
,
s
-
=
(
)
n
n
2
i
it
i
it
i
t=1
t=1
1
1
m =
x , s =
x -m .
n
n
�
�
4
GK (MADE(03) - 2010)
Istota
metody analizy składowych głównych (PCA)
.
Niech zmienne
Z
1
, Z
2
, …, Z
m
oznaczają
wektory
kolumnowe standaryzowanych zmiennych oryginalnych
X
1
, X
2
, …, X
m
, a
Z= [Z
1
, Z
2
, …, Z
m
]
– macierz o wymiarach
(n
m)
utworzoną
przez te zmienne. Metoda PCA pozwala na zastąpienie
zbioru zmiennych
Z
1
, Z
2
, …, Z
m
, a tym samym i zmiennych
X
1
, X
2
, …, X
m
nowymi zmiennymi
(składowe główne)
Y
1
, Y
2
,
…, Y
m
, będącymi liniowymi kombinacjami zmiennych
oryginalnych przy zachowaniu zasady, że całkowita
zmienność zbioru zmiennych oryginalnych i zbioru
składowych głównych będą się różnić nie więcej niż o
akceptowalną, z góry ustaloną wielkość.
Podstawy PCA
5
GK (MADE(03) - 2010)
Zatem PCA polega na wyznaczeniu takich zmiennych
Y
1
, Y
2
, …,
Y
m
, tj. składowych głównych, że:
•są one liniowymi kombinacjami zmiennych
Z
1
, Z
2
, …, Z
m
•liczby
pj
są takimi liczbami rzeczywistymi, że
•
Y
1
, Y
2
, …, Y
m
są wzajemnie nieskorelowane,
•wariancje składowych głównych są malejące
( )
( )
( )
1
2
m
i=1,2,...,m.
var Y
var Y
... var Y ,
�
� �
(
)
i j
YY
i
j
i,j=1,2,...,m
ρ =0,
,
�
"
i
i1
1
i2
2
im
m
i=1,2,...,m,
Y =α Z +α Z +...+α Z ,
�
�
�
m
2
ij
i=1
j=1,2,...,m
α =1,
,
�
Podstawy PCA
6
GK (MADE(03) - 2010)
Macierz
Z= [Z
1
, Z
2
, …, Z
m
]
standaryzowanych zmiennych
oryginalnych jest podstawową macierzą danych w procesie
wyznaczania składowych głównych, bowiem
i
-ta
składowa
główna
jest obliczana z zależności (zapis wektorowy):
gdzie oznacza transponowany
i
-ty wektor własny
macierzy kowariancji dla macierzy
Z
.
Niech macierz
będzie
macierzą korelacji
dla macierzy
Z
postaci:
Ze względu na standaryzację zmiennych, macierz korelacji
jest równa macierzy kowariancji
S
dla macierzy
Z
, tj.
S =
.
T
i
a
T
i
i
i=1,2,...,m
Y
Z,
,
a
=
12
1m
21
2m
m1
m2
1
...
1
...
.
...
...
... ...
... 1
r
r
r
r
r
r
r
�
�
�
�
�
�
=
�
�
�
�
�
�
Podstawy PCA
7
GK (MADE(03) - 2010)
Niech wektor
=(
1
,
2
, …,
m
)
oznacza
wektor wartości
własnych
macierzy korelacji
, otrzymanych jako rozwiązanie
równania macierzowego
gdzie
I
– macierz jednostkowa o wymiarach
m×m
.
Wektorem własnym macierzy korelacji
, dla wektora
wartości własnych
jest wektor
spełniający zależność
=
.
Niech
i
oznacza
i
-ty wektor własny, odpowiadający
wartości własnej
i
. Stąd składowe główne przyjmują postać:
Dla zmiennych
Z
i
i składowych głównych
Y
i
zachodzi:
Z powyższego wynika, że część zmienności zmiennej
Z
, która jest
wyjaśniana
przez
i
-tą składową główną
Y
i
, tzw.
udział składowej głównej
, jest
równa
I
0,
r l
-
=
( )
( )
m
m
m
i
i
i
i=1
i=1
i=1
Var Y = Var Z =
m.
l =
�
�
�
i
i
u
.
m
l
=
i
i1
1
i2
2
im
m
i=1,2,...,m,
Y =α Z +α Z +...+α Z ,
�
�
�
Podstawy PCA
8
GK (MADE(03) - 2010)
Tworzenie składowych głównych przebiega według
następującego algorytmu:
pierwsza
składowa główna jest kombinacją
która maksymalizuje wariancję gdzie
- macierz korelacji dla macierzy
Z
,
druga
składowa główna jest kombinacją
która jest niezależna od
Y
1
i maksymalizuje wariancję
i-ta
składowa główna jest kombinacją
która jest niezależna od wszystkich poprzednich
składowych głównych
Y
1
, Y
2
, …, Y
i-1
i maksymalizuje wariancję
T
1
1
11
1
12
2
1m
m
Y =
Z =
Z +
Z +...+
Z ,
a
a
a
a
�
�
�
�
( )
T
1
1
1
Var Y =
,
a ra
T
i
i
i1
1
i2
2
im
m
Y =
Z =
Z +
Z +...+
Z ,
a
a
a
a
�
�
�
( )
T
i
i
i
Var Y =
.
a ra
T
2
2
21
1
22
2
2m
m
Y =
Z =
Z +
Z +...+
Z ,
a
a
a
a
�
�
�
( )
T
2
2
2
Var Y =
,
a ra
Podstawy PCA
9
GK (MADE(03) - 2010)
Obliczone składowe główne tworzą
macierz
składowych głównych
postaci:
w której każda kolumna
Y
i
reprezentuje jedną składową
główną. Poszczególne elementy macierz y
Y
, tj.
y
ij
(i,j=1,2,
…,m)
noszą nazwę
wag składowych głównych
(ładunków
składowych)
i reprezentują korelację cząstkową
Corr(Y
i
, Z
j
)
pomiędzy składową główną
Y
i
i zmienną
Z
j
,
uwzględniającą wpływ wszystkich pozostałych zmiennych i
obliczaną z następującej zależności:
Wagi składowych głównych przyjmują wartości z przedziału
[-1,1]
.
11
12
1m
21
22
2m
m1
m2
mm
y
y
... y
y
y
... y
Y
,
...
...
… ...
y
y
... y
�
�
�
�
�
�
=
�
�
�
�
�
�
(
)
ij
i
j
ij
i
i,j=1,2, ,m
y
Corr Y ,Z
,
... .
a
l
=
=
Podstawy PCA
10
GK (MADE(03) - 2010)
Wyznaczenie składowych głównych nie zamyka procesu
redukcji liczby zmiennych opisujących rozpatrywany problem.
Problemem staje się wybór takiej liczby składowych głównych,
która zagwarantuje istotne zmniejszenie liczby zmiennych przy
akceptowalnej utracie zmienności zbioru zmiennych
oryginalnych. Wybór składowych głównych jest zwykle oparty
na najczęściej stosowanych równocześnie następujących
kryteriach:
1.Kryterium wartości własnej.
Według tego kryterium
w wynikowym zbiorze
składowych głównych należy uwzględniać tylko te, dla których
związane z nimi wartości własne mają wartość nie mniejszą niż
1
.
Stosując tylko to kryterium można do wynikowego
zbioru składowych głównych zaliczyć zbyt małą liczbę
składowych głównych (gdy zbiór zmiennych oryginalnych liczy
nie więcej niż 20 zmiennych) lub zbyt dużą liczbę składowych
głównych (gdy zbiór zmiennych oryginalnych liczy nie mniej
niż 50 zmiennych). Z tego względu kryterium wartości własnej
powinno być stosowane jako kryterium „pierwszego sita”
zbioru składowych głównych, a jego umiejętne
wykorzystywanie zależy od wiedzy jego użytkownika.
Kryteria wyboru składowych
głównych
11
GK (MADE(03) - 2010)
2. Kryterium części wariancji wyjaśnionej przez składowe
główne.
Zastosowanie tego kryterium wymaga od jego użytkownika
uprzedniego określenia jaka część zmienności oryginalnego
zbioru zmiennych objaśniających ma zostać wyjaśniona za
pomocą tworzonego zbioru składowych głównych
. Następnie
wybiera się po kolei składowe główne, aż do osiągnięcia
założonej wartości wyjaśnionej zmienności, co jest
równoznaczne z co najmniej osiągnięciem tego poziomu przez
sumę udziałów wszystkich wybranych składowych głównych
(
skumulowany udział składowych
). Omawiane kryterium
można sformalizować w sposób następujący:
•
całkowita zmienność składowych głównych:
•
składowa główna
Y
i
wyjaśnia następującą część całkowitej
zmienności:
•
wybiera się taką ostateczną liczbę
k
składowych głównych,
które w sumie wyjaśniają z góry zadaną część zmienności
(zwykle nie mniej niż 75%):
( )
m
i
i=1
var Y ,
�
( )
i
m
i
i=1
Y
,
var Y
�
( )
( )
k
i
i=1
m
i
i=1
var Y
.
var Y
�
�
Kryteria wyboru składowych
głównych
12
GK (MADE(03) - 2010)
3. Kryterium wykresu osypiskowego (piargowego).
Wykres osypiskowy stanowi graficzną prezentację wartości
własnych względem numeru składowej głównej. Omawiane
kryterium jest przydatne do wyznaczania maksymalnej liczby
składowych głównych, tzw. kres górny, które powinny
stanowić wynik obliczeń.
Wykres osypiskowy jest tworzony dla uprzednio
uporządkowanego niemalejąco ciągu wartości własnych.
Przykładowa postać wykresu osypiskowego:
Kryterium wykresu osypiskowego:
maksymalna liczba składowych
głównych, które powinny zostać
zachowane (uwzględnione), to
wartość znajdująca się na osi
x
dokładnie przed tym miejscem, które
początkuje część wykresu najbardziej
zbliżoną do linii poziomej.
Dla sytuacji przedstawionej na wykresie
takim kryterialnym punktem jest punkt
5
,
co oznacza, że należy uwzględnić nie
więcej niż
4
składowe główne
charakteryzujące się kolejnymi
najwyższymi wartościami własnymi.
Kryteria wyboru składowych
głównych
13
GK (MADE(03) - 2010)
4. Test istotności.
W rozpatrywanym teście istotności przyjmuje się, że składowe
główne są wyznaczane w zbiorze
n
obiektów
charakteryzowanych za pomocą
m
cech, który stanowi próbę
z
m
-wymiarowego rozkładu normalnego z dodatnio określoną
macierzą kowariancji
przy założeniu, że
n > m
, oraz macierz
kowariancji z tej próby
S
jest również dodatnio określona.
Sekwencyjnie są testowane hipotezy zerowe postaci:
gdzie:
1
2
…
m
są wartościami własnymi macierzy
, a
jest nieznaną wartością.
Test ilorazu wiarogodności przedstawionej hipotezy zerowej
jest opisany twierdzeniem Lawleya (1956), z którego wynika,
że jeżeli hipoteza zerowa jest prawdziwa i
n
jest dostatecznie
duże, to sprawdzian testu jest statystyką o rozkładzie
zbieżnym z prawdopodobieństwem do rozkładu chi-kwadrat.
,
,
...
:
H
2
m
0,1,...,
k
m
1
k
k
0
Kryteria wyboru składowych
głównych
14
GK (MADE(03) - 2010)
Statystyka będąca sprawdzianem testu:
Hipoteza zerowa zostaje odrzucona, gdy:
gdzie jest kwantylem rzędu
1-
rozkładu chi-
kwadrat z
stopniami swobody.
.
,
,
,
lnV
λ
λ
λ
q
6
2
q
q
2
k
1
n
P
k
m
q
λ
q
1
λ
λ
λ
V
m
1
k
i
i
q
m
1
k
i
i
k
k
k
1
i
2
q
i
2
q
2
k
q
q
gdzie
,
P
2
2
1
q
2
q
α,
1
k
2
2
1
q
2
q
α,
1
2
1
q
2
q
Kryteria wyboru składowych
głównych
15
GK (MADE(03) - 2010)
Jeżeli hipotezy zerowe są testowane kolejno dla
k = 0,1,2,
…,m-2
i dla któregoś
k
hipoteza zerowa po raz pierwszy nie
została odrzucona, to oznacza, że
q = m - k
najmniejszych
wartości własnych macierzy
ma tę samą wartość
. Jeżeli
wartość
jest mało znacząca w porównaniu z pozostałymi
wartościami własnymi, to można odrzucić
q
ostatnich wartości
głównych i przyjąć, że tylko
k
pierwszych z nich będzie branych
pod uwagę.
5.Kryterium średniej wartości własnej.
Pomijane są te składowe główne, których wartości własne
są mniejsze od średniej:
.
m
1
m
1
j
j
Kryteria wyboru składowych
głównych
16
GK (MADE(03) - 2010)
Profil składowych głównych
Określenie liczby zmiennych składowych
reprezentujących zbiór zmiennych
Z
jest czynnością
poprzedzająca tworzenie
profili
tych składowych. Profil
można traktować jak zbiór
Z
i
Z
tych zmiennych, które
będą „reprezentowane” przez składową główną
Y
i
. Niech
określonych zostało
k
składowych głównych. Przy
tworzeniu profili składowych głównych należy uwzględniać
następujące postulaty:
do zbioru
Z
i
należy włączać te zmienne
Z
j
, (j=1,2,…m)
, dla
których wagi spełniają nierówność
w przypadku, gdy zmienna
Z
j
może być przyporządkowane
do więcej niż jednej składowe głównej, sprawę jej
przynależności należy rozstrzygnąć stosując inne kryteria,
np. merytoryczne,
zbiory
Z
i
muszą być rozłączne, tj.:
podział zbioru zmiennych
Z
na zbiory
Z
i
musi być
wyczerpujący, tj.:
ij
y >0,5,
(
)
i
l
i,l : i
l; i,l=1,2,...,k
,
�
"
�
=�
Z
Z
k
i
i=1
Z,
=
U
Z
17
GK (MADE(03) - 2010)
Wyniki stosowania kryteriów w celu ustalenia
liczby składowych głównych oraz „przydziału”
zmiennych do tych składowych należy uznawać za
wskazówki, a nie jako wyniki ostateczne, nie
podlegające korekcie przez analityka prowadzącego
badania.
W praktyce stosuje się wielokrotne
powtórzenie procedury wyznaczania składowych
głównych na innych zbiorach wartości dla tych samych
zmiennych oryginalnych
X
j
, (j=1,2,…,m)
. Uzyskanie
takich samych lub bardzo podobnych wyników
uzasadnia dopiero trafność wyboru składowych
głównych, co jest sygnałem, że mogą być one
wykorzystywane jako „uszczuplony” ilościowo, ale w
pełni równoważny reprezentant zbioru zmiennych
oryginalnych.
Metoda PCA - podsumowanie
18
GK (MADE(03) - 2010)
Metoda komponentów definiowanych przez
użytkownika
(ang. User-defined Composites - UDC)
jest
skierowana do analityków, którym stosowanie innych
metod
redukcji wymiaru z różnych względów nie
odpowiada. Metoda
UDC
jest metodą bardzo prostą, gdyż
komponenty definiowane przez użytkownika są liniową
kombinacją wszystkich, bądź niektórych wybranych przez
użytkownika zmiennych ze zbioru
Z
o liczności
m
zmiennych, uzyskanych poprzez standaryzację zbiory
zmiennych oryginalnych
X
. Zatem komponent łączy kilka
zmiennych w pojedynczą, złożoną zmienną. Każdy
j
-ty
komponent zdefiniowany przez użytkownika wyraża się
zależnością:
gdzie
j
- wektor wag stosowany do wyznaczania
j
-tego
komponentu taki, że:
Metoda komponentów
definiowanych przez
użytkownika (UDC)
T
j
j
j1
1
j2
2
jm
m
j=1,2,
W =
Z =
Z +
Z +...+
Z ,
...
j
j
j
j
(
)
(
)
[ ]
(
)
m
ji
ji
i=1
j 1,2,
i=1,2, ,m
...
1;
...
0,1
.
j
j
=
�
�
"
=
"
�
�
�
�
�
�
19
GK (MADE(03) - 2010)
W przypadku, gdy użytkownik nie ma informacji odnośnie
natury zmiennych uwzględnianych w komponencie, ustala
wagi jednakowe dla zmiennych, z których tworzony jest ten
komponent, tzn. ustala wagi następujące:
gdzie
Z
j
oznacza zbiór zmiennych
Z
i
, z których jest
tworzony
j
-ty komponent.
Zmienne składające się na komponent powinny być
silnie skorelowane ze sobą i nieskorelowane z pozostałymi
zmiennymi.
Stosowanie metody komponentów, oprócz
zmniejszania liczby zmiennych, zmniejsza również skutki
błędów pomiaru, tj. rozrzutu pomiędzy rzeczywistą
wartością, a pomierzoną (zaobserwowaną). Taki błąd może
powstać ze względu na błąd przyrządu, za którego pomocą
dokonano pomiaru.
(
)
(
)
(
)
1
ji
ji
j
Z
Z
j
j
i
i
0 ,
j
j
�
�
�
�
�
�
"
=
� "
=
�
�
�
�
Z
Z
Z
Metoda komponentów
definiowanych przez
użytkownika (UDC)
20
GK (MADE(03) - 2010)
Przeprowadzono badania zdolności
motorycznych mężczyzn nie uprawiających sportu i
turystyki kwalifikowanej. Badaniu poddano grupę 120
mężczyzn w różnym wieku (od 20 do 60 lat) ze względu
na 11 następujących cech (zmiennych oryginalnych):
wiek, wysokość, ciężar, siła kończyn górnych, siła ogólna, wysokość
dosiężna, siła kończyn dolnych, siła mięśni brzucha, szybkość ruchu
ręką, zwinność, gibkość dynamiczna.
Zarejestrowano następujące dane (zmienne oryginalne):
Przykład
Badani
Wiek
Wysokość
ciała [cm]
Ciężar
ciała [kg]
Siła
kończyn
górnych
Siła
ogólna
Wyskok
dosiężny
Siła
kończyn
dolnych
Siła
mięśni
brzucha
Szybkość
ruchu
ręką
Zwinność
Gibkość
dynamicz
na
A
20
177
76,2
16
557
34
36
18
27
8
9
B
21
176
76,3
15
519
29
35
16
25
8
8
C
23
182
81
18
553
30
30
16
20
7
9
D
23
181
79,1
17
570
25
32
16
20
7
6
E
25
181
78,7
17
527
25
29
15
20
5
9
F
25
177
76,7
16
562
25
30
15
20
7
7
G
30
175
76,4
12
500
25
36
17
25
8
7
H
30
174
75,9
10
472
25
35
16
25
8
7
I
31
180
79,5
10
468
24
34
16
30
8
6
21
GK (MADE(03) - 2010)
Redukcję liczby zmiennych przeprowadzono
metodą składowych głównych.
W tym celu obliczono wartości własne, udział
poszczególnych składowych w zmienności (wariancji)
zbioru badanych zmiennych:
Numer
składowe
j głównej
Wartość
własna
Udział
w
wariancji
Skumulowany
udział w
wariancji
1
7,0189
0,6381
0,6381
2
1,2197
0,1109
0,749
3
0,9534
0,0867
0,8356
4
0,7417
0,0674
0,9031
5
0,3734
0,0339
0,937
6
0,247
0,0225
0,9595
7
0,1577
0,0143
0,9738
8
0,1259
0,0114
0,9852
9
0,0729
0,0066
0,9919
10
0,0628
0,0057
0,9976
11
0,0266
0,0024
1
Przykład
22
GK (MADE(03) - 2010)
Macierz wag (ładunków) składowych głównych
Składowa
główna
1
2
3
4
5
6
7
8
9
10
11
Zmienna
Wiek
-0,368 0,011 0,095 0,042 0,014 -0,081 0,260 0,146 0,164
-
0,152 -0,841
Wysokość
0,292 0,409 0,386 0,116 0,005 -0,001 0,015
-
0,305
0,313
-
0,625
0,053
Ciężar
0,242 0,506 0,455 0,253 -0,026-0,075 0,057 0,291 -0,250 0,498 -0,099
Siła kończyn
górnych
0,339 0,038 -0,157
-
0,237
0,060 0,326 0,691
-
0,394
-0,080 0,202 -0,115
Siła ogólna
0,353 -0,011-0,084
-
0,190
-0,129 0,028 -0,588
-
0,356
-0,319 0,028 -0,489
Wysokość
dosiężna
0,300 -0,299 0,093 0,052 -0,745 0,308 0,068 0,353 0,142
-
0,097
-0,037
Siła kończyn
dolnych
0,344 0,064 -0,254
-
0,023 0,332 0,139 -0,219 0,231 0,703 0,268 -0,127
Siła mięśni
brzucha
0,325 -0,052-0,205
-
0,115
-0,191-0,866 0,207 0,029 0,082 0,000 -0,006
Szybkość
ruchu ręką
0,182 -0,496 0,085 0,769 0,181 -0,062 0,046
-
0,267
-0,004 0,081 -0,077
Zwinność
0,344 -0,036-0,221 0,046 0,397 0,088 0,089 0,513 -0,427
-
0,455 -0,060
Gibkość
dynamiczna
0,124 -0,482 0,657
-
0,467 0,296 -0,077-0,001 0,072 0,040 0,050 0,013
Przykład
23
GK (MADE(03) - 2010)
Ustalenie liczby składowych głównych.
Przyjmuje się, że składowe główne powinny wyjaśniać
95%
zmienności (wariacji) zmiennych badanych.
1.Ze względu na
kryterium wartości własnej
należy wybrać
tylko
2
-wie pierwsze składowe, tj.
1
i
2
, które wyjaśniają w
sumie
74,9%
zmienności, tj. poniżej wymaganego poziomu.
2.Ze względu na
kryterium
części wariancji wyjaśnionej przez
składowe główne
, należy uwzględnić
6
pierwszych, które
wyjaśniają w sumie
95,95%
zmienności, tj. przekraczają
wymagany poziom.
3.
Kryterium
wykresu osypiskowego
.
Ze względu na to kryterium
wynika, że należy uwzględnić
6
składowych głównych, tj.
1
–
6
,
podobnie ze względu na kryterium
poprzednie.
Przykład
24
GK (MADE(03) - 2010)
4. Ze względu na wyniki
testu
należy wybrać
wszystkie (11)
składowe.
5. Ze względu na
kryterium średniej wartości własnej
należy
wybrać
2
-wie pierwsze składowe, tj.
1
i
2
, dla których
wartości własne są większe od średniej równej
1
.
k
P
k
Stopnie
swobody
Wartość
krytyczna testu
0
1556,12
65
47,45
1
715,87
54
38,12
2
572,89
44
29,79
3
421,06
35
22,47
4
241,37
27
16,15
5
154,53
20
10,85
6
94,5
14
6,57
7
62,81
9
3,33
8
29,06
5
1,15
9
20,07
2
0,1
Przykład
25
GK (MADE(03) - 2010)
Składowa
główna
1
2
3
4
5
6
7
8
9
10
11
Zmienna
Wiek
0,368 0,011 0,095 0,042 0,014 0,081 0,260 0,146 0,164 0,152
0,841
Wysokość
0,292 0,409 0,386 0,116 0,005 0,001 0,015 0,305 0,313
0,625
0,053
Ciężar
0,242
0,506
0,455 0,253 0,026 0,075 0,057 0,291 0,250 0,498 0,099
Siła kończyn
górnych
0,339 0,038 0,157 0,237 0,060 0,326
0,691
0,394 0,080 0,202 0,115
Siła ogólna
0,353 0,011 0,084 0,190 0,129 0,028
0,588
0,356 0,319 0,028 0,489
Wysokość
dosiężna
0,300 0,299 0,093 0,052
0,745
0,308 0,068 0,353 0,142 0,097 0,037
Siła kończyn
dolnych
0,344 0,064 0,254 0,023 0,332 0,139 0,219 0,231
0,703
0,268 0,127
Siła mięśni
brzucha
0,325 0,052 0,205 0,115 0,191
0,866
0,207 0,029 0,082 0,000 0,006
Szybkość
ruchu ręką
0,182 0,496 0,085
0,769
0,181 0,062 0,046 0,267 0,004 0,081 0,077
Zwinność
0,344 0,036 0,221 0,046 0,397 0,088 0,089
0,513
0,427 0,455 0,060
Gibkość
dynamiczna
0,124 0,482
0,657
0,467 0,296 0,077 0,001 0,072 0,040 0,050 0,013
Wybrano
6
pierwszych składowych głównych:
Przykład
26
GK (MADE(03) - 2010)
Badani
Wiek
Wysokość
ciała [cm]
Ciężar
ciała [kg]
Siła
kończyn
górnych
Siła
ogólna
Wyskok
dosiężny
Siła
kończyn
dolnych
Siła
mięśni
brzucha
Szybkość
ruchu
ręką
Zwinność
Gibkość
dynamicz
na
A
20
177
76,2
16
557
34
36
18
27
8
9
B
21
176
76,3
15
519
29
35
16
25
8
8
C
23
182
81
18
553
30
30
16
20
7
9
D
23
181
79,1
17
570
25
32
16
20
7
6
E
25
181
78,7
17
527
25
29
15
20
5
9
F
25
177
76,7
16
562
25
30
15
20
7
7
G
30
175
76,4
12
500
25
36
17
25
8
7
H
30
174
75,9
10
472
25
35
16
25
8
7
I
31
180
79,5
10
468
24
34
16
30
8
6
Badani
Składowe główne
1
2
3
4
5
6
A
316,7
45
149,3
29
180,1
65
180,2
73
127,4
06
62,45
9
B
300,1
11
145,3
89
174,6
15
170,2
49
117,3
59
57,54
45
C
314,2
05
148,6
76
181,4
2
175,9
02
120,1
84
59,28
7
D
317,9
31
144,6
42
179,5
13
176,6
83
118,3
14
57,80
05
E
301,7
18
145,1
18
176,4
71
169,6
21
111,6
91
55,50
05
F
312,8
66
141,9
89
176,1
82
174,2
45
116,6
08
56,16
15
G
294,7
76
143,2
44
172,4
92
165,6
78
112,0
98
56,46
6
H
283,1
32
142,0
82
168,7
54
159,5
04
107,8
25
53,98
65
I
284,8
53
147,9
6
171,8
88
163,6
96
106,9
79
54,01
75
Przykład
27
GK (MADE(03) - 2010)
28
GK (MADE(03) - 2010)