Analiza czynnikowa


Jarosław Górniak
Analiza głównych składowych
Analiza czynnikowa
Skale Likerta
Skrypt do wykładu
Analiza czynnikowa i analiza głównych składowych
1.1 Wstęp
W pakiecie SPSS pod nazwą modułu: Analiza czynnikowa kryją się dwie metody,
które ró\nią się pod względem zało\eń: analiza głównych składowych (Principal
Components Analysis  PCA) i analiza czynnikowa (Factor Analysis  FA). Obie
słu\ą sprowadzaniu informacji zawartych w wielu zmiennych (wskaznikach) do
niedu\ej liczby zastępujących je/wyjaśniających wymiarów/czynników. Często
traktowane są one jako warianty tej samej metody, chocia\ w istocie nimi nie są.
Dodajmy jednak od razu, \e, w praktyce, wyniki uzyskiwane za pomocą obu
metod są zbli\one i rzadko prowadzą do odmiennych wniosków. To powoduje,
\e niektórzy statystycy, zwłaszcza o orientacji pragmatycznej, postulują:
1) Stosowanie w większości sytuacji PCA (ze względu na pewne zalety
formalne, o których dalej), zwłaszcza w sytuacji, gdy uzyskane tą metodą
skale czynnikowe chcemy stosować w innych analizach1.
2) Inni, na odwrót, postulują u\ywanie właściwej analizy czynnikowej (zwykle
metodą osi/czynników głównych lub największej wiarygodności), zwłaszcza
w zastosowaniu do analizy testów psychologicznych lub przy
konstruowaniu modeli przyczynowych obserwowanych zjawisk, ze
względu na fakt, \e analiza czynnikowa nie dą\y do wyjaśnienia całej
wariancji ka\dej zmiennej w baterii pytań, a więc i jej części wynikającej z
błędu, lecz tylko tej jej części, która jest dzielona z innymi zmiennymi, a
więc mo\e być uznana za pozostającą pod wpływem wspólnego czynnika
 ukrytej zmiennej/konstruktu.
3) Inni wreszcie, jak np. Holm (rzecz dotyczy typowego zastosowania analizy
czynnikowej do baterii pytań kwestionariuszowych lub testów), podają
praktyczne reguły w rodzaju:
" jeśli bateria pytań obejmuje wiele pytań (ok. 15 lub więcej) poleca
się wstawianie na głównej przekątnej macierzy korelacji wartości 1,0
czyli przeprowadzenie analizy metodą głównych składowych;
" przy mniejszych bateriach pytań zaleca się wstawienie na główną
przekątną macierzy korelacji oszacowanych zasobów zmienności
wspólnej, np. podniesionego do kwadratu współczynnika korelacji
wielokrotnej ka\dej ze zmiennych z pozostałymi zmiennymi z baterii
 tzn. przeprowadzenie analizy czynnikowej metodą głównych
czynników/osi głównych (por. Holm 1976, s. 24 i 27).
Podkreślmy jeszcze raz: w praktyce wyniki ró\nych metod wyodrębniania
czynników nie prowadzą do odmiennych wniosków. Nale\y jednak rozumieć
ró\nice pomiędzy analizą głównych składowych i analizą czynnikową, by metody
te stosować świadomie, gdy\ oparte są one na odmiennych zało\eniach.
1
Np. Leland Wilkinson i Herb Stenson podkreślają, \e w  przeciwieństwie do głównych
składowych  model wspólnych czynników nie jest jednoznacznie określony; i to nie ze
względu na to, \e mo\e być dowolnie rotowany (tak jak i główne składowe), ale dlatego,
\e bazuje na liczbie nieobserwowanych parametrów większej od liczby obserwowanych
danych, co jest  niezwykłą okolicznością w statystyce (Wilkinson Stenson 1996, s.569).
Dla niektórych rodzajów macierzy mo\liwa jest nieskończona liczba doskonale
dopasowanych modeli czynnikowych. Ponadto w FA mamy do czynienia z problemem
konieczności szacowania wartości czynnikowych, które nie mogą być bezpośrednio
wyliczone z modelu.
2
1.2 Zało\enia co do typu danych, które mo\na analizować
PCA i FA prowadzi się z zało\enia na zmiennych co najmniej interwałowych
a między zmiennymi mamy do czynienia ze związkami liniowymi. Dobre rezultaty
analizy te dają tak\e w przypadku powszechnie stosowanych w badaniach
społecznych i marketingowych skalach typu Likerta (najlepiej co najmniej 5-
punktowych), skalach dyferencjału semantycznego itp., mimo \e formalnie
trudno uznać je za skale interwałowe. Prowadzi się tak\e analizy na zmiennych
typu 0-1, choć w ich przypadku mogą wystąpić problemy. Zwłaszcza, gdy mamy
do czynienia ze zmiennymi skokowymi o wielu kategoriach, zakodowanymi przy
pomocy zmiennych pomocniczych typu 0-1, stosowanie zwykłej analizy
czynnikowej nie jest poprawnym podejściem: nale\y wtedy stosować wielokrotną
analizę korespondencji  HOMALS z modułu SPSS Categories. Tak\e wówczas,
gdy odsetki 1 w poszczególnych zmiennych ( cię\kość kategorii) znacznie się
ró\nią, analiza czynnikowa mo\e być zwodnicza, gdy\ korelacje między
zmiennymi mogą wynikać z ró\nic w owej  cię\kości , a nie z merytorycznego
związku cech2. Mimo to, u\ywa się analizy zmiennych 0-1 w celu wyodrębnienia
skupień zmiennych. W przypadku zmiennych typu 0-1 lepiej jest jednak u\yć,
analizy korespondencji (HOMALS) lub analizy skupień (CLUSTER), dobierając
w przypadku tej ostatniej miarę odległości (PROXIMITY) odpowiednią dla cech
kodowanych binarnie.
Najczęściej eksploracyjnej analizie czynnikowej i analizie głównych składowych
poddaje się zmienne w ich postaci standaryzowanej (tzn. faktoryzuje się macierz
korelacji, a nie macierz kowariancji); standaryzacja uwzględniona jest domyślnie
przez program analizy czynnikowej SPSS. Nasze rozwa\ania ograniczamy tutaj
do analizy opartej na zmiennych standaryzowanych  macierzach korelacji.
1.3 Analiza głównych składowych (PCA)
Główne składowe to liniowe kombinacje3 zmiennych, które posiadają
następujące własności:
" są ortogonalne w stosunku do siebie, tzn. nie są wzajemnie skorelowane
" pierwsza główna składowa wyjaśnia największą ilość łącznej wariancji
zmiennych, druga jest ortogonalna do pierwszej i wyjaśnia największą część
łącznej wariancji zmiennych nie wyjaśnionej przez pierwszą główną składową
itd. Maksymalna liczba głównych składowych potrzebna do wyjaśnienia całości
wspólnej wariancji k zmiennych jest równa k.
Analiza głównych składowych (PCA) jest:
1. Metodą redukcji przestrzeni danych, to znaczy jej celem jest przedstawienie
informacji zawartej w zbiorze k zmiennych za pomocą jskładowych przy zachowaniu jak największej ilości informacji z pierwotnego
zbioru zmiennych. Korzystając z faktu, \e kolejne składowe wyjaśniają
malejący zakres łącznej wariancji zmiennych, dla celów prezentacji zale\ności
2
Zniekształcenia mogą zresztą wystąpić równie\ w przypadku zmiennych porządkowych,
jeśli występują w nich bardzo du\e ró\nice w  cię\kości poszczególnych kategorii.
3
Kombinacja liniowa ma postać y= a0 + a1x1 + a2x2 + ... + anxn
3
w zbiorze danych wykorzystujemy j pierwszych składowych. W celu uzyskania
interpretowalnych wyników główne składowe mo\na poddać rotacji (o tym
dalej).
2. Metodą przekształcenia k skorelowanych zmiennych wyjściowych w k głównych
składowych. Korzyścią z takiego przekształcenia zbioru zmiennych w zbiór
głównych składowych jest mo\liwość ujęcia całości informacji zawartej
w zmiennych (ich wariancji) w postaci zestawu ortogonalnych, a więc
niezale\nych, składowych. Takie składowe mo\na u\yć w wygodny sposób
w analizie regresji lub analizie dyskryminacji, zwłaszcza w sytuacji, gdy
pierwotny zbiór zmiennych niezale\nych jest silnie skorelowany (występuje
w nim zjawisko silnej przybli\onej współliniowości zmiennych niezale\nych). W
praktyce w dalszej analizie wykorzystuje tylko część wyodrębnionych
składowych głównych. Ni\ej podaję kilka praktycznych reguł wykorzystania
składowych głównych w modelach liniowych.
3. Metodą prezentacji graficznej struktury wielowymiarowego zbioru danych na
płaszczyznie z jak najmniejszym zniekształceniem informacji.
Model analizy głównych składowych mo\na wyrazić następująco:
główna składowa = liniowa kombinacja obserwowanych zmiennych
W analizie głównych składowych przedmiotem wyjaśnienia jest całkowita
wariancja wszystkich zmiennych. Główne składowe, jako liniowe kombinacje
obserwowalnych zmiennych, są jednoznacznie określone. Zatem dla ka\dego
przypadku w bazie danych mo\na jednoznacznie wyliczyć wartości na głównej
składowej, dodając do siebie wartości standaryzowane danego przypadku na
poszczególnych zmiennych wymno\one przez odpowiednie wagi (współczynniki
wartości czynnikowych).
Matematyczną podstawą analizy głównych składowych jest dekompozycja pełnej
macierzy korelacji zmiennych (z wartościami 1 na głównej przekątnej) na
wektory własne i wartości własne.
1.4 Analiza czynnikowa
Analiza czynnikowa (FA) jest metodą badania struktury le\ącej u podstaw
związków obserwowanych między zmiennymi. Celem tej metody jest
sprowadzenie zaobserwowanych korelacji (kowariancji) między wieloma
zmiennymi do niedu\ej liczby wyjaśniających je zmiennych nieobserwowalnych:
wspólnych czynników, konstruktów. W modelu analizy czynnikowej przyjmuje
się, \e na ka\dą ze skorelowanych ze sobą zmiennych wpływają w ró\nym
stopniu wspólne czynniki, które wyjaśniają zaobserwowaną korelację. Wariancja
zmiennych dzieli się na:
" wariancję wspólną, podzielaną przez zmienne z zestawu (wyjaśnioną przez
czynniki wspólne)  część wariancji zmiennej wyjaśnioną przez czynniki
wspólne nazywamy jej zasobem zmienności wspólnej
" wariancję swoistą ka\dej ze zmiennych, niesprowadzalną do współzmienności
wywołanej oddziaływaniem wspólnych czynników.
Tę ostatnią dzieli się jeszcze na wariancję specyficzną zmiennej oraz wariancję
wynikającą z błędu.
4
Celem analizy czynnikowej jest wyjaśnienie zasobu zmienności wspólnej
mierzonych zmiennych. U podstaw analizy czynnikowej mamy więc model
teoretyczny ukrytej struktury przyczynowej, wyjaśniającej zaobserwowaną
strukturę korelacji wskazników. Mo\na to przedstawić schematycznie
w następujący sposób (przykład dla dwóch czynników):
d1
U1
X1
b11
b12
d2
X2
U2
F1
b21
b13
b22
d3
X3
f1 b14 U3
b23
b24
X4
d4
U4
F2
b15
b25
X5
U5
d5
gdzie:
F1, F2  czynniki wspólne (nieobserwowalne)
X1 do X5  zmienne (obserwowalne)
U1 do U5  czynniki swoiste (nieobserwowalne)
f1  współczynnik korelacji między czynnikami
bij  ładunki czynnikowe czynników głównych (wspólnych)  współczynniki
regresji standaryzowanej zmiennych na czynniki)
ś
dij  ładunki czynnikowe czynników swoistych ( 1- zasób zmienno ci wspó ln ej )
Model analizy czynnikowej mo\na więc wyrazić następująco:
obserwowana zmienna = liniowa kombinacja czynników + błąd
Matematycznie rzecz sprowadza się do analizy struktury tzw. zredukowanej
macierzy korelacji, tzn. macierzy korelacji, w której na przekątnej umieszczone
są wartości wskazujące proporcję wariancji wspólnej  wyjaśnianej przez
wspólne czynniki  w całkowitej wariancji ka\dej ze zmiennych (zasoby
zmienności wspólnej). Najprostszym sposobem oszacowania tej proporcji
(zasobów zmienności wspólnej) jest wykorzystanie kwadratu współczynnika
korelacji wielokrotnej ka\dej ze zmiennych z pozostałymi zmiennymi z baterii 
jest to dolna granica zasobu zmienności wspólnej ka\dej ze zmiennych w
modelu, mająca te\ tę zaletę, \e jest ustalana empirycznie, a nie szacowana.
Innym sposobem jest iteracyjne szacowanie wartości zasobu zmienności
wspólnej poprzez wielokrotne prowadzenie analizy głównych składowych
zredukowanej macierzy korelacji i podstawianie za ka\dym razem na główną
5
przekątną nowo oszacowanych zasobów zmienności wspólnej, a\ do osiągnięcia
sytuacji, w której modele z dwóch kolejnych kroków nie ró\nią się istotnie
(mo\na manipulować kryterium tej zbie\ności).
Odrębną metodą wyodrębniania czynników jest metoda największej
wiarygodności: czynniki i zasoby zmienności wspólnej wyznaczone są w taki
sposób, by z największą wiarygodnością wytwarzały zaobserwowaną korelację
między zmiennymi.
śeby lepiej uświadomić sobie ró\nicę pomiędzy PCA i FA zwróćmy uwagę, \e do
wyjaśnienia całkowitej wariancji dwóch zmiennych skorelowanych np. na
poziomie 0,81 potrzeba dwóch głównych składowych (wyznaczony zostanie po
prostu nowy układ współrzędnych), podczas gdy do zupełnego wyjaśnienia
korelacji między nimi (cel analizy czynnikowej) wystarczy jeden czynnik
skorelowany z ka\dą z tych zmiennych na poziomie 0,9.
1.5 Kiedy stosować analizę głównych składowych
a kiedy analizę czynnikową
Analizę czynnikową stosujemy w sytuacji, gdy:
" chcemy wyjaśnić zaobserwowaną korelację między zmiennymi za pomocą
modelu przyczynowego opartego na strukturze związków zmiennych
obserwowalnych z ukrytymi czynnikami
" dysponujemy modelem teoretycznym struktury takiego związku4 lub
będziemy uzyskane wyniki interpretować w kategoriach teoretycznego modelu
przyczynowego
" koncentrujemy się na wyjaśnieniu korelacji między zmiennymi i dlatego
chcemy wyłączyć z analizy wariancję swoistą zmiennych
" zmienne są obcią\one względnie du\ym błędem pomiarowym, który badacz
chce wyłączyć z analizy
" celem analizy jest selekcja pozycji/wskazników do skali sumarycznej Likerta
(choć w tym przypadku, zwłaszcza przy du\ej liczbie pozycji, stosuje się te\
analizę głównych składowych)
" celem analizy jest klasyfikacja zmiennych we względnie jednorodne grupy,
w gruncie rzeczy będące właśnie wskaznikami pewnych konstruktów.
Niektórzy statystycy (np. Wilkinson i Stenson 1996) zalecają porównanie
rezultatów uzyskanych za pomocą analizy czynnikowej (np. metodą największej
wiarygodności, osi głównych czy najmniejszych kwadratów)
z wynikami analizy głównych składowych, \eby  uniknąć oszukania przez
degeneracje wynikające z niejednoznaczności modelu czynnikowego (por.
przypis 1).
Analizę głównych składowych stosujemy wówczas, gdy:
" nie dysponujemy potencjalnym modelem  głębokiej struktury czynników
wyjaśniających związki pomiędzy zmiennymi, taki model nie jest celem naszej
4
W tym wypadku nawet właściwsze będzie zastosowanie konfirmacyjnej analizy
czynnikowej, dostępnej w programie AMOS, odrębnym module SPSS.
6
analizy lub nie chcemy  wtłaczać w taki model posiadanych danych
empirycznych
" celem jest eksploracja, rozpoznanie struktury zbioru danych: wyszukujemy
przypadki osobliwe, chcemy przedstawić graficznie strukturę zbioru danych
w przestrzeni dwu- lub trójwymiarowej przy mo\liwie najmniejszym
zniekształceniu relacji zachodzących pomiędzy obserwacjami, szukamy
skupień obiektów ze względu na podobieństwo w zakresie analizowanych cech,
określamy minimalną liczbę wymiarów przy pomocy których jesteśmy w stanie
wyjaśnić zało\oną część wariancji zbioru zmiennych
" jeśli wiemy, \e wariancja specyficzna i wariancja wynikająca z błędu jest
niewielka a tak\e, gdy analizujemy du\o (np. więcej ni\ 15) skorelowanych
zmiennych lub gdy korelacja między zmiennymi jest względnie wysoka, lepiej
jest stosować analizę głównych składowych: główne składowe są
jednoznacznie określone  są kombinacjami liniowymi zmiennych i mogą być
wprost wyliczone, podczas gdy wartości czynników głównych mogą być tylko
szacowane, nie są jednoznacznie określone i przy zastosowaniu są zródłem
pewnych kłopotów (np. oszacowane zmienne z wartościami czynnikowymi
mogą być skorelowane nawet wtedy, gdy czynniki nie są skorelowane lub
mogą nie być doskonale skorelowane z rzeczywistymi czynnikami)
" chcemy wyliczyć nieskorelowane główne składowe w celu zastosowania ich
w dalszych analizach wielowymiarowych (np. regresji lub dyskryminacji)
" chcemy wyliczyć jednoznacznie wartości skal reprezentujących wymiary
mierzone przez zestaw zmiennych  alternatywą dla PCA jest proste
sumowanie dla ka\dego przypadku wartości z poszczególnych zmiennych,
zaklasyfikowanych do skali na podstawie analizy czynnikowej ( skala oparta na
czynniku a nie  skala czynnikowa ); zastosowanie wartości czynnikowych
wyliczonych w analizie czynnikowej (FA) jest problematyczne, choć te\
stosowane (por. podręcznikowy przykład w Backhaus i in. 1990).
Etapy analizy czynnikowej i analizy składowych głównych oraz zasady
interpretacja wyników tych dwóch metod (przy świadomości ró\nic pomiędzy
nimi) są takie, same dlatego potraktujemy je łącznie, a na przykładach
porównamy wyniki uzyskiwane ka\dą z tych metod.
1.6 Kilka u\ytecznych definicji
Wzorem Haira i in. (1984) warto podać słowniczek pojęć najczęściej spotykanych
przy okazji analizy czynnikowej i analizy głównych składowych.
Zasób zmienności wspólnej  część wariancji oryginalnej zmiennej dzielona
z wszystkimi pozostałymi zmiennymi włączonymi do analizy; w modelu
ortogonalnym jest równa podniesionym do kwadratu ładunkom czynnikowym
danej zmiennej. W przypadku wstępnej ekstrakcji czynników w analizie
głównych składowych zasób zmienności wspólnej ka\dej ze zmiennych jest
równy 1, co oznacza \e analizie poddana jest cała wariancja zmiennych. Po
odrzuceniu części  najmniejszych składowych zasób zmienności wspólnej
mówi nam, jak dobrze reprezentowana jest dana zmienna przez model o
zredukowanej przez nas liczbie wymiarów. W analizie czynnikowej szacowanie
zasobu zmienności wspólnej jest jednym z kluczowych elementów procesu
budowania modelu czynnikowego. Ostateczny zasób zmienności wspólnej
7
informuje nas o tym, jaki zakres wariancji zmiennej jest sprowadzalny do
ukrytych czynników ujętych w modelu.
Wartość własna  matematyczna własność macierzy kwadratowej; reprezentuje
zakres wariancji wyjaśnianej przez dany czynnik. We wstępnej fazie analizy,
przed rotacją, czynniki wyodrębniane są w taki sposób, \e kolejno wyjaśniają
największą mo\liwą część wariancji, spełniając jednocześnie warunek braku
wzajemnej korelacji. Prowadzi to do tego, \e kolejne czynniki (wektory
własne) mają co raz mniejszą wartość własną. W PCA suma wartości własnej
wszystkich składowych głównych (czyli ich wariancji) równa się liczbie
zmiennych, gdy\ ka\da zmienna standaryzowana ma wariancję równą 1.
W analizie czynnikowej zredukowanej macierzy korelacji suma wartości
własnych równa się sumie wartości umieszczonych na przekątnej tej macierzy
(tzw. ślad macierzy). Procent wariancji wyjaśnionej przez czynnik obliczamy
jako stosunek wartości własnej czynnika do sumy wszystkich wartości
własnych (w PCA procentuje się do sumy równej liczbie zmiennych, gdy\ na
przekątnej pełnej macierzy korelacji są jedynki  całkowite wariancje
zmiennych standaryzowanych).
Aadunek czynnikowy  ogólne określenie współczynników umieszczanych
w macierzy ładunków czynnikowych; w wę\szym znaczeniu: współczynniki
regresji pomiędzy zmienną (standaryzowaną) a zestawem czynników
wspólnych. W przypadku nierotowanych głównych składowych (które są
nieskorelowane) i w przypadku rotacji ortogonalnej w obu opisywanych
metodach są to jednocześnie współczynniki korelacji pomiędzy zmienną
i ka\dym czynnikiem z osobna, jak i współczynniki regresji pomiędzy zmienną
a zestawem czynników wspólnych. W przypadku rotacji skośnej mamy do
czynienia z dwiema macierzami ładunków czynnikowych: macierzą wzoru
czynników (macierz modelowa) zawierającą ładunki czynnikowe czyli
współczynniki regresji pomiędzy zmienną (standaryzowaną) a zestawem
czynników wspólnych oraz macierzą struktury czynników (macierz struktury)
zawierającą współczynniki korelacji pomiędzy ka\dą zmienną i ka\dym
czynnikiem z osobna. W przypadku rotacji skośnej wartości współczynników
w obu rodzajach macierzy te nie są ju\ sobie równe.
Rotacja czynników  proces lokowania (transformacji) czynników ostatecznie
zachowanych w analizie (tak\e głównych składowych) w przestrzeni
zmiennych tak, by uzyskać mo\liwie najprostszą, interpretowalną strukturę
czynników.
Ortogonalne czynniki  czynniki nie pozostające ze sobą w korelacji;
w przestrzeni: prostopadłe do siebie.
Rotacja ortogonalna  rotacja z zachowaniem niezale\ności (braku korelacji,
prostopadłości) czynników.
Skośne czynniki  czynniki skorelowane ze sobą, nie tworzące w przestrzeni kąta
prostego.
Rotacja skośna  rotacja czynników dopuszczająca korelację pomiędzy nimi,
reprezentowaną przez odejście od prostopadłości czynników w przestrzeni.
8
Zredukowana macierz korelacji  macierz korelacji, w której na głównej
przekątnej zamiast 1 umieszczone zostały oszacowane wartości zasobu
zmienności wspólnej ka\dej zmiennej, zazwyczaj wartości współczynnika
determinacji R2 (wielokrotnego) danej zmiennej w jej regresji na wszystkie
pozostałe zmienne ujęte w macierzy.
1.7 Etapy analizy
W analizie czynnikowej i analizie głównych składowych mamy do czynienia
z pewną sekwencją czynności analitycznych.
1. Podjęcie przez analityka decyzji o sposobie postępowania z brakiem danych:
eliminacja parami, przypadkami czy zastępowanie średnią? A mo\e nale\y
podstawić w miejsce braków danych wartości na podstawie któregoś ze
statystycznych modeli imputacji? Odpowiedz na te pytania wymaga
uprzedniej analizy konfiguracji braków danych. Pomocny mo\e być w tym np.
moduł programu SPSS: Missing Value Analysis. Ignorowanie problemów
wynikających z braków danych mo\e prowadzić do zniekształcenia wyników
analizy.
2. Obliczenie macierzy korelacji (program wykonuje to automatycznie).
3. Wstępny ogląd macierzy korelacji i usunięcie z analizy zmiennych nie
skorelowanych z pozostałymi (ewentualny test oceniający przydatność
macierzy korelacji do zastosowania modelu czynnikowego)  w praktyce
często jest jednak łatwiej przeprowadzić wstępne analizy metodą głównych
składowych i  wyłapać zmienne, które pojedynczo budują odrębne czynniki
lub nisko ładują wszystkie czynniki zachowane w analizie.
4. Wyodrębnienie czynników  wybór metody wyodrębnienia i określenie liczby
czynników pozostawionych do dalszej analizy.
5. Rotacja czynników w celu uzyskania klarownej interpretacji.
6. Interpretacja znaczenia uzyskanych czynników na podstawie sensu
zmiennych, które mają wysokie ładunki czynnikowe w przypadku danego
czynnika (na ogół bierze się pod uwagę ładunki czynnikowe o wartościach
bezwzględnych wynoszących co najmniej 0,6, choć nie jest to sztywna zasada
i wiele zale\y od konkretnych danych)
7. Wyliczenie (w razie potrzeby) wartości czynnikowych i u\ycie ich do
sporządzenia wykresów lub dalszych analiz.
1.8 Metoda wyodrębniania czynników
Problem wyboru pomiędzy analizą głównych składowych a właściwą analizą
czynnikową został przedyskutowany wy\ej. Analizę głównych składowych
uzyskujemy wybierając opcję w menu: Wyodrębnianie  Głównych składowych
(syntaks /EXTRACTION PC, opcja domyślna SPSS). W ramach właściwej analizy
czynnikowej stosujemy zazwyczaj:
" Analizę metodą głównych osi (Osi głównych: PAF) lub metoda najmniejszych
reszt (Niewa\onych najmniejszych kwadratów: ULS  metoda niewa\onych
najmniejszych kwadratów, znana równie\ w literaturze jako metoda MINRES),
9
które zasadniczo dają identyczne rezultaty5. Są to techniki iteracyjne
korzystające z analizy głównych składowych jako punktu wyjścia w analizie
zredukowanej macierzy korelacji, w wyniku których następuje wyodrębnienie
czynników i oszacowanie zasobu zmienności wspólnej zmiennych u\ytych w
modelu. Są to techniki eksploracyjne, opisowe, dla których nie mamy testu
dopasowania modelu do danych. Syntax: /EXTRACTION PAF (lub alternatywnie
ULS)
" Metoda największej wiarygodności (Maksymalnej wiarygodności: ML) jest
metodą iteracyjną: czynniki wyznaczone są w taki sposób, by z największą
wiarygodnością wywoływały zaobserwowaną korelację między zmiennymi,
jednak przy zało\eniu, \e próba pochodzi z populacji, w której analizowane
zmienne podlegają wielowymiarowemu rozkładowi normalnemu (co nakłada
postulat normalności rozkładu tak\e na ka\dą z nich z osobna  zjawisko
rzadko spotykane w badaniach społecznych). Metoda ta daje mo\liwość
przeprowadzenia testu dopasowania modelu opartego na określonej liczbie
czynników do obserwowanej macierzy korelacji w warunkach du\ej próby (test
oparty na rozkładzie CHI2). Paradoksalnie, w warunkach du\ej próby nawet
niewielkie odchylenia odtworzonej na podstawie modelu czynnikowego
macierzy korelacji od macierzy obserwowanej łatwo prowadzą do odrzucenia
hipotezy o dopasowaniu modelu; chęć uzyskania potwierdzonego testem
dopasowania prowadzi zwykle do zachowania zbyt du\ej liczby czynników.
Jeśli posłu\ymy się innymi kryteriami określania liczby czynników, zwłaszcza
metodą merytorycznej interpretowalności czynników, metoda ta daje dobre
rezultaty w analizie eksploracyjnej i jest często polecana. W procesie
iteracyjnego wyodrębniania czynników tą metodą, w ka\dym kolejnym kroku,
większa waga przypisywana jest tym zmiennym, które mają większy
oszacowany zasób zmienności wspólnej. Z nazwy  metoda największej
wiarygodności nie wynika ocena tej metody, a jedynie wskazany jest przez
nią model matematyczny, który stoi u podstaw tej techniki. Metoda ta nie
usuwa problemu niejednoznaczności modelu czynnikowego. Podobne
właściwości ma metoda uogólnionych najmniejszych kwadratów (Uogólnionych
najmniejszych kwadratów  GLS). Opcje: /EXTRACTION ML (lub: GLS).
To, którą opcję wybrać, je\eli ju\ zdecydujemy się na analizę czynnikową, a nie
głównych składowych, zale\y od tego, czy chcemy testować jakość dopasowania
modelu do danych w populacji i czy mamy podstawy ku temu (rozkład normalny,
du\a próba)  wówczas ML jest odpowiednia. Je\eli prowadzimy analizę
eksploracyjną zwykle u\ywamy PAF. Wszystkie metody w praktyce badawczej
dają zwykle takie same (merytorycznie, nie matematycznie) rezultaty.
1.9 Określanie liczby czynników
Kryteria pomocne przy podejmowaniu decyzji o liczbie czynników/głównych
składowych pozostawionych do dalszej analizy:
1. Kryterium wartości własnej Keisera: wartość własna ka\dego czynnika-głównej
składowej (= jego wariancji) pozostawionego w dalszej analizie powinna być
większa od 1 (a więc od wariancji pojedynczej zmiennej). Program SPSS tak\e
5
 W warunkach istnienia rozwiązania kanonicznego metoda MINRES jest identyczna z
iteracyjną metodą czynników głównych dla R (Arminger, s. 52).
10
w przypadku analizy czynnikowej przeprowadza najpierw analizę głównych
składowych i kryteria selekcji odnoszą się do wartości własnych wyliczonych na
tym etapie. Jako domyślne kryterium selekcji czynników stosuje się w tym
programie kryterium Keisera. Opcja /CRITERIA MINEIGEN(1).
2. Kryterium Jolliffe: w warunkach badania na próbie losowej błąd losowy mo\e
prowadzić do zani\enia wartości własnej głównej składowej (kryterium to
podane zostało dla PCA). W związku z tym, nale\y zachować w analizie te
składowe, których wartość własna jest większa od 0,7. Opcja /CRITERIA
MINEIGEN(.7).
3. Kryterium wystarczającej proporcji wyjaśnionej wariancji (popularne w ramach
PCA): nale\y pozostawić tyle składowych, by wyjaśniały zało\ony procent
wariancji, np. 80% lub 95%. Opcja /CRITERIA FACTORS(?), gdzie w miejsce ?
nale\y wpisać taką liczbę czynników, które w świetle wstępnej analizy
wyjaśniają w sumie określony zakres wariancji.
4. Liczba czynników powinna być mniejsza od połowy liczby zmiennych
(najbardziej  płynne kryterium ze spotykanych w literaturze, obok kryterium,
\e najmniejszy czynnik powinien wyjaśniać co najmniej 1%, 5% lub 10%
całkowitej wariancji w PCA, a całkowitej wspólnej wariancji w FA). Opcja
/CRITERIA MINEIGEN(?).
5. Kryterium interpretowalności czynników: badacz zachowuje taką liczbę
czynników, która ma sens, da się zinterpretować w ramach jego modelu
teoretycznego. Jest to wa\ne kryterium, choć jest subiektywne. Dane
obcią\one są błędami wynikającymi z losowania i samego pomiaru. Mo\e to
prowadzić do zniekształceń i wyodrębniania czynników reprezentujących
przypadkowe konfiguracje zmiennych. Z drugiej strony, wa\ny jest walor
 heurystyczny analizy czynnikowej, jej zdolność ujawniania konfiguracji,
których nie oczekiwaliśmy i podwa\ania tych, z wizją których przystępujemy
do badania. Odrzucenie czynnika, ze względu na jego  nieinterpretowalność ,
musi być więc poprzedzone stosownym namysłem. Opcja /CRITERIA
FACTORS(?), gdzie w miejsce ? nale\y wpisać taką liczbę czynników,
które w świetle wstępnej analizy da się sensownie zinterpretować.
6. Kryterium istotności testu statystycznego dopasowania odtworzonej macierzy
korelacji do macierzy obserwowanej (tylko dla metody największej
wiarygodności i GLS): jak ju\ wskazałem, prowadzi często do pozostawienia
du\ej liczby  małych czynników i stawia wymóg normalności rozkładów
zmiennych w populacji, z której pobrana jest próba. Testujemy kolejne modele
zwiększając liczbę czynników o 1 w opcji /CRITERIA FACTORS(?), a\ do
uzyskania wartości p>0,05 w teście CHI2.
7. Analiza odchyleń (reszt) obserwowanych współczynników korelacji od
współczynników odtworzonych: opcja /PRINT REPR. Po wybraniu tej opcji
SPSS drukuje macierz, której dolny trójkąt zawiera współczynniki korelacji
pomiędzy zmiennymi odtworzone na podstawie modelu przyjętego
czynnikowego, górny trójkąt  reszty pomiędzy obserwowanymi i
odtworzonymi współczynnikami korelacji, a przekątna  odtworzone
(oszacowane) zasoby zmienności wspólnej ka\dej ze zmiennych. SPSS
raportuje tak\e odsetek reszt o wartości bezwzględnej przekraczającej 0,05.
Du\e odchylenia odtworzonych współczynników korelacji świadczą o słabym
dopasowaniu naszego modelu czynnikowego do danych i ka\e go
zweryfikować. Musimy jednak pamiętać, \e nawet bardzo dobre dopasowanie
modelu do danych nie gwarantuje jego prawdziwości.
8. Kryterium osypiska (Cattella): nale\y zachować tyle czynników, ile tworzy
 zbocze , natomiast zignorować te, które tworzą  osypisko ,  rumowisko
11
u podnó\a na wykresie sporządzonym przez połączenie punktów opisujących
wielkość wartości własnej (wariancji) kolejnych czynników.6 Czasami trudno
jest zdecydować, które miejsce stanowi rzeczywiście początek osypiska i
wybór bywa nieco subiektywny. Metoda ta daje jednak często dobre rezultaty.
Prowadzi zwykle do pozostawienia mniejszej liczby czynników, ni\ kryterium
Keisera i jest skuteczna zwłaszcza w przypadku analizy koncentrującej się na
najwa\niejszych czynnikach i ignorującej mniej wa\ne.
A oto przykładowy wykres ilustrujący kryterium  osypiska . Osypisko wyraznie
zaczyna się w przypadku 4 czynników, taką więc ich liczbę nale\ałoby
pozostawić w analizie. Mo\na jednak dopatrywać się początku osypiska ju\
przy 3 czynnikach. Nale\y więc odwołać się dodatkowo do kryterium
merytorycznej interpretowalności. Kryterium Keisera sugeruje rozwiązanie
oparte na 4 czynnikach.
W analizie czynnikowej du\ą rolę odgrywa doświadczenie i sztuka interpretacji,
stąd badacz powinien elastycznie kierować się powy\szymi wskazówkami, by
dotrzeć do ostatecznego modelu.
1.10 Rotacja czynników i interpretacja wyników
Celem jest uproszczenie wzoru czynników tak, by (w idealnym przypadku) ka\da
zmienna miała wysoki ładunek tylko na jednym czynniku i by ka\dy czynnik miał
przynajmniej kilka ładunków bliskich 0 i kilka wysokich, bliskich 1 lub -1. Ułatwia
to interpretację uzyskanego modelu. Taki ogólny cel mo\e prowadzić do ró\nych
6
W literaturze spotyka się dwa stanowiska: jedno ka\e pozostawić tyle czynników, ile
znajduje się na  zboczu wraz z tym, od którego zaczyna się  osypisko ; inne stanowisko
ka\e ignorować ten ostatni czynnik.
12
szczegółowych kryteriów matematycznych, które kierują zmianą poło\enia
czynników wobec zmiennych.
Aby uzyskać prostą strukturę macierzy ładunków czynnikowych, mo\na dą\yć do
uproszczenia interpretacji ka\dej ze zmiennych za pomocą minimum istotnych
czynników, a więc do uproszczenia wierszy macierzy ładunków. Prowadzi to do
rotacji QURTIMAX7, która w szczególnych sytuacjach mo\e jednak skończyć się
wyprodukowaniem wysokich ładunków dla wszystkich zmiennych na jednym
czynniku.
Mo\na te\ dą\yć do uproszczenia interpretacji ka\dego z czynników, a więc
doprowadzić do tego by względnie niewiele zmiennych miało wysokie ładunki na
jednym czynniku, a pozostałe zmienne miały na tym\e czynniku ładunki zerowe
lub bliskie zero; oznacza to dą\enie do uproszczenia kolumn macierzy ładunków.
Prowadzi to do rotacji VARIMAX8, która daje, ogólnie biorąc, klarowniejsze i
bardziej stabilne wyniki. Jest to domyślna rotacja w programie SPSS.
Kompromisem pomiędzy rotacją QUARTIMAX i VARIMAX jest rotacja EQUAMAX.
Najczęściej stosowaną w praktyce metodą rotacji jest ortogonalna rotacja
VARIMAX (z normalizacją Keisera9). Powołując się na eksperymenty Keisera, Kim
i Mueller (1994) piszą:  wzór czynników uzyskany poprzez rotację VARIMAX
bywa bardziej stabilny (invariant) od uzyskanego w rotacji QUARTIMAX, gdy
analizujemy ró\ne podzbiory zmiennych (s. 104). Z kolei Arminger (1979, s. 94-
95) pisze, \e w wielu wykonanych przez siebie analizach nie stwierdził większych
ró\nic pomiędzy wynikami uzyskanymi przy pomocy tych rotacji, za wyjątkiem
sytuacji, w których wśród zmiennych występowały du\e ró\nice pomiędzy
zasobami zmienności wspólnej.
Konkludując: jeśli zasadne jest wykonanie rotacji ortogonalnej, nie
dopuszczającej korelacji między czynnikami, u\ywamy zazwyczaj rotacji
VARIMAX.
W wielu przypadkach nie mamy powodu zakładać ortogonalności czynników,
nale\y dopuścić do korelacji między czynnikami, gdy\ oczekujemy, \e są one
w rzeczywistości skorelowane. W takiej sytuacji przeprowadzamy nieortogonalną
rotację prowadzącą do czynników skośnych. W analizie czynnikowej
wypracowano kilka takich metod. W SPSS dostępny jest skośny odpowiednik
rotacji VARIMAX  rotacja DIRECT OBLIMIN. Dopuszczalny poziom korelacji
między czynnikami reguluje się w niej przy pomocy parametru Delta: wartość 0
lub nieco większa dopuszcza największe skorelowanie; im bardziej ujemna
wartość, tym rozwiązanie bli\sze jest uzyskanemu w rotacji VARIMAX.
7
Kryterium rotacji jest w tym wypadku maksymalizacja wariancji podniesionych do
kwadratu ładunków czynnikowych dla ka\dej zmiennej, przy danej liczbie czynników,
danych zasobach zmienności wspólnej i zachowaniu ortogonalności czynników.
8
Kryterium rotacji jest w tym wypadku maksymalizacja wariancji podniesionych do
kwadratu ładunków czynnikowych dla ka\dego czynnika, przy danej liczbie czynników,
danych zasobach zmienności wspólnej i zachowaniu ortogonalności czynników.
9
Polega ona na podzieleniu przed rotacją ładunków czynnikowych dla ka\dej zmiennej
przez pierwiastek kwadratowy z zasobu zmienności wspólnej tej zmiennej, a to w celu
wyrównania wpływu zmiennych na poło\enie rotowanych czynników niezale\nie od ich
zasobu zmienności wspólnej.
13
Nie ma doskonałej recepty na ustawianie parametru DELTA. W analizie
eksploracyjnej G. Arminger poleca następujący sposób postępowania (Arminger
1979, s. 112-113).
(1) Najpierw zdefiniować konstrukty i zoperacjonalizować je za pomocą
mierzalnych zmiennych.
(2) Wykonać analizę bez rotacji i sporządzić wykres ładunków czynnikowych
(problem przy większej liczbie czynników). Zmienne definiujące konstrukt
powinny tworzyć zwartą chmurę punktów. Zmienne odosobnione nale\y
wyłączyć z analizy.
(3) Jeśli przeprowadzimy osie przez chmury punktów, mo\emy mniej więcej
ocenić kąt pomiędzy nimi. Cosinus tego kąta umo\liwia ocenę korelacji
pomiędzy czynnikami. Jeśli korelacja jest wysoka, ustawiamy DELTA>0, jeśli
niska  DELTA<0.
(4) Zarówno przy eliminacji zmiennych, jak i przy wyborze DELTA wa\ne są
rozstrzygnięcia merytoryczne: jeśli z teorii wynika, \e nie powinno być
korelacji, a my uzyskujemy niewysoką korelację przy DELTA=0, nale\y
spróbować obni\yć wielkość DELTA.
Ustawienie parametru delta na 0, sprawdzenie uzyskanej korelacji między
czynnikami i porównanie macierzy wzoru czynników z wynikami rotacji VARIMAX
często pozwala na ostateczne podjęcie decyzji co do sposobu rotacji. Wielu
badaczy sugeruje rotację skośną jako naturalne podejście w analizie czynnikowej
i dopiero wówczas, gdy korelacja między czynnikami jest niedu\a, rotowanie
metodą VARIMAX. Trzeba jednak pamiętać, \e skorelowane czynniki mogą być
trudniejsze w interpretacji; wymagają często teorii wyjaśniającej zaobserwowaną
korelację między czynnikami. Ponadto, mo\liwość manipulowania parametrem
DELTA jest przez niektórych traktowana jako nadmiar arbitralności
w modelowaniu rzeczywistości. Często te\ analizę czynnikową i głównych
składowych prowadzi się po to, by uzyskać ortogonalny układ zmiennych do
dalszych analiz. Wówczas rotacja nieortogonalna nie jest rozwiązaniem
po\ądanym.
Od wersji 7.5 pakietu SPSS dostępna jest równie\ rotacja skośna PROMAX, która
polega na potęgowaniu (zazwyczaj do 4 potęgi, co wyznacza parametr KAPPA),
ładunków czynnikowych uzyskanych w rotacji VARIMAX, a następnie wyliczeniu
kąta między czynnikami o uproszczonym przez potęgowanie wzorze czynników.
W tym wypadku korelacja między czynnikami jest więc pochodną prostej
struktury czynników: ich najlepszego dopasowania do poszczególnych skupień
zmiennych. Rotacja PROMAX cieszy się sporym uznaniem w literaturze za jej
efektywność przy odkrywaniu nieortogonalnej struktury czynników le\ących
u podstaw korelacji między wskaznikami.
W wyniku rotacji nieortogonalnej uzyskujemy nie jedną, lecz dwie macierze
współczynników, opisujących związki między czynnikami i zmiennymi.
(1) Macierz wzoru czynników (macierz modelowa)  zawiera ładunki czynnikowe,
czyli standaryzowane współczynniki regresji pomiędzy ka\dą zmienną (jako
zmienną zale\ną) a czynnikami (jako zmiennymi niezale\nymi);
(2) Macierz struktury czynników  zawiera współczynniki korelacji liniowej
pomiędzy zmiennymi a czynnikami: w pierwszej kolumnie mamy
współczynniki korelacji pomiędzy pierwszym czynnikiem i ka\dą zmienną
z osobna, w drugiej  pomiędzy drugim czynnikiem i ka\dą zmienną z osobna
itd.
14
W sytuacji, gdy czynniki są skorelowane, współczynniki korelacji pomiędzy
zmienną a ka\dym z czynników nie są równe standaryzowanym współczynnikom
regresji pomiędzy zmienną a tymi czynnikami jako zestawem zmiennych
niezale\nych, gdy\ współczynniki regresji uwzględniają wzajemną korelację
zmiennych niezale\nych, a współczynniki korelacji  nie. W sytuacji, gdy
czynniki są ortogonalne, współczynniki korelacji są równe standaryzowanym
współczynnikom regresji pomiędzy zmiennymi i czynnikami (ładunkom
czynnikowym) i dlatego mamy do czynienia z jedną macierzą ładunków
czynnikowych.
W analizie czynnikowej rotowanej skośnie (OBLIMIN, PROMAX) interesuje nas
zwykle macierz wzoru czynników  zawierająca ładunki
czynnikowe/współczynniki regresji  co wią\e się z przyczynowym charakterem
interpretacji modelu czynnikowego. Ró\nice struktury obu macierzy nie są jednak
zwykle istotne dla interpretacji. Są one tym większe, im silniej skorelowane są
czynniki. W przypadku bardzo wysokiej ich korelacji mo\liwa jest sytuacja, \e
ładunki czynnikowe (w Macierzy modelowej) będą w pewnych przypadkach
niskie, a współczynniki korelacji (w Macierzy struktury) wysokie; np. zmienna V
ma niski ładunek i wysoką korelację z czynnikiem X i wysoki ładunek i wysoką
korelację z czynnikiem Y. Taką sytuację nale\y rozumieć następująco:
a) zmienność czynnika X pokrywa się w znacznym stopniu ze zmiennością
czynnika Y, gdy\ są one silnie skorelowane;
b) czynnik Y wyjaśnia większą część wariancji zmiennej V ni\ czynnik X, przy
kontroli wpływu pozostałych czynników;
c) czynniki X i Y reprezentują pewien wspólny wymiar, a ich wyodrębnienie
w analizie mo\e być wynikiem niekompletnego doboru wskazników lub np.
część wskazników ma ambiwalentny charakter; zawsze w takiej sytuacji
pojawia się problem z kwalifikowaniem wskazników do jednej lub drugiej
skali/czynnika i konieczne jest włączenie kryterium merytorycznej
interpretacji (problem trafności pomiaru).
Macierz struktury czynników ujawnia nam związki pomiędzy zmiennymi
a czynnikami, które mogą być zacierane w macierzy wzorów, w której ładunki są
wyliczane przy charakterystycznym dla regresji wyłączaniu (kontroli) wpływu
innych skorelowanych czynników. Musimy jednak brać pod uwagę to, \e proste
współczynniki korelacji mogą reprezentować związki pozorne, właśnie dlatego, \e
w ich przypadku nie jest kontrolowany wpływ pozostałych zmiennych
(czynników) w modelu.
Zwykle w przypadku badań kwestionariuszowych zakładamy, \e czynniki przez
nas uzyskane powinny być dobrze rozró\nione, powinny posiadać swoją
specyfikę, dlatego te\ nie powinny być one zbyt silnie ze sobą skorelowane.
Sposobem na zaobserwowaną wysoką korelację nie jest jednak wymuszanie
ortogonalności, lecz przemyślenie modelu teoretycznego i doboru wskazników.
Niekiedy spotyka się opinię, \e o ile rotacja jest naturalnym elementem analizy
czynnikowej, o tyle w analizie głównych składowych rotacja nie jest zasadna. Nie
jest to podejście słuszne. Zarówno doświadczenie badawcze jak i studia
symulacyjne pokazują, \e rotowanie głównych składowych w celu uzyskania
klarownej ich interpretacji jest uzasadnione. Główne składowe są po rotacji,
podobnie jak czynniki, często łatwiejsze do interpretacji  a celem analizy
15
danych jest przecie\ zrozumienie danych a nie ich matematyczne przetworzenie.
Tak\e wówczas, gdy główne składowe obliczamy w celu zastosowania w dalszych
analizach, rotacja często jest lepszym rozwiązaniem. Tak więc w analizie skupień
(cluster analysis) u\ycie rotowanych  istotnych składowych głównych (np.
o wartościach własnych powy\ej 1) prowadzi do lepszego odtworzenia struktury
danych, ni\ stosowanie wszystkich wyodrębnionych głównych składowych
(Bacher, 1996, s. 194-198). Rotacja głównych składowych mo\e te\ poprzedzać
ich u\ycie w analizie regresji10. Takie podejście zbli\a analizę głównych
składowych do analizy czynnikowej, nie zacierając jednak ich formalnych ró\nic
między tymi technikami.
Po rotacji mo\na przystąpić do interpretacji uzyskanego modelu. W przypadku
właściwej analizy czynnikowej nie powinno się interpretować czynników
nierotowanych, wobec niejednoznaczności uzyskiwanego rozwiązania.
W przypadku PCA interpretacja nierotowanych składowych jest mo\liwa i
niekiedy właściwsza, rotacja zwykle jednak przynosi rozwiązanie łatwiejsze do
interpretacji.
1.11 Wyliczanie wartości czynnikowych
Po wykonaniu rotacji mo\emy wyliczyć wartości czynnikowe (w sytuacji PCA
mo\na tak\e bez rotacji)  opcja /SAVE=REG (lub /SAVE=BART, lub /SAVE=AR;
w przypadku PCA wszystkie trzy metody obliczania wartości czynnikowych
prowadzą do tych samych rezultatów, w przypadku FA  wszystkie prowadzą do
pewnych kłopotów). Na tym etapie tworzone są nowe zmienne, dodawane na
końcu zbioru. Odpowiadają one poszczególnym czynnikom/głównym składowym.
Zawierają (dla ka\dego przypadku, w którym nie ma braków danych)
oszacowania wartości, które ka\dy przypadek uzyskał na wymiarze (skali)
reprezentującym czynnik. Wartości czynnikowe wyliczane są przez pomno\enie
wyliczonych przez program współczynników wartości czynnikowych (macierz
współczynników ocen czynnikowych; opcja: /PRINT FSCORE) dla poszczególnych
zmiennych przez te (standaryzowane) zmienne i dodanie do siebie wyników.
Nowa zmienna jest więc kombinacją liniową wartości zmiennych, wa\onych
współczynnikami, określającymi wpływ poszczególnych zmiennych na wartość
danego czynnika. Musimy pamiętać, \e w przypadku właściwej analizy
czynnikowej (FA) wartości czynnikowe są tylko oszacowaniem  prawdziwych
wartości czynników i, ze względu na właściwości tego modelu analizy, mogą być
problematyczne. Dlatego w sytuacji, gdy chcemy u\ywać wartości czynnikowych
w dalszej analizie, lepiej jest skorzystać z analizy głównych składowych. W PCA
wartości czynnikowe są wyliczane jednoznacznie, a nie szacowane. Składowe
główne są liniowymi kombinacjami obserwowanych zmiennych, jednoznacznie
określonymi11.
1.12 Wykresy ładunków czynnikowych i wartości czynnikowych
10
 Je\eli główne składowe są nieinterpretowalne, wówczas mo\emy rotować zatrzymane
składowe przed u\yciem ich w regresji (Dunteman 1994, s. 215).
11
W przypadku nierotowanych głównych składowych współczynniki wartości
czynnikowych otrzymuje się przez podzielenie ładunków czynnikowych przez wartość
własną czynnika; to dzielenie wykonuje się po to, by uzyskać wartości czynnikowe
znormalizowane tak, \eby wariancja wyliczonej zmiennej była równa 1.
16
Aadunki czynnikowe mo\na przedstawić na wykresie rozrzutu (2W lub 3W). Osie
układu współrzędnych reprezentują czynniki. współrzędne punktów
reprezentujących zmienne wyznaczone są przez ładunki czynnikowe. Skupienia
zmiennych na wykresie wskazują na ich relatywnie silniejsze związki pomiędzy
sobą. Często u\ywa się strzałek, by połączyć punkty oznaczające zmienne
z początkiem układu współrzędnych. Musimy zawsze pamiętać, \e oglądamy
obraz uproszczony, w którym sąsiedztwo punktów na wykresie 2W mo\e być
wynikiem  uproszczenia rzeczywistości i zrzutowania punktu le\ącego daleko, na
niewidocznym wymiarze, na analizowaną płaszczyznę. Dotyczy to zwłaszcza
punktów le\ących bli\ej centrum, czyli początku układu współrzędnych. Pewność
naszego wnioskowania zale\y od jakości modelu, mierzonej odsetkiem
wyjaśnionej wariancji lub testem dobroci dopasowania. Jakość reprezentacji
ka\dej zmiennej na dwuwymiarowym wykresie, opartym na dwóch pierwszych
czynnikach/składowych opisana jest jej zasobem zmienności wspólnej
oszacowanym (jednoznacznie wyliczonym w PCA) dla modelu opartego na dwóch
pierwszych czynnikach.
Wykresy mo\na równie\ sporządzać korzystając z wartości czynnikowych.
Umieszczamy wówczas na wykresie rozrzutu, którego osie reprezentują czynniki,
punkty reprezentujące poszczególne przypadki. Punkty le\ące blisko siebie
stanowią skupienia podobnych obiektów. Jest to stwierdzenie tym bardziej
prawdziwe, im większy odsetek wariancji wyjaśniają dwie pierwsze składowe,
które definiują nasz wykres. W przypadku bazy danych zło\onej z du\ej liczby
przypadków, trudno przedstawić je w komplecie na wykresie. Wylicza się więc
średnie z wartości czynnikowych dla wybranych segmentów (np. wykształcenia) i
lokuje na wykresie te segmenty, posługując się średnimi jako współrzędnymi.
Jest to standardowa technika pozycjonowania.
Mo\na ładunki czynnikowe zmiennych i wartości czynnikowe przypadków
umieścić na jednym wykresie. Wymaga to wykonania uprzednio dość prostych
zabiegów związanych z przygotowaniem wspólnej bazy danych zawierającej
ładunki i wartości czynnikowe na dwóch pierwszych czynnikach oraz zmiennej
odró\niającej jedne od drugich. Następnie wykonuje się wspólny wykres
rozrzutu. Nale\y jednak pamiętać, \e interpretacja odległości pomiędzy punktami
na tym wykresie jest uprawniona tylko odrębnie w zbiorze zmiennych i odrębnie
w zbiorze przypadków. Oba te zbiory nale\ą do odrębnych przestrzeni: ładunków
i wartości czynnikowych, których wspólnym elementem są osie układu
reprezentujące czynniki. Dlatego te\ u\ywamy punktów (strzałek)
reprezentujących zmienne do interpretacji znaczenia wymiarów/osi układu
współrzędnych, a następnie interpretujemy poło\enie punktów oznaczających
przypadki (segmenty) względem tych zinterpretowanych wymiarów. Jest to
technika powszechnie u\ywana w pozycjonowaniu i eksploracyjnej analizie
danych.
1.13 Liczba zmiennych i przypadków
Ile przypadków musi być w bazie danych, \eby przeprowadzić analizę czynnikową
i składowych głównych?
Minimum musimy mieć o jeden przypadek więcej ni\ wynosi liczba zmiennych.
Analizę głównych składowych prowadzi się dla takich niedu\ych macierzy danych,
17
by odkryć ich strukturę i zredukować do minimum (2 lub 3) wymiarów, w celu
prezentacji graficznej (patrz przykład dalej). Zasadniczo nie powinno się
poddawać analizie czynnikowej prób mniejszych ni\ 50 przypadków, a jeszcze
lepiej, by miały 100 lub więcej przypadków. Konserwatywne podejście mówi, \e
powinniśmy mieć cztery do pięciu razy więcej przypadków ni\ zmiennych, mniej
konserwatywne zadowala się stosunkiem 2:1. Dyskusje dotyczące wielkości
próby dotyczą zwłaszcza metody największej wiarygodności; w tym wypadku
sugeruje się, \e liczba przypadków powinna być o 51 większa od liczby
zmiennych. Mo\na podać wzór:
N - n -1>=50
gdzie: N - wielkość próby
n - liczba zmiennych
Niektórzy badacze (np. Thurstone) sugerują, \e powinniśmy mieć przynajmniej
po trzy zmienne na ka\dy czynnik, tzn. ładujące istotnie tylko ten czynnik. Jest
to formułowane jako wystarczający warunek identyfikacji czynnika (Bacher 1990,
s. 120). Dość powszechna zgoda panuje co do tego, \e powinniśmy mieć co
najmniej dwa razy więcej zmiennych ni\ czynników (por. Kim & Mueller, s. 144
145; Hair, Anderson & Tatham, s. 237).
Wpływ doboru zmiennych na wyniki analizy
Na wyniki uzyskane w analizie czynnikowej i analizie głównych składowych ma
wpływ dobór zmiennych do analizy. W przypadku próby z szerszej populacji
korelacja mo\e wystąpić nawet pomiędzy tymi zmiennymi, które w populacji nie
są skorelowane. Im więcej zmiennych u\ywamy w analizie, tym większe jest
prawdopodobieństwo, \e w próbie losowej przypadkowo uzyskamy istotne
korelacje nawet pomiędzy oryginalnie nieskorelowanymi zmiennymi, a to wpłynie
na wyniki analizy czynnikowej i PCA. Nale\y więc dobierać do analizy takie
zmienne, co do których mamy merytoryczne podstawy, by oczekiwać, \e będą
skorelowane z grupą innych zmiennych i będą wspólnie z nimi definiowały jakiś
interpretowalny czynnik. Nawet przy takim podejściu zdarzają się ró\ne
niespodzianki (czasami o bardzo twórczych konsekwencjach), łatwiej jednak
ustrzec się błędu interpretacji przypadkowych związków jako teoretycznie
wa\nych lub błędu nieuwzględnienia istotnych związków między zmiennymi.
Analiza czynnikowa, jak cała statystyczna analiza danych, nie chroni
automatycznie przed błędami i wymaga namysłu oraz starannej specyfikacji
modelu. To skłania niektórych praktyków analizy czynnikowej do preferowania
analizy konfirmacyjnej. Jednak ta ostatnia nie jest tak\e wolna od problemów
związanych z niejednoznacznością rozwiązania czynnikowego i mo\liwością
dopasowania do danych wielu alternatywnych modeli.
Wstępna ocena przydatności danych do analizy czynnikowej
W analizie czynnikowej dostępne są tak\e statystyczne techniki wspomagające
wstępną selekcję zmiennych i ocenę przydatności macierzy korelacji do
przeprowadzenia analizy czynnikowej. Takim narzędziem jest przede wszystkim
Miara KMO adekwatności doboru próby  KMO. Słu\y on ocenie, na ile daną
macierz korelacji mo\na uznać za produkt oddziaływania wspólnych czynników,
odnosząc współczynniki korelacji między zmiennymi (po\ądane jest, by były
wysokie, pomiędzy zmiennymi, na które działa wspólny czynnik) do cząstkowych
współczynników korelacji między nimi (jeśli obserwowane korelacje między
18
zmiennymi są wynikiem oddziaływania wspólnego czynników, wówczas korelacje
cząstkowe pomiędzy tymi zmiennymi powinny być niskie). Współczynnik KMO
mo\na obliczyć dla całej macierzy korelacji. Im bli\sza 1 jest jego wartość, tym
lepiej model czynnikowy nadaje się do wyjaśnienia struktury danej macierzy
korelacji. Keiser12 wskazuje następujące dolne progi wartości KMO:
" 0,9  wspaniały
" 0,8  godny pochwały
" 0,7  niezły
" 0,6  przeciętny
" 0,5  nędzny
" poni\ej 0,5  nie do przyjęcia.
Jeśli macierz korelacji ma niski współczynnik KMO, nale\y rozwa\yć sensowność
u\ycia analizy czynnikowej. Współczynnik KMO dla macierzy korelacji
uzyskujemy w procedurze FACTOR dzięki opcji /PRINT KMO.
Współczynnik KMO mo\e zostać wyliczony równie\ dla ka\dej zmiennej. Jeśli
zmienna uzyska niski KMO, nale\y rozwa\yć usunięcie jej z analizy.
Współczynniki KMO dla zmiennych są umieszczone na przekątnej macierzy
Macierz korelacji przeciwobrazów. Nawiasem mówiąc, elementy tej macierzy,
poza przekątną, to pomno\one przez -1 wartości korelacji cząstkowych pomiędzy
zmiennymi13. Jeśli zmienne pozostają pod wpływem wspólnych czynników,
wówczas ich korelacje cząstkowe powinny być bliskie 0. Du\y odsetek wysokich
wartości korelacji cząstkowych ka\e rozwa\yć sensowność modelu czynnikowego
dla danej macierzy korelacji. Tę u\yteczną dla wstępnej oceny danych macierz
uzyskujemy dzięki opcji
/PRINT AIC.
1.14 Na marginesie: U\ycie głównych składowych w analizie regresji
Głównych składowych u\ywa się w analizie regresji w celu poradzenia sobie ze
zjawiskiem wielowspółliniowości zmiennych niezale\nych lub w celu uproszczenia
analizy i interpretacji wyników.
" Mo\emy wprowadzić wszystkie nieskorelowane główne składowe 
współczynniki korelacji między ka\dą z nich a zmienną zale\ną są równe
standaryzowanym współczynnikom regresji (beta) pomiędzy ka\dą ze
składowych a zmienną zale\ną.
" Mo\emy wprowadzić część głównych składowych, kierując się przy ich doborze
poziomem korelacji ze zmienną zale\ną (zazwyczaj pierwsze składowe są
najsilniejszymi predyktorami, zmiennej zale\nej, ale nie zawsze.
" Przed u\yciem w analizie regresji składowe główne mo\na poddać rotacji
w celu ułatwienia interpretacji wyników.
1.15 Analiza głównych składowych i analiza czynnikowa gotowej
macierzy korelacji  przykład 1.
Dane pochodzą z badań przeprowadzonych przez Armingera i Nemellę. Badanie
dotyczyło motywacji i przyczyn wyboru kursów przez 344 uczestników
12
cyt. za: Maria Norusis, SPSS Professional Statistics 6.1, s. 52.
13
tzn. wyliczonych pomiędzy resztami pozostałymi po wyodrębnieniu z ka\dej z tych
zmiennych wpływu pozostałych zmiennych.
19
zawodowego kształcenia dla dorosłych w Instytucie Wspierania Zatrudnienia
w Linzu (por. Arminger, s. 34-35). Między innymi zadano następujące pytanie:
Jakie cechy są niezbędne do awansu zawodowego w Pana(i) zakładzie?
W wyniku pomiaru na pięciostopniowej skali (1 - bez znaczenia, 2 - mniej wa\ne,
3 - równie\ wa\ne, 4 - wa\ne, 5 - bardzo wa\ne) uzyskano macierz korelacji dla
9 wymienionych cech.
UWAGA: Zastosowano tu macierz współczynników korelacji Pearsona, mimo
dyskusyjności tego rozwiązania w przypadku skal porządkowych tego rodzaju.
Rozwiązanie takie jest szeroko stosowane, choć niezbędna jest ostro\ność, ze
względu na mo\liwe zniekształcenia. Niekiedy postuluje się stosowanie w takich
sytuacjach współczynników tau-b Kendalla (Arminger, s. 148-152), chocia\ są
przeciwnicy takiego stanowiska, którzy podkreślają fakt, \e zmienne w analizie
czynnikowej muszą być interwałowe i pozostawać w liniowym związku,
a korelacja powinna być mierzona współczynnikiem r Pearsona (czyli być miarą
kowariancji pomiędzy standaryzowanymi zmiennymi) (por. Kim & Mueller).
W analizowanym przypadku zastosowanie r i tau-b prowadzi do takich samych
rezultatów. Bacher (1990) podkreśla stosunkowo du\ą odporność analizy
czynnikowej na zniekształcenia spowodowane pomiarem na skali porządkowej.
Jeśli w rzeczywistości mamy do czynienia ze zmiennymi ciągłymi, które są przez
nas tylko mierzone przy pomocy skal porządkowych, to im silniejszy jest związek
pomiędzy tymi  prawdziwymi , ciągłymi zmiennymi, tym bardziej jest on
tłumiony przez zastosowanie skal porządkowych. Im większa liczba pozycji na
skali, tym efekt tłumienia jest mniejszy. Ogólnie nie zaleca się stosowania skal
mniejszych ni\ 5-punktowe. Ta wskazówka dotyczy zresztą w ogóle stosowania
skal porządkowych, reprezentujących zmienne ilościowe, w modelach liniowych.
" Program wczytujący macierz współczynników korelacji oraz etykiety
zmiennych ma następującą postać:
MATRIX DATA VARIABLES=FACH OSIAGN NIEZAW PEWNOSC STAZ WIEK UKLADY
PARTYJN KLUB
wskazanie braku
/FORMAT NODIAG
/CONTENTS CORR
przekątnej (1)
/N=344.
BEGIN DATA
Liczebność próby
,563
dla testów
,541 ,469
,464 ,357 ,437
,138 ,137 ,198 ,039
,058 ,104 ,146 ,051 ,508
,167 ,059 ,263 ,271 ,169 ,167
-,014 -,002 ,028 -,012 ,385 ,295 ,425
-,034 -,074 ,005 ,085 ,037 ,014 ,307 ,305
END DATA.
VARIABLE LABELS
FACH "umiejętności zawodowe"
/OSIAGN "osiągnięcia i wydajność"
/NIEZAW "niezawodność, mo\liwość polegania na danej osobie"
/PEWNOSC "zdecydowanie i pewność siebie"
/STAZ "sta\ pracy"
/WIEK "wiek"
/UKLADY "układy i ustosunkowanie"
20
/PARTYJN "przynale\ność do partii politycznej"
/KLUB "członkostwo w zakładowych organizacjach rekreacyjnych".
" Po wczytaniu macierzy danych uruchamiamy program analizy głównych
składowych, wskazując, \e dane mają być pobrane z macierzy a ładunki
czynnikowe (po rotacji VARIMAX) mają być na wydruku posortowane wg
czynników.
FACTOR
/MATRIX IN(COR=*)
/FORMAT SORT
/PRINT INITIAL KMO AIC EXTRACTION ROTATION
/PLOT EIGEN ROTATION
/CRITERIA MINEIGEN(1) ITERATE(25)
/EXTRACTION PC
/CRITERIA ITERATE(25)
/ROTATION VARIMAX .
FACTOR  polecenie wykonania analizy czynnikowej.
/MATRIX IN(COR=*)  analiza na gotowej macierzy korelacji, dostępnej
w aktualnie aktywnym zbiorze danych
/FORMAT SORT  plecenie uporządkowania macierzy ładunków czynnikowych
/PRINT INITIAL KMO AIC EXTRACTION ROTATION  polecenie wydruku
poszczególnych elementów analizy:
INITIAL  wstępnej analizy głównych składowych (domyślne)
KMO  Keiser-Meyer-Olkin (patrz wy\ej) oraz test sferyczności Bartletta
AIC  macierz przeciwobrazów kowariancji i korelacji
EXTRACTION ROTATION  domyślnie drukowane wyniki ostatecznego
wyodrębnienia czynników w oparciu o przyjęte kryterium i rotowana macierz
ładunków czynnikowych
/PLOT EIGEN ROTATION  polecenie wykonania wykresów: 1) wartości
własnych (osypiska) i 2) ładunków czynnikowych
/CRITERIA MINEIGEN(1) ITERATE(25)  kryterium wyodrębnienie czynników:
min. wartość własna = 1 (kryterium Keisera)  domyślne oraz określenie
maksimum iteracji przy wyodrębnianiu czynników na 25 (nie ma znaczenia
w PCA)
/EXTRACTION PC  polecenie wyodrębnienia czynników metodą głównych
składowych z pełnej macierzy korelacji czyli wykonania analizy głównych
składowych (PCA)
/CRITERIA ITERATE(25)  domyślne ustawienie maksymalnej liczby iteracji przy
rotacji czynników, przy większej liczbie czynników i przy rotacji OBLIMIN
wymaga niekiedy zwiększenia
/ROTATION VARIMAX  polecenie wykonania rotacji VARIMAX
Pomijam wykonanie polecenia z menu, gdy\ jest to czynność bardzo intuicyjne,
jeśli u\ytkownik rozumie analizę czynnikową.
21
" Po wykonaniu programu przeglądamy wyniki.
Testy Kaisera-Mayera-Olkina i Bartletta
Miara KMO adekwatności doboru próby
,716
Test sferyczności Bartletta Przybli\one chi-kwadrat
727,983
df
36
Istotność
,000
" KMO jest na  niezłym poziomie, co wskazuje, \e analiza czynnikowa tej
macierzy korelacji jest sensowna. Test Bartletta wskazuje na to, \e mo\emy
odrzucić hipotezę, \e macierz korelacji w populacji jest macierzą jednostkową
(ma jedynki na głównej przekątnej a zera w pozostałych polach).
" Współczynniki KMO dla poszczególnych zmiennych (umieszczone na
przekątnej) są na przeciętnym, chocia\ nie dyskwalifikującym poziomie.
Zatem w analizie zachowujemy wszystkie zmienne.
Jako opcję wyodrębniania czynników wskazaliśmy główne składowe, co prowadzi
do wykonania analizy głównych składowych (sygnałem tego są jedynki w
kolumnie Początkowe tabeli Zasoby zmienności wspólnej, które wskazują, \e do
analizy wchodzi cała wariancja zmiennych standaryzowanych, która w przypadku
Macierze przeciwobrazów
Macierz przeciwobrazów korelacji
ć
ć
ć ś
ś
ś
\
ć
ś
ć
ś
ś \
\
ę
ę
ą
umiejętności zawodowe
,748a -,380 -,281 -,239 -,071 ,067 -,046 ,037 ,039
osiągnięcia i wydajność
-,380 ,760a -,217 -,107 -,016 -,044 ,111 -,042 ,059
a
niezawodność, mo\liwość
-,281 -,217 ,794 -,185 -,110 -,046 -,183 ,090 ,017
polegania na danej osobie
a
zdecydowanie i pewność
-,239 -,107 -,185 ,794 ,059 -,022 -,193 ,099 -,083
siebie
sta\ pracy
-,071 -,016 -,110 ,059 ,638a -,430 ,041 -,289 ,042
wiek
,067 -,044 -,046 -,022 -,430 ,661a -,048 -,109 ,059
układy i ustosunkowanie
-,046 ,111 -,183 -,193 ,041 -,048 ,663a -,364 -,189
a
przynale\ność do partii
,037 -,042 ,090 ,099 -,289 -,109 -,364 ,631 -,222
politycznej
a
członkostwo w zakładowych
,039 ,059 ,017 -,083 ,042 ,059 -,189 -,222 ,664
organizacjach rekreacyjnych
a. Miary adekwatności doboru próby.
22
wiek
siebie
sta pracy
politycznej
przynale no
do partii
osi gni cia i wydajno
umiej tno ci zawodowe
układy i ustosunkowanie
zdecydowanie i pewno
niezawodno
, mo liwo
polegania na danej osobie
członkostwo w zakładowych
organizacjach rekreacyjnych
ka\dej zmiennej jest równa 1).
Wartość zasobu zmienności wspólnej po ograniczeniu liczby czynników (kolumna:
Po wyodrębnieniu) informuje nas, jak dobrze reprezentowana jest dana zmienna
w przyjętym modelu o zredukowanej liczbie wymiarów (tu: do trzech). Jeśli
któraś zmienna, wa\na dla nas, jest zle reprezentowana, mo\emy  zwłaszcza
w analizie głównych składowych, zorientowanej na przygotowanie nowych,
ortogonalnych zmiennych do innej analizy (np. regresji)  zdecydować
o zwiększeniu liczby wymiarów, zachowaniu dodatkowych czynników.
Tu widzimy, na ile dobrze
Zasoby zmienności wspólnej
ka\da ze zmiennych jest
Po
reprezentowana w modelu
Początkowe wyodrębnieniu
3-czynnikowym; wartości
umiejętności zawodowe
1,000 ,698
są podobne i nienajgorsza
osiągnięcia i wydajność
1,000 ,611
dla wszystkich zmiennych
niezawodność, mo\liwość
1,000 ,635
polegania na danej osobie
zdecydowanie i pewność siebie
1,000 ,577
sta\ pracy
1,000 ,729
wiek
1,000 ,680
układy i ustosunkowanie
1,000 ,644
przynale\ność do partii
1,000 ,660
politycznej
członkostwo w zakładowych
1,000 ,626
organizacjach rekreacyjnych
Metoda wyodrębniania czynników - Głównych składowych.
23
Całkowita wyjaśniona wariancja
Początkowe wartości Sumy kwadratów ładunków Sumy kwadratów ładunków
własne po wyodrębnieniu po rotacji
Składowa
1
2,696 29,961 29,961 2,696 29,961 29,961 2,478 27,535 27,535
2
1,886 20,951 50,912 1,886 20,951 50,912 1,739 19,324 46,858
3
1,279 14,213 65,126 1,279 14,213 65,126 1,644 18,267 65,126
4
,683 7,585 72,710
5
,641 7,120 79,831
6
,524 5,822 85,653
7
,494 5,491 91,144
8
,411 4,565 95,709
9
,386 4,291 100,000
Metoda wyodrębniania czynników - Głównych składowych.
Przede wszystkim musimy określić liczbę  istotnych składowych, które
pozostawimy w analizie. Musimy więc przyjrzeć się wartościom własnym. Mo\na
do tego celu u\yć arkusza wyników po naciśnięciu przycisku: Wartości własne. Na
podstawie kryterium Keisera jesteśmy skłonni zachować 3 główne składowe; na
podstawie bardziej konserwatywnego kryterium Jolliffe  równie\ trzy, gdy\
czwarta składowa ma wartość własną mniejszą od 0,7. Dodatkowo prześledzmy
wykres osypiska (wykres osypiska).
Wykres  osypiska sugeruje a\ 4 czynniki, gdy\ dopiero przy czwartym czynniku
następuje zjawisko osypiska. Wartość własna tego czynnika jest jednak tak
niska, \e skłaniamy się ku 3 czynnikom, wyjaśniającym łącznie 65% wariancji
zmiennych14.
14
W sytuacji, gdybyśmy zamierzali u\yć wyników PCA w analizie regresji (ale to w
sytuacji wykonywania analizy na danych surowych a nie na macierzy korelacji),
pozostawienie większej liczby składowych mogłoby być w pewnych sytuacjach sensowne.
Strategia stosowania głównych składowych w analizie regresji jest
omówiona dalej.
24
%
%
%
Ogółem
Ogółem
Ogółem
% wariancji
% wariancji
% wariancji
skumulowany
skumulowany
skumulowany
Jak widać, decyzja o wyborze liczby czynników i wyborze samego kryterium
wyboru jest zawsze mniej lub bardziej arbitralna. Nale\y się ostatecznie odwołać
tak\e do kryterium interpretowalności wybranego układu czynników. Proszę na
własną rękę sprawdzić rozwiązanie z 4 czynnikami.
SPSS u\ył automatycznie kryterium Keisera (domyślnie umieszcza opcję
/CRITERIA MINEIGEN(1)  minimalna wartość własna = 1  w tekście
polecenia, chyba \e zdecydujemy inaczej). Zachowane zostały trzy  największe
główne składowe. Bez rotacji trudno je zinterpretować.
25
Macierz składowycha
Składowa
1 2 3
niezawodność, mo\liwość
,751 -,266 ,004
polegania na danej osobie
umiejętności zawodowe
,728 -,411 ,004
osiągnięcia i wydajność
,656 -,398 -,149
zdecydowanie i pewność siebie
,640 -,296 ,284
układy i ustosunkowanie
,509 ,421 ,456
przynale\ność do partii
,331 ,736 ,094
politycznej
członkostwo w zakładowych
,156 ,447 ,634
organizacjach rekreacyjnych
wiek
,396 ,483 -,538
sta\ pracy
,462 ,498 -,517
Metoda wyodrębniania czynników - Głównych składowych.
a. 3 - liczba wyodrębnionych składowych.
A oto rotowane metodą VARIMAX czynniki, posortowane dzięki opcji /FORMAT
SORT.
a
Macierz rotowanych składowych
Składowa
1 2 3
umiejętności zawodowe
,834 ,044 -,014
niezawodność, mo\liwość
,780 ,142 ,081
polegania na danej osobie
osiągnięcia i wydajność
,758 ,126 -,141
zdecydowanie i pewność siebie
,715 -,112 ,232
sta\ pracy
,112 ,844 ,070
wiek
,062 ,822 ,025
członkostwo w zakładowych
-,063 -,096 ,783
organizacjach rekreacyjnych
układy i ustosunkowanie
,244 ,153 ,749
przynale\ność do partii
-,091 ,518 ,619
politycznej
Metoda wyodrębniania czynników - Głównych składowych.
Metoda rotacji - Varimax z normalizacją Kaisera.
a. Rotacja osiągnęła zbie\ność w 5 iteracjach.
Zwykle ignoruje się ładunki o wartościach mniejszych od 0,3 (mo\na nawet
spowodować ich niewyświetlanie, wybierając opcję /FORMAT BLANK(.3) .
Najlepiej znaczenie czynników interpretować przy pomocy ładunków co najmniej
26
0,5, choć gdy mamy du\o wysokich ładunków mo\na ją podnieść do 0,7.
Mo\emy ładunki czynnikowe przedstawić tak\e graficznie (uzyskaliśmy wykres
dzięki opcji /PLOT ROTATION).
Uzyskaliśmy dość klarowną strukturę:
" pierwszy czynnik (główna składowa) grupuje zmienne opisujące umiejętności,
zalety osobiste i osiągnięcia zawodowe pracowników jako kryteria awansu 
nazwijmy go wymiarem kompetencji;
" drugi czynnik jest silnie skorelowany zwłaszcza ze sta\em pracy i wiekiem 
nazwijmy go wymiarem senioratu;
" trzeci czynnik to przede wszystkim zmienne wskazujące na konieczność
dobrego ulokowania w sieci powiązań i układów ułatwiających awans 
nazwijmy go wymiarem układów osobistych.
Jak widać, potrafiliśmy łatwo nazwać wyodrębnione czynniki, co nie zawsze ma
miejsce. Pewien kłopot interpretacyjny sprawia fakt, \e partyjność ma relatywnie
wysokie ładunki zarówno na wymiarze senioratu jak i na wymiarze układów
osobistych (tzw. ładunki krzy\owe). Od dalszej analizy danych zale\ałaby
odpowiedz, czy związane jest to z pokoleniowym charakterem tego kryterium.
W przypadku analizy macierzy korelacji nie mo\emy wyliczyć wartości
czynnikowych, gdy\ nie mamy informacji o wartościach poszczególnych
zmiennych dla poszczególnych przypadków. Aby wyliczyć wartości czynnikowe
musimy dysponować danymi surowymi. Mo\emy natomiast wyliczyć
współczynniki wartości czynnikowych (wystarczy kliknąć na stosowny przycisk),
które po wymno\eniu przez wartości standaryzowane zmiennych i zsumowaniu
dadzą wartości czynnikowe dla ka\dego przypadku.
27
Analiza metodą czynników największej wiarygodności
Wykonajmy dla porównania analizę czynnikową metodą największej
wiarygodności. Zmieniamy w tym celu jedynie metodę wyodrębniania czynników
ma ML (Maximum-likelihood): /EXTRACTION ML i powtarzamy te same kroki
analizy. Tutaj skupimy się na oglądnięciu dwóch rodzajów wyników: rotowanych
ładunków czynnikowych i testu dobroci dopasowania. Aadunki czynnikowe są
ogólnie nieco ni\sze ni\ w przypadku analizy głównych składowych, jednak
struktura czynników i ich interpretacja pozostała bez zmian, choć wystąpiły tak\e
pewne ró\nice we względnej wysokości ładunków. Pamiętamy, \e tym razem
wyjaśnieniu podlega nie cała wariancja zmiennych, lecz jedynie jej część
wspólna, podzielana z innymi zmiennym (która te\ jest nota bene szacowana
iteracyjnie w ramach modelu). Model ten nie wyjaśnia wariancji swoistej
zmiennej, w tym zawartego w niej błędu lecz tylko zasoby zmienności wspólnej,
a więc korelacje między zmiennymi a nie sumę ich całkowitej wariancji.
FACTOR
/MATRIX IN(COR=*)
/FORMAT SORT
/PRINT ROTATION
/CRITERIA FACTORS(3)
/EXTRACTION ML
/ROTATION VARIMAX.
W przypadku metody największej wiarygodności SPSS wylicza automatycznie
test dobroci dopasowania modelu do danych oparty na CHI2. Wartość istotność
wynosi: 0,094, a więc jest większa od standardowo przyjmowanego, granicznego
poziomu 0,05  nie ma zatem podstaw do odrzucenia hipotezy, \e reszty
pomiędzy korelacjami odtworzonymi na podstawie modelu a obserwowaną
macierzą korelacji są równe 0, a więc, \e model pasuje do danych.
Test dobroci dopasowania
Chi-kwadrat df Istotnoś ć
18,766 12 ,094
W wyniku rotacji VARIMAX uzyskaliśmy strukturę czynników, która jest taka
sama, jak w przypadku rotowanej PCA. Wartości ładunków czynnikowych są
mniejsze ni\ w PCA, co wynika z faktu \e w analizie czynnikowej wyjaśniane są
tylko szacowane zasoby zmienności wspólnej (zasób zmienności wspólnej<1) a
nie cała wariancja zmiennych (zasób zmienności wspólnej =1), a zasób
zmienności wspólnej = suma podniesionych do kwadratu ładunków
czynnikowych.
28
a
Macierz rotowanych czynników
Czynnik
1 2 3
umiejętności zawodowe
,791 ,057 -,022
niezawodnoś ć, mo\liwoś ć
,695 ,132 ,091
polegania na danej osobie
osiągnięcia i wydajnoś ć
,673 ,106 -,116
zdecydowanie i pewnoś ć
,599 -,054 ,176
siebie
sta\ pracy
,111 ,823 ,068
wiek
,068 ,597 ,095
układy i ustosunkowanie
,230 ,120 ,726
przynale\noś ć do partii
-,056 ,432 ,528
politycznej
członkostwo w zakładowych
-,037 ,010 ,470
organizacjach rekreacyjnych
Metoda wyodrębniania czynników - Największej wiarygodności.
Metoda rotacji - Varimax z normalizacją Kaisera.
a. Rotacja osiągnęła zbie\noś ć w 5 iteracjach.
Dodatkowo wydrukowane zostały wyniki dla rotacji OBLIMIN przy domyślnym
ustawieniu parametru DELTA=0. Jak ju\ wiadomo, w wyniku rotacji skośnej
otrzymujemy dwie macierze czynników:
" Macierz modelowa zawierającą ładunki czynnikowe, a więc standaryzowane
współczynniki regresji pomiędzy ka\dą zmienną (standaryzowaną) a zestawem
czynników (np. o ile odchylenia standardowego zmieni się zmienna FACH, jeśli
FACTOR 1 zmieni się o jedno odchylnie standardowe, przy kontroli pozostałych
czynników).
" Macierz struktury zawierającą współczynniki korelacji pomiędzy czynnikami
i zmiennymi.
W interpretacji koncentrujemy się na Macierz modelową. Widzimy, \e nasza
macierz ładunków czynnikowych zbli\yła się jeszcze bardziej do ideału prostej
struktury. Wnioski są takie same jak przy rotacji VARIMAX, jedynie jeszcze
bardziej zdecydowane.
29
Macierz modelowaa
Czynnik
1 2 3
umiejętności zawodowe
,794
niezawodność, mo\liwość
,689
polegania na danej osobie
osiągnięcia i wydajność
,674
zdecydowanie i pewność siebie
,604
sta\ pracy
,833
wiek
,600
układy i ustosunkowanie
,719
przynale\ność do partii
,390 ,486
politycznej
członkostwo w zakładowych
,480
organizacjach rekreacyjnych
Metoda wyodrębniania czynników - Największej wiarygodności.
Metoda rotacji - Oblimin z normalizacją Kaisera.
a. Rotacja osiągnęła zbie\ność w 6 iteracjach.
W przypadku rotacji skośnej otrzymujemy równie\ macierz współczynników
Macierz struktury
Czynnik
1 2 3
umiejętności zawodowe
,791
niezawodność, mo\liwość
,705
polegania na danej osobie
osiągnięcia i wydajność
,673
zdecydowanie i pewność
,601
siebie
sta\ pracy
,831
wiek
,608
układy i ustosunkowanie
,742
przynale\ność do partii
,490 ,570
politycznej
członkostwo w zakładowych
,467
organizacjach rekreacyjnych
Metoda wyodrębniania czynników - Największej wiarygodności.
Metoda rotacji - Oblimin z normalizacją Kaisera.
korelacji pomiędzy czynnikami.
30
Macierz korelacji czynników
Czynnik 1 2 3
1
1,000 ,142 ,076
2
,142 1,000 ,236
3
,076 ,236 1,000
Metoda wyodrębniania czynników - Największej wiarygodności.
Metoda rotacji - Oblimin z normalizacją Kaisera.
Jeśli na podstawie teorii oczekujemy, \e pomiędzy zaobserwowanymi czynnikami
nie powinno być korelacji, mo\emy obni\yć parametr DELTA poni\ej 0
i powtórzyć analizę.
Proponuję wykonanie analizy metodą głównych osi z iteracją zasobów zmienności
wspólnej (PAF) i metodą uogólnionych najmniejszych kwadratów (GLS). Nie
odbiegają znacznie od siebie i od wyników uzyskanych metodą największej
wiarygodności. Proszę te\ samodzielnie wykonać eksperymenty z rotacją
OBLIMIN przy ró\nym DELTA i porównać wyniki.
1.16 Zastosowanie PCA do prezentacji zale\ności w zbiorze danych
(pozycjonowanie)  przykład 2.
Wykonamy teraz przykład zastosowania analizy głównych składowych do
wizualnej prezentacji danych. Z tą techniką często spotykamy się w badaniach
marketingowych przy analizie pozycjonowania marek. Dane u\yte do przykładu
pochodzą z ksią\ki Backhausa i in.15 Autorzy, dla celów dydaktycznych,
przebadali 32 studentów niemieckich, którym zadano pytanie o ocenę na 7-
punktowej skali (1 - niska ... 7 - wysoka) następujących 11 marek margaryny
i masła:
" Becel
" Du darfst
" Rama
" Delicado
" Holl. Markenbutter
" Weihnachtsbutter
" Homa
" Flora
" SB
" Sanella
" Botteram
pod względem ka\dej z następujących cech:
Nazwa zmiennej Cecha
SMAR Aatwość smarowania
CENA Cena
15
Pozwala to uniknąć problemów związanych z prawem do wykorzystania podobnych
w charakterze wyników komercyjnych badań marketingowych, które dane mi było
analizować.
31
TRWAL Trwałość
NNKT Zawartość nienasyconych kwasów tłuszczowych
PIECZ Mo\liwość u\ycia do sma\enia i pieczenia
SMAK Ocena smaku
KALOR Kaloryczność
TLZWI Zawartość tłuszczów zwierzęcych
WITAM Zawartość witamin
NATUR Naturalność
Dla celów pozycjonowania, wyniki uzyskane od 32 osób uśredniono i otrzymano
zbiór danych, którego wiersze odpowiadają poszczególnym markom, natomiast
kolumny  cechom tych marek. Wprawdzie uśrednianie odpowiedzi mo\e
prowadzić do utraty informacji o indywidualnym zró\nicowaniu ocen, jednak
metoda ta jest szeroko stosowana z niezłymi skutkami. Dane zapisane są w pliku
 margaryna_średnie.sav .
Dane pobieramy do programu jako zwykły zbiór danych surowych. Wykonujemy
analizę głównych składowych zgodnie z krokami poznanymi w Przykładzie 1. Dla
celów analitycznych nale\ałoby przyjąć rozwiązanie oparte na 3 głównych
składowych, na podstawie kryterium Keisera. Wariancja wyjaśniona przez
rozwiązanie 3-czynnikowe sięga 88%. Analiza jakości reprezentacji zmiennych
przez model 3-czynnikowy równie\ jest satysfakcjonująca: ten model dobrze
wyjaśnia wariancję wszystkich zmiennych u\ytych w analizie.
Całkowita wyjaśniona wariancja
Sumy kwadratów ładunków po
Początkowe wartości własne wyodrębnieniu
% % % %
Składowa Ogółem wariancji skumulowany Ogółem wariancji skumulowany
1
5,355 53,553 53,553 5,355 53,553 53,553
2
2,005 20,046 73,599 2,005 20,046 73,599
3
1,431 14,309 87,908 1,431 14,309 87,908
4
,777 7,768 95,676
5
,262 2,619 98,296
6
,099 ,995 99,290
7
,045 ,448 99,738
8
,020 ,203 99,941
9
,005 ,047 99,988
10
,001 ,012 100,000
Metoda wyodrębniania czynników - Głównych składowych.
Kryterium osypiska sugeruje nieco inny werdykt. Widać przede wszystkich
(zresztą ju\ z analizy tabeli wartości własnych), \e mamy do czynienia z jednym
dominującym czynnikiem  pierwszą główną składową. Następne składowe mają
wyraznie ni\sze wartości własne, ale ciągle wyjaśniają istotny kawałek
zmienności.  Kolanko na drugim czynniku sugeruje  zgodnie z kryterium
Cattella  pozostawienie tylko dwóch wymiarów. Wtedy jednak zmienna:
Mo\liwość u\ycia do pieczenia i sma\enia będzie słabo reprezentowany przez
przyjęty model (Communality=0,15), dopiero bowiem trzeci wymiar pozwala
32
uchwycić znaczącą część jej wariancji. Pozostaje jeszcze kryterium
merytorycznej interpretacji czynników.
Proszę porównać modele dwuczynnikowy i trójczynnikowy i spróbować
interpretacji wyodrębnionych czynników.
W dalszej części naszego przykładu pozostaniemy przy dwóch pierwszych
głównych składowych (74% wyjaśnionej wariancji) po to, by w dogodny sposób
pozycjonować marki margaryn i maseł w przestrzeni utworzonej przez ich cechy
(a właściwie w dwuwymiarowej, najlepszej reprezentacji tej przestrzeni). Wiemy
ju\, \e korzystając z dwóch pierwszych składowych przesłonimy zró\nicowanie
pod względem postrzeganej mo\liwości stosowania badanych marek do
pieczenia. Aby więc nie powodować błędnej interpretacji mo\emy tę cechę
w ogóle usunąć z analizy. Nasz układ dwóch składowych poddamy rotacji
VARIMAX, choć w przypadku dwóch wymiarów nie ma to wielkiego znaczenia
poznawczego. Wykonujemy wykres ładunków czynnikowych.
FACTOR
/VARIABLES smar cena trwal nnkt smak kalor tlzwi witam natur
/PRINT INITIAL EXTRACTION ROTATION FSCORE
/FORMAT SORT
/PLOT ROTATION
/EXTRACTION PC
/ROTATION VARIMAX
/SAVE REG(ALL) .
33
a
Macierz rotowanych składowych
Składowa
1 2
Aatwość smarowania
-,941 -,186
Trwałość
-,909 -,071
Zawartość tłuszczów
,879 ,383
zwierzęcych
Kaloryczność
,808 ,362
Zawartość NNKT
-,710 ,263
Zawartość witamin
-,240 ,910
Ocena smaku
,583 ,753
Cena
,156 ,738
Naturalność
,606 ,724
Metoda wyodrębniania czynników - Głównych składowych.
Metoda rotacji - Varimax z normalizacją Kaisera.
a. Rotacja osiągnęła zbie\ność w 3 iteracjach.
Marki mo\emy pozycjonować w układzie dwóch pierwszych składowych
korzystając z wartości czynnikowych jako ich współrzędnych. Wartości
czynnikowe dopisaliśmy do zbioru danych za pomocą opcji /SAVE REG(ALL).
Czynnik 1. definiuje oś poziomą, czynnik 2. definiuje oś pionową. Wykres
sporządzamy korzystając z menu: WYKRESY>ROZRZUTU>PROSTY lub
następującego polecenia:
GRAPH
/SCATTERPLOT(BIVAR)=fac1_2 WITH fac2_2 BY marka (NAME).
34
W trybie edycyjnym wykresu musimy dodać jeszcze osie układu współrzędnych
(Linie referencyjne) i wykres jest gotowy. Dla celów prezentacyjnych mo\na go
oczywiście poddać obróbce kolorystycznej i opisać osie sensownymi definicjami
czynników.
2,0
Hollaendische Butter
1,5
Becel
Delicado Sahnebutter
1,0
Flora
,5
Homa
0,0
Rama
SB
Sanella
Du darfst
-,5
Weihnachts butter
-1,0
-1,5
Botteram
-2,0
-1,5 -1,0 -,5 0,0 ,5 1,0 1,5 2,0
REGR factor score 1 for analysis 1
Na wykresie widać, \e pierwszy wymiar separuje masła (o ile Delicado to masło)
od margaryn, a drugi ró\nicuje marki w obrębie ka\dej z grup. Często praktykuje
się umieszczanie zmiennych (najlepiej z poprowadzonymi do nich z początku
układu strzałkami) i obiektów/marek przedstawionych jako punkty. Mo\na to
równie\ wykonać w programie SPSS. Wystarczy w jednym zbiorze umieścić
ładunki czynnikowe, wartości czynnikowe, zmienną opisującą zmienne i marki
i zmienną pozwalającą odró\nić jedne od drugich, a następnie wykonać wykres
rozrzutu. Chętni mogą spróbować dorysować w MS Word strzałki prowadzące
z początku układu do punktów wyznaczonych przez ładunki czynnikowe cech.
Lepiej jest jednak wówczas umieścić wykres na całej stronie, zorientowanej
poziomo.
35
REGR factor score 2 for analysis 1
ETYKIETA WYMIAR1 WYMIAR2 KOD
1 Becel -1,05981 1,19109 1
2 Du darfst -,48986 -,61077 1
3 Rama -,47014 -,25733 1
4 Delicado Sahnebutter 1,44901 ,86806 1
5 Hollaendische Butter 1,14442 1,59586 1
6 Weihnachtsbutter 1,66200 -,66994 1
7 Homa -,76578 ,13543 1
8 Flora -1,11770 ,60306 1
9 SB -,41923 -,45737 1
10 Sanella -,30600 -,51851 1
11 Botteram ,37308 -1,87959 1
12 Aatwość smarowania -,94100 -,18600 2
13 Cena ,15600 ,73800 2
14 Trwałość -,90900 -,07096 2
15 Zawartość NNKT -,71000 ,26300 2
16 Ocena smaku ,58300 ,75300 2
17 Kaloryczność ,80800 ,36200 2
18 Zawartość tłuszczów zwierzęc ,87900 ,38300 2
19 Zawartość witamin -,24000 ,91000 2
20 Naturalność ,60600 ,72400 2
Polecenie SPSS:
GRAPH
/SCATTERPLOT(BIVAR)=wymiar1 WITH wymiar2 BY kod BY etykieta(NAME).
A oto jego wynik:
36
2,0
Hol laendische B utter
1,5
Becel
Zawartość wi tamin
1,0 Delicado Sahne butter
Ocena asmaku
Cena
Natur lność
Flora
Zawaorycćznło
rtoś t uszczów
,5 Kal ść
Zawartość NNKT
Homa
Trwałość
0,0
Aatwość smarowaniaRama
SB
Sa nella
Du darfst
-,5
Weihnachtsbutter
-1,0
-1,5
Botteram
-2,0
-1,5 -1,0 -,5 0,0 ,5 1,0 1,5 2,0
WYMIAR1
A oto wykres rozrzutu uzupełniony o wektory.
37
WYMIAR2
1.17 Analiza czynnikowa i składowych głównych - podsumowanie
Analiza czynnikowa i analiza głównych składowych to najpowszechniej stosowane
techniki analizy wielowymiarowej. Są sprawdzonymi i dobrymi narzędziami, pod
warunkiem dobrego zrozumienia, czego mo\emy od nich oczekiwać i jak je
stosować. Wiele wyborów dokonywanych przez badacza ma charakter arbitralny.
Z drugiej strony, jak to zauwa\yliśmy, analiza czynnikowa daje podobne
rezultaty przy ró\nych metodach wyodrębniania czynników oraz podobne do
analizy głównych składowych. W selekcji i interpretacji czynników wa\ne jest
doświadczenie analityka i merytoryczna znajomość problemu. Najgorszym
podejściem jest wkładanie do analizy czynnikowe danych  na ślepo i następnie
wiara w uzyskane rezultaty. W tej metodzie równie\ obowiązuje święta zasada
analizy danych: wło\ysz śmieci  wyjmiesz śmieci. Podkreślam to, niezale\nie od
przekonania o fundamentalnej roli eksploracyjnej analizy danych w poznaniu
rzeczywistości i dobrych doświadczeń z u\ytkowaniem na tym polu analizy
czynnikowej i głównych składowych.
1.18 Literatura nt. analizy czynnikowej i głównych składowych
Norusis M., SPSS Professional Statistics 6.1, SPSS Inc., Chicago 1994.
Kim J.-O., Mueller Ch.W., Introduction to factor Analysis: What It Is and How to
Do It, w: M.S. Lewis-Back, Factor Analysis an Related Technics, Sage, London
1994, s. 1-73.
Kim J.-O., Mueller Ch.W., Factor Analysis: Statistical Methods and Practical
Issues, w: M.S. Lewis-Back, Factor Analysis an Related Technics, Sage,
London 1994, s. 75-155.
Duntemann G.H., Principal Components Analysis, w: M.S. Lewis-Back, Factor
Analysis an Related Technics, Sage, London 1994, s. 157-145.
Hair Jr. J.F., Anaderson R.E., Tatham R.L., Multivariate data Analysis with
Readings, 2nd edition, Macmillan, Collier, NY, London 1984.
Backhaus K., Erichson B., Plinke W., Weiber R., Multivariate Analysemethoden,
Springer, Berlin 1990.
Jajuga K., Statystyczna analiza wielowymiarowa, PWN, Warszawa 1993.
Arminger G., Faktorenanalyse, Teubner, Stuttgart, 1979.
Bacher J., Clusteranalyse, Oldenbourg, Muenchen 1996.
Bacher J., Einfuehrung in die Logik der Skalierungsverfahren, Historical Social
Research, Special Issue, Vol. 15, 1990, No. 3., Center for Historical Social
Research, Koeln.
Holm K., Die Befragung 3: die Faktorenalyse, Francke Verlag, Muenchen 1976.
Wilkinson L., Grant B., Gruber Ch., Desktop Analysis with SYSTAT, Prentice Hall
1996.
Wilkinson L., Stenson H., Factor Analysis, w: Systat 6.0 for Windows: Statistics,
SPSS Inc., Chicago, 1996.
Grabiński T., Metody taksonometrii, AE, Kraków 1992.
38
2 Skale Likerta
Jednowymiarowe skale ocen typu Likerta zyskały sobie bardzo du\ą popularność
w badaniach społecznych dzięki prostocie konstrukcji i mo\liwości budowania ich
post hoc, po wykonaniu badań, co oszczędza \mudnych prac wstępnych, jakich
wymagają np. skale Thurstona. Przypomnijmy krótko16, \e skale Likerta
konstruujemy przez proste sumowanie punktów uzyskanych w zestawie pytań,
które są wskaznikami badanej zmiennej, zazwyczaj postawy. Pytania, których
u\ywamy jako pozycji budujących skalę, zazwyczaj mają pięciostopniową
kafeterię, np.:
1. zdecydowanie się zgadzam
2. raczej się zgadzam
3. ani się zgadzam, ani nie zgadzam
4. raczej się nie zgadzam
5. zdecydowanie się nie zgadzam.
Mo\liwe są równie\ kategoryzacje sześcio- lub siedmiopunktowe i inne. Pytania z
mniej ni\ pięcioma stopniami (zwłaszcza z trzema) odpowiedzi nie są zalecane,
gdy\ ograniczenie liczby kategorii prowadzi do  tłumienia współczynników
korelacji, które wykorzystywane są przy diagnostyce skal, np. w analizie
czynnikowej. Pięciopunktowe skale werbalne w postaci zaprezentowanej wy\ej,
oryginalnie spopularyzowane przez Rensisa Likerta w jego publikacjach na temat
skal sumowanych ocen, często nazywane są pytaniami typu Likerta lub pytaniami
ze skalą ocen Likerta, a nawet, skrótowo, skalami Likerta, co jednak grozi
pomyleniem typu kafeterii u\ytej w pytaniach z samą skalą Likerta, która
powstaje w oparciu o co najmniej kilka pytań tego rodzaju .
Odpowiedzi kodowane są zazwyczaj przy pomocy kolejnych liczb naturalnych, od
1 do 5. To, któremu krańcowi skali ocen (kafeterii) przypiszemy 1, a któremu 5,
wynika z konieczności uzgodnienia kodowania w całej grupie pytań, które wejdą
w skład skali. Dobrze jest przyjąć taki kierunek kodowania, by w przypadku
ka\dego pytania najwy\szą liczbę punktów uzyskiwała ta krańcowa kategoria,
która odpowiada wy\szemu natę\eniu badanej postawy w zgodzie z jej treścią
ujętą przez nazwę skali. Na przykład, jeśli mamy do czynienia ze skala
feminizmu, to w przypadku stwierdzenia:  Jest znacznie lepiej dla rodziny, gdy mę \czyzna
zarabia pieniądze, a kobieta troszczy się o dom i dzieci najwy\ej punktowana (5) powinna być
odpowiedz:  Zdecydowanie się nie zgadzam .
Jednym z podejść, niekiedy stosowanym przez badaczy, jest budowanie tzw. skal
arbitralnych (indeksów). Badacz w tym wypadku dobiera na podstawie swojej
subiektywnej oceny treści pytań takie pozycje do skali, które jego zdaniem
mierzą badaną postawę czy inny konstrukt. Po dobraniu wskazników-pytań
sumuje punkty uzyskane na ka\dym z pytań i otrzymuje sumaryczną skalę.
Mo\na to wykonać przy pomocy prostego polecenia SPSS o ile arbitralnie
zakładamy, \e zmienne v1, v2, v3, v7 i v10 budują naszą skalę (indeks)., np.:
16
Konstrukcja skal Likerta jest dobrze opisana w literaturze, m.in. w podręcznikach z
zakresu metod badań psychologicznych autorstwa J. Brzezińskiego, dlatego pomijam
tutaj szersze omówienie.
39
1) compute skala1=v1 + v2 + v3 + v7 + v10. (jeśli choć w jednej pozycji
występuje brak danych
wynik ogólny jest te\ b.d.)
2) compute skala1=sum(v1,v2,v3,v4). (sumuje wszystkie wa\ne wartości,
wynikiem jest b.d.
tylko wtedy, gdy wszystkie pozycje są b.d.)
lub:
3) compute skala1=mean(v1,v2,v3,v4).
Jeśli chcemy wykluczyć mo\liwość obliczenia wartości indeksu w sytuacji, gdy
zbyt wiele pozycji zawiera braki danych, mo\na w poleceniu wskazać minimalną
liczbę wa\nych danych  np. poni\ej jest to 3  poni\ej której funkcja średniej
(czyli sumy podzielonej przez liczbę pozycji sumowanych) da w wyniku brak
danych:
4) compute skala1=mean.3(v1,v2,v3,v4).
Podejście oparte na arbitralnym kwalifikowaniu pozycji do skali (indeksu) jest
jednak niebezpieczne, gdy\ opiera się na przyjęciu pewnych zało\eń, nawet jeśli
nie są wypowiedziane lub nie zdaje sobie z nich sprawy sam badacz.. Konstrukcja
skali Likerta kończy się wprawdzie obliczeniem sumarycznego indeksu przy
pomocy identycznych poleceń jak te zaprezentowane wy\ej, lecz prócz tego
niezbędne jest sprawdzenie, czy pozycje (wskazniki) dobrane do skali spełniają
warunki skali oraz czy uzyskana skala jest wiarygodna, czyli rzetelna i trafna.
Do zało\eń, które powinny być spełnione, by indeks sumaryczny mógł być
traktowany jako skala, nale\ą:
" śe wybrane wskazniki mierzą jeden ukryty wymiar (jednowymiarowość skali).
" śe wszystkie wskazniki mierzą ten sam ukryty wymiar.
" śe wskazniki są liniowo związane z ukrytą zmienną i w związku z tym mo\na
sumować ich wartości uzyskując syntetyczną skalę.
Z tych zało\eń wynika, \e wskazniki powinny być skorelowane pomiędzy sobą,
gdy\ tylko w tym przypadku mo\na przyjąć zało\enie o tym, \e są wskaznikami
jednej zmiennej ukrytej, z którą są skorelowane. Ale tego, przy konstrukcji skal
arbitralnych się nie sprawdza. A mo\na to sprawdzić bardzo łatwo, wykorzystując
technikę analizy głównych składowych lub analizę czynnikową. Jeśli nasze
wskazniki mierzą jeden konstrukt/zmienną ukrytą, to w analizie głównych
składowych i w analizie czynnikowej wszystkie powinny ładować wysoko tylko
jeden czynnik. Powinien to być czynnik dobrze wyodrębniony, a więc, najlepiej,
słabo skorelowany z innymi czynnikami. Analiza czynnikowa i analiza głównych
składowych mogą więc posłu\yć do selekcji pozycji do skali. Same te\ mogą
posłu\yć bezpośrednio do tworzenia skal w wyniku u\ycia opcji zapisu ocen
czynnikowych w procedurze analizy czynnikowej.
Wyniki analizy głównych składowych i analizy czynnikowa słu\ą zatem do
budowania dwóch rodzajów skal:
40
" bezpośrednio  skal czynnikowych (factor scales), których wartościami są
dobrze ju\ znane oceny czynnikowe, zapisywane w toku analizy czynnikowej
(opcja w menu analizy czynnikowej SPSS: Zapisz -> Oceny czynnikowe)
" skal opartych na czynnikach (factor based scales), które uzyskujemy
klasyczną metodą sumowania lub uśredniania wartości kodowych odpowiedzi
uzyskanych na pytania zakwalifikowane do skali na podstawie wyników analizy
czynnikowej (mające wysokie ładunki na jednym czynniku, zwykle przyjmuje
się co najmniej 0,5 lub nawet 0,6), zaś analiza czynnikowa słu\y jedynie do
sprawdzenia jednowymiarowości skali i właśnie selekcji pozycji do skali.
Skale czynnikowe i oparte ba czynnikach dają zasadniczo bardzo silnie
skorelowane wyniki, a więc mają tę samą zawartość informacyjną, przy czym
skale czynnikowe są automatycznie standaryzowane, natomiast skale Likerta nie
są. Zalecane jest stosowanie skal opartych na czynnikach, lecz pamiętać nale\y o
tym, by pozycje zakwalifikowane do skali miały zbli\one, wysokie wartości
ładunków czynnikowych z jednym czynnikiem.
Rzetelność skali badamy przy pomocy współczynnika alfa Cronbacha. Reguła
praktyczna mówi, \e za  przyzwoicie rzetelną mo\emy uwa\ać taką skalę, w
przypadku której alfa wynosi przynajmniej 0,7. Niekiedy zaleca się ostrzejsze
kryterium 0,8, choć wydaje się ono nadmiernie konserwatywne. Zbli\anie się
wartości alfa do 1 nie czyni skali wcale doskonałą, gdy\ faktycznie oznacza, \e
mo\na zastąpić całą skalę pojedynczą pozycją. Te skrajne sytuacje nale\ą jednak
w badaniach społecznych do rzadkości, nawet gdy stosuje się baterie bardzo
zbli\onych znaczeniowo pytań.17 Trzeba dodać, \e spotyka się w powa\nej
literaturze skale, których raportowana rzetelność była ni\sza od 0,7, ale nie
ni\sza ni\ 0,6. W świetle moich własnych doświadczeń badawczych wartość ok.
0,7 zdaje się być rozsądnym wymogiem. Musimy pamiętać, \e alfa oparta jest na
korelacji poszczególnych pozycji ze skalą i zale\y zarówno od stopnia
skorelowania wskazników jaki i od liczby pozycji. Mo\na osiągnąć dobrą
rzetelność skali nawet przy umiarkowanych korelacjach wzajemnych
wskazników, o ile mamy ich wiele. Mimo \e oryginalna strategia Likerta zakładała
opieranie procedury skalowania na początkowej liście nawet 50 i więcej pytań, to
jednak w praktyce staramy się ich zadawać zdecydowanie mniej i zwykle w
pilota\ach i pracach wstępnych przy tworzeniu kwestionariusza staramy się
zwiększyć szansę, \e pytania, dotykając ró\nych aspektów mierzonego
konstruktu, będą jednak dość silnie skorelowane, co pozwala osiągnąć przyzwoitą
rzetelność skali przy mniejszej liczbie pozycji.
W toku analizy rzetelności mo\emy tak\e sprawdzić przydatność poszczególnych
pozycji skali przy pomocy opcji obliczania Alfy przy usuniętej pozycji. Procedura
ta polega na wyliczeniu wartości alfa Cronbacha dla skali zło\onej z wszystkich
pozycji z wyjątkiem analizowanej. Pozwala to ocenić, na ile dana pozycja jest
wa\na dla ogólnej rzetelności skali. W sytuacji, gdy naszym celem jest
zbudowanie dla potrzeb przyszłych lub powtarzalnych badań oszczędnej skali, nie
zajmującej całych szpalt kwestionariusza, technika ta pozwoli pozbyć się tych
pozycji, których brak nie obni\a specjalnie rzetelności.
17
Szerzej na temat rzetelności testów mo\na przeczytać w ksią\ce A. Machowskiego,
 Rzetelność testów psychologicznych. Dwa ujęcia modelowe , PWN 1993.
41
A oto przykład analizy prowadzącej do stworzenia dwóch skal w dwóch
wariantach: jako skal czynnikowych i jako skal opartych na czynnikach. Analiza
składa się z 4 etapów:
1. Analiza głównych składowych prowadząca do ostatecznego ustalenia składów
skal i wyliczenia wartości czynnikowych jako skal czynnikowych.
2. Analiza rzetelności skal z u\yciem współczynnika alfa Cronbacha, w tym
analiza poszczególnych pozycji techniką Skala przy wykluczeniu pozycji
3. Wyliczenie wartości skal metodą sumowania (uśredniania) ocen z pozycji
4. Zbadanie korelacji skal otrzymanych dwiema metodami
Na tym etapie nie rozwią\emy jeszcze problemu braków danych. Zastosujemy
eliminację kompletną obserwacji z brakami danych typu usuwanie obserwacjami,
co powa\nie, niestety zmniejsza próbę badawczą. Lepiej radzi sobie z problemem
braków danych technika uśredniania ocen, która pozwala obliczyć wartość skali
dla danej osoby tak\e przy niekompletnie wypełnionych odpowiedziach (opcja 4
wśród zaprezentowanych wy\ej poleceń compute).
Przedstawiam tutaj tylko polecenia w języku SPSS i wyniki wraz z krótkimi
komentarzami. Reguły stosowania i interpretacji analizy głównych składowych są
opisane w skrypcie z analizy czynnikowej. Na końcu zamieszczone są fragmenty
kwestionariusza zawierające analizowane pytania.
2.1 Analiza czynnikowa
Macierz rotowanych składowych(a)
Składowa
1 2
Mam w sobie dość siły i umiejętności, by sprostać zadaniom, które sobie stawiam
,806
Lubię trudne problemy i czuję radość, kiedy uda mi się je rozwiązać
,732
Lubię zadania, które są trochę ryzykowne, ale za to przynoszą korzyści
,662
Chętniej pracowałbym na własny rachunek, ni\ jako czyjś pracownik
,612
Mam uczucie, \e poradzę sobie w ka\dych okolicznościach
,542
Czuję, \e \yję i pracuję dla wa\nych celów
,537
Planuję swoje przedsięwzięcia
,495
Jak Pana(i) zdaniem zmieniła się sytuacja gospodarcza w Polsce w ciągu ostatnich
,811
12 miesięcy? Jest teraz...
Czy myśli Pan(i), \e w ciągu następnych 12 miesięcy sytuacja gospodarcza Polski
,787
będzie...
Czy, porównując swą obecną sytuację finansową z sytuacją sprzed roku,
,736
powiedział(a)by Pan(i), \e dzisiejsza jest...
Jakich zmian spodziewa się Pan(i) w poziomie swojego \ycia w ciągu najbli\szych
,729
12 miesięcy?
Metoda wyodrębniania czynników - Głównych składowych. Metoda rotacji - Varimax z normalizacją Kaisera.
a Rotacja osiągnęła zbie\ność w 3 iteracjach.
42
FACTOR
/VARIABLES v1 v2 v6 v7 v17.1 v17.2 v17.3 v17.4 v17.6 v18.1 v18.4
/FORMAT SORT BLANK(.3)
/CRITERIA FACTORS(2)
/ROTATION VARIMAX.
Dwie pierwsze główne składowe wyjaśniają ok. 48% całkowitej wariancji. Po
wykonaniu wstępnie rotacji skośnej (PROMAX, OBLIMIN) oceniamy, \e tendencja
do korelowania dwóch wyodrębnionych skal jest mała. Ostatecznie wykonujemy
analizę z rotacją VARIMAX.
Z uzyskanej macierzy ładunków wynika wyraznie, \e mamy do czynienia z
dwoma dobrze wyklarowanymi wymiarami, które mo\na określić jako:
" motywacja do osiągnięć  pierwsza składowa
" pesymizm/optymizm ekonomiczny  druga składowa.
Mo\na przyjąć, \e uzyskaliśmy dwie jednowymiarowe skale. Aby uzyskać
wartości czynnikowe, które będą wartościami ka\dej obserwacji na ka\dej ze skal
wystarczy dodać opcję:
/save=reg(2)
SPSS automatycznie dopisuje do zbioru danych dwie zmienne zawierające
wartości czynnikowe.
43
2.2 Analiza rzetelności
RELIABILITY
/VARIABLES= V17.3 V17.4 V17.1 V17.2 V18.1 V17.6 V18.4
/FORMAT=LABELS
/SCALE(SUKCES)=V17.3 V17.4 V17.1 V17.2 V18.1 V17.6 V18.4
/SUMMARY=TOTAL.
Statystyki rzetelności
Alfa
Cronbacha Liczba pozycji
,752 7
Statystyki pozycji Ogółem
Wariancja Alfa
Ś
rednia skali skali po Korelacja Cronbacha po
po usunięciu usunięciu pozycji usunięciu
pozycji pozycji Ogółem pozycji
Mam w sobie dość siły i umiejętności, by
21,06 19,424 ,656 ,680
sprostać zadaniom, które sobie stawiam
Lubię trudne problemy i czuję radość, kiedy uda
21,03 20,198 ,559 ,702
mi się je rozwiązać
Lubię zadania, które są trochę ryzykowne, ale
21,31 20,576 ,483 ,718
za to przynoszą korzyści
Chętniej pracowałbym na własny rachunek, ni\
21,18 20,627 ,424 ,733
jako czyjś pracownik
Mam uczucie, \e poradzę sobie w ka\dych
21,44 22,126 ,421 ,732
okolicznościach
Czuję, \e \yję i pracuję dla wa\nych celów
21,29 22,164 ,374 ,741
Planuję swoje przedsięwzięcia
21,61 21,626 ,378 ,742
Skala motywacji do osiągnięć (SUKCES) jest skalą o rzetelności mierzonej
współczynnikiem alfa Cronbacha wynoszącej 0,75. Jest to więc skala, którą
mo\emy zaakceptować. Dzięki temu, \e zmienne wprowadziliśmy do analizy w
kolejności wynikającej z wielkości ładunków czynnikowych, widać wyraznie, \e im
mniejszy był uprzednio ładunek czynnikowy, tym mniejszy jest poziom korelacji
danej pozycji ze skalą i tym mniejsza strata dla rzetelności skali wynikająca ze
skreślenia danej pozycji z listy wskazników. Ogólnie jednak, ka\dy wskaznik
wnosi coś do rzetelności i w \ądnym wypadku wprowadzenie danej pozycji nie
powoduje obni\enia rzetelności. Skalę akceptujemy w tej postaci.
RELIABILITY
/VARIABLES= V1 V2 V6 V7
/FORMAT=LABELS
/SCALE(EKONOPT)=V1 V2 V6 V7
/SUMMARY=TOTAL .
44
Statystyki rzetelności
Alfa
Cronbacha Liczba pozycji
,761 4
Statystyki pozycji Ogółem
Wariancja Alfa
Ś
rednia skali skali po Korelacja Cronbacha po
po usunięciu usunięciu pozycji usunięciu
pozycji pozycji Ogółem pozycji
Jak Pana(i) zdaniem zmieniła się sytuacja gospodarcza w
9,54 4,929 ,593 ,687
Polsce w ciągu ostatnich 12 miesięcy? Jest teraz...
Czy myśli Pan(i), \e w ciągu następnych 12 miesięcy
9,84 5,543 ,588 ,690
sytuacja gospodarcza Polski będzie...
Czy, porównując swą obecną sytuację finansową z
sytuacją sprzed roku, powiedział(a)by Pan(i), \e dzisiejsza
9,57 5,414 ,537 ,717
jest...
Jakich zmian spodziewa się Pan(i) w poziomie swojego
9,93 6,126 ,534 ,721
\ycia w ciągu najbli\szych 12 miesięcy?
Druga skala, choć składająca się tylko z czterech pozycji, jest nawet nieco
bardziej rzetelna w świetle takiego kryterium jakim jest współczynnik alfa.
Równie\ i tutaj nie mo\na bezkarnie wyeliminować \adnego wskaznika. Ich
indywidualny wkład w rzetelność skali jest zresztą większy ni\ wkład
pojedynczych pozycji w skali poprzedniej. Wynika to z mniejszej liczby pozycji i z
bardziej wyrównanego poziomu korelacji między pozycjami a skalą.
2.3 Obliczenie wartości skal
Skale oparte na czynnikach tworzymy bardzo prosto przez sumowanie wyników
przy pomocy polecenia COMPUTE (mo\na zastosować te\ funkcje sum i mean o
podanych wy\ej właściwościach; szczególnie zalecana jest funkcja mean  tego
rodzaju obliczenie pozostawiam do własnych ćwiczeń, zwracając uwagę, \e
funkcja mean pozwala do pewnego stopnia poradzić sobie z problemem braków
danych, ale dobrze jest ustalić dolną granicę liczby pozycji zawierających wa\ne
dane warunkujaca obliczenie wa\nej wartości skali  funkcja w postaci
mean.k(lista zmiennych), gdzie k oznacza minimalna liczbę wa\nych danych).
compute sukces= V17.3 + V17.4 + V17.1 + V17.2 + V18.1 + V17.6 + V18.4.
compute ekonopt= V1 + V2 + V6 + V7 .
var lab sukces  Skala orientacji na osiągnięcia
/ekonopt  Skala ekonomicznego pesymizmu/optymizmu .
45
2.4 Korelacja pomiędzy skalami opartymi na czynnikach a skalami
czynnikowymi
Jak łatwo mo\na zauwa\yć, bardzo wysoka wartość współczynników korelacji
pomiędzy odpowiednimi skalami potwierdza sensowność stosowania skal
opartych na czynnikach, wyliczonych przez proste sumowanie wartości pozycji,
których rzetelność mo\emy ustalić przy pomocy alfa.
46
2.4.1.1.1.1.1.1 ANEKS: Pytania u\yte w skalowaniu
V1 Jak Pana(i) zdaniem zmieniła się 1. O wiele lepsza.................................... 1
sytuacja gospodarcza w Polsce w 2. Trochę lepsza..................................... 2
ciągu ostatnich 12 miesięcy? Jest 3. Taka sama......................................... 3
teraz... 4. Trochę gorsza .................................... 4
5. O wiele gorsza ................................... 5
CZYTAJ ODPOWIEDZI: 6. Nie wiem........................................... 6
V2 Czy myśli Pan(i), \e w ciągu 1. O wiele lepsza.................................... 1
następnych 12 miesięcy sytuacja 2. Trochę lepsza..................................... 2
gospodarcza Polski będzie... 3. Taka sama......................................... 3
4. Trochę gorsza .................................... 4
CZYTAJ ODPOWIEDZI:
5. O wiele gorsza ................................... 5
6. Nie wiem........................................... 6
V6 Czy, porównując swą obecną sytuację 1. O wiele lepsza.................................... 1
finansową z sytuacją sprzed roku, 2. Trochę lepsza..................................... 2
powiedział(a)by Pan(i), \e dzisiejsza 3. Taka sama......................................... 3
jest... 4. Trochę gorsza .................................... 4
5. O wiele gorsza ................................... 5
CZYTAJ ODPOWIEDZI:
6. Nie wiem........................................... 6
V7 Jakich zmian spodziewa się Pan(i) w 1. Bardzo się poprawi ............................. 1
poziomie swojego \ycia w ciągu 2. Trochę się poprawi ............................. 2
najbli\szych 12 miesięcy? 3. Pozostanie taki sam............................ 3
4. Trochę się pogorszy............................ 4
CZYTAJ ODPOWIEDZI:
5. Bardzo się pogorszy............................ 5
6. Nie wiem........................................... 6
Zdecy- Raczej Ani się Raczej Zdecy- Nie
V17 Przy ka\dym stwierdzeniu proszę powiedzieć,
dowanie się nie zgadzam, się dowanie wiem
w jakim stopniu zgadza się Pan(i) z nim.
się nie zgadza ani się zgadza się
zgadza m nie m zgadza
POKAś KART V17
m zgadzam m
1 Lubię zadania, które są trochę ryzykowne, ale za to 1 2 3 4 5 6
przynoszą korzyści
2 Chętniej pracowałbym na własny rachunek, ni\ jako 1 2 3 4 5 6
czyjś pracownik
3 Mam w sobie dość siły i umiejętności, by sprostać 1 2 3 4 5 6
zadaniom, które sobie stawiam
4 Lubię trudne problemy i czuję radość, kiedy uda mi 1 2 3 4 5 6
się je rozwiązać
6 Czuję, \e \yję i pracuję dla wa\nych celów 1 2 3 4 5 6
V18 Jak często zdarza się Panu(i) to, o czym mówią poni\sze zdania? Proszę przy ka\dym
stwierdzeniu powiedzieć, czy zdarza się to Panu(i): bardzo rzadko lub nigdy, dość
rzadko, od czasu do czasu, dość często, czy bardzo często?
POKAś KART V18 Bardzo Dość Od Dość Bardzo Nie
rzadko, rzadk czasu często często wiem
nigdy o do
czasu
1 Mam uczucie, \e poradzę sobie w ka\dych 1 2 3 4 5 6
okolicznościach
4 Planuję swoje przedsięwzięcia 1 2 3 4 5 6
2
Skrypt kursowy do u\ytku wewnętrznego


Wyszukiwarka

Podobne podstrony:
Analiza czynnikowa w psychologii – pożytki i nieporozumienia
Analiza czynników wpływających na powrót do pracy pacjentów po aloplastyce całkowitej stawu biodrowe
Analiza 3 czynnikowa SKIER
Analiza czynników kształtujących aktywność fizyczną dzieci i młodzieży
Analiza czynników ryzyka występowania choroby próchnicowej u 3 letnich dzieci
Analiza czynników określających poziom
Analiza 3 czynnikowa AWAR
14 Anna Świt Analiza czynników wpływających na efektywność
Piotr Banaszuk Woda Analiza czynnikowa
analiza kluczowych czynników sukcesu i grup strategicznych w
4 Analiza fin Czynniki wzrostu prod
Analiza Matematyczna 2 Zadania
analiza
ANALIZA KOMPUTEROWA SYSTEMÓW POMIAROWYCH — MSE
Analiza stat ścianki szczelnej
Analiza 1
Analiza?N Ocena dzialan na rzecz?zpieczenstwa energetycznego dostawy gazu listopad 09

więcej podobnych podstron