(Microsoft Word - Analiza czynnikowa i analiza g\263\363wnych sk\263adowych.doc)

Jarosław Górniak

Analiza głównych składowych

Analiza czynnikowa

Skale Likerta

Skrypt do wykładu

Analiza czynnikowa i analiza głównych składowych

1.1

Wstęp

W pakiecie SPSS pod nazwą modułu: Analiza czynnikowa kryją się dwie metody,
które róŜnią się pod względem załoŜeń: analiza głównych składowych (Principal
Components Analysis — PCA) i analiza czynnikowa (Factor Analysis — FA). Obie
słuŜą sprowadzaniu informacji zawartych w wielu zmiennych (wskaźnikach) do
nieduŜej liczby zastępujących je/wyjaśniających wymiarów/czynników. Często
traktowane są one jako warianty tej samej metody, chociaŜ w istocie nimi nie są.
Dodajmy jednak od razu, Ŝe, w praktyce, wyniki uzyskiwane za pomocą obu
metod są zbliŜone i rzadko prowadzą do odmiennych wniosków. To powoduje,
Ŝe niektórzy statystycy, zwłaszcza o orientacji pragmatycznej, postulują:
1)

Stosowanie w większości sytuacji PCA (ze względu na pewne zalety
formalne, o których dalej), zwłaszcza w sytuacji, gdy uzyskane tą metodą
skale czynnikowe chcemy stosować w innych analizach

Inni, na odwrót, postulują uŜywanie właściwej analizy czynnikowej (zwykle
metodą osi/czynników głównych lub największej wiarygodności), zwłaszcza
w zastosowaniu do analizy testów psychologicznych lub przy
konstruowaniu modeli przyczynowych obserwowanych zjawisk, ze
względu na fakt, Ŝe analiza czynnikowa nie dąŜy do wyjaśnienia całej
wariancji kaŜdej zmiennej w baterii pytań, a więc i jej części wynikającej z
błędu, lecz tylko tej jej części, która jest dzielona z innymi zmiennymi, a
więc moŜe być uznana za pozostającą pod wpływem wspólnego czynnika
— ukrytej zmiennej/konstruktu.

Inni wreszcie, jak np. Holm (rzecz dotyczy typowego zastosowania analizy
czynnikowej do baterii pytań kwestionariuszowych lub testów), podają
praktyczne reguły w rodzaju:

•

jeśli bateria pytań obejmuje wiele pytań (ok. 15 lub więcej) poleca
się wstawianie na głównej przekątnej macierzy korelacji wartości 1,0
czyli przeprowadzenie analizy metodą głównych składowych;

•

przy mniejszych bateriach pytań zaleca się wstawienie na główną
przekątną macierzy korelacji oszacowanych zasobów zmienności
wspólnej, np. podniesionego do kwadratu współczynnika korelacji
wielokrotnej kaŜdej ze zmiennych z pozostałymi zmiennymi z baterii
— tzn. przeprowadzenie analizy czynnikowej metodą głównych
czynników/osi głównych (por. Holm 1976, s. 24 i 27).

Podkreślmy jeszcze raz: w praktyce wyniki róŜnych metod wyodrębniania
czynników nie prowadzą do odmiennych wniosków. NaleŜy jednak rozumieć
róŜnice pomiędzy analizą głównych składowych i analizą czynnikową, by metody
te stosować świadomie, gdyŜ oparte są one na odmiennych załoŜeniach.

Np. Leland Wilkinson i Herb Stenson podkreślają, Ŝe w — przeciwieństwie do głównych

składowych — model wspólnych czynników nie jest jednoznacznie określony; i to nie ze
względu na to, Ŝe moŜe być dowolnie rotowany (tak jak i główne składowe), ale dlatego,
Ŝe bazuje na liczbie nieobserwowanych parametrów większej od liczby obserwowanych
danych, co jest „niezwykłą okolicznością w statystyce” (Wilkinson Stenson 1996, s.569).
Dla niektórych rodzajów macierzy moŜliwa jest nieskończona liczba doskonale
dopasowanych modeli czynnikowych. Ponadto w FA mamy do czynienia z problemem
konieczności szacowania wartości czynnikowych, które nie mogą być bezpośrednio
wyliczone z modelu.

1.2

ZałoŜenia co do typu danych, które moŜna analizować

PCA i FA prowadzi się z załoŜenia na zmiennych co najmniej interwałowych
a między zmiennymi mamy do czynienia ze związkami liniowymi. Dobre rezultaty
analizy te dają takŜe w przypadku powszechnie stosowanych w badaniach
społecznych i marketingowych skalach typu Likerta (najlepiej co najmniej 5-
punktowych), skalach dyferencjału semantycznego itp., mimo Ŝe formalnie
trudno uznać je za skale interwałowe. Prowadzi się takŜe analizy na zmiennych
typu 0-1, choć w ich przypadku mogą wystąpić problemy. Zwłaszcza, gdy mamy
do czynienia ze zmiennymi skokowymi o wielu kategoriach, zakodowanymi przy
pomocy zmiennych pomocniczych typu 0-1, stosowanie zwykłej analizy
czynnikowej nie jest poprawnym podejściem: naleŜy wtedy stosować wielokrotną
analizę korespondencji — HOMALS z modułu SPSS Categories. TakŜe wówczas,
gdy odsetki 1 w poszczególnych zmiennych („cięŜkość” kategorii) znacznie się
róŜnią, analiza czynnikowa moŜe być zwodnicza, gdyŜ korelacje między
zmiennymi mogą wynikać z róŜnic w owej „cięŜkości”, a nie z merytorycznego
związku cech

. Mimo to, uŜywa się analizy zmiennych 0-1 w celu wyodrębnienia

skupień zmiennych. W przypadku zmiennych typu 0-1 lepiej jest jednak uŜyć,
analizy korespondencji (HOMALS) lub analizy skupień (CLUSTER), dobierając
w przypadku tej ostatniej miarę odległości (PROXIMITY) odpowiednią dla cech
kodowanych binarnie.

Najczęściej eksploracyjnej analizie czynnikowej i analizie głównych składowych
poddaje się zmienne w ich postaci standaryzowanej (tzn. faktoryzuje się macierz
korelacji, a nie macierz kowariancji); standaryzacja uwzględniona jest domyślnie
przez program analizy czynnikowej SPSS. Nasze rozwaŜania ograniczamy tutaj
do analizy opartej na zmiennych standaryzowanych — macierzach korelacji.

1.3

Analiza głównych składowych (PCA)

Główne składowe to liniowe kombinacje

zmiennych, które posiadają

następujące własności:

•

są ortogonalne w stosunku do siebie, tzn. nie są wzajemnie skorelowane

•

pierwsza główna składowa wyjaśnia największą ilość łącznej wariancji
zmiennych, druga jest ortogonalna do pierwszej i wyjaśnia największą część
łącznej wariancji zmiennych nie wyjaśnionej przez pierwszą główną składową
itd. Maksymalna liczba głównych składowych potrzebna do wyjaśnienia całości
wspólnej wariancji k zmiennych jest równa k.

Analiza głównych składowych (PCA) jest:

Metodą redukcji przestrzeni danych, to znaczy jej celem jest przedstawienie
informacji zawartej w zbiorze k zmiennych za pomocą j<k głównych
składowych przy zachowaniu jak największej ilości informacji z pierwotnego
zbioru zmiennych. Korzystając z faktu, Ŝe kolejne składowe wyjaśniają
malejący zakres łącznej wariancji zmiennych, dla celów prezentacji zaleŜności

Zniekształcenia mogą zresztą wystąpić równieŜ w przypadku zmiennych porządkowych,

jeśli występują w nich bardzo duŜe róŜnice w „cięŜkości” poszczególnych kategorii.

Kombinacja liniowa ma postać y= a

+ a

+ ... + a

w zbiorze danych wykorzystujemy j pierwszych składowych. W celu uzyskania
interpretowalnych wyników główne składowe moŜna poddać rotacji (o tym
dalej).

Metodą przekształcenia k skorelowanych zmiennych wyjściowych w k głównych
składowych. Korzyścią z takiego przekształcenia zbioru zmiennych w zbiór
głównych składowych jest moŜliwość ujęcia całości informacji zawartej
w zmiennych (ich wariancji) w postaci zestawu ortogonalnych, a więc
niezaleŜnych, składowych. Takie składowe moŜna uŜyć w wygodny sposób
w analizie regresji lub analizie dyskryminacji, zwłaszcza w sytuacji, gdy
pierwotny zbiór zmiennych niezaleŜnych jest silnie skorelowany (występuje
w nim zjawisko silnej przybliŜonej współliniowości zmiennych niezaleŜnych). W
praktyce w dalszej analizie wykorzystuje tylko część wyodrębnionych
składowych głównych. NiŜej podaję kilka praktycznych reguł wykorzystania
składowych głównych w modelach liniowych.

Metodą prezentacji graficznej struktury wielowymiarowego zbioru danych na
płaszczyźnie z jak najmniejszym zniekształceniem informacji.

Model analizy głównych składowych  moŜna wyrazić następująco:

główna składowa = liniowa kombinacja obserwowanych zmiennych

W analizie głównych składowych przedmiotem wyjaśnienia jest całkowita
wariancja wszystkich zmiennych. Główne składowe, jako liniowe kombinacje
obserwowalnych zmiennych, są jednoznacznie określone. Zatem dla kaŜdego
przypadku w bazie danych moŜna jednoznacznie wyliczyć wartości na głównej
składowej, dodając do siebie wartości standaryzowane danego przypadku na
poszczególnych zmiennych wymnoŜone przez odpowiednie wagi (współczynniki
wartości czynnikowych).

Matematyczną podstawą analizy głównych składowych jest dekompozycja pełnej
macierzy korelacji zmiennych (z wartościami 1 na głównej przekątnej) na
wektory własne i wartości własne.

1.4

Analiza czynnikowa

Analiza czynnikowa (FA) jest metodą badania struktury leŜącej u podstaw
związków obserwowanych między zmiennymi. Celem tej metody jest
sprowadzenie zaobserwowanych korelacji (kowariancji) między wieloma
zmiennymi do nieduŜej liczby wyjaśniających je zmiennych nieobserwowalnych:
wspólnych czynników, konstruktów. W modelu analizy czynnikowej przyjmuje
się, Ŝe na kaŜdą ze skorelowanych ze sobą zmiennych wpływają w róŜnym
stopniu wspólne czynniki, które wyjaśniają zaobserwowaną korelację. Wariancja
zmiennych dzieli się na:

•

wariancję wspólną, podzielaną przez zmienne z zestawu (wyjaśnioną przez
czynniki wspólne) — część wariancji zmiennej wyjaśnioną przez czynniki
wspólne nazywamy jej zasobem zmienności wspólnej

•

wariancję swoistą kaŜdej ze zmiennych, niesprowadzalną do współzmienności
wywołanej oddziaływaniem wspólnych czynników.

Tę ostatnią dzieli się jeszcze na wariancję specyficzną zmiennej oraz wariancję
wynikającą z błędu.

Celem analizy czynnikowej jest wyjaśnienie zasobu zmienności wspólnej
mierzonych zmiennych. U podstaw analizy czynnikowej mamy więc model
teoretyczny ukrytej struktury przyczynowej, wyjaśniającej zaobserwowaną
strukturę korelacji wskaźników. MoŜna to przedstawić schematycznie
w następujący sposób (przykład dla dwóch czynników):

gdzie:
F1, F2

— czynniki wspólne (nieobserwowalne)

do X

— zmienne (obserwowalne)

do U

— czynniki swoiste (nieobserwowalne)

— współczynnik korelacji między czynnikami

— ładunki czynnikowe czynników głównych (wspólnych) — współczynniki

regresji standaryzowanej zmiennych na czynniki)

— ładunki czynnikowe czynników swoistych (

−

zasób zmienno

ci wspó

)

Model analizy czynnikowej moŜna więc wyrazić następująco:

obserwowana zmienna = liniowa kombinacja czynników + błąd

Matematycznie rzecz sprowadza się do analizy struktury tzw. zredukowanej
macierzy korelacji, tzn. macierzy korelacji, w której na przekątnej umieszczone
są wartości wskazujące proporcję wariancji wspólnej — wyjaśnianej przez
wspólne czynniki — w całkowitej wariancji kaŜdej ze zmiennych (zasoby
zmienności wspólnej). Najprostszym sposobem oszacowania tej proporcji
(zasobów zmienności wspólnej) jest wykorzystanie kwadratu współczynnika
korelacji wielokrotnej kaŜdej ze zmiennych z pozostałymi zmiennymi z baterii —
jest to dolna granica zasobu zmienności wspólnej kaŜdej ze zmiennych w
modelu, mająca teŜ tę zaletę, Ŝe jest ustalana empirycznie, a nie szacowana.
Innym sposobem jest iteracyjne szacowanie wartości zasobu zmienności
wspólnej poprzez wielokrotne prowadzenie analizy głównych składowych
zredukowanej macierzy korelacji i podstawianie za kaŜdym razem na główną

przekątną nowo oszacowanych zasobów zmienności wspólnej, aŜ do osiągnięcia
sytuacji, w której modele z dwóch kolejnych kroków nie róŜnią się istotnie
(moŜna manipulować kryterium tej zbieŜności).

Odrębną metodą wyodrębniania czynników jest metoda największej
wiarygodności: czynniki i zasoby zmienności wspólnej wyznaczone są w taki
sposób, by z największą wiarygodnością wytwarzały zaobserwowaną korelację
między zmiennymi.

śeby lepiej uświadomić sobie róŜnicę pomiędzy PCA i FA zwróćmy uwagę, Ŝe do
wyjaśnienia całkowitej wariancji dwóch zmiennych skorelowanych np. na
poziomie 0,81 potrzeba dwóch głównych składowych (wyznaczony zostanie po
prostu nowy układ współrzędnych), podczas gdy do zupełnego wyjaśnienia
korelacji między nimi (cel analizy czynnikowej) wystarczy jeden czynnik
skorelowany z kaŜdą z tych zmiennych na poziomie 0,9.

1.5

Kiedy stosować analizę głównych składowych

a kiedy analizę czynnikową

Analizę czynnikową stosujemy w sytuacji, gdy:

•

chcemy wyjaśnić zaobserwowaną korelację między zmiennymi za pomocą
modelu przyczynowego opartego na strukturze związków zmiennych
obserwowalnych z ukrytymi czynnikami

•

dysponujemy modelem teoretycznym struktury takiego związku

lub

będziemy uzyskane wyniki interpretować w kategoriach teoretycznego modelu
przyczynowego

•

koncentrujemy się na wyjaśnieniu korelacji między zmiennymi i dlatego
chcemy wyłączyć z analizy wariancję swoistą zmiennych

•

zmienne są obciąŜone względnie duŜym błędem pomiarowym, który badacz
chce wyłączyć z analizy

•

celem analizy jest selekcja pozycji/wskaźników do skali sumarycznej Likerta
(choć w tym przypadku, zwłaszcza przy duŜej liczbie pozycji, stosuje się teŜ
analizę głównych składowych)

•

celem analizy jest klasyfikacja zmiennych we względnie jednorodne grupy,
w gruncie rzeczy będące właśnie wskaźnikami pewnych konstruktów.

Niektórzy statystycy (np. Wilkinson i Stenson 1996) zalecają porównanie
rezultatów uzyskanych za pomocą analizy czynnikowej (np. metodą największej
wiarygodności, osi głównych czy najmniejszych kwadratów)
z wynikami analizy głównych składowych, Ŝeby „uniknąć oszukania” przez
degeneracje wynikające z niejednoznaczności modelu czynnikowego (por.
przypis 1).

Analizę głównych składowych stosujemy wówczas, gdy:

•

nie dysponujemy potencjalnym modelem „głębokiej” struktury czynników
wyjaśniających związki pomiędzy zmiennymi, taki model nie jest celem naszej

W tym wypadku nawet właściwsze będzie zastosowanie konfirmacyjnej analizy

czynnikowej, dostępnej w programie AMOS, odrębnym module SPSS.

analizy lub nie chcemy „wtłaczać” w taki model posiadanych danych
empirycznych

•

celem jest eksploracja, rozpoznanie struktury zbioru danych: wyszukujemy
przypadki osobliwe, chcemy przedstawić graficznie strukturę zbioru danych
w przestrzeni dwu- lub trójwymiarowej przy moŜliwie najmniejszym
zniekształceniu relacji zachodzących pomiędzy obserwacjami, szukamy
skupień obiektów ze względu na podobieństwo w zakresie analizowanych cech,
określamy minimalną liczbę wymiarów przy pomocy których jesteśmy w stanie
wyjaśnić załoŜoną część wariancji zbioru zmiennych

•

jeśli wiemy, Ŝe wariancja specyficzna i wariancja wynikająca z błędu jest
niewielka a takŜe, gdy analizujemy duŜo (np. więcej niŜ 15) skorelowanych
zmiennych lub gdy korelacja między zmiennymi jest względnie wysoka, lepiej
jest stosować analizę głównych składowych: główne składowe są
jednoznacznie określone — są kombinacjami liniowymi zmiennych i mogą być
wprost wyliczone, podczas gdy wartości czynników głównych mogą być tylko
szacowane, nie są jednoznacznie określone i przy zastosowaniu są źródłem
pewnych kłopotów (np. oszacowane zmienne z wartościami czynnikowymi
mogą być skorelowane nawet wtedy, gdy czynniki nie są skorelowane lub
mogą nie być doskonale skorelowane z rzeczywistymi czynnikami)

•

chcemy wyliczyć nieskorelowane główne składowe w celu zastosowania ich
w dalszych analizach wielowymiarowych (np. regresji lub dyskryminacji)

•

chcemy wyliczyć jednoznacznie wartości skal reprezentujących wymiary
mierzone przez zestaw zmiennych — alternatywą dla PCA jest proste
sumowanie dla kaŜdego przypadku wartości z poszczególnych zmiennych,
zaklasyfikowanych do skali na podstawie analizy czynnikowej („skala oparta na
czynniku” a nie „skala czynnikowa”); zastosowanie wartości czynnikowych
wyliczonych w analizie czynnikowej (FA) jest problematyczne, choć teŜ
stosowane (por. podręcznikowy przykład w Backhaus i in. 1990).

Etapy analizy czynnikowej i analizy składowych głównych oraz zasady
interpretacja wyników tych dwóch metod (przy świadomości róŜnic pomiędzy
nimi) są takie, same dlatego potraktujemy je łącznie, a na przykładach
porównamy wyniki uzyskiwane kaŜdą z tych metod.

1.6

Kilka uŜytecznych definicji

Wzorem Haira i in. (1984) warto podać słowniczek pojęć najczęściej spotykanych
przy okazji analizy czynnikowej i analizy głównych składowych.

Zasób zmienności wspólnej — część wariancji oryginalnej zmiennej dzielona

z wszystkimi pozostałymi zmiennymi włączonymi do analizy; w modelu
ortogonalnym jest równa podniesionym do kwadratu ładunkom czynnikowym
danej zmiennej. W przypadku wstępnej ekstrakcji czynników w analizie
głównych składowych zasób zmienności wspólnej kaŜdej ze zmiennych jest
równy 1, co oznacza Ŝe analizie poddana jest cała wariancja zmiennych. Po
odrzuceniu części “najmniejszych” składowych zasób zmienności wspólnej
mówi nam, jak dobrze reprezentowana jest dana zmienna przez model o
zredukowanej przez nas liczbie wymiarów. W analizie czynnikowej szacowanie
zasobu zmienności wspólnej jest jednym z kluczowych elementów procesu
budowania modelu czynnikowego. Ostateczny zasób zmienności wspólnej

informuje nas o tym, jaki zakres wariancji zmiennej jest sprowadzalny do
ukrytych czynników ujętych w modelu.

Wartość własna — matematyczna własność macierzy kwadratowej; reprezentuje

zakres wariancji wyjaśnianej przez dany czynnik. We wstępnej fazie analizy,
przed rotacją, czynniki wyodrębniane są w taki sposób, Ŝe kolejno wyjaśniają
największą moŜliwą część wariancji, spełniając jednocześnie warunek braku
wzajemnej korelacji. Prowadzi to do tego, Ŝe kolejne czynniki (wektory
własne) mają co raz mniejszą wartość własną. W PCA suma wartości własnej
wszystkich składowych głównych (czyli ich wariancji) równa się liczbie
zmiennych, gdyŜ kaŜda zmienna standaryzowana ma wariancję równą 1.
W analizie czynnikowej zredukowanej macierzy korelacji suma wartości
własnych równa się sumie wartości umieszczonych na przekątnej tej macierzy
(tzw. ślad macierzy). Procent wariancji wyjaśnionej przez czynnik obliczamy
jako stosunek wartości własnej czynnika do sumy wszystkich wartości
własnych (w PCA procentuje się do sumy równej liczbie zmiennych, gdyŜ na
przekątnej pełnej macierzy korelacji są jedynki — całkowite wariancje
zmiennych standaryzowanych).

Ładunek czynnikowy — ogólne określenie współczynników umieszczanych

w macierzy ładunków czynnikowych; w węŜszym znaczeniu: współczynniki
regresji pomiędzy zmienną (standaryzowaną) a zestawem czynników
wspólnych. W przypadku nierotowanych głównych składowych (które są
nieskorelowane) i w przypadku rotacji ortogonalnej w obu opisywanych
metodach są to jednocześnie współczynniki korelacji pomiędzy zmienną
i kaŜdym czynnikiem z osobna, jak i współczynniki regresji pomiędzy zmienną
a zestawem czynników wspólnych. W przypadku rotacji skośnej mamy do
czynienia z dwiema macierzami ładunków czynnikowych: macierzą wzoru
czynników (macierz modelowa) zawierającą ładunki czynnikowe czyli
współczynniki regresji pomiędzy zmienną (standaryzowaną) a zestawem
czynników wspólnych oraz macierzą struktury czynników (macierz struktury)
zawierającą współczynniki korelacji pomiędzy kaŜdą zmienną i kaŜdym
czynnikiem z osobna. W przypadku rotacji skośnej wartości współczynników
w obu rodzajach macierzy te nie są juŜ sobie równe.

Rotacja czynników — proces lokowania (transformacji) czynników ostatecznie

zachowanych w analizie (takŜe głównych składowych) w przestrzeni
zmiennych tak, by uzyskać moŜliwie najprostszą, interpretowalną strukturę
czynników.

Ortogonalne czynniki — czynniki nie pozostające ze sobą w korelacji;

w przestrzeni: prostopadłe do siebie.

Rotacja ortogonalna — rotacja z zachowaniem niezaleŜności (braku korelacji,

prostopadłości) czynników.

Skośne czynniki — czynniki skorelowane ze sobą, nie tworzące w przestrzeni kąta

prostego.

Rotacja skośna — rotacja czynników dopuszczająca korelację pomiędzy nimi,

reprezentowaną przez odejście od prostopadłości czynników w przestrzeni.

Zredukowana macierz korelacji — macierz korelacji, w której na głównej

przekątnej zamiast 1 umieszczone zostały oszacowane wartości zasobu
zmienności wspólnej kaŜdej zmiennej, zazwyczaj wartości współczynnika
determinacji R

(wielokrotnego) danej zmiennej w jej regresji na wszystkie

pozostałe zmienne ujęte w macierzy.

1.7

Etapy analizy

W analizie czynnikowej i analizie głównych składowych mamy do czynienia
z pewną sekwencją czynności analitycznych.

1.

Podjęcie przez analityka decyzji o sposobie postępowania z brakiem danych:
eliminacja parami, przypadkami czy zastępowanie średnią? A moŜe naleŜy
podstawić w miejsce braków danych wartości na podstawie któregoś ze
statystycznych modeli imputacji? Odpowiedź na te pytania wymaga
uprzedniej analizy konfiguracji braków danych. Pomocny moŜe być w tym np.
moduł programu SPSS: Missing Value Analysis. Ignorowanie problemów
wynikających z braków danych moŜe prowadzić do zniekształcenia wyników
analizy.

Obliczenie macierzy korelacji (program wykonuje to automatycznie).

Wstępny ogląd macierzy korelacji i usunięcie z analizy zmiennych nie
skorelowanych z pozostałymi (ewentualny test oceniający przydatność
macierzy korelacji do zastosowania modelu czynnikowego) — w praktyce
często jest jednak łatwiej przeprowadzić wstępne analizy metodą głównych
składowych i “wyłapać” zmienne, które pojedynczo budują odrębne czynniki
lub nisko ładują wszystkie czynniki zachowane w analizie.

Wyodrębnienie czynników — wybór metody wyodrębnienia i określenie liczby
czynników pozostawionych do dalszej analizy.

Rotacja czynników w celu uzyskania klarownej interpretacji.

Interpretacja znaczenia uzyskanych czynników na podstawie sensu
zmiennych, które mają wysokie ładunki czynnikowe w przypadku danego
czynnika (na ogół bierze się pod uwagę ładunki czynnikowe o wartościach
bezwzględnych wynoszących co najmniej 0,6, choć nie jest to sztywna zasada
i wiele zaleŜy od konkretnych danych)

Wyliczenie (w razie potrzeby) wartości czynnikowych i uŜycie ich do
sporządzenia wykresów lub dalszych analiz.

1.8

Metoda wyodrębniania czynników

Problem wyboru pomiędzy analizą głównych składowych a właściwą analizą
czynnikową został przedyskutowany wyŜej. Analizę głównych składowych
uzyskujemy wybierając opcję w menu: Wyodrębnianie — Głównych składowych
(syntaks /EXTRACTION PC, opcja domyślna SPSS). W ramach właściwej analizy
czynnikowej stosujemy zazwyczaj:

•

Analizę metodą głównych osi (Osi głównych: PAF) lub metoda najmniejszych
reszt (NiewaŜonych najmniejszych kwadratów: ULS — metoda niewaŜonych
najmniejszych kwadratów, znana równieŜ w literaturze jako metoda MINRES),

które zasadniczo dają identyczne rezultaty

. Są to techniki iteracyjne

korzystające z analizy głównych składowych jako punktu wyjścia w analizie
zredukowanej macierzy korelacji, w wyniku których następuje wyodrębnienie
czynników i oszacowanie zasobu zmienności wspólnej zmiennych uŜytych w
modelu. Są to techniki eksploracyjne, opisowe, dla których nie mamy testu
dopasowania modelu do danych. Syntax: /EXTRACTION PAF (lub alternatywnie
ULS)

•

Metoda największej wiarygodności (Maksymalnej wiarygodności: ML) jest
metodą iteracyjną: czynniki wyznaczone są w taki sposób, by z największą
wiarygodnością wywoływały zaobserwowaną korelację między zmiennymi,
jednak przy załoŜeniu, Ŝe próba pochodzi z populacji, w której analizowane
zmienne podlegają wielowymiarowemu rozkładowi normalnemu (co nakłada
postulat normalności rozkładu takŜe na kaŜdą z nich z osobna — zjawisko
rzadko spotykane w badaniach społecznych). Metoda ta daje moŜliwość
przeprowadzenia testu dopasowania modelu opartego na określonej liczbie
czynników do obserwowanej macierzy korelacji w warunkach duŜej próby (test
oparty na rozkładzie CHI

). Paradoksalnie, w warunkach duŜej próby nawet

niewielkie odchylenia odtworzonej na podstawie modelu czynnikowego
macierzy korelacji od macierzy obserwowanej łatwo prowadzą do odrzucenia
hipotezy o dopasowaniu modelu; chęć uzyskania potwierdzonego testem
dopasowania prowadzi zwykle do zachowania zbyt duŜej liczby czynników.
Jeśli posłuŜymy się innymi kryteriami określania liczby czynników, zwłaszcza
metodą merytorycznej interpretowalności czynników, metoda ta daje dobre
rezultaty w analizie eksploracyjnej i jest często polecana. W procesie
iteracyjnego wyodrębniania czynników tą metodą, w kaŜdym kolejnym kroku,
większa waga przypisywana jest tym zmiennym, które mają większy
oszacowany zasób zmienności wspólnej. Z nazwy „metoda największej
wiarygodności” nie wynika ocena tej metody, a jedynie wskazany jest przez
nią model matematyczny, który stoi u podstaw tej techniki. Metoda ta nie
usuwa problemu niejednoznaczności modelu czynnikowego. Podobne
właściwości ma metoda uogólnionych najmniejszych kwadratów (Uogólnionych
najmniejszych kwadratów — GLS). Opcje: /EXTRACTION ML (lub: GLS).

To, którą opcję wybrać, jeŜeli juŜ zdecydujemy się na analizę czynnikową, a nie
głównych składowych, zaleŜy od tego, czy chcemy testować jakość dopasowania
modelu do danych w populacji i czy mamy podstawy ku temu (rozkład normalny,
duŜa próba) — wówczas ML jest odpowiednia. JeŜeli prowadzimy analizę
eksploracyjną zwykle uŜywamy PAF. Wszystkie metody w praktyce badawczej
dają zwykle takie same (merytorycznie, nie matematycznie) rezultaty.

1.9

Określanie liczby czynników

Kryteria pomocne przy podejmowaniu decyzji o liczbie czynników/głównych
składowych pozostawionych do dalszej analizy:

Kryterium wartości własnej Keisera: wartość własna kaŜdego czynnika-głównej
składowej (= jego wariancji) pozostawionego w dalszej analizie powinna być
większa od 1 (a więc od wariancji pojedynczej zmiennej). Program SPSS takŜe

„W warunkach istnienia rozwiązania kanonicznego metoda MINRES jest identyczna z

iteracyjną metodą czynników głównych dla R” (Arminger, s. 52).

w przypadku analizy czynnikowej przeprowadza najpierw analizę głównych
składowych i kryteria selekcji odnoszą się do wartości własnych wyliczonych na
tym etapie. Jako domyślne kryterium selekcji czynników stosuje się w tym
programie kryterium Keisera. Opcja /CRITERIA MINEIGEN(1).

Kryterium Jolliffe: w warunkach badania na próbie losowej błąd losowy moŜe
prowadzić do zaniŜenia wartości własnej głównej składowej (kryterium to
podane zostało dla PCA). W związku z tym, naleŜy zachować w analizie te
składowe, których wartość własna jest większa od 0,7. Opcja /CRITERIA
MINEIGEN(.7).

Kryterium wystarczającej proporcji wyjaśnionej wariancji (popularne w ramach
PCA): naleŜy pozostawić tyle składowych, by wyjaśniały załoŜony procent
wariancji, np. 80% lub 95%. Opcja /CRITERIA FACTORS(?), gdzie w miejsce ?
naleŜy wpisać taką liczbę czynników, które w świetle wstępnej analizy
wyjaśniają w sumie określony zakres wariancji.

Liczba czynników powinna być mniejsza od połowy liczby zmiennych
(najbardziej „płynne” kryterium ze spotykanych w literaturze, obok kryterium,
Ŝe najmniejszy czynnik powinien wyjaśniać co najmniej 1%, 5% lub 10%
całkowitej wariancji w PCA, a całkowitej wspólnej wariancji w FA). Opcja
/CRITERIA MINEIGEN(?).

Kryterium interpretowalności czynników: badacz zachowuje taką liczbę
czynników, która ma sens, da się zinterpretować w ramach jego modelu
teoretycznego. Jest to waŜne kryterium, choć jest subiektywne. Dane
obciąŜone są błędami wynikającymi z losowania i samego pomiaru. MoŜe to
prowadzić do zniekształceń i wyodrębniania czynników reprezentujących
przypadkowe konfiguracje zmiennych. Z drugiej strony, waŜny jest walor
„heurystyczny” analizy czynnikowej, jej zdolność ujawniania konfiguracji,
których nie oczekiwaliśmy i podwaŜania tych, z wizją których przystępujemy
do badania. Odrzucenie czynnika, ze względu na jego „nieinterpretowalność”,
musi być więc poprzedzone stosownym namysłem. Opcja /CRITERIA
FACTORS(?), gdzie w miejsce ? naleŜy wpisać taką liczbę czynników,
które w świetle wstępnej analizy da się sensownie zinterpretować.

Kryterium istotności testu statystycznego dopasowania odtworzonej macierzy
korelacji do macierzy obserwowanej (tylko dla metody największej
wiarygodności i GLS): jak juŜ wskazałem, prowadzi często do pozostawienia
duŜej liczby „małych” czynników i stawia wymóg normalności rozkładów
zmiennych w populacji, z której pobrana jest próba. Testujemy kolejne modele
zwiększając liczbę czynników o 1 w opcji /CRITERIA FACTORS(?), aŜ do
uzyskania wartości p>0,05 w teście CHI

Analiza odchyleń (reszt) obserwowanych współczynników korelacji od
współczynników odtworzonych: opcja /PRINT REPR. Po wybraniu tej opcji
SPSS drukuje macierz, której dolny trójkąt zawiera współczynniki korelacji
pomiędzy zmiennymi odtworzone na podstawie modelu przyjętego
czynnikowego, górny trójkąt — reszty pomiędzy obserwowanymi i
odtworzonymi współczynnikami korelacji, a przekątna — odtworzone
(oszacowane) zasoby zmienności wspólnej kaŜdej ze zmiennych. SPSS
raportuje takŜe odsetek reszt o wartości bezwzględnej przekraczającej 0,05.
DuŜe odchylenia odtworzonych współczynników korelacji świadczą o słabym
dopasowaniu naszego modelu czynnikowego do danych i kaŜe go
zweryfikować. Musimy jednak pamiętać, Ŝe nawet bardzo dobre dopasowanie
modelu do danych nie gwarantuje jego prawdziwości.

Kryterium osypiska (Cattella): naleŜy zachować tyle czynników, ile tworzy
“zbocze”, natomiast zignorować te, które tworzą “osypisko”, “rumowisko”

u podnóŜa na wykresie sporządzonym przez połączenie punktów opisujących
wielkość wartości własnej (wariancji) kolejnych czynników.

Czasami trudno

jest zdecydować, które miejsce stanowi rzeczywiście początek osypiska i
wybór bywa nieco subiektywny. Metoda ta daje jednak często dobre rezultaty.
Prowadzi zwykle do pozostawienia mniejszej liczby czynników, niŜ kryterium
Keisera i jest skuteczna zwłaszcza w przypadku analizy koncentrującej się na
najwaŜniejszych czynnikach i ignorującej mniej waŜne.

A oto przykładowy wykres ilustrujący kryterium “osypiska”. Osypisko wyraźnie
zaczyna się w przypadku 4 czynników, taką więc ich liczbę naleŜałoby
pozostawić w analizie. MoŜna jednak dopatrywać się początku osypiska juŜ
przy 3 czynnikach. NaleŜy więc odwołać się dodatkowo do kryterium
merytorycznej interpretowalności. Kryterium Keisera sugeruje rozwiązanie
oparte na 4 czynnikach.

W analizie czynnikowej duŜą rolę odgrywa doświadczenie i sztuka interpretacji,
stąd badacz powinien elastycznie kierować się powyŜszymi wskazówkami, by
dotrzeć do ostatecznego modelu.

1.10

Rotacja czynników i interpretacja wyników

Celem jest uproszczenie wzoru czynników tak, by (w idealnym przypadku) kaŜda
zmienna miała wysoki ładunek tylko na jednym czynniku i by kaŜdy czynnik miał
przynajmniej kilka ładunków bliskich 0 i kilka wysokich, bliskich 1 lub -1. Ułatwia
to interpretację uzyskanego modelu. Taki ogólny cel moŜe prowadzić do róŜnych

W literaturze spotyka się dwa stanowiska: jedno kaŜe pozostawić tyle czynników, ile

znajduje się na “zboczu” wraz z tym, od którego zaczyna się “osypisko”; inne stanowisko
kaŜe ignorować ten ostatni czynnik.

szczegółowych kryteriów matematycznych, które kierują zmianą połoŜenia
czynników wobec zmiennych.

Aby uzyskać prostą strukturę macierzy ładunków czynnikowych, moŜna dąŜyć do
uproszczenia interpretacji kaŜdej ze zmiennych za pomocą minimum istotnych
czynników, a więc do uproszczenia wierszy macierzy ładunków. Prowadzi to do
rotacji QURTIMAX

, która w szczególnych sytuacjach moŜe jednak skończyć się

wyprodukowaniem wysokich ładunków dla wszystkich zmiennych na jednym
czynniku.

MoŜna teŜ dąŜyć do uproszczenia interpretacji kaŜdego z czynników, a więc
doprowadzić do tego by względnie niewiele zmiennych miało wysokie ładunki na
jednym czynniku, a pozostałe zmienne miały na tymŜe czynniku ładunki zerowe
lub bliskie zero; oznacza to dąŜenie do uproszczenia kolumn macierzy ładunków.
Prowadzi to do rotacji VARIMAX

, która daje, ogólnie biorąc, klarowniejsze i

bardziej stabilne wyniki. Jest to domyślna rotacja w programie SPSS.
Kompromisem pomiędzy rotacją QUARTIMAX i VARIMAX jest rotacja EQUAMAX.

Najczęściej stosowaną w praktyce metodą rotacji jest ortogonalna rotacja
VARIMAX (z normalizacją Keisera

). Powołując się na eksperymenty Keisera, Kim

i Mueller (1994) piszą: „wzór czynników uzyskany poprzez rotację VARIMAX
bywa bardziej stabilny (invariant) od uzyskanego w rotacji QUARTIMAX, gdy
analizujemy róŜne podzbiory zmiennych” (s. 104). Z kolei Arminger (1979, s. 94-
95) pisze, Ŝe w wielu wykonanych przez siebie analizach nie stwierdził większych
róŜnic pomiędzy wynikami uzyskanymi przy pomocy tych rotacji, za wyjątkiem
sytuacji, w których wśród zmiennych występowały duŜe róŜnice pomiędzy
zasobami zmienności wspólnej.

Konkludując: jeśli zasadne jest wykonanie rotacji ortogonalnej, nie
dopuszczającej korelacji między czynnikami, uŜywamy zazwyczaj rotacji
VARIMAX.

W wielu przypadkach nie mamy powodu zakładać ortogonalności czynników,
naleŜy dopuścić do korelacji między czynnikami, gdyŜ oczekujemy, Ŝe są one
w rzeczywistości skorelowane. W takiej sytuacji przeprowadzamy nieortogonalną
rotację prowadzącą do czynników skośnych. W analizie czynnikowej
wypracowano kilka takich metod. W SPSS dostępny jest skośny odpowiednik
rotacji VARIMAX — rotacja DIRECT OBLIMIN. Dopuszczalny poziom korelacji
między czynnikami reguluje się w niej  przy pomocy parametru Delta: wartość 0
lub nieco większa dopuszcza największe skorelowanie; im bardziej ujemna
wartość, tym rozwiązanie bliŜsze jest uzyskanemu w rotacji VARIMAX.

Kryterium rotacji jest w tym wypadku maksymalizacja wariancji podniesionych do

kwadratu ładunków czynnikowych dla kaŜdej zmiennej, przy danej liczbie czynników,
danych zasobach zmienności wspólnej i zachowaniu ortogonalności czynników.

Kryterium rotacji jest w tym wypadku maksymalizacja wariancji podniesionych do

kwadratu ładunków czynnikowych dla kaŜdego czynnika, przy danej liczbie czynników,
danych zasobach zmienności wspólnej i zachowaniu ortogonalności czynników.

Polega ona na podzieleniu przed rotacją ładunków czynnikowych dla kaŜdej zmiennej

przez pierwiastek kwadratowy z zasobu zmienności wspólnej tej zmiennej, a to w celu
wyrównania wpływu zmiennych na połoŜenie rotowanych czynników niezaleŜnie od ich
zasobu zmienności wspólnej.

Nie ma doskonałej recepty na ustawianie parametru DELTA. W analizie
eksploracyjnej G. Arminger poleca następujący sposób postępowania (Arminger
1979, s. 112-113).
(1)

Najpierw zdefiniować konstrukty i zoperacjonalizować je za pomocą
mierzalnych zmiennych.

(2)

Wykonać analizę bez rotacji i sporządzić wykres ładunków czynnikowych
(problem przy większej liczbie czynników). Zmienne definiujące konstrukt
powinny tworzyć zwartą chmurę punktów. Zmienne odosobnione naleŜy
wyłączyć z analizy.

(3)

Jeśli przeprowadzimy osie przez chmury punktów, moŜemy mniej więcej
ocenić kąt pomiędzy nimi. Cosinus tego kąta umoŜliwia ocenę korelacji
pomiędzy czynnikami. Jeśli korelacja jest wysoka, ustawiamy DELTA>0, jeśli
niska — DELTA<0.

(4)

Zarówno przy eliminacji zmiennych, jak i przy wyborze DELTA waŜne są
rozstrzygnięcia merytoryczne: jeśli z teorii wynika, Ŝe nie powinno być
korelacji, a my uzyskujemy niewysoką korelację przy DELTA=0, naleŜy
spróbować obniŜyć wielkość DELTA.

Ustawienie parametru delta na 0, sprawdzenie uzyskanej korelacji między
czynnikami i porównanie macierzy wzoru czynników z wynikami rotacji VARIMAX
często pozwala na ostateczne podjęcie decyzji co do sposobu rotacji. Wielu
badaczy sugeruje rotację skośną jako naturalne podejście w analizie czynnikowej
i dopiero wówczas, gdy korelacja między czynnikami jest nieduŜa, rotowanie
metodą VARIMAX. Trzeba jednak pamiętać, Ŝe skorelowane czynniki mogą być
trudniejsze w interpretacji; wymagają często teorii wyjaśniającej zaobserwowaną
korelację między czynnikami. Ponadto, moŜliwość manipulowania parametrem
DELTA jest przez niektórych traktowana jako nadmiar arbitralności
w modelowaniu rzeczywistości. Często teŜ analizę czynnikową i głównych
składowych prowadzi się po to, by uzyskać ortogonalny układ zmiennych do
dalszych analiz. Wówczas rotacja nieortogonalna nie jest rozwiązaniem
poŜądanym.

Od wersji 7.5 pakietu SPSS dostępna jest równieŜ rotacja skośna PROMAX, która
polega na potęgowaniu (zazwyczaj do 4 potęgi, co wyznacza parametr KAPPA),
ładunków czynnikowych uzyskanych w rotacji VARIMAX, a następnie wyliczeniu
kąta między czynnikami o uproszczonym przez potęgowanie wzorze czynników.
W tym wypadku korelacja między czynnikami jest więc pochodną prostej
struktury czynników: ich najlepszego dopasowania do poszczególnych skupień
zmiennych. Rotacja PROMAX cieszy się sporym uznaniem w literaturze za jej
efektywność przy odkrywaniu nieortogonalnej struktury czynników leŜących
u podstaw korelacji między wskaźnikami.

W wyniku rotacji nieortogonalnej uzyskujemy nie jedną, lecz dwie macierze
współczynników, opisujących związki między czynnikami i zmiennymi.
(1)

Macierz wzoru czynników (macierz modelowa) — zawiera ładunki czynnikowe,
czyli standaryzowane współczynniki regresji pomiędzy kaŜdą zmienną (jako
zmienną zaleŜną) a czynnikami (jako zmiennymi niezaleŜnymi);

(2)

Macierz struktury czynników — zawiera współczynniki korelacji liniowej
pomiędzy zmiennymi a czynnikami: w pierwszej kolumnie mamy
współczynniki korelacji pomiędzy pierwszym czynnikiem i kaŜdą zmienną
z osobna, w drugiej — pomiędzy drugim czynnikiem i kaŜdą zmienną z osobna
itd.

W sytuacji, gdy czynniki są skorelowane, współczynniki korelacji pomiędzy
zmienną a kaŜdym z czynników nie są równe standaryzowanym współczynnikom
regresji pomiędzy zmienną a tymi czynnikami jako zestawem zmiennych
niezaleŜnych, gdyŜ współczynniki regresji uwzględniają wzajemną korelację
zmiennych niezaleŜnych, a współczynniki korelacji — nie. W sytuacji, gdy
czynniki są ortogonalne, współczynniki korelacji są równe standaryzowanym
współczynnikom regresji pomiędzy zmiennymi i czynnikami (ładunkom
czynnikowym) i dlatego mamy do czynienia z jedną macierzą ładunków
czynnikowych.

W analizie czynnikowej rotowanej skośnie (OBLIMIN, PROMAX) interesuje nas
zwykle macierz wzoru czynników — zawierająca ładunki
czynnikowe/współczynniki regresji — co wiąŜe się z przyczynowym charakterem
interpretacji modelu czynnikowego. RóŜnice struktury obu macierzy nie są jednak
zwykle istotne dla interpretacji. Są one tym większe, im silniej skorelowane są
czynniki. W przypadku bardzo wysokiej ich korelacji moŜliwa jest sytuacja, Ŝe
ładunki czynnikowe (w Macierzy modelowej) będą w pewnych przypadkach
niskie, a współczynniki korelacji (w Macierzy struktury) wysokie; np. zmienna V
ma niski ładunek i wysoką korelację z czynnikiem X i wysoki ładunek i wysoką
korelację z czynnikiem Y. Taką sytuację naleŜy rozumieć następująco:

zmienność czynnika X pokrywa się w znacznym stopniu ze zmiennością
czynnika Y, gdyŜ są one silnie skorelowane;

czynnik Y wyjaśnia większą część wariancji zmiennej V niŜ czynnik X, przy
kontroli wpływu pozostałych czynników;

czynniki X i Y reprezentują pewien wspólny wymiar, a ich wyodrębnienie
w analizie moŜe być wynikiem niekompletnego doboru wskaźników lub np.
część wskaźników ma ambiwalentny charakter; zawsze w takiej sytuacji
pojawia się problem z kwalifikowaniem wskaźników do jednej lub drugiej
skali/czynnika i konieczne jest włączenie kryterium merytorycznej
interpretacji (problem trafności pomiaru).

Macierz struktury czynników ujawnia nam związki pomiędzy zmiennymi
a czynnikami, które mogą być zacierane w macierzy wzorów, w której ładunki są
wyliczane przy charakterystycznym dla regresji wyłączaniu (kontroli) wpływu
innych skorelowanych czynników. Musimy jednak brać pod uwagę to, Ŝe proste
współczynniki korelacji mogą reprezentować związki pozorne, właśnie dlatego, Ŝe
w ich przypadku nie jest kontrolowany wpływ pozostałych zmiennych
(czynników) w modelu.

Zwykle w przypadku badań kwestionariuszowych zakładamy, Ŝe czynniki przez
nas uzyskane powinny być dobrze rozróŜnione, powinny posiadać swoją
specyfikę, dlatego teŜ nie powinny być one zbyt silnie ze sobą skorelowane.
Sposobem na zaobserwowaną wysoką korelację nie jest jednak wymuszanie
ortogonalności, lecz przemyślenie modelu teoretycznego i doboru wskaźników.

Niekiedy spotyka się opinię, Ŝe o ile rotacja jest naturalnym elementem analizy
czynnikowej, o tyle w analizie głównych składowych rotacja nie jest zasadna. Nie
jest to podejście słuszne. Zarówno doświadczenie badawcze jak i studia
symulacyjne pokazują, Ŝe rotowanie głównych składowych w celu uzyskania
klarownej ich interpretacji  jest uzasadnione. Główne składowe są po rotacji,
podobnie jak czynniki, często łatwiejsze do interpretacji — a celem analizy

danych jest przecieŜ zrozumienie danych a nie ich matematyczne przetworzenie.
TakŜe wówczas, gdy główne składowe obliczamy w celu zastosowania w dalszych
analizach, rotacja często jest lepszym rozwiązaniem. Tak więc w analizie skupień
(cluster analysis) uŜycie rotowanych “istotnych” składowych głównych (np.
o wartościach własnych powyŜej 1) prowadzi do lepszego odtworzenia struktury
danych, niŜ stosowanie wszystkich wyodrębnionych głównych składowych
(Bacher, 1996, s. 194-198). Rotacja głównych składowych moŜe teŜ poprzedzać
ich uŜycie w analizie regresji

. Takie podejście zbliŜa analizę głównych

składowych do analizy czynnikowej, nie zacierając jednak ich formalnych róŜnic
między tymi technikami.

Po rotacji moŜna przystąpić do interpretacji uzyskanego modelu. W przypadku
właściwej analizy czynnikowej nie powinno się interpretować czynników
nierotowanych, wobec niejednoznaczności uzyskiwanego rozwiązania.
W przypadku PCA interpretacja nierotowanych składowych jest moŜliwa i
niekiedy właściwsza, rotacja zwykle jednak przynosi rozwiązanie łatwiejsze do
interpretacji.

1.11

Wyliczanie wartości czynnikowych

Po wykonaniu rotacji moŜemy wyliczyć wartości czynnikowe (w sytuacji PCA
moŜna takŜe bez rotacji) — opcja /SAVE=REG (lub /SAVE=BART, lub /SAVE=AR;
w przypadku PCA wszystkie trzy metody obliczania wartości czynnikowych
prowadzą do tych samych rezultatów, w przypadku FA — wszystkie prowadzą do
pewnych kłopotów). Na tym etapie tworzone są nowe zmienne, dodawane na
końcu zbioru. Odpowiadają one poszczególnym czynnikom/głównym składowym.
Zawierają (dla kaŜdego przypadku, w którym nie ma braków danych)
oszacowania wartości, które kaŜdy przypadek uzyskał na wymiarze (skali)
reprezentującym czynnik. Wartości czynnikowe wyliczane są przez pomnoŜenie
wyliczonych przez program współczynników wartości czynnikowych (macierz
współczynników ocen czynnikowych; opcja: /PRINT FSCORE) dla poszczególnych
zmiennych przez te (standaryzowane) zmienne i dodanie do siebie wyników.
Nowa zmienna jest więc kombinacją liniową wartości zmiennych, waŜonych
współczynnikami, określającymi wpływ poszczególnych zmiennych na wartość
danego czynnika. Musimy pamiętać, Ŝe w przypadku właściwej analizy
czynnikowej (FA) wartości czynnikowe są tylko oszacowaniem „prawdziwych”
wartości czynników i, ze względu na właściwości tego modelu analizy, mogą być
problematyczne. Dlatego w sytuacji, gdy chcemy uŜywać wartości czynnikowych
w dalszej analizie, lepiej jest skorzystać z analizy głównych składowych. W PCA
wartości czynnikowe są wyliczane jednoznacznie, a nie szacowane. Składowe
główne są liniowymi kombinacjami obserwowanych zmiennych, jednoznacznie
określonymi

1.12

Wykresy ładunków czynnikowych i wartości czynnikowych

“JeŜeli główne składowe są nieinterpretowalne, wówczas moŜemy rotować zatrzymane

składowe przed uŜyciem ich w regresji” (Dunteman 1994, s. 215).

W przypadku nierotowanych głównych składowych współczynniki wartości

czynnikowych otrzymuje się przez podzielenie ładunków czynnikowych przez wartość
własną czynnika; to dzielenie wykonuje się po to, by uzyskać wartości czynnikowe
znormalizowane tak, Ŝeby wariancja wyliczonej zmiennej była równa 1.

Ładunki czynnikowe moŜna przedstawić na wykresie rozrzutu (2W lub 3W). Osie
układu współrzędnych reprezentują czynniki. współrzędne punktów
reprezentujących zmienne wyznaczone są przez ładunki czynnikowe. Skupienia
zmiennych na wykresie wskazują na ich relatywnie silniejsze związki pomiędzy
sobą. Często uŜywa się strzałek, by połączyć punkty oznaczające zmienne
z początkiem układu współrzędnych. Musimy zawsze pamiętać, Ŝe oglądamy
obraz uproszczony, w którym sąsiedztwo punktów na wykresie 2W moŜe być
wynikiem „uproszczenia rzeczywistości” i zrzutowania punktu leŜącego daleko, na
niewidocznym wymiarze, na analizowaną płaszczyznę. Dotyczy to zwłaszcza
punktów leŜących bliŜej centrum, czyli początku układu współrzędnych. Pewność
naszego wnioskowania zaleŜy od jakości modelu, mierzonej odsetkiem
wyjaśnionej wariancji lub testem dobroci dopasowania. Jakość reprezentacji
kaŜdej zmiennej na dwuwymiarowym wykresie, opartym na dwóch pierwszych
czynnikach/składowych opisana jest jej zasobem zmienności wspólnej
oszacowanym (jednoznacznie wyliczonym w PCA) dla modelu opartego na dwóch
pierwszych czynnikach.

Wykresy moŜna równieŜ sporządzać korzystając z wartości czynnikowych.
Umieszczamy wówczas na wykresie rozrzutu, którego osie reprezentują czynniki,
punkty reprezentujące poszczególne przypadki. Punkty leŜące blisko siebie
stanowią skupienia podobnych obiektów. Jest to stwierdzenie tym bardziej
prawdziwe, im większy odsetek wariancji wyjaśniają dwie pierwsze składowe,
które definiują nasz wykres. W przypadku bazy danych złoŜonej z duŜej liczby
przypadków, trudno przedstawić je w komplecie na wykresie. Wylicza się więc
średnie z wartości czynnikowych dla wybranych segmentów (np. wykształcenia) i
lokuje na wykresie te segmenty, posługując się średnimi jako współrzędnymi.
Jest to standardowa technika pozycjonowania.

MoŜna ładunki czynnikowe zmiennych i wartości czynnikowe przypadków
umieścić na jednym wykresie. Wymaga to wykonania uprzednio dość prostych
zabiegów związanych z przygotowaniem wspólnej bazy danych zawierającej
ładunki i wartości czynnikowe na dwóch pierwszych czynnikach oraz zmiennej
odróŜniającej jedne od drugich. Następnie wykonuje się wspólny wykres
rozrzutu. NaleŜy jednak pamiętać, Ŝe interpretacja odległości pomiędzy punktami
na tym wykresie jest uprawniona tylko odrębnie w zbiorze zmiennych i odrębnie
w zbiorze przypadków. Oba te zbiory naleŜą do odrębnych przestrzeni: ładunków
i wartości czynnikowych, których wspólnym elementem są osie układu
reprezentujące czynniki. Dlatego teŜ uŜywamy punktów (strzałek)
reprezentujących zmienne do interpretacji znaczenia wymiarów/osi układu
współrzędnych, a następnie interpretujemy połoŜenie punktów oznaczających
przypadki (segmenty) względem tych zinterpretowanych wymiarów. Jest to
technika powszechnie uŜywana w pozycjonowaniu i eksploracyjnej analizie
danych.

1.13

Liczba zmiennych i przypadków

Ile przypadków musi być w bazie danych, Ŝeby przeprowadzić analizę czynnikową
i składowych głównych?

Minimum musimy mieć o jeden przypadek więcej niŜ wynosi liczba zmiennych.
Analizę głównych składowych prowadzi się dla takich nieduŜych macierzy danych,

by odkryć ich strukturę i zredukować do minimum (2 lub 3) wymiarów, w celu
prezentacji graficznej (patrz przykład dalej). Zasadniczo nie powinno się
poddawać analizie czynnikowej prób mniejszych niŜ 50 przypadków, a jeszcze
lepiej, by miały 100 lub więcej przypadków. Konserwatywne podejście mówi, Ŝe
powinniśmy mieć cztery do pięciu razy więcej przypadków niŜ zmiennych, mniej
konserwatywne zadowala się stosunkiem 2:1. Dyskusje dotyczące wielkości
próby dotyczą zwłaszcza metody największej wiarygodności; w tym wypadku
sugeruje się, Ŝe liczba przypadków powinna być o 51 większa od liczby
zmiennych. MoŜna podać wzór:

N - n -1>=50

gdzie:

N - wielkość próby

n - liczba zmiennych

Niektórzy badacze (np. Thurstone) sugerują, Ŝe powinniśmy mieć przynajmniej
po trzy zmienne na kaŜdy czynnik, tzn. ładujące istotnie tylko ten czynnik. Jest
to formułowane jako wystarczający warunek identyfikacji czynnika (Bacher 1990,
s. 120). Dość powszechna zgoda panuje co do tego, Ŝe powinniśmy mieć co
najmniej dwa razy więcej zmiennych niŜ czynników (por. Kim & Mueller, s. 144–
145; Hair, Anderson & Tatham, s. 237).

Wpływ doboru zmiennych na wyniki analizy

Na wyniki uzyskane w analizie czynnikowej i analizie głównych składowych ma
wpływ dobór zmiennych do analizy. W przypadku próby z szerszej populacji
korelacja moŜe wystąpić nawet pomiędzy tymi zmiennymi, które w populacji nie
są skorelowane. Im więcej zmiennych uŜywamy w analizie, tym większe jest
prawdopodobieństwo, Ŝe w próbie losowej przypadkowo uzyskamy istotne
korelacje nawet pomiędzy oryginalnie nieskorelowanymi zmiennymi, a to wpłynie
na wyniki analizy czynnikowej i PCA. NaleŜy więc dobierać do analizy takie
zmienne, co do których mamy merytoryczne podstawy, by oczekiwać, Ŝe będą
skorelowane z grupą innych zmiennych i będą wspólnie z nimi definiowały jakiś
interpretowalny czynnik. Nawet przy takim podejściu zdarzają się róŜne
niespodzianki (czasami o bardzo twórczych konsekwencjach), łatwiej jednak
ustrzec się błędu interpretacji przypadkowych związków jako teoretycznie
waŜnych lub błędu nieuwzględnienia istotnych związków między zmiennymi.
Analiza czynnikowa, jak cała statystyczna analiza danych, nie chroni
automatycznie przed błędami i wymaga namysłu oraz starannej specyfikacji
modelu. To skłania niektórych praktyków analizy czynnikowej do preferowania
analizy konfirmacyjnej. Jednak ta ostatnia nie jest takŜe wolna od problemów
związanych z niejednoznacznością rozwiązania czynnikowego i moŜliwością
dopasowania do danych wielu alternatywnych modeli.

Wstępna ocena przydatności danych do analizy czynnikowej

W analizie czynnikowej dostępne są takŜe statystyczne techniki wspomagające
wstępną selekcję zmiennych i ocenę przydatności macierzy korelacji do
przeprowadzenia analizy czynnikowej. Takim narzędziem jest przede wszystkim
Miara KMO adekwatności doboru próby — KMO. SłuŜy on ocenie, na ile daną
macierz korelacji moŜna uznać za produkt oddziaływania wspólnych czynników,
odnosząc współczynniki korelacji między zmiennymi (poŜądane jest, by były
wysokie, pomiędzy zmiennymi, na które działa wspólny czynnik) do cząstkowych
współczynników korelacji między nimi (jeśli obserwowane korelacje między

zmiennymi są wynikiem oddziaływania wspólnego czynników, wówczas korelacje
cząstkowe pomiędzy tymi zmiennymi powinny być niskie). Współczynnik KMO
moŜna obliczyć dla całej macierzy korelacji. Im bliŜsza 1 jest jego wartość, tym
lepiej model czynnikowy nadaje się do wyjaśnienia struktury danej macierzy
korelacji. Keiser

wskazuje następujące dolne progi wartości KMO:

•

0,9 — wspaniały

•

0,8 — godny pochwały

•

0,7 — niezły

•

0,6 — przeciętny

•

0,5 — nędzny

•

poniŜej 0,5 — nie do przyjęcia.

Jeśli macierz korelacji ma niski współczynnik KMO, naleŜy rozwaŜyć sensowność
uŜycia analizy czynnikowej. Współczynnik KMO dla macierzy korelacji
uzyskujemy w procedurze FACTOR dzięki opcji /PRINT KMO.

Współczynnik KMO moŜe zostać wyliczony równieŜ dla kaŜdej zmiennej. Jeśli
zmienna uzyska niski KMO, naleŜy rozwaŜyć usunięcie jej z analizy.
Współczynniki KMO dla zmiennych są umieszczone na przekątnej macierzy
Macierz korelacji przeciwobrazów. Nawiasem mówiąc, elementy tej macierzy,
poza przekątną, to pomnoŜone przez -1 wartości korelacji cząstkowych pomiędzy
zmiennymi

. Jeśli zmienne pozostają pod wpływem wspólnych czynników,

wówczas ich korelacje cząstkowe powinny być bliskie 0. DuŜy odsetek wysokich
wartości korelacji cząstkowych kaŜe rozwaŜyć sensowność modelu czynnikowego
dla danej macierzy korelacji. Tę uŜyteczną dla wstępnej oceny danych macierz
uzyskujemy dzięki opcji
/PRINT AIC.

1.14

Na marginesie: UŜycie głównych składowych w analizie regresji

Głównych składowych uŜywa się w analizie regresji w celu poradzenia sobie ze
zjawiskiem wielowspółliniowości zmiennych niezaleŜnych lub w celu uproszczenia
analizy i interpretacji wyników.

•

MoŜemy wprowadzić wszystkie nieskorelowane główne składowe —
współczynniki korelacji między kaŜdą z nich a zmienną zaleŜną są równe
standaryzowanym współczynnikom regresji (beta) pomiędzy kaŜdą ze
składowych a zmienną zaleŜną.

•

MoŜemy wprowadzić część głównych składowych, kierując się przy ich doborze
poziomem korelacji ze zmienną zaleŜną (zazwyczaj pierwsze składowe są
najsilniejszymi predyktorami, zmiennej zaleŜnej, ale nie zawsze.

•

Przed uŜyciem w analizie regresji składowe główne moŜna poddać rotacji
w celu ułatwienia interpretacji wyników.

1.15

Analiza głównych składowych i analiza czynnikowa gotowej

macierzy korelacji – przykład 1.

Dane pochodzą z badań przeprowadzonych przez Armingera i Nemellę. Badanie
dotyczyło motywacji i przyczyn wyboru kursów przez 344 uczestników

cyt. za: Maria Norusis, SPSS Professional Statistics 6.1, s. 52.

tzn. wyliczonych pomiędzy resztami pozostałymi po wyodrębnieniu z kaŜdej z tych

zmiennych wpływu pozostałych zmiennych.

zawodowego kształcenia dla dorosłych w Instytucie Wspierania Zatrudnienia
w Linzu (por. Arminger, s. 34-35). Między innymi zadano następujące pytanie:
Jakie cechy są  niezbędne do awansu zawodowego w Pana(i) zakładzie?
W wyniku pomiaru na pięciostopniowej skali (1 - bez znaczenia, 2 - mniej waŜne,
3 - równieŜ waŜne, 4 - waŜne, 5 - bardzo waŜne) uzyskano macierz korelacji dla
9 wymienionych cech.

UWAGA: Zastosowano tu macierz współczynników korelacji Pearsona, mimo
dyskusyjności tego rozwiązania w przypadku skal porządkowych tego rodzaju.
Rozwiązanie takie jest szeroko stosowane, choć niezbędna jest ostroŜność, ze
względu na moŜliwe zniekształcenia. Niekiedy postuluje się stosowanie w takich
sytuacjach współczynników tau-b Kendalla (Arminger, s. 148-152), chociaŜ są
przeciwnicy takiego stanowiska, którzy podkreślają fakt, Ŝe zmienne w analizie
czynnikowej muszą być interwałowe i pozostawać w liniowym związku,
a korelacja powinna być mierzona współczynnikiem r Pearsona (czyli być miarą
kowariancji pomiędzy standaryzowanymi zmiennymi) (por. Kim & Mueller).
W analizowanym przypadku zastosowanie r i tau-b prowadzi do takich samych
rezultatów. Bacher (1990) podkreśla stosunkowo duŜą odporność analizy
czynnikowej na zniekształcenia spowodowane pomiarem na skali porządkowej.
Jeśli w rzeczywistości mamy do czynienia ze  zmiennymi ciągłymi, które są przez
nas tylko mierzone przy pomocy skal porządkowych, to im silniejszy jest związek
pomiędzy tymi „prawdziwymi”, ciągłymi zmiennymi, tym bardziej jest on
tłumiony przez zastosowanie skal porządkowych. Im większa liczba pozycji na
skali, tym efekt tłumienia jest mniejszy. Ogólnie nie zaleca się stosowania skal
mniejszych niŜ 5-punktowe. Ta wskazówka dotyczy zresztą w ogóle stosowania
skal porządkowych, reprezentujących zmienne ilościowe, w modelach liniowych.

•

Program wczytujący macierz współczynników korelacji oraz etykiety
zmiennych ma następującą postać:

MATRIX DATA VARIABLES=FACH OSIAGN NIEZAW PEWNOSC STAZ WIEK UKLADY
PARTYJN KLUB
   /FORMAT NODIAG
   /CONTENTS CORR
   /N=344.
BEGIN DATA
,563
,541  ,469
,464  ,357  ,437
,138  ,137  ,198   ,039
,058  ,104  ,146   ,051  ,508
,167  ,059  ,263   ,271  ,169   ,167
-,014 -,002  ,028  -,012  ,385   ,295   ,425
-,034 -,074  ,005   ,085  ,037   ,014   ,307   ,305
END DATA.

VARIABLE LABELS
FACH

"umiejętności zawodowe"

/OSIAGN

"osiągnięcia i wydajność"

/NIEZAW

"niezawodność, moŜliwość polegania na danej osobie"

/PEWNOSC "zdecydowanie i pewność siebie"
/STAZ

"staŜ pracy"

/WIEK

"wiek"

/UKLADY

"układy i ustosunkowanie"

wskazanie braku
przekątnej (1)

Liczebność próby
dla testów

/PARTYJN

"przynaleŜność do partii politycznej"

/KLUB

"członkostwo w zakładowych organizacjach rekreacyjnych".

•

Po wczytaniu macierzy danych uruchamiamy program analizy głównych
składowych, wskazując, Ŝe dane mają być pobrane z macierzy a ładunki
czynnikowe (po rotacji VARIMAX) mają być na wydruku posortowane wg
czynników.

FACTOR
  /MATRIX IN(COR=*)
  /FORMAT SORT
  /PRINT INITIAL KMO AIC EXTRACTION ROTATION
  /PLOT EIGEN ROTATION
  /CRITERIA MINEIGEN(1) ITERATE(25)
  /EXTRACTION PC
  /CRITERIA ITERATE(25)
  /ROTATION VARIMAX .

FACTOR — polecenie wykonania analizy czynnikowej.
/MATRIX IN(COR=*) — analiza na gotowej macierzy korelacji, dostępnej

w aktualnie aktywnym zbiorze danych

/FORMAT SORT — plecenie uporządkowania macierzy ładunków czynnikowych
/PRINT INITIAL KMO AIC EXTRACTION ROTATION — polecenie wydruku

poszczególnych elementów analizy:
INITIAL — wstępnej analizy głównych składowych (domyślne)
KMO — Keiser-Meyer-Olkin (patrz wyŜej) oraz test sferyczności Bartletta
AIC —macierz przeciwobrazów kowariancji i korelacji
EXTRACTION ROTATION — domyślnie drukowane wyniki ostatecznego
wyodrębnienia czynników w oparciu o przyjęte kryterium i rotowana macierz
ładunków czynnikowych

/PLOT EIGEN ROTATION — polecenie wykonania wykresów: 1) wartości

własnych (osypiska) i 2) ładunków czynnikowych

/CRITERIA MINEIGEN(1) ITERATE(25) — kryterium wyodrębnienie czynników:

min. wartość własna = 1 (kryterium Keisera) — domyślne oraz określenie
maksimum iteracji przy wyodrębnianiu czynników na 25 (nie ma znaczenia
w PCA)

/EXTRACTION PC — polecenie wyodrębnienia czynników metodą głównych

składowych z pełnej macierzy korelacji czyli wykonania analizy głównych
składowych (PCA)

/CRITERIA ITERATE(25) — domyślne ustawienie maksymalnej liczby iteracji przy

rotacji czynników, przy większej liczbie czynników i przy rotacji OBLIMIN
wymaga niekiedy zwiększenia

/ROTATION VARIMAX — polecenie wykonania rotacji VARIMAX
Pomijam wykonanie polecenia z menu, gdyŜ jest to czynność bardzo intuicyjne,
jeśli uŜytkownik rozumie analizę czynnikową.

•

Po wykonaniu programu przeglądamy wyniki.

Testy Kaisera-Mayera-Olkina i Bartletta

,716

727,983

,000

Miara KMO adekwatno

ci doboru próby

Przybli

one chi-kwadrat

Istotno

Test sferyczno

ci Bartletta

•

KMO jest na „niezłym” poziomie, co wskazuje, Ŝe analiza czynnikowa tej
macierzy korelacji jest sensowna. Test Bartletta wskazuje na to, Ŝe moŜemy
odrzucić hipotezę, Ŝe macierz korelacji w populacji jest macierzą jednostkową
(ma jedynki na głównej przekątnej a zera w pozostałych polach).

•

Współczynniki KMO dla poszczególnych zmiennych (umieszczone na
przekątnej) są na przeciętnym, chociaŜ nie dyskwalifikującym poziomie.
Zatem w analizie zachowujemy wszystkie zmienne.

Jako opcję wyodrębniania czynników wskazaliśmy główne składowe, co prowadzi
do wykonania analizy głównych składowych (sygnałem tego są jedynki w
kolumnie Początkowe tabeli Zasoby zmienności wspólnej, które wskazują, Ŝe do
analizy wchodzi cała wariancja zmiennych standaryzowanych, która w przypadku

Macierze przeciwobrazów

Macierz przeciwobrazów korelacji

,748

-,380

-,281

-,239

-,071

,067

-,046

,037

,039

-,380

,760

-,217

-,107

-,016

-,044

,111

-,042

,059

-,281

-,217

,794

-,185

-,110

-,046

-,183

,090

,017

-,239

-,107

-,185

,794

,059

-,022

-,193

,099

-,083

-,071

-,016

-,110

,059

,638

-,430

,041

-,289

,042

,067

-,044

-,046

-,022

-,430

,661

-,048

-,109

,059

-,046

,111

-,183

-,193

,041

-,048

,663

-,364

-,189

,037

-,042

,090

,099

-,289

-,109

-,364

,631

-,222

,039

,059

,017

-,083

,042

,059

-,189

-,222

,664

umiej

tno

ci zawodowe

osi

gni

cia i wydajno

niezawodno

, mo

liwo

polegania na danej osobie

zdecydowanie i pewno

siebie

sta

pracy

wiek

układy i ustosunkowanie

przynale

do partii

politycznej

członkostwo w zakładowych
organizacjach rekreacyjnych

liw

ła

lit

ło

ła

Miary adekwatno

ci doboru próby.

kaŜdej zmiennej jest równa 1).
Wartość zasobu zmienności wspólnej po ograniczeniu liczby czynników (kolumna:
Po wyodrębnieniu)  informuje nas, jak dobrze reprezentowana jest dana zmienna
w przyjętym modelu o zredukowanej liczbie wymiarów (tu: do trzech). Jeśli
któraś zmienna, waŜna dla nas, jest źle reprezentowana, moŜemy  — zwłaszcza
w analizie głównych składowych, zorientowanej na przygotowanie nowych,
ortogonalnych zmiennych do innej analizy (np. regresji) — zdecydować
o zwiększeniu liczby wymiarów, zachowaniu dodatkowych czynników.

Zasoby zmienno

ci wspólnej

1,000

,698

1,000

,611

1,000

,635

1,000

,577

1,000

,729

1,000

,680

1,000

,644

1,000

,660

1,000

,626

umiej

tno

ci zawodowe

osi

gni

cia i wydajno

niezawodno

, mo

liwo

polegania na danej osobie

zdecydowanie i pewno

siebie

sta

pracy

wiek

układy i ustosunkowanie

przynale

do partii

politycznej

członkostwo w zakładowych
organizacjach rekreacyjnych

Pocz

tkowe

wyodr

bnieniu

Metoda wyodr

bniania czynników - Głównych składowych.

Tu widzimy, na ile dobrze
kaŜda ze zmiennych jest
reprezentowana w modelu
3-czynnikowym; wartości
są podobne i nienajgorsza
dla wszystkich zmiennych

Przede wszystkim musimy określić liczbę „istotnych” składowych, które
pozostawimy w analizie. Musimy więc przyjrzeć się wartościom własnym. MoŜna
do tego celu uŜyć arkusza wyników po naciśnięciu przycisku: Wartości własne. Na
podstawie kryterium Keisera jesteśmy skłonni zachować 3 główne składowe; na
podstawie bardziej konserwatywnego kryterium Jolliffe — równieŜ trzy, gdyŜ
czwarta składowa ma wartość własną mniejszą od 0,7. Dodatkowo prześledźmy
wykres osypiska (wykres osypiska).

Wykres „osypiska” sugeruje aŜ 4 czynniki, gdyŜ dopiero przy czwartym czynniku
następuje zjawisko osypiska. Wartość własna tego czynnika jest jednak tak
niska, Ŝe skłaniamy się ku 3 czynnikom, wyjaśniającym łącznie 65% wariancji
zmiennych

W sytuacji, gdybyśmy zamierzali uŜyć wyników PCA w analizie regresji (ale to w

sytuacji wykonywania analizy na danych surowych a nie na macierzy korelacji),
pozostawienie większej liczby składowych mogłoby być w pewnych sytuacjach sensowne.
Strategia stosowania głównych składowych w analizie regresji jest
omówiona dalej.

Całkowita wyja

niona wariancja

2,696

29,961

2,696

29,961

2,478

27,535

1,886

20,951

50,912

1,886

20,951

50,912

1,739

19,324

46,858

1,279

14,213

65,126

1,279

14,213

65,126

1,644

18,267

65,126

,683

7,585

72,710

,641

7,120

79,831

,524

5,822

85,653

,494

5,491

91,144

,411

4,565

95,709

,386

4,291

100,000

Składowa
1

łe

Pocz

tkowe warto

własne

Sumy kwadratów ładunków

po wyodr

bnieniu

Sumy kwadratów ładunków

po rotacji

Metoda wyodr

bniania czynników - Głównych składowych.

Jak widać, decyzja o wyborze liczby czynników i wyborze samego kryterium
wyboru jest zawsze mniej lub bardziej arbitralna. NaleŜy się ostatecznie odwołać
takŜe do kryterium interpretowalności wybranego układu czynników. Proszę na
własną rękę sprawdzić rozwiązanie z 4 czynnikami.

SPSS uŜył automatycznie kryterium Keisera (domyślnie umieszcza opcję
/CRITERIA MINEIGEN(1) — minimalna wartość własna = 1 — w tekście
polecenia, chyba Ŝe zdecydujemy inaczej). Zachowane zostały trzy „największe”
główne składowe. Bez rotacji trudno je zinterpretować.

A oto rotowane metodą VARIMAX czynniki, posortowane dzięki opcji /FORMAT
SORT.

Zwykle ignoruje się ładunki o wartościach mniejszych od 0,3 (moŜna nawet
spowodować ich niewyświetlanie, wybierając opcję /FORMAT BLANK(.3) .
Najlepiej znaczenie czynników interpretować przy pomocy ładunków co najmniej

Macierz składowych

,751

-,266

,004

,728

-,411

,004

,656

-,398

-,149

,640

-,296

,284

,509

,421

,456

,331

,736

,094

,156

,447

,634

,396

,483

-,538

,462

,498

-,517

niezawodno

, mo

liwo

polegania na danej osobie

umiej

tno

ci zawodowe

osi

gni

cia i wydajno

zdecydowanie i pewno

siebie

układy i ustosunkowanie

przynale

do partii

politycznej

członkostwo w zakładowych
organizacjach rekreacyjnych

wiek

sta

pracy

Składowa

Metoda wyodr

bniania czynników - Głównych składowych.

3 - liczba wyodr

bnionych składowych.

Macierz rotowanych składowych

,834

,044

-,014

,780

,142

,081

,758

,126

-,141

,715

-,112

,232

,112

,844

,070

,062

,822

,025

-,063

-,096

,783

,244

,153

,749

-,091

,518

,619

umiej

tno

ci zawodowe

niezawodno

, mo

liwo

polegania na danej osobie

osi

gni

cia i wydajno

zdecydowanie i pewno

siebie

sta

pracy

wiek

członkostwo w zakładowych
organizacjach rekreacyjnych

układy i ustosunkowanie

przynale

do partii

politycznej

Składowa

Metoda wyodr

bniania czynników - Głównych składowych.

Metoda rotacji - Varimax z normalizacj

Kaisera.

Rotacja osi

ła zbie

w 5 iteracjach.

0,5, choć gdy mamy duŜo wysokich ładunków moŜna ją podnieść do 0,7.

MoŜemy ładunki czynnikowe przedstawić takŜe graficznie (uzyskaliśmy wykres
dzięki opcji /PLOT ROTATION).

Uzyskaliśmy dość klarowną strukturę:

•

pierwszy czynnik (główna składowa) grupuje zmienne opisujące umiejętności,
zalety osobiste i osiągnięcia zawodowe pracowników jako kryteria awansu —
nazwijmy go wymiarem kompetencji;

•

drugi czynnik jest silnie skorelowany zwłaszcza ze staŜem pracy i wiekiem —
nazwijmy go wymiarem senioratu;

•

trzeci czynnik to przede wszystkim zmienne wskazujące na konieczność
dobrego ulokowania w sieci powiązań i układów ułatwiających awans —
nazwijmy go wymiarem układów osobistych.

Jak widać, potrafiliśmy łatwo nazwać wyodrębnione czynniki, co nie zawsze ma
miejsce. Pewien kłopot interpretacyjny sprawia fakt, Ŝe partyjność ma relatywnie
wysokie ładunki zarówno na wymiarze senioratu jak i na wymiarze układów
osobistych (tzw. ładunki krzyŜowe). Od dalszej analizy danych zaleŜałaby
odpowiedź, czy związane jest to z pokoleniowym charakterem tego kryterium.
W przypadku analizy macierzy korelacji nie moŜemy wyliczyć wartości
czynnikowych, gdyŜ nie mamy informacji o wartościach poszczególnych
zmiennych dla poszczególnych przypadków. Aby wyliczyć wartości czynnikowe
musimy dysponować danymi surowymi. MoŜemy natomiast wyliczyć
współczynniki wartości czynnikowych (wystarczy kliknąć na stosowny przycisk),
które po wymnoŜeniu przez wartości standaryzowane zmiennych i zsumowaniu
dadzą wartości czynnikowe dla kaŜdego przypadku.

Analiza metodą czynników największej wiarygodności

Wykonajmy dla porównania analizę czynnikową metodą największej
wiarygodności. Zmieniamy w tym celu jedynie metodę wyodrębniania czynników
ma ML (Maximum-likelihood): /EXTRACTION ML i powtarzamy te same kroki
analizy. Tutaj skupimy się na oglądnięciu dwóch rodzajów wyników: rotowanych
ładunków czynnikowych i testu dobroci dopasowania. Ładunki czynnikowe są
ogólnie nieco niŜsze niŜ w przypadku analizy głównych składowych, jednak
struktura czynników i ich interpretacja pozostała bez zmian, choć wystąpiły takŜe
pewne róŜnice we względnej wysokości ładunków. Pamiętamy, Ŝe tym razem
wyjaśnieniu podlega nie cała wariancja zmiennych, lecz jedynie jej część
wspólna, podzielana z innymi zmiennym (która teŜ jest nota bene szacowana
iteracyjnie w ramach modelu). Model ten nie wyjaśnia wariancji swoistej
zmiennej, w tym zawartego w niej błędu lecz tylko zasoby zmienności wspólnej,
a więc korelacje między zmiennymi a nie sumę ich całkowitej wariancji.

FACTOR
  /MATRIX IN(COR=*)
  /FORMAT SORT
  /PRINT ROTATION
  /CRITERIA FACTORS(3)
  /EXTRACTION ML
  /ROTATION VARIMAX.

W przypadku metody największej wiarygodności SPSS wylicza automatycznie
test dobroci dopasowania modelu do danych oparty na CHI

. Wartość istotność

wynosi: 0,094, a więc jest większa od standardowo przyjmowanego, granicznego
poziomu 0,05 — nie ma zatem podstaw do odrzucenia hipotezy, Ŝe reszty
pomiędzy korelacjami odtworzonymi na podstawie modelu a obserwowaną
macierzą korelacji są równe 0, a więc, Ŝe model pasuje do danych.

W wyniku rotacji VARIMAX uzyskaliśmy strukturę czynników, która jest taka
sama, jak w przypadku rotowanej PCA. Wartości ładunków czynnikowych są
mniejsze niŜ w PCA, co wynika z faktu Ŝe w analizie czynnikowej wyjaśniane są
tylko szacowane zasoby zmienności wspólnej (zasób zmienności wspólnej<1) a
nie cała wariancja zmiennych (zasób zmienności wspólnej =1), a zasób
zmienności wspólnej = suma podniesionych do kwadratu ładunków
czynnikowych.

Test dobroci dopasowania

18,766

,094

Chi-kwadrat

Istotno

Dodatkowo wydrukowane zostały wyniki dla rotacji OBLIMIN przy domyślnym
ustawieniu parametru DELTA=0. Jak juŜ wiadomo, w wyniku rotacji skośnej
otrzymujemy dwie macierze czynników:

•

Macierz modelowa zawierającą ładunki czynnikowe, a więc standaryzowane
współczynniki regresji pomiędzy kaŜdą zmienną (standaryzowaną) a zestawem
czynników (np. o ile odchylenia standardowego zmieni się zmienna FACH, jeśli
FACTOR 1 zmieni się o jedno odchylnie standardowe, przy kontroli pozostałych
czynników).

•

Macierz struktury zawierającą współczynniki korelacji pomiędzy czynnikami
i zmiennymi.

W interpretacji koncentrujemy się na Macierz modelową. Widzimy, Ŝe nasza
macierz ładunków czynnikowych zbliŜyła się jeszcze bardziej do ideału prostej
struktury. Wnioski są takie same jak przy rotacji VARIMAX, jedynie jeszcze
bardziej zdecydowane.

Macierz rotowanych czynników

,791

,057

-,022

,695

,132

,091

,673

,106

-,116

,599

-,054

,176

,111

,823

,068

,597

,095

,230

,120

,726

-,056

,432

,528

-,037

,010

,470

umiej

tno

ci zawodowe

niezawodno

, mo

liwo

polegania na danej osobie

osi

gni

cia i wydajno

zdecydowanie i pewno

siebie

sta

pracy

wiek

układy i ustosunkowanie

przynale

do partii

politycznej

członkostwo w zakładowych
organizacjach rekreacyjnych

Czynnik

Metoda wyodr

bniania czynników - Najwi

kszej wiarygodno

ci.

Metoda rotacji - Varimax z normalizacj

Kaisera.

Rotacja osi

ła zbie

w 5 iteracjach.

W przypadku rotacji skośnej otrzymujemy równieŜ macierz współczynników

korelacji pomiędzy czynnikami.

Macierz modelowa

,794

,689

,674

,604

,833

,600

,719

,390

,486

,480

umiej

tno

ci zawodowe

niezawodno

, mo

liwo

polegania na danej osobie

osi

gni

cia i wydajno

zdecydowanie i pewno

siebie

sta

pracy

wiek

układy i ustosunkowanie

przynale

do partii

politycznej

członkostwo w zakładowych
organizacjach rekreacyjnych

Czynnik

Metoda wyodr

bniania czynników - Najwi

kszej wiarygodno

ci.

Metoda rotacji - Oblimin z normalizacj

Kaisera.

Rotacja osi

ła zbie

w 6 iteracjach.

Macierz struktury

,791

,705

,673

,601

,831

,608

,742

,490

,570

,467

umiej

tno

ci zawodowe

niezawodno

, mo

liwo

polegania na danej osobie

osi

gni

cia i wydajno

zdecydowanie i pewno

siebie

sta

pracy

wiek

układy i ustosunkowanie

przynale

do partii

politycznej

członkostwo w zakładowych
organizacjach rekreacyjnych

Czynnik

Metoda wyodr

bniania czynników - Najwi

kszej wiarygodno

ci.

Metoda rotacji - Oblimin z normalizacj

Kaisera.

Jeśli na podstawie teorii oczekujemy, Ŝe pomiędzy zaobserwowanymi czynnikami
nie powinno być korelacji, moŜemy obniŜyć parametr DELTA poniŜej 0
i powtórzyć analizę.

Proponuję wykonanie analizy metodą głównych osi z iteracją zasobów zmienności
wspólnej (PAF) i metodą uogólnionych najmniejszych kwadratów (GLS). Nie
odbiegają znacznie od siebie i od wyników uzyskanych metodą największej
wiarygodności. Proszę teŜ samodzielnie wykonać eksperymenty z rotacją
OBLIMIN przy róŜnym DELTA i porównać wyniki.

1.16

Zastosowanie PCA do prezentacji zaleŜności w zbiorze danych

(pozycjonowanie) – przykład 2.

Wykonamy teraz przykład zastosowania analizy głównych składowych do
wizualnej prezentacji danych. Z tą techniką często spotykamy się w badaniach
marketingowych przy analizie pozycjonowania marek. Dane uŜyte do przykładu
pochodzą z ksiąŜki Backhausa i in.

Autorzy, dla celów dydaktycznych,

przebadali 32 studentów niemieckich, którym zadano pytanie o ocenę na 7-
punktowej skali (1 - niska ... 7 - wysoka) następujących 11 marek margaryny
i masła:

•

Becel

•

Du darfst

•

Rama

•

Delicado

•

Holl. Markenbutter

•

Weihnachtsbutter

•

Homa

•

Flora

•

Sanella

•

Botteram

pod względem kaŜdej z następujących cech:

Nazwa zmiennej

Cecha

SMAR

Łatwość smarowania

CENA

Cena

Pozwala to uniknąć problemów związanych z prawem do wykorzystania podobnych

w charakterze wyników komercyjnych badań marketingowych, które dane mi było
analizować.

Macierz korelacji czynników

1,000

,142

,076

,142

1,000

,236

,076

,236

1,000

Czynnik
1

Metoda wyodr

bniania czynników - Najwi

kszej wiarygodno

ci.

Metoda rotacji - Oblimin z normalizacj

Kaisera.

TRWAL

Trwałość

NNKT

Zawartość nienasyconych kwasów tłuszczowych

PIECZ

MoŜliwość uŜycia do smaŜenia i pieczenia

SMAK

Ocena smaku

KALOR

Kaloryczność

TLZWI

Zawartość tłuszczów zwierzęcych

WITAM

Zawartość witamin

NATUR

Naturalność

Dla celów pozycjonowania, wyniki uzyskane od 32 osób uśredniono i otrzymano
zbiór danych, którego wiersze odpowiadają poszczególnym markom, natomiast
kolumny — cechom tych marek. Wprawdzie uśrednianie odpowiedzi moŜe
prowadzić do utraty informacji o indywidualnym zróŜnicowaniu ocen, jednak
metoda ta jest szeroko stosowana z niezłymi skutkami. Dane zapisane są w pliku
„margaryna_średnie.sav”.

Dane pobieramy do programu jako zwykły zbiór danych surowych. Wykonujemy
analizę głównych składowych zgodnie z krokami poznanymi w Przykładzie 1. Dla
celów analitycznych naleŜałoby przyjąć rozwiązanie oparte na 3 głównych
składowych, na podstawie kryterium Keisera. Wariancja wyjaśniona przez
rozwiązanie 3-czynnikowe sięga 88%. Analiza jakości reprezentacji zmiennych
przez model 3-czynnikowy równieŜ jest satysfakcjonująca: ten model dobrze
wyjaśnia wariancję wszystkich zmiennych uŜytych w analizie.

Kryterium osypiska sugeruje nieco inny werdykt. Widać przede wszystkich
(zresztą juŜ z analizy tabeli wartości własnych), Ŝe mamy do czynienia z jednym
dominującym czynnikiem — pierwszą główną składową. Następne składowe mają
wyraźnie niŜsze wartości własne, ale ciągle wyjaśniają istotny kawałek
zmienności. „Kolanko” na drugim czynniku sugeruje — zgodnie z kryterium
Cattella — pozostawienie tylko dwóch wymiarów. Wtedy jednak zmienna:
MoŜliwość uŜycia do pieczenia i smaŜenia będzie słabo reprezentowany przez
przyjęty model (Communality=0,15), dopiero bowiem trzeci wymiar pozwala

Całkowita wyja

niona wariancja

5,355

53,553

5,355

53,553

2,005

20,046

73,599

2,005

20,046

73,599

1,431

14,309

87,908

1,431

14,309

87,908

,777

7,768

95,676

,262

2,619

98,296

,099

,995

99,290

,045

,448

99,738

,020

,203

99,941

,005

,047

99,988

,001

,012

100,000

Składowa
1

Ogółem

wariancji

skumulowany

Ogółem

wariancji

skumulowany

Pocz

tkowe warto

ci własne

Sumy kwadratów ładunków po

wyodr

bnieniu

Metoda wyodr

bniania czynników - Głównych składowych.

uchwycić znaczącą część jej wariancji. Pozostaje jeszcze kryterium
merytorycznej interpretacji czynników.

Proszę porównać modele dwuczynnikowy i trójczynnikowy i spróbować
interpretacji wyodrębnionych czynników.

W dalszej części naszego przykładu pozostaniemy przy dwóch pierwszych
głównych składowych (74% wyjaśnionej wariancji) po to, by w dogodny sposób
pozycjonować marki margaryn i maseł w przestrzeni utworzonej przez ich cechy
(a właściwie w dwuwymiarowej, najlepszej reprezentacji tej przestrzeni). Wiemy
juŜ, Ŝe korzystając z dwóch pierwszych składowych przesłonimy zróŜnicowanie
pod względem postrzeganej moŜliwości stosowania badanych marek do
pieczenia. Aby więc nie powodować błędnej interpretacji moŜemy tę cechę
w ogóle usunąć z analizy. Nasz układ dwóch składowych poddamy rotacji
VARIMAX, choć w przypadku dwóch wymiarów nie ma to wielkiego znaczenia
poznawczego. Wykonujemy wykres ładunków czynnikowych.

FACTOR
    /VARIABLES smar cena trwal nnkt smak kalor tlzwi witam natur
    /PRINT INITIAL EXTRACTION ROTATION FSCORE
    /FORMAT SORT
    /PLOT ROTATION
    /EXTRACTION PC
    /ROTATION VARIMAX
    /SAVE REG(ALL) .

Marki moŜemy pozycjonować w układzie dwóch pierwszych składowych
korzystając z wartości czynnikowych jako ich współrzędnych. Wartości
czynnikowe dopisaliśmy do zbioru danych za pomocą opcji

/SAVE REG(ALL)

Czynnik 1. definiuje oś poziomą, czynnik 2. definiuje oś pionową. Wykres
sporządzamy korzystając z menu: WYKRESY>ROZRZUTU>PROSTY lub
następującego polecenia:

GRAPH
/SCATTERPLOT(BIVAR)=fac1_2 WITH fac2_2 BY marka (NAME).

Macierz rotowanych składowych

-,941

-,186

-,909

-,071

,879

,383

,808

,362

-,710

,263

-,240

,910

,583

,753

,156

,738

,606

,724

Łatwo

smarowania

Trwało

Zawarto

tłuszczów

zwierz

cych

Kaloryczno

Zawarto

NNKT

Zawarto

witamin

Ocena smaku

Cena

Naturalno

Składowa

Metoda wyodr

bniania czynników - Głównych składowych.

Metoda rotacji - Varimax z normalizacj

Kaisera.

Rotacja osi

ła zbie

w 3 iteracjach.

W trybie edycyjnym wykresu musimy dodać jeszcze osie układu współrzędnych
(Linie referencyjne) i wykres jest gotowy. Dla celów prezentacyjnych moŜna go
oczywiście poddać obróbce kolorystycznej i opisać osie sensownymi definicjami
czynników.

Na wykresie widać, Ŝe pierwszy wymiar separuje masła (o ile Delicado to masło)
od margaryn, a drugi róŜnicuje marki w obrębie kaŜdej z grup. Często praktykuje
się umieszczanie zmiennych (najlepiej z poprowadzonymi do nich z początku
układu strzałkami) i obiektów/marek przedstawionych jako punkty. MoŜna to
równieŜ wykonać w programie SPSS. Wystarczy w jednym zbiorze umieścić
ładunki czynnikowe, wartości czynnikowe, zmienną opisującą zmienne i marki
i zmienną pozwalającą odróŜnić jedne od drugich, a następnie wykonać wykres
rozrzutu. Chętni mogą spróbować dorysować w MS Word strzałki prowadzące
z początku układu do punktów wyznaczonych przez ładunki czynnikowe cech.
Lepiej jest jednak wówczas umieścić wykres na całej stronie, zorientowanej
poziomo.

REGR factor score 1 for analysis 1

2,0

1,5

1,0

0,0

-,5

-1,0

-1,5

2,0

1,5

1,0

0,0

-,5

-1,0

-1,5

-2,0

Botteram

Sanella

Flora

Homa

Weihnachts butter

Hollaendische Butter

Delicado Sahnebutter

Rama

Du darfst

Becel

Polecenie SPSS:

GRAPH
/SCATTERPLOT(BIVAR)=wymiar1 WITH wymiar2 BY kod BY etykieta(NAME).

A oto jego wynik:

Becel

-1,05981

1,19109

Du darfst

-,48986

-,61077

Rama

-,47014

-,25733

Delicado Sahnebutter

1,44901

,86806

Hollaendische Butter

1,14442

1,59586

Weihnachtsbutter

1,66200

-,66994

Homa

-,76578

,13543

Flora

-1,11770

,60306

-,41923

-,45737

Sanella

-,30600

-,51851

Botteram

,37308

-1,87959

Łatwo

smarowania

-,94100

-,18600

Cena

,15600

,73800

Trwało

-,90900

-,07096

Zawarto

NNKT

-,71000

,26300

Ocena smaku

,58300

,75300

Kaloryczno

,80800

,36200

Zawarto

tłuszczów zwierz

,87900

,38300

Zawarto

witamin

-,24000

,91000

Naturalno

,60600

,72400

ETYKIETA

WYMIAR1

WYMIAR2

KOD

A oto wykres rozrzutu uzupełniony o wektory.

WYMIAR1

2,0

1,5

1,0

0,0

-,5

-1,0

-1,5

2,0

1,5

1,0

0,0

-,5

-1,0

-1,5

-2,0

Natura lno

Z awarto

wi tamin

Zawarto

tłuszczów

Kaloryc zno

Ocena smaku

Zawarto

NNKT

T rwało

Cena

Łat wo

smarowania

Bot teram

Sa nella

Flora

Homa

Weihnachtsbutter

Hol laendische B utter

Delic ado Sahne butter

Rama

Du darfst

Becel

1.17

Analiza czynnikowa i składowych głównych - podsumowanie

Analiza czynnikowa i analiza głównych składowych to najpowszechniej stosowane
techniki analizy wielowymiarowej. Są sprawdzonymi i dobrymi narzędziami, pod
warunkiem dobrego zrozumienia, czego moŜemy od nich oczekiwać i jak je
stosować. Wiele wyborów dokonywanych przez badacza ma charakter arbitralny.
Z drugiej strony, jak to zauwaŜyliśmy, analiza czynnikowa daje podobne
rezultaty przy róŜnych metodach wyodrębniania czynników oraz podobne do
analizy głównych składowych. W selekcji i interpretacji czynników waŜne jest
doświadczenie analityka i merytoryczna znajomość problemu. Najgorszym
podejściem jest wkładanie do analizy czynnikowe danych „na ślepo” i następnie
wiara w uzyskane rezultaty. W tej metodzie równieŜ obowiązuje święta zasada
analizy danych: włoŜysz śmieci — wyjmiesz śmieci. Podkreślam to, niezaleŜnie od
przekonania o fundamentalnej roli eksploracyjnej analizy danych w poznaniu
rzeczywistości i dobrych doświadczeń z uŜytkowaniem na tym polu analizy
czynnikowej i głównych składowych.

1.18

Literatura nt. analizy czynnikowej i głównych składowych

Norusis M., SPSS Professional Statistics 6.1, SPSS Inc., Chicago 1994.
Kim J.-O., Mueller Ch.W., Introduction to factor Analysis: What It Is and How to

Do It, w: M.S. Lewis-Back, Factor Analysis an Related Technics, Sage, London
1994, s. 1-73.

Kim J.-O., Mueller Ch.W., Factor Analysis: Statistical Methods and Practical

Issues, w: M.S. Lewis-Back, Factor Analysis an Related Technics, Sage,
London 1994, s. 75-155.

Duntemann G.H., Principal Components Analysis, w: M.S. Lewis-Back, Factor

Analysis an Related Technics, Sage, London 1994, s. 157-145.

Hair Jr. J.F., Anaderson R.E., Tatham R.L., Multivariate data Analysis with

Readings, 2

edition, Macmillan, Collier, NY, London 1984.

Backhaus K., Erichson B., Plinke W., Weiber R., Multivariate Analysemethoden,

Springer, Berlin 1990.

Jajuga K., Statystyczna analiza wielowymiarowa, PWN, Warszawa 1993.
Arminger G., Faktorenanalyse, Teubner, Stuttgart, 1979.
Bacher J., Clusteranalyse, Oldenbourg, Muenchen 1996.
Bacher J., Einfuehrung in die Logik der Skalierungsverfahren, Historical Social

Research, Special Issue, Vol. 15, 1990, No. 3., Center for Historical Social
Research, Koeln.

Holm K., Die Befragung 3: die Faktorenalyse, Francke Verlag, Muenchen 1976.
Wilkinson L., Grant B., Gruber Ch., Desktop Analysis with SYSTAT, Prentice Hall

1996.

Wilkinson L., Stenson H., Factor Analysis, w: Systat 6.0 for Windows: Statistics,

SPSS Inc., Chicago, 1996.

Grabiński T., Metody taksonometrii, AE, Kraków 1992.

Skale Likerta

Jednowymiarowe skale ocen typu Likerta zyskały sobie bardzo duŜą popularność
w badaniach społecznych dzięki prostocie konstrukcji i moŜliwości budowania ich
post hoc, po wykonaniu badań, co oszczędza Ŝmudnych prac wstępnych, jakich
wymagają np. skale Thurstona. Przypomnijmy krótko

, Ŝe skale Likerta

konstruujemy przez proste sumowanie punktów uzyskanych w zestawie pytań,
które są wskaźnikami badanej zmiennej, zazwyczaj postawy. Pytania, których
uŜywamy jako pozycji budujących skalę, zazwyczaj mają pięciostopniową
kafeterię, np.:

1.

zdecydowanie się zgadzam

raczej się zgadzam

ani się zgadzam, ani nie zgadzam

raczej się nie zgadzam

zdecydowanie się nie zgadzam.

MoŜliwe są równieŜ kategoryzacje sześcio- lub siedmiopunktowe i inne. Pytania z
mniej niŜ pięcioma stopniami (zwłaszcza z trzema) odpowiedzi nie są zalecane,
gdyŜ ograniczenie liczby kategorii prowadzi do „tłumienia” współczynników
korelacji, które wykorzystywane są przy diagnostyce skal, np. w analizie
czynnikowej. Pięciopunktowe skale werbalne w postaci zaprezentowanej wyŜej,
oryginalnie spopularyzowane przez Rensisa Likerta w jego publikacjach na temat
skal sumowanych ocen, często nazywane są pytaniami typu Likerta lub pytaniami
ze skalą ocen Likerta, a nawet, skrótowo, skalami Likerta, co jednak grozi
pomyleniem typu kafeterii uŜytej w pytaniach z samą skalą Likerta, która
powstaje w oparciu o co najmniej kilka pytań tego rodzaju .

Odpowiedzi kodowane są zazwyczaj przy pomocy kolejnych liczb naturalnych, od
1 do 5. To, któremu krańcowi skali ocen (kafeterii) przypiszemy 1, a któremu 5,
wynika z konieczności uzgodnienia kodowania w całej grupie pytań, które wejdą
w skład skali. Dobrze jest przyjąć taki kierunek kodowania, by w przypadku
kaŜdego pytania najwyŜszą liczbę punktów uzyskiwała ta krańcowa kategoria,
która odpowiada wyŜszemu natęŜeniu badanej postawy w zgodzie z jej treścią
ujętą przez nazwę skali. Na przykład, jeśli mamy do czynienia ze skala
feminizmu, to w przypadku stwierdzenia: „Jest znacznie lepiej dla rodziny, gdy m

czyzna

zarabia pieni

dze, a kobieta troszczy si

o dom i dzieci” najwy

Ŝej punktowana (5) powinna być

odpowied

ź: „Zdecydowanie się nie zgadzam”.

Jednym z podejść, niekiedy stosowanym przez badaczy, jest budowanie tzw. skal
arbitralnych (indeksów). Badacz w tym wypadku dobiera na podstawie swojej
subiektywnej oceny treści pytań takie pozycje do skali, które jego zdaniem
mierzą badaną postawę czy inny konstrukt. Po dobraniu wskaźników-pytań
sumuje punkty uzyskane na kaŜdym z pytań i otrzymuje sumaryczną skalę.
MoŜna to wykonać przy pomocy prostego polecenia SPSS o ile arbitralnie
zakładamy, Ŝe zmienne v1, v2, v3, v7 i v10 budują naszą skalę (indeks)., np.:

Konstrukcja skal Likerta jest dobrze opisana w literaturze, m.in. w podręcznikach z

zakresu metod badań psychologicznych autorstwa J. Brzezińskiego, dlatego pomijam
tutaj szersze omówienie.

1) compute skala1=v1 + v2 + v3 + v7 + v10. (jeśli choć w jednej pozycji
występuje brak danych

wynik ogólny jest teŜ b.d.)

2) compute skala1=sum(v1,v2,v3,v4). (sumuje wszystkie waŜne wartości,
wynikiem jest b.d.

tylko wtedy, gdy wszystkie pozycje są b.d.)

lub:

3) compute skala1=mean(v1,v2,v3,v4).

Jeśli chcemy wykluczyć moŜliwość obliczenia wartości indeksu w sytuacji, gdy
zbyt wiele pozycji zawiera braki danych, moŜna w poleceniu wskazać minimalną
liczbę waŜnych danych – np. poniŜej jest to 3 – poniŜej której funkcja średniej
(czyli sumy podzielonej przez liczbę pozycji sumowanych) da w wyniku brak
danych:

4) compute skala1=mean.3(v1,v2,v3,v4).

Podejście oparte na arbitralnym kwalifikowaniu pozycji do skali (indeksu) jest
jednak niebezpieczne, gdyŜ opiera się na przyjęciu pewnych załoŜeń, nawet jeśli
nie są wypowiedziane lub nie zdaje sobie z nich sprawy sam badacz.. Konstrukcja
skali Likerta kończy się wprawdzie obliczeniem sumarycznego indeksu przy
pomocy identycznych poleceń jak te zaprezentowane wyŜej, lecz prócz tego
niezbędne jest sprawdzenie, czy pozycje (wskaźniki) dobrane do skali spełniają
warunki skali oraz czy uzyskana skala jest wiarygodna, czyli rzetelna i trafna.

Do załoŜeń, które powinny być spełnione, by indeks sumaryczny mógł być
traktowany jako skala, naleŜą:

•

śe wybrane wskaźniki mierzą jeden ukryty wymiar (jednowymiarowość skali).

•

śe wszystkie wskaźniki mierzą ten sam ukryty wymiar.

•

śe wskaźniki są liniowo związane z ukrytą zmienną i w związku z tym moŜna
sumować ich wartości uzyskując syntetyczną skalę.

Z tych załoŜeń wynika, Ŝe wskaźniki powinny być skorelowane pomiędzy sobą,
gdyŜ tylko w tym przypadku moŜna przyjąć załoŜenie o tym, Ŝe są wskaźnikami
jednej zmiennej ukrytej, z którą są skorelowane. Ale tego, przy konstrukcji skal
arbitralnych się nie sprawdza. A moŜna to sprawdzić bardzo łatwo, wykorzystując
technikę analizy głównych składowych lub analizę czynnikową. Jeśli nasze
wskaźniki mierzą jeden konstrukt/zmienną ukrytą, to w analizie głównych
składowych i w analizie czynnikowej wszystkie powinny ładować wysoko tylko
jeden czynnik. Powinien to być czynnik dobrze wyodrębniony, a więc, najlepiej,
słabo skorelowany z innymi czynnikami. Analiza czynnikowa i analiza głównych
składowych mogą więc posłuŜyć do selekcji pozycji do skali. Same teŜ mogą
posłuŜyć bezpośrednio do tworzenia skal w wyniku uŜycia opcji zapisu ocen
czynnikowych w procedurze analizy czynnikowej.

Wyniki analizy głównych składowych i analizy czynnikowa słuŜą zatem do
budowania dwóch rodzajów skal:

•

bezpośrednio – skal czynnikowych (factor scales), których wartościami są
dobrze juŜ znane oceny czynnikowe, zapisywane w toku analizy czynnikowej
(opcja w menu analizy czynnikowej SPSS: Zapisz -> Oceny czynnikowe)

•

skal opartych na czynnikach (factor based scales), które uzyskujemy
klasyczną metodą sumowania lub uśredniania wartości kodowych odpowiedzi
uzyskanych na pytania zakwalifikowane do skali na podstawie wyników analizy
czynnikowej (mające wysokie ładunki na jednym czynniku, zwykle przyjmuje
się co najmniej 0,5 lub nawet 0,6), zaś analiza czynnikowa słuŜy jedynie do
sprawdzenia jednowymiarowości skali i właśnie selekcji pozycji do skali.

Skale czynnikowe i oparte ba czynnikach dają zasadniczo bardzo silnie
skorelowane wyniki, a więc mają tę samą zawartość informacyjną, przy czym
skale czynnikowe są automatycznie standaryzowane, natomiast skale Likerta nie
są. Zalecane jest stosowanie skal opartych na czynnikach, lecz pamiętać naleŜy o
tym, by pozycje zakwalifikowane do skali miały zbliŜone, wysokie wartości
ładunków czynnikowych z jednym czynnikiem.

Rzetelność skali badamy przy pomocy współczynnika alfa Cronbacha. Reguła
praktyczna mówi, Ŝe za „przyzwoicie” rzetelną moŜemy uwaŜać taką skalę, w
przypadku której alfa wynosi przynajmniej 0,7. Niekiedy zaleca się ostrzejsze
kryterium 0,8, choć wydaje się ono nadmiernie konserwatywne. ZbliŜanie się
wartości alfa do 1 nie czyni skali wcale doskonałą, gdyŜ faktycznie oznacza, Ŝe
moŜna zastąpić całą skalę pojedynczą pozycją. Te skrajne sytuacje naleŜą jednak
w badaniach społecznych do rzadkości, nawet gdy stosuje się baterie bardzo
zbliŜonych znaczeniowo pytań.

Trzeba dodać, Ŝe spotyka się w powaŜnej

literaturze skale, których raportowana rzetelność była niŜsza od 0,7, ale nie
niŜsza niŜ 0,6. W świetle moich własnych doświadczeń badawczych wartość ok.
0,7 zdaje się być rozsądnym wymogiem. Musimy pamiętać, Ŝe alfa oparta jest na
korelacji poszczególnych pozycji ze skalą i zaleŜy zarówno od stopnia
skorelowania wskaźników jaki i od liczby pozycji. MoŜna osiągnąć dobrą
rzetelność skali nawet przy umiarkowanych korelacjach wzajemnych
wskaźników, o ile mamy ich wiele. Mimo Ŝe oryginalna strategia Likerta zakładała
opieranie procedury skalowania na początkowej liście nawet 50 i więcej pytań, to
jednak w praktyce staramy się ich zadawać zdecydowanie mniej i zwykle w
pilotaŜach i pracach wstępnych przy tworzeniu kwestionariusza staramy się
zwiększyć szansę, Ŝe pytania, dotykając róŜnych aspektów mierzonego
konstruktu, będą jednak dość silnie skorelowane, co pozwala osiągnąć przyzwoitą
rzetelność skali przy mniejszej liczbie pozycji.

W toku analizy rzetelności moŜemy takŜe sprawdzić przydatność poszczególnych
pozycji skali przy pomocy opcji obliczania Alfy przy usuniętej pozycji. Procedura
ta polega na wyliczeniu wartości alfa Cronbacha dla skali złoŜonej z wszystkich
pozycji z wyjątkiem analizowanej. Pozwala to ocenić, na ile dana pozycja jest
waŜna dla ogólnej rzetelności skali. W sytuacji, gdy naszym celem jest
zbudowanie dla potrzeb przyszłych lub powtarzalnych badań oszczędnej skali, nie
zajmującej całych szpalt kwestionariusza, technika ta pozwoli pozbyć się tych
pozycji, których brak nie obniŜa specjalnie rzetelności.

Szerzej na temat rzetelności testów moŜna przeczytać w ksiąŜce A. Machowskiego,

„Rzetelność testów psychologicznych. Dwa ujęcia modelowe”, PWN 1993.

A oto przykład analizy prowadzącej do stworzenia dwóch skal w dwóch
wariantach: jako skal czynnikowych i jako skal opartych na czynnikach. Analiza
składa się z 4 etapów:

Analiza głównych składowych prowadząca do ostatecznego ustalenia składów
skal i wyliczenia wartości czynnikowych jako skal czynnikowych.

Analiza rzetelności skal z uŜyciem współczynnika alfa Cronbacha, w tym
analiza poszczególnych pozycji techniką Skala przy wykluczeniu pozycji

Wyliczenie wartości skal metodą sumowania (uśredniania) ocen z pozycji

Zbadanie korelacji skal otrzymanych dwiema metodami

Na tym etapie nie rozwiąŜemy jeszcze problemu braków danych. Zastosujemy
eliminację kompletną obserwacji z brakami danych typu usuwanie obserwacjami,
co powaŜnie, niestety zmniejsza próbę badawczą. Lepiej radzi sobie z problemem
braków danych technika uśredniania ocen, która pozwala obliczyć wartość skali
dla danej osoby takŜe przy niekompletnie wypełnionych odpowiedziach (opcja 4
wśród zaprezentowanych wyŜej poleceń compute).

Przedstawiam tutaj tylko polecenia w języku SPSS i wyniki wraz z krótkimi
komentarzami. Reguły stosowania i interpretacji analizy głównych składowych są
opisane w skrypcie z analizy czynnikowej. Na końcu zamieszczone są fragmenty
kwestionariusza zawierające analizowane pytania.

2.1

Analiza czynnikowa

Macierz rotowanych składowych(a)

Składowa

Mam w sobie do

siły i umiej

tno

ci, by sprosta

zadaniom, które sobie stawiam

,806

Lubi

trudne problemy i czuj

rado

, kiedy uda mi si

je rozwi

,732

Lubi

zadania, które s

troch

ryzykowne, ale za to przynosz

korzy

,662

tniej pracowałbym na własny rachunek, ni

jako czyj

pracownik

,612

Mam uczucie,

e poradz

sobie w ka

dych okoliczno

ciach

,542

Czuj

i pracuj

dla wa

nych celów

,537

Planuj

swoje przedsi

wzi

cia

,495

Jak Pana(i) zdaniem zmieniła si

sytuacja gospodarcza w Polsce w ci

gu ostatnich

12 miesi

cy? Jest teraz...

,811

Czy my

li Pan(i),

e w ci

gu nast

pnych 12 miesi

cy sytuacja gospodarcza Polski

dzie...

,787

Czy, porównuj

c sw

obecn

sytuacj

finansow

z sytuacj

sprzed roku,

powiedział(a)by Pan(i),

e dzisiejsza jest...

,736

Jakich zmian spodziewa si

Pan(i) w poziomie swojego

ycia w ci

gu najbli

szych

12 miesi

cy?

,729

Metoda wyodr

bniania czynników - Głównych składowych. Metoda rotacji - Varimax z normalizacj

Kaisera.

a Rotacja osi

ła zbie

w 3 iteracjach.

FACTOR
  /VARIABLES v1 v2 v6 v7 v17.1 v17.2 v17.3 v17.4 v17.6 v18.1 v18.4
  /FORMAT SORT BLANK(.3)
  /CRITERIA FACTORS(2)
/ROTATION VARIMAX.

Dwie pierwsze główne składowe wyjaśniają ok. 48% całkowitej wariancji. Po
wykonaniu wstępnie rotacji skośnej (PROMAX, OBLIMIN) oceniamy, Ŝe tendencja
do korelowania dwóch wyodrębnionych skal jest mała. Ostatecznie wykonujemy
analizę z rotacją VARIMAX.

Z uzyskanej macierzy ładunków wynika wyraźnie, Ŝe mamy do czynienia z
dwoma dobrze wyklarowanymi wymiarami, które moŜna określić jako:

•

motywacja do osiągnięć — pierwsza składowa

•

pesymizm/optymizm ekonomiczny — druga składowa.

MoŜna przyjąć, Ŝe uzyskaliśmy dwie jednowymiarowe skale. Aby uzyskać
wartości czynnikowe, które będą wartościami kaŜdej obserwacji na kaŜdej ze skal
wystarczy dodać opcję:

/save=reg(2)

SPSS automatycznie dopisuje do zbioru danych dwie zmienne zawierające
wartości czynnikowe.

2.2

Analiza rzetelności

RELIABILITY
  /VARIABLES= V17.3 V17.4 V17.1 V17.2 V18.1  V17.6 V18.4
  /FORMAT=LABELS
  /SCALE(SUKCES)=V17.3 V17.4 V17.1  V17.2 V18.1 V17.6 V18.4
   /SUMMARY=TOTAL.

Statystyki rzetelno

Alfa

Cronbacha

Liczba pozycji

,752

Statystyki pozycji Ogółem

rednia skali

po usuni

ciu

pozycji

Wariancja

skali po

usuni

ciu

pozycji

Korelacja

pozycji

Ogółem

Alfa

Cronbacha po

usuni

ciu

pozycji

Mam w sobie do

siły i umiej

tno

ci, by

sprosta

zadaniom, które sobie stawiam

21,06

19,424

,656

,680

Lubi

trudne problemy i czuj

rado

, kiedy uda

mi si

je rozwi

21,03

20,198

,559

,702

Lubi

zadania, które s

troch

ryzykowne, ale

za to przynosz

korzy

21,31

20,576

,483

,718

tniej pracowałbym na własny rachunek, ni

jako czyj

pracownik

21,18

20,627

,424

,733

Mam uczucie,

e poradz

sobie w ka

dych

okoliczno

ciach

21,44

22,126

,421

,732

Czuj

i pracuj

dla wa

nych celów

21,29

22,164

,374

,741

Planuj

swoje przedsi

wzi

cia

21,61

21,626

,378

,742

Skala motywacji do osiągnięć (SUKCES) jest skalą o rzetelności mierzonej
współczynnikiem alfa Cronbacha wynoszącej 0,75. Jest to więc skala, którą
moŜemy zaakceptować. Dzięki temu, Ŝe zmienne wprowadziliśmy do analizy w
kolejności wynikającej z wielkości ładunków czynnikowych, widać wyraźnie, Ŝe im
mniejszy był uprzednio ładunek czynnikowy, tym mniejszy jest poziom korelacji
danej pozycji ze skalą i tym mniejsza strata dla rzetelności skali wynikająca ze
skreślenia danej pozycji z listy wskaźników. Ogólnie jednak, kaŜdy wskaźnik
wnosi coś do rzetelności i w Ŝądnym wypadku wprowadzenie danej pozycji nie
powoduje obniŜenia rzetelności. Skalę akceptujemy w tej postaci.

RELIABILITY
  /VARIABLES= V1 V2 V6 V7
  /FORMAT=LABELS
  /SCALE(EKONOPT)=V1 V2 V6 V7
  /SUMMARY=TOTAL .

Statystyki rzetelno

Alfa

Cronbacha

Liczba pozycji

,761

Statystyki pozycji Ogółem

rednia skali

po usuni

ciu

pozycji

Wariancja

skali po

usuni

ciu

pozycji

Korelacja

pozycji

Ogółem

Alfa

Cronbacha po

usuni

ciu

pozycji

Jak Pana(i) zdaniem zmieniła si

sytuacja gospodarcza w

Polsce w ci

gu ostatnich 12 miesi

cy? Jest teraz...

9,54

4,929

,593

,687

Czy my

li Pan(i),

e w ci

gu nast

pnych 12 miesi

sytuacja gospodarcza Polski b

dzie...

9,84

5,543

,588

,690

Czy, porównuj

c sw

obecn

sytuacj

finansow

sytuacj

sprzed roku, powiedział(a)by Pan(i),

e dzisiejsza

jest...

9,57

5,414

,537

,717

Jakich zmian spodziewa si

Pan(i) w poziomie swojego

ycia w ci

gu najbli

szych 12 miesi

cy?

9,93

6,126

,534

,721

Druga skala, choć składająca się tylko z czterech pozycji, jest nawet nieco
bardziej rzetelna w świetle takiego kryterium jakim jest współczynnik alfa.
RównieŜ i tutaj nie moŜna bezkarnie wyeliminować Ŝadnego wskaźnika. Ich
indywidualny wkład w rzetelność skali jest zresztą większy niŜ wkład
pojedynczych pozycji w skali poprzedniej. Wynika to z mniejszej liczby pozycji i z
bardziej wyrównanego poziomu korelacji między pozycjami a skalą.

2.3

Obliczenie wartości skal

Skale oparte na czynnikach tworzymy bardzo prosto przez sumowanie wyników
przy pomocy polecenia COMPUTE (moŜna zastosować teŜ funkcje sum i mean o
podanych wyŜej właściwościach; szczególnie zalecana jest funkcja mean – tego
rodzaju obliczenie pozostawiam do własnych ćwiczeń, zwracając uwagę, Ŝe
funkcja mean pozwala do pewnego stopnia poradzić sobie z problemem braków
danych, ale dobrze jest ustalić dolną granicę liczby pozycji zawierających waŜne
dane warunkujaca obliczenie waŜnej wartości skali – funkcja w postaci
mean.k(lista zmiennych), gdzie k oznacza minimalna liczbę waŜnych danych).

compute sukces=

V17.3 + V17.4 + V17.1 + V17.2 + V18.1 + V17.6 + V18.4.

compute ekonopt=

V1 + V2 + V6 + V7

var lab sukces ‘Skala orientacji na osi

gni

cia’

/ekonopt ‘Skala ekonomicznego pesymizmu/optymizmu’.

2.4

Korelacja pomiędzy skalami opartymi na czynnikach a skalami

czynnikowymi

Jak łatwo moŜna zauwaŜyć, bardzo wysoka wartość współczynników korelacji
pomiędzy odpowiednimi skalami potwierdza sensowność stosowania skal
opartych na czynnikach, wyliczonych przez proste sumowanie wartości pozycji,
których rzetelność moŜemy ustalić przy pomocy alfa.

2.4.1.1.1.1.1.1

ANEKS: Pytania uŜyte w skalowaniu

Jak Pana(i) zdaniem zmieniła się
sytuacja gospodarcza w Polsce w
ciągu ostatnich 12 miesięcy? Jest
teraz...

CZYTAJ ODPOWIEDZI

1.  O wiele lepsza....................................
2.  Trochę lepsza.....................................
3.  Taka sama.........................................
4.  Trochę gorsza ....................................
5.  O wiele gorsza ...................................
6.  Nie wiem ...........................................

1
2
3
4
5
6

Czy myśli Pan(i), Ŝe w ciągu
następnych 12 miesięcy sytuacja
gospodarcza Polski będzie...

CZYTAJ ODPOWIEDZI:

1
2
3
4
5
6

Czy, porównując swą obecną sytuację
finansową z sytuacją sprzed roku,
powiedział(a)by Pan(i), Ŝe dzisiejsza
jest...

CZYTAJ ODPOWIEDZI:

1
2
3
4
5
6

Jakich zmian spodziewa się Pan(i) w
poziomie swojego Ŝycia w ciągu
najbliŜszych 12 miesięcy?

CZYTAJ ODPOWIEDZI:

1.  Bardzo się poprawi .............................
2.  Trochę się poprawi .............................
3.  Pozostanie taki sam ............................
4.  Trochę się pogorszy ............................
5.  Bardzo się pogorszy............................
6.  Nie wiem ...........................................

1
2
3
4
5
6

V17 Przy kaŜdym stwierdzeniu proszę powiedzieć,

w jakim stopniu zgadza się Pan(i) z nim.

POKAś KARTĘ V17

Zdecy-

dowanie

się nie

zgadza

Raczej
się nie

zgadza

Ani się

zgadzam,

ani się

nie

zgadzam

Raczej

się

zgadza

Zdecy-

dowanie

się

zgadza

Nie

wiem

Lubię zadania, które są trochę ryzykowne, ale za to
przynoszą korzyści

Chętniej pracowałbym na własny rachunek, niŜ jako
czyjś pracownik

Mam w sobie dość siły i umiejętności, by sprostać
zadaniom, które sobie stawiam

Lubię trudne problemy i czuję radość, kiedy uda mi
się je rozwiązać

Czuję, Ŝe Ŝyję i pracuję dla waŜnych celów

V18 Jak często zdarza się Panu(i) to, o czym mówią poniŜsze zdania? Proszę przy kaŜdym

stwierdzeniu powiedzieć, czy zdarza się to Panu(i): bardzo rzadko lub nigdy, dość
rzadko, od czasu do czasu, dość często, czy bardzo często?

POKAś KARTĘ V18

Bardzo

rzadko,

nigdy

Dość

rzadk

czasu

Dość

często

Bardzo

często

Nie

wiem

Mam uczucie, Ŝe poradzę sobie w kaŜdych
okolicznościach

Planuję swoje przedsięwzięcia

Skrypt kursowy do uŜytku wewnętrznego