Składowe główne i analiza czynnikowa
Ogólny cel
Główne zastosowania czynnikowych technik analitycznych to: (1) redukcja liczby zmiennych oraz (2) wykrywanie struktury w związkach między zmiennymi, to znaczy klasyfikacja zmiennych. Dlatego analiza czynnikowa jest stosowana jako metoda redukcji danych lub wykrywania struktury (termin analiza czynnikowa został po raz pierwszy wprowadzony przez Thurstonea, 1931). W punktach wymienionych poniżej są opisane zasady analizy czynnikowej i możliwości jej stosowania dla realizacji tych dwóch celów. Zakładamy, że Czytelnik jest zaznajomiony z podstawową logiką wnioskowania statystycznego opisaną w rozdziale Podstawowe pojęcia . Ponadto zakładamy, że Czytelnik jest zaznajomiony z pojęciami wariancji i korelacji; jeśli nie, warto by przeczytał w tym miejscu rozdział Podstawowe statystyki .
Na temat analizy czynnikowej napisano wiele znakomitych książek. Na przykład przystępne wprowadzenie można znaleźć u Stevensa (1986); bardziej szczegółowe opisy procedur podają: Cooley i Lohnes (1971); patrz także: Harman (1976), Kim i Mueller, (1978a, 1978b), Lawley i Maxwell (1971), Lindeman, Merenda i Gold (1980), Morrison (1967) lub Mulaik (1972). Interpretacja czynników drugiego rzędu w hierarchicznej analizie czynnikowej, alternatywnej do tradycyjnych strategii rotacji ukośnej, jest wyjaśniona szczegółowo w: Wherry (1984).
Konfirmacyjna analiza czynnikowa. Metody modelowania równań strukturalnych (SEPATH) umożliwiają testowanie hipotez na temat struktury czynnikowej dla zbioru zmiennych, w jednej lub w kilku próbach (np. możemy porównywać struktury czynnikowe między próbami).
Analiza korespondencji. Analiza korespondencji jest techniką opisową i eksploracyjną zaprojektowaną dla tabel dwu- i wielodzielczych zawierających pewne miary odpowiedniości między wierszami i kolumnami. Wyniki dostarczają informacji podobnych do tych, które dają techniki analizy czynnikowej i pozwalają one badać strukturę zmiennych jakościowych ujętych w tabeli. Więcej informacji na temat tych metod znajduje się w rozdziale Analiza korespondencji .
Analiza czynnikowa jako metoda redukcji danych
Wyobraźmy sobie, że przeprowadziliśmy (raczej "niemądre") badanie, w którym mierzyliśmy wzrost 100 osób w calach i centymetrach. Zatem otrzymaliśmy dwie zmienne, które mierzą wzrost. Jeśli w przyszłych badaniach chcemy ocenić, na przykład, wpływ różnych składników odżywczych pokarmu na wzrost, to czy nadal będziemy stosować obie miary? Prawdopodobnie nie; wzrost jest pojedynczą cechą osoby, bez względu na to, jak jest mierzony.
Przejdźmy teraz od tego "niemądrego" badania do czegoś, z czym rzeczywiście możemy się spotkać w badaniach. Wyobraźmy sobie, że chcemy zmierzyć zadowolenie ludzi z ich życia. Projektujemy kwestionariusz z różnymi wskaźnikami; między innymi pytamy respondentów o to, czy są zadowoleni ze swojego hobby (wskaźnik 1) i jak intensywnie uprawiają hobby (wskaźnik 2). Najprawdopodobniej odpowiedzi na te dwa wskaźniki będą ze sobą wysoce skorelowane. (Jeśli Czytelnik nie jest zaznajomiony ze współczynnikiem korelacji, polecamy przeczytanie opisu w części Podstawowe statystyki - Korelacje ). Jeśli otrzymamy wysoką korelację między dwoma wskaźnikami, możemy wnioskować, że są one redundantne.
Połączenie dwóch zmiennych w jeden czynnik.Korelację między dwoma zmiennymi można przedstawić na wykresie rozrzutu . Następnie można dopasować linię, która "najlepiej" oddaje związek liniowy między tymi zmiennymi. Gdybyśmy mogli zdefiniować taką zmienną, która w przybliżeniu określałaby linię regresji na takim wykresie, wówczas zmienna ta obejmowałaby większość "treści" naszych dwóch wskaźników. Pojedyncze wartości osobników na takim nowym czynniku, reprezentowanym przez linię regresji, mogłyby w przyszłej analizie danych zostać wykorzystanie w zastępstwie tych dwóch wskaźników. W pewnym sensie zredukowaliśmy dwie zmienne do jednego czynnika. Zauważmy, że nowy czynnik jest w rzeczywistości kombinacją liniową tych dwóch zmiennych.
Analiza składowych głównych.Opisany powyżej przykład łączenia dwóch skorelowanych zmiennych w jeden czynnik pokazuje podstawową ideę analizy czynnikowej lub, mówiąc ściślej, analizy składowych głównych (wrócimy do tego później). Jeśli uogólnimy przykład dla dwóch zmiennych na wiele zmiennych, to obliczenia staną się bardziej złożone, ale podstawowa zasada wyrażania dwóch lub więcej zmiennych w postaci pojedynczego czynnika pozostaje taka sama.
Wyodrębnianie składowych głównych.Nie będziemy się tutaj zagłębiać w szczegóły obliczeniowe analizy składowych głównych, które można znaleźć gdzie indziej (odwołania znajdują się na początku tej części). Jednak wyodrębnianie składowych głównych jest równoznaczne z rotacją maksymalizującą wariancję (varimax) wyjściowej przestrzeni zmiennych. Na przykład, na wykresie rozrzutu możemy linię regresji potraktować tak, jak gdyby to była pierwotna oś X, która została obrócona w ten sposób, że aproksymuje linię regresji. Ten typ rotacji nazywa się maksymalizującym wariancję, ponieważ kryterium (celem) rotacji jest maksymalizacja wariancji (zmienności) "nowej" zmiennej (czynnika) przy jednoczesnej minimalizacji wariancji wokół tej nowej zmiennej (patrz Strategie rotacji).
Uogólnienie na przypadek wielu zmiennych.Kiedy mamy więcej niż dwie zmienne, możemy powiedzieć, że definiują one "przestrzeń", tak jak dwie zmienne definiują płaszczyznę. Zatem, jeśli mamy trzy zmienne, możemy wykreślić trójwymiarowy wykres rozrzutu, a także możemy do danych dopasować płaszczyznę.
1