Rozdział VIII
ANALIZA KORESPONDENCJI
8.1. Wprowadzenie
Analiza korespondencji jest metodą czynnikową, która prezentuje związki pomiędzy zmiennymi oraz pomiędzy obiektami przede wszystkim w formie graficznej. Posiada ona szereg własności, których nie mają inne metody czynnikowe. Jako jedyna metoda czynnikowa daje ona możliwość umieszczenia w jednym czynnikowym układzie odniesienia zarówno punkty reprezentujące zmienne jak i punkty reprezentujące obiekty, co pozwala wykryć strukturalne związki pomiędzy zmiennymi i obiektami, a tym samym znacznie zwiększyć możliwości interpretacyjne. Analiza korespondencji umożliwia nie tylko analizę danych ilościowych, ale także i jakościowych. Nie stawia także żadnych wymagań co do liczebności obserwacji.
Analiza korespondencji była rozwijana równolegle w ośrodkach naukowych w wielu krajach (Beh, 2004). Za pierwsze prace w tym zakresie są uznawane artykuły K. Pearsona (1904 i 1906), który zaproponował zastosowanie współczynnika korelacji dla dwudzielnej tablicy kontyngencji wykorzystując regresję liniową. M. O. Hirschfeld przedstawił w 1935 r. w swoim artykule (1935) algebraiczną formułę korelacji pomiędzy wierszami i kolumnami dwudzielnej tablicy kontyngencji. W 1940 r. R. A. Fisher (1940) po raz pierwszy zaproponował zastosowanie analizy korespondencji do tablic dwudzielnych na gruncie nauk biomedycznych, gdzie funkcjonowała pod nazwą analizy odpowiedniości, a rok później L. Gutman (1941) przedstawił wykorzystanie tej metody do analizy wielowymiarowych tablic kontyngencji w psychometrii, pod nazwą skalowania optymalnego. Niezależnie od L. Gutmana zastosowania wielowymiarowej analizy korespondencji do analizy danych jakościowych zaproponował C. Burt (1950). Propozycje L. Gutmana były także rozwijane w latach 50. przez grupę japońskich uczonych, kierowaną przez Ch. Hayashiego, pod nazwą kwantyfikacji danych jakościowych (Beh, 2004, s. 260).
Gwałtowny rozwój analizy korespondencji nastąpił w latach 60. we Francji w wyniku prac zespołu naukowców kierowanych przez J. P. Benzécriego (1973a i 1973b). Nadali oni analizie korespondencji formę geometryczną oraz najczęściej aktualnie stosowaną w praktyce jej nazwę. Początkowo popularyzacja osiągnięć J. P. Benzécriego napotykała barierę językową, w postaci języka francuskiego. Po raz pierwszy w języku angielskim metoda ta została przedstawiona przez M. O. Hilla (1974), który jako pierwszy użył angielskiej nazwy correspondence analysis będącej tłumaczeniem francuskiego terminu l'analyse de correspondence. Szeroka popularyzacja metody w obszarze anglojęzycznym związana jest przede wszystkim ze współpracą francuskich naukowców z M. J. Greenacre (1984). Do polskiej literatury ekonomicznej analizę korespondencji wprowadziła S. Ostasiewicz (1975) pod nazwą analizy zgodności. Szerokie omówienie analizy korespondencji w języku polskim znajduje się w pracy A. Stanimir (2005).
8.2. Algorytm analizy korespondencji
Najogólniejszym punktem wyjścia analizy korespondencji (podejście to będziemy nazywali nieklasyczną analizą korespondencji) jest budowa macierzy danych wejściowych o postaci:
; j=1,2,...,m; i=1,2,....n. (8.1)
gdzie:
xji - wartość j-tej zmiennej w i-tym obiekcie.
Należy zauważyć, że dane w macierzy (8.1) mogą być dowolnymi danymi nieujemnymi. Wiersze macierzy (8.1) mogą być interpretowane w ujęciu geometrycznym jako współrzędne punktów-zmiennych w n-wymiarowej przestrzeni obiektów Rn. Natomiast kolumny tej macierzy są w ujęciu geometrycznym współrzędnymi punktów-obiektów w m-wymiarowej przestrzeni zmiennych Rm.
W podejściu klasycznym macierzą danych wejściowych jest dwuwymiarowa tablica kontyngencji:
, (8.2)
gdzie:
nji - liczebność jednostek obserwacji posiadających jednocześnie j-tą kategorię pierwszej z charakteryzujących je zmiennych i i-tą kategorię drugiej ze zmiennych.
W dalszej części prezentacji analizy korespondencji będziemy operowali macierzą kontyngencji (klasyczna analizą korespondencji) wskazując przy tym, że przedstawiane rozwiązania stosuje się także do dowolnej macierzy danych o wartościach nieujemnych (nieklasyczna analiza korespondencji).
Kolejnym krokiem jest przekształcenie macierzy kontyngencji w macierz częstości względnych, przez podzielenie każdego jej elementu przez liczbę obserwacji:
, j=1,2,...,m; i=1,2,....n. (8.3)
Na podstawie macierzy P wyznaczamy tzw. macierze profili. Macierz profili wierszowych R uzyskujemy dzieląc każdą częstość w wierszu macierzy P przez sumę wszystkich częstości w tym wierszu:
, j=1,2,...,m; i=1,2,....n. (8.4)
Elementy profili wierszowych mogą być traktowane jako współrzędne wektorów wierszowych (zmiennych w nieklasycznej analizie korespondencji) w n-wymiarowej przestrzeni euklidesowej Rn. Natomiast dzieląc każdą z częstości w kolumnie macierzy P przez sumę wszystkich częstości w tej kolumnie otrzymujemy macierz profili kolumn C:
, j=1,2,...,m; i=1,2,....n. (8.5)
Elementy profili kolumnowych są wtedy współrzędnymi wektorów kolumnowych (obiektów w nieklasycznej analizie korespondencji) w m-wymiarowej przestrzeni euklidesowej Rm.
Częstości brzegowe, odpowiednio wierszy (r) i kolumn (c), w macierzach profili R i C są odpowiednio średnimi profilami kolumnowymi i wierszowymi (centrum kolumnowowym albo wierszowym). Punkty reprezentowane przez przeciętne profile wierszowe i kolumnowe nazywane są centroidami i leżą w środku układu współrzędnych.
Odległości pomiędzy profilami wierszowymi (punktami reprezentującymi kategorie pierwszej ze zmiennych) w przestrzeni Rn wylicza się za pomocą ważonej metryki euklidesowej, gdzie wagami są częstości brzegowe kolumn, o postaci:
, j,j'=1,2,...,m; j≠j'. (8.6)
Analogicznie określamy odległości pomiędzy profilami kolumnowymi (punktami reprezentującymi kategorie drugiej ze zmiennych w przestrzeni Rm) za pomocą metryki euklidesowej, gdzie wagami są częstości brzegowe wierszy:
, i,i'=1,2,...,n; i≠i'. (8.7)
Analiza odległości pomiędzy profilami wierszowymi (kolumnowymi) jest tożsama z analizą odległości profili wierszowych (kolumnowych) od średnich profili wierszowych (kolumnowych) (Statystyczne metody..., 1998; s. 292 i 293).
Odległości (8.5) i (8.6) są jednocześnie odległościami chi-kwadrat. Z odległościami chi-kwadrat związane jest pojęcie inercji (bezwładności). Inercja jest miarą zróżnicowania elementów w macierzy danych wejściowych. Całkowita inercja macierzy określa stopień dyspersji profili wierszowych (kolumnowych) względem odpowiadających im centroid, czyli wskazuje jak bardzo poszczególne profile wierszowe (kolumnowe) różnią się od odpowiadającego im średniego profilu. Inercja dla wierszy obliczana jest według formuły średniej ważonej:
, (8.8)
gdzie:
- odległość chi-kwadrat między j-tym wierszem, a odpowiadającą jemu centroidą.
Natomiast inercję dla kolumn szacujemy w oparciu o wzór:
, (8.9)
gdzie:
- odległość χ2 między i-tą kolumną, a odpowiadającą jej centroidą.
Inercja dla wierszy jest równa inercji dla kolumn i jednocześnie równa inercji całkowitej:
. (8.10)
Inercja posiada też interpretację geometryczną jako miara rozproszenia punktów reprezentujących profile w wielowymiarowej przestrzeni. Kiedy wartość inercji równa jest zero to punkty reprezentujące profile wierszowe (kolumnowe) skupiają się w początku układu współrzędnych. Odpowiada to sytuacji, że wszystkie profile wierszowe (kolumnowe) są takie same. Czym większa wartość inercji tym większe rozproszenie punktów reprezentujących profile w stosunku do środka układu współrzędnych. Maksymalna wartość całkowitej inercji jest równa s=min(m-1, n-1).
Dotychczas przedstawione rozwiązania umożliwiają tylko oddzielne analizy profili wierszowych i kolumnowych. Podstawowym celem analizy korespondencji jest natomiast ich jednoczesna analiza, najczęściej w formie prezentacji graficznej. W tym celu macierz P zostaje przekształcona w macierz A, nazywaną macierzą różnic wystandaryzowanych, czyli ważonych odchyleń profili od centrum wierszowego i kolumnowego o postaci:
, j=1,2,...,m; i=1,2,....n, (8.11)
gdzie:
. (8.12)
Stanowi ona podstawę ostatecznej fazy analizy korespondencji.
Przekształcenia macierzy P w macierz A mają charakter symetryczny względem wierszy i kolumn. Umożliwia to znalezienie przestrzeni czynnikowej (wektorów kierunkowych osi czynnikowych) na bazie m-punktów reprezentujących kategorie pierwszej ze zmiennych (zmiennych w nieklasycznej analizie korespondencji) w przestrzeni n-wymiarowej (analiza względem kolumn macierzy A) lub też na podstawie n-punktów reprezentujących kategorie drugiej ze zmiennych (obiektów w nieklasycznej analizie korespondencji) w przestrzeni m-wymiarowej (analiza względem wierszy macierzy A). Właśnie symetryczna standaryzacja wejściowej macierzy danych (8.1) albo (8.2) pozwala nie tylko na ustalenie struktury czynnikowej zmiennych oraz położenia obiektów w nowym czynnikowym układzie odniesienia, podobnie jak ma to miejsce w pozostałych metodach czynnikowych, ale także na ustalenie struktury czynnikowej obiektów oraz położenia zmiennych w tym samym układzie odniesienia, co nie jest możliwe w żadnej innej metodzie czynnikowej. Innymi słowy, przeprowadzając analizę korespondencji szukamy wspólnego, ortogonalnego układu odniesienia (podprzestrzeni o wymiarze s=min(m-1,n-1)) dla punktów reprezentujących profile wierszowe i profile kolumnowe.
Należy w tym celu znaleźć wektory kolejnych osi czynnikowych przechodzących przez początek układu współrzędnych (zawierających centroidy), które najlepiej, w sensie maksymalizacji sumy kwadratów rzutów wektorów ai(aj) na te osie, dopasowują konfigurację n-punktów (m-punktów) umieszczonych w przestrzeni Rm(Rn). Wektory osi czynnikowych są szukane analogicznie jak miało to miejsce w analizie głównych składowych (Panek, 1987, s.164-165), z tym, że odpowiednikiem macierzy korelacji R jest tutaj macierz ATA(AAT). Innymi słowy należy znaleźć wartości własne macierzy ATA(AAT) i odpowiadające im wektory własne. Rząd macierzy ATA jest, przy tym równy rzędowi macierzy AAT, a także macierzy A.
Analiza korespondencji jest metodą dekompozycji wartości inercji całkowitej. Kolejne osie czynnikowe, podobnie jak w analizie głównych składowych, szukane są w taki sposób aby odpowiadające im wymiary wyjaśniały jak największą część całkowitej inercji. W praktyce poszukując optymalnej przestrzeni, wspólnej dla profili wierszowych i kolumnowych, najczęściej korzystamy z metody rozkładu macierzy A według wartości osobliwych (Greenacre, 1984; Stanimir, 2005). Macierz A wyrażana jest w postaci iloczynu trzech macierzy:
, (8.13)
gdzie:
=[diag(λl)] - macierz diagonalna (s x s) utworzona z niezerowych wartości własnych macierzy AAT oraz ATA, uporządkowanych malejąco.
UTU=VTV=I (8.14)
przy czym:
- macierz (m x s) składająca się z wektorów osobliwych odpowiadających pierwiastkom kwadratowym wartości własnych macierzy ATA,
V= [vli] - macierz (s x n) składająca się z wektorów osobliwych odpowiadających pierwiastkom kwadratowym wartości własnych macierzy AAT.
Wartości osobliwe macierzy A są pierwiastkami kwadratowymi z wartości własnych macierzy ATA oraz AAT. Innymi słowy zachodzi zależność:
(8.15)
gdzie:
Γ - macierz diagonalna (s x s) utworzona z niezerowych wartości osobliwych γl(l=1,2,...,s) uporządkowanych malejąco.
Ponadto między wartościami osobliwymi macierzy A, a całkowitą inercją zachodzi następująca zależność:
(8.16)
Wektory u1,u2,...,us macierzy U nazywane są lewymi wektorami osobliwymi i tworzą ortonormalną bazę dla kolumn macierzy A (stanowią tzw. osie główne podprzestrzeni czynnikowej rzutowania kategorii zmiennej zapisanych w kolumnach w ujęciu klasycznym, czy też obiektów w ujęciu nieklasycznym). Natomiast wektory v1,v2,...,vs macierzy V nazywane są prawymi wektorami osobliwymi i tworzą ortonormalną bazę dla transponowanych wierszy macierzy A (stanowią tzw. osie główne podprzestrzeni czynnikowej rzutowania kategorii zmiennej zapisanych w wierszach w ujęciu klasycznym, czy też zmiennych w ujęciu nieklasycznym). Innymi słowy wektory te definiują osie główne podprzestrzeni czynnikowej. Podprzestrzenie te nakładamy na siebie tak aby układy czynnikowe pokryły się.
Współrzędne czynnikowe pierwszej z kategorii zmiennych (zmiennych w nieklasycznej analizie korespondencji), zapisanych w wierszach macierzy kontyngencji, są uzyskiwane w oparciu o równanie:
, (8.17)
gdzie:
Dr [diag (pj.)] - macierz diagonalna (m x m) częstości brzegowych wierszy macierzy P.
W zapisie skalarnym możemy przedstawić je następująco:
, j=1,2,...,m; l=1,2,....s, (8.18)
gdzie:
- l-ta wartość osobliwa.
Współrzędne czynnikowe drugiej z kategorii zmiennych (obiektów w nieklasycznej analizie korespondencji), podane w kolumnach macierzy kontyngencji, obliczane są na podstawie równania:
, (8.19)
gdzie:
Dc=[diag(p.i)] - macierz diagonalna (n x n) częstości brzegowych kolumn macierzy P.
Zapis skalarny szacunku tych współrzędnych ma postać:
, i=1,2,...,n; l=1,2,....s. (8.20)
Współrzędne punktów reprezentujących obie kategorie zmiennych (zarówno obiekty jak i zmienne w nieklasycznej analizie korespondencji) w odniesieniu do osi głównych noszą nazwę współrzędnych głównych.
Jednoczesne umieszczenie punktów reprezentujących obie kategorie zmiennych w jednym czynnikowym układzie współrzędnych powoduje duże zagęszczenie punktów, a stąd trudności interpretacji przeprowadzanej analizy. Często korzystna jest zatem niezależna analiza konfiguracji punktów reprezentujących badane kategorie poszczególnych zmiennych (zmienne albo obiekty w ujęciu nieklasycznym). Współrzędne profili kolumnowych są wtedy wyliczane na podstawie macierzy profili wierszowych, a współrzędne profili wierszowych w oparciu o macierz profili kolumnowych. Noszą one wtedy nazwę współrzędnych standardowych i są obliczane poprzez podzielenie ich współrzędnych głównych przez odpowiadające im wartości osobliwe. Współrzędne standardowe profili wierszowych obliczane są w oparciu o formułę:
, (8.21)
a w zapisie skalarnym:
, j=1,2,...,m; l=1,2,....s. (8.22)
Natomiast współrzędne standardowe profili kolumnowych szacowane są na podstawie wzoru:
, (8.23)
a w zapisie skalarnym:
, j=1,2,...,m; l=1,2,....s. (8.24)
Podobnie jak i w klasycznej analizie czynnikowej, tak i w analizie korespondencji istnieje możliwość obliczenia wartości czynników dla poszczególnych kategorii obu analizowanych zmiennych (dla zmiennych oraz obiektów w ujęciu nieklasycznym). Jednakże nie jest to podstawowym celem tej analizy i w praktyce postępowanie takie jest bardzo rzadkie.
8.3. Wybór przestrzeni czynnikowej
Celem analizy korespondencji jest w ujęciu geometrycznym przedstawienie punktów reprezentujących zmienne (zmienne lub obiekty w ujęciu nieklasycznym) w przestrzeni czynnikowej o jak najmniejszym wymiarze, która przy tym jak najdokładniej odwzorowuje odległości między punktami reprezentującymi kategorie danej zmiennej (obiekty lub zmienne w nieklasycznej analizie korespondencji). Gdy odtwarzamy odległości pomiędzy punktami reprezentującymi kategorie danej zmiennej (punkty reprezentujące obiekty albo zmienne w nieklasycznej analizie korespondencji) w przestrzeni o maksymalnym wymiarze odtwarzamy pierwotne konfiguracje punktów bez żadnych zniekształceń, tzn. zostają zachowane kąty między wektorami i odległości wektorów reprezentujące profile wierszowe (kolumnowe), a co za tym idzie również odległości między punktami. Sytuacja ta jest tożsama z brakiem strat informacyjnych o badanym zjawisku przy przejściu od konfiguracji punktów reprezentujących wiersze (kolumny) w macierzy wyjściowej (8.1) lub (8.2) umieszczonych w przestrzeni Rn(Rm) do konfiguracji tych punktów w przestrzeni czynnikowej Rs.
Każde zmniejszenie maksymalnego wymiaru przestrzeni czynnikowej powoduje zniekształcenie konfiguracji wyjściowej punktów co oznacza stratę informacji o badanym zjawisku. Ostatecznie wybrany wymiar przestrzeni czynnikowej, w której przeprowadzamy analizę uzyskanych wyników, jest kompromisem między łatwością ich interpretacji, przede wszystkim w ujęciu graficznym, a stopniem odtworzenia pierwotnej informacji o badanym zjawisku w tym wymiarze. Przy podejmowaniu decyzji co do optymalnego wymiaru przestrzeni czynnikowej możemy korzystać przede wszystkim z kryterium osypiska, kryterium liczby zmiennych oraz stopnia wyjaśniania inercji (Stanimir, 2000, s. 62 i dalsze).
8.4. Ocena jakości odwzorowania
Operowanie przestrzenią czynnikową o wymiarze niższym od maksymalnego powoduje konieczność oceny jakości odwzorowania punktów w kolejnych wymiarach przestrzeni czynnikowej oraz w danej podprzestrzeni czynnikowej Rs*(s*<s).
Jakość odwzorowania poszczególnych punktów (wierszy lub kolumn) w danym wymiarze przestrzeni czynnikowej mierzona jest poprzez stosunek kwadratu odległości danego punktu w tym wymiarze od środka układu osi czynnikowych do kwadratu odległości tego punktu w przestrzeni czynnikowej o maksymalnym wymiarze od środka układu czynnikowego. Stosunek ten jest tożsamy ze stosunkiem udziału danego wymiaru w inercji punktu (kwadrat korelacji wektorów wierszowych (kolumnowych) z daną osią czynnikową), czyli określa jaka część inercji punktu jest wyjaśniana przez dany wymiar.
Jakość odwzorcowania dla punktów reprezentujących wiersze (zmienne w ujęciu nieklasycznym) jest obliczana na podstawie wzoru:
, j=1,2,...,m; l=1,2,....s, (8.25)
gdzie:
qjl - jakość odwzorcowania j-tego punktu przez l-ty wymiar,
- inercja j-tego punktu w l-tym wymiarze.
Natomiast dla punktów reprezentujących kolumny (obiekty w ujęciu nieklasycznym) wzór ten przyjmuje postać:
, i=1,2,...,n; l=1,2,....s, (8.26)
gdzie:
qil - jakość odwzorcowania i-tego punktu przez l-ty wymiar,
- inercja i-tego punktu w l-tym wymiarze.
Jakość odwzorcowania punktu przez dany wymiar jest jednocześnie równa kwadratowi kosinusa kąta między odcinkami łączącymi ten punkt z początkiem układu współrzędnych (centroidą), a l-tą osią czynnikową (Greenacre, 1984). Czym wyższa wartość jakości, tym lepiej dany wymiar opisuje punkt. Suma wartości jakości odwzorcowania danego punktu po wszystkich wymiarach przestrzeni czynnikowej równa jest jeden.
Jakość odwzorcowania danego punktu w wybranej podprzestrzeni czynnikowej, o wymiarze mniejszym od wymiaru maksymalnego, jest sumą jakości odwzorcowania tego punktu w kolejnych wymiarach i oceniana jest dla punktów wybranej podprzestrzeni reprezentujących wiersze na podstawie formuły:
, j=1,2,...,m. (8.27)
Natomiast jakość ta dla punktów reprezentujących kolumny oceniana jest w oparciu o formułę:
, i=1,2,...,n. (8.28)
Znaczenie poszczególnych punktów (reprezentujących kategorie zmiennych w podejściu klasycznym albo obiekty i zmienne w podejściu nieklasycznym) w tworzeniu poszczególnych wymiarów przestrzeni czynnikowej jest mierzone udziałem punktów w inercji (bezwładności) tych wymiarów. Im wyższy relatywnie ten udział, tym ważniejszy jest punkt w definiowaniu danego wymiaru. Suma tych udziałów dla wszystkich punktów łącznie jest dla każdego z wymiarów przestrzeni czynnikowej równa jedności. Udział punktu reprezentującego wiersz w danym wymiarze obliczana jest w oparciu o wzór:
, j=1,2,...,m; l=1,2,....s. (8.29)
Dla punktu reprezentującego kolumnę powyższy wzór przybiera następującą postać:
, i=1,2,...,n; l=1,2,....s. (8.30)
Znaczenie poszczególnych punktów w tworzeniu całej przestrzeni czynnikowej (wielkość zasobów informacyjnych o badanym zjawisku poszczególnych kategorii zmiennych w ujęciu klasycznym albo obiektów lub zmiennych w ujęciu nieklasycznym) obliczane jest na podstawie formuł:
, j=1,2,...,m, (8.31)
oraz
, i=1,2,...,n. (8.32)
8.5. Punkty dodatkowe
Analiza korespondencji daje możliwość rozszerzenia zakresu analizy poprzez nanoszenie na wykresy struktur czynnikowych już przeanalizowanych punktów, punktów dodatkowych tzw. punktów pasywnych. Punkty te zawierają dodatkową informację o badanym zjawisku. Punkt dodatkowy może odzwierciedlać sumę kategorii jednej ze zmiennych (w ujęciu nieklasycznym może to być przykładowo suma wystandaryzowanych wartości pewnej grupy rozważanych zmiennych dla poszczególnych obiektów). Może on też stanowić dodatkową kategorię jednej z zmiennych (w ujęciu nieklasycznym na przykład dodatkową własność badanych obiektów). Wreszcie może to być punkt reprezentujący kategorię jednej z zmiennych tak znacznie odstającą od innych kategorii, że włączenie jej do głównej analizy spowoduje zgrupowanie wszystkich innych punktów reprezentujących pozostałe kategorie analizowanych zmiennych wokół środka układu współrzędnych czynnikowych, co znacznie utrudni analizę wyników (przykładowo dany obiekt w ujęciu nieklasycznym posiada strukturę wartości zmiennych znacznie różniącą się od tej struktury w innych obiektach). W takiej sytuacji analiza główna odbywa się z wyłączeniem tej nietypowej kategorii, a sama kategoria jest dołączona do analizy jako punkt dodatkowy.
Ze względu na to, że punkty dodatkowe nie brały udziału w wyznaczaniu osi czynnikowych ich wkład w całkowitą inercję jest zerowy. Profile punktów reprezentujących dodatkowe wiersze (j+) obliczane są w oparciu o wzór:
, j+=1,2,...,m+, (8.33)
gdzie:
. (8.34)
Natomiast profile punktów reprezentujących dodatkowe kolumny obliczane są na podstawie formuły:
, i+=1,2,...,n+, (8.35)
gdzie:
. (8.36)
Współrzędne dodatkowego punktu opisywanego przez wiersze są wyznaczane w oparciu o formułę:
, (8.37)
co w ujęciu skalarnym można przedstawić:
, j+=1,2,...,m+; l=1,2,....s. (8.38)
Natomiast współrzędne dodatkowego punktu opisywanego przez kolumnę są szacowane w oparciu o formułę:
, (8.39)
a w zapisie skalarnym:
, i+=1,2,...,n+; l=1,2,....s. (8.40)
8.6. Interpretacja osi czynnikowych
W analizie korespondencji, podobnie jak i w innych analizach czynnikowych, można dokonywać interpretacji poszczególnych osi czynnikowych. Nadanie nazw osiom czynnikowym ułatwia prezentację uzyskanych wyników. Nazwy nadawane są poszczególnym osiom czynnikowym na podstawie oceny siły ich skorelowania z punktami reprezentującymi kategorie badanych zmiennych (zmienne oraz obiekty w ujęciu nieklasycznym), podobnie jak w innych metodach czynnikowych. Nazwa osi czynnikowej generalnie związana jest z tymi kategoriami zmiennych (zmiennymi oraz obiektami w ujęciu nieklasycznym), dla których korelacje z tą osią są najsilniejsze. Jednakże ze względu na możliwość umieszczenia w jednym układzie czynnikowym punktów reprezentujących kategorie obu zmiennych (reprezentujących zarówno zmienne jak i obiekty w podejściu nieklasycznym) możliwości interpretacyjne są szersze niż w innych metodach czynnikowych. W pierwszym z podejść interpretacyjnych (Clausen, 1998) zaleca się aby nazwa osi była ustalana w oparciu o analizę jej korelacji z kategoriami tej samej zmiennej (w ujęciu nieklasycznym na bazie analizy korelacji osi ze zmiennymi albo z obiektami). W drugim podejściu nazwę osi ustala przez badanie korelacji z kategoriami obu zmiennych (Blasius, 1994). Ponadto korelacje te są badane oddzielnie dla półosi dodatnich i półosi ujemnych.
Dla ułatwienia interpretacji osi czynnikowych możemy, podobnie jak w klasycznej analizie czynnikowej, stosować rotację układu. Jednakże każda taka rotacja (poza sytuacją gdy maksymalny wymiar przestrzeni czynnikowej jest równy 2) prowadzi do znalezienia nowego układu, w którym rzutowanie punktów do podprzestrzeni określonej przez dwa pierwsze wymiary prowadzi do zwiększenia zniekształcenia pierwotnej konfiguracji punktów (większej straty informacji wyjściowych) niż konfiguracji tych punktów w podprzestrzeni zdefiniowanej przez dwa pierwsze wymiary układu osi czynnikowych sprzed rotacji. W efekcie jakość analizy graficznej może ulec znacznemu zmniejszeniu.
8.7. Interpretacja wyników
W wyniku zastosowania analizy korespondencji uzyskujemy wyniki, które mogą być prezentowane w dwojaki sposób, przy czym oba ujęcia nawzajem uzupełniają się, a mianowicie:
w formie tablic, w których zawarte są współrzędne poszczególnych zmiennych (zmiennych i obiektów w ujęciu nieklasycznym) względem kolejnych osi czynnikowych,
w formie graficznej w postaci wykresów sporządzonych na podstawie tych tablic, będących dwumiarowymi przekrojami przestrzeni czynnikowych.
Możemy wykreślać dwa rodzaje wykresów. Pierwsze z nich prezentują jeden z typów punktów (wiersze albo kolumny) za pomocą współrzędnych standardowych. Drugi rodzaj wykresów prezentuje na tym samym wykresie obydwa typy punktów za pomocą współrzędnych głównych.
Analiza układów punktów reprezentujących zmienne (zmienne lub obiekty w ujęciu nieklasycznym) w ujęciu geometrycznym pozwala na wizualne uchwycenie ogólnych prawidłowości w układach tych zmiennych (zmiennych lub obiektów w ujęciu nieklasycznym). Musimy jednak w tym przypadku dokonać wyboru płaszczyzny, na którą będzie rzutowana przestrzeń czynnikowa. Powinna to być płaszczyzna, która w najmniejszym stopniu zniekształca konfigurację wektorów umieszczoną w przestrzeni czynnikowej. Taką płaszczyznę tworzy przekrój przestrzeni czynnikowej według dwóch pierwszych osi. Przekroje przestrzeni czynnikowej w innych płaszczyznach dają większe zniekształcenia konfiguracji wektorów zmiennych (zmiennych lub obiektów w ujęciu nieklasycznym), ale jednocześnie czasami pozwalają na uchwycenie pewnych prawidłowości w układach badanych zmiennych (zmiennych lub obiektów w ujęciu nieklasycznym), niemożliwe do zaobserwowania podczas analizy powiązań w układzie dwóch pierwszych osi.
Analizując uzyskane wyniki rozpatrujemy następujące typy konfiguracji punktów:
położenie punktów względem środka układu współrzędnych (centrum rzutowania),
położenie względem siebie punktów odpowiadającym kategoriom tej samej zmiennej (obiektom albo zmiennym w podejściu nieklasycznym),
położenie względem siebie punktów odpowiadającym kategoriom różnych zmiennych (położenie punktów reprezentujących obiekty względem punktów reprezentujących zmienne i vice versa).
Punkty położone, w porównaniu z innymi punktami, blisko początku czynnikowego układu odniesienia (reprezentującego profil przeciętny) posiadają profile bliskie profilowi przeciętnemu, a położone relatywnie daleko mają profile znacznie różniące się od profilu przeciętnego. Jednocześnie czym punkty te są położone dalej od początku układu odniesienia tym mają większy wkład w tworzenie przestrzeni czynnikowej (większe zasoby informacyjne o badanym zjawisku).
W ujęciu nieklasycznym analiza położenia punktów zmiennych względem początku czynnikowego układu odniesienia wskazuje na stopień ich zróżnicowania w badanych obiektach na tle pozostałych rozpatrywanych zmiennych. Małe oddalenie od początku układu punktu-zmiennej świadczy o niewielkim zróżnicowaniu tej zmiennej w badanych obiektach w porównaniu ze zróżnicowaniem innych zmiennych. Duża odległość punktu-zmiennej od początku układu czynnikowego wskazuje na jej silne zróżnicowanie w badanych obiektach w porównaniu z innymi zmiennymi.
Analiza odległości punktu obiektu, w ujęciu nieklasycznym, od początku układu czynnikowego, będącą wypadkową odległości pomiędzy odpowiadającymi sobie zmiennymi w danym obiekcie i w obiekcie przeciętnym (centroidzie), pozwala na ocenę relatywnego (w stosunku do innych obiektów), stopnia nietypowości danego obiektu ze względu na strukturę opisujących go zmiennych.
Czym bliższe położenie punktów reprezentujących kategorie tej samej zmiennej, tym ich profile są bardziej podobne. W ujęciu nieklasycznym bliskie położenie punktów zmiennych w przestrzeni czynnikowej oznacza, że zmienne te kształtują się podobnie w badanych obiektach. Natomiast bliskie położenie punktów reprezentujących obiekty wskazuje na podobieństwo struktury opisujących je zmiennych.
W analizie korespondencji nie można co prawda interpretować odległości między punktami reprezentującymi kategorie różnych zmiennych (pomiędzy punktami zmiennymi i punktami obiektami w ujęciu nieklasycznym), ale można interpretować położenie punktu reprezentującego kategorię jednej ze zmiennych w odniesieniu do konfiguracji punktów reprezentujących wszystkie kategorie drugiej ze zmiennych (w ujęciu nieklasycznym położenie punktu zmiennej względem konfiguracji punktów obiektów lub położenie punktu obiektu względem konfiguracji punktów zmiennych). Bliskie położenie punktów reprezentujących kategorie różnych zmiennych wskazuje na ich współwystępowanie. W ujęciu nieklasycznym, przykładowo bliskie położenie punktów zmiennych w stosunku do danego punktu obiektu wskazuje, że właśnie ze względu na wartości zmiennych reprezentowanych przez te punkty dany obiekt wyróżnia się od innych badanych obiektów.
Przykład 8.1
Zastosowanie analizy korespondencji zostało zilustrowane badaniem stopnia wykluczenia społecznego w województwach Polski w 2007 r. Stopień wykluczenia społecznego jest mierzony w obszarach wykluczenia finansowego, zatrudnienia oraz edukacji za pomocą wskaźników (Panek 2008):
A - stopień wykluczenia w wymiarze finansowym,
B - stopień wykluczenia w obszarze rynku pracy,
C - stopień wykluczenia w obszarze wykształcenia.
Wskaźniki te, powstałe w wyniku agregacji wskaźników cząstkowych, przyjmują wartości z przedziału [0; 1]. Czym wyższy stopień wykluczenia tym wyższa wartość odpowiedniego wskaźnika.
Arkusz zawierający wartości wskaźników wykluczenia społecznego dla województw Polski w 2007 r. znajduje się na rysunku 8.1.
Rys. 8.1. Tablica z danymi do Przykładu 8.1.
Analiza została przeprowadzona z wykorzystaniem pakietu STATISTICA. Odpowiedni moduł uruchamiamy wybierając z menu Statystyka opcję Wielowymiarowe techniki eksploracyjne/Analiza korespondencji (rys. 8.2).
Rys. 8.2. Opcje modułu Wielowymiarowe techniki ekspoloracyjne.
Wybranie tego modułu powoduje na pojawienie się na ekranie wstępnego okna analizy korespondencji (rys. 8.3).
Rys. 8.3. Wstępne okno modułu analizy korespondencji.
Na karcie Analiza korespondencji definiujemy typ danych, na których mamy przeprowadzić analizę. Zakres wyboru typu danych do analizy odpowiada klasycznemu ujęciu analizy korespondencji. Można go jednakże wykorzystać także w podejściu nieklasycznym. Mamy do wyboru trzy typy danych, a mianowicie:
Dane surowe. Z danymi surowymi mamy do czynienia gdy w tablicy dla każdej badanej jednostki (obiektu lub grupy obiektów) podany jest wariant zmiennej lub jej wartość liczbowa, który wystąpił w danym obiekcie.
Częstości ze zmiennymi grupującymi. W tablicy z danymi dla każdej kombinacji obiektu (lub grupy obiektów) z wariantami (lub wartościami liczbowymi) zmiennej mamy podane liczebności tych kombinacji.
Częstości bez zmiennych grupujących. Tablica wynikowa ma postać tablicy dwudzielnej. W boczku tablicy podawane są nazwy grup obiektów, a w główce tablicy nazwy wariantów (lub wartości liczbowe) zmiennych charakteryzujących grupy obiektów. We wnętrzu tablicy, w komórkach na przecięciu odpowiednich wierszy i kolumn tablicy, podajemy liczebności odpowiednich grup obiektów posiadających dany wariant zmiennej.
W naszym przykładzie wybieramy opcję Częstości bez zmiennych grupujących otrzymując okno z klawiszem Zmienne z częstościami (rys. 8.4).
Rys. 8.4. Okno analizy korespondencji z wybraną opcją formy danych wejściowych Częstości bez zmiennych grupujących.
Klikając klawisz Zmienne z częstościami otwieramy okno umożliwiające wybór zmiennych do analizy (rys. 8.5).
Rys. 8.5. Okno wyboru zmiennych do analizy.
W oknie tym wybieramy zmienne A, B i C akceptując wybór klawiszem OK. W efekcie uzyskujemy wstępne okno analizy korespondencji z przyjętymi założeniami odnośnie danych wejściowych (rys. 8.6).
Rys. 8.6. Wstępne okno analizy korespondencji z przyjętymi założeniami dotyczącymi danych wejściowych.
Akceptujemy przyjęte założenia klawiszem OK otrzymując okno Wyniki analizy korespondencji (rys. 8.7).
Rys. 8.7. Okno Wyniki analizy korespondencji.
W ramach tego okna, na karcie Przegląd, możemy prześledzić szacunek wartości statystyki chi-kwadrat, (a dokładnie jej wartość podzieloną przez liczbę obserwacji nazywaną inercją lub bezwładnością), która jest miarą zróżnicowania elementów w macierzy danych wejściowych, czyli miarą jej zasobów informacyjnych. Przykładowo klikając klawisz Udział w chi-kwadrat otrzymujemy tablicę pokazującą udziały w wartości statystyki chi-kwadrat poszczególnych kombinacji obiektów (województw) i charakteryzujących je zmiennych (wskaźników stopnia wykluczenia społecznego) (rys. 8.8).
Rys. 8.8. Tablica udziałów w statystyce chi-kwadrat kombinacji poszczególnych województw i wskaźników wykluczenia społecznego.
Wartość statystyki chi-kwadrat jest relatywnie mała co wskazuje, że zarówno województwa są dość słabo zróżnicowane ze względu na strukturę wartości opisujących je zmiennych, jak i że zróżnicowanie wskaźników wykluczenia w województwach nie jest zbyt duże. Jednakże ponieważ nasz przykład ma wyłącznie ilustracyjny charakter możemy przystąpić do dalszej części analizy.
W tym celu w oknie Wyniki analizy korespondencji na karcie Opcje ustalamy założenia analizy. Pierwszym z nich jest wybór przestrzeni czynnikowej, w której zostaną przestawione wejściowe konfiguracje punktów reprezentujących województwa i/lub wskaźniki. W naszej analizie maksymalny wymiar przestrzeni czynnikowej równy jest dwa. Oznacza to, że oryginalne konfiguracje punktów reprezentujących województwa i wskaźniki zostają odtworzone bez zniekształceń w dwuwymiarowej przestrzeni czynnikowej. Prezentacja tych punktów na płaszczyźnie umożliwia wszelkie analizy w formie graficznej, a tym samym w polu Liczba wymiarów wpisujemy 2 (rys. 8.9).
Rys. 8.9. Okno Wyniki analizy korespondencji z przyjętymi założeniami.
Po ustaleniu wymiaru przestrzeni czynnikowej należy wybrać metodę standaryzacji danych wejściowych dla obliczenia współrzędnych punktów reprezentujących województwa i/lub wskaźniki wykluczenia społecznego w przestrzeni czynnikowej. Mamy do wyboru następujące opcje:
Standaryzacja wierszowa. Wyznaczymy wtedy współrzędne punktów reprezentujących województwa.
Standaryzacja kolumnowa. Otrzymujemy współrzędne punktów reprezentujących wskaźniki wykluczenia społecznego.
Standaryzacja wierszowo-kolumnowa. Uzyskujemy jednocześnie współrzędne punktów reprezentujących województwa oraz wskaźniki wykluczenia społecznego.
Standaryzacja kanoniczna. Uzyskujemy jednocześnie współrzędne punktów reprezentujących województwa oraz wskaźniki wykluczenia społecznego stosując procedurę właściwą analizie kanonicznej (por. rozdz. 7 oraz Gifi, 1980).
W naszym przykładzie interesuje nas zarówno analiza konfiguracji punktów reprezentujących województwa jak i wskaźników wykluczenia społecznego. A tym samym wybieramy standaryzację wierszowo-kolumnową (rys. 8.9).
Aby przystąpić do analizy konfiguracji punktów w przestrzeni czynnikowej w oknie Wyniki analizy korespondencji wybieramy kartę Więcej (rys. 8.10).
Rys. 8.10. Karta Więcej w oknie Wyniki analizy korespondencji.
Przed właściwą analizą możemy jeszcze określić udziały poszczególnych czynników w inercji, czyli ich zasoby informacyjne.
W tym celu klikamy klawisz Wartości własne otrzymując tablicę z wartościami osobliwymi, wartościami własnymi oraz innymi charakterystykami zasobów informacyjnych czynników (rys. 8.11).
Rys. 8.11. Tablica z charakterystykami zasobów informacyjnych czynników.
Pierwszy z czynników pozwala na odtworzenie 70,41% zróżnicowania elementów w macierzy danych wejściowych, czyli całkowitej inercji (bezwładności), a drugi z czynników pozostałe 29,59%.
W celu analizy konfiguracji punktów, reprezentujących województwa, w przestrzeni czynnikowej klikamy klawisz Wiersze 2W otrzymując rysunek 8.12.
Rys. 8.12. Wykres konfiguracji punktów reprezentujących województwa w dwuwymiarowej przestrzeni czynnikowej.
Województwami o najbardziej typowej strukturze wartości wskaźników wykluczenia społecznego (najbliższej przeciętnej strukturze) są województwa O5 i O10 (odpowiadające im punkty leżą relatywnie najbliżej środka układu współrzędnych). Natomiast do województw o najbardziej nietypowej strukturze wartości wskaźników wykluczenia społecznego należy zaliczyć województwa O9, O2, O14, O16, O8 i O11.Wśród badanych województw można wyróżnić dwie ich grupy o podobnej strukturze wartości wskaźników wykluczenia społecznego. Pierwszą z nich tworzą województwa O14, O1, O2 oraz O3. Do drugiej grupy należą województwa O7, O4, O6, O15, O12, O13 i O11.
Klikając na karcie Więcej klawisz Kolumny 2W (rys. 8.10) otrzymujemy wykres konfiguracji punktów reprezentując wskaźniki wykluczenia społecznego w dwuwymiarowej przestrzeni czynnikowej (rys. 8.13).
Rys. 8.13. Wykres konfiguracji punktów reprezentujących wskaźniki wykluczenia społecznego w dwuwymiarowej przestrzeni czynnikowej.
Odległości punktów, reprezentujących wskaźniki wykluczenia społecznego, od środka układu współrzędnych są dość podobne. Najdalej od początku układu współrzędnych leży punkt reprezentujący wskaźnik wykluczenia społecznego w obszarze wykształcenia. Różnicuje on relatywnie najsilniej województwa ze względu na stopień wykluczenia społecznego i ma tym samym największy wkład w tworzeniu przestrzeni czynnikowej.
Punkty reprezentujące wskaźniki wykluczenia społecznego są relatywnie daleko położone od siebie. Oznacza to, że poszczególne wymiary wykluczenia społecznego w różny sposób różnicują badane województwa.
Wartości współrzędnych punktów reprezentujących województwa w przestrzeni czynnikowej na rysunku 8.12 i 8.13 (tzw. współrzędnych standardowych) możemy uzyskać klikając na OK karcie Więcej klawisz Współrzędne wierszy i kolumn (rys. 8.10). Klikając na karcie Więcej klawisz Wiersze i kolumny 2W otrzymujemy konfigurację punktów reprezentujących województwa i wskaźniki wykluczenia społecznego w samej dwuwymiarowej przestrzeni czynnikowej (rys. 8.14).
Rys. 8.14. Wykres konfiguracji punktów reprezentujących województwa i wskaźniki wykluczenia społecznego w dwuwymiarowej przestrzeni czynnikowej.
Bliskie położenie punktu reprezentującego wskaźnik wykluczenia społecznego w obszarze wykształcenia w stosunku do województw O14, O1, O2 i O3 wskazuje, że właśnie ze względu na wartości tego wskaźnika omawiana grupa województw wyróżnia się od innych badanych województw. Podobnie grupa województw O7, O4, O6, O16 i O12 charakteryzuje się odmiennymi od innych województwami, relatywnymi (w stosunku do wartości wskaźników wykluczenia społecznego w pozostałych obszarach wykluczenia) wartościami wskaźnika wykluczenia społecznego w obszarze rynku pracy.
Wartości współrzędnych czynnikowych punktów reprezentujących województwa i wskaźniki wykluczenia społecznego na rysunku 8.15 (tzw. współrzędne główne) otrzymujemy klikając na karcie Więcej, w oknie Wyniki analizy korespondencji, klawisz Współrzędne wierszy i kolumn (rys. 8.10).
Rys. 8.15. Tablica z wartościami współrzędnych standardowych punktów reprezentujących województwa i wskaźniki wykluczenia społecznego w przestrzeni czynnikowej.
W tablicach tych znajdują się wartości nie tylko powyższych współrzędnych ale także wartości mierników oceny jakości odwzorowania oryginalnych konfiguracji punktów w przestrzeni czynnikowej (tab. 8.16).
Rys. 8.16. Tablica z wartościami współrzędnych standardowych punktów reprezentujących województwa i wskaźniki wykluczenia społecznego w przestrzeni czynnikowej.
Ze względu na fakt, że konfiguracje punktów reprezentujących województwa oraz wskaźniki wykluczenia społecznego zostały umieszczone w przestrzeni czynnikowej o maksymalnym wymiarze wartości miary jakości odwzorcowania ((8.28) i (8.29)) wszystkich punktów podane w kolumnach Jakość osiągają najwyższe możliwe wielkości równe 1. Potwierdza to wcześniejsze stwierdzenie, że oryginalne konfiguracje punktów nie uległy w przestrzeni czynnikowej żadnemu zniekształceniu. W kolumnach Cos2 Wymiar 1 oraz Cos2 Wymiar 2 zostały podane wartości miar jakości odwzorowania punktów reprezentujących województwa oraz wskaźniki wykluczenia społecznego gdyby zostały one odwzorowane w przestrzeni jednowymiarowej zdefiniowanej odpowiednio przez pierwszy albo drugi czynnik.
W kolumnie Względna bezwładność dolnej z tablic został podany udział punktów reprezentujących poszczególne województwa w tworzeniu dwuwymiarowej przestrzeni czynnikowej. Zdecydowanie największe udziały mają tutaj województwa O9, O16, O14 oraz O11. Wartości w kolumnie Względna bezwładność górnej tablicy wskazują, że największy udział w tworzeniu przestrzeni czynnikowej przez wskaźniki wykluczenia społecznego miał wskaźnik wykluczenia w obszarze wykształcenia.
W kolumnach bezwładność Wymiar 1 oraz bezwładność Wymiar 2 obu tablic podawane są udziały odpowiednio poszczególnych województw oraz wskaźników wykluczenia społecznego w tworzeniu jednowymiarowej przestrzeni czynnikowej, definiowanej odpowiednio przez pierwszy i drugi czynnik.
Na wykresie punktów reprezentujących województwa i wskaźniki wykluczenia społecznego można umieścić dodatkowe punkty zawierające informacje o badanym zjawisku. W naszym przykładzie umieścimy w tym układzie współrzędnych nowy punkt reprezentujący wykluczenie społeczne w obszarze niefinansowym (w obszarach rynku pracy i wykształcenia łącznie). W tym celu w oknie Wyniki analizy korespondencji otwieramy kartę Punkty dodatkowe (rys. 8.17).
Rys. 8.17. Karta Punkty dodatkowe.
Ponieważ dodatkowe informacje, dotyczące wykluczenia społecznego, związane są ze wskaźnikami umieszczonymi w kolumnach na karcie Punkty dodatkowe klikamy klawisz Dodaj punkty do kolumn. Na ekranie pojawia się tablica jak na rysunku 8.18.
Rys. 8.18. Dodatkowe punkty dla kolumn z fragmentem tablicy z wartościami dodatkowej zmiennej BC w województwach.
W pierwszym wierszu tablicy wpisujemy wartości wskaźnika wykluczenia społecznego dla kolejnych województw będące średnimi arytmetycznymi z wartości wskaźników w obszarach rynku pracy oraz wykształcenia. Następnie akceptujemy wprowadzone wartości klawiszem OK. Nowe informacje wprowadzone do tablicy zostaną uwzględnione zarówno na wykresach jak i w tablicach wyników analizy korespondencji. Przykładowo klikając na karcie Więcej klawisz Kolumny 2W (rys. 8.10) otrzymujemy wykres konfiguracji punktów reprezentujących wskaźniki wykluczenia społecznego wraz z nowym wskaźnikiem wykluczenia w obszarze niefinansowym (rys. 8.19).
Rys. 8.19. Wykres konfiguracji punktów reprezentujących wskaźniki wykluczenia społecznego z uwzględnieniem wskaźnika wykluczenia społecznego w obszarze niefinansowym, w dwuwymiarowej przestrzeni czynnikowej.
Natomiast klikając na tej samej karcie klawisz Współrzędne wierszy i kolumn otrzymujemy tablicę ze współrzędnymi głównymi punktów reprezentujących wskaźniki społeczne, wraz z nowym wskaźnikiem wykluczenia społecznego w obszarze niefinansowym oraz charakterystyki jakości odwzorcowania (rys. 8.20).
Rys. 8.20. Tablica z wartościami współrzędnych standardowych punktów reprezentujących wskaźniki społeczne oraz charakterystykami jakości odwzorowania.
Jakość odwzorowania nowego punktu reprezentującego nowy wskaźnik, ze względu na to, że wskaźnik ten nie był uwzględniony przy wyznaczaniu przestrzeni czynnikowej, jest bardzo niska.
Twórca tzw. macierzy Burta.
W polskiej literaturze przedmiotu analiza korespondencji występuje także jako analiza odpowiedniości, czy też analiza powiązań.
Możliwe jest również operowanie kostką danych o elementach
, poprzez wprowadzenie do analizy elementu czasu t (t=1,2,...,T). W celu uproszczenia zapisu, pominiemy w dalszych rozważaniach wymiar czasu.
W przypadku nieklasycznej analizy korespondencji elementy w danym wierszu macierzy (8.1) dzielimy przez sumę ich wartości w tym wierszu.
W przypadku nieklasycznej analizy korespondencji elementy w danym wierszu macierzy (8.1) dzielimy przez sumę ich wartości w tej kolumnie.
Ważenie przeciwdziała zbyt dużemu wpływowi na odległości kategorii najliczniejszych. W przypadku nieklasycznej analizy korespondencji są to odległości pomiędzy punktami reprezentującymi zmienne.
6 Operując macierzą danych (8.1) są to odległości pomiędzy punktami reprezentującymi obiekty.
Postulat maksymalizacji sumy kwadratów rzutów wektorów w ujęciu geometrycznych, jest równoważny postulatowi maksymalizacji stopnia wyjaśniania zróżnicowania kategorii analizowanych zmiennych (zmiennych lub obiektów w nieklasycznej analizie korespondencji) przez kolejne czynniki w ujęciu analitycznym.
Wartości własne macierzy ATA i AAT są sobie równe.
Por. także rozdz.5.1.
1
263