Analiza korespondecji i jej zastosowania w naukach społecznych


Uniwersytet Warszawski
Wydział Filozofii i Socjologii
Filip Tomaszewski Oświadczenie kierującego pracą
Nr albumu: 199275
Oświadczam, że niniejsza praca została przygotowana pod moim kierunkiem
i stwierdzam, że spełnia ona warunki do przedstawienia jej w postępowaniu o nadanie
tytułu zawodowego.
Data Podpis kierującego pracą
Analiza korespondencji
i jej zastosowania
Oświadczenie autora pracy
w naukach społecznych
Świadom odpowiedzialności prawnej oświadczam, że niniejsza praca dyplomowa
została napisana przez mnie samodzielnie i nie zawiera treści uzyskanych w sposób
niezgodny z obowiązującymi przepisami.
Oświadczam również, że przedstawiona praca nie była wcześniej przedmiotem procedur
Praca magisterska
związanych z uzyskaniem tytułu zawodowego w wyższej uczelni.
na kierunku Socjologia
w zakresie Socjologia
Oświadczam ponadto, że niniejsza wersja pracy jest identyczna z załączoną wersją
elektroniczną.
Data Podpis autora pracy
Praca wykonana pod kierunkiem
dr. hab. Jana Poleszczuka
Instytut Socjologii Uniwersytetu Warszawskiego
Warszawa, pazdziernik 2005
- 2 -
SPIS TREŚCI:
Streszczenie
1. Wprowadzenie............................................................................................................... 5
1.1. Charakterystyka analizy korespondencji............................................................... 6
Przedmiotem pracy jest analiza korespondencji  technika analizy danych
1.2. Geneza analizy korespondencji  analyse des donnes vs. data analysis............. 7
statystycznych służąca m.in. do graficznego przedstawienia w niskowymiarowej
1.3. Techniki tworzenia map percepcyjnych................................................................ 9
1.4. Zastosowania ....................................................................................................... 11
przestrzeni numerycznych danych zawartych w tabeli kontyngencji. Poza przedstawieniem
2. Formalny model analizy korespondencji..................................................................... 13
formalnego modelu tej techniki zostaną zaprezentowane ramy teoretyczne oparte na
2.1. Skala nominalna .................................................................................................. 13
2.2. Statystyka chi kwadrat......................................................................................... 14
koncepcji schematów poznawczych oraz teorii przestrzeni konceptualnych Petera
2.3. Analiza korespondencji  podstawowe pojęcia................................................... 16
Grdenforsa, które pozwalają na zastosowanie analizy korespondencji do konstruowania
2.4. Obliczenia w analizie korespondencji ................................................................. 17
2.4.1. Profile i masy, macierz korespondencji....................................................... 18
map percepcyjnych. Ponadto zaproponowane zostanie udoskonalenie samej mapy
2.4.2. Inercja układu i algorytm SVD.................................................................... 23
korespondencji poprzez zawarcie na niej informacji o masach wierszowych
2.4.3. Obliczanie współrzędnych........................................................................... 30
2.5. Interpretacja wyników ......................................................................................... 33
i kolumnowych.
2.6. Dystanse............................................................................................................... 38
2.7. Rotacja i skalowanie mapy.................................................................................. 40
2.8. Zakłócenia ........................................................................................................... 42
3. Postrzeganie, kategoryzacja, podobieństwo, przestrzenie konceptualne, mapy
percepcyjne.......................................................................................................................... 44
3.1. Kategoryzacja ...................................................................................................... 44
3.1.1. Model porównywania własności ................................................................. 45
3.1.2. Podejście prototypowe................................................................................. 46
Słowa kluczowe
3.1.3. Podejście wzorcowe .................................................................................... 50
3.1.4. Podejście sieciowe....................................................................................... 51
analiza korespondencji, SVD, mapy percepcyjne, przestrzenie konceptualne,
3.2. Własności............................................................................................................. 52
metryka chi kwadrat, inercja, własności, obiekty, podobieństwo
3.3. Obiekty i podobieństwo....................................................................................... 57
3.4. Redukcja wymiarów............................................................................................ 59
3.5. Procedura pomiarowa.......................................................................................... 63
3.6. Preklasyfikacja respondentów ............................................................................. 66
4. Przykłady zastosowań analizy korespondencji............................................................ 73
4.1. Badanie postrzegania polityków  wyniki i analiza ............................................ 73
4.2. Zastosowanie analizy korespondencji do sieci afiliacji....................................... 84
4.3. Zanieczyszczenie województw............................................................................ 89
4.4. Wyniki wyborów do Sejmu z 2005 r................................................................... 92
Dziedzina pracy (kody wg programu Socrates-Erasmus)
5. Zakończenie................................................................................................................. 96
6. Bibliografia.................................................................................................................. 97
14.2 Socjologia
7. Aneks......................................................................................................................... 100
7.1. Kod programu do obliczania współrzędnych głównych w programie MatLab
(oprac. Filip Tomaszewski) ........................................................................................... 100
7.2. Ankieta użyta do badania postrzegania polityków............................................ 101
7.3. Ilustracja współzależności wartości inercji całkowitej układu i rozrzutu punktów
profili w przestrzeni....................................................................................................... 102
7.4. Tabela kontyngencji do przykładu z rozdziału 4.4............................................ 106
- 3 - - 4 -
można przygotować dane używane do konstruowania map percepcyjnych poprzez
preklasyfikację respondentów. Dzięki tej operacji uzyskać można bardziej rzetelne wyniki.
1. Wprowadzenie
W rozdziale czwartym przedstawię przykładowe zastosowania analizy
korespondencji. Na początku zaprezentuję wyniki przeprowadzonego przez siebie badania
Niniejsza praca ma na celu przybliżenie bardzo interesującej i posiadającej duży
postrzegania polityków. W ich analizie wykorzystałem tę technikę do konstruowania map
potencjał aplikacyjny techniki analizy danych  analizy korespondencji. Technika ta
percepcyjnych. Pokażę ponadto trzy inne ciekawe przykłady zastosowania tej techniki
zyskuje sobie w ostatnim czasie coraz więcej zwolenników, czego dowodem może być
analizy danych.
rosnąca liczba publikacji  zarówno tych na jej temat, jak i wykorzystujących ją
(Beh, 2004b). Można jej używać do graficznej reprezentacji tabeli kontyngencji, a także do
bardziej wyrafinowanych przedsięwzięć badawczych, takich jak np. tworzenie map
percepcyjnych (Fiedler, 1996).
1.1. Charakterystyka analizy korespondencji
W pracy tej przedstawione zostaną założenia teoretyczne i metodologiczne, a także
Analiza korespondencji to  w największym skrócie  technika, która pozwala
różne sposoby aplikacji tej techniki w naukach społecznych. Ponadto zaproponowane
graficznie przedstawić w niskowymiarowej przestrzeni numeryczne dane zawarte w tabeli
zostanie udoskonalenie samej mapy korespondencji poprzez zawarcie na niej informacji
kontyngencji. Technika ta należy zatem  obok skalowania wielowymiarowego, analizy
o masach wierszowych i kolumnowych.
głównych składowych oraz analizy czynnikowej  do klasy technik redukcji danych.
W rozdziale pierwszym dokonam krótkiej charakterystyki analizy korespondencji 
Redukcja danych najczęściej wiąże się z utratą pewnej ilości informacji, co jest ceną, jaką
pokażę, gdzie pośród innych metod statystycznej analizy danych się sytuuje, jaka była jej
badacz płaci za zwiększenie przejrzystości tych danych i  tym samym  ułatwienie ich
geneza, a także zasygnalizuję problem zastosowania tej techniki w sposób inny niż
interpretacji. Ułatwienie wglądu w dane empiryczne i ułatwienie ich interpretacji ma
tradycyjny.
szczególnie duże znaczenie przy bardzo bogatych zestawach danych, kiedy konieczne jest
W rozdziale drugim przedstawię matematyczny algorytm, który jest
zanalizowanie zmiennych o wielu wartościach. Za procedurą redukcji danych może
wykorzystywany w tej technice. Wykonam krok po kroku obliczenia na autentycznych
ponadto stać przeświadczenie o tym, że w zebranej informacji występują jakieś ukryte
danych, pokazując, jak z tablicy kontyngencji uzyskać macierz współrzędnych
wzory, swoiste zależności, które wiążą wartości zmiennych ze sobą i które pozwalają
potrzebnych do wykonania mapy korespondencji.
przewidywać wartości jednej zmiennej przy pomocy wartości innej zmiennej. W analizie
Rozdział trzeci będzie kluczowy dla rozwiązania zasygnalizowanego pod koniec
wielowymiarowej badacz ma często do czynienia z redundancją zmiennych  wiele
rozdziału pierwszego problemu  zastosowania analizy korespondencji do konstruowania
wskazników mierzy te same zmienne ukryte (latentne). Dzięki analizie wielowymiarowej
map percepcyjnych przy użyciu danych, które nie mają charakteru frekwencyjnego.
możliwe jest m.in. sprawdzenie, które wskazniki mierzą te same zmienne ukryte. To daje
Wykorzystując teorie wyjaśniające ludzkie procesy postrzegania i kategoryzacji oraz teorię
możliwość zmniejszenia liczby zmiennych, dzięki czemu można poznać najistotniejsze
przestrzeni konceptualnych Petera Grdenforsa zawartą w jego książce pt.: Conceptual
informacje kryjące się w danych.
spaces. The geometry of thought (Grdenfors, 2000), postaram się wykazać, że analiza
Analizę korespondencji zalicza się ponadto do tzw. niepełnych metod
korespondencji może być dobrym narzędziem do tworzenia map percepcyjnych. Moim
taksonomicznych (Górniak, 2000: 115 134). Jest ona techniką eksploracyjnej analizy
celem będzie pokazanie, że redukcja wymiarów, jaka dokonuje się dzięki algorytmowi
danych, której celem jest odkrywanie struktur i wzorów w zbieranych danych. Niepełność
wykorzystywanemu w analizie korespondencji, odpowiadać może mechanizmowi
tej techniki wiąże się z faktem, że identyfikacja i zaliczanie analizowanych obiektów do
kognitywnemu, za pomocą którego umysł ludzki kategoryzuje przedmioty z otaczającego
skupień następuje w toku interpretacji przestrzennej konfiguracji wyników, nie zaś
świata, uznając jedne za bardziej podobne do innych. W rozdziale tym pokażę ponadto, jak
- 5 - - 6 -
w wyniku jednoznacznego przyporządkowania dokonywanego przez algorytm. Tak więc
***
to od intuicji socjologicznej badacza, a także oczekiwań wynikających z teorii zależy,
w jaki sposób zinterpretuje on otrzymane wykresy i czy uda mu się skojarzyć odkryte
Na czym polega francuski sposób stosowania statystyki? Czym różni się tzw.
w mapach analizy korespondencji wzorce ze znanymi zjawiskami w taki sposób, aby móc
analyse des donnes od anglosaskiego data analysis? W odpowiedzi na te pytania zawiera
sensownie wyjaśnić badany fragment rzeczywistości.
się po trosze charakterystyka analizy korespondencji, jakiej dokonałem powyżej, a więc:
Wreszcie jest analiza korespondencji techniką eksploracyjną, bardzo typową 
eksploracyjność i to, że jest to niepełna metoda taksonomiczna. Otóż we francuskim
można powiedzieć  dla francuskiej socjologii ilościowej. Nazwa  l analyse des
modelu analiza danych rzadko jest wykorzystywana jako operacja poprzedzająca analizę
correspondances  została ukuta w latach 60. ubiegłego stulecia przez francuskiego
konfirmacyjną, weryfikującą hipotezy teoretyczne, których była jednym ze zródeł. Jest ona
lingwistę Jean-Paula Benzcriego (Benzcri, 1992). To Benzcri zaproponował
raczej zaledwie jednym z całego zestawu narzędzi, przy pomocy których dokonuje się
geometryczny sposób przedstawienia wyników w postaci mapy korespondencji.
opisu społeczeństwa i wymiarów społecznego uniwersum. Uważa się, że zmienne nie
figurują same w sobie, ale raczej poprzez klasy zjawisk, które wyróżniają. Przedmiotem
komentarza socjologicznego są szczególne konfiguracje klas i ich własności. Końcowe
uogólnienie postępuje przy pomocy retoryki różnej od retoryki nauk przyrodniczych.
1.2. Geneza analizy korespondencji  analyse des donnes vs. data analysis
Argumentów w tym przypadku dostarcza zestawianie podobnych konfiguracji
(DesrosiŁres, 2001). Benzcri zwykł był mówić, że to  model powinien podążać za
Teoretycznymi zagadnieniami związanymi z analizowaniem danych numerycznych
danymi , a nie na odwrót. W praktyce badawczej oznacza to, że badacz, otrzymując dane
zawartych w tabeli kontyngencji zajmowało się przed Benzcrim wielu uczonych. Można
empiryczne, eksploruje je przy użyciu takich technik jak np. analiza korespondencji
tu wymienić m.in. Karla Pearsona (twórcę współczynnika korelacji w dwudzielnej tablicy
i dokonuje interpretacji otrzymanych wyników, przy czym wynikiem są właśnie te
kontyngencji), H. O. Hirschfelda (autora wzoru na korelację pomiędzy rzędami
szczególne konfiguracje klas i ich własności.
i kolumnami tablicy kontyngencji), Louisa Guttmana (twórcę skalowania optymalnego,
W ten sposób postępował m.in. jeden z najsłynniejszych francuskich socjologów
która to technika była fundamentem wielokrotnej analizy korespondencji) (Beh, 2004a).
Pierre Bourdieu. W książce La disctinction Bourdieu (1979) użył analizy korespondencji
Jednakże wszyscy ci badacze podchodzili do problemu bardziej od strony algebraicznej.
do badania stylów życia francuskiego społeczeństwa.
Dopiero Benzcri wraz ze swymi współpracownikami podeszli do zagadnienia od strony
Takie zastosowanie statystyki stoi w opozycji do sposobu, w jaki zwykli stosować
geometrycznej, nadając analizie korespondencji taką formę, jaką ma obecnie, a więc
statystykę socjologowie w krajach anglosaskich. Tam metody statystyczne  tzw. data
graficznej reprezentacji w najczęściej dwuwymiarowym układzie kartezjańskim
analysis  wyróżniają analizę eksploracyjną, która poprzez metody badania i wizualizację
numerycznych danych zawartych w tablicy kontyngencji. Przez długi czas dokonania
pozwala na formułowanie pierwszych hipotez lub szkiców modeli probabilistycznych,
grupy Benzcriego nie były popularyzowane ze względu na barierę, jaką okazał się język
które testowane są następnie przy pomocy analizy konfirmacyjnej. Krótko mówiąc,
francuski, w którym były publikowane.
postępowanie przebiega w odwrotnym kierunku, niż to się dzieje w tradycji francuskiej:
W 1973 r. współpracę z Benzcrim rozpoczął Greenacre, czego owocem było
najpierw konstruuje się model, umieszczając w nim zmienne, które podejrzewa się
opublikowanie w 1984 r. książki pt.: Theory and applications of correspondence analysis.
o wpływ na interesujące badacza zjawisko, a następnie sprawdza się, jak (i czy w ogóle)
Dzięki jasnemu i przystępnemu opisowi metodologii oraz przedstawieniu przykładów
model ten pasuje do danych empirycznych. W związku z tym, że na ogół model nie do
zastosowania, a także dzięki temu, że napisana została w języku angielskim, książka ta
końca pasuje do tych danych, pojawia się konieczność jego modyfikacji, nadając całemu
przyczyniła się do spopularyzowania tej techniki i jest obecnie jedną z najczęściej
procesowi badawczemu swoiście iteracyjny charakter.
cytowanych książek z tej dziedziny statystyki (Stanimir, 2005: 17).
- 7 - - 8 -
W ostatnim czasie pojawiają się wszakże próby łączenia analizy korespondencji Poza analizą korespondencji istnieją także inne techniki służące do eksploracji map
z takim technikami jak regresja logistyczna czy regresja liniowa w celu nadania jej percepcyjnych, takie jak: analiza czynnikowa, analiza głównych składowych, analiza
charakteru techniki konfirmacyjnej. dyskryminacyjna czy skalowanie wielowymiarowe (ang. multidimensional scaling). M. T.
Higgs (1991) w swoim artykule pt.: Practical and Innovative Uses of Correspondence
Analysis przedstawia niedogodności i ograniczenia tych technik analitycznych.
Analiza głównych składowych operuje na poziomie niezagregowanym na
1.3. Techniki tworzenia map percepcyjnych
zmiennych mierzonych na skalach interwałowych. W efekcie tworzona jest macierz
korelacji, a algorytm zasadniczo polega na  wiązaniu atrybutów w ortogonalne wobec
Mapy percepcyjne stanowią swoisty nieuświadamiany konstrukt w ludzkich
siebie czynniki. Następnie uzyskiwana jest macierz F czynników J marek (F < J).
umysłach służący do organizowania wiedzy o obiektach z otaczającego świata. Ludzie nie
Uznaje się, że czynnik reprezentuje ukryty wymiar znaczeniowy. Graficzna reprezentacja
zdają sobie sprawy z ich istnienia, chociaż posługują się nimi w życiu codziennym. Myśląc
zredukowanej macierzy dokonywana jest poprzez umieszczanie marek w różnych
na przykład o partiach politycznych, każdy (kompetentny w tej materii) człowiek jest
przestrzeniach czynnikowych. Zaletą tej techniki jest to, że posługuje się ona przestrzenią
w stanie przyporządkować poszczególnym partiom cechy charakterystyczne  np. czy dana
euklidesową, przez co jest łatwa w interpretacji. Jednakże posiada ona także wiele
partia jest liberalna, socjaldemokratyczna, ludowa; czy głosują na nią raczej ludzie
niedogodności, wśród których wymienić należy m.in. fakt, że możliwe jest  zmapowanie
z wykształceniem wyższym, czy niższym; czy w swoich postulatach dana partia skupia się
jedynie dwóch wymiarów na raz (na dwuwymiarowej płaszczyznie), co spowalnia
raczej na walce z bezrobociem, na rozwoju gospodarczym, czy na równouprawnieniu
eksplorację. Poza tym konieczne jest przypisanie znaczenia do każdego z wymiarów, które
kobiet.
raz nazwane w procesie subiektywnej interpretacji, są trudne pózniej do reinterpretacji
Dostępu do tych map nie można uzyskać drogą bezpośrednią  tzn. spytać się
i przedefiniowania (Higgs, 1991).
respondenta, jak wygląda jego mapa percepcyjna pewnej klasy obiektów, np. partii
Analiza dyskryminacyjna nie jest wolna od wad, o których wspomniano powyżej.
politycznych czy marek samochodów. Jedyną drogą uzyskania wglądu w nie jest pośrednie
Poza tym jej słabością jest niebezpieczeństwo występowania korelacji pomiędzy
pytanie. Np. o to, w jakim stopniu obiekty, których percepcyjna mapa nas interesuje,
analizowanymi atrybutami, co może prowadzić do zakłóceń w otrzymywanych wynikach.
posiadają jakieś atrybuty, czy też, w jakim stopniu obiekty są do siebie podobne.
Zaletą skalowania wielowymiarowego w jego niemetrycznej postaci jest to, że nie
Większość technik, które służą do tworzenia map percepcyjnych składa się z trzech
wymaga, aby zmienne mierzone były na skalach interwałowych  możliwe jest stosowanie
kroków:
skal porządkowych. Najczęściej stosowana operacjonalizacja tej techniki polega na
transformacji lub ważenia danych,
porównywaniu przez respondenta poszczególnych marek ze sobą. Należy zwrócić uwagę
ustalenia podstawowych osi (wymiarów) poprzez algorytm SVD,
na to, że w takim badaniu abstrahuje się od własności, które badane obiekty posiadają.
na końcu tworzona jest mapa w układzie współrzędnych.
Dopiero dzięki graficznej reprezentacji na niskowymiarowej przestrzeni można próbować
W przypadku danych typu marka/atrybut większość technik wymaga od
wskazywać własności, które są wspólne obiektom.
respondentów, aby ocenili marki na każdym z atrybutów używając przy tym skali lub też
skojarzenia atrybutów z markami. Skutkuje to uzyskaniem macierzy wartości średnich lub
stopnia asocjacji I atrybutów na J marek (Higgs, 1991: 183-194). Wszystkie te techniki
mają jedno poważne ograniczenie operacyjne, od którego wolna jest analiza
korespondencji. Wymagają one mianowicie, aby analizowane zmienne mierzone były na
skalach interwałowych lub ilorazowych.
- 9 - - 10 -
korzyści. Natomiast wyjście poza zastosowania frekwencyjne otwiera przed badaczem
1.4. Zastosowania
pole do bardzo ciekawych aplikacji.
Analizę korespondencji w jej tradycyjnej postaci wykorzystuje się do analizy
Te dwa powody skłaniają mnie do sprawdzenia, czy stosowanie analizy
danych mających charakter frekwencyjny, tzn. analizowana jest tabela kontyngencji,
korespondencji w nietradycyjnej formie da się uprawomocnić. Jednym z głównych celów
w której komórkach znajdują się liczebności obserwowanych przypadków. W dalszym
niniejszej pracy jest zaproponowanie ram teoretycznych, która pozwoli uzasadnić inne
ciągu niniejszej pracy będę się starał wykazać, że istnieje możliwość poszerzenia dziedziny
zastosowania tej techniki.
zastosowań analizy korespondencji do tabel, w których występują innego rodzaju niż
liczebności dane numeryczne, ale takie, które sensownie można dodawać w wierszach
i kolumnach (Zeliaś, 2004). Sensownie znaczy w tym przypadku, że operacji dodawania
elementów znajdujących się w wierszach i kolumnach można nadać znaczenie czy to
socjologiczne, czy to praktyczne.
Uważam za ważne wykazanie istnienia możliwości zastosowania analizy
korespondencji do danych, które nie mają charakteru frekwencyjnego. Istnieją ku temu co
najmniej dwa istotne powody. Po pierwsze, w praktyce badań marketingowych technika ta
jest już od dawna często wykorzystywana właśnie do takich danych1. Analiza
korespondencji ma tę zaletę, że jest łatwa w odbiorze dla laików nie mających na co dzień
do czynienia z wynikami analiz statystycznych. Wystarczy praktycznie kilka krótkich
wskazówek dotyczących prawidłowego odczytywania wykresów oraz zastrzeżeń, jak tych
wykresów nie należy odczytywać, a cały układ profili znajdujących się na mapie
korespondencji będzie zrozumiały i w miarę łatwy do interpretacji. W sytuacji, kiedy
omawiana przeze mnie technika stosowana jest mimo braku teoretycznej podbudowy dla
takiego zastosowania, możemy mówić o swoistej statystycznej anomii  praktyka
wyprzedza teorię.
Drugim powodem jest to, że analiza korespondencji ma duży potencjał, który może
zostać wykorzystany do przeprowadzania bardzo ciekawych badań (głównie mam tu na
myśli badanie map percepcyjnych, jednakże interesujących zastosowań z pewnością
znajdzie się więcej). Ograniczanie się do zastosowań frekwencyjnych nie wydaje się aż tak
ciekawe, bowiem samo odwzorowanie danych numerycznych na płaszczyznie układu
kartezjańskiego nie niesie oprócz ułatwienia interpretacji tych danych dodatkowych
1
W badaniach marketingowych respondenci są np. pytani o to, w jakim stopniu (w skali, dajmy na to, od 0
do 100, gdzie 0 oznacza w bardzo dużym stopniu, a 100  w bardzo małym stopniu) kolejne produkty (np.
marki samochodów) posiadają każdą z zestawu cech (np. bezpieczny, luksusowy, ekologiczny). Przy tego
rodzaju sformułowaniu pytania w komórkach tabelki, którą w dalszym ciągu wykorzystamy do
przeprowadzenia analizy korespondencji, nie znajdują się liczebności. Są to innego rodzaju liczby (np.
średnie ocen, suma przyznanych punktów), a więc konieczne jest wykazanie, że interpretacja wyników
algorytmu stosowanego w opisywanej przeze mnie technice jest możliwa także w przypadkach, gdy dane
wejściowe nie posiadają charakteru frekwencyjnego.
- 11 - - 12 -
2. Formalny model analizy korespondencji
Głównym zastosowaniem analizy korespondencji jest przekształcanie macierzy
2.2. Statystyka chi kwadrat
danych liczbowych w wykres graficzny, którego zadaniem jest ułatwienie analizy
Dla skal nominalnych możliwe jest natomiast ustalenie związku o innym
i interpretacji informacji zawartej w tej macierzy (Greenacre, 1994: 3). Pierwotnie technika
charakterze, niż ma to miejsce przy regresji. Stosując statystykę chi kwadrat, możemy
ta była używana do analizy tzw. tabel kontyngencji, czyli rozkładów łącznych dwu
ustalić, jakie jest prawdopodobieństwo, że odrzucając hipotezę zerową o niezależności
zmiennych mierzonych zazwyczaj na skalach nominalnych.
rozkładu2 popełnimy tzw. błąd pierwszego rodzaju, czyli odrzucimy ją w sytuacji, gdy jest
ona prawdziwa. Statystyka chi kwadrat jest używana do porównywania obserwowanych
liczebności rozkładu dwu zmiennych z liczebnościami rozkładu hipotetycznego, który
2.1. Skala nominalna
spełnia określone założenie dotyczące tych dwu zmiennych (zazwyczaj jest to założenie
o niezależności stochastycznej). W takim hipotetycznym rozkładzie przyjmuje się, że
Skala nominalna uznawana jest za najsłabszą ze skal. Jej podstawową funkcją jest
częstości łączne w komórkach równe są iloczynowi odpowiadających im częstości
zdawanie sprawy z operacji stwierdzenia różności lub tożsamości pomiędzy badanymi
brzegowych. Oznacza to, że obserwacje rozkładają się losowo w każdej komórce. To jest
obiektami. Innymi słowy, przy pomocy skali nominalnej dokonujemy klasyfikacji badanej
właśnie istota niezależności stochastycznej:
zbiorowości na rozłączne i wyczerpujące podzbiory. Tak jak w przypadku skal
pij = pi " p
(2.1.)
j
mocniejszych (porządkowej, interwałowej czy ilorazowej) możliwe jest uporządkowanie
bądz też zmierzenie obiektów, tak w przypadku skali nominalnej badane obiekty można
jedynie nazwać, przyporządkowując je tym samym do poszczególnych klas. Można to gdzie:
uczynić, stosując zmienne dychotomiczne, które dzielą spektrum zmienności na jedynie pij - częstość łączna,
dwie kategorie (np. zmienna  płeć dzieląca ludzi na mężczyzn i kobiety). Możliwe jest
pi , p - częstości brzegowe kolumn i wierszy.
j
także zastosowanie zmiennych politomicznych, które dzielą spektrum zmienności na wiele
Statystyka chi kwadrat jest definiowana jako suma stosunków kwadratów odchyleń
kategorii (przykładami takich zmiennych są np. kolory, wykonywane zawody, miasta).
liczebności obserwowanych od liczebności hipotetycznych do liczebności hipotetycznych:
Kiedy dysponuje się informacjami o dwu zmiennych dla jakiejś klasy obiektów
badanych, chciałoby się sprawdzić, czy istnieje jakiś związek pomiędzy tymi zmiennymi,
n m
(hij - nij )2
(2.2.)
tzn. czy posiadając informację o wartości jednej zmiennej, można przewidywać wartość
ż2 =
""
hij
i j
drugiej zmiennej.
Stosowanie zmiennych nominalnych nakłada jednakże pewne ograniczenia na gdzie:
możliwości takiej analizy. Ograniczenia skal nominalnych ujawniają się, gdy chcemy
hij  liczebność hipotetyczna,
badać związek pomiędzy dwiema lub większą liczbą zmiennych. Aby zmierzyć siłę
nij  liczebność empiryczna.
związku między dwiema zmiennymi mierzonymi na skali nominalnej, możliwe jest
wykorzystanie regresji I rodzaju modalnych oraz korelacji parami. Niedostępne są
natomiast inne metody, których używa się dla silniejszych skal, takie jak regresja liniowa,
2
współczynnik korelacji czy analiza wariancji.
Hipoteza zerowa nie musi koniecznie mówić o niezależności rozkładu. Możliwe jest badanie odchyleń od
innego zadanego rozkładu.
- 13 - - 14 -
Należy pamiętać, że wartość statystyki chi kwadrat jest wprost proporcjonalnie
zależna od wielkości badanej próby i że poziom istotności informuje jedynie
2.3. Analiza korespondencji  podstawowe pojęcia
o prawdopodobieństwie popełnienia błędu pierwszego rodzaju. Nie można natomiast
z poziomu istotności wnioskować na temat siły tego związku (Blalock, 1975: 255 256).
W analizie korespondencji stosowane są raczej terminy algebraiczne
Jedną z miar, która jest niezależna od wielkości próbki i liczby komórek, która
i geometryczne niż statystyczne. W zasadzie jedynym statystycznym pojęciem, którego się
służy do pomiaru niezależności stochastycznej jest współczynnik V-Cramera. Jest to
używa w tej technice, jest chi kwadrat. Statystyka ta związana jest nieodłącznie z tabelami
pierwiastek ze stosunku chi kwadrat do iloczynu liczebności próby i pomniejszonej o 1
kontyngencji, które są jednym z typów danych wejściowych w analizie korespondencji.
mniejszej z liczb komórek lub wierszy:
***
ż2
Jak już wspomniałem, pierwotnym zastosowaniem analizy korespondencji było
(2.3.)
V =
n(min(I, J ) -1)
graficzne przedstawienie rozkładu łącznego dwu zmiennych kategorialnych. Jednak od
dłuższego już czasu stosowanie tej techniki wykracza poza dane o charakterze
frekwencyjnym. Bardzo często bowiem spotyka się stosowanie jej na innego rodzaju
Współczynnik V-Cramera jest współczynnikiem zestandaryzowanym, tzn.
danych wejściowych.
przyjmuje wartości z przedziału od 0 do 1. Wartości wysokie, bliskie jedynki, przyjmuje
W dalszej części tej pracy zamierzam m.in. pokazać, na jakiego typu danych można
wówczas, kiedy układ wykazuje dużą zależność stochastyczną; w odwrotnym wypadku
ją stosować. Natomiast w tym rozdziale, oprócz przedstawienia i objaśnienia
przybiera wartości bliskie zeru.
najważniejszych terminów analizy korespondencji, postaram się wykazać, że technika ta
Także tzw. średni kwadrat wielodzielczy (Stanimir, 2005: 16) zdaje sprawę z siły
daje się stosować do każdego rodzaju macierzy zawierających nieujemne wartości, których
związku pomiędzy dwiema zmiennymi nominalnymi, nie będąc jednocześnie zależnym od
dodawanie ma sens (Zeliaś, 2004).
liczebności próby:
Podstawowymi pojęciami w analizie korespondencji są:
ż2
2
(2.4.)
 =
profile wierszowe i kolumnowe
n
masy
algorytm SVD
Innymi wskaznikami siły związku dla skal nominalnych są: C-Pearsona,
dystanse
T-Czuprowa, Ć-Yule a (czyli pierwiastek ze średniego kwadratu wielodzielczego).
inercja.
Wszystkie one mają charakter globalny, tzn. mówią, jak silna jest zależność między
cechami, jednak nie zdają sprawy z powiązań pomiędzy poszczególnymi kategoriami
zmiennych.
Statystyka chi kwadrat znajduje pośrednio zastosowanie także w algorytmie analizy
korespondencji. Dokładniej rzecz biorąc, algorytm analizy korespondencji stosuje metrykę
chi kwadrat do ustalania dystansów pomiędzy poszczególnymi profilami. W dalszej części
tego rozdziału to zagadnienie zostanie przedstawione dokładniej.
- 15 - - 16 -
2.4. Obliczenia w analizie korespondencji
Przejdzmy teraz do opisu algebraicznego algorytmu wykorzystywanego w analizie
korespondencji3. Za przykład posłużą nam wyniki badania Fishera, który sprawdzał
zależność pomiędzy kolorem włosów a kolorem oczu. Badanie zostało przeprowadzone
w latach 30. minionego stulecia w Wielkiej Brytanii. Jego wyniki zostały przytoczone
przez Erica J. Beha w artykule Simple Correspondence Analysis: A Bibliographic Review
(Beh, 2004a).
Tabela 2.1. Rozkład łączny liczebności
blondyni rudzi szatyni ciemnowłosi bruneci RAZEM
niebieskie 326 38 241 110 3 718
jasne 688 116 584 188 4 1580 Rysunek 2.1 Mapa korespondencji z wykorzystaniem współrzędnych głównych
zielone 343 84 909 412 26 1774
ciemne 98 48 403 681 85 1315
RAZEM 1455 286 2137 1391 118 5387
yródło: (Beh, 2004)
2.4.1. Profile i masy, macierz korespondencji
Tabela 2.1 zawiera rozkład liczebności dwu zmiennych  kolor oczu (w wierszach)
Profilami wierszowymi w przypadku tablicy kontyngencji są rozkłady warunkowe
i kolor włosów (w wierszach). Pobieżna analiza liczebności w poszczególnych komórkach
zmiennej kolumnowej ze względu na zmienną wierszową, tzn. częstości każdej komórki
pozwala dostrzec nadreprezentację ciemnookich w kategorii bruneci, nadreprezentację
podzielone przez odpowiadającą im masę (częstość brzegową).
szatynów wśród zielonookich. Trudno jest jednak analizować same wartości bezwzględne.
W rzeczywistości, dokonując takiej analizy, konieczne jest odniesienie się do wartości
Tabela 2.2. Rozkład łączny liczebności
sumy brzegowej. Przyjrzyjmy się teraz, jak wygląda mapa korespondencji tego rozkładu.
p11 p12 ... p1m r1
Rysunek 2.1 przedstawia mapę analizy korespondencji dla danych umieszczonych
p21 p22 ... p2m r2
w tabeli 2.1. W dalszym ciągu przedstawię metodę obliczania współrzędnych profili.
... ... pij ... ri
pn1 pn2 ... pnm rn
c1 c2 c cm 1
j
Możliwe jest jednakże potraktowanie tablicy kontyngencji jak dwuwymiarowej
macierzy. Wtedy będzie ona niczym innym jak wiązką wektorów  wierszowych
i kolumnowych. Każda częstość warunkowa będzie wtedy stanowić współrzędną wektora
wierszowego lub wektora kolumnowego:
3
Poniższy opis zaczerpnięty został z trzeciego rozdziału książki Correspondance Analysis in Social Sciences
autorstwa Micheala Greenacre a i Jorga Blasiusa (Greenacre, 1994).
- 17 - - 18 -
pij c1 j
rij =
(2.5.)
c2 j
ri
 j-ty profil kolumnowy.
...
cnj
Masa to przyporządkowana każdemu profilowi wielkość. W przypadku klasycznej
W ogólniejszym zapisie:
tablicy kontyngencji stanowi ona częstość brzegową, czyli liczebność danego wiersza
pij pij
rij = =
(kolumny) podzieloną przez liczebność całkowitą. Celem tego systemu ważenia jest
(2.6.)
|| ri ||1 k
pij
"
sprawienie, aby każdy respondent w tym samym stopniu  zasilał swoją masą
j
odpowiadający mu punkt profilu (Greenacre, 1994: 10).
gdzie:
Natomiast w ogólniejszych terminach algebraicznych masę można przedstawić jako
xij
pij = , tzw. normę-1 wektora, czyli sumę współrzędnych danego wektora
n k
xij
""
(Kiełbasiński, 1992: 29):
i j
|| ri ||2  norma-1 wektora wierszowego.
1
n
p
ri1 ri2 ... rim  i-ty profil wierszowy
(2.9.)
= xi |
||x|| "|
p
i
Analogicznie profilami kolumnowymi są rozkłady warunkowe zmiennej
1
n n
wierszowej ze względu na zmienną kolumnową.
1
(2.10.)
= xi | = xi |
||x|| "| "|
1
pij i i
(2.7.)
cij =
c
j
Równanie 2.10 na normę-1 wektora to nic innego jak sumowanie współrzędnych
W ogólniejszym zapisie przybiera ono postać:
tego wektora. Zatem dodając częstości i obliczając masę danego profilu liczymy właśnie
pij pij
cij = =
normę-1 tego profilu.
(2.8.)
|| c ||1 k
j
pij
"
j
***
Masy wierszowe obliczymy, sumując liczebności w poszczególnych wierszach
gdzie:
i dzieląc je przez liczebność ogólną n. Analogicznie otrzymamy masy kolumnowe 
xij
pij =
n k
sumując liczebności w poszczególnych kolumnach i dzieląc je przez liczebność ogólną n.
xij
""
i j
W ten sposób otrzymujemy wektory mas wierszowych oraz wektory mas kolumnowych.
|| c ||1  norma profilu kolumnowego. Z tabeli 2.3 wynika, że najliczniejszą kategorię (największą masę) stanowią szatyni,
j
natomiast jeśli chodzi o kolor oczu  tabela 2.4 ukazuje, że najliczniejszą kategorię
stanowią zielonoocy.
- 19 - - 20 -
Tabela 2.3. Masy kolumnowe
blondyni rudzi szatyni ciemnowłosi bruneci
Tabela 2.6. Profile wierszowe
0,270 0,053 0,397 0,258 0,022
blondyni rudzi szatyni ciemnowłosi bruneci RAZEM
yródło: obliczenia własne4 niebieskie 0,454 0,053 0,336 0,153 0,004 1,000
jasne 0,435 0,073 0,370 0,119 0,003 1,000
zielone 0,193 0,047 0,512 0,232 0,015 1,000
ciemne 0,075 0,037 0,306 0,518 0,065 1,000
yródło: obliczenia własne
Tabela 2.4. Masy wierszowe
niebieskie 0,133
Tabela 2.7. Profile kolumnowe
jasne 0,293
blondyni rudzi szatyni ciemnowłosi bruneci
zielone 0,329
niebieskie 0,224 0,133 0,113 0,079 0,025
ciemne 0,244
jasne 0,473 0,406 0,273 0,135 0,034
yródło: obliczenia własne
zielone 0,236 0,294 0,425 0,296 0,220
ciemne 0,067 0,168 0,189 0,490 0,720
RAZEM 1,000 1,000 1,000 1,000 1,000
Kolejnym etapem jest uzyskanie tzw. macierzy korespondencji P, która jest po
yródło: obliczenia własne
prostu rozkładem łącznym liczebności dwu badanych zmiennych. Otrzymujemy ją, dzieląc
każdy z elementów macierzy N przez liczebność ogólną n. Tabela 2.5 ukazuje, że
najliczniejszą kategorią (stanowiącą koniunkcję dwóch zmiennych: kolor oczu i kolor
włosów) są zielonoocy szatyni  0,169. Na drugim miejscu znalezli się jasnoocy blondyni
 0,128.
Tabela 2.5. Macierz korespondencji P  rozkład łączny częstości
blondyni rudzi szatyni ciemnowłosi bruneci
niebieskie 0,061 0,007 0,045 0,020 0,001
jasne 0,128 0,022 0,108 0,035 0,001
zielone 0,064 0,016 0,169 0,076 0,005
ciemne 0,018 0,009 0,075 0,126 0,016
yródło: obliczenia własne
Teraz jesteśmy w stanie uzyskać macierze profili wierszowych i kolumnowych
dzieląc każdy z elementów macierzy P przez odpowiednią masę  wierszową lub
kolumnową. Tabela 2.6 pokazuje m.in., że wśród niebieskookich najliczniejszą grupę
stanowią blondyni (0,454), wśród jasnookich  blondyni (0,453), wśród zielonookich 
Rysunek 2.2 Profile wierszowe
szatyni (0,512), wśród ciemnookich  ciemnowłosi (0,518).
4
Wszystkie obliczenia zostały wykonane w pakiecie MatLab przy użyciu programu, którego kod zródłowy
znajduje się w Aneksie.
- 21 - - 22 -
Musimy wywieść centroid profili wierszowych (czyli wektor mas kolumnowych) 
rTDr-1P = 1T = cT. Macierz A będzie wyglądać następująco:
1 1
-
2 2 (2.11.)
A = Dr- (Dr-1P -1cT )Dc
co po przekształceniu wyniesie:
1 1
-
2 2 (2.12.)
A = Dr- (P - rcT )Dc
Analogicznie będzie wyglądał problem przedstawienia profili kolumnowych
zawierający J profili w kolumnach PDc-1 z masami c w macierzy diagonalnej Dc-1
w przestrzeni określonej przez macierz diagonalną Dr-1. Centroid tych profili to:
cTDc-1PT = 1T PT = rT,
co stanowi wektor mas wierszowych. Mamy zatem macierz:
1 1 1 1
- -1
-
2 2 2 2 (2.13.)
A = Dc (Dc P -1rT )Dr- = Dc (P - crT )Dr-
Rysunek 2.3 Profile kolumnowe
która stanowi transponowaną macierz A z problemu wierszowego. Okazuje się, że
Wykresy profili wierszowych i kolumnowych (rysunek 2.2 oraz rysunek 2.3)
problem przedstawienia zarówno profili wierszowych, jak i kolumnowych może być
pokazują, jak rozkładają się kategorie wierszowe w kategoriach kolumnowych i vice versa.
rozwiązany przy użyciu algorytmu rozkładu macierzy względem jej wartości
Na wykresach pokazano także odpowiednie profile centralne (centroidy), czyli profile,
szczególnych5 (ang. singular value decomposition  SVD) tej samej macierzy A, zwanej
których wartości stanowią kolejne masy brzegowe. W ten sposób możliwe jest
macierzą rezyduów standaryzowanych (tabela 2.8)6:
sprawdzenie, rozkład której kategorii jest najbardziej zbliżony do rozkładu profilu
1 1
- -
(2.14.)
2 2
A = Dr (P - rcT )Dc
centralnego oraz to, która kategoria ma rozkład najbardziej od profilu centralnego
odbiegający. Wśród profili wierszowych od centroidu najbardziej odbiega rozkład
kategorii  ciemne [oczy] , natomiast wśród profili kolumnowych taką kategorią są
z elementami macierzy o rozmiarach IxJ:
 bruneci .
( pij - ric )
j
aij = (2.15.)
ric
j
2.4.2. Inercja układu i algorytm SVD
W tym momencie mamy zebrane wszystkie jednostki konieczne do zdefiniowania
problemu przedstawienia graficznego profili wierszowych i kolumnowych. Skupmy się na
przedstawieniu profili wierszowych. Mamy I profili (w wierszach Dr-1P z masami r
5
W języku polskim spotykane jest także określenie wartości osobliwe.
6
Doskonały opis zasady działania tego algorytmu wykorzystywanego do rozwiązania większości problemów
w macierzy diagonalnej Dr) w przestrzeni określonej przez macierz diagonalną Dc.
liniowych najmniejszych kwadratów znajduje się w podręczniku Numerical Recipies in C: The Art of
Scientific Computing (Press, 1992).
- 23 - - 24 -
Suma kwadratów elementów macierzy A daje wartość inercji całkowitej (ang. total
inertia) układu, która jest równa wartości statystyki chi kwadrat podzielonej przez
Tabela 2.8. Macierz A rezyduów standaryzowanych
blondyni rudzi szatyni ciemnowłosi bruneci
liczebność całkowitą n.
niebieskie 0,129 0,000 -0,035 -0,075 -0,044
jasne 0,172 0,048 -0,023 -0,148 -0,071 Inercja jest terminem zapożyczonym z mechaniki. Przyjmuje się, że każdy obiekt
zielone -0,085 -0,014 0,105 -0,029 -0,028
fizyczny posiada swój środek ciężkości, tzw. centroid. Każdej cząsteczce wchodzącej
ciemne -0,186 -0,036 -0,071 0,252 0,143
w skład tego obiektu można przypisać masę i dystans od centroidu. Moment inercji obiektu
yródło: obliczenia własne
jest zdefiniowany jako suma rd2 dla całego obiektu, gdzie r  to masa cząsteczki, a d 
Aatwo zauważyć, że przemnożone przez liczebność ogólną n kwadraty elementów
dystans cząsteczki od centroidu.
aij stanowią lokalne wartości statystyki chi kwadrat, a ich suma po i oraz po j to wartość
W przypadku analizy korespondencji mamy do czynienia z masami sumującymi się
globalnej statystyki chi kwadrat. Suma kwadratów elementów macierzy A daje wartość
do jedności. Cały układ punktów posiada swój centroid  czyli profil średni. Miarą
inercji całkowitej układu.
dystansu jest metryka chi kwadrat pomiędzy profilami. Wobec powyższego istnieje
I J I J
( pij - ric )2
możliwość wyliczenia inercji tego układu (chmury) punktów. Sumując inercję każdego
j
2
(2.16.)
ż2 = n = n
""aij ""
ric
i j i j
j profilu wierszowego, otrzymamy całkowitą inercję układu.
Istotne jest, że inercja posiada swoją interpretację geometryczną jako miary
rozproszenia profili w wielowymiarowej przestrzeni. Im większa jest inercja układu, tym
Okazuje się, że pierwiastek z sumy kwadratów elementów macierzy A to norma
punkty w tej przestrzeni są bardziej rozproszone. Kiedy wartość inercji wynosi 0, punkty
Frobeniusa, na którą wzór ogólny wygląda następująco:
profili skupiają się w jednym punkcie przestrzeni  jest to stan niezależności
n m
(2.17.)
|| A ||F = aij |2
stochastycznej. W przeciwnym wypadku  gdy inercja osiąga wysoką wartość  punkty
""|
i=1 i=1
profili są maksymalnie rozrzucone. W aneksie (Rysunek 7.1, Rysunek 7.2, Rysunek 7.3)
przedstawiono ilustracje ukazujące współzależność wartości inercji i rozrzutu punktów
Norma Frobeniusa jest normą-2 w Rnm (przy dowolnym uporządkowaniu
profili.
elementów aij, jako składowych wektora tej przestrzeni) (Kiełbasiński, 1992: 28). A więc
norma Frobeniusa spełnia warunki analogiczne do tych, które spełniane są przez normę
Maksymalną wartość całkowitej inercji układu określa następujący wzór:
euklidesową:
(2.18.)
0 d" TotalInertia d" min(I, J ) -1
" ""R
x,y"Rn
gdzie I to liczba wierszy, a J  liczba kolumn.
(N1) || x ||2e" 0 , || x ||2 = 0 ! x = 0 ,
(N2) || x ||2 =|| x ||2|  |
***
(N3) || x + y ||2d"|| x ||2 + || y ||2 .
Przypatrzmy się teraz, na czym z geometrycznego punktu widzenia polega redukcja
wymiarów, czyli dobór takiej podprzestrzeni, która by w jak największym stopniu
pozwalała odwzorować pierwotną przestrzeń.
Dekompozycja macierzy A, zawierającej standaryzowane rezydua, jest
Tak jak w regresji liniowej II rodzaju poszukiwana jest taka prosta, która
jednocześnie dekompozycją statystyki chi kwadrat, która jest proporcjonalna do sumy
minimalizuje kwadraty odchyleń wartości zmiennej od średniej, tak w analizie
kwadratów elementów macierzy A (Greenacre, 1994: 62).
- 25 - - 26 -
korespondencji w celu zredukowania liczby wymiarów poszukujemy niskowymiarowej
przestrzeni, która odwzorowuje najdokładniej jak to możliwe odległości chi kwadrat
pomiędzy profilami.
Inercja układu może być zdekomponowana na dwa składniki w następujący sposób
(patrz rysunek 2.4):
n n n
(2.19.)
di2 = i2 + ei2
"ri "ri "ri
i i i
gdzie:
d  odległość między punktem profilu a profilem średnim
Rysunek 2.4 Rzutowanie profili na płaszczyznę
  odległość między rzutem a profilem średnim
***
e  odległość między punktem profilu a rzutem.
Poprzez zastosowanie algorytmu SVD dla macierzy A otrzymujemy trzy
Pierwszy składnik sumy po prawej stronie równania to inercja na płaszczyznie,
macierze: U, , V:
drugi to inercja rezydualna. W analizie korespondencji bliskość punktów profili do
T
(2.20.)
A = UV
płaszczyzny jest mierzona przez ważoną sumę kwadratów dystansów pomiędzy punktami
a płaszczyzną, czyli inercji rezydualnej, a więc tę wielkość w procesie dopasowania należy
minimalizować. Natomiast minimalizacja inercji rezydualnej jest równoważna
Kolumny macierzy U określają ortonormalną bazę dla profili wierszowych
maksymalizacji pierwszego składnika sumy, czyli inercji na płaszczyznie.
i nazywane są lewymi wektorami szczególnymi macierzy A. Natomiast kolumny macierzy
Rysunek 2.4 przedstawia płaszczyznę w przestrzeni. Nad płaszczyzną znajdują się
VT określają ortonormalną bazę dla profili kolumnowych i nazywane są prawymi
punkty profili. Na płaszczyznie znajduje się punkt profilu średniego oraz rzuty profili.
wektorami szczególnymi macierzy A. Macierze U i V posiadają własność ortogonalności:
Płaszczyzna musi być tak ułożona, aby zminimalizować sumę iloczynów kwadratów
(2.21.)
UTU = VVT = I
odległości między punktami profili a ich rzutami i masami profili. Im mniejsza jest ta
suma, tym lepsze odwzorowanie układu uzyskuje się na płaszczyznie.
Macierz  jest diagonalną macierzą uporządkowanych malejąco wartości
Wielkość inercji rezydualnej mówi o tym, ile inercji układu zostało utracone w toku
szczególnych macierzy A:
redukcji wymiarów. Algorytm SVD wykorzystywany w analizie korespondencji szuka
takiej płaszczyzny, dla której ta strata jest najmniejsza.
- 27 - - 28 -
Ponadto zachodzi jeszcze jedna równość. Mianowicie pierwiastek z sumy
Tabela 2.9. Macierz U zawierająca lewe wektory szczególne macierzy A
kwadratów wartości szczególnych macierzy A określa wartość normy Frobeniusa
0,327 - 0,348 0,799 - 0,365
(Kiełbasiński, 1992: 49), a więc:
0,535 - 0,276 - 0,587 - 0,542
n m
- 0,043 0,811 0,109 - 0,574
2
(2.23.)
|| A ||F = ł12 + ... + ł = aij |2
r ""|
- 0,778 - 0,381 - 0,073 - 0,494
i=1 i=1
yródło: obliczenia własne
gdzie łi są wartościami szczególnymi macierzy A, r = rank(A).
Tabela 2.10. Macierz V zawierająca lewe wektory szczególne macierzy A
W prezentowanym przykładzie okazuje się (tabela 2.12), że pierwszy wymiar
0,633 - 0,521 0,222 - 0,229
wyjaśnia aż 86,6 procent inercji całego układu, drugi już tylko 13,1 procent, a trzeci 
0,120 - 0,064 - 0,928 - 0,345
zaniedbywalne 0,4 procent.
0,059 0,756 0,070 - 0,244
- 0,670 - 0,305 0,175 - 0,630
- 0,363 - 0,244 0,233 0,609
yródło: obliczenia własne
Tabela 2.12. Wartości szczególne, wartości własne (inercje główne), procent inercji wyjaśnionej,
skumulowana wariancja wyjaśniona
Wartości Procent inercji Skumulowana
Tabela 2.11. Macierz  zawierająca na przekątnej wartości szczególne macierzy A
szczególne Wartości własne wyjaśnionej wariancja
k łk k k/ wyjaśniona
0,46 0 0 0
1 0,446 0,199 86,6% 86,6%
0 0,174 0 0 2 0,174 0,030 13,1% 99,7%
3 0,029 0,001 0,4% 100%
0 0 0,029 0
 = 0,23
0 0 0 0,000
yródło: obliczenia własne
yródło: obliczenia własne
2.4.3. Obliczanie współrzędnych
W rozwiązaniu jest K = min[I-1, J-1] wymiarów. Dla opisywanego przykładu
liczba wymiarów wynosi: K = min[3, 4] = 3. Kwadraty wartości szczególnych macierzy
Współrzędne główne otrzymujemy, mnożąc lewe (prawe) wektory szczególne
A (tożsame z wartościami własnymi macierzy ATA lub AAT) dekomponują inercję
macierzy A przez odpowiednie wartości szczególne i dzieląc je przez pierwiastki mas
całkowitą układu; oznaczane są przez: 1, 2, ..., K i nazywane są inercjami głównymi
wierszowych (kolumnowych). Macierz F ze współrzędnymi głównymi (ang. principal
(ang. principal inertias). Podobnie jak w analizie głównych składowych inercje główne
coordinates) dla wierszy uzyskiwana jest przy pomocy wzoru:
1
wyraża się poprzez procent inercji całkowitej, którą każda z nich wyjaśnia.
-
(2.24.)
F = Dr 2U
Okazuje się, że pierwsza z wartości szczególnych macierzy A, równa pierwiastkowi
kwadratowemu pierwszej wartości własnej macierzy ATA, jest tożsama z normą-2
macierzy A, nazywaną normą spektralną macierzy (Kiełbasiński, 1992: 30).
co w zapisie skalarnym wygląda w sposób następujący:
uikł
k
(2.22.)
(2.25.)
fik =
|| A ||2 = max (AT A) = ł1
ri
- 29 - - 30 -
Tabela 2.15. Macierz X zawierająca współrzędne standaryzowane dla profili wierszowych
gdzie i to numer wiersza, a k  numer wymiaru.
K1 K2 K3 K4
0,897 -0,954 -2,188 -1,000
0,987 -0,510 1,084 -1,000
Macierz G ze współrzędnymi głównymi dla wierszy uzyskiwana jest przy pomocy
-0,075 1,413 -0,189 -1,000
wzoru:
-1,574 -0,772 0,148 -1,000
1
-
(2.26.) yródło: obliczenia własne
G = Dc 2V
Tabela 2.16. Macierz Y zawierająca współrzędne standaryzowane dla profili kolumnowych
K1 K2 K3 K4
u ł
0,523 -0,278 4,027 -1,498
jk k
g = (2.27.)
jk
0,094 1,201 -0,110 -0,387
c
j
-1,319 -0,599 -0,345 -1,240
-2,452 -1,651 1,574 4,118
gdzie j to numer kolumny, a k  numer wymiaru.
yródło: obliczenia własne
Tabela 2.13. Macierz F zawierająca współrzędne główne dla profili wierszowych
W praktyce najczęściej używa się map wykorzystujących współrzędne główne.
K1 K2 K3 K4
Greenacre przedstawia krótką charakterystykę takiej mapy (Greenacre, 1994: 21):
0,400 -0,165 0,064 0,000
Zawiera optymalne reprezentacje zarówno wierszowych, jak
0,441 -0,089 -0,032 0,000
-0,034 0,245 0,006 0,000
i kolumnowych profili, mimo że w rzeczywistości profile te istnieją
-0,703 -0,134 -0,004 0,000
w różnych przestrzeniach
yródło: obliczenia własne
Punkty reprezentujące wiersze i kolumny są w równym stopniu
rozmieszczone na mapie, zarówno w kierunku horyzontalnym, jak
Tabela 2.14. Macierz G zawierająca współrzędne główne dla profili kolumnowych i wertykalnym (w ogólności  dla każdej osi głównej)
K1 K2 K3 K4
Uzasadnieniem łączonego przedstawiania jest leżąca u jego podstaw mapa
0,544 -0,174 0,013 0,000
asymetryczna, na której wiersze lub kolumny są uznawane za wierzchołki
0,233 -0,048 -0,118 0,000
0,042 0,208 0,003 0,000
punktów przestrzeni profili. Istnieje stały czynnik skalujący pomiędzy
-0,589 -0,104 0,010 0,000
pozycjami wierzchołków rzutowanymi na mapę optymalną
-1,094 -0,286 -0,046 0,000
a odpowiadającymi im pozycjami profili rzutowanymi na optymalną mapę
yródło: obliczenia własne
o tej samej (niskiej) liczbie wymiarów
Nie można dokonywać bezpośredniej interpretacji odległości pomiędzy
Natomiast, aby uzyskać współrzędne standaryzowane (ang. standard coordinates),
wierszami i kolumnami, jednakże możliwa jest interpretacja łączonej
należy współrzędne główne podzielić przez odpowiadające im wartości szczególne:
1
reprezentacji wierszy i kolumn w odniesieniu do osi głównych mapy.
-
(2.28.)
X = F-1 = Dr 2U
Opozycje lewy-prawy, górny-dolny na mapie są interpretowane w ten sam
sposób zarówno dla wierszy, jak i dla kolumn, a korespondencja pomiędzy
ich odchyleniami od osi może być bezpośrednio interpretowana jako
asocjacja
- 31 - - 32 -
Siła asocjacji między wierszami i kolumnami nie może być w sensie
absolutnym bezpośrednio zaobserwowana na symetrycznej mapie. Można
Tabela 2.17. Inercja każdej osi dla profili wierszowych
K1 K2 K3
o tej sile jedynie wnioskować z wartości liczbowych inercji.
niebieskie
0,0214 0,0036 0,0005
jasne
0,0570 0,0023 0,0003
zielone
0,0004 0,0198 0,0000
ciemne
0,1205 0,0044 0,0000
RAZEM
0,1992 0,0301 0,0009
2.5. Interpretacja wyników
yródło: obliczenia własne
W analizie korespondencji interpretacji poddawana jest przede wszystkim mapa
Kontrybucje wierszy do inercji ogólnej są zwykle definiowane jako komponenty
korespondencji. Zasadniczo interpretacja jest intuicyjna  obiekty położone blisko siebie są
inercji w odniesieniu do ich sumy (inercji ogólnej wiersza k):
podobne, obiekty położone daleko od siebie są od siebie różne. Możliwe jest
2
ri fik
(2.31.)
porównywanie tych odległości w obrębie profili wierszowych oraz w obrębie profili
k
kolumnowych. Należy tu wszakże zrobić ważne zastrzeżenie. Nie jest dopuszczalna
bezpośrednia interpretacja odległości pomiędzy profilami wierszowymi a kolumnowymi.
Tabela 2.18. Procent inercji osi głównych wyjaśnionej przez profile wierszowe
W tym miejscu możliwe jest jedynie stwierdzenie o bliskości (lub oddaleniu) profilu
K1 K2 K3
wierszowego od kolumnowego. Jeśli są blisko siebie, oznacza to, że mają tendencję do
niebieskie
0,1072 0,1212 0,6382
współwystępowania, natomiast jeśli są od siebie oddalone  znaczy to, że jasne
0,2859 0,0764 0,3445
zielone
0,0019 0,6570 0,0120
współwystępowanie danej kategorii zmiennej wierszowej i kolumnowej jest rzadkie
ciemne
0,6050 0,1455 0,0052
(rysunek 2.1).
yródło: obliczenia własne
Wartości własne, czyli kwadraty wartości szczególnych, odpowiadają wartości
inercji wyjaśnionej przez każdą z osi głównych. Im większa część inercji jest wyjaśniana
W ten sposób możemy sprawdzić, które wiersze wnoszą największy wkład do
przez daną oś, tym więcej informacji niesie układ profili na tej osi.
inercji danego wymiaru. Interpretacja wartości kontrybucji (ang. contrubutions to inertia)
Interpretacji mogą podlegać ponadto wartości kontrybucji profili wierszowych
wierszowych jest odmienna w stosunku do interpretacji kwadratów ładunków
i kolumnowych do inercji osi głównych, a także kontrybucje osi głównych do inercji
czynnikowych z analizy głównych składowych. Kwadraty ładunków czynnikowych
profili wierszowych i kolumnowych. Przyjrzyjmy się teraz, jak uzyskać te dane.
mówią, do jakiego stopnia każdy wiersz kategorii i każda kolumna jest opisywana przez
Każda z wartości ogólnej inercji (ang. principal inertia) k może być
daną oś, natomiast kontrybucja do inercji pokazuje, do jakiego stopnia geometryczne
2
zdekomponowana na komponenty ri fik odpowiadające każdemu wierszowi:
ułożenie osi jest zdeterminowane przez pojedynczą zmienną kategorii
2
(Greenacre, 1994: 66).
k = fik
(2.29.)
"ri
i
W tabeli 2.18 widzimy, że w przypadku pierwszej osi (K1) największą  siłę
w zapisie macierzowym: rozpinającą ten wymiar posiada kategoria ciemnych oczu (0,605), natomiast oś druga (K2)
T
(2.30.) rozpinana jest najsilniej przed kategorie zielonych oczu (0,657). Fakty te znajdują swoje
D = F Dr F
odzwierciedlenie na mapie analizy korespondencji przedstawionej na wykresie
- 33 - - 34 -
(rysunek 2.1). Po prawej stronie wykresu widać kategorię  ciemne [oczy] , która jest
wyraznie oddalona od pozostałych kategorii tej zmiennej.
Tabela 2.19. Macierz korelacji parami dwu zmiennych. (**) oznaczają istotność statystyczną korelacji
Kontrybucja kategorii  jasne do pierwszego wymiaru wynosi 0,2859, natomiast na poziomie 0,01, (*) - istotność na poziomie 0,05.
blondyni rudzi szatyni ciemnowłosi bruneci
kontrybucja kategorii  niebieskie do pierwszego wymiaru wynosi 0,1072. Kategoria
niebieskie 0.162(**) 0 -0.049(**) -0.094(**) -0.047(**)
jasne 0.24(**) 0.058(**) -0.036(**) -0.205(**) -0.085(**)
 jasne ma wyższą wartość ze względu na większą masę tego profilu. Z kolei w przypadku
zielone -0.121(**) -0.018 0.166(**) -0.042(**) -0.035(*)
drugiego wymiaru wyraznie widać, że kategoria  zielone znalazła się jako jedyna po
ciemne -0.25(**) -0.042(**) -0.105(**) 0.337(**) 0.166(**)
dodatniej stronie drugiego wymiaru, podczas gdy pozostałe kategorie znajdują się po jego yródło: obliczenia własne7
ujemnej stronie.
Komponenty inercji dla i tego wiersza dla wszystkich K osi (wymiarów) sumują
Mapa (rysunek 2.1) jest  wzbogacona w stosunku do standardowych map analizy
się do inercji i-tego wiersza, którą definiuje się jako iloczyn masy wiersza i kwadratu
korespondencji poprzez zaznaczenie mas każdego profilu  wielkość punktów profili jest
odległości wiersza od centroidu (profilu średniego):
powiązana z masami w ten sposób, że profile o większej masie oznaczone są przy pomocy
pij
( )2
punktów o większej powierzchni. Pozwala to zidentyfikować profile o bardzo małej masie,
(2.32.)
ri - c
j
2
= fik
które mocno rozpinają dany wymiar. Algorytm analizy korespondencji operuje na " "ri
c
j k
j
częstościach względnych, wobec tego kategorie o małych liczebnościach bezwzględnych
mają często tendencję do silniejszej dysproporcji w rozłożeniu mas. W analizowanym
Inercja wierszowa po lewej stronie jest identyczna z sumą kwadratów elementów
przykładzie zjawisko to widać dobrze w przypadku najmniej licznej kategorii  bruneci ,
i-tego wiersza macierzy A:
którzy stanowią jedynie 0,022 całej liczby. W tabeli 2.3 przedstawiającej macierz profili
( pij - ric )2
kolumnowych profil  bruneci wygląda następująco: (0,025, 0,034, 0,220, 0,720). Widać
j
2
(2.33.)
=
"sij "
ric
j j
wyrazną względną nadreprezentację na ostatnim wymiarze. To znajduje swoje j
odzwierciedlenie także w macierzy rezyduów standaryzowanych w tabeli 2.8. Odległość
w komórce na przecięciu  bruneci i  ciemne jest jedną z największych w całym
Kwadraty korelacji wierszy z osiami głównymi (wymiarami) to komponenty inercji
układzie.
2
ri fik wyrażone w odniesieniu do inercji wierszy:
Innym sposobem na sprawdzenie tego, które kategorie mają statystycznie istotnie
2
ri fik
silniejszą tendencję do współwystępowania jest przeprowadzenie korelacji parami (ang.
(2.34.)
2
"sij
pairwise correlation). Tabela 2.19 przedstawia macierz korelacji parami naszych
j
zmiennych. Widać w niej wyraznie silniejszą niż w innych przypadkach dodatnią korelację
między kategoriami  bruneci i  ciemne włosy . Tabela wskazuje ponadto, że w zasadzie
W zredukowanej K*-wymiarowej przestrzeni wyjaśniona inercja może być
wszystkie kategorie (oprócz koniunkcji: rudzi&niebieskie i rudzi&zielone) wykazują
zsumowana dla K* wymiarów w celu otrzymania miary jakości odwzorowania dla każdego
korelacje istotne statystycznie.
wiersza:
7
Korelacje parami policzone zostały przy użyciu Internetowego Pakietu Statystycznego
(http://ips.filip.prv.pl).
- 35 - - 36 -
*
K
2.6. Dystanse
2
fik
"ri
k =1
Jak już wspomniałem, profile wierszowe i kolumnowe to tak naprawdę wektory
(2.35.)
2
"sij
w wielowymiarowej przestrzeni. W tabela 2.6 znajduje się macierz profili wierszowych
j
umieszczonych w pięciowymiarowej przestrzeni (wymiary oznaczane są tu przez kolejne
Jakość odwzorowania i-tego wiersza
wartości zmiennej  kolor włosów ). Wezmy dwa pierwsze profile: pierwszy, oznaczający
ludzi z oczami niebieskimi  (0,454; 0,053; 0,336; 0,153; 0,004), oraz drugi oznaczający
ludzi z oczami koloru jasnego  (0,435; 0,073; 0,370; 0,119; 0,003).
Tabela 2.20 Inercje wierszy
niebieskie
0,0256 Wprawdzie punktu osadzonego w pięciowymiarowej przestrzeni nie możemy
jasne
0,0596
zobaczyć, tak jak moglibyśmy to zrobić, gdyby tych wymiarów było trzy lub mniej, to
zielone
0,0201
jednak mając współrzędne tego wektora, możemy ustalić, jaka jest odległość tego punktu
ciemne
0,1249
od punktów wyznaczanych przez inne profile wierszowe. W tym celu możemy się
yródło: obliczenia własne
posłużyć się metryką euklidesową, czyli obliczeniem odległości w  linii prostej pomiędzy
dwoma punktami. Tak wygląda wzór ogólny na odległość euklidesową dwóch wektorów:
k
Tabela 2.21 Kontrybucje osi głównych do wierszy
dxy = - yi )2 (2.36.)
niebieskie "(xi
0,8358 0,1427 0,0215
i
jasne
0,9564 0,0386 0,0050
gdzie:
zielone
0,0185 0,9810 0,0005
ciemne
0,9649 0,0350 0,0000 dxy  odległość euklidesowa pomiędzy wektorami x oraz y
yródło: obliczenia własne
xi  współrzędna i wektora x
yi  współrzędna i wektora y
Geometrycznie rzecz ujmując, miary jakości odzwzorowania mogą być również
interpretowane jako kwadraty cosinusów kąta pomiędzy każdym profilem wierszowym
i podprzestrzenią zdefiniowaną przez pierwsze K* wymiarów. Miary jakości
Odległość euklidesowa pierwszego od drugiego profilu wierszowe obliczamy
odwzorowania są odpowiednikami communalities w analizie głównych składowych.
zatem w następujący sposób:
Tabela 2.22 pokazuje jakość rozwiązania dwuwymiarowego  zsumowane dwie pierwsze
d12 = (0,454 - 0,435)2 + (0,053 - 0,073)2 + (0,336 - 0,370)2 + (0,153 - 0,119)2 + (0,004 - 0,003)2 = 0,056
kolumny tabeli z kontrybucjami osi głównych do wierszy (tabela 2.21).
(2.37.)
Tabela 2.22 Jakość odwzorowania profili wierszowych przy użyciu rozwiązania dwuwymiarowego
W analizie korespondencji stosowana jest jednakże odmiana metryki euklidesowej
niebieskie
0,9785
 tzn. ważona metryka euklidesowa (Greenacre, 1984: 11). Wagami będą w tym miejscu
jasne
0,9950
zielone
0,9995 kolejne współrzędne średniego profilu wierszowego, czyli profilu złożonego z mas
ciemne
1,0000
kolumnowych. Ważenie odległości masami profilu wierszowego może przywodzić na
yródło: obliczenia własne
myśl wyliczanie statystyki chi kwadrat. Rzeczywiście, jest to analogiczne postępowanie
jak przy wyliczaniu statystyki chi kwadrat, dlatego metrykę tę nazywa się metryką chi
kwadrat:
- 37 - - 38 -
k 2.7. Rotacja i skalowanie mapy
(xi - yi )2
ż
d = (2.38.)
"
xy
ri
i
Nie zawsze jest tak, że układ profili na mapie analizy korespondencji taki, jaki
został uzyskany przy użyciu pierwotnie wyliczonych współrzędnych, można dopasować do
gdzie:
odpowiedniej interpretacji socjologicznej. Czasem konieczna jest rotacja układu
dż xy  odległość chi kwadrat pomiędzy wektorami x oraz y
współrzędnych w celu lepszego (w sensie intuicyjnym) ustawienia osi. Dzięki temu
xi  współrzędna i wektora x
możliwe jest utożsamienie osi z wymiarem odnoszącym się do zjawiska psychologicznego,
yi  współrzędna i wektora y
socjologicznego etc.
r
i  masa wierszowa dla kolumny i
Rotacji dokonuje się poprzez przemnożenie macierzy współrzędnych przez macierz
obrotu o odpowiedni kąt. W wyniku tego działania otrzymujemy nową macierz
Odległość chi kwadrat profilu ludzi z oczami niebieskimi od profilu ludzi z oczami
współrzędnych. Nowy, rotowany układ ma takie same długości wektorów, a więc
jasnymi wynosi zatem:
podstawowa struktura układu pozostaje bez zmian. W wyniku tej operacji zmieniają się
jednakże wartości kontrybucji profili wierszowych i kolumnowych do osi oraz osi do
(0,454-0,435)2 (0,053-0,073)2 (0,336-0,370)2 (0,153-0,119)2 (0,004-0,003)2
(2.39.)
d12 = + + + + = 0,129
0,270 0,053 0,397 0,258 0,022
profili wierszowych i kolumnowych.
Zapis operacji obrotu o kąt Ć współrzędnych dwóch pierwszych wymiarów
Na mapie (rysunek 2.1) widzimy, że te dwa profile są położone blisko siebie.
wygląda następująco:
Sprawdzmy teraz, jaka będzie odległość punktów, które są położone na mapie w większej
F "O = F'
odległości od siebie, np. ludzie z jasnymi oczami i ludzie z oczami ciemnymi.
f11 f12 f ' f '
11 12
f21 f22 cosĆ - sinĆ f ' f '
21 22
" =
(0,435- 0,075 )2 (0,073-0,037)2 (0,370- 0,306)2 (0,119- 0,518)2 (0,003- 0,065)2
(2.40.)
d24 = + + + + = 1,145
f31 f32 sinĆ cosĆ f ' f '
0,270 0,053 0,397 0,258 0,022
31 32
f41 f42 f ' f '
41 42
Widać, że odległość chi kwadrat jest tutaj znacznie większa niż w poprzednim
Na wykresie (rysunek 2.5) jaśniejsze punkty to profile wierszowe (kolor oczu)
przypadku.
z przykładu wyznaczone na podstawie pierwotnych współrzędnych z tabeli 2.13.
Uzasadnieniem dla stosowania w tym miejscu metryki chi kwadrat jest to, że
Jednocześnie przy pomocy ciemniejszych punktów naniesione zostały profile wyznaczone
ważenie kwadratów odległości przez częstość oczekiwaną (masę profilu) standaryzuje
na podstawie rotowanych współrzędnych (kąt rotacji wynosi 30o).
wariancję i sprawia, że wariancja przy wysokich częstościach się zwiększa, a przy małych
W tabeli 2.23 przedstawione zostały kontrybucje profili wierszowych do osi po
częstościach  zmniejsza. W praktyce oznacza to, że gdyby nie było tej standaryzacji, duże
rotacji.
różnice dystansu na poszczególnych wymiarach dominowałyby wartość dystansu
całkowitego, natomiast mniejsze dystanse na poszczególnych wymiarach by zanikały
(Greenacre, 1994: 11 12).
- 39 - - 40 -
2.8. Zakłócenia
Algorytm analizy korespondencji w przypadku niektórych zestawów danych
generuje swoiste zakłócenia, zwane efektem łuku (ang. arch effect) oraz efektem podkowy
(ang. horseshoe effect). Dzieje się tak wtedy, gdy rozkłady niektórych kategorii zmiennych
poddawanych analizie korespondencji są unimodalne. Interpretacja osi pionowej staje się
wtedy utrudniona, gdyż w rzeczywistości jest ona artefaktem  jest ona zakrzywioną
funkcją pierwszej osi. Jednym ze sposobów na zniwelowanie obydwu efektów jest tzw.
Detrended Correspondence Analysis (DCA). Jest to technika, która polega na dzieleniu osi
na segmenty, w obrębie których kategorię z dużymi liczebnościami są na nowo przypisane
w taki sposób, aby koncentrowały się wokół centroidu (Hill, 1980).
Na wykresie (rysunek 2.6) przedstawiona została przykładowa mapa
korespondencji, na której widoczny jest efekt łuku. Tabela kontyngencji, na podstawie
Rysunek 2.5 Profile wierszowe przed i po rotacji
której wykonano tę mapę (tabela 2.24) charakteryzuje się unimodalnością  miernik
zależności modalnych zmiennej kolumnowej ze względu na zmienną wierszową wynosi
Tabela 2.23 Procent inercji osi głównych wyjaśnionej przez profile wierszowe po rotacji
0,282).
K1 K2
Innym problemem pojawiającym się w przypadku niektórych zestawów danych jest
niebieskie 0,1566 0,0074
tzw. kompresja na końcu rozkładów. Na mapie analizy korespondencji punkty grupują się
jasne 0,3390 0,1042
zielone 0,0482 0,2163
wtedy bardzo blisko siebie, co często bardzo utrudnia odczytanie. Jeżeli zmienne mierzone
ciemne 0,4562 0,6720
są na skali interwałowej lub ilorazowej, algorytm DCA może dokonać przeskalowania.
yródło: obliczenia własne
W efekcie punkty na mapie stają się bardziej od siebie oddalone ułatwiając odczyt.
DCA jest często używana na polu badań ekologicznych.
Przeskalowanie jest przydatne, gdy punkty na mapie korespondencji są skupione
blisko siebie. Dzięki tej operacji możliwe jest optyczne zwiększenie rozproszenia tych
punktów, co ułatwia odczytanie mapy. Przeskalowanie nie zmienia kątów pomiędzy
Tabela 2.24
O1 O2 O3 O4 O5 O6 O7 O8 O9 O10 O11 O12 O13
wektorami profili a osiami głównymi.
A1 0 0 0 0 3 0 0 0 2 0 0 0 0
A2 0 5 2 0 2 9 3 0 1 0 0 2 0
A3 0 7 16 3 0 8 14 5 0 0 6 0 4
A4 0 1 5 6 0 1 3 13 0 1 0 3 5
A5 0 0 0 2 0 0 0 2 0 0 0 0 0
A6 1 0 0 0 0 0 0 3 0 0 0 0 0
A7 0 0 0 0 0 0 1 0 0 0 1 1 1
A8 0 0 1 1 0 0 0 0 0 0 0 0 0
yródło: własny przykład
- 41 - - 42 -
3. Postrzeganie, kategoryzacja, podobieństwo, przestrzenie
konceptualne, mapy percepcyjne
W pierwszej części tego rozdziału zamierzam przedstawić kilka teorii
wyjaśniających ludzkie procesy postrzegania i kategoryzowania obiektów z otaczającego
świata. Następnie przedstawię teorię przestrzeni konceptualnych Petera Grdenforsa.
Swoistą wypadkową tego teoretycznego wprowadzenia z dziedziny psychologii
kognitywnej jest koncepcja map percepcyjnych, nieuświadamianych konstruktów, przy
pomocy których ludzie dokonują kategoryzacji. Całość posłuży mi za podbudowę
teoretyczną dla aplikacji analizy korespondencji przy konstruowaniu takich map. Postaram
się sprawdzić, czy posługując się tą techniką analizy danych, można sensownie
reprezentować mapy percepcyjne, biorąc za podstawę kwestionariusz składający się z serii
pytań o to, w jakim stopniu pewne obiekty posiadają poszczególne cechy.
Rysunek 2.6 Mapa analizy korespondencji dla przykładu z tabela 2.24 z widoczną formacją łuku
Moim celem jest pokazanie, że redukcja wymiarów, jaka dokonuje się dzięki
algorytmowi wykorzystywanemu w analizie korespondencji, odpowiadać może
mechanizmowi kognitywnemu, za pomocą którego umysł ludzki kategoryzuje przedmioty
z otaczającego świata, uznając jedne za bardziej podobne do innych.
Jestem zdania, że teoria przestrzeni koncepcyjnych oraz teoria schematów
poznawczych mogą skutecznie pomagać intuicji socjologicznej i psychologicznej badacza
w interpretacji map uzyskiwanych przy pomocy analizy korespondencji.
3.1. Kategoryzacja
Do organizowania naszej wiedzy o otaczającym nas świecie służy tzw. pamięć
semantyczna. W odróżnieniu od pamięci epizodycznej, która zawiera informacje
o zdarzeniach, w których braliśmy udział, pamięć semantyczna zawiera wiedzę
i informacje. Psychologowie używają tego terminu w o wiele szerszym zakresie, niżby to
implikował przymiotnik  semantyczny . I tak, do pamięci semantycznej zalicza się m.in.
wiedzę encyklopedyczną (np. o tym, że Fryderyk Chopin urodził się w Żelazowej Woli).
Ponadto zawiera wiedzę leksykalną lub językową (np. taką, że słowo śnieg jest pokrewne
słowu deszcz) oraz wiedzę koncepcyjną (np. taką, że kwadrat ma cztery boki). Badania
dowodzą, że pamięć semantyczna bierze udział w większości naszej aktywności
- 43 - - 44 -
poznawczej  używamy jej do ustalania lokalizacji, czytania zdań, rozwiązywania ma liście, będzie miał także futro. Z drugiej strony jest bardzo prawdopodobne, że obiekty
problemów i podejmowania decyzji (Matlin, 2005: 248). posiadające futro będą także posiadać łapy.
Kategorie i pojęcia to podstawowe komponenty pamięci semantycznej. Aby nadać
sens naszej wiedzy o otoczeniu, konieczne jest podzielenie obiektów z tego otoczenia na
3.1.2. Podejście prototypowe
kategorie. Kategoria jest klasą obiektów, które razem do niej należą. Psychologowie
używają terminu  pojęcie , by odnieść się do naszych mentalnych reprezentacji kategorii.
W swojej pracy Principles of categorization Eleanor Rosch (1978) twierdzi, że
proces dokonywania kategoryzacji przez ludzi nie powinien być traktowany jako arbitralny
Egzemplarz jednostkowy
produkt historycznego przypadku, czy też jakiegoś kaprysu. Proces ten powinien być
pingwin rudzik
raczej traktowany jako wynik psychologicznych zasad kategoryzacji. Rosch wyróżnia dwie
podstawowe zasady kategoryzacji. Są to: ekonomia kognitywna oraz dostrzegalna
struktura świata. Pierwsza z zasad zawiera prawie zdroworozsądkowe przekonanie, że
organizm żywy, obserwując otoczenie, powinien przy jak najmniejszym wysiłku
poznawczym starać się uzyskiwać jak najwięcej informacji. Druga zasada mówi o tym, że
świat postrzegany nie jest przypadkowym zestawem obiektów, które posiadają własności
drozdowate
ptaki
arbitralnie lub losowo przypisane. Oznacza to, że istnieje jakaś struktura, jakiś porządek,
dzięki któremu można sensownie dokonywać kategoryzacji takich, przy pomocy których
Klasa obiektów
można w miarę wiernie odtwarzać ten porządek.
prototypowość
Pamięć semantyczna pozwala nam umieszczać poszczególne obiekty w obrębie
odpowiednich pojęć. Jak jednak dokonywany jest przez nas osąd o podobieństwie? Istnieją
cztery podejścia do tego problemu: model porównywania własności, podejście
prototypowe, podejście wzorcowe oraz model sieciowy.
Rysunek 3.1 Dwa wymiary postrzegania ptaków: prototypowość i hierarchiczność
W podejściu prototypowym podobieństwo między obiektami nie jest ustalane na
3.1.1. Model porównywania własności
podstawie porównania tych dwóch obiektów, ale na podstawie porównania każdego z tych
Według modelu porównywania własności (ang. feature comparison model) pojęcia
obiektów do wyidealizowanego obiektu, który jest reprezentantem dla danej kategorii.
składowane są w pamięci według listy koniecznych cech. Ludzie posługują się procesem
W koncepcji schematów poznawczych wyjaśniającej sposób organizacji naszej
decyzyjnym w celu ustalenia sądów dotyczących tych pojęć. Podejście to uzasadnia efekt
wiedzy o otoczeniu prototypowość, obok hierarchiczności, do jedna z dwóch
typowości. Jednakże badania nie pozwalają na podtrzymanie tezy, że podstawą sądów
uniwersalnych zasad, na których opiera się budowa schematu poznawczego. Schemat
o przynależności do kategorii jest posiadanie niezbędnych cech. Innym problemem,
poznawczy to organizacja uprzednich doświadczeń z jakimś rodzajem zdarzeń, osób czy
którego nie rozwiązuje to podejście, jest założenie o niezależności pomiędzy
obiektów. Schematy z reguły zawierają nie wszystkie wiadomości na temat danego
pojedynczymi cechami. W rzeczywistości wiele cech jest skorelowanych ze sobą
fragmentu rzeczywistości, lecz odwołują się do wiedzy uogólnionej, wyabstrahowanej
względem różnych pojęć. Na przykład jest bardzo mało prawdopodobne, że obiekt, który
z konkretnych doświadczeń (Strelau, 2000: 28).
- 45 - - 46 -
prototypu
Daleki od
prototypu
Bliski
hierarchiczno
ść
Zgodnie z zasadą prototypowości na dowolny schemat składają się: względu na procesy socjalizacji, będą posiadali bardzo podobne prototypy różnych
zmienne charakteryzujące egzemplarze schematu (aspekty, w jakich
obiektów. Oznacza to, że będą oni podobnie postrzegać różne przedmioty, ponieważ będą
egzemplarze są opisywane)
one znajdować się w podobnej odległości (w sensie przestrzeni konceptualnych) do
typowe relacje występujące między zmiennymi
odpowiednich prototypów. Ciekawym przykładem uwspólniania różnych prototypów
prototyp, czyli zbiór najbardziej typowych wartości przybieranych przez
w zależności od kultury może być ideał piękna kobiety funkcjonujący w różnych
schematy pod względem tych zmiennych.
kulturach. Na przykład w kulturze kreteńskiej najważniejsze były kształtne piersi,
w Indiach  obfity biust i pośladki, w Chinach  małe stopy; w Japonii mężczyzni cenią
Wymiar poziomy  prototypowość schematów  ujawnia nowy sposób myślenia
piękne włosy, okrągłą twarz i szerokie biodra; natomiast Syryjczycy, Maurowie i Żydzi
o reprezentacji kategorii lub klasy. Reprezentacją jest zbiór cech definicyjnych, tj. cech,
z Tunisu cenili otyłość (Lew-Starowicz, 1999).
które charakteryzują wszystkie egzemplarze należące do danej klasy. Reprezentacja
Grdenfors uważa, że teoria prototypów może być użyta do dostarczenia
uosabiana jest przez prototypy, czyli jednostki bardziej reprezentatywne dla danej kategorii
rozsądnego wyjaśnienia pojęcia podobieństwa, które jest ściśle związane z pojęciem
niż inne.
własności. Quine argumentuje, że  rodzaj naturalny (odpowiadający  własności
Prototypy to najczystsze wypadki przynależności kategorialnej (Rosch, 1978),
naturalnej ) można definiować, posługując się pojęciem podobieństwa:
a więc prototypem nazywamy taki egzemplarz, który jest najbardziej typowy. Rudzik, na
[Rodzaj to] zbiór, który jest  jakościowo sferyczny , w tym sensie, że ta sfera
przykład, jest uważany za bardziej reprezentatywny gatunek dla kategorii  ptaki niż kruk,
zawiera przedmioty różniące się mniej niż jakaś ustalona wartość od normy
pingwin czy struś emu.
centralnej. Jeżeli bez jakiejś poważnej straty celności można założyć, że istnieje
Pojawia się w tym miejscu pytanie: co to znaczy, że dany egzemplarz jest
jeden lub kilka właściwych obiektów (przypadków paradygmatycznch), które
najbardziej typowy? Jaką miarę  największego stopnia typowości zastosować
dobrze egzemplifikują pożądaną normę oraz jeden lub więcej przedmiotów
w przypadku, gdy pytamy respondentów np. o to, jakie cechy i w jakim stopniu powinien
(przypadków kontrastowych), które się zbyt różnią od normy, aby być
posiadać ptak? Wszyscy zapewne zgodzą się co do tego, że powinien mieć dwa skrzydła,
zaliczonymi do rodzaju, wtedy definicja jest prosta: rodzaj z przypadkiem
dwie nogi, dziób itd. Jednakże takie własności jak wielkość prototypowego ptaka, kształt
paradygmatycznym a i przypadkiem kontrastowym b to zbiór wszystkich
sylwetki, kolor itp. będą tworzyć w badanej populacji podziały. W rezultacie podobnej
obiektów, do których bardziej podobne jest a, niż a jest podobne do b8.
ankiety powinniśmy otrzymać wizerunek prototypowego ptaka. Możliwe jest wtedy, że ten
wizerunek będzie się dokładnie pokrywał ze wspomnianym już rudzikiem. Jednakże
Wartości, jakie mogą przyjmować kolejne zmienne, są zróżnicowane pod
istnieje też możliwość, że prototyp jakiejś klasy obiektów nie będzie miał swojego
względem stopnia typowości. Schematy stanowią bardzo bogate struktury informacyjne,
odpowiednika w świecie rzeczywistym. Popularna lalka Barbie, będąca projekcją
ponieważ ich zastosowanie pozwala na wyciąganie licznych wniosków. Na podstawie
prototypu pięknej dziewczyny, nie ma swojego odpowiednika wśród kobiet  proporcje
rozpoznania obiektu czy zdarzenia jako egzemplarza jakiegoś schematu jesteśmy w stanie
lalki Barbie są bowiem nienaturalne. Hipotetyczna (trzeba tego słowa w tym miejscu użyć)
wywnioskować wiele jego (prototypowych) właściwości, nawet jeżeli ich nie
kobieta, która miałaby mieć zachowane proporcje lalki Barbie, musiałaby mieć 84 cm
zaobserwowaliśmy. Natomiast na podstawie zaobserwowania konkretnej wartości jednej
w obwodzie bioder, 46 cm w talii i 80 cm obwodu biustu, przy wzroście 175 cm
zmiennej jesteśmy w stanie przewidzieć, jakie wartości dany egzemplarz schematu
(Pęczak, 2003).
przyjmie pod względem innych zmiennych.
Wymiar poziomy schematów poznawczych odnosić się będzie do dystansu
ocenianych obiektów do prototypów respondenta. Możemy przyjąć założenie, że ludzie
należący do tych samych grup społecznych, a więc tacy, którzy są podobni do siebie ze
8
Quine, cyt. za: Grdenfors (2000: 85-86).
- 47 - - 48 -
Jedną z zalet podejścia prototypowego jest to, że uzasadnia ono zdolność do potrawą będzie najlepiej konweniować; wreszcie  last but not least  będzie w stanie
tworzenia pojęć dla grup, które nie są ściśle ustrukturyzowane. Dzięki temu możliwe jest ocenić, czy wino jest dobre, czy nie.
na przykład stworzenie pojęcia dla elementów, które łączy zaledwie podobieństwo Wyabstrahowanie wiedzy od poszczególnych egzemplarzy w tym przypadku
rodzinne, jak to jest w przypadku pojęcia  gra . Modele prototypowe są szczególnie polega na zdolności przewidzenia jakości butelek wina, których jeszcze nie próbował.
przydatne, gdy nie istnieje taka własność, którą by posiadały wszystkie elementy kategorii. Sommelier, dzięki swojej wiedzy, potrafi dokładniej porównywać wina. Dla laika
bordeaux i burgund będą po prostu czerwonymi winami, natomiast specjalista będzie
***
w stanie z zamkniętymi oczami odróżnić te dwa gatunki, bowiem dostrzeże specyficzne
dla win bordeaux cechy, których nie posiadają burgundy.
Drugą, obok prototypowości, cechą schematów poznawczych jest ich
hierarchiczność. Dotyczy relacji między egzemplarzami lub podkategoriami na różnych
poziomach ogólności. Odnosić się będzie do poziomu kompetencji respondenta.
Respondent bardziej kompetentny będzie w stanie wyróżnić więcej podkategorii, ponieważ
3.1.3. Podejście wzorcowe
postrzega obiekty na większej liczbie wymiarów.
W podejściu wzorcowym (ang. exemplar approach) uznaje się, że na początku
Istotne jest rozróżnienie między uogólnioną wiedzą na temat pewnych rodzajów
poznajemy konkretne przykłady pojęcia  jego realizacje w świecie rzeczywistym,
obiektów a wiedzą o konkretnych zdarzeniach. Ogólnie rzecz biorąc, obowiązuje zasada,
a następnie klasyfikujemy każdy nowy bodziec, osądzając, jak jest on bliski tym poznanym
że im lepiej wykształcony jest jakiś schemat, tym bardziej jego zawartość jest
przez nas wzorcom. W tym względzie podejście to jest podobne do podejścia
wyabstrahowana z wiedzy o konkretnych egzemplarzach, natomiast im słabiej
prototypowego. Różnica polega na tym, że tutaj nie zakłada się potrzeby abstrahowania
wykształcony jest schemat, tym większą rolę w jego reprezentacji odgrywają wiadomości
własności z rzeczywistych obiektów  nie potrzebna jest żadna lista własności
o pojedynczych egzemplarzach (Strelau, 2000: 29). Ludzie, którzy obcują z jakąś klasą
charakterystycznych dla danego pojęcia, ponieważ cała niezbędna informacja zawiera się
zjawisk czy obiektów często (np. zajmują się nimi zawodowo lub są np. pasjonatami),
w już zapamiętanych wzorcach. Jest to sprzeczne z jedną z zasad zaproponowanych przez
posiadają dużo większą wiedzę na ich temat, bogatsze schematy poznawcze wobec tych
Eleonor Rosch, mianowicie zasadą ekonomii kognitywnej. Wadą tej koncepcji jest to, że
zjawisk, postrzegają je w bardziej złożonej przestrzeni wymiarów niż ludzie, którzy ledwie
nasza pamięć szybko by się wyczerpała, gdybyśmy mieli przechowywać w niej wzorce dla
się z nimi zetknęli.
każdej kategorii. Wyjściem z tego może być stosowanie zasady wzorców jedynie dla tych
Na przykład, co mogą powiedzieć o winach ludzie, którzy kompletnie nie znają się
kategorii, które posiadają nielicznych członków, np. dla  owoców tropikalnych .
na tym rodzaju trunku? Zapewne będą mogli poklasyfikować wina  kolorami : wina są
Wydaje się zatem, że podejście wzorcowe jest po prostu li tylko szczególnym
czerwone, białe i różowe. Osoba, która wie trochę więcej na ten temat, będzie, być może,
przypadkiem podejścia prototypowego, tj. obejmuje te przypadki kategoryzacji, w których
jeszcze potrafiła wyróżnić najprostsze kontinuum smakowe: od wytrawnych do słodkich.
prototypy są rzeczywistymi obiektami. W takich przypadkach jest być może bardziej
Natomiast przestrzeń, na jakiej postrzega wina zawodowy sommelier, będzie o wiele
ekonomiczne nie wydatkować energii na abstrahowanie i tworzenie bardziej złożonych
bardziej złożona. Jego wiedza jest oparta na bogatym bagażu doświadczeń z przeróżnymi
konstruktów w naszym umyśle. Prototypem staje się rzeczywisty egzemplarz. Natomiast
gatunkami win. Oprócz tych dwu najbardziej podstawowych wymiarów, tj. koloru
w przypadku bardziej złożonych kategorii bardziej ekonomiczne może być właśnie
i smaku, jest w stanie rozróżnić poszczególne nuty smakowe i zapachowe w bukiecie,
abstrahowanie i swoista agregacja własności różnych elementów należących do kategorii.
klarowność; w skrajnych przypadkach wysokiej klasy profesjonalizmu będzie w stanie
rozróżnić szczep winorośli, region uprawy, rocznik, z którego pochodzi; powie, z jaką
- 49 - - 50 -
3.1.4. Podejście sieciowe
3.2. Własności
Podejście sieciowe (ang. network models) abstrahuje od kategoryzacji, skupiając się
Jak już zostało powiedziane, ludzie postrzegają różne zjawiska, pojęcia, przedmioty
raczej na połączeniach pomiędzy elementami. W tym podejściu każdemu elementowi (na
w ramach rozmaitych klas podobieństwa. Przydzielanie obiektów do odpowiednich klas
przykład każdemu wyrazowi w zdaniu) przypisywany jest wierzchołek w sieci
podobieństwa może następować na drodze przyporządkowywania im pewnych atrybutów,
semantycznej. Każdy element jest połączony z innymi elementami, do których można
inaczej  własności. Umiejętność stwierdzenia, że jakiś obiekt posiada jakąś własność jest,
dotrzeć poprzez ciągi skojarzeń. W tym podejściu efekt typowości wyjaśnić można
można powiedzieć, centralną cechą naszych mechanizmów poznawczych. Pozwala nam
poprzez siłę danego wierzchołka (oznaczaną przez jego stopień, czyli liczbę krawędzi,
ona bowiem uporządkować informację przychodzącą do nas poprzez nasze zmysły
które do niego prowadzą). Takie wierzchołki odpowiadające obiektom typowym są
z otaczającego nas świata, skategoryzować przedmioty, z którymi się stykamy, i odsiać
częściej aktywowane w pracy mózgu.
informację niepotrzebną (Grdenfors, 2000: 59). Wiedza o pojęciu, przedmiocie, oznacza
m.in. zdolność do znajdywania niezmienności w obrębie kontekstów i do reifikacji tej
***
niezmienności, tak że może ona być połączona z innymi odpowiednimi niezmiennikami
(Kirsch, 1991: 161-184).
Przedstawione zostały cztery podejścia do problemu kategoryzowania obiektów
W swojej książce pt.: Conceptual Spaces. The Geometry of Thought Peter
przez ludzi. Wydaje mi się, że pierwsze trzy były w pewnym sensie odmiennymi
Grdenfors przekonuje, że teoria przestrzeni koncepcyjnych jest znakomitą podbudową
sposobami konceptualizacji tego samego procesu kognitywnego  przypisywaniu
teoretyczną do  reifikacji owych niezmienności, która to czynność wiąże się właśnie
ocenianym obiektom własności. W pierwszym podejściu  modelu porównywania
z przyporządkowywaniem obiektom pewnych własności.
własności  ograniczono się jedynie do konstatacji, że obiekty posiadają pewne własności
Pojęcie to idea, która charakteryzuje zestaw lub kategorię obiektów. Atrybut to coś,
i że zbiory własności dla ocenianych obiektów są porównywane. W ten sposób obiekty są
co może być wspólne dla grupy obiektów. Jeśli dwa obiekty posiadają tę samą własność,
uznawane za tożsame, gdy zbiory ich własności są tożsame. W podejściu prototypowym
są w pewnym sensie takie same. Istnieje zatem ścisłe połączenie pomiędzy podobieństwem
wprowadzone jest pojęcie obiektu prototypowego, który jest konstruktem
i posiadaniem własności.
wyabstrahowanym na podstawie obiektów doświadczonych w świecie rzeczywistym.
Sami możemy dostrzec, czy jakiś obiekt posiada daną własność, czy nie. Jesteśmy
Proces porównywania dwóch przedmiotów jest wtedy w pewnym sensie rozbity na
także w stanie powiedzieć, czy dwa lub więcej obiektów posiadają pewną własność
oddzielne kroki polegające na porównywaniu badanych obiektów do prototypu danej
(zestaw własności); a także potrafimy wyróżnić kilka własności, które posiada jakiś obiekt.
kategorii. Takie postępowanie ma tę zaletę, że spełnia zasadę ekonomii kognitywnej,
bowiem zamiast przechowywać informacje o wszystkich egzemplarzach z danej kategorii
W tym miejscu zamierzam skoncentrować się na tym, czym są własności i jak to
przechowywana jest jedynie informacja o prototypach, co pozwala  zaoszczędzić pamięć.
pojęcie było konceptualizowane w logice, filozofii oraz psychologii kognitywnej. Zacznę
Podejście wzorcowe zdaje się być, jak już pisałem, jedynie szczególnym przypadkiem
od przedstawienia dwóch podstawowych programów semantycznych  ekstensjonalnego
podejścia prototypowego.
i intensjonalnego, przy pomocy których próbowano podejść do problemu własności.
Niniejsze podsumowanie ograniczyłem jedynie do tych trzech, ponieważ biorą one
Następnie zaprezentuję teorię przestrzeni konceptualnych Petera Grdenforsa,
pod uwagę posiadanie przez obiekty własności, a jest to kluczowy aspekt ze względu na
z perspektywy której próbuje on zmierzyć się z określeniem, czym są własności. Powyższy
dalszy ciąg mojego wywodu.
wywód ma na celu zbudowanie podłoża teoretycznego dla zastosowań analizy
korespondencji w konstruowaniu map percepcyjnych.
- 51 - - 52 -
***
(lub zbiory obiektów), trzeba określić, które funkcje posiadają dany obiekt (lub zbiór
obiektów) jako wartość w konkretnym świecie (Grdenfors, 2000: 63).
W logice własności były dotąd analizowane jako część bardziej ogólnych
R. Stalnaker (cyt. za: Grdenfors, 2000: 64) zwrócił uwagę jeszcze na trzeci
programów semantycznych  intensjonalnego i ekstensjonalnego. W klasycznej
problem, który pojawia się przy definiowaniu własności jako abstrakcyjnych funkcji
ekstensjonalnej semantyce Tarskiego własność jest definiowana jako zestaw obiektów,
w semantyce intensjonalnej  jest nim trudność z wyrażaniem doktryny
które tę własność posiadają. Można to zrobić odwzorowując język L w model M i każdy
antyesencjalistycznej. Antyesencjalizm to orientacja, wedle której rzeczy nie posiadają
jednoargumentowy predykat w L w pewien podzbiór obiektów należących do M. W ten
żadnej ze swych własności koniecznie. Stalnaker uważa, że to czego brakuje standardowej
sposób zielony jest definiowany poprzez wszystkie zielone przedmioty.
semantyce, to podejście do własności, które definiowałoby je niezależnie od możliwych
Jednakże logicy i semantycy zdali sobie sprawę, że tzw. własności intensjonalne
światów i indywiduów. Własność  kontynuuje  musi być nie tylko zasadą, która grupuje
nie pasują do tej ekstensjonalnej definicji własności. Typowym przykładem może być
indywidua, ale także cechą indywiduów, na mocy której można je grupować.
własność  ciężki  ratlerek jest psem, ale ciężki ratlerek w żadnym wypadku nie może
Ostatni problem z funkcjonalną intensjonalną definicją własności jest według
być zaliczony do ciężkich psów.
Grdenforsa najpoważniejszy. H. Putnam (cyt. za: Grdenfors, 2000: 65) wykazał, że
W semantyce intensjonalnej, którą stworzono, żeby zaradzić podobnym
standardowa teoretyczna definicja  własności , która została tu przedstawiona, nie działa
problemom, język jest odwzorowywany w zbiór światów możliwych. Owe światy oraz
jako teoria znaczenia własności. Putnam dowodził tego przy użyciu dwóch założeń co do
zbiory przedmiotów w nich się znajdujących stanowią jedyny zbiór elementarnych pojęć
 otrzymanego spojrzenia na znaczenie: (1) znaczenie zdania jest funkcją, która przypisuje
teorii. Wszystkie inne pojęcia semantyczne są definiowane jako funkcje od przedmiotów
wartość logiczną do zdania w każdym z możliwych światów; (2) znaczenie części zdania
i możliwych światów. Znaczenie zdań identyfikowane jest poprzez określanie, kiedy to
nie może być zmienione bez zmiany znaczenia całego zdania. Dowód techniczny Putnam
zdanie jest prawdziwe, a kiedy jest fałszywe. W tym intensjonalnym programie
przedstawia formułując dwa zdania:
semantycznym własność to coś, co łączy obiekty z możliwymi światami. Formalnie rzecz
(1) Kot siedzi na macie
biorąc własność może być zatem widziana jako  many-many relation pomiędzy
(2) Kot* siedzi na macie*
obiektami (o) i możliwymi światami (w) taka, że oPw jest prawdą wtedy i tylko wtedy,
Następnie wprowadza definicje terminów kot* i mata*. Do tego celu
kiedy obiekt o ma własność w świecie w.
potrzebne jest mu sformułowanie pomocniczych definicji następujących sytuacji:
Powszechnym zarzutem w stosunku do programu semantyki intensjonalnej jest
Sytuacja (a): Jakiś kot siedzi na macie i jakieś wiśnie są na drzewie
fakt, że pewne jednostki lingwistyczne  w szczególności pytania i polecenia  są
Sytuacja (b): Jakiś kot siedzi na macie i nie ma żadnych wiśni na drzewie
 odporne na takie postępowanie. Grdenfors dodatkowo zarzuca definicji własności
Sytuacja (c): Nie zachodzi ani (a), ani (b)
w intensjonalnej semantyce nieintuicyjność, która czyni własności bytami bardzo
A oto wprowadzone definicje terminów kot* i mata*:
abstrakcyjnymi (Grdenfors, 2000: 62).
X jest kotem* wtedy i tylko wtedy, gdy zachodzi (a) i x jest wiśnią lub zachodzi (b)
Poza tym  argumentuje Grdenfors  jeszcze większym problemem zdaje się
i x jest kotem lub zachodzi (c) i x jest kwarkiem.
trudność w wyjaśnieniu wnioskowania indukcyjnego, które  ogólnie rzecz biorąc  polega
X jest matą* wtedy i tylko wtedy, gdy zachodzi (a) i x jest drzewem lub zachodzi
na łączeniu własności ze sobą, dokładnie tak, jak to się dzieje, gdy twierdzimy, że
(b) i x jest matą, lub zachodzi (c) i x jest kwarkiem.
wszystkie żywe organizmy posiadają chromosomy. Owo łączenie jest dokonywane na
podstawie pewnej liczby przypadków, które legitymują się odpowiednią własnością. Jeśli
Na podstawie przyjętych definicji Putnam wykazuje, że zdanie (1) ma te same
natomiast własność jest definiowana jako funkcja ze zbioru możliwych światów do zbioru
warunki prawdziwości co (2) (jest prawdziwe w tych samych światach możliwych). Na
obiektów, wtedy żeby określić, które własności są obrazowane przez poszczególne obiekty
podstawie powyższego rozumowania Putnam dochodzi do wniosku, że semantyka światów
- 53 - - 54 -
możliwych jest ontologicznie  zbyt rozrzutna , czyli przyjmuje zbyt wiele własności należącymi do F także należy do F. Uważa się, że ta własność obszaru przestrzeni
(Piłat, 2002). konceptualnej była bardziej adaptatywna i dobór naturalny preferował jednostki
posługujące się wypukłymi obszarami przestrzeni konceptualnych. Grdenfors wskazuje,
***
że ta wypukłość jest korzystna ze względu na swoistą ekonomię kognitywną 
posługiwanie się wypukłymi regionami wymaga od pamięci mniej wysiłku podczas
Grdenfors, przedstawiwszy argumenty przeciwko intensjonalnej definicji pojęcia
uczenia się i w konsekwencji zwiększa potencjał przetwarzania informacji z otoczenia
własności, proponuje własną koncepcję  koncepcję przestrzeni konceptualnych,
(Grdenfors, 2000: 70).
zaznaczając wszakże, że nie ma być ona opisem wszystkich możliwych rodzajów
Kryterium P ma pewną bardzo ważną cechę ze względu na zasadniczy cel
własności. Stanowisko Grdenforsa jest odmianą fizykalizmu, wzbogaconego
niniejszej pracy. Jak zauważa Grdenfors  nie wymaga ono istnienia ostrych granic
o abstrakcyjne wymiary jakości pozwalające przedstawiać własności wyższych rzędów
pomiędzy własnościami. Dzięki temu można je zastosować także do własności
jako miejsca w przestrzeniach, których współrzędne są osiami, na których odwzorowane są
 niewyraznych lub takich, które określone są jedynie w probabilistyczny sposób. Wtedy
własności rzędu niższego, do własności fizycznych włącznie (Piłat, 2002).
wypukłość wymaga, aby dwie lokalizacje obiektów x1 i x2 spełniały pewne kryterium
Przestrzenie te definiuje Grdenfors jako klasę wymiarów jakości D1, ... , Dn. Punkt
przynależności, na przykład miały pewien stopień (lub prawdopodobieństwo)
w przestrzeni jest reprezentowany przez wektor v = z indeksem na każdy
przynależności. Wtedy wszystkie obiekty znajdujące się pomiędzy x1 i x2 także będą
wymiar. Każdy z wymiarów jest obdarzony pewną geometryczną lub topologiczną
spełniały to kryterium (Grdenfors, 2000: 71).
strukturą. Autor postuluje, żeby własność w takiej przestrzeni konceptualnej była
Należy wszakże zaznaczyć, że taka definicja wypukłości nie jest uniwersalna.
reprezentowana poprzez region przestrzeni S. Region miałby być rozumiany jako byt
Znajduje zastosowanie jedynie przy pewnym założeniu o kształcie przestrzeni oraz
w przestrzeni określony przez topologię lub geometrię przestrzeni S. W ten sposób punkt
metryce używanej do jej wymierzania. Tak więc ze względu na fakt, że wymiar opisujący
na wymiarze czas określający  teraz dzieliłby ten wymiar na dwie części. Podobnie
barwy ma kształt koła, jest bardziej naturalne, aby używać współrzędnych polarnych do
będzie z punktem oznaczającym  średni na wymiarze wielkość  będzie się on plasował
opisu pozycji obiektów w tej przestrzeni.
gdzieś po środku pomiędzy dwoma ekstremami:  małym i  dużym .
 Wygląd czy też topologia wymiaru, na którym można postrzegać pewne obiekty, ***
zdaje się różnić w zależności od kultury. Takim najbardziej jaskrawym przykładem jest
Alfred Schutz (1984: 144) zwraca uwagę na pewien istotny aspekt własności, które
czas, który w kulturze Zachodu postrzegany jest jako kontinuum ciągnące się od
mogą posiadać obiekty. Rozróżnia takie własności, które są typowe dla danego obiektu,
przeszłości do przyszłości. Konsekwencją takiego postrzegania czasu jest przeświadczenie,
i takie, które są indywidualne.
że coś, co przeminęło, już nie wróci  z każdą chwilą oddalamy się w ten sposób od
Żyjąc w granicach nastawienia naturalnego w codziennym życiu zajmujemy się
przeszłości. Istnieją natomiast kultury, dla których czas posiada kształt koła, a więc
tylko pewnymi obiektami odcinającymi się od niekwestionowanego tła innych
podążając w przyszłość, zbliżamy się jednocześnie do przeszłości.
predoświadczonych obiektów. Rezultatem selekcjonującej działalności naszego
umysłu jest określenie, które z właściwych tym obiektom cech są indywidualne,
***
a które typowe. Mówiąc bardziej ogólnie, zajmujemy się zaledwie pewnymi
aspektami poszczególnych typizowanych już obiektów. Twierdzenie, że obiekt S
Grdenfors formułuje tzw. kryterium P, wedle którego własnością naturalną jest
posiada charakterystyczną własność p, wyrażone w postaci  S jest p , jest
wypukły obszar domeny w przestrzeniu konceptualnej (Grdenfors, 2000: 71). Obszar F
wyrażeniem eliptycznym. Bo S, bez wyjaśniającego pytania, jak jest mi on
jest wypukły wtedy i tylko wtedy, gdy punkt leżący pomiędzy dwoma innymi punktami
dany, jest nie tylko p, ale także q i jeszcze czymś innym. Pełne twierdzenie
- 55 - - 56 -
powinno głosić:  S jest, obok bycia q, także p . Jeżeli twierdzę  S jest p samym pojęcia (Grdenfors, 2000: 101). Można zatem powiedzieć, że pojęcia, obiekty czy
w stosunku do pewnego elementu świata traktowanego jako sam przez się przedmioty to byty, które znajdują się w wielowymiarowej przestrzeni na przecięciu
zrozumiały, to robię tak dlatego, że w większości wypadków jestem określonych wartości, jakie przyjmują dla każdego wymiaru tej przestrzeni. Nie jest tak, że
zainteresowany p-owością S i nie biorę pod uwagę jako nieistotnego jego bycia zestaw własności opisujący pojęcie, a więc liczba wymiarów, na których jest
q-owością. reprezentowany w naszych umysłach, jest zamknięty. Wręcz przeciwnie  w miarę jak
poznajemy dane pojęcie, uczymy się też nowych jego aspektów. Kiedy pierwszy raz
Z kolei Lawrence W. Barsalou proponuje rozróżnianie własności, jakie mogą dziecko widzi jabłko, pierwszymi wymiarami, jakie poznaje są zapewne: kolor, kształt,
posiadać obiekty, na takie, które są niezależne od kontekstu, i na takie, które od kontekstu tekstura oraz smak. W dalszej kolejności poznaje inne  a więc: fakt, że jest to owoc,
zależą (Barsalou, 1982: 82 93). Niektóre własności  pisze Barsalou  wydają się poznaje wartość odżywczą jabłka i prawdopodobnie jeszcze wiele innych wymiarów
przychodzić na myśl przy każdej okazji. Dla przykładu wyraz  skunks zwykle przywodzi (Grdenfors, 2000: 102).
na myśl własność  cuchnący , a wyraz  grzechotnik   trujący . Natomiast są takie Kiedy w reprezentację jakiegoś pojęcia zaangażowanych jest wiele wymiarów,
pojęcia, które wymagają podania kontekstu, aby przywieść na myśl odpowiednią własność. konieczne jest istnienie jakiejś zasady, która pozwala w pewien sposób ważyć każdy z tych
Na przykład  piłka do koszykówki raczej rzadko kojarzona jest z własnością  nie tonie . wymiarów w zależności od istotności tych wymiarów. Waga poszczególnych wymiarów
Jednakże gdy podany zostanie kontekst w postaci następującego zdania:  Krzysztof użył X musi być zależna od kontekstu, w jakim dane pojęcie znajduje się w danym momencie. Na
do ratowania się, gdy łódz zatonęła , jeśli pod X podstawimy  piłkę do koszykówki , przykład, kiedy jemy jabłko, to jego smak wydaje się najistotniejszym wymiarem, podczas
wtedy własność  nie tonie od razu nasunie się na myśl. gdy w sytuacji, kiedy używamy jabłka jako piłki, bawiąc się z dzieckiem, to kształt jabłka
Własności niezależne od kontekstu (ang. context-independent properties) stanowią staje się najbardziej istotny (Grdenfors, 2000: 103).
jądro znaczeniowe pojęć, ponieważ są  aktywowane za każdym razem, gdy stykamy się Kontekst jest bardzo istotny przy porównywaniu obiektów. Dwa na pozór
z pojęciem, niezależnie od kontekstu, w jakim się z nim stykamy. kompletnie niepodobne do siebie obiekty mogą nabrać cech podobieństwa, gdy narzuci się
Własności zależne od kontekstu (ang. context-dependent properties) stanowią zaś określony kontekst. Na przykład wspomniana już piłka do koszykówki i tratwa ratunkowa
zródło semantycznego kodowania zmienności. Mogą one być reprezentowane przez nie będą uznawane za podobne dopóty, dopóki nie nada się odpowiedniego kontekstu, np.:
pojęcie, ale zazwyczaj nie są one aktywowane podczas kodowania odpowiedniego słowa.  rzeczy, które nie toną lub  rzeczy zrobione z gumy .
Własności te są raczej aktywowane przez odpowiedni kontekst, w którym dane słowo się Nelson Goodman (1972) uważa, że zdanie  X jest podobne do Y nie oznacza nic,
pojawia. dopóki nie zostanie wyspecyfikowany kontekst poprzez uszczegółowienie zdania
w następujący sposób:  X jest podobne do Y w odniesieniu do własności Z .
Poza kontekstem na wagi wymiarów, na których reprezentowany jest w naszych
3.3. Obiekty i podobieństwo umysłach oceniany obiekt, wpływają także nasza wiedza i zainteresowania
(Grdenfors, 2000: 104). W ten sposób zupełnie inną wagę będzie miał smak wina dla
Językowo rzecz biorąc, własnościom (atrybutom) odpowiadają przymiotniki,
sommeliera posiadającego bardzo złożoną przestrzeń reprezentacji mentalnej win i dla
natomiast pojęciom  rzeczowniki. Główną semantyczną różnicą pomiędzy rzeczownikami
człowieka, który ma rzadki kontakt z winem. Pierwszy ocenia wino pod wieloma innymi
i przymiotnikami jest taka, że przymiotniki, takie jak  czerwony ,  wysoki ,  okrągły ,
niż smak względami, a więc waga smaku będzie relatywnie mniejsza. Dla drugiego
zwykle odnoszą się do pojedynczej domeny (w sensie przestrzeni konceptualnych),
natomiast to smak zdominuje wrażenia podczas degustacji.
reprezentując w ten sposób własności, podczas gdy rzeczowniki, takie jak  pies ,  jabłko ,
Przeważanie wymiarów objawia się także m.in. wtedy, gdy mówimy, że patrzymy
 miasto , najczęściej zawierają informację na temat wielu domen, reprezentując tym
na coś z pewnej perspektywy. Patrząc z pewnej perspektywy, nadajemy dominującemu
- 57 - - 58 -
w tej perspektywie aspektowi największą wagę, a to wpływa na naszą ocenę pod Podsumowując swój wywód na temat pojęć, Grdenfors formułuje tzw.
względem innych aspektów. W ten sposób, kiedy myślimy o pianinie w kontekście mebli kryterium C, wedle którego naturalne pojęcie jest reprezentowane jako zbiór regionów
i ich przesuwania po podłodze, największa wagę nadamy wymiarowi  waga . Jednakże w pewnej liczbie domen z przypisanymi do nich wagami uwypuklającymi oraz informacją
oceniając ten sam przedmiot w kontekście instrumentów grających, wymiar ten nie będzie o tym, w jaki sposób różne domeny są ze sobą skorelowane (Grdenfors, 2000: 191).
w ogóle istotny (Grdenfors, 2000: 104). Taka konceptualizacja pojęć i własności, w której pojęcia są reprezentacjami
Poza tym, że wymiary można uwypuklać, czyli nadawać im większą wagę w wielowymiarowej przestrzeni własności, nasuwa pytanie o możliwość redukcji tej
w zależności od kontekstu, możliwe jest także swoiste wyczulanie poszczególnych przestrzeni. Być może jest tak, że obiekty mogą być reprezentowane w przestrzeni
obszarów na wymiarach, a więc w pewnym sensie rozciąganie ich w pewnych miejscach. wielowymiarowej, ponieważ można na nie patrzeć z różnych perspektyw, biorąc pod
Goldstone (1993) przeprowadził ciekawy eksperyment, w którym badani mieli oceniać uwagę różne aspekty tych obiektów, jednakże w praktyce umysł reprezentuje je
różnicę w długości przedstawianych im obiektów. Obiekty, które miały długość 1 lub 2 cm w zredukowanej przestrzeni ze względu na zasadę ekonomii kognitywnej.
należały do jednej kategorii, natomiast obiekty o długości 3 lub 4 cm należały do drugiej Algebraicznie rzecz biorąc, redukcja wymiarów możliwa jest wtedy, gdy pewne
kategorii. W przypadku gdy badani mieli za zadanie porównać dwa obiekty: jeden wymiary da się wyrazić przy pomocy innych, tzn. jedne są kombinacjami liniowymi
o długości 2 cm, a drugi o długości 3 cm, różnice pomiędzy nimi zdawały się badanym innych. Nie da się zredukować wymiarów w przypadku, gdy są one względem siebie
większe niż różnice pomiędzy obiektem o długości 1 cm i obiektem o długości 2 cm. Tak ortogonalne.
więc mimo obiektywnie takich samych różnic w długościach, badani wykazywali Geometrycznie rzecz biorąc redukcja wymiarów polega na rzutowaniu pierwotnej
skłonność do potęgowania różnic obiektów, które należały do innej kategorii przestrzeni n-wymiarowej na podprzestrzeń k-wymiarową (gdzie k < n). Kiedy rzutujemy
(Goldstone, 1993). trójkąt na równoległą do niego płaszczyznę, otrzymujemy trójkąt identyczny.
Wiele badań wykazało, że dzieci mają problemy z rozróżnianiem wymiarów. Równoległość rzutowanego trójkąta w stosunku do płaszczyzny oznacza, że jest on
Istnieją dowody wskazujące na to, że wymiary, które są z łatwością rozdzielane przez umieszczony w dwóch wymiarach. Jednakże gdy płaszczyzna rzutowania nie jest do
dorosłych, takie jak jasność i rozmiar kwadratu, są przez dzieci łączone. Na przykład obiektu rzutowanego równoległa, a więc pozycja trójkąta opisywana jest przez trzy
dzieci mają trudność ze wskazaniem, czy dwa przedmioty różnią się jasnością czy wymiary, rzutowanie pociąga za sobą pewną utratę informacji. Informacją w tym wypadku
wielkością, chociaż z łatwością mogą powiedzieć, że w jakiś sposób te przedmioty się są wymiary naszego trójkąta. Podobnie jest w przypadku rzutowania brył  rzutując kulę
różnią (Grdenfors, 2000: 28). na płaszczyznę, otrzymujemy elipsę (w szczególnym przypadku, gdy wykonujemy rzut
prostopadły, otrzymujemy koło). W oczywisty sposób sprawa się komplikuje, kiedy
rzutuje się więcej niż 3-wymiarowe bryły na płaszczyznę.
Kiedy mówimy o wymiarach jakościowych w sensie przestrzeni konceptualnych 
3.4. Redukcja wymiarów
wymiarach odpowiadających pewnym własnościom przypisywanym danej klasie obiektów
 także myślimy o możliwości redukcji ich liczby. Jest to możliwe, gdy w pierwotnej
Według Grdenforsa pojęcia nie są jedynie wiązkami własności. Jego propozycja
wiązce wymiarów występuje pewna redundancja, tzn. pierwotna liczba wymiarów jest zbyt
reprezentacji pojęć zakłada występowanie korelacji pomiędzy regionami różnych domen
duża w stosunku do potrzeb reprezentacji danej klasy obiektów. Na przykład, kiedy
powiązanych z danym pojęciem. W przykładzie o  jabłku występować powinna silna
zapytalibyśmy się o to, w jakim stopniu pewne marki samochodów osobowych są  duże ,
pozytywna korelacja pomiędzy słodkością jabłka w domenie  smaku i zawartością cukru
a następnie spytalibyśmy się, w jakim stopniu są  długie , można przypuszczać, że
w domenie  wartości odżywczych . Natomiast znacznie słabszej korelacji oczekiwać by
w takim wypadku będziemy mieć do czynienia z redundancją wymiarów   wielkość
należało pomiędzy kolorem czerwonym i słodkim smakiem.
będzie tu jakąś funkcją  długości , a więc  długie samochody osobowe będą jednocześnie
- 59 - - 60 -
postrzegane jako  duże . Jednakże niekoniecznie mielibyśmy do czynienia z taką sytuacją, Jeśli natomiast jest kilka obiektów, które posiadają jakiś atrybut, i z drugiej strony 
gdybyśmy spytali o szerszą klasę samochodów (dopuszczając także takie przypadki jak jest obiekt, który posiada kilka atrybutów, taka przestrzeń może dać się uprościć
TIRy itp.). Wtedy zwykła ciężarówka zostałaby uznana za  dużą i  krótką , natomiast i zredukować (Tabela 3.2).
limuzyna za  długą , ale już nie  dużą .
Przykład ten ponownie pokazuje kontekstowość, względność naszego postrzegania,
Tabela 3.2. Wymiary, na których postrzegane są obiekty nie są ortogonalne  obiekty posiadają
o której nie można zapominać, badając mapy percepcyjne. Kontekst, w jakim występują
wspólne cech
badane obiekty, jest bardzo istotny i może znacząco wpływać na oceny respondentów.
O1 O2 O3 O4
A1 1
Pomysł polegający na tym, że jakąś wiązkę n wymiarów (atrybutów), na których
A2 1
postrzegana jest pewna klasa obiektów, można zredukować do kA4 1
zakładać, że te wymiary są nieortogonalne względem siebie. Wtedy pewne wymiary są
W tym przypadku proporcje, w jakich inercja całego układu daje się rozłożyć na
kombinacjami liniowymi innych wymiarów, dzięki czemu redukcja wymiarów jest
poszczególne wymiary, jest już inna i pozwala na sensowniejszą redukcję wymiarów:
możliwa. Niemożność zredukowania liczby wymiarów może świadczyć o tym, że wymiary
dim1=60%, dim2=30%, dim1=10%.
(atrybuty) składające się na tę wiązkę są ortogonalne, a więc żadnego z nich nie da się
W pierwszym przypadku pierwsze dwa wymiary skupiały 66% inercji całego
wyrazić przy pomocy innego. Oznacza to, że przestrzeń, w jakiej postrzegana jest badana
układu, natomiast w przypadku drugim pierwsze dwa wymiary skupiają już aż 90% inercji,
klasa obiektów jest bardziej złożona.
co pozwala na zaniedbanie informacji o trzecim wymiarze i zredukowanie go.
W tabelach (Tabela 3.1, Tabela 3.2, Tabela 3.3) zamieszczono przykładowe
Przypadek, w którym wszystkie obiekty posiadają każdy z atrybutów (Tabela 3.3),
odpowiedzi na pytanie, czy każdy z obiektów od O1 do O4 posiada jeden z atrybutów od
można uznać z punktu widzenia redukcji danych za trywialny. Cały układ wtedy mieści się
A1 do A4. Jedynka oznacza, że obiekt dany atrybut posiada, w przeciwnym wypadku
po prostu w jednym punkcie, ponieważ wszystkie obiekty są takie same ze względu na
obiekt danego atrybutu nie posiada.
poszczególne atrybuty.
Tabela 3.1. Wymiary, na których postrzegane są obiekty są ortogonalne  obiekty nie posiadają
wspólnych cech
Tabela 3.3. Wszystkie obiekty są takie same ze względu na atrybuty, na których są oceniane
O1 O2 O3 O4
O1 O2 O3 O4
A1 1
A1 1 1 1 1
A2 1
A2 1 1 1 1
A3 1
A3 1 1 1 1
A4 1
A4 1 1 1 1
W takim przypadku, kiedy wymiary są ortogonalne (Tabela 3.1), inercja rozkłada
się równo (dim1=33% inercji, dim2=33%, dim3=33%) na wszystkie n-1 wymiarów, wobec
czego możliwe jest zredukowanie złożoności struktury tylko o jeden wymiar. Redukcja
o więcej niż jeden wymiar w tym przypadku powoduje znaczną utratę informacji o całym
układzie.
- 61 - - 62 -
wariancja lub odchylenie standardowe. Przyjrzyjmy się teraz, jakiego rodzaju odpowiedzi
możemy uzyskać, używając takiego kwestionariusza i o czym świadczyć mogą uzyskane
3.5. Procedura pomiarowa
rozkłady odpowiedzi.
W tym miejscu chciałbym przedstawić procedurę pomiarową służącą do eksploracji
Jeśli respondent przyznaje takie same oceny (taką samą liczbę punktów) wszystkim
map percepcyjnych przy użyciu analizy korespondencji. Procedura ta jest dość często
obiektom na jednym z atrybutów  wielkość odchylenia standardowego w skrajnym
wykorzystywana w praktyce badawczej agencji badania rynku, jednakże w literaturze
przypadku wyniesie 0  oznaczać to może najpewniej, że nie jest on w stanie odróżnić na
przedmiotu niewiele można znalezć na jej temat.
tym wymiarze żadnego z obiektów. Naturalnie, zestaw obiektów może w całości posiadać
Procedura pomiarowa wygląda następująco. Respondenci mają za zadanie ocenić,
daną cechę lub nie  o tym powie nam średnia wartość ocen (liczby punktów). Jeśli
w jakim stopniu każda cecha (atrybut) pasuje do kolejnych obiektów. Sposób oceniania, tj.
wszystkie obiekty posiadają daną cechę w tym samym stopniu (np. wszystkie polskie
skale, mogą być różnorodne. Zasadniczo powinno się stosować tym dokładniejsze skale,
monety używane w powszechnym obiegu są okrągłe), respondenci powinni przypisać im
im większe jest zaangażowanie respondentów w badaną dziedzinę, im bardziej są z nią
wysoką liczbę punktów; jeśli natomiast żaden z obiektów danej cechy nie posiada (np.
związani. Na przykład nie będziemy prosić bezdzietnej dziewczyny o ocenę odżywek dla
żadna z monet nie jest koloru różowego), respondenci powinni przypisać im takie same
dzieci na tak czułej skali jak ta od 0 do 100. Natomiast matka niemowlęcia, która
niskie oceny.
codziennie musi zabezpieczać swojemu dziecku produkty najlepszej jakości, z pewnością
W ten sposób dokonaliśmy dyskryminacji niejako  w poprzek tabeli
będzie w stanie użyć takiej skali.
z odpowiedziami. Możemy także dokonać analogicznego rozróżnienia  wzdłuż tej tabeli,
Zestaw atrybutów, które podejrzewamy o to, że różnicują badane obiekty
a więc zastanowić się, o czym mówi nam zróżnicowanie wyników na poszczególnych
otrzymujemy w drodze na przykład wywiadów, w czasie których pytamy się
atrybutach dla danego obiektu. Także tutaj miarą, jaką możemy się posłużyć może być
respondentów, o to, które aspekty danej klasy obiektów są najistotniejsze. Zestaw ten
odchylenie standardowe.
można także ułożyć posługując się własną intuicją socjologiczną.
Jeśli respondent przypisał takie same wartości atrybutów pewnemu obiektowi 
O atrybutach powinniśmy myśleć jak o wymiarach, czy też  by posłużyć się
w skrajnym przypadku odchylenie standardowe będzie równe 0  oznaczać to może, że
terminologią Petera Grdenforsa  domenach w przestrzeniach konceptualnych, na których
posiadanie bądz nieposiadanie cech z danego zestawu cech nie wyróżnia tego obiektu. Np.
można postrzegać obiekty. Im bardziej złożony jest obiekt, tym na większej liczbie
mając dany zestaw cech: wysoki, silny, muskularny,  jest aktorem ,  jest politykiem taki
wymiarów go postrzegamy. Na przykład bilon możemy postrzegać jedynie na kilku
obiekt jak Arnold Schwarzenegger otrzymałby zapewne jednolitą punktację. Jeśli by
wymiarach  nominał, kształt, średnica, kolor, waluta. Takie byty jak partie polityczne
natomiast dodać do tego zestawu cech jeszcze jedną, powiedzmy zniewieściałość, można
postrzegane są w rzeczywistości na nielicznej wiązce wymiarów  podstawowe
się spodziewać, że większość respondentów przypisze Schwarzeneggerowi niższą ocenę na
kontinuum: lewica-centrum-prawica, elektorat, czyli grupy społeczne, do których
tym atrybucie.
kierowany jest program. Politycy mogą być postrzegani na znacznie liczniejszej wiązce
wymiarów (w badaniu nt. polityków, którego wyniki zostaną w tej pracy omówione,
respondenci pytani byli o 15 atrybutów, które mogli posiadać politycy).
Rezultatem przeprowadzonej ankiety jest tablica odpowiedzi nm-wymiarowa
(gdzie n zwyczajowo oznacza liczbę atrybutów, a m  liczbę obiektów ocenianych przez
respondentów). Metoda zadawania pytań i udzielania odpowiedzi pozwala ustalić, w jakim
stopniu badani dyskryminują oceniane obiekty poprzez kolejne atrybuty. O sile
dyskryminacyjnej danego atrybutu świadczyć może któraś z miar rozproszenia, np.
- 63 - - 64 -
3.6. Preklasyfikacja respondentów
obiekty
W całym problemie badawczym istnieje jeszcze jeden obszar, w obrębie którego
możemy mówić o podobieństwie. Podobni mogą być mianowicie respondenci
w postrzeganiu badanych obiektów na poszczególnych atrybutach. Rozkład
o1 o2 & & . om
poszczególnych ocen uzyskanych od respondentów pochodzących z w miarę jednorodnej
a1
populacji powinien zbiegać do rozkładu normalnego. W ten sposób na przykład przy
a2
odpowiednio dużej próbie odpowiedz na pytanie:  W jakim stopniu obiekt O posiada
.
.
atrybut A? powinna wygenerować rozkład, w którym jedna z wartości będzie dominująca,
.
a reszta wartości będzie nieznacznie się od tej wartości odchylać z prawdopodobieństwem
.
.
opisanym przez rozkład Gaussa. Jednakże jeśli populacja nie jest homogeniczna, a bodzce,
.
działaniu których poddawani są respondenci, mają moc dyskryminującą te dwie populacje,
.
atrybuty
.
uśrednianie odpowiedzi może zwieść badacza na manowce.
.
W jaki sposób przy pomocy otrzymanych kwestionariuszy możemy sprawdzić, czy
an
populacja, którą badamy jest zróżnicowana pod względem reakcji na bodzce? Co może
świadczyć o tym, że respondenci stanowią jednolitą grupę, a więc co będzie oznaką ich
podobieństwa? Wydaje mi się naturalne przeświadczenie, że dwóch respondentów będzie
Wektor
odpowiedzi dla
do siebie podobnych w kontekście bodzców, którym działaniu ich poddaliśmy wtedy, gdy
o1 o2 & & . om
atrybutu ai
ich reakcje na te bodzce będą podobne (w tym przypadku reakcje są tożsame z profilami
ai Xi1 Xi 2 & & Xi m
odpowiedzi). Miarą takiego podobieństwa może być np. wariancja ocen, a narzędziem do
określenia, którzy respondenci są między sobą podobni, a którzy różnią się od siebie, może
być m.in. analiza skupień.
oi
Uśrednianie wartości zmiennej to operacja, przy której tracimy informację
o rozproszeniu wartości tej zmiennej. Jeżeli np. rozkład zmiennej jest daleki od rozkładu
a1 X1i Wektor
normalnego, uśrednianie może być przyczyną błędnego wnioskowania. Najlepiej jest, gdy
a2 X2i odpowiedzi dla
. . obiektu oi uśredniamy wartości w grupach stosunkowo jednorodnych  unikamy wtedy artefaktu
. .
klasy średniej w społeczeństwie silnie spolaryzowanym. Jedną z metod wyodrębnienia
. .
. . w całej badanej zbiorowości podgrup jednostek podobnych do siebie i różniących się od
. .
przedstawicieli innych grup jest analiza skupień metodą k-średnich. Należy ona do technik
. .
. . taksonomicznych. Jej celem jest połączenie zbioru obiektów w homogeniczne grupy
. .
(klasy, klastry, skupienia, typy). Klasyfikowane obiekty, które znajdą się w jednej grupie,
. .
powinny być do siebie podobne  powinniśmy uzyskać homogeniczność w obrębie
an Xni
skupień. Obiekty należące do różnych grup powinny się od siebie różnić  powinna istnieć
Rysunek 3.2 Sposób zapisu odpowiedzi
heterogeniczność pomiędzy skupieniami.
- 65 - - 66 -
W analizie skupień dąży się do tego celu poprzez łączenie ze sobą obiektów na
podstawie wyliczonych odległości między nimi. Bliższe obiekty powinny trafić do jednej
klasy, bardziej odległe  do różnych. Przy danej mierze odległości, łączenie może się
odbywać na różne sposoby, które różnią się przede wszystkim tym, w jaki sposób
wyliczane są nowe odległości pomiędzy obiektami po przyłączeniu kolejnego obiektu do
skupienia (traktowanego też jak obiekt) (Górniak, 2005: 31).
Metoda ta nie jest niestety wolna od wad. Zarzuca się jej m.in. zależność wyników
analizy od posortowania jednostek obserwacji. Innym zarzutem jest arbitralne ustalanie
liczby skupień. Zarzuty te można trochę osłabić, wykonując najpierw hierarchiczną analizą
skupień. Pozwala ona badaczowi przyjrzeć się strukturze danych i ustalić, ile skupień da
się wyodrębnić naturalnie. Sprawia to, że metoda hierarchicznego łączenia skupień jest
bardzo cennym narzędziem w eksploracji danych. W takiej poprzedzającej analizie
hierarchicznej dobrze jest użyć metody Warda (przy kwadratowej odległości
Rysunek 3.3 Rozkład odpowiedzi na pytanie: W jakim stopniu do marki A pasuje określenie, że jest marką
euklidesowej), gdyż jest ona najbliższa w swej logice metodzie k-średnich i prowadzi do luksusową?
dobrze wyodrębionych skupień (Górniak 2005: 32).
Na wykresie (Rysunek 3.4) pokazana została mapa analizy korespondencji całego
***
zbioru. Tabela 3.4 przedstawia kontrybucje profili wierszowych do osi głównych, a
Przydatność zastosowania analizy skupień przed zastosowaniem analizy
tabela 3.5  kontrybucje profili kolumnowych do osi głównych. Nie ma w tym miejscu
korespondencji pokażę na następującym przykładzie. Załóżmy, że zapytaliśmy
potrzeby dokonywać dogłębnej analizy tej mapy  przykład jest sfabrykowany, więc nie
respondentów, w jakim stopniu kolejne cechy pasują do poszczególnych marek
może nieść żadnej wartościowej informacji z punktu widzenia socjologicznego czy
samochodów. Odpowiedzi udzielane są na skali od 1 do 5, gdzie 1 to  zdecydowanie nie
marketingowego. Tym, na co natomiast warto zwrócić uwagę, są znaczne różnice
pasuje , a 5   zdecydowanie pasuje . Odpowiedzi następnie uśredniamy i stosujemy je
pomiędzy mapami sporządzonymi dla wyodrębnionych w dalszej kolejności skupień.
jako dane wejściowe dla algorytmu analizy korespondencji.
W celu lepszego unaocznienia problemu pozornego braku struktury w badanej
populacji przykład został tak spreparowany, że kobiety i mężczyzni udzielali ściśle
różniących się od siebie odpowiedzi, tzn. tam, gdzie kobiety odpowiadały, że cecha do
marki pasuje (odpowiedzi 5 lub 4), mężczyzni odpowiadali, że cecha nie pasuje
(odpowiedzi 1 lub 2). W przykładzie występuje sześć marek samochodów (oznaczonych:
A, B, C, D, E, F) oraz pięć cech (luksusowy, marka dla mnie, marka popularna, drogi,
wysoka jakość). Rozkład odpowiedzi na pytanie,  W jakim stopniu do marki A pasuje
określenie, że jest marką luksusową? przedstawiony został na wykresie (Rysunek 3.3).
Analogicznie wyglądają rozkłady pozostałych zmiennych.
- 67 - - 68 -
Rysunek 3.4 Mapa korespondencji dla całej próby
Rysunek 3.5 Dendrogram pokazujący dwa oddalone od siebie skupienia w badanej grupie
Tabela 3.4. Kontrybucje profili wierszowych do osi głównych dla całej próby
Przeprowadzenia hierarchicznej analizy skupień sugeruje, że w badanej grupie są
K1 K2 K3 K4
dwie odrębne podgrupy (Rysunek 3.5), bardzo homogeniczne wewnątrz i zarazem bardzo
luksusowy 0,0733 0,4900 0,1061 0,1381
różniące się pomiędzy sobą. W dalszej kolejności należy przeprowadzić analizę skupień
marka dla mnie 0,1569 0,2877 0,1128 0,2584
metodą k-średnich, ustawiając docelowo dwa skupienia. W jej wyniku zbiór danych
marka popularna 0,3219 0,1315 0,3282 0,0021
drogi 0,2623 0,0848 0,4490 0,0111
zostanie podzielony na dwie podgrupy. Każdą z tych podgrup można zanalizować
wysoka jakość 0,1855 0,0061 0,0038 0,5903
oddzielnie. Na wykresach (Rysunek 3.6 oraz Rysunek 3.7) przedstawione zostały mapa
yródło: obliczenia własne
analizy korespondencji dla poszczególnych podgrup. Tabela 3.6 oraz tabela 3.7
Tabela 3.5. Kontrybucje profili kolumnowych do osi głównych dla całej próby przedstawiają kontrybucje profili odpowiednio wierszowych i kolumnowych dla mężczyzn
K1 K2 K3 K4
(pierwszego skupienia), natomiast tabela 3.8 oraz tabela 3.9 przedstawiają analogiczne
Marka A
0,0003 0,0565 0,0079 0,3764
dane dla kobiet (drugiego skupienia). Porównanie map oraz wartości kontrybucji
Marka B
0,5947 0,2494 0,0015 0,0177
Marka C jednoznacznie pokazuje, że te dwie grupy znacznie różnią się pod względem odpowiedzi
0,2191 0,4292 0,0849 0,0491
Marka D
0,0066 0,0414 0,3544 0,3957
udzielanych na pytania z kwestionariusza. Dane dla skupień różnią się w dużym stopniu
Marka E
0,1556 0,0014 0,0773 0,1076
także od danych dla całej próby.
Marka F
0,0237 0,2222 0,4741 0,0535
yródło: obliczenia własne
- 69 - - 70 -
Tabela 3.6. Kontrybucje profili wierszowych do osi głównych dla mężczyzn
K2 K3 K4
K1
luksusowy 0,0694 0,5917 0,0015 0,2791
marka dla mnie 0,7181 0,0007 0,0061 0,0028
marka popularna 0,1338 0,0321 0,5590 0,0971
drogi 0,0216 0,3601 0,0731 0,2258
wysoka jakość 0,0571 0,0155 0,3602 0,3950
yródło: obliczenia własne
Tabela 3.7. Kontrybucje profili kolumnowych do osi głównych dla mężczyzn
K1 K2 K3 K4
Marka A
0,0024 0,0045 0,0031 0,0966
Marka B
0,0105 0,1685 0,0018 0,0005
Marka C
Rysunek 3.6 Mapa korespondencji dla pierwszego skupienia (mężczyzni)
0,0304 0,0069 0,0028 0,0970
Marka D
0,6209 0,0198 0,0106 0,0996
Marka E
0,0234 0,0479 0,1454 0,3880
Marka F
0,3123 0,7523 0,8364 0,3183
yródło: obliczenia własne
Tabela 3.8. Kontrybucje profili wierszowych do osi głównych dla kobiet
K2 K3 K4
K1
luksusowy 0,0936 0,0469 0,0213 0,0936
marka dla mnie 0,5592 0,0006 0,2558 0,5592
marka popularna 0,0004 0,5562 0,2164 0,0004
drogi 0,3386 0,0052 0,2256 0,3386
wysoka jakość 0,0082 0,3911 0,2810 0,0082
yródło: obliczenia własne
Rysunek 3.7 Mapa korespondencji dla drugiego skupienia (kobiety)
Tabela 3.9. Kontrybucje profili kolumnowych do osi głównych dla kobiet
K1 K2 K3 K4
Marka A
0,0010 0,0000 0,1277 0,1195
Marka B
0,0755 0,8078 0,0060 0,0184
Marka C
0,1777 0,0642 0,4343 0,1713
Marka D
0,4823 0,0010 0,1525 0,1300
Marka E
0,2107 0,1270 0,0916 0,3776
Marka F
0,0527 0,0000 0,1880 0,1832
yródło: obliczenia własne
- 71 - - 72 -
Zasadniczym celem badania było nie tyle poznanie odpowiedzi respondentów na
4. Przykłady zastosowań analizy korespondencji
zadawane pytania, co raczej wypróbowanie analizy korespondencji jako metody do
W tym rozdziale chciałbym przedstawić kilka mniej typowych zastosowań analizy
analizowania tych odpowiedzi. Dlatego też niedostatki badania typu CAWI nie były w tym
korespondencji. Nietypowość ich polega na tym, że dane wejściowe nie mają charakteru
miejscu istotne.
frekwencyjnego. W pierwszym przykładzie w tablicy wejściowej będą to oceny udzielane
Przebadana próba liczyła 144 jednostki. Przedstawię teraz kilka rozkładów
przez respondentów, w drugim  wielkość emisji związków chemicznych
zmiennych demograficznych, co pozwoli na przyjrzenie się strukturze demograficznej
w poszczególnych województwach.
respondentów.
Przy pomocy trzeciego przykładu pokażę, że analizę korespondencji można
stosować do badania sieci afiliacji. Natomiast w przykładzie czwartym omawiana technika
będzie zastosowana w tradycyjny sposób. Danymi będą liczby oddanych głosów na
Tabela 4.1. Rozkład płci w próbie
komitety wyborcze, którym się udało dostać się do Sejmu w wyborach z 2005 r.
Płeć Liczebność Częstość
mężczyzni 54 0,38
kobiety 90 0,63
RAZEM 144 1,00
4.1. Badanie postrzegania polityków  wyniki i analiza
Tabela 4.2. Rozkład wykształcenia w próbie
W tym rozdziale zaprezentuję wyniki moich własnych badań przeprowadzonych
Wykształcenie Liczebność Częstość
Podstawowe 8 0,06
w drugiej połowie 2004 r. na próbie 144 osób. Do przeprowadzenia ankiety zastosowałem
Zawodowo-techniczne 2 0,01
Licealne 38 0,26
metodę CAWI (ang. Computer Assisted Web Interview), czyli ankietę umieszczoną na
Niepełne wyższe 51 0,35
stronie WWW w Internecie. Ogromną zaletą tej metody jest duże ułatwienie kodowania Wyższe 45 0,31
RAZEM 144 1,00
ankiet, które dokonuje się niejako samoczynnie poprzez automatyczny zapis odpowiedzi
respondentów do bazy danych. Badanie przy użyciu Internetu pozwala na uzyskanie
stosunkowo licznych prób przy użyciu niewielkich środków. Z punktu widzenia studenta
Tabela 4.3. Rozkład wieku w próbie
przeprowadzającego badania na potrzeby pracy magisterskiej jest to nieoceniona zaleta. Wiek Liczebność Częstość
Mniej niż 16 5 0,03
Nie wolno zapominać, że badanie metodą CAWI ma także spore ułomności, które
16-20 24 0,17
w dużym stopniu dyskwalifikują jej użyteczność na szerszym polu. Wobec bardzo niskiego 21-25 63 0,44
26-30 38 0,26
stopnia informatyzacji w kraju (ok. 28% społeczeństwa polskiego używa Internetu, przez
31-35 4 0,03
36-40 4 0,03
co rozumie się kontakt z Internetem w ciągu ostatniego miesiąca), niemożliwe jest
41-45 4 0,03
uzyskanie próby reprezentatywnej, choćby w minimalnym stopniu porównywalnej
46-50 2 0,01
RAZEM 144 1,00
z próbami stosowanymi w tradycyjnych sondażach. Ponadto do wad tej metody należy
brak bezpośredniego kontaktu ankietera z ankietowanymi, co pozbawia elementarnej
***
kontroli nad rzetelnością zbieranych danych, a także błędy związane z autoselekcją
respondentów, tzn. ci respondenci, którzy wzięli udział w badaniu, zdecydowali o tym
Główną część ankiety stanowił zestaw pytań o to, w jakim stopniu poszczególni
samodzielnie. Mogą się oni istotnie różnić od tych respondentów, którzy nie chcieli wziąć
politycy posiadają kolejne cechy. W badaniu chodziło o zbadanie, jak postrzegani są
udziału w badaniu, jednak nie wiadomo, jak się te różnice kształtują.
politycy. Ocenianych było 5 polityków: Aleksander Kwaśniewski, Andrzej Lepper, Leszek
- 73 - - 74 -
Miller, Adam Michnik, Leszek Balcerowicz. Dodatkowo występował tzw.  Polityk zmiennych9 występują istotne statystycznie różnice pomiędzy odpowiedziami udzielanymi
idealny . W odniesieniu do Polityka idealnego pytanie brzmiało: jak bardzo istotne jest, na skali od 0 do 10 a odpowiedziami udzielanymi na skali od 0 do 100.
aby polityk idealny daną cechę posiadał? Zastosowanie konceptu  Polityka idealnego
***
miało za zadanie uzyskanie reprezentacji prototypowej polityka badanych respondentów.
Dysponując taką reprezentacją, możliwe jest porównanie polityków ze świata
Przejdzmy teraz do zasadniczej części analizy wyników, a więc przeprowadzmy
rzeczywistego, o których badani byli pytani, z tym prototypowym wizerunkiem. Można
analizę korespondencji. Analizie poddamy tabelkę, w której wierszach znajdują się
w ten sposób sprawdzić, który z tych polityków jest najbliższy, a który najdalszy ideału.
atrybuty, a w kolumnach  poszczególni politycy. W komórkach znajdą się wartości
Jak się okaże, analiza korespondencji bardzo dobrze nadaje się do tego celu.
średnie punktów10 udzielanych przez respondentów.
Politycy są zatem obiektami, które mogą posiadać lub nie pewne cechy (atrybuty),
a więc są umieszczone w przestrzeni konceptualnej wyznaczanej przez te atrybuty. Jeśli
dwaj politycy posiadają wszystkie cechy w takim samym stopniu, powinni znajdować się
Tabela 4.4. Wartości średnie ocen w całej przebadanej próbie (N=144)
w tym samym punkcie tej przestrzeni. Natomiast jeśli profile dwóch polityków różnią się
Aleksander Andrzej Leszek Adam Leszek Polityk
N=144
Kwaśniewski Lepper Miller Michnik Balcerowicz idealny
w znacznym stopniu, powinni oni sytuować się w dużej odległości od siebie.
uczciwy 45,47 14,17 19,99 55,65 69,85 94,65
Zestaw atrybutów składał się z 15 elementów: uczciwy, stanowczy, autorytet
stanowczy 50,01 65,83 49,88 61,10 75,27 80,97
moralny, znany na świecie, niezależny, ekspert, silny, kulturalny, sprytny, autorytarny,
autorytet moralny 31,69 5,90 10,57 46,24 49,99 77,57
niebezpieczny, charyzmatyczny, godny zaufania, szanowany, prostacki.
znany na świecie 64,35 19,26 37,04 44,80 60,71 67,48
Oznacza to, że każdy z respondentów musiał udzielić odpowiedzi na 615 = 90 niezależny 36,10 44,76 25,22 61,09 68,50 80,59
ekspert 33,17 9,24 20,44 52,54 86,18 82,30
pytań. Wydawać się może, że jest to zadanie dość czasochłonne, jednak w rzeczywistości
silny 42,25 52,65 37,35 54,70 63,63 75,95
sposób zadawania pytań oraz sposób udzielania odpowiedzi sprawiały, że ta czynność
kulturalny 68,47 6,67 36,38 60,06 75,96 84,39
odbywała się niejako automatycznie. Respondenci przy takim zestawie pytań odpowiadają
sprytny 60,92 64,94 59,17 61,40 54,35 63,74
w pewnym sensie odruchowo, co pozwala domniemywać, że stopień szczerości
autorytarny 39,46 70,65 48,72 44,21 45,44 47,30
uzyskanych odpowiedzi jest stosunkowo wysoki.
niebezpieczny 30,83 85,56 57,31 33,02 23,59 12,96
Dodatkową zmienną, którą udało się manipulować w badaniu, była skala, na której charyzmatyczny 39,69 58,33 30,61 49,01 44,69 74,37
godny zaufania 37,94 5,99 12,63 49,74 65,60 92,60
badani udzielali odpowiedzi. Zastosowany został prosty mechanizm losowy, który w 50
szanowany 52,70 9,22 17,88 59,18 66,32 88,02
procent przypadków wybierał skalę od 0 do 100 i w pozostałych 50 procent przypadków 
prostacki 21,47 91,67 51,89 21,49 8,79 4,95
skalę od 0 do 10. Chciałem w ten sposób sprawdzić, czy czułość skali ma jakieś istotne
yródło: obliczenia własne
znaczenie przy tego typu zadaniu.
Aby sprawdzić, czy skala istotnie wpływa na wyniki, przekodowano oceny
respondentów udzielających odpowiedzi na skali od 0 do 10, przemnażając je przez 10.
Następnie wykonano analizę wariancji zmiennych  oceny polityków na poszczególnych
9
Te zmienne to: Aleksander Kwaśniewski uczciwy, Leszek Miller uczciwy, Adam Michnik uczciwy,
atrybutach ze względu na skalę. Okazuje się, że jedynie w przypadku dziewięciu
Andrzej Lepper stanowczy, Andrzej Lepper znany na świecie, Polityk idealny autorytarny, Aleksander
Kwaśniewski niebezpieczny, Leszek Balcerowicz charyzmatyczny, Aleksander Kwaśniewski prostacki.
Trudno jest znalezć jakieś socjologiczne wyjaśnienie dla faktu, że akurat te zmienne wykazują różnice
w zależności od skal.
10
Dla ujednolicenia odpowiedzi udzielane na skali od 0 do 10 zostały przekodowane przez przemnożenie
wartości przez 10.
- 75 - - 76 -
wartość normy-1, otrzymywał niższe oceny dla każdego atrybutu. Jeśliby teraz każdy
atrybut stanowił cechę, której posiadanie byłoby pożądane (o tym, czy dana cecha jest
pożądana, mówią nam odpowiedzi udzielane dla  Polityka idealnego ), wtedy wartość
normy-1 można by uznać za ciekawą informację mówiącą o tym, czy polityk ma wysokie
nasycenie cech pozytywnych, czy raczej to nasycenie jest niskie. W analizowanym
badaniu to  Polityk idealny ma największą wartość normy-1. Oznacza to, że posiada
(powinien posiadać) w jak największym stopniu poszczególne atrybuty11. Koła
reprezentujące Andrzeja Leppera, Leszka Millera oraz Aleksandra Kwaśniewskiego są
mniejsze niż pozostałych polityków, co sugeruje, że w mniejszym stopniu posiadają
poszczególne cechy.
Podobnie jak z obiektami ma się sytuacja z atrybutami. Niska wartość normy-1
oznacza, że dany atrybut posiada niewielu polityków lub posiadają go w małym stopniu.
A więc globalnie atrybut ten jest w małym stopniu reprezentowany. Natomiast wysoka
wartość normy-1 oznacza, że wielu polityków posiada dany atrybut w dużym stopniu.
Rysunek 4.1 Mapa korespondencji dla całej przebadanej próby (N=144)
Na wykresie (Rysunek 4.1) najwyrazniej zarysowuje się wymiar poziomy, który
wyjaśnia 91 procent inercji. Rozpinany on jest z jednej strony przez atrybuty o wydzwięku
pejoratywnym (prostacki, autorytarny, niebezpieczny) usytuowane po dodatniej stronie osi,
a z drugiej przez atrybuty o wydzwięku pozytywnym (uczciwy, szanowany, godny
zaufania, ekspert). Są to dwa bieguny, na których sytuują się kompletnie odmienne typy
polityków. Uosobieniem tych typów jest z jednej strony Andrzej Lepper, z drugiej zaś
strony  Leszek Balcerowicz i Adam Michnik. Ci dwaj ostatni znajdują się w bliskiej
odległości do wizerunku  Polityka idealnego dla przeciętnego respondenta, natomiast
Lepper znalazł się w bardzo dużej odległości od tego wizerunku.
***
Wielkość kół na wykresie reprezentuje normę-1 poszczególnych profili, więc
odpowiadają one współrzędnym profili średnich  wierszowego i kolumnowego.
Zastanówmy się, jaki jest ich sens merytoryczny. Im większa jest wartość normy-1 (im
większe jest koło na wykresie), tym dany profil miał wyższe wartości na każdej
współrzędnej. Tak więc polityk, którego profil ma wysoką wartość normy-1, otrzymywał,
średnio licząc, wyższe oceny dla każdego atrybutu. Polityk, którego profil ma niską
11
Nie odnosi się to do atrybutu  prostacki , który dostał średnią ocen 4,95 (patrz Tabela 4.4).
- 77 - - 78 -
Skupienia są różnoliczne. Pierwsze zawiera 25 respondentów, drugie  64, a trzecie
Dendrogram (Rysunek 4.2) uzyskany  55. Mapy analizy korespondencji wygenerowane oddzielnie dla każdego skupienia
metodą hierarchicznej analizy skupień12 różnią w pewnym stopniu. Proporcje inercji wyjaśnianej przez każdy z wymiarów są
wskazuje na istnienie w badanej zbiorowości podobne.
trzech grup różniących się sposobem udzielania Zasadniczo cały układ się nie zmienia, co dowodzi dość mocnego ugruntowania
odpowiedzi na pytania o ocenę polityków na wizerunku poszczególnych polityków wśród respondentów, jednakże możliwe jest
poszczególnych atrybutach. Węzły końcowe odnalezienie pewnych ciekawych różnic w postrzeganiu polityków.
dendrogramu stanowią poszczególni
respondenci. Każdy respondent opisywany jest Na pewno niezmienna jest opozycja: Andrzej Lepper otoczony atrybutami
przez 90 zmiennych (iloczyn liczby atrybutów pejoratywnymi   Polityk idealny otoczony atrybutami o wydzwięku pozytywnym.
i liczby ocenianych polityków) i stanowi punkt Świadczy to o przekonaniu respondentów, że szef Samoobrony jest antytezą polityka
w 90-wymiarowej przestrzeni. Współrzędne idealnego.
każdego punktu-respondenta odpowiadają
odpowiedziom, jakich udzielił. Dwóch
respondentów znajduje się w tej przestrzeni
blisko siebie, gdy udzielali podobnych
odpowiedzi (ich współrzędne są podobne, więc
lokalizacja jest podobna). W przypadku tego
dendrogramu dystans między
punktami-respondentami mierzony jest przy
użyciu metryki euklidesowej.
Z informacją o tym, że zbiorowość
można podzielić na trzy rozłączne i oddalone od
siebie skupienia, możemy przystąpić do analizy
skupień metodą k-średnich, by
przyporządkować respondentów do
odpowiednich skupień.
Rysunek 4.2 Dendrogram wykonany przy
Rysunek 4.3 Mapa korespondencji dla skupienia #1 (N=25)
Teraz możliwe jest uzyskanie map
użyciu hierarchicznej analizy skupień
analizy korespondencji dla zbiorowości, które
są wewnętrznie o wiele mniej zróżnicowane niż
miało to miejsce w przypadku całej przebadanej
W skupieniu #1 największą kontrybucję do pierwszego wymiaru ma atrybut
grupy. Jednocześnie grupy różnią się między sobą w stopniu najwyższym z możliwych.
 niebezpieczny i  prostacki , a wśród polityków  Andrzej Lepper, Leszek Miller oraz
 Polityk idealny . Mapa pokazuje, że dwaj pierwsi znajdują się na tym wymiarze bardzo
12
Wykorzystana została metoda Warda przy metryce euklidesowej.
- 79 - - 80 -
blisko siebie i że są w opozycji do  Polityka idealnego , do którego najbardziej podobny Millera oraz przez atrybuty  prostacki i  niebezpieczny . Dla respondentów, którzy
zdaje się Leszek Balcerowicz. znalezli się w tym skupieniu Leszek Miller bardziej różni się od Leppera na drugim
Dopiero wymiar drugi różnicuje Leszka Millera i Andrzeja Leppera. Wymiar ten wymiarze, natomiast Leszek Balcerowicz jest bliższy ideału.
określany jest w największym stopniu przez atrybuty:  znany na świecie ,  kulturalny .
Pełnienie przez Millera funkcji premiera postawiło go w kontekście spotkań
z przywódcami innych państw, co w oczach respondentów zbliżyło Millera do Aleksandra
Kwaśniewskiego. Ten, będąc prezydentem przez wiele lat, dał się poznać jako polityk
swobodnie obracający się w międzynarodowych kręgach. Wymiar drugi jest
w największym stopniu rozpinany właśnie przez Aleksandra Kwaśniewskiego i stojącego
do niego w opozycji Andrzeja Leppera.
Respondenci dostrzegają charyzmę Leppera, której nie posiada Kwaśniewski.
Jednak w oczach respondentów nie charyzma jest cechą, która ma wyróżniać polityka
idealnego. Są to raczej takie cechy jak: uczciwość, bycie godnym zaufania, bycie
ekspertem, bycie autorytetem moralnym. Ten zestaw cech zdaje się posiadać Leszek
Balcerowicz, natomiast w mniejszym stopniu pozostali politycy.
Rysunek 4.5 Mapa korespondencji dla skupienia #2 (N=55)
Ciekawy układ prezentuje się natomiast w przypadku skupienia #3, które w dość
znacznym stopniu różni się od pozostałych skupień. Tu Lepper silniej niż w pozostałych
przypadkach rozpina pierwszy wymiar. Prostactwo, z jakim jest kojarzony, oraz
postrzeganie go jako polityka niebezpiecznego ponownie nadają ton temu wymiarowi.
Natomiast drugi wymiar to wyrazna opozycja między Leszkiem Millerem
i  Politykiem idealnym . Respondenci należący do tego skupienia postrzegają podobnie
Leszka Balcerowicza, Adam Michnika i Aleksandra Kwaśniewskiego na pierwszym
wymiarze.
Rysunek 4.4 Mapa korespondencji dla skupienia #2 (N=64)
W przypadku skupienia #2 sytuacja jest podobna do sytuacji ze skupienia #1 
pierwszy wymiar jest w największym stopniu rozpinany przez Andrzeja Leppera i Leszka
- 81 - - 82 -
Tabela 4.5. Porównanie kontrybucji profili wierszowych do inercji pierwszych dwóch wymiarów dla
4.2. Zastosowanie analizy korespondencji do sieci afiliacji
trzech skupień
skupienie #1 skupienie #2 skupienie #3
K1 K2 K1 K2 K1 K2
Analiza korespondencji znajduje swoje ciekawe zastosowanie w dziale socjologii
uczciwy 0,054 0,001 0,048 0,003 0,042 0,034
stanowczy 0,000 0,005 0,005 0,022 0,013 0,002 zajmującym się analizą sieci społecznych (ang. SNA  social network analysis). Może być
autorytet moralny 0,048 0,008 0,068 0,030 0,048 0,096
ona wykorzystywana do eksploracji tzw. sieci afiliacji.
znany na świecie 0,003 0,294 0,009 0,302 0,010 0,230
niezależny 0,019 0,069 0,004 0,153 0,000 0,065
Sieci afiliacji to specyficzny rodzaj sieci społecznych. Po pierwsze są to sieci
ekspert 0,084 0,029 0,061 0,014 0,040 0,001
bimodalne łączące ze sobą aktorów z tzw. wydarzeniami, w których aktorzy uczestniczą.
silny 0,001 0,067 0,001 0,040 0,002 0,000
kulturalny 0,029 0,220 0,035 0,250 0,053 0,268
Po drugie  sieci afiliacji stanowią bardziej opis zbiorów aktorów niż opis zwyczajnych
sprytny 0,031 0,067 0,032 0,062 0,011 0,071
autorytarny 0,090 0,066 0,050 0,002 0,036 0,003
więzi pomiędzy parami aktorów. Obydwie te cechy sprawiają, że analiza i interpretacja
niebezpieczny 0,222 0,003 0,220 0,013 0,211 0,025
takich obiektów jest w pewnym sensie różna od analizy zwykłych unimodalnych sieci
charyzmatyczny 0,000 0,120 0,003 0,072 0,012 0,062
godny zaufania 0,077 0,029 0,078 0,016 0,065 0,088
społecznych (Wasserman, 1994: 291).
szanowany 0,050 0,024 0,052 0,018 0,055 0,011
prostacki 0,291 0,000 0,334 0,002 0,402 0,043 Jak już powiedzieliśmy, sieci afiliacji łączą ze sobą aktorów z tzw. wydarzeniami,
yródło: obliczenia własne
w których aktorzy uczestniczą. Takimi wydarzeniami może być zarówno obecność na
prywatce (aktorami wtedy są młodzi ludzie, którzy bywają na prywatkach), jak i zasiadanie
Tabela 4.6. Porównanie kontrybucji profili kolumnowych do inercji pierwszych dwóch wymiarów dla w radach nadzorczych korporacji (aktorami wtedy są zasiadający w radach nadzorczych
trzech skupień
ludzie interesu). Charakterystyczne dla sieci afiliacji jest to, że ani aktorzy, ani wydarzenia
skupienie #1 skupienie #2 skupienie #3
nie są ze sobą połączeni bezpośrednio, tzn. nie istnieje taka para aktorów lub wydarzeń,
K1 K2 K1 K2 K1 K2
Aleksander Kwaśniewski 0,010 0,671 0,001 0,560 0,061 0,124
która byłaby połączona krawędzią. Jedynym możliwym rodzajem połączenia w tej sieci
Andrzej Lepper 0,438 0,239 0,468 0,249 0,729 0,087
Leszek Miller 0,240 0,041 0,249 0,121 0,039 0,467
jest połączenie pomiędzy aktorem i wydarzeniem. W rezultacie zarówno aktorzy jak
Adam Michnik 0,007 0,000 0,029 0,015 0,005 0,015
i wydarzenia są ze sobą połączeni pośrednio, a więc mogą istnieć aktorzy, którzy
Leszek Balcerowicz 0,104 0,001 0,122 0,008 0,040 0,006
Polityk idealny 0,201 0,048 0,131 0,047 0,126 0,301
uczestniczą w tym samym wydarzeniu, i  z drugiej strony  są różne wydarzenia,
yródło: obliczenia własne
w których uczestniczy ten sam aktor.
Zazwyczaj sieć afiliacji opisywana jest przez macierz prostokątną, w której
wierszach znajdują się aktorzy ze zbioru aktorów N = {n1, n2, ..., ng}, a w kolumnach 
wydarzenia ze zbioru wydarzeń M = {m1, m2, ..., mh}. Dane w macierzy mają zwykle
charakter binarny  1 wtedy, gdy aktor i uczestniczy w wydarzeniu j, a 0  gdy
w wydarzeniu nie uczestniczy.
Ponieważ wydarzenia zwykle skupiają więcej niż dwójkę aktorów, sieć afiliacji
zawiera w sobie informację na temat zbiorów aktorów o liczebności większej niż dwa.
Stąd sieć afiliacji nie może być analizowana dogłębnie poprzez badanie diad aktorów
i wydarzeń (Wasserman, 1994: 294).
- 83 - - 84 -
Kolejną specyficzną cechą omawianych sieci jest dualność relacji łączącej aktorów
Tabela 4.7. Uczestnictwo krajów kontynentów amerykańskich w organizacjach międzynarodowych
z wydarzeniami. Można spoglądać na sieć afiliacji na dwa komplementarne sposoby: albo
na aktorów połączonych wydarzeniami, w których uczestniczą, albo też na wydarzenia,
których łączą aktorzy. Analitycznie rzecz biorąc, oznacza to, że możliwe jest badanie więzi
łączących aktorów, więzi łączących wydarzenia lub też obydwie rzeczy na raz. Tak więc
Argentina 0 1 0 0 0 1 1 0 1 1 0 1 0 0 1 7
Belize 1 0 0 0 1 0 0 0 1 0 0 1 0 0 1 5
dwóch aktorów jest ze sobą połączonych wtedy i tylko wtedy, gdy istnieje przynajmniej
Bolivia 0 1 1 1 0 1 1 0 1 0 0 1 0 0 1 8
jedno wydarzenie, w którym obydwaj uczestniczą. Analogicznie  dwa wydarzenia są ze
Brazil 0 1 1 0 0 1 1 0 1 1 0 1 0 0 1 8
Canada 0 0 0 0 0 0 0 0 1 0 1 1 0 0 0 3
sobą połączone wtedy i tylko wtedy, gdy istnieje przynajmniej jeden aktor, który
Chile 0 1 0 0 0 0 1 0 1 0 0 1 0 0 1 5
Colombia 1 1 1 1 0 1 1 1 1 0 0 1 0 0 1 10
uczestniczy w obydwu tych wydarzeniach.
Costa Rica 1 0 0 0 0 1 0 0 1 0 0 1 0 1 1 6
Sieć afiliacji zdaje się zatem idealna do zastosowania do jej eksploracji analizy
Ecuador 0 1 1 1 0 1 1 0 1 0 0 1 0 0 1 8
El Salvador 1 0 0 0 0 1 0 0 1 0 0 1 1 1 1 7
korespondencji, dzięki której można zbadać powiązania aktorów z wydarzeniami.
Guatemala 1 0 0 0 0 1 0 0 1 0 0 1 1 1 1 7
Będziemy poszukiwać zatem korespondencji pomiędzy wydarzeniami i aktorami, a więc Guyana 1 0 1 0 1 1 0 0 1 0 0 1 0 0 1 7
Honduras 1 0 0 0 0 1 0 0 1 0 0 1 1 1 1 7
sprawdzimy, czy pewni aktorzy mają silniejszą, niż by wynikało to z modelowego
Mexico 1 1 0 0 0 1 1 1 1 0 1 1 0 1 1 10
Nicaragua 1 0 0 0 0 1 0 0 1 0 0 1 0 0 1 5
rozkładu losowego, tendencję do uczestnictwa w pewnych wydarzeniach i czy pewne
Panama 1 0 0 0 0 1 0 0 1 0 0 1 0 0 1 5
wydarzenia mają silniejszą tendencję do skupiania tych samych aktorów. Przy pomocy
Pararguay 0 1 0 0 0 0 1 0 1 1 0 1 0 0 1 6
Peru 0 1 1 1 0 1 1 0 1 0 0 1 0 0 1 8
analizy korespondencji można także wskazać, którzy aktorzy są podobni do siebie ze
Suriname 1 0 1 0 0 0 0 0 1 0 0 1 0 0 1 5
względu na uczestnictwo w pewnych wydarzeniach oraz które wydarzenia są do siebie USA 0 0 0 0 0 0 0 0 1 0 1 1 0 0 0 3
Urugway 0 1 0 0 0 1 1 0 1 1 0 1 0 0 1 7
podobne ze względu na skupianie podobnego składu aktorów.
Venezuela 1 1 1 1 0 1 1 1 1 0 0 1 0 0 1 10
RAZEM 12 11 8 5 2 16 11 3 22 4 3 22 3 5 20
yródło: (Faust: 2005)
Mapa korespondencji (Rysunek 4.6) pokazuje, które państwa leżące na
kontynentach amerykańskich są podobne siebie ze względu na przynależność do
organizacji międzynarodowych. Od razu rzuca się w oczy wyrazna izolacja USA i Kanady,
które należąc do NAFTA skupiającej ponadto jedynie Meksyk, nie należą do wielu więcej
organizacji.
Na wymiarze poziomym zarysowuje się opozycja pomiędzy państwami należącymi
do Parlamentu Ameryki Środkowej  Parlacen (El Salwador, Gwatemala, Honduras13),
a państwami należącymi do organizacji MERCOSUR (Brazylia, Argentyna, Urugwaj,
Paragwaj). Można nawet pokusić się o tezę, że wymiar poziomy na tej mapie dzieli
państwa amerykańskie na duże z lewej strony i mniejsze  z prawej.
13
Do Parlamentu Ameryki Środkowej należą ponadto Nikaragua, Panama i Republika Dominikany (od 26
lutego 2004 r.). Republika Dominikany nie znalazła się w Tabela 4.7. Figurują w niej natomiast Nikaragua i
Panama, jednakże autorka zestawienia Katherine Faust (2005) nie uwzględniła ich przynależności do tej
organizacji w swoim opracowaniu.
- 85 - - 86 -
G-3
IDB
ACS
OAS
SELA
ALADI
NAFTA
RAZEM
Parlacen
CARICOM
Andean Pact
Group of Rio
Amazon Pact
MERCOSUR
GENPLACEA
San Jose Group
Tabela 4.8. Kontrybucje profili wierszowych do inercji osi głównych
K1 K2 K3
Argentyna 0,0409 0,0000 0,0303
Belize 0,0339 0,0082 0,3467
Boliwia 0,0499 0,0021 0,0008
Brazylia 0,0561 0,0005 0,0089
Kanada 0,0207 0,3969 0,0022
Chile 0,0195 0,0011 0,0032
Kolumbia 0,0294 0,0028 0,0043
Kostaryka 0,0533 0,0075 0,0069
Ekwador 0,0499 0,0021 0,0008
El Salvador 0,1354 0,0272 0,0599
Gwatemala 0,1354 0,0272 0,0599
Gujana 0,0125 0,0172 0,3026
Honduras 0,1354 0,0272 0,0599
Meksyk 0,0093 0,0694 0,0129
Nikaragua 0,0123 0,0025 0,0034
Panama 0,0123 0,0025 0,0034
Paragwaj 0,0511 0,0011 0,0275
Peru 0,0499 0,0021 0,0008
Surinam 0,0018 0,0026 0,0286
USA 0,0207 0,3969 0,0022
Urugwaj 0,0409 0,0000 0,0303
Wenezuela 0,0294 0,0028 0,0043
yródło: obliczenia własne
Tabela 4.9. Kontrybucje profili kolumnowych do inercji osi głównych
K1 K2 K3
ACS 0,1117 0,0327 0,0343
ALADI 0,1330 0,0002 0,0216
Amazon Pact 0,0496 0,0118 0,0621
Andean Pact 0,0699 0,0048 0,0049
CARICOM 0,0228 0,0146 0,5333
0,0019
GENPLACEA 0,0230 0,0098
Group of Rio 0,1330 0,0002 0,0216
G-3 0,0059 0,0029 0,0000
IDB 0,0061 0,0226 0,0031
MERCOSUR 0,0794 0,0001 0,0651
NAFTA 0,0378 0,7862 0,0005
OAS 0,0061 0,0226 0,0031
Parlacen 0,1701 0,0418 0,1234
San Jose Group 0,1723 0,0139 0,1160
SELA 0,0003 0,0226 0,0010
yródło: obliczenia własne
- 87 - - 88 -
Rysunek 4.6 Mapa korespondencji przynale
ż
no
ś
ci pa
ń
stw obu Ameryk do organizacji mi
ę
dzynarodowych.
4.3. Zanieczyszczenie województw
Tym razem przedstawiony zostanie przykład wykorzystania analizy korespondencji
w ekologii. Tabela 4.10 ukazuje wartość emisji poszczególnych związków chemicznych
w każdym z województw. Przy pomocy analizy korespondencji będzie można ustalić,
które województwa są do siebie podobne pod względem emisji zanieczyszczeń.
Tabela 4.10. Emisja zanieczyszczeń gazowych w Polsce (2000 rok) w tysiącach mg wg danych GUS
w tym
Województwo dwutlenek
tlenki azotu tlenek węgla węglowodory inne Ogółem
siarki
Dolnośląskie 72,6 24,5 11,9 0,9 1,4 111,3
Kujawsko-Pomorskie 35,4 16,4 20,3 1,3 1,7 75,1
Lubelskie 21,8 10,6 7,1 0,6 0,7 40,8
Lubuskie 6 3,1 13,4 0,2 0,3 23
Aódzkie 256,3 48,5 22 0,5 0,6 327,9
Małopolskie 64,9 28,1 53,1 1,5 1,4 149
Rysunek 4.7 Mapa korespondencji  zanieczyszczenie województw poszczególnymi związkami chemicznymi
Mazowieckie 131 40,7 12,3 3,8 0,5 188,3
Opolskie 18 20,5 17,4 0,9 0,6 57,4
Mapa korespondencji (Rysunek 4.7) pokazuje podobieństwo województw pod
Podkarpackie 15,9 6,6 4,6 0,8 0,2 28,1
Podlaskie 6,2 3,2 3,4 0,8 0,4 14
względem emitowanych przez każde z nich związków chemicznych. Pierwszy wymiar jest
Pomorskie 26,8 9,9 7,3 1 3,4 48,4
Śląskie 152,3 81,9 136,1 3,6 1,5 375,4 najmocniej rozpinany przez tlenek węgla oraz dwutlenek siarki (tabela 4.11, tabela 4.12).
Świętokrzyskie 48,7 23,7 12,1 0,2 0,9 85,6
Na mapie obydwa związki znajdują się po przeciwnych stronach osi. Tlenek węgla
Warmińsko-Mazurskie 7,4 3,6 3,7 0,5 0,1 15,3
Wielkopolskie 127,7 28,6 13,3 1,1 0,3 171
emitowany jest w największym stopniu w województwie śląskim, lubuskim, małopolskim.
Zachodniopomorskie 49,2 21,1 7,2 0,5 1,7 79,7
Dwutlenek siarki, z drugiej, strony emitowany jest w największym stopniu
POLSKA OGÓAEM 1040,2 370,9 345,3 18 15,6
yródło: M. Grzegorczyk, M. Sałata, T. Skuza, Emisja zanieczyszczeń do powietrza (http://free.of.pl/p/piqt/strona1/roz3.html) w województwach łódzkim, wielkopolskim i mazowieckim.
Powierzchnia koła na mapie informuje dodatkowo o bezwzględnej ilości
emitowanych związków. Tak więc, najwięcej emituje się w Polsce dwutlenku siarki,
natomiast emisja tlenku węgla oraz tlenków azotu jest niższa od emisji dwutlenku siarki
i osiąga podobny poziom. Analogiczną informację możemy odczytać dla województw.
Z mapy wynika, że najwięcej zanieczyszczeń emitują województwo łódzkie i śląskie.
Drugi wymiar w największym stopniu rozpinany jest przez inne związki
chemiczne, które są emitowane głównie w województwie pomorskim.
- 89 - - 90 -
Tabela 4.11. Kontrybucje profili wierszowych do inercji osi Tabela 4.12. Kontrybucje profili
4.4. Wyniki wyborów do Sejmu z 2005 r.
głównych kolumnowych do inercji osi głównych
W tym miejscu przedstawię przykład, w którym analizę korespondencji
K1 K2
K1 K2
Dolnośląskie 0,0204 0,0140
0,3025
wykorzystano w jej tradycyjnym wydaniu, tzn. do danych o charakterze frekwencyjnym.
dwutlenek siarki 0,0507
Kujawsko-pomorskie 0,0178 0,0370
Lubelskie 0,0000 0,0269
tlenki azotu 0,0108 0,1608
W wierszach tabeli kontyngencji znajdują się komitety wyborcze, którym udało się dostać
Lubuskie 0,0868 0,0180
tlenek węgla 0,6820 0,0690
Aódzkie 0,2227 0,1289
do Sejmu  jest ich 6; w kolumnach  okręgi wyborcze, których jest 41. W komórkach
węglowodory 0,0027 0,0837
Małopolskie 0,1043 0,0177
Mazowieckie 0,0800 0,0037 tabeli znajdują się liczebności głosów, które zostały oddane na każdy komitet
inne 0,0021 0,6358
Opolskie 0,0462 0,0478
yródło: obliczenia własne
w poszczególnych okręgach. Tablica z pełnymi danymi znajduje się w Aneksie (7.4).
Podkarpackie 0,0001 0,0055
Podlaskie 0,0032 0,0424
Na wykresie (Rysunek 4.8) przedstawiona została mapa korespondencji, na której
Pomorskie 0,0001 0,4504
Śląskie 0,3125 0,0694
widać, że zwolennicy poszczególnych partii nie są rozproszeni losowo po województwach.
Świętokrzyskie 0,0020 0,0180
Warmińsko-mazurskie 0,0021 0,0020
Wręcz przeciwnie  na mapie zarysowuje się wyrazna struktura. Pierwszy wymiar można
Wielkopolskie 0,0880 0,0343
Zachodniopomorskie 0,0136 0,0840 zinterpretować jako całkiem wyrazną opozycję pomiędzy zwolennikami partii chłopskich
yródło: obliczenia własne
(PSL i Samoobrona  po prawej stronie) a zwolennikami partii kierujących swój program
do klasy średniej (PiS i Platforma Obywatelska  po lewej stronie tej osi). Na PSL
i Samoobronę głosowano częściej w okręgu chełmskim i siedleckim. Natomiast
mieszkańcy dużych miast (Warszawy, Katowic, Krakowa, Poznania, Gdańska) mają
tendencję do głosowania na PiS i Platformę.
Wymiar pierwszy stanowi kontinuum: od partii liberalnych (PO), poprzez coraz
mniej liberalne i bardziej etatystyczne, głoszące hasła socjalne (SLD, PiS), aż do
najbardziej roszczeniowych, kierujących swój program do rolników i robotników (PSL
i Samoobrona).
Wymiar drugi natomiast można zinterpretować jako dość wyrazna opozycja
prawica-lewica, a więc pomiędzy Prawem i Sprawiedliwością oraz Ligą Polskich Rodzin
a Sojuszem Lewicy Demokratycznej.
Na partie prawicowe głosowano częściej w okręgach południowej Polski (Nowy
Sącz, Tarnów, Rzeszów), natomiast na SLD głosowano częściej w Polsce
północno-zachodniej (Bydgoszcz, Koszalin, Piła).
Warto jednakże zwrócić uwagę na to, że powyższa interpretacja jest w pewnym
sensie skrótem myślowym. Żeby to wyjaśnić, trzeba zastanowić się nad tym, na czym
polega podobieństwo profili na tej mapie, tzn. co sprawia, że profile są blisko siebie. Otóż
dwie partie znajdą się na mapie blisko siebie, gdy oddawano na nie głosy częściej niż na
inne partie w tych samych okręgach wyborczych. Partie polityczne mają swoje programy,
- 91 - - 92 -
którymi odpowiadają na różne problemy trapiące społeczeństwo. W zasadzie wszystkie
mówią o likwidacji bezrobocia, polepszeniu służby zdrowia i budowie autostrad  tym
zatem się nie różnią. To, czym się różnią, to sposoby, które proponują, aby te bolączki
zlikwidować. Z drugiej strony poszczególne okręgi wyborcze mają różne problemy  np.
w jednych jest duże bezrobocie, w innych pracy jest więcej, ale ludzie chcieliby więcej
zarabiać (płacić niższe podatki). Okręgi wyborcze, w których dominuje wysokie
bezrobocie, będą skłonne głosować na partie, które obiecują podwyższenie zasiłków,
podwyższenie kwoty płacy minimalnej, dodatkowe osłony dla pracowników itp. Okręgi
dobrze rozwinięte gospodarczo  zwykle są to duże miasta  będą raczej głosować na
partie, które proponują zmniejszenie podatków, ułatwienie życia przedsiębiorcom.
Można zatem przypuszczać, że okręgi, w których występuje określony problem,
głosują w większości na partię, która skupia się w swoim programie na likwidacji tego
problemu. A więc sednem podobieństwa między okręgami wyborczymi, które na mapie
korespondencji są blisko siebie, jest nie tyle to, że głosowały one w większości na te same
partie polityczne, ale raczej to, że zmagają się z podobnymi problemami społecznymi.
Partie polityczne, z drugiej strony, są podobne do siebie, bo odpowiadają swoimi
programami na podobne problemy społeczne żywotne dla różnych okręgów.
- 93 - - 94 -
Rysunek 4.8 Mapa korespondencji komitetów wyborczych i okr
ę
gów wyborczych
5. Zakończenie
Tabela 4.13. Kontrybucje profili wierszowych do inercji osi głównych
K1 K2 K3
Analiza korespondencji to technika posiadająca wiele zalet, wśród których należy
Liga Polskich Rodzin 0,0220 0,1779 0,0599
wymienić łatwość interpretacji, atrakcyjność formy prezentacji wyników oraz ich
Prawo i Sprawiedliwość 0,0352 0,2933 0,0018
przejrzystość. Ograniczanie obszaru jej zastosowań tylko do danych o charakterze
Sojusz Lewicy Demokratycznej 0,0010 0,2757 0,5883
frekwencyjnym pozbawia badacza ciekawego narzędzia analitycznego. Technika ta
Platforma Obywatelska RP 0,3046 0,0700 0,1726
Polskiego Stronnictwa Ludowego 0,3461 0,0240 0,0001
w tradycyjnym wydaniu jest jedynie innym sposobem przedstawiania danych
Samoobrona Rzeczpospolitej Polskiej 0,2912 0,1590 0,1774
numerycznych zawartych w tabeli kontyngencji. Naturalnie jest to wtedy pomocne
yródło: obliczenia własne
narzędzie, zwłaszcza gdy analizie poddawane są duże zbiory danych, a zmienne mają
wiele kategorii. Dzięki analizie korespondencji możliwe jest wtedy przyjrzenie się
Tabela 4.14 Kontrybucje profili kolumnowych do inercji osi głównych
zależnościom pomiędzy poszczególnymi kategoriami zmiennych.
K1 K2 K3 K1 K2 K3
Natomiast dopuszczenie nietradycyjnych zastosowań otwiera przed badaczem
Legnica 0,0010 0,0219 0,0143 Opole 0,0008 0,0079 0,0030
szeroką gamę interesujących możliwości. Badanie map percepcyjnych to bardzo ważny
Wałbrzych 0,0000 0,0146 0,0003 Krosno 0,0080 0,0621 0,0167
Wrocław 0,0243 0,0032 0,0275 Rzeszów 0,0038 0,1961 0,0245
dział wszelkich badań marketingowych. Pozwala na zorientowanie się w rzeczywistości
Bydgoszcz 0,0001 0,0258 0,1172 Białystok 0,0096 0,0141 0,0633
konsumenckiej  poznanie sposobu, w jaki konsumenci postrzegają marki producentów
Toruń 0,0127 0,0141 0,0049 Gdańsk 0,0478 0,0064 0,0931
jest ogromnie istotne z punktu widzenia formułowania przekazów reklamowych, tworzenia
Lublin 0,0298 0,0277 0,0015 Gdynia 0,0191 0,0038 0,0117
Chełm 0,1081 0,0058 0,0083 Bielsko-Biała 0,0128 0,0216 0,0000
nowych produktów, znajdowania nisz marketingowych.
Zielona Góra 0,0002 0,0155 0,0359 Częstochowa 0,0000 0,0018 0,0096
Podbudowa teoretyczna oparta na teorii przestrzeni konceptualnych oraz koncepcji
Aódz 0,0089 0,0071 0,0396 Gliwice 0,0248 0,0030 0,0031
schematów poznawczych, którą przedstawiłem w niniejszej pracy, pozwala
Piotrków
Rybnik 0,0167 0,0000 0,0004
0,0320 0,0044 0,0066
Trybunalski
Katowice 0,0532 0,0000 0,0098 domniemywać, że zastosowanie omawianej techniki do konstruowania map percepcyjnych
Sieradz 0,0474 0,0349 0,0003
Sosnowiec 0,0236 0,0088 0,3383
ma uzasadnienie. Algorytm wykorzystywany w analizie korespondencji  rzutowanie
Chrzanów 0,0005 0,0375 0,0022
Kielce 0,0510 0,0047 0,0001
Kraków 0,0434 0,0353 0,0196
punktów w przestrzeni na niskowymiarowe podprzestrzenie  może odpowiadać
Elbląg 0,0046 0,0171 0,0139
Nowy Sącz 0,0000 0,0891 0,0008
Olsztyn 0,0013 0,0060 0,0084 rzeczywistym procesom kognitywnym zachodzącym w ludzkim umyśle w procesie
Tarnów 0,0014 0,0671 0,0018
Kalisz 0,0150 0,0192 0,0009
kategoryzacji obiektów z otaczającego świata. Mapa korespondencji zaś zdaje sprawę
Płock 0,0423 0,0006 0,0000
Konin 0,0217 0,0329 0,0076
Radom 0,0327 0,0000 0,0104
z ułożenia tych obiektów. Natomiast wymiary, czyli osie główne, odpowiadają ukrytym
Piła 0,0045 0,0395 0,0050
Siedlce 0,0735 0,0204 0,0121
(latentnym) metodom porządkowania informacji. Ich moc wyjaśniająca, a więc wielkość
Poznań 0,0473 0,0077 0,0301
Warszawa I 0,1559 0,0013 0,0090
Koszalin 0,0060 0,0619 0,0211
inercji, którą wyjaśniają, niesie informację o tym, jakie są priorytety w kategoryzacji.
Warszawa II 0,0097 0,0244 0,0242
Szczecin 0,0046 0,0347 0,0030
Przy tego rodzaju badaniach niezmiernie istotna jest preklasyfikacja respondentów,
dzięki której poddawane będą analizie mapy percepcyjne jednostek w miarę
homogenicznych. Dzięki temu wstępnemu zabiegowi uniknąć można artefaktów
w analizie.
- 95 - - 96 -
Greenacre, Michael, Jorg Blasius (red.), Correspondence Analysis in Social Sciences,
6. Bibliografia
Academic Press, New York, London 1994.
Higgs, N.T., Practical and Innovative Uses of Correspondence Analysis,  The
Barsalou, Lawrence W., Context-independent and context-dependent information in
Statistician , t. 40(2), 1991, s. 183 194.
concepts,  Memory & Cognition , t. 10 (1): 1982, s. 82 93.
Hill, M.O., H.G. Gauch, Jr., Detrended Correspondence Analysis: An Improved
Beh, Eric J., Simple Correspondence Analysis: A Bibliographic Review,  International
Ordination Technique,  Vegetatio , t. 42:1980, s. 47 58.
Statistical Revue , t. 72(2): 2004, s. 257 284.
Kiełbasiński, A., H. Schwetlick, Numeryczna algebra liniowa, WNT, Warszawa 1992.
Beh, E. J., Correspondence analysis in the statistical literature, University of Western
Kirsch, David, Today the earwig, tomorrow man,  Artificial Intelligence 47:1991,
Sydney, Sydney 2004.
s. 161 184.
Bnzecri Jean-Paul, Correspondence Analysis Handbook, Marcel Dekker Inc., New
Lew-Starowicz, Zbigniew, Miłość i seks. Słownik encyklopedyczny, Wydawnictwo
York 1992.
Europa, Wrocław 1999.
Blalock, Hubert, Statystyka dla socjologów, PWN, Warszawa 1975.
Magnusson, David, Bergman, L. R., Problems and methods in longitudinal research.
Bourdieu, Pierre, La distinction. Critique sociale du jugement, Les Editions de Minuit,
Stability and change, Cambridge University Press, Cambridge 1991.
Paris 1979.
Matlin, Margaret W., Cognition, John Wiley & Sons, New York 2005.
Carrington, Peter, Scott J., Wasserman S., Models and Methods in Social Network
Maruszewski, Tomasz, Psychologia poznania, Gdańskie Wydawnictwo
Analysis, Cambridge University Press 2005.
Psychologiczne, Gdańsk 2001.
DesrosiŁres, Alain, Entre realisme metrologique et conventions d equivalence: les
Ostasiewicz, Walenty, Statystyczne metody analizy danych, Wydawnictwo Akademii
ambiguites de la sociologie quantitative,  GenŁses , t. 43: 2001, s. 112 127.
Ekonomicznej we Wrocławiu, Wrocław 1990.
Faust, Katherine, Using Correspondence Analysis for Joint Displays of Affiliation
Pęczak, Mirosław, Stara, ale lala,  Polityka , nr 40:2003.
Networks, [w:] Models and Methods in Social Network Analysis, red. Peter J.
Piłat, Robert, Nazwy i pojęcia barw, "Kognitywistyka i nowe media w edukacji",
Carrington, John Scott i Stanley Wasserman, Cambridge University Press, New
2/2002.
York 2005.
Pleszczyńska, Elżbieta, Magdalena Niewiadomska-Bugaj, Gradacyjny odpowiednik
Fiedler, John A., A Comparison of Correspondence Analysis and Discriminant
klasycznej analizy danych, Instrytut Podstaw Informatyki PAN, West Virginia
Analysis-Based Maps, POPULUS Inc., AMA Advanced Research Techniques
University, Morgantown 1999.
Forum, 1996, ss. 15.
Press, W. H., S. A. Teukolsky, W. T. Vetterling, and B. P. Flannery, Numerical
Grdenfors, Peter, Conceptual Spaces. The Geometry of Thought, A Bradford Book,
Recipes in C: The Art of Scientific Computing, Cambridge University Press,
The MIT Press, Cambridge (Massachusetts), London (England) 2000.
Cambridge, U.K. 1992.
Goldstone, Robert L., The Role of Similarity in Categorization: Providing
Rosch, E., Principles of Categorization, in Cognition and Categorization, E. Rosch, B.
a Groundwork, Indiana University, Bloomington 1993.
B. Lloyd (Eds.), Lawrence Erlbaum Associates, Hillsdale, New Jersey 1978, s. 27
Goodman, Nelson, Seven Strictures on Similarity. [w:] Problems and Projects, red.
48.
Nelson Goodman, Bobbs-Merrill, Indianapolis and New York 1972, s. 437-447.
Stanimir, Agnieszka, Analiza korespondencji jako narzędzie do badania zjawisk
Górniak, Jarosław, Analiza danych w marketingu  część III c, materiały kursowe
ekonomicznych, Wydawnictwo Akademii Ekonomicznej im.. Oskara Langego we
SPSS, 2005.
Wrocławiu, Wrocław 2005.
- 97 - - 98 -
Strelau, Jan, Psychologia. Podręcznik akademicki, tom III, Gdańskie Wydawnictwo
Psychologiczne, Gdańsk 2000.
7. Aneks
Schutz, Alfred, Potoczna i naukowa interpretacja ludzkiego działania, [w:] Kryzys
i schizma 1, Państwowy Instytut Wydawniczy, Warszawa 1984.
7.1. Kod programu do obliczania współrzędnych głównych w programie
Wasserman, Stanley, K. Faust, Social Network Analysis, Cambridge University Press,
Cambridge 1994.
MatLab (oprac. Filip Tomaszewski)
X=[
326 38 241 110 3
688 116 584 188 4
343 84 909 412 26
98 48 403 681 85
]
[m,n] = size(X)
f=ones(1,m)*X*ones(1,n)'
P=X/f
r=P*ones(1,n)'
c=P'*ones(1,m)'
Dr=diag(r)
Dc=diag(c)
A=Dr^-0.5*(P-r*c')*Dc^-0.5
[U, D, V]=svds(A)
F=Dr^-0.5*U*D
G=Dc^-0.5*V*D
DDD=(D*D/trace(D*D))
- 99 - - 100 -
7.2. Ankieta użyta do badania postrzegania polityków 7.3. Ilustracja współzależności wartości inercji całkowitej układu i rozrzutu
punktów profili w przestrzeni
Tabela 7.1 Przykład nr 1. Inercja = 0,323, chi kwadrat = 7,76
A B C Ł A B C Ł
X 2 2 8 12 X 0,08 0,08 0,33 0,50
Y 6 1 1 8 Y 0,25 0,04 0,04 0,33
Z 2 0 2 4 Z 0,08 0,00 0,08 0,17
Ł 10 3 11 24 Ł 0,42 0,13 0,46 1,00
A B C Ł A B C Ł
X 0,17 0,17 0,67 1,00 X 0,20 0,67 0,73 0,50
Y 0,75 0,13 0,13 1,00 Y 0,60 0,33 0,09 0,33
Z 0,50 0,00 0,50 1,00 Z 0,20 0,00 0,18 0,17
Ł 0,42 0,13 0,46 1,00 Ł 1,00 1,00 1,00 1,00
Tabela 7.2 Przykład nr 2. Inercja = 0,075, chi kwadrat = 1,8
A B C Ł
A B C Ł
X 0,08 0,17 0,08 0,33
X 2 4 2 8
Y 0,17 0,08 0,17 0,42
Y 4 2 4 10
Z 0,08 0,08 0,08 0,25
Z 2 2 2 6
Ł 8 8 8 24
Ł 0,33 0,33 0,33 1,00
A B C A B C Ł
X 0,25 0,50 0,25 1,00 X 0,25 0,50 0,25 0,33
Y 0,40 0,20 0,40 1,00 Y 0,50 0,25 0,50 0,42
Z 0,33 0,33 0,33 1,00 Z 0,25 0,25 0,25 0,25
Ł 0,33 0,33 0,33 1,00 Ł 1,00 1,00 1,00 1,00
Tabela 7.3 Przykład nr 3. Inercja = 1,34, chi kwadrat = 32,25
A B C Ł A B C Ł
X 7 1 0 8 X 0,29 0,04 0,00 0,33
Y 0 7 1 8 Y 0,00 0,29 0,04 0,33
Z 1 0 7 8 Z 0,04 0,00 0,29 0,33
Ł 8 8 8 24 Ł 0,33 0,33 0,33 1,00
A B C Ł A B C c
X 0,88 0,13 0,00 1,00 X 0,88 0,13 0,00 0,33
Y 0,00 0,88 0,13 1,00 Y 0,00 0,88 0,13 0,33
Z 0,13 0,00 0,88 1,00 Z 0,13 0,00 0,88 0,33
r 0,33 0,33 0,33 1,00 Ł 1,00 1,00 1,00 1,00
- 101 - - 102 -
Rysunek 7.1 Przykład nr 1. Rzuty profili wierszowych i kolumnowych
Rysunek 7.2 Przykład nr 2. Rzuty profili wierszowych i kolumnowych
- 103 - - 104 -
7.4. Tabela kontyngencji do przykładu z rozdziału 4.4
Tabela 7.4. Tablica kontyngencji: głosowanie na poszczególne komitety w zależności od okręgu
wyborczego (yródło: Państwowa Komisja Wyborcza)
Samoobrona
LPR PiS SLD PO RP PSL
RP
Legnica 19543 70157 43221 69137 10904 35829
Wałbrzych 14222 43568 27189 50866 12770 25992
Wrocław 26100 99669 38782 125498 11751 32654
Bydgoszcz 19109 70475 53220 59324 17569 33370
Toruń 22784 64726 33605 53220 20129 53077
Lublin 49061 102406 32086 67583 45056 57866
Chełm 35837 60415 24143 33080 53161 60444
Zielona Góra 20641 61788 43771 65494 21236 30867
Aódz 22465 72425 41520 71454 6263 25377
Piotrków
20189 51831 24958 34161 24066 48043
Trybunalski
Sieradz 19061 61373 42657 43173 35050 62779
Chrzanów 23007 69902 17195 43809 12125 17055
Kraków 23960 156750 33460 128460 13157 21228
Nowy Sącz 31497 92257 14892 54406 19906 21048
Tarnów 28157 75583 13188 45176 20806 22009
Płock 15972 55695 27479 33164 36432 41058
Radom 18150 57577 22266 35131 29868 43677
Siedlce 34886 75590 21584 37469 48543 55817
Warszawa I 44402 227169 87513 251001 7135 17761
Warszawa II 23288 104542 22749 89123 17323 23288
Opole 18197 54779 27723 64678 12781 28257
Krosno 37247 92312 25032 42194 26125 32328
Rzeszów 52777 154016 29594 65517 41286 31811
Białystok 39316 98325 42529 52687 28986 42011
Gdańsk 19543 89702 31492 138995 9510 23445
Gdynia 28189 98992 41397 120761 10958 34645
Bielsko-Biała 19907 89986 23334 66904 8593 16631
Częstochowa 11155 50703 19545 45391 10441 25150
Gliwice 12364 65827 27067 76686 4515 16138
Rybnik 15751 70394 26176 71158 5617 17166
Katowice 16473 103840 34834 113949 4276 17169
Sosnowiec 15339 51349 44747 57569 7595 0
Kielce 22470 86669 44976 56138 51615 62850
Elbląg 9282 36347 20012 39058 14988 29410
Olsztyn 16076 46618 29469 49692 19481 24351
Rysunek 7.3 Przykład nr 3. Rzuty profili wierszowych i kolumnowych
Kalisz 21071 56783 36727 61268 30972 46684
Konin 13691 42927 28495 40943 22216 45129
Piła 16278 37042 34613 54064 21114 32272
Poznań 16481 77979 31985 115884 6257 17427
Koszalin 8088 35669 24335 38178 9211 39968
Szczecin 18819 71581 45708 86888 11827 35328
- 105 - - 106 -


Wyszukiwarka

Podobne podstrony:
E FILIPOWICZ I J KWIECIEă ANALIZA MO˝LIWO—CI ZASTOSOWANIA METOD SZTUCZNEJ INTELIGENCJI W MEDYCYNIE
Teoria gier w naukach społecznych
NOWY Filozofia Kaizen i jej zastosowanie w polskich przedsiebiorstwach
TEORIA MOTYWACJI I JEJ ZASTOSOWANIE
Pochodna i różniczka funkcji oraz jej zastosowanie do rachunku błędów pomiarowych K Rębilas
Weber, Obiektywność poznania w naukach społecznych (streszczenie)
Nanotechnologia i jej wpływ na społeczeństwo
Analiza korespondencji
Modul 4 Wyjasnianie i przewidywanie w naukach spolecznych

więcej podobnych podstron