Analiza korespondecji i jej zastosowania w naukach społecznych

background image

Uniwersytet Warszawski

Wydział Filozofii i Socjologii


Filip Tomaszewski

Nr albumu: 199275



Analiza korespondencji

i jej zastosowania

w naukach społecznych

Praca magisterska

na kierunku Socjologia

w zakresie Socjologia






Praca wykonana pod kierunkiem

dr. hab. Jana Poleszczuka

Instytut Socjologii Uniwersytetu Warszawskiego


Warszawa, październik 2005

- 2 -









Oświadczenie kierującego pracą

Oświadczam, że niniejsza praca została przygotowana pod moim kierunkiem

i stwierdzam, że spełnia ona warunki do przedstawienia jej w postępowaniu o nadanie
tytułu zawodowego.


Data Podpis kierującego pracą









Oświadczenie autora pracy

Świadom odpowiedzialności prawnej oświadczam, że niniejsza praca dyplomowa

została napisana przez mnie samodzielnie i nie zawiera treści uzyskanych w sposób
niezgodny z obowiązującymi przepisami.

Oświadczam również, że przedstawiona praca nie była wcześniej przedmiotem procedur
związanych z uzyskaniem tytułu zawodowego w wyższej uczelni.

Oświadczam ponadto, że niniejsza wersja pracy jest identyczna z załączoną wersją

elektroniczną.

Data Podpis autora pracy

background image

- 3 -



Streszczenie


Przedmiotem pracy jest analiza korespondencji – technika analizy danych

statystycznych służąca m.in. do graficznego przedstawienia w niskowymiarowej

przestrzeni numerycznych danych zawartych w tabeli kontyngencji. Poza przedstawieniem

formalnego modelu tej techniki zostaną zaprezentowane ramy teoretyczne oparte na

koncepcji schematów poznawczych oraz teorii przestrzeni konceptualnych Petera

Gärdenforsa, które pozwalają na zastosowanie analizy korespondencji do konstruowania

map percepcyjnych. Ponadto zaproponowane zostanie udoskonalenie samej mapy

korespondencji poprzez

zawarcie

na

niej

informacji

o masach

wierszowych

i kolumnowych.







Słowa kluczowe

analiza korespondencji, SVD, mapy percepcyjne, przestrzenie konceptualne,

metryka chi kwadrat, inercja, własności, obiekty, podobieństwo







Dziedzina pracy (kody wg programu Socrates-Erasmus)

14.2 Socjologia

- 4 -

SPIS TREŚCI:

1.

Wprowadzenie ............................................................................................................... 5

1.1.

Charakterystyka analizy korespondencji ............................................................... 6

1.2.

Geneza analizy korespondencji – analyse des données vs. data analysis............. 7

1.3.

Techniki tworzenia map percepcyjnych ................................................................ 9

1.4.

Zastosowania ....................................................................................................... 11

2.

Formalny model analizy korespondencji..................................................................... 13

2.1.

Skala nominalna .................................................................................................. 13

2.2.

Statystyka chi kwadrat......................................................................................... 14

2.3.

Analiza korespondencji – podstawowe pojęcia................................................... 16

2.4.

Obliczenia w analizie korespondencji ................................................................. 17

2.4.1.

Profile i masy, macierz korespondencji....................................................... 18

2.4.2.

Inercja układu i algorytm SVD.................................................................... 23

2.4.3.

Obliczanie współrzędnych........................................................................... 30

2.5.

Interpretacja wyników ......................................................................................... 33

2.6.

Dystanse............................................................................................................... 38

2.7.

Rotacja i skalowanie mapy .................................................................................. 40

2.8.

Zakłócenia ........................................................................................................... 42

3.

Postrzeganie, kategoryzacja, podobieństwo, przestrzenie konceptualne, mapy

percepcyjne .......................................................................................................................... 44

3.1.

Kategoryzacja ...................................................................................................... 44

3.1.1.

Model porównywania własności ................................................................. 45

3.1.2.

Podejście prototypowe................................................................................. 46

3.1.3.

Podejście wzorcowe .................................................................................... 50

3.1.4.

Podejście sieciowe....................................................................................... 51

3.2.

Własności............................................................................................................. 52

3.3.

Obiekty i podobieństwo....................................................................................... 57

3.4.

Redukcja wymiarów ............................................................................................ 59

3.5.

Procedura pomiarowa .......................................................................................... 63

3.6.

Preklasyfikacja respondentów ............................................................................. 66

4.

Przykłady zastosowań analizy korespondencji............................................................ 73

4.1.

Badanie postrzegania polityków – wyniki i analiza ............................................ 73

4.2.

Zastosowanie analizy korespondencji do sieci afiliacji....................................... 84

4.3.

Zanieczyszczenie województw............................................................................ 89

4.4.

Wyniki wyborów do Sejmu z 2005 r................................................................... 92

5.

Zakończenie................................................................................................................. 96

6.

Bibliografia.................................................................................................................. 97

7.

Aneks ......................................................................................................................... 100

7.1.

Kod programu do obliczania współrzędnych głównych w programie MatLab

(oprac. Filip Tomaszewski) ........................................................................................... 100
7.2.

Ankieta użyta do badania postrzegania polityków ............................................ 101

7.3.

Ilustracja współzależności wartości inercji całkowitej układu i rozrzutu punktów

profili w przestrzeni....................................................................................................... 102
7.4.

Tabela kontyngencji do przykładu z rozdziału 4.4............................................ 106

background image

- 5 -

1. Wprowadzenie

Niniejsza praca ma na celu przybliżenie bardzo interesującej i posiadającej duży

potencjał aplikacyjny techniki analizy danych – analizy korespondencji. Technika ta

zyskuje sobie w ostatnim czasie coraz więcej zwolenników, czego dowodem może być

rosnąca liczba publikacji – zarówno tych na jej temat, jak i wykorzystujących ją

(Beh, 2004b). Można jej używać do graficznej reprezentacji tabeli kontyngencji, a także do

bardziej wyrafinowanych przedsięwzięć badawczych, takich jak np. tworzenie map

percepcyjnych (Fiedler, 1996).

W pracy tej przedstawione zostaną założenia teoretyczne i metodologiczne, a także

różne sposoby aplikacji tej techniki w naukach społecznych. Ponadto zaproponowane

zostanie udoskonalenie samej mapy korespondencji poprzez zawarcie na niej informacji

o masach wierszowych i kolumnowych.

W rozdziale pierwszym dokonam krótkiej charakterystyki analizy korespondencji –

pokażę, gdzie pośród innych metod statystycznej analizy danych się sytuuje, jaka była jej

geneza, a także zasygnalizuję problem zastosowania tej techniki w sposób inny niż

tradycyjny.

W

rozdziale

drugim

przedstawię

matematyczny

algorytm,

który

jest

wykorzystywany w tej technice. Wykonam krok po kroku obliczenia na autentycznych

danych, pokazując, jak z tablicy kontyngencji uzyskać macierz współrzędnych

potrzebnych do wykonania mapy korespondencji.

Rozdział trzeci będzie kluczowy dla rozwiązania zasygnalizowanego pod koniec

rozdziału pierwszego problemu – zastosowania analizy korespondencji do konstruowania

map percepcyjnych przy użyciu danych, które nie mają charakteru frekwencyjnego.

Wykorzystując teorie wyjaśniające ludzkie procesy postrzegania i kategoryzacji oraz teorię

przestrzeni konceptualnych Petera Gärdenforsa zawartą w jego książce pt.: Conceptual

spaces. The geometry of thought

(Gärdenfors, 2000), postaram się wykazać, że analiza

korespondencji może być dobrym narzędziem do tworzenia map percepcyjnych. Moim

celem będzie pokazanie, że redukcja wymiarów, jaka dokonuje się dzięki algorytmowi

wykorzystywanemu w analizie korespondencji, odpowiadać może mechanizmowi

kognitywnemu, za pomocą którego umysł ludzki kategoryzuje przedmioty z otaczającego

świata, uznając jedne za bardziej podobne do innych. W rozdziale tym pokażę ponadto, jak

- 6 -

można przygotować dane używane do konstruowania map percepcyjnych poprzez

preklasyfikację respondentów. Dzięki tej operacji uzyskać można bardziej rzetelne wyniki.

W

rozdziale

czwartym

przedstawię przykładowe

zastosowania

analizy

korespondencji. Na początku zaprezentuję wyniki przeprowadzonego przez siebie badania

postrzegania polityków. W ich analizie wykorzystałem tę technikę do konstruowania map

percepcyjnych. Pokażę ponadto trzy inne ciekawe przykłady zastosowania tej techniki

analizy danych.

1.1. Charakterystyka analizy korespondencji

Analiza korespondencji to – w największym skrócie – technika, która pozwala

graficznie przedstawić w niskowymiarowej przestrzeni numeryczne dane zawarte w tabeli

kontyngencji. Technika ta należy zatem – obok skalowania wielowymiarowego, analizy

głównych składowych oraz analizy czynnikowej – do klasy technik redukcji danych.

Redukcja danych najczęściej wiąże się z utratą pewnej ilości informacji, co jest ceną, jaką

badacz płaci za zwiększenie przejrzystości tych danych i – tym samym – ułatwienie ich

interpretacji. Ułatwienie wglądu w dane empiryczne i ułatwienie ich interpretacji ma

szczególnie duże znaczenie przy bardzo bogatych zestawach danych, kiedy konieczne jest

zanalizowanie zmiennych o wielu wartościach. Za procedurą redukcji danych może

ponadto stać przeświadczenie o tym, że w zebranej informacji występują jakieś ukryte

wzory, swoiste zależności, które wiążą wartości zmiennych ze sobą i które pozwalają

przewidywać wartości jednej zmiennej przy pomocy wartości innej zmiennej. W analizie

wielowymiarowej badacz ma często do czynienia z redundancją zmiennych – wiele

wskaźników mierzy te same zmienne ukryte (latentne). Dzięki analizie wielowymiarowej

możliwe jest m.in. sprawdzenie, które wskaźniki mierzą te same zmienne ukryte. To daje

możliwość zmniejszenia liczby zmiennych, dzięki czemu można poznać najistotniejsze

informacje kryjące się w danych.

Analizę korespondencji zalicza się ponadto do tzw. niepełnych metod

taksonomicznych (Górniak, 2000: 115–134). Jest ona techniką eksploracyjnej analizy

danych, której celem jest odkrywanie struktur i wzorów w zbieranych danych. Niepełność

tej techniki wiąże się z faktem, że identyfikacja i zaliczanie analizowanych obiektów do

skupień następuje w toku interpretacji przestrzennej konfiguracji wyników, nie zaś

background image

- 7 -

w wyniku jednoznacznego przyporządkowania dokonywanego przez algorytm. Tak więc

to od intuicji socjologicznej badacza, a także oczekiwań wynikających z teorii zależy,

w jaki sposób zinterpretuje on otrzymane wykresy i czy uda mu się skojarzyć odkryte

w mapach analizy korespondencji wzorce ze znanymi zjawiskami w taki sposób, aby móc

sensownie wyjaśnić badany fragment rzeczywistości.

Wreszcie jest analiza korespondencji techniką eksploracyjną, bardzo typową –

można powiedzieć – dla francuskiej socjologii ilościowej. Nazwa – l’analyse des

correspondances

– została ukuta w latach 60. ubiegłego stulecia przez francuskiego

lingwistę Jean-Paula Benzécriego (Benzécri, 1992). To Benzécri zaproponował

geometryczny sposób przedstawienia wyników w postaci mapy korespondencji.

1.2. Geneza analizy korespondencji – analyse des données vs. data analysis

Teoretycznymi zagadnieniami związanymi z analizowaniem danych numerycznych

zawartych w tabeli kontyngencji zajmowało się przed Benzécrim wielu uczonych. Można

tu wymienić m.in. Karla Pearsona (twórcę współczynnika korelacji w dwudzielnej tablicy

kontyngencji), H. O. Hirschfelda (autora wzoru na korelację pomiędzy rzędami

i kolumnami tablicy kontyngencji), Louisa Guttmana (twórcę skalowania optymalnego,

która to technika była fundamentem wielokrotnej analizy korespondencji) (Beh, 2004a).

Jednakże wszyscy ci badacze podchodzili do problemu bardziej od strony algebraicznej.

Dopiero Benzécri wraz ze swymi współpracownikami podeszli do zagadnienia od strony

geometrycznej, nadając analizie korespondencji taką formę, jaką ma obecnie, a więc

graficznej reprezentacji

w najczęściej

dwuwymiarowym

układzie

kartezjańskim

numerycznych danych zawartych w tablicy kontyngencji. Przez długi czas dokonania

grupy Benzécriego nie były popularyzowane ze względu na barierę, jaką okazał się język

francuski, w którym były publikowane.

W 1973 r. współpracę z Benzécrim rozpoczął Greenacre, czego owocem było

opublikowanie w 1984 r. książki pt.: Theory and applications of correspondence analysis.

Dzięki jasnemu i przystępnemu opisowi metodologii oraz przedstawieniu przykładów

zastosowania, a także dzięki temu, że napisana została w języku angielskim, książka ta

przyczyniła się do spopularyzowania tej techniki i jest obecnie jedną z najczęściej

cytowanych książek z tej dziedziny statystyki (Stanimir, 2005: 17).

- 8 -

***

Na czym polega francuski sposób stosowania statystyki? Czym różni się tzw.

analyse des données

od anglosaskiego data analysis? W odpowiedzi na te pytania zawiera

się po trosze charakterystyka analizy korespondencji, jakiej dokonałem powyżej, a więc:

eksploracyjność i to, że jest to niepełna metoda taksonomiczna. Otóż we francuskim

modelu analiza danych rzadko jest wykorzystywana jako operacja poprzedzająca analizę

konfirmacyjną, weryfikującą hipotezy teoretyczne, których była jednym ze źródeł. Jest ona

raczej zaledwie jednym z całego zestawu narzędzi, przy pomocy których dokonuje się

opisu społeczeństwa i wymiarów społecznego uniwersum. Uważa się, że zmienne nie

figurują same w sobie, ale raczej poprzez klasy zjawisk, które wyróżniają. Przedmiotem

komentarza socjologicznego są szczególne konfiguracje klas i ich własności. Końcowe

uogólnienie postępuje przy pomocy retoryki różnej od retoryki nauk przyrodniczych.

Argumentów w tym

przypadku dostarcza zestawianie podobnych konfiguracji

(Desrosières, 2001). Benzécri zwykł był mówić, że to „model powinien podążać za

danymi”, a nie na odwrót. W praktyce badawczej oznacza to, że badacz, otrzymując dane

empiryczne, eksploruje je przy użyciu takich technik jak np. analiza korespondencji

i dokonuje interpretacji otrzymanych wyników, przy czym wynikiem są właśnie te

szczególne konfiguracje klas i ich własności.

W ten sposób postępował m.in. jeden z najsłynniejszych francuskich socjologów

Pierre Bourdieu. W książce La disctinction Bourdieu (1979) użył analizy korespondencji

do badania stylów życia francuskiego społeczeństwa.

Takie zastosowanie statystyki stoi w opozycji do sposobu, w jaki zwykli stosować

statystykę socjologowie w krajach anglosaskich. Tam metody statystyczne – tzw. data

analysis

– wyróżniają analizę eksploracyjną, która poprzez metody badania i wizualizację

pozwala na formułowanie pierwszych hipotez lub szkiców modeli probabilistycznych,

które testowane są następnie przy pomocy analizy konfirmacyjnej. Krótko mówiąc,

postępowanie przebiega w odwrotnym kierunku, niż to się dzieje w tradycji francuskiej:

najpierw konstruuje się model, umieszczając w nim zmienne, które podejrzewa się

o wpływ na interesujące badacza zjawisko, a następnie sprawdza się, jak (i czy w ogóle)

model ten pasuje do danych empirycznych. W związku z tym, że na ogół model nie do

końca pasuje do tych danych, pojawia się konieczność jego modyfikacji, nadając całemu

procesowi badawczemu swoiście iteracyjny charakter.

background image

- 9 -

W ostatnim czasie pojawiają się wszakże próby łączenia analizy korespondencji

z takim technikami jak regresja logistyczna czy regresja liniowa w celu nadania jej

charakteru techniki konfirmacyjnej.

1.3. Techniki tworzenia map percepcyjnych

Mapy percepcyjne stanowią swoisty nieuświadamiany konstrukt w ludzkich

umysłach służący do organizowania wiedzy o obiektach z otaczającego świata. Ludzie nie

zdają sobie sprawy z ich istnienia, chociaż posługują się nimi w życiu codziennym. Myśląc

na przykład o partiach politycznych, każdy (kompetentny w tej materii) człowiek jest

w stanie przyporządkować poszczególnym partiom cechy charakterystyczne – np. czy dana

partia jest liberalna, socjaldemokratyczna, ludowa; czy głosują na nią raczej ludzie

z wykształceniem wyższym, czy niższym; czy w swoich postulatach dana partia skupia się

raczej na walce z bezrobociem, na rozwoju gospodarczym, czy na równouprawnieniu

kobiet.

Dostępu do tych map nie można uzyskać drogą bezpośrednią – tzn. spytać się

respondenta, jak wygląda jego mapa percepcyjna pewnej klasy obiektów, np. partii

politycznych czy marek samochodów. Jedyną drogą uzyskania wglądu w nie jest pośrednie

pytanie. Np. o to, w jakim stopniu obiekty, których percepcyjna mapa nas interesuje,

posiadają jakieś atrybuty, czy też, w jakim stopniu obiekty są do siebie podobne.

Większość technik, które służą do tworzenia map percepcyjnych składa się z trzech

kroków:

 transformacji lub ważenia danych,

 ustalenia podstawowych osi (wymiarów) poprzez algorytm SVD,

 na końcu tworzona jest mapa w układzie współrzędnych.

W przypadku danych typu marka/atrybut większość technik wymaga od

respondentów, aby ocenili marki na każdym z atrybutów używając przy tym skali lub też

skojarzenia atrybutów z markami. Skutkuje to uzyskaniem macierzy wartości średnich lub

stopnia asocjacji I atrybutów na J marek (Higgs, 1991: 183-194). Wszystkie te techniki

mają jedno poważne ograniczenie operacyjne, od którego wolna jest analiza

korespondencji. Wymagają one mianowicie, aby analizowane zmienne mierzone były na

skalach interwałowych lub ilorazowych.

- 10 -

Poza analizą korespondencji istnieją także inne techniki służące do eksploracji map

percepcyjnych, takie jak: analiza czynnikowa, analiza głównych składowych, analiza

dyskryminacyjna czy skalowanie wielowymiarowe (ang. multidimensional scaling). M. T.

Higgs (1991) w swoim artykule pt.: Practical and Innovative Uses of Correspondence

Analysis

przedstawia niedogodności i ograniczenia tych technik analitycznych.

Analiza głównych składowych operuje na poziomie niezagregowanym na

zmiennych mierzonych na skalach interwałowych. W efekcie tworzona jest macierz

korelacji, a algorytm zasadniczo polega na „wiązaniu” atrybutów w ortogonalne wobec

siebie czynniki. Następnie uzyskiwana jest macierz F czynników

× J marek (F < J).

Uznaje się, że czynnik reprezentuje ukryty wymiar znaczeniowy. Graficzna reprezentacja

zredukowanej macierzy dokonywana jest poprzez umieszczanie marek w różnych

przestrzeniach czynnikowych. Zaletą tej techniki jest to, że posługuje się ona przestrzenią

euklidesową, przez co jest łatwa w interpretacji. Jednakże posiada ona także wiele

niedogodności, wśród których wymienić należy m.in. fakt, że możliwe jest „zmapowanie”

jedynie dwóch wymiarów na raz (na dwuwymiarowej płaszczyźnie), co spowalnia

eksplorację. Poza tym konieczne jest przypisanie znaczenia do każdego z wymiarów, które

raz nazwane w procesie subiektywnej interpretacji, są trudne później do reinterpretacji

i przedefiniowania (Higgs, 1991).

Analiza dyskryminacyjna nie jest wolna od wad, o których wspomniano powyżej.

Poza tym jej słabością jest niebezpieczeństwo występowania korelacji pomiędzy

analizowanymi atrybutami, co może prowadzić do zakłóceń w otrzymywanych wynikach.

Zaletą skalowania wielowymiarowego w jego niemetrycznej postaci jest to, że nie

wymaga, aby zmienne mierzone były na skalach interwałowych – możliwe jest stosowanie

skal porządkowych. Najczęściej stosowana operacjonalizacja tej techniki polega na

porównywaniu przez respondenta poszczególnych marek ze sobą. Należy zwrócić uwagę

na to, że w takim badaniu abstrahuje się od własności, które badane obiekty posiadają.

Dopiero dzięki graficznej reprezentacji na niskowymiarowej przestrzeni można próbować

wskazywać własności, które są wspólne obiektom.

background image

- 11 -

1.4. Zastosowania

Analizę korespondencji w jej tradycyjnej postaci wykorzystuje się do analizy

danych mających charakter frekwencyjny, tzn. analizowana jest tabela kontyngencji,

w której komórkach znajdują się liczebności obserwowanych przypadków. W dalszym

ciągu niniejszej pracy będę się starał wykazać, że istnieje możliwość poszerzenia dziedziny

zastosowań analizy korespondencji do tabel, w których występują innego rodzaju niż

liczebności dane numeryczne, ale takie, które sensownie można dodawać w wierszach

i kolumnach (Zeliaś, 2004). Sensownie znaczy w tym przypadku, że operacji dodawania

elementów znajdujących się w wierszach i kolumnach można nadać znaczenie czy to

socjologiczne, czy to praktyczne.

Uważam za ważne wykazanie istnienia możliwości zastosowania analizy

korespondencji do danych, które nie mają charakteru frekwencyjnego. Istnieją ku temu co

najmniej dwa istotne powody. Po pierwsze, w praktyce badań marketingowych technika ta

jest już od dawna często wykorzystywana właśnie do takich danych

1

. Analiza

korespondencji ma tę zaletę, że jest łatwa w odbiorze dla laików nie mających na co dzień

do czynienia z wynikami analiz statystycznych. Wystarczy praktycznie kilka krótkich

wskazówek dotyczących prawidłowego odczytywania wykresów oraz zastrzeżeń, jak tych

wykresów nie należy odczytywać, a cały układ profili znajdujących się na mapie

korespondencji będzie zrozumiały i w miarę łatwy do interpretacji. W sytuacji, kiedy

omawiana przeze mnie technika stosowana jest mimo braku teoretycznej podbudowy dla

takiego zastosowania, możemy mówić o swoistej statystycznej anomii – praktyka

wyprzedza teorię.

Drugim powodem jest to, że analiza korespondencji ma duży potencjał, który może

zostać wykorzystany do przeprowadzania bardzo ciekawych badań (głównie mam tu na

myśli badanie map percepcyjnych, jednakże interesujących zastosowań z pewnością

znajdzie się więcej). Ograniczanie się do zastosowań frekwencyjnych nie wydaje się aż tak

ciekawe, bowiem samo odwzorowanie danych numerycznych na płaszczyźnie układu

kartezjańskiego nie niesie oprócz ułatwienia interpretacji tych danych dodatkowych

1

W badaniach marketingowych respondenci są np. pytani o to, w jakim stopniu (w skali, dajmy na to, od 0

do 100, gdzie 0 oznacza w bardzo dużym stopniu, a 100 – w bardzo małym stopniu) kolejne produkty (np.
marki samochodów) posiadają każdą z zestawu cech (np. bezpieczny, luksusowy, ekologiczny). Przy tego
rodzaju sformułowaniu pytania w komórkach tabelki, którą w dalszym ciągu wykorzystamy do
przeprowadzenia analizy korespondencji, nie znajdują się liczebności. Są to innego rodzaju liczby (np.
średnie ocen, suma przyznanych punktów), a więc konieczne jest wykazanie, że interpretacja wyników
algorytmu stosowanego w opisywanej przeze mnie technice jest możliwa także w przypadkach, gdy dane
wejściowe nie posiadają charakteru frekwencyjnego.

- 12 -

korzyści. Natomiast wyjście poza zastosowania frekwencyjne otwiera przed badaczem

pole do bardzo ciekawych aplikacji.

Te dwa powody skłaniają mnie do sprawdzenia, czy stosowanie analizy

korespondencji w nietradycyjnej formie da się uprawomocnić. Jednym z głównych celów

niniejszej pracy jest zaproponowanie ram teoretycznych, która pozwoli uzasadnić inne

zastosowania tej techniki.

background image

- 13 -

2. Formalny model analizy korespondencji

Głównym zastosowaniem analizy korespondencji jest przekształcanie macierzy

danych liczbowych w wykres graficzny, którego zadaniem jest ułatwienie analizy

i interpretacji informacji zawartej w tej macierzy (Greenacre, 1994: 3). Pierwotnie technika

ta była używana do analizy tzw. tabel kontyngencji, czyli rozkładów łącznych dwu

zmiennych mierzonych zazwyczaj na skalach nominalnych.

2.1. Skala nominalna

Skala nominalna uznawana jest za najsłabszą ze skal. Jej podstawową funkcją jest

zdawanie sprawy z operacji stwierdzenia różności lub tożsamości pomiędzy badanymi

obiektami. Innymi słowy, przy pomocy skali nominalnej dokonujemy klasyfikacji badanej

zbiorowości na rozłączne i wyczerpujące podzbiory. Tak jak w przypadku skal

mocniejszych (porządkowej, interwałowej czy ilorazowej) możliwe jest uporządkowanie

bądź też zmierzenie obiektów, tak w przypadku skali nominalnej badane obiekty można

jedynie nazwać, przyporządkowując je tym samym do poszczególnych klas. Można to

uczynić, stosując zmienne dychotomiczne, które dzielą spektrum zmienności na jedynie

dwie kategorie (np. zmienna „płeć” dzieląca ludzi na mężczyzn i kobiety). Możliwe jest

także zastosowanie zmiennych politomicznych, które dzielą spektrum zmienności na wiele

kategorii (przykładami takich zmiennych są np. kolory, wykonywane zawody, miasta).

Kiedy dysponuje się informacjami o dwu zmiennych dla jakiejś klasy obiektów

badanych, chciałoby się sprawdzić, czy istnieje jakiś związek pomiędzy tymi zmiennymi,

tzn. czy posiadając informację o wartości jednej zmiennej, można przewidywać wartość

drugiej zmiennej.

Stosowanie zmiennych nominalnych nakłada jednakże pewne ograniczenia na

możliwości takiej analizy. Ograniczenia skal nominalnych ujawniają się, gdy chcemy

badać związek pomiędzy dwiema lub większą liczbą zmiennych. Aby zmierzyć siłę

związku między dwiema zmiennymi mierzonymi na skali nominalnej, możliwe jest

wykorzystanie regresji I rodzaju modalnych oraz korelacji parami. Niedostępne są

natomiast inne metody, których używa się dla silniejszych skal, takie jak regresja liniowa,

współczynnik korelacji czy analiza wariancji.

- 14 -

2.2. Statystyka chi kwadrat

Dla skal nominalnych możliwe jest natomiast ustalenie związku o innym

charakterze, niż ma to miejsce przy regresji. Stosując statystykę chi kwadrat, możemy

ustalić, jakie jest prawdopodobieństwo, że odrzucając hipotezę zerową o niezależności

rozkładu

2

popełnimy tzw. błąd pierwszego rodzaju, czyli odrzucimy ją w sytuacji, gdy jest

ona prawdziwa. Statystyka chi kwadrat jest używana do porównywania obserwowanych

liczebności rozkładu dwu zmiennych z liczebnościami rozkładu hipotetycznego, który

spełnia określone założenie dotyczące tych dwu zmiennych (zazwyczaj jest to założenie

o niezależności stochastycznej). W takim hipotetycznym rozkładzie przyjmuje się, że

częstości łączne w komórkach równe są iloczynowi odpowiadających im częstości

brzegowych. Oznacza to, że obserwacje rozkładają się losowo w każdej komórce. To jest

właśnie istota niezależności stochastycznej:

j

i

ij

p

p

p

=

(2.1.)

gdzie:

ij

p

- częstość łączna,

j

i

p

p

,

- częstości brzegowe kolumn i wierszy.

Statystyka chi kwadrat jest definiowana jako suma stosunków kwadratów odchyleń

liczebności obserwowanych od liczebności hipotetycznych do liczebności hipotetycznych:

∑∑

=

Χ

n

i

m

j

ij

ij

ij

h

n

h

2

2

)

(

(2.2.)

gdzie:

ij

h

– liczebność hipotetyczna,

ij

n

– liczebność empiryczna.

2

Hipoteza zerowa nie musi koniecznie mówić o niezależności rozkładu. Możliwe jest badanie odchyleń od

innego zadanego rozkładu.

background image

- 15 -

Należy pamiętać, że wartość statystyki chi kwadrat jest wprost proporcjonalnie

zależna od wielkości badanej próby i że poziom istotności informuje jedynie

o prawdopodobieństwie popełnienia błędu pierwszego rodzaju. Nie można natomiast

z poziomu istotności wnioskować na temat siły tego związku (Blalock, 1975: 255–256).

Jedną z miar, która jest niezależna od wielkości próbki i liczby komórek, która

służy do pomiaru niezależności stochastycznej jest współczynnik V-Cramera. Jest to

pierwiastek ze stosunku chi kwadrat do iloczynu liczebności próby i pomniejszonej o 1

mniejszej z liczb komórek lub wierszy:

)

1

)

,

(min(

2

Χ

=

J

I

n

V

(2.3.)

Współczynnik V-Cramera jest współczynnikiem zestandaryzowanym, tzn.

przyjmuje wartości z przedziału od 0 do 1. Wartości wysokie, bliskie jedynki, przyjmuje

wówczas, kiedy układ wykazuje dużą zależność stochastyczną; w odwrotnym wypadku

przybiera wartości bliskie zeru.

Także tzw. średni kwadrat wielodzielczy (Stanimir, 2005: 16) zdaje sprawę z siły

związku pomiędzy dwiema zmiennymi nominalnymi, nie będąc jednocześnie zależnym od

liczebności próby:

n

2

2

Χ

=

ϕ

(2.4.)


Innymi wskaźnikami siły związku dla skal nominalnych są: C-Pearsona,

T

-Czuprowa, φ-Yule’a (czyli pierwiastek ze średniego kwadratu wielodzielczego).

Wszystkie one mają charakter globalny, tzn. mówią, jak silna jest zależność między

cechami, jednak nie zdają sprawy z powiązań pomiędzy poszczególnymi kategoriami

zmiennych.

Statystyka chi kwadrat znajduje pośrednio zastosowanie także w algorytmie analizy

korespondencji. Dokładniej rzecz biorąc, algorytm analizy korespondencji stosuje metrykę

chi kwadrat

do ustalania dystansów pomiędzy poszczególnymi profilami. W dalszej części

tego rozdziału to zagadnienie zostanie przedstawione dokładniej.

- 16 -

2.3. Analiza korespondencji – podstawowe pojęcia

W analizie korespondencji stosowane są raczej terminy algebraiczne

i geometryczne niż statystyczne. W zasadzie jedynym statystycznym pojęciem, którego się

używa w tej technice, jest chi kwadrat. Statystyka ta związana jest nieodłącznie z tabelami

kontyngencji, które są jednym z typów danych wejściowych w analizie korespondencji.

***

Jak już wspomniałem, pierwotnym zastosowaniem analizy korespondencji było

graficzne przedstawienie rozkładu łącznego dwu zmiennych kategorialnych. Jednak od

dłuższego już czasu stosowanie tej techniki wykracza poza dane o charakterze

frekwencyjnym. Bardzo często bowiem spotyka się stosowanie jej na innego rodzaju

danych wejściowych.

W dalszej części tej pracy zamierzam m.in. pokazać, na jakiego typu danych można

ją stosować. Natomiast w tym rozdziale, oprócz przedstawienia i objaśnienia

najważniejszych terminów analizy korespondencji, postaram się wykazać, że technika ta

daje się stosować do każdego rodzaju macierzy zawierających nieujemne wartości, których

dodawanie ma sens (Zeliaś, 2004).

Podstawowymi pojęciami w analizie korespondencji są:

 profile wierszowe i kolumnowe

 masy

 algorytm SVD

 dystanse

 inercja.

background image

- 17 -

2.4. Obliczenia w analizie korespondencji

Przejdźmy teraz do opisu algebraicznego algorytmu wykorzystywanego w analizie

korespondencji

3

. Za przykład posłużą nam wyniki badania Fishera, który sprawdzał

zależność pomiędzy kolorem włosów a kolorem oczu. Badanie zostało przeprowadzone

w latach 30. minionego stulecia w Wielkiej Brytanii. Jego wyniki zostały przytoczone

przez Erica J. Beha w artykule Simple Correspondence Analysis: A Bibliographic Review

(Beh, 2004a).

Tabela 2.1. Rozkład łączny liczebności

blondyni

rudzi

szatyni

ciemnowłosi

bruneci

RAZEM

niebieskie

326

38

241

110

3

718

jasne

688

116

584

188

4

1580

zielone

343

84

909

412

26

1774

ciemne

98

48

403

681

85

1315

RAZEM

1455

286

2137

1391

118

5387

Źródło: (Beh, 2004)

Tabela 2.1 zawiera rozkład liczebności dwu zmiennych – kolor oczu (w wierszach)

i kolor włosów (w wierszach). Pobieżna analiza liczebności w poszczególnych komórkach

pozwala dostrzec nadreprezentację ciemnookich w kategorii bruneci, nadreprezentację

szatynów wśród zielonookich. Trudno jest jednak analizować same wartości bezwzględne.

W rzeczywistości, dokonując takiej analizy, konieczne jest odniesienie się do wartości

sumy brzegowej. Przyjrzyjmy się teraz, jak wygląda mapa korespondencji tego rozkładu.

Rysunek 2.1 przedstawia mapę analizy korespondencji dla danych umieszczonych

w tabeli 2.1. W dalszym ciągu przedstawię metodę obliczania współrzędnych profili.

3

Poniższy opis zaczerpnięty został z trzeciego rozdziału książki Correspondance Analysis in Social Sciences

autorstwa Micheala Greenacre’a i Jorga Blasiusa (Greenacre, 1994).

- 18 -

Rysunek 2.1 Mapa korespondencji z wykorzystaniem współrzędnych głównych

2.4.1. Profile i masy, macierz korespondencji

Profilami wierszowymi w przypadku tablicy kontyngencji są rozkłady warunkowe

zmiennej kolumnowej ze względu na zmienną wierszową, tzn. częstości każdej komórki

podzielone przez odpowiadającą im masę (częstość brzegową).

Tabela 2.2. Rozkład łączny liczebności

1

...

...

...

...

...

...

2

1

2

1

2

2

22

21

1

1

12

11

m

j

n

nm

n

n

i

ij

m

m

c

c

c

c

r

p

p

p

r

p

r

p

p

p

r

p

p

p

Możliwe jest jednakże potraktowanie tablicy kontyngencji jak dwuwymiarowej

macierzy. Wtedy będzie ona niczym innym jak wiązką wektorów – wierszowych

i kolumnowych. Każda częstość warunkowa będzie wtedy stanowić współrzędną wektora

wierszowego lub wektora kolumnowego:

background image

- 19 -

i

ij

ij

r

p

r

=

(2.5.)

W ogólniejszym zapisie:

=

=

k

j

ij

ij

i

ij

ij

p

p

r

p

r

1

||

||

(2.6.)

gdzie:

∑ ∑

=

n

i

k

j

ij

ij

ij

x

x

p

,

2

||

||

i

r

– norma-1 wektora wierszowego.

im

i

i

r

r

r

...

2

1

i-ty profil wierszowy

Analogicznie profilami kolumnowymi są rozkłady warunkowe zmiennej

wierszowej ze względu na zmienną kolumnową.

j

ij

ij

c

p

c

=

(2.7.)

W ogólniejszym zapisie przybiera ono postać:

=

=

k

j

ij

ij

j

ij

ij

p

p

c

p

c

1

||

||

(2.8.)

gdzie:

∑ ∑

=

n

i

k

j

ij

ij

ij

x

x

p

||

c

||

1

j

norma profilu kolumnowego.

- 20 -

nj

j

j

c

c

c

...

2

1

j-ty profil kolumnowy.

Masa to przyporządkowana każdemu profilowi wielkość. W przypadku klasycznej

tablicy kontyngencji stanowi ona częstość brzegową, czyli liczebność danego wiersza

(kolumny) podzieloną przez liczebność całkowitą. Celem tego systemu ważenia jest

sprawienie, aby każdy respondent w tym samym stopniu „zasilał” swoją masą

odpowiadający mu punkt profilu (Greenacre, 1994: 10).

Natomiast w ogólniejszych terminach algebraicznych masę można przedstawić jako

tzw.

normę-1

wektora,

czyli

sumę

współrzędnych

danego

wektora

(Kiełbasiński, 1992: 29):

p

n

i

i

p

x

x

1

|

|

||

||

=

(2.9.)

=

=

n

i

i

n

i

i

x

x

x

|

|

|

|

1

1

1

||

||

(2.10.)

Równanie 2.10 na normę-1 wektora to nic innego jak sumowanie współrzędnych

tego wektora. Zatem dodając częstości i obliczając masę danego profilu liczymy właśnie

normę-1 tego profilu.

***

Masy wierszowe obliczymy, sumując liczebności w poszczególnych wierszach

i dzieląc je przez liczebność ogólną n. Analogicznie otrzymamy masy kolumnowe –

sumując liczebności w poszczególnych kolumnach i dzieląc je przez liczebność ogólną n.

W ten sposób otrzymujemy wektory mas wierszowych oraz wektory mas kolumnowych.

Z tabeli 2.3 wynika, że najliczniejszą kategorię (największą masę) stanowią szatyni,

natomiast jeśli chodzi o kolor oczu – tabela 2.4 ukazuje, że najliczniejszą kategorię

stanowią zielonoocy.

background image

- 21 -

Tabela 2.3. Masy kolumnowe

blondyni

rudzi

szatyni

ciemnowłosi

bruneci

0,270

0,053

0,397

0,258

0,022

Źródło: obliczenia własne

4

Tabela 2.4. Masy wierszowe

niebieskie

0,133

jasne

0,293

zielone

0,329

ciemne

0,244

Źródło: obliczenia własne

Kolejnym etapem jest uzyskanie tzw. macierzy korespondencji P, która jest po

prostu rozkładem łącznym liczebności dwu badanych zmiennych. Otrzymujemy ją, dzieląc

każdy z elementów macierzy N przez liczebność ogólną n. Tabela 2.5 ukazuje, że

najliczniejszą kategorią (stanowiącą koniunkcję dwóch zmiennych: kolor oczu i kolor

włosów) są zielonoocy szatyni – 0,169. Na drugim miejscu znaleźli się jasnoocy blondyni

– 0,128.

Tabela 2.5. Macierz korespondencji P – rozkład łączny częstości

blondyni

rudzi

szatyni

ciemnowłosi

bruneci

niebieskie

0,061

0,007

0,045

0,020

0,001

jasne

0,128

0,022

0,108

0,035

0,001

zielone

0,064

0,016

0,169

0,076

0,005

ciemne

0,018

0,009

0,075

0,126

0,016

Źródło: obliczenia własne

Teraz jesteśmy w stanie uzyskać macierze profili wierszowych i kolumnowych

dzieląc każdy z elementów macierzy P przez odpowiednią masę – wierszową lub

kolumnową. Tabela 2.6 pokazuje m.in., że wśród niebieskookich najliczniejszą grupę

stanowią blondyni (0,454), wśród jasnookich – blondyni (0,453), wśród zielonookich –

szatyni (0,512), wśród ciemnookich – ciemnowłosi (0,518).

4

Wszystkie obliczenia zostały wykonane w pakiecie MatLab przy użyciu programu, którego kod źródłowy

znajduje się w Aneksie.

- 22 -

Tabela 2.6. Profile wierszowe

blondyni

rudzi

szatyni

ciemnowłosi

bruneci

RAZEM

niebieskie

0,454

0,053

0,336

0,153

0,004

1,000

jasne

0,435

0,073

0,370

0,119

0,003

1,000

zielone

0,193

0,047

0,512

0,232

0,015

1,000

ciemne

0,075

0,037

0,306

0,518

0,065

1,000

Źródło: obliczenia własne

Tabela 2.7. Profile kolumnowe

blondyni

rudzi

szatyni ciemnowłosi bruneci

niebieskie

0,224

0,133

0,113

0,079

0,025

jasne

0,473

0,406

0,273

0,135

0,034

zielone

0,236

0,294

0,425

0,296

0,220

ciemne

0,067

0,168

0,189

0,490

0,720

RAZEM

1,000

1,000

1,000

1,000

1,000

Źródło: obliczenia własne

Rysunek 2.2 Profile wierszowe

background image

- 23 -

Rysunek 2.3 Profile kolumnowe

Wykresy profili wierszowych i kolumnowych (rysunek 2.2 oraz rysunek 2.3)

pokazują, jak rozkładają się kategorie wierszowe w kategoriach kolumnowych i vice versa.

Na wykresach pokazano także odpowiednie profile centralne (centroidy), czyli profile,

których wartości stanowią kolejne masy brzegowe. W ten sposób możliwe jest

sprawdzenie, rozkład której kategorii jest najbardziej zbliżony do rozkładu profilu

centralnego oraz to, która kategoria ma rozkład najbardziej od profilu centralnego

odbiegający. Wśród profili wierszowych od centroidu najbardziej odbiega rozkład

kategorii „ciemne [oczy]”, natomiast wśród profili kolumnowych taką kategorią są

„bruneci”.

2.4.2. Inercja układu i algorytm SVD

W tym momencie mamy zebrane wszystkie jednostki konieczne do zdefiniowania

problemu przedstawienia graficznego profili wierszowych i kolumnowych. Skupmy się na

przedstawieniu profili wierszowych. Mamy I profili (w wierszach D

r

-1

P z masami r

w macierzy diagonalnej D

r

) w przestrzeni określonej przez macierz diagonalną D

c

.

- 24 -

Musimy wywieść centroid profili wierszowych (czyli wektor mas kolumnowych) –

r

T

D

r

-1

P = 1

T

= c

T

. Macierz A będzie wyglądać następująco:

2

1

2

1

)

1

(

1

=

c

T

r

r

D

c

P

D

D

A

(2.11.)

co po przekształceniu wyniesie:

2

1

2

1

)

(

=

c

T

r

D

rc

P

D

A

(2.12.)

Analogicznie będzie wyglądał problem przedstawienia profili kolumnowych

zawierający J profili w kolumnach PD

c

-1

z masami c w macierzy diagonalnej D

c

-1

w przestrzeni określonej przez macierz diagonalną D

r

-1

. Centroid tych profili to:

c

T

D

c

-1

P

T

= 1

T

P

T

= r

T

,

co stanowi wektor mas wierszowych. Mamy zatem macierz:

2

1

2

1

2

1

2

1

)

(

)

1

(

1

=

=

r

T

c

r

T

c

c

D

cr

P

D

D

r

P

D

D

A

(2.13.)

która stanowi transponowaną macierz A z problemu wierszowego. Okazuje się, że

problem przedstawienia zarówno profili wierszowych, jak i kolumnowych może być

rozwiązany przy użyciu algorytmu rozkładu macierzy względem jej wartości

szczególnych

5

(ang. singular value decomposition SVD) tej samej macierzy A, zwanej

macierzą rezyduów standaryzowanych (tabela 2.8)

6

:

2

1

2

1

)

(

=

c

T

r

D

rc

P

D

A

(2.14.)

z elementami macierzy o rozmiarach IxJ:

j

i

j

i

ij

ij

c

r

c

r

p

a

)

(

=

(2.15.)

5

W języku polskim spotykane jest także określenie wartości osobliwe.

6

Doskonały opis zasady działania tego algorytmu wykorzystywanego do rozwiązania większości problemów

liniowych najmniejszych kwadratów znajduje się w podręczniku Numerical Recipies in C: The Art of
Scientific Computing

(Press, 1992).

background image

- 25 -

Tabela 2.8. Macierz A rezyduów standaryzowanych

blondyni

rudzi

szatyni

ciemnowłosi

bruneci

niebieskie

0,129

0,000

-0,035

-0,075

-0,044

jasne

0,172

0,048

-0,023

-0,148

-0,071

zielone

-0,085

-0,014

0,105

-0,029

-0,028

ciemne

-0,186

-0,036

-0,071

0,252

0,143

Źródło: obliczenia własne

Łatwo zauważyć, że przemnożone przez liczebność ogólną n kwadraty elementów

a

ij

stanowią lokalne wartości statystyki chi kwadrat, a ich suma po i oraz po j to wartość

globalnej statystyki chi kwadrat. Suma kwadratów elementów macierzy A daje wartość

inercji całkowitej układu.

∑∑

∑∑

=

=

Χ

I

i

J

j

j

i

j

i

ij

I

i

J

j

ij

c

r

c

r

p

n

a

n

2

2

2

)

(

(2.16.)

Okazuje się, że pierwiastek z sumy kwadratów elementów macierzy A to norma

Frobeniusa

, na którą wzór ogólny wygląda następująco:

∑ ∑

=

=

=

n

i

m

i

ij

F

a

A

1

1

2

|

|

||

||

(2.17.)

Norma Frobeniusa jest normą-2 w R

nm

(przy dowolnym uporządkowaniu

elementów a

ij

, jako składowych wektora tej przestrzeni) (Kiełbasiński, 1992: 28). A więc

norma Frobeniusa spełnia warunki analogiczne do tych, które spełniane są przez normę

euklidesową:

R

R

y

x

n

λ

,

(N

1

)

0

||

x

||

2

≥ ,

0

0

||

x

||

2

=

=

x

,

(N

2

)

|

|

||

x

||

||

x

||

2

2

λ

λ

=

(N

3

)

2

2

2

||

y

||

||

x

||

||

y

x

||

+

+

.

Dekompozycja macierzy A, zawierającej standaryzowane rezydua, jest

jednocześnie dekompozycją statystyki chi kwadrat, która jest proporcjonalna do sumy

kwadratów elementów macierzy A (Greenacre, 1994: 62).

- 26 -

Suma kwadratów elementów macierzy A daje wartość inercji całkowitej (ang. total

inertia

) układu, która jest równa wartości statystyki chi kwadrat podzielonej przez

liczebność całkowitą n.

Inercja jest terminem zapożyczonym z mechaniki. Przyjmuje się, że każdy obiekt

fizyczny posiada swój środek ciężkości, tzw. centroid. Każdej cząsteczce wchodzącej

w skład tego obiektu można przypisać masę i dystans od centroidu. Moment inercji obiektu

jest zdefiniowany jako suma rd

2

dla całego obiektu, gdzie r – to masa cząsteczki, a d

dystans cząsteczki od centroidu.

W przypadku analizy korespondencji mamy do czynienia z masami sumującymi się

do jedności. Cały układ punktów posiada swój centroid – czyli profil średni. Miarą

dystansu jest metryka chi kwadrat

pomiędzy profilami. Wobec powyższego istnieje

możliwość wyliczenia inercji tego układu (chmury) punktów. Sumując inercję każdego

profilu wierszowego, otrzymamy całkowitą inercję układu.

Istotne jest, że inercja posiada swoją interpretację geometryczną jako miary

rozproszenia profili w wielowymiarowej przestrzeni. Im większa jest inercja układu, tym

punkty w tej przestrzeni są bardziej rozproszone. Kiedy wartość inercji wynosi 0, punkty

profili skupiają się w jednym punkcie przestrzeni – jest to stan niezależności

stochastycznej. W przeciwnym wypadku – gdy inercja osiąga wysoką wartość – punkty

profili są maksymalnie rozrzucone. W aneksie (Rysunek 7.1, Rysunek 7.2, Rysunek 7.3)

przedstawiono ilustracje ukazujące współzależność wartości inercji i rozrzutu punktów

profili.

Maksymalną wartość całkowitej inercji układu określa następujący wzór:

1

)

,

min(

0

J

I

ia

TotalInert

(2.18.)

gdzie I to liczba wierszy, a J – liczba kolumn.

***

Przypatrzmy się teraz, na czym z geometrycznego punktu widzenia polega redukcja

wymiarów, czyli dobór takiej podprzestrzeni, która by w jak największym stopniu

pozwalała odwzorować pierwotną przestrzeń.

Tak jak w regresji liniowej II rodzaju poszukiwana jest taka prosta, która

minimalizuje kwadraty odchyleń wartości zmiennej od średniej, tak w analizie

background image

- 27 -

korespondencji w celu zredukowania liczby wymiarów poszukujemy niskowymiarowej

przestrzeni, która odwzorowuje najdokładniej jak to możliwe odległości chi kwadrat

pomiędzy profilami.

Inercja układu może być zdekomponowana na dwa składniki w następujący sposób

(patrz rysunek 2.4):

+

=

n

i

n

i

i

i

i

i

n

i

i

i

e

r

r

d

r

2

2

2

δ

(2.19.)

gdzie:

d – odległość między punktem profilu a profilem średnim

δ – odległość między rzutem a profilem średnim

e – odległość między punktem profilu a rzutem.

Pierwszy składnik sumy po prawej stronie równania to inercja na płaszczyźnie,

drugi to inercja rezydualna. W analizie korespondencji bliskość punktów profili do

płaszczyzny jest mierzona przez ważoną sumę kwadratów dystansów pomiędzy punktami

a płaszczyzną, czyli inercji rezydualnej, a więc tę wielkość w procesie dopasowania należy

minimalizować. Natomiast minimalizacja inercji rezydualnej jest równoważna

maksymalizacji pierwszego składnika sumy, czyli inercji na płaszczyźnie.

Rysunek 2.4 przedstawia płaszczyznę w przestrzeni. Nad płaszczyzną znajdują się

punkty profili. Na płaszczyźnie znajduje się punkt profilu średniego oraz rzuty profili.

Płaszczyzna musi być tak ułożona, aby zminimalizować sumę iloczynów kwadratów

odległości między punktami profili a ich rzutami i masami profili. Im mniejsza jest ta

suma, tym lepsze odwzorowanie układu uzyskuje się na płaszczyźnie.

Wielkość inercji rezydualnej mówi o tym, ile inercji układu zostało utracone w toku

redukcji wymiarów. Algorytm SVD wykorzystywany w analizie korespondencji szuka

takiej płaszczyzny, dla której ta strata jest najmniejsza.

- 28 -

Rysunek 2.4 Rzutowanie profili na płaszczyznę

***

Poprzez zastosowanie algorytmu SVD dla macierzy A otrzymujemy trzy

macierze: U, Γ, V:

T

V

U

A

Γ

=

(2.20.)

Kolumny macierzy U określają ortonormalną bazę dla profili wierszowych

i nazywane są lewymi wektorami szczególnymi macierzy A. Natomiast kolumny macierzy

V

T

określają ortonormalną bazę dla profili kolumnowych i nazywane są prawymi

wektorami szczególnymi macierzy A. Macierze U i V posiadają własność ortogonalności:

I

VV

U

U

T

T

=

=

(2.21.)

Macierz Γ

jest diagonalną macierzą uporządkowanych malejąco wartości

szczególnych macierzy A:

background image

- 29 -

Tabela 2.9. Macierz U zawierająca lewe wektory szczególne macierzy A

494

,

0

073

,

0

381

,

0

778

,

0

574

,

0

109

,

0

811

,

0

043

,

0

542

,

0

587

,

0

276

,

0

535

,

0

365

,

0

799

,

0

348

,

0

327

,

0

Źródło: obliczenia własne

Tabela 2.10. Macierz V zawierająca lewe wektory szczególne macierzy A

609

,

0

233

,

0

244

,

0

363

,

0

630

,

0

175

,

0

305

,

0

670

,

0

244

,

0

070

,

0

756

,

0

059

,

0

345

,

0

928

,

0

064

,

0

120

,

0

229

,

0

222

,

0

521

,

0

633

,

0

Źródło: obliczenia własne

Tabela 2.11. Macierz Γ zawierająca na przekątnej wartości szczególne macierzy A

000

,

0

0

0

0

0

029

,

0

0

0

0

0

174

,

0

0

0

0

0

46

,

0

Źródło: obliczenia własne

W rozwiązaniu jest K = min[I-1, J-1] wymiarów. Dla opisywanego przykładu

liczba wymiarów wynosi: K = min[3, 4] = 3. Kwadraty wartości szczególnych macierzy

A (tożsame z wartościami własnymi macierzy A

T

A lub AA

T

) dekomponują inercję

całkowitą układu; oznaczane są przez: λ

1

, λ

2

, ..., λ

K

i nazywane są inercjami głównymi

(ang. principal inertias). Podobnie jak w analizie głównych składowych inercje główne

wyraża się poprzez procent inercji całkowitej, którą każda z nich wyjaśnia.

Okazuje się, że pierwsza z wartości szczególnych macierzy A, równa pierwiastkowi

kwadratowemu pierwszej wartości własnej macierzy A

T

A, jest tożsama z normą-2

macierzy A, nazywaną normą spektralną macierzy (Kiełbasiński, 1992: 30).

1

max

2

)

(

||

||

γ

λ

=

=

A

A

A

T

(2.22.)

- 30 -

Ponadto zachodzi jeszcze jedna równość. Mianowicie pierwiastek z sumy

kwadratów wartości szczególnych macierzy A określa wartość normy Frobeniusa

(Kiełbasiński, 1992: 49), a więc:

∑ ∑

=

=

=

+

+

=

n

i

m

i

ij

r

F

a

A

1

1

2

2

2

1

|

|

...

||

||

γ

γ

(2.23.)

gdzie γ

i

są wartościami szczególnymi macierzy A, r = rank(A).

W prezentowanym przykładzie okazuje się (tabela 2.12), że pierwszy wymiar

wyjaśnia aż 86,6 procent inercji całego układu, drugi już tylko 13,1 procent, a trzeci –

zaniedbywalne 0,4 procent.

Tabela 2.12. Wartości szczególne, wartości własne (inercje główne), procent inercji wyjaśnionej,

skumulowana wariancja wyjaśniona

k

Wartości

szczególne

γ

k

Wartości własne

λ

k

Procent inercji

wyjaśnionej

λ

k

/λ

Skumulowana

wariancja

wyjaśniona

1

0,446

0,199

86,6%

86,6%

2

0,174

0,030

13,1%

99,7%

3

0,029

0,001

0,4%

100%

λ = 0,23

Źródło: obliczenia własne

2.4.3. Obliczanie współrzędnych

Współrzędne główne otrzymujemy, mnożąc lewe (prawe) wektory szczególne

macierzy A przez odpowiednie wartości szczególne i dzieląc je przez pierwiastki mas

wierszowych (kolumnowych). Macierz F ze współrzędnymi głównymi (ang. principal

coordinates

) dla wierszy uzyskiwana jest przy pomocy wzoru:

Γ

=

U

D

F

r

2

1

(2.24.)

co w zapisie skalarnym wygląda w sposób następujący:

i

k

ik

ik

r

u

f

γ

=

(2.25.)

background image

- 31 -

gdzie i to numer wiersza, a k – numer wymiaru.

Macierz G ze współrzędnymi głównymi dla wierszy uzyskiwana jest przy pomocy

wzoru:

Γ

=

V

D

G

c

2

1

(2.26.)



j

k

jk

jk

c

u

g

γ

=

(2.27.)

gdzie j to numer kolumny, a k – numer wymiaru.

Tabela 2.13. Macierz F zawierająca współrzędne główne dla profili wierszowych

K

1

K

2

K

3

K

4

0,400

-0,165

0,064

0,000

0,441

-0,089

-0,032

0,000

-0,034

0,245

0,006

0,000

-0,703

-0,134

-0,004

0,000

Źródło: obliczenia własne

Tabela 2.14. Macierz G zawierająca współrzędne główne dla profili kolumnowych

K

1

K

2

K

3

K

4

0,544

-0,174

0,013

0,000

0,233

-0,048

-0,118

0,000

0,042

0,208

0,003

0,000

-0,589

-0,104

0,010

0,000

-1,094

-0,286

-0,046

0,000

Źródło: obliczenia własne

Natomiast, aby uzyskać współrzędne standaryzowane (ang. standard coordinates),

należy współrzędne główne podzielić przez odpowiadające im wartości szczególne:

U

D

F

X

r

2

1

1

=

Γ

=

(2.28.)

- 32 -

Tabela 2.15. Macierz X zawierająca współrzędne standaryzowane dla profili wierszowych

K

1

K

2

K

3

K

4

0,897

-0,954

-2,188

-1,000

0,987

-0,510

1,084

-1,000

-0,075

1,413

-0,189

-1,000

-1,574

-0,772

0,148

-1,000

Źródło: obliczenia własne

Tabela 2.16. Macierz Y zawierająca współrzędne standaryzowane dla profili kolumnowych

K

1

K

2

K

3

K

4

0,523

-0,278

4,027

-1,498

0,094

1,201

-0,110

-0,387

-1,319

-0,599

-0,345

-1,240

-2,452

-1,651

1,574

4,118

Źródło: obliczenia własne

W praktyce najczęściej używa się map wykorzystujących współrzędne główne.

Greenacre przedstawia krótką charakterystykę takiej mapy (Greenacre, 1994: 21):

 Zawiera

optymalne

reprezentacje

zarówno

wierszowych,

jak

i kolumnowych profili, mimo że w rzeczywistości profile te istnieją

w różnych przestrzeniach

 Punkty reprezentujące wiersze i kolumny są w równym stopniu

rozmieszczone na mapie, zarówno w kierunku horyzontalnym, jak

i wertykalnym (w ogólności – dla każdej osi głównej)

 Uzasadnieniem łączonego przedstawiania jest leżąca u jego podstaw mapa

asymetryczna, na której wiersze lub kolumny są uznawane za wierzchołki

punktów przestrzeni profili. Istnieje stały czynnik skalujący pomiędzy

pozycjami

wierzchołków

rzutowanymi

na

mapę

optymalną

a odpowiadającymi im pozycjami profili rzutowanymi na optymalną mapę

o tej samej (niskiej) liczbie wymiarów

 Nie można dokonywać bezpośredniej interpretacji odległości pomiędzy

wierszami i kolumnami, jednakże możliwa jest interpretacja łączonej

reprezentacji wierszy i kolumn w odniesieniu do osi głównych mapy.

Opozycje lewy-prawy, górny-dolny na mapie są interpretowane w ten sam

sposób zarówno dla wierszy, jak i dla kolumn, a korespondencja pomiędzy

ich odchyleniami od osi może być bezpośrednio interpretowana jako

asocjacja

background image

- 33 -

 Siła asocjacji między wierszami i kolumnami nie może być w sensie

absolutnym bezpośrednio zaobserwowana na symetrycznej mapie. Można

o tej sile jedynie wnioskować z wartości liczbowych inercji.

2.5. Interpretacja wyników

W analizie korespondencji interpretacji poddawana jest przede wszystkim mapa

korespondencji. Zasadniczo interpretacja jest intuicyjna – obiekty położone blisko siebie są

podobne, obiekty położone daleko od siebie są od siebie różne. Możliwe jest

porównywanie tych odległości w obrębie profili wierszowych oraz w obrębie profili

kolumnowych. Należy tu wszakże zrobić ważne zastrzeżenie. Nie jest dopuszczalna

bezpośrednia interpretacja odległości pomiędzy profilami wierszowymi a kolumnowymi.

W tym miejscu możliwe jest jedynie stwierdzenie o bliskości (lub oddaleniu) profilu

wierszowego od kolumnowego. Jeśli są blisko siebie, oznacza to, że mają tendencję do

współwystępowania, natomiast jeśli są od siebie oddalone – znaczy to, że

współwystępowanie danej kategorii zmiennej wierszowej i kolumnowej jest rzadkie

(rysunek 2.1).

Wartości własne, czyli kwadraty wartości szczególnych, odpowiadają wartości

inercji wyjaśnionej przez każdą z osi głównych. Im większa część inercji jest wyjaśniana

przez daną oś, tym więcej informacji niesie układ profili na tej osi.

Interpretacji mogą podlegać ponadto wartości kontrybucji profili wierszowych

i kolumnowych do inercji osi głównych, a także kontrybucje osi głównych do inercji

profili wierszowych i kolumnowych. Przyjrzyjmy się teraz, jak uzyskać te dane.

Każda z wartości ogólnej inercji (ang. principal inertia) λ

k

może być

zdekomponowana na komponenty

2

ik

i

f

r

odpowiadające każdemu wierszowi:

=

i

ik

i

k

f

r

2

λ

(2.29.)

w zapisie macierzowym:

F

D

F

D

r

T

=

λ

(2.30.)

- 34 -

Tabela 2.17. Inercja każdej osi dla profili wierszowych

K

1

K

2

K

3

niebieskie

0,0214

0,0036

0,0005

jasne

0,0570

0,0023

0,0003

zielone

0,0004

0,0198

0,0000

ciemne

0,1205

0,0044

0,0000

RAZEM

0,1992

0,0301

0,0009

Źródło: obliczenia własne

Kontrybucje wierszy do inercji ogólnej są zwykle definiowane jako komponenty

inercji w odniesieniu do ich sumy (inercji ogólnej wiersza λ

k

):

k

ik

i

f

r

λ

2

(2.31.)

Tabela 2.18. Procent inercji osi głównych wyjaśnionej przez profile wierszowe

K

1

K

2

K

3

niebieskie

0,1072

0,1212

0,6382

jasne

0,2859

0,0764

0,3445

zielone

0,0019

0,6570

0,0120

ciemne

0,6050

0,1455

0,0052

Źródło: obliczenia własne

W ten sposób możemy sprawdzić, które wiersze wnoszą największy wkład do

inercji danego wymiaru. Interpretacja wartości kontrybucji (ang. contrubutions to inertia)

wierszowych jest odmienna w stosunku do interpretacji kwadratów ładunków

czynnikowych z analizy głównych składowych. Kwadraty ładunków czynnikowych

mówią, do jakiego stopnia każdy wiersz kategorii i każda kolumna jest opisywana przez

daną oś, natomiast kontrybucja do inercji pokazuje, do jakiego stopnia geometryczne

ułożenie

osi

jest

zdeterminowane

przez

pojedynczą

zmienną

kategorii

(Greenacre, 1994: 66).

W tabeli 2.18 widzimy, że w przypadku pierwszej osi (K

1

) największą „siłę

rozpinającą” ten wymiar posiada kategoria ciemnych oczu (0,605), natomiast oś druga (K

2

)

rozpinana jest najsilniej przed kategorie zielonych oczu (0,657). Fakty te znajdują swoje

odzwierciedlenie na mapie analizy korespondencji przedstawionej na wykresie

background image

- 35 -

(rysunek 2.1). Po prawej stronie wykresu widać kategorię „ciemne [oczy]”, która jest

wyraźnie oddalona od pozostałych kategorii tej zmiennej.

Kontrybucja kategorii „jasne” do pierwszego wymiaru wynosi 0,2859, natomiast

kontrybucja kategorii „niebieskie” do pierwszego wymiaru wynosi 0,1072. Kategoria

„jasne” ma wyższą wartość ze względu na większą masę tego profilu. Z kolei w przypadku

drugiego wymiaru wyraźnie widać, że kategoria „zielone” znalazła się jako jedyna po

dodatniej stronie drugiego wymiaru, podczas gdy pozostałe kategorie znajdują się po jego

ujemnej stronie.

Mapa (rysunek 2.1) jest „wzbogacona” w stosunku do standardowych map analizy

korespondencji poprzez zaznaczenie mas każdego profilu – wielkość punktów profili jest

powiązana z masami w ten sposób, że profile o większej masie oznaczone są przy pomocy

punktów o większej powierzchni. Pozwala to zidentyfikować profile o bardzo małej masie,

które mocno rozpinają dany wymiar. Algorytm analizy korespondencji operuje na

częstościach względnych, wobec tego kategorie o małych liczebnościach bezwzględnych

mają często tendencję do silniejszej dysproporcji w rozłożeniu mas. W analizowanym

przykładzie zjawisko to widać dobrze w przypadku najmniej licznej kategorii „bruneci”,

którzy stanowią jedynie 0,022 całej liczby. W tabeli 2.3 przedstawiającej macierz profili

kolumnowych profil „bruneci” wygląda następująco: (0,025, 0,034, 0,220, 0,720). Widać

wyraźną względną nadreprezentację na ostatnim wymiarze. To znajduje swoje

odzwierciedlenie także w macierzy rezyduów standaryzowanych w tabeli 2.8. Odległość

w komórce na przecięciu „bruneci” i „ciemne” jest jedną z największych w całym

układzie.

Innym sposobem na sprawdzenie tego, które kategorie mają statystycznie istotnie

silniejszą tendencję do współwystępowania jest przeprowadzenie korelacji parami (ang.

pairwise correlation

). Tabela 2.19 przedstawia macierz korelacji parami naszych

zmiennych. Widać w niej wyraźnie silniejszą niż w innych przypadkach dodatnią korelację

między kategoriami „bruneci” i „ciemne włosy”. Tabela wskazuje ponadto, że w zasadzie

wszystkie kategorie (oprócz koniunkcji: rudzi&niebieskie i rudzi&zielone) wykazują

korelacje istotne statystycznie.

- 36 -

Tabela 2.19. Macierz korelacji parami dwu zmiennych. (**) oznaczają istotność statystyczną korelacji

na poziomie 0,01, (*) - istotność na poziomie 0,05.

blondyni

rudzi

szatyni

ciemnowłosi

bruneci

niebieskie

0.162(**)

0

-0.049(**)

-0.094(**)

-0.047(**)

jasne

0.24(**)

0.058(**)

-0.036(**)

-0.205(**)

-0.085(**)

zielone

-0.121(**)

-0.018

0.166(**)

-0.042(**)

-0.035(*)

ciemne

-0.25(**)

-0.042(**)

-0.105(**)

0.337(**)

0.166(**)

Źródło: obliczenia własne

7

Komponenty inercji dla i–tego wiersza dla wszystkich K osi (wymiarów) sumują

się do inercji i-tego wiersza, którą definiuje się jako iloczyn masy wiersza i kwadratu

odległości wiersza od centroidu (profilu średniego):

=

j

k

ik

i

j

j

i

ij

f

r

c

c

r

p

2

2

)

(

(2.32.)

Inercja wierszowa po lewej stronie jest identyczna z sumą kwadratów elementów

i-

tego wiersza macierzy A:

=

j

j

j

i

j

i

ij

ij

c

r

c

r

p

s

2

2

)

(

(2.33.)

Kwadraty korelacji wierszy z osiami głównymi (wymiarami) to komponenty inercji

2

ik

i

f

r

wyrażone w odniesieniu do inercji wierszy:

j

ij

ik

i

s

f

r

2

2

(2.34.)

W zredukowanej K

*

-wymiarowej przestrzeni wyjaśniona inercja może być

zsumowana dla K

*

wymiarów w celu otrzymania miary jakości odwzorowania dla każdego

wiersza:

7

Korelacje parami policzone zostały przy użyciu Internetowego Pakietu Statystycznego

(http://ips.filip.prv.pl).

background image

- 37 -

=

j

ij

K

k

ik

i

s

f

r

2

1

2

*

Jakość odwzorowania i-tego wiersza

(2.35.)

Tabela 2.20 Inercje wierszy

niebieskie

0,0256

jasne

0,0596

zielone

0,0201

ciemne

0,1249

Źródło: obliczenia własne

Tabela 2.21 Kontrybucje osi głównych do wierszy

niebieskie 0,8358

0,1427

0,0215

jasne

0,9564

0,0386

0,0050

zielone

0,0185

0,9810

0,0005

ciemne

0,9649

0,0350

0,0000

Źródło: obliczenia własne

Geometrycznie rzecz ujmując, miary jakości odzwzorowania mogą być również

interpretowane jako kwadraty cosinusów kąta pomiędzy każdym profilem wierszowym

i podprzestrzenią zdefiniowaną przez pierwsze K

*

wymiarów. Miary jakości

odwzorowania są odpowiednikami communalities w analizie głównych składowych.

Tabela 2.22 pokazuje jakość rozwiązania dwuwymiarowego – zsumowane dwie pierwsze

kolumny tabeli z kontrybucjami osi głównych do wierszy (tabela 2.21).

Tabela 2.22 Jakość odwzorowania profili wierszowych przy użyciu rozwiązania dwuwymiarowego

niebieskie

0,9785

jasne

0,9950

zielone

0,9995

ciemne

1,0000

Źródło: obliczenia własne

- 38 -

2.6. Dystanse

Jak już wspomniałem, profile wierszowe i kolumnowe to tak naprawdę wektory

w wielowymiarowej przestrzeni. W tabela 2.6 znajduje się macierz profili wierszowych

umieszczonych w pięciowymiarowej przestrzeni (wymiary oznaczane są tu przez kolejne

wartości zmiennej „kolor włosów”). Weźmy dwa pierwsze profile: pierwszy, oznaczający

ludzi z oczami niebieskimi – (0,454; 0,053; 0,336; 0,153; 0,004), oraz drugi oznaczający

ludzi z oczami koloru jasnego – (0,435; 0,073; 0,370; 0,119; 0,003).

Wprawdzie punktu osadzonego w pięciowymiarowej przestrzeni nie możemy

zobaczyć, tak jak moglibyśmy to zrobić, gdyby tych wymiarów było trzy lub mniej, to

jednak mając współrzędne tego wektora, możemy ustalić, jaka jest odległość tego punktu

od punktów wyznaczanych przez inne profile wierszowe. W tym celu możemy się

posłużyć się metryką euklidesową, czyli obliczeniem odległości w „linii prostej” pomiędzy

dwoma punktami. Tak wygląda wzór ogólny na odległość euklidesową dwóch wektorów:

=

k

i

i

i

xy

y

x

d

2

)

(

(2.36.)

gdzie:

d

xy

– odległość euklidesowa pomiędzy wektorami x oraz y

x

i

– współrzędna i wektora x

y

i

– współrzędna i wektora y

Odległość euklidesowa pierwszego od drugiego profilu wierszowe obliczamy

zatem w następujący sposób:

0,056

0,003)

-

(0,004

0,119)

-

(0,153

0,370)

-

(0,336

0,073)

-

0,053

(

0,435)

-

(0,454

2

2

2

2

2

12

=

+

+

+

+

=

d

(2.37.)


W analizie korespondencji stosowana jest jednakże odmiana metryki euklidesowej

– tzn. ważona metryka euklidesowa (Greenacre, 1984: 11). Wagami będą w tym miejscu

kolejne współrzędne średniego profilu wierszowego, czyli profilu złożonego z mas

kolumnowych. Ważenie odległości masami profilu wierszowego może przywodzić na

myśl wyliczanie statystyki chi kwadrat. Rzeczywiście, jest to analogiczne postępowanie

jak przy wyliczaniu statystyki chi kwadrat, dlatego metrykę tę nazywa się metryką chi

kwadrat:

background image

- 39 -

=

Χ

k

i

i

i

i

r

y

x

d

xy

2

)

(

(2.38.)

gdzie:

d

Χ

xy

– odległość chi kwadrat pomiędzy wektorami x oraz y

x

i

– współrzędna i wektora x

y

i

– współrzędna i wektora y

r

i

– masa wierszowa dla kolumny i

Odległość chi kwadrat profilu ludzi z oczami niebieskimi od profilu ludzi z oczami

jasnymi wynosi zatem:

0,129

0,022

0,003)

-

(0,004

0,258

0,119)

-

(0,153

0,397

0,370)

-

(0,336

0,053

0,073)

-

0,053

(

0,270

0,435)

-

(0,454

12

2

2

2

2

2

=

+

+

+

+

=

d

(2.39.)

Na mapie (rysunek 2.1) widzimy, że te dwa profile są położone blisko siebie.

Sprawdźmy teraz, jaka będzie odległość punktów, które są położone na mapie w większej

odległości od siebie, np. ludzie z jasnymi oczami i ludzie z oczami ciemnymi.

1,145

0,022

0,065)

-

(0,003

0,258

0,518)

-

(0,119

0,397

0,306)

-

(0,370

0,053

0,037)

-

0,073

(

0,270

)

0,075

-

(0,435

24

2

2

2

2

2

=

+

+

+

+

=

d

(2.40.)

Widać, że odległość chi kwadrat jest tutaj znacznie większa niż w poprzednim

przypadku.

Uzasadnieniem dla stosowania w tym miejscu metryki chi kwadrat jest to, że

ważenie kwadratów odległości przez częstość oczekiwaną (masę profilu) standaryzuje

wariancję i sprawia, że wariancja przy wysokich częstościach się zwiększa, a przy małych

częstościach – zmniejsza. W praktyce oznacza to, że gdyby nie było tej standaryzacji, duże

różnice dystansu na poszczególnych wymiarach dominowałyby wartość dystansu

całkowitego, natomiast mniejsze dystanse na poszczególnych wymiarach by zanikały

(Greenacre, 1994: 11–12).

- 40 -

2.7. Rotacja i skalowanie mapy

Nie zawsze jest tak, że układ profili na mapie analizy korespondencji taki, jaki

został uzyskany przy użyciu pierwotnie wyliczonych współrzędnych, można dopasować do

odpowiedniej interpretacji socjologicznej. Czasem konieczna jest rotacja układu

współrzędnych w celu lepszego (w sensie intuicyjnym) ustawienia osi. Dzięki temu

możliwe jest utożsamienie osi z wymiarem odnoszącym się do zjawiska psychologicznego,

socjologicznego etc.

Rotacji dokonuje się poprzez przemnożenie macierzy współrzędnych przez macierz

obrotu o odpowiedni kąt. W wyniku tego działania otrzymujemy nową macierz

współrzędnych. Nowy, rotowany układ ma takie same długości wektorów, a więc

podstawowa struktura układu pozostaje bez zmian. W wyniku tej operacji zmieniają się

jednakże wartości kontrybucji profili wierszowych i kolumnowych do osi oraz osi do

profili wierszowych i kolumnowych.

Zapis operacji obrotu o kąt φ współrzędnych dwóch pierwszych wymiarów

wygląda następująco:

'

F

O

F

=

42

41

32

31

22

21

12

11

42

41

32

31

22

21

12

11

'

'

'

'

'

'

'

'

cos

sin

sin

cos

f

f

f

f

f

f

f

f

f

f

f

f

f

f

f

f

=

φ

φ

φ

φ

Na wykresie (rysunek 2.5) jaśniejsze punkty to profile wierszowe (kolor oczu)

z przykładu wyznaczone na podstawie pierwotnych współrzędnych z tabeli 2.13.

Jednocześnie przy pomocy ciemniejszych punktów naniesione zostały profile wyznaczone

na podstawie rotowanych współrzędnych (kąt rotacji wynosi 30

o

).

W tabeli 2.23 przedstawione zostały kontrybucje profili wierszowych do osi po

rotacji.

background image

- 41 -

Rysunek 2.5 Profile wierszowe przed i po rotacji

Tabela 2.23 Procent inercji osi głównych wyjaśnionej przez profile wierszowe po rotacji

K1

K2

niebieskie

0,1566

0,0074

jasne

0,3390

0,1042

zielone

0,0482

0,2163

ciemne

0,4562

0,6720

Źródło: obliczenia własne

Przeskalowanie jest przydatne, gdy punkty na mapie korespondencji są skupione

blisko siebie. Dzięki tej operacji możliwe jest optyczne zwiększenie rozproszenia tych

punktów, co ułatwia odczytanie mapy. Przeskalowanie nie zmienia kątów pomiędzy

wektorami profili a osiami głównymi.

- 42 -

2.8. Zakłócenia

Algorytm analizy korespondencji w przypadku niektórych zestawów danych

generuje swoiste zakłócenia, zwane efektem łuku (ang. arch effect) oraz efektem podkowy

(ang. horseshoe effect). Dzieje się tak wtedy, gdy rozkłady niektórych kategorii zmiennych

poddawanych analizie korespondencji są unimodalne. Interpretacja osi pionowej staje się

wtedy utrudniona, gdyż w rzeczywistości jest ona artefaktem – jest ona zakrzywioną

funkcją pierwszej osi. Jednym ze sposobów na zniwelowanie obydwu efektów jest tzw.

Detrended Correspondence Analysis (DCA). Jest to technika, która polega na dzieleniu osi

na segmenty, w obrębie których kategorię z dużymi liczebnościami są na nowo przypisane

w taki sposób, aby koncentrowały się wokół centroidu (Hill, 1980).

Na wykresie (rysunek 2.6) przedstawiona została przykładowa mapa

korespondencji, na której widoczny jest efekt łuku. Tabela kontyngencji, na podstawie

której wykonano tę mapę (tabela 2.24) charakteryzuje się unimodalnością – miernik

zależności modalnych zmiennej kolumnowej ze względu na zmienną wierszową wynosi

0,282).

Innym problemem pojawiającym się w przypadku niektórych zestawów danych jest

tzw. kompresja na końcu rozkładów. Na mapie analizy korespondencji punkty grupują się

wtedy bardzo blisko siebie, co często bardzo utrudnia odczytanie. Jeżeli zmienne mierzone

są na skali interwałowej lub ilorazowej, algorytm DCA może dokonać przeskalowania.

W efekcie punkty na mapie stają się bardziej od siebie oddalone ułatwiając odczyt.

DCA jest często używana na polu badań ekologicznych.

Tabela 2.24

O1

O2

O3

O4

O5

O6

O7

O8

O9

O10

O11

O12

O13

A1

0

0

0

0

3

0

0

0

2

0

0

0

0

A2

0

5

2

0

2

9

3

0

1

0

0

2

0

A3

0

7

16

3

0

8

14

5

0

0

6

0

4

A4

0

1

5

6

0

1

3

13

0

1

0

3

5

A5

0

0

0

2

0

0

0

2

0

0

0

0

0

A6

1

0

0

0

0

0

0

3

0

0

0

0

0

A7

0

0

0

0

0

0

1

0

0

0

1

1

1

A8

0

0

1

1

0

0

0

0

0

0

0

0

0

Źródło: własny przykład

background image

- 43 -

Rysunek 2.6 Mapa analizy korespondencji dla przykładu z tabela 2.24 z widoczną formacją łuku

- 44 -

3. Postrzeganie, kategoryzacja, podobieństwo, przestrzenie

konceptualne, mapy percepcyjne

W pierwszej części tego rozdziału zamierzam przedstawić kilka teorii

wyjaśniających ludzkie procesy postrzegania i kategoryzowania obiektów z otaczającego

świata. Następnie przedstawię teorię przestrzeni konceptualnych Petera Gärdenforsa.

Swoistą wypadkową tego teoretycznego wprowadzenia z dziedziny psychologii

kognitywnej jest koncepcja map percepcyjnych, nieuświadamianych konstruktów, przy

pomocy których ludzie dokonują kategoryzacji. Całość posłuży mi za podbudowę

teoretyczną dla aplikacji analizy korespondencji przy konstruowaniu takich map. Postaram

się sprawdzić, czy posługując się tą techniką analizy danych, można sensownie

reprezentować mapy percepcyjne, biorąc za podstawę kwestionariusz składający się z serii

pytań o to, w jakim stopniu pewne obiekty posiadają poszczególne cechy.

Moim celem jest pokazanie, że redukcja wymiarów, jaka dokonuje się dzięki

algorytmowi

wykorzystywanemu

w analizie

korespondencji,

odpowiadać

może

mechanizmowi kognitywnemu, za pomocą którego umysł ludzki kategoryzuje przedmioty

z otaczającego świata, uznając jedne za bardziej podobne do innych.

Jestem zdania, że teoria przestrzeni koncepcyjnych oraz teoria schematów

poznawczych mogą skutecznie pomagać intuicji socjologicznej i psychologicznej badacza

w interpretacji map uzyskiwanych przy pomocy analizy korespondencji.


3.1. Kategoryzacja

Do organizowania naszej wiedzy o otaczającym nas świecie służy tzw. pamięć

semantyczna. W odróżnieniu od pamięci epizodycznej, która zawiera informacje

o zdarzeniach, w których braliśmy udział, pamięć semantyczna zawiera wiedzę

i informacje. Psychologowie używają tego terminu w o wiele szerszym zakresie, niżby to

implikował przymiotnik „semantyczny”. I tak, do pamięci semantycznej zalicza się m.in.

wiedzę encyklopedyczną (np. o tym, że Fryderyk Chopin urodził się w Żelazowej Woli).

Ponadto zawiera wiedzę leksykalną lub językową (np. taką, że słowo śnieg jest pokrewne

słowu deszcz) oraz wiedzę koncepcyjną (np. taką, że kwadrat ma cztery boki). Badania

dowodzą, że pamięć semantyczna bierze udział w większości naszej aktywności

background image

- 45 -

poznawczej – używamy jej do ustalania lokalizacji, czytania zdań, rozwiązywania

problemów i podejmowania decyzji (Matlin, 2005: 248).

Kategorie i pojęcia to podstawowe komponenty pamięci semantycznej. Aby nadać

sens naszej wiedzy o otoczeniu, konieczne jest podzielenie obiektów z tego otoczenia na

kategorie. Kategoria jest klasą obiektów, które razem do niej należą. Psychologowie

używają terminu „pojęcie”, by odnieść się do naszych mentalnych reprezentacji kategorii.

W swojej pracy Principles of categorization Eleanor Rosch (1978) twierdzi, że

proces dokonywania kategoryzacji przez ludzi nie powinien być traktowany jako arbitralny

produkt historycznego przypadku, czy też jakiegoś kaprysu. Proces ten powinien być

raczej traktowany jako wynik psychologicznych zasad kategoryzacji. Rosch wyróżnia dwie

podstawowe zasady kategoryzacji. Są to: ekonomia kognitywna oraz dostrzegalna

struktura świata. Pierwsza z zasad zawiera prawie zdroworozsądkowe przekonanie, że

organizm żywy, obserwując otoczenie, powinien przy jak najmniejszym wysiłku

poznawczym starać się uzyskiwać jak najwięcej informacji. Druga zasada mówi o tym, że

świat postrzegany nie jest przypadkowym zestawem obiektów, które posiadają własności

arbitralnie lub losowo przypisane. Oznacza to, że istnieje jakaś struktura, jakiś porządek,

dzięki któremu można sensownie dokonywać kategoryzacji takich, przy pomocy których

można w miarę wiernie odtwarzać ten porządek.

Pamięć semantyczna pozwala nam umieszczać poszczególne obiekty w obrębie

odpowiednich pojęć. Jak jednak dokonywany jest przez nas osąd o podobieństwie? Istnieją

cztery podejścia do tego problemu: model porównywania własności, podejście

prototypowe, podejście wzorcowe oraz model sieciowy.


3.1.1. Model porównywania własności

Według modelu porównywania własności (ang. feature comparison model) pojęcia

składowane są w pamięci według listy koniecznych cech. Ludzie posługują się procesem

decyzyjnym w celu ustalenia sądów dotyczących tych pojęć. Podejście to uzasadnia efekt

typowości. Jednakże badania nie pozwalają na podtrzymanie tezy, że podstawą sądów

o przynależności do kategorii jest posiadanie niezbędnych cech. Innym problemem,

którego nie rozwiązuje to podejście, jest założenie o niezależności pomiędzy

pojedynczymi cechami. W rzeczywistości wiele cech jest skorelowanych ze sobą

względem różnych pojęć. Na przykład jest bardzo mało prawdopodobne, że obiekt, który

- 46 -

ma liście, będzie miał także futro. Z drugiej strony jest bardzo prawdopodobne, że obiekty

posiadające futro będą także posiadać łapy.


3.1.2. Podejście prototypowe

Rysunek 3.1 Dwa wymiary postrzegania ptaków: prototypowość i hierarchiczność

W podejściu prototypowym podobieństwo między obiektami nie jest ustalane na

podstawie porównania tych dwóch obiektów, ale na podstawie porównania każdego z tych

obiektów do wyidealizowanego obiektu, który jest reprezentantem dla danej kategorii.

W koncepcji schematów poznawczych wyjaśniającej sposób organizacji naszej

wiedzy o otoczeniu prototypowość, obok hierarchiczności, do jedna z dwóch

uniwersalnych zasad, na których opiera się budowa schematu poznawczego. Schemat

poznawczy to organizacja uprzednich doświadczeń z jakimś rodzajem zdarzeń, osób czy

obiektów. Schematy z reguły zawierają nie wszystkie wiadomości na temat danego

fragmentu rzeczywistości, lecz odwołują się do wiedzy uogólnionej, wyabstrahowanej

z konkretnych doświadczeń (Strelau, 2000: 28).

hi

er

ar

ch

ic

zn

oś

ć

prototypowość

Egzemplarz jednostkowy

Klasa obiektów

rudzik

pingwin

ptaki

drozdowate

B

lis

k

i

p

ro

to

ty

p

u

D

al

ek

i o

d

p

ro

to

ty

p

u

background image

- 47 -

Zgodnie z zasadą prototypowości na dowolny schemat składają się:

 zmienne charakteryzujące egzemplarze schematu (aspekty, w jakich

egzemplarze są opisywane)

 typowe relacje występujące między zmiennymi

 prototyp, czyli zbiór najbardziej typowych wartości przybieranych przez

schematy pod względem tych zmiennych.

Wymiar poziomy – prototypowość schematów – ujawnia nowy sposób myślenia

o reprezentacji kategorii lub klasy. Reprezentacją jest zbiór cech definicyjnych, tj. cech,

które charakteryzują wszystkie egzemplarze należące do danej klasy. Reprezentacja

uosabiana jest przez prototypy, czyli jednostki bardziej reprezentatywne dla danej kategorii

niż inne.

Prototypy to najczystsze wypadki przynależności kategorialnej (Rosch, 1978),

a więc prototypem nazywamy taki egzemplarz, który jest najbardziej typowy. Rudzik, na

przykład, jest uważany za bardziej reprezentatywny gatunek dla kategorii „ptaki” niż kruk,

pingwin czy struś emu.

Pojawia się w tym miejscu pytanie: co to znaczy, że dany egzemplarz jest

najbardziej typowy? Jaką miarę „największego stopnia typowości” zastosować

w przypadku, gdy pytamy respondentów np. o to, jakie cechy i w jakim stopniu powinien

posiadać ptak? Wszyscy zapewne zgodzą się co do tego, że powinien mieć dwa skrzydła,

dwie nogi, dziób itd. Jednakże takie własności jak wielkość prototypowego ptaka, kształt

sylwetki, kolor itp. będą tworzyć w badanej populacji podziały. W rezultacie podobnej

ankiety powinniśmy otrzymać wizerunek prototypowego ptaka. Możliwe jest wtedy, że ten

wizerunek będzie się dokładnie pokrywał ze wspomnianym już rudzikiem. Jednakże

istnieje też możliwość, że prototyp jakiejś klasy obiektów nie będzie miał swojego

odpowiednika w świecie rzeczywistym. Popularna lalka Barbie, będąca projekcją

prototypu pięknej dziewczyny, nie ma swojego odpowiednika wśród kobiet – proporcje

lalki Barbie są bowiem nienaturalne. Hipotetyczna (trzeba tego słowa w tym miejscu użyć)

kobieta, która miałaby mieć zachowane proporcje lalki Barbie, musiałaby mieć 84 cm

w obwodzie bioder, 46 cm w talii i 80 cm obwodu biustu, przy wzroście 175 cm

(Pęczak, 2003).

Wymiar poziomy schematów poznawczych odnosić się będzie do dystansu

ocenianych obiektów do prototypów respondenta. Możemy przyjąć założenie, że ludzie

należący do tych samych grup społecznych, a więc tacy, którzy są podobni do siebie ze

- 48 -

względu na procesy socjalizacji, będą posiadali bardzo podobne prototypy różnych

obiektów. Oznacza to, że będą oni podobnie postrzegać różne przedmioty, ponieważ będą

one znajdować się w podobnej odległości (w sensie przestrzeni konceptualnych) do

odpowiednich prototypów. Ciekawym przykładem uwspólniania różnych prototypów

w zależności od kultury może być ideał piękna kobiety funkcjonujący w różnych

kulturach. Na przykład w kulturze kreteńskiej najważniejsze były kształtne piersi,

w Indiach – obfity biust i pośladki, w Chinach – małe stopy; w Japonii mężczyźni cenią

piękne włosy, okrągłą twarz i szerokie biodra; natomiast Syryjczycy, Maurowie i Żydzi

z Tunisu cenili otyłość (Lew-Starowicz, 1999).

Gärdenfors uważa, że teoria prototypów może być użyta do dostarczenia

rozsądnego wyjaśnienia pojęcia podobieństwa, które jest ściśle związane z pojęciem

własności. Quine argumentuje, że „rodzaj naturalny” (odpowiadający „własności

naturalnej”) można definiować, posługując się pojęciem podobieństwa:

[Rodzaj to] zbiór, który jest „jakościowo sferyczny”, w tym sensie, że ta sfera

zawiera przedmioty różniące się mniej niż jakaś ustalona wartość od normy

centralnej. Jeżeli bez jakiejś poważnej straty celności można założyć, że istnieje

jeden lub kilka właściwych obiektów (przypadków paradygmatycznch), które

dobrze egzemplifikują pożądaną normę oraz jeden lub więcej przedmiotów

(przypadków kontrastowych), które się zbyt różnią od normy, aby być

zaliczonymi do rodzaju, wtedy definicja jest prosta: rodzaj z przypadkiem

paradygmatycznym a i przypadkiem kontrastowym b to zbiór wszystkich

obiektów, do których bardziej podobne jest a, niż a jest podobne do b

8

.

Wartości, jakie mogą przyjmować kolejne zmienne, są zróżnicowane pod

względem stopnia typowości. Schematy stanowią bardzo bogate struktury informacyjne,

ponieważ ich zastosowanie pozwala na wyciąganie licznych wniosków. Na podstawie

rozpoznania obiektu czy zdarzenia jako egzemplarza jakiegoś schematu jesteśmy w stanie

wywnioskować wiele jego (prototypowych) właściwości, nawet jeżeli ich nie

zaobserwowaliśmy. Natomiast na podstawie zaobserwowania konkretnej wartości jednej

zmiennej jesteśmy w stanie przewidzieć, jakie wartości dany egzemplarz schematu

przyjmie pod względem innych zmiennych.

8

Quine, cyt. za: Gärdenfors (2000: 85-86).

background image

- 49 -

Jedną z zalet podejścia prototypowego jest to, że uzasadnia ono zdolność do

tworzenia pojęć dla grup, które nie są ściśle ustrukturyzowane. Dzięki temu możliwe jest

na przykład stworzenie pojęcia dla elementów, które łączy zaledwie podobieństwo

rodzinne, jak to jest w przypadku pojęcia „gra”. Modele prototypowe są szczególnie

przydatne, gdy nie istnieje taka własność, którą by posiadały wszystkie elementy kategorii.

***

Drugą, obok prototypowości, cechą schematów poznawczych jest ich

hierarchiczność. Dotyczy relacji między egzemplarzami lub podkategoriami na różnych

poziomach ogólności. Odnosić się będzie do poziomu kompetencji respondenta.

Respondent bardziej kompetentny będzie w stanie wyróżnić więcej podkategorii, ponieważ

postrzega obiekty na większej liczbie wymiarów.

Istotne jest rozróżnienie między uogólnioną wiedzą na temat pewnych rodzajów

obiektów a wiedzą o konkretnych zdarzeniach. Ogólnie rzecz biorąc, obowiązuje zasada,

że im lepiej wykształcony jest jakiś schemat, tym bardziej jego zawartość jest

wyabstrahowana z wiedzy o konkretnych egzemplarzach, natomiast im słabiej

wykształcony jest schemat, tym większą rolę w jego reprezentacji odgrywają wiadomości

o pojedynczych egzemplarzach (Strelau, 2000: 29). Ludzie, którzy obcują z jakąś klasą

zjawisk czy obiektów często (np. zajmują się nimi zawodowo lub są np. pasjonatami),

posiadają dużo większą wiedzę na ich temat, bogatsze schematy poznawcze wobec tych

zjawisk, postrzegają je w bardziej złożonej przestrzeni wymiarów niż ludzie, którzy ledwie

się z nimi zetknęli.

Na przykład, co mogą powiedzieć o winach ludzie, którzy kompletnie nie znają się

na tym rodzaju trunku? Zapewne będą mogli poklasyfikować wina „kolorami”: wina są

czerwone, białe i różowe. Osoba, która wie trochę więcej na ten temat, będzie, być może,

jeszcze potrafiła wyróżnić najprostsze kontinuum smakowe: od wytrawnych do słodkich.

Natomiast przestrzeń, na jakiej postrzega wina zawodowy sommelier, będzie o wiele

bardziej złożona. Jego wiedza jest oparta na bogatym bagażu doświadczeń z przeróżnymi

gatunkami win. Oprócz tych dwu najbardziej podstawowych wymiarów, tj. koloru

i smaku, jest w stanie rozróżnić poszczególne nuty smakowe i zapachowe w bukiecie,

klarowność; w skrajnych przypadkach wysokiej klasy profesjonalizmu będzie w stanie

rozróżnić szczep winorośli, region uprawy, rocznik, z którego pochodzi; powie, z jaką

- 50 -

potrawą będzie najlepiej konweniować; wreszcie – last but not least – będzie w stanie

ocenić, czy wino jest dobre, czy nie.

Wyabstrahowanie wiedzy od poszczególnych egzemplarzy w tym przypadku

polega na zdolności przewidzenia jakości butelek wina, których jeszcze nie próbował.

Sommelier, dzięki swojej wiedzy, potrafi dokładniej porównywać wina. Dla laika

bordeaux i burgund będą po prostu czerwonymi winami, natomiast specjalista będzie

w stanie z zamkniętymi oczami odróżnić te dwa gatunki, bowiem dostrzeże specyficzne

dla win bordeaux cechy, których nie posiadają burgundy.

3.1.3. Podejście wzorcowe

W podejściu wzorcowym (ang. exemplar approach) uznaje się, że na początku

poznajemy konkretne przykłady pojęcia – jego realizacje w świecie rzeczywistym,

a następnie klasyfikujemy każdy nowy bodziec, osądzając, jak jest on bliski tym poznanym

przez nas wzorcom. W tym względzie podejście to jest podobne do podejścia

prototypowego. Różnica polega na tym, że tutaj nie zakłada się potrzeby abstrahowania

własności z rzeczywistych obiektów – nie potrzebna jest żadna lista własności

charakterystycznych dla danego pojęcia, ponieważ cała niezbędna informacja zawiera się

w już zapamiętanych wzorcach. Jest to sprzeczne z jedną z zasad zaproponowanych przez

Eleonor Rosch, mianowicie zasadą ekonomii kognitywnej. Wadą tej koncepcji jest to, że

nasza pamięć szybko by się wyczerpała, gdybyśmy mieli przechowywać w niej wzorce dla

każdej kategorii. Wyjściem z tego może być stosowanie zasady wzorców jedynie dla tych

kategorii, które posiadają nielicznych członków, np. dla „owoców tropikalnych”.

Wydaje się zatem, że podejście wzorcowe jest po prostu li tylko szczególnym

przypadkiem podejścia prototypowego, tj. obejmuje te przypadki kategoryzacji, w których

prototypy są rzeczywistymi obiektami. W takich przypadkach jest być może bardziej

ekonomiczne nie wydatkować energii na abstrahowanie i tworzenie bardziej złożonych

konstruktów w naszym umyśle. Prototypem staje się rzeczywisty egzemplarz. Natomiast

w przypadku bardziej złożonych kategorii bardziej ekonomiczne może być właśnie

abstrahowanie i swoista agregacja własności różnych elementów należących do kategorii.


background image

- 51 -

3.1.4. Podejście sieciowe

Podejście sieciowe (ang. network models) abstrahuje od kategoryzacji, skupiając się

raczej na połączeniach pomiędzy elementami. W tym podejściu każdemu elementowi (na

przykład każdemu wyrazowi w zdaniu) przypisywany jest wierzchołek w sieci

semantycznej. Każdy element jest połączony z innymi elementami, do których można

dotrzeć poprzez ciągi skojarzeń. W tym podejściu efekt typowości wyjaśnić można

poprzez siłę danego wierzchołka (oznaczaną przez jego stopień, czyli liczbę krawędzi,

które do niego prowadzą). Takie wierzchołki odpowiadające obiektom typowym są

częściej aktywowane w pracy mózgu.

***

Przedstawione zostały cztery podejścia do problemu kategoryzowania obiektów

przez ludzi. Wydaje mi się, że pierwsze trzy były w pewnym sensie odmiennymi

sposobami konceptualizacji tego samego procesu kognitywnego – przypisywaniu

ocenianym obiektom własności. W pierwszym podejściu – modelu porównywania

własności – ograniczono się jedynie do konstatacji, że obiekty posiadają pewne własności

i że zbiory własności dla ocenianych obiektów są porównywane. W ten sposób obiekty są

uznawane za tożsame, gdy zbiory ich własności są tożsame. W podejściu prototypowym

wprowadzone

jest

pojęcie

obiektu

prototypowego,

który

jest

konstruktem

wyabstrahowanym na podstawie obiektów doświadczonych w świecie rzeczywistym.

Proces porównywania dwóch przedmiotów jest wtedy w pewnym sensie rozbity na

oddzielne kroki polegające na porównywaniu badanych obiektów do prototypu danej

kategorii. Takie postępowanie ma tę zaletę, że spełnia zasadę ekonomii kognitywnej,

bowiem zamiast przechowywać informacje o wszystkich egzemplarzach z danej kategorii

przechowywana jest jedynie informacja o prototypach, co pozwala „zaoszczędzić” pamięć.

Podejście wzorcowe zdaje się być, jak już pisałem, jedynie szczególnym przypadkiem

podejścia prototypowego.

Niniejsze podsumowanie ograniczyłem jedynie do tych trzech, ponieważ biorą one

pod uwagę posiadanie przez obiekty własności, a jest to kluczowy aspekt ze względu na

dalszy ciąg mojego wywodu.


- 52 -

3.2. Własności

Jak już zostało powiedziane, ludzie postrzegają różne zjawiska, pojęcia, przedmioty

w ramach rozmaitych klas podobieństwa. Przydzielanie obiektów do odpowiednich klas

podobieństwa może następować na drodze przyporządkowywania im pewnych atrybutów,

inaczej – własności. Umiejętność stwierdzenia, że jakiś obiekt posiada jakąś własność jest,

można powiedzieć, centralną cechą naszych mechanizmów poznawczych. Pozwala nam

ona bowiem uporządkować informację przychodzącą do nas poprzez nasze zmysły

z otaczającego nas świata, skategoryzować przedmioty, z którymi się stykamy, i odsiać

informację niepotrzebną (Gärdenfors, 2000: 59). Wiedza o pojęciu, przedmiocie, oznacza

m.in. zdolność do znajdywania niezmienności w obrębie kontekstów i do reifikacji tej

niezmienności, tak że może ona być połączona z innymi odpowiednimi niezmiennikami

(Kirsch, 1991: 161-184).

W swojej książce pt.: Conceptual Spaces. The Geometry of Thought Peter

Gärdenfors przekonuje, że teoria przestrzeni koncepcyjnych jest znakomitą podbudową

teoretyczną do „reifikacji” owych niezmienności, która to czynność wiąże się właśnie

z przyporządkowywaniem obiektom pewnych własności.

Pojęcie to idea, która charakteryzuje zestaw lub kategorię obiektów. Atrybut to coś,

co może być wspólne dla grupy obiektów. Jeśli dwa obiekty posiadają tę samą własność,

są w pewnym sensie takie same. Istnieje zatem ścisłe połączenie pomiędzy podobieństwem

i posiadaniem własności.

Sami możemy dostrzec, czy jakiś obiekt posiada daną własność, czy nie. Jesteśmy

także w stanie powiedzieć, czy dwa lub więcej obiektów posiadają pewną własność

(zestaw własności); a także potrafimy wyróżnić kilka własności, które posiada jakiś obiekt.

W tym miejscu zamierzam skoncentrować się na tym, czym są własności i jak to

pojęcie było konceptualizowane w logice, filozofii oraz psychologii kognitywnej. Zacznę

od przedstawienia dwóch podstawowych programów semantycznych – ekstensjonalnego

i intensjonalnego, przy pomocy których próbowano podejść do problemu własności.

Następnie zaprezentuję teorię przestrzeni konceptualnych Petera Gärdenforsa,

z perspektywy której próbuje on zmierzyć się z określeniem, czym są własności. Powyższy

wywód ma na celu zbudowanie podłoża teoretycznego dla zastosowań analizy

korespondencji w konstruowaniu map percepcyjnych.

background image

- 53 -

***

W logice własności były dotąd analizowane jako część bardziej ogólnych

programów

semantycznych

intensjonalnego

i ekstensjonalnego.

W klasycznej

ekstensjonalnej semantyce Tarskiego własność jest definiowana jako zestaw obiektów,

które tę własność posiadają. Można to zrobić odwzorowując język L w model M i każdy

jednoargumentowy predykat w L w pewien podzbiór obiektów należących do M. W ten

sposób zielony jest definiowany poprzez wszystkie zielone przedmioty.

Jednakże logicy i semantycy zdali sobie sprawę, że tzw. własności intensjonalne

nie pasują do tej ekstensjonalnej definicji własności. Typowym przykładem może być

własność „ciężki” – ratlerek jest psem, ale ciężki ratlerek w żadnym wypadku nie może

być zaliczony do ciężkich psów.

W semantyce intensjonalnej, którą stworzono, żeby zaradzić podobnym

problemom, język jest odwzorowywany w zbiór światów możliwych. Owe światy oraz

zbiory przedmiotów w nich się znajdujących stanowią jedyny zbiór elementarnych pojęć

teorii. Wszystkie inne pojęcia semantyczne są definiowane jako funkcje od przedmiotów

i możliwych światów. Znaczenie zdań identyfikowane jest poprzez określanie, kiedy to

zdanie jest prawdziwe, a kiedy jest fałszywe. W tym intensjonalnym programie

semantycznym własność to coś, co łączy obiekty z możliwymi światami. Formalnie rzecz

biorąc własność może być zatem widziana jako „many-many relation” pomiędzy

obiektami (o) i możliwymi światami (w) taka, że oPw jest prawdą wtedy i tylko wtedy,

kiedy obiekt o ma własność w świecie w.

Powszechnym zarzutem w stosunku do programu semantyki intensjonalnej jest

fakt, że pewne jednostki lingwistyczne – w szczególności pytania i polecenia – są

„odporne” na takie postępowanie. Gärdenfors dodatkowo zarzuca definicji własności

w intensjonalnej semantyce nieintuicyjność, która czyni własności bytami bardzo

abstrakcyjnymi (Gärdenfors, 2000: 62).

Poza tym – argumentuje Gärdenfors – jeszcze większym problemem zdaje się

trudność w wyjaśnieniu wnioskowania indukcyjnego, które – ogólnie rzecz biorąc – polega

na łączeniu własności ze sobą, dokładnie tak, jak to się dzieje, gdy twierdzimy, że

wszystkie żywe organizmy posiadają chromosomy. Owo łączenie jest dokonywane na

podstawie pewnej liczby przypadków, które legitymują się odpowiednią własnością. Jeśli

natomiast własność jest definiowana jako funkcja ze zbioru możliwych światów do zbioru

obiektów, wtedy żeby określić, które własności są obrazowane przez poszczególne obiekty

- 54 -

(lub zbiory obiektów), trzeba określić, które funkcje posiadają dany obiekt (lub zbiór

obiektów) jako wartość w konkretnym świecie (Gärdenfors, 2000: 63).

R. Stalnaker (cyt. za: Gärdenfors, 2000: 64) zwrócił uwagę jeszcze na trzeci

problem, który pojawia się przy definiowaniu własności jako abstrakcyjnych funkcji

w semantyce

intensjonalnej

jest

nim

trudność

z wyrażaniem

doktryny

antyesencjalistycznej. Antyesencjalizm to orientacja, wedle której rzeczy nie posiadają

żadnej ze swych własności koniecznie. Stalnaker uważa, że to czego brakuje standardowej

semantyce, to podejście do własności, które definiowałoby je niezależnie od możliwych

światów i indywiduów. Własność – kontynuuje – musi być nie tylko zasadą, która grupuje

indywidua, ale także cechą indywiduów, na mocy której można je grupować.

Ostatni problem z funkcjonalną intensjonalną definicją własności jest według

Gärdenforsa najpoważniejszy. H. Putnam (cyt. za: Gärdenfors, 2000: 65) wykazał, że

standardowa teoretyczna definicja „własności”, która została tu przedstawiona, nie działa

jako teoria znaczenia własności. Putnam dowodził tego przy użyciu dwóch założeń co do

„otrzymanego spojrzenia” na znaczenie: (1) znaczenie zdania jest funkcją, która przypisuje

wartość logiczną do zdania w każdym z możliwych światów; (2) znaczenie części zdania

nie może być zmienione bez zmiany znaczenia całego zdania. Dowód techniczny Putnam

przedstawia formułując dwa zdania:

(1) Kot siedzi na macie

(2) Kot* siedzi na macie*

Następnie wprowadza definicje terminów kot* i mata*. Do tego celu

potrzebne jest mu sformułowanie pomocniczych definicji następujących sytuacji:

Sytuacja (a): Jakiś kot siedzi na macie i jakieś wiśnie są na drzewie

Sytuacja (b): Jakiś kot siedzi na macie i nie ma żadnych wiśni na drzewie

Sytuacja (c): Nie zachodzi ani (a), ani (b)

A oto wprowadzone definicje terminów kot* i mata*:

X jest kotem* wtedy i tylko wtedy, gdy zachodzi (a) i x jest wiśnią lub zachodzi (b)

i x jest kotem lub zachodzi (c) i x jest kwarkiem.

X jest matą* wtedy i tylko wtedy, gdy zachodzi (a) i x jest drzewem lub zachodzi

(b) i x jest matą, lub zachodzi (c) i x jest kwarkiem.

Na podstawie przyjętych definicji Putnam wykazuje, że zdanie (1) ma te same

warunki prawdziwości co (2) (jest prawdziwe w tych samych światach możliwych). Na

podstawie powyższego rozumowania Putnam dochodzi do wniosku, że semantyka światów

background image

- 55 -

możliwych jest ontologicznie „zbyt rozrzutna”, czyli przyjmuje zbyt wiele własności

(Piłat, 2002).

***

Gärdenfors, przedstawiwszy argumenty przeciwko intensjonalnej definicji pojęcia

własności, proponuje własną koncepcję – koncepcję przestrzeni konceptualnych,

zaznaczając wszakże, że nie ma być ona opisem wszystkich możliwych rodzajów

własności.

Stanowisko

Gärdenforsa

jest

odmianą

fizykalizmu,

wzbogaconego

o abstrakcyjne wymiary jakości pozwalające przedstawiać własności wyższych rzędów

jako miejsca w przestrzeniach, których współrzędne są osiami, na których odwzorowane są

własności rzędu niższego, do własności fizycznych włącznie (Piłat, 2002).

Przestrzenie te definiuje Gärdenfors jako klasę wymiarów jakości D

1

, ... , D

n

. Punkt

w przestrzeni jest reprezentowany przez wektor v = <d

1

, ... , d

n

> z indeksem na każdy

wymiar. Każdy z wymiarów jest obdarzony pewną geometryczną lub topologiczną

strukturą. Autor postuluje, żeby własność w takiej przestrzeni konceptualnej była

reprezentowana poprzez region przestrzeni S. Region miałby być rozumiany jako byt

w przestrzeni określony przez topologię lub geometrię przestrzeni S. W ten sposób punkt

na wymiarze czas określający „teraz” dzieliłby ten wymiar na dwie części. Podobnie

będzie z punktem oznaczającym „średni” na wymiarze wielkość – będzie się on plasował

gdzieś po środku pomiędzy dwoma ekstremami: „małym” i „dużym”.

„Wygląd” czy też topologia wymiaru, na którym można postrzegać pewne obiekty,

zdaje się różnić w zależności od kultury. Takim najbardziej jaskrawym przykładem jest

czas, który w kulturze Zachodu postrzegany jest jako kontinuum ciągnące się od

przeszłości do przyszłości. Konsekwencją takiego postrzegania czasu jest przeświadczenie,

że coś, co przeminęło, już nie wróci – z każdą chwilą oddalamy się w ten sposób od

przeszłości. Istnieją natomiast kultury, dla których czas posiada kształt koła, a więc

podążając w przyszłość, zbliżamy się jednocześnie do przeszłości.

***

Gärdenfors formułuje tzw. kryterium P, wedle którego własnością naturalną jest

wypukły obszar domeny w przestrzeniu konceptualnej (Gärdenfors, 2000: 71). Obszar F

jest wypukły wtedy i tylko wtedy, gdy punkt leżący pomiędzy dwoma innymi punktami

- 56 -

należącymi do F także należy do F. Uważa się, że ta własność obszaru przestrzeni

konceptualnej była bardziej adaptatywna i dobór naturalny preferował jednostki

posługujące się wypukłymi obszarami przestrzeni konceptualnych. Gärdenfors wskazuje,

że ta wypukłość jest korzystna ze względu na swoistą ekonomię kognitywną –

posługiwanie się wypukłymi regionami wymaga od pamięci mniej wysiłku podczas

uczenia się i w konsekwencji zwiększa potencjał przetwarzania informacji z otoczenia

(Gärdenfors, 2000: 70).

Kryterium P ma pewną bardzo ważną cechę ze względu na zasadniczy cel

niniejszej pracy. Jak zauważa Gärdenfors – nie wymaga ono istnienia ostrych granic

pomiędzy własnościami. Dzięki temu można je zastosować także do własności

„niewyraźnych” lub takich, które określone są jedynie w probabilistyczny sposób. Wtedy

wypukłość wymaga, aby dwie lokalizacje obiektów x

1

i x

2

spełniały pewne kryterium

przynależności, na przykład miały pewien stopień (lub prawdopodobieństwo)

przynależności. Wtedy wszystkie obiekty znajdujące się pomiędzy x

1

i x

2

także będą

spełniały to kryterium (Gärdenfors, 2000: 71).

Należy wszakże zaznaczyć, że taka definicja wypukłości nie jest uniwersalna.

Znajduje zastosowanie jedynie przy pewnym założeniu o kształcie przestrzeni oraz

metryce używanej do jej wymierzania. Tak więc ze względu na fakt, że wymiar opisujący

barwy ma kształt koła, jest bardziej naturalne, aby używać współrzędnych polarnych do

opisu pozycji obiektów w tej przestrzeni.

***

Alfred Schutz (1984: 144) zwraca uwagę na pewien istotny aspekt własności, które

mogą posiadać obiekty. Rozróżnia takie własności, które są typowe dla danego obiektu,

i takie, które są indywidualne.

Żyjąc w granicach nastawienia naturalnego w codziennym życiu zajmujemy się

tylko pewnymi obiektami odcinającymi się od niekwestionowanego tła innych

predoświadczonych obiektów. Rezultatem selekcjonującej działalności naszego

umysłu jest określenie, które z właściwych tym obiektom cech są indywidualne,

a które typowe. Mówiąc bardziej ogólnie, zajmujemy się zaledwie pewnymi

aspektami poszczególnych typizowanych już obiektów. Twierdzenie, że obiekt S

posiada charakterystyczną własność p, wyrażone w postaci „S jest p”, jest

wyrażeniem eliptycznym. Bo S, bez wyjaśniającego pytania, jak jest mi on

dany, jest nie tylko p, ale także q i jeszcze czymś innym. Pełne twierdzenie

background image

- 57 -

powinno głosić: „S jest, obok bycia q, także p”. Jeżeli twierdzęS jest p

w stosunku do pewnego elementu świata traktowanego jako sam przez się

zrozumiały, to robię tak dlatego, że w większości wypadków jestem

zainteresowany p-owością S i nie biorę pod uwagę jako nieistotnego jego bycia

q-owością.

Z kolei Lawrence W. Barsalou proponuje rozróżnianie własności, jakie mogą

posiadać obiekty, na takie, które są niezależne od kontekstu, i na takie, które od kontekstu

zależą (Barsalou, 1982: 82–93). Niektóre własności – pisze Barsalou – wydają się

przychodzić na myśl przy każdej okazji. Dla przykładu wyraz „skunks” zwykle przywodzi

na myśl własność „cuchnący”, a wyraz „grzechotnik” – „trujący”. Natomiast są takie

pojęcia, które wymagają podania kontekstu, aby przywieść na myśl odpowiednią własność.

Na przykład „piłka do koszykówki” raczej rzadko kojarzona jest z własnością „nie tonie”.

Jednakże gdy podany zostanie kontekst w postaci następującego zdania: „Krzysztof użył X

do ratowania się, gdy łódź zatonęła”, jeśli pod X podstawimy „piłkę do koszykówki”,

wtedy własność „nie tonie” od razu nasunie się na myśl.

Własności niezależne od kontekstu (ang. context-independent properties) stanowią

jądro znaczeniowe pojęć, ponieważ są „aktywowane” za każdym razem, gdy stykamy się

z pojęciem, niezależnie od kontekstu, w jakim się z nim stykamy.

Własności zależne od kontekstu (ang. context-dependent properties) stanowią zaś

źródło semantycznego kodowania zmienności. Mogą one być reprezentowane przez

pojęcie, ale zazwyczaj nie są one aktywowane podczas kodowania odpowiedniego słowa.

Własności te są raczej aktywowane przez odpowiedni kontekst, w którym dane słowo się

pojawia.


3.3. Obiekty i podobieństwo

Językowo rzecz biorąc, własnościom (atrybutom) odpowiadają przymiotniki,

natomiast pojęciom – rzeczowniki. Główną semantyczną różnicą pomiędzy rzeczownikami

i przymiotnikami jest taka, że przymiotniki, takie jak „czerwony”, „wysoki”, „okrągły”,

zwykle odnoszą się do pojedynczej domeny (w sensie przestrzeni konceptualnych),

reprezentując w ten sposób własności, podczas gdy rzeczowniki, takie jak „pies”, „jabłko”,

„miasto”, najczęściej zawierają informację na temat wielu domen, reprezentując tym

- 58 -

samym pojęcia (Gärdenfors, 2000: 101). Można zatem powiedzieć, że pojęcia, obiekty czy

przedmioty to byty, które znajdują się w wielowymiarowej przestrzeni na przecięciu

określonych wartości, jakie przyjmują dla każdego wymiaru tej przestrzeni. Nie jest tak, że

zestaw własności opisujący pojęcie, a więc liczba wymiarów, na których jest

reprezentowany w naszych umysłach, jest zamknięty. Wręcz przeciwnie – w miarę jak

poznajemy dane pojęcie, uczymy się też nowych jego aspektów. Kiedy pierwszy raz

dziecko widzi jabłko, pierwszymi wymiarami, jakie poznaje są zapewne: kolor, kształt,

tekstura oraz smak. W dalszej kolejności poznaje inne – a więc: fakt, że jest to owoc,

poznaje wartość odżywczą jabłka i prawdopodobnie jeszcze wiele innych wymiarów

(Gärdenfors, 2000: 102).

Kiedy w reprezentację jakiegoś pojęcia zaangażowanych jest wiele wymiarów,

konieczne jest istnienie jakiejś zasady, która pozwala w pewien sposób ważyć każdy z tych

wymiarów w zależności od istotności tych wymiarów. Waga poszczególnych wymiarów

musi być zależna od kontekstu, w jakim dane pojęcie znajduje się w danym momencie. Na

przykład, kiedy jemy jabłko, to jego smak wydaje się najistotniejszym wymiarem, podczas

gdy w sytuacji, kiedy używamy jabłka jako piłki, bawiąc się z dzieckiem, to kształt jabłka

staje się najbardziej istotny (Gärdenfors, 2000: 103).

Kontekst jest bardzo istotny przy porównywaniu obiektów. Dwa na pozór

kompletnie niepodobne do siebie obiekty mogą nabrać cech podobieństwa, gdy narzuci się

określony kontekst. Na przykład wspomniana już piłka do koszykówki i tratwa ratunkowa

nie będą uznawane za podobne dopóty, dopóki nie nada się odpowiedniego kontekstu, np.:

„rzeczy, które nie toną” lub „rzeczy zrobione z gumy”.

Nelson Goodman (1972) uważa, że zdanie „X jest podobne do Y” nie oznacza nic,

dopóki nie zostanie wyspecyfikowany kontekst poprzez uszczegółowienie zdania

w następujący sposób: „X jest podobne do Y w odniesieniu do własności Z”.

Poza kontekstem na wagi wymiarów, na których reprezentowany jest w naszych

umysłach

oceniany

obiekt,

wpływają

także

nasza

wiedza

i zainteresowania

(Gärdenfors, 2000: 104). W ten sposób zupełnie inną wagę będzie miał smak wina dla

sommeliera posiadającego bardzo złożoną przestrzeń reprezentacji mentalnej win i dla

człowieka, który ma rzadki kontakt z winem. Pierwszy ocenia wino pod wieloma innymi

niż smak względami, a więc waga smaku będzie relatywnie mniejsza. Dla drugiego

natomiast to smak zdominuje wrażenia podczas degustacji.

Przeważanie wymiarów objawia się także m.in. wtedy, gdy mówimy, że patrzymy

na coś z pewnej perspektywy. Patrząc z pewnej perspektywy, nadajemy dominującemu

background image

- 59 -

w tej perspektywie aspektowi największą wagę, a to wpływa na naszą ocenę pod

względem innych aspektów. W ten sposób, kiedy myślimy o pianinie w kontekście mebli

i ich przesuwania po podłodze, największa wagę nadamy wymiarowi „waga”. Jednakże

oceniając ten sam przedmiot w kontekście instrumentów grających, wymiar ten nie będzie

w ogóle istotny (Gärdenfors, 2000: 104).

Poza tym, że wymiary można uwypuklać, czyli nadawać im większą wagę

w zależności od kontekstu, możliwe jest także swoiste wyczulanie poszczególnych

obszarów na wymiarach, a więc w pewnym sensie rozciąganie ich w pewnych miejscach.

Goldstone (1993) przeprowadził ciekawy eksperyment, w którym badani mieli oceniać

różnicę w długości przedstawianych im obiektów. Obiekty, które miały długość 1 lub 2 cm

należały do jednej kategorii, natomiast obiekty o długości 3 lub 4 cm należały do drugiej

kategorii. W przypadku gdy badani mieli za zadanie porównać dwa obiekty: jeden

o długości 2 cm, a drugi o długości 3 cm, różnice pomiędzy nimi zdawały się badanym

większe niż różnice pomiędzy obiektem o długości 1 cm i obiektem o długości 2 cm. Tak

więc mimo obiektywnie takich samych różnic w długościach, badani wykazywali

skłonność do potęgowania różnic obiektów, które należały do innej kategorii

(Goldstone, 1993).

Wiele badań wykazało, że dzieci mają problemy z rozróżnianiem wymiarów.

Istnieją dowody wskazujące na to, że wymiary, które są z łatwością rozdzielane przez

dorosłych, takie jak jasność i rozmiar kwadratu, są przez dzieci łączone. Na przykład

dzieci mają trudność ze wskazaniem, czy dwa przedmioty różnią się jasnością czy

wielkością, chociaż z łatwością mogą powiedzieć, że w jakiś sposób te przedmioty się

różnią (Gärdenfors, 2000: 28).



3.4. Redukcja wymiarów

Według Gärdenforsa pojęcia nie są jedynie wiązkami własności. Jego propozycja

reprezentacji pojęć zakłada występowanie korelacji pomiędzy regionami różnych domen

powiązanych z danym pojęciem. W przykładzie o „jabłku” występować powinna silna

pozytywna korelacja pomiędzy słodkością jabłka w domenie „smaku” i zawartością cukru

w domenie „wartości odżywczych”. Natomiast znacznie słabszej korelacji oczekiwać by

należało pomiędzy kolorem czerwonym i słodkim smakiem.

- 60 -

Podsumowując swój wywód na temat pojęć, Gärdenfors formułuje tzw.

kryterium C, wedle którego naturalne pojęcie jest reprezentowane jako zbiór regionów

w pewnej liczbie domen z przypisanymi do nich wagami uwypuklającymi oraz informacją

o tym, w jaki sposób różne domeny są ze sobą skorelowane (Gärdenfors, 2000: 191).

Taka konceptualizacja pojęć i własności, w której pojęcia są reprezentacjami

w wielowymiarowej przestrzeni własności, nasuwa pytanie o możliwość redukcji tej

przestrzeni. Być może jest tak, że obiekty mogą być reprezentowane w przestrzeni

wielowymiarowej, ponieważ można na nie patrzeć z różnych perspektyw, biorąc pod

uwagę różne aspekty tych obiektów, jednakże w praktyce umysł reprezentuje je

w zredukowanej przestrzeni ze względu na zasadę ekonomii kognitywnej.

Algebraicznie rzecz biorąc, redukcja wymiarów możliwa jest wtedy, gdy pewne

wymiary da się wyrazić przy pomocy innych, tzn. jedne są kombinacjami liniowymi

innych. Nie da się zredukować wymiarów w przypadku, gdy są one względem siebie

ortogonalne.

Geometrycznie rzecz biorąc redukcja wymiarów polega na rzutowaniu pierwotnej

przestrzeni n-wymiarowej na podprzestrzeń k-wymiarową (gdzie k < n). Kiedy rzutujemy

trójkąt na równoległą do niego płaszczyznę, otrzymujemy trójkąt identyczny.

Równoległość rzutowanego trójkąta w stosunku do płaszczyzny oznacza, że jest on

umieszczony w dwóch wymiarach. Jednakże gdy płaszczyzna rzutowania nie jest do

obiektu rzutowanego równoległa, a więc pozycja trójkąta opisywana jest przez trzy

wymiary, rzutowanie pociąga za sobą pewną utratę informacji. Informacją w tym wypadku

są wymiary naszego trójkąta. Podobnie jest w przypadku rzutowania brył – rzutując kulę

na płaszczyznę, otrzymujemy elipsę (w szczególnym przypadku, gdy wykonujemy rzut

prostopadły, otrzymujemy koło). W oczywisty sposób sprawa się komplikuje, kiedy

rzutuje się więcej niż 3-wymiarowe bryły na płaszczyznę.

Kiedy mówimy o wymiarach jakościowych w sensie przestrzeni konceptualnych –

wymiarach odpowiadających pewnym własnościom przypisywanym danej klasie obiektów

– także myślimy o możliwości redukcji ich liczby. Jest to możliwe, gdy w pierwotnej

wiązce wymiarów występuje pewna redundancja, tzn. pierwotna liczba wymiarów jest zbyt

duża w stosunku do potrzeb reprezentacji danej klasy obiektów. Na przykład, kiedy

zapytalibyśmy się o to, w jakim stopniu pewne marki samochodów osobowych są „duże”,

a następnie spytalibyśmy się, w jakim stopniu są „długie”, można przypuszczać, że

w takim wypadku będziemy mieć do czynienia z redundancją wymiarów – „wielkość”

będzie tu jakąś funkcją „długości”, a więc „długie” samochody osobowe będą jednocześnie

background image

- 61 -

postrzegane jako „duże”. Jednakże niekoniecznie mielibyśmy do czynienia z taką sytuacją,

gdybyśmy spytali o szerszą klasę samochodów (dopuszczając także takie przypadki jak

TIRy itp.). Wtedy zwykła ciężarówka zostałaby uznana za „dużą” i „krótką”, natomiast

limuzyna za „długą”, ale już nie „dużą”.

Przykład ten ponownie pokazuje kontekstowość, względność naszego postrzegania,

o której nie można zapominać, badając mapy percepcyjne. Kontekst, w jakim występują

badane obiekty, jest bardzo istotny i może znacząco wpływać na oceny respondentów.

Pomysł polegający na tym, że jakąś wiązkę n wymiarów (atrybutów), na których

postrzegana jest pewna klasa obiektów, można zredukować do k<n wymiarów musi

zakładać, że te wymiary są nieortogonalne względem siebie. Wtedy pewne wymiary są

kombinacjami liniowymi innych wymiarów, dzięki czemu redukcja wymiarów jest

możliwa. Niemożność zredukowania liczby wymiarów może świadczyć o tym, że wymiary

(atrybuty) składające się na tę wiązkę są ortogonalne, a więc żadnego z nich nie da się

wyrazić przy pomocy innego. Oznacza to, że przestrzeń, w jakiej postrzegana jest badana

klasa obiektów jest bardziej złożona.

W tabelach (Tabela 3.1, Tabela 3.2, Tabela 3.3) zamieszczono przykładowe

odpowiedzi na pytanie, czy każdy z obiektów od O

1

do O

4

posiada jeden z atrybutów od

A

1

do A

4

. Jedynka oznacza, że obiekt dany atrybut posiada, w przeciwnym wypadku

obiekt danego atrybutu nie posiada.


Tabela 3.1. Wymiary, na których postrzegane są obiekty są ortogonalne – obiekty nie posiadają

wspólnych cech

O

1

O

2

O

3

O

4

A

1

1

A

2

1

A

3

1

A

4

1

W takim przypadku, kiedy wymiary są ortogonalne (Tabela 3.1), inercja rozkłada

się równo (dim1=33% inercji, dim2=33%, dim3=33%) na wszystkie n-1 wymiarów, wobec

czego możliwe jest zredukowanie złożoności struktury tylko o jeden wymiar. Redukcja

o więcej niż jeden wymiar w tym przypadku powoduje znaczną utratę informacji o całym

układzie.

- 62 -

Jeśli natomiast jest kilka obiektów, które posiadają jakiś atrybut, i z drugiej strony –

jest obiekt, który posiada kilka atrybutów, taka przestrzeń może dać się uprościć

i zredukować (Tabela 3.2).


Tabela 3.2. Wymiary, na których postrzegane są obiekty nie są ortogonalne – obiekty posiadają

wspólne cech

O

1

O

2

O

3

O

4

A

1

1

A

2

1

A

3

1

1

1

A

4

1

W tym przypadku proporcje, w jakich inercja całego układu daje się rozłożyć na

poszczególne wymiary, jest już inna i pozwala na sensowniejszą redukcję wymiarów:

dim1=60%, dim2=30%, dim1=10%.

W pierwszym przypadku pierwsze dwa wymiary skupiały 66% inercji całego

układu, natomiast w przypadku drugim pierwsze dwa wymiary skupiają już aż 90% inercji,

co pozwala na zaniedbanie informacji o trzecim wymiarze i zredukowanie go.

Przypadek, w którym wszystkie obiekty posiadają każdy z atrybutów (Tabela 3.3),

można uznać z punktu widzenia redukcji danych za trywialny. Cały układ wtedy mieści się

po prostu w jednym punkcie, ponieważ wszystkie obiekty są takie same ze względu na

poszczególne atrybuty.


Tabela 3.3. Wszystkie obiekty są takie same ze względu na atrybuty, na których są oceniane

O

1

O

2

O

3

O

4

A

1

1

1

1

1

A

2

1

1

1

1

A

3

1

1

1

1

A

4

1

1

1

1

background image

- 63 -

3.5. Procedura pomiarowa

W tym miejscu chciałbym przedstawić procedurę pomiarową służącą do eksploracji

map percepcyjnych przy użyciu analizy korespondencji. Procedura ta jest dość często

wykorzystywana w praktyce badawczej agencji badania rynku, jednakże w literaturze

przedmiotu niewiele można znaleźć na jej temat.

Procedura pomiarowa wygląda następująco. Respondenci mają za zadanie ocenić,

w jakim stopniu każda cecha (atrybut) pasuje do kolejnych obiektów. Sposób oceniania, tj.

skale, mogą być różnorodne. Zasadniczo powinno się stosować tym dokładniejsze skale,

im większe jest zaangażowanie respondentów w badaną dziedzinę, im bardziej są z nią

związani. Na przykład nie będziemy prosić bezdzietnej dziewczyny o ocenę odżywek dla

dzieci na tak czułej skali jak ta od 0 do 100. Natomiast matka niemowlęcia, która

codziennie musi zabezpieczać swojemu dziecku produkty najlepszej jakości, z pewnością

będzie w stanie użyć takiej skali.

Zestaw atrybutów, które podejrzewamy o to, że różnicują badane obiekty

otrzymujemy w drodze na przykład wywiadów, w czasie których pytamy się

respondentów, o to, które aspekty danej klasy obiektów są najistotniejsze. Zestaw ten

można także ułożyć posługując się własną intuicją socjologiczną.

O atrybutach powinniśmy myśleć jak o wymiarach, czy też – by posłużyć się

terminologią Petera Gärdenforsa – domenach w przestrzeniach konceptualnych, na których

można postrzegać obiekty. Im bardziej złożony jest obiekt, tym na większej liczbie

wymiarów go postrzegamy. Na przykład bilon możemy postrzegać jedynie na kilku

wymiarach – nominał, kształt, średnica, kolor, waluta. Takie byty jak partie polityczne

postrzegane są w rzeczywistości na nielicznej wiązce wymiarów – podstawowe

kontinuum: lewica-centrum-prawica, elektorat, czyli grupy społeczne, do których

kierowany jest program. Politycy mogą być postrzegani na znacznie liczniejszej wiązce

wymiarów (w badaniu nt. polityków, którego wyniki zostaną w tej pracy omówione,

respondenci pytani byli o 15 atrybutów, które mogli posiadać politycy).

Rezultatem przeprowadzonej ankiety jest tablica odpowiedzi n·m-wymiarowa

(gdzie n zwyczajowo oznacza liczbę atrybutów, a m – liczbę obiektów ocenianych przez

respondentów). Metoda zadawania pytań i udzielania odpowiedzi pozwala ustalić, w jakim

stopniu badani dyskryminują oceniane obiekty poprzez kolejne atrybuty. O sile

dyskryminacyjnej danego atrybutu świadczyć może któraś z miar rozproszenia, np.

- 64 -

wariancja lub odchylenie standardowe. Przyjrzyjmy się teraz, jakiego rodzaju odpowiedzi

możemy uzyskać, używając takiego kwestionariusza i o czym świadczyć mogą uzyskane

rozkłady odpowiedzi.

Jeśli respondent przyznaje takie same oceny (taką samą liczbę punktów) wszystkim

obiektom na jednym z atrybutów – wielkość odchylenia standardowego w skrajnym

przypadku wyniesie 0 – oznaczać to może najpewniej, że nie jest on w stanie odróżnić na

tym wymiarze żadnego z obiektów. Naturalnie, zestaw obiektów może w całości posiadać

daną cechę lub nie – o tym powie nam średnia wartość ocen (liczby punktów). Jeśli

wszystkie obiekty posiadają daną cechę w tym samym stopniu (np. wszystkie polskie

monety używane w powszechnym obiegu są okrągłe), respondenci powinni przypisać im

wysoką liczbę punktów; jeśli natomiast żaden z obiektów danej cechy nie posiada (np.

żadna z monet nie jest koloru różowego), respondenci powinni przypisać im takie same

niskie oceny.

W ten sposób dokonaliśmy dyskryminacji niejako „w poprzek” tabeli

z odpowiedziami. Możemy także dokonać analogicznego rozróżnienia „wzdłuż” tej tabeli,

a więc zastanowić się, o czym mówi nam zróżnicowanie wyników na poszczególnych

atrybutach dla danego obiektu. Także tutaj miarą, jaką możemy się posłużyć może być

odchylenie standardowe.

Jeśli respondent przypisał takie same wartości atrybutów pewnemu obiektowi –

w skrajnym przypadku odchylenie standardowe będzie równe 0 – oznaczać to może, że

posiadanie bądź nieposiadanie cech z danego zestawu cech nie wyróżnia tego obiektu. Np.

mając dany zestaw cech: wysoki, silny, muskularny, „jest aktorem”, „jest politykiem” taki

obiekt jak Arnold Schwarzenegger otrzymałby zapewne jednolitą punktację. Jeśli by

natomiast dodać do tego zestawu cech jeszcze jedną, powiedzmy zniewieściałość, można

się spodziewać, że większość respondentów przypisze Schwarzeneggerowi niższą ocenę na

tym atrybucie.

background image

- 65 -

Rysunek 3.2 Sposób zapisu odpowiedzi

a

1

a

2

.
.
.
.
.
.
.
.
.

a

n

o

1

o

2 …….

o

m

obiekty

atrybuty

o

1

o

2 …….

o

m

X

i1

X

i 2 ……

X

i m

a

i

Wektor
odpowiedzi dla
atrybutu a

i

a

1

a

2

.
.
.
.
.
.
.
.
.
a

n

X

1i

X

2i

.
.
.
.
.
.
.
.
.
X

ni

o

i

Wektor
odpowiedzi dla
obiektu o

i

- 66 -

3.6. Preklasyfikacja respondentów

W całym problemie badawczym istnieje jeszcze jeden obszar, w obrębie którego

możemy mówić o podobieństwie. Podobni mogą być mianowicie respondenci

w postrzeganiu

badanych

obiektów

na

poszczególnych

atrybutach.

Rozkład

poszczególnych ocen uzyskanych od respondentów pochodzących z w miarę jednorodnej

populacji powinien zbiegać do rozkładu normalnego. W ten sposób na przykład przy

odpowiednio dużej próbie odpowiedź na pytanie: „W jakim stopniu obiekt O posiada

atrybut A?” powinna wygenerować rozkład, w którym jedna z wartości będzie dominująca,

a reszta wartości będzie nieznacznie się od tej wartości odchylać z prawdopodobieństwem

opisanym przez rozkład Gaussa. Jednakże jeśli populacja nie jest homogeniczna, a bodźce,

działaniu których poddawani są respondenci, mają moc dyskryminującą te dwie populacje,

uśrednianie odpowiedzi może zwieść badacza na manowce.

W jaki sposób przy pomocy otrzymanych kwestionariuszy możemy sprawdzić, czy

populacja, którą badamy jest zróżnicowana pod względem reakcji na bodźce? Co może

świadczyć o tym, że respondenci stanowią jednolitą grupę, a więc co będzie oznaką ich

podobieństwa? Wydaje mi się naturalne przeświadczenie, że dwóch respondentów będzie

do siebie podobnych w kontekście bodźców, którym działaniu ich poddaliśmy wtedy, gdy

ich reakcje na te bodźce będą podobne (w tym przypadku reakcje są tożsame z profilami

odpowiedzi). Miarą takiego podobieństwa może być np. wariancja ocen, a narzędziem do

określenia, którzy respondenci są między sobą podobni, a którzy różnią się od siebie, może

być m.in. analiza skupień.

Uśrednianie wartości zmiennej to operacja, przy której tracimy informację

o rozproszeniu wartości tej zmiennej. Jeżeli np. rozkład zmiennej jest daleki od rozkładu

normalnego, uśrednianie może być przyczyną błędnego wnioskowania. Najlepiej jest, gdy

uśredniamy wartości w grupach stosunkowo jednorodnych – unikamy wtedy artefaktu

klasy średniej w społeczeństwie silnie spolaryzowanym. Jedną z metod wyodrębnienia

w całej badanej zbiorowości podgrup jednostek podobnych do siebie i różniących się od

przedstawicieli innych grup jest analiza skupień metodą k-średnich. Należy ona do technik

taksonomicznych. Jej celem jest połączenie zbioru obiektów w homogeniczne grupy

(klasy, klastry, skupienia, typy). Klasyfikowane obiekty, które znajdą się w jednej grupie,

powinny być do siebie podobne – powinniśmy uzyskać homogeniczność w obrębie

skupień. Obiekty należące do różnych grup powinny się od siebie różnić – powinna istnieć

heterogeniczność pomiędzy skupieniami.

background image

- 67 -

W analizie skupień dąży się do tego celu poprzez łączenie ze sobą obiektów na

podstawie wyliczonych odległości między nimi. Bliższe obiekty powinny trafić do jednej

klasy, bardziej odległe – do różnych. Przy danej mierze odległości, łączenie może się

odbywać na różne sposoby, które różnią się przede wszystkim tym, w jaki sposób

wyliczane są nowe odległości pomiędzy obiektami po przyłączeniu kolejnego obiektu do

skupienia (traktowanego też jak obiekt) (Górniak, 2005: 31).

Metoda ta nie jest niestety wolna od wad. Zarzuca się jej m.in. zależność wyników

analizy od posortowania jednostek obserwacji. Innym zarzutem jest arbitralne ustalanie

liczby skupień. Zarzuty te można trochę osłabić, wykonując najpierw hierarchiczną analizą

skupień. Pozwala ona badaczowi przyjrzeć się strukturze danych i ustalić, ile skupień da

się wyodrębnić naturalnie. Sprawia to, że metoda hierarchicznego łączenia skupień jest

bardzo cennym narzędziem w eksploracji danych. W takiej poprzedzającej analizie

hierarchicznej dobrze jest użyć metody Warda (przy kwadratowej odległości

euklidesowej), gdyż jest ona najbliższa w swej logice metodzie k-średnich i prowadzi do

dobrze wyodrębionych skupień (Górniak 2005: 32).

***

Przydatność zastosowania analizy skupień przed zastosowaniem analizy

korespondencji pokażę na następującym przykładzie. Załóżmy, że zapytaliśmy

respondentów, w jakim stopniu kolejne cechy pasują do poszczególnych marek

samochodów. Odpowiedzi udzielane są na skali od 1 do 5, gdzie 1 to „zdecydowanie nie

pasuje”, a 5 – „zdecydowanie pasuje”. Odpowiedzi następnie uśredniamy i stosujemy je

jako dane wejściowe dla algorytmu analizy korespondencji.

W celu lepszego unaocznienia problemu pozornego braku struktury w badanej

populacji przykład został tak spreparowany, że kobiety i mężczyźni udzielali ściśle

różniących się od siebie odpowiedzi, tzn. tam, gdzie kobiety odpowiadały, że cecha do

marki pasuje (odpowiedzi 5 lub 4), mężczyźni odpowiadali, że cecha nie pasuje

(odpowiedzi 1 lub 2). W przykładzie występuje sześć marek samochodów (oznaczonych:

A, B, C, D, E, F) oraz pięć cech (luksusowy, marka dla mnie, marka popularna, drogi,

wysoka jakość). Rozkład odpowiedzi na pytanie, „W jakim stopniu do marki A pasuje

określenie, że jest marką luksusową?” przedstawiony został na wykresie (Rysunek 3.3).

Analogicznie wyglądają rozkłady pozostałych zmiennych.

- 68 -

Rysunek 3.3 Rozkład odpowiedzi na pytanie: W jakim stopniu do marki A pasuje określenie, że jest marką

luksusową?

Na wykresie (Rysunek 3.4) pokazana została mapa analizy korespondencji całego

zbioru. Tabela 3.4 przedstawia kontrybucje profili wierszowych do osi głównych, a

tabela 3.5 – kontrybucje profili kolumnowych do osi głównych. Nie ma w tym miejscu

potrzeby dokonywać dogłębnej analizy tej mapy – przykład jest sfabrykowany, więc nie

może nieść żadnej wartościowej informacji z punktu widzenia socjologicznego czy

marketingowego. Tym, na co natomiast warto zwrócić uwagę, są znaczne różnice

pomiędzy mapami sporządzonymi dla wyodrębnionych w dalszej kolejności skupień.

background image

- 69 -

Rysunek 3.4 Mapa korespondencji dla całej próby

Tabela 3.4. Kontrybucje profili wierszowych do osi głównych dla całej próby

K

1

K

2

K

3

K

4

luksusowy

0,0733

0,4900

0,1061

0,1381

marka dla mnie

0,1569

0,2877

0,1128

0,2584

marka popularna

0,3219

0,1315

0,3282

0,0021

drogi

0,2623

0,0848

0,4490

0,0111

wysoka jakość

0,1855

0,0061

0,0038

0,5903

Źródło: obliczenia własne

Tabela 3.5. Kontrybucje profili kolumnowych do osi głównych dla całej próby

K

1

K

2

K

3

K

4

Marka A

0,0003

0,0565

0,0079

0,3764

Marka B

0,5947

0,2494

0,0015

0,0177

Marka C

0,2191

0,4292

0,0849

0,0491

Marka D

0,0066

0,0414

0,3544

0,3957

Marka E

0,1556

0,0014

0,0773

0,1076

Marka F

0,0237

0,2222

0,4741

0,0535

Źródło: obliczenia własne

- 70 -

Rysunek 3.5 Dendrogram pokazujący dwa oddalone od siebie skupienia w badanej grupie

Przeprowadzenia hierarchicznej analizy skupień sugeruje, że w badanej grupie są

dwie odrębne podgrupy (Rysunek 3.5), bardzo homogeniczne wewnątrz i zarazem bardzo

różniące się pomiędzy sobą. W dalszej kolejności należy przeprowadzić analizę skupień

metodą k-średnich, ustawiając docelowo dwa skupienia. W jej wyniku zbiór danych

zostanie podzielony na dwie podgrupy. Każdą z tych podgrup można zanalizować

oddzielnie. Na wykresach (Rysunek 3.6 oraz Rysunek 3.7) przedstawione zostały mapa

analizy korespondencji dla poszczególnych podgrup. Tabela 3.6 oraz tabela 3.7

przedstawiają kontrybucje profili odpowiednio wierszowych i kolumnowych dla mężczyzn

(pierwszego skupienia), natomiast tabela 3.8 oraz tabela 3.9 przedstawiają analogiczne

dane dla kobiet (drugiego skupienia). Porównanie map oraz wartości kontrybucji

jednoznacznie pokazuje, że te dwie grupy znacznie różnią się pod względem odpowiedzi

udzielanych na pytania z kwestionariusza. Dane dla skupień różnią się w dużym stopniu

także od danych dla całej próby.

background image

- 71 -

Rysunek 3.6 Mapa korespondencji dla pierwszego skupienia (mężczyźni)

Rysunek 3.7 Mapa korespondencji dla drugiego skupienia (kobiety)

- 72 -

Tabela 3.6. Kontrybucje profili wierszowych do osi głównych dla mężczyzn

K

1

K

2

K

3

K

4

luksusowy

0,0694

0,5917

0,0015

0,2791

marka dla mnie

0,7181

0,0007

0,0061

0,0028

marka popularna

0,1338

0,0321

0,5590

0,0971

drogi

0,0216

0,3601

0,0731

0,2258

wysoka jakość

0,0571

0,0155

0,3602

0,3950

Źródło: obliczenia własne

Tabela 3.7. Kontrybucje profili kolumnowych do osi głównych dla mężczyzn

K

1

K

2

K

3

K

4

Marka A

0,0024

0,0045

0,0031

0,0966

Marka B

0,0105

0,1685

0,0018

0,0005

Marka C

0,0304

0,0069

0,0028

0,0970

Marka D

0,6209

0,0198

0,0106

0,0996

Marka E

0,0234

0,0479

0,1454

0,3880

Marka F

0,3123

0,7523

0,8364

0,3183

Źródło: obliczenia własne

Tabela 3.8. Kontrybucje profili wierszowych do osi głównych dla kobiet

K

1

K

2

K

3

K

4

luksusowy

0,0936

0,0469

0,0213

0,0936

marka dla mnie

0,5592

0,0006

0,2558

0,5592

marka popularna

0,0004

0,5562

0,2164

0,0004

drogi

0,3386

0,0052

0,2256

0,3386

wysoka jakość

0,0082

0,3911

0,2810

0,0082

Źródło: obliczenia własne

Tabela 3.9. Kontrybucje profili kolumnowych do osi głównych dla kobiet

K

1

K

2

K

3

K

4

Marka A

0,0010

0,0000

0,1277

0,1195

Marka B

0,0755

0,8078

0,0060

0,0184

Marka C

0,1777

0,0642

0,4343

0,1713

Marka D

0,4823

0,0010

0,1525

0,1300

Marka E

0,2107

0,1270

0,0916

0,3776

Marka F

0,0527

0,0000

0,1880

0,1832

Źródło: obliczenia własne

background image

- 73 -

4. Przykłady zastosowań analizy korespondencji

W tym rozdziale chciałbym przedstawić kilka mniej typowych zastosowań analizy

korespondencji. Nietypowość ich polega na tym, że dane wejściowe nie mają charakteru

frekwencyjnego. W pierwszym przykładzie w tablicy wejściowej będą to oceny udzielane

przez

respondentów,

w drugim

wielkość

emisji

związków

chemicznych

w poszczególnych województwach.

Przy pomocy trzeciego przykładu pokażę, że analizę korespondencji można

stosować do badania sieci afiliacji. Natomiast w przykładzie czwartym omawiana technika

będzie zastosowana w tradycyjny sposób. Danymi będą liczby oddanych głosów na

komitety wyborcze, którym się udało dostać się do Sejmu w wyborach z 2005 r.

4.1. Badanie postrzegania polityków – wyniki i analiza

W tym rozdziale zaprezentuję wyniki moich własnych badań przeprowadzonych

w drugiej połowie 2004 r. na próbie 144 osób. Do przeprowadzenia ankiety zastosowałem

metodę CAWI (ang. Computer Assisted Web Interview), czyli ankietę umieszczoną na

stronie WWW w Internecie. Ogromną zaletą tej metody jest duże ułatwienie kodowania

ankiet, które dokonuje się niejako samoczynnie poprzez automatyczny zapis odpowiedzi

respondentów do bazy danych. Badanie przy użyciu Internetu pozwala na uzyskanie

stosunkowo licznych prób przy użyciu niewielkich środków. Z punktu widzenia studenta

przeprowadzającego badania na potrzeby pracy magisterskiej jest to nieoceniona zaleta.

Nie wolno zapominać, że badanie metodą CAWI ma także spore ułomności, które

w dużym stopniu dyskwalifikują jej użyteczność na szerszym polu. Wobec bardzo niskiego

stopnia informatyzacji w kraju (ok. 28% społeczeństwa polskiego używa Internetu, przez

co rozumie się kontakt z Internetem w ciągu ostatniego miesiąca), niemożliwe jest

uzyskanie próby reprezentatywnej, choćby w minimalnym stopniu porównywalnej

z próbami stosowanymi w tradycyjnych sondażach. Ponadto do wad tej metody należy

brak bezpośredniego kontaktu ankietera z ankietowanymi, co pozbawia elementarnej

kontroli nad rzetelnością zbieranych danych, a także błędy związane z autoselekcją

respondentów, tzn. ci respondenci, którzy wzięli udział w badaniu, zdecydowali o tym

samodzielnie. Mogą się oni istotnie różnić od tych respondentów, którzy nie chcieli wziąć

udziału w badaniu, jednak nie wiadomo, jak się te różnice kształtują.

- 74 -

Zasadniczym celem badania było nie tyle poznanie odpowiedzi respondentów na

zadawane pytania, co raczej wypróbowanie analizy korespondencji jako metody do

analizowania tych odpowiedzi. Dlatego też niedostatki badania typu CAWI nie były w tym

miejscu istotne.

Przebadana próba liczyła 144 jednostki. Przedstawię teraz kilka rozkładów

zmiennych demograficznych, co pozwoli na przyjrzenie się strukturze demograficznej

respondentów.

Tabela 4.1. Rozkład płci w próbie

Płeć

Liczebność

Częstość

mężczyźni

54

0,38

kobiety

90

0,63

RAZEM

144

1,00

Tabela 4.2. Rozkład wykształcenia w próbie

Wykształcenie

Liczebność Częstość

Podstawowe

8

0,06

Zawodowo-techniczne

2

0,01

Licealne

38

0,26

Niepełne wyższe

51

0,35

Wyższe

45

0,31

RAZEM

144

1,00

Tabela 4.3. Rozkład wieku w próbie

Wiek

Liczebność

Częstość

Mniej niż 16

5

0,03

16-20

24

0,17

21-25

63

0,44

26-30

38

0,26

31-35

4

0,03

36-40

4

0,03

41-45

4

0,03

46-50

2

0,01

RAZEM

144

1,00

***

Główną część ankiety stanowił zestaw pytań o to, w jakim stopniu poszczególni

politycy posiadają kolejne cechy. W badaniu chodziło o zbadanie, jak postrzegani są

politycy. Ocenianych było 5 polityków: Aleksander Kwaśniewski, Andrzej Lepper, Leszek

background image

- 75 -

Miller, Adam Michnik, Leszek Balcerowicz. Dodatkowo występował tzw. „Polityk

idealny”. W odniesieniu do Polityka idealnego pytanie brzmiało: jak bardzo istotne jest,

aby polityk idealny daną cechę posiadał? Zastosowanie konceptu „Polityka idealnego”

miało za zadanie uzyskanie reprezentacji prototypowej polityka badanych respondentów.

Dysponując taką reprezentacją, możliwe jest porównanie polityków ze świata

rzeczywistego, o których badani byli pytani, z tym prototypowym wizerunkiem. Można

w ten sposób sprawdzić, który z tych polityków jest najbliższy, a który najdalszy ideału.

Jak się okaże, analiza korespondencji bardzo dobrze nadaje się do tego celu.

Politycy są zatem obiektami, które mogą posiadać lub nie pewne cechy (atrybuty),

a więc są umieszczone w przestrzeni konceptualnej wyznaczanej przez te atrybuty. Jeśli

dwaj politycy posiadają wszystkie cechy w takim samym stopniu, powinni znajdować się

w tym samym punkcie tej przestrzeni. Natomiast jeśli profile dwóch polityków różnią się

w znacznym stopniu, powinni oni sytuować się w dużej odległości od siebie.

Zestaw atrybutów składał się z 15 elementów: uczciwy, stanowczy, autorytet

moralny, znany na świecie, niezależny, ekspert, silny, kulturalny, sprytny, autorytarny,

niebezpieczny, charyzmatyczny, godny zaufania, szanowany, prostacki.

Oznacza to, że każdy z respondentów musiał udzielić odpowiedzi na 6

×15 = 90

pytań. Wydawać się może, że jest to zadanie dość czasochłonne, jednak w rzeczywistości

sposób zadawania pytań oraz sposób udzielania odpowiedzi sprawiały, że ta czynność

odbywała się niejako automatycznie. Respondenci przy takim zestawie pytań odpowiadają

w pewnym sensie odruchowo, co pozwala domniemywać, że stopień szczerości

uzyskanych odpowiedzi jest stosunkowo wysoki.

Dodatkową zmienną, którą udało się manipulować w badaniu, była skala, na której

badani udzielali odpowiedzi. Zastosowany został prosty mechanizm losowy, który w 50

procent przypadków wybierał skalę od 0 do 100 i w pozostałych 50 procent przypadków –

skalę od 0 do 10. Chciałem w ten sposób sprawdzić, czy czułość skali ma jakieś istotne

znaczenie przy tego typu zadaniu.

Aby sprawdzić, czy skala istotnie wpływa na wyniki, przekodowano oceny

respondentów udzielających odpowiedzi na skali od 0 do 10, przemnażając je przez 10.

Następnie wykonano analizę wariancji zmiennych „oceny polityków na poszczególnych

atrybutach” ze względu na skalę. Okazuje się, że jedynie w przypadku dziewięciu

- 76 -

zmiennych

9

występują istotne statystycznie różnice pomiędzy odpowiedziami udzielanymi

na skali od 0 do 10 a odpowiedziami udzielanymi na skali od 0 do 100.

***

Przejdźmy teraz do zasadniczej części analizy wyników, a więc przeprowadźmy

analizę korespondencji. Analizie poddamy tabelkę, w której wierszach znajdują się

atrybuty, a w kolumnach – poszczególni politycy. W komórkach znajdą się wartości

średnie punktów

10

udzielanych przez respondentów.

Tabela 4.4. Wartości średnie ocen w całej przebadanej próbie (N=144)

N=144

Aleksander

Kwaśniewski

Andrzej

Lepper

Leszek

Miller

Adam

Michnik

Leszek

Balcerowicz

Polityk

idealny

uczciwy

45,47

14,17

19,99

55,65

69,85

94,65

stanowczy

50,01

65,83

49,88

61,10

75,27

80,97

autorytet moralny

31,69

5,90

10,57

46,24

49,99

77,57

znany na świecie

64,35

19,26

37,04

44,80

60,71

67,48

niezależny

36,10

44,76

25,22

61,09

68,50

80,59

ekspert

33,17

9,24

20,44

52,54

86,18

82,30

silny

42,25

52,65

37,35

54,70

63,63

75,95

kulturalny

68,47

6,67

36,38

60,06

75,96

84,39

sprytny

60,92

64,94

59,17

61,40

54,35

63,74

autorytarny

39,46

70,65

48,72

44,21

45,44

47,30

niebezpieczny

30,83

85,56

57,31

33,02

23,59

12,96

charyzmatyczny

39,69

58,33

30,61

49,01

44,69

74,37

godny zaufania

37,94

5,99

12,63

49,74

65,60

92,60

szanowany

52,70

9,22

17,88

59,18

66,32

88,02

prostacki

21,47

91,67

51,89

21,49

8,79

4,95

Źródło: obliczenia własne

9

Te zmienne to: Aleksander Kwaśniewski uczciwy, Leszek Miller uczciwy, Adam Michnik uczciwy,

Andrzej Lepper stanowczy, Andrzej Lepper znany na świecie, Polityk idealny autorytarny, Aleksander
Kwaśniewski niebezpieczny, Leszek Balcerowicz charyzmatyczny, Aleksander Kwaśniewski prostacki.
Trudno jest znaleźć jakieś socjologiczne wyjaśnienie dla faktu, że akurat te zmienne wykazują różnice
w zależności od skal.

10

Dla ujednolicenia odpowiedzi udzielane na skali od 0 do 10 zostały przekodowane przez przemnożenie

wartości przez 10.

background image

- 77 -

Rysunek 4.1 Mapa korespondencji dla całej przebadanej próby (N=144)

Na wykresie (Rysunek 4.1) najwyraźniej zarysowuje się wymiar poziomy, który

wyjaśnia 91 procent inercji. Rozpinany on jest z jednej strony przez atrybuty o wydźwięku

pejoratywnym (prostacki, autorytarny, niebezpieczny) usytuowane po dodatniej stronie osi,

a z drugiej przez atrybuty o wydźwięku pozytywnym (uczciwy, szanowany, godny

zaufania, ekspert). Są to dwa bieguny, na których sytuują się kompletnie odmienne typy

polityków. Uosobieniem tych typów jest z jednej strony Andrzej Lepper, z drugiej zaś

strony – Leszek Balcerowicz i Adam Michnik. Ci dwaj ostatni znajdują się w bliskiej

odległości do wizerunku „Polityka idealnego” dla przeciętnego respondenta, natomiast

Lepper znalazł się w bardzo dużej odległości od tego wizerunku.

***

Wielkość kół na wykresie reprezentuje normę-1 poszczególnych profili, więc

odpowiadają one współrzędnym profili średnich – wierszowego i kolumnowego.

Zastanówmy się, jaki jest ich sens merytoryczny. Im większa jest wartość normy-1 (im

większe jest koło na wykresie), tym dany profil miał wyższe wartości na każdej

współrzędnej. Tak więc polityk, którego profil ma wysoką wartość normy-1, otrzymywał,

średnio licząc, wyższe oceny dla każdego atrybutu. Polityk, którego profil ma niską

- 78 -

wartość normy-1, otrzymywał niższe oceny dla każdego atrybutu. Jeśliby teraz każdy

atrybut stanowił cechę, której posiadanie byłoby pożądane (o tym, czy dana cecha jest

pożądana, mówią nam odpowiedzi udzielane dla „Polityka idealnego”), wtedy wartość

normy-1 można by uznać za ciekawą informację mówiącą o tym, czy polityk ma wysokie

nasycenie cech pozytywnych, czy raczej to nasycenie jest niskie. W analizowanym

badaniu to „Polityk idealny” ma największą wartość normy-1. Oznacza to, że posiada

(powinien posiadać) w jak największym stopniu poszczególne atrybuty

11

. Koła

reprezentujące Andrzeja Leppera, Leszka Millera oraz Aleksandra Kwaśniewskiego są

mniejsze niż pozostałych polityków, co sugeruje, że w mniejszym stopniu posiadają

poszczególne cechy.

Podobnie jak z obiektami ma się sytuacja z atrybutami. Niska wartość normy-1

oznacza, że dany atrybut posiada niewielu polityków lub posiadają go w małym stopniu.

A więc globalnie atrybut ten jest w małym stopniu reprezentowany. Natomiast wysoka

wartość normy-1 oznacza, że wielu polityków posiada dany atrybut w dużym stopniu.

11

Nie odnosi się to do atrybutu „prostacki”, który dostał średnią ocen 4,95 (patrz Tabela 4.4).

background image

- 79 -

Dendrogram (Rysunek 4.2) uzyskany

metodą

hierarchicznej

analizy

skupień

12

wskazuje na istnienie w badanej zbiorowości

trzech grup różniących się sposobem udzielania

odpowiedzi na pytania o ocenę polityków na

poszczególnych atrybutach. Węzły końcowe

dendrogramu

stanowią

poszczególni

respondenci. Każdy respondent opisywany jest

przez 90 zmiennych (iloczyn liczby atrybutów

i liczby ocenianych polityków) i stanowi punkt

w 90-wymiarowej przestrzeni. Współrzędne

każdego

punktu-respondenta

odpowiadają

odpowiedziom,

jakich

udzielił.

Dwóch

respondentów znajduje się w tej przestrzeni

blisko

siebie,

gdy

udzielali

podobnych

odpowiedzi (ich współrzędne są podobne, więc

lokalizacja jest podobna). W przypadku tego

dendrogramu

dystans

między

punktami-respondentami mierzony jest przy

użyciu metryki euklidesowej.

Z informacją o tym, że zbiorowość

można podzielić na trzy rozłączne i oddalone od

siebie skupienia, możemy przystąpić do analizy

skupień

metodą

k-średnich,

by

przyporządkować

respondentów

do

odpowiednich skupień.

Teraz możliwe jest uzyskanie map

analizy korespondencji dla zbiorowości, które

są wewnętrznie o wiele mniej zróżnicowane niż

miało to miejsce w przypadku całej przebadanej

grupy. Jednocześnie grupy różnią się między sobą w stopniu najwyższym z możliwych.

12

Wykorzystana została metoda Warda przy metryce euklidesowej.

Rysunek 4.2 Dendrogram wykonany przy

użyciu hierarchicznej analizy skupień

- 80 -

Skupienia są różnoliczne. Pierwsze zawiera 25 respondentów, drugie – 64, a trzecie

– 55. Mapy analizy korespondencji wygenerowane oddzielnie dla każdego skupienia

różnią w pewnym stopniu. Proporcje inercji wyjaśnianej przez każdy z wymiarów są

podobne.

Zasadniczo cały układ się nie zmienia, co dowodzi dość mocnego ugruntowania

wizerunku poszczególnych polityków wśród respondentów, jednakże możliwe jest

odnalezienie pewnych ciekawych różnic w postrzeganiu polityków.

Na pewno niezmienna jest opozycja: Andrzej Lepper otoczony atrybutami

pejoratywnymi – „Polityk idealny” otoczony atrybutami o wydźwięku pozytywnym.

Świadczy to o przekonaniu respondentów, że szef Samoobrony jest antytezą polityka

idealnego.

Rysunek 4.3 Mapa korespondencji dla skupienia #1 (N=25)

W skupieniu #1 największą kontrybucję do pierwszego wymiaru ma atrybut

„niebezpieczny” i „prostacki”, a wśród polityków – Andrzej Lepper, Leszek Miller oraz

„Polityk idealny”. Mapa pokazuje, że dwaj pierwsi znajdują się na tym wymiarze bardzo

background image

- 81 -

blisko siebie i że są w opozycji do „Polityka idealnego”, do którego najbardziej podobny

zdaje się Leszek Balcerowicz.

Dopiero wymiar drugi różnicuje Leszka Millera i Andrzeja Leppera. Wymiar ten

określany jest w największym stopniu przez atrybuty: „znany na świecie”, „kulturalny”.

Pełnienie przez Millera funkcji premiera postawiło go w kontekście spotkań

z przywódcami innych państw, co w oczach respondentów zbliżyło Millera do Aleksandra

Kwaśniewskiego. Ten, będąc prezydentem przez wiele lat, dał się poznać jako polityk

swobodnie obracający się w międzynarodowych kręgach. Wymiar drugi jest

w największym stopniu rozpinany właśnie przez Aleksandra Kwaśniewskiego i stojącego

do niego w opozycji Andrzeja Leppera.

Respondenci dostrzegają charyzmę Leppera, której nie posiada Kwaśniewski.

Jednak w oczach respondentów nie charyzma jest cechą, która ma wyróżniać polityka

idealnego. Są to raczej takie cechy jak: uczciwość, bycie godnym zaufania, bycie

ekspertem, bycie autorytetem moralnym. Ten zestaw cech zdaje się posiadać Leszek

Balcerowicz, natomiast w mniejszym stopniu pozostali politycy.

Rysunek 4.4 Mapa korespondencji dla skupienia #2 (N=64)

W przypadku skupienia #2 sytuacja jest podobna do sytuacji ze skupienia #1 –

pierwszy wymiar jest w największym stopniu rozpinany przez Andrzeja Leppera i Leszka

- 82 -

Millera oraz przez atrybuty „prostacki” i „niebezpieczny”. Dla respondentów, którzy

znaleźli się w tym skupieniu Leszek Miller bardziej różni się od Leppera na drugim

wymiarze, natomiast Leszek Balcerowicz jest bliższy ideału.

Rysunek 4.5 Mapa korespondencji dla skupienia #2 (N=55)

Ciekawy układ prezentuje się natomiast w przypadku skupienia #3, które w dość

znacznym stopniu różni się od pozostałych skupień. Tu Lepper silniej niż w pozostałych

przypadkach rozpina pierwszy wymiar. Prostactwo, z jakim jest kojarzony, oraz

postrzeganie go jako polityka niebezpiecznego ponownie nadają ton temu wymiarowi.

Natomiast drugi wymiar to wyraźna opozycja między Leszkiem Millerem

i „Politykiem idealnym”. Respondenci należący do tego skupienia postrzegają podobnie

Leszka Balcerowicza, Adam Michnika i Aleksandra Kwaśniewskiego na pierwszym

wymiarze.






background image

- 83 -

Tabela 4.5. Porównanie kontrybucji profili wierszowych do inercji pierwszych dwóch wymiarów dla

trzech skupień

skupienie #1

skupienie #2

skupienie #3

K1

K2

K1

K2

K1

K2

uczciwy

0,054

0,001

0,048

0,003

0,042

0,034

stanowczy

0,000

0,005

0,005

0,022

0,013

0,002

autorytet moralny

0,048

0,008

0,068

0,030

0,048

0,096

znany na świecie

0,003

0,294

0,009

0,302

0,010

0,230

niezależny

0,019

0,069

0,004

0,153

0,000

0,065

ekspert

0,084

0,029

0,061

0,014

0,040

0,001

silny

0,001

0,067

0,001

0,040

0,002

0,000

kulturalny

0,029

0,220

0,035

0,250

0,053

0,268

sprytny

0,031

0,067

0,032

0,062

0,011

0,071

autorytarny

0,090

0,066

0,050

0,002

0,036

0,003

niebezpieczny

0,222

0,003

0,220

0,013

0,211

0,025

charyzmatyczny

0,000

0,120

0,003

0,072

0,012

0,062

godny zaufania

0,077

0,029

0,078

0,016

0,065

0,088

szanowany

0,050

0,024

0,052

0,018

0,055

0,011

prostacki

0,291

0,000

0,334

0,002

0,402

0,043

Źródło: obliczenia własne


Tabela 4.6. Porównanie kontrybucji profili kolumnowych do inercji pierwszych dwóch wymiarów dla

trzech skupień

skupienie #1

skupienie #2

skupienie #3

K1

K2

K1

K2

K1

K2

Aleksander Kwaśniewski

0,010

0,671

0,001

0,560

0,061

0,124

Andrzej Lepper

0,438

0,239

0,468

0,249

0,729

0,087

Leszek Miller

0,240

0,041

0,249

0,121

0,039

0,467

Adam Michnik

0,007

0,000

0,029

0,015

0,005

0,015

Leszek Balcerowicz

0,104

0,001

0,122

0,008

0,040

0,006

Polityk idealny

0,201

0,048

0,131

0,047

0,126

0,301

Źródło: obliczenia własne


- 84 -

4.2. Zastosowanie analizy korespondencji do sieci afiliacji

Analiza korespondencji znajduje swoje ciekawe zastosowanie w dziale socjologii

zajmującym się analizą sieci społecznych (ang. SNA – social network analysis). Może być

ona wykorzystywana do eksploracji tzw. sieci afiliacji.

Sieci afiliacji to specyficzny rodzaj sieci społecznych. Po pierwsze są to sieci

bimodalne łączące ze sobą aktorów z tzw. wydarzeniami, w których aktorzy uczestniczą.

Po drugie – sieci afiliacji stanowią bardziej opis zbiorów aktorów niż opis zwyczajnych

więzi pomiędzy parami aktorów. Obydwie te cechy sprawiają, że analiza i interpretacja

takich obiektów jest w pewnym sensie różna od analizy zwykłych unimodalnych sieci

społecznych (Wasserman, 1994: 291).

Jak już powiedzieliśmy, sieci afiliacji łączą ze sobą aktorów z tzw. wydarzeniami,

w których aktorzy uczestniczą. Takimi wydarzeniami może być zarówno obecność na

prywatce (aktorami wtedy są młodzi ludzie, którzy bywają na prywatkach), jak i zasiadanie

w radach nadzorczych korporacji (aktorami wtedy są zasiadający w radach nadzorczych

ludzie interesu). Charakterystyczne dla sieci afiliacji jest to, że ani aktorzy, ani wydarzenia

nie są ze sobą połączeni bezpośrednio, tzn. nie istnieje taka para aktorów lub wydarzeń,

która byłaby połączona krawędzią. Jedynym możliwym rodzajem połączenia w tej sieci

jest połączenie pomiędzy aktorem i wydarzeniem. W rezultacie zarówno aktorzy jak

i wydarzenia są ze sobą połączeni pośrednio, a więc mogą istnieć aktorzy, którzy

uczestniczą w tym samym wydarzeniu, i – z drugiej strony – są różne wydarzenia,

w których uczestniczy ten sam aktor.

Zazwyczaj sieć afiliacji opisywana jest przez macierz prostokątną, w której

wierszach znajdują się aktorzy ze zbioru aktorów N = {n

1

, n

2

, ..., n

g

}, a w kolumnach –

wydarzenia ze zbioru wydarzeń M = {m

1

, m

2

, ..., m

h

}. Dane w macierzy mają zwykle

charakter binarny – 1 wtedy, gdy aktor i uczestniczy w wydarzeniu j, a 0 – gdy

w wydarzeniu nie uczestniczy.

Ponieważ wydarzenia zwykle skupiają więcej niż dwójkę aktorów, sieć afiliacji

zawiera w sobie informację na temat zbiorów aktorów o liczebności większej niż dwa.

Stąd sieć afiliacji nie może być analizowana dogłębnie poprzez badanie diad aktorów

i wydarzeń (Wasserman, 1994: 294).

background image

- 85 -

Kolejną specyficzną cechą omawianych sieci jest dualność relacji łączącej aktorów

z wydarzeniami. Można spoglądać na sieć afiliacji na dwa komplementarne sposoby: albo

na aktorów połączonych wydarzeniami, w których uczestniczą, albo też na wydarzenia,

których łączą aktorzy. Analitycznie rzecz biorąc, oznacza to, że możliwe jest badanie więzi

łączących aktorów, więzi łączących wydarzenia lub też obydwie rzeczy na raz. Tak więc

dwóch aktorów jest ze sobą połączonych wtedy i tylko wtedy, gdy istnieje przynajmniej

jedno wydarzenie, w którym obydwaj uczestniczą. Analogicznie – dwa wydarzenia są ze

sobą połączone wtedy i tylko wtedy, gdy istnieje przynajmniej jeden aktor, który

uczestniczy w obydwu tych wydarzeniach.

Sieć afiliacji zdaje się zatem idealna do zastosowania do jej eksploracji analizy

korespondencji, dzięki której można zbadać powiązania aktorów z wydarzeniami.

Będziemy poszukiwać zatem korespondencji pomiędzy wydarzeniami i aktorami, a więc

sprawdzimy, czy pewni aktorzy mają silniejszą, niż by wynikało to z modelowego

rozkładu losowego, tendencję do uczestnictwa w pewnych wydarzeniach i czy pewne

wydarzenia mają silniejszą tendencję do skupiania tych samych aktorów. Przy pomocy

analizy korespondencji można także wskazać, którzy aktorzy są podobni do siebie ze

względu na uczestnictwo w pewnych wydarzeniach oraz które wydarzenia są do siebie

podobne ze względu na skupianie podobnego składu aktorów.

- 86 -

Tabela 4.7. Uczestnictwo krajów kontynentów amerykańskich w organizacjach międzynarodowych

A

C

S

A

L

A

D

I

A

m

az

on

P

ac

t

A

n

de

an

P

ac

t

C

A

R

IC

O

M

G

E

N

P

L

A

C

E

A

G

ro

up

o

f

R

io

G

-3

ID

B

M

E

R

C

O

S

U

R

N

A

F

T

A

O

A

S

P

ar

la

ce

n

Sa

n

Jo

se

G

ro

up

SE

L

A

R

A

Z

E

M

Argentina

0

1

0

0

0

1

1

0

1

1

0

1

0

0

1

7

Belize

1

0

0

0

1

0

0

0

1

0

0

1

0

0

1

5

Bolivia

0

1

1

1

0

1

1

0

1

0

0

1

0

0

1

8

Brazil

0

1

1

0

0

1

1

0

1

1

0

1

0

0

1

8

Canada

0

0

0

0

0

0

0

0

1

0

1

1

0

0

0

3

Chile

0

1

0

0

0

0

1

0

1

0

0

1

0

0

1

5

Colombia

1

1

1

1

0

1

1

1

1

0

0

1

0

0

1

10

Costa Rica

1

0

0

0

0

1

0

0

1

0

0

1

0

1

1

6

Ecuador

0

1

1

1

0

1

1

0

1

0

0

1

0

0

1

8

El Salvador

1

0

0

0

0

1

0

0

1

0

0

1

1

1

1

7

Guatemala

1

0

0

0

0

1

0

0

1

0

0

1

1

1

1

7

Guyana

1

0

1

0

1

1

0

0

1

0

0

1

0

0

1

7

Honduras

1

0

0

0

0

1

0

0

1

0

0

1

1

1

1

7

Mexico

1

1

0

0

0

1

1

1

1

0

1

1

0

1

1

10

Nicaragua

1

0

0

0

0

1

0

0

1

0

0

1

0

0

1

5

Panama

1

0

0

0

0

1

0

0

1

0

0

1

0

0

1

5

Pararguay

0

1

0

0

0

0

1

0

1

1

0

1

0

0

1

6

Peru

0

1

1

1

0

1

1

0

1

0

0

1

0

0

1

8

Suriname

1

0

1

0

0

0

0

0

1

0

0

1

0

0

1

5

USA

0

0

0

0

0

0

0

0

1

0

1

1

0

0

0

3

Urugway

0

1

0

0

0

1

1

0

1

1

0

1

0

0

1

7

Venezuela

1

1

1

1

0

1

1

1

1

0

0

1

0

0

1

10

RAZEM

12

11

8

5

2

16

11

3

22

4

3

22

3

5

20

Źródło: (Faust: 2005)

Mapa korespondencji (Rysunek 4.6) pokazuje, które państwa leżące na

kontynentach amerykańskich są podobne siebie ze względu na przynależność do

organizacji międzynarodowych. Od razu rzuca się w oczy wyraźna izolacja USA i Kanady,

które należąc do NAFTA skupiającej ponadto jedynie Meksyk, nie należą do wielu więcej

organizacji.

Na wymiarze poziomym zarysowuje się opozycja pomiędzy państwami należącymi

do Parlamentu Ameryki Środkowej – Parlacen (El Salwador, Gwatemala, Honduras

13

),

a państwami należącymi do organizacji MERCOSUR (Brazylia, Argentyna, Urugwaj,

Paragwaj). Można nawet pokusić się o tezę, że wymiar poziomy na tej mapie dzieli

państwa amerykańskie na duże z lewej strony i mniejsze – z prawej.

13

Do Parlamentu Ameryki Środkowej należą ponadto Nikaragua, Panama i Republika Dominikany (od 26

lutego 2004 r.). Republika Dominikany nie znalazła się w Tabela 4.7. Figurują w niej natomiast Nikaragua i
Panama, jednakże autorka zestawienia Katherine Faust (2005) nie uwzględniła ich przynależności do tej
organizacji w swoim opracowaniu.

background image

- 87 -

R

ys

un

ek

4

.6

M

ap

a

ko

re

sp

on

d

en

cj

i p

rz

yn

al

eż

no

śc

i p

ań

st

w

o

bu

A

m

er

yk

d

o

or

ga

ni

za

cj

i m

ię

dz

yn

ar

od

ow

yc

h.

- 88 -

Tabela 4.8. Kontrybucje profili wierszowych do inercji osi głównych

K

1

K

2

K

3

Argentyna

0,0409

0,0000

0,0303

Belize

0,0339

0,0082

0,3467

Boliwia

0,0499

0,0021

0,0008

Brazylia

0,0561

0,0005

0,0089

Kanada

0,0207

0,3969

0,0022

Chile

0,0195

0,0011

0,0032

Kolumbia

0,0294

0,0028

0,0043

Kostaryka

0,0533

0,0075

0,0069

Ekwador

0,0499

0,0021

0,0008

El Salvador

0,1354

0,0272

0,0599

Gwatemala

0,1354

0,0272

0,0599

Gujana

0,0125

0,0172

0,3026

Honduras

0,1354

0,0272

0,0599

Meksyk

0,0093

0,0694

0,0129

Nikaragua

0,0123

0,0025

0,0034

Panama

0,0123

0,0025

0,0034

Paragwaj

0,0511

0,0011

0,0275

Peru

0,0499

0,0021

0,0008

Surinam

0,0018

0,0026

0,0286

USA

0,0207

0,3969

0,0022

Urugwaj

0,0409

0,0000

0,0303

Wenezuela

0,0294

0,0028

0,0043

Źródło: obliczenia własne

Tabela 4.9. Kontrybucje profili kolumnowych do inercji osi głównych

K

1

K

2

K

3

ACS

0,1117

0,0327

0,0343

ALADI

0,1330

0,0002

0,0216

Amazon Pact

0,0496

0,0118

0,0621

Andean Pact

0,0699

0,0048

0,0049

CARICOM

0,0228

0,0146

0,5333

GENPLACEA

0,0019

0,0230

0,0098

Group of Rio

0,1330

0,0002

0,0216

G-3

0,0059

0,0029

0,0000

IDB

0,0061

0,0226

0,0031

MERCOSUR

0,0794

0,0001

0,0651

NAFTA

0,0378

0,7862

0,0005

OAS

0,0061

0,0226

0,0031

Parlacen

0,1701

0,0418

0,1234

San Jose Group

0,1723

0,0139

0,1160

SELA

0,0003

0,0226

0,0010

Źródło: obliczenia własne

background image

- 89 -

4.3. Zanieczyszczenie województw

Tym razem przedstawiony zostanie przykład wykorzystania analizy korespondencji

w ekologii. Tabela 4.10 ukazuje wartość emisji poszczególnych związków chemicznych

w każdym z województw. Przy pomocy analizy korespondencji będzie można ustalić,

które województwa są do siebie podobne pod względem emisji zanieczyszczeń.

Tabela 4.10. Emisja zanieczyszczeń gazowych w Polsce (2000 rok) w tysiącach mg wg danych GUS

w tym

Województwo

dwutlenek

siarki

tlenki azotu

tlenek węgla węglowodory

inne

Ogółem

Dolnośląskie

72,6

24,5

11,9

0,9

1,4

111,3

Kujawsko-Pomorskie

35,4

16,4

20,3

1,3

1,7

75,1

Lubelskie

21,8

10,6

7,1

0,6

0,7

40,8

Lubuskie

6

3,1

13,4

0,2

0,3

23

Łódzkie

256,3

48,5

22

0,5

0,6

327,9

Małopolskie

64,9

28,1

53,1

1,5

1,4

149

Mazowieckie

131

40,7

12,3

3,8

0,5

188,3

Opolskie

18

20,5

17,4

0,9

0,6

57,4

Podkarpackie

15,9

6,6

4,6

0,8

0,2

28,1

Podlaskie

6,2

3,2

3,4

0,8

0,4

14

Pomorskie

26,8

9,9

7,3

1

3,4

48,4

Śląskie

152,3

81,9

136,1

3,6

1,5

375,4

Świętokrzyskie

48,7

23,7

12,1

0,2

0,9

85,6

Warmińsko-Mazurskie

7,4

3,6

3,7

0,5

0,1

15,3

Wielkopolskie

127,7

28,6

13,3

1,1

0,3

171

Zachodniopomorskie

49,2

21,1

7,2

0,5

1,7

79,7

POLSKA OGÓŁEM

1040,2

370,9

345,3

18

15,6

Źródło: M. Grzegorczyk, M. Sałata, T. Skuza, Emisja zanieczyszczeń do powietrza (http://free.of.pl/p/piqt/strona1/roz3.html)

- 90 -

Rysunek 4.7 Mapa korespondencji – zanieczyszczenie województw poszczególnymi związkami chemicznymi

Mapa korespondencji (Rysunek 4.7) pokazuje podobieństwo województw pod

względem emitowanych przez każde z nich związków chemicznych. Pierwszy wymiar jest

najmocniej rozpinany przez tlenek węgla oraz dwutlenek siarki (tabela 4.11, tabela 4.12).

Na mapie obydwa związki znajdują się po przeciwnych stronach osi. Tlenek węgla

emitowany jest w największym stopniu w województwie śląskim, lubuskim, małopolskim.

Dwutlenek

siarki,

z drugiej,

strony

emitowany

jest

w największym

stopniu

w województwach łódzkim, wielkopolskim i mazowieckim.

Powierzchnia koła na mapie informuje dodatkowo o bezwzględnej ilości

emitowanych związków. Tak więc, najwięcej emituje się w Polsce dwutlenku siarki,

natomiast emisja tlenku węgla oraz tlenków azotu jest niższa od emisji dwutlenku siarki

i osiąga podobny poziom. Analogiczną informację możemy odczytać dla województw.

Z mapy wynika, że najwięcej zanieczyszczeń emitują województwo łódzkie i śląskie.

Drugi wymiar w największym stopniu rozpinany jest przez inne związki

chemiczne, które są emitowane głównie w województwie pomorskim.

background image

- 91 -

Tabela 4.11. Kontrybucje profili wierszowych do inercji osi

głównych

K

1

K

2

Dolnośląskie

0,0204

0,0140

Kujawsko-pomorskie

0,0178

0,0370

Lubelskie

0,0000

0,0269

Lubuskie

0,0868

0,0180

Łódzkie

0,2227

0,1289

Małopolskie

0,1043

0,0177

Mazowieckie

0,0800

0,0037

Opolskie

0,0462

0,0478

Podkarpackie

0,0001

0,0055

Podlaskie

0,0032

0,0424

Pomorskie

0,0001

0,4504

Śląskie

0,3125

0,0694

Świętokrzyskie

0,0020

0,0180

Warmińsko-mazurskie

0,0021

0,0020

Wielkopolskie

0,0880

0,0343

Zachodniopomorskie

0,0136

0,0840

Źródło: obliczenia własne

Tabela 4.12. Kontrybucje profili

kolumnowych do inercji osi głównych

K

1

K

2

dwutlenek siarki

0,3025

0,0507

tlenki azotu

0,0108

0,1608

tlenek węgla

0,6820

0,0690

węglowodory

0,0027

0,0837

inne

0,0021

0,6358

Źródło: obliczenia własne

- 92 -

4.4. Wyniki wyborów do Sejmu z 2005 r.

W tym miejscu przedstawię przykład, w którym analizę korespondencji

wykorzystano w jej tradycyjnym wydaniu, tzn. do danych o charakterze frekwencyjnym.

W wierszach tabeli kontyngencji znajdują się komitety wyborcze, którym udało się dostać

do Sejmu – jest ich 6; w kolumnach – okręgi wyborcze, których jest 41. W komórkach

tabeli znajdują się liczebności głosów, które zostały oddane na każdy komitet

w poszczególnych okręgach. Tablica z pełnymi danymi znajduje się w Aneksie (7.4).

Na wykresie (Rysunek 4.8) przedstawiona została mapa korespondencji, na której

widać, że zwolennicy poszczególnych partii nie są rozproszeni losowo po województwach.

Wręcz przeciwnie – na mapie zarysowuje się wyraźna struktura. Pierwszy wymiar można

zinterpretować jako całkiem wyraźną opozycję pomiędzy zwolennikami partii chłopskich

(PSL i Samoobrona – po prawej stronie) a zwolennikami partii kierujących swój program

do klasy średniej (PiS i Platforma Obywatelska – po lewej stronie tej osi). Na PSL

i Samoobronę głosowano częściej w okręgu chełmskim i siedleckim. Natomiast

mieszkańcy dużych miast (Warszawy, Katowic, Krakowa, Poznania, Gdańska) mają

tendencję do głosowania na PiS i Platformę.

Wymiar pierwszy stanowi kontinuum: od partii liberalnych (PO), poprzez coraz

mniej liberalne i bardziej etatystyczne, głoszące hasła socjalne (SLD, PiS), aż do

najbardziej roszczeniowych, kierujących swój program do rolników i robotników (PSL

i Samoobrona).

Wymiar drugi natomiast można zinterpretować jako dość wyraźna opozycja

prawica-lewica, a więc pomiędzy Prawem i Sprawiedliwością oraz Ligą Polskich Rodzin

a Sojuszem Lewicy Demokratycznej.

Na partie prawicowe głosowano częściej w okręgach południowej Polski (Nowy

Sącz, Tarnów, Rzeszów), natomiast na SLD głosowano częściej w Polsce

północno-zachodniej (Bydgoszcz, Koszalin, Piła).

Warto jednakże zwrócić uwagę na to, że powyższa interpretacja jest w pewnym

sensie skrótem myślowym. Żeby to wyjaśnić, trzeba zastanowić się nad tym, na czym

polega podobieństwo profili na tej mapie, tzn. co sprawia, że profile są blisko siebie. Otóż

dwie partie znajdą się na mapie blisko siebie, gdy oddawano na nie głosy częściej niż na

inne partie w tych samych okręgach wyborczych. Partie polityczne mają swoje programy,

background image

- 93 -

którymi odpowiadają na różne problemy trapiące społeczeństwo. W zasadzie wszystkie

mówią o likwidacji bezrobocia, polepszeniu służby zdrowia i budowie autostrad – tym

zatem się nie różnią. To, czym się różnią, to sposoby, które proponują, aby te bolączki

zlikwidować. Z drugiej strony poszczególne okręgi wyborcze mają różne problemy – np.

w jednych jest duże bezrobocie, w innych pracy jest więcej, ale ludzie chcieliby więcej

zarabiać (płacić niższe podatki). Okręgi wyborcze, w których dominuje wysokie

bezrobocie, będą skłonne głosować na partie, które obiecują podwyższenie zasiłków,

podwyższenie kwoty płacy minimalnej, dodatkowe osłony dla pracowników itp. Okręgi

dobrze rozwinięte gospodarczo – zwykle są to duże miasta – będą raczej głosować na

partie, które proponują zmniejszenie podatków, ułatwienie życia przedsiębiorcom.

Można zatem przypuszczać, że okręgi, w których występuje określony problem,

głosują w większości na partię, która skupia się w swoim programie na likwidacji tego

problemu. A więc sednem podobieństwa między okręgami wyborczymi, które na mapie

korespondencji są blisko siebie, jest nie tyle to, że głosowały one w większości na te same

partie polityczne, ale raczej to, że zmagają się z podobnymi problemami społecznymi.

Partie polityczne, z drugiej strony, są podobne do siebie, bo odpowiadają swoimi

programami na podobne problemy społeczne żywotne dla różnych okręgów.

- 94 -

R

ys

un

ek

4

.8

M

ap

a

ko

re

sp

on

de

nc

ji

k

om

it

et

ów

w

yb

or

cz

yc

h

i o

k

rę

w

w

yb

or

cz

yc

h

background image

- 95 -


Tabela 4.13. Kontrybucje profili wierszowych do inercji osi głównych

K

1

K

2

K

3

Liga Polskich Rodzin

0,0220

0,1779

0,0599

Prawo i Sprawiedliwość

0,0352

0,2933

0,0018

Sojusz Lewicy Demokratycznej

0,0010

0,2757

0,5883

Platforma Obywatelska RP

0,3046

0,0700

0,1726

Polskiego Stronnictwa Ludowego

0,3461

0,0240

0,0001

Samoobrona Rzeczpospolitej Polskiej

0,2912

0,1590

0,1774

Źródło: obliczenia własne

Tabela 4.14 Kontrybucje profili kolumnowych do inercji osi głównych

K

1

K

2

K

3

Legnica 0,0010

0,0219

0,0143

Wałbrzych 0,0000

0,0146

0,0003

Wrocław 0,0243

0,0032

0,0275

Bydgoszcz 0,0001

0,0258

0,1172

Toruń 0,0127

0,0141

0,0049

Lublin 0,0298

0,0277

0,0015

Chełm 0,1081

0,0058

0,0083

Zielona Góra 0,0002

0,0155

0,0359

Łódź 0,0089

0,0071

0,0396

Piotrków

Trybunalski

0,0320

0,0044

0,0066

Sieradz 0,0474

0,0349

0,0003

Chrzanów 0,0005

0,0375

0,0022

Kraków 0,0434

0,0353

0,0196

Nowy Sącz 0,0000

0,0891

0,0008

Tarnów 0,0014

0,0671

0,0018

Płock 0,0423

0,0006

0,0000

Radom 0,0327

0,0000

0,0104

Siedlce 0,0735

0,0204

0,0121

Warszawa I 0,1559

0,0013

0,0090

Warszawa II 0,0097

0,0244

0,0242

K

1

K

2

K

3

Opole 0,0008

0,0079

0,0030

Krosno 0,0080

0,0621

0,0167

Rzeszów 0,0038

0,1961

0,0245

Białystok 0,0096

0,0141

0,0633

Gdańsk 0,0478

0,0064

0,0931

Gdynia 0,0191

0,0038

0,0117

Bielsko-Biała 0,0128

0,0216

0,0000

Częstochowa 0,0000

0,0018

0,0096

Gliwice 0,0248

0,0030

0,0031

Rybnik 0,0167

0,0000

0,0004

Katowice 0,0532

0,0000

0,0098

Sosnowiec 0,0236

0,0088

0,3383

Kielce 0,0510

0,0047

0,0001

Elbląg 0,0046

0,0171

0,0139

Olsztyn 0,0013

0,0060

0,0084

Kalisz 0,0150

0,0192

0,0009

Konin 0,0217

0,0329

0,0076

Piła 0,0045

0,0395

0,0050

Poznań 0,0473

0,0077

0,0301

Koszalin 0,0060

0,0619

0,0211

Szczecin 0,0046

0,0347

0,0030

- 96 -

5. Zakończenie

Analiza korespondencji to technika posiadająca wiele zalet, wśród których należy

wymienić łatwość interpretacji, atrakcyjność formy prezentacji wyników oraz ich

przejrzystość. Ograniczanie obszaru jej zastosowań tylko do danych o charakterze

frekwencyjnym pozbawia badacza ciekawego narzędzia analitycznego. Technika ta

w tradycyjnym wydaniu jest jedynie innym sposobem przedstawiania danych

numerycznych zawartych w tabeli kontyngencji. Naturalnie jest to wtedy pomocne

narzędzie, zwłaszcza gdy analizie poddawane są duże zbiory danych, a zmienne mają

wiele kategorii. Dzięki analizie korespondencji możliwe jest wtedy przyjrzenie się

zależnościom pomiędzy poszczególnymi kategoriami zmiennych.

Natomiast dopuszczenie nietradycyjnych zastosowań otwiera przed badaczem

szeroką gamę interesujących możliwości. Badanie map percepcyjnych to bardzo ważny

dział wszelkich badań marketingowych. Pozwala na zorientowanie się w rzeczywistości

konsumenckiej – poznanie sposobu, w jaki konsumenci postrzegają marki producentów

jest ogromnie istotne z punktu widzenia formułowania przekazów reklamowych, tworzenia

nowych produktów, znajdowania nisz marketingowych.

Podbudowa teoretyczna oparta na teorii przestrzeni konceptualnych oraz koncepcji

schematów

poznawczych,

którą

przedstawiłem

w niniejszej

pracy,

pozwala

domniemywać, że zastosowanie omawianej techniki do konstruowania map percepcyjnych

ma uzasadnienie. Algorytm wykorzystywany w analizie korespondencji – rzutowanie

punktów w przestrzeni na niskowymiarowe podprzestrzenie – może odpowiadać

rzeczywistym procesom kognitywnym zachodzącym w ludzkim umyśle w procesie

kategoryzacji obiektów z otaczającego świata. Mapa korespondencji zaś zdaje sprawę

z ułożenia tych obiektów. Natomiast wymiary, czyli osie główne, odpowiadają ukrytym

(latentnym) metodom porządkowania informacji. Ich moc wyjaśniająca, a więc wielkość

inercji, którą wyjaśniają, niesie informację o tym, jakie są priorytety w kategoryzacji.

Przy tego rodzaju badaniach niezmiernie istotna jest preklasyfikacja respondentów,

dzięki której poddawane będą analizie mapy percepcyjne jednostek w miarę

homogenicznych. Dzięki temu wstępnemu zabiegowi uniknąć można artefaktów

w analizie.

background image

- 97 -

6. Bibliografia

 Barsalou, Lawrence W., Context-independent and context-dependent information in

concepts, „Memory & Cognition”, t. 10 (1): 1982, s. 82–93.

 Beh, Eric J., Simple Correspondence Analysis: A Bibliographic Review, „International

Statistical Revue”, t. 72(2): 2004, s. 257–284.

 Beh, E. J., Correspondence analysis in the statistical literature, University of Western

Sydney, Sydney 2004.

 Bénzecri Jean-Paul, Correspondence Analysis Handbook, Marcel Dekker Inc., New

York 1992.

 Blalock, Hubert, Statystyka dla socjologów, PWN, Warszawa 1975.

 Bourdieu, Pierre, La distinction. Critique sociale du jugement, Les Editions de Minuit,

Paris 1979.

 Carrington, Peter, Scott J., Wasserman S., Models and Methods in Social Network

Analysis, Cambridge University Press 2005.

 Desrosières, Alain, Entre realisme metrologique et conventions d’equivalence: les

ambiguites de la sociologie quantitative, „Genèses”, t. 43: 2001, s. 112–127.

 Faust, Katherine, Using Correspondence Analysis for Joint Displays of Affiliation

Networks, [w:] Models and Methods in Social Network Analysis, red. Peter J.

Carrington, John Scott i Stanley Wasserman, Cambridge University Press, New

York 2005.

 Fiedler, John A., A Comparison of Correspondence Analysis and Discriminant

Analysis-Based Maps, POPULUS Inc., AMA Advanced Research Techniques

Forum, 1996, ss. 15.

 Gärdenfors, Peter, Conceptual Spaces. The Geometry of Thought, A Bradford Book,

The MIT Press, Cambridge (Massachusetts), London (England) 2000.

 Goldstone, Robert L., The Role of Similarity in Categorization: Providing

a Groundwork, Indiana University, Bloomington 1993.

 Goodman, Nelson, Seven Strictures on Similarity. [w:] Problems and Projects, red.

Nelson Goodman, Bobbs-Merrill, Indianapolis and New York 1972, s. 437-447.

 Górniak, Jarosław, Analiza danych w marketingu – część III c, materiały kursowe

SPSS, 2005.

- 98 -

 Greenacre, Michael, Jorg Blasius (red.), Correspondence Analysis in Social Sciences,

Academic Press, New York, London 1994.

 Higgs, N.T., Practical and Innovative Uses of Correspondence Analysis, „The

Statistician”, t. 40(2), 1991, s. 183–194.

 Hill, M.O., H.G. Gauch, Jr., Detrended Correspondence Analysis: An Improved

Ordination Technique, „Vegetatio”, t. 42:1980, s. 47–58.

 Kiełbasiński, A., H. Schwetlick, Numeryczna algebra liniowa, WNT, Warszawa 1992.

 Kirsch, David, Today the earwig, tomorrow man, „Artificial Intelligence” 47:1991,

s. 161–184.

 Lew-Starowicz, Zbigniew, Miłość i seks. Słownik encyklopedyczny, Wydawnictwo

Europa, Wrocław 1999.

 Magnusson, David, Bergman, L. R., Problems and methods in longitudinal research.

Stability and change, Cambridge University Press, Cambridge 1991.

 Matlin, Margaret W., Cognition, John Wiley & Sons, New York 2005.

 Maruszewski,

Tomasz,

Psychologia

poznania,

Gdańskie

Wydawnictwo

Psychologiczne, Gdańsk 2001.

 Ostasiewicz, Walenty, Statystyczne metody analizy danych, Wydawnictwo Akademii

Ekonomicznej we Wrocławiu, Wrocław 1990.

 Pęczak, Mirosław, Stara, ale lala, „Polityka”, nr 40:2003.

 Piłat, Robert, Nazwy i pojęcia barw, "Kognitywistyka i nowe media w edukacji",

2/2002.

 Pleszczyńska, Elżbieta, Magdalena Niewiadomska-Bugaj, Gradacyjny odpowiednik

klasycznej analizy danych, Instrytut Podstaw Informatyki PAN, West Virginia

University, Morgantown 1999.

 Press, W. H., S. A. Teukolsky, W. T. Vetterling, and B. P. Flannery, Numerical

Recipes in C: The Art of Scientific Computing, Cambridge University Press,

Cambridge, U.K. 1992.

 Rosch, E., Principles of Categorization, in Cognition and Categorization, E. Rosch, B.

B. Lloyd (Eds.), Lawrence Erlbaum Associates, Hillsdale, New Jersey 1978, s. 27–

48.

 Stanimir, Agnieszka, Analiza korespondencji jako narzędzie do badania zjawisk

ekonomicznych, Wydawnictwo Akademii Ekonomicznej im.. Oskara Langego we

Wrocławiu, Wrocław 2005.

background image

- 99 -

 Strelau, Jan, Psychologia. Podręcznik akademicki, tom III, Gdańskie Wydawnictwo

Psychologiczne, Gdańsk 2000.

 Schutz, Alfred, Potoczna i naukowa interpretacja ludzkiego działania, [w:] Kryzys

i schizma 1, Państwowy Instytut Wydawniczy, Warszawa 1984.

 Wasserman, Stanley, K. Faust, Social Network Analysis, Cambridge University Press,

Cambridge 1994.

- 100 -

7. Aneks

7.1. Kod programu do obliczania współrzędnych głównych w programie

MatLab (oprac. Filip Tomaszewski)

X=[

326

38

241

110

3

688

116

584

188

4

343

84

909

412

26

98

48

403

681

85

]

[m,n] = size(X)

f=ones(1,m)*X*ones(1,n)'

P=X/f

r=P*ones(1,n)'

c=P'*ones(1,m)'

Dr=diag(r)

Dc=diag(c)

A=Dr^-0.5*(P-r*c')*Dc^-0.5

[U, D, V]=svds(A)

F=Dr^-0.5*U*D

G=Dc^-0.5*V*D

DDD=(D*D/trace(D*D))

background image

- 101 -

7.2. Ankieta użyta do badania postrzegania polityków

- 102 -

7.3. Ilustracja współzależności wartości inercji całkowitej układu i rozrzutu

punktów profili w przestrzeni

Tabela 7.1 Przykład nr 1. Inercja = 0,323, chi kwadrat = 7,76

A B C Σ

X 2 2 8 12
Y 6 1 1 8
Z 2 0 2 4
Σ 10 3 11 24

A

B

C

Σ

X 0,08 0,08 0,33 0,50
Y 0,25 0,04 0,04 0,33
Z 0,08 0,00 0,08 0,17
Σ 0,42 0,13 0,46 1,00

A

B

C

Σ

X 0,17 0,17 0,67 1,00
Y
0,75 0,13 0,13 1,00
Z
0,50 0,00 0,50 1,00
Σ 0,42 0,13 0,46 1,00

A

B

C

Σ

X 0,20 0,67 0,73 0,50
Y 0,60 0,33 0,09 0,33
Z 0,20 0,00 0,18 0,17
Σ 1,00 1,00 1,00 1,00

Tabela 7.2 Przykład nr 2. Inercja = 0,075, chi kwadrat = 1,8

A B C Σ

X 2 4 2 8
Y 4 2 4 10
Z 2 2 2 6
Σ 8 8 8 24

A

B

C

Σ

X 0,08 0,17 0,08 0,33
Y 0,17 0,08 0,17 0,42
Z 0,08 0,08 0,08 0,25

Σ 0,33 0,33 0,33 1,00

A

B

C

X 0,25 0,50 0,25 1,00
Y 0,40 0,20 0,40 1,00
Z 0,33 0,33 0,33 1,00

Σ 0,33 0,33 0,33 1,00

A

B

C

Σ

X 0,25 0,50 0,25 0,33
Y 0,50 0,25 0,50 0,42
Z 0,25 0,25 0,25 0,25
Σ 1,00 1,00 1,00 1,00

Tabela 7.3 Przykład nr 3. Inercja = 1,34, chi kwadrat = 32,25

A B C Σ

X 7 1 0 8
Y 0 7 1 8
Z 1 0 7 8

Σ 8 8 8 24

A

B

C

Σ

X 0,29 0,04 0,00 0,33
Y 0,00 0,29 0,04 0,33
Z 0,04 0,00 0,29 0,33
Σ 0,33 0,33 0,33 1,00

A

B

C

Σ

X 0,88 0,13 0,00 1,00
Y 0,00 0,88 0,13 1,00
Z 0,13 0,00 0,88 1,00

r 0,33 0,33 0,33 1,00

A

B

C

c

X 0,88 0,13 0,00 0,33
Y 0,00 0,88 0,13 0,33
Z 0,13 0,00 0,88 0,33
Σ 1,00 1,00 1,00 1,00


background image

- 103 -

Rysunek 7.1 Przykład nr 1. Rzuty profili wierszowych i kolumnowych


- 104 -

Rysunek 7.2 Przykład nr 2. Rzuty profili wierszowych i kolumnowych

background image

- 105 -

Rysunek 7.3 Przykład nr 3. Rzuty profili wierszowych i kolumnowych

- 106 -

7.4. Tabela kontyngencji do przykładu z rozdziału 4.4

Tabela 7.4. Tablica kontyngencji: głosowanie na poszczególne komitety w zależności od okręgu

wyborczego (Źródło: Państwowa Komisja Wyborcza)

LPR

PiS

SLD

PO RP

PSL

Samoobrona

RP

Legnica

19543

70157

43221

69137

10904

35829

Wałbrzych

14222

43568

27189

50866

12770

25992

Wrocław

26100

99669

38782

125498

11751

32654

Bydgoszcz

19109

70475

53220

59324

17569

33370

Toruń

22784

64726

33605

53220

20129

53077

Lublin

49061

102406

32086

67583

45056

57866

Chełm

35837

60415

24143

33080

53161

60444

Zielona Góra

20641

61788

43771

65494

21236

30867

Łódź

22465

72425

41520

71454

6263

25377

Piotrków

Trybunalski

20189

51831

24958

34161

24066

48043

Sieradz

19061

61373

42657

43173

35050

62779

Chrzanów

23007

69902

17195

43809

12125

17055

Kraków

23960

156750

33460

128460

13157

21228

Nowy Sącz

31497

92257

14892

54406

19906

21048

Tarnów

28157

75583

13188

45176

20806

22009

Płock

15972

55695

27479

33164

36432

41058

Radom

18150

57577

22266

35131

29868

43677

Siedlce

34886

75590

21584

37469

48543

55817

Warszawa I

44402

227169

87513

251001

7135

17761

Warszawa II

23288

104542

22749

89123

17323

23288

Opole

18197

54779

27723

64678

12781

28257

Krosno

37247

92312

25032

42194

26125

32328

Rzeszów

52777

154016

29594

65517

41286

31811

Białystok

39316

98325

42529

52687

28986

42011

Gdańsk

19543

89702

31492

138995

9510

23445

Gdynia

28189

98992

41397

120761

10958

34645

Bielsko-Biała

19907

89986

23334

66904

8593

16631

Częstochowa

11155

50703

19545

45391

10441

25150

Gliwice

12364

65827

27067

76686

4515

16138

Rybnik

15751

70394

26176

71158

5617

17166

Katowice

16473

103840

34834

113949

4276

17169

Sosnowiec

15339

51349

44747

57569

7595

0

Kielce

22470

86669

44976

56138

51615

62850

Elbląg

9282

36347

20012

39058

14988

29410

Olsztyn

16076

46618

29469

49692

19481

24351

Kalisz

21071

56783

36727

61268

30972

46684

Konin

13691

42927

28495

40943

22216

45129

Piła

16278

37042

34613

54064

21114

32272

Poznań

16481

77979

31985

115884

6257

17427

Koszalin

8088

35669

24335

38178

9211

39968

Szczecin

18819

71581

45708

86888

11827

35328


Wyszukiwarka

Podobne podstrony:
Analiza widmowa i jej zastosowanie, Fizyka
Magdalena Bergmann Tanio, skutecznie, bezpiecznie nowa analiza instytucjonalna i jej wizja instytu
RACHUNEK CAŁKOWY. CAŁKA OZNACZONA I JEJ ZASTOSOWANIA, SZKOŁA, Matematyka, Matematyka
Sól Epsom i jej zastosowanie w kosmetyce
6 Pochodna i jej zastosowanie
Prawa ogólne i generalizacje historyczne w naukach społeczny, Studia, Socjologia
Nachmias Metody badawcze w naukach spolecznych
Dioda-wiad ogolne, Szkoła, Politechnika 1- 5 sem, SEM IV, Elektronika i Energoelektronika. Laborator
Metody badawcze w naukach społecznych, Studia, Metodologia
analiza korespondencji w R
Analiza matematyczna, lista analiza 2008 10 zastosowania pochodnych
Modul 4 Wyjasnianie i przewidywanie w naukach spolecznych
Myślenie systemowe w naukach społecznych
smt 2 Metodologia w naukach społecznych, Metodologia kwiatkowski
Analiza makroekonomiczna i jej interpretacja

więcej podobnych podstron