METODY WIELOWYMIAROWEJ ANALIZY PORÓWNAWCZEJ
Metody wielowymiarowej analizy porównawczej: metody służące do porównywania obiektów opisywanych przez wiele ich właściwości.
Grupy metod WAP
metody taksonomiczne - porównywanie obiektów obejmujące zarówno porządkowanie zbioru obiektów jak i ich grupowanie w podzbiory jednostek podobnych do siebie ze względu na charakteryzujące je właściwości oraz wybór reprezentantów otrzymanych grup obiektów
metody analizy czynnikowej - transformacja wejściowego zbioru charakterystyk obiektów dowolnej natury, najczęściej zmiennych opisujących obiekty przestrzenne, w nowe nie obserwowalne charakterystyki zwane czynnikami, poprzez ortogonalne przekształcenie macierzy danych wejściowych. Transformacja ta pozwala na wyjaśnienie struktury powiązań między obserwowalnymi charakterystykami obiektów
Przedmiot analizy porównawczej - obiekty, które mogą być jednostkami przestrzeni, zmiennymi lub jednostkami czasu lub ich iloczyny kartezjańskie.
Przestrzeń analizy porównawczej - właściwości obiektów, czyli wartości 2 pozostałych elementów, które mogą być przedmiotem analizy porównawczej.
Podstawowe przesłanki porównywania zbiorów obiektów:
Zredukowanie dużej ilości nagromadzonych informacji do kilku podstawowych kategorii, które mogą być traktowane jako przedmiot dalszej analizy.
Otrzymanie jednorodnych grup obiektów, ze względu na charakteryzujące je właściwości, co ułatwia ustalenie ich zasadniczych właściwości.
Zmniejszenie nakładów czasu i kosztów badania przez ograniczenie rozważań do najbardziej typowych zjawisk, procesów i kategorii.
Wyjaśnienie struktury powiązań między charakterystykami obiektów.
MACIERZ OBSERWACJI
, i=1,2,...,n; j=1,2,...,m; t=1,2,...,T,
gdzie:
xijt - wartość j-tej zmiennej (cechy) w i-tym obiekcie przestrzennym w t-tym okresie (momencie) czasu.
Zbiory i ich iloczyny kartezjańskie stanowiące przedmiot i przestrzeń analizy porównawczej w badaniach społeczno-ekonomicznych:
P={p1,...,pn} - zbiór obiektów przestrzennych,
Y={y1,...,ym} - zbiór zmiennych (cech),
T={t1,t2,...,tk} - zbiór okresów (jednostek czasu),
PY=P•Y{p1y1,p2y1,...,pny1,p1y2,p2y2,...,pny2,...,p1ym,p2ym,...,pnym} - zbiór obiekto-zmiennych,
PT=P•T - zbiór obiekto-okresów,
YT=Y•T - zbiór zmienno-okresów,
PYT=P•Y•T - zbiór obiekto-zmienno-okresów.
ETAPY BADANIA
WYKORZYSTUJĄCEGO METODY WAP
1. Sformułowanie celu analizy (wstępnych hipotez badawczych).
2. Określenie zakresu merytorycznego, terytorialnego i czasowego badań, a w szczególności wyspecyfikowanie elementów zbioru obiektów oraz zbioru cech wyjściowych.
3. Zebranie kompletnych i adekwatnych danych statystycznych:
- ustalenie źródeł danych i zebranie danych źródłowych,
- doprowadzenie danych do wzajemnej porównywalności,
- eliminacja obserwacji o anormalnych poziomach,
- interpolacja brakujących informacji,
- wyznaczenie zmiennych przetworzonych (udziałów procentowych, współczynników dynamiki, wskaźników ekonomicznych itp.).
4. Analiza statystyczna danych wejściowych:
- wyznaczenie i analiza parametrów opisowych rozkładu (miary przeciętne, miary dyspersji, miary asymetrii, miary koncentracji),
- ocena stopnia i kierunku współzależności między zmiennymi wyjściowymi.
5. Dobór optymalnego podzbioru zmiennych diagnostycznych:
- wyeliminowanie zmiennych quasi - stałych,
- analiza struktury macierzy korelacji,
- ustalenie końcowej listy zmiennych.
6. Porównywanie obiektów w ramach analizowanych układów zmiennych:
- wybór metody porównania,
- określenie sposobu normalizacji zmiennych,
- ustalenie miar podobieństwa,
- porównanie obiektów za pomocą wybranej metody.
7. Analiza i interpretacja wyników, sformułowanie wniosków końcowych.
SKALE POMIARU
skala nominalna
przyporządkowuje poszczególnym wartościom cechy wyłącznie nazwy
pozwala ona jedynie na stwierdzenie identyczności lub różnic porównywanych obiektów oraz zliczyć obiekty identyczne i różne
przykładem pomiaru na tej skali jest przyporządkowanie płci (kobieta, mężczyzna) porównywanym ze względu na tą cechę osobom
skala porządkowa (rangowa)
pozwala nie tylko na zróżnicowanie obiektów lecz także porównywanie wartości zmiennych zaobserwowanych w obiektach (liniowe porządkowanie obiektów)
nie pozwala określić odległości między obiektami
umożliwia w efekcie zliczanie obiektów uporządkowanych (liczby relacji równości (identyczności), równości, większości i mniejszości)
typowym przekładem tego typu cech jest poziom wykształcenia.
skala przedziałowa (interwałowa)
pozwala dodatkowo, w stosunku do skali porządkowej, obliczyć odległości między obiektami, dokonując pomiaru cech za pomocą liczb rzeczywistych
dla skali tej możliwe jest, obok operacji arytmetycznych dopuszczalnych dla skal o mniejszej mocy, także dodawanie i odejmowanie
wartość zerowa na tej skali ma charakter umowny (np. 0o w skali Celsjusza), co prowadzi do zachowania różnic między wartościami cechy przy zmianie jednostek miary
przykładem zmiennych, dla których pomiar dokonywany jest na skali przedziałowej są dochody gospodarstw domowych
skala ilorazowa (stosunkowa)
ma podobny charakter jak skala przedziałowa, z tym występuje na niej zero bezwzględne (zero ogranicza lewostronnie zakres tej skali)
można na tej skali obok operacji dopuszczalnych na skalach słabszych dokonywać także dzielenia i mnożenia, a tym samym przedstawiać dowolną wartość cechy danego obiektu jako wielokrotność wartości cechy dla innego obiektu
zmienną mierzoną na takiej skali jest na przykład wiek czy też waga osób
DOBÓR OPTYMALNEGO PODZBIORU ZMIENNYCH DIAGNOSTYCZNYCH
OGÓLNE ZASADY DOBORU ZMIENNYCH
kryteria pozastatystyczne (merytoryczne i formalne)
kryteria statystyczne
KRYTERIA MERYTORYCZNE
istotność z punktu widzenia analizowanych zjawisk
wyczerpanie zakresu zjawisk
logiczność wzajemnych powiązań
zachowana proporcjonalność reprezentacji zjawisk cząstkowych
KRYTERIA FORMALNE
ilościowy charakter zmiennych, czyli możliwość wyrażania poziomu zmiennej za pomocą liczb
dostępność danych
kompletność danych dla wszystkich obiektów
ekonomiczność, czyli koszty zebrania danych
KRYTERIA STATYSTYCZNE
zdolność dyskryminacyjna zmiennych, czyli ich zmienność względem badanych obiektów
pojemność (potencjał) informacyjna zmiennych, czyli stopień ich skorelowania z innymi zmiennymi
stopień trudności w osiąganiu przez zmienne wysokich wartości
METODY DOBORU MERYTORYCZNEGO
burza mózgów
opiera się na swobodnej wymianie poglądów w niewielkich zespołach osób, dobranych ze względu na znajomość badanego zjawiska
w klasycznej burzy mózgów tworzone są dwa zespoły zadaniowe
zespół twórczy ma za zadanie zaproponowanie jak największej liczby potencjalnych zmiennych diagnostycznych
rolą drugiego zespołu, oceniającego, jest dokładna analiza i ocena przygotowanej przez zespół twórczy wstępnej listy potencjalnych zmiennych diagnostycznych i przedstawienie ostatecznej listy potencjalnych zmiennych diagnostycznych
metoda delficka
jest metodą grupowego rozwiązywania problemów lecz nie w trakcie wspólnych sesji lecz drogą ankietowania ekspertów w danej dziedzinie
eksperci formułują swoje propozycje z zachowaniem anonimowości
procedurę ankietowania powtarza się wielokrotnie, stopniowo ustalając listę potencjalnych zmiennych diagnostycznych
ANALIZA ZDOLNOŚCI DYSKRYMINACYJNEJ
Klasyczny współczynnik zmienności:
, j=1,2,...,m,
gdzie:
- średnia arytmetyczna wartości j-tej zmiennej, przy czym:
,
- odchylenie standardowej j-tej zmiennej, przy czym:
.
Pozycyjny współczynnik zmienności:
, j=1,2,...,m,
gdzie:
- mediana j-tej zmiennej, przy czym:
,
- medianowe odchylenie bezwzględne j-tej zmiennej, przy czym:
, i=1,2,...,n; j=1,2,...,m.
ANALIZA POTENCJAŁU INFORMACYJNEGO
Metoda parametryczna
Wyznaczamy macierz korelacji zmiennych.
Ustalamy arbitralnie pewną progową wartość współczynnika korelacji, którą oznaczamy przy r* taką, że 0<r*<1. Najczęściej przyjmuje się r*=0,5 lub też w oparciu o formuły:
, j,j'=1,2,...,m,
,
gdzie:
- wartość odczytana z tablic dystrybuanty rozkładu t-Studenta dla n-2 stopni swobody oraz przyjętego poziomu istotności α.
Wyznaczamy sumę wartości bezwzględnych elementów każdej kolumny (lub każdego wiersza) macierzy R:
Znajdujemy kolumnę (odpowiednio - wiersz), dla której powyższa suma jest największa:
W kolumnie (wierszu)
wyróżniamy elementy przewyższające co do modułu wartość r*, czyli takie
, że
oraz odpowiadające tym elementom wiersze (kolumny). Zmienną, która odzwierciedla ta kolumna (ten wiersz) uważa się za pierwszą zmienną centralną, zaś zmienne reprezentowane przez wyróżnione wiersze (kolumny) - za jej zmienne satelitarne, czyli takie zmienne, że ich podobieństwo do cechy zmiennej jest nie mniejsze niż r*. W ten sposób uzyskujemy pierwszą grupę (skupienie) zmiennych.
Z macierzy R wykreślamy wyróżnione kolumny i wiersze, otrzymując w ten sposób zredukowaną macierz korelacji.
Kontynuujemy postępowanie opisane w punktach 1-4 aż do wyznaczenia zbioru zmiennych diagnostycznych. Do dalszej analizy pozostawiamy zmienne centralne oraz zmienne izolowane (tworzące tzw. bazowy układ cech), czyli zmienne nienależące do żadnej z otrzymanych grup.
Metoda odwróconej macierzy korelacji
Wyznaczanie macierzy odwrotnej do macierzy korelacji o postaci:
, j,j'=1,2,...,m,
gdzie:
,
przy czym:
- macierz zredukowana po usunięciu z niej j-tego wiersza i j'-tej kolumny.
- wyznaczniki odpowiednio macierzy R i Rjj'.
Ustalamy wartość krytyczną
elementów diagonalnych macierzy R-1, najczęściej na poziomie
(elementy diagonalne przyjmują wartości z przedziału
).
Wyszukujemy elementy diagonalne macierz R-1, spełniające nierówność:
.
Zmienne, które spełniają powyższy warunek powodują złe uwarunkowanie numeryczne macierzy R.
Redukujemy zbiór dopuszczalnych zmiennych diagnostycznych usuwając z niego zmienne spełniające warunek sformułowany w kroku 3 uzyskując w ten sposób zbiór zmiennych diagnostycznych.
WAŻENIE ZMIENNYCH DIAGNOSTYCZNYCH
Metoda punktowa
Przyjmujemy założenia:
mamy p punktów do podziału między m zmiennych (przy czym p jest liczbą dodatnią),
przez ph oznaczamy nieujemną liczbę punktów przyznanych przez h-tego eksperta zmiennej Xj, przy czym spełniona jest równość:
, h=1,2,...,k.
Na podstawie wyników ocen wszystkich ekspertów budujemy macierz:
, h=1,2,...k; j=1,2,...,m
Obliczamy średnią ocenę każdej zmiennej:
, j=1,2,...,m.
Ponieważ
wagi zmiennych określamy jako:
, j=1,2,...,m
przy czym spełniają one wymogi:
(wymóg niekonieczny)
Metoda GVP
Przyjmujemy założenia, że o wadze zmiennej decydują:
stopień zróżnicowania zmiennej w badanych obiektach (stopień dyskryminacji obiektów),
stopień skorelowania zmiennej z innymi zmiennymi (zasób informacji o obiektach).
Stopień dyskryminacji obiektów oceniamy za pomocą następującej formuły:
Zasób informacji o obiektach szacujemy według wzoru:
gdzie:
- współczynnik zmienności j-tej zmiennej,
- współczynnik korelacji pomiędzy j'-ą i j-tą zmienną,
r* - wartość progowa współczynnika korelacji, przyjęta na poziomie 0,5.
Ostateczna formuła wagi dla zmiennych przyjmuje postać: