TRANSFORMACJA ZMIENNYCH
CELE TRANSFORMACJI
ujednolicenie charakteru zmiennych (postulat jednolitej preferencji),
doprowadzenie różnoimiennych zmiennych do wzajemnej porównywalności (postulat addytywności),
zastąpienie zróżnicowanych zakresów zmienności poszczególnych zmiennych zakresem stałym (postulat stałości rozstępu lub stałości wartości ekstremalnych),
wyeliminowanie z obliczeń wartości ujemnych (postulat dodatniości).
STYMULACJA ZMIENNYCH
Typy zmiennych:
stymulanty
- zmienne, których wysokie wartości są pożądane z punktu widzenia ogólnej charakterystyki badanego zjawiska
destymulanty
- zmienne, których wysokie wartości są niepożądane z punktu widzenia ogólnej charakterystyki badanego zjawiska
nominanty
- zmienne, których odchylenia od poziomu najkorzystniejszego (optymalnego poziomu nasycenia), z punktu widzenia ogólnej, charakterystyki badanego zjawiska są niepożądane
STYMULACJA DESTYMULANT
Przekształcenie ilorazowe
, b>0,
gdzie:
- wartość j-tej zmiennej destymulanty w i-tym obiekcie,
- wartość j-tej zmiennej po transformacji w stymulantę w i-tym obiekcie,
b - stała przyjmowana w sposób arbitralny, najczęściej b=1.
Przekształcenie różnicowe
, b>0,
gdzie:
a, b - stałe przyjmowana w sposób arbitralny, najczęściej b=1 i a=0 lub
STYMULACJA NOMINANT
Przekształcenie ilorazowe
,
gdzie:
- nominalna (pożądana) wartość j-tej zmiennej,
- wartość j-tej nominanty w i-tym obiekcie.
Przekształcenie różnicowe
NORMALIZACJA ZMIENNYCH
Ogólna formuła normalizacji zmiennych diagnostycznych:
, i=1,2,..,n; j=1,2,...,m; b≠0,
gdzie:
zij - znormalizowana wartość j-tej zmiennej w i-tym obiekcie,
a,b,p - parametry normalizacyjne.
Standaryzacja
Cel: jest otrzymanie zmiennych o odchyleniu standardowym (standaryzacja klasyczna) lub medianowym odchyleniu bezwzględnym (standaryzacja pozycyjna) równym 1.
Standaryzacja klasyczna
dokonując standaryzacji klasycznej parametry normalizacyjne przyjmują najczęściej wartość:
.
formuła normalizacyjna ma wtedy postać:
, i=1,2,...,n; j=1,2,...,m.
w wyniku standaryzacji klasycznej średnia arytmetyczna zmiennej przyjmuje wartość 0 a odchylenie standardowe wartość 1.
Standaryzacja pozycyjna
standaryzacji pozycyjnej dokonujemy przyjmując najczęściej następujące wartości parametrów:
.
wzór na normalizację zmiennej przyjmuje postać:
, i=1,2,...,n; j=1,2,...,m.
medianowe odchylenie bezwzględne zmiennej wystandaryzowanej ma wtedy wartość 1.
Unitaryzacja
Cel: uzyskanie zmiennych o ujednoliconym zakresie zmienności, definiowanym przez różnicę pomiędzy ich wartościami maksymalnymi i minimalnymi w ujęciu klasycznym lub maksimum z medianowych odchyleń bezwzględnych w ujęciu pozycyjnym, równym stale 1.
Unitaryzacja klasyczna
W przypadku unitaryzacji klasycznej parametry normalizacyjne przyjmują najczęściej wartości:
przykładowo przyjmując za parametr a minimalną wartość zmiennej zaobserwowaną w porównywanych obiektach, ogólna formuła normalizacji przyjmuje postać:
, i=1,2,...,n; j=1,2,...,m.
w wyniku zastosowania powyższej formuły normalizacji otrzymujemy zmienne o wartościach należących do przedziału [0;1].
Unitaryzacja pozycyjna
stosując unitaryzację pozycyjną przyjmujemy najczęściej następujące wartości parametrów normalizacyjnych:
.
- ogólna formuła normalizacji ma wtedy postać:
, i=1,2,...,n; j=1,2,...,m.
Przekształcenie ilorazowe
Cel: odniesienie wartości zmiennej do pewnej stałej.
Ujęcie klasyczne
w przypadku ujęcia klasycznego parametry normalizacyjne przyjmują najczęściej wartości:
przykładowo przy przyjęciu jako punktu odniesienia wartości średniej arytmetycznej ogólna formuła normalizacji ma postać:
, i=1,2,...,n; j=1,2,...,m.
Ujęcie pozycyjne
parametry normalizacyjne w ujęciu pozycyjnym mają najczęściej wartości:
.
ogólna formuła normalizacyjna przyjmuje postać:
, i=1,2,...,n; j=1,2,...,m.
Normalizacja rangowa
pierwszym etapie obiekty zostają uszeregowane według kryterium porządkującego ze względu na daną zmienną
następnie wariantom zmiennej nadawane są rangi, tzn. umowne wartości liczbowe, którymi najczęściej są numery porządkowe miejsc zajmowanych przez obiekty w uporządkowanym szeregu
od strony formalnej formułę standaryzacyjną możemy przedstawić następująco:
, h,i=1,2,...,n.
gdzie:
h - ranga nadana i-temu obiektowi znajdującemu się na h-tym miejscu w uporządkowanym szeregu obiektów ze względu na j-tą zmienną.
Wyeliminowanie z obliczeń wartości ujemnych
gdzie:
,
przy czym:
S(zij) - odchylenie standardowe obliczane ze wszystkich elementów macierzy danych znormalizowanych
MIARY PODOBIEŃSTWA OBIEKTÓW
MIARA ODLEGŁOŚCI
miarą odległości pomiędzy obiektami i-tym i`-tym nazywamy funkcję d spełniającą następujące warunki:
dodatniość:
zwrotność:
symetria:
nierówność trójkąta:
gdzie:
- odległość i-tego obiektu od i'-tego obiektu
wzrost wartości miary odległości oznacza zmniejszenie stopnia podobieństwa obiektów
MIARA BLISKOŚCI (ZGODNOŚCI)
miarą bliskości pomiędzy obiektami i-tym i`-tym nazywamy funkcję p spełniającą następujące warunki:
dodatniość:
zwrotność:
symetria:
wzrost wartości miary bliskości oznacza wzrost stopnia podobieństwa obiektów
PODSTAWOWE MIARY ODLEGŁOŚCI MIĘDZY OBIEKTAMI
Czynniki wpływające na wybór miary odległości:
skale pomiaru zmiennych, gdy są one mierzone na tej samej skali,
skale pomiaru zmiennych, gdy są one mierzone na różnych skalach pomiaru,
zastosowana formuła normalizacji wartości zmiennych.
MIARY ODLEGŁOŚCI OBIEKTÓW PRZY STOSOWANIU ZMIENNYCH MIERZONYCH
NA SKALI PRZEDZIAŁOWEJ LUB ILORAZOWEJ
Metryka Minkowskiego:
,
gdzie:
wj - waga j-tej zmiennej,
p - parametr będący liczbą naturalną.
Odległość Euklidesa (p=2):
Odległość miejska (Manhattan, Hamminga) (p=1):
Odległość Czebyszewa (
):
Rys. 1.1. Odległości punktów według metryk euklidesowej, miejskiej i maksymalnej różnicy na płaszczyźnie.
z2 02
01 03 04 |
z2 |
02
01
03 04 |
z2
|
02
01 03 04 |
z1 z1 z1
Źródło: Opracowanie własne.
Odległość potęgowa:
,
gdzie:
a, b - parametry sterujące wagami zmiennych.
Jeżeli parametry a i b są równe 2 odległość potęgowa jest równa odległości euklidesowej.
Odległość Mahalanobisa (oparta na oryginalnych wartościach zmiennych):
,
gdzie:
sjj' - jj'-ty element macierzy odwrotnej do macierzy kowariancji zbioru obserwacji S.
MIARY ODLEGŁOŚCI OBIEKTÓW ZMIENNYCH MIERZONYCH NA SKALI NOMINALNEJ
ZMIENNE WIELOSTANOWE
Niezgodność procentowa (miara Sokala i Michenera):
,
gdzie:
mr - liczba zmiennych, dla których zachodzi relacja równości między obiektami.
ZMIENNE BINARNE
Wyróżnienie czterech typów liczebności zmiennych
m1,1 - liczebność zmiennych, dla których w porównywanych obiektach, występuje odpowiedni wariant zmiennej (zgodność występowania)
m0,0 - liczebność zmiennych, dla których w porównywanych obiektach, nie występuje odpowiedni wariant zmiennej (zgodność niewystępowania)
m1,0 - liczebność zmiennych, dla których w pierwszym z porównywanych obiektów, występuje wariant danej zmiennej, a w drugim z nich wariant ten nie występuje (niezgodność występowania)
m0,1 - liczebność zmiennych, dla których w pierwszym z porównywanych obiektów, nie występuje wariant danej zmiennej, a w drugim z nich wariant ten występuje (niezgodność występowania)
Miara Sokala i Michenera (jednakowe wagi):
.
Miara Czekanowskiego (zróżnicowane wagi):
.
- obie miary odległości przyjmują wartość z przedziału [0; 1].
DROGI POSTĘPOWANIA
GDY ZMIENNE CHARAKTERYZUJĄCE OBIEKTY
MIERZONE SĄ NA RÓŻNYCH SKALACH:
korzystanie w analizie porównawczej wyłącznie ze zmiennych jednego typu (mierzonych na tej samej skali) i odrzucenie innego typu zmiennych,
pominięcie faktu, że zmienne są mierzone na różnych skalach i stosowanie w analizach metod właściwych dla jednego typu zmiennych,
przekształcenie zmiennych różnego typu tak aby były mierzone na tej samej skali,
zastosowanie uniwersalnych miar odległości między obiektami, dopuszczających wykorzystanie zmiennych mierzonych na różnych skalach.
Uogólniona miara odległości Walesiaka
,
przy czym:
oraz
.
Podstawienia dla zmiennych mierzonych na skali ilorazowej lub przedziałowej:
Podstawienia gdy zmienne mierzone są na skali porządkowej:
i*=i',i”,
i*=i,i”.
Podstawienie gdy zmienne mierzone są na skali nominalnej:
dla porównywanych obiektów i oraz i':
dla pozostałych par obiektów:
i”=1,2,...n; i”≠i,i'.
MIARY ODLEGŁOŚCI STRUKTUR
Zastosowanie:
stosowane są w sytuacjach gdy obiekty są porównywane ze względu na jedno konkretne zjawisko (np. strukturę wydatków gospodarstw domowych), a przedmiotem tego porównania jest zróżnicowanie zbiorowości tych obiektów ze względu na kształtowanie się tego zjawiska
Warunki dla stosowania miar odległości struktur:
wskaźniki struktury są unormowane w przedziale [0;1],
suma wartości wskaźników struktury dla danego obiektu równa jest jedności.
Miara Nowaka:
,
.
Miara ta jest unormowana w przedziale [0;1].
Miara Kukuły:
,
gdzie:
.
Miara ta jest unormowana w przedziale [0;1].
Miara Chomątowskiego i Sokołowskiego:
MIARY BLISKOŚCI OBIEKTÓW
Miary bliskości obiektów przy zmiennych mierzonych na skali nominalnej
Współczynnik zbieżności Cramera:
,
gdzie:
Miara ta jest unormowana w przedziale [0;1].
Miary bliskości obiektów stosowane przy zmiennych mierzonych na skali porządkowej
Współczynnik korelacji rang:
,
gdzie:
ci - różnica pomiędzy rangami przyporządkowanymi i-temu obiektowi w obu uporządkowanych ich ciągach.
Miary bliskości obiektów stosowane przy zmiennych mierzonych na skali ilorazowej lub przedziałowej
Współczynnik korelacji liniowej Pearsona:
,
Współczynnik ten jest unormowany w przedziale [-1;1].