Rozdział I
Mieczysław Choynowski
Pomiar w psychologii
1. WSTĘP
Wiadomo, że postęp nauki zależy w dużym stopniu od rozwoju metod pomiarowych i że dzięki pomiarowi możliwa jest ścisła kontrola i przewidywanie zjawisk. Od najdawniejszych czasów wiedziano, że ciała spadają, ale fizyka zaczęła robić szybkie postępy dopiero wówczas, gdy zaczęto mierzyć prędkość spadania. Od najdawniejszych czasów zdawano sobie sprawę z różnic w inteligencji ludzkiej, lecz naukowa psychologia inteligencji zaczęła się rozwijać dopiero wówczas gdy się nauczono ją mierzyć.
Chociaż zagadnienia pomiaru są w zasadzie analogiczne we wszystkich naukach, lecz tak się składa, że psychologowie zajmują się w ostatnich latach logiką pomiaru więcej niż przedstawiciele innych dyscyplin. Dzieje się tak dlatego, że pomiar w psychologii nastręcza wiele swoistych trudności, nie spotykanych gdzie indziej. Jest rzeczą oczywistą, że z logicznego punktu widzenia łatwiej jest mierzyć długość lub temperaturę, nawet jeśli jest nią temperatura gwiazd, aniżeli inteligencję, ekstrawersję lub potrzebę osiągnięć.
Zdaniem Luce'a (1967) teorie i analizy pomiaru, które zawdzięczamy psychologii, mogą się okazać jednym z trwałych przyczynków współczesnych nauk behawioralnych do filozofii nauki. Wprawdzie niewiele z osiągniętych wyników zdążyło przeniknąć do kół filozoficznych, dla Luce'a
„nie ulega jednak wątpliwości, że psychologowie lepiej rozumieją dziś pewne aspekty pomiaru niż fizycy lub filozofowie z lat dwudziestych i trzydziestych, tacy jak Campbell (1920, 1921, 1928) lub Cohen i Nagel (1934).
Nie wszyscy psychologowie doceniają jednak rolę pomiaru w swej nauce, a są tacy, którzy wątpią w możliwość pomiaru zjawisk psycholo
1
16
17
gicznych - jeśli nie w ogóle wszystkich, to przynajmniej niektórych.
Mówi się więc czasem, że pomiar w psychologii jest „zasadniczo niemożliwy",
gdyż jakoby zjawiska, jakimi się psychologia zajmuje, są z natury rzeczy
niemierzalne, bądź też, nie negując jego zasadniczej możliwości i celowości,
twierdzi się, że to co zwykle uchodzi w psychologii za pomiar, najczęściej
wcale nim nie jest (por. Choynowski, 1961). Ponieważ stanowisko to wiąże
się z rozpowszechnianym rozróżnieniem zjawisk jakościowych i zjawisk
ilościowych, które lepiej nazywać zmiennymi jakościowymi i zmiennymi
ilościowymi, należy temu zagadnieniu poświęcić nieco uwagi.
W psychologii przyjęło się przez zmienna rozumieć wszelką własność, która może występować w różnym stopniu i pod względem której ludzie różnią się między sobą lub zmieniają w czasie; ściśle rzecz biorąc, zmienna jest to symbol, taki jak x lub y. który w określonym kontekście i zgodnie z określonymi regułami może być zastępowany przez odpowiednie liczby lub nazwy będące elementami pewnego określonego zbioru wartości. Zbiór ten nazywamy zakresem zmiennej. Zmienna, której zakres stanowi klasa, zawierająca jeden element, nazywa się stałą. Zmienne, za które możemy podstawić wyłącznie nazwy, nazywamy zmiennymi jakościowymi. Zmienne, których zakresem są zbiory liczb, nazywane są zmiennymi ilościowymi (por. Menger, 1956). Za przykład stałej może służyć liczba „pi" (n) lub stała grawitacyjna o; za zmienne jakościowe uważa się zwykle płeć, zawód, rozpoznanie psychiatryczne; zmiennymi ilościowymi są w psychologii wiek, iloraz inteligencji, ekstrawersja mierzona inwentarzem osobowości Eysencka.
Zmienne jakościowe mają na ogół charakter nieciągły, bardzo często dychotomiczny, kiedy przybierają one tylko dwie wartości, jak na przykład mężczyzna - kobieta. Wszakże przeciwnicy pomiaru za jakościowe uważają nie tylko takie zmienne, lecz przede wszystkim takie jak wrażenia zmysłowe (chłód, jasność, ból) lub uczucia (strach, tęsknota), i nieraz wyrażają wątpliwości co do zasadniczej mierzalności tych zjawisk. Zmienne ilościowe mają charakter ciągły, chociaż ciągłości nie należy brać dosłownie w matematycznym rozumieniu. Za ciągle uważamy więc wyniki testowe nawet wówczas, gdy mogą one przybierać tylko wartości całkowite, a więc 7, 8, 9, ..., nie zaś dowolne wartości rzeczywiste.
Wydaje się, że rozróżnianie „jakości" i „ilości nie ma charakteru
absolutnego i nie przesądza o mierzalności cech czy zjawisk. Możliwość lub niemożliwość mierzenia czegoś zależy jedynie od tego, czy rozporządzamy odpowiednią do tego metodą - a więc od stanu techniki badawczej.
A czy coś uważany za ilość, czy za jakość, zależy - jak pisze Kaplan, krytykując to co nazywa „mistyką jakości" (1964, s. 207) - „od tego, jak zechcemy oznaczać to w naszej symbolice. Orzeczniki nie przyporządkowywane na gruncie jakiejś skali ... określają jakości; gdy się wprowadzi odpowiednią skalę, uznajemy ich desygnaty za ilości". Toteż mierzymy dziś w psychologii nie tylko pamięć i inteligencję, o których pomiarze jeszcze sto lat temu nikt zapewne nie marzył, lecz również tak zdawałoby się nieuchwytne rzeczy, jak lęk przed niepowodzeniem, religijność, potrzebą afiliacji lub cynizm (bo przecież pomiarem wrażeń zmysłowych zajmowali się już Weber i Fechner).
Odrzucanie możliwości pomiaru w psychologii w imię jakościowego charakteru badanych przez nią zjawisk jest więc chyba wynikiem, z jednej strony, niezdawania sobie sprawy z rzeczywistego charakteru różnic między zmiennymi jakościowymi i ilościowymi, z drugiej zaś, zbyt wąskiego rozumienia pomiaru, przyjętego od fizyków i nie uwzględniającego swoistego charakteru pomiarów psychologicznych.
2. POMIAR I SKALA POMIAROWA
Przez pomiar rozumie się zwykle przyporządkowywanie liczb przedmiotom zgodnie z określonymi regułami w taki sposób, aby liczby odzwierciedlały zachodzące między tymi przedmiotami stosunki (termin „przedmiot" używany tu będzie w bardzo szerokim rozumieniu, oznaczając nie tylko tak zwane rzeczy, lecz również osoby, zdarzenia, cechy, procesy itp.).
Przyporządkowywanie liczb elementom empirycznym pozwala na ilościowe ujmowanie zjawisk i na matematyzację nauki. Wymaga to, z jednej strony, posiadania odpowiednich metod pomiaru, z drugiej zaś izomorfizmu lub raczej homomorfizmu strukturalnego między stosunkami empirycznymi zachodzącymi w badanym zbiorze elementów rzeczywistości a relacjami formalnymi określonymi przez aksjomatykę użytego systemu matematycznego.
Aby wyrazić to nieco ściślej, wprowadzimy kilka pojęć formalnych. Przez system rozumiemy zbiór <S, R1, ..., Rn>, gdzie S jest zbiorem elementów a R1, ..., Rn są zachodzącymi między tymi elementami relacjami. Izomorfizm między dwoma tak rozumianymi systemami ℘=<S, R1, .. ., Rn> i ℘'= <S', R'1, ...,R'n> zachodzi wówczas, gdy istnieje takie wzajemnie jednoznaczne odwzorowanie zbioru S na zbiór S' za po
mocą funkcji f, że dla każdego xl i x2 , które są elementami S, oraz dla każdego y1 =f (x1) i y2 =f (x2), które są elementami S', x1,Rix2, wtedy i tylko wtedy gdy y1R'iy2 dla i=1, 2, ... n. O funkcji f mówi się wówczas, że realizuje izomorfizm. Homomorfizm tym się różni od izomorfizmu, że funkcja f, przyporządkowująca jeden zbiór drugiemu, nie jest wzajemnie jednoznaczna, lecz wiele jednoznaczna. Chociaż teoretycy pomiaru mówią zwykle o izomorfizmie, pojęcie homomorfizmu jest tu stosowniejsze, gdyż te same liczby bywają przyporządkowane więcej niż jednemu przedmiotowi.
Przyjmijmy, że zbiór elementów empirycznych E jest zbiorem przedmiotów (w wyjaśnionym wyżej szerokim rozumieniu) specyficznych dla danej dziedziny badań i posiadających własność W, a zbiór elementów matematycznych M jest podzbiorem zbioru liczb rzeczywistych. Pomiar możemy teraz zdefiniować w następujący sposób:
Jeśli ℜ=<E, R1, ..., Rn> jest systemem empirycznym oraz ℵ= <M, R'1,
R'n> systemem matematycznym, pomiarem własności W na systemie ℜ nazywamy wszelką taką funkcję f, która każdemu x, będącemu elementem E, przyporządkowuje zgodnie z przyjętymi regułami w wyniku pewnych czynności w danych standardowych warunkach pewną wartość y, która jest elementem M, w taki sposób, że między systemami ℜ i ℵ zachodzi homomorfizm; y jest miarą własności W.
Jeśli f jest pomiarem i empirycznie stwierdzono, które relacje R' między elementami zbioru M znajdują odpowiednik w relacjach R między elementami zbioru E, wówczas homomorfizm między obu systemami pozwala na wnioskowanie o systemie empirycznym na podstawie operacji formalnych wykonywanych na systemie matematycznym.
Funkcja f jest empirycznie określona regułami, które opisują warunki i sposoby, pozwalające przyporządkowywać liczby elementom empirycznym. Reguły te powinny zapewniać, że tym samym przedmiotom są zawsze przyporządkowywane te same liczby; te same liczby mogą być przyporządkowywane różnym przedmiotom o takich samych własnościach, a różne liczby tym samym przedmiotom, jeśli w nich zaszła pod danym względem jakaś zmiana.
Definicja pomiaru nie mówi nic o czynnościach pomiarowych; mogą one być różne do różnych celów; na przykład w psychologii mogą polegać bądź na obsłudze skomplikowanych aparatów, takich jak elektroencefalograf, bądź na badaniu testowym w standardowej sytuacji, bądź nawet po prostu na mniej lub więcej sformalizowanej obserwacji.
Sprecyzowanie tych czynności dla każdego określonego pomiaru -
- a więc dla wyobraźni przestrzennej, pamięci, zręczności palców, towarzyskości, autorytaryzmu, zainteresowań muzycznych czy lęku przed śmiercią - jest sprawą odrębnych definicji operacyjnych ustalających empiryczny charakter funkcji f za pomocą opisu czynności pomiarowych. Wynika z tego, że znaczenia, jakie można przypisywać liczbom otrzymanym w wyniku pomiaru, są określone przez wykonywane operacje. Na tym polega operacyjna interpretacja pomiaru, skutkiem której znaczenie liczb, przyporządkowywanych przedmiotom, może się zmieniać - przynajmniej w zasadzie - od braku jakiejkolwiek wspólnoty z ich matematycznym charakterem, jak to się dzieje w bardziej prymitywnych rodzajach pomiaru, o których będę mówił w p. 4, do doskonałej zgodności z tym matematycznym charakterem (por. Guilford i Comrey, 1961, s. 22).
Rozporządzając podaną wyżej definicją pomiaru możemy zdefiniować formalnie skalę pomiarową w następujący sposób:
Jeśli ℜ=<E, R1, ..., Rn> jest systemem empirycznym i istnieje taka funkcja. f , że f jest pomiarem i każdy przedmiot x, będący elementem E i posiadający własność W, jest mierzalny za pomocą f, oraz nie ma przedmiotu mierzalnego za pomocą f, który by nie posiadał własności W, wówczas skalą pomiarową własności W jest taki system matematyczny ℵ=<M, R'1,..., R'n>, że zbiór elementów empirycznych E jest wielo-jednoznacznie odwzorowany na zbiór elementów matematycznych M i wszystkie relacje formalne określone w systemie ℵ dla zbioru M posiadają w systemie ℜ empiryczną interpretację dla zbioru E.
3. RODZAJE POMIARU
W tradycyjnej teorii pomiaru rozróżnia się zwykle kilka głównych rodzajów pomiaru. Najbardziej znane rozróżnienie pochodzi od Campbella (1928), który wprowadził pojęcia pomiaru podstawowego i pochodnego; pod jego wpływem rozpowszechnił się pogląd, że co nie jest pomiarem podstawowym lub pochodnym, nie jest pomiarem w ogóle.
Pomiarem podstawowym nazywa się taki rodzaj pomiaru, w którym ilość mierzonej własności przedmiotu określa się przez proste i bezpośrednie porównanie z przedmiotem, który posiada pewną standardową ilość tej własności. Przykładami tego rodzaju pomiaru są pomiary długości lub masy.
Pomiar taki nie opiera się na żadnym innym rodzaju pomiaru, ale wymaga liczenia. Nie wystarczy wszakże nie opierać się na żadnym innym rodzaju
pomiaru; Goude (1962) podaje explicite drugi warunek (który u Campbella występuje tylko implicite), dotyczący koniecznej empirycznej interpretacji - za pomocą narzędzia pomiaru i zgodnie z określonymi regułami - pewnych liczb, relacji lub operacji, aksjomatów i twierdzeń matematyki (s. 15). Toteż konieczną własnością wszelkiego pomiaru podstawowego jest zachodzenie istotnych podobieństw strukturalnych między systemem matematycznym, który ma być stosowany do otrzymanych miar, a systemem empirycznym -- dziedziną rzeczywistości, do której należą mierzone przedmioty.
Jeszcze bardziej precyzyjnie definiuje pomiar podstawowy Luce (1967), który pisze: „Przez podstawowy pomiar ilościowy rozumiem przyporządkowywanie liczb przedmiotom lub zdarzeniom oraz przyporządkowywanie relacji ilościowych stosunkom jakościowym między tymi przedmiotami lub zdarzeniami w taki sposób, że: a) jedna z jakościowych relacji jednoznacznie porządkuje przedmioty lub zdarzenia według własności, którą chcemy mierzyć, i b) relacje ilościowe odzwierciedlają strukturę stosunków jakościowych (są z nimi izomorficzne)”. Przez „strukturę stosunków jakościowych" Luce rozumie siatkę praw empirycznych, które są spełniane przez owe stosunki (s. 29n). Widzimy jednak, że to, co Luce nazywa pomiarem podstawowym, odbiega nieco od intencji Campbella i Goude'a, odpowiadając po prostu podanej przeze mnie ogólnej definicji pomiaru.
Ze względu na niewspółmierność między ścisłością matematyki a płynnością i nieostrością rzeczywistości oraz niedokładnością narzędzi pomiaru, nie można żądać, aby interpretacja empiryczna wymagana dla pomiaru była ścisła i wyczerpująca. Wystarczy, zdaniem Goude'a, że będzie naturalna, właściwa i tak dokładna, jak tego może wymagać problematyka i jak na to może pozwalać precyzja pomiarów (1962, s. 15). Zdając sobie sprawę z niedoskonałości pomiaru (wszelkiego - nie tylko w psychologii), Adams Konstruuje nawet matematyczną teorię niedokładnego pomiaru (1965).
Własności mierzalne za pomocą pomiaru podstawowego są często nazywane własnościami ekstensywnymi. Są one, według Campbella, addytywne, to znaczy, że je można fizycznie dodawać w taki sposób, że spełniają aksjomaty dodawania algebry liczb wymiernych, z tego zaś wynika, że można je również odejmować, mnożyć i dzielić (wszystkie te działania są definiowane za pomocą dodawania). Postulat ten budzi poważne wątpliwości w zastosowaniu do pomiaru psychologicznego, gdyż trudno sobie wyobrazić operacje fizyczne polegające na dodawaniu dwóch inte
ligencji lub mnożeniu introwersji w taki sposób, aby były spełnione odpowiednie aksjomaty matematyczne. Toteż warunku tego niektórzy autorzy nie uważają wcale za konieczny (por. Suppes i Zinnes, 1963), a Mount (1956) wręcz twierdzi, że był on główną przeszkodą w rozwoju pomiaru w psychologii.
Nie oznacza to jednak wcale, że pomiar podstawowy jest w psychologii niemożliwy, lecz tylko że może nie spełniać warunku fizycznej dodawalności (por. Hempel, 1952, s. 68), zatem powinien być zdefiniowany winny sposób. Rozumiemy już dzisiaj, że pomiar fizykalny nie może być wzorem dla pomiaru psychologicznego. Ludzie i ich własności zachowują się inaczej niż przedmioty badane przez fizykę. Warunek dodawalności ma dla pomiaru podstawowego w fizyce zasadnicze znaczenie, lecz jest dla pomiaru podstawowego w psychologii zupełnie zbyteczny i trudno mu nawet przypisać jakiś określony sens empiryczny. Na to panuje już wśród teoretyków pomiaru w psychologii niemal zupełna zgoda, a nowsze wypowiedzi na ten temat różnią się wprawdzie w szczegółach, ale nie w ogólnym rozumieniu pomiaru (por. Ehrenberg, 1955; Mount, 1956). Zagadnieniem tym zajmę się w p. 5, po omówieniu typów skal pomiarowych i poziomów pomiaru.
Natomiast pomiar pochodny wymaga posługiwania się logicznymi lub matematycznymi prawami dotyczącymi miar podstawowych. Mierzymy więc temperaturę przez obserwację wysokości słupka rtęci w termometrze, bo znamy związek między temperaturą a objętością rtęci. Ogólnie mówiąc, pomiarem pochodnym posługujemy się mierząc własności zwane intensywnymi, dla których nie istnieją operacje fizyczne odpowiadające dodawaniu arytmetycznemu (nie możemy dodawać temperatur lub gęstości).
Bardziej ścisłe, aksjomatycznie ujęte, rozróżnienie pomiaru ekstensywna`, i intensywnego podają Bergmann i Spence (1944, s. 106n), Hempel (1952, s. 78) zaś zwraca uwagę na to, że zależy to wyłącznie od stanu naszej wiedzy, czy dana wielkość jest uznawana za addytywną czy nie, oraz czy dana własność uchodzi za ekstensywną czy intensywną. Na przykład, w mechanice klasycznej masa i prędkość ruchu prostoliniowego są addytywne, w fizyce zaś relatywistycznej nieaddytywne. Nie ma przy tym ostrych granic dzielących pojęcia „ekstensywne" i „intensywne" oraz „addytywne" i „nieaddytywne".
Warto wspomnieć o dodatkowym rozróżnieniu dwóch rodzajów pomiaru pochodnego (wprowadzonego chyba przez Papa, 1962, s. 132). Z jednej strony spotykamy się z pomiarem pochodnym, w którym wielkość pochodna jest zdefiniowana za pomocą zmiennych niezależnych w równaniu
funkcjonalnym, zwanym przez Papa „funkcją definicyjną". Z drugiej strony mamy pomiar jednej wielkości w terminach innej, której jest ona funkcją empiryczną: y jest funkcją empiryczną x jeśli istnieje prawo przyrody, zgodnie z którym w określonych warunkach y jest (dodatnio lub ujemnie) skorelowane z x.
W niedawno wydanej książce Ellis (1966) rozróżnia pomiar bezpośredni, który pozwala przyporządkowywać liczby mierzonym zmiennym bez pomocy pomiaru innych zmiennych (długość, nawet jeśli nie są one addytywne (temperatura), oraz! pomiar pośredni, polegający na pomiarze zmiennych przez pomiar jednej lub kilku innych zmiennych (gęstość), nawet jeśli zmienne te nie są uwikłane wprawa ilościowe. (Patrz też rozdz. II) . Toteż rozróżnienie Ellisa jest wprawdzie podobne do rozróżnienia Campbella, nie jest jednak z nim identyczne. W pomiarze bezpośrednim posługujemy się wyłącznie liczbami wymiernymi, w pomiarze pośrednim możemy otrzymywać również liczby niewymierne.
Oprócz tych dwóch rodzajów pomiaru Torgerson (1958, s. 21n) wyróżnia pomiar umowny (by fiat), który się opiera na przypuszczalnych związkach między obserwacjami a mierzonymi zmiennymi (pomiar emocji za pomocą galwanicznego odruchu skórnego lub pomiar inteligencji za pomocą testu, w którym wynik stanowi. liczba dobrze rozwiązanych zadań testowych). Chociaż pomiar taki opiera się na hipotetycznym założeniu, zawdzięczamy mu wiele teoretycznie i praktycznie ważnych wyników.
Suppes i Zinnes (1963, s. 20) wprowadzają jeszcze jeden rodzaj pomiaru, który nazywają pomiarem wskaźnikowym i który, jak się zdaje, z grubsza odpowiada pomiarowi umownemu Torgersona. Pomiar ten polega na przyporządkowywaniu liczb przedmiotom na podstawie bezpośredniego odczytu na skali jakiegoś przyrządu, o - którym wiadomo, że wskazuje miary odpowiadające wynikom pomiaru podstawowego lub pochodnego. Na przykład podstawowy pomiar masy jest procedurą bardzo długą i żmudną, lecz wiadomo, że zwykłe ważenie za pomocą odpowiednio skalibrowanej wagi daje te same wyniki.
W psychologii powszechnie posługujemy się pomiarem wskaźnikowym (testy i kwestionariusze), wszakże wyniki nie odpowiadają tu żadnym znanym pomiarom podstawowym lub pochodnym. Narzędzia takie Suppes i Zinnes nazywają pseudowskaźnikowymi. Chociaż mogłoby się wydawać, że pomiar taki jest bezwartościowy, wcale tak nie jest, gdyż pozwala on na uzyskanie wielu użytecznych danych. Trzeba jednak pamiętać, że usprawiedliwienie pomiaru opartego na liczbie dobrych odpowiedzi tkwi nie
w homomorfizmie między systemem empirycznym i systemem matematycznym, lecz w jego praktycznej użyteczności do celów diagnozy i prognozy.
Innym rodzajem pomiaru jest opisany przez Luce'a ..(1967) pomiar łączny lub sprzężony (conjoint), którego jednak już tu nie będę referował, gdyż jak dotąd znalazł on niewiele zastosowań.
4. SKALE POMIAROWE I POZIOMY POMIARU
Na podstawie reguł pomiaru określa się zwykle kilka poziomów pomiaru. Poziomy te różnią się: 1) własnościami formalnymi systemów matematycznych, które można stosować do danych pomiarowych; 2) rodzajem dopuszczalnych przekształceń tych danych; 3) rodzajami działań formalnych mających sens w tych systemach (Lord i Novick, 1968, s. 20).'-Różnym poziomom pomiaru odpowiadają różne typy skal pomiarowych.
Ponieważ problematyka pomiaru ściśle się wiąże z problematyką skalowania, należy temu rozróżnieniu poświęcić chwilę uwagi. Różnice pomiędzy pomiarem a skalowaniem nie są wyraźne (por. Angoff, 1960, s. 807n), można jednak przyjąć, że skalowanie polega na konstrukcji skal pomiarowych o określonych własnościach, pomiar zaś na przyporządkowywaniu liczb mierzonym przedmiotom za pomocą określonych czynności (jak się to dzieje przez przyłożenie pręta metrowego lub przez badanie testowe). Przez skale pomiarowe rozumie się tu, oczywiście, nie narzędzia pomiaru, takie jak metr lub test, lecz zgodnie z podaną w poprzednim rozdziale definicją pewne systemy matematyczne.
Od typu skali zależy, pod jakim względem stosunki ilościowe między elementami systemu empirycznego (przedmiotami czy też ich własnościami) są izomorficzne lub homomorficzne z odpowiednimi relacjami między elementami systemu matematycznego (liczbami). Inaczej mówiąc, od skali zależy, jakie operacje formalne na liczbach przyporządkowanych przedmiotom w wyniku pomiaru dają wyniki sensowne dla tego, co jest mierzone (Kaplan, 1964, s. 189). Są to w zasadzie takie operacje, które mają swe odpowiedniki w operacjach fizycznych na mierzonych przedmiotach, chociaż w praktyce warunek ten nie zawsze jest ściśle przestrzegany i jak już wiemy, wcale nie jest konieczny. Na przykład Adams (1965) uważa postulat empirycznej dodawalności za całkiem nierealny nawet w fizyce ze względu na eksperymentalną nierealność dokładnego pomiaru.
Za Stevensem (1946, 1951) rozróżnia się zwykle cztery główne poziomy
pomiaru, mianowicie: pomiar nominalny, porządkowy, przedziałowy i stosunkowy, oraz odpowiadające im cztery typy skal, określone przez tak zwane podstawowe operacje empiryczne (Ross, 1964, s. 125). Suppes i Zinnes (1963) oraz Lord i Novick (1968) wyróżniają również piąty poziom - pomiar absolutny, Coombs zaś (1951) wprowadza jeszcze wiele innych pośrednich typów skal, takich m.in. jak „skala częściowo uporządkowana”, leżąca między nominalną i porządkową, oraz „skala uporządkowana metrycznie” między porządkową i przedziałową. Stevens (1959) omawia również logarytmiczną skalę przedziałową, lecz nie znalazła ona dotąd szerszego zastosowania. Jak pisze Kerlinger (1964, s. 422), reguły określające sposób przyporządkowywania liczb przedmiotom definiują zarazem i poziom pomiaru, i typ skali. Z typem skali wiąże się grupa przekształceń, ze względu na które skala zachowuje swe własności niezmiennicze. Dopuszczalnymi przekształceniami są te, które nie naruszają zasobu informacji, zawartego w skali, i nie niszczą homomorfizmu między skalą a mierzoną własnością (por. też rozdz. II).
4. 1. SKALA NOMINALNA
Najbardziej elementarny typ skali, zwany skalą nominalną, otrzymujemy w rezultacie przyporządkowania przedmiotom liczb oznaczających ich przynależność do rozłącznych kategorii. Kategorie te nie wyrażają żadnych wielkości i nie mają naturalnego uporządkowania, nie zachodzą między nimi żadne konieczne stosunki, a liczby grają tu jedynie rolę symboli i nie są liczbami kardynalnymi. W praktyce zresztą używa się często do oznaczania kategorii nie liczb, lecz po prostu nazw (i dlatego, gdybyśmy chcieli być pedantyczni, moglibyśmy rozszerzyć definicja pomiaru i mówić o przyporządkowywaniu elementom empirycznym nie liczb, lecz symboli).
Podstawowymi relacjami, na których opierają się skale nominalne, są relacje równości i różności, systemem matematycznym, który przyporządkowujemy systemowi empirycznemu, jest tu algebra zbiorów (por. Sutcliffe, 1962), a podstawowymi operacjami empirycznymi są stwierdzenia równości i różności pod określonym względem. Przedmioty, zaliczane do tych samych kategorii, a więc oznaczone tą samą liczbą, są równe ze względu na daną własność, oznaczone zaś różnymi liczbami należą do różnych kategorii, gdyż nie są równe.
Własności formalne skal nominalnych określa AKSJOMATYKA algebry zbiorów, oparta na zwrotnej, symetrycznej i przechodniej relacji równości.
Dla każdych dwóch przedmiotów a i b zachodzi
(1) albo a=b, albo a≠b,
(2) jeśli a=b, to b=a, oraz dla trzech przedmiotów a, b, c
(3) jeśli a=b i b=c, to a=c.
Dopuszczalne są wszystkie przekształcenia typu x'=f(x), gdzie f(x) jest dowolnym przekształceniem wzajemnie jednoznacznym, które zachowuje odrębność oznaczeń (liczb lub nazw) poszczególnych kategorii.
Dopuszczalnymi statystykami i testami istotności są liczebności, frakcje i procenty, wartość modalna, korelacja punktowo-czteropolowa ϕ i tetrachoryczna, współczynnik odchylenia wielodzielczego C, testy oparte na liczebnościach (chi2).
Za PRZYKŁADY skal nominalnych mogą służyć klasyfikacje dwudzielne i wielodzielne (płeć, zawód, rozpoznania psychiatryczne) lub odpowiedzi w teście Rorschacha (barwa, forma, ruch, anatomia).
Ponieważ skala nominalna nie pozwala na pomiar w węższym tego słowa znaczeniu, gdyż używane tu liczby nie posiadają żadnych własności liczb rzeczywistych, wielu autorów nie uważa jej za skalę pomiarową. Do autorów takich należy Torgerson (1958), Guilford 1 Comrey (1961), Magnusson (1967), Nunnally (1967) i Drenth (1969). Ghiselli (1964) przyjmuje nawet jeszcze bardziej rygorystyczne kryteria, zaliczając do skal jedynie skale przedziałowe i stosunkowe. Natomiast Coombs (1953) zagadnienia skal nominalnych i porządkowych obejmuje mianem teorii skalowania, teorię pomiaru zaś ogranicza do problematyki skal przedziałowych i stosunkowych. Stanowisko to jest bliskie poglądom Campbella, który za konieczny warunek pomiaru przyjmował fizyczną addytywność mierzonych wielkości, izomorficzną z dodawaniem arytmetycznym (Campbell, 1920, 1921, 1928). U nas podobny pogląd reprezentował Ajdukiewicz (1961).
Wszakże wielu innych autorów, idąc za Stevensem, który pierwszy poddał krytyce tradycyjną teorię pomiaru (1946, 1951), odrzuca to bardzo restryktywne stanowisko i klasyfikację, czyli pomiar nominalny, uznaje za podstawę skal nominalnych. Są to tacy autorzy jak między innymi Siegel (1956), Virginia Senders (1958), Reuchlin (1962), Scott i Wertheimer (1962), Suppes i Zinnes (1963), McGinnies (1965), Faverge (1966) oraz Lord i No
vick (1968). Pomiar nominalny jest niewątpliwie czymś bardzo prymitywnym, opiera się on jednak na aksjomatach, które są również spełniane przez wszystkie wyższe poziomy pomiaru.
4.2. SKALA PORZĄDKOWA
Następnym z kolei rodzajem pomiaru jest pomiar oparty na skali porządkowejl. W pomiarze porządkowym przyporządkowujemy liczby przedmiotom w taki sposób, że odwzorowują one nie tylko ich równość i nierówność, lecz także ich uporządkowanie ze względu na mierzoną własność. Kategorie przedmiotów są tu też, jak poprzednio, rozłączne, a liczby są wprawdzie porównywalne pod względem wielkości, lecz wielkości te mają tylko względne a nie absolutne znaczenie. Jeśli jedna kategoria oznaczona jest większą liczbą niż druga, wiemy, że przewyższa ona tę drugą pod danym względem, nie wiemy jednak, o ile, gdyż w operacjach pomiarowych nie ma niczego, co by pozwalało na takie stwierdzenie.
Skale porządkowe opierają się na relacjach równości i większości, a podstawowymi operacjami empirycznymi są, obok stwierdzania równości i różności, stwierdzanie większości i mniejszości. Rzecz prosta, że mówiąc o większości, mamy na ogól w psychologii na myśli te wszystkie cechy, które się dadzą uporządkować ze względu na relację „więcej niż", czyli takie jak „lepszy niż", „zdolniejszy niż", „bardziej agresywny niż" itp.
Systemem matematycznym, na który zostaje odwzorowany system empiryczny, jest algebra relacji porządkujących, które są niezwrotne, asymetryczne i przechodnie. Oprócz trzech aksjomatów określających skale nominalne, obowiązują tu AKSJOMATY:
(4) nieprawda, że a > a,
(5) jeśli a ≠b , to bądź a > b , bądź b > a , oraz
(6) jeśli a> b i b> c, to a> c.
Dopuszczalne są wszelkie przekształcenia typu x' =f (x), gdzie f (x) jest dowolnym przekształceniem monotonicznym, nie zmieniąjącym
1 Pawłowski (1963) nazywa ją skalą porządkującą, zapewne dlatego, że w logice tak się nazywa pewien typ relacji. Termin porządkowa wydaje mi się właściwszy,
gdyż chodzi nie o to, że skala porządkuje przedmioty, lecz o to, że jest oparta na jakimś porządku.
porządku elementów (potęgowanie, pierwiastkowanie, logarytmowanie itp.). Z dozwolonych statystyk i testów istotności należy wymienić oprócz tych, które są dozwolone dla skali nominalnej, medianę, centyle, decyle i kwartyle, korelację rangową Spearmana, tau (z) i W Kendalla oraz olbrzymią większość testów nieparametrycznych (test mediany, test znaków, test Manna-Whitneya, test Kołmogorowa-Smirnowa i inne).
PRZYKŁADY: skala twardości minerałów, numeracja grup uporządkowanych, rangi, surowe wyniki testowe, surowe wartości odpowiedzi wielostopniowych w niektórych kwestionariuszach osobowości, skalach postaw i ocen oraz dyferencjale semantycznym (1 do 5, 1 do 7 itp.), rangi centylowe, wartości odpowiedzi w teście plam Holtzmana (barwa, forma, ruch, anatomia i inne, 1 do 3 lub 1 do 4).
4.3. SKALA PRZEDZIAŁOWA
Gdy skala posiada wszystkie własności skali porządkowej, a ponadto określone są odległości między jej punktami, czyli wielkości przedziałów, mamy do czynienia ze skalą przedziałową.
Kategorie elementów empirycznych są tu, jak poprzednio, rozłączne i uporządkowane wedle stopnia mierzonej własności. Prócz tego jednak równym różnicom między stopniami tej własności odpowiadają równe różnice między przyporządkowanymi im liczbami. Nie wiadomo jednak, jaka jest absolutna wielkość poszczególnych punktów skali, gdyż nie posiada ona naturalnego punktu zerowego.
Skale przedziałowe opierają się nie tylko na tych samych relacjach co skale nominalne i porządkowe, lecz również na dodawaniu arytmetycznym. Podstawowymi operacjami empirycznymi są stwierdzenia równości, różności, większości i mniejszości przedmiotów ze względu na różne własności, stwierdzenia równości przedziałów i równości różnic między wartościami skali. Skale przedziałowe posiadają równe jednostki, lecz jednostki te są dowolne.
Oprócz wszystkich poprzednio wymienionych własności formalnych skal nominalnych i porządkowych skale przedziałowe spełniają następujące AKSJOMATY dodawania:
(7) a+b=b+a,
(8) (a+b)+c=a+(b+c),
(9) jeśli a=p i b>O, to a+b>p,
(10) jeśli a=p i b=q, to a+b=p+q.
Podana tu aksjomatyka ma charakter przykładowy bez troski o jej zupełność i niezależność. Formalne aksjomatyki teorii pomiaru można znaleźć w pracach Suppesa i Zinnesa (1963), Rossa (1964), Adamsa, Fagota i Robinsona (1965) czy Stangenberga (1966). (Por. też rozdz. II).
Na skalach przedziałowych wolno dokonywać wszelkich przekształceń liniowych typu x'=ax+b, dla a>O, które zachowują nie tylko porządek mierzonych przedmiotów, lecz i względne odległości między nimi.
Dopuszczalnymi statystykami i testami istotności są, oprócz wymienionych dla poprzednich typów skal, średnia arytmetyczna, wariancja i odchylenie standardowe, r Pearsona, stosunek korelacyjny eta (η), korelacja wielokrotna, testy t i F oraz inne testy parametryczne.
Jako PRZYKŁADY skal przedziałowych można wskazać skale temperatury Celsjusza, Reaumura i Fahrenheita, daty kalendarza, standaryzowane skale testowe, skale Thurstone'a.
Skale przedziałowe są znacznie mocniejsze od poprzednich typów skal i są skalami rzeczywiście ilościowymi, pozwalającymi na pomiar w ścisłym znaczeniu tego słowa. Dzięki rzeczywistej lub założonej równości jednostek w skalach przedziałowych, możliwe jest charakteryzowanie kształtu rozkładów empirycznych jako normalnych, skośnych itp., co nie było możliwe dla skal porządkowych, gdyż tam kształt rozkładu może być dowolnie zmieniany przez ściskanie lub rozciąganie pewnych części skal (Scott i Wertheimer, 1962, s. 112).
Chociaż skale psychologiczne są przeważnie porządkowe, zwykle możemy je traktować jak przedziałowe, zakładając równość przedziałów. U podstaw takiego postępowania tkwią dwa założenia, niestety nie sprawdzone (por. Siegel, 1956, s. 27n): a) że mierzona zmienna jest w populacji rozłożona normalnie; b) że odpowiedzi na poszczególne pytania testu są pod względem mierzonej cechy sobie równoważne (mowa tu o pytaniach „zamkniętych" - na które się odpowiada przez wskazanie jednej spośród kilku odpowiedzi do wyboru). Mimo że założenia te nie są sprawdzone, traktowanie skal psychologicznych jako przedziałowych nie jest pozbawione uzasadnienia. Jeśli bowiem różne miary tej samej zmiennej korelują ze sobą liniowo, a tak na ogół bywa, to możemy przyjąć, że przedziały są równe, gdyż im bardziej zależność jest liniowa, tym równiejsze muszą być przedziały skali (Kerlinger, 1964, s. 427). Podobne stanowisko zajmują Scott i Wertheimer (1962, s. 122), wedle których uznawanie kwestionariuszy osobowości za skale przedziałowe jest pragmatycznie uzasadnione, oraz
Ghiselli (1964, s. 42), który stwierdza, iż w praktyce można śmiało pomijać fakt, że pytania nie stanowią równych miar mierzonej zmiennej, i zakładać ich równość, gdyż liczba i losowość pytań wyrównują nierówność jednostek.
Toteż, jak się zdaje, najlepiej jest traktować pomiary porządkowe jak gdyby były one przedziałowymi, lecz nie zapominać o możliwej nierówności przedziałów. Należy jak najlepiej znać charakter używanych narzędzi pomiarowych i bardzo ostrożnie interpretować dane porządkowe, jeśli się je analizuje za pomocą metod statystycznych zakładających pomiar przedziałowy (Kerlinger, 1964, s. 428).
4.4. SKALA STOSUNKOWA
Czwartym typem skal są skale stosunkowe, które zakładają, oprócz własności trzech poprzednich typów, istnienie stałego naturalnego punktu zerowego, w którym zupełnie brak mierzonej wielkości. W skali stosunkowej kategorie elementów empirycznych są rozłączne i uporządkowane według mierzonej własności, równym różnicom w stopniu mierzonej własności odpowiadają równe różnice między liczbami przyporządkowanymi kolejnym kategoriom, a wreszcie liczby przyporządkowane kategoriom empirycznym są proporcjonalne do stopnia, w jakim poszczególnym elementom tych kategorii przysługuje mierzona własność.
Skale stosunkowe spełniają pełną aksjomatykę algebry liczb rzeczywistych. Podstawowymi operacjami empirycznymi są wszystkie operacje, na których opierają się poprzednie typy skal, oraz stwierdzanie równości stosunków między poszczególnymi wartościami skali, co jest możliwe dzięki istnieniu naturalnego punktu zerowego, czyli zera absolutnego. Toteż dopiero w tej skali liczby, stanowiące punkty skali, odpowiadają rzeczywistym ilościom mierzonej własności, pozwalając na operowanie sumami, iloczynami i ilorazami miar.
Dozwolonymi dla skal stosunkowych są wszelkie przekształcenia multyplikatywne typu x' =ax, dla a>0. Natomiast nie jest dozwolone dodawanie lub odejmowanie żadnej stałej, gdyż równałoby się to przesunięciu punktu zerowego, czego tu nie wolno czynić.
Dopuszczalne statystyki i testy istotności, oprócz tych, które są dozwolone dla poprzednich typów skal, to średnia geometryczna, średnia harmoniczna, współczynnik zmienności. Ponieważ skale stosunkowe mają naturalny punkt zerowy, na wynikach pomiarów wolno dokonywać wszelkich działań arytmetycznych.
Podstawowe operacje empiryczne
Dozwolone przekształcenia matematyczne
Dopuszczalne statystyki i testy statystyczne
Typowe przykłady
Nominalna
Porządkowa
Stwierdzanie równości i różności
Stwierdzanie równości, różności, większości i mniejszości
x'=f(x), gdzie f(x) jest dowolnym przekształceniem wzajemnie jednoznacznym
Liczebności Frakcje i procenty Wartość modalna Korelacja punktowo-czteropolowa «p)
Korelacja tetrachoryczna Współczynnik odchylenia wielodzielczego C Testy oparte na liczebnościach (chin)
Wszystkie powyższe oraz: Mediana Centyle, decyle, kwartyle Korelacja rango
Klasyfikacja dwudzielna i wielodzielna
Numeracja grup nie uporządkowanych
Odpowiedzi w teście Rorschacha Klasyfikacja profilów w teście MMPI
x'=f(x), gdzie f(x) jest dowolną monotonicznie wzrastającą funkcją
Skala twardości minerałów Numeracja grup uporządkowanych
Rangi
31
PRZYKŁADY skal stosunkowych: temperatura absolutna, długość, masa, wysokość dźwięku, czas reakcji, standaryzowane skale postaw i wartościowań z zerowym punktem neutralnym, psychofizyczne skale wielkości zmysłowych (Stevens, 1958, 1966).
Ze skalami stosunkowymi spotykamy się w psychologii raczej rzadko; stosuje się w je psychofizyce i przy pomiarze postaw, o czym będzie dalej mowa, lecz do celów nie tylko praktycznych ale nawet i teoretycznych wystarczają na ogół skale przedziałowe.
4.5. SKALA ABSOLUTNA
Jeśli oprócz naturalnego punktu zerowego skala stosunkowa ma również naturalne a nie dowolne jednostki, mamy do czynienia ze skalą absolutną (por. Lord and Novick, 1968, s. 21, oraz Sixtl, 1967, s. 12). Pomiarem absolutnym w tym rozumieniu jest stwierdzanie liczności na podstawie liczenia, gdyż jest to też sposób przyporządkowywania liczb przedmiotom, którymi jednak w tym przypadku są zbiory. Takim zbiorem w psychologii może być tak grupa osób, jak ciąg zdarzeń (na przykład określonego typu reakcje osoby badanej). Reguła liczenia pozwala przyporządkowywać zbiorowi jako jego miarę liczbę odpowiadającą ostatniemu przeliczonemu elementowi. Stevens uważa, że skala liczności jest skalą stosunkową (1959).
Mimo że liczenie z pewnego punktu widzenia (własności formalne, dopuszczalne przekształcenia) istotnie może być uważane za najwyższy poziom pomiaru, niektórzy tylko autorzy tak je ujmują. Podczas gdy w skali stosunkowej mamy do czynienia z liczbami rzeczywistymi, tu musimy się ograniczyć do liczb naturalnych lub może co najwyżej całkowitych. A jeśli się weźmie pod uwagę zasadniczą różnicę tkwiącą w tym, że wszystkie dotychczas omówione typy skal pomiarowych dotyczyły zmiennych ciągłych, liczenie zaś wyłącznie przedmiotów (osoby w węższym rozumieniu tego słowa, odpowiedzi „tak" w kwestionariuszu osobowości) lub elementów zachowania się ostro wyodrębnionych (mrugnięcia), a więc zjawisk nieciągłych, oraz że inne skale pozwalają na pomiar własności indywiduów, liczenie zaś dotyczy własności zbiorów, to wydaje się, że lepiej pozostać przy traktowaniu go jako czynności badawczej sui generis, jak to zresztą przeważnie czynią metodologowie (por. Campbell, 1920,1921, 1928; Dubislav 1933; Cohen i Nagel, 1934; Lenzen, 1938; Pap, 1962; Ajdukiewicz, 1963).
Szczególnie stanowczo występuje przeciw uznawaniu liczenia za pomiar Ritchie (1923), który pisze: „Pomiar powinien być odróżniony od liczenia.
Liczenie jest koniecznym elementem pomiaru, ale samo nie jest pomiarem" (s. 121).
Warto też na to zwrócić uwagę, że właśnie liczenie jest podstawową operacją stosowalną do kategorii stanowiących skalę nominalną oraz do grup powstałych na skutek uzyskania tej samej miary w wyniku pomiaru pozostałymi skalami, gdyż zawsze interesują nas liczebności. Byłoby to stosowaniem najwyższego poziomu pomiaru do przedmiotów w zasadzie mierzonych skalą niższych typów, co psułoby konsekwencję całego systemu
skal.
4.6. TYPOLOGIE SKAL
Autorem, który pierwszy zbudował tabelę porównawczą różnych typów skal i ich własności był Stevens (1946). Tabela I, 1 jest znacznie rozbudowaną tabelą tego autora.
Tabela I, 1. Klasyfikacja skal pomiarowych
c. d. tabeli I, 1.
Odległości niejicreślone
1 Brak naturalnego początku Naturalny początek
Skale porządkowe z naturalnym początkiem (niektóre skale ocen i postaw)
Skale porządkowe (rangi, centyle)
wa, tau (r) i W Kendalla Testy nieparametryczne
Surowe wyniki testowe
Surowe wartości odpowiedzi wielostopniowych Rangi centylowe Odpowiedzi w teście plam Holtzmana
Temperatura C, R i F
Daty kalendarza Energia potencjalna
Standaryzowane skale testowe Skale Thurstone'a
Odległości określone
Skale przedziałowe (jednostki standaryzowane)
Skale stosunkowe (psychofizyka)
Przedziałowa
|
Wszystkie powyższe oraz: stwierdzanie równości prze działów i rów
|
x'=ax+b (przekształcenia liniowe) dla a> 0 |
Stosunkowa
Wszystkie powyższe oraz stwierdzanie równości stosunków między wartościami skali
Stosunek korela
cyjny eta
Korelacja wielo
krotna
Testy t i F oraz
inne testy para
metryczne
x'=ax (prze- Wszystkie pokształcenia mul- wyższe oraz:
typlikatywne) Średnia geomet
dla a>0 ryczna
Średnia harmo
niczna
Współczynnik
zmienności
Temperatura absolutna
Długość Masa
Czas reakcji Skale psychofizyczne (głośność, jasność itp.) Standaryzowane skale postaw
Tabela 1, 2. Klasyfikacja skal według Torgersona
Wszystkie powyższe oraz: Średnia arytmetyczna
Wariancja i odchylenie standardowe
r Pearsona
|
Podstawowe operacje |
Dozwolone
|
Dopuszczalne
|
Typowe przykłady |
Torgerson (1958, s. 15n) zgodnie ze swym stanowiskiem, że mierzymy własności (przedmiotów, osób, zdarzeń, sytuacji itp.) a nie same przedmioty (osoby, zdarzenia czy sytuacje), nie uznaje skal nominalnych i klasyfikuje
skale ze względu na posiadanie określonych różnych jednostek i naturalnego punktu zerowego w następujący sposób (tab. 1, 2):
Jeśli mamy do wyboru dwie skale - słabszą (tzn. taką, która spełnia mniej warunków) i mocniejszą (tzn. taką, która spełnia więcej warunków), należy raczej używać skali mocniejszej, gdyż możemy wówczas stosować potężniejsze narzędzia matematyczne do analizy danych (por. Coombs, 1953, s. 487). Jeżeli wszakże nie jesteśmy całkiem pewni, które warunki i w jakim stopniu są spełnione, lepiej poprzestać na słabszej skali, żeby nie dokonywać niedopuszczalnych operacji i nie narażać się na błędne wnioski.
5. POMIAR PODSTAWOWY W PSYCHOLOGII
Po zapoznaniu się z różnymi poziomami pomiaru i typami skal możemy wrócić do zagadnienia podstawowego pomiaru w psychologii za pomocą bezpośredniego skalowania w ujęciu Stevensa (1959, 1966), Ekmana (1965) i Goude'a (1962). Goude, który temu problemowi poświęcił swą interesującą książkę, zwraca uwagę na fakt, że przedmiot badania (człowiek) gra czasem rolę narzędzia pomiaru. Dzieje się tak na przykład wtedy, gdy nauczyciel ocenia uczniów, rangując ich od najlepszego do najgorszego, lub gdy w eksperymencie psychofizycznym ktoś ranguje ciężarki ze względu na ich wagę. W obu tych przypadkach mamy do czynienia z pomiarem, zwanym porządkowym, i w obu narzędziem pomiarowym jest człowiek. Pomiar taki uważa Goude za podstawowy i bezpośredni.
Pomiar podstawowy w psychologii nie ogranicza się jednak do tak elementarnych procedur, jak w dwu powyższych przykładach, i Goude podaje w swej książce szereg eksperymentalnych przykładów pomiaru bezpośredniego i pośredniego na poziomie zarówno przedziałowym, jak stosunkowym, i to w odniesieniu nie tylko do człowieka, lecz także do zwierzęcia, a nawet rośliny (skalowanie jasności bodźca dla myszy metodą porównywania pa
35
rami zapomocą uczenia się oraz u owsa koleoptile metodą porównywania parami za pomocą reakcji fototropicznej i dodawania bodźców).
Metody bezpośrednie, omawiane przez Goude'a, to szacowanie wielkości, szacowanie stosunków, konstruowanie wielkości i konstruowanie stosunków. Obserwator określa w nich bezpośrednio stosunki ilościowe między bodźcami przedstawionymi mu w parach - na przykład, że mniejszy kąt stanowi 60 procent większego. (Mimo przedstawiania bodźców parami nie jest to metoda porównywania parami, lecz metoda szacowania stosunków. W metodzie porównywania parami obserwator stwierdza tylko, który bodziec jest pod jakimś względem „większy"). Miary (R) przyporządkowuje się bodźcom w następujący sposób (s. 34): Rx/Ry=rxy wtedy i tylko wtedy, gdy reakcja obserwatora brzmi jeśli po porównaniu bodźców x i y wskazuje on bodziec y jako większy (lub równy). „rxy” nie jest tu, oczywiście, korelacją, lecz liczbą podaną przez obserwatora i wyrażającą stosunek ilościowy między dwoma bodźcami (100 procent w przypadku ich równości).
Po porównaniu wszystkich bodźców otrzymuje się macierz stosunków, w której dla każdego x, y i z powinno być w przybliżeniu r.xyryz=rxz, po czym po wyskalowaniu i dokonaniu pewnych przekształceń otrzymuje się skalę psychologicznych miar badanej własności.
Inne eksperymenty omawiane przez Goude'a dotyczyły testowego pomiaru zdolności rozumowania i uzdolnienia słownego oraz możliwej interpretacji dodawalności uzdolnień w warunkach współpracy między dwiema osobami.
Autor stwierdza w wyniku omówionych eksperymentów, że pomiar podstawowy na poziomie skal stosunkowych jest w psychologii możliwy, przy czym możliwość ta obejmuje człowieka zarówno jako przedmiot pomiaru, jak też jako jego narzędzie. Metodami pomiaru podstawowego zmiennych psychologicznych u człowieka na poziomie skal stosunkowych są metody bezpośrednie, a ponieważ różne metody dają zgodne wyniki, można je uważać za różne sposoby mierzenia tych samych wielkości. Natomiast pośrednia metoda porównywania parami stanowi metodę pomiaru podstawowego u człowieka na poziomie co najmniej skali przedziałowej, otrzymane zaś miary zgadzają się z odpowiednimi wynikami dawanymi przez metody bezpośrednie i metodę dodawania bodźców.
Pomiar bezpośredni na poziomie stosunkowym reprezentowany już jest przez olbrzymi dorobek szkół Stevensa w Cambridge (Massachusetts) i Ekmana w Sztokholmie. Wielki materiał eksperymentalny obejmuje nie tylko skale psychofizyczne (pomiar jasności światła, siły dźwięku, trwania,
34
siły drgań, długości odcinków itp.), lecz również skale postaw, wartości estetycznej rysunków, utworów muzycznych i charakteru pisma, upodobań zawodowych, liberalizmu i konserwatyzmu, powagi przestępstw czy wreszcie - między innymi - subiektywnej wartości pieniądza (por. Stevens, 1966).
Wyniki te świadczą o możliwości pomiaru podstawowego w psychologii, a chociaż ograniczają się do psychofizyki i skalowania postaw, mają niewątpliwie duże znaczenie. Bardziej szczegółowe omówienie pomiaru psychofizycznego - chociaż bez uwzględnienia nowszych metod pomiaru bezpośredniego - oraz skalowania i pomiarowego charakteru testów psychologicznych można znaleźć w pracy Guilforda i Comreya (1961).
6. OGRANICZENIA SKAL
Zagadnienie dopuszczalnych statystyk i testów statystycznych w zastosowaniu do różnych typów skal było w ostatnich latach w psychologii przedmiotem licznych i dotychczas nie rozstrzygniętych dyskusji. Z jednej strony tacy teoretycy pomiaru i statystycy, jak Stevens (1946, 1951, 1958), Guilford i Comrey (1961), Senders (1959) czy Siegel (1956) dość rygorystycznie obstają przy stosowaniu do poszczególnych typów skal tylko takich metod statystycznych, które są dla nich dopuszczalne. Z drugiej strony inni badacze, tacy jak Lord (1953), Burke (1953) czy McNemar (1962) zajmują stanowisko znacznie bardziej liberalne, twierdząc, że wszelkie liczby można zawsze dodawać, odejmować, mnożyć i dzielić, a obliczanie średnich, odchyleń standardowych i innych statystyk sprowadza się do takich właśnie działań arytmetycznych. Anderson (1961) po przeanalizowaniu zastosowań różnych metod statystycznych do różnych typów skal stwierdza, że „typ skali pomiarowej niewiele ma wspólnego z tym, czy używać testów parametrycznych, czy nieparametrycznych" (s. 316), a Burke na zakończenie swego artykułu poświęconego tym zagadnieniom (1953) twierdzi, że „własności zbioru liczb jako skali pomiarowej nie powinny mieć wpływu na wybór technik statystycznych dla przedstawiania i interpretowania liczb" (s. 75).
Trzecie stanowisko w tej sprawie reprezentuje Luce (1967, s. 39). Twierdzi on, że użycie testu statystycznego jest ograniczone przez klasę przekształceń, dla których hipoteza zerowa nie ulega zmianie. Ta klasa przekształceń ma coś wspólnego z dopuszczalnymi przekształceniami skal tylko wówczas gdy hipoteza zerowa mówi coś związanego z własnościami skali.
Jeśli więc na przykład, hipoteza zerowa mówi, że dwie próbki pochodzą z tej samej populacji, można stosować dowolne przekształcenie, a więc nawet przekształcać dany rozkład w rozkład normalny, jeśli będziemy wiedzieli, jak to uczynić. Dlatego nam to wolno zrobić, że jeśli dwie próbki pochodzą z tej samej populacji, żadne przekształcenie skali pomiarowej nie zmieni tego faktu.
Z drugiej strony, jeśli hipoteza zerowa dotyczy własności skali, takiej jak dodawalność, wówczas dopuszczalne są tylko przekształcenia liniowe (x'=ax+ b), które nie zmieniają charakteru skali.
Stanowisko Luce'a w sprawie dopuszczalnych przekształceń wydaje się całkiem przekonywające, prowadzi jednak do dość paradoksalnej konsekwencji, jeśli chodzi o stosowalność testów parametrycznych i nieparametrycznych. Jeśli bowiem w przypadku hipotezy nie dotyczącej własności skali, na słabych skalach możemy dokonywać dowolnych przekształceń, to i takich, które nam pozwalają stosować testy parametryczne. Natomiast jeśli hipoteza dotyczy własności skali, takiej jak dodawalność, jesteśmy ograniczeni do dopuszczalnych przekształceń skali, które nie pozwalają na normalizację, skutkiem czego musimy do skal tych stosować testy nieparametryczne.
Adams, Fagot i Robinson (1965) podają formalną teorię dopuszczalności operacji statystycznych różnego typu pomiarów, zgodną z intencjami Stevensa. Proponują oni, aby statystykę uważać za dopuszczalną nie j a k o taką, lecz jedynie z uwagi na charakter wypowiadanych o niej twierdzeń. Twierdzenia o statystykach winny być empirycznie sensowne w tym znaczeniu, że ich prawdziwość lub fałszywość stanowi własność niezmienniczą ze względu na dopuszczalne przekształcenia danej skali.
Stosowanie jakiejkolwiek operacji statystycznej do pomiarów na określonej skali nie jest złe samo w sobie, lecz może być błędne zależnie od tego, jaki się czyni użytek z wyników tych zastosowań, gdyż wypowiedzi o nich mogą nie mieć empirycznego sensu.
Poważnym i szczególnie ważnym dla psychologii ograniczeniem teorii Adamsa, Fagota i Robiiisona, na które oni sami zwracają uwagę (s. 122), jest fakt, że nie można jej stosować do systemów pomiaru, nie mających jasno określonych zbiorów dopuszczalnych przekształceń. Tak właśnie jest z wynikami testowymi i innymi pomiarami tego typu.
Znaczenie tego ograniczenia jest ogromne. Wyniki testowe są rodzajem pomiaru, w związku z którym różnice zdań w sprawie dopuszczalnych statystyk są najczęstsze. Autorzy jednak sądzą, że brak ścisłego określenia
dopuszczalnych przekształceń takich skal nie jest tylko wadą ich ujęcia, lecz tkwi w samej istocie pomiaru testowego, toteż żadna głębsza analiza nie wykryje, jakie przekształcenia są „rzeczywiście" możliwe.
Wniosek ten wydaje się zbyt pesymistyczny. Postępowi teorii psychologicznych oraz technik pomiarowych niewątpliwie będzie towarzyszyć doskonalenie testów jako skal przedziałowych i stosunkowych, dla których zagadnienia dopuszczalnych przekształceń nie powinny być zasadniczo nierozwiązalne.
Charakterystyka skal i omówienie ich ograniczeń opierały się na ostrożnym stanowisku Stevensa, za którym opowiada się bodaj większość teoretyków. Wprawdzie istotnie na liczbach można dokonywać wszelkich działań arytmetycznych, lecz nie wolno zapominać, że liczby, jakie otrzymujemy w wyniku operacji pomiarowych różnego typu, nie zawsze spełniają aksjomatykę algebry liczb rzeczywistych, a więc nie są liczbami rzeczywistymi. Dla psychologa ważne są jednak nie tyle same liczby, ile ich empiryczna interpretacja. Z drugiej strony nie można odmówić słuszności tym, którzy twierdzą, że numerycznie rzecz biorąc, wynik działań arytmetycznych nie zależy od charakteru skali. Toteż być może ma słuszność Karon (1968, s. 109), który twierdzi, że wolno dokonywać wszelkich działań, nie wolno zaś tylko wyciągać wniosków wybiegających poza dopuszczalne dla danej skali interpretacje empiryczne. Dla skal nominalnych możemy więc tylko twierdzić, że coś jest równe lub różne, dla skal porządkowych, że jest większe lub mniejsze, ale dopiero dla skal przedziałowych, że jest większe o tyle a tyle i dopiero dla skal stosunkowych, że jest większe tyle a tyle razy. Możemy więc, na przykład, obliczyć średnie rangi centylowe dwóch grup, ale na tej podstawie wolno nam tylko stwierdzić, że średnia ranga jednej grupy jest wyższa od średniej rangi drugiej grupy, gdyż na to pozwala aksjomatyka skali porządkowej, natomiast nie wolno nam stwierdzić, o ile jest wyższa, gdyż takie stwierdzenia można wypowiadać jedynie dla skal przedziałowych i stosunkowych, dla skal zaś porządkowych są one pozbawione sensu.
Stosowalność testów parametrycznych zależałaby wówczas jedynie od normalności rozkładów, a nie od własności skal - do czego zresztą ograniczają się ich założenia, w których nie ma mowy o skalach pomiarowych. Że jednak o kształcie rozkładu możemy sensownie mówić dopiero w odniesieniu do skal przedziałowych i stosunkowych (zakładając również przedziałowy charakter testowych wyników surowych), mimo wszystko dotyczyłoby to tylko tych dwu rodzajów skal. Tu dopiero użycie testów parametrycznych
byłoby wprawdzie możliwe, ale zależne od normalności rozkładu. Inna rzecz, jak na to się często zwraca uwagę w literaturze, że takie testy statystyczne jak t lub F są bardzo elastyczne i dopuszczają nawet znaczne pogwałcenie założeń (por. Boneau, 1960).
7. ZAKOŃCZENIE
Podstawowymi własnościami skal pomiarowych są więc operacje empiryczne, na których się te skale opierają, dozwolone przekształcenia matematyczne, jakim je można poddawać, oraz dopuszczalne statystyki i testy statystyczne. Od typu skali zależy, pod jakim względem relacje ilościowe między pomiarami są homomorficzne z odpowiednimi stosunkami między mierzonymi własnościami. Charakter skali określa, jakie wnioski z analizy danych uzyskanych dzięki pomiarowi są dopuszczalne, tzn. dają wyniki sensowne dla mierzonych zmiennych.
Idąc za Coombsem (1953, s. 484n) można stwierdzić, że pomiar ma dwa aspekty. Z jednej strony mamy abstrakcyjne systemy elementów matematycznych, które posiadają pewne własności formalne i na których wolno dokonywać pewnych działań. Poszczególnym poziomom pomiaru odpowiadają systemy matematyczne o coraz mocniejszej aksjomatyce określającej ich własności, przy czym im więcej własności formalnych posiada dany system, tym mniej dopuszcza przekształceń.
Z drugiej strony mamy empiryczne systemy przedmiotów wraz z ich obserwowalnymi własnościami i zachodzącymi między nimi stosunkami. Pomiar polega na odwzorowywaniu systemów empirycznych na systemach matematycznych, celem zaś tego odwzorowywania jest częściowe zastępowanie działań na przedmiotach działaniami formalnymi na liczbach. Ponieważ jednak do różnych systemów empirycznych musimy stosować różne systemy matematyczne, zależnie od posiadanych metod pomiaru i typu skal, rozumienie formalnych aspektów pomiaru jest konieczne do inteligentnego posługiwania się narzędziami pomiaru i do stosowania właściwych metod analizy danych.
W logice i matematyce spotykamy się z różnymi systemami, które są budowane z myślą o uchwyceniu pewnych własności formalnych różnych obszarów i aspektów świata. Systemy takie nazywa się zwykle modelami. Wszakże modele takie nie „opisują rzeczywistości" i są empirycznie puste, dopóki się dla nich nie znajdzie zadowalającej interpretacji empirycznej.
Interpretacja taka musi się opierać na pomiarze i można powiedzieć (por. Goude, 1962, s. 17), że pomiar jest procedurą, która przekształca abstrakcyjne modele logiczne i matematyczne w teorie rzeczywistości.
Trudno by było wymienić wszystkie zalety metodologiczne pomiaru w nauce. Można jednak wspomnieć (por. Ghiselli, 1964, s. 26), że liczby są jednoznaczne, liczby pozwalają na dokładniejszy opis oraz na obiektywne klasyfikowanie i porządkowanie, a ponieważ są ściślejsze od słów, można je poddawać operacjom logicznym i matematycznym, znacznie bardziej efektywnym niż jakiekolwiek rozumowanie werbalne i pozwalającym na wykrywanie nowych zależności i prawidłowości.
W opisie słownym trudno uniknąć elementów subiektywnych, wprowadzania, jeśli nie ocen i ubarwień, to przynajmniej - nie zawsze świadomych - wniosków i uogólnień. Opis jakościowy jest z konieczności mało subtelny i mało dokładny, gdyż językowi brak nazw na oznaczanie bardziej zróżnicowanych stopni cech i przedstawianie przebiegu zmian; nie pozwala na określanie błędu obserwacji oraz stanowi w pewnym sensie ślepy zaułek - czasem barwny i ciekawy, lecz poza który nie można wyjść. Nie znaczy to, rzecz prosta, że dla opisu nie ma w ogóle miejsca w psychologii, lecz że winien on stanowić jedynie ilustrację czy komentarz do cyfr, nigdy ich jednak nie może w nauce zastąpić.
Jak pisze Ajdukiewicz (1961, s. 231), „dzięki przyporządkowywaniu liczb cechom fizycznym przedmiotów, którego dokonujemy przez pomiar, możemy korzystać z aparatu matematyki dla wyprowadzania z twierdzeń zdobytych na drodze obserwacji odległych ich konsekwencji, które mogą nawet wykraczać poza granicę możliwego doświadczenia. Jeśli poza tę granicę nie wychodzą, mogą one służyć do przewidywania przyszłych obserwacji, a tym samym służyć do sprawdzania prawidłowości i hipotez, z których je wyprowadziliśmy".
Pomiar sprowadza się w gruncie rzeczy do umiejętnego manipulowania odpowiednim narzędziem pomiaru. W ten sposób subiektywne obserwacje zostają zastąpione obiektywnym narzędziem pomiarowym, wydawane sądy stają się niezależne od osoby badacza, opis werbalny ustępuje miejsca charakterystyce liczbowej, a rozumowane wyciąganie wniosków - ilościowej przeróbce danych z użyciem całego bogactwa współczesnych metod matematycznych.
Dzięki wprowadzeniu matematyki do psychologii możemy ściśle formułować nasze hipotezy i sprawdzać ich wiarogodność, ilościowo oceniać wielkość błędów oraz budować matematyczne modele badanych zjawisk.
Tylko pomiar pozwala na znajdowanie prawdziwych parametrów rzeczywistości jako wartości najbardziej prawdopodobnych, otrzymywanych z empirycznych rozkładów częstości.
Pomiar jednak - jak pięknie pisze Stevens - jest czymś więcej niż pedantycznym pościgiem za miejscem dziesiętnym. Jego istotny i pasjonujący charakter ujawnia się najjaśniej być może wtedy gdy chodzi o mierzenie czegoś, co nigdy jeszcze nie było mierzone, lub jeszcze lepiej, czegoś, co było uważane za niemierzalne.
LITERATURA
Adams E. W. Elements of a theory of inexact measurement. "Philosophy of Science" 1965, 32, 205 - 228.
Adams E. W., Fagot R. F., Robinson R. E. A theory of appropriate statistics. "Psychometrika" 1965, 30, 99 - 127.
Ajdukiewicz K. Pomiar. „Studia Logica" 1961, tom XI.
Ajdukiewicz K. Logika pragmatyczna. Warszawa 1963, PWN.
Anderson N. H. Scales and statistics: parametric and nonparametric. "Psychological
Bulletin" 1961, 58, 305 - 316.
Angoff W. H. Measurement and scaling. W: Encyclopedia of Educational Research pod red. C. W. Harrisa, ss. 807 - 817. New York 1960, Macmillan.
Bergmann G., Spence K. W. The logic of psychophysical measurement. "Psychological Review" 1944, 51. Przedruk w książce Readings in the philosophy oj science pod red. H. Feigla i May Brodbeck, ss. 103 - 119. New York 1953, Appleton-Century-Crofts.
Boneau C. A. The effects of violations of assumptions underlying the t test. "Psychological Bulletin" 1960, 57, 49 - 64.
Burke C. J. Additive scales and statistics. "Psychological Review" 1953, 60, 73 - 75. Campbell N. R. Physics: the elements. Cambridge 1920, The University Press. Campbell N. R. What is science? London 1921, Methuen.
Campbell N. R. An account of the principles of measurement and calculation. London
1928, Longmans.
Choynowski M. Przedmowa do książki: J. P. Guilford, A. L. Comrey Pomiar
w psychologii. Wrocław 1961. Zakład Narodowy im. Ossolińskich.
Cohen M. R., Nagel E. An introduction to logic and scientifrc method. New York
1934, Harcourt, Brace and Co.
Coombs C. H. A theory of psychological scaling. Ann Arbor, Mich. 1951, Engineering Research Institute, University of Michigan.
Coombs C. H. Theory and methods of social measurement. W książce Research Methods in the Behavioral Sciences pod red. L. Festingera i D. Katza, ss. 471 - 535. New York 1953, Dryden Press.
Drenth P. J. D. Der psychologische Test:Eine Einfrihrung in seine Theorie und seine Anwendungen. Miinchen 1969, Johann Ambrosius Barth.
Dubislav W. Naturphilosophie. Berlin 1933, Junker.
Ehrenberg A. S. C. Measurement and mathematics in psychology. "British Journal
of Psychology" 1955, 46, 20 - 29.
Ekman G. i Sjóberg L. Scaling. "Annual Review of Psychology" 1965, 16, 451 - 474. Ellis B. Basic concepts of measurement. Cambridge 1966, The University Press. Faverge J. M. Methodes statistiques en psychologie appliquee. Paris 1966, Presses
Universitaires de France.
Ghiselli E. E. Theory of psychological measurement. New York 1964, McGraw-HiII. Goude G. On fundamental measurement in psychology. Stockholm 1962, Almgvist
och Wiksell. Stockholm Studies in Psychology 2.
Guilford J. P. Psychometric methods. 2 wyd. New York 1954, McGraw-Hill. Guilford J. P., Comrey A. L. Pomiar w psychologii (Tłum.). Wrocław 1961, Zakład
Narodowy im. Ossolińskich.
Hempel C. G. Fundamentals of concept formation in empirical sciences. Chicago 1952,
University of Chicago. "International Encyclopedia of Unified Science", tom II,
No. 7.
Kaplan A. The conduct of inquiry: methodology for behavioral science. San Francisco
1964, Chandler.
Karon B. P. Problems of validities. W książce Projective techniques in personality
assessment pod red. A. I. Rabina, ss. 85 - 111. New York 1968, Springer. Kerlinger F. N. Foundations of behavioral research. New York 1964, Holt.
Lenzen V. F. Procedures of empirical science. Chicago 1938, University of Chicago
Press. "International Encyclopedia of Unified Science" t. I, No. 5.
Lord F. M. On the statistical treatment of football numbers. "American Psychologist"
1953, 8, 750 - 751.
Lord F. M., Novick M. R. Statistical theories oj mental test scores. Reading, Mass.
1968, Addison-Wesley.
Luce R. D. Remarks on the theory of the measurement and its relation to psychology.
W książce Les modeles et la formalisation du comportement, ss. 27 - 49 (z dys
kusją). Paris 1967, Centre National de la Recherche Scientifique.
Magnusson D. Test theory. Reading, Mass. 1967, Addison-Wesley.
McGinnies R. Mathematical foundations for social analysis. Indianapolis 1965,
Bobbs-Merrill.
McNemar Q. Psychological statistics. New York 1962, Wiley.
Menger K. What are variables and constants? "Science" 1956, No. 3196, 547 - 8. Mount G. E. An analytic account of the principles of measurement. "Psychological
Reports" 1956, 2, 13 - 28.
Nunnally J. C. Psychometric theory. New York 1967, McGraw-Hill.
Pap A. An introduction to the philosophy of science. Glencoe 1962, The Free Press. Pawłowski T. Wskaźniki metryczne i skale w socjologii. „Studia Socjologiczne" 1963,
nr 2/9, 147 - 162.
Reuchlin M. Les methodes quantitatives en psychologie. Paris 1962, Presses Univer
sitaires de France.
Ritchie A. D. Scientific method: an inquiry żnto the character and validity of natura!
laws. New York 1923 Harcourt Brace and Co.
41
15
15
15
3 2* 19
4 2* 19
5 23
6 25
7 27
8 29
r 11
32 3 Problemy psychologii matematycznej 33
32 3 Problemy psychologii matematycznej 33
32 3 Problemy psychologii matematycznej 33
12 37
13 39
Skala