135 anex b

135 anex b



ANEKS:

SZCZEGÓŁOWY OPIS PROCEDURY

W niniejszej części opisujemy zastosowaną procedurę na tyle szczegółowo, by czytelnik mógł dokładnie powtórzyć nasze obliczenia. Przedstawiamy też powody dla których wybraliśmy takie, a nie inne definicje.

W rozdziale A.l definiujemy „pierwotną” miarę odległości między słowami. W A.2 opisujemy sposób normalizacji owej pierwotnej miary uwzględniający takie czynniki, jak długość słowa i jego układ (względną częstotliwość występujących w nim liter). W A.3 zajmujemy się powiązaniem osób p z datami p' i tłumaczymy, w jaki sposób w oparciu o listę osób została utworzona próba par słów (w, w'). W A.4 informujemy, jakiej konkretnie wersji Genesis użyliśmy w naszym badaniu. Część A5 zawiera definicje i uzasadnienie wyboru czterech sumarycznych statystyk Pi, Pz, Ps i Pa. Wreszcie część A.6 opisuje szczegóły procedury randomi-zacyjnej.

Części A.l i A.3 mają dość techniczny charakter; żeby lepiej zrozumieć naszą metodę, należałoby zacząć od lektury pozostałych części.

A.1 Odległość między słowami

Żeby zdefiniować „odległość” między słowami, musimy najpierw określić odległość między reprezentującymi je ELS; w tym celu musimy przedtem zdefiniować odległość między ELS w danej tablicy; a jeszcze wcześniej określić odległość między poszczególnymi literami w tej tablicy

Jak to opisaliśmy w części 1, tablicę traktujemy jako linię ciągłą, spiralnie okrążającą walec; jej długość wiersza h, to liczba (pionowych) kolumn. Celem zdefiniowania odległości między dwiema literami x i x, przetnijmy powierzchnię walca wzdłuż pionowej linii dzielącej kolumny Na tak powstałej płaszczyźnie, x i x' odpowiada para współrzędnych; przy ich pomocy obliczamy odległość w zwykły sposób. Uzyskujemy, w ogólności, dwie liczby określające odległość, zależnie od tego, w którym miejscu przecięliśmy powierzchnię walca; jeśli są one różne, wybieramy mniejszą z nich.

Następnie definiujemy odległość między dwoma określonymi ELS, e i e', na określonej cylindrycznej tablicy. Przyjmijmy

f := odległość między kolejnymi literami e,

f':= odległość między kolejnymi literami e',

l := minimalna odległość między literami

e i literami e

i zdefiniujmy 8 (e, e') := f1 + /”2 + Z2. Wartość 8 (e, e') nazwiemy odległością między ELS e i e na danej tablicy; jest ona mała, jeśli oba ELS mieszczą się w stosunkowo małym obszarze. Przykładowo, na rys. 3 mamy:/= 1, f - JE, l = Jm i 8 = 40.

Dalej, Genesis można zapisać w postaci cylindrycznej tablicy na wiele sposobów, zależnie od wybranej długości wiersza h. Oznaczmy przez 8h(e, e) odległość (e, e') w tablicy wyznaczonej przez wartość h oraz zdefiniujmy pfc (e, e') := 1 / S/t (e, e'); im większe jest \ih ie, e'), tym bardziej zwarta jest konfiguracja e ie' w tablicy o długości wiersza h. Przyjmijmy e - (n, d, k) (przypomnijmy że oznacza skok) i e' = (n\ d\ k'). Szczególnie interesujące są przypadki długości wierszy h = hi, hz, ..., gdzie h\ jest liczbą całkowitą najbliższą \d\ii (1/2 zaokrąglamy w górę). Kiedy h - h\ = l<i I, wtedy pojawia się (jak na rys. 1) w postaci kolumny sąsiadujących liter; kiedy zaś h = = hz, wtedy e występuje albo w postaci

kolumny liter w co drugim wierszu (jak na rys. 1), albo jako układające się w linii prostej ruchy konika szachowego (jak na rys. 3). W ogólności te tablice, w których e zajmuje stosunkowo mały obszar, mają długość wiersza hi, gdzie i jest „stosunkowo małe”.

Zdefiniujmy ki' analogicznie do hi. Z powyższych rozważań wynika, że jeśli istnieje tablica, w której układ (e, e') zajmuje szczególnie mały obszar, jest najbardziej prawdopodobne, że pojawi się ona wśród tych, dla których długość wiersza jest jedną z początkowych 10 ki albo początkowych 10 hi' (próg 10 został wybrany arbitralnie, jako „umiarkowana” wartość). Przyjmując

10    10

o(e,e'):~ ^ ąh, (e, e') + ^ pą-(e,e'), i=l    i=l

stwierdzamy, że c(e, e) jest rozsądną miarą maksymalnej „zwartości” układu (e, e') w jakiejkolwiek tablicy Odpowiednio, jest to odwrotna miara minimalnej odległości między e i e'.

Następnie, przy danym słowie w, poszukujemy „najbardziej znaczącego” wystąpienia lub wystąpień w jako ELS w G. W tym celu wybieramy te ELS, e = = (n, d, k) z ldl> 2, które odpowiadają w i dla których skok \d\ jest minimalny w całej G lub w znacznych jej częściach. Konkretniej, zdefiniujmy obszar minimal-ności e jako największy fragment G — oznaczmy go przez Te — zawierający i nie zawierający żadnego innego ELS e = (n,d, k) odpowiadającego w, dla którego Jdj < jdj. Jeśli e' jest ELS reprezentującym inne słowo w', wtedy % n Te, nazwiemy zakresem współminimalności e i e'. Wielkość (długość) tego zakresu w stosunku do G jest „wagą”, jaką przypiszemy parze (e, e'); definiujemy więc: <» (e, e) := := \(e, e')MG), gdzie %{e, e) jest długością Ter\Te \ a X(G) długością G. Dla dwóch dowolnych słów w i w' przyjmujemy

Cliw, w')£ rafo, e) nie, e'), gdzie suma przebiega po wszystkich ELS e i e' wyrażających, odpowiednio, w i w'. Mówiąc obrazowo, Cl(w, w') mierzy minimalny dystans „najbardziej znaczących” wystąpień w i w' jako ELS w Genesis — im mniej są one oddalone od siebie, tym większa jest wartość GKu>, w').

Przy obliczaniu Q(w, tu'), listy ELS dla w i w' (zwłaszcza dla krótkich słów) mogą okazać się niepraktycznie długie. Z definicji zakresu minimalności jasno wynika, że dzięki niskiej wadze, wkład ELS dla w iw' o stosunkowo dużym kroku w wartość Cl(w, w') będzie znikomy Stąd, żeby zminimalizować ilość niezbędnych obliczeń, ograniczyliśmy z góry krok Id I < <D(mj) dla w, tak żeby wartość oczekiwana liczby ELS dla w wynosiła 10. Th wartość oczekiwana równa jest względnej częstości występowania w Genesis liter składających się na słowo w pomnożonej przez liczbę wszystkich ciągów równoodległych liter, dla których 2<ldl<D. (Tę ostatnią określa wzór (D - 1)[2L - (k - 1) (D + 2)], gdzie L oznacza długość tekstu, a k ilość liter u>\. Ib samo ograniczenie dotyczy w', z tym samym limitem D{w'). W dalszym ciągu także tak poprawioną funkcję będziemy nieco niekonsekwentnie, oznaczać przez Cliw, w').

A.2 Zmodyfikowana odległość

W poprzedniej części zdefiniowaliśmy miarę u>‘) bliskości dwóch wyrazów w i w' — odwrotną miarę ich odległości. Jednak mniej nas interesuje bezwzględna miara odległości dwóch słów, bardziej natomiast to, czy odległość ta jest większa, czy mniejsza od pewnej wartości „oczekiwanej”. W tej części definiujemy „odległość względną” c (w, w'), która jest mała, kiedy w znajduje się „nieoczekiwanie blisko” w', i jest równa 1 lub prawie 1, kiedy w jest „nieoczekiwanie daleko” od w'.

Idea polega na użyciu „zakłóconych” ciągów arytmetycznych, które precyzują pojęcie ELS. Mówiąc konkretniej, zaczynamy od ustalenia trójki liczb całkowitych (x, y, z) należących do 1-2, —1, 0, 1, 2); takich trójek jest 125. Następnie, zamiast poszukiwać zwykłych ELS (n, d, k), szukamy „(x, y, z)-zakłóconego wariantu ELS”, (n, d, k)lx'yz\ otrzymanego przez wybranie w tekście miejsc

n, n + d,.... n + (,k-4)d, n + (k -3)d + x, n + (k-2)d + x + y,n + (k~l )d+z +y +2 zamiast n, n + d, n + 2d,n + (k - l)d.

Zauważmy, że w słowie o długości k „zakłócone” mogą być k - 2 odstępy jednak techniczne wymogi programowania kazały nam ograniczyć się do trzech ostatnich.

I tak, odległość między dwoma (x, y, z)--zakłóconymi ELS (n, d, ki*’yz> i (n, d.\ k 'fxy’definiujemy jako odległość między zwykłymi (niezakłóconymi) ELS (n, d,

k)    i («', d\ k').

Możemy teraz określić „(n, d, /e)-blis-kość” dwóch słów w i w' w sposób ściśle analogiczny do tego, jakim posłużyliśmy się obliczając „zwykłą” bliskość fl(u.’, w'). Otrzymujemy 125 liczb Cl**’ yz\w, «.■'); jedną z nich jest Cliw, w') = d°’ °’ w'). Interesują nas tylko niektóre ze 125 liczb, mianowicie te odpowiadające trójkom (x, y, z), dla których istnieją w Genesis pewne (x, y, z)-zakłócone ELS dla w i pewne inne dla w' finne Cl{xyz\w, w') znikają]. Oznaczmy przez M(w, w') zbiór wszystkich takich trójek, a przez m(w, w') liczbę jego elementów.

Przypuśćmy, że (0, 0, 0) należy do M(w, tu'), to znaczy, że w i w' pojawiają się w tekście w postaci zwykłych ELS (tzn. dla x = y - z = 0). Oznaczmy przez v(w, w') liczbę trójek należących do M(w, w') takich, że Cl<x'yz\w, w') > O iw, w'). Jeżeli m(w, w') >10 (powtórzmy, 10 jest arbitralnie wybranym, „umiarkowanym” progiem), to

ciw, w') := v{w, w') t m(w, w').

Jeżeli (0, 0, 0) nie należy do M(w, w') albo m(w, u>') < 10 (w tym przypadku uznajemy metodę za nie dość dokładną), rezygnujemy z definiowania c(w, w').

Krótko mówiąc, zmodyfikowana odległość c(w, w') to po prostu ranga bliskości f2(w, w') wśród wszystkich „zakłóconych bliskości” Cl**’ yz\w, w'); normalizujemy tę wartość tak, żeby maksymalna odległość wynosiła 1. Duża zmodyfikowana odległość oznacza, że ELS odpowiadające w leżą daleko od tych, które odpowiadają w' na skali wyznaczonej przez to, jak daleko leżą zakłócone ELS dla w od podobnych ELS dla w'.

A.3 Próba par słów

Ogólny opis obu prób znajdzie czytelnik w części 2 krok (iii). Jak zaznaczyliśmy test istotności został przeprowadzony jedynie dla drugiej listy (por. tabela 2). Zauważmy, że każda osoba może być określona na wiele sposobów i że istnieją różne sposoby zapisywania dat. Konstruując próbę par słów iw, w') braliśmy pod uwagę każde imię każdej osoby kojarząc je z każdym określeniem związanej z tą osobą daty Jeśli więc przestawiamy daty może też zmienić się (i zwykle zmienia się) liczba par słów w próbie.

W stosunku do hebrajskiej pisowni przestrzegaliśmy następujących zasad:

l)    w przypadku słów hebrajskich zawsze trzymamy się tego, co bywa nazywane gramatyczną ortografią, ,Jitiv dikdu-ki”, por. hasło „ktiv” w słowniku Even--Shoshana LU;

2)    zachowujemy oryginalną pisownię imion i nazw z Pięcioksięgu;

3)    jidysz zapisujemy w hebrajskim alfabecie, nie ma więc potrzeby transliteracji nazw w jidysz;

4)    w hebrajskiej transliteracji nazw obcych, litery „N” używa się często jako mater lectionis’, na przykład, „Luzza-tto” można zapisać jako „lOSlb” albo

W takich przypadkach używamy obu form.

W datowaniu używaliśmy trzech ustalonych formatów hebrajskich dat. Na przykład dzień 19 tiszri oznaczaliśmy 'itón v\ n\yn o n i >-ranx> \. Dzień 15 i 16 dowolnego hebrajskiego miesiąca można zapisać jako, odpowiednio, rU i Vo lub U i t'V5. Uwzględnialiśmy obie możliwości.

Listę imion osób dostarczył profesor S. Z. Havlin z Wydziału Bibliografii i Bibliotekoznawstwa Uniwersytetu Bar-Ilan, w oparciu o bazę danych „Responsa”.

Nasza oparta na (x, y, z)-zakłóceniach metoda porządkowania ELS daje się zastosować jedynie do słów co najmniej piędoliterowych. Co gorsza, odkryliśmy, że dla słów liczących więcej niż osiem liter, liczba odpowiadających im (x, y, z)-zakłó-conych ELS okazywała się zbyt mała, żeby można było obliczyć zmodyfikowaną odległość. Z tego powodu ograniczyliśmy naszą listę do stów o długości 5 do 8 liter. Otrzymana próba składa się z 298 par słów (por. tabela 2).

A.4 Tekst

Posłużyliśmy się standardowym, ogólnie przyjętym tekstem Genesis, znanym jako Thdus Receptus. Jedna z szeroko dostępnych edycji została opublikowana przez jerozolimskie wydawnictwo Koren. Nią właśnie posłużyliśmy się w naszych badaniach.

A.5 Uogólnione miary bliskości Pi, Pi, P3 iP4

Niech N będzie liczbą par słów (w, w') w próbie, dla których zmodyfikowana odległość c(w, w') jest dobrze określona (por. A.2 i A.3). Niech k oznacza liczbę takich par (w, w'), dla których c(w, w~)<j-Przyjmijmy


J

(A'

w J

(5;


N-j


Żeby zrozumieć tę definicję, zauważmy że gdyby c(it>, w') były niezależnymi zmiennymi losowymi o rozkładzie jednostajnym na przedziale [0, 1], wtedy P1 byłoby prawdopodobieństwem tego, że co najmniej k spośród wszystkich N będzie mniejsze lub równe 0,2. Jednak nie czynimy jakichkolwiek założeń co do niezależności i jednostajnego rozkładu tych zmiennych, ani z nich nie korzystamy Zatem wartość Pi, choć przeskalowana według prawdopodobieństwa, jest po prostu liczbą porządkową, mierzącą liczbę par słów w danej próbie, któiych składniki leżą „dość blisko siebie” [tzn. c(w,w') < i], z uwzględnieniem wielkości całej próby Pozwała to nam porównać różne próby pod względem ogólnej bliskości par słów, w szczególności w przypadku prób powstających z różnych permutacji 32 osób.

Statystyka Pi pomija wszystkie odległości ciw, w') większe od 0,2 i daje równą wagę wszystkim odległościom mniejszym od 0,2. Dla uzyskania miary wrażliwej na rzeczywistą wartość odległości obliczamy iloczyn Ticiw, u>') po wszystkich parach iw, w'). Następnie definiujemy

P2 := F" [flcha, w')]

gdzie N określamy jak wyżej, a

l-lnZ +


(-lnZ)2

2!



(- In X)N~l (IV-1)!

.

Zęby zrozumieć tę definicję, zauważmy

najpierw, że jeśli x\, X2..... xn

niezależnymi zmiennymi losowymi z rozkładem jednostajnym na [0, 1], wtedy rozkład ich iloczynu X := x\ X2 ... xn opisuje funkcja Prób (Z<Zo) =PW(X0); wynika to z (3.5) w [3], bowiem zmienne -ln Xi mają rozkład ekspotencjalny oraz -lnZ =

= £j (-ln xi).

Intuicja dla P2 jest podobna: gdyby ciw, w') były niezależnymi zmiennymi losowymi o rozkładzie jednostajnym na [0, 1], wtedy P2 byłoby prawdopodobieństwem tego, że iloczyn fle(u>, w') będzie tak mały jak w rzeczywistości lub mniejszy Ałe, jak poprzednio, nie robimy żadnych założeń co do jednostajnego rozkładu lub niezależności. Podobnie jak Pi, statystyka P2 zostaje przeskalowana zgodnie z prawdopodobieństwem; jednak zamiast myśleć o niej jako o prawdopodobieństwie, lepiej ją sobie wyobrażać jako liczbę porządkową umożliwiającą porównanie bliskości słów w parach słów powstających wskutek różnych permutacji osób.

Posłużyliśmy się też dwiema innymi statystykami P3 i P4, zdefiniowanymi podobnie jak Pj i P2, ale z pominięciem wszystkich pozycji zaczynających się od słowa „Rabi”. Powodem uwzględnienia P3 iP4 było to, że tytułowi JRabi” często towarzyszy wyłącznie imię. Niektóre imiona są bardzo popularne (jak angielskie „John” czy hebrajskie ,Abraham”), stąd wiele różnych osób występuje jako Rabi Abraham Jeśli badane zjawisko rzeczywiście ma miejsce, uwzględnienie takich przypadków mogłoby prowadzić do zaniżenia wartości ciw, w'), kiedy permu-tacja n przypisuje jednemu ,JRabi Abrahamowi” daty dotyczące innego „Rabi Abrahama”. Otrzymalibyśmy zaniżone wartości P* i dla permutowanych prób i w konsekwencji zaniżone poziomy istotności dla Pi i P2, co prowadzałoby do nieuprawnionego odrzucenia hipotezy badawczej. Zauważmy, że efekt ten działa tylko „w jedną stronę”; nie grozi nam nieuprawnione przyjęcie hipotezy badawczej, skoro przy założeniu prawdziwości hipotezy zerowej, liczba P" większych od Pma w każdym przypadku rozkład jednostajny. Pominięcie pozycji zaczynających się od ,JRabi” nie wpłynęło znacząco na wynik (por. tab. 3); jednak nie mogliśmy tego wiedzieć przed przeprowadzeniem obliczeń.

Pewną intuicję odnośnie do odległości zmodyfikowanych (w przypadku pierwotnych, nie permutowanych prób) daje rys. 4. Zauważmy że zarówno w pierwszej, jak drugiej próbie, rozkład R wydaje się całkowicie losowy podczas gdy dla G koncentruje-się on silnie blisko 0. Właśnie tę koncentrację mierzą statystyki P».


Wyszukiwarka

Podobne podstrony:
NAZWA I SZCZEGÓŁOWY OPIS PROCEDUR PRZEWIDZIANYCH W PROGRAMIE 4. Ubezpieczone z ujemnym wynikiem bada
NAZWA I SZCZEGÓŁOWY OPIS PROCEDUR PRZEWIDZIANYCH W PROGRAMIE f 6.    Świadczeniodawca
NAZWA I SZCZEGÓŁOWY OPIS PROCEDUR PRZEWIDZIANYCH W PROGRAMIE / 1. Świadczeniodawca wyłoniony w
NAZWA I SZCZEGÓŁOWY OPIS PROCEDUR PRZEWIDZIANYCH W PROGRAMIE 2. Zakres świadczeń w ramach porady
NAZWA I SZCZEGÓŁOWY OPIS PROCEDUR PRZEWIDZIANYCH W PROGRAMIE 3. Ubezpieczone z ujemnym wynikiem bada
NAZWA I SZCZEGÓŁOWY OPIS PROCEDUR PRZEWIDZIANYCH W PROGRAMIE 5. Ubezpieczone z nieprawidłowym wyniki

więcej podobnych podstron