135 anex a

Mierzyliśmy statystyczną istotność (takich ,hk mlot-towa®,

iy zdefiniować

„uuicgiow, oix_?^ _______ELS w obrębie

jednej tablicy; w tym celu posługujemy się odpowiednim wariantem zwykłej metryki eukłidesowej- Po drugie, ponieważ istnieje wiele sposobów zapisania danego tekstu w postaci dwuwymiarowej tablicy, zależnie od wybranej długości wierszy musimy posłużyć się jedną lub więcej tablicami i umieć zagregować otrzymane wyniki (oczywiście wybór rozmiaru tablicy idub agregacja wyników cząstkowych musi następować podług ustalonych i konsekwentnie przestrzeganych reguł). Po trze-

w tekście wielokrotnie jako ELS; i w tym przypadku niezbędne są procedury wy-

dzić poprawki na długość kład. Wszystko to zostało isane w częściach A.l i A.2

szczegółowo

Należy zaznaczyć, że na

odległości nie jest jedyną tr~.------

ciąż każda definicja musi spełniać pewne ogólne wymogi (jak minimalizacja skoku

Jednak nie wydaje się prawdopodobne, by fakt ten mógł zasadniczo wpłynąć na ostateczny wynik. Zdecydowaliśmy się na określoną definicję odległości, którą posługiwaliśmy się konsekwentnie: funkcja c(w, wl, opisana w części A.2 Aneksu, została zdefiniowana przed dokonaniem

[Tb same uwagi dotyczą decyzji podejmowanych podczas realizacji punktu (ii)1.

Kolejna czynność (ii) polegała na zmierzeniu przeciętnej bliskości par słów w całej próbie. W tym celu użyliśmy dwóch różnych statystyk Pi i P<i- Ich opis wraz z uzasadnieniem znajduje się w Aneksie (część A.5). W sensie intuicyjnym obie mierzą przeciętną bliskość, choć każda w inny sposób. W obu przypadkach

branych parach ieżą na ogół blisko siebie. Inne statystyki nie były obliczane — ani dla pierwszej, ani drugiej, ani żadnej in-

W kroku (iii), konstruując odpowiednią próbę par słów, staraliśmy się zachować konsekwentne i obiektywne reguły w odniesieniu do relacji między słowami w ramach poszczególnych par. Budując próbę posłużyliśmy się listą osób [p) oraz dat (hebrajski dzień i miesiąc) lp'} ich śmierci lub urodzin, korzystając z Encyclopedia of

Najpierw zastosowaliśmy proste kryterium selekcji, włączając do próby te osoby któiych encyklopedyczne hasło liczyło co najmniej trzy kolumny tekstu i dLa których można było określić datę narodzin lub śmierci. Otrzymaliśmy 34--osobową listę (por. lista pierwsza — tabela 1). Aby uniknąć ewentualnego posądzenia, że dopasowujemy testy do danych, zbadaliśmy też inną próbę, pozostawiając bez zmian wszystkie inne parametry. Uwzględniliśmy w niej hasła osobowe o długości od 1,5 do 3 kolumn, otrzymując dalsze 32 osoby (por. lista druga — tabela 2). Tfest istotności został przeprowadzony jedynie na drugiej próbie.

Zauważmy, że pary osoba-data (p, p') nie są parami stów Poszczególne osoby bywają różnie określane, istnieją też różne pisownie i różne sposoby datowania. Tak więc każdej parze (p, pj odpowiada wiele par słów (u>, w'). Szczegóły metody wygenerowania próby par słów z listy otrzymujemy statystyki Pi i ?% Zastosowaliśmy również (por. Aneks, część A.5) inny wariant tej metody, generujący mniejszą próbę z tej samej listy osób. statystyki Pi i Pa zastosowane do tej mniejszej próby oznaczyliśmy P3 i Pi-

Pozostał jeszcze krok (iv), tj. test istotności. Jest on tak łatwy i prosty, że -możemy ©3 opisać już teraz.

Druga lista składa się z 32 osob. Dla każdej z 32! permutagi it definiujemy statystykę Pi⁷', otrzymaną w wyniku ustawienia tych osób w kolejności a, tak ze osobie i odpowiadają daty osoby n(i). Wszystkie 32! liczby PT szeregujemy, uwzględniając ewentualne powtorzema, według zwykłej relacji mniejszości dla liczb rzeczywistych. Gdyby badane zjawisko miało charakter losowy pojawienie się Pi na danym miejscu byłoby równie prawdopodobne jak na każdym innym z 32. miejsc. Podobnie jest dla P2, P3 i Pi- Ib jest nasza hipoteza zerowa.

imion; szczegółowa procedura opisana została w Aneksie (część A.6). Każda permu-

z P{\ daje 1000 000 liczb. Zdefiniujmy 'O 000 liczb jako

iść tych Pi. ..

e pewnym P{\ połowę * za „większe” od Pi.

Oznaczmy przez pi rangę Pi podzieloną przez 1 000 000; zgodnie z hipotezą zerową, pi określa prawdopodobieństwo, że Pi

czywistości. Podobnie zdefiniujmy P2. P3 i p₄ (używając każdorazowo tych samych 999 999 permutaeji).

Po obliczeniu prawdopodobieństw pi do p4 musimy podjąć ostateczną decyzję o przyjęciu bądź odrzuceniu hipotezy roboczej. Nie możemy przy tym zadowolić się tylko korzystnymi wynikami. Przypuśćmy na przykład, że p3 = 0,01, a inne p; są wyższe. Pojawia się pokusa, żeby posłużyć się jedynie p3, a więc odrzucić hipotezę zerową na poziomie 0,01. Ale byłoby to błędem; pi statystykach jest c przypadkiem jedna % 1

jeśli

zy dostatecznie w

m: przyjmując hipotezę z< prawdopodobieństwo, że co najmniej . czterech wartości i będzie mniej-luu równa 0,01? Czyli, jeśli oznaczymy prze2 Zi zdarzenie „p; < 0,01”, musimy

jemnie się wykluczały prawdopodobieństwu to wynosiłoby 0,04; koincydencja mogłaby jo tylko obniżyć, więc w każdym

0,04. Możemy zatem odrzucić hipotezę zerową na poziomie 0,04, ale nie 0,01.

Ogólnie, dla każdego 5, prawdopodobieństwo, że co najmniej jedna z liczb pi będzie mniejsza lub równa 5, jest nie większe od 4S. Jest to znana nierówność Bonferroniego. Ostatecznie, jeśli użyjemy wszystkich czterech statystyk, poziom istotności -wyniesie po := 4 min pt.

3. WYNIKI I WNIOSKI

Tabela 3 zawiera rangi każdego z czterech P, pośród 1 000 000 odpowiadających

cą, jakie

na), tunika stąd, że min p/ = 0,000004, czyli po = 4 min p, = 0,000016. Podobne rachunki, z użyciem tych samych 999 999 losowo wybranych permutaeji, przeprowadzono na tekstach kontrolnych. Pierwszy tekst kontrolny R otrzymano przez losową permutację liter G (szczegóły w części A.6 Aneksu). Jeden z czytelników wcześniej-

zasugerował użycie jako tekstu kontrolnego Wojny i pokoju. Zastosowaliśmy więc naszą procedurę do tekstu T, jakim był początkowy fragment o długości równej G dzieła Tbłstoja w przekładzie hebrajskim [6], Następnie jeden z recenzentów poprosił o przeprowadzenie eksperymentu kontrolnego na jakimś wczesnohebraj-skim tekście. Zasugerował randomizację

szczególnych wersów Thk więc sprawdziliśmy teksty 1, U i W: tekst I to Księga Izajasza [23; W otrzymaliśmy permutująe

sowę przestawienie słów w ramach wersetów. Poddaliśmy testowi także tekst V otrzymany z G przez losowe przestawienie wersetów (szczegóły w części A.6 Aneksu). Tabela 3 prezentuje wyniki tych testów

bliżeniu 0,900; w przypadku R wartość ta

Thk więc w pięciu przypadkach po -= 4 min pi przekracza 1, a w jednym po = - 0,878; a więc wynik jest całkowicie nieistotny statystycznie, jak można się było spodziewać w przypadku tekstów kontrolnych.

Wyciągamy stąd wniosek, że bliskość powiązanych znaczeniowo ELS nie jest w Księdze Genesis dziełem przypadku.

Wyszukiwarka

Podobne podstrony:
135 anex a 2, OPIS PROCEDURY W części tej opisujemy w ogólnym zarysie przeprowadzoną analizę statyst
2010 06 17;33;57 Jr/ / / dr Dorota Mierzyńska STATYSTYKA OPISOWA EKONOMIA n rok studiów stacjonarny
r ■ v*- iWyniki badania - występowanie statystycznie istotnego liniowego _skorelowania między
phi s2 phi jest statystycznie istotna. I tak, na poziomie a = 0,05. przy liczebnościach grup: 25,
2. Zweryfikować statystyczną istotność otrzymanych ocen parametrów, gdy ta = 2,776
135 anex b ANEKS:SZCZEGÓŁOWY OPIS PROCEDURY W niniejszej części opisujemy zastosowaną procedurę na t

więcej podobnych podstron