P1050333

100

Jerzy Woronctak

sowaniach (dla wzoru (I) — bez zwracania, dla (2) — niezależnych) będą identyczne. Wynika z tego, że im tekst jest bardziej różnorodny słownikowo, tym wskaźniki te mają niższe wartości. Wyrażona przy ich pomocy różnorodność słownictwa tekstu nie pokrywa się ściśle z tym, co zwykle rozumiemy pod bogactwem słownikowym tekstu, nie tylko bowiem teksty o tej samej długości i tej samej liczbie wyrazów różnych będą zwykle charakteryzowane innymi wartościami wskaźników, ale może się nawet zdarzyć, że tekst o większej ilości wyrazów różnych będzie posiadał wskaźniki wyższe niż tekst o słownictwie uboższym. Przykład tej ostatniej sytuacji zostanie szerzej omówiony w dalszej części niniejszego artykułu, tu zaś warto chyba jeszcze dodać, że podobnie opisuje różnorodność słownictwa tekstu charakterystyka Yule’a, określona wzorem

(3) K-lvĘ^f{frV.

będącym w swej istotnej części jakby kontaminacją formuł dla c₂_ ₀ oraz ć_{2 0}-We wspomnianym artykule przeprowadzono również dowód empiryczny, że próby pobrane z tekstu metodą wybierania pojedynczych wyrazów przy pomocy tablic liczb żelaznych odpowiadają warunkom losowości i charakteryzują się małą zmiennością obliczonych na ich podstawie wskaźników, natomiast próby kontekstowe, uzyskane przez pobieranie z tekstów ciągów przyległych wyrazów, wygodniejsze i częściej stosowane, nie tylko odznaczają się o wiele większą zmiennością wskaźników, ale dają dla nich wartości wyraźnie zależne od swej długości. Pokazywał to jasno wykres IV, na którym punkty o współrzędnych ć_{2 0} oraz i_ifi równych średnim wartościom wskaźników obliczonych dla poszczególnych długości prób układały się w podkowę, gdyż dla prób o małej długości wskaźniki te rosły wraz z jej wzrostem, aby po przekroczeniu pewnej krytycznej długości próby systematycznie wraz z jej dalszym wzrostem maleć, zbliżając się coraz bardziej do wartości wskaźników obliczonych dla całego tekstu. Wynika z tego, że wskaźniki obliczone na podstawie prób kontekstowych nie mogą być uważane za estymatory nieobciążone, ale tylko za stochastycznie zbieżne. Dla dużych prób, np. o długości kilku i więcej tysięcy wyrazów, nie ma to raczej większego znaczenia i bardziej ważkim argumentem na rzecz stosowania prób losowych jest mniejsza zmienność uzyskiwanych na ich podstawie wskaźników, a prób bardzo małych, kilkunasto- czy kilkudziesięcio-wyrazowych, nikt nie użyje, nawet orientacyjnie dla oszacowania miar różnorodności słownictwa, tak że wartość tego wywodu dla zasadniczego tematu artykułu polegała tylko na empirycznym określeniu stopnia obciążenia i zmienności wskaźników obliczonych dla długich odcinków. To jednak, że niejako ubocznie stwierdzono charakter zmian wskaźników w zależności od długości próby poczynając od N — 2, pozwoliło na postawienie hipotezy, że przyczyną ich jest występujące w małych kontekstach, a uwarunkowane tak składniowo jak i stylistycznie „odpychanie się” identycznych wyrazów oraz „przyciąganie się" ich w jednotematycznych kontekstach średniej długości, jak również na propozycję charakteryzowania wykresami w rodzaju omówionego stylistycznej właściwości tekstów, którą prowizorycznie nazwano stopniem ich spójności.

Wyszukiwarka

Podobne podstrony:
P1050332 106 Jerzy Woronczak [2] sowa Iliach (dla wzor
P1050337 170 Jerzy Woronczak[•] malncj długości tematycznie spójnych odcinków badanego tekstu. Odcin
P1050331 JERZY WORONCZAK (Wrocław) O STATYSTYCZNYM OKREŚLENIU SPÓJNOŚCI TEKSTU W opublikowanym w 196
Image585 Rys. 4.781. Diagramy Bergerona dla bramek TTL *> z serii L (dla Z# «* 100 fi), b) z seri
100?16 Równanie Bernoulliego dla przekroju strumienia A1 przed zwężką i dla przekroju strumienia A2
Jerzy Jaworski Zbigniew Palka Jerzy SzymańskiMatematyka dyskretna dla informatykówCzęść I:
28 luty 09 (101) 100 Podana zależność obowiązuje dla przypadku, gdy A £ e > N$ d . Jeżeli powyższ
P1050338 170 Jtny Woroncznk£8] malnej długości leni a tycznie spójnych odcinków badanego tekstu. Odc
P1050351 184 Jerzy Barlmtnsklnm Wspólną wszystkim trzem porównywanym zbiorom — S, R i P — a zarazem
P1050355 188 Jerzy Ilarlnmiśki [14] Wykres 5. Procent pokrycia tekstu przez r pierwszych najczę
P1050359 102 Jerzy Bart mińskiPffj cd. szp.
Scan Pic0308 124 12. Pierwiastki kwadratowe fx 12.2. Zakres 10,000 < x < 100,000. Interpolacja
skanuj0025 Zadanie 3.44 Dla tranzystora n-p-n: (3=100 fT = 200 MHz dla tranzystora p-n-p:
Rafał Bodarski Jerzy MarekPedagogikaPrzewodnik metodyczny dla studentów (wybór tekstów) Warszawa

więcej podobnych podstron