(Patten, 1992), mimo dosavadni możnosti; yyjimkou je nabizejici se możnost se-manticke analyzy zalożene na metajazyku sienniku ulożeneho v databazi (Aishawi, 1989; srov. vsak i projekt autornaticke obsahove analyzy, Wilson - Rayson, 1993).
Vedle lemmatizatoru, parsem a dalśich nastroju je pro prąci s korpusem, pfede-vśim v jelio zakład ni podobe textove databaze, zapotfebi mit k dispozici i vhodne softwarove nastroje (jako TACT, LEXA, PAT, Gorpus-Bench aj., srov. napr. Hic-key, 1992), ktere budou schopne sphiovat aspoń tyto pożadavky: rychle a interaktiv-ni ovlada.ni, spolehlive yyhledavam' zjiś(Jovanych forem i v ruzne modifikovatelnyc.h kornbinacich, jejic.h ruzne statisticke vyhodnocovani vćetne zjiśtovani frekvence, ktere v pozdejśi fazi umożni i statisticke odliśovani ruznych vyznamu a jejich ocl-stinu aj. (srov. Gale et al., 1992; Der mak, 1995; Piech i, 1994, ale i Thomson, 1989).
Prvm zkuśenosti s korpusy v ruznych jazycich (o Svartvikovi, ed., 1992, pfedsta-Yujtcim ovśem jen omezeny zaber, referuje i Stfclia, 1994) prinesly uź i nektere zasadni zkuśenosti metodologicke povahy. Jednak je zrejme, że analyza vetśiny semanticke stranky jazyka (srov. mj. Atkins, 1987; Pustejovski, 1993; Introduction, 1994; Kay, 19S7), ktera je na rozdil od diskretni formy (tu lze opnt programove o binarni volbu typu .,ano-/ie“) spiśe vetśinou kontinualni a śkalove, resp. splyvave povahy (a tedy v zavislosti pfedevśim na volbe typu „spisę toto neż to, popr. ono“), budę mit jinou povahu (M. A. K. Halliday, 1991: jazykovy system je inherentne pro-babilisticky, jeho kontinuu s komplementarnimi perspektivarni gramatiky a lexikonu lepe vyhovuje koncepce lexikogramatiky). Vyznainnyrn pristupem, zalożenym na predpokladu ruzne statisticke pravdepodobnosti vyskytu ruznych jevu formy, je vyhodnocovani techto aspektu na zaklade prpbabilistickych odhadu, mefeni a ruznych indexu (o vztahu kvantitativnich a kvalitativnich aspektu viz mj. Itkonen, 1980, srov. i Brunet, 1986). Vżdy vśak ke studiu teto stranky budę możne prejit pouze skrze zretelne a spolehlive okódovanou stranku formalni; jedno tu tudiż predpoklada druhe. I ve formalni strance jazykovych dat lze vśak pozorovat, resp. predpokladat nejednoduchost a nejednoznaćnost, predevśim ve smyslu ćaste v a r i a b i 1 n o s t i formy (srov. i dal, 5.2.). Na druhe strane se jako odraz urćite skepse k sile jednotlivych jazykovych teorii take doporućuje (srov. Leech, 1993), aby znaćkovani było sj)iśe jednoduśśi, śiroke a konsenzualni (viz dal) a nevychazelo z jedne konkretni teorie, protoże se pozdeji nemusi osvedćit a oznaćkovana data by nebyla jinak poużitelna ani v pristupech dalśich. Nejen v teto souvislosti pak na-byvaji na vyznamu stale ćasteji produkovaiie frekvenćńi se.zriamy, resp. s 1 o v n i k y jak tvaru, tak lemmat, dilći ći obecnejśi, doprovazejici vznik a rozvoj korpusu. Sloużi mj. pfedevśim jako neocenitelny referenćni zdrój ve vśech otazkach, kde.selhava formalni gramatika i intuice.
G. Leech (1993) shrnuje zkuśenosti sve i mnohych jinych s anotaci a znać-k o v an i rn (taggovaniin) do sedmi zasad. Podle nej anotace ma byt
(1) eliminovatelna, tj. vźdy musi byt możne se vratit k puvodmmu syrovemu korpusu,
(2) extrahovatelna (zvl. z textove databaze) a uloźitelna zvlaśt\
(3) oprena o zasady pristupne, srozumitelne koncovemu uźivateli, a ne pouze lin-gvislovi,
(4) autorsky vysledovateina ke sveiriu tvurci (anotatorovi),
(5) jen pohodlnou pomuckou („device of couvenience“), a nema se tedy vydavat za
129
Slovo a slovesnost, 56, 1995