Doprovodnymi faktory byvaji i nektere aspekty pravm. Zavażnou soućasti sberu dat je jeho uvedeni do souladu s copyrightem, autorskymi pravy patncuni vyda-vateli ći vlastnimu autorovi. Pokud je pro ućely korpusu, a tedy zpravidlajen pro ućely nekomerćm* a yyzkumne poskytnou, pak obvykle na zaklade pravni smlouvy ći umluvy; ta muże napf. pfipouśtet jen omezene pfime citace jednotlivych autoru apod. Pripadna pozdejśi komerćne vyużi teina aplikace pak vśak musi jej ich doda-tećnou vyużitelnost, jak koli v obvykle jen nepfimou, feśit pravne zvlaś£. V pnpade mluveneho korpusu je ćasto potreba respektovat pripadne prani mluvćich zachovat jejich anonymitu apod.
3. Typy korpusu a standardizace
Każdy soubor textu v poćitaći vśak jeśte korpusem neni. Od vlastmho korpusu (srov. vymezeni v 1.) je tfeba predevśim lisifc volne kolekce textu, popr. elektronickou knihovnu (,,textoteku“) a souhrnny elektronicky archiv, jakym je napf. znamy Text Archive Oxfordske univerzity. Takovyto archiv je, podobne jako tradićm knihovna, prostou rozsahlou sbirkou ruznych, vet-śinou vśak literarnfch elektronickych textu v ruznych formatech (Oxfordsky archiv, ktery je dostupny a urćeny ke studiu, ma asi tisi'covku textu literarnich del v 25 jazycfch v ruznych formatech a je trideny hlavne podle vnejśi dostupnosti po siti a rozsahu textu; oznaćkovane jsou vśak jen nektere z nich). Jina velka podobna centra jsou napf. na univerzitach v Torontu a Brigham Young.
Vlastni elektronicke korpusy vykazuji znaćnou ruznorodost, zćasti dnes uż pova-żoyanou za nedostatek. Lisi se mnoha parametry, zvl. vśak podle jazyka, typu textu, zaznamenane formy jazyka (proti textum mluvenymje textu psanych vetśina), ci-le a typu vyużiti, zpusobu uchovavani, formy uchovavani, popf. i doprovodneho vybaveni aj. Z hlediska pokrytych j azy k u jde poćet korpusu do desitek, v rade z nich je vśak korpusu vice zaroveń. V' Evrope je dnes uż velmi mało jazyku, ktere nejaky korpus nemaji (srov. mj. Taylor et al., 1989); uż r. 1990 eviduje A. Zampolli stale rostouci rozsah pokrytych jazyku mj. takto: napf. pro francouzśtinu existovalo dohromady 190 miliónu slov (Frantext), 27,5 mil. pro nemćinu, 60 mil. pro holandśtinu, 30 mil. pro italśtinu, 12 mil. pro srbochorvatśtinu aj. V Evrope a USA se ovśem zpracovavaji i nektere korpusy z dalśich, popf. i mimoevropskych jazyku (napf. armenśtina v Leidenu (tam je ovśem i sidło korpusu holandskeho, Kruyt, 1993), klasicka fećtina v Irvinu aj.). Zdaleka nejvetśi pestrost i bohatstvi vśak pfedstavuje se svymi vice neż 20 ruznymi korpusy anglićtina (srov. napf. Aij-mer - Altenberg, 1991, s. 315n.; Altenberg, 1991); pro lićely koordinace i prehledu tu vznikla mj. i organizace ICAME (International Computer Archive of Modern English) sidlici v norskem Bergenu, ktera nektere korpusy i distribuuje. Zabyva se vśak pfedevśim śifenim obecnych informaci o zpracovani korpusu vubec (srov. jej i elektronicky ćasopis CORPORA) a vedle zkuśenosti nabizi i nektere nastroje. I\ hlavnim korpusum anglićtiny patfi Brown Corpus (W. N. Francis a H. Kućera, americka angl., 1. mil.), LOB Corpus (=Lancaster-Oslo-Bergen, S. Johansson, Iv. Hofland, britska angl., 1. mil), Lonclon-Lund Corpus (mluvena angl., J. Svartvik, 0,5 mil., srov. Svartvik, 1990), Helsinki Corpus (diachronni, M. Rissanen, O. Iha-lainen, M. Kytó), Cobuild Corpus (J. M. Sinclair, dnes Databank of English, 200 mil., srov. mj. Sinclair, 1987), British National Corpus (ve spolupraci oxfordske a lancasterske univerzity, nakladatelstvi Longman a Oxford a British Library, 100
122
Slovo a sio v es nos t, 56, 1995