č 2 4 22

Doprovodnymi faktory byvaji i nektere aspekty pravm. Zavażnou soućasti sberu dat je jeho uvedeni do souladu s copyrightem, autorskymi pravy patncuni vyda-vateli ći vlastnimu autorovi. Pokud je pro ućely korpusu, a tedy zpravidlajen pro ućely nekomerćm* a yyzkumne poskytnou, pak obvykle na zaklade pravni smlouvy ći umluvy; ta muże napf. pfipouśtet jen omezene pfime citace jednotlivych autoru apod. Pripadna pozdejśi komerćne vyużi teina aplikace pak vśak musi jej ich doda-tećnou vyużitelnost, jak koli v obvykle jen nepfimou, feśit pravne zvlaś£. V pnpade mluveneho korpusu je ćasto potreba respektovat pripadne prani mluvćich zachovat jejich anonymitu apod.

3. Typy korpusu a standardizace

Każdy soubor textu v poćitaći vśak jeśte korpusem neni. Od vlastmho korpusu (srov. vymezeni v 1.) je tfeba predevśim lisifc volne kolekce textu, popr. elektronickou knihovnu (,,textoteku“) a souhrnny elektronicky archiv, jakym je napf. znamy Text Archive Oxfordske univerzity. Takovyto archiv je, podobne jako tradićm knihovna, prostou rozsahlou sbirkou ruznych, vet-śinou vśak literarnfch elektronickych textu v ruznych formatech (Oxfordsky archiv, ktery je dostupny a urćeny ke studiu, ma asi tisi'covku textu literarnich del v 25 jazycfch v ruznych formatech a je trideny hlavne podle vnejśi dostupnosti po siti a rozsahu textu; oznaćkovane jsou vśak jen nektere z nich). Jina velka podobna centra jsou napf. na univerzitach v Torontu a Brigham Young.

Vlastni elektronicke korpusy vykazuji znaćnou ruznorodost, zćasti dnes uż pova-żoyanou za nedostatek. Lisi se mnoha parametry, zvl. vśak podle jazyka, typu textu, zaznamenane formy jazyka (proti textum mluvenymje textu psanych vetśina), ci-le a typu vyużiti, zpusobu uchovavani, formy uchovavani, popf. i doprovodneho vybaveni aj. Z hlediska pokrytych j azy k u jde poćet korpusu do desitek, v rade z nich je vśak korpusu vice zaroveń. V' Evrope je dnes uż velmi mało jazyku, ktere nejaky korpus nemaji (srov. mj. Taylor et al., 1989); uż r. 1990 eviduje A. Zampolli stale rostouci rozsah pokrytych jazyku mj. takto: napf. pro francouzśtinu existovalo dohromady 190 miliónu slov (Frantext), 27,5 mil. pro nemćinu, 60 mil. pro holandśtinu, 30 mil. pro italśtinu, 12 mil. pro srbochorvatśtinu aj. V Evrope a USA se ovśem zpracovavaji i nektere korpusy z dalśich, popf. i mimoevropskych jazyku (napf. armenśtina v Leidenu (tam je ovśem i sidło korpusu holandskeho, Kruyt, 1993), klasicka fećtina v Irvinu aj.). Zdaleka nejvetśi pestrost i bohatstvi vśak pfedstavuje se svymi vice neż 20 ruznymi korpusy anglićtina (srov. napf. Aij-mer - Altenberg, 1991, s. 315n.; Altenberg, 1991); pro lićely koordinace i prehledu tu vznikla mj. i organizace ICAME (International Computer Archive of Modern English) sidlici v norskem Bergenu, ktera nektere korpusy i distribuuje. Zabyva se vśak pfedevśim śifenim obecnych informaci o zpracovani korpusu vubec (srov. jej i elektronicky ćasopis CORPORA) a vedle zkuśenosti nabizi i nektere nastroje. I\ hlavnim korpusum anglićtiny patfi Brown Corpus (W. N. Francis a H. Kućera, americka angl., 1. mil.), LOB Corpus (=Lancaster-Oslo-Bergen, S. Johansson, Iv. Hofland, britska angl., 1. mil), Lonclon-Lund Corpus (mluvena angl., J. Svartvik, 0,5 mil., srov. Svartvik, 1990), Helsinki Corpus (diachronni, M. Rissanen, O. Iha-lainen, M. Kytó), Cobuild Corpus (J. M. Sinclair, dnes Databank of English, 200 mil., srov. mj. Sinclair, 1987), British National Corpus (ve spolupraci oxfordske a lancasterske univerzity, nakladatelstvi Longman a Oxford a British Library, 100

122

Slovo a sio v es nos t, 56, 1995

Wyszukiwarka

Podobne podstrony:
Obsah ĆlSLO 1 A. KAŻDODENNOST Zdenek Merinsky-Rudolf Prochazka: K nekterym aspektu
Wyklad (22) k Der Faktor w0 = — ist eine Eigenkreisfreąuenz der ungedampften Schwingung (częstotliwo
Skan5 Z ryciny 22.14 wynika, że^masowy współczynnik osłabienia w wodzie pip szyb-kojrial&je-ze
22 i# To dla was, żebyście spali, a wstając rankiem wesołym mieli złocisty rogalik i mogli
ul. Sienkiewicza 22 60-959 POZNAŃ ikr. poczt. 73 Tet. centr. 0*prefix-61 /666 00 41 do $ Te). 5ekr.
etapów procesu produkcyjnego. Ważnym aspektem drzewka decyzyjnego jest to, iż naprowadza ono użytkow
str4 (12) 22. Równanie różniczkowe osi ugiętej ma postać: A. = EIMr D. dx2 El 23. Zastosowanie met.
43902 skanowanie0052 (22) Opisywanie zdarzeń: szczegóły są istotne 55 Zważy wszy język (w lym i kons
POLITYCZNO-STRATEGICZNE ASPEKTY BEZPIECZEŃSTWA oraz sprzęcie. Wprowadzane zmiany mają przyczynić się
Scan 22 Kjt- n. CjrM romojowy laZtoyiru poż»ipo>o. (Według Or«IUX Rozwój Ml., wa ,Ję w komórkach

więcej podobnych podstron