mil.), International Corpus of English (S. Greenbaum, 10 narodnich skupin a va-riet anglićtiny z celeho sveta), Longman/Lancaster English Language Corpus (R. Quirk a G. Leech, 30 mil.), Survey of English Usage Corpus (napul psany a napul mluveny, R. Quirk, S. Greenbaum, 1 mil.), Susanne Corpus (G. Sampson, 128 000 slov z Brown Corpusu i s relativne plne oznaćkovanou syntaxi) aj.; objevily se uż i na nich zalożene prvm' souborne popisy (Garside et al., 1987; Johansson -Hoflund, 1989; Leech - Fligelstone, 1992). Vedle toho existuje i nekolik korpusu doujazyćnych, popr. i vicejazyćnych, napr. mezi italśtinou, resp. francouzśtinou ći danśtinou a anglićtinou aj. Pro ćeśtinu vznikl r. 1994 z iniciativy interdisciplinar-ni skupiny Poćitaćoveho fondu ćeśtiny a spojenim sil vice univerzitnich pracoviśl! a UJC AV CR Ustav ćeskeho narodniho korpusu,jehoż cilem je vybudovat rozsahly a viceiićelovy korpus ćeśtiny obecne povahy na pude Filozoficke fakulty Univerzity Karlovy.
Z hlediska typu t e x t u se korpusy dęli predevśim na obecne, resp. nespecificke a specializovane. Existujfei pestrost zamefeni specializovanych korpusu naznaćuje jak pestrou paletu obecnych możnostf jejich vyuźiti, tak individualni orientaci jed-notlivych korpusu, ktere jsou zacilene napr. na skotske drama, americkou povidku, dialekty, pravnf smlouvy a predpisy, naftarske texty, detsky jazyk, stare a prv-ni texty, jazyk novin, jazyk jednoho autora (napr. korpus Thomase Manna) aj. I velke obecne korpusy mużou byt slożene z vi'ce sloźek, subkorpusu, napr. jazyka psaneho - mluveneho, synchronniho - diachronmho, nespecifickeho - specifickeho (napr. terminologickeho), obecneho - narećniho apod., a to navfc ve vice podobach (viz dal 4.).
Z hlediska typu ułożeni se korpusy dęli na ty, ktere existuji v proste podobe (t. j. ASCII formatu), nebo navic v ruznem stupni i podobe oznaćkovane, popf. fidce i syntakticky analyzovane; ćasto existuji i paralelne, obvykle vśak jen zćasti, i v podobe doprovodnych frekvenćnich slovniku a konkordancl. Vl2istni formou uchovan! je hard disk na komputerech ruzneho typu, ćasto zaroveń i ve verzi na magnetickych pascfch, disketach ći optickych discich.
Protoże poćet korpusu i jejich rozsah rychle roste, je dnes uż zrejmajak potreba standardizace sberu a oznaćovani textu, tak możnost jejich vicenasobneho, sdfleneho poużiti (reusability, znovupoużitelnost). Tomu prvnlmu je venovana me-zinarodnf iniciativa TEI (Text Encoding Initiative), sponzorovana mj. Evropskymi spolećenstvimi a americkou vladou; TEI v nekolika dokumentech (zvl. Sperberg -McQueen et al., 1990, 1993; llockey, 1991) doporućuje spolećny vymenny format textu, zasad kódovani novych a zpusoby prevodu mezi formaty existuji'ci'mi. Jeji ruzne subkomise uż mj. specifikovaly a doporućily i vhodne znakove sady, zasady textove analyzy v navaznosti na ruzne obory i kódovacf metajazyk. Za ten byl pro deskriptivnf ramec syntaktrcke analyzy zvolen SGML (Standard Generalized Markup Language, Bryan, 1988; Burnard, 1991), uznavany od r. 1986 jako mezina-rodnf standard (ISO 8879). Opakovana, obecna znovupoużitelnost textu (Hockey - Walker, 1993; Heid et al., 1992), aktualni zvl. ve svetle nakładu na po-fizeni a pfipravu elektronickych textu i jejich mezinarodni vymeny, vyżaduje ke sve realizaci vyfeśeni predevśim otazek polyfunkćnosti korpusu, jeho polyteoretić-nosti (tj. nepoplatnosti jedne uzke teorii), dostupnosti, intekktu^lnich vlastnickych
123
Slovo a slovesnost, 56, 1995