č 2 5 22

č 2 5 22



mil.), International Corpus of English (S. Greenbaum, 10 narodnich skupin a va-riet anglićtiny z celeho sveta), Longman/Lancaster English Language Corpus (R. Quirk a G. Leech, 30 mil.), Survey of English Usage Corpus (napul psany a napul mluveny, R. Quirk, S. Greenbaum, 1 mil.), Susanne Corpus (G. Sampson, 128 000 slov z Brown Corpusu i s relativne plne oznaćkovanou syntaxi) aj.; objevily se uż i na nich zalożene prvm' souborne popisy (Garside et al., 1987; Johansson -Hoflund, 1989; Leech - Fligelstone, 1992). Vedle toho existuje i nekolik korpusu doujazyćnych, popr. i vicejazyćnych, napr. mezi italśtinou, resp. francouzśtinou ći danśtinou a anglićtinou aj. Pro ćeśtinu vznikl r. 1994 z iniciativy interdisciplinar-ni skupiny Poćitaćoveho fondu ćeśtiny a spojenim sil vice univerzitnich pracoviśl! a UJC AV CR Ustav ćeskeho narodniho korpusu,jehoż cilem je vybudovat rozsahly a viceiićelovy korpus ćeśtiny obecne povahy na pude Filozoficke fakulty Univerzity Karlovy.

Z hlediska typu t e x t u se korpusy dęli predevśim na obecne, resp. nespecificke a specializovane. Existujfei pestrost zamefeni specializovanych korpusu naznaćuje jak pestrou paletu obecnych możnostf jejich vyuźiti, tak individualni orientaci jed-notlivych korpusu, ktere jsou zacilene napr. na skotske drama, americkou povidku, dialekty, pravnf smlouvy a predpisy, naftarske texty, detsky jazyk, stare a prv-ni texty, jazyk novin, jazyk jednoho autora (napr. korpus Thomase Manna) aj. I velke obecne korpusy mużou byt slożene z vi'ce sloźek, subkorpusu, napr. jazyka psaneho - mluveneho, synchronniho - diachronmho, nespecifickeho - specifickeho (napr. terminologickeho), obecneho - narećniho apod., a to navfc ve vice podobach (viz dal 4.).

Z hlediska typu ułożeni se korpusy dęli na ty, ktere existuji v proste podobe (t. j. ASCII formatu), nebo navic v ruznem stupni i podobe oznaćkovane, popf. fidce i syntakticky analyzovane; ćasto existuji i paralelne, obvykle vśak jen zćasti, i v podobe doprovodnych frekvenćnich slovniku a konkordancl. Vl2istni formou uchovan! je hard disk na komputerech ruzneho typu, ćasto zaroveń i ve verzi na magnetickych pascfch, disketach ći optickych discich.

Protoże poćet korpusu i jejich rozsah rychle roste, je dnes uż zrejmajak potreba standardizace sberu a oznaćovani textu, tak możnost jejich vicenasobneho, sdfleneho poużiti (reusability, znovupoużitelnost). Tomu prvnlmu je venovana me-zinarodnf iniciativa TEI (Text Encoding Initiative), sponzorovana mj. Evropskymi spolećenstvimi a americkou vladou; TEI v nekolika dokumentech (zvl. Sperberg -McQueen et al., 1990, 1993; llockey, 1991) doporućuje spolećny vymenny format textu, zasad kódovani novych a zpusoby prevodu mezi formaty existuji'ci'mi. Jeji ruzne subkomise uż mj. specifikovaly a doporućily i vhodne znakove sady, zasady textove analyzy v navaznosti na ruzne obory i kódovacf metajazyk. Za ten byl pro deskriptivnf ramec syntaktrcke analyzy zvolen SGML (Standard Generalized Markup Language, Bryan, 1988; Burnard, 1991), uznavany od r. 1986 jako mezina-rodnf standard (ISO 8879). Opakovana, obecna znovupoużitelnost textu (Hockey - Walker, 1993; Heid et al., 1992), aktualni zvl. ve svetle nakładu na po-fizeni a pfipravu elektronickych textu i jejich mezinarodni vymeny, vyżaduje ke sve realizaci vyfeśeni predevśim otazek polyfunkćnosti korpusu, jeho polyteoretić-nosti (tj. nepoplatnosti jedne uzke teorii), dostupnosti, intekktu^lnich vlastnickych

123


Slovo a slovesnost, 56, 1995


Wyszukiwarka

Podobne podstrony:
BEYONDPHILOLOGY AN INTERNATIONAL JOURNAL OF LINGUISTICS, LITERARY STUDIES AND ENGLISH LANGUAGE
SCAN0088 (3) 284 Introduction to the Pronunciation of English11.02 Neutralization of Weak Forms We h
SCAN0088 (3) 284 Introduction to the Pronunciation of English11.02 Neutralization of Weak Forms We h
46253 Scanned at 10 11 15 56 (10) INTERNATIONAL COURT OF JUSTICE Peace Pałace, Camegieplein 2, 2517
22 Czy XXI wiek należy do Azji? (Internationalization Trajectories of Chinese and Indian Multination
issn 1068-3207 • V* 22 • fcłiua 1/2021 1/21implants International magazine of 0r3l
TOEIC (Test of English for International Communication) Certyfikat TOEIC został stworzony w odpowied
Journal of K()XES Interna! Combustion Engines 2003. yoL 10, 3-4BED TESTS OF DIESEL ENGINE 4CT107 EQU
361 (22) 334Dress Accessories seam on lower part of hoop opposite bezel. Extemal d 25mm; internal d
Druga edycja formatu CCF ukazała się w 1988 roku37, zaś w 1989 roku w International Bureau of Educat
Resize of1 P91.10-2067-26 Od strony bagażnika - wsunąć narty w worek. Worek 7. nartami przymocować
ublicationsGlobal experience The International Association of Oil & Gas Producers (formerly the
International partners of ICIE ❖Aalborg University (Denmark), ❖    University of Neva
13 USE OF ENGLISH Multiple choice cloze TOPIĆ Culture EXAM TIPS ►    Skim the text
ANALIZA POTRZEB INFORMACYJNYCH W DOBIE INTERNETU1David NicholasDepartment of Information Science Cit

więcej podobnych podstron