SLOVKO 2005
Medzinárodná konferencia o po%0Ĺ„íta%0Ĺ„ovom spracovaní slovanskĹĽch a vĹĽchodoeurĂłpskych jazykov
Dorota Vasiliainová, Daniela Majchráková
(In: JazykovednĹĽ %0Ĺ„asopis, 2006, ro%0Ĺ„. 56, %0Ĺ„. 1, s. 82 88)
V dHoch 10. - 12. novembra 2005 sa v priestoroch Centra alaieho vzdelávania
Ekonomickej univerzity v Bratislave uskuto%0Ĺ„nil v poradí tretí ro%0Ĺ„ník medzinárodnej konferencie
SLOVKO 2005, ktorĹ› organizovalo oddelenie Slovenského národného korpusu Jazykovedného
Ĺ›stavu %3Ĺ„udovíta `tĹ›ra Slovenskej akadémie vied v Bratislave.
VysokĹ› odbornĹ› Ĺ›roveH garantovali 39 prednáaatelia preva~ne zo strednej a vĹĽchodnej
Európy (Bulharsko, Slovinsko, Maarsko, Rakśsko, Po>sko, esko, Slovensko a Rusko), ale aj
FrancĹ›zska a NĂłrska. Vzh>adom na to, ~e ialo o konferenciu medzinárodného charakteru,
pripravené aj diskusné príspevky odzneli zvä%0Ĺ„aa v anglickom jazyku. Vä%0Ĺ„aina z nich je publikovaná
v zborníku Computer Treatment of Slavic and East European Languages, Third International
Seminar. Ed. Radovan Garabík. Bratislava: Veda 2005. 248 s. ISBN 80-224-0895-6. Na konferencii
bolo prítomnĹĽch 62 Ĺ›%0Ĺ„astníkov a odznelo 29 príspevkov.
Po slávnostnom otvorení konferencie Slavomírom O n d r e j o v i %0Ĺ„ o m , riadite>om
Jazykovedného Ĺ›stavu %3Ĺ„. `tĹ›ra SAV v Bratislave, ako prvĹĽ vystĹ›pil s príspevkom o hovorenĹĽch
korpusoch (Spoken Corpora) Frantiaek e r m á k z Ústavu eského národného korpusu v
Prahe. Hovorené korpusy predstavil ako sĹ›bory nahrávok nenáhodne vybranĹĽch hovorenĹĽch textov
so zameraním na istĹĽ cie>. Jednotlivé typy tĹĽchto korpusov klasifikoval na základe rôznych kritérií,
pri%0Ĺ„om zdôraznil Ĺ›lohu demografickĹĽch, sociologickĹĽch, geografickĹĽch, %0Ĺ„asovĹĽch, diskurzovĹĽch a
lingvistickĹĽch faktorov pri vĹĽbere textov. OtvorenĹ› nechal otázku reprezentatívnosti %0Ĺ„i vyvá~enosti
hovoreného korpusu, ako aj problematiku zachytenia nejazykovĹĽch aspektov hovorenĹĽch textov
(mimika, proxemika). Nakoniec zdôraznil, ~e sĹ›%0Ĺ„asné budovanie %0Ĺ„eského hovoreného korpusu
odrá~a reálnu snahu vytvorie a vydae frekven%0Ĺ„nĹĽ slovník hovoreného %0Ĺ„eského jazyka.
Tematicky príbuznĹĽm príspevkom Collection of Recordings for the Czech Spoken Corpus
pokra%0Ĺ„ovali autorky Marie K o p Y i v o v á a Martina W a c l a w i %0Ĺ„ o v á , takisto z Ústavu
eského národného korpusu. Prezentovali dva sĹ›%0Ĺ„asné %0Ĺ„eské hovorené korpusy: Pra~skĹĽ hovorenĹĽ
korpus (PMK) a Brniansky hovorenĹĽ korpus (BMK). Pri zhroma~ovaní nahrávok sa v obidvoch
korpusoch primárne zameriavali na vaeobecne pou~ívanĹĽ hovorovĹĽ jazyk. Databázové vstupy sa
alej triedili z h>adiska sociolingvistickĹĽch kategĂłrií. 500 000 slov je u~ transkribovanĹĽch, avaak
bez zachytenia intonácie a inĹĽch fonetickĹĽch javov.
Pavel S m r ~ za kolektív autorov Michal Fapao, Peter Schwarz, Igor Szöke, Milan
Schwarz, Jan ernockĹĽ, Martin Karafiát a Lukáa Burget z Fakulty informatiky Masarykovej
univerzity v Brne predniesol príspevok s názvom Search Engine for Information Retrieval from
Audio/Speech Records. Predstavil návrh a implementáciu systému na efektívne uchovávanie,
indexovanie a vyh>adávanie v sĹ›bore hovorenĹĽch dokumentov s pou~itím niektorĹĽch metĂłd
automatického rozpoznávania re%0Ĺ„i. Tento systém pracuje ako server a vyu~íva h>adanie
prostredníctvom tzv. recognition lattices h>adaná fráza sa prevedie do acyklického grafu, ktorĹĽ
predstavuje fonetickĹ› reprezentáciu danej frázy.
Sekciu zameranĹ› na hovorené korpusy uzavreli Jana Zemljari%0Ĺ„ M i k l a v %0Ĺ„ i %0Ĺ„ a Marko
S t a b e j z Filozofickej fakulty Univerzity v %3Ĺ„ub>ane príspevkom o budovaní skĹ›aobného
hovoreného korpusu slovin%0Ĺ„iny, ktorĹĽ je sĹ›%0Ĺ„aseou textového korpusu FidaPLUS (obsahuje
dohromady 300 miliĂłnov slov). SkĹ›aobnĹĽ hovorenĹĽ korpus obsahuje 7 digitálnych nahrávok s
celkovou d:~kou 89 minĹ›t, %0Ĺ„o predstavuje 15 tisíc tokenov. Pri formovaní takéhoto hovoreného
korpusu by mali bye splnené ur%0Ĺ„ité kontextové i demografické kritériá (po%0Ĺ„et a vĹĽber respondentov,
typy komunikácií at.), ktoré sa vaak v tejto fáze projektu eate nepodarilo celkom uplatnie.
V slovinskom hovorenom korpuse pou~ívajĹ› na transkripciu dva rôzne transkrip%0Ĺ„né nástroje:
Transcriber a Praat.
Autori nasledujĹ›cich dvoch príspevkov sa takisto zamerali na hovorenĹ› stránku re%0Ĺ„i, ich
príspevky boli vaak technickejaieho charakteru. PrvĹĽ prezentovali Pavol V a n %0Ĺ„ o a Marek
1
N a g y z Fakulty matematiky, fyziky a informatiky Univerzity Komenského v Bratislave.
Vytvorili elektronickĹ› verziu fonetického slovníka sloven%0Ĺ„iny na báze slovníka z Pravidiel
slovenskej vĹĽslovnosti Ábela Krá>a. Slovník bude slĹ›~ie ako základ systému na rozpoznávanie re%0Ĺ„i,
na ktorého tvorbe eate pracujĹ›. Kone%0Ĺ„ná verzia fonetického slovníka má 66 675 slov a ich
fonetickĹĽch ekvivalentov a na rozdiel od pôvodnej tla%0Ĺ„enej verzie boli pri tejto fonetickej
transkripcii pou~ité symboly systému SAMPA, nie IPA. DruhĹĽ príspevok s názvom Word Tests for
speech Understandability Evaluation in Slovak bol od Milana R u s k a a Mariána T r n k u z
Ústavu informatiky SAV v Bratislave. Informovali v Hom o svojich vĹĽskumoch slovnĹĽch testov na
zrozumite>nose sloven%0Ĺ„iny a o ich praktickom vyu~ití. Tieto testy slĹ›~ia na diagnostické Ĺ›%0Ĺ„ely a ich
praktické vyu~itie je pomerne airoké: pri meraní akustiky miestností, pri meraní komunika%0Ĺ„nĹĽch
kanálov, vyu~ívajĹ› sa tie~ pri syntetizéroch re%0Ĺ„i at.
Lucia G i a n i t s o v á - O l o a t i a k o v á z Univerzity sv. Cyrila a Metoda v Trnave
vystĹ›pila s príspevkom Manual Morphological Annotation of Slovak Translation of Orwell's Novel
1984 Methods and Findings, ktorĹĽ vznikol v spolupráci s Radovanom G a r a b í k o m,
pracovníkom oddelenia Slovenského národného korpusu Jazykovedného Ĺ›stavu %3Ĺ„udovíta `tĹ›ra
SAV v Bratislave. Predstavila v Hom metĂłdy a vĹĽsledky ru%0Ĺ„nej morfologickej anotácie Orwellovho
románu 1984, ktorá prebiehala v oddelení SNK za pomoci atudentov v rokoch 2004 a~ 2005.
Oprava ru%0Ĺ„ne anotovanĹĽch textov sa vykonávala v troch fázach, pri%0Ĺ„om systém pou~itĹĽ na
overovanie korektnosti anotácie sa ukázal ako schopnĹĽ prináaae pozitívne vĹĽsledky. V období rokov
2004 a 2005 bolo zanotovanĹĽch a opravenĹĽch viac ako 100 tisíc tokenov.
Príspevok Jaroslavy H l a v á %0Ĺ„ o v e j z Ústavu formálnej a aplikovanej lingvistiky
Matematicko-fyzikálnej fakulty Karlovej univerzity v Prahe s názvom Orwell's 1984 playing with
Czech and Slovak versions opisoval projekt, ktorĹĽ bol zameranĹĽ na automatickĹĽ preklad
slovenskĹĽch textov a jeho mo~né pou~itie pri ru%0Ĺ„nej morfologickej anotácii. Pri experimente sa
pou~il automatickĹĽ nástroj prekladania esílko, ktorĹĽ bol navrhnutĹĽ pre preklad textov dvoch
blízkych jazykov %0Ĺ„eatiny a sloven%0Ĺ„iny. Na vĹĽskum mali k dispozícii %0Ĺ„eskĹ›, morfologicky
anotovanĹ› verziu Orwellovho románu 1984, a slovenskĹ› verziu tohto románu bez anotácie.
Pomocou nástroja sa vykonal automatickĹĽ preklad z %0Ĺ„eskej verzie do slovenskej a porovnal sa
vĹĽsledok s automatickou morfologickou anotáciou slovenskej verzie. Experiment sa zhodnotil
pou~itím manuálne anotovanej %0Ĺ„asti slovenskej verzie.
Nasledovali tri príspevky vedeckĹĽch pracovníkov z Nyelvtudományi Intézet Magyar
Tudományos Akadémia (VĹĽskumného jazykovedného Ĺ›stavu Maarskej akadémie vied)
v Budapeati. Ako prvé vystĹ›pili Kata G á b o r a EnikQ H é j a , ktoré prezentovali momentálny
stav vĹĽskumu rozpoznávania komplementov a adjunktov v maar%0Ĺ„ine (A Rule-based Analysis of
Complements and Adjuncts). VĹĽsledkom ich práce je poznatok, ~e menné frázy nie je mo~né presne
kategorizovae na komplementy a adjunkty, a tak namiesto toho zavádzajĹ› istĹĽ stupeH
komplementnosti a adjunktnosti pre ka~dĹ› mennĹ› frázu. Autorky vytvorili automatizovanĹĽ systém,
ktorĹĽ na základe troch typov pravidiel doká~e ur%0Ĺ„ie, do ktorej z istého mno~stva kategĂłrií daná
menná fráza patrí.
Gergely B o t t y á n a Bálint S a s s sa venovali problematike konjugovanĹĽch infinitívov v
Maarskom národnom korpuse (Magyar Nemzeti Szövegtár): Conjugated Infinitives in the
Hungarian National Corpus. V maar%0Ĺ„ine, podobne ako aj v portugal%0Ĺ„ine a waleatine, sa vyskytujĹ›
okrem nonfinitnĹĽch infinitívov i infinitívy konjugované, teda také, ktoré sĹ› nosite>mi informácií o
slovesnom %0Ĺ„ase i osobe. Autori prezentovali vĹĽskum, ktorĹĽ prebiehal na 153,7 mil. lematizovanĹĽch,
morfosyntakticky ozna%0Ĺ„kovanĹĽch a dezambiguovanĹĽch slov z Maarského národného korpusu.
HlavnĹĽm cie>om bolo overenie správnosti tvrdenia, ~e vaetky licensory (lingvistické polo~ky),
ktoré priberajĹ› konjugované infinitívne komplementy, sĹ› identifikovate>né. Vypracovali tak nielen
zoznam takĹĽchto licensorov z korpusu, ale i bli~aie apecifikovali vĹĽskyt danĹĽch licensorov spolu s
konjugovanĹĽmi infinitívmi.
Csaba O r a v e c z za spoluautorov Viktora N a g y a a Károlya V a r a s d i h o
predstavil v príspevku s názvom Morphological idiosyncrasy in Hungarian multiword expressions
vĹĽskum zameranĹĽ na pou~ite>nose informácií extrahovanĹĽch z distribĹ›cie sufixov vo viacslovnĹĽch
2
pomenovaniach v maar%0Ĺ„ine. Autori skĹ›mali metĂłdu extrakcie viacslovnĹĽch vĹĽrazov z ve>kého
korpusu, ktorá je zalo~ená na morfologickej idiosynkrázii ur%0Ĺ„itĹĽch slovnĹĽch kombinácií, ako aj na
atatistickĹĽch hodnotách vychádzajĹ›cich zo vzájomného spoluvĹĽskytu danĹĽch slov. Sna~ili sa
zhodnotie, %0Ĺ„i pre istĹĽ typ viacslovnĹĽch vĹĽrazov mô~e bye morfologická idiosynkrázia dobrĹĽm
indikátorom kolokability alebo idiomatickosti.
Alexander R o s e n z Ústavu teoretickej a komputa%0Ĺ„nej lingvistiky Filozofickej fakulty
Karlovej univerzity v Prahe sa vo svojom príspevku In Search of the Best Method for Sentence
Alignment in Parallel Texts zaoberal nieko>kĹĽmi metĂłdami zarovnávania viet v paralelnĹĽch
korpusoch. VĹĽsledky jeho vĹĽskumov ukázali, ~e nástroje zarovnávania na Ĺ›rovni viet sa mô~u
osved%0Ĺ„ie pri jednom type textov, ale mô~u zlyhae pri inĹĽch. Pri h>adaní optimálnej metĂłdy dospel k
záveru, ~e aj efektívne pracujĹ›ce nástroje s pomerne vysokou mierou presnosti by sa mali
kombinovae s nasledujĹ›cou manuálnou kontrolou.
Autori Vladimír K a d l e c a Alea H o r á k z Fakulty informatiky Masarykovej
univerzity v Brne vystĹ›pili s príspevkom Czech Language Parsing using Meta-grammar
Formalism with Contextual Constraints, v ktorom prezentovali aktuálne vĹĽsledky vĹĽvoja h:bkovej
syntaktickej analĹĽzy %0Ĺ„eatiny ako reprezentanta vysoko flektívneho jazyka s vo>nĹĽm slovosledom.
Predstavili implementovanĹĽ parsingovĹĽ systém synt s gramatickĹĽm formalizmom zalo~enĹĽm na
meta-gramatickej metĂłde. Tento systém v sĹ›%0Ĺ„asnosti obsahuje viac ako 3 tisíc slovies, ktoré spolu
vytvárajĹ› zhruba 1700 valen%0Ĺ„nĹĽch rámcov.
DruhĹĽ deH konferencie otvoril osobitne objednanĹĽm príspevkom Karel P a l a z Fakulty
informatiky Masarykovej univerzity v Brne. PredovaetkĹĽm pre kolektív lexikografov z JÚ%3Ĺ„` SAV v
Bratislave podrobne prezentoval systém vytvorenĹĽ na jeho katedre na tvorbu rôznych slovníkov
(DEB II Platform for a Lexicographic Station). Systém sa vyzna%0Ĺ„uje vysokou modularitou s
pou~itím modernĹĽch po%0Ĺ„íta%0Ĺ„ovĹĽch technolĂłgií a rozsiahlym spektrom mo~ností pou~ívania.
Vyu~itie modernĹĽch technolĂłgií má za následok elegantné, mĂłdne a na poh>ad príjemné
u~ívate>ské rozhranie a potrebu dedikovaného tímu programátorov starajĹ›cich sa o udr~iavanie
funk%0Ĺ„nosti systému.
Svetla K o e v a z Oddelenia po%0Ĺ„íta%0Ĺ„ovej lingvistiky Bulharskej akadémie vied a Max
S i l b e r z t e i n z francĹ›zskej Univerzity vo Franche-Comté v Besançone predstavili spolo%0Ĺ„nĹĽ
projekt tvorby sémantickĹĽch slovníkov a systému slĹ›~iaceho na vyh>adávanie informácií
(Bulgarian and English Semantic Dictionaries for the Purposes of Information Retrieval). Tento
vyh>adávací systém vyu~íva dva sémantické slovníky, anglickĹĽ WordNet a jeho bulharskĹ› verziu,
BulNet, popri ktorĹĽch sa vyu~ívajĹ› aj lingvistické nástroje z NooJ (Linguistic development
environment), zahUHajĹ›ceho ve>ké mno~stvo slovníkov a gramatík. Bulharská verzia BulNet má
oproti anglickej menaí rozsah: obsahuje 24 405 synsetov oproti 115 424 synsetom vo WordNet-e.
Radovan G a r a b í k z oddelenia Slovenského národného korpusu JÚ%3Ĺ„` SAV v Bratislave
vo svojom príspevku Levenshtein Edit Operations as a Base for a Morphology Analyzer poukázal
na vrodenĹ› vlastnose morfolĂłgií v slovanskĹĽch (ale aj inĹĽch jazykoch) tvorie odvodené tvary
pridávaním sufixov a niekedy i zmenami koreHovej morfémy. Obidva typy zmien je mo~né vyjadrie
ako sekvenciu elementárnych LevenatejnovĹĽch operácií aplikovanĹĽch na lemu. Pod>a tĹĽchto
konkrétnych sekvencií je mo~né zadelie slová do vzorov. Na tomto základe bol v oddelení SNK
vypracovanĹĽ po%0Ĺ„íta%0Ĺ„ovĹĽ systém, ktorĹĽ umo~Huje efektívne zatrieovae slová do vzorov a testovae
validitu vzoru. V %0Ĺ„ase prezentácie boli Ĺ›speane zatriedené vaetky podstatné mená a vä%0Ĺ„aina slovies z
Krátkeho slovníka slovenského jazyka (KSSJ). UvedenĹĽ systém mô~e bye základom
morfologického analyzátora pre jazyky s bohatou flexiou.
Agáta K a r %0Ĺ„ o v á , takisto z oddelenia SNK JÚ%3Ĺ„` SAV v Bratislave, vo svojom
príspevku Application of the Levensthtein Edit Operations for the Creation of Paradigm Templates
of Lexemes in Slovak Language bli~aie charakterizovala morfologickĹĽ analyzátor a jeho funkcie,
poukázala na vĹĽhody a nevĹĽhody uprednostHovania formálneho prístupu pri jeho tvorbe a bli~aie
vysvetlila postup vĹĽberu lexém do morfologického slovníka. Autorka priblí~ila aj naj%0Ĺ„astejaie
problémy, s ktorĹĽmi sa jej pracovná skupina stretla pri formálnom zatrieovaní podstatnĹĽch mien
do vzorov. Napríklad bolo potrebné vytvorie zhruba 400 vzorov pre podstatné mená z KSSJ.
3
MorfologickĹĽ slovník má ambíciu zachytávae i tie dvojtvary, ktoré nefigurujĹ› v KSSJ.
Problematikou automatizovanej fonetickej transkripcie sa zaoberal Jozef I v a n e c k ĹĽ z
Fakulty elektrotechniky a informatiky Technickej univerzity v Koaiciach v príspevku Analysis of
the Rule Based Phonetic Transcription Technique Applied to the Slovak Language. Pod>a autora je
správna fonetická transkripcia k>Ĺ›%0Ĺ„ovou potrebou pre akéko>vek automatické rozpoznávanie re%0Ĺ„i. V
prezentácii podal sĹ›hrnnĹĽ preh>ad mo~nĹĽch metĂłd navrhovanĹĽch na fonetickĹ› transkripciu a
skĹ›mal mo~nose vytvorenia systému pravidiel transkripcie. Zameriaval sa tak na pravidlá
transkripcie pre slovenskĹĽ jazyk, ako aj mo~noseou jej pou~itia v reálnej aplikácii.
Ján G e n %0Ĺ„ i z Fakulty elektrotechniky a informatiky Technickej univerzity v Koaiciach
prezentoval vo svojom príspevku Contribution to processing of Slovak language at DCI FEEI
TUKK tri sĹ›%0Ĺ„asné projekty po%0Ĺ„íta%0Ĺ„ovĹĽch lingvistov tejto fakulty. PrvĹĽm bol projekt návrhu
algoritmu a regulárnych vĹĽrazov na porovnávanie adjektív v sloven%0Ĺ„ine. Menej podrobne sa
prednáaajĹ›ci venoval modelu databázy vĹĽrazov s morfologickou informáciou, ktorĹĽ je vhodnĹĽ na
implementáciu stemmera (systém, ktorĹĽ doká~e ur%0Ĺ„ie koreH slova). Nakoniec opísal projekt Synset
Builder, experimentálny nástroj na budovanie anglicko-slovenskĹĽch synsetov zalo~enĹĽ na
WordNet-ovej databáze, jeho teoretické vĹĽchodiská a budĹ›ci vĹĽvin.
Projekt prezentovanĹĽ Marekom N a g y o m z Fakulty matematiky, fyziky a informatiky
Univerzity Komenského v Bratislave Multimendia Reading Book Utilization an XML Document
Format and an Audio Signal Processing vedie k alaiemu vĹĽvinu vĹĽskumu v oblasti automatického
rozpoznávania re%0Ĺ„i. VĹĽsledkom projektu s názvom Multimedia Reading Book (MRB) je tzv.
multimediálna %0Ĺ„ítanka pre deti základnĹĽch akôl. Deti sa na projekte podie>ali písaním textu a
zvukovĹĽm nahrávaním plynulého %0Ĺ„ítania tĹĽchto textov. Následne sa na získanĹĽch vzorkách vaka
pou~itému algoritmu segmentácie vytvorila transkripcia hovoreného textu.
PredposlednĹĽm príspevkom druhého dHa konferencie bolo predstavenie %0Ĺ„eského VerbaLex-u
Danou H l a v á %0Ĺ„ k o v o u a Aleaom H o r á k o m z Fakulty informatiky Masarykovej
univerzity v Brne. VerbaLex je slovník slovesnĹĽch valencií %0Ĺ„eského jazyka, ktorého tvorba sa
opiera o tri od seba nezávislé elektronické slovníky slovesnĹĽch valen%0Ĺ„nĹĽch rámcov: slovník
valen%0Ĺ„nĹĽch rámcov %0Ĺ„eského WordNet-u vytvorného po%0Ĺ„as projektu Balkanet, Vallex 1.0 vytvorenĹĽ
v rámci Pra~ského závislostného korpusu a BRIEF, syntaktickĹĽ slovník slovesnĹĽch valencií, ktorĹĽ
vznikol v Brne v roku 1996. Terajaí VerbaLex je okrem informácií z tĹĽchto troch zdrojov doplnenĹĽ
o vid, synonymá slovies a klasifikáciu slovies. Obsahuje 3469 slovies, ktoré po zadelení do
synonymickĹĽch skupín majĹ› 1807 valen%0Ĺ„nĹĽch rámcov. Cie>om autorov je pridae do slovníka
alaích 15 000 slovies.
Dariusz P i e c h o c i ń s k i a Agnieszka M y k o w i e c k a , Polsko-Japońska
WyĹĽsza SzkoĹ‚a Technik Komputerowych vo Varaave, v príspevku Question Answering in Polish
Using Shallow Parsing predstavili aplikáciu (question answering application), pomocou ktorej sa z
databázy poznatkov (v danom prípade z po>skej verzie encyklopédie Wikipedia) a na základe
krátkych zadanĹĽch otázok doká~u vygenerovae relevantné odpovede. Nejde o h:bkovĹ› analĹĽzu, ale
o plytkĹĽ parsing a jednoduché vyh>adávanie vzoriek. Po%0Ĺ„íta%0Ĺ„ovĹĽ program nepou~íva zlo~ité
metĂłdy, pri%0Ĺ„om produkuje zaujímavé vĹĽsledky a je dobrĹĽm za%0Ĺ„iatkom pre budĹ›ce vĹĽskumy v tejto
oblasti.
Kvantitatívnou textovou analĹĽzou sa zaoberali Peter G r z y b e k a Emmerich K e l i h z
Karl-Franzens-Universität v Grazi v príspevku Toward a General Model of Grapheme Frequencies
for Slavic Languages. Prezentovaná atĹ›dia predstavuje mo~nĹĽ teoretickĹĽ model na zachytenie
frekven%0Ĺ„nej distribĹ›cie grafém v slovinskom, ruskom a slovenskom jazyku. Vzorka dát, ktorĹ› pri
vĹĽskume pou~ili, bola sĹ›%0Ĺ„aseou empirického testovania, ktorému predchádzali stanovené hypotézy
motivované predchádzajĹ›cimi lingvistickĹĽmi vĹĽskumami v tejto oblasti. Z existujĹ›cich
distribu%0Ĺ„nĹĽch modelov sa pre dané slovanské jazyky javil ako adekvátny model
hypergeometrického rozlo~enia grafém.
PoslednĹĽ deH konferencie sa za%0Ĺ„ínal prezentáciou Karla P a l u z Fakulty informatiky
Masarykovej univerzity v Brne o problematike valen%0Ĺ„nĹĽch rámcov a sémantickĹĽch rolí (deep cases)
%0Ĺ„eskĹĽch slovies. Sémantické roly sa pre potreby VerbaLex-u zade>ujĹ› do dvoch Ĺ›rovní a pri ich
4
klasifikácii sa vyu~il EuroWordNet Top Ontology a Set of Base Concepts z WordNet-u. Terajaia
klasifikácia umo~Huje bli~aie apecifikovae sémantické roly slovies, ktoré boli inak prília vaeobecné
(ide napr. o slovesá vid%1Ĺ‚t, slyaet, dr~et at.). Takisto sa zaviedlo pou~ívanie Word Sketches. Aj
vaka tomu je mo~né pou~ie komplexné valen%0Ĺ„né rámce aj v inĹĽch jazykoch, ako je %0Ĺ„eatina, napr. v
bulhar%0Ĺ„ine.
Dominika U r b a ń s k a , Polsko-Japońska Wyższa Szkoła Technik Komputerowych a
Agnieszka M y k o w i e c k a , Instytut Podstaw Informatyki Polskiej Akademii Nauk vo
Varaave, vystĹ›pili so spolo%0Ĺ„nĹĽm projektom rozpoznávania viacslovnĹĽch pomenovaní vlastnĹĽch
mien osôb a inatitĹ›cií v po>sky písanĹĽch neformálnych textoch (Multi-words named entity
recognition in Polish texts). Proces rozpoznávania pomenovaní vlastnĹĽch mien má atyri fázy:
najskôr sa ozna%0Ĺ„í potenciálne meno entity, potom k>Ĺ›%0Ĺ„ové slová, vytvorí sa Ĺ›plné pomenovanie
entity a napokon i základné tvary vaetkĹĽch rozpoznanĹĽch vlastnĹĽch mien. Takto získané Ĺ›daje sa
alej vyu~ívajĹ› aj pri inĹĽch aplikáciách. Autorky plánujĹ› rozaírie tĹ›to aplikáciu i na oblase
vlastnĹĽch mien lokalít, menovĹĽch jednotiek a titulov, pri%0Ĺ„om jej fungovanie prepoja s u~
existujĹ›cim morfologickĹĽm analyzátorom.
NasledujĹ›ci príspevok z oblasti frazeolĂłgie vznikol v spolupráci Petra u r %0Ĺ„ a z
Univerzity Sv. Cyrila a Metoda v Trnave s Denisom H e l i c o m z Technischen Universität v
Grazi (Aspects of an XML-Based Phraseology Database Application). V rámci projektu Ephras
budujĹ› frazeologickĹ› databázu atyroch eurĂłpskych jazykov (nem%0Ĺ„ina, sloven%0Ĺ„ina, slovin%0Ĺ„ina a
maar%0Ĺ„ina), ktorĹ› bude mo~né vyu~ie v rámci vĹĽu%0Ĺ„by cudzích jazykov. Databáza bude obsahovae
tisíc frazeologizmov z ka~dého jazyka a bude doplnená aj o 150 interaktívnych testov. Projekt je
zatia> iba v po%0Ĺ„iato%0Ĺ„nej fáze. VĹĽchodiskovĹĽm jazykom je nem%0Ĺ„ina a databáza doteraz obsahuje
1 000 frazém, z ktorĹĽch ka~dá bude v ekvivalentnom vzeahu s frazémami v ostatnĹĽch troch
jazykoch.
Z trochu odlianej oblasti bola prezentácia Magdaleny B i e l e n i e j z Anglického
inatitĹ›tu v GdaĹ„sku o vyu~ití a Ĺ›lohe on-line glosárov a slovníkov pri preklade terminolĂłgie z
investi%0Ĺ„ného bankovníctva do po>atiny (The Role of Computers in Translating Investment Banking
Terminology into Polish). Predstavila viacero druhov slovníkov a glosárov, momentálne najviac
pou~ívanĹĽm je UBS Dictionnary of Banking obsahujĹ›ci 2 400 termínov a ich definícií z oblasti
bankovníctva v angli%0Ĺ„tine, ktoré sĹ› doplnené o ekvivalenty v nem%0Ĺ„ine, francĹ›zatine a talian%0Ĺ„ine.
Autorka na záver vyzdvihla viaceré vĹĽhody takĹĽchto slovníkov a glosárov oproti tradi%0Ĺ„nĹĽm. Jednou
z nich je snaha poskytnĹ›e v~dy tĹ› najaktuálnejaiu verziu.
Do problematiky diachrĂłnnych korpusov nás uviedol Viktor Pavlovi%0Ĺ„ Z a c h a r o v
pôsobiaci na Filologickej fakulte `tátnej univerzity v Petrohrade svojím príspevkom Russian
Historical Corpora of the 18th and 19th Centuries. Tento diachrĂłnny korpus textov bol vytvorenĹĽ s
cie>om tvorby historickĹĽch slovníkov. Projekt sa realizuje v Ústave jazykovednĹĽch atĹ›dií Ruskej
akadémie vied v Petrohrade. Do korpusu boli zaradené atylisticky rôznorodé texty, na ktorĹĽch
prebehla skĹ›aobná morfologická anotácia. Tá umo~nila vypracovanie lepaích morfologickĹĽch
anota%0Ĺ„nĹĽch nástrojov ur%0Ĺ„enĹĽch pre historické texty. Aby bola takáto anotácia Ĺ›speaná, je potrebné
vypracovae morfologickĹĽ slovník, ktorĹĽ by obsahoval i tvary zo staraej podoby jazyka. Korpus by
mal bye doplnenĹĽ aj o alaie texty zo za%0Ĺ„iatku 18. storo%0Ĺ„ia a celkovo by mal obsahovae vyae 150
miliĂłnov tokenov.
VĹĽu%0Ĺ„by cudzích jazykov cez internet sa tĹĽkali dva príspevky. Projekt DaskaL vznikol
spoluprácou Kjetila Rĺ H a u g a z Univerzity v Osle, Svetly K o e v y z Bulharskej akadémie
vied a Emila D o j %0Ĺ„ e v a a Georgiho o l a k o v a z Plovdivskej univerzity v Bulharsku.
DaskaL je webová aplikácia, ktorá umo~Huje vytvárae a interaktívne pou~ívae cvi%0Ĺ„enia z cudzieho
jazyka pre za%0Ĺ„iato%0Ĺ„níkov i pokro%0Ĺ„ilĹĽch. Cvi%0Ĺ„enia vytvárané a kontrolované u%0Ĺ„ite>om slĹ›~ia na
precvi%0Ĺ„ovanie gramatiky, slovosledu vo vete, ale k dispozícii je i vo>nejaí typ cvi%0Ĺ„ení, ako je písanie
esejí, slohovĹĽch prác, dialĂłgov at. DaskaL bol vytvorenĹĽ na podklade bulhar%0Ĺ„iny, srb%0Ĺ„iny, %0Ĺ„eatiny
a po>atiny, ale je mo~né ho pou~ie aj pri vĹĽu%0Ĺ„be inĹĽch jazykov.
O tom, ako sa dá nau%0Ĺ„ie slovinsky prostredníctvom internetu, hovorili na záver konferencie
Jana Zemljari%0Ĺ„ M i k l a v %0Ĺ„ i %0Ĺ„ a Marko S t a b e j . Predstavili vo>ne prístupnĹ› internetovĹ›
5
stránku s názvom Slovena%0Ĺ„ina na daljavo (http://www.e-slovenscina.si) ur%0Ĺ„enĹ› samoukom,
za%0Ĺ„iato%0Ĺ„níkom i pokro%0Ĺ„ilĹĽm. Je zameraná na rozvíjanie jazykovĹĽch zru%0Ĺ„ností (%0Ĺ„ítanie, písanie a
posluch), %0Ĺ„o umo~HujĹ› audio aj video nahrávky dialĂłgov, písané texty, cvi%0Ĺ„enia at. Neskôr bude
mo~né u%0Ĺ„ie sa i za pomoci u%0Ĺ„ite>a.
Na záver konferencie sa Alexandra Jaroaová z oddelenia sĹ›%0Ĺ„asnej lexikolĂłgie a lexikografie
JÚ%3Ĺ„` SAV v Bratislave vaetkĹĽm zĹ›%0Ĺ„astnenĹĽm poakovala a zároveH ich pozvala na 4. seminár
SLOVKO 2007, ktorĹĽ bude zameranĹĽ na po%0Ĺ„íta%0Ĺ„ovĹ› lexikografiu a terminolĂłgiu.
6
Wyszukiwarka
Podobne podstrony:
2006 03 Jeszcze o REHACARE 20052005 2006 szkolny(2005 2006) Jodkowski, Klasyfikacja stanowisk kreacjonistycznychCH W D A B Kroniki 2005 2006przyklady egz 2005 2006apg wyklady 2005 2006S Historia myśli psychologicznej 2005 20062006 04 Karty produktówEgzamin zawodowy 2006więcej podobnych podstron