2006 vasilisinova majchrakova slovko 2005

SLOVKO 2005
Medzin�rodn� konferencia o po%0ń�ta%0ńovom spracovan� slovanskżch a vżchodoeurópskych jazykov
Dorota Vasiliainov�, Daniela Majchr�kov�
(In: Jazykovednż %0ńasopis, 2006, ro%0ń. 56, %0ń. 1, s. 82 88)
V dHoch 10. - 12. novembra 2005 sa v priestoroch Centra alaieho vzdel�vania
Ekonomickej univerzity v Bratislave uskuto%0ńnil v porad� tret� ro%0ńn�k medzin�rodnej konferencie
SLOVKO 2005, ktorś organizovalo oddelenie Slovensk�ho n�rodn�ho korpusu Jazykovedn�ho
śstavu %3ńudov�ta `tśra Slovenskej akad�mie vied v Bratislave.
Vysokś odbornś śroveH garantovali 39 predn�aatelia preva~ne zo strednej a vżchodnej
Európy (Bulharsko, Slovinsko, Maarsko, Rakśsko, Po>sko, esko, Slovensko a Rusko), ale aj
Francśzska a Nórska. Vzh>adom na to, ~e ialo o konferenciu medzin�rodn�ho charakteru,
pripraven� aj diskusn� pr�spevky odzneli zv�%0ńaa v anglickom jazyku. V�%0ńaina z nich je publikovan�
v zborn�ku Computer Treatment of Slavic and East European Languages, Third International
Seminar. Ed. Radovan Garab�k. Bratislava: Veda 2005. 248 s. ISBN 80-224-0895-6. Na konferencii
bolo pr�tomnżch 62 ś%0ńastn�kov a odznelo 29 pr�spevkov.
Po sl�vnostnom otvoren� konferencie Slavom�rom O n d r e j o v i %0ń o m , riadite>om
Jazykovedn�ho śstavu %3ń. `tśra SAV v Bratislave, ako prvż vystśpil s pr�spevkom o hovorenżch
korpusoch (Spoken Corpora) Frantiaek e r m � k z �stavu esk�ho n�rodn�ho korpusu v
Prahe. Hovoren� korpusy predstavil ako sśbory nahr�vok nen�hodne vybranżch hovorenżch textov
so zameran�m na istż cie>. Jednotliv� typy tżchto korpusov klasifikoval na z�klade r�znych krit�ri�,
pri%0ńom zd�raznil ślohu demografickżch, sociologickżch, geografickżch, %0ńasovżch, diskurzovżch a
lingvistickżch faktorov pri vżbere textov. Otvorenś nechal ot�zku reprezentat�vnosti %0ńi vyv�~enosti
hovoren�ho korpusu, ako aj problematiku zachytenia nejazykovżch aspektov hovorenżch textov
(mimika, proxemika). Nakoniec zd�raznil, ~e sś%0ńasn� budovanie %0ńesk�ho hovoren�ho korpusu
odr�~a re�lnu snahu vytvorie a vydae frekven%0ńnż slovn�k hovoren�ho %0ńesk�ho jazyka.
Tematicky pr�buznżm pr�spevkom Collection of Recordings for the Czech Spoken Corpus
pokra%0ńovali autorky Marie K o p Y i v o v � a Martina W a c l a w i %0ń o v � , takisto z �stavu
esk�ho n�rodn�ho korpusu. Prezentovali dva sś%0ńasn� %0ńesk� hovoren� korpusy: Pra~skż hovorenż
korpus (PMK) a Brniansky hovorenż korpus (BMK). Pri zhroma~ovan� nahr�vok sa v obidvoch
korpusoch prim�rne zameriavali na vaeobecne pou~�vanż hovorovż jazyk. Datab�zov� vstupy sa
alej triedili z h>adiska sociolingvistickżch kategóri�. 500 000 slov je u~ transkribovanżch, avaak
bez zachytenia inton�cie a inżch fonetickżch javov.
Pavel S m r ~ za kolekt�v autorov Michal Fapao, Peter Schwarz, Igor Sz�ke, Milan
Schwarz, Jan ernockż, Martin Karafi�t a Luk�a Burget z Fakulty informatiky Masarykovej
univerzity v Brne predniesol pr�spevok s n�zvom Search Engine for Information Retrieval from
Audio/Speech Records. Predstavil n�vrh a implement�ciu syst�mu na efekt�vne uchov�vanie,
indexovanie a vyh>ad�vanie v sśbore hovorenżch dokumentov s pou~it�m niektorżch metód
automatick�ho rozpozn�vania re%0ńi. Tento syst�m pracuje ako server a vyu~�va h>adanie
prostredn�ctvom tzv. recognition lattices h>adan� fr�za sa prevedie do acyklick�ho grafu, ktorż
predstavuje fonetickś reprezent�ciu danej fr�zy.
Sekciu zameranś na hovoren� korpusy uzavreli Jana Zemljari%0ń M i k l a v %0ń i %0ń a Marko
S t a b e j z Filozofickej fakulty Univerzity v %3ńub>ane pr�spevkom o budovan� skśaobn�ho
hovoren�ho korpusu slovin%0ńiny, ktorż je sś%0ńaseou textov�ho korpusu FidaPLUS (obsahuje
dohromady 300 miliónov slov). Skśaobnż hovorenż korpus obsahuje 7 digit�lnych nahr�vok s
celkovou d:~kou 89 minśt, %0ńo predstavuje 15 tis�c tokenov. Pri formovan� tak�hoto hovoren�ho
korpusu by mali bye splnen� ur%0ńit� kontextov� i demografick� krit�ri� (po%0ńet a vżber respondentov,
typy komunik�ci� at.), ktor� sa vaak v tejto f�ze projektu eate nepodarilo celkom uplatnie.
V slovinskom hovorenom korpuse pou~�vajś na transkripciu dva r�zne transkrip%0ńn� n�stroje:
Transcriber a Praat.
Autori nasledujścich dvoch pr�spevkov sa takisto zamerali na hovorenś str�nku re%0ńi, ich
pr�spevky boli vaak technickejaieho charakteru. Prvż prezentovali Pavol V a n %0ń o a Marek
1
N a g y z Fakulty matematiky, fyziky a informatiky Univerzity Komensk�ho v Bratislave.
Vytvorili elektronickś verziu fonetick�ho slovn�ka sloven%0ńiny na b�ze slovn�ka z Pravidiel
slovenskej vżslovnosti �bela Kr�>a. Slovn�k bude slś~ie ako z�klad syst�mu na rozpozn�vanie re%0ńi,
na ktor�ho tvorbe eate pracujś. Kone%0ńn� verzia fonetick�ho slovn�ka m� 66 675 slov a ich
fonetickżch ekvivalentov a na rozdiel od p�vodnej tla%0ńenej verzie boli pri tejto fonetickej
transkripcii pou~it� symboly syst�mu SAMPA, nie IPA. Druhż pr�spevok s n�zvom Word Tests for
speech Understandability Evaluation in Slovak bol od Milana R u s k a a Mari�na T r n k u z
�stavu informatiky SAV v Bratislave. Informovali v Hom o svojich vżskumoch slovnżch testov na
zrozumite>nose sloven%0ńiny a o ich praktickom vyu~it�. Tieto testy slś~ia na diagnostick� ś%0ńely a ich
praktick� vyu~itie je pomerne airok�: pri meran� akustiky miestnost�, pri meran� komunika%0ńnżch
kan�lov, vyu~�vajś sa tie~ pri syntetiz�roch re%0ńi at.
Lucia G i a n i t s o v � - O l o a t i a k o v � z Univerzity sv. Cyrila a Metoda v Trnave
vystśpila s pr�spevkom Manual Morphological Annotation of Slovak Translation of Orwell's Novel
1984 Methods and Findings, ktorż vznikol v spolupr�ci s Radovanom G a r a b � k o m,
pracovn�kom oddelenia Slovensk�ho n�rodn�ho korpusu Jazykovedn�ho śstavu %3ńudov�ta `tśra
SAV v Bratislave. Predstavila v Hom metódy a vżsledky ru%0ńnej morfologickej anot�cie Orwellovho
rom�nu 1984, ktor� prebiehala v oddelen� SNK za pomoci atudentov v rokoch 2004 a~ 2005.
Oprava ru%0ńne anotovanżch textov sa vykon�vala v troch f�zach, pri%0ńom syst�m pou~itż na
overovanie korektnosti anot�cie sa uk�zal ako schopnż prin�aae pozit�vne vżsledky. V obdob� rokov
2004 a 2005 bolo zanotovanżch a opravenżch viac ako 100 tis�c tokenov.
Pr�spevok Jaroslavy H l a v � %0ń o v e j z �stavu form�lnej a aplikovanej lingvistiky
Matematicko-fyzik�lnej fakulty Karlovej univerzity v Prahe s n�zvom Orwell's 1984 playing with
Czech and Slovak versions opisoval projekt, ktorż bol zameranż na automatickż preklad
slovenskżch textov a jeho mo~n� pou~itie pri ru%0ńnej morfologickej anot�cii. Pri experimente sa
pou~il automatickż n�stroj prekladania es�lko, ktorż bol navrhnutż pre preklad textov dvoch
bl�zkych jazykov %0ńeatiny a sloven%0ńiny. Na vżskum mali k dispoz�cii %0ńeskś, morfologicky
anotovanś verziu Orwellovho rom�nu 1984, a slovenskś verziu tohto rom�nu bez anot�cie.
Pomocou n�stroja sa vykonal automatickż preklad z %0ńeskej verzie do slovenskej a porovnal sa
vżsledok s automatickou morfologickou anot�ciou slovenskej verzie. Experiment sa zhodnotil
pou~it�m manu�lne anotovanej %0ńasti slovenskej verzie.
Nasledovali tri pr�spevky vedeckżch pracovn�kov z Nyelvtudom�nyi Int�zet Magyar
Tudom�nyos Akad�mia (Vżskumn�ho jazykovedn�ho śstavu Maarskej akad�mie vied)
v Budapeati. Ako prv� vystśpili Kata G � b o r a EnikQ H � j a , ktor� prezentovali moment�lny
stav vżskumu rozpozn�vania komplementov a adjunktov v maar%0ńine (A Rule-based Analysis of
Complements and Adjuncts). Vżsledkom ich pr�ce je poznatok, ~e menn� fr�zy nie je mo~n� presne
kategorizovae na komplementy a adjunkty, a tak namiesto toho zav�dzajś istż stupeH
komplementnosti a adjunktnosti pre ka~dś mennś fr�zu. Autorky vytvorili automatizovanż syst�m,
ktorż na z�klade troch typov pravidiel dok�~e ur%0ńie, do ktorej z ist�ho mno~stva kategóri� dan�
menn� fr�za patr�.
Gergely B o t t y � n a B�lint S a s s sa venovali problematike konjugovanżch infinit�vov v
Maarskom n�rodnom korpuse (Magyar Nemzeti Sz�vegt�r): Conjugated Infinitives in the
Hungarian National Corpus. V maar%0ńine, podobne ako aj v portugal%0ńine a waleatine, sa vyskytujś
okrem nonfinitnżch infinit�vov i infinit�vy konjugovan�, teda tak�, ktor� sś nosite>mi inform�ci� o
slovesnom %0ńase i osobe. Autori prezentovali vżskum, ktorż prebiehal na 153,7 mil. lematizovanżch,
morfosyntakticky ozna%0ńkovanżch a dezambiguovanżch slov z Maarsk�ho n�rodn�ho korpusu.
Hlavnżm cie>om bolo overenie spr�vnosti tvrdenia, ~e vaetky licensory (lingvistick� polo~ky),
ktor� priberajś konjugovan� infinit�vne komplementy, sś identifikovate>n�. Vypracovali tak nielen
zoznam takżchto licensorov z korpusu, ale i bli~aie apecifikovali vżskyt danżch licensorov spolu s
konjugovanżmi infinit�vmi.
Csaba O r a v e c z za spoluautorov Viktora N a g y a a K�rolya V a r a s d i h o
predstavil v pr�spevku s n�zvom Morphological idiosyncrasy in Hungarian multiword expressions
vżskum zameranż na pou~ite>nose inform�ci� extrahovanżch z distribście sufixov vo viacslovnżch
2
pomenovaniach v maar%0ńine. Autori skśmali metódu extrakcie viacslovnżch vżrazov z ve>k�ho
korpusu, ktor� je zalo~en� na morfologickej idiosynkr�zii ur%0ńitżch slovnżch kombin�ci�, ako aj na
atatistickżch hodnot�ch vych�dzajścich zo vz�jomn�ho spoluvżskytu danżch slov. Sna~ili sa
zhodnotie, %0ńi pre istż typ viacslovnżch vżrazov m�~e bye morfologick� idiosynkr�zia dobrżm
indik�torom kolokability alebo idiomatickosti.
Alexander R o s e n z �stavu teoretickej a komputa%0ńnej lingvistiky Filozofickej fakulty
Karlovej univerzity v Prahe sa vo svojom pr�spevku In Search of the Best Method for Sentence
Alignment in Parallel Texts zaoberal nieko>kżmi metódami zarovn�vania viet v paralelnżch
korpusoch. Vżsledky jeho vżskumov uk�zali, ~e n�stroje zarovn�vania na śrovni viet sa m�~u
osved%0ńie pri jednom type textov, ale m�~u zlyhae pri inżch. Pri h>adan� optim�lnej metódy dospel k
z�veru, ~e aj efekt�vne pracujśce n�stroje s pomerne vysokou mierou presnosti by sa mali
kombinovae s nasledujścou manu�lnou kontrolou.
Autori Vladim�r K a d l e c a Alea H o r � k z Fakulty informatiky Masarykovej
univerzity v Brne vystśpili s pr�spevkom Czech Language Parsing using Meta-grammar
Formalism with Contextual Constraints, v ktorom prezentovali aktu�lne vżsledky vżvoja h:bkovej
syntaktickej analżzy %0ńeatiny ako reprezentanta vysoko flekt�vneho jazyka s vo>nżm slovosledom.
Predstavili implementovanż parsingovż syst�m synt s gramatickżm formalizmom zalo~enżm na
meta-gramatickej metóde. Tento syst�m v sś%0ńasnosti obsahuje viac ako 3 tis�c slovies, ktor� spolu
vytv�rajś zhruba 1700 valen%0ńnżch r�mcov.
Druhż deH konferencie otvoril osobitne objednanżm pr�spevkom Karel P a l a z Fakulty
informatiky Masarykovej univerzity v Brne. Predovaetkżm pre kolekt�v lexikografov z J�%3ń` SAV v
Bratislave podrobne prezentoval syst�m vytvorenż na jeho katedre na tvorbu r�znych slovn�kov
(DEB II Platform for a Lexicographic Station). Syst�m sa vyzna%0ńuje vysokou modularitou s
pou~it�m modernżch po%0ń�ta%0ńovżch technológi� a rozsiahlym spektrom mo~nost� pou~�vania.
Vyu~itie modernżch technológi� m� za n�sledok elegantn�, módne a na poh>ad pr�jemn�
u~�vate>sk� rozhranie a potrebu dedikovan�ho t�mu program�torov starajścich sa o udr~iavanie
funk%0ńnosti syst�mu.
Svetla K o e v a z Oddelenia po%0ń�ta%0ńovej lingvistiky Bulharskej akad�mie vied a Max
S i l b e r z t e i n z francśzskej Univerzity vo Franche-Comt� v Besan�one predstavili spolo%0ńnż
projekt tvorby s�mantickżch slovn�kov a syst�mu slś~iaceho na vyh>ad�vanie inform�ci�
(Bulgarian and English Semantic Dictionaries for the Purposes of Information Retrieval). Tento
vyh>ad�vac� syst�m vyu~�va dva s�mantick� slovn�ky, anglickż WordNet a jeho bulharskś verziu,
BulNet, popri ktorżch sa vyu~�vajś aj lingvistick� n�stroje z NooJ (Linguistic development
environment), zahUHajśceho ve>k� mno~stvo slovn�kov a gramat�k. Bulharsk� verzia BulNet m�
oproti anglickej mena� rozsah: obsahuje 24 405 synsetov oproti 115 424 synsetom vo WordNet-e.
Radovan G a r a b � k z oddelenia Slovensk�ho n�rodn�ho korpusu J�%3ń` SAV v Bratislave
vo svojom pr�spevku Levenshtein Edit Operations as a Base for a Morphology Analyzer pouk�zal
na vrodenś vlastnose morfológi� v slovanskżch (ale aj inżch jazykoch) tvorie odvoden� tvary
prid�van�m sufixov a niekedy i zmenami koreHovej morf�my. Obidva typy zmien je mo~n� vyjadrie
ako sekvenciu element�rnych Levenatejnovżch oper�ci� aplikovanżch na lemu. Pod>a tżchto
konkr�tnych sekvenci� je mo~n� zadelie slov� do vzorov. Na tomto z�klade bol v oddelen� SNK
vypracovanż po%0ń�ta%0ńovż syst�m, ktorż umo~Huje efekt�vne zatrieovae slov� do vzorov a testovae
validitu vzoru. V %0ńase prezent�cie boli śspeane zatrieden� vaetky podstatn� men� a v�%0ńaina slovies z
Kr�tkeho slovn�ka slovensk�ho jazyka (KSSJ). Uvedenż syst�m m�~e bye z�kladom
morfologick�ho analyz�tora pre jazyky s bohatou flexiou.
Ag�ta K a r %0ń o v � , takisto z oddelenia SNK J�%3ń` SAV v Bratislave, vo svojom
pr�spevku Application of the Levensthtein Edit Operations for the Creation of Paradigm Templates
of Lexemes in Slovak Language bli~aie charakterizovala morfologickż analyz�tor a jeho funkcie,
pouk�zala na vżhody a nevżhody uprednostHovania form�lneho pr�stupu pri jeho tvorbe a bli~aie
vysvetlila postup vżberu lex�m do morfologick�ho slovn�ka. Autorka pribl�~ila aj naj%0ńastejaie
probl�my, s ktorżmi sa jej pracovn� skupina stretla pri form�lnom zatrieovan� podstatnżch mien
do vzorov. Napr�klad bolo potrebn� vytvorie zhruba 400 vzorov pre podstatn� men� z KSSJ.
3
Morfologickż slovn�k m� amb�ciu zachyt�vae i tie dvojtvary, ktor� nefigurujś v KSSJ.
Problematikou automatizovanej fonetickej transkripcie sa zaoberal Jozef I v a n e c k ż z
Fakulty elektrotechniky a informatiky Technickej univerzity v Koaiciach v pr�spevku Analysis of
the Rule Based Phonetic Transcription Technique Applied to the Slovak Language. Pod>a autora je
spr�vna fonetick� transkripcia k>ś%0ńovou potrebou pre ak�ko>vek automatick� rozpozn�vanie re%0ńi. V
prezent�cii podal sśhrnnż preh>ad mo~nżch metód navrhovanżch na fonetickś transkripciu a
skśmal mo~nose vytvorenia syst�mu pravidiel transkripcie. Zameriaval sa tak na pravidl�
transkripcie pre slovenskż jazyk, ako aj mo~noseou jej pou~itia v re�lnej aplik�cii.
J�n G e n %0ń i z Fakulty elektrotechniky a informatiky Technickej univerzity v Koaiciach
prezentoval vo svojom pr�spevku Contribution to processing of Slovak language at DCI FEEI
TUKK tri sś%0ńasn� projekty po%0ń�ta%0ńovżch lingvistov tejto fakulty. Prvżm bol projekt n�vrhu
algoritmu a regul�rnych vżrazov na porovn�vanie adjekt�v v sloven%0ńine. Menej podrobne sa
predn�aajści venoval modelu datab�zy vżrazov s morfologickou inform�ciou, ktorż je vhodnż na
implement�ciu stemmera (syst�m, ktorż dok�~e ur%0ńie koreH slova). Nakoniec op�sal projekt Synset
Builder, experiment�lny n�stroj na budovanie anglicko-slovenskżch synsetov zalo~enż na
WordNet-ovej datab�ze, jeho teoretick� vżchodisk� a budści vżvin.
Projekt prezentovanż Marekom N a g y o m z Fakulty matematiky, fyziky a informatiky
Univerzity Komensk�ho v Bratislave Multimendia Reading Book Utilization an XML Document
Format and an Audio Signal Processing vedie k alaiemu vżvinu vżskumu v oblasti automatick�ho
rozpozn�vania re%0ńi. Vżsledkom projektu s n�zvom Multimedia Reading Book (MRB) je tzv.
multimedi�lna %0ń�tanka pre deti z�kladnżch ak�l. Deti sa na projekte podie>ali p�san�m textu a
zvukovżm nahr�van�m plynul�ho %0ń�tania tżchto textov. N�sledne sa na z�skanżch vzork�ch vaka
pou~it�mu algoritmu segment�cie vytvorila transkripcia hovoren�ho textu.
Predposlednżm pr�spevkom druh�ho dHa konferencie bolo predstavenie %0ńesk�ho VerbaLex-u
Danou H l a v � %0ń k o v o u a Aleaom H o r � k o m z Fakulty informatiky Masarykovej
univerzity v Brne. VerbaLex je slovn�k slovesnżch valenci� %0ńesk�ho jazyka, ktor�ho tvorba sa
opiera o tri od seba nez�visl� elektronick� slovn�ky slovesnżch valen%0ńnżch r�mcov: slovn�k
valen%0ńnżch r�mcov %0ńesk�ho WordNet-u vytvorn�ho po%0ńas projektu Balkanet, Vallex 1.0 vytvorenż
v r�mci Pra~sk�ho z�vislostn�ho korpusu a BRIEF, syntaktickż slovn�k slovesnżch valenci�, ktorż
vznikol v Brne v roku 1996. Teraja� VerbaLex je okrem inform�ci� z tżchto troch zdrojov doplnenż
o vid, synonym� slovies a klasifik�ciu slovies. Obsahuje 3469 slovies, ktor� po zadelen� do
synonymickżch skup�n majś 1807 valen%0ńnżch r�mcov. Cie>om autorov je pridae do slovn�ka
ala�ch 15 000 slovies.
Dariusz P i e c h o c i ń s k i a Agnieszka M y k o w i e c k a , Polsko-Japońska
Wyższa Szkoła Technik Komputerowych vo Varaave, v pr�spevku Question Answering in Polish
Using Shallow Parsing predstavili aplik�ciu (question answering application), pomocou ktorej sa z
datab�zy poznatkov (v danom pr�pade z po>skej verzie encyklop�die Wikipedia) a na z�klade
kr�tkych zadanżch ot�zok dok�~u vygenerovae relevantn� odpovede. Nejde o h:bkovś analżzu, ale
o plytkż parsing a jednoduch� vyh>ad�vanie vzoriek. Po%0ń�ta%0ńovż program nepou~�va zlo~it�
metódy, pri%0ńom produkuje zauj�mav� vżsledky a je dobrżm za%0ńiatkom pre budśce vżskumy v tejto
oblasti.
Kvantitat�vnou textovou analżzou sa zaoberali Peter G r z y b e k a Emmerich K e l i h z
Karl-Franzens-Universit�t v Grazi v pr�spevku Toward a General Model of Grapheme Frequencies
for Slavic Languages. Prezentovan� atśdia predstavuje mo~nż teoretickż model na zachytenie
frekven%0ńnej distribście graf�m v slovinskom, ruskom a slovenskom jazyku. Vzorka d�t, ktorś pri
vżskume pou~ili, bola sś%0ńaseou empirick�ho testovania, ktor�mu predch�dzali stanoven� hypot�zy
motivovan� predch�dzajścimi lingvistickżmi vżskumami v tejto oblasti. Z existujścich
distribu%0ńnżch modelov sa pre dan� slovansk� jazyky javil ako adekv�tny model
hypergeometrick�ho rozlo~enia graf�m.
Poslednż deH konferencie sa za%0ń�nal prezent�ciou Karla P a l u z Fakulty informatiky
Masarykovej univerzity v Brne o problematike valen%0ńnżch r�mcov a s�mantickżch rol� (deep cases)
%0ńeskżch slovies. S�mantick� roly sa pre potreby VerbaLex-u zade>ujś do dvoch śrovn� a pri ich
4
klasifik�cii sa vyu~il EuroWordNet Top Ontology a Set of Base Concepts z WordNet-u. Terajaia
klasifik�cia umo~Huje bli~aie apecifikovae s�mantick� roly slovies, ktor� boli inak pr�lia vaeobecn�
(ide napr. o sloves� vid%1łt, slyaet, dr~et at.). Takisto sa zaviedlo pou~�vanie Word Sketches. Aj
vaka tomu je mo~n� pou~ie komplexn� valen%0ńn� r�mce aj v inżch jazykoch, ako je %0ńeatina, napr. v
bulhar%0ńine.
Dominika U r b a ń s k a , Polsko-Japońska Wyższa Szkoła Technik Komputerowych a
Agnieszka M y k o w i e c k a , Instytut Podstaw Informatyki Polskiej Akademii Nauk vo
Varaave, vystśpili so spolo%0ńnżm projektom rozpozn�vania viacslovnżch pomenovan� vlastnżch
mien os�b a inatitści� v po>sky p�sanżch neform�lnych textoch (Multi-words named entity
recognition in Polish texts). Proces rozpozn�vania pomenovan� vlastnżch mien m� atyri f�zy:
najsk�r sa ozna%0ń� potenci�lne meno entity, potom k>ś%0ńov� slov�, vytvor� sa śpln� pomenovanie
entity a napokon i z�kladn� tvary vaetkżch rozpoznanżch vlastnżch mien. Takto z�skan� śdaje sa
alej vyu~�vajś aj pri inżch aplik�ci�ch. Autorky pl�nujś roza�rie tśto aplik�ciu i na oblase
vlastnżch mien lokal�t, menovżch jednotiek a titulov, pri%0ńom jej fungovanie prepoja s u~
existujścim morfologickżm analyz�torom.
Nasledujści pr�spevok z oblasti frazeológie vznikol v spolupr�ci Petra u r %0ń a z
Univerzity Sv. Cyrila a Metoda v Trnave s Denisom H e l i c o m z Technischen Universit�t v
Grazi (Aspects of an XML-Based Phraseology Database Application). V r�mci projektu Ephras
budujś frazeologickś datab�zu atyroch európskych jazykov (nem%0ńina, sloven%0ńina, slovin%0ńina a
maar%0ńina), ktorś bude mo~n� vyu~ie v r�mci vżu%0ńby cudz�ch jazykov. Datab�za bude obsahovae
tis�c frazeologizmov z ka~d�ho jazyka a bude doplnen� aj o 150 interakt�vnych testov. Projekt je
zatia> iba v po%0ńiato%0ńnej f�ze. Vżchodiskovżm jazykom je nem%0ńina a datab�za doteraz obsahuje
1 000 fraz�m, z ktorżch ka~d� bude v ekvivalentnom vzeahu s fraz�mami v ostatnżch troch
jazykoch.
Z trochu odlianej oblasti bola prezent�cia Magdaleny B i e l e n i e j z Anglick�ho
inatitśtu v Gdańsku o vyu~it� a ślohe on-line glos�rov a slovn�kov pri preklade terminológie z
investi%0ńn�ho bankovn�ctva do po>atiny (The Role of Computers in Translating Investment Banking
Terminology into Polish). Predstavila viacero druhov slovn�kov a glos�rov, moment�lne najviac
pou~�vanżm je UBS Dictionnary of Banking obsahujści 2 400 term�nov a ich defin�ci� z oblasti
bankovn�ctva v angli%0ńtine, ktor� sś doplnen� o ekvivalenty v nem%0ńine, francśzatine a talian%0ńine.
Autorka na z�ver vyzdvihla viacer� vżhody takżchto slovn�kov a glos�rov oproti tradi%0ńnżm. Jednou
z nich je snaha poskytnśe v~dy tś najaktu�lnejaiu verziu.
Do problematiky diachrónnych korpusov n�s uviedol Viktor Pavlovi%0ń Z a c h a r o v
p�sobiaci na Filologickej fakulte `t�tnej univerzity v Petrohrade svoj�m pr�spevkom Russian
Historical Corpora of the 18th and 19th Centuries. Tento diachrónny korpus textov bol vytvorenż s
cie>om tvorby historickżch slovn�kov. Projekt sa realizuje v �stave jazykovednżch atśdi� Ruskej
akad�mie vied v Petrohrade. Do korpusu boli zaraden� atylisticky r�znorod� texty, na ktorżch
prebehla skśaobn� morfologick� anot�cia. T� umo~nila vypracovanie lepa�ch morfologickżch
anota%0ńnżch n�strojov ur%0ńenżch pre historick� texty. Aby bola tak�to anot�cia śspean�, je potrebn�
vypracovae morfologickż slovn�k, ktorż by obsahoval i tvary zo staraej podoby jazyka. Korpus by
mal bye doplnenż aj o alaie texty zo za%0ńiatku 18. storo%0ńia a celkovo by mal obsahovae vyae 150
miliónov tokenov.
Vżu%0ńby cudz�ch jazykov cez internet sa tżkali dva pr�spevky. Projekt DaskaL vznikol
spolupr�cou Kjetila R� H a u g a z Univerzity v Osle, Svetly K o e v y z Bulharskej akad�mie
vied a Emila D o j %0ń e v a a Georgiho o l a k o v a z Plovdivskej univerzity v Bulharsku.
DaskaL je webov� aplik�cia, ktor� umo~Huje vytv�rae a interakt�vne pou~�vae cvi%0ńenia z cudzieho
jazyka pre za%0ńiato%0ńn�kov i pokro%0ńilżch. Cvi%0ńenia vytv�ran� a kontrolovan� u%0ńite>om slś~ia na
precvi%0ńovanie gramatiky, slovosledu vo vete, ale k dispoz�cii je i vo>neja� typ cvi%0ńen�, ako je p�sanie
esej�, slohovżch pr�c, dialógov at. DaskaL bol vytvorenż na podklade bulhar%0ńiny, srb%0ńiny, %0ńeatiny
a po>atiny, ale je mo~n� ho pou~ie aj pri vżu%0ńbe inżch jazykov.
O tom, ako sa d� nau%0ńie slovinsky prostredn�ctvom internetu, hovorili na z�ver konferencie
Jana Zemljari%0ń M i k l a v %0ń i %0ń a Marko S t a b e j . Predstavili vo>ne pr�stupnś internetovś
5
str�nku s n�zvom Slovena%0ńina na daljavo (http://www.e-slovenscina.si) ur%0ńenś samoukom,
za%0ńiato%0ńn�kom i pokro%0ńilżm. Je zameran� na rozv�janie jazykovżch zru%0ńnost� (%0ń�tanie, p�sanie a
posluch), %0ńo umo~Hujś audio aj video nahr�vky dialógov, p�san� texty, cvi%0ńenia at. Nesk�r bude
mo~n� u%0ńie sa i za pomoci u%0ńite>a.
Na z�ver konferencie sa Alexandra Jaroaov� z oddelenia sś%0ńasnej lexikológie a lexikografie
J�%3ń` SAV v Bratislave vaetkżm zś%0ńastnenżm poakovala a z�roveH ich pozvala na 4. semin�r
SLOVKO 2007, ktorż bude zameranż na po%0ń�ta%0ńovś lexikografiu a terminológiu.
6

Wyszukiwarka

Podobne podstrony:
2006 03 Jeszcze o REHACARE 2005
2005 2006 szkolny
(2005 2006) Jodkowski, Klasyfikacja stanowisk kreacjonistycznych
CH W D A B Kroniki 2005 2006
przyklady egz 2005 2006
apg wyklady 2005 2006
S Historia myśli psychologicznej 2005 2006
2006 04 Karty produktów
Egzamin zawodowy 2006

więcej podobnych podstron