Cele i zadania lingwistyki informatycznej"
Maciej Piasecki
Lingwistyka informatyczna (inaczej komputerowa) wyłoniła się z potrzeby bu-
dowania systemów informatycznych analizujących w pewien sposób wypowiedzi w
języku naturalnym i rzadko kiedy określa się, czym powinna się zajmować, najczę-
ściej rejestruje się to, czym badacze w jej bardzo szerokich i niejasnych granicach się
zajmują, np. (Sproat et al., 2000, Mitkov, 2003). Ponieważ trudno jest opisywać cele
i zadania dziedziny, której zakres jest niejasny, rozpoczniemy rozważania od próby
określenia subiektywnie nacechowanej części wspólnej różnorodnych poglądów na to,
czym jest lingwistyka informatyczna. Spróbujemy znalezć to najbardziej charakte-
rystyczne miejsce pomiędzy metodami informatyki a obszarami badań lingwistyki,
które najlepiej reprezentuje specyfikę lingwistyki informatycznej. Następnie przyj-
rzymy się sile napędowej całej dziedziny marzeniom o konstruowaniu niezwykłych
systemów informatycznych. Przedstawione zostaną dwa podstawowe paradygmaty
uprawiania lingwistyki informatycznej. Naszkicowane zostaną pózniej typowe etapy
przetwarzania języka naturalnego w systemie informatycznym. Na koniec wybrane
problemy i metody poddamy szczegółowej analizie jako mikro-ilustracje całej dzie-
dziny.
1 Zakres lingwistyki informatycznej
Angielska nazwa Computational Linguistics pojawiła się po raz pierwszy w latach
sześćdziesiątych w słynnym raporcie komitetu Automatic Language Processing Advi-
sory Committee (ALPAC, 1966) amerykańskiej agencji National Academy of Science
(NSC) dotyczącym dalszych perspektyw rozwoju automatycznego tłumaczenia (ang.
Machine Translation). Autorem nazwy był David Hays (Kay, 2003). Wnioski doty-
czące automatycznego tłumaczenia były negatywne i autorzy raportu wskazywali na
konieczność przesunięcia środków finansowych na bardziej fundamentalne badania w
zakresie modeli języka naturalnego i przetwarzania języka naturalnego (ang. Natural
Language Processing, często NLP) (dalej PJN). Tak się jednak nie stało, fundusze
zostały wstrzymane na długi czas, ale nazwa dla rodzącej się dziedziny pozostała
już w języku angielskim.
"
Praca naukowa finansowana ze środków na naukę w latach 2005-2008 przez Ministerstwo Nauki
i Szkolnictwa Wyższego jako projekt badawczy nr 3 T11C 018 29. Chciałbym wyrazić gorące
podziękowania dr Adamowi Przepiórkowskiemu za bardzo wnikliwą i szczegółową recenzję niniejszej
pracy oraz cenne uwagi, które były bardzo pomocne w opracowaniu ostatecznej wersji. Dziękuję
również innym osobom komentującym wstępną wersję pracy, między innymi Magdalenie Iwańskiej,
dr Agnieszce Piaseckiej, prof. dr hab. Piotrowi Stalmaszczykowi oraz mgr Pawłowi Mazurowi.
Instytut Informatyki Stosowanej, Politechnika Wrocławska,maciej.piasecki@pwr.wroc.pl
1
W przypadku polskiej nazwy dziedziny, pierwsza wątpliwość powstaje już w kwe-
stii, jakiego przymiotnika powinniśmy używać w nazwie: informatyczna, czy też
komputerowa. Redaktorzy Encyklopedii językoznawstwa ogólnego (Polański, 1993)
preferują określenie informatyczna , podobnie jak np. Janusz Bień (2003, 2006).
Z kolei na wielu stronach WWW, np. (Przepiórkowski, 2006), jak i w wielu pra-
cach używa się określania komputerowa , np. (Lewandowska-Tomaszczyk, 2006).
Patrząc na angielski zródłosłów Computational Linguistics słowo computatio-
nal literalnie odnosi się do obliczeń, możemy je jednak współcześnie opisywać jako
wyrażające proces przetwarzania informacji. Nawiązując do polskiej tradycji uży-
wania słowa informatyka oraz do faktu, że komputery obecnie są wykorzystywane
przede wszystkim do przetwarzania informacji, wersja nazwy lingwistyka informa-
tyczna wydaje się być bliższa istoty sprawy1.
Dziedzina lingwistyki informatycznej (LI) jest pojmowana w bardzo zróżnico-
wany sposób. W dużym uproszczeniu jest ona nieustająco przesuwana z obszaru
informatyki w obszar zahaczający o lingwistykę. Można też dostrzec okresowe tren-
dy w pojmowaniu zakresu LI.
Ruslan Mitkov określa ogólnie LI jako interdyscyplinarną dziedzinę zajmującą
się przetwarzaniem języka przez komputery (Mitkov, 2003, pp. ix). Zygmunt Saloni
w Encyklopedii językoznawstwa ogólnego (Polański, 1993) postrzega LI jako sztu-
kÄ™ tworzenia technologii pomocnych w uprawianiu lingwistyki oraz jako dziedzinÄ™
zajmującą się konstruowaniem systemów przetwarzających język naturalny. Spro-
at et al. (2000) w artykule Computational Linguistics zamieszczonym w Handbook
of Linguistics uchylają się od definiowania pojęcia lingwistyki informatycznej. Nie
podają nawet pełnego jej zakresu. Zamiast definicji wyróżniają jedynie niektóre jej
dziedziny: parsing składniowy (ang. syntactic parsing ), analiza dyskursu (ang. di-
scourse analysis ), morfologia i fonologia informatyczna (ang. computational mor-
phology and phonology ), metody oparte na korpusie (ang. corpus based methods ).
Swój wybór motywują historycznie, koncentrując się na dziedzinach o najdłuższej
historii rozwoju. Widać jednak z tych przykładów, że nacisk jest położony raczej na
metody przetwarzania, niż na modele opisujące język.
Z badań ankietowych porównujących programy nauczania LI na różnych uni-
wersytetach świata przeprowadzonych przez Bonnie Dorr (1993) wyłania się silna
dominacja zagadnień związanych z budową programów przetwarzających język na-
turalny. W tym ujęciu LI jest po prostu częścią sztucznej inteligencji. W tym samym
czasie, podobne opinie wyraża John Nerbonne (1996), twierdząc, że LI opiera się na
teoriach lingwistycznych i że zadaniem LI jest konstruowanie algorytmów oraz ar-
chitektur umożliwiających przetwarzanie języka naturalnego w oparciu o te teorie.
Jednak nie jest to pogląd dominujący we współczesnym nauczaniu LI, np. Janusz
S. Bień w opisie prowadzonego przez siebie kursu LI pisze:
Przez lingwistykę informatyczną rozumiemy badanie języka natu-
ralnego z punktu widzenia potrzeb i możliwości przetwarzania tekstów.
(Bień, 2006)
1
Przecież komputer to tylko narzędzie użyte do przetwarzania informacji, a to, co jest istotne
w zastosowaniach informatyki to proces przetwarzania informacji za pomocą narzędzi komputero-
wych.
2
Bonnie Webber (2001) wychodzi od PJN jako szerokiej dziedziny obejmujÄ…cej
wszystko, co ma cokolwiek wspólnego z zastosowaniem komputerów do analizy wy-
rażeń w języku naturalnym. Następnie formułuje dwa podstawowe cele PJN:
" modelowanie ludzkiego rozumienia i generacji języka naturalnego
jako systemu procesów przetwarzających informację. Prace w tej
dziedzinie sÄ… zwykle nazywane lingwistykÄ… informatycznÄ….
" wyposażenie komputerów w mechanizmy analizy i generowania ję-
zyka naturalnego w celu dostarczenia użytecznej usługi. Prace w tej
dziedzinie były nazywane stosowanym przetwarzaniem języka natu-
ralnego (ang. Applied NLP), inżynierią języka naturalnego (ang.
Natural Language Engineering), lub ostatnio technologią językową
(ang. Language Technology).
W ujęciu Webber LI i inżynieria języka naturalnego to dwie poddziedziny PJN.
Jeszcze dalej w stronę lingwistyki przesuwa LI Roland Hausser (2001), który jako
podstawę LI postrzega modelowanie komunikacji człowieka z komputerem. Według
Haussera, LI powinna koncentrować się na konstruowaniu modeli wyjaśniających
naturalny przekaz informacji w sposób: spójny funkcjonalnie, precyzyjny matema-
tycznie i efektywny obliczeniowo. Ponadto LI powinna zapewnić empirycznie wy-
czerpujący opis dla wszystkich poziomów analizy języka naturalnego, tj.: leksykonu,
morfologii, składni, semantyki i pragmatyki. Stopień precyzji tego opisu powinien
być wystarczający dla przetwarzania .
Powyżej zaprezentowanych zostało jedynie kilka wybranych stanowisk. Uśrednia-
jąc, należało by lokować LI w obszarze sztucznej inteligencji. Można jednak postawić
przekorne pytanie: po co nam wtedy lingwistyka w nazwie tej poddziedziny infor-
matyki? Dlatego też, w dużej mierze biorąc pod uwagę mój subiektywny punkt widze-
nia, jako podstawę dalszych rozważań, proponuję przyjąć dwa ostatnie, współczesne
głosy, tj. (Hausser, 2001, Webber, 2001). Upraszczając znacznie: LI jest dziedziną
wiedzy zajmującą się tworzeniem implementowalnych modeli języka naturalnego2.
Celem LI jest konstruowanie modeli opisujących język naturalny jako narzę-
dzie komunikacji. Modeli, które biorą pod uwagę adekwatność empiryczną opisu,
możliwości realizacyjne po stronie informatyki oraz skuteczność działania w kon-
kretnych zastosowaniach. Lingwistyka informatyczna stanowi pomost pomiędzy nie-
ograniczoną utylitarnym celem lingwistyką ogólną a skoncentrowaną na metodach
przetwarzania sztuczną inteligencją (lub ściślej PJN, chociaż może lepiej tu użyć
którąś z bardziej współczesnych nazw wymienianych poniżej).
W dalszej części rozdziału, krótko przeanalizujemy też relacje pomiędzy LI a
innymi pokrewnymi dziedzinami (poszczególne z nich nie są rozłączne), takimi jak:
PJN, lingwistyka formalna (w tym semantyka formalna), inżynieria języka natural-
nego (dalej IJN), inżynieria lingwistyczna czy też technologie językowe.
2
Warto tu jeszcze raz uczciwie podkreślić, że tradycja obejmowania mianem LI praktycznie całe-
go obszaru PJN, włączając w to algorytmy, przetwarzania jest bardzo silna w literaturze. Definicja
zakresu LI proponowana w niniejszej pracy jest po części polemiczna z poglądem tradycyjnym, a po
części stanowi propozycję opisu wyłaniającego się podziału na LI i inne dziedziny nauki powiązane
z automatyczną analizą języka naturalnego.
3
2 Marzenia
Chyba najlepszym bodzcem do rozwoju sztucznej inteligencji sÄ… marzenia, aby zbu-
dować urządzenie, system czy też program komputerowy o nieosiągalnych do tej
pory własnościach. Aktualnie, w ramach takich wymarzonych rozwiązań można wy-
mienić:
1. system potrafiący znalezć w sieci WWW dokładnie te i tylko te informacje,
których potrzebuje jego użytkownik; system któremu możemy dokładnie opisać
to, czego potrzebujemy;
2. system, który potrafi uczyć się z tekstowych podręczników, który przeczyta
podręcznik napisany dla ucznia-człowieka i rozwiąże pozytywnie test sformu-
łowany dla ucznia-człowieka;
3. system umożliwiający dostęp do informacji zapisanej w innym języku natural-
nym niż języki znane użytkownikowi lub nawet umożliwiający komunikowanie
się za pomocą nieznanego języka, tzn. system zapewniający pewien rodzaj
automatycznego tłumaczenia;
4. oraz system umożliwiający prostą głosową komunikację z komputerem.
System wymieniony w punkcie czwartym jest to lokalny problem, specyficzny dla
języka polskiego. Ciągle brakuje rozwiązań w dziedzinie rozpoznawania mowy ciągłej
w języku polskim, chociażby na poziomie osiągniętym już dla języka angielskiego.
Pozostałe punkty wydają się być dość uniwersalne. Punkt pierwszy daje wyraz
ogólnej zmianie orientacji, jaką przyniósł w IJN rozwój sieci WWW. Ogromne masy
tekstu zalegające WWW są poza zasięgiem możliwości poznawczych pojedyncze-
go człowieka. Celem technologii znanych pod nazwą wydobywania informacji (ang.
Information Extraction) jest umożliwienie precyzyjnego opisywania poszukiwanej
informacji przez użytkownika, a następnie jej odnajdywania w dokumentach zgro-
madzonych w sieci Internet i wyrażania jej w formie umożliwiającej szybkie prze-
glądanie dużej liczby zgromadzonych informacji. Zadaniem systemów wydobywania
informacji jest nie tylko przeanalizowanie informacji wyrażonej w języku natural-
nym, ale też uczynienie tego w bardzo ograniczonym czasie dla bardzo dużej liczby
dokumentów. Wymaga to stosowania płytkiej analizy wyrażeń językowych, por. pod-
rozdz. 4.5, przy jednoczesnym zachowaniu skuteczności.
Punkt drugi to stosunkowo nowa idea. Tak jak techniki wydobywanie informa-
cji kładą nacisk na uproszczoną szybką analizę składniowo-semantyczną tekstu, tak
przy uczeniu się z tekstu (ang. Learning by Reading) (Hovy, 2006) analiza wyrażeń
językowych musi być dokładna i połączona z odpowiednią reprezentacją wydobytej
wiedzy w systemie informatycznym. Uczenie siÄ™ z tekstu przez systemy informatycz-
ne to bardzo odległe marzenie, ale jednocześnie wielkie wyzwanie dla dziedzin LI i
IJN.
Punkt trzeci przypomina, że wielu ludzi posługuje się tylko jednym językiem na-
turalnym, informacja w sieci WWW jest zapisana w wielu językach, a automatyczne
tłumaczenie (ang. Machine Translation), np. (Arnold et al., 1994, Senellart et al.,
2001, Jassem, 2006), stało się życiowym problemem dla wielu ludzi korzystających
z sieci Internet lub będących w podróży (np. na wakacjach).
4
3 Trendy
Zanim przeprowadzimy analizę zakresu prac badawczych w dziedzinie LI niezbęd-
nych do zrealizowania marzeń opisanych w poprzednim rozdziale, warto przyjrzeć
się ogólnym trendom w rozwoju metod.
Historycznie pierwszym paradygmatem prowadzenia prac w ramach LI jest kon-
strukcja precyzyjnych modeli odnoszących się do poszczególnych poziomów opisu
języka naturalnego. Modele te formułowane są w postaci wyrażeń pewnego precy-
zyjnego języka formalnego, np. gramatyka w postaci zbioru precyzyjnych, formal-
nych reguł albo leksykon w postaci rekordów (zbiorów cech) o określonym formacie.
Modele takie wymagają dużej dbałości o spójność setek a nawet tysięcy wyrażeń
składowych (np. reguł gramatyki). Na ich podstawie konstruowane są narzędzia
przetwarzające język naturalny, np. parser3 zob. 4.5, jest budowany na podstawie
formalnej gramatyki. Dużym problemem, poza spójnością, jest uzyskiwanie dobrego
pokrycia opisywanego podzbioru językowego. Wraz z rozbudową teorii, zwykle co-
raz więcej pracy kosztuje rozszerzanie opisywanego podzbioru. Jednak bardzo często
paradygmat ręcznego, deklaratywnego opisu dominuje w konstrukcji praktycznych
systemów, np. stanowi podstawę budowy systemu automatycznego tłumaczenia Po-
leng (Graliński, 2002, Jassem, 2002, 2006).
Jak słusznie zauważa Yorick Wilks (2003), w ostatnim okresie obserwujemy re-
nesans metod empirycznych w LI i IJN, tzn. metod opartych na analizie i budo-
waniu modeli opisujących dane empiryczne z korpusów, np. (McEnery i Wilson,
2001, McEnery, 2003, Lewandowska-Tomaszczyk, 2005, 2006, Mykowiecka, 2007),
dodajmy możliwie dużych korpusów.
Ponadto nacisk został przeniesiony z ręcznej budowy dużych zasobów (np. róż-
nego rodzaju słowników lub gramatyk, zob. rozdz. 4), na metody (paradygmat) ich
automatycznej akwizycji z korpusów. LI jest tu ściśle łączona z metodami maszyno-
wego uczenia się i statystycznego uczenia się. Zadaniem lingwistów informatycznych
jest opracowanie modelu, określenie tego, co pozyskujemy z korpusu i, co jest nie-
stety żmudne, przygotowanie samego korpusu, najczęściej anotowanego na różnych
poziomach opisu języka naturalnego, zob. podrozdz. 4.3.
Przygotowywanie anotowanych korpusów jest zajęciem najczęściej mozolnym,
jednak paradygmat automatycznej akwizycji zasobów wydaje się być jedynym roz-
sądnym rozwiązaniem dla IJN. Problemem jest nie tylko pracochłonność ręcznie
konstruowanych zasobów, ale również zdolność do panowania nad tworem tak dużej
wielkości. Szczególnie jest to widoczne w konstruowaniu dużych gramatyk, np. do-
świadczenia twórców systemu automatycznego tłumaczenia Rosetta (Rosetta, 1994),
jak również w dziedzinie konstruowania zasobów semantyki leksykalnej, A. Lenci
et al. (2001) konkludujÄ…:
Całkowity rozmiar wiedzy niezbędny do wyjaśnienia sposobu, w jaki
znaczenia słów wchodzą we wzajemne relacje w kontekście lub dystrybu-
3
Program dokonujący automatycznej analizy składniowej, inaczej analizator składniowy, wyni-
kiem jego działania jest opis struktury składniowej wypowiedzi językowej zapisany w kategoriach
przyjętego formalizmu opisu składni. Bardzo często jest to drzewo rozbioru składniowego zapisane
w pewnym formalizmie składniowym.
5
ują się w ramach leksykalno-semantycznych klas, wydaje się przekraczać
ograniczenia ludzkiego świadomego rozumowania i zdolności do opisu.
Co prawda tezaurus WordNet (Miller et al., 2006, Fellbaum, 1998) udało się
skonstruować, ale mimo jego ogromnej przydatności, jego ograniczenia są znane,
zob. rozdz. 6.
4 Potrzebne narzędzia i zasoby
Systemy przetwarzające język naturalny, budowane w różnych celach oraz konstru-
owane według różnych metod, charakteryzują się znacznym zróżnicowaniem pod
względem kolejnych etapów przetwarzania. Niemniej można wyznaczyć pewne ty-
powe etapy, pojawiające się dostatecznie często. Nie przypadkowo nawiązują one
do poziomów opisu języka naturalnego wyróżnianych w lingwistyce: fonologiczne-
go, morfologicznego, składniowego, semantycznego i pragmatycznego. Typowe etapy
przetwarzania języka naturalnego w ramach hipotetycznego systemu informatycz-
nego w pełni analizującego wypowiedz językową w kontekście to, np. (Jurafsky i
Martin, 2000):
1. rozpoznawanie mowy (ang. speech recognition) zamiana dzwięku na zapis
tekstu ( sekwencję słów (Lamel i luc Gauvain, 2003)) etap ten występuje
jeżeli nośnikiem wypowiedzi jest mowa,
2. tokenizacja i segmentacja wydzielenie w tekście podstawowych niepodziel-
nych jednostek (twz. tokenów), zob. 4.2 oraz podział tekstu na bloki struk-
turalne (np. zdania), w zasadzie tokenizacja stanowi szczególny przypadek
segmentacji,
3. analiza morfosyntaktyczna formalny opis poszczególnych tokenów pod wzglę-
dem ich własności składniowych, rozpoznanie znanych form wyrazowych jako
realizacji poszczególnych leksemów,
4. ujednoznacznienie sensu słów (ang. sense disambiguation) rozstrzygnięcie
niejednoznaczności w przypisaniu sensu (znaczenia) leksemu do tokenu,
5. analiza składniowa przypisanie do poszczególnych wyrażeń językowych jed-
nej lub więcej struktur składniowych (np. w postaci drzewa rozbioru składnio-
wego),
6. analiza semantyczna przejście od struktury leksykalno-składniowej do pew-
nej formy reprezentacji znaczenia poszczególnych wyrażeń językowych przy-
pisanie do wyrażeń językowych wyrażeń pewnego języka formalnego,
7. analiza dyskursu analiza powiązań znaczeniowych pomiędzy poszczególny-
mi wyrażeniami językowymi, pragmatycznej struktury wypowiedzi, pełnego
znaczenia wypowiedzi w relacji do kontekstu itd.
6
W systemach prowadzących komunikację z użytkownikiem dochodzą dodatkowe
etapy zwiÄ…zane z generacjÄ… wypowiedzi oraz ewentualnie syntezÄ… mowy. Natomiast
w systemach automatycznego tłumaczenia pojawiają się etapy: tłumaczenia form
wyrazowych i fraz, zamiany struktury składniowej wypowiedzi w języku zródłowym
na strukturę wypowiedzi w języku docelowym (tzw. transfer) oraz syntezy form
morfologicznych języka docelowego.
Poszczególne etapy przetwarzania wymagają odpowiednich zasobów językowych
(ang. language resources) oraz narzędzi językowych (ang. language tools). Przez za-
soby językowe rozumiemy wszelkie zbiory danych opisujące język naturalny w wy-
branych jego aspektach (np. słowniki, gramatyki), które są wykorzystywane podczas
przetwarzania języka. Z kolei pod nazwą narzędzi językowych kryją się programy re-
alizujące poszczególne etapy przetwarzania, które są skonstruowane w taki sposób,
aby mogły być używane w różnych aplikacjach. Ponieważ narzędzia językowe kryją
w sobie często spory zasób wiedzy o języku wbudowany w konstrukcję narzędzia, a
który nie jest zapisany w oddzielnym pliku o znanym formacie, to również czasami i
narzędzia językowe są nazywane zasobami językowymi na równi z pasywnymi zbio-
rami danych. W dalszej części pracy będziemy przestrzegali podziału na narzędzia
(aktywne, przetwarzajÄ…ce) i zasoby (pasywne zapisana wiedza).
4.1 Rozpoznawanie mowy
Rozpoznawanie mowy opiera się najczęściej na modelach opisujących prawdopodo-
bieństwo wystąpienia określonego sygnału akustycznego pod warunkiem wypowie-
dzenia określonych fonemów, np. (Jelinek, 1997, Jurafsky i Martin, 2000). Model
ten bywa nazywany modelem akustycznym i jest zapisywany w postaci oszacowania
prawdopodobieństw opisujących działanie procesu losowego przechodzenia poprzez
stany reprezentujące fonemy4, tj. opisuje proces stochastyczny. Zakładamy, że proces
ten podczas przejść między stanami generuje obserwowane sygnały akustyczne. Pro-
ces taki jest realizacjÄ… abstrakcji matematycznej nazwanej ukrytym modelem Marko-
va (ang. Hidden Markov Model popularny skrót HMM). Oszacowania prawdopo-
dobieństw dokonuje się na podstawie oznaczonego korpusu mowy, tj. zbioru nagrań
mowy, gdzie każda nagrane forma wyrazowa jest zapisane w postaci ortograficznej i
najczęściej dodatkowo określone są granice każdego fonemu w nagraniu.
Modele opisujące rozpoznawanie fonemów łączone są w model wyższego rzędu
rozpoznawania form wyrazowych. Model akustyczny zawsze generuje szereg poten-
cjalnych rozpoznań z przypisanymi do nich prawdopodobieństwami i zwykle wyka-
zuje dość duży błąd liczony w odniesieniu do wskazanych najbardziej prawdopodob-
nych rozpoznań. Aby zmniejszyć błąd rozpoznania, uwzględnia się prawdopodobień-
stwo występowania poszczególnych ciągów liter w danym języku. Dalszą poprawę
jakości rozpoznania można uzyskać poprzez uwzględnienie związków składniowych
pomiędzy formami wyrazowymi. Można założyć, że rozpoznawane formy wyrazowe
tworzą wyrażenia językowe (w większości poprawne). Jeżeli dziedzina, której doty-
czą rozpoznawane wypowiedzi, jest bardzo ograniczona i ograniczone jest również
słownictwo, a składnia prosta, to można sformułować kompletną gramatykę po-
4
Bardzo często pojedynczy model reprezentuje pojedynczy fonem, a kombinacja modeli formę
wyrazowÄ… lub ciÄ…g form wyrazowych.
7
tencjalnych wypowiedzi oraz w rozpoznawaniu preferować te możliwe rozpoznania,
które są zgodne z przyjętą gramatyką. Jednak w ogólnym przypadku następstwo
form wyrazowych jest wyrażane za pomocą techniki tzw. modelowania językowego
(ang. Language Modelling).
W modelowaniu językowym konstruowany jest model opisujący prawdopodo-
bieństwo występowania określonych ciągów form wyrazowych. Najczęściej stosuje
się modele językowe oparte na prawdopodobieństwach występowania trójek form
wyrazowych (tzw. trigramy). Prawdopodobieństwa te są szacowane na podstawie
przykładowego korpusu (tekstów lub transkrypcji mowy). Jak widać, wyraża się
w ten sposób bardzo lokalne związki bez uwzględnienia struktury składniowej. Nie
uwzględnia się prawie wcale wiedzy lingwistycznej. Konstrukcja modelu językowego
sprowadza się niemal wyłącznie do technik modelowania statystycznego. W przy-
padku jednak języków fleksyjnych, takich jak język polski czy czeski, sprawa się
komplikuje, jako że form wyrazowych jest za dużo należy rozpatrzyć wszystkie
możliwe formy wyrazowe. Warto tu szukać rozwiązań odwołujących się do wiedzy
o własnościach morfosyntaktycznych, np. tak postąpiliśmy w przypadku systemu
rozpoznawania pisma ręcznego w języku polskim. Problem rozpoznawania pisma
jest bardzo zbliżony do rozpoznawania mowy inne jest tylko medium zapisu da-
nych wejściowych. W systemie tym zaproponowaliśmy (Piasecki i Godlewski, 2006b)
dwupoziomowy model językowy składający się z:
1. modelu statystycznego opisującego występowanie trzyelementowych ciągów
form podstawowych5,
2. oraz typowego modelu statystycznego występowania trzyelementowych ciągów
form wyrazowych.
W trakcie rozpoznawania pisma ręcznego, najpierw jest stosowany model pierw-
szy trójek form podstawowych, aby wśród potencjalnych rozpoznań (tj. form
wyrazowych możliwych wg algorytmu rozpoznawania obrazów znaków pisma) usta-
lić najbardziej prawdopodobny ciąg formy podstawowych. Ponieważ jednak forma
podstawowa na danej pozycji w tekście może odpowiadać wielu możliwym rozpo-
znaniom, konieczne jest za pomocą modelu drugiego, klasycznego, dalsze określenie
najbardziej prawdopodobnej sekwencji form wyrazowych powiÄ…zanych z ustalonymi
już formami podstawowymi. Model statystyczny ciągów form podstawowych wpro-
wadza pewne uogólnienie, jako że form podstawowych jest znacznie mniej niż form
wyrazowych. Można dzięki temu zebrać więcej przypadków występowania określo-
nych trójek form podstawowych i otrzymać lepsze oszacowania prawdopodobieństw.
Ustalanie najbardziej prawdopodobnego ciÄ…gu form podstawowych jest oparte na
mocniejszych przesłankach statystycznych, co redukuje błąd wyboru końcowej se-
kwencji form wyrazowych.
5
Forma podstawowa to forma wyrazowa o określonych wartościach kategorii morfosyntaktycz-
nych (np. mianownik liczby pojedynczej dla rzeczowników) wybrana jako reprezentująca cały zbiór
form danego leksemu (lub fleksemu), np. (Bień, 1991, Przepiórkowski, 2004), zob. 4.2.
8
4.2 Tokenizacja i segmentacja
Segmentacja tekstu wydaje się być zadaniem prostym. Granice form wyrazowych
wydają się jednoznacznie wyznaczać spacje, a granice zdań odpowiednie znaki in-
terpunkcyjne. Zasada taka jest jednak dużym uproszczeniem. Na potrzeby systemu
informatycznego konieczne jest określenie precyzyjnych reguł segmentacji tekstu. W
tekście oprócz form wyrazowych występują: liczby, określenia daty i czasu, adresy
internetowe, skróty, akronimy, różnego rodzaju symbole (np. numery dokumentów)
itd., np. (Mikheev, 2003, Mazur, 2005, Graliński et al., 2006)6. Dlatego mówimy
o tokenach najmniejszych niepodzielnych jednostkach tekstu oraz wyróżniamy
proces tokenizacji.
Jeżeli dążymy do bardzo precyzyjnego opisu, to również kryterium dwóch spacji
jako granic formy wyrazowej bywa podważane. Tak się stało w przypadku zasad
segmentacji opracowanych dla Korpusu IPI PAN (KIPI)7 (Przepiórkowski, 2004).
W KIPI aglutynacyjne formy czasownika być (np. -m, -em, -śmy), poprzyimkowa
nieakcentowana forma zaimka on (-ń w np. doń) oraz partykuły: by, -ż (e) i -li są wy-
dzielane jako osobne tokeny, np. napis byłbym dzielony jest na 3 tokeny: był (forma
leksemu być), -by (partykuło-przysłówek, tzw. kublik w KIPI) oraz -m (aglutynant).
Podstawą tokenizacji zawsze jest model lingwistyczny sformułowany w sposób
precyzyjny w postaci słownika lub zasad działania analizatora morfologicznego zob.
podrozdz. 4.3. Granice tokenów, które nie są formami wyrazowymi, opisywane są
najczęściej wyrażeniami regularnymi, czyli regułami formalnej gramatyki regularnej,
np. (Karttunen et al., 1996).
W przypadku segmentacji tekstu na zdania natykamy siÄ™ na zjawisko haplo-
logii kropki, np. (Przepiórkowski, 2004) ta sama kropka może kończyć skrót i
zdanie. Lista skrótów jest zawsze otwarta, często skróty są tworzone ad hoc. Co
gorsza, istnieją skróty niejednoznaczne pomiędzy skrótem a ciągiem forma wyrazo-
wa+kropka, np. napis im. może być skrótem od imienia lub wyrażaniem im (zaimek)
+ . (znak). W różnych typach tekstów, np. dialogach, wtrąceniach, wyliczeniach
itp., zasady interpunkcji mogą być również bardzo niekonwencjonalne. Najczęściej
zasady segmentacji na zdania sÄ… opisywane za pomocÄ… gramatyki skonstruowanej
ręcznie przez lingwistę (często na podstawie analizy korpusu tekstów) i zapisanej
w postaci wyrażeń regularnych. W wielu przypadkach haplogii kropki oraz niejed-
noznacznych skrótów nie sposób rozstrzygnąć bezbłędnie granic zdań na podstawie
takiej gramatyki i konieczne jest odwołanie się do dalszych poziomów analizy (np.
aż do momentu, w którym będzie możliwe rozstrzygnięcie czy im w im. to zaimek).
4.3 Analiza morfosyntaktyczna
Celem analizy morfosyntaktycznej jest rozpoznanie znanych form wyrazowych wraz
z opisaniem ich własności oraz opisanie tokenów nierozpoznanych jako formy wyra-
6
Ponieważ literatura z dziedziny LI poświęcona opisowi języka polskiego nie jest zbyt liczna,
wszędzie tam, gdzie jest to możliwe, będą również cytowane pozycje polskie.
7
W zasadach segmentacji KIPI najmniejsze niepodzielne jednostki tekstu nazywa siÄ™ po prostu
segmentami, jednak w niniejszej pracy będziemy rozróżniać pomiędzy tokenem najmniejszym
segmentem tekstu, a segmentami, które mogą się składać z wielu tokenów, tak jak np. segmenty
zdaniowe.
9
zowe, np. poprzez określenie typu symbolu, próbę odgadnięcia (ang. guessing) poten-
cjalnego opisu morfosyntaktycznego na podstawie budowy tokenu itd. Rozpoznanym
formom wyrazowym przydzielamy charakterystykÄ™ obejmujÄ…cÄ… takie informacje jak:
" część mowy,
" forma podstawowa,
" wartości poszczególnych kategorii morfosyntaktycznych, takich jak liczba, ro-
dzaj, przypadek, osoba, aspekt itd.
Kształt opisu zależy od modelu przyjętego przez lingwistę. Szczegółowość informa-
cji zależy od potrzeb dalszych etapów przetwarzania. Im bardziej szczegółowy opis
przyjmiemy, tym bardziej pracochłonne będzie skonstruowanie narzędzi do analizy
morfosyntaktycznej. Obecnie możliwości podjęcia decyzji są już w tym zakresie uwa-
runkowane istniejÄ…cymi standardami, czy to faktycznymi (zaaprobowanymi oficjalnie
przez pewne gremium), czy też technicznymi (wyznaczonymi przez pewien korpus
lub narzędzie analizy, które mają duży wpływ w obrębie prac nad przetwarzaniem
pewnego języka). W przypadku języka polskiego takim standardem technicznym
stają się powoli rozwiązania przyjęte w KIPI (Przepiórkowski, 2004), gdzie:
" w miejsce części mowy, na podstawie rozwiązań przyjętych w pracach (Bień,
1991, 2004), wprowadzono bardziej szczegółowy podział na klasy gramatyczne,
których definicja została oparta na kryteriach morfologicznych i dystrybucji
składniowej uzyskano łącznie 32 klasy gramatyczne,
" oraz wyróżniono 12 kategorii gramatycznych.
Twórcy standardu znaczników KIPI opierali się na wcześniejszych pracach Zyg-
munta Saloniego i jego współpracowników (Saloni, 1976, 1977, 1981, 1988, Grusz-
czyński i Saloni, 1978, Bień i Saloni, 1982, Bień, 1991).
Zgodnie z techniką przyjętą w zapisie korpusów tekstu, np. (McEnery i Wilson,
2001, Przepiórkowski, 2004, Lewandowska-Tomaszczyk, 2005) do każdego tokenu
przypisywany jest jeden lub kilka znaczników (ang. tag) wyrażających potencjalne
opisy danego tokenu. Mnogość opisów bierze się z potencjalnej niejednoznaczno-
ści poszczególnych tokenów względem składowych przyjętego opisu, np. dla formy
wyrazowej (tokenu) lata uzyskamy wg analizatora morfologicznego Morfeusz (Wo-
liński, 2006) (omawiany dalej) następujący zbiór opisów (znaczników) zapisany w
XML-owym formacie przyjętym w zródłowej postaci KIPI:
lata
lataćfin:sg:ter:imperf
latosubst:sg:gen:n
latosubst:pl:nom:n
latosubst:pl:acc:n
latosubst:pl:voc:n
roksubst:pl:nom:m3
roksubst:pl:acc:m3
10
Składowe powyższego zapisu oznaczają:
"
lata wydzielony token w tekście,
"
latać... jeden ze znaczników przypisanych
do tokenu, gdzie pierwsza część znacznika określa formę podstawową,
"
fin:sg:ter:imperf część znacznika określająca klasę gra-
matyczną (pierwszy symbol) oraz wartości kategorii gramatycznych podane w
kolejności zdefiniowanej dla danej klasy gramatycznej,
" gdzie użyte w przykładzie symbole składowe znaczników to (nazwy wg KI-
PI):fin forma nieprzyszła (czasownika),subst rzeczownik,sg,pl
wartości kategorii liczby,ter trzecia osoba,imperf aspekt niedokonany,
nom,gen,acc,voc przypadki orazn rodzaj nijaki im3 rodzaj męski
rzeczowy.
Proces, w którym przypisujemy do tokenu znaczniki wyrażającego jego możliwe
opisy nazywany jest anotowaniem (ang. annotating) lub oznaczaniem. W przetwa-
rzaniu oznaczanie8 odbywa siÄ™ w oparciu o automatyczny analizator morfologiczny.
Można wyróżnić dwa podstawowe podejścia do konstrukcji analizatora morfologicz-
nego:
" oparte na pełnej liście form wyrazowych (określane czasami jako siłowe ),
" oraz oparte na formalnym opisie morfologii danego języka.
W podejściu opartym na pełnej liście form wyrazowych najpierw przygotowy-
wana jest lista wszystkich rozpoznawanych form wyrazowych, na której do każdej
formy dołączone są wszystkie znaczniki możliwe dla danej formy. Zadanie lingwisty
sprowadza się do przygotowania listy. Cała trudność polega na panowaniu nad tak
ogromnym zbiorem danych (np. lista dla języka polskiego może obejmować ponad
1,6 miliona form (Aabuzek i Piasecki, 2003)). Często lista taka jest częściowo ge-
nerowana na podstawie listy form podstawowych i informacji o paradygmacie ich
odmiany. Na podstawie przygotowanej listy konstruowany jest automatycznie tzw.
transduktor (ang. transducer), np. (Roche i Shabes, 1997, Daciuk, 1998, 2000), czyli
abstrakcyjna maszyna, która czyta na wejściu napisy litera po literze, a na wyjściu
generuje opis rozpoznanych napisów. Transduktor jest rodzajem automatu i jego bu-
dowę wewnętrzną9 można opisać jako zbiór stanów powiązanych łukami. Z każdego
stanu, który nie jest stanem końcowym, wychodzi szereg łuków do kolejnych sta-
nów. Auki są opisane literami rozpoznawanych form wyrazowych oraz literami opisu
generowanego na wyjściu (znaczna część łuków może mieć przypisaną pustą literę
wyjściową). Podczas działania, kolejne litery rozpoznawanego tokenu są wczytywa-
ne przez transduktor i powodują przejścia między jego stanami zgodnie z literami
8
Jeżeli tekst jest jedynie przetwarzany w celu uzyskania danych wejściowych do dalszego działa-
nia systemu bez zapisywania przetworzonego tekstu, to oczywiście oznaczanie ma charakter ulotny
i jego wyniki istnieją tylko chwilowo w pamięci systemu.
9
Opisywana jest tu w uproszczeniu budowa transduktora o konstrukcji dostosowanej do analizy
morfosyntaktycznej.
11
przypisanymi do łuków. Jeżeli po wczytaniu ostatniej litery transduktor osiągnął
jeden ze stanów końcowych, oznacza to, że wczytany token został rozpoznany jako
określona forma wyrazowa. Wtedy opis morfosyntaktyczny rozpoznanej formy zo-
stał zwrócony na wyjściu transduktora podczas rozpoznawania w postaci sekwencji
liter generowanych podczas przechodzenia przez kolejne Å‚uki. Tego typu analizator
morfologiczny jest stosowany między innymi w system automatycznego tłumacze-
nia English Translator (Aabuzek i Piasecki, 2003). Analizator taki jest szybki, ale
wymaga dużej ilości pamięci operacyjnej systemu informatycznego.
W podejściu drugim, zamiast wyliczenia w postaci listy, istniejące formy wy-
razowe określane są poprzez podanie listy form podstawowych i precyzyjnego opis
generacji form wyrazowych na podstawie form podstawowych. Precyzyjny opis może
przybrać postać paradygmatów (wzorców) odmiany, czyli tablic definiujących takie
operacje jak: ustalenie kolejnych rdzeni (osnów w (Bień, 1991)), dodanie przyrostka,
przedrostka itd. np. (Bień, 1991). Opis może również przybierać formę gramatyki,
której reguły definiują budowę form wyrazowych, np. (Rabiega-Wiśniewska, 2006).
Analizator morfologiczny konstruowany w oparciu o formalny opis morfologii pró-
buje dopasować rozpoznawany napis do wbudowanych w analizator paradygmatów
odmiany i listy form podstawowych. Podejście to jest stosowane w jednym z naj-
bardziej zaawansowanych analizatorów morfologicznych dla języka polskiego10
Morfeuszu autorstwa Marcina Wolińskiego (Woliński, 2006). Analizator tego typu
wymaga mało pamięci operacyjnej, działanie jego jest jednak bardziej skompliko-
wane niż transduktora (ale Morfeusz jest wystarczająco szybki do większości za-
stosowań) i wymaga zbudowania precyzyjnego opisu morfologii danego języka, co
nakłada większe wymogi na pracę lingwistów.
Analizator morfologiczny przypisuje do tokenu wszystkie możliwe znaczniki
opisy. W wielu zastosowaniach zależy nam na wyznaczeniu dla każdego tokenu te-
go jednego opisu właściwego dla kontekstu użycia danego tokenu. Operację taką
nazywamy ujednoznacznieniem morfosyntaktycznym (lub dezambiguacjÄ… morfosyn-
taktyczną). Jej automatycznej realizacji przyjrzymy się bliżej w rozdz. 5.
4.4 Ujednoznacznienie sensu
Ujednoznacznienie morfosyntaktyczne pociÄ…ga za sobÄ… ujednoznacznienie formy pod-
stawowej. Jednak ta sama forma podstawowa może reprezentować wiele różnych
sensów (znaczeń) leksemów. W przypadku automatycznego tłumaczenia konieczne
jest, a w przypadku wielu innych zastosowań bardzo pożądane, jednoznaczne roz-
strzygnięcie, który sens jest reprezentowany przez dany token w tekście. Pojawiają
siÄ™ tu dwa problemy:
" określenie zbiorów możliwych sensów dla leksemów reprezentowanych przez
formy podstawowe,
10
Problem automatycznej analizy morfologicznej języka polskiego jest dość dobrze opracowany
i powstało wiele analizatorów, np. SAM-96 (Szafran, 1996, 1997), POLMORPH (Suszczańska i
Lubiński, 2001), AMOR (Rabiega-Wiśniewska i Rudolf, 2002, Rabiega-Wiśniewska, 2004), anali-
zator w systemie English Translator (Aabuzek i Piasecki, 2003) i inne. Przegląd wielu rozwiązań
i testy porównawcze można znalezć w (Hajnicz i Kupść, 2001). Wielką zaletą Morfeusza jest jego
zgodność ze standardem KIPI oraz dostępność dla zastosowań naukowych.
12
" oraz opracowanie metody wyboru właściwego sensu dla tokenu w tekście.
Problem pierwszy to kwestia wyboru odpowiedniej metody opisu semantyki lek-
sykalnej. Jest to główne zadanie lingwisty na tym etapie przetwarzania. Bardziej
szczegółowo rozważymy tą kwestię w rozdz. 6.
Zakładając, że dysponujemy leksykonem semantycznym pewnego typu, typowy
algorytm ujednoznaczniania sensów jest konstruowany w następujący sposób, np.
(Manning i Schütze, 2001, Agirre i Edmonds, 2006):
" przygotowywany jest korpus tekstu (najczęściej ujednoznaczniony morfosyn-
taktycznie), gdzie każdy token ma przypisany dodatkowy znacznik definiujący
sens reprezentowany przez token (sens jest tu określany poprzez odniesienie
do elementu leksykonu),
" dla poszczególnych sensów budowany jest statystyczny obraz cech kontekstów,
w których one występują w najprostszych rozwiązaniach cechami takimi są
po prostu częstości występowania poszczególnych form wyrazowych w kontek-
ście określonym jako ąk tokenów,
" kontekst wystąpienia każdego tokenu w tekście ujednoznacznianym jest porów-
nywany z zapamiętanymi obrazami statystycznymi dla poszczególnych sensów
danego tokenu i wybierany jest sens najbardziej dopasowany do danego użycia
tokenu.
Podstawowe zadania lingwisty to przygotowanie leksykonu semantycznego i wzor-
cowego korpusu ujednoznacznionego (przynajmniej) pod względem sensów form wy-
razowych. Tokeny nie będące formami wyrazowymi, np. liczby czy symbole, moż-
na zwykle traktować jako z natury jednoznaczne11. Konstrukcja samego algorytmu
ujednoznaczniania to już kwestia zastosowania odpowiedniej techniki klasyfikacji
kontekstów na klasy odpowiadające rozpoznawanym sensom. Technika taka może
być skonstruowana w oparciu o metody statystycznego uczenia się lub maszynowego
uczenia siÄ™.
4.5 Analiza składniowa
Problem analizy składniowej jest na tyle szeroki, że ograniczymy się jedynie do
bardzo upraszczającego szkicu. Celem jest opis struktury składniowej poszczegól-
nych wyrażeń językowych. Uzyskany opis bardzo często przybiera formę drzewa,
tzn. grafu, w którym węzeł korzeń odpowiada całości wyrażenia językowego, wę-
zły potomne pewnym elementom składowym wyrażenia językowego, a liście
poszczególnym tokenom. Słowo odpowiada zostało tu użyte celowo ponieważ inter-
pretacja struktury drzewa może być różna w zależności od formalizmu gramatyki,
np. (Kaplan, 2003), stanowiÄ…cej podstawÄ™ budowy opisu.
Program dokonujący automatycznej analizy składniowej i generujący drzewo opi-
su nazywany jest parserem. Rozróżnia się między parserami głębokimi, generującymi
11
Chociaż liczba może oznaczać liczebnik główny lub porządkowy. Można jednak postrzegać to
jako problem ujednoznaczniania morfosyntaktycznego.
13
pełny, szczegółowy opis struktury wyrażenia językowego, w którym pozycja w struk-
turze każdego tokenu wyrażenia jest precyzyjnie oznaczona, oraz parserami płytkimi,
generującymi opis uproszczony, gdzie jedynie główne składniki są opisane podana
jest przynależność tokenów do głównych składników, ale już wewnętrzna struktura
głównych składników nie jest opisana, np. (Jurafsky i Martin, 2000, Carrol, 2003).
Płytkość analizy płytkiego parsera może być różna. Szczególnym rodzajem płyt-
kiego parsera jest tzw. parser całostkowy (ang. chunking parser), zaproponowany
przez Stevena Abneya (Abney, 1991). Parser całostkowy dzieli zdanie na całostki
(ang. chunks), które są zbudowane z ciągów tokenów powiązanych ze sobą w pewien
sposób (np. całostki nominalne lub przyimkowe), ale pozostawia opis płaski, nie
określa struktury zdania. Nawet tak uproszczony opis może być bardzo użyteczny
w wielu zastosowaniach, np. przy wydobywaniu informacji z tekstu, np. (Appelt i
Israel, 1999, Konchady, 2006).
Parser najczęściej jest konstruowany w oparciu o gramatykę zapisaną w pewnym
formalizmie gramatyki. Omówienie istniejących formalizmów gramatycznych wykra-
cza poza ramy tego opracowania, dobre, krótkie wprowadzenie można znalezć np.
w (Kaplan, 2003), szersze omówienie to np. (Mykowiecka, 2007). Dlatego też od-
notowane zostaną tu jedynie istniejące formalne opisy języka polskiego. Najczęściej
stosowany był formalizm DCG (tzw. gramatyki powierzchniowej):
" formalna gramatyka (Szpakowicz, 1983), na podstawie której powstało wiele
eksperymentalnych parserów,
" Gramatyka Formalna Języka Polskiego (GFJP) (Świdziński, 1992) stanowią-
ca podstawę budowy parsera Świgra (Woliński, 2004, 2005), GFJP i parser
Świgra zostały wykorzystane przez Macieja Ogrodniczuka (2006) do analizy i
weryfikacji Korpusu Wypowiedników zbudowanego przez Marka Świdzińskiego
(1996), w pracy (Ogrodniczuk, 2006) zaproponowane zostały również rozsze-
rzenia GFJP między innymi w zakresie opisu grupy nominalnej w tym kon-
strukcji liczebnikowych,
" oraz (Vetulani, 2004), gdzie parser oparty na gramatyce w formalizmie DCG
stanowi część systemu dialogowego.
W pracy12 (Przepiórkowski et al., 2002) zaproponowany został opis dość obszer-
nego podzbioru języka polskiego wykonany w formalizmie HPSG. Powstał również
eksperymentalny parser częściowo implementujący przedstawiony opis. W oparciu o
gramatykę zależnościową (ang. dependency grammar) pracuje parser Tomasza Ob-
rębskiego (Obrębski, 2002). Parser Filipa Gralińskiego wykorzystywany w systemie
automatycznego tłumaczenia POLENG (Jassem, 2006) został oparty na oryginal-
nym formalizmie gramatyki frazowej rozszerzonej o atrybuty i operacje na drzewach,
skonstruowanym z myślą o opisie swobodnego szyku i konstrukcji nieciągłych (Gra-
liński, 2005).
12
Wspomniana praca stanowi rodzaj podsumowania bogatego dorobku badawczego obejmujÄ…ce-
go cztery prace doktorskie i szereg innych publikacji dotyczących poszczególnych zjawisk w obrębie
składni języka polskiego, por. (Przepiórkowski, 2006).
14
Można również konstruować parser za pomocą technik maszynowego uczenia się
bądz statystycznego uczenia bezpośrednio na podstawie korpusu oznaczonego struk-
turami składniowymi (i ujednoznacznionego w tym zakresie) nazywanego często
bankiem drzew (ang. tree bank), np. Penn Treebank (Marcus et al., 1994). Przykła-
dami skutecznych parserów dla języka angielskiego skonstruowanych w ten sposób
sÄ… parsery Eugene a Charniak (Charniak, 2000) i Michaela Collinsa (Collins, 1999).
Można próbować wyprowadzać gramatykę frazową na podstawie banku drzew, np.
(Charniak, 1996). W momencie pisania niniejszej pracy niestety nie istniał korpus
oznaczony składniowo dla języka polskiego. Co prawda powstał zbiór zdań ręcznie
oznaczonych nazwami zjawisk składniowych i strukturami atrybut-wartość w stylu
HPSG o nazwie Baza Rozbiorów Gramatycznych (Marciniak et al., 2003), jednak
jego rozmiar jest niewielki i został on zbudowany jako zbiór testowy dla parserów.
4.6 Analiza semantyczna
Celem analizy semantycznej jest automatyczne przejście od struktury składniowej
do reprezentacji semantycznej wyrażenia językowego. Reprezentacja semantyczna
to wyrażenia pewnego języka formalnego, których znaczenie jest określone w ścisły,
formalny sposób w definicji języka. Najczęściej jako język reprezentacji znaczenia
stosowana jest logika predykatów i języki pochodne od niej, por. (Carpenter, 1997,
Piasecki, 2004, Blackburn i Bos, 2005). Ponieważ logika predykatów ma ograniczoną
siłę ekspresji (tzn. nie wszystkie znaczenia wyrażane przez język naturalny da się w
niej zapisać) poszukuje się języków formalnych rozszerzających zakres opisu, np. dla
języka polskiego (Piasecki, 2003).
W praktycznych zastosowaniach poprzestaje się jednak najczęściej na podzbiorze
logiki predykatów jako języku reprezentacji znaczenia, np. w systemie dialogowym
POLINT (Vetulani, 2004), lub stosuje się języki równoważne podzbiorowi logiki
predykatów, np. DRS (Kamp i Reyle, 1993), zob. (Hajnicz, 2003), w systemie dia-
logowym Logo (Piasecki et al., 2005b).
4.7 Analiza dyskursu
Ten ostatni etap jest wprowadzony nieco sztucznie, jako zbiorcza nazwa dla różnych
metod stosowanych na poziomie analizy struktury tekstu i powiÄ…zania wypowiedzi
językowej z kontekstem. Można do niego zaliczyć: ustalanie powiązań anaforycznych
w tekście (ang. anaphora resolution) określanie poprzedników anaforycznych dla
różnego rodzaju zaimków, ustalanie powiązań koreferencyjnych pomiędzy wyraże-
niami w tekście (głównie współodnoszenia się fraz nominalnych do tych samych
bytów), ustalanie powiązań referencyjnych wyrażeń językowych z bytami pozajęzy-
kowymi (odnoszenia się do bytów z kontekstu interpretacji), rozpoznawanie nazw
własnych i ich różnych form, określanie struktury retorycznej tekstu (dyskursu),
identyfikację presupozycji oraz analizę znaczenia aktów mowy. Lista ta nie jest wy-
czerpująca i może być rozszerzona o dalsze metody. Głównym celem tego etapu jest
rozszerzenie analizy semantycznej o analizÄ™ pragmatycznÄ… i powiÄ…zanie znaczenia
wypowiedzi z kontekstem interpretacji, a w szczególności z reprezentacją wiedzy
uczestników aktu komunikacji.
15
4.8 Podstawowe zasoby
Z punktu widzenia paradygmatu konstrukcji modeli, zob. rozdz. 3, zasoby językowe
stanowią zapis przyjętych rozwiązań (np. leksykony, gramatyki), natomiast anoto-
wane korpusy wykorzystywane są do weryfikacji modeli i zbudowanych narzędzi, np.
weryfikacja GFJP (Świdziński, 1992) dokonana przez Marka Ogrodniczuka (2006).
W ramach paradygmatu automatycznej akwizycji zasoby sÄ… wydobywane z ano-
towanych korpusów, ale zwykle i tak jest potrzebna ich daleko idącą weryfikacja
i korekta ręczna. Niezależnie od przyjętego paradygmatu, zasoby językowe są nie-
zbędne do konstrukcji narzędzi językowych. Istnieje bardzo wiele różnych typów
zasobów językowych, często tworzonych ad hoc na potrzeby jednej aplikacji. Jednak
niektóre rodzaje zasobów językowych zostały zbudowane dla wielu języków natural-
nych i są wykorzystywane na tyle często, w różnych systemach, że można uznać je
za zbiór podstawowy, którego istnienia oczekiwalibyśmy przystępując do pracy nad
konstrukcją systemu marzeń .
Zbiór taki został zarysowany przez Adama Przepiórkowskiego w wniosku pro-
jektowym (Piasecki et al., 2005a) (obecnie realizowany projekt T11C 018 29):
Trzy inne rodzaje zasobów lingwistycznych (M.P. inne niż analiza-
tor morfologiczny) niezwykle istotne dla rozwoju lingwistyki kompute-
rowej i dla budowy aplikacji opartych na przetwarzaniu danego języka
to: 1) duży lingwistycznie anotowany korpus pozwalający na uzyskanie
statystycznych modeli danego języka, 2) słownik składniowy (tzw. słow-
nik walencyjny), zawierający informację o wymaganiach składniowych,
niezbędny dla przetwarzania składniowego tekstów, oraz 3) tzw. wordnet,
czyli hierarchiczny słownik semantyczny zgodny z formatem angielskie-
go słownika WordNet, zawierający informację o relacjach znaczeniowych
zachodzących pomiędzy wyrazami, umożliwiający semantyczne przetwa-
rzanie tekstów.
Wymieniony wyżej korpus to korpus anotowany morfosyntaktycznie. Dla języ-
ka polskiego korpus taki już powstał KIPI (Przepiórkowski, 2004, Korpus IPI
PAN, 2007), istniejÄ… plany jego dalszej rozbudowy, a nawet konstrukcji korpusu na-
rodowego, w ramach którego istniejące korpusy zostałyby połączone i sprowadzone
do tego samego standardu opisu, oraz który byłby odpowiednio duży. Przykładowe
zastosowania KIPI omawiane sÄ… w rozdz. 5 i rozdz. 6.
Z punktu widzenia konstrukcji parsera dla języka polskiego w oparciu o maszy-
nowe uczenie się powyższą listę należałoby rozszerzyć o korpus anotowany ręcznie
pod względem konstrukcji składniowych (chociażby bardzo uproszczonych). Kor-
pus taki niestety nawet nie był w fazie realizacji dla języka polskiego w momencie
powstawania niniejszej pracy.
Przykładem słownika składniowego może być papierowy słownik (Polański, 1984).
Został on już przeniesiony częściowo do wersji elektronicznej, np. (Aabuzek i Pia-
secki, 2003, Grund i Suszczańska, 2003). Obecnie trwają prace nad metodami auto-
matycznego wydobywania słownika składniowego z korpusu (Fast i Przepiórkowski,
2005).
Konstrukcja wordnetu dla języka polskiego jest omawiana w rozdz. 6. Word-
net dostarczy zbioru sensów jednostek leksykalnych, zastosowanie jednak większości
16
algorytmów ujednoznaczniania sensów wymaga wzorcowego korpusu ujednoznacz-
nionego ręcznie pod względem sensów tokenów, zob. podrozdz. 4.4. W momencie
pisania niniejszej pracy konstrukcja takiego korpusu dla języka polskiego nie była
nawet planowana.
5 Tager morfosyntaktyczny przykład podziału
zadań
Program komputerowy, który dokonuje ujednoznacznienia (dezambiguacji) opisu
morfosyntaktycznego nazywany jest dezambiguatorem (Dębowski, 2001) lub progra-
mem ujednoznaczniającym (Rudolf, 2004). Natomiast program, który jednocześnie
przeprowadza oznaczanie i ujednoznacznianie morfosyntaktyczne nazywany jest ta-
gerem (ang. tagger), jako że rezultat jego działania to przypisanie znacznika (ang.
tag) do tokenu. W przypadku języków o ubogiej fleksji w tagerze nie jest wydzielany
osobny etap oznaczania, por. (Dębowski, 2001), natomiast w przypadku języków
fleksyjnych tager zwykle wykorzystuje analizator morfologiczny, np. (Haji%0Å„ et al.,
2001, Dębowski, 2004, Rudolf, 2004, Piasecki i Godlewski, 2006a).
W przypadku większości tagerów dla języka angielskiego zadaniem lingwisty jest
jedynie przygotowanie korpusu ręcznie anotowanego pod względem morfosyntak-
tycznym. Tagery dla tych języków są bowiem konstruowane w oparciu o metody sta-
tystycznego uczenie się13. Metody te sprawdzają się jednak dla języków fleksyjnych
w ograniczonym zakresie14, por. (Haji%0Å„ i Hladká, 1998, DÄ™bowski, 2004). Natomiast
skuteczne może być połączenie wiedzy lingwistycznej wyrażonej postaci reguł (czyli
wiedzy z zakresu LI) z efektami uczenia siÄ™, np. (Haji%0Å„ et al., 2001).
Na przykładzie prac nad tagerem dla języka polskiego, nazwanym TaKIPI (Tager
Korpusu IPI PAN) (Piasecki i Godlewski, 2006c), omówimy podział zadań pomiędzy
LI i inżynierię języka naturalnego (IJN).
Zadaniem tagera jest ustalenie dla każdego tokenu w wyrażeniu językowym od-
powiedniego znacznika morfosyntaktycznego, np. dla zdania:
Wiele mam nie przyszło.
po analizie morfologicznej otrzymujemy następujące oznaczenia tokenów (jedynie
w przypadku nie podana została tylko liczba analiz, w pozostałych przypadkach
zostały podane oryginalne, pełne opisy):
Wiele
wielenum:pl:nom:m2
13
Metody statystycznego uczenia się polegają na szacowaniu prawdopodobieństwa przypisania
określonego znacznika do określonego tokenu w kontekście tokenów poprzedzających i znaczników
do nich przypisanych. Stosowane są metody bardzo zbliżone do modelowania językowego omawia-
nego w podrozdz. 4.1.
14
Np. w formacie KIPI teoretycznie możliwych jest 4179 znaczników, z czego 1642 występuje
w ręcznie ujednoznacznionej części KIPI (Przepiórkowski, 2006). Dla typowo stosowanego modelu
statystycznego bazującego na prawdopodobieństwach występowania trójek znaczników oznacza to
ogromną liczbę potencjalnych kombinacji, dla których należałoby oszacować prawdopodobieństwa
na podstawie przykładów z korpusu.
17
wielenum:pl:nom:m3
wielenum:pl:nom:f
wielenum:pl:nom:n
wielenum:pl:acc:m2
wielenum:pl:acc:m3
wielenum:pl:acc:f
wielenum:pl:acc:n
mam
mamasubst:pl:gen:f
mamićimpt:sg:sec:imperf
miećfin:sg:pri:imperf
"nie" (11 analiz)
przyszło
przyjśćpraet:sg:n:perf
.
.interp
W powyższym przykładzie niejednoznaczne są: wiele, mam i nie (to ostatnie jako
partykuła i formy zaimka on). Natomiast przyszło i znak . są jednoznaczne.
TaKIPI wykonuje następujące podstawowe kroki:
1. Odczytanie tekstu, a następnie jego tokenizacja i oznaczenie za pomocą Mor-
feusza.
2. Zastosowanie reguł ręcznych do eliminacji niektórych znaczników.
3. Ustalenie wstępnego prawdopodobieństwa poszczególnych znaczników za po-
mocą klasyfikatora unigramowego15, który przypisuje do tokenu ten znacznik,
z którym analizowany token najczęściej występował w korpusie uczącym
manualnie ujednoznacznionej części KIPI (dalej MKIPI).
4. Stopniowe ujednoznacznianie poszczególnych składowych, z jakich zbudowane
są znaczniki, realizowane w następujący sposób:
15
Klasyfikator jest programem (tu częścią programu), który przypisuje analizowane obiekty do
jednej z możliwych klas. W omawianym programie klasami są znaczniki, a obiektami tokeny. Kla-
syfikator unigramowy podejmuje decyzje w oparciu o bezwarunkowe prawdopodobieństwo wystą-
pienia określonego znacznika dla określonego tokenu, szacowane po prostu na podstawie częstości
występowania określonego znacznika dla określonego tokenu. Oczywiście tak działający klasyfika-
tor jest bardzo naiwny i wykazuje bardzo duży błąd decyzji. Używany jest jedynie dla wstępnego
ustalenia prawdopodobieństw poszczególnych znaczników w ramach opisu tokenu.
18
(a) dla poszczególnych tokenów określenie znaczników najbardziej prawdopo-
dobnych ze względu na ujednoznaczniane właśnie składowe dokonywane
na podstawie drzew decyzyjnych16 i uaktualnienie zapisanych prawdopo-
dobieństw poszczególnych znaczników,
(b) eliminacja tych znaczników, których składowe ujednoznaczniane w danym
kroku są różne od odpowiednich składowych w znaczniku o aktualnie
najwyższym prawdopodobieństwie, np. w kroku drugim rozpatrywane są
jedynie składowe oznaczające liczbę i rodzaj.
5. Zapisanie ujednoznacznionego tekstu, gdzie atrybutdisamb="1"zostaje usta-
wiony w znaczniku o najwyższym prawdopodobieństwie.
W rezultacie tagowania na wyjściu z tagera każdy token jest zapisany w formacie
XML-owym KIPI i właściwy znacznik (wg TaKIPI ) jest oznaczony wartością1
atrybutudisamb, np.
mam
mamasubst:pl:gen:f
mamićimpt:sg:sec:imperf
miećfin:sg:pri:imperf
Ponieważ potencjalnych znaczników jest bardzo dużo, w kroku 4 algorytmu zde-
cydowaliśmy się na stopniowe ustalanie właściwych wartości poszczególnych składo-
wych znacznika. Najpierw ustalana jest klasa gramatyczna, pózniej liczba i rodzaj
(w jednym kroku), a na koniec przypadek. Oznacza to, że w pierwszej fazie, pierwsza
grupa drzew decyzyjnych zostaje użyta do ustalenia właściwych klas gramatycznych
dla tokenów, a wszystkie znaczniki, które w ramach danego tokenu są niezgodne z
wybraną klasą, zostają następnie wyeliminowane z dalszych rozważań. Dla tokenu
mam, w przykładzie podanym wcześniej, pierwsza faza kończy podejmowanie decy-
zji przez tager dla tego tokenu, ponieważ po ustaleniu klasy gramatycznej pozostaje
już tylko jeden znacznik dla mam. Warto tu podkreślić, iż pomimo ograniczenia
decyzji tagera jedynie do klasy gramatycznej w fazie pierwszej, tager podejmujÄ…c
decyzję rozpatruje wszystkie cechy morfosyntaktyczne tokenów z otoczenia, tj. kla-
sy gramatyczne i wartości kategorii morfologicznych. Zakres decyzji podejmowanych
w kolejnych fazach jest ograniczony zastosowana została dekompozycja ogólnego
problemu na problemy składowe ale nie jest ograniczany zbiór przesłanek decy-
zji. PodsumowujÄ…c, klasa gramatyczna nie jest ujednoznaczniana w oderwaniu od
pozostałej charakterystyki morfosyntaktycznej.
Reguły ręczne (stosowane na wstępie w kroku 2) mają wyrazić konieczne ogra-
niczenia składniowe dotyczące poprawnych konstrukcji w języku polskim, tzn. takie
16
Drzewo decyzyjne to graf w kształcie drzewa wykorzystywany np. do klasyfikacji obiektów.
W drzewie decyzyjnym w każdym węzle testowana jest wartości pewnej cechy charakteryzującej
klasyfikowane obiekty, a w liściach zapisana jest decyzja wyznaczenie klasy dla analizowanego
obiektu. W TaKIPI obiektami są tokeny, decyzją jest wybór określonego znacznika dla tokenu,
a cechy wyrażają własności tokenów z otoczenia ujednoznacznianego tokenu, które poprzedzają i
następując po nim.
19
ograniczenia na możliwe konstrukcje, które są zawsze spełnione. Oznacza to, że stara-
my się sformułować reguły działające z dokładnością bliską 100% mierzoną względem
MKIPI. W konstrukcji reguł można wykorzystać jedynie informację morfosyntak-
tyczną pochodzącą z opisu tokenów. Nie jest możliwe odwoływanie się do semantyki,
intuicji itd., bo po prostu tej informacji nie ma w opisie analizowanego tekstu. Nie
dostarcza jej Morfeusz i nie ma dostępnych leksykonów ani narzędzi, które by ją do-
starczały. Formułowanie reguł jest zadaniem lingwisty. Zadanie to stanowi przykład
tego wyróżniającego się obszaru działania LI, którego poszukujemy w ramach sze-
roko pojętego przetwarzania języka naturalnego. W TaKIPI reguły są wyrażone w
specjalnie zdefiniowanym języku JOSKIPI (Język opisu stanu KIPI ). Jako przykład
reguły ręcznej rozważmy regułę eliminującą występowanie bezpośrednio po sobie
dwóch form nieprzeszłych czasownika17:
delete(equal(pos[0],{fin})) # 140 :-
and(
inter(pos[0],{fin}),
equal(pos[-1],{fin}),
not(
and(
in(orth[-1],{"jest","znaczy"}),
equal(orth[-2],{"to"})
)
and(
equal(orth[-1],{"wydaje"})
equal(orth[0],{"może"})
)
)
)
W częścideletemamy warunek eliminacji tych znaczników w tokenie na pozycji
0 (czyli pozycji ujednoznacznianej), których klasą gramatyczną jestfin. Warunek
eliminacji jest domyślnie stosowany po kolei do wszystkich znaczników przypisa-
nych do ujednoznacznionego tokenu. W następnych liniach mamy złożony warunek
określający, kiedy reguła ma być stosowana: na pozycji poprzedzającej (-1) musi
być token jednoznacznie (warunekequal) oznaczony klasą gramatycznąfinoraz
tokeny na pozycjach -1 do 0 nie mogą tworzyć jednej z konstrukcji, które, jak zaob-
serwowano podczas analizy MKIPI, stanowią wyjątki od reguły, np. to znaczy idzie
tu.
Ręczna konstrukcja reguł jest bardzo pracochłonna, a należałoby zdefiniować set-
ki takich reguł18, coraz to bardziej szczegółowych, aby zapewnić skuteczne działanie
tagera (tzn. bezbłędną eliminację niewłaściwych znaczników). W TaKIPI przyjęli-
śmy założenie stosowania reguł ręcznych tylko do wyrażenia podstawowych ograni-
czeń prowadzących do eliminacji dużej liczby znaczników podczas ujednoznacznia-
nia. Główny algorytm działania tagera tkwi jednak w 132 drzewach decyzyjnych
17
Oliva i Petkevi%0ń (2002) twierdzą, że jest to reguła działająca we wszystkich językach słowiań-
skich.
18
Pokazują to doświadczenia czeskie, gdzie sformułowano ponad 100 reguł tylko dla jednej formy
wyrazowej se (Oliva, 2003).
20
konstruowanych automatycznie za pomocÄ… metod maszynowego uczenia siÄ™ na pod-
stawie przykładów dostarczonych przez lingwistów. Jako zbiór przykładów (zbiór
uczący) zostały wykorzystane wyniki ręcznego ujednoznacznienia zapisane w MKI-
PI. Wynikiem maszynowego uczenia siÄ™ sÄ… w TaKIPI drzewa decyzyjne, gdzie jedno
drzewo odpowiada kilkudziesięciu lub nawet kilku tysiącom reguł! Oczywiście do-
kładność reguł automatycznych zapisanych w postaci drzew jest o wiele mniejsza
niż dokładność reguł ręcznych.
W większości przypadków reguły automatyczne bazują na prostym sprawdzaniu
cech tokenów z otoczenia ujednoznacznianego tokenu, np. możliwe klasy gramatycz-
ne jednego z poprzedzających tokenów19, wartość wybranej kategorii gramatycznej
określonego tokenu następującego po analizowanym, forma wyrazowa występująca
na określonej pozycji itd. Jednak, gdy ujednoznacznienia dokonuje człowiek, to bie-
rze pod uwagę zależności pomiędzy tokenami również na wyższym poziomie abstrak-
cji, np. istnienie możliwości uzgodnienia wartości pewnych kategorii gramatycznych
pomiędzy tokenami, takie jak uzgodnienie liczby, rodzaju i przypadku. Metody ma-
szynowego uczenia się mogą doprowadzić do wytworzenia się reguł wyrażających
takie zależności za pomocą prostych warunków dotyczących wartości cech poszcze-
gólnych tokenów. Jednak proces ten zajmie dużo czasu, a jakość i kształt wytworzo-
nych reguł tego typu może odbiegać od oczekiwań.
Aby przyspieszyć, wspomóc i przenieść na wyższy poziom abstrakcji mechanizm
maszynowego uczenia się, zależności morfosyntaktyczne wybranych typów zostały
ręcznie zapisane w JOSKIPI jako gotowe do użycia ograniczenia procedury lo-
giczne zwracające wartości: prawdy i fałszu. Skonstruowane ograniczenia mogą być
następnie wykorzystywane przez metody maszynowego uczenia się przy konstru-
owaniu reguł automatycznych jako jedne z ich przesłanek. Ograniczenia mogą mieć
bardziej charakter wskazówek, nie muszą być bardzo dokładne. Pojedyncze ogra-
niczenie nie musi rozstrzygać z dużą dokładnością kwestii przypisania konkretnej
klasy gramatycznej do ujednoznacznianego tokenu. Algorytm maszynowego uczenia
się będzie dobierał odpowiednie kombinacje ograniczeń i testów wartości prostych
cech, tak aby uzyskać automatyczne reguły ujednoznaczniania o stosunkowo dużej
dokładności. Dokładność ta jest testowana automatycznie względem MKIPI podczas
uczenia się. Oczywiście formułowane ograniczenia w większości przypadków powinny
być spełnione dla poprawnych konstrukcji językowych, inaczej byłyby nieprzydatne
jako przesłanki dla reguł automatycznych. Przykładem takiego ograniczenia może
być warunek testujący, czy gdzieś na prawo od ujednoznacznianego tokenu występuje
uzgodniony z nim przymiotnik:
!AdjPRight
or(
and(
inter(pos[1],{adj,ppas,pact}),
agrpp(0,1,{cas,gnd,nmb},3)
),
19
W trakcie ujednoznaczniania musimy zakładać, że jest więcej niż jeden znacznik dla każdego z
tokenów, dopiero po ujednoznacznieniu tokeny otrzymują jednoznacznie przypisane znaczniki. W
TaKIPI jednak pewne niejednoznaczności celowo zostają pozostawione nierozstrzygnięte (Piasecki
i Godlewski, 2006a).
21
and(
rlook(2,end,$Adj,
inter(pos[$Adj],{adj,ppas,pact})),
agrpp(0,$Adj,{cas,gnd,nmb},3),
only(1,$-1Adj,$Q,inter(pos[$Q],{adv,qub}))
)
W powyższym zapisie pierwsza linia to nazwa ograniczenia. Następnie, w pierw-
szym warunku złożonymandanalizujemy występowanie uzgodnionego przymiotnika
dokładniej przymiotnikowego tokenu, jako że brane są też pod uwagę imiesło-
wy na pozycji 1, czyli następnej. Jeżeli się to nie powiedzie, to kontynuujemy
poszukiwanie takiego przymiotnikowego tokenu dalej w prawo (rlook) aż do koń-
ca zdania (end). Po ewentualnym odnalezieniu odpowiedniego tokenu upewniamy
się, że pomiędzy pozycją 0 a znalezionym przymiotnikowym tokenem występują je-
dynie partykuły i przysłówki. Ograniczenie!AdjPRightprzyjmuje wartość prawdy
jeżeli uzgodniony token przymiotnikowy został znaleziony i fałszu w przeciwnym
wypadku. TaKIPI podczas uczenia się wykorzystał to ograniczenie w drzewie decy-
zyjnym zawierającym reguły odróżniające klasę gramatycznąfinod klasysubstw
przypadku tokenów, które wykazują niejednoznaczność {fin,subst}.
Proces konstrukcji tagera TaKIPI ilustruje dobrze rozdzielenie obszarów LI i
IJN. Opracowanie zbioru znaczników dla korpusu, zebranie korpusu, ręczne ujedno-
znacznienie korpusu, opracowanie ręcznych reguł ujednoznaczniania oraz przygoto-
wanie zbioru ograniczeń lingwistycznych do wykorzystania w procesie maszynowego
uczenia się to zadania leżące w obszarze LI i wymagające wiedzy lingwistycznej.
Sam projekt i konstrukcja mechanizmów tagera, odpowiednie przygotowanie i po-
prowadzenie procesów maszynowego uczenia się to zadania informatyczne, które ze
względu na specyfikę zastosowania można ulokować w obszarze IJN. Warto tu jed-
nak podkreślić, że prace lingwistyczne wymagają precyzji, formalnego zapisu oraz
że kształt tworzonego modelu musi uwzględniać przyszłe zastosowania.
6 Słowosieć (polski wordnet) przykład podzia-
łu zadań
W podrozdz. 4.4 pozostawiliśmy otwartą kwestię opisu sensu reprezentowanego przez
wystąpienie formę wyrazowej w wypowiedzi. Tradycyjny słownik z opisowymi ha-
słami jest niewystarczający z punktu widzenia IJN: system informatyczny może
sprawdzić, ile sensów ma leksem, ale niewiele użytecznego jest w stanie dowiedzieć
się o ich rozróżnieniu i używaniu. W LI możliwe są dwa podejścia do opisu semantyki
leksykalnej:
" reprezentacja poszczególnych znaczeń przy pomocy wyrażeń pewnego formal-
nego języka odwołujących się do ustalonego zbioru prymitywów znaczeniowych
(pojęć lub znaczeń atomowych),
" określenie leksykalnych relacji semantycznych danej jednostki leksykalnej (lek-
semu lub wielowyrazowej jednostki) z innymi jednostkami leksykalnymi.
22
Obydwa podejścia mają swoje wady i zalety. W drugim podejściu poszczególne
znaczenia nie są opisane jawnie, znamy tylko ich wybrane cechy dostępne z sieci
relacji, jednak nie musimy się tu odwoływać do uprzednio przyjętego zbioru znaczeń
atomowych ani też wprowadzać formalnego języka reprezentacji znaczenia. Wydaje
się, że konstruowanie leksykonu w postaci sieci relacji jest mniej pracochłonne, niż
konstruowanie formalnych definicji. Przykładem leksykonu semantycznego drugiego
typu jest WordNet (Miller et al., 2006, Fellbaum, 1998). Przy wszystkich swoich
niedostatkach20 WordNet ze względu na bardzo duże pokrycie (155 327 leksemów i
wielowyrazowych jednostek leksykalnych w wersji 3.0 (Miller et al., 2006)), publicz-
ną dostępność od samego początku projektu, tj. od roku 1985 (Fellbaum, 1998) oraz
koncepcję definicji sensów jednostek leksykalnych poprzez strukturę relacji seman-
tycznych (szczególnie hierarchię hiperonimii, o czym poniżej) stał się powszechnie
stosowanym zasobem w IJN.
Dla bardzo wielu języków świata skonstruowano wordnety21, np. dobrym przy-
kładem może być projekt EuroWordNet (Vossen, 2002), którego celem było skonstru-
owanie zsynchronizowanych wordnetów dla wielu języków europejskich. Brak takiego
zasobu jak WordNet dla języka polskiego (jak też i jakiegokolwiek innego leksyko-
nu semantycznego) bardzo poważnie utrudniał badania w dziedzinie IJN. W 2005
roku wystartował jednak projekt naukowy22 , którego celem jest budowa wordnetu
dla języka polskiego nazwanego Słowosieć (międzynarodowa nazwa to plWordNet)
(Piasecki et al., 2007, Słowosieć, 2007).
Słowosieć opiera się na ogólnych założeniach struktury WordNetu (Derwojedo-
wa et al., 2007b,a) i jest rodzajem tezaurusa. Podstawowym elementem struktury
jest tzw. synset. Synset to zbiór prawie synonimów całkowita identyczność
znaczenia bardzo rzadko występuję w języku, por. np. (Lewandowska-Tomaszczyk,
2006). Zapisywany jest w postaci zbioru jednostek leksykalnych (dalej JL), jedno
lub wielowyrazowych, reprezentujących poszczególne leksemy, np. {kontrakt, umo-
wa, układ, porozumienie}. Synset jest zbudowany wyłącznie z JL o tej samej części
mowy. W Słowosieci uwzględniamy następujące części mowy: rzeczownik, czasow-
nik, przymiotnik i przysłówek. Między synsetami są definiowane semantyczne relacje:
hiperonimii/hiponimii, troponimii, i meronimii/holonimii. W SÅ‚owosieci relacje te
zawsze łączą synsety o tej samej części mowy. Poza relacją synonimii (wyrażaną
przez synsety), JL mogą być powiązane binarnymi relacjami: antonimii, konwer-
sji, relacyjności i odnośności. Przyjęto założenie, że każda relacja między synsetami
zachodzi tylko wtedy, gdy odpowiadajÄ…ca jej (poprzez nazwÄ™) leksykalna relacja se-
mantyczna zachodzi pomiędzy wszystkimi parami JL utworzonymi z obu synsetów.
Dla każdej relacji, oprócz definicji wyrażonej w języku naturalnym, zostały skon-
20
Na przykład Hanks (2003) zwraca uwagę na brak systematycznego oparcia się w konstrukcji
WordNetu na korpusach, brak spójności w procedurach budowy różnych części, brak opisu wzorców
wymagań czasowników i inne.
21
Ze względu na specyficzna strukturę WordNetu jako tezaurusa elektronicznego oraz biorąc pod
uwagę jego szerokie zastosowanie i wpływ na rozwój LI i IJN będziemy w niniejszej pracy używać
słowa wordnet jako rzeczownika oznaczającego tezaurus o strukturze zbliżonej do oryginalnego
WordNetu.
22
Zatytułowany: Automatyczne metody konstrukcji sieci semantycznej leksemów polskich na
potrzeby przetwarzania języka naturalnego , finansowany przez Ministerstwo Nauki i Szkolnictwa
Wyższego oraz zarejestrowany pod numerem T11C 018 29.
23
struowane dodatkowo testy podstawieniowe (Derwojedowa et al., 2007b), majÄ…ce
dopomóc w jej identyfikacji. Procedura pracy leksykografa przewiduje stosowanie
odpowiedniego testu podstawieniowego do wszystkich par JL z synsetów, które chce
połączyć określoną relacją między synsetami (albo jednej pary w przypadku relacji
pomiędzy jednostkami) zanim podejmie decyzję o połączeniu synsetów tę relacją.
Stosowanie testów podstawieniowych jest ułatwione poprzez automatyczne ich ge-
nerowanie w aplikacji wspomagającej pracę leksykografów (krótko przedstawionej w
dalszej części rozdziału) (Derwojedowa et al., 2007a).
Poniżej podana została krótka charakterystyka poszczególnych relacji (pełne de-
finicje można znalezć w raporcie (Derwojedowa et al., 2007b)).
" Hipo-/hiperonimia implikacja jednostronna pomiędzy JL: podrzędną hi-
ponimem (o mniejszym zakresie) i JL nadrzędną hiperonimem ( o mniejszej
treści i szerszym zakresie ), na relacje pomiędzy synsetami jest rozciągana po-
przez pary JL; relacja hiperonimii występuje zawsze symetrycznie jako relacja
odwrotna do hiponimii i vice versa.
Przykład wystąpienia relacji hiponimii między synsetami:
hiponim:{audycja, słuchowisko} -hiponimia hiperonim:{program}.
Dla rzeczowników test podstawieniowy hiperonimii ma następującą postać:
1. X jest rodzajem Y (o pewnych cechach);
2. Y nie jest rodzajem X (o pewnych cechach);
3. istnieje jeszcze takie Z, które jest rodzajem Y.
" Meronimia/holonimia relacja cząstkowości, zachodzi tylko wśród rzeczow-
ników, oprócz najpopularniejszego podtypu część całość, wyróżnione zostały
jeszcze w Słowosieci podtypy: porcji, miejsca, elementu i materiału. Holonimia
nie zawsze występuje jako relacja symetryczna do meronimii, w niektórych
przypadkach jest świadomie blokowana np. drzwi są meronimem wielu innych
rzeczowników, w tym domu i samochodu, ale w drugą stronę odnotowujemy
holonimię dla domu, ale już nie dla samochodu. Rozwiązanie to chroni przed
nadmierną polisemią JL dom i przed wprowadzeniem zbyt wielu synsetów
zawierajÄ…cych dom.
Przykład wystąpienia relacji meronimii:
meronim:{kupno, zakup, nabycie} -meronimia:część holonim:{obrót}.
" Troponimia definiowana wyłącznie pomiędzy synsetami czasownikowymi,
podobna jest do hiponimii, ale różni się brakiem odwrotności i nieprzechod-
niością; wynika z powiązań słowotwórczych czasownikowych derywatów mo-
dyfikacyjnych powiÄ…zanych aspektem (Derwojedowa et al., 2007b).
Test podstawieniowy dla troponimii:
1. X-wać to znaczy Y-ować (w pewien sposób: +AdvP, +AP, +NP, +PP).
24
Przykładami występowania troponimii mogą być23: chodzić -troponimia tro-
ponim utykać, czytać doczytać.
" Antonimia relacja pomiędzy JL, wyraża każdą znaczeniową przeciwstaw-
ność z wyjątkiem konwersji (omówionej poniżej), np. mały duży, biały
czarny, kręgowy bezkręgowy, nalewać wylewać itd.
" Konwersja relacja pomiędzy JL, konwersami są takie predykaty o co naj-
mniej dwóch walencjach semantycznych (inaczej predykaty o przynajmniej
dwóch argumentach semantycznych), które mają ten sam zbiór walencji (ina-
czej tą samą liczbę argumentów i sam zbiór typów semantycznych argumen-
tów), ale różny układ aktantów (inaczej argumentów) dla tych samych walen-
cji, czyli jeśli dla predykatu X aktanty maja układ A-B, to dla Y konwersyw-
nego z X układem musi być B-A (Derwojedowa et al., 2007b)
np. nauczyciel uczeń, kupować sprzedawać, wyższy niższy
" Relacyjność relacja pomiędzy JL, wyraża różne rodzaje regularnych relacji
o charakterze derywacyjnym, np. odsłowniki podstawy czasownikowe, pa-
ry aspektowe, przymiotniki relacyjne i podstawy rzeczownikowe, imiesłowy i
podstawy czasownikowe itd.
" Odnośność relacja pomiędzy JL, reprezentuje różne mniej regularne relacje
derywacyjne, np. odrzeczownikowe nazwy cech ich podstawy, nazwy krajów
narodowości, zgrubnienia/zdrobnienia podstawa itp.
" Relacja nieokreślona (fuzzynymy) relacja pomiędzy JL, zapożyczona z Eu-
roWordNetu (Vossen, 2002), definiowana dla wszystkich JL, które wykazują
silne powiązanie znaczeniowe, ale powiązanie to nie pasuje do żadnego inne-
go typu relacji. Relacja ta jest stosowana bardzo ostrożnie. Przykładami jej
poprawnego stosowania mogą być: poseł wyborca oraz zmywanie pomyje.
W większości przypadków podczas konstruowania wordnetów leksykografowie
zapisują wystąpienia relacji używając specjalnego, formalnego języka, wprowadzo-
nego w oryginalnym WordNet cie (Tengi, 1998). Nie jest to wygodne popełniane
literówki mogą być męczące. Aby uwolnić leksykografów od tego problemu, podczas
prac na Słowosiecią skonstruowana została specjalna aplikacja o nazwie plWordNet,
której przykładowe ekrany są pokazane na rys. 1 oraz rys. 2. Aplikacja została napi-
sana w języku Java, co umożliwia jej uruchomienie prawie na każdym komputerze.
Wszystkie dane sÄ… trzymane w centralnej bazie danych na serwerze projektu. Leksy-
kografowie mogą pracować w dowolnym miejscu, komunikując się z serwerem przez
Internet. Każda zmiana jest natychmiast widoczna dla wszystkich. Taka organiza-
cja pracy poprawia spójność w konstruowaniu różnych części bazy i umożliwia łatwą
koordynację prac zespołu leksykografów przez koordynatorów.
Ekran na rys. 1 przedstawia tzw. perspektywę relacji JL, w ramach której defi-
niowane są wszystkie relacje między JL: począwszy od opisu samej JL (prawy górny
panel) po opis synsetów, w których ona występuje (dolne panele) i wszystkich jej
23
Przykłady te nie pochodzą ze Słowosieci, w której czasowniki nie były jeszcze opisane w pełni
w momencie powstawania niniejszej pracy
25
Rysunek 1: Aplikacja plWordNet ekran konstrukcji synsetów i edycji relacji zna-
czeniowych pomiędzy jednostkami leksykalnymi.
relacji z innymi JL (druga zakładka lewego dolnego panelu). Podczas definiowania
nowych relacji wyświetlane są automatycznie wypełniane testy podstawieniowe (nie
jest to pokazane na ekranie).
Z kolei na rys. 2 pokazana została tzw. perspektywa relacji synsetów. Dostarcza
ona możliwości przeglądania synsetów, definiowania relacji między nimi oraz przeglą-
dania ciągów relacji między synsetami (dolna część ekranu) w postaci tabelarycznej
lub drzewa. W górnej części ekranu wybierane są synsety: zródłowy i docelowy kon-
struowanej relacji. Następnie, po wyborze typu relacji, pojawia się automatycznie
generowany test podstawieniowy (nie jest to pokazane), w ramach którego można
testować kolejne pary JL z wybranych synsetów.
Bez wątpienia ręczna konstrukcja wordnetu jest sposobem gwarantującym jego
wysoką jakość (przy zapewnieniu odpowiednich procedur pracy). Ponieważ jednak
jest to zadanie pracochłonne, to i dość kosztowne. Z racji ograniczeń finansowych,
ale też i dążenia do nadrobienia wieloletniego opóznienia, w samej już koncepcji
projektu założyliśmy łączenie wyników pracy ręcznej z automatycznym pozyskiwa-
niem wystąpień leksykalnych relacji semantycznych z korpusów języka polskiego.
Ponieważ jednak wyniki metod automatycznych będą korygowane ręcznie przez lek-
sykografów, można tą metodę określić mianem półautomatycznej.
Istnieją dwa możliwe sposoby automatycznego pozyskania wystąpień leksykal-
nych relacji semantycznych:
" na podstawie wzorców leksykalno-syntaktycznych,
" oraz na podstawie analizy statystycznej dystrybucji JL w tekstach korpusu.
26
Rysunek 2: Aplikacja plWordNet ekran definicji relacji pomiędzy synsetami.
Klasyczną pracą dotyczącą stosowania wzorców do pozyskiwania wystąpień hi-
peronimii jest praca (Hearst, 1998), w której zaproponowano 6 wzorców opisujących
konstrukcje językowe sygnalizujące wystąpienie relacji hiperonimii, np.:
such NP0 as NP ,* (or | and) NP
gdzie NP oznacza frazÄ™ rzeczownikowÄ….
Po zastosowaniu powyższego wzorca wykryte zostały w korpusie automatycznie
pary: hiperonim (NP0) hiponim (jedna z pozostałych fraz NP), np. Shakespeare
author.
Opracowano też szereg metod uczenia się wzorców, np. (Jacquemin, 2001), jak
i też pozyskiwania wystąpień relacji semantycznych za pomocą prostych wzorców,
których wynika działania są dodatkowo oceniane statystycznie w oparciu o wielkie
kolekcji tekstów z Internetu, np. (Pantel i Pennacchiotti, 2006).
Metody z drugiej grupy opierają się w ogólnych założeniach na hipotezie dystry-
bucyjnej Harrisa (Harris, 1968), wg której znaczenie wyrażeń językowych i znaczenie
relacji gramatycznych pomiędzy nimi jest powiązane z ograniczeniami nałożonymi
na (poprawne) kombinacje wyrażeń. Wyrażenia mające podobne wzorce dystrybu-
cji tzn. pojawiające sie w podobnych kontekstach w tekście mają podobne
znaczenie.
Kontekst można opisywać na różne sposoby: od prostego zbioru tokenów począw-
szy po opis relacji składniowych, a nawet semantycznych. Możemy również na różne
sposoby definiować zakres kontekstu: od całego dokumentu tekstowego po najbliż-
sze kilka tokenów, np. (Widdows, 2004, Manning i Schütze, 2001), np. KruszyÅ„ski
i Rączaszek-Leonardi (2006, str. 287) stosując do języka polskiego technikę HAL
27
(Lund i Burgess, 1996), w której kontekst jest opisany poprzez współwystępowanie
danej JL z innymi JL, zastosowali okno tekstowe (przesuwane po tekście) długości
10 tokenów. W HAL oprócz faktu współwystępowania badanej JL z inną JL w ra-
mach okna tekstowego, istotna jest też ich odległość w tokenach im bliżej są tym
z założenia powiązanie znaczeniowe jest silniejsze.
Metody automatyczne stosowane w projekcie budowy Słowosieci mają stanowić
połączenie wybranych metod opartych na wzorcach i statystycznych. Za pomocą
wzorców można wydobyć wystąpienia relacji z relatywnie małym błędem, ale też
wzorce dają stosunkowo małe pokrycie wszystkich możliwych wystąpień. Metody
statystyczne charakteryzują się większym błędem, ale też i znacznie większym po-
kryciem. Pierwszym etapem w zastosowaniu metod statystycznych jest często kon-
strukcja funkcji podobieństwa semantycznego, która dla dwóch podanych JL zwra-
ca liczbową miarę ich podobieństwa znaczeniowego. Funkcję taką Lewandowska-
Tomaszczyk (2006) nazywa modelem wektorowym znaczenia, ponieważ JL są re-
prezentowane jako wektory w przestrzeni zbudowanej na podstawie kontekstów, a
podobieństwo znaczeniowe jest określane poprzez przestrzenną bliskość wektorów.
Wyniki działania wstępnej wersji funkcji podobieństwa znaczeniowego, skonstru-
owanej dla rzeczowników w ramach projektu Słowosieci, prezentowane są poniżej.
Dla wskazanej JL podane są po pięć najbliższych znaczeniowo JL wg skonstruowa-
nej funkcji (w nawiasach znajduje się liczbowo wyrażona bliskość znaczeniowa, gdzie
wartość 1 oznacza identyczność znaczenia):
" absencja: nieobecność (0,59), spóznienie (0,53), przerwa (0,52) pauza (0,49),
opóznienie (0,48),
" agencja: bank (0,73), biuro (0,7), urzÄ…d (0,7), instytucja (0,69), firma (0,69),
spółka (0,68),
" akademik: huta (0,56), fabryka (0,55), wydawca (0,55), apteka (0,54), kamie-
nica (0,54),
" profesor: nauczyciel (0,66), prawnik (0,65), ksiÄ…dz (0,65), trener (0,65), doktor
(0,65).
Skonstruowana funkcja podobieństwa znaczeniowego opiera się na statystycz-
nym podobieństwie użyć poszczególnych rzeczowników, gdzie użycia reprezentowa-
ne sÄ… poprzez modyfikujÄ…ce rzeczowniki leksemy przymiotnikowe (tj. przymiotniki
i imiesłowy). W pewnym stopniu podobieństwo zestawu modyfikujących leksemów
przymiotnikowych oznacza podobieństwo cech bytów reprezentowanych przez rze-
czowniki. Badana jest przy tym częstość pojawiania się poszczególnych leksemów
przymiotnikowych jako modyfikatorów poszczególnych rzeczowników. Wobec braku
parsera, który by jednoznacznie wyznaczył granice fraz nominalnych, w oparciu o
język JOSKIPI stosowany w tagerze TaKIPI, por. rozdz. 5, sformułowane zostały
warunki wyrażające w dość precyzyjny sposób kiedy dany leksem przymiotnikowy
pojawiający się w otoczeniu danego rzeczownika można uznać za jego modyfikator.
Schemat takiego warunku podany jest poniżej:
or(
28
and(
llook(-1,-5,$A,and(
inter(pos[$A],{adj,pact,ppas}),
inter(base[$A],{"forma_podstawowa"}),
agrpp(0,$A,{nmb,gnd,cas},3)
)),
or(
występują tylko przysłówki, partykuły, przymiotniki,
imiesłowy lub liczebniki pomiędzy przymiotnikiem
i rzeczownikiem,
and(
jeżeli występuje czasownik, to tylko "być",
opisywany rzeczownik nie jest w dopełniaczu,
nie ma pomiędzy przymiotnikiem a rzeczownikiem
innego rzeczownika bÄ…dz przyimka
)
)
),
and(
symetryczny warunek dla tokenu przymiotnikowego występującego
na prawo od rzeczownika
)
)
W powyższym warunku, dla analizowanego rzeczownika w tekście, szukamy obec-
ności konkretnego leksemu przymiotnikowego (określonego poprzez formę podstawo-
wą) najpierw do 5 tokenów w lewo, potem w prawo. Znaleziony leksem przymiotniko-
wy musi być uzgodniony z rzeczownikiem pod względem liczby, rodzaju i przypadku.
Następnie sprawdzamy, czy tokeny występujące pomiędzy odnalezionym przymiot-
nikiem a badanym rzeczownikiem spełniają określone warunki. Początkowe wersje
warunku były testowane na MKIPI, aż do zminimalizowania ilości nieprawidłowych
powiązań. Oczywiście, ciągle pewien niewielki procent wystąpień leksemów przy-
miotnikowych jest nadal nieprawidłowo przypisywanych do rzeczowników na pod-
stawie ostatecznej wersji warunku, ale w statystycznej masie nie zaobserwowaliśmy,
aby odgrywało to większą rolę.
Przetworzyliśmy 330 milionów tokenów z KIPI (wcześniej oznaczonych i ujedno-
znacznionych tagerem TaKIPI ) i zbudowaliśmy macierz, gdzie dla każdego z 4 611
rzeczowników obecnych w aktualnej wersji Słowosieci odnotowana została częstość
jego modyfikacji przez poszczególne leksemy przymiotnikowe wg sformułowanego
warunku. Do wierszy macierzy przypisane sÄ… rzeczowniki, do kolumn leksemy przy-
miotnikowe, a komórki zawierają obliczoną częstość modyfikacji. Następnie każdy
wiersz (odpowiadajÄ…cy konkretnemu rzeczownikowi) poddano transformacji dzielÄ…c
poszczególne częstości w komórkach przez entropię wiersza. Podobieństwo rzeczow-
ników jest liczone poprzez porównanie wierszy po transformacji jako wektorów w
wielowymiarowej przestrzeni. Porównanie się odbywa za pomocą obliczenia kosinu-
sa kąta między wektorami jako miary przestrzennej bliskości wektorów.
29
Funkcja podobieństwa znaczeniowego została skonstruowana pierwotnie dla rze-
czowników już opisanych w Słowosieci po to, aby można było ocenić jej jakość
automatycznie na podstawie danych już zawartych w Słowosieci. Wygenerowany
został automatycznie test rozróżnienia synonimów od nie-synonimów na wzór testu
zaproponowanego w (Freitag et al., 2005): dla każdego rzeczownika r ze Słowosieci
wygenerowano czwórki JL, tak aby jedna z nich była synonimem r (czyli pochodziła
z tego samego synsetu), a pozostałe były losowo dobrane, ale nie występujące w tych
samych synsetach, co rzeczownik r. Na podstawie funkcji podobieństwa program był
w stanie wyróżnić w czwórkach synonimy z dokładnością 81,04%.
Zbudowana funkcja podobieństwa jest daleka od ideału. Wśród najbardziej po-
dobnych JL do danej występują często synonimy, ale też pojawiają się antonimy
(np. do mężczyzna najbardziej podobna jest kobieta), hiponimy, kohiponimy, a na-
wet meronimy. Na dalszych miejscach listy najbardziej podobnych występują JL,
które po prostu są w pewien sposób znaczeniowo podobne. Mimo to funkcja podo-
bieństwa może zostać już użyta (po automatycznym zbudowaniu jej dla nowych JL,
nieopisanych jeszcze w Słowosieci) do skierowania uwagi leksykografów na JL po-
tencjalnie powiązane znaczeniowo z rozpatrywaną JL. Funkcja podobieństwa będzie
również wykorzystana jako składowa rozwijanych metod półautomatycznej rozbu-
dowy SÅ‚owosieci.
Przykład konstrukcji Słowosieci pokazuje na łączenie prac lingwistycznych, ta-
kich jak: określenie struktury systemu relacji semantycznych, precyzyjne definiowa-
nie relacji semantycznych wraz z testami podstawieniowymi, konstruowanie warun-
ku odróżniającego modyfikatory przymiotnikowe itd., z pracami informatycznymi,
takimi jak: konstrukcja aplikacji, dobór i implementacja metod statystycznego prze-
twarzania itd. Jednocześnie sposób prowadzenia prac lingwistycznych jest mocno
uwarunkowany zastosowaniem ich wyników.
7 Podsumowanie
Problemem, przed jakim stanęliśmy na samym początku było niejasne rozgranicze-
nie pomiędzy LI a IJN czy też PJN. Dodatkowo ze względu na genezę nazwy LI, nie
jest oczywiste dlaczego z nazwy dziedzina ta ma być rodzajem lingwistyki . Jed-
nak wydaje się, że możliwe i potrzebne jest postulowanie rozgraniczenia pomiędzy
LI a dziedzinami ukierunkowanymi na metody przetwarzania. Jawny podział prac
pomiędzy formułowanie wiedzy lingwistycznej a opracowanie algorytmów przetwa-
rzania przynosi pozytywne skutki. Wyznacza obszary specjalizacji w interdyscypli-
narnej dziedzinie konstruowania systemów analizujących wypowiedzi w języku na-
turalnym. Dostrzeżenie roli lingwistyki w LI może podnieść jakość budowanych sys-
temów, uchronić przed przypadkowym, nieporządnym opisem zjawisk językowych.
Z drugiej strony LI stawia wymogi konstruowania opisu precyzyjnego, opartego na
przyjętym modelu i realizowanego konsekwentnie na dużą skalę, np. podstawową za-
letą Słowosieci, kiedy już osiągnie ona dojrzałą postać, będzie nie tyle nowatorstwo
w zasadach jej budowy dobrze znane relacje leksykalne, co zakres opisu i jego
spójność. Dzięki elektronicznemu zapisowi zasoby językowe pozwalają na zaobser-
wowanie skutków działania modelu lingwistycznego w dużej skali.
30
Ze względu na skalę problemów zakres potrzebnych opisów słusznym wy-
daje się dążenie do wprowadzania automatyzacji tam, gdzie jest to możliwe.
Głównym celem LI jest precyzyjny, formalny opis języka naturalnego dokonywa-
ny w sposób umożliwiający wykorzystanie sformułowanej teorii w konstrukcji sys-
temów przetwarzających język naturalny. Ponieważ konstruowane systemy służą do
przetwarzania informacji przekazywanej za pomocą języka naturalnego, to właśnie
perspektywa postrzegania języka naturalnego jako narzędzia komunikacji wydaje się
być podstawowa dla LI. Zadania LI wyznaczone są poprzez stosowane typy narzędzi
językowych i zasobów językowych. W ramach narzędzi językowych od LI oczekuje się
precyzyjnego opisu wybranych aspektów języka naturalnego, który będzie następnie
wykorzystany w działaniu algorytmów. Natomiast zasoby językowe stanowią zapis
modelu lingwistycznego wprost, np. słowniki lub gramatyki, albo są skutkiem jego
zastosowania do podzbioru języka naturalnego, np. różnego typu anotowane korpusy.
Z punktu widzenia języka polskiego szczegółowe zadania są wyznaczone przez
brak lub niedostateczny rozwój zasobów językowych dla języka polskiego. Pod tym
względem lingwiści zajmujący się językiem polskim są w komfortowej sytuacji
jest bardzo dużo ciekawej pracy do wykonania.
Literatura
Abney, S. (1991). Parsing by chunks. W: R. Berwick, S. Abney, i C. Tenny, red.,
Principle-Based Parsing. Kluwer Academic Publishers, Dordrecht.
Agirre, E. i Edmonds, P., red. (2006). Word Sense Disambiguation: Algorithms and
Applications (Text, Speech and Language Technology). Springer.
ALPAC (1966). Languages and machines: Computers in translation and linguistics.
Technical Report Publication 1416, National Academy of Sciences, National Rese-
arch Council, Washington, D.C. A report by the Automatic Language Processing
Advisory Committee, Division of Behavioral Sciences, National Academy of Scien-
ces, National Research Council.
Appelt, D. E. i Israel, D. (1999). Introduction to information extraction technology.
URLhttp://www.ai.sri.com/~appelt/ie-tutorial/. Tuturial presented du-
ring the Sixteenth International Joint Conference on Artificial Intelligence, August
2, 1999, Stockholm, Sweden.
Arnold, D., Balkan, L., Meijer, S., Humphreys, R. L., i Sadler, L. (1994). Machine
Translation An Introductory Guide. NCC Blackwell Ltd., London. URLhttp:
//www.essex.ac.uk/linguistics/clmt/MTbook/PostScript/.
Bień, J. (2003). Lingwistyka informatyczna w praktyce. URLhttp://www.mimuw.
edu.pl/~jsbien/FN03/FN03-lip/. Nieopublikowane ogłoszenie na Festiwal Na-
uki.
Bień, J. (2006). Opis przedmiotu: Lingwistyka informatyczna problematyka okre-
śloności. URLhttps://usosweb.dak.uw.edu.pl/kontroler.php\-?_action=
31
action:katalog/pokazPrzedmiot(_prz_kod:3322-LIPO-OG)&. Nieopublikow-
ny materiał wykładowy, Uniwersytet Warszawski, kod przedmiotu 3322-LIPO-
OG.
Bień, J. S. (1991). Koncepcja słownikowej informacji morfologicznej i jej kompute-
rowej weryfikacji. Wyd. UW, Warszawa.
Bień, J. S. (2004). An approach to computational morphology. W: M. A. Kłopotek,
S. T. Wierzchoń, i K. Trojanowski, red., Intelligent Information Processing and
Web Mining. Proceedings of the International IIS:IIPWM 04 Conference held in
Zakopane, Poland, May 17-20, 2004, str. 191 199. Springer Verlag.
Bień, J. S. i Saloni, Z. (1982). Pojęcie wyrazu morfologicznego jego zastosowanie do
opisu fleksji polskiej (wersja wstępna). Prace Filologiczne, XXXI, 31 45.
Blackburn, P. i Bos, J. (2005). Representation and Inference for Natural Language
A First Course in Computational Semantics. CSLI. URLhttp://homepages.
inf.ed.ac.uk/jbos/comsem/book1.html.
Carpenter, B. (1997). Type-Logical Semantics. The MIT Press, Cambridge, Massa-
chusetts, London, England.
Carrol, J. (2003). Parsing, rozdz. 12, str. 233 248. W: Mitkov (2003).
Charniak, E. (1996). Tree-bank grammars. Technical Report CS-96-02, Department
of Computer Science, Brown University. URLftp://ftp.cs.brown.edu/pub/
techreports/96/cs96-02.ps.Z.
Charniak, E. (2000). A maximum-entropy-inspired parser. W: Proceedings of
NAACL-2000.
Collins, M. (1999). Head-Driven Statistical Models for Natural Language Parsing.
Praca doktorska, University of Pennsylvania.
Daciuk, J. (1998). Incremental Construction of Finite-State Automata and Trans-
ducers, and their Use in the Natural Language Processing. Praca doktorska, Poli-
technika Gdańska (Technical University of Gadńsk). URLhttp://www.pg.gda.
pl/~jandac/thesis.ps.gz.
Daciuk, J. (2000). Finite state tools for natural language processing. W: Proceedings
of the COLING 2000 workshop Using Toolsets and Architectures to Build NLP
Systems Luxembourg, August 5th, 2000., str. 34 37. Centre Universitaire.
Derwojedowa, M., Piasecki, M., Szpakowicz, S., i Zawisławska, M. (2007a). Polish
WordNet on a shoestring. W: Proceedings of Biannual Conference of the Society
for Computational Linguistics and Language Technology, Tübingen, April 1113
2007. Universität Tübingen.
Derwojedowa, M., Zawisławska, M., Piasecki, M., i Szpakowicz, S. (2007b). Relacje w
polskim WordNecie (wnpl). Raporty Serii PREPRINTY 1, Instytut Informatyki
Stosowanej, Politechnika Wrocławska. URLhttp://plwordnet.pwr.wroc.pl/
main/content/files/publications/relacje_v5rc02.pdf.
32
Dębowski, A. (2001). Tagowanie i dezambiguacja morfosyntaktyczna. Przegląd
metod i oprogramowania. Prace IPI PAN 934, Instytut Podstaw Informa-
tyki PAN. URL http://www.ipipan.waw.pl/staff/l.debowski/raporty/
kropka934.pdf. (Tagging and morphosyntactic disambiguation. A review of me-
thods and software.) IPI PAN Reports.
Dębowski, A. (2004). Trigram morphosyntactic tagger for Polish. W: M. A. Kłopo-
tek, S. T. Wierzchoń, i K. Trojanowski, red., Intelligent Information Processing
and Web Mining. Proceedings of the International IIS:IIPWM 04 Conference held
in Zakopane, Poland, May 17-20, 2004, str. 409 413. Springer Verlag.
Dorr, B. J. (1993). Survey of computational linguistics courses. Computational
Linguistics, Special Issue.
Fast, J. i Przepiórkowski, A. (2005). Automatic extraction of Polish verb sub-
categorization: An evaluation of common statistics. W: Vetulani (205). URL
http://nlp.ipipan.waw.pl/~adamp/Papers/2005-ltc-valence/.
Fellbaum, C., red. (1998). WordNet An Electronic Lexical Database. The MIT
Press.
Freitag, D., Blume, M., Byrnes, J., Chow, E., Kapadia, S., Rohwer, R., i Wang,
Z. (2005). New experiments in distributional representations of synonymy. W:
Proceedings of the 9th Conference on Computational Natural Language Learning,
str. 25 32. ACL.
Graliński, F. (2002). Wstępujący parser języka polskiego na potrzeby systemu PO-
LENG. W: Speech and Language Technology. Volume 6. URLhttp://poleng.
pl/home/page.php?36.
Graliński, F. (2005). A simple CF formalism and free word order. Archives of
Control Sciences, 15(LI)(3), 541 554.
Graliński, F., Jassem, K., Wagner, A., i Wypych, M. (2006). Text normalization
as a special case of machine translation. W: Proceedings of the International
Multiconference on Computer Science and Information Technology, str. 51 56.
Grund, D. i Suszczańska, N. (2003). Elektroniczny słownik syntaktyczno-
generatywny w parserze systemu Thetos. W: G. Demenko, A. Izworski, i M. Mi-
chałek, red., Proceedings of Speech Analysis, Synthesis and Recognition in Tech-
nology, Linguistics and Medicine, Szczyrk 2003, str. 58 61, Kraków. Uczelniane
Wydawnictwa Naukowo-Dydaktyczne AGH.
Gruszczyński, W. i Saloni, Z. (1978). Składnia grup liczebnikowych we współcze-
snym języku polskim. Studia Gramatyczne, II, 17 42.
Haji%0Å„, J. i Hladká, B. (1998). Tagging inflective languages: Prediction of morpho-
logical categories for a rich, structured tagset. W: Proceedings of COLING-ACL
Conference, Montreal.
33
Haji%0Å„, J., Krbec, P., Kv%1Å‚toH, P., Oliva, K., i Petkevi%0Å„, V. (2001). Serial combination
rules and statistics: A case study in Czech tagging. W: Proceedings of The 39th
Annual Meeting of ACL, str. 260 267. Morgan Kaufmann Publishers.
Hajnicz, E. (2003). PrzeglÄ…d formalnych metod semantycznych. Technical Report
965, Instytut Podstaw Informatyki PAN.
Hajnicz, E. i Kupść, A. (2001). Przegląd analizatorów morfologicznych dla języka
polskiego. Prace IPI PAN 937, Instytut Podstaw Informatyki PAN.
Hanks, P. (2003). Lexicography, rozdz. 3, str. 48 69. W: Mitkov (2003).
Harris, Z. S. (1968). Mathematical Structures of Language. Interscience Publishers,
New York.
Hausser, R. (2001). Foundations of Computational Linguistics. Springer-Verlagen.
Hearst, M. A. (1998). Automated Discovery of WordNet Relations. W: Fellbaum
(1998).
Hovy, E. (2006). Learnig by reading: An experiment in text analusis. W: Sojka et al.
(2006), str. 3 12.
Jacquemin, C. (2001). Spotting and Discovering Terms through Natural Language
Processing. The MIT Press.
Jassem, K. (2002). Transfer w systemie POLENG-3. W: Speech and Language
Technology. Volume 6. Poznań. URLpoleng.pl/home/page.php?36.
Jassem, K. (2006). Przetwarzanie tekstów polskich w systemie tłumaczenia automa-
tycznego POLENG. Wydawnictwo Naukowe Uniwersytetu im. Adama Mickiewi-
cza, Poznań.
Jelinek, F. (1997). Statistical Methods for Speech Recognition. The MIT Press.
Jurafsky, D. i Martin, J. H. (2000). Speech and Language Processing: An Intro-
duction to Natural Language Processing, Computational Linguistics and Speech
Recognition. Prentice Hall, New York.
Kamp, H. i Reyle, U. (1993). From Discourse to Logic: Introduction to Modeltheore-
tic Semantics in Natural Language, Formal Logic and Discourse Representation
Theory, Vol. 1. Kluwer Academic Publishers, Dordrecht.
Kaplan, R. M. (2003). Syntax, rozdz. 4, str. 70 90. W: Mitkov (2003).
Karttunen, L., Chanod, J., Grefenstette, G., i Schiller, A. (1996). Regular expres-
sions for language engineering. Natural Language Engineering, 2(4), 305 238.
URLhttp://citeseer.ist.psu.edu/karttunen96regular.html.
Kay, M. (2003). Introduction, str. xvii xx. W: Mitkov (2003).
34
Kłopotek, M. A., Wierzchoń, S. T., i Trojanowski, K., red. (2006). Intelligent In-
formation Processing and Web Mining Proceedings of the International IIS:
IIPWM 06 Conference held in Zakopane, Poland, June, 2006. Advances in Soft
Computing. Springer, Berlin.
Konchady, M. (2006). Text Mining Application Programming. Charles River Media.
Korpus IPI PAN (2007). Strona domowa Korpusu IPI PAN. URLhttp://korpus.
pl/.
Kosta, P., Błaszczak, J., Frasek, J., Geist, L., i Żygis, M., red. (2003). Investigations
into Formal Slavic Linguistics: Contributions of The Fourth European Conference
on Formal Description of Slavic Languages, volume 1. Peter Lang, Berlin.
Kruszyński, B. i Rączaszek-Leonardi, J. (2006). Między strukturalistyczną a psycho-
logiczną reprezentacją znaczenia: wielowymiarowa przestrzeń semantyczna (hal).
W: Stalmaszczyk (2006), str. 282 295.
Kwaśnicka, H. i Paprzycki, M., red. (2005). Proceedings of the 5th International Con-
ference on Intelligent Systems Design and Applications ISDA 05, Los Alamitos,
California. IEEE.
Aabuzek, M. i Piasecki, M. (2003). Linguistically annotated data sets for the Polish-
English machine translation system. W: P. Kosta, J. BÅ‚aszczak, J. Frasek, L. Geist,
i M. Żygis, red., Investigations into Formal Slavic Linguistics (Contributions of
The Fourth European Conference on Formal Description of Slavic Languages),
Linguistik International, str. 259 270. Peter Lang.
Lamel, L. i luc Gauvain, J. (2003). Speech Recognition, rozdz. 16, str. 305 322. W:
Mitkov (2003).
Lenci, A., Montemagni, S., i Pirrelli, V. (2001). The acquisition and representation
of word meaning. Materiały wykładowe przygotowane na szkołę ESLLI2001.
Lewandowska-Tomaszczyk, B., red. (2005). Podstawy językoznawstwa korpusowego.
Wydawnictwo Uniwersytetu Aódzkiego, Aódz.
Lewandowska-Tomaszczyk, B. (2006). Metody empiryczne i korpusowe w języko-
znawstwie kognitywnym. W: Stalmaszczyk (2006), str. 251 281.
Lund, K. i Burgess, C. (1996). Producing high-dimensional semantic spaces from le-
xical co-occurence. Behavior Research Methods, Instrumentation, and Computers,
28, 203 208.
Manning, C. D. i Schütze, H. (2001). Foundations of Statistical Natural Language
Processing. The MIT Press.
Marciniak, M., Mykowiecka, A., Przepiórkowski, A., i Kupść, A. (2003). An HPSG-
annotated test suite for Polish. W: Kosta et al. (2003).
35
Marcus, M. P., Santorini, B., i Marcinkiewicz, M. A. (1994). Building a large anno-
tated corpus of English: The Penn Treebank. Computational Linguistics, 19(2),
313 330. URLhttp://citeseer.ist.psu.edu/marcus04building.html.
Mazur, P. (2005). Text segmentation in Polish. W: Kwaśnicka i Paprzycki (2005),
str. 43 48.
McEnery, T. (2003). Corpus Linguistics, rozdz. 24, str. 448 463. W: Mitkov (2003).
McEnery, T. i Wilson, A. (2001). Corpus Linguistics. Edinburgh University Press.
Mikheev, A. (2003). Text Segmentation, rozdz. 10, str. 201 218. W: Mitkov (2003).
Miller, G. A., Fellbaum, C., Tengi, R., Wolff, S., Wakefield, P., Langone, H., i Haskell,
B. (2006). WordNet a lexical database for the English language. URLhttp:
//wordnet.princeton.edu/. Strona WWW projektu.
Mitkov, R., red. (2003). The Oxford Handbook of Computational Linguistics. Oxford
University Press.
Mykowiecka, A. (2007). Inżynieria lingwistyczna, Komputerowe przetwarzanie tek-
stów w języku naturalnym. Wydawnictwo PJWSTK, Warszawa. W druku, plano-
wane wydanie w 2007.
Nerbonne, J. (1996). Computational semantics linguistics and processing. W:
S. Lappin, red., The Handbook of Contemporary Semantic Theory, str. 461 484.
Blackwell Publishers, Oxford.
Obrębski, T. (2002). Automatyczna analiza składniowa języka polskiego z wykorzy-
staniem gramatyki zależnościowej. Praca doktorska, Instytut Podstaw Informatyki
PAN.
Ogrodniczuk, M. (2006). Weryfikacja korpusu wypowiedników polskich (z wyko-
rzystaniem gramatyki formalnej Świdzińskiego). Praca doktorska, Uniwersytet
Warszawski, Wydział Neofilologii, Warszawa. URLhttp://www.mimuw.edu.pl/
~jsbien/MO/dr/MO06-dr.pdf.
Oliva, K. (2003). Linguistics-based pos-tagging of Czech disambiguation of se as a
test case. W: Kosta et al. (2003).
Oliva, K. i Petkevi%0Å„, V. (2002). Morphological and syntactic tagging of Slavonic
languages. Lecture Notes for Empirical Linguistics and Natural Language, Fall
School, Sozopol.
Pantel, P. i Pennacchiotti, M. (2006). Esspresso: Leveraging generic patterns for
automatically harvesting semantic relations. str. 113 120. ACL. URLhttp:
//www.aclweb.org/anthology/P/P06/P06-1015.
Piasecki, M. (2003). Język modelowania znaczenia polskiej frazy nominalnej. Praca
doktorska, Faculty of Computer Science and Management, Wrocław University of
Technology, Wrocław.
36
Piasecki, M. (2004). Selektywne wprowadzenie do semantyki formalnej. str. 113 155.
Koło Filozoficzne przy MISH, Uniwersytet Warszawski, Warszawa.
Piasecki, M. i Godlewski, G. (2006a). Effective architecture of the Polish tagger. W:
Sojka et al. (2006).
Piasecki, M. i Godlewski, G. (2006b). Language modelling for the needs of OCR
of medical texts. W: N. Maglaveras, I. Chouvarda, V. Koutkias, i R. Brause,
red., Biological and Medical Data Analysis. 7th International Symposium, ISBM-
DA 2006, Thessaloniki, Greece, December 7-8 2006, Lecture Notes in Computer
Science (Lecture Notes in Bioinformatics).
Piasecki, M. i Godlewski, G. (2006c). Reductionistic, Tree and Rule Based Tagger
for Polish. W: KÅ‚opotek et al. (2006).
Piasecki, M., Derwojedowa, M., Przepiórkowski, A., Szpakowicz, S., i Zawisławska,
M. (2005a). Automatyczne metody konstrukcji sieci semantycznej leksemów pol-
skich na potrzeby przetwarzania języka naturalnego. URLhttp://plwordnet.
pwr.wroc.pl/main/?cat=abstract. Wniosek projektowy realizowany projekt
finansowany przez MNiSzW, nr T11C 018 29 (streszczenie dostępne na WWW).
Piasecki, M., Matysiak, I., i Rusak, A. (2005b). Logo the modular conversational
agent understanding polish. W: Kwaśnicka i Paprzycki (2005).
Piasecki, M., Derwojedowa, M., Koczan, P., Przepiórkowski, A., Szpakowicz, S., i
Zawisławska, M. (2007). Pólautomatyczna konstrukcja Słowosieci. URLwww.
plwordnet.pl/main. Strona domowa projektu.
Polański, K., red. (1984). Słownik syntaktyczno generatywny czasowników polskich.
Instytut Języka Polskiego PAN, Kraków.
Polański, K., red. (1993). Encyklopedia językoznawstwa ogólnego. Ossolineum.
Przepiórkowski, A. (2004). Korpus IPI PAN. Wersja wstępna. Instytut Podstaw
Informatyki PAN.
Przepiórkowski, A. (2006). Lingwistyka komputerowa w Polsce. URLhttp://nlp.
ipipan.waw.pl/CLIP/clip-pol.html. Strona WWW, IPI PAN.
Przepiórkowski, A., Kupść, A., Marciniak, M., Agnieszka, i Mykowiecka (2002). For-
malny opis języka polskiego: Teoria i implementacja. Akademicka Oficyna Wy-
dawnicza EXIT, Warszawa.
Przepiórkowski, A. (2006). The potential of the IPI PAN Corpus. Poznań Stu-
dies in Contemporary Linguistics, 41, 31 48. URLhttp://nlp.ipipan.waw.pl/
~adamp/Papers/2005-psicl-numbers/.
Rabiega-Wiśniewska, J. (2004). Podstawy lingwistyczne automatycznego analizato-
ra morfologicznego amor. Poradnik Językowy, 10, 59 78.
37
Rabiega-Wiśniewska, J. (2006). Formalny opis derywacji w języku polskim. Rze-
czowniki i przymiotniki. Praca doktorska, Wydział Polonistyki, Uniwersytet War-
szawski. URLhttp://members.chello.pl/jrw/doc/jrw_thesis.pdf.
Rabiega-Wiśniewska, J. i Rudolf, M. (2002). AMOR program automatycznej ana-
lizy fleksyjnej tekstu polskiego. Biuletyn Polskiego Towarzystwa Językoznawczego,
LVIII(175 186).
Roche, E. i Shabes, Y., red. (1997). Finite-State Language Processing. MIT Press,
Cambridge, MA, USA.
Rosetta, M. T. (1994). Compositional Translation. Kluwer, Dordrecht.
Rudolf, M. (2004). Metody automatycznej analizy korpusu tekstów polskich. Uniwer-
sytet Warszawski, Wydz. Polonistyki.
Saloni, Z. (1976). Kategoria rodzaju we współczesnym języku polskim. W: Kate-
gorie gramatyczne grup imiennych we współczesnym języku polskim. Ossolineum,
Wrocław.
Saloni, Z. (1977). Kategorie gramatyczne liczebników we współczesnym języku pol-
skim. Studia Gramatyczne, I, 145 173.
Saloni, Z. (1981). Uwagi o opisie fleksyjnym tzw. zaimków rzeczownych. Folia
Linguistica, 2, 265 271.
Saloni, Z. (1988). O tzw. formach nieosobowych [rzeczowników] męskoosobowych
we współczesnej polszczyznie. Biuletyn Polskiego Towarzystwa Językoznawczego,
XLI, 155 166.
Senellart, J., Dienes, P., i Váradi, T. (2001). New generation systran translation
system. W: Proceedings of MT Summit 8; September 18-22, 2001. URLhttp:
//www.systransoft.com/Technology/mtsummitviii_systranNG.pdf.
Sojka, P., Kopecek, I., i Pala, K., red. (2006). Proceedings of the Text, Speech and
Dialog 2006 Conference, Lecture Notes in Artificial Intelligence. Springer.
Słowosieć (2007). Witryna WWW projektu. URLhttp://www.plwordnet.pwr.
wroc.pl/main.
Sproat, R., Samuelsson, C., Chu-Carroll, J., i Carpenter, B. (2000). Computatio-
nal linguistics. W: M. Aronoff i J. Rees-Miller, red., Handbook of Linguistics.
Blackwell.
Stalmaszczyk, P., red. (2006). Metodologie językoznawstwa. Podstawy teoretyczne.
Wydawnictwo Uniwersytetu Aódzkiego, Aódzz.
Suszczańska, N. i Lubiński, M. (2001). POLMORPH, Polish language morphological
analysis tool. W: Proceedings of the 19th IASTED International Multi-Conference
Applied Informatics AI 2001, Innsbruck, Austria 2001, str. 84 89.
38
Świdziński, M. (1996). Własności składniowe wypowiedników polskich. Dom Wy-
dawnicy Elipsa.
Szafran, K. (1996). Analizator morfologiczny SAM-96, opis użytkowy. TR 96-
05(226), Instytut Informatyki UW.
Szafran, K. (1997). SAM-96 the morfological analyser for Polish. W: A. Na-
rin yani, red., Proceedings of International Workshop DIALOGUE 97 Computa-
tional Linguistics and its Applications, Yasnaya Polyana, Russia, June, 10 15,
1997, str. 304 308, Moskwa.
Szpakowicz, S. (1983). Formalny opis składniowy zdań polskich. Wyd. UW, War-
szawa.
Tengi, R. I. (1998). Design and Implementation of the WordNet Lexical Database
and Searching Software, rozdz. 4, str. 105 127. W: Fellbaum (1998).
Vetulani, Z. (2004). Komunikacja człowieka z maszyną. Komputerowe modelowanie
kompetencji językowej. Akademicka Oficyna Wydawnicza EXIT, Warszawa.
Vetulani, Z., red. (205). Proceedings of the 2nd Language & Technology Conference.
Wydawnictwo Poznańskie.
Vossen, P. (2002). EuroWordNet general document version 3. Technical report,
University of Amsterdam.
Webber, B. L. (2001). Computational perspectives on discourse and dialogue. W:
D. Schirin, D. Tannen, i H. Hamilton, red., The Handbook of Discourse Analysis.
Blackwell Publishers Ltd.
Widdows, D. (2004). Geometry and Meaning. CSLI Publications.
Świdziński, M. (1992). Gramatyka formalna języka polskiego. Wyd. UW, Warszawa.
Wilks, Y. (2003). Computational linguistics: what comes, what goes . . . . W:
G. Willée, B. Schröder, i H.-C. Schmitz, red., Computerlinguistik Was geht,
was kommt? Computational Linguistics Achievements and Perspectives. Gardez!-
Verlag, Sankt Augustin.
Woliński, M. (2004). Komputerowa weryfikacja gramatyki Świdzińskiego. Praca
doktorska, Instytut Podstaw Informatyki PAN, Warszawa. URLhttp://www.
ipipan.waw.pl/~wolinski/publ/mw-phd.pdf.
Woliński, M. (2005). An efficient implementation of a large grammar of polish.
Archives of Control Sciences, 15(LI)(3), 251 258.
Woliński, M. (2006). Morfeusz a practical tool for the morphological analysis of
Polish. W: KÅ‚opotek et al. (2006).
39
A Słowa kluczowe (terminy do indeksu książki)
analiza dyskursu
analiza morfosyntaktyczna
analiza semantyczna
analiza składniowa
analizator morfologiczny
analizator składniowy
anotacja
anotowany korpus
automatyczna akwizycja zasobów
automatyczne wydobywanie relacji semantycznych
bank drzew
funkcja podobieństwa znaczeniowego
hipoteza dystrybucyjna
inżynieria języka naturalnego
korpus
leksykalne relacje semantyczne
lingwistyka informatyczna
lingwistyka komputerowa
model wektorowy znaczenia
modelowanie językowe
narzędzia językowe
oznaczony korpus
parser
parser całostkowy
plWordNet
płytki parser
polski wordnet
przetwarzanie języka naturalnego
reprezentacja semantyczna
segmentacja
Słowosieć
statystyczny model językowy
synset
tager
tokenizacja
transduktor
trigram
ujednoznacznianie
ujednoznacznianie sensu
WordNet
wzorzec leksykalno-syntaktyczny
zasoby językowe
znacznik
40
Wyszukiwarka
Podobne podstrony:
Teoria i metodologia nauki o informacjiplan nauczania technik informatyk wersja 1t informatyk12[01] 02 101informatyka w prawnicza testyWyk6 ORBITA GPS Podstawowe informacjeInformacja komputerowaPodstawowe informacje o RybnieZagrożenia bezpieczeństa informacjiINFORMACJA O FIRMIEinformacje dla szkolnej komisjiInformatyka rejjak odczytywać informacje nazw PhotoshopaInformatyka dla maniakówInformator Cementowywięcej podobnych podstron