zorganizowanych w tzw. synsety. Każdy synset zawiera słowa które są wzajemnie synonimami, a odnośniki pomiędzy synsetami reprezentują relacje hiperonimii i hiponimii tworząc w ten sposób tezaurus, w którym występuje około 27 000 słów polisemicznych. W chwili obecnej relacje występujące w WordNecie, to relacje hiperonimii, hiponimii, synonimii, metonimii, homonimii i antonimii. Obejmowanie tych relacji czyni z WordNetu pełnowartościową sieć semantyczną dla języka angielskiego. Wobec braku powszechnie dostępnej analogicznej struktury dla języka polskiego autor posłużył się zbudowaną w ramach projektu SeNeCa1 w Katedrze Informatyki Ekonomicznej Akademii Ekonomicznej w Poznaniu strukturą, którą można określić jako sieć semantyczna dla języka polskiego. Zawiera ona 96 000 słów i kolokacji i zawiera 830 000 odmian słów, w tym 11 700 pojęć jest wieloznaczne. Pojęcia w sieci połączone są ze sobą, relacjami hiperonimii i hiponimii, synonimii, meronimii, homonimii oraz konotacjami.
Eksperyment
W eksperymencie postawiono zadanie wyznaczenia - na podstawie posiadanej sieci semantycznej - właściwego znaczenia pojęć (konceptów) w zbiorze dokumentów poprzez analizę bliskości pojęciowej pomiędzy konceptem wieloznacznym a konceptami, które wystąpiły razem z nim w dokumencie. W ramach eksperymentu sprawdzono dwie nowe metody disambiguacji pojęć.
W pierwszej metodzie wyznacza się znaczenie każdego konceptu wieloznacznego wykorzystując powiązania semantyczne (w sieci semantycznej) pomiędzy nim a wszystkimi konceptami, które pojawiły się w badanym dokumencie. Wpływ na wybór właściwego znaczenia
Zadaniem projektu SeNeCa (Semantic NetWork and Categorization, http://seneca.kie.ae.poznan.pl) jest automatyzacja rozbudowy sieci semantycznej dla języka polskiego.