LingVaria Nr 1, 2006 Lingwistyka korpusowa w Polsce zródÅ‚a, stan, perspektywy Marek ÅšwidziÅ„ski Instytut JÄ™zyka Polskiego Uniwersytet Warszawski 1. WstÄ™p Niniejszy szkic, adresowany przede wszystkim do mÅ‚odego pokolenia lingwistów- polonistów, przedstawia wizjÄ™ jÄ™zykoznawstwa XXI stulecia. Jest to mianowicie lingwistyka korpusowa. Rozwija siÄ™ ona już od jakiegoÅ› czasu; wynikÅ‚a w sposób naturalny z dość szczÄ™- Å›liwego splotu różnorodnych okolicznoÅ›ci; zdominowaÅ‚a inne nurty i odmiany jÄ™zykoznaw- stwa nieodwracalnie. Nie można być dziÅ› jÄ™zykoznawcÄ… i nie otrzeć siÄ™ o niÄ… choćby jako użytkownik narzÄ™dzi. A skoro tak, to warto wejść w ten Å›wiat z wyboru, zadaÅ„ bowiem jest moc i bÄ™dzie ich coraz wiÄ™cej. W Å›wiecie jest na tÄ™ najnowszÄ… lingwistykÄ™, nie na dowolnÄ…, mnóstwo pieniÄ™dzy i zajmujÄ… siÄ™ niÄ… caÅ‚e rzesze; to dowodzi, że coÅ› jest na rzeczy, że cze- muÅ› to sÅ‚uży... Niestety, nie w naszej ojczyznie. InżynieriÄ™ korpusowÄ… przyniosÅ‚a najmÅ‚odsza z dÅ‚ugiej serii XX-wiecznych rewolucji rewolucja informatyczna. Ale przed niÄ… zdarzyÅ‚y siÄ™ dwie inne rewolucje intelektualne. Marsz przez te rewolucje staÅ‚ siÄ™ udziaÅ‚em pokoleÅ„ jÄ™zykoznawców. DrogÄ™ tÄ™ przeszedÅ‚em i ja. 2. Rewolucja nr 1: strukturalizm JÄ™zykoznawstwo jako samodzielna dyscyplina liczy sobie niewiele ponad sto lat. Choć w minionych tysiÄ…cleciach znalezć można wielu ważnych prekursorów, od Paniniego i Ary- stotelesa poprzez gramatyków starożytnego Rzymu po Arnaulda i Lancelota, twórców Gra- matyki Port-Royal, to lingwistyka teoretyczna zrodziÅ‚a siÄ™ u schyÅ‚ku XIX stulecia. Pierwsza rewolucja jest dzieÅ‚em Ferdynanda de Saussure a, jÄ™zykoznawcy szwajcar- skiego, profesora uniwersytetów w Genewie i Paryżu. Jemu, jego współpracownikom i wy- chowankom (którzy zresztÄ… sami spisali i wydali wykÅ‚ady mistrza), a także grupie wybitnych nastÄ™pców zawdziÄ™czamy sformuÅ‚owanie koncepcji jÄ™zyka naturalnego jako systemu semio- tycznego: to dwuklasowy system znaków sÅ‚użący okreÅ›lonej populacji do komunikacji uni- wersalnej. Lingwistyka dostaÅ‚a aparat, który jest dziÅ› oczywistoÅ›ciÄ…: (a) synchronia przede wszystkim, (b) abstrakcyjny system (langue) i konkretny tekst (parole), (c) znak obiekt o dwóch twarzach: ma ksztaÅ‚t i funkcjÄ™, (d) opozycja różnica ksztaÅ‚tu obciążona funkcjonal- nie, (e) paradygmatyka i syntagmatyka, (f) sÅ‚ownik zbiór znaków prostych, gramatyka zbiór instrukcji syntezy i rozbioru wyrażeÅ„, (g) inwarianty i warianty. Teoria de Saussure a dotarÅ‚a do Polski z górÄ… pół wieku od jej powstania przekÅ‚ad polski jego wykÅ‚adów ukazaÅ‚ siÄ™ w roku 1961 (Saussure (1961)). Koryfeuszy ówczesnego jÄ™zykoznawstwa w Polsce nie zainteresowaÅ‚a. Strukturalizm, który wyrósÅ‚ z idei de Saussure a, wyzwoliÅ‚ jÄ™zykoznawstwo naukÄ™ empirycznÄ… z oków humanistycznej filologii. Filolodzy zajmowali siÄ™ przez stulecia teksta- mi (czy kawaÅ‚kami tekstów) i pochodzeniem; strukturalizm podjÄ…Å‚ problem budowy i funkcji wyrażeÅ„. Strukturalny opis pewnego obiektu przyrodniczego jako pary daje model rodzimego użytkownika jÄ™zyka; elementy tej pary to skÅ‚adniki kompetencji jÄ™zy- kowej. Doktryna strukturalna opanowaÅ‚a Å›wiat lingwistyki pierwszej poÅ‚owy zeszÅ‚ego stule- cia, a myÅ›lenie systemowe, rzecz ciekawa, promieniowaÅ‚o na inne dziaÅ‚y humanistyki. Nie miejsce tu na wykÅ‚ad różnych szkół europejskiego jÄ™zykoznawstwa strukturalnego. Trzeba wszakże wspomnieć o strukturalizmie amerykaÅ„skim, czyli dystrybucjonizmie, od niego bowiem do NLP (Natural Language Processing) tylko krok. DystrybucjoniÅ›ci to pierw- 1 si teoretycy, którzy budowali korpusy zbiory wyrażeÅ„ traktowane jako reprezentujÄ…ce dany jÄ™zyk naturalny. Od nich pochodzi inne niż nasze europejskie rozumienie jÄ™zyka naturalnego. Jest nim zbiór zdaÅ„ poprawnych i tylko takich. Opis (czy model) danego jÄ™zyka to recepta na wyrażenia tego jÄ™zyka. StrukturaliÅ›ci, zapewne jako pierwsi w historii lingwistyki, podjÄ™li siÄ™ sporzÄ…dzania wy- czerpujÄ…cych opisów różnych jÄ™zyków naturalnych, opisów caÅ‚ego jÄ™zyka. Za przykÅ‚ad niech posÅ‚uży Ottona Jespersena monumentalna gramatyka angielska (Jespersen 1909-1949). To, że nowoczesna lingwistyka rozwinęła siÄ™ najowocniej w krÄ™gu anglosaskim, jest pewnie zasÅ‚ugÄ… Jespersena. Warsztat strukturalizmu to pierwszy skÅ‚adnik kompetencji współczesnego jÄ™zykoznaw- cy. 3. Rewolucja nr 2: generatywizm i lingwistyka formalna DrugÄ… rewolucjÄ™ potrafimy dokÅ‚adnie datować. W roku 1957 ukazaÅ‚y siÄ™ w wydawnic- twie Moutona Struktury skÅ‚adniowe Noama Chomsky ego (1957). Ów przewrót kopernikaÅ„- ski polegać miaÅ‚ na odrzuceniu tradycji strukturalistycznej. Chomsky uważaÅ‚, że struktura- lizm nie ujawnia tego, że kompetencja jÄ™zykowa jest produktywna; że, innymi sÅ‚owy, użyt- kownik jÄ™zyka potrafi interpretować wyrażenia, których nigdy nie sÅ‚yszaÅ‚, i nowe wyrażenia produkować. Ale Chomsky ego krytyka strukturalizmu (niezbyt zresztÄ… sprawiedliwa) dotyka co najwyżej dystrybucjonizmu, i to wcale nie jego litery. Kamieniem obrazy jest dla Chom- sky ego ograniczoność korpusów, którymi posiÅ‚kowali siÄ™ dystrybucjoniÅ›ci. Dla nich korpus byÅ‚ zródÅ‚em danych empirycznych. Ponieważ podejmowali trud opisywania różnych jÄ™zyków dotÄ…d nie opisywanych, w szczególnoÅ›ci jÄ™zyków Indian, którzy wymierali, korpusy z natury rzeczy nie mogÅ‚y być duże. Wielkich zresztÄ… nie daÅ‚oby siÄ™ objąć oglÄ…dem. Chomsky, krytyk dystrybucjonizmu, korzysta jednak szeroko z tamtej aparatury pojÄ™- ciowej. Przede wszystkim, idÄ…c Å›ladem dystrybucjonistów, ujmuje jÄ™zyk naturalny teorio- mnogoÅ›ciowo: to zbiór wszystkich możliwych zdaÅ„, zbiór nieskoÅ„czony. Opis jÄ™zyka, a wiÄ™c jego gramatyka, jest tego zbioru definicjÄ…. DefinicjÄ™ takÄ… nazywamy gramatykÄ… formalnÄ…. SÅ‚ownik jako zbiór pewnych skÅ‚adników prostych należy do gramatyki. Już od półwiecza Chomsky nosi szatÄ™ guru współczesnej lingwistyki. Z gramatyki gene- ratywno-transformacyjnej, której ideÄ™ wyÅ‚ożyÅ‚ w Stukturach skÅ‚adniowych, wyrosÅ‚y kolejne jej mutacje rozszerzona teoria standardowa (EST), wprowadzona w Aspektach teorii skÅ‚adni Chomsky ego (1966), a także teoria rzÄ…du i wiÄ…zania (GB; Haegemann (1992)) oraz minima- lizm; te dwie ostatnie z nieistotnÄ… dla nas tutaj filozoficznÄ… obudowÄ… Gramatyki Uniwersal- nej. ZrodziÅ‚y siÄ™ też w ciÄ…gu dziesiÄ™cioleci inne teorie, znacznie lepiej dopracowane formal- nie, zwÅ‚aszcza HPSG (Pollard i Sag (1994)). W ramach tych aparatów powstaÅ‚a i powstaje gigantyczna literatura na temat najrozmaitszych jÄ™zyków, od staroislandzkiego po warlpiri. Można powiedzieć bez przesady, że duża część populacji lingwistów na Å›wiecie dziaÅ‚a w krÄ™- gu generatywizmu chomskiaÅ„skiego. Nie dotyczy to, niestety, Polski, w której ziemiÄ™ tÄ™ uprawiajÄ… niemal wyÅ‚Ä…cznie angliÅ›ci. OpisujÄ… oni zresztÄ… głównie polszczyznÄ™; obszerny ze- staw odesÅ‚aÅ„ do publikacji polskich generatywistów znalezć można na przykÅ‚ad w tomie stu- diów poÅ›wiÄ™conych HPSG (Przepiórkowski i in. (2002)). Znamienne, że polski przekÅ‚ad Aspektów Chomsky ego (1982) przeszedÅ‚ bez echa. Dopiero ostatnio pojawiÅ‚o siÄ™ popularne kompendium generatywizmu (Mecner (2004)). Generatywizm nie stworzyÅ‚ wszakże wielkich syntez, a wiÄ™c wyczerpujÄ…cych opisów poszczególnych jÄ™zyków; choćby tych najważniej- szych. Dobra znajomość narzÄ™dzi generatywizmu to drugi skÅ‚adnik kompetencji współczesne- go jÄ™zykoznawcy. 2 4. Rewolucja nr 3: lingwistyka informatyczna O ile dwie poprzednie rewolucje wynikÅ‚y, by tak rzec, w toku normalnego rozwoju my- Å›lowego pewnej dyscypliny, rewolucja ostatnia przyszÅ‚a z zewnÄ…trz, i to bardzo niedawno. Komputery, jeszcze w poÅ‚owie ubiegÅ‚ego wieku pracujÄ…ce w Pentagonie, agencjach kosmicz- nych czy oÅ›rodkach obliczeniowych, trafiÅ‚y pod strzechy, aby stać siÄ™ standardowym urzÄ…- dzeniem gospodarstwa domowego. Co wiÄ™cej, w ciÄ…gu parunastu lat wymarÅ‚ pewien fach: zawód zecera. SkÅ‚ad komputerowy to wyrok Å›mierci dla drukarstwa Gutenberga. I jeszcze jeden zbieg okolicznoÅ›ci. Oto w latach 1970. rozpoczęła siÄ™ współpraca miÄ™- dzy grupÄ… informatyków z WydziaÅ‚u Matematyki Uniwersytetu Warszawskiego i grupÄ… jÄ™zy- koznawców WydziaÅ‚u Polonistyki. Do tej kooperacji obie strony byÅ‚y wtedy dobrze przygo- towane, podobnie jak pózniej do podjÄ™cia zaawansowanych prac w zakresie lingwistyki informatycznej. Niżej bÄ™dzie mowa o niektórych przedsiÄ™wziÄ™ciach, które wyrosÅ‚y z owego zbliżenia dwóch Å›rodowisk. Pokażę tu w szczególnoÅ›ci prace powstaÅ‚e w Å›rodowisku war- szawskim, zwÅ‚aszcza w ZakÅ‚adzie JÄ™zykoznawstwa Komputerowego, którym kierujÄ™. Skupie- nie siÄ™ tutaj na nich nie ma oznaczać, że nigdzie indziej nie dziaÅ‚o siÄ™ i nie dzieje nic, co dla dyscypliny ważne. Trzy ważne czynniki eliminacja tradycyjnych technik wydawniczych, bÅ‚yskawiczny rozwój pamiÄ™ci masowych i, ostatnio, eksplozja internetu daÅ‚y w efekcie dostÄ™p do gigan- tycznych zbiorów tekstowych. RÄ™czna ich obsÅ‚uga jest absolutnie niemożliwa. Nie chodzi przy tym o materiaÅ‚ empiryczny dla naukowców. Teksty sÄ… w zasiÄ™gu rÄ™ki szarego obywatela. Monstrualne zasoby informacji na serwerach internetowych majÄ… przede wszystkim postać zbiorów tekstowych. NarzÄ™dzia operowania takimi zbiorami to wyzwanie nie tylko dla infor- matyka; także (a nawet przede wszystkim) dla lingwisty. DostÄ™p do zawartoÅ›ci noÅ›nika umożliwiajÄ… specjalne aplikacje różnego rodzaju wy- szukiwarki. Kiedy piszemy tekst w procesorze komercyjnym, pozwala nam on lokalizować interesujÄ…ce nas napisy: obiekty unilateralne. Wystarczy wpisanie odpowiedniego ciÄ…gu zna- ków, aby dotrzeć do wszystkich tej sekwencji wystÄ…pieÅ„. Szukanie jest trywialne, dotyczy bowiem ksztaÅ‚tów: Kiedy jednak korzystamy z encyklopedii czy sÅ‚ownika elektronicznego, nie chodzi nam zwykle o dany napis. Oto wynik poszukiwania jednostki kot w Komputerowym SÅ‚owniku JÄ™- zyka Polskiego (KSJP): 3 SzukaliÅ›my tutaj jakiejÅ› jednostki bilateralnej zapewne leksemu. KSJP ujawniÅ‚ nam artyku- Å‚y hasÅ‚owe, w których użyto formy leksemu KOT. Co prawda, jedno z piÄ™ciu znalezisk odrzu- cimy, bo nie chodziÅ‚o nam raczej o leksem KOTA... Otóż wiÄ™kszość wyszukiwaÅ„ daje rezultaty niechciane; taki jest po prostu jÄ™zyk naturalny, który roi siÄ™ od neutralizacji. Ambitniejsze narzÄ™dzia kwerend tekstowych sÅ‚użą poszukiwaniom nie po ksztaÅ‚tach , jak siÄ™ mawia w żargonie, tylko po jakichÅ› znacznikach. Wprowadzenie do tekstu znaczników (tagów), któ- re pomogÄ… w ujednoznacznieniach, jest zadaniem lingwistycznym. Åšwiadomość istnienia narzÄ™dzi obsÅ‚ugi tekstów to trzeci komponent kompetencji współ- czesnego jÄ™zykoznawcy. 5. Wyzwanie homonimii Zbiór tekstów przygotowany specjalnie do jakiegoÅ› celu nazywamy korpusem. Korpu- sami posÅ‚ugujÄ… siÄ™ jÄ™zykoznawcy, przede wszystkim leksykografowie. Korpusy lingwistyczne bywajÄ… znakowane, czyli wzbogacone przynajmniej o informacjÄ™ gramatycznÄ…; docelowo pewnie pragmatycznÄ… i semantycznÄ…. Polszczyzna reprezentuje klasÄ™ jÄ™zyków wysoce fleksyjnych. CechÄ… znamiennÄ… takich jÄ™zyków jest homonimiczność słów. Ostrożny szacunek poucza, że w tekÅ›cie polskim 40 słów na sto to homonimy, czyli sÅ‚owa bÄ™dÄ…ce ksztaÅ‚tami wiÄ™cej niż jednej jednostki systemowej. Fundamentalnym zadaniem lingwistyki informatycznej jest zatem rozwiÄ…zywanie homonimii: sÅ‚abe przypisanie sÅ‚owom analizowanego tekstu wszystkich interpretacji; mocne znalezie- nie interpretacji wÅ‚aÅ›ciwej (por. ÅšwidziÅ„ski, Derwojedowa i Rudolf (2003)). Warto zaznaczyć, że jedno z pierwszych w Å›wiecie przedsiÄ™wzięć lingwistyki korpuso- wej miaÅ‚o miejsce w Polsce i polszczyzny dotyczyÅ‚o. W latach 1967-1971 powstaÅ‚ w Uniwer- sytecie Warszawskim półmilionowy zrównoważony korpus znakowany, który posÅ‚użyÅ‚ za bazÄ™ empirycznÄ… sÅ‚ownika frekwencyjnego jÄ™zyka polskiego. Znakowania dla ujednoznacz- nienia słów dokonywano rÄ™cznie, ale listy frekwencyjne zostaÅ‚y sporzÄ…dzone komputerowo. Podstawy gramatyczne projektu byÅ‚y tak solidne, że zachowaÅ‚y aktualność po dziÅ› dzieÅ„. SÅ‚ownik ukazaÅ‚ siÄ™ najpierw w postaci piÄ™ciu tomów (w jedenastu woluminach) pod tytuÅ‚em SÅ‚ownictwo współczesnego jÄ™zyka polskiego. Listy frekwencyjne (S-LF). Tomy te wyszÅ‚y po- tem w postaci zbiorczej pod redakcjÄ… Zygmunta Saloniego jako SÅ‚ownik frekwencyjny polsz- czyzny współczesnej (SFPW). SFPW jest sÅ‚ownikiem form wyrazowych popakowanych w leksemy. Twórcy korpusu przypisywali rÄ™cznie znaczniki sÅ‚owom, które sÄ… homoformami (Awramiuk (1999)). Nie jest to zatem znakowanie peÅ‚ne. Ale poczÄ…tek zostaÅ‚ uczyniony. 4 6. Analizatory i wyszukiwarki UrzÄ…dzenie do automatycznego rozwiÄ…zywania homonimii to analizator morfologiczny. Musi on opierać siÄ™ na rygorystycznym opisie gramatycznym danego jÄ™zyka. Dorobek grama- tyczny jÄ™zykoznawstwa tradycyjnego, z gramatykami Doroszewskiego, Szobera czy Klemen- siewicza na czele, nie speÅ‚niaÅ‚ oczywiÅ›cie warunków peÅ‚noÅ›ci i jawnoÅ›ci. Polszczyzna docze- kaÅ‚a siÄ™ jednak szczęśliwie zadowalajÄ…cych opisów morfologicznych i skÅ‚adniowych wy- mieÅ„my prace Jana Tokarskiego (SJP Dor. z tzw. notacjÄ… Tokarskiego , Tokarski (1973) i (1990)), Zygmunta Saloniego (1992), (2004), Saloniego i ÅšwidziÅ„skiego (2001), WÅ‚odzimie- rza GruszczyÅ„skiego (1989), Janusza StanisÅ‚awa Bienia (1991), a także, z innej szkoÅ‚y, mor- fologiÄ™ z Gramatyki jÄ™zyka polskiego PAN (Gramatyka_PAN (1984)). MorfologiÄ™ można już byÅ‚o zaimplementować. Istnieje kilka analizatorów morfologicznych. U schyÅ‚ku lat 1980. powstaÅ‚ analizator Ro- berta WoÅ‚osza, znany dziÅ› pod nazwÄ… PoMoR (por. WoÅ‚osz (2005)), analizator SAM Krzysz- tofa Szafrana (1994), Morfeusz Marcina WoliÅ„skiego (2004a), w koÅ„cu AMOR Joanny Rabiega-WiÅ›niewskiej i MichaÅ‚a Rudolfa (2003). Analizatory te przypisujÄ… sÅ‚owom zbiory interpretacji gramatycznych. Analizator dostaje sÅ‚owo lub listÄ™ słów do interpretacji. AMOR na przykÅ‚ad zinterpretu- je sÅ‚owo jutro jako należące do leksemu przysłówkowego JUTRO1 lub rzeczownikowego JU- TRO2, czyli dokona rozpoznania części mowy (PoS-tagging) oraz rozpoznania leksemu, do którego forma wyrazowa o takim ksztaÅ‚cie należy (lemmatization); sÅ‚owo szkoÅ‚y jako repre- zentujÄ…ce cztery formy wyrazowe: dopeÅ‚niaczowÄ… w liczbie pojedynczej bÄ…dz mianowniko- wÄ…, biernikowÄ… albo woÅ‚aczowÄ… w mnogiej; sÅ‚owo czytali jako formÄ™ wyrazowÄ… czasownika CZYTAĆ z pewnym opisem gramatycznym. Program, który zwraca analizowany tekst z odpo- wiednimi znacznikami poprzypisywanymi wszystkim sÅ‚owom, nazywany bywa tagerem (ta- gger), a efektem pracy takiego programu jest tekst (czy korpus) znakowany. Na korpusie, znakowanym lub nie, pracujÄ… dopiero zaawansowane wyszukiwarki. Ostatnio zakoÅ„czyÅ‚y siÄ™ dwa projekty naukowo-badawcze, których celem byÅ‚o już to zbudowanie korpusu znakowanego, już to opracowanie narzÄ™dzi do obsÅ‚ugi korpusu. Pierwszy z nich realizowany byÅ‚ w Instytucie Podstaw Informatyki PAN pod kierun- kiem Adama Przepiórkowskiego. W ramach projektu KBN 7T11C 043 20 powstaÅ‚ w latach 2001-2004 100-milionowy anotowany korpus tekstów polskich (Korpus_IPI_PAN), który nie ma ambicji bycia korpusem lingwistycznie reprezentatywnym, czyli na przykÅ‚ad zrównowa- żonym; powstaÅ‚a też wyszukiwarka Poliqarp (por. Przepiórkowski (2004)). Oto pokaz wyszukiwania: 5 Użytkownik oczekuje przykÅ‚adów wystÄ…pienia formy miejscownikowej leksemu LINGWISTY- KA, po której bezpoÅ›rednio nastÄ™puje miejscownikowa forma wyrazowa przymiotnikowa. SkÅ‚adnia poleceÅ„, jakÄ… dysponuje Poliqarp, jest bardzo rozbudowana, co umożliwia formu- Å‚owanie wyrafinowanych warunków boole owskich. Poliqarp nie jest jednak skutecznÄ… ma- szynÄ… ujednoznaczniania mocnego. Drugi projekt, kierowany przez Andrzeja Markowskiego, z udziaÅ‚em m.in. Marka Åšwi- dziÅ„skiego i MirosÅ‚awa BaÅ„ki, rozwijaÅ‚ siÄ™ w tym samym czasie w Instytucie JÄ™zyka Polskie- go Uniwersytetu Warszawskiego we współpracy z RedakcjÄ… SÅ‚owników PWN (KBN 5 HO1D 019 20). Redakcja umożliwiÅ‚a dostÄ™p do obszernych fragmentów wÅ‚asnego korpusu (Korpus_PWN). Zrównoważone jego wycinki o dÅ‚ugoÅ›ci od 2 do 40 mln słów sÅ‚użyÅ‚y jako podstawa dla prac programistycznych i testerskich. Korpus PWN z wÅ‚asnÄ… wyszukiwarkÄ… dostÄ™pny jest w internecie oraz na pÅ‚ycie CD. Oto wynik wyszukiwania leksemu GENERATYWNY w internetowej wersji demo: Dla potrzeb leksykografów z Redakcji SÅ‚owników PWN stworzono w ramach projektu oprogramowanie sÅ‚użące obsÅ‚udze wielkich korpusów tekstów polskich. Jest ono dzieÅ‚em MichaÅ‚a Rudolfa. Produkt koÅ„cowy stanowi aplikacja Sherlock, pracujÄ…ca w Å›rodowiskach Linux, DOS oraz Windows (por. Rudolf (2004), ÅšwidziÅ„ski i Rudolf (w druku)). Wizualiza- cjÄ™ wyników umożliwia aplikacja okienna Holmes. Wyniki podawane sÄ… natychmiast, miÄ™dzy innymi w postaci plików HTML. Oto przykÅ‚adowe wyszukiwanie leksemów rzeczownikowych, które wystÄ™pujÄ… przed formÄ… leksemu LINGWISTYCZNY, z uzgodnieniem przypadka, rodzaju i liczby (leksykograf, być może, szuka dokumentacji ilustrujÄ…cej Å‚Ä…czliwość przymiotnika LINGWISTYCZNY): 6 I wynik kwerendy: Leksykograf dostaje listÄ™ leksemów rzeczownikowych: TEORIA, UZDOLNIENIE, WYKSZTAACE- NIE, BAZA, POEZJA i WYWÓD. Holmes, tak jak Poliqarp, dopuszcza zapytania proste i zÅ‚ożone, bÄ™dÄ…ce koniunkcjÄ… tych pierwszych. Potrafi szukać słów, form wyrazowych zadanych leksemów, form wyrazo- wych o zadanej charakterystyce gramatycznej, wzorców zadanych przez napis szkieletowy, wyrażeÅ„ z uzgodnieniem zadanego typu. Można ustawiać zakres oglÄ…danego kontekstu. Można ograniczać iloÅ›ciowo i jakoÅ›ciowo zbiór oczekiwanych przykÅ‚adów. Holmes (a Å›ci- Å›lej: Sherlock) jest narzÄ™dziem rozwiÄ…zujÄ…cym w miarÄ™ skutecznie homonimie i synkretyzmy poprzez obszerny zbiór reguÅ‚ lingwistycznych wykluczajÄ…cych pewne interpretacje. 7. Automatyczna analiza skÅ‚adniowa Można powiedzieć, że problem automatycznej analizy morfologicznej jest dziÅ› dla pol- szczyzny rozwiÄ…zany. Tym, co pozostaje, jest udoskonalanie metod automatycznej dehomo- nimizacji i desynkretyzacji. JeÅ›li metody te majÄ… być jakoÅ›ciowe, nie iloÅ›ciowe, to proces udoskonalania może nie mieć koÅ„ca, a poszukiwanie dystrybucyjnych wykÅ‚adników opozycji 7 miÄ™dzy najrozmaitszymi jednostkami tekstowymi wymaga najwyższej kompetencji lingwi- stycznej. Pozostaje oczywiÅ›cie osobny problem automatycznej analizy skÅ‚adniowej. Chodzi o na- rzÄ™dzia przypisywania wyrażeniom struktury hierarchicznej. PamiÄ™tajmy, że obok homonimii morfologicznych istnieje homonimia skÅ‚adniowa, czyli zjawisko identycznoÅ›ci ksztaÅ‚tu róż- nych konstrukcji skÅ‚adniowych. Programy dokonujÄ…ce analizy syntaktycznej nazywane sÄ… parserami. Dla polszczyzny sporzÄ…dzono w ciÄ…gu ostatniego ćwierćwiecza dwie peÅ‚ne gramatyki formalne StanisÅ‚awa Szpakowicza (1983), z parserem, i Marka ÅšwidziÅ„skiego (1992) (ostatnia to tak zwana GFJP). Dla GFJP analizator skÅ‚adniowy stworzyÅ‚ Marcin WoliÅ„ski program Åšwigra (WoliÅ„ski (2004b)). Od lat trwajÄ… prace nad ulepszeniem tej gramatyki. Obecnie testowany jest program Åšwigra, przede wszystkim po to, aby ograniczyć liczbÄ™ do- puszczanych przez GFJP, czÄ™sto jaÅ‚owych interpretacji. Automatyczna analiza skÅ‚adniowa pozostanie na dÅ‚ugo terenem ważnych przedsiÄ™wzięć badawczych i technicznych. W dalszej natomiast perspektywie przyjdzie stawić czoÅ‚o wyzwaniom automatycznej analizy seman- tycznej. 8. ZakoÅ„czenie XXI wiek jest stuleciem lingwistyki informatycznej. Przetwarzanie tekstów jÄ™zyków na- turalnych pozostanie pierwszoplanowym zadaniem dla lingwistów na wiele dekad. Polszczy- zna jest dziÅ› dobrze opisana gramatycznie. Niestety, stopieÅ„ zaawansowania przedsiÄ™wzięć wykorzystujÄ…cych tÄ™ wiedzÄ™ nie zadowala. Bardzo niepokojÄ…ce jest zwÅ‚aszcza to, że lingwi- stykÄ… informatycznÄ… zajmujÄ… siÄ™ w Polsce pojedynczy jÄ™zykoznawcy; zupeÅ‚nie inaczej jest u sÄ…siadów Czechów, WÄ™grów, Niemców czy Rosjan; o Å›wiecie anglosaskim już nie mówiÄ…c. Dużo wiÄ™cej informatyków w Polsce pracuje w tej dziedzinie niż lingwistów. My, w odróż- nieniu, powiedzmy, od Czechów, nie mamy powszechnie dostÄ™pnego Korpusu Narodowego (por. CNK) i nie wydaje siÄ™, aby coÅ› siÄ™ zmieniÅ‚o w najbliższej przyszÅ‚oÅ›ci. Trudno siÄ™ temu dziwić. W Polsce, inaczej niż w Å›wiecie, nie ma wÅ‚aÅ›ciwie uniwersy- teckich studiów lingwistycznych; jÄ™zykoznawstwo wykÅ‚ada siÄ™ na wydziaÅ‚ach filologicznych, jak w dobie przedstrukturalnej. Problematyka opisu dystrybucyjnego nie znajduje uznania w polskim Å›rodowisku lingwistycznym, dla którego powierzchniowy zdaje siÄ™ znaczyć po- wierzchowny . Sam byÅ‚em przez dekady namawiany (na szczęście bezskutecznie) do tego, by siÄ™ zająć rzeczami poważnymi na przykÅ‚ad semantykÄ…. Powyższy artykuÅ‚, utrzymany w stylistyce popularnonaukowej, pomyÅ›lany zostaÅ‚ jako apel do Å›rodowiska polonistycznej mÅ‚odzieży. To gÅ‚os jÄ™zykoznawcy, który wkroczyÅ‚ w je- sieÅ„ swego żywota; gÅ‚os czÅ‚owieka, który opisane tutaj trzy rewolucje lingwistyczne przeżyÅ‚ w miarÄ™ aktywnie i Å›wiadomie. Å»yczyÅ‚bym sobie, lingwistyce polskiej i samej polszczyznie, abyÅ›my energicznie wÅ‚Ä…czyli siÄ™ energicznie w to wszystko, co Å›wiatowa lingwistyka uprawia bujnie i owocnie od dziesiÄ™cioleci. Literatura Awramiuk, E. (1999): Systemowość polskiej hominimii miÄ™dzyparadygmatycznej. BiaÅ‚y- stok: Wydawnictwa Uniwersytetu w BiaÅ‚ymstoku. BieÅ„, J. S. (1991): Koncepcja sÅ‚ownikowej informacji morfologicznej i jej komputerowej weryfikacji. Rozprawy Uniwersytetu Warszawskiego. T. 383. Warszawa: Wydawnictwa Uniwersytetu Warszawskiego. Chomsky, N. (1957): Syntactic Structures, The Hague: Mouton. Chomsky, N. (1965): Aspects of the Theory of Syntax. Cambridge (Mass.): The MIT Press. 8 Chomsky, N. (1982): Zagadnienia teorii skÅ‚adni. TÅ‚um. Ireneusz Jakubczak. WrocÅ‚aw: Ossolineum. CNK: eskż Národní Korpus, http://ucnk.ff.cuni.cz/ Gramatyka_PAN (1984): Gramatyka współczesnego jÄ™zyka polskiego. Red. naukowy StanisÅ‚aw UrbaÅ„czyk. T. II: Morfologia. Red. Krystyna Kallas, Roman Laskowski, Renata Grzegorczykowa, Henryk Wróbel. Warszawa: PWN. GruszczyÅ„ski, W. (1989): Fleksja rzeczowników pospolitych we współczesnej polszczyz- nie pisanej (na materiale SÅ‚ownika jÄ™zyka polskiego pod red. W. Doroszewskiego). WrocÅ‚aw: Ossolineum. Jespersen, O. (1909-1949): A Modern English Grammar on Historical Principles. Copenhagen: Munksgaard. T. I-VII. Korpus_IPI_PAN: http://korpus.pl/ Korpus_PWN: http://korpus.pwn.pl/ KSJP: Komputerowy sÅ‚ownik jÄ™zyka polskiego. Warszawa: Wydawnictwo Naukowe PWN (1997). Mecner, P. (2004): Elementy gramatyki umysÅ‚u. Warszawa: Universitas. Pollard, C., Sag, I. (1994): Head-driven Phrase Structure Grammar. Chicago: Chicago University Press. Przepiórkowski, A. (2004)): Korpus IPI PAN wersja wstÄ™pna. Warszawa: Instytut Podstaw Informatyki PAN. Przepiórkowski i in. (2002): A. Przepiórkowski, A. Kupść, M. Marciniak, A. Myko- wiecka, Formalny opis jÄ™zyka polskiego. Teoria i implementacja. Warszawa: Akademicka Oficyna Wydawnicza EXIT. Rabiega-WiÅ›niewska, J., Rudolf, M. (2003): AMOR program automatycznej analizy fleksyjnej tekstu polskiego . Biuletyn Polskiego Towarzystwa JÄ™zykoznawczego LVIII, War- szawa. 175-186. Rudolf, MichaÅ‚ (2004): Metody automatycznej analizy korpusu tekstów polskich War- szawa: Uniwersytet Warszawski WydziaÅ‚ Polonistyki. S-LF (1974-1977): I. Kurcz, A. Lewicki, W. MasÅ‚owski*, J. Sambor, J. Woronczak, SÅ‚ownictwo współczesnego jÄ™zyka polskiego. Listy frekwencyjne. T. I-V. Warszawa: Polska Akademia Nauk Instytut BadaÅ„ Literackich. Saloni, Z. (1992): Rygorystyczny opis polskiej deklinacji przymiotnikowej . [W:] Fi- lologia Polska. Prace JÄ™zykoznawcze 16. GdaÅ„sk: Wydawnictwo Uniwersytetu GdaÅ„skiego. 215-228. Saloni, Z. (2004): Czasownik polski. Odmiana sÅ‚ownik. Warszawa: Wiedza Po- wszechna. Saloni, Z., ÅšwidziÅ„ski, M. (2001): SkÅ‚adnia współczesnego jÄ™zyka polskiego. Warszawa: Wydawnictwo Naukowe PWN, Wyd. V. Saussure, F. de (1961): Kurs jÄ™zykoznawstwa ogólnego. Warszawa: PWN. SJP Dor.: SÅ‚ownik jÄ™zyka polskiego PAN. Red. W. Doroszewski. Warszawa 1958-1970. T. I-X i Suplement. SFPW (1990): I. Kurcz, A. Lewicki, J. Sambor, K. Szafran, J. Woronczak, SÅ‚ownik fre- kwencyjny polszczyzny współczesnej. Red. Zygmunt Saloni. Kraków: Polska Akademia Nauk Instytut JÄ™zyka Polskiego. Szafran, K. (1994): Automatyczna analiza fleksyjna tekstu polskiego (na podstawie Schematycznego indeksu a tergo Jana Tokarskiego). Niepublikowana rozprawa doktorska. Warszawa: WydziaÅ‚ Polonistyki UW. Szpakowicz S. (1983): Formalny opis skÅ‚adniowy zdaÅ„ polskich. Warszawa: Wydawnic- twa Uniwersytetu Warszawskiego. 9 ÅšwidziÅ„ski, M. (1992): Gramatyka formalna jÄ™zyka polskiego. Rozprawy Uniwersytetu Warszawskiego. T. 349. Warszawa: Wydawnictwa Uniwersytetu Warszawskiego. ÅšwidziÅ„ski, M., Derwojedowa, M., Rudolf, M. (2003): Dehomonimizacja i desynkrety- zacja w procesie automatycznego przetwarzania wielkich korpusów tekstów polskich . [W:] Biuletyn Polskiego Towarzystwa JÄ™zykoznawczego LVIII, Warszawa. 187-199. ÅšwidziÅ„ski, M., Rudolf, M. (w druku): NarzÄ™dzia informatyczne obsÅ‚ugi wielkich kor- pusów tekstów: wyszukiwarka Holmes . [W:] Biuletyn Polskiego Towarzystwa JÄ™zyko- znawczego LXI, Warszawa. Tokarski, J. (1973): Fleksja polska. Warszawa: PWN. Tokarski, J. (1993): Schematyczny indeks a tergo polskich form wyrazowych. Oprac. i red. Z. Saloni. Warszawa: Wydawnictwo Naukowe PWN. WoliÅ„ski, M. (2003): http://nlp.ipipan.waw.pl/~wolinski/morfeusz/morfeusz.html WoliÅ„ski, M. (2004): Komputerowa weryfikacja gramatyki ÅšwidziÅ„skiego. Niepubliko- wana rozprawa doktorska WoÅ‚osz, R. (2005): Efektywna metoda analizy i syntezy morfologicznej w jÄ™zyku pol- skim. Warszawa: Akademicka Oficyna Wydawnicza EXIT. Corpus linguistics in Poland the origins, the present, the prospects Summary In the article, three sources of corpus engineering are mentioned: (a) theoretical and descrip- tive achievements of structural linguistics, (b) the formal apparatus of generative theories, and (c) the development of computational tools. For the last decades, the Polish language has been satisfactorily accounted for both in terms of morphology and syntax. On that basis, two cor- pus search engines have recently been designed to annotate Polish text corpora (Poliqarp) or to disambiguate them morphologically (Holmes). The prospects of the corpus engineering in Poland do not look optimistic, indeed. Unlike in neighbouring countries, not many people work in the area of computational linguistics. The article expresses the author s hope that young Polish linguists may find the job attractive, not only intellectually. 10