Rozdział 2

Rozdział 2

Typologia korpusów oraz warsztat informatyczny lingwistyki korpusowej

[Typology of corpora and computer workbench of corpus linguistics]

dr Jacek Waliński

1. Co odróżnia korpus językowy od przypadkowego zbioru tekstów

Choć zgodnie z powszechną definicją „korpus” to nic innego jak tylko zbiór tekstów pisanych lub zapisów języka mówionego, to jednak współczesne językoznawstwo definiuje to pojęcie dużo precyzyjniej, podając cechy charakterystyczne takiego zbioru tekstów, który może być nazwany „korpusem językowym” w pełnym znaczeniu tego słowa. Podejmowane były różne próby określenia minimalnych wymagań, jakie powinien spełniać zbiór tekstów, aby można go nazwać „korpusem językowym” w odróżnieniu do innych zbiorów tekstów, jakich przykładem jest choćby tradycyjna biblioteka zawierająca książki stojące na półkach.

Jedna z takich prób została podjęta przez Johna Sinclaira kierującego ośrodkiem badawczym w Birmingham (Sinclair 1996), który przyjął, że mianem korpusu można określić zbiór wytworów językowych, które zostały wybrane i uporządkowane według wyraźnych kryteriów, których zadaniem jest odwzorowanie jakiegoś języka. Zgodnie z tą definicją podstawowe kryteria, jakie powinien spełniać korpus językowy to:

Ilość - kategoria ta ma swoją wartość wyrażoną ogólnym stwierdzeniem „znaczna”. Według tego kryterium korpus powinien zawierać znaczną liczbę słów, jednak w związku z ogromnym tempem rozwoju podawanie konkretnych liczb byłoby bezcelowe, ponieważ liczba słów zebranych w korpusach językowych wzrasta z roku na rok.
Jakość - domyślną wartością tej kategorii jest autentyczność, polegająca na tym, że zebrane dane powinny stanowić przykłady jak najbardziej naturalnej komunikacji językowej między ludźmi w różnych formach.
Prostota - zakłada zbieranie zasobów językowych w czystym formacie komputerowym ASCII oraz przyjmowanie wyraźnie oddzielonych znaczników, które można w każdej chwili odseparowane od samego tekstu. Obecnie cecha ta musi być traktowana z pewną rezerwą w związku z upowszechnieniem nowego standardu kodowania znaków o nazwie Unicode.
Udokumentowanie - cecha ta postuluje pełne i dokładne udokumentowanie zebranych w korpusie danych językowych, które jest najczęściej przechowywane rozdzielnie od korpusu w formie bazy danych lub nagłówka opartego na opracowanym dla korpusu modelu opisu zawartości (DTD).

Wymienione powyżej cechy charakterystyczne korpusu językowego nie są jedynymi, jakie były postulowane w językoznawstwie na przestrzeni ostatnich lat. Innego przeglądu cech, jakimi powinien odznaczać się korpus dokonali naukowcy z uniwersytetu w Lancaster (McEnery & Wilson 1996). Przyjęli oni mianowicie, że choć w zasadzie każdy zbiór tekstów można nazwać korpusem, to jednak w kontekście współczesnej lingwistyki zbiór taki powinien posiadać następujące cechy:

Reprezentatywność - określenie to odnosi się do różnorodności języka, jaki powinien być reprezentowany w korpusie. Podstawowym celem tworzenia korpusu powinno być jak najbardziej reprezentatywne odwzorowanie interesującego nas obszaru językowego w odpowiednich, naturalnych proporcjach.
Skończona wielkość - postulat ten zakłada określenie na początku projektu docelowej wielkości budowanego korpusu, przykładowo 1 milion słów. W momencie osiągnięcia zamierzonego rozmiaru korpus powinien zostać zamknięty, a jego wielkość nie powinna ulegać zmianie. Ten postulat jest nieco kontrowersyjny, gdyż w jakimś sensie eliminuje możliwość tworzenia korpusu monitorującego (omówionego w dalszej części rozdziału). Nie wyklucza to jednak włączenia zebranych zasobów językowych w przyszłości do innego korpusu.
Format elektroniczny - ten postulat jest oczywisty sam przez się, ponieważ zakłada możliwość przetwarzania zebranych tekstów za pomocą komputera.
Odniesienie standardowe - ta cecha korpusu jest w dużym stopniu związana z omówionymi poprzednio cechami reprezentatywności i skończonej wielkości korpusu. Zakłada ona, że korpus stanowi standardowe odniesienie dla języka, jaki reprezentuje, dzięki czemu można go uznać za reprezentatywny dla danego obszaru języka, co z kolei umożliwia dokonywanie porównań i wydawanie sądów o standardowości lub jej braku jakichś form wypowiedzi dla danego obszaru języka. Niezmienna zawartość gotowego korpusu umożliwia obiektywne wykrywanie różnic i dokonywanie obserwacji, które są powtarzalne i nie zależą od zmiany danych branych pod uwagę w badaniach.

Próby określenia cech charakterystycznych korpusu językowego były podejmowane przez jakimś sensie „konkurencyjne” ośrodki, co doprowadziło do braku powszechnego konsensusu w tej kwestii. Szczególnie wyraźnie rzuca się w oczy odmienne spojrzenie na kryterium „skończoności” korpusu, co wypływa stąd, że ośrodek w Birmingham jest gorącym orędownikiem idei korpusu otwartego - monitorującego, którego przykładem jest „Bank Języka Angielskiego”, a ośrodek w Lancaster postuluje korzystanie z korpusu o charakterze zamkniętym dla danego okresu czasu, czyli referencyjnego, (czego przykładem jest „Brytyjski Korpus Narodowy”). To rozróżnienie odnosi się do różnych typów korpusów językowych, które zostały omówione w następnej sekcji.

2. Przegląd klasyfikacji korpusów językowych

Zgodnie z omówionymi powyżej zasadami korpus językowy powinien posiadać odpowiednią charakterystykę. W oparciu o dodatkowe kryteria można wyróżnić się wiele rodzajów korpusów. Kryteria doboru tekstów mogą się skupiać na określanym fragmencie rzeczywistości językowej i stąd korpus może zawierać, na przykład, teksty pisane, mówione, współczesne, z poprzednich epok, w jednym lub wielu językach, a także w przypadku korpusów wielojęzycznych teksty z więcej niż jednego języka.

W tym miejscu należałoby jednak wspomnieć o podejściu, w którym twórcy korpusu jako podstawowe kryterium doboru tekstów przyjmują dostępność zasobów, rezygnując tym samym z określenia innych kryteriów mających reprezentować dany obszar języka. Utworzony w ten sposób korpus jest niekiedy określany jako korpus oportunistyczny. Takie zbiory tekstu są niekiedy wykorzystywane w badaniach językoznawczych, ponieważ stanowią tania alternatywę dla korpusów referencyjnych. Należy jednak podkreślić, że część językoznawców odżegnuje się od tego podejścia twierdząc, że tym wypadku nie można mówić o korpusie językowym, a jedynie o przypadkowym zbiorze tekstów w formacie elektronicznym.

2.1 “Ogólne” i “specjalistyczne” korpusy językowe

Korpus ogólny stanowi próbę odwzorowania języka na poziomie podstawowym, powszechnym, z pominięciem specjalistycznych żargonów, czy dialektów, jakie mogą w jego obszarze występować. Typowym przykładem korpusów ogólnych są korpusy referencyjne, takie jak np. Brytyjski Korpus Narodowy. Natomiast, korpus specjalistyczny stanowi próbę odwzorowania języka używanego przez określoną grupę ludzi w określonych sytuacjach. Możemy mieć zatem do czynienia z korpusami starającymi się odwzorować język używany w ekonomii i biznesie lub w kontekstach prawnych. Możemy także spotkać się z korpusami zawierającymi żargon nastolatków lub przykłady języka używanego przez nierodzimych użytkowników danego języka na różnym poziomie zaawansowania jego nauki. Cechą charakterystyczną korpusu specjalistycznego jest to, że skupia się on na odwzorowaniu jakiejś niestandardowej odmiany języka.

W praktyce specjalistyczne korpusy językowe są często tworzone na potrzeby projektów leksykograficznych dotyczących terminologii specjalistycznej jakiejś określonej dziedziny lub żargonu charakterystycznego dla pewnej grupy społecznej. Przykładem korpusu specjalistycznego jest korpus angielskojęzyczny korpus COLT (Corpus of London Teenage Language) opracowany w norweskim uniwersytecie w Bergen. (Więcej informacji o tym korpusie w Internecie pod adresem: http://helmer.aksis.uib.no/colt/. Korpus ten skupia się wyłącznie na języku używanym przez nastolatków w wieku 13-17 lat zamieszkujących okolice Londynu. Stanowi zatem próbę odzwierciedlenia żargonu specyficznego dla pewnej, precyzyjnie określonej grupy osób.

2.2 Korpusy zawierające teksty w całości a korpusy „próbkowane”

W pewnych przypadkach może wystąpić sytuacja, że aby uzyskać jak największą reprezentatywność i różnorodność zbieranych danych językowych do utworzenia korpusu wykorzystuje się dużą liczbę fragmentów tekstów o określonej wielkości, z pominięciem ich pozostałych części, co ułatwia i przyśpiesza procedurę zbierania zasobów. W takim przypadku możemy mówić o korpusie próbkowanym. Przykładem takiego korpusu jest amerykański korpus Browna (Kucera & Francis 1979), zawierający 500 fragmentów artykułów prasowych, z których każdy obejmował ok. 2000 słów. Przeważnie jednak w korpusach umieszczane są teksty w ich całkowitym brzmieniu.

2.3 Zbilansowane korpusy referencyjne oraz „monitorujące” korpusy językowe

Zadaniem korpusu referencyjnego jest dostarczanie jak najbardziej wszechstronnych informacji o języku w określonym punkcie czasu. Korpus taki musi być odpowiednio duży, aby reprezentować jak największą różnorodność odmian występujących w obszarze danego języka i dawać przez to jak najbardziej ogólny, zobiektywizowany obraz słownictwa, frazeologii, etc. występujących w danym języku. Model doboru tekstów w przypadku takiego korpusu jest najczęściej bardzo rozbudowany, próbując uwzględnić jak najwięcej parametrów o charakterze socjolingwistycznym, które umożliwią jak najpełniejsze odwzorowanie rzeczywistości językowej.

Dąży się przy tym do odpowiedniego zbilansowania poszczególnych odmian języka w całości zasobów tekstowych zawartych korpusie tak, aby jak najlepiej oddać naturalne proporcje występujące w języku. W rzeczywistości postulat naturalnego zbilansowania zasobów jest niejednokrotnie trudny do osiągnięcia ze względów praktycznych i stosowane proporcje bywają wręcz odwrotne do proporcji występujących naturalnie w języku, np. w Brytyjskim Korpusie Narodowym teksty pisane stanowią aż 90%, a mówione jedynie 10%, choć stanowi to odwrócenie rzeczywistości.

Po zakończeniu kompilacji korpus referencyjny ma charakter zamknięty i stanowi próbę odwzorowania języka używanego w na przestrzeni ściśle określonego zakresu czasu, reprezentowanego przez teksty w nim zebrane. Maksymalizację reprezentatywności najłatwiej uzyskać za pomocą odpowiednio dużej ilości tekstów, zatem korpusy tego typu mają niejednokrotnie wielkości przekraczające setki milionów słów. Najlepszym przykładem zbilansowanego korpusu referencyjnego jest BNC.

Istnieje jednak odrębne podejście do tworzenia korpusów mających stanowić jak najlepsze odwzorowanie danego języka, które zwraca uwagę na specyficzne potrzeby leksykografii, której jednym z podstawowych zadań jest odnotowywanie i dokumentowanie zmian zachodzących w języku. Aby zaspokoić tę potrzebę wymagany jest korpus dynamicznie odzwierciedlający zmiany zachodzące w języku, przez stałe aktualizacje za pomocą nowych tekstów, zawierających nowe słowa wchodzące do języka, które mogą być dzięki temu rejestrowane i śledzone. Zadaniem takiego korpusu jest stałe monitorowanie zmian zachodzących w języku i stąd jego nazwa: korpus monitorujący. Najlepszym przykładem korpusu monitorującego jest Bank Języka Angielskiego („Bank of English” - http://titania.cobuild.collins.co.uk/boe_info.html), który w styczniu 2002 roku osiągnął wielkość 450 milionów słów, lecz stale są do niego dodawane nowe materiały.

2.4 Korpusy języka pisanego i mówionego

Częściej występują korpusy zawierające teksty pisane, ponieważ te są o wiele łatwiejsze do zdobycia, zwłaszcza w związku z upowszechnieniem tekstu elektronicznego. Zapisy języka mówionego, a w szczególności naturalnych, nieskrępowanych rozmów mających miejsce na co dzień między ludźmi są o wiele trudniejsze do zdobycia. Nierzadko wiąże się to z koniecznością zatrudnienia osób do pracy nad dokonywaniem nagrań i ich transkrypcją, co pociąga za sobą ponoszenie znacznych kosztów. W związku z tymi problemami korpusy języka mówionego występują rzadziej.

2.5 Korpusy jedno- i wielojęzyczne

Jak sama nazwa wskazuje korpusy jednojęzyczne zawierają teksty należące do jednego języka, natomiast korpusy wielojęzyczne stanowią zbiór w dwóch lub więcej językach. Korpus wielojęzyczny (w odróżnieniu od dwóch odrębnych korpusów jednojęzycznych w różnych językach) musi spełniać określone kryteria łączące występujące w nim teksty. Stąd wyróżniamy dwa rodzaje takich korpusów: równoległe i porównywalne, omówione poniżej.

2.6 Równoległe i porównywalne korpusy językowe

Choć tym specyficznym korpusom został poświęcony cały następny rozdział, warto przestawić tutaj ich podstawowe rozróżnienie. Otóż, korpus równoległy to taki, który zawiera teksty oraz ich przekłady na język obcy. Natomiast, korpus porównywalny zawiera odrębne teksty rodzime w różnych językach, które zostały dobrane za pomocą ściśle określonych cech (tematyka, styl, medium publikacji, data powstania, etc.), dzięki czemu są do siebie pod wieloma względami podobne - innymi słowy, są ze sobą „porównywalne” według pewnych kryteriów.

2.7 Korpusy zawierające sam tekst oraz korpusy z indeksami

Częstokroć korpusy językowe zawierają jedynie sam tekst, tzn. elektroniczny zapis treści dokumentu bez żadnych dodatkowych oznaczeń. Jednak wiele korpusów posiada indeksy, które mogą udostępniają dodatkowe informacje o tekście w takich kategoriach jak:

atrybuty formatowania dokumentu, np. podział na akapity, strony, wielkości, czcionek, pogrubienia, kursywa, itp.
informacje na temat pochodzenia tekstu, np. autor, data wydania, gatunek, itp.
informacje meta-językowe polegające na dołączeniu specjalnych kodów do wyrazów, w celu oznaczenia poszczególnych kategorii językowych. Takie oznaczanie czasami nazywane jest potocznie indeksowaniem (tagging). Oznaczenia mogą obejmować kategorię poszczególnych części mowy, części zdania, oznaczenia o charakterze semantycznym, lematyzację, oznaczenia cech prozodycznych, transkrypcje fonetyczną, itp. Oto przykład oznaczenia części mowy w korpusie:

hospitality_NN is_BEZ an_AT excellent_JJ virtue_NN ,_, but_CC not_XNOT when_WRB the_ATI guests_NNS have_HV to_TO sleep_VB in_IN rows_NNS in_IN the_ATI cellar_NN !_!

Korpus posiadający znaczniki jest bogatszy w porównaniu do korpusu zawierającego sam tekst, z którego takie informacje językowe można uzyskać jedynie pośrednio za pomocą przeprowadzenia wymaganej w tym celu odpowiedniej analizy. Stosowanie znaczników ułatwia proces analizowania informacji zawartych w korpusie.

2.8 Synchroniczne i diachroniczne korpusy językowe

Większość zbieranych korpusów językowych ma charakter synchroniczny, czyli skupia się nad różnymi aspektami języka współczesnego, istnieją jednak korpusy diachroniczne, umożliwiające analizę historyczną rozwoju języka na przestrzeni dziejów. Najbardziej znanym przykładem korpusu diachronicznego jest Korpus Diachroniczny, opracowany w Uniwersytecie w Helsinkach (http://www.hd.uib.no/helinfo.html). Korpus ten obejmuje ok. 1,6 miliona słów języka angielskiego począwszy od zapisów najstarszych, datujących się sprzed 850 r. n.e. do zakończenia okresu wczesnego współczesnego języka angielskiego w roku 1710. Korpus Helsiński ma charakter reprezentatywny, ponieważ obejmuje swoim zakresem różne gatunki, odmiany regionalne oraz takie czynniki różnorodności społecznej, jak płeć, wiek, wykształcenie i pochodzenie społeczne.