Korpusy cechy i rodzaje


Rozdział 2

Typologia korpusów oraz warsztat informatyczny lingwistyki korpusowej

[Typology of corpora and computer workbench of corpus linguistics]

dr Jacek Waliński

1. Co odróżnia korpus językowy od przypadkowego zbioru tekstów

Choć zgodnie z powszechną definicją „korpus” to nic innego jak tylko zbiór tekstów pisanych lub zapisów języka mówionego, to jednak współczesne językoznawstwo definiuje to pojęcie dużo precyzyjniej, podając cechy charakterystyczne takiego zbioru tekstów, który może być nazwany „korpusem językowym” w pełnym znaczeniu tego słowa. Podejmowane były różne próby określenia minimalnych wymagań, jakie powinien spełniać zbiór tekstów, aby można go nazwać „korpusem językowym” w odróżnieniu do innych zbiorów tekstów, jakich przykładem jest choćby tradycyjna biblioteka zawierająca książki stojące na półkach.

Jedna z takich prób została podjęta przez Johna Sinclaira kierującego ośrodkiem badawczym w Birmingham (Sinclair 1996), który przyjął, że mianem korpusu można określić zbiór wytworów językowych, które zostały wybrane i uporządkowane według wyraźnych kryteriów, których zadaniem jest odwzorowanie jakiegoś języka. Zgodnie z tą definicją podstawowe kryteria, jakie powinien spełniać korpus językowy to:

Wymienione powyżej cechy charakterystyczne korpusu językowego nie są jedynymi, jakie były postulowane w językoznawstwie na przestrzeni ostatnich lat. Innego przeglądu cech, jakimi powinien odznaczać się korpus dokonali naukowcy z uniwersytetu w Lancaster (McEnery & Wilson 1996). Przyjęli oni mianowicie, że choć w zasadzie każdy zbiór tekstów można nazwać korpusem, to jednak w kontekście współczesnej lingwistyki zbiór taki powinien posiadać następujące cechy:

Próby określenia cech charakterystycznych korpusu językowego były podejmowane przez jakimś sensie „konkurencyjne” ośrodki, co doprowadziło do braku powszechnego konsensusu w tej kwestii. Szczególnie wyraźnie rzuca się w oczy odmienne spojrzenie na kryterium „skończoności” korpusu, co wypływa stąd, że ośrodek w Birmingham jest gorącym orędownikiem idei korpusu otwartego - monitorującego, którego przykładem jest „Bank Języka Angielskiego”, a ośrodek w Lancaster postuluje korzystanie z korpusu o charakterze zamkniętym dla danego okresu czasu, czyli referencyjnego, (czego przykładem jest „Brytyjski Korpus Narodowy”). To rozróżnienie odnosi się do różnych typów korpusów językowych, które zostały omówione w następnej sekcji.

2. Przegląd klasyfikacji korpusów językowych

Zgodnie z omówionymi powyżej zasadami korpus językowy powinien posiadać odpowiednią charakterystykę. W oparciu o dodatkowe kryteria można wyróżnić się wiele rodzajów korpusów. Kryteria doboru tekstów mogą się skupiać na określanym fragmencie rzeczywistości językowej i stąd korpus może zawierać, na przykład, teksty pisane, mówione, współczesne, z poprzednich epok, w jednym lub wielu językach, a także w przypadku korpusów wielojęzycznych teksty z więcej niż jednego języka.

W tym miejscu należałoby jednak wspomnieć o podejściu, w którym twórcy korpusu jako podstawowe kryterium doboru tekstów przyjmują dostępność zasobów, rezygnując tym samym z określenia innych kryteriów mających reprezentować dany obszar języka. Utworzony w ten sposób korpus jest niekiedy określany jako korpus oportunistyczny. Takie zbiory tekstu są niekiedy wykorzystywane w badaniach językoznawczych, ponieważ stanowią tania alternatywę dla korpusów referencyjnych. Należy jednak podkreślić, że część językoznawców odżegnuje się od tego podejścia twierdząc, że tym wypadku nie można mówić o korpusie językowym, a jedynie o przypadkowym zbiorze tekstów w formacie elektronicznym.

2.1 “Ogólne” i “specjalistyczne” korpusy językowe

Korpus ogólny stanowi próbę odwzorowania języka na poziomie podstawowym, powszechnym, z pominięciem specjalistycznych żargonów, czy dialektów, jakie mogą w jego obszarze występować. Typowym przykładem korpusów ogólnych są korpusy referencyjne, takie jak np. Brytyjski Korpus Narodowy. Natomiast, korpus specjalistyczny stanowi próbę odwzorowania języka używanego przez określoną grupę ludzi w określonych sytuacjach. Możemy mieć zatem do czynienia z korpusami starającymi się odwzorować język używany w ekonomii i biznesie lub w kontekstach prawnych. Możemy także spotkać się z korpusami zawierającymi żargon nastolatków lub przykłady języka używanego przez nierodzimych użytkowników danego języka na różnym poziomie zaawansowania jego nauki. Cechą charakterystyczną korpusu specjalistycznego jest to, że skupia się on na odwzorowaniu jakiejś niestandardowej odmiany języka.

W praktyce specjalistyczne korpusy językowe są często tworzone na potrzeby projektów leksykograficznych dotyczących terminologii specjalistycznej jakiejś określonej dziedziny lub żargonu charakterystycznego dla pewnej grupy społecznej. Przykładem korpusu specjalistycznego jest korpus angielskojęzyczny korpus COLT (Corpus of London Teenage Language) opracowany w norweskim uniwersytecie w Bergen. (Więcej informacji o tym korpusie w Internecie pod adresem: http://helmer.aksis.uib.no/colt/. Korpus ten skupia się wyłącznie na języku używanym przez nastolatków w wieku 13-17 lat zamieszkujących okolice Londynu. Stanowi zatem próbę odzwierciedlenia żargonu specyficznego dla pewnej, precyzyjnie określonej grupy osób.

2.2 Korpusy zawierające teksty w całości a korpusy „próbkowane”

W pewnych przypadkach może wystąpić sytuacja, że aby uzyskać jak największą reprezentatywność i różnorodność zbieranych danych językowych do utworzenia korpusu wykorzystuje się dużą liczbę fragmentów tekstów o określonej wielkości, z pominięciem ich pozostałych części, co ułatwia i przyśpiesza procedurę zbierania zasobów. W takim przypadku możemy mówić o korpusie próbkowanym. Przykładem takiego korpusu jest amerykański korpus Browna (Kucera & Francis 1979), zawierający 500 fragmentów artykułów prasowych, z których każdy obejmował ok. 2000 słów. Przeważnie jednak w korpusach umieszczane są teksty w ich całkowitym brzmieniu.

2.3 Zbilansowane korpusy referencyjne oraz „monitorujące” korpusy językowe

Zadaniem korpusu referencyjnego jest dostarczanie jak najbardziej wszechstronnych informacji o języku w określonym punkcie czasu. Korpus taki musi być odpowiednio duży, aby reprezentować jak największą różnorodność odmian występujących w obszarze danego języka i dawać przez to jak najbardziej ogólny, zobiektywizowany obraz słownictwa, frazeologii, etc. występujących w danym języku. Model doboru tekstów w przypadku takiego korpusu jest najczęściej bardzo rozbudowany, próbując uwzględnić jak najwięcej parametrów o charakterze socjolingwistycznym, które umożliwią jak najpełniejsze odwzorowanie rzeczywistości językowej.

Dąży się przy tym do odpowiedniego zbilansowania poszczególnych odmian języka w całości zasobów tekstowych zawartych korpusie tak, aby jak najlepiej oddać naturalne proporcje występujące w języku. W rzeczywistości postulat naturalnego zbilansowania zasobów jest niejednokrotnie trudny do osiągnięcia ze względów praktycznych i stosowane proporcje bywają wręcz odwrotne do proporcji występujących naturalnie w języku, np. w Brytyjskim Korpusie Narodowym teksty pisane stanowią aż 90%, a mówione jedynie 10%, choć stanowi to odwrócenie rzeczywistości.

Po zakończeniu kompilacji korpus referencyjny ma charakter zamknięty i stanowi próbę odwzorowania języka używanego w na przestrzeni ściśle określonego zakresu czasu, reprezentowanego przez teksty w nim zebrane. Maksymalizację reprezentatywności najłatwiej uzyskać za pomocą odpowiednio dużej ilości tekstów, zatem korpusy tego typu mają niejednokrotnie wielkości przekraczające setki milionów słów. Najlepszym przykładem zbilansowanego korpusu referencyjnego jest BNC.

Istnieje jednak odrębne podejście do tworzenia korpusów mających stanowić jak najlepsze odwzorowanie danego języka, które zwraca uwagę na specyficzne potrzeby leksykografii, której jednym z podstawowych zadań jest odnotowywanie i dokumentowanie zmian zachodzących w języku. Aby zaspokoić tę potrzebę wymagany jest korpus dynamicznie odzwierciedlający zmiany zachodzące w języku, przez stałe aktualizacje za pomocą nowych tekstów, zawierających nowe słowa wchodzące do języka, które mogą być dzięki temu rejestrowane i śledzone. Zadaniem takiego korpusu jest stałe monitorowanie zmian zachodzących w języku i stąd jego nazwa: korpus monitorujący. Najlepszym przykładem korpusu monitorującego jest Bank Języka Angielskiego („Bank of English” - http://titania.cobuild.collins.co.uk/boe_info.html), który w styczniu 2002 roku osiągnął wielkość 450 milionów słów, lecz stale są do niego dodawane nowe materiały.

2.4 Korpusy języka pisanego i mówionego

Częściej występują korpusy zawierające teksty pisane, ponieważ te są o wiele łatwiejsze do zdobycia, zwłaszcza w związku z upowszechnieniem tekstu elektronicznego. Zapisy języka mówionego, a w szczególności naturalnych, nieskrępowanych rozmów mających miejsce na co dzień między ludźmi są o wiele trudniejsze do zdobycia. Nierzadko wiąże się to z koniecznością zatrudnienia osób do pracy nad dokonywaniem nagrań i ich transkrypcją, co pociąga za sobą ponoszenie znacznych kosztów. W związku z tymi problemami korpusy języka mówionego występują rzadziej.

2.5 Korpusy jedno- i wielojęzyczne

Jak sama nazwa wskazuje korpusy jednojęzyczne zawierają teksty należące do jednego języka, natomiast korpusy wielojęzyczne stanowią zbiór w dwóch lub więcej językach. Korpus wielojęzyczny (w odróżnieniu od dwóch odrębnych korpusów jednojęzycznych w różnych językach) musi spełniać określone kryteria łączące występujące w nim teksty. Stąd wyróżniamy dwa rodzaje takich korpusów: równoległe i porównywalne, omówione poniżej.

2.6 Równoległe i porównywalne korpusy językowe

Choć tym specyficznym korpusom został poświęcony cały następny rozdział, warto przestawić tutaj ich podstawowe rozróżnienie. Otóż, korpus równoległy to taki, który zawiera teksty oraz ich przekłady na język obcy. Natomiast, korpus porównywalny zawiera odrębne teksty rodzime w różnych językach, które zostały dobrane za pomocą ściśle określonych cech (tematyka, styl, medium publikacji, data powstania, etc.), dzięki czemu są do siebie pod wieloma względami podobne - innymi słowy, są ze sobą „porównywalne” według pewnych kryteriów.

2.7 Korpusy zawierające sam tekst oraz korpusy z indeksami

Częstokroć korpusy językowe zawierają jedynie sam tekst, tzn. elektroniczny zapis treści dokumentu bez żadnych dodatkowych oznaczeń. Jednak wiele korpusów posiada indeksy, które mogą udostępniają dodatkowe informacje o tekście w takich kategoriach jak:

hospitality_NN is_BEZ an_AT excellent_JJ virtue_NN ,_, but_CC not_XNOT when_WRB the_ATI guests_NNS have_HV to_TO sleep_VB in_IN rows_NNS in_IN the_ATI cellar_NN !_!

Korpus posiadający znaczniki jest bogatszy w porównaniu do korpusu zawierającego sam tekst, z którego takie informacje językowe można uzyskać jedynie pośrednio za pomocą przeprowadzenia wymaganej w tym celu odpowiedniej analizy. Stosowanie znaczników ułatwia proces analizowania informacji zawartych w korpusie.

2.8 Synchroniczne i diachroniczne korpusy językowe

Większość zbieranych korpusów językowych ma charakter synchroniczny, czyli skupia się nad różnymi aspektami języka współczesnego, istnieją jednak korpusy diachroniczne, umożliwiające analizę historyczną rozwoju języka na przestrzeni dziejów. Najbardziej znanym przykładem korpusu diachronicznego jest Korpus Diachroniczny, opracowany w Uniwersytecie w Helsinkach (http://www.hd.uib.no/helinfo.html). Korpus ten obejmuje ok. 1,6 miliona słów języka angielskiego począwszy od zapisów najstarszych, datujących się sprzed 850 r. n.e. do zakończenia okresu wczesnego współczesnego języka angielskiego w roku 1710. Korpus Helsiński ma charakter reprezentatywny, ponieważ obejmuje swoim zakresem różne gatunki, odmiany regionalne oraz takie czynniki różnorodności społecznej, jak płeć, wiek, wykształcenie i pochodzenie społeczne.

4



Wyszukiwarka

Podobne podstrony:
Prawo samorządu terytorialnego, Samorząd - historia i geneza, istota i znaczenie pojęcia, cechy i ro
cechy i rodzaje emocji
cechy i rodzaje przewodzenia impulsów nerwowych
II wyklad organizacja cechy, rodzaje
Emocje ich istota, żródła, cechy i rodzaje
29.autyzm- rodzaje i cechy, specjalna- egzamin
rodzaje i cechy podmiotu gospodarczego (10 str), Ekonomia, ekonomia
Rodzaje komunikacji i ich charakterystyczne cechy, Inny stuff, Psychologia, Komunikacja niewerbalna
JĘZYK I JEGO CECHY POJĘCIE SYSTEMU JĘZYKOWEGO ZNAKOWY CHARAKTER JĘZYKA ELEMANTY SEMIOTYKI RODZAJE Z
RODZAJE WYSIŁKU FIZYCZNEGO
rodzaje ooznaczen i ich ochrona
Cechy niemetryczne czaszki
rodzaje struktur rynkowych 2
rodzaje diet
Rodzaje zanieczyszczeń środowiska
rodzaje wi za
Rodzaje fundamentów

więcej podobnych podstron