Wyklad1 2008 handout


Informacje ogólne
Dyżury:
Narzędzia informatyczne w językoznawstwie
Środa, 17:30 - 18:30, CN 315B
Wprowadzenie
Kontakt:
E-Mail: junczys@amu.edu.pl
Marcin Junczys-Dowmunt
junczys@amu.edu.pl
Tel.: +48 600 213 050
Zakład Logiki Stosowanej
Materiały do wykładu:
http://www.logic.amu.edu.pl
Prezentacje do wykładów oraz polecenia do zadań domowych będą
pojawiały się dzień po wykładzie na:
8. pazdziernika 2008
http://www.logic.amu.edu.pl Dydaktyka Marcin
Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie
Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 1/47 Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 2/47
Zasady zaliczenia Cele wykładu
Wykład kończy się egzaminem
Pytania takie jak w zadaniach domowych
%
Będziemy się skupiać na językoznawstwie wspomaganym
Wymagania minimalne
komputerowo (computer-aided linguistics), nie na
%
Trzeba zebrać 60 punktów za zadania domowe (zaliczenie).
językoznawstwie komputerowym (computational linguistics)
%
Zadania domowe należy dostarczyć e-mailem lub osobiście na
%
Jednym z celów wykładu jest zaznajomienie słuchaczy
wykładach.
technologiami oraz standardami informatycznymi, które
%
Nie można zdobyć więcej niż 10 punktów za jedno zadanie
można stosować w językoznawstwie.
domowe.
%
Innym celem jest doprowadzanie słuchaczy do takiego stopnia
zaawansowania, że będą w stanie sami stworzyć potrzebne
Jak ominąć egzamin?
narzędzia, jeżeli takie nie będą publicznie dostępne.
%
Zebranie 100 punktów za zadania domowe zwalnia z egzaminu
z oceną  dobry .
%
Każde dodatkowe 20 punktów podwyższa ocenę o pół stopnia.
Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 3/47 Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 4/47
Wstępny plan wykładu I Wstępny plan wykładu II
%
Wprowadzenie do HTML i XHTML
%
Praca na poziomie Wiersza poleceń
%
XML
%
%
Wprowadzenie do PERL
Opis a dane
%
% Standardy opisu danych lingwistycznych
Podstawowe polecenia kontrolne
%
% Edytory XML
Podstawowe struktury danych
%
% Wyczytywanie, przetwarzanie, generowanie XML
Operacje wejścia-wyjścia
%
DTD i XML-Scheme *
%
Przetwarzanie tekstów wielojęzycznych
%
Transformacje XML czyli XSLT *
%
Standardy kodowania i Unicode
%
Internet jako korpus
%
Ujednolicanie kodowania
%
% Wady i zalety internetu pojmowanego jako korpus
Kodowanie a Edytory tekstu
%
% Wyszukiwanie danych lingwistycznych w internecie
Kodowanie a (X)HTML (czyli kodowanie w internecie)
%
% Automatyczne  ściąganie stron internetowych
Kodowanie a PERL
%
Automatyczne czyszczenie stron
%
Wyrażenia regularne
%
Wyrażenia regularne w Edytorach tekstu
%
Wyrażenia regularne w PERL
Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 5/47 Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 6/47
Wstępny plan wykładu III Zadanie domowe
1.1. Ściągnąć i zainstalować w domu następujące programy:
EmEditor Free 6.00.4 Darmowa (i niestety okrojona) wersja
edytora tekstu umożliwiającego wczytywanie dużych
%
Niektóre metody kwantytatywne w lingwistyce korpusowej *
plików tekstowych. Podświetla składnie różnych
%
Narzędzia do automatycznej annotacji lingwistycznej *
języków, w tym HTML, XML, PERL, C++ itp.
%
Przechowywanie danych lingwistycznych *
Link na stronie przedmiotu
%
Elementy lingwistyki komputerowej *
ActivePerl 5.10 Dystrybucja języka skryptowego PERL dla
wszystkich wersji Windowsa
Link na stronie przedmiotu
Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 7/47 Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 8/47
Charakteryzacja danych lingwistycznych wg. G. Simonsa1
Każde narzędzie informatyczne działające na danych
lingwistycznych musi brać pod uwagę następujące aspekty:
Część I
%
Wielojęzyczność danych lingwistycznych
%
Sekwencyjność danych lingwistycznych
Dane lingwistyczne a komputer
%
Hierarchiczność danych lingwistycznych
%
Wielowymiarowość danych lingwistycznych
%
Wysoki stopień sprzężenia danych lingwistycznych
1
Simons, Gary F. 1998. The Nature of Linguistic Data and the
Requirements of a Computing Enviroment for Linguistic Research. In Using
Computers in Linguistics: a practical guide, John M. Lawler and Helen Arister
Dry (eds.). London and New York: Routledge
Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 9/47 Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 10/47
Charakteryzacja danych lingwistycznych wg. G. Simonsa Wielojęzyczność danych lingwistycznych
%
Każdy fragment tekstu wprowadzony do komputera jest
wprowadzany w jakimś języku (naturalnym bądz formalnym)
Każde narzędzie informatyczne działające na danych
%
Dane z którymi pracujemy my językoznawcy zawierają często
lingwistycznych musi brać pod uwagę następujące aspekty:
informacje w różnych językach
%
Wielojęzyczność danych lingwistycznych
Przykłady
%
Sekwencyjność danych lingwistycznych
%
Słowniki bilingwalne (układ równoległy)
%
Hierarchiczność danych lingwistycznych
%
Rozprawy językoznawcze (układ zagnieżdżony)
%
Wielowymiarowość danych lingwistycznych
%
Korpusy równoległe
%
Wysoki stopień sprzężenia danych lingwistycznych
%
Prace tanslatorskie
%
Podręczniki
%
...
Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 11/47 Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 12/47
Problemy wynikające z wielojęzyczności Częściowe rozwiązania problemu
%
Problemy z wyświetlaniem tekstów wielojęzycznych
%
Problem brakujących lub niepoprawnych informacji o
kodowaniu
Jak było kiedyś ...
%
Problem brakujących czcionek
%
Problem niedostosowania programu do wyświetlania tekstów
%
Zestaw znaków ograniczony do 128 kodów (7 bitów)
wielojęzycznych
%
np. w kodowaniu ASCII: 65 A , 66 B , 126 <"
%
Problemy z wprowadzaniem tekstów wielojęzycznych
%
Różne rozszerzenia (8 bitówm, 256 kodów) np. ISO 8859-1,
%
Na klawiaturze jest tylko 105 klawiszy
ISO 8859-2, CP 1250 ...
%
Standardowa strona kodowa nie zawiera potrzebnych znaków
%
Program nie pozwala na zmianę ustawień kodowania
%
Ponieważ było tylko 256 możliwych kodów, trzeba było
%
Program nie jest przystosowany do innych alfabetów, pism
zmieniać przyporządkowania
sylabicznych lub ideograficznych
%
Problemy z przetwarzaniem tekstów wielojęzycznych
%
Komplikacje przy mieszaniu kodowań w jednym pliku
%
Wewnętrzna konwersja na kodowanie bardziej uniwersalne
Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 13/47 Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 14/47
Nieco lepsze rozwiązanie problemu Niektóre problemy pozostają
Jak być powinno ... Unicode
%
W jaki sposób można wygodnie wprowadzić 99 089 znaków?
%
W tej chwili standard Unicode obejmuje 99 089 znaków
%
Istnieje wiele tysięcy czcionek, ale mniej niż tuzin obejmuje
%
Jest miejsce na ponad milion dalszych
większość standardu Unicode
%
Numery są przydzielone grafemom, nie glyfom
%
Trzeba nadal korzystać z wyspecjalizowanych czcionek, np. dla
%
Istnieją plany włączenia wszystkich systemów znakowych
pisma chińskiego, pisma Rongorongo ...
%
Zawiera np. egipskie hieroglify, pismo Majów, pismo
Więcej o standardzie Unicode i historii kodowań na pózniejszych
Rongorongo z Wysp Wielkanocnych (niezrozumiane) itp.
wykładach
%
Zawiera oprócz pism klasycznych inne systemy znakowe np.
pismo Braille a, alfabet IPA, symbole matematyczne itp.
Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 15/47 Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 16/47
Charakteryzacja danych lingwistycznych wg. G. Simonsa Sekwencyjność danych lingwistycznych - w czasie
Każde narzędzie informatyczne działające na danych
%
lingwistycznych musi brać pod uwagę następujące aspekty: Wypowiedzi i tekst są produkowane i odbierane w czasie
%
Tzn. przy jakiejkolwiek segmentacji danych językowych na
%
Wielojęzyczność danych lingwistycznych
elementy (fonemy, litery, znaki, morfemy, wyrazy, frazy, zdania
%
Sekwencyjność danych lingwistycznych
itd.) mamy określoną czasowe następstwo tych elementów
%
Hierarchiczność danych lingwistycznych
%
Czyli mamy do czynienia z pewną sekwencje elementów
%
Wielowymiarowość danych lingwistycznych
(zależnych od wybranej segmentacji)
%
Wysoki stopień sprzężenia danych lingwistycznych
Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 17/47 Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 18/47
Sekwencyjność danych lingwistycznych - w przestrzeni Sekwencyjność danych lingwistycznych - w przestrzeni
Gdy musimy przechowywać dane lingwistyczne, następstwo
Pismo tradycyjne
czasowe (konieczne dla człowieka) jest często reprezentowane w
%
zupełnie inny sposób
Tekst pisany/drukowany na papierze: sekwencje przestrzenne z
określonym kierunkiem, np. dla języków europejskich od lewej
Mowa nagrana analogowo
do prawej, od góry w dół, kartki są wertowane od przodu do
%
Mowa w postaci danych analogowych na taśmie magnetycznej tyłu
lub na płytach winylowych
%
Wiemy, że taki rozkład nie jest oczywisty np.
%
Dane lingwistyczne w postaci elektro-magnetycznej
Japoński książki wertowane od tyłu do przodu, tekst
sekwencyjnie rozłożone na taśmie
pisany od góry do dołu
%
Dane lingwistyczne w postaci rowków na płycie winylowej,
Arabski tekst pisany od prawej do lewej
rozłożonych przestrzennie w formie spirali
...
Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 19/47 Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 20/47
Sekwencyjność danych lingwistycznych - dane cyfrowe Problemy wynikające z sekwencyjności
%
Wydaję się oczywiste, że musimy zachować informacje o
% sekwencyjności na różnych poziomach (litery, wyrazy, zdania,
W ostateczności mamy jeden sposób segmentacji danych
akapity, rozdziały)
cyfrowych: na bity i bajty
%
% Jednak reprezentacja sekwencyjna jest pewnie najmniej
Również dane cyfrowe są sekwencyjne, jednak trudno mówić o
wydajna pod względem wyszukiwania informacji
kierunku zapisu (w zasadzie zależy od nośnika danych)
%
Z dokładnością do kodowania (poprzedni dział o
Pytanie
wielojęzyczności) możemy założyć, że tekst w każdym języku
jest cyfrowo zapisywany w ten sam sposób, nieważne czy to
%
Czy indeks w książce jest zorganizowany według
Polski, Japoński czy Rongorongo
sekwencyjności treści tej książki?
%
Poprawne wyświetlanie tekstów w tych językach jest sprawą
%
Odpowiedz: NIE
oprogramowania
%
Układ według innych kryteriów: tutaj alfabet i odsyłacze w
postaci numerów stron
Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 21/47 Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 22/47
Problemy wynikające z sekwencyjności Wyszukiwanie informacji
Pytanie 2
%
Wyobrazmy sobie pełny indeks, który zawiera wszystkie
wyrazy książki i oprócz numerów stron, numery wierszy i
Można więc działać na dwa sposoby:
pozycję wyrazu w wierszu. Czy taki indeks pozwala na
%
Wyszukiwać sekwencyjnie
odczytanie książki?
%
Indeksować i szukać niesekwencyjnie
%
Odpowiedz: TAK
%
Ale będzie okropnie niewygodne i nieefektywne. Niemniej
informacje o sekwencyjności zostały zachowane
%
Za to potrafimy znalezć każdy pojedyncze wyraz w dosyć
szybki sposób (jednak nie jest to optymalny sposób)
Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 23/47 Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 24/47
Wyszukiwanie sekwencyjne Wyszukiwanie według indeksu
%
Tworzymy jednorazowo indeks do wielokrotnego użytku
%
Polega na porównywaniu kolejnych elementów tekstu do
%
Polega na porównywaniu kolejnych elementów indeksu do
wzorca
wzorca (gdy mamy inteligentny indeks to możemy od razu
%
Wyszukiwanie kończy się, gdy znajdziemy element pasujący do
znalezć odpowiedni element)
wzorca lub gdy dotrzemy do końca pliku
%
Wyszukiwanie kończy się, gdy znajdziemy element pasujący do
%
Każde kolejne wyszukiwania zaczynamy od punktu wyjścia
wzorca (nastąpi skok do wyznaczonego miejsca w tekście) lub
(niekoniecznie od początku tekstu)
gdy indeks nie zawiera pasujących wpisów
%
%
Ciekawe narzędzie: wyrażenia regularne w edytorach tekstu
Kolejne wyszukiwania nie wymagają przemieszczania się do
lub w PERLu
punktów wyjścia w tekście
%
Narzędzia: darmowe programy indeksujące lub PERL
Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 25/47 Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 26/47
Która metoda jest lepsza? Charakteryzacja danych lingwistycznych wg. G. Simonsa
To zależy od naszych potrzeb
Każde narzędzie informatyczne działające na danych
% lingwistycznych musi brać pod uwagę następujące aspekty:
Gdy mamy wielkie zbiory tekstów lepiej jest indeksować
%
Dla małych zbiorów nie zawsze się opłaca indeksować
%
Wielojęzyczność danych lingwistycznych
%
Za to wyrażenia regularne są o wiele bardziej elastyczne
%
Sekwencyjność danych lingwistycznych
%
Za pomocą indeksów znajdziemy tylko te informacje, które
%
Hierarchiczność danych lingwistycznych
zostały uwzględnione w trakcie budowy indeksu
%
Wielowymiarowość danych lingwistycznych
Można też mieszać oba podejścia jak to ma miejsce w
%
Wysoki stopień sprzężenia danych lingwistycznych
profesjonalnych narzędiach korpusowych, np. TigerSearch, Poliqarp
Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 27/47 Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 28/47
Struktura danych lingwistycznych Hierarchiczność danych lingwistycznych
Hierarchia jest jedną z podstawowych koncepcji w językoznawstwie.
%
Dane lingwistyczne są mocno ustrukturalizowane
Przykłady
%
Dotyczy to dane prymarne, które zbieramy i badamy
%
Analizy składniowe zdań (czyli drzewa składniowe)
%
Dotyczy to również dane opisowe zawierające nasze analizy i
%
Analiza tekstu (np. podział na rodziały, które zawierają
interpretacje.
akapity, które zawierają zdania, które zawierają ...)
%
Jednym rodzajem struktury, to hierarchia
%
Struktura słownika (wpisy składające się ze znaczeń,
%
Pozostałe to wielowymiarowość i sprzężenie danych
zawierające przykłady)
lingwistycznych
%
...
Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 29/47 Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 30/47
Hierarchia a sekwencyjność Przykład - Słownik
abacus noun [ L. abacus from Greek abax ] pl. -cuses, or -ci
1. a frame with beads sliding back and forth on wires for doing
arithmetics
%
Niestety programy najbardziej rozpowszechnione (np.
2. in architecture, a slab forming the top of the capitol of a
Microsoft Word) nie nadają się do przetwarzania opisów
column
hierarchicznych
% abaft adverb
Są one przystosowane do sekwencyjnego przetwarzania
dokumentów
1. in the direction of the stern, astern
%
Rodzaje hierarchii są ustalone z góry lub bardzo ograniczone
abandon verb
(rodziały, podrozdziały, akapity i co dalej?)
1. to leave completely and finally; forsake utterly; desert: to
%
Dalsze poziomy hierarchii są zależne od formatu
abandon one s farm; to abandon a child; to abandon a sinking
ship.
2. to give up; discontinue; withdraw from: to abandon a research
project; to abandon hopes for a stage career.
Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 31/47 Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 32/47
Opis hierarchi za pomocą XML Przykład - Słownik
%
XML (ang. Extensible Markup Language) to uniwersalny język
formalny przeznaczony do reprezentowania różnych danych w
ustrukturalizowany sposób abacus noun [ L. abacus from Greek abax ] pl. -cuses, or -ci
%
XML jest niezależny od platformy (Każdy dokument XML to 1. a frame with beads sliding back and forth on wires for doing
tak naprawdę zwykły plik tekstowy) arithmetics
%
XML jest rekomendowany oraz specyfikowany przez 2. in architecture, a slab forming the top of the capitol of a
organizację W3C. column
%
XML może być przekształcany do wielu innych formatów (np.
HTML, DOC, PDF) za pomocą XSL (ang. Extensible
Stylesheet Language)
Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 33/47 Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 34/47
Przykład - Słownik XML Przykład - Artykuł

Naukowcy alarmują: studia są grozne
abacus
dla zdrowia
L. abacus from Greek abax
PAP 13:15
pl. -cuses, or -ci
Wyprowadzenie się z domu i konieczność dostosowania się do

nowych warunków życia i obcego otoczenia to wyzwania,
n
przed którymi staje wielu młodych ludzi rozpoczynających
a frame with beads sliding back and forth
studia. [...]
on wires for doing arithmetics


Artykuł na ten temat ukazał się w pazdziernikowym numerze

 Journal of Youth and Adolescence .
n
Badania prowadzono wśród studentek University of Alberta. Część
in architecture, a slab forming the top
z nich - grupa pierwsza - pochodziła z odległych miejscowości, inne
of the capitol of a column

 grupa druga  przynajmniej pierwszy rok studiów spędziły w

domu rodzinnym. [...]

Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 35/47 Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 36/47
Przykład - Artykuł XML Specifikacje niektórych standardów za pomocą XML

Naukowcy alarmują: studia są grozne dla<br>XHMTL (ang. Extensible HyperText Markup Language) język<br>zdrowia
służący do tworzenia stron WWW. XHTML jest

następcą HTML
PAP
TEI (ang. Text Encoding Initiative) jest standardem

elektronicznej reprezentacji tekstu wraz z informacją

o jego treści
Wyprowadzenie się z domu i konieczność
dostosowania się do nowych warunków życia i obcego
XCES (ang. XML Corpus Encoding Standard) wersja XML
otoczenia to wyzwania, przed którymi staje wielu
znanego standardu CES
młodych ludzi rozpoczynających studia.

TMX (ang. Translation Memory eXchange), standard
Artykuł na ten temat ukazał się w
elektroniczny służący do zapisu pamięci tłumaczeń
pazdziernikowym numerze "Journal of Youth and
Adolescence".


Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 37/47 Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 38/47
XML a przetwarzanie Charakteryzacja danych lingwistycznych wg. G. Simonsa
Każde narzędzie informatyczne działające na danych
lingwistycznych musi brać pod uwagę następujące aspekty:
%
Niestety przetwarzanie XML nie jest zawsze łatwe
%
Wielojęzyczność danych lingwistycznych
%
Ale istnieją specjalne programy oraz moduły do PERL
%
Sekwencyjność danych lingwistycznych
%
Jeden taki moduł nosi optymistyczną nazwę XML::Simple
%
Hierarchiczność danych lingwistycznych
%
Wielowymiarowość danych lingwistycznych
%
Wysoki stopień sprzężenia danych lingwistycznych
Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 39/47 Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 40/47
Wielowymiarowość danych lingwistycznych Przykład
%
Zwykła sekwencja tekstu jest jednowymiarowa
SURF: Litwo Ojczyzno moja Ty jesteś jak zdrowie
%
Dodając hierarchię pojawia się drugi wymiar
%
Rożne sposoby interpretacji tekstu odpowiadają kolejnym
wymiarom, np.
%
Intonacja w mowie
%
Znaczenie gramatyczne wyrazów
%
Semantyka
%
Pragmatyka
%
...
Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 41/47 Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 42/47
Przykład Przykład
SURF: Litwo Ojczyzno moja Ty jesteś jak zdrowie SURF: Litwo Ojczyzno moja Ty jesteś jak zdrowie
LEM: Litwa ojczyzna mój ty być jak zdrowie LEM: Litwa ojczyzna mój ty być jak zdrowie
POS: PN N P P V C N
Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 42/47 Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 42/47
Przykład Przykład
SURF: Litwo Ojczyzno moja Ty jesteś jak zdrowie SURF: Litwo Ojczyzno moja Ty jesteś jak zdrowie
LEM: Litwa ojczyzna mój ty być jak zdrowie LEM: Litwa ojczyzna mój ty być jak zdrowie
POS: PN N P P V C N POS: PN N P P V C N
MORF: voc:sg:f voc:sg:f voc:sg:f nom:sg:f 3:pres:sg:f - nom:sg:n MORF: voc:sg:f voc:sg:f voc:sg:f nom:sg:f 3:pres:sg:f - nom:sg:n
FON:
Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 42/47 Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 42/47
Przykład I znowu XML


Litwo
Litwa
SURF: Litwo Ojczyzno moja Ty jesteś jak zdrowie
PN
LEM: Litwa ojczyzna mój ty być jak zdrowie

POS: PN N P P V C N
vocative
MORF: voc:sg:f voc:sg:f voc:sg:f nom:sg:f 3:pres:sg:f - nom:sg:n
femininum
FON:
singular
SEM: country abstraction - - - - condition


country


...

Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 42/47 Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 43/47
Charakteryzacja danych lingwistycznych wg. G. Simonsa Wysoki stopień sprzężenia danych lingwistycznych
Każde narzędzie informatyczne działające na danych
%
Mamy tekst składający z kilku zdań; niektóre wyrazy
lingwistycznych musi brać pod uwagę następujące aspekty:
powtarzają się
%
Wielojęzyczność danych lingwistycznych
%
Zdanie traktujemy jako hierarchię zawierającą wyrazy, ale
%
Sekwencyjność danych lingwistycznych
gdzie umieścimy opisy wyrazów?
%
Hierarchiczność danych lingwistycznych %
Słownik zawiera niepowtarzające się dane o wyrazach
%
Wielowymiarowość danych lingwistycznych %
Zamiast umieszczać powtarzające się opisy wyrazów w zdaniu,
możemy korzystać z odsyłaczy do słownika
%
Wysoki stopień sprzężenia danych lingwistycznych
Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 44/47 Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 45/47
Bazy danych Podsumowanie
%
XML może modelować takie odsyłacze za pomocą
%
identyfikatorów numerycznych Widzieliśmy ile jest różnych aspektów pracy z danymi
lingwistycznymi
%
Nie jest to jednak wygodnym rozwiązaniem
%
Dane lingwistyczne mogą być bardzo różnorodne pod
%
Najbardziej naturalnym sposobem to relacyjne bazy danych
względem treści, formy, struktury, złożoności itp.
(MySQL, PostgreSQL, ...)
%
Możemy jednak liczyć na to, że znajomość standardów i
%
Ogólna zasada: nie powtarzamy wpisów, tylko tworzymy
narzędzi informatycznych pomoże nam w pracy naukowej i nie
odsyłacze (relacje)
tylko w naukowej
%
Zalety: np. wystarczy zmienić jeden wpis, żeby zaktualizować
%
Pierwszy standard, który poznamy na następnych zajęciach to
wszystkie wpisy wskazujące na niego, wydajny interfejs
(X)HTML
%
Wady: stworzenie takiej bazy jest trudniejsze niż stworzenie
np. pliku XML; utrata jawnej sekwencyjności danych
Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 46/47 Marcin Junczys-Dowmunt Narzędzia informatyczne w językoznawstwie 47/47


Wyszukiwarka

Podobne podstrony:
Wyklad04 2008 handout
Wyklad03 2008 handout
Wyklad2 2008 handout
Wyklad05 2008 handout
Poprzedni rok ETYKA WYKLADY 2008 czarno biale
Wyklad xmlparse handout
Wyklad04 2008
Wyklad V 2008
wyklady 2008 urban i plan przestrz
Wyklad5 2008
RACHUNKOWOSC WYKLAD 2008
Rynki finansowe WYKŁAD 2008
Wyklad03 2008
Wyklad2 2008
Wyklad05 2008
Wyklad I 2008
wykład t i 2008 1
wyklad 7 emocje stres niestacjonarne WSEiP 16 2008

więcej podobnych podstron