Miejsce i cele lingwistyki informatycznej we współczesnej nauce
1. Historia LI. Przedmiot LI.
2. Taktyczne zadania, narzędzia i etapy LI.
3. Sztuczna inteligencja
Maciej Piasecki, Cele i zadania lingwistyki informatycznej, LEXIS, Kraków 2008
252 Lingwistyka informatyczna wyłoniła się z potrzeby budowania systemów informatycznych analizujących w pewien sposób wypowiedzi w języku naturalnym i rzadko kiedy określa się, czym powinna się zajmować.
Początek: negatywne wnioski komitetu Automatic Language Processing Advisory Commitee (1966) dotyczące dalszych perspekryw rozwoju automatycznego tłumaczenia. ...konieczność przesunięcia środków finansowych na bardziej fundamentalne badania w zakresie modeli języka naturalnego i przetwarzania języka naturalnego. Tak się jednak nie stało, fundusze zostały wstrzymane na długi czas... [Została nazwa Computational Lingwistics]
253 Ruslan Mitkov określa ogólnie LI jako „interdyscyplinarną dyscyplinę zajmującą się przetwarzaniem jezyka przez komputery”. Zygmunt Saloni w Encyklopedii językoznawstwa ogólnego (Polański 1993) postrzega LI jako sztukę tworzenia technologii pomocnych w uprawianiu lingwistyki oraz jako dziedzinę zajmującą się konstruowaniem systemów przetwarzających język naturalny. ...nacisk jest położony raczej na metody przetwarzania niż na modele opisujące język. ...wyłania sie silna dominacja zagadnień związanych z budową programów przetwarzajacych język naturalny. W tym ujęciu LI jest po prostu częścią sztucznej inteligencji.
254 (Bień 2006): Przez lingwistykę informatyczną rozumiemy badanie jezyka naturalnego z punktu widzenia potrzeb i możliwości przetwarzania tekstów.
Bonnie Webber (2001) wychodzi od PJN jako szerokiej dziedziny obejmującej wszystko, co ma cokolwiek wspólnego z zastosowaniem komputerów do analizy wyrażeń w języku naturalnym. Następnie formuluje dwa podstawowe cele PJN:
- modelowanie ludzkiego rozumienia i generacji języka naturalnego jako systemu procesów przetwarzajacych informację. Prace w tej dziedzinie są zwykle nazywane lingwistyką informatyczną;
- wyposażenie komputerów w mechanizmy analizy i generowania jezyka naturalnego w celu dostarczenia użytecznej usługi. Prace w tej dziedzinie były nazywane stosowanym przetwarzaniem języka naturalnego, inżynierią języka naturalnego lub ostatnio technologią językową.
W ujęciu Webber LI i inżynieria języka naturalnego to dwie poddziedziny PJN.
Jeszcze dalej w stronę lingwistyki przesuwa LI Roland Hausser (2001), który jako podstawę LI postrzega modelowanie komunikacji człowieka z komputerem. Według Haussera, LI powinna koncentrować sie na konstruowaniu modeli wyjaśniających „naturalny przekaz informacji” w sposób: spójny funkcjonalnie, precyzyjny matematycznie i efektywny obliczeniowo.
Uśredniając, należałoby lokować LI w obszarze sztucznej inteligencji. Można jednak postawić przekorne pytanie: po co nam wtedy „lingwistyka”w nazwie tej poddziedziny informatyki?
...proponuję przyjąć dwa ostatnie, współczesne głosy, tj. Hausser, Webber. Upraszczając znacznie: LI jest dziedziną wiedzy zajmującą się tworzeniem „implementowanych” modeli jezyka.
255 Celem LI jest konstruowanie modeli opisujących język naturalny jako narzędzie komunikacji. Modeli, które biorą pod uwagę adekwatność empiryczną opisu, możliwości realizacyjne po stronie informatyki oraz skuteczność działania w konkretnych zastosowaniach. Lingwistyka informatyczna stanowi pomost pomiędzy nieograniczoną utylitarnym celem lingwistyką ogólną a skoncentrowaną na metodach przetwarzania sztuczną inteligencją...
Taktyczne zadania, narzędzia i etapy LI.
255 Chyba najlepszym bodźcem do rozwiju LI są marzenia, aby zbudować urządzenie, system czy też program komputerowy o nieosiągalnych do tej pory własnościach. ...aktualnie w ramach takich wymarzonych rozwiązań można wymienić:
- system potrafiący znaleźć w sieci WWW dokładnie te i tylko te informacje, których potrzebuje jego użytkownik; system, któremu możemy dokładnie opisać to, czego potrzebujemy; wydobywanie informacji (information extraction)
- system, który potrafi uczyć się z tekstowych podręczników...;
- system umożliwiający dostep do informacji zapisanej w innym języku naturalnym niż języki znane użytkownikowi.., tzn, system zapewniający pewien rodzaj automatycznego automatycznego tłumaczenia;
- system umożliwijący prosta głosowąkomunikację z komputerem.
257 Systemy przetwarzające język naturalny, budowane w różnych celach oraz konstruowane według róznych metod, charakteryzują się znacznym zróżnicowaniem pod względem kolejnych etapów przetwarzania. Niemniej można wyznaczyć pewne typowe etapy, pojawiające się dostatecznie często. Nieprzypadkowo nawiązują one do poziomów opisu jezyka naturalnego wyróżnianych w lingwistyce: fonologicznego, morfologicznego, składniowego, semantycznego i pragmatycznego.
258 Typowe etapy przetwarzania języka naturalnego w ramach hipotetycznego systemu informatycznego w pełni analizującego wypowiedź językową w kontekście to:
- rozpoznawanie mowy - zamiana dźwięku na zapis tekstu,
- tokenizacja i segmentacja - wydzielenie w tekście podstawowych niepodzielnych jednostek oraz podział tekstu na bloki strukturalne (np. zdania), [261 ...mówimy o tokenach - najmniejszych być - byłem, ś; on (doń); by, że, się ]
- analiza morfosyntaktyczna - formalny opis poszczególnych tokenów
- ujednoznaczenie sensu słów,
- analiza składniowa,
- analiza sematyczna,
- analiza dyskursu.
http://pl.wikipedia.org/wiki/Sztuczna_inteligencja
Sztuczna inteligencja
Wizualna metafora sztucznej inteligencji
Sztuczna inteligencja (ang. Artificial Intelligence - AI) - nauka obejmująca zagadnienia logiki rozmytej, obliczeń ewolucyjnych, sieci neuronowych, sztucznego życia i robotyki. Sztuczna inteligencja to dział informatyki, którego przedmiotem jest badanie reguł rządzących inteligentnymi zachowaniami człowieka, tworzenie modeli formalnych tych zachowań i - w rezultacie - programów komputerowych symulujących te zachowania. Można ją też zdefiniować jako dział informatyki zajmujący się rozwiązywaniem problemów, które nie są efektywnie algorytmizowalne.
Sztuczna inteligencja ma dwa podstawowe znaczenia:
jest to hipotetyczna inteligencja realizowana w procesie inżynieryjnym, a nie naturalnym;
jest to nazwa technologii i dziedzina badań naukowych informatyki na styku z neurologią, psychologią i ostatnio kognitywistyką oraz także systemiką, a nawet z współczesną filozofią.
Głównym zadaniem badań nad sztuczną inteligencją w drugim znaczeniu jest konstruowanie maszyn i programów komputerowych zdolnych do realizacji wybranych funkcji umysłu i ludzkich zmysłów niepoddających się prostej numerycznej algorytmizacji. Problemy takie bywają nazywane AI-trudnymi i zalicza się do nich między innymi:
podejmowanie decyzji w warunkach braku wszystkich danych
analiza i synteza języków naturalnych
rozumowanie logiczne/racjonalne,
dowodzenie twierdzeń,
gry logiczne, jak np. szachy
Historia badań
AI jako dział badań naukowych zaczęła się w latach 50. XX wieku kiedy to powstało pierwsze laboratorium AI na Uniwersytecie Carnegie Mellon, założone przez Allena Newella i Herberta Simona i kilka lat później analogiczne laboratorium w Massachusetts Institute of Technology, założone przez Johna McCarthy'ego. Oba te laboratoria są wciąż wiodącymi ośrodkami AI na świecie.
Termin sztuczna inteligencja został po raz pierwszy zaproponowany prawdopodobnie przez Johna McCarthy'ego, który w 1955 r. zdefiniował go w następujący sposób:
"konstruowanie maszyn, o których działaniu dałoby się powiedzieć, że są podobne do ludzkich przejawów inteligencji".
Istnieją dwa podstawowe podejścia do pracy nad AI:
Pierwsze to tworzenie modeli matematyczno-logicznych analizowanych problemów i implementowanie ich w formie programów komputerowych, mających realizować konkretne funkcje uważane powszechnie za składowe inteligencji. W tej grupie, tzw. podejścia symbolicznego, są np. algorytmy genetyczne, metody logiki rozmytej i wnioskowania bazującego na doświadczeniu.
Drugie to podejscie subsymboliczne polegające na tworzeniu struktur i programów "samouczących się", bazujących na modelach sieci neuronowej i sieci asocjacyjnych, oraz opracowywanie procedur "uczenia" takich programów, rozwiązywania postawionych im zadań i szukania odpowiedzi na wybrane klasy "pytań".
W trakcie wieloletniej pracy laboratoriów i zespołów AI stosujących oba podejścia do problemu, okazało się, że postęp w tej dziedzinie jest i będzie bardzo trudny i powolny. Często mimo niepowodzeń w osiąganiu zaplanowanych celów, laboratoria te wypracowywały nowe techniki informatyczne, które okazywały się użyteczne do zupełnie innych celów. Przykładami takich technik są np. języki programowania LISP i Prolog. Laboratoria AI stały się też "rozsadnikiem" kultury hakerskiej.
Najnowsze podejście do problemów AI to rozwijanie różnych form inteligencji rozproszonej (wzorowanej na organizacjach ludzkich, np. personoidy oraz tzw. agentów autonomicznych i "inteligentnych". Dziedzina ta nosi nazwę Technologii Agentów Inteligentnych (ang. Intelligent Agent Technology).
Technologie oparte na logice rozmytej - powszechnie stosowane do np. sterowania przebiegiem procesów technologicznych w fabrykach w warunkach "braku wszystkich danych".
Systemy ekspertowe - systemy wykorzystujące bazę wiedzy (zapisaną w sposób deklaratywny) i mechanizmy wnioskowania do rozwiązywania problemów.
Maszynowe tłumaczenie tekstów - systemy tłumaczące nie dorównują człowiekowi, robią intensywne postępy, nadają się szczególnie do tłumaczenia tekstów technicznych.
Sieci neuronowe - stosowane z powodzeniem w wielu zastosowaniach łącznie z programowaniem "inteligentnych przeciwników" w grach komputerowych.
Uczenie się maszyn - dział sztucznej inteligencji zajmujący się algorytmami potrafiącymi uczyć się podejmować decyzje bądź nabywać wiedzę.
Eksploracja danych - omawia obszary, powiązanie z potrzebami informacyjnymi, pozyskiwaniem wiedzy, stosowane techniki analizy, oczekiwane rezultaty.
Rozpoznawanie obrazów - stosowane są już programy rozpoznające osoby na podstawie zdjęcia twarzy lub rozpoznające automatycznie zadane obiekty na zdjęciach satelitarnych.
Rozpoznawanie mowy i rozpoznawanie mówców - stosowane już powszechnie na skalę komercyjną.
Rozpoznawanie pisma (OCR) - stosowane już masowo np. do automatycznego sortowania listów, oraz w elektronicznych notatnikach.
Sztuczna twórczość - istnieją programy automatycznie generujące krótkie formy poetyckie, komponujące, aranżujące i interpretujące utwory muzyczne, które są w stanie skutecznie "zmylić" nawet profesjonalnych artystów, w sensie, że nie rozpoznają oni tych utworów jako sztucznie wygenerowanych.
W ekonomii, powszechnie stosuje się systemy automatycznie oceniające m.in. zdolność kredytową, profil najlepszych klientów, czy planujące kampanie reklamowe. Systemy te poddawane są wcześniej automatycznemu uczeniu na podstawie posiadanych danych (np. klientów banku, którzy regularnie spłacali kredyt i klientów, którzy mieli z tym problemy).
Czego nie udało się dotąd osiągnąć mimo wielu wysiłków
Programów skutecznie wygrywających w niektórych grach. Jak dotąd nie ma programów skutecznie wygrywających w go, brydża sportowego i polskie warcaby, mimo że podejmowano próby ich pisania. Trzeba jednak przyznać, że programy do gry w szachy, w które zainwestowano jak dotąd najwięcej wysiłku i czasu spośród wszystkich tego rodzaju programów, osiągnęły bardzo wysoki poziom, ogrywając nawet mistrza świata Garriego Kasparowa w maju 1997.
Programu, który by umiał idealnie naśladować człowieka, rozmawiając przy użyciu tekstu i potrafiłby przejść test Turinga. Istnieją programy do konwersacji z komputerem, ale każdy człowiek, który miał z nimi wcześniej do czynienia, w krótkim czasie jest w stanie zorientować się, że rozmawia z maszyną, a nie innym człowiekiem.
Programu, który potrafiłby skutecznie generować zysk, grając na giełdzie. Problemem jest masa informacji, którą taki program musiałby przetworzyć i sposób jej kodowania przy wprowadzaniu do komputera. Mimo wielu prób podejmowanych w tym kierunku (zarówno w Polsce jak i na całym świecie), z użyciem sztucznej inteligencji nie da się nawet odpowiedzieć na pytanie, czy jest możliwe zarabianie na giełdzie, bez podawania samego przepisu jak to zrobić. Prawdziwym problemem w tym przypadku może być fakt, że nie istnieje żadna zależność między danymi historycznymi, a przyszłymi cenami na giełdzie (taką tezę stawia hipoteza rynku efektywnego). Gdyby hipoteza ta była prawdziwa, wtedy nawet najlepiej przetworzone dane wejściowe nie byłyby w stanie wygenerować skutecznych i powtarzalnych zysków. Mimo wszystko, cel wydaje się bliski osiągnięcia. Na rynku istnieją fundusze hedgingowe, które osiągają regularne zyski a ich decyzjami inwestycyjnymi nie kieruje człowiek, lecz metoda matematyczna
Programu skutecznie tłumaczącego teksty literackie i mowę potoczną. Istnieją programy do automatycznego tłumaczenia, ale sprawdzają się one tylko w bardzo ograniczonym stopniu. Podstawową trudnością jest tu złożoność i niejasność języków naturalnych, a w szczególności brak zrozumienia przez program znaczenia tekstu.