3784500546

3784500546



244 Jarosław Gramacki. Artur Gramacki

5. Oracle Text

Moduł Oracle Text (OT) to instalowany jako opcja serwera bazodanowego Oracle produkt służący do bardzo efektywnego indeksowania oraz przeszukiwania tekstowych (lub dających się do takich sprowadzić) zasobów przechowywanych w bazie danych. Przeszukiwanie odbywa się z poziomu języka SQL, co czyni moduł bardzo wygodnym w pracy z ogólnie pojętymi aplikacjami bazodanowy mi. Nie będziemy w tym miejscu opisywać szczegółów związanych z podstawową funkcjonalnością modułu (chodzi tu głównie o tworzenie specjalizowanych indeksów oraz tzw. preferencji). Skupimy się natomiast na przedstawieniu kilku możliwości modułu OT związanych z tematyką artykułu.

5.1. Themes, Gists, Knowledge Base

Wymienione w tytule podrozdziału elementy bardzo ściśle wiążą się z omawianą tu funkcjonalnością modułu OT. Korzystamy z nich poprzez procedury dostępne w pakiecie CTX_DOC. Służą one do automatycznego generowania z danych wejściowych słów kluczowych (w module OT nazywa się je themes) oraz generowania podsumowań (tu: gists) z ew. uwzględnieniem lingwistycznej hierarchii słów kluczowych zawartych w wewnętrznych strukturach modułu OT zwanych Knowledge Base (KB).

W module OT knowledge base dostępne jest jedynie dla języków angielskiego i francuskiego. Jest to drzewiasta struktura składająca się z sześciu głównych gałęzi:

1.    science and technology,

2.    business and economics,

3.    govemment and military,

4.    social environment,

5.    geography,

6.    abstract ideas and concepts,

które rozwijają się dalej w strukturę drzew iastą. Przykładowo: główny węzeł science and technology rozwija się w takim kierunku: hardSciences —>physics —>cosmology —gastronomy —>cele-stial bodies —>planets. Cala struktura KB jest bardzo rozbudowana. Zawiera ok. 250.000 węzłów oraz ok. 500.000 słów (termów)1. Posiada maksymalny stopień zagłębienia drzewa równy 16. Oprócz „zwykłych” słów, zaw iera ona również nazwy własne, wyrażenia oraz skróty (np. często podawana w dokumentacji nazwa w łasna „Bill Clinton”, wyrażenie „political geography”, skrót I.B.M.). Oracle posiada również stosowne narzędzia do ew. rozbudowywania i/lub modyfikacji standardowo dostarczanych KB, jak również narzędzia do tworzenia KB w dowolnym języku. Niewielki fragment KB dla języka angielskiego pokazano w tabeli 15.

Tabela 15. Fragment Knowledge Base modułu Oracle Text dla dwóch głównych gałęzi science and technology oraz business and economics

Branch 1: science and technology

Branch 2: business and economics

[1] hard Sciences

[1] corporale business

[2] Computer industty

[2] coiporate finance

[3] information technology

[3] accountancy

[41 databases

Struktury KB wykorzystywane są przy generowaniu themes dla analizowanego tekstu. Odbywa się to w taki sposób, że przeglądane są słowa tekstu i on-line następuje ich „dopasowywanie” do zwartości KB. Na tej podstawie ustalany jest ranking termów i 50 z nich o najw iększej wadze

1

Jest więcej tennów niż węzłów, gdyż w KB uwzględnione są np. synonimy.



Wyszukiwarka

Podobne podstrony:
234 Jarosław Gramacki, Artur Gramacki opisane w poprzednich rozdziałach. Następnym krokiem jest znal
236 Jarosław Grainacki. Artur Gramacki 43    [C] Practical Methods for Optimal Contro
238 Jarosław Gramacki, Artur Gramacki Rys. 6. Wzajemne położenie tytułów książek w 2-wymiarowej
240 Jarosław Gramacki. Artur Gramacki Tabela 10. Przykładowy dokument, który należy podsumować:
242 Jarosław Grainacki, Artur Gramacki Tabela 11. Wynik podsumowania tekstu z tabeli 10 w postaci 3
228 Jarosław Gramacki, Artur Gramacki 0
230 Jarosław Gramacki. Artur Gramacki2.1. Stop lista Procedura usuwania słów nieistotnych jest
232 Jarosław Gramacki. Artur Gramacki3.1. Struktura TF*IDF Główna modyfikacja podstawowej struktury
Jarosław Nocoń Artur LaskaTeoria Jarosław Nocoń Artur Laska Polityki Wprowadzenie
Jarosław Nocoń Artur LaskaTeoriaPolityki Wprowadzenie
Jarosław Nocoń Artur I.askaTeoriaPolityki Oprowadzenie
244 JAROSŁAW NOWASZCZUK nienia nie są dziś znane17. Z ich szkoły retorycznej pochodził Gorgiasz, 0
Stanisław Bożyk (red.) Andrzej Jackiewicz, Lech Jamróz Grzegorz Kryszert, Jarosław Matwiejuk Ar
READING MatchingTOPIĆ PeopleEXAM TIPS ►    First, read the text ąuickiy to get a gene
Jakiś nietypowy moduł w skuterze 4T był to koliber z Niemiec Gaszenie (stacyjka, Impulsator Cewka WN
Chapter 3: Using Oracle VM VirtualBoxOverview To set up SAS University Edition: 1)    

więcej podobnych podstron