244 Jarosław Gramacki. Artur Gramacki
Moduł Oracle Text (OT) to instalowany jako opcja serwera bazodanowego Oracle produkt służący do bardzo efektywnego indeksowania oraz przeszukiwania tekstowych (lub dających się do takich sprowadzić) zasobów przechowywanych w bazie danych. Przeszukiwanie odbywa się z poziomu języka SQL, co czyni moduł bardzo wygodnym w pracy z ogólnie pojętymi aplikacjami bazodanowy mi. Nie będziemy w tym miejscu opisywać szczegółów związanych z podstawową funkcjonalnością modułu (chodzi tu głównie o tworzenie specjalizowanych indeksów oraz tzw. preferencji). Skupimy się natomiast na przedstawieniu kilku możliwości modułu OT związanych z tematyką artykułu.
Wymienione w tytule podrozdziału elementy bardzo ściśle wiążą się z omawianą tu funkcjonalnością modułu OT. Korzystamy z nich poprzez procedury dostępne w pakiecie CTX_DOC. Służą one do automatycznego generowania z danych wejściowych słów kluczowych (w module OT nazywa się je themes) oraz generowania podsumowań (tu: gists) z ew. uwzględnieniem lingwistycznej hierarchii słów kluczowych zawartych w wewnętrznych strukturach modułu OT zwanych Knowledge Base (KB).
W module OT knowledge base dostępne jest jedynie dla języków angielskiego i francuskiego. Jest to drzewiasta struktura składająca się z sześciu głównych gałęzi:
1. science and technology,
2. business and economics,
3. govemment and military,
4. social environment,
5. geography,
6. abstract ideas and concepts,
które rozwijają się dalej w strukturę drzew iastą. Przykładowo: główny węzeł science and technology rozwija się w takim kierunku: hardSciences —>physics —>cosmology —gastronomy —>cele-stial bodies —>planets. Cala struktura KB jest bardzo rozbudowana. Zawiera ok. 250.000 węzłów oraz ok. 500.000 słów (termów)1. Posiada maksymalny stopień zagłębienia drzewa równy 16. Oprócz „zwykłych” słów, zaw iera ona również nazwy własne, wyrażenia oraz skróty (np. często podawana w dokumentacji nazwa w łasna „Bill Clinton”, wyrażenie „political geography”, skrót I.B.M.). Oracle posiada również stosowne narzędzia do ew. rozbudowywania i/lub modyfikacji standardowo dostarczanych KB, jak również narzędzia do tworzenia KB w dowolnym języku. Niewielki fragment KB dla języka angielskiego pokazano w tabeli 15.
Tabela 15. Fragment Knowledge Base modułu Oracle Text dla dwóch głównych gałęzi science and technology oraz business and economics
Branch 1: science and technology |
Branch 2: business and economics |
[1] hard Sciences |
[1] corporale business |
[2] Computer industty |
[2] coiporate finance |
[3] information technology |
[3] accountancy |
[41 databases |
Struktury KB wykorzystywane są przy generowaniu themes dla analizowanego tekstu. Odbywa się to w taki sposób, że przeglądane są słowa tekstu i on-line następuje ich „dopasowywanie” do zwartości KB. Na tej podstawie ustalany jest ranking termów i 50 z nich o najw iększej wadze
Jest więcej tennów niż węzłów, gdyż w KB uwzględnione są np. synonimy.