3784500543

3784500543



242 Jarosław Grainacki, Artur Gramacki

Tabela 11. Wynik podsumowania tekstu z tabeli 10 w postaci 3 najistotniejszych zdań

24

What if it were possible to extend the power and advantages of relational database Systems to all coiporate information. including text and other unstructured data ?

7

Over the last decade. organizations have imested heavily in Systems that enable rapid access to structured data stored in database systems.

2

Oracle Text uses standard SQL to index, search. and analyze text and documents stored in the Oracle database. in files, and on the Web.

Tabela 12. Wynik podsumowania tekstu z tabeli 10 w postaci 10 najistotniejszych słów scarch, oracie, data, system, infonnation, Corporation, database, text, organization. multiplc_

Najistotniejsze termy wyraźnie wyróżniają się. Jest to z pewnością m.in. zasługą sprawnego (i jednoznacznego - brak powtórzeń) stemmera języka angielskiego. Najistotniejsze zdania są słabiej identyfikowalne. Spowodowane jest to stosunkowo małą liczbą zdań w' analizowanym tekście (jak na potrzeby automatycznego budowania podsumowania).

Przykład 2

Przykład 1 był oparty o bardzo krótki tekst i jego podsumow'anie miało na celu tylko pokazanie zasady działania metody, niż uczynienie go użytecznym. Jako drugi przykład wybrano dosyć długi tekst z portalu „Duży Format” Gazety Wyborczej [GW]. W przeciwieństwie do pierwszego tekstu, ten jest napisany w języku polskim. Jest to reporterski opis dosyć szalonej samotnej podróży dziennikarza Jacka Hugo-Badera z Moskwy na daleką Syberię. Z tekstu usunięto słowa ze stop listy. Tekst nie został poddany stemmingowd (trudności z uwzględnieniem powtórzeń bardzo wielu słów). Otrzymana macierz TSM ma wymiary 2231 x 429. Jest ona bardzo rzadka - niezero-we wartości w macierzy to zaledwie 0,31% wszystkich jej elementów.

Po wykonaniu obliczeń analogicznych do tych z przykładu 1, otrzymano 10 zdań, które tworzą podsumowanie tekstu - pokazano je w tabeli 13. Jeśli czytelnik zapozna się tekstem źródłowym, to prawdopodobnie przyzna, że automatycznie wykonane, w sumie bardzo krótkie, podsumowanie dosyć dobrze oddaje istotę reportażu. W pierwszej kolumnie umieszczono numery kolejne zdań. Zachowano kolejność zdań otrzymywanych w rozwiązaniu. Widać, że ważność zdań podsumowania „skacze” dosyć swobodnie w obrębie tekstu składającego się w sumie z 429 zdań.



Wyszukiwarka

Podobne podstrony:
236 Jarosław Grainacki. Artur Gramacki 43    [C] Practical Methods for Optimal Contro
240 Jarosław Gramacki. Artur Gramacki Tabela 10. Przykładowy dokument, który należy podsumować:
Tabela 11 Preferencje strategiczne w przekładzie polskich frazeologizmów w postaci kanonicznej na ję
234 Jarosław Gramacki, Artur Gramacki opisane w poprzednich rozdziałach. Następnym krokiem jest znal
238 Jarosław Gramacki, Artur Gramacki Rys. 6. Wzajemne położenie tytułów książek w 2-wymiarowej
244 Jarosław Gramacki. Artur Gramacki5. Oracle Text Moduł Oracle Text (OT) to instalowany jako opcja
228 Jarosław Gramacki, Artur Gramacki 0
230 Jarosław Gramacki. Artur Gramacki2.1. Stop lista Procedura usuwania słów nieistotnych jest
232 Jarosław Gramacki. Artur Gramacki3.1. Struktura TF*IDF Główna modyfikacja podstawowej struktury
0000031 2 64 Leki neuroleptyc/ne Tabela 3.11. Ostre poneurololeptyczne reakcje dystoniczne (tzw. dys
skanuj0008 (214) Tabela 11-Ia Czas potrzebny do zabicia przetrwalników Clostridium botuli-num w
skanuj0013 (353) ZARYS WIEDZY O TURYSTYCE    — 137 — Tabela 11. Przyjazdy cudzoziemcó
img119 Tabela 7.11 Czas krzepnięcia osocza (w minutach) mierzony czterema metodami u dziesięciu
img245 Tabela 11.2 Tablica analizy wariancji w przypadku dwuczynnikowym jednowymiarowym Sumy

więcej podobnych podstron