242 Jarosław Grainacki, Artur Gramacki
Tabela 11. Wynik podsumowania tekstu z tabeli 10 w postaci 3 najistotniejszych zdań
24 |
What if it were possible to extend the power and advantages of relational database Systems to all coiporate information. including text and other unstructured data ? |
7 |
Over the last decade. organizations have imested heavily in Systems that enable rapid access to structured data stored in database systems. |
2 |
Oracle Text uses standard SQL to index, search. and analyze text and documents stored in the Oracle database. in files, and on the Web. |
Tabela 12. Wynik podsumowania tekstu z tabeli 10 w postaci 10 najistotniejszych słów scarch, oracie, data, system, infonnation, Corporation, database, text, organization. multiplc_
Najistotniejsze termy wyraźnie wyróżniają się. Jest to z pewnością m.in. zasługą sprawnego (i jednoznacznego - brak powtórzeń) stemmera języka angielskiego. Najistotniejsze zdania są słabiej identyfikowalne. Spowodowane jest to stosunkowo małą liczbą zdań w' analizowanym tekście (jak na potrzeby automatycznego budowania podsumowania).
Przykład 2
Przykład 1 był oparty o bardzo krótki tekst i jego podsumow'anie miało na celu tylko pokazanie zasady działania metody, niż uczynienie go użytecznym. Jako drugi przykład wybrano dosyć długi tekst z portalu „Duży Format” Gazety Wyborczej [GW]. W przeciwieństwie do pierwszego tekstu, ten jest napisany w języku polskim. Jest to reporterski opis dosyć szalonej samotnej podróży dziennikarza Jacka Hugo-Badera z Moskwy na daleką Syberię. Z tekstu usunięto słowa ze stop listy. Tekst nie został poddany stemmingowd (trudności z uwzględnieniem powtórzeń bardzo wielu słów). Otrzymana macierz TSM ma wymiary 2231 x 429. Jest ona bardzo rzadka - niezero-we wartości w macierzy to zaledwie 0,31% wszystkich jej elementów.
Po wykonaniu obliczeń analogicznych do tych z przykładu 1, otrzymano 10 zdań, które tworzą podsumowanie tekstu - pokazano je w tabeli 13. Jeśli czytelnik zapozna się tekstem źródłowym, to prawdopodobnie przyzna, że automatycznie wykonane, w sumie bardzo krótkie, podsumowanie dosyć dobrze oddaje istotę reportażu. W pierwszej kolumnie umieszczono numery kolejne zdań. Zachowano kolejność zdań otrzymywanych w rozwiązaniu. Widać, że ważność zdań podsumowania „skacze” dosyć swobodnie w obrębie tekstu składającego się w sumie z 429 zdań.