7862366410

7862366410



pozostaje w sferze marzeń1. Anafora polega na zastąpieniu w tekście użytego wcześniej stówa (regularnym) gramatycznym substytutem na przykład końcówkami fleksyjnymi lub zaimkami, takimi jak: „to”, „on”, “który". Na przykład internetowy zbiór WWW może zawierać następujące zdanie: “Einstein wrote the theory of relativity. He wrote it when he was middle-aged ”. Oczywiście słówko „fie” w drugim zdaniu odnosi się do Einsteina i słowo Einstein powinno otrzymać w tym wypadku dodatkowy „punkt” za częstość występowania. Powinno być ono liczone tyle razy, ile razy pojawi się językowy wykładnik odnoszący się do Einsteina. To samo dotyczy w naszym przykładzie wyrażenia „theory of relativity", którego wystąpienie powinno również zyskać dodatkowe punkty. Panuje przekonanie, że częstość występowania terminów jest dość dobrym instrumentem ustalania ich ważności, jednak psuje ono proces wyszukiwania (ustalania relewancji), bo systemy wyszukiwawcze nie uwzględniają anaforycznych odwołań w tekście.

Na ironię i oczywiście słusznie, starają się one zniechęcić użytkowników (lub nawet ich „karać”) do sztucznego zwiększania częstości występowania wyrazów w dokumencie np. przez powtarzanie ich w tytule lub wielokrotnego umieszczania na stronie prawie niezauważalnym dla oka krojem pisma (ale oczywiście zauważalnym dla systemów indeksujących).

Mimo niedoskonałego sposobu ustalania częstości występowania wyrazów w dokumencie, kryterium to stosuje się jako miarę ustalania ważności (re-lewantności do zadanego pytania) danego dokumentu oraz ustalania hierarchii ważności otrzymanych rezultatów wyszukiwań. Oceny rezultatów mogą się różnić: od całkowicie nierelewantnych w stosunku do zadanego przez użytkownika zapytania do „trafiających w samą dziesiątkę”. Dlaczego tak się dzieje? Przede wszystkim dlatego, że w porównaniu z tradycyjnymi systemami wyszukiwania informacji (wykorzystującymi OPAC lub bazy danych takie, jak Disclosure lub Medline), które są ograniczone co najmniej do określonej dziedziny wiedzy (rezultat nie może odpowiadać potrzebom poszczególnych użytkowników, ale przynajmniej stosuje się do tej samej dziedziny) systemy wyszukiwawcze w Internecie nie posiadają takich ograniczeń (niektóre technologie typu push próbują ustalić kontekst wyszukiwań przez wprowadzanie terminów związanych z kontekstem zapytania). Na przykład poszukiwanie informacji o rynnach (ang. gutter) może prowadzić do miejsc internetowych zawierających informacje o rynnach, antypornografii, alkoholizmie i wielu nie mających ze sobą nic wspólnego dokumentów. Uzyskuje się wiele odpowiedzi, które zawierają podany przez użytkownika termin, ale przeważnie nie zawierają informacji potrzebnej użytkownikowi. Rzecz w tym, że nie wydaje się możliwe uzyskanie „wysokiego stopnia relewancji” odpowiedzi w ten sam sposób, jak w tradycyjnych systemach wyszukiwawczych (przy uwzględnieniu szerokiego zakresu tematów, dziedzin). Zakrawa nawet na żart używanie tu terminu rele-wancja, ponieważ wiele internetowych dokumentów nie jest w żadnym stopniu relewantnych w stosunku do zadanego pytania, a w najlepszym przypadku stopień relewancji jest niejasny. Jest to kwestia do której omówienia teraz przejdziemy.

Najbardziej złożonym problemem dotyczącym systemów wyszukiwawczych jest proces tworzenia wyników wyszukiwania. Projektanci większości

11

1

Istnieją eksperymentalne systemy, które próbowały rozwiązać problem anaforycznych odwołań, ale ze względu na niedostępność dokumentacji nie do końca jest jasna zasada ich działania.



Wyszukiwarka

Podobne podstrony:
CCI20101212019 5 201.5. Cięcie gumą. * Wycinanie gumą polega na zastąpieniu płyty tnącej poduszką g
Zasady i cele automatyzacji procesów Automatyzacja procesu polega na zastąpieniu oddziaływania
DSC00820 (6) I. Przełyk Barretta polega na zastąpieniu (metaplazji) nabłonka wielowarstwowego walcow
Algorytm ROT Algorytm ROT (od ang. „rotate") polega na zastąpieniu znaku ciągu innym znakiem
DSC00820 I. Przełyk Barrata polega na zastąpieniu (metapłazji) nabłonka wielowarstwowego walcowatego
IMG80 20 1.5. Cięcie gumą. Wycinanie gumą polega na zastąpieniu płyty tnącej poduszką gumową. Schem
stawiany w postaci chmury. Przetwarzanie w chmurze polega na zastąpieniu lokalnej informatyki w
Rozdział 1. Podstawy geologii 19 Proces karbonatyzacji polega na zastąpieniu krzemionki przez dwutle
Unifikacja - metoda normalizacji polegająca na zastąpieniu dwóch lub więcej odmian jedną odmianą
310 3 Ostatnia próba polega na sprawdzaniu maksymalnego napięcia utrzymywanego przez regulator podcz
2 (Kopiowanie) Grapa zadań polegających na analizie i interpretacji informacji podanych w tabeli, te
K 388b +50,0V. Pozostało ustawić pomiar prądu. Są dwie metody. Pierwsza polega na bardzo dokładnym z

więcej podobnych podstron