7862366410

pozostaje w sferze marzeń¹. Anafora polega na zastąpieniu w tekście użytego wcześniej stówa (regularnym) gramatycznym substytutem na przykład końcówkami fleksyjnymi lub zaimkami, takimi jak: „to”, „on”, “który". Na przykład internetowy zbiór WWW może zawierać następujące zdanie: “Einstein wrote the theory of relativity. He wrote it when he was middle-aged ”. Oczywiście słówko „fie” w drugim zdaniu odnosi się do Einsteina i słowo Einstein powinno otrzymać w tym wypadku dodatkowy „punkt” za częstość występowania. Powinno być ono liczone tyle razy, ile razy pojawi się językowy wykładnik odnoszący się do Einsteina. To samo dotyczy w naszym przykładzie wyrażenia „theory of relativity", którego wystąpienie powinno również zyskać dodatkowe punkty. Panuje przekonanie, że częstość występowania terminów jest dość dobrym instrumentem ustalania ich ważności, jednak psuje ono proces wyszukiwania (ustalania relewancji), bo systemy wyszukiwawcze nie uwzględniają anaforycznych odwołań w tekście.

Na ironię i oczywiście słusznie, starają się one zniechęcić użytkowników (lub nawet ich „karać”) do sztucznego zwiększania częstości występowania wyrazów w dokumencie np. przez powtarzanie ich w tytule lub wielokrotnego umieszczania na stronie prawie niezauważalnym dla oka krojem pisma (ale oczywiście zauważalnym dla systemów indeksujących).

Mimo niedoskonałego sposobu ustalania częstości występowania wyrazów w dokumencie, kryterium to stosuje się jako miarę ustalania ważności (re-lewantności do zadanego pytania) danego dokumentu oraz ustalania hierarchii ważności otrzymanych rezultatów wyszukiwań. Oceny rezultatów mogą się różnić: od całkowicie nierelewantnych w stosunku do zadanego przez użytkownika zapytania do „trafiających w samą dziesiątkę”. Dlaczego tak się dzieje? Przede wszystkim dlatego, że w porównaniu z tradycyjnymi systemami wyszukiwania informacji (wykorzystującymi OPAC lub bazy danych takie, jak Disclosure lub Medline), które są ograniczone co najmniej do określonej dziedziny wiedzy (rezultat nie może odpowiadać potrzebom poszczególnych użytkowników, ale przynajmniej stosuje się do tej samej dziedziny) systemy wyszukiwawcze w Internecie nie posiadają takich ograniczeń (niektóre technologie typu push próbują ustalić kontekst wyszukiwań przez wprowadzanie terminów związanych z kontekstem zapytania). Na przykład poszukiwanie informacji o rynnach (ang. gutter) może prowadzić do miejsc internetowych zawierających informacje o rynnach, antypornografii, alkoholizmie i wielu nie mających ze sobą nic wspólnego dokumentów. Uzyskuje się wiele odpowiedzi, które zawierają podany przez użytkownika termin, ale przeważnie nie zawierają informacji potrzebnej użytkownikowi. Rzecz w tym, że nie wydaje się możliwe uzyskanie „wysokiego stopnia relewancji” odpowiedzi w ten sam sposób, jak w tradycyjnych systemach wyszukiwawczych (przy uwzględnieniu szerokiego zakresu tematów, dziedzin). Zakrawa nawet na żart używanie tu terminu rele-wancja, ponieważ wiele internetowych dokumentów nie jest w żadnym stopniu relewantnych w stosunku do zadanego pytania, a w najlepszym przypadku stopień relewancji jest niejasny. Jest to kwestia do której omówienia teraz przejdziemy.

Najbardziej złożonym problemem dotyczącym systemów wyszukiwawczych jest proces tworzenia wyników wyszukiwania. Projektanci większości

Istnieją eksperymentalne systemy, które próbowały rozwiązać problem anaforycznych odwołań, ale ze względu na niedostępność dokumentacji nie do końca jest jasna zasada ich działania.