Oba te kryteria, czyli położenie terminu oraz częstość jego występowania, chociaż mogą być pożyteczne, powodują wadliwość procesu wyszukiwania, gdyż próbują ustalać oceny merytoryczne dokumentów na podstawie ich cech fizycznych, takich jak częstość występowania terminu. Błędność tego podejścia wykażemy na dwa sposoby:
(A) Jeśli nawet termin pojawia się w istotnych częściach dokumentu, takich jak nagłówek, URL lub tytuł, to niekoniecznie oznacza to. że dokument ma wiele wspólnego z problemem oznaczanym tym terminem, może bowiem okazać się, że przywiązano do danego terminu zbyt dużą wagę Rozważmy komputer internetowy i jego URL www.webpagesthatsuck.com (następujące w opisie URL wyrażenia nie są prawdopodobnie rozkładane na pojedyncze słowa, ale wyrażenie “web pages that suck" pojawia się w polu tytułu). Jak łatwo się domyślić, ta strona WWW na pewno nie traktuje o korzyściach płynących z karmienia piersią, ale ponieważ słowo suck (oprócz „ssania” wyrażenie to oznacza w slangu, że coś jest nie w porządku) pojawia się w tytule lub URL (lub w obu naraz), system uznaje je za ważne, kiedy użytkownik wprowadza zapytanie na temat ssania (sucking) chcąc dowiedzieć się czegoś na temat karmienia piersią. Słowa z tytułu lub URL w zbiorach tekstów naukowych mogą mieć bezpośrednie odniesienie do treści dokumentów, nie musi tak jednak być w odniesieniu do nauk społecznych, sztuk pięknych lub nauk humanistycznych.
(B) Jeśli słowo nie pojawia się w tytule lub sekcji nagłówkowej dokumentu, to nie znaczy to, że dany dokument nie dotyczy oznaczanego nim problemu. Świetny artykuł Wayne’a Booth jest zatytułowany “The Company We Keep” (Firma, którą posiadamy) i trudno byłoby ustalić na podstawie tego tytułu, że artykuł ten jest wspaniałym opracowaniem na temat przeciwieństwa kultury słowa pisanego (drukowanego) i kultury wideo oraz że traktuje o radościach czytania i umiejętnościach, jakie wyrabia czytanie w przeciwieństwie do relatywnie zubożającego wyobraźnię oglądania filmów. Należy jednak przyznać, że przeszukiwanie katalogów rzeczowych oparte tylko na słowach zaczerpniętych z tytułu, mogłoby być równie trudne dla komercyjnych baz danych. Istnieją jednak inne drogi dostępu do tych baz, takie jak abstrakty, deskryptory lub identyfikatory, które nie są dostępne w Internecie (trudno bowiem nazwać abstraktem kilka pierwszych wierszy tekstu podawanego czasami przez Internetowe wyszukiwarki. W przyszłości sytuacja ta może ulec poprawie wraz z wykorzystaniem tzw. metaznaczników (metatags), takich jak słowa kluczowe (co zostało już zasugerowane przez Dublina Córa). Niestety nie istnieje możliwość mierzenia jakości różnych terminów w tytule, tak więc, z punktu widzenia szperacza każdy termin, tytuł lub URL jest równie ważny. W naszym przykładzie “web pages that suck” wyrazy: “web”, “pages” i “suck” są równie ważne i wyszukiwanie jednego z tych terminów umieściłoby tę stronę na liście wyników wyszukiwawczych.
Niestety częstość występowania słów jest równie mało przydatna przy określaniu relewancji terminów i jakości stron WWW. Wiele dokumentów w Internecie może często używać terminu „Internet” przy okazji ilustracji pewnych zasad, i tak nazwa zasady może zostać przysłonięta przez częstość użycia słowa, które pojawiało się jedynie w przykładach. Co gorsza, chociaż badania nad funkcjonowaniem anafory pozwoliły stworzyć systemy wyszukiwawcze uwzględniające odesłania anaforyczne, nadal ich zastosowanie w Internecie
10