(5) Słowa nieistotne
Są to typowe stówa bez większego znaczenia, takie jak: „jest” „ten” (an, the), etc. Czy takimi stówami są również rodzajniki, spójniki, przyimki itp.:“a”, “and”, “of”, “the”, itd. niewprowadzane do bazy danych systemu wyszukiwawczego? Niektóre systemy wyszukiwawcze publikują listy swoich stów nieistotnych (np. Deja News), inne informują użytkownika, które wprowadzone przez niego słowa zostaną zignorowane w wyszukiwaniu.
(6) Sprawdzanie wielkości liter
Czy można żądać, aby system uwzględniał w wyszukiwaniu duże i matę litery? A jest to szczególnie pożyteczne, kiedy poszukujemy imion własnych, np. Beethoven.
(7) Poszukiwanie pól
Czy system wyszukiwawczy uwzględnia w wyszukiwaniu przynależność danego terminu do jakiegoś pola, np. jako tytut? Jeśli system wyszukiwawczy pozwala na wyszukiwanie wedtug pól, to pola te mają inny charakter niż pola w komercyjnych bazach danych jak np. IAC PROMT, gdzie można wyszukiwać nazwy firmy, opis, nazwę lub kod produktu, określenie działalności, obszar geograficzny itd., czyli wedtug pól które umożliwiają dość wysoką precyzję w procesie wyszukiwawczym. Taka precyzja jest bez porównania gorsza w typowych internetowych systemach wyszukiwawczych, ponieważ pola, które można przeszukiwać wykorzystują strukturę strony WWW: np.: tytuł zawarty między znacznikami <TITLE> ...</TITLE> lub URL, odwołanie hipertekstowe, obraz, tekst itp.
(8) Wyszukiwanie według daty
Czy system wyszukiwawczy pozwala na określenie daty tak, by można było uzyskać najaktualniejsze rekordy?
Kolejny zbiór kryteriów dotyczy wyprowadzania i wyświetlania danych. Jedną z najbardziej istotnych problemów jest ustalenie stopnia relewantności, co omówimy w miarę obszernie.
Hierarchia stopnii relewancji
Większość systemów wyszukiwawczych wyprowadza dane sytuujące najbardziej relewantne na samym początku listy (zwykle opatrzone arbitralną liczbą punktów - 1000) pozostałe szeregując w porządku malejącym. Aby ustalić tę hierarchię, systemy wyszukiwawcze kierują się dwiema zasadami: (1) położeniem terminu wyszukiwawczego. (2) częstotliwością występowania tego terminu.
(1) Szperacz systemu przeszukując strony Internetowe tworzy indeks słów ze stron Internetowych wskazujący, gdzie słowo zostało znalezione i w jakim miejscu tekstu się pojawiło. Jeśli w tytule lub nagłówku, szperacz przyporządkuje takiemu słowu większą wagę, niż gdyby pojawiło się w dalszej części tekstu. Tym samym termin uznawany jest za bardziej wartościowy, jeśli pojawia się w miejscach uznanych za relewantne.
(2) Im częściej termin pojawia się w dokumencie, tym większą wartość ma dany dokument (strona WWW) jako potencjalna odpowiedź na pytanie zawierające ten termin.
9