szperacz sprawdza połączenia hipertekstowe, co może trwać dodatkowo od 1 dnia do kilku miesięcy.
(7) Głębokość
Odnosi się to do liczby stron badanych przez szperacza przy ustaleniu połączeń ze stroną dołączoną. Według Search Engine Watch systemy wyszukiwawcze działają na dwa sposoby: (a) bez ograniczeń, (b) przez pobieranie próbek. W pierwszym przypadku szperacz będzie starał się zlokalizować każdą stronę na określonym komputerze bazowym Internetu i zaindeksować ją. W drugim przypadku system wyszukiwawczy pobiera próbkę stron WWW z określonego serwera WWW. Liczba pobieranych próbek różni się w zależności od systemów wyszukiwawczych. Oczywiście im większa jest liczba pobieranych stron WWW, tym lepiej reprezentowany jest dany serwer. Według Search Engine Watch istnieją ograniczenia uniemożliwiające pełne indeksowanie stron WWW. Niektóre systemy wyszukiwawcze nie dają sobie rady z: ramkami, obrazkami, hasłami zabezpieczającymi komputery bazowe oraz dynamicznymi stronami WWW1, które nie są indeksowane.
(8) Popularność połączeń hipertekstowych
Niektóre systemy wyszukiwawcze ustalają, czy dany serwer WWW jest popularny, tj. czy istnieje wiele odesłań do niego z innych stron. Popularność połączeń hipertekstowych może być wykorzystana przez system wyszukiwawczy w celu ustalenia, czy informacja o danej stronie zawiera się w bazie danych, czy też nie. Niestety popularność połączeń hipertekstowych nie ma nic wspólnego z ich jakością: dana strona WWW może być popularna, ale może nie mieć większej wartości merytorycznej.
Search Engine Watch podaje również mniej istotne np.: akceptowalność przez system wyszukiwawczy ograniczeń wprowadzonych przez zbiór zwany robot.txt zainstalowany na przeszukiwanym przez szperacza serwerze, szybkości uczenia się, która wskazuje, czy robot może „uczyć się” zmian zachodzących na danym serwerze) oraz odesłań (czy dany serwer, który odsyła użytkownika do innego serwera wykorzystuje adresy URL z odesłań czy z pierwotnej strony). Wszystkie te dane są zbierane przez Search Engine Watch i wydaje się mało prawdopodobnym, żeby można je było znaleźć na serwerach wszystkich systemów wyszukiwawczych. Jeśli ktoś jest zainteresowany tymi danymi, to warto ponieść koszty subskrypcji informacji dostarczanych przez Search Engine Watch.
Kolejne kryteria oceny baz danych systemów wyszukiwawczych dotyczą zbiorów (gopher, ftp, Usenet itd.), które przeszukuje robot tworząc swoją bazę danych. Przy zgłaszaniu stron, trzeba wiedzieć, czy system wyszukiwawczy zaakceptuje je, kiedy tworzona jest baza danych systemu wyszukiwawczego, czy strony WWW są indeksowane automatycznie, czy w zależności tylko od kaprysów danego szperacza i jego algorytmu wyszukiwawczego, czy strona zgłaszana jest przez użytkowników, czy o jej wprowadzeniu do bazy danych decyduje jakiś inny „czynnik ludzki”.
Ważne jest również to, czy indeksowany jest cały tekst dokumentu czy tylko jego część (np. URL2, tytuł, nagłówek, pierwsze 1000 słów tekstu). Większość systemów wyszukiwawczych nie odróżnia, czy dany serwer WWW po-
6
Danny Sullivan, Search Engine Watch, http://searchenginewatch.com/webmasters/ features.html, „Search Engine Features Comparison Chart." Accessed April 22, 1999.
Uniform Resource Locator (Uniwersalny Identyfikator Zasobów Internetowych)