■>», od *»L ul i '?*!', e,eklronicMych rozpoczyna je od wyszukiwarki, natomiast tylko Ii Innu i -j i , i[Rosa 2005]. Na wysoką pozycję wyszukiwarek globalnych u o 77. elcklromcznych) wskazują lakże polskie badania [Jaskowska. Korycińskj. urw, rróchnicka 2009, s. 240]. Wyszukiwarka, jako narzędzie wyszukiwawcze, nie ma więc praktycznie konkurencji. Do słów wykorzystywanych w zapytaniach użytkowników slosujc się model long taił": istnieje niewielka liczba słów kluczowych, wykorzystywj. nych bardzo często i wielka liczba słów, stosowana znacznie rzadziej. Użytkownicy z wy. kle poprzestają na przeglądnięciu pierwszej strony (ekranu) wyników przedstawionych przez wyszukiwarkę, czyli na ogól pierwszych dziesięciu wyszukanych stronach Web, w tym średnio pięć stron jest przeglądanych (Spink, Janscn 2004, s. 101].
Podobne wyniki uzyskała w swoich badaniach Julie Hallmark, wskazując przy okazji na szybki wzrost wykorzystania cyfrowych zasobów dostępnych Online [Hallmark 2004], W 1998 r. 83% badanych przez nią specjalistów w dziedzinie chemii stosowało wyszuki-warki do przeszukiwania zasobów, jednak tylko 5% z nich korzystało także z publikacji w formie elektronicznej, raczej wybierając materiały drukowane. W 2002 r. wykorzysta-nie wyszukiwarek pozostało na podobnym poziomie (85%), jednak aż 96% odszukanych materiałów było czytanych w formie elektronicznej lub drakowanych z tej formy do późniejszego czytania.
Dirk Lewandowski zwraca, uwagę na przyczyny niepowodzeń podczas wyszukiwa-nia w Webie [Lewandowski 2005, s. 138-139]. Podstawową jest olbrzymi rozmiar Webu i konieczność indeksowania miliardów jego stron, o czym była mowa w p. 2.6. Liczba stron do indeksowania oraz ich dynamika powoduje, że indeksy wyszukiwarek są zwykle nieaktualne; wielkie wyszukiwarki częściej odwiedzają strony Web, ale również tu odstęp czasu pomiędzy kolejnymi indeksowaniami może dochodzić do 30 dni. Efektywne indeksowanie utrudnione jest też przez funkcjonowanie z jednej strony spamu, czyli obiektów niepotrzebnie indeksowanych, bo niechcianych, zaśmiecających indeksy wyszukiwarek, a z drugiej strony ukrytego Webu, czyli obiektów niemożliwych do zindeksowania; są to strony, do których dostęp jest zablokowany przez ich autorów (na przykład hasłem dostępu’*), którzy nie życzą sobie indeksowania (umieszczając odpowiednią etykietę w częścj Meta kodu), tworzone w locie (na przykład przez CGI). zbyt głęboko umieszczone w strukturze strony Web, a w końcu strony nie zawierające odnośników do innych stron i nie skupiające odnośników zewnętrznych.
Z punktu widzenia celu wyszukiwania informacji w Webie można wyróżnić dwa przypadki;
• Wyszukiwanie określonej pojedynczej, dobrze zdefiniowanej strony Web (pojedynczego zasobu sieciowego) odbywa się w trakcie poszukiwania na przykład strony określonej instytucji, projektu naukowego lub publikacji, której autor i tytuł jest znany użytkowni-
11 Long (iii Uługi ogon") jesl określeniem zjawisk występujących vv biznesie elektronicznym, związanych z różnicami pomiędzy działalnością na rynku tradycyjnym i elektronicznym. Główna różnica polega na opłacał* ności sprzedaży (dostarczenia) użytkownikowi nawet pojedynczego egzemplarza interesującego go przedmiotu (np. dokumentu). IV tradycyjnym handlu należało nastawić się na masową sprzedaż niewielkiej liczby produktów; obecnie, w handlu prowadzonym elektronicznie, gdzie zniknęły (lub znacznie zmalały) koszty migazy* nawania i dystry bucji jest obojętnie, czy zarabia się na sprzedaży wielkiej liczby egzemplarzy pojedynczych produktów (np. tytułów książek), czy też na sprzedaży pojedynczych egzemplarzy wielkiej liczby produktów. Dzięki temu przedsiębiorstwa typu Amazon (księgarnia) czy Google (reklamy) mogą znacznie lepiej dostosować woją ofertę do potrzeb użytkowników. Po raz pierwszy na to zjawisko uwagę zwrócił Chris Anderson (An-dmon 2004], Występuje ono także w bibliotekach oferujących swoim użytkownikom zdalne usługi (Dcmpscy
Dotyczy to większości komercyjnych stron zawierających treści o dostępnie płatnym, np. stron wydawców czasopism komercyjnych. Twórcy tych stron jednak coraz częściej dbają o ich właściwe indeksowanie przez wy-iwariu, dzięki czemu dostęp do dokumentów jest odpłatny, ale istnieje możliwość ich wyszukania poprzez wyszukiwarkę internetową, co zazwyczaj daje bezpłatny dostęp do metadanych, abstraktu i tp. informacji.
. \V tym przypadku wluściwe jest zastosowanie wyszukiwarki indeksującej calo<c k°' Web. typu Google. Dzięki algorytmom wyszukiwarek, po poprawnym sformu-/flS°njU zapytania, poszukiwana strona znajduje się zazwyczaj wiród kilku pierwszych tr'sów, wyświetlonych jako wynik wyszukiwania;
, ljWki'wanie informacji na wybrany temat, bez względu na źródło tej informacji i naj-1 'vs0jei formę zawierającego ją dokumentu. Wówczas, dla zapewnienia odpowiedniej ^koici wyszukiwanych obiektów, lepiej jest posłużyć się wyspecjalizowaną wyszuki-alką typu Google Scholar, Scinis10, CiteSeer". W dalszej kolejności przydatne może . . lokalne przeszukiwanie zasobów poszczególnych serwisów GBC. W odpowiedzi Rymujemy zazwyczaj bardzo obszerną grupę obiektów, zawierających bardzo zróżnicowane informacje, zarówno co do treści, jak i jakości, konieczna jest więc ich dalsza
Główna różnica pomiędzy dwoma powyższymi rodzajami procesów wyszukiwania po-ieEa na tym. iż w drugim przypadku wyszukiwania sieć Webje t traktowana jako „czarna Itrzynka". czy też nawet autonomiczny system ekspertowy, natomiast w pierwszym przy-dku wyszukiwania pojedynczych stron, struktura sieci jest istotna dla użytkownika.
^ Procesy wyszukiwania Web składają się z dwóch części:
, pierwsza, realizowana offiine, jest wykonywana okresowo przez wyszukiwarkę i polega na ściąganiu części zawartości Webu w celu stworzenia zestawu stron, które są następnie transformowane w indeks wyszukiwawczy.
, pmga, realizowana Online, jest wykonywana za każdym razem, gdy tworzona jest odpowiedź na zapytanie użytkownika; wówczas indeks wykorzystyw any jest do wyselekcjonowania zestawu dokumentów, sortowanych następnie według reguł określających stopień ich relcwancji z zapytaniem użytkownika.
Współczesne wyszukiwarki łączą różne sposoby wyszukiwania: wyszukiwanie proste, złożone, wspomagane, na podstawie katalogu stron, zapytania o strony podobne (query’by-example). Mają one zapewnić wzrost trafności wyszukiwania, gdyż właśnie ten element efektywności wyszukiwania jest według twórców Google głównym celem konstruktorów wyszukiwarki [Brin, Page 1998).
W wyniku starań o zapewnienie maksymalnej trafności wyszukiwania nastąpił rozwój wyszukiwarek wyspecjalizowanych. Web jest wykorzystywany przez bardzo różne osoby, i różnym przygotowaniem i potrzebami. Rozmiar Webu i setki tysięcy stron w odpowiedzi na każde zapytanie może powodować u nich dezorientację. Z tego powodu powstały specjalne wyszukiwarki tematyczne, specjalizujące się w informacjach lokalnych, muzyce i grafice (jak już wspomniałem, wyszukiwanie multimediów zwykle sprawia znacznie więcej kłopotów niż wyszukiwanie tekstowe), nazwach geograficznych czy osobowych. Również tworzenie metawyszukiwarek można uznać za działania w podobnym kierunku. Zbliżony efekt można uzyskać kastomizując sposób wyszukiwania wyszukiwarki globalnej. takiej jak Yahoo lub Google. na przykład przez dodanie listy stron służących do przeszukiwania [Bradley 2008].
Stwierdzenie, że wyszukiwarka po prostu przechodzi od strony do strony pobierając z nich słowa i robi z nich indeks, który jest wykorzystywany do udzielania odpowiedzi na zapytania, jest zgodne z prawdą, jednak tak ogólne, że aż wprowadza w błąd. Po pierwsze, istnieje tzw. ukryty Web, o czym była mowa. Po drugie, dobra wyszukiwarka nie jest po prostu sprytnie ułożonym algorytmem wyszukiwawczym. Jest to wieloczęściowy system działający dla przekazywania wysokiej jakości wyników wyszukiwania. Stosowane są wielopiętrowe struktury danych, zaprojektowane dla realizacji określonych celów.
Pierwszy etap indeksowania dokumentu Web polega na wydobyciu z niego standardowej, logicznej reprezentacji treści. Najczęściej stosowaną przez wyszukiwarki reprezenta-
40 IUlp://w\vw.sciru$.comf.
41 http://citesccr.ist.psu.edu/.
169