http://www.extreme-is.com/technologia/search_engines/introduction_to_searche_engines
Wyszukiwarki internetowe - wstęp
|
Internet to ogromna składnica (repozytorium) informacji, która coraz częściej zastępuje tradycjną bibliotekę. Informacja to dzisiaj kluczowy element niezbędny do konkurowania na coraz bardziej wymagającym rynku, jednak odszukanie interesujących nas informacji spośród blisko 5 miliardów stron internetowych, bo na tyle się dzisiaj szacuje ich ilość, to nie proste zadanie.
Uproszczony mechanizm działania wyszukiwarek
Wyszukiwarki intrnetowe to narzędzia, które za pomocą wbudowanych mechanizmów i algorytmów pozwalają na zminimalizowanie tych 5 mld. stron do mniejszego zbioru, który człowniek mógłby ogarnąć. W dużym uproszczeniu, wyszukiwarki najpierw indeksują strony internetowe czyli przeglądają ich zawartość i zapisują odpowiednie informacje w swojej bazie danych. Następnie, gdy użytkownik poda poszukiwane słowa, wyszukiwarka znajduje w swojej bazie danych wszystkie strony, które zawierają poszukiwane słowa i zwraca linki do tych stron. Kolejność, w jakiej zwracane są linki przez wyszukiwarkę, zależy od wewnętrznych mechanizmów konkretnej wyszukiwarki. Mechanizmy te są najbardziej strzeżoną tajemnicą, jednak ogólne mechanizmy jakimi się kierują przeglądarki przy ustalaniu kolejności linków są znane. Właścicielom stron zależy, żeby ich strona znalazła się na pierwszej stronie wyników wyszukiwania określonych fraz. Np. firma informatyczna tworząca strony internetowe chce, aby jest strona znalazła się na pierwszej stronie wyników wyszukiania frazy: "tworzenie stron internetowych" czy "strony www". Jest to o tyle ważne, że badania pokazują, że użytkownicy nie przeglądają więcej niż 100 pierwszych wyników, a 30 pierwszych pozycji uznaje się za najbardziej pożądane.
Robots, Spiders, Metacrawlers
Robots (roboty), Spiders (pająki) i Metacrawlers to nazwy mechanizmów wyszukiwarek, które indeksują treść stron internetowych, czyli odwiedzają wszystkie napotkane strony i zapisują informacje o nich w bazie danych wyszukiwarki. W celu odnalezienia nowych stron wykorzystują linki znajdujące sie na stronach, które już znalazły. Jaka jest między nimi różnica?
Roboty czytają tylko linki znajdujące się na znalezionych stronach i na ich podstawie tworzą hierarchiczną strukturę drzewiastą. Pająki czytają całą treść strony, czyli tytuł, linki, treść dokumentu oraz tzw. meta-tags. Metacrawlers natomiast zamiast odwiedzać miliardy ston internetowych, pobierają informacje z istniejących wyszukiwarek, co znacznie przyspiesza proces wyszukiwania.
Rankingi istotności
To, w jaki sposób tworzony jest wynik wyszukiwania (kolejność wyświetlanych linków) zależy od wewnętrznych mechanizmów wysukiwarek. Ogólnie, można podzieliść wyszukiwarki na kontorlowane przez autora strony (ang. author-controlled), kotrolowane przez redaktora wyszukiwarki (ang. editor-controlled), kontrolowane prze użytkowników (ang. user-controlled). Do tych pierwszych należy Google i Altavista, które tworzą rankingi istotności na podstawie słów kluczowych znajdujących się na indeksowanych stronach. Do drugiej grupy należą Yahoo i LookSmart, które umieszcają strony w katalogach tworzących strukturę drzwiastą. Do grupy user-contolled należy np. Direct Hit. Kategoria ta charakteryzuje się tym, że istotność obliczana jest na podstawie liczby odwiedzin danej strony przez użytkowników.
Czego nie indeksują wyszukiwarki?
Należy pamiętać, że wyszukiwarki nie indeksują wszystkiego, a w szczegóności:
plików binarnych - pliki typu pdf (Adobe Acrobat), doc (Microsoft Word), mp3, mpeg, avi, jpg, gif, txt
dokumenty, so któych dostęp wymaga logowania - np. intranety
strony, które zostały wykluczone przez autora poprzez umieszczenie w specjalnym pliku robots.txt
Wyszukiwarka numer jeden
Obecnie wyszukiwarką numer jeden jest Google i nie zanosi się w najbliższym czasie, aby ta sytuacja uległa zmianie. Swoją popularność zawdzięcza głównie mechanimowi do tworzenia wyniku wyszukiwania o nazwie Page Rank, który w dużym uproszczeniu, oblicza ważność strony na podstawie liczby linków kierujących na daną stronę, z tym, że brana jest również ważność strony, z której te linki pochodzą. Jest to również najbardziej efektywan przeglądarka indeksująca największą liczbę stron.
Ostatnio zmodyfikowane ${Y}-${m}-${d} ${H}:${M}