Wyszukiwarki
Wyszukiwarki
internetowe
internetowe
Wstęp
Wstęp
•
Internet to ogromna składnica
informacji, która coraz częściej
zastępuje tradycyjną bibliotekę.
Informacja to dzisiaj kluczowy element
niezbędny do konkurowania na coraz
bardziej wymagającym rynku, jednak
odszukanie interesujących nas
informacji spośród blisko 5 miliardów
stron internetowych, bo na tyle się
dzisiaj szacuje ich ilość, to nie proste
zadanie.
Czym jest wyszukiwarka?
Czym jest wyszukiwarka?
•
Wyszukiwarki internetowe to narzędzia, które za
pomocą wbudowanych mechanizmów i
algorytmów pozwalają na zminimalizowanie tych
5 mld. stron do mniejszego zbioru, który człowiek
mógłby ogarnąć. W dużym uproszczeniu,
wyszukiwarki najpierw indeksują strony
internetowe czyli przeglądają ich zawartość i
zapisują odpowiednie informacje w swojej bazie
danych. Następnie, gdy użytkownik poda
poszukiwane słowa, wyszukiwarka znajduje w
swojej bazie danych wszystkie strony, które
zawierają poszukiwane słowa i zwraca linki do
tych stron.
Kolejność, w jakiej zwracane są
Kolejność, w jakiej zwracane są
linki przez wyszukiwarkę
linki przez wyszukiwarkę
•
Zależy ona od wewnętrznych mechanizmów
konkretnej wyszukiwarki. Mechanizmy te są
najbardziej strzeżoną tajemnicą, jednak ogólne
mechanizmy jakimi się kierują przeglądarki przy
ustalaniu kolejności linków są znane. Właścicielom
stron zależy, żeby ich strona znalazła się na
pierwszej stronie wyników wyszukiwania
określonych fraz. Np. firma informatyczna tworząca
strony internetowe chce, aby jej strona znalazła się
na pierwszej stronie wyników wyszukiwania frazy:
"tworzenie stron internetowych" czy "strony www".
Jest to o tyle ważne, że badania pokazują, że
użytkownicy nie przeglądają więcej niż 100
pierwszych wyników, a 30 pierwszych pozycji
uznaje się za najbardziej pożądane.
•
Ogólnie, można podzielić wyszukiwarki na
kontrolowane przez autora strony (ang. author-
controlled), kontrolowane przez redaktora
wyszukiwarki (ang. editor-controlled),
kontrolowane prze użytkowników (ang. user-
controlled). Do tych pierwszych należy Google i
Altavista, które tworzą rankingi istotności na
podstawie słów kluczowych znajdujących się na
indeksowanych stronach. Do drugiej grupy
należą Yahoo i LookSmart, które umieszczają
strony w katalogach tworzących strukturę
drzewiastą. Do grupy user-controlled należy np.
Direct Hit. Kategoria ta charakteryzuje się tym,
że istotność obliczana jest na podstawie liczby
odwiedzin danej strony przez użytkowników.
Oprogramowanie
Oprogramowanie
wyszukiwarek
wyszukiwarek
•
Oprogramowanie wyszukiwarek to zestaw
programów, modułów, z których każdy ma
oddzielne zadanie. W skład zestawu wchodzą takie
elementy jak:
•
pająk: program podobny do robota, który
kolekcjonuje strony WWW;
•
pełzacz: robot, który automatycznie śledzi oraz
podąża za linkami zawartymi na stronie WWW;
•
indekser: kolejny program, który buduje ze
znalezionych stron WWW indeks;
•
bazy danych: ogromny zbiór stron WWW, linków
oraz treści dodatkowej;
•
silnik zajmujący się wynikami wyszukiwania:
"przekopuje" wyniki wyszukiwania zawarte w bazie
oraz indeksie
Czego nie indeksują
Czego nie indeksują
wyszukiwarki?
wyszukiwarki?
Należy pamiętać, że wyszukiwarki nie
indeksują wszystkiego, a w
szczególności:
•
plików binarnych - pliki typu pdf (Adobe
Acrobat), doc (Microsoft Word), mp3,
mpeg, avi, jpg, gif, txt
•
dokumentów, do których dostęp
wymaga logowania - np. intranety
•
stron, które zostały wykluczone przez
autora poprzez umieszczenie w
specjalnym pliku robots.txt
www.google.com - strony WWW, najlepsza wyszukiwarka s
www.google.com - strony WWW, najlepsza wyszukiwarka s
-
-
strony WWW w
strony WWW w
- strony WWW w
- strony WWW w
- strony
- strony
WWW w
WWW w
- strony WWW, multiwyszukiwarka w
- strony WWW, multiwyszukiwarka w
-
-
strony WWW n
strony WWW n
- strony WWW n
- strony WWW n
- strony WWW s
- strony WWW s
- strony WWW s
- strony WWW s
- strony WWW s
- strony WWW s
-
-
strony WWW, z pomocą NetSprint www.yandex.pl - strony WWW
strony WWW, z pomocą NetSprint www.yandex.pl - strony WWW
www.alltheweb.com - strony WWW www.szukacz.pl - strony WWW
www.alltheweb.com - strony WWW www.szukacz.pl - strony WWW
szukaj.hoga.pl - strony WWW, z pomocą NetSprint www.altavista.com -
szukaj.hoga.pl - strony WWW, z pomocą NetSprint www.altavista.com -
strony WWW www.mamma.com - strony WWW, multiwyszukiwarka
strony WWW www.mamma.com - strony WWW, multiwyszukiwarka
www.euroseek.com - strony WWW www.yahoo.com - strony WWW
www.euroseek.com - strony WWW www.yahoo.com - strony WWW
szukaj.wp.pl - strony WWW, z pomocą Google www.sciseek.com - naukowe
szukaj.wp.pl - strony WWW, z pomocą Google www.sciseek.com - naukowe
strony WWW www.emulti.pl - strony WWW, multiwyszukiwarka
strony WWW www.emulti.pl - strony WWW, multiwyszukiwarka
www.educationworld.com - edukacyjne strony WWW vivisimo.com - strony
www.educationworld.com - edukacyjne strony WWW vivisimo.com - strony
WWW, multiwyszukiwarka www.wisenut.com - strony WWW
WWW, multiwyszukiwarka www.wisenut.com - strony WWW
www.search.com - strony WWW search.aol.com - strony WWW
www.search.com - strony WWW search.aol.com - strony WWW
www.metacrawler.com - strony WWW www.lycos.com - strony WWW
www.metacrawler.com - strony WWW www.lycos.com - strony WWW
7metasearch.com - strony WWW, multiwyszukiwarka www.alltheweb.com -
7metasearch.com - strony WWW, multiwyszukiwarka www.alltheweb.com -
strony WWW www.overture.com - strony WWW www.excite.com - strony
strony WWW www.overture.com - strony WWW www.excite.com - strony
WWW www.ask.com - strony WWW www.msn.com - strony WWW
WWW www.ask.com - strony WWW www.msn.com - strony WWW
www.teoma.com - strony WWW
www.teoma.com - strony WWW
Wyszukiwarki oparte na
Wyszukiwarki oparte na
analizie treści strony
analizie treści strony
Ponieważ Internet rośnie znacznie szybciej
niż jakakolwiek grupa ludzi może go
katalogować, oraz z powodu wad
katalogów (np. pod danym hasłem może
znajdować się tysiące stron), powstały
wyszukiwarki, które przeszukują Internet
analizując zawartość stron. Kiedy
użytkownik poda wyszukiwarce zapytanie,
ona odpowie mu łączami do stron, które
uzna, w zależności od użytego algorytmu,
za najbardziej odpowiednie.
Wyszukiwarki oparte na tej
zasadzie mogą objąć znacznie
większą część sieci niż katalogi.
Niestety są one bardzo podatne na
nadużycia, przez co użytkownik
zamiast użytecznych informacji
dostaje linki na strony nie mające nic
wspólnego z jego zapytaniem.
Szczególnie wyspecjalizowały się w
tym strony pornograficzne.
Wyszukiwarki oparte na
Wyszukiwarki oparte na
analizie topologii sieci
analizie topologii sieci
Żeby przeciwdziałać temu, wyszukiwarki
zaczęły stosować analizę topologii sieci.
•
Pierwszą wyszukiwarką, która zastosowała
zaawansowane algorytmy analizy topologii
sieci był Google.
•
Wyszukiwarki oparte na analizie topologicznej
są często uważane za bardzo odporne na
nadużycia. W rzeczywistości stosunkowo
częstym atakiem są spam-systemy
automatycznej wymiany linków. Inną formą
ataku jest stworzenie dużej ilości gęsto
linkowanych stron, z czego wszystkie na ten
sam temat.
Wyszukiwarki oparte na
Wyszukiwarki oparte na
zasadzie aukcji miejsc
zasadzie aukcji miejsc
Osobnym pomysłem jest wprowadzony
przez Overture (http://overture.com/ )
system, gdzie strony płacą wyszukiwarce
kilka centów za każde kliknięcie, przy
czym miejsca są licytowane - strona która
daje więcej za kliknięcie znajdzie się wyżej
na liście rezultatów. Pozycje płatne są
oznaczone jako takie, razem z ceną.
System ten jest korzystny dla właścicieli
stron - płacą oni tylko za wejścia nie za
wyświetlenia.
Twórcy twierdzą, że jest on również
korzystny dla użytkownika, gdyż tylko
strony, które oferują coś użytecznego z
danej dziedziny mogą sobie pozwolić na
taką reklamę. Z drugiej jednak strony wiele
użytecznych stron jest niekomercyjnych, a
nawet przy stronach komercyjnych wyniki
będą często nieoptymalne - np. na taką
reklamę nie mogą sobie pozwolić strony,
które mają niskie marże i oferują produkty
po niskich cenach, a jedynie te, które mają
wysokie marże i oferują produkty drożej.
Przykłady
Przykłady
wyszukiwarek
wyszukiwarek
Wyszukiwarki globalne
Wyszukiwarki globalne
•
AltaVista jest jedną z największych wyszukiwarek
internetowych pod względem ilości
zaindeksowanych stron. Jej uniwersalność i łatwość
używania zapewnia popularność wśród osób
poszukujących informacji w Internecie. AltaVista
oferuje liczne rozwiązania dla początkujących
internautów, takie jak "Ask AltaVista", które
pochodzi od Ask Jeeves. Wyszukiwanie wspierane
jest przez katalogi internetowe Open directory oraz
LookSmart. AltaVista została uruchomiona w
grudniu 1995. Jej właścicielem była firma Digital,
przejęta później przez Compaqa (w 1998 roku).
Następnie została wyodrębniona jako samodzielna
firma, dzisiaj kontrolowana przez CMGI.
•
Excite jest jednym z serwisów z wielkiej 6
wyszukiwarek internetowych. Oferuje dużą bazę
indeksów oraz bogaty serwis informacyjny.
Excite powstał w 1995 roku. W następnych
latach rozpoczął przejmowanie serwisów
konkurencyjnych - Magellana w czerwcu 1996
oraz WebCrawler w listopadzie 1996.
•
Google jest unikalnym rozwiązaniem łączącym
zaawansowaną technologię z wyjątkowym
softwarem. Aby osiągnąć wysoką wydajność
systemu stworzony został superkomputer, który
składa się z setek tanich komputerów
połączonych w sieć.
Sercem programu jest unikalne rozwiązanie
PageRank(TM) określające ranking znalezionych
stron. Najwyżej cenione są te dokumenty, do
których jest najwięcej odnośników ze stron
cenionych przez Google. Google Wspiera swoją
technologią takie portale jak Yahoo czy Netscape
Search. Dlatego jest ona obecnie wyszukiwarką
numer jeden i nie zanosi się w najbliższym
czasie, aby ta sytuacja uległa zmianie.
•
HotBot wyróżnia się wśród wyszukiwarek
swoimi możliwościami spośród innych
wyszukiwarek. W większości przypadków na
pierwszej stronie wyświetlane są rezultaty z
serwisu Direct Hit, następne pochodzą z
wyszukiwarki Inktomi. HotBot wystartował w
maju 1996 roku jako wejście firmy Wired
Digital na rynek wyszukiwarek internetowych.
W październiku 1998 roku HotBot został
kupiony przez firmę Lycos, lecz dalej
funkcjonuje jako samodzielna wyszukiwarka.
•
Yahoo jest najpopularniejszym i najstarszym
serwisem wyszukiwawczym- został
uruchomiony w 1994 roku. Sekretem
popularności są ludzie. Yahoo jest największym,
opracowywanym przez 150 redaktorów
przewodnikiem po Internecie. W bazie danych
serwis posiada ponad milion zaindeksowanych
stron. Od czerwca 2000 rezultaty wyszukiwania
uzupełniane są przez serwis wyszukiwawczy
Google.
Adresy niektórych
Adresy niektórych
globalnych wyszukiwarek
globalnych wyszukiwarek
•
http://www.altavista.com
•
•
•
•
•
Wyszukiwarki krajowe
Wyszukiwarki krajowe
•
Szukacz jest narzędziem służącym do
wyszukiwania dokumentów w Internecie. Został
przygotowany przede wszystkim do wyszukiwania
dokumentów w języku polskim. Składa się z
czterech podstawowych modułów: zbieracza,
tekstowacza, Indeksera i opowiadacza. Zbieracz,
zwany też robotem lub pająkiem, "chodzi" po
sieci i wyszukuje dokumenty, tworząc archiwa, z
których co pewien czas (zwykle raz na dwa
tygodnie) budowane są nowe kolekcje,
korzystając z tekstowacza i Indeksera. Gotowa
kolekcja jest wykorzystywana przez opowiadacz
do konstruowania odpowiedzi.
•
W sieci zadebiutowała nowa
wyszukiwarka polskiego Internetu -
GOORU.pl . Jest ona obecnie jednym z
najbardziej zaawansowanych
technologicznie narzędzi dostępnym dla
celów przeszukiwania zasobów polskich
stron WWW. Najważniejsze cechy
wyszukiwarki: wysoki stopień trafności,
duża liczba zindeksowanych stron WWW
oraz szybkość wyszukiwania.
•
Yandex.pl to najnowszy system
wyszukiwawczy, umożliwiający
przeszukiwanie zasobów polskiego
Internetu. Powstał on we współpracy z
Yandex Technologies oraz z naukowcami z
renomowanych instytutów naukowo-
badawczych i zawiera efekty lat badań -
najnowocześniejsze algorytmy i
rozwiązania techniczne i koncepcyjne..
Wyszukiwarka Yandex (www.yandex.pl) jest
zarządzana i prowadzona przez firmę
Yandex Polska.
•
NetSprint jest to wyszukiwarka
internetowa, która pozwala na
szybkie i precyzyjne dotarcie do
dokumentów znajdujących się w
Sieci. Rozwiązanie stworzyła firma
XOR Internet (Grupa XOR Solutions).
•
NEToskop jest pierwszą polską wyszukiwarką.
Został uruchomiony pod koniec grudnia 1996
roku i niezmiennie cieszy się dużą
popularnością. Zamiarem twórców NEToskopu
było stworzenie wyszukiwarki, która
dostosowana byłaby do specyfiki języka
polskiego i rozpoznawała różne sposoby zapisu
polskich liter. Większość wyszukiwarek
działających w Polsce pracuje z reguły na
oprogramowaniu pisanym za granicą,
dostosowanym do języka angielskiego i zupełnie
nie przystosowanym do rozpoznawania polskich
liter kodowanych na różne sposoby ani specyfiki
polskiego języka.
Adresy niektórych polskich
Adresy niektórych polskich
wyszukiwarek
wyszukiwarek
•
•
•
www.yandex.pl
•
•
Jak szukać?
Jak szukać?
Zawsze dobra jest chwila zastanowienia
przed rozpoczęciem poszukiwań. Należy wtedy
przygotować strategię poszukiwań zadając
sobie następujące pytania :
Co chcę zrobić ?
- przeglądać sieć?
- znaleźć dokument w sieci odpowiadający
poszukiwanemu tematowi?
- znaleźć wszystkie dostępne informacje na
poszukiwany temat?
Odpowiedź na te pytania ma zasadnicze
znaczenie dla sposobów poszukiwania oraz
koniecznych narzędzi.
•
Jeśli zamierzasz przeglądać sieć Internet w
poszukiwaniu ogólnej informacji zacznij od
katalogów internetowych takich, jak Yahoo! lub
Open Directory.
Następnie spróbuj użyć multiwyszukiwarkę np.
Emulti używając do wyszukiwania słów kluczowych.
•
Jeśli szukasz bardzo specyficznej informacji
skorzystaj z globalnych wyszukiwarek takich jak:
Fast Search lub Google,
lub specjalistycznej bazy danych .
•
Jeśli poszukujesz wszystkich informacji na zadany
temat spróbuj użyć tych samych słów kluczowych
w wielu wyszukiwarkach
Budując zapytanie staraj się pamiętać
Budując zapytanie staraj się pamiętać
o następujących zasadach:
o następujących zasadach:
•
Używaj specyficznych słów
Przykład: meta keywords
•
Jeśli to możliwe używaj rzeczowników i
dopełnień jako słów kluczowych
Przykład: Huragan Anna
•
Umieść najważniejsze słowa na początku
listy i dodaj znak + aby mieć pewność, że
wszystkie słowa będą poszukiwane
Przykład: +hybrydowe
+elektryczne +pojazdy
•
Używaj przynajmniej 3 słów w zapytaniu
Przykład: dzieci antybiotyki wpływ
•
Staraj się tworzyć frazy
Przykład: "search engine tutorial"
•
Unikaj słów powszechnie używanych np.
zielony. Jeśli jednak musisz użyć, stwórz
frazę z innymi słowami .
Przykład: "zielona herbata"
•
Spróbuj określić słowa, które spodziewasz
się znaleźć w treści dokumentu i użyj ich
jako słów kluczowych
Przykład: anoreksja bulimia
jedzenie
•
Wybierz tak dużo słów lub fraz
opisujących szukany temat jak to tylko
możliwe. Dzięki temu zawężasz wyniki
wyszukiwania. Wykorzystuj operatory
logiczne, jeśli wyszukiwarka na to
pozwala.
•
Przede wszystkim bądź uparty i
pomysłowy. Wyszukiwarki są bardzo
pomocnymi narzędziami, lecz jeszcze
niedoskonałymi. Wykorzystaj
mechanizmy ich działania do
optymalizacji procesu wyszukiwania.
Niniejsza prezentacja również
została stworzona z pomocą
wyszukiwarek. Głównie google , ale
również innych wymienionych wyżej.
Strony źródłowe:
Strony źródłowe:
•
http://pl.wikipedia.org/wiki/Wyszukiw
arki_internetowe
•
http://www.extreme-is.com/technolog
ia/search_engines/introduction_to_s
•
http://gim18gda.neostrada.pl/wyszuk
iwarka.html
•
A także strony wymienionych w
tekście wyszukiwarek
Autorki:
Autorki:
###### #########
####### ########