przykładowa prezentacja przygotowana na zajęcia z dr inż R Siwiło oceniona

background image

Wyszukiwarki

Wyszukiwarki

internetowe

internetowe

background image

Wstęp

Wstęp

Internet to ogromna składnica
informacji, która coraz częściej
zastępuje tradycyjną bibliotekę.
Informacja to dzisiaj kluczowy element
niezbędny do konkurowania na coraz
bardziej wymagającym rynku, jednak
odszukanie interesujących nas
informacji spośród blisko 5 miliardów
stron internetowych, bo na tyle się
dzisiaj szacuje ich ilość, to nie proste
zadanie.

background image

Czym jest wyszukiwarka?

Czym jest wyszukiwarka?

Wyszukiwarki internetowe to narzędzia, które za
pomocą wbudowanych mechanizmów i
algorytmów pozwalają na zminimalizowanie tych
5 mld. stron do mniejszego zbioru, który człowiek
mógłby ogarnąć. W dużym uproszczeniu,
wyszukiwarki najpierw indeksują strony
internetowe czyli przeglądają ich zawartość i
zapisują odpowiednie informacje w swojej bazie
danych. Następnie, gdy użytkownik poda
poszukiwane słowa, wyszukiwarka znajduje w
swojej bazie danych wszystkie strony, które
zawierają poszukiwane słowa i zwraca linki do
tych stron.

background image

Kolejność, w jakiej zwracane są

Kolejność, w jakiej zwracane są

linki przez wyszukiwarkę

linki przez wyszukiwarkę

Zależy ona od wewnętrznych mechanizmów

konkretnej wyszukiwarki. Mechanizmy te są

najbardziej strzeżoną tajemnicą, jednak ogólne

mechanizmy jakimi się kierują przeglądarki przy

ustalaniu kolejności linków są znane. Właścicielom

stron zależy, żeby ich strona znalazła się na

pierwszej stronie wyników wyszukiwania

określonych fraz. Np. firma informatyczna tworząca

strony internetowe chce, aby jej strona znalazła się

na pierwszej stronie wyników wyszukiwania frazy:

"tworzenie stron internetowych" czy "strony www".

Jest to o tyle ważne, że badania pokazują, że

użytkownicy nie przeglądają więcej niż 100

pierwszych wyników, a 30 pierwszych pozycji

uznaje się za najbardziej pożądane.

background image

Ogólnie, można podzielić wyszukiwarki na

kontrolowane przez autora strony (ang. author-

controlled), kontrolowane przez redaktora

wyszukiwarki (ang. editor-controlled),

kontrolowane prze użytkowników (ang. user-

controlled). Do tych pierwszych należy Google i

Altavista, które tworzą rankingi istotności na

podstawie słów kluczowych znajdujących się na

indeksowanych stronach. Do drugiej grupy

należą Yahoo i LookSmart, które umieszczają

strony w katalogach tworzących strukturę

drzewiastą. Do grupy user-controlled należy np.

Direct Hit. Kategoria ta charakteryzuje się tym,

że istotność obliczana jest na podstawie liczby

odwiedzin danej strony przez użytkowników.

background image

Oprogramowanie

Oprogramowanie

wyszukiwarek

wyszukiwarek

Oprogramowanie wyszukiwarek to zestaw

programów, modułów, z których każdy ma

oddzielne zadanie. W skład zestawu wchodzą takie

elementy jak:

pająk: program podobny do robota, który

kolekcjonuje strony WWW;

pełzacz: robot, który automatycznie śledzi oraz

podąża za linkami zawartymi na stronie WWW;

indekser: kolejny program, który buduje ze

znalezionych stron WWW indeks;

bazy danych: ogromny zbiór stron WWW, linków

oraz treści dodatkowej;

silnik zajmujący się wynikami wyszukiwania:

"przekopuje" wyniki wyszukiwania zawarte w bazie

oraz indeksie

background image

Czego nie indeksują

Czego nie indeksują

wyszukiwarki?

wyszukiwarki?

Należy pamiętać, że wyszukiwarki nie

indeksują wszystkiego, a w

szczególności:

plików binarnych - pliki typu pdf (Adobe

Acrobat), doc (Microsoft Word), mp3,

mpeg, avi, jpg, gif, txt

dokumentów, do których dostęp

wymaga logowania - np. intranety

stron, które zostały wykluczone przez

autora poprzez umieszczenie w

specjalnym pliku robots.txt

background image

www.google.com - strony WWW, najlepsza wyszukiwarka s

www.google.com - strony WWW, najlepsza wyszukiwarka s

zukaj.onet.pl

zukaj.onet.pl

-

-

strony WWW w

strony WWW w

ww.google.com

ww.google.com

- strony WWW w

- strony WWW w

ww.altavista.com

ww.altavista.com

- strony

- strony

WWW w

WWW w

ww.emulti.pl

ww.emulti.pl

- strony WWW, multiwyszukiwarka w

- strony WWW, multiwyszukiwarka w

ww.szukacz.pl

ww.szukacz.pl

-

-

strony WWW n

strony WWW n

etoskop.pl

etoskop.pl

- strony WWW n

- strony WWW n

etsprint.pl

etsprint.pl

- strony WWW s

- strony WWW s

zukaj.wp.pl

zukaj.wp.pl

- strony WWW s

- strony WWW s

zukaj.interia.pl

zukaj.interia.pl

- strony WWW s

- strony WWW s

zukaj.wow.pl

zukaj.wow.pl

-

-

strony WWW, z pomocą NetSprint www.yandex.pl - strony WWW

strony WWW, z pomocą NetSprint www.yandex.pl - strony WWW

www.alltheweb.com - strony WWW www.szukacz.pl - strony WWW

www.alltheweb.com - strony WWW www.szukacz.pl - strony WWW

szukaj.hoga.pl - strony WWW, z pomocą NetSprint www.altavista.com -

szukaj.hoga.pl - strony WWW, z pomocą NetSprint www.altavista.com -

strony WWW www.mamma.com - strony WWW, multiwyszukiwarka

strony WWW www.mamma.com - strony WWW, multiwyszukiwarka

www.euroseek.com - strony WWW www.yahoo.com - strony WWW

www.euroseek.com - strony WWW www.yahoo.com - strony WWW

szukaj.wp.pl - strony WWW, z pomocą Google www.sciseek.com - naukowe

szukaj.wp.pl - strony WWW, z pomocą Google www.sciseek.com - naukowe

strony WWW www.emulti.pl - strony WWW, multiwyszukiwarka

strony WWW www.emulti.pl - strony WWW, multiwyszukiwarka

www.educationworld.com - edukacyjne strony WWW vivisimo.com - strony

www.educationworld.com - edukacyjne strony WWW vivisimo.com - strony

WWW, multiwyszukiwarka www.wisenut.com - strony WWW

WWW, multiwyszukiwarka www.wisenut.com - strony WWW

www.search.com - strony WWW search.aol.com - strony WWW

www.search.com - strony WWW search.aol.com - strony WWW

www.metacrawler.com - strony WWW www.lycos.com - strony WWW

www.metacrawler.com - strony WWW www.lycos.com - strony WWW

7metasearch.com - strony WWW, multiwyszukiwarka www.alltheweb.com -

7metasearch.com - strony WWW, multiwyszukiwarka www.alltheweb.com -

strony WWW www.overture.com - strony WWW www.excite.com - strony

strony WWW www.overture.com - strony WWW www.excite.com - strony

WWW www.ask.com - strony WWW www.msn.com - strony WWW

WWW www.ask.com - strony WWW www.msn.com - strony WWW

www.teoma.com - strony WWW  

www.teoma.com - strony WWW  

background image

Wyszukiwarki oparte na

Wyszukiwarki oparte na

analizie treści strony

analizie treści strony

Ponieważ Internet rośnie znacznie szybciej
niż jakakolwiek grupa ludzi może go
katalogować, oraz z powodu wad
katalogów (np. pod danym hasłem może
znajdować się tysiące stron), powstały
wyszukiwarki, które przeszukują Internet
analizując zawartość stron. Kiedy
użytkownik poda wyszukiwarce zapytanie,
ona odpowie mu łączami do stron, które
uzna, w zależności od użytego algorytmu,
za najbardziej odpowiednie.

background image

Wyszukiwarki oparte na tej

zasadzie mogą objąć znacznie
większą część sieci niż katalogi.
Niestety są one bardzo podatne na
nadużycia, przez co użytkownik
zamiast użytecznych informacji
dostaje linki na strony nie mające nic
wspólnego z jego zapytaniem.
Szczególnie wyspecjalizowały się w
tym strony pornograficzne.

background image

Wyszukiwarki oparte na

Wyszukiwarki oparte na

analizie topologii sieci

analizie topologii sieci

Żeby przeciwdziałać temu, wyszukiwarki

zaczęły stosować analizę topologii sieci.

Pierwszą wyszukiwarką, która zastosowała

zaawansowane algorytmy analizy topologii

sieci był Google.

Wyszukiwarki oparte na analizie topologicznej

są często uważane za bardzo odporne na

nadużycia. W rzeczywistości stosunkowo

częstym atakiem są spam-systemy

automatycznej wymiany linków. Inną formą

ataku jest stworzenie dużej ilości gęsto

linkowanych stron, z czego wszystkie na ten

sam temat.

background image

Wyszukiwarki oparte na

Wyszukiwarki oparte na

zasadzie aukcji miejsc

zasadzie aukcji miejsc

Osobnym pomysłem jest wprowadzony

przez Overture (http://overture.com/ )

system, gdzie strony płacą wyszukiwarce

kilka centów za każde kliknięcie, przy

czym miejsca są licytowane - strona która

daje więcej za kliknięcie znajdzie się wyżej

na liście rezultatów. Pozycje płatne są

oznaczone jako takie, razem z ceną.

System ten jest korzystny dla właścicieli

stron - płacą oni tylko za wejścia nie za

wyświetlenia.

background image

Twórcy twierdzą, że jest on również
korzystny dla użytkownika, gdyż tylko
strony, które oferują coś użytecznego z
danej dziedziny mogą sobie pozwolić na
taką reklamę. Z drugiej jednak strony wiele
użytecznych stron jest niekomercyjnych, a
nawet przy stronach komercyjnych wyniki
będą często nieoptymalne - np. na taką
reklamę nie mogą sobie pozwolić strony,
które mają niskie marże i oferują produkty
po niskich cenach, a jedynie te, które mają
wysokie marże i oferują produkty drożej.

background image

Przykłady

Przykłady

wyszukiwarek

wyszukiwarek

background image

Wyszukiwarki globalne

Wyszukiwarki globalne

background image

AltaVista jest jedną z największych wyszukiwarek

internetowych pod względem ilości

zaindeksowanych stron. Jej uniwersalność i łatwość

używania zapewnia popularność wśród osób

poszukujących informacji w Internecie. AltaVista

oferuje liczne rozwiązania dla początkujących

internautów, takie jak "Ask AltaVista", które

pochodzi od Ask Jeeves. Wyszukiwanie wspierane

jest przez katalogi internetowe Open directory oraz

LookSmart. AltaVista została uruchomiona w

grudniu 1995. Jej właścicielem była firma Digital,

przejęta później przez Compaqa (w 1998 roku).

Następnie została wyodrębniona jako samodzielna

firma, dzisiaj kontrolowana przez CMGI.

background image

Excite jest jednym z serwisów z wielkiej 6
wyszukiwarek internetowych. Oferuje dużą bazę
indeksów oraz bogaty serwis informacyjny.
Excite powstał w 1995 roku. W następnych
latach rozpoczął przejmowanie serwisów
konkurencyjnych - Magellana w czerwcu 1996
oraz WebCrawler w listopadzie 1996.

background image

Google jest unikalnym rozwiązaniem łączącym

zaawansowaną technologię z wyjątkowym

softwarem. Aby osiągnąć wysoką wydajność

systemu stworzony został superkomputer, który

składa się z setek tanich komputerów

połączonych w sieć.

Sercem programu jest unikalne rozwiązanie

PageRank(TM) określające ranking znalezionych

stron. Najwyżej cenione są te dokumenty, do

których jest najwięcej odnośników ze stron

cenionych przez Google. Google Wspiera swoją

technologią takie portale jak Yahoo czy Netscape

Search. Dlatego jest ona obecnie wyszukiwarką

numer jeden i nie zanosi się w najbliższym

czasie, aby ta sytuacja uległa zmianie.

background image

HotBot wyróżnia się wśród wyszukiwarek

swoimi możliwościami spośród innych

wyszukiwarek. W większości przypadków na

pierwszej stronie wyświetlane są rezultaty z

serwisu Direct Hit, następne pochodzą z

wyszukiwarki Inktomi. HotBot wystartował w

maju 1996 roku jako wejście firmy Wired

Digital na rynek wyszukiwarek internetowych.

W październiku 1998 roku HotBot został

kupiony przez firmę Lycos, lecz dalej

funkcjonuje jako samodzielna wyszukiwarka.

background image

Yahoo jest najpopularniejszym i najstarszym
serwisem wyszukiwawczym- został
uruchomiony w 1994 roku. Sekretem
popularności są ludzie. Yahoo jest największym,
opracowywanym przez 150 redaktorów
przewodnikiem po Internecie. W bazie danych
serwis posiada ponad milion zaindeksowanych
stron. Od czerwca 2000 rezultaty wyszukiwania
uzupełniane są przez serwis wyszukiwawczy
Google.

background image

Adresy niektórych

Adresy niektórych

globalnych wyszukiwarek

globalnych wyszukiwarek

http://www.altavista.com

www.altavista.pl

www.excite.com

www.google.pl

www.hotBot.com

www.yahoo.com

background image

Wyszukiwarki krajowe

Wyszukiwarki krajowe

background image

Szukacz jest narzędziem służącym do

wyszukiwania dokumentów w Internecie. Został

przygotowany przede wszystkim do wyszukiwania

dokumentów w języku polskim. Składa się z

czterech podstawowych modułów: zbieracza,

tekstowacza, Indeksera i opowiadacza. Zbieracz,

zwany też robotem lub pająkiem, "chodzi" po

sieci i wyszukuje dokumenty, tworząc archiwa, z

których co pewien czas (zwykle raz na dwa

tygodnie) budowane są nowe kolekcje,

korzystając z tekstowacza i Indeksera. Gotowa

kolekcja jest wykorzystywana przez opowiadacz

do konstruowania odpowiedzi.

background image

W sieci zadebiutowała nowa
wyszukiwarka polskiego Internetu -
GOORU.pl . Jest ona obecnie jednym z
najbardziej zaawansowanych
technologicznie narzędzi dostępnym dla
celów przeszukiwania zasobów polskich
stron WWW. Najważniejsze cechy
wyszukiwarki: wysoki stopień trafności,
duża liczba zindeksowanych stron WWW
oraz szybkość wyszukiwania.

background image

Yandex.pl to najnowszy system

wyszukiwawczy, umożliwiający

przeszukiwanie zasobów polskiego

Internetu. Powstał on we współpracy z

Yandex Technologies oraz z naukowcami z

renomowanych instytutów naukowo-

badawczych i zawiera efekty lat badań -

najnowocześniejsze algorytmy i

rozwiązania techniczne i koncepcyjne..

Wyszukiwarka Yandex (www.yandex.pl) jest

zarządzana i prowadzona przez firmę

Yandex Polska.

background image

NetSprint jest to wyszukiwarka
internetowa, która pozwala na
szybkie i precyzyjne dotarcie do
dokumentów znajdujących się w
Sieci. Rozwiązanie stworzyła firma
XOR Internet (Grupa XOR Solutions).

background image

NEToskop jest pierwszą polską wyszukiwarką.
Został uruchomiony pod koniec grudnia 1996
roku i niezmiennie cieszy się dużą
popularnością. Zamiarem twórców NEToskopu
było stworzenie wyszukiwarki, która
dostosowana byłaby do specyfiki języka
polskiego i rozpoznawała różne sposoby zapisu
polskich liter. Większość wyszukiwarek
działających w Polsce pracuje z reguły na
oprogramowaniu pisanym za granicą,
dostosowanym do języka angielskiego i zupełnie
nie przystosowanym do rozpoznawania polskich
liter kodowanych na różne sposoby ani specyfiki
polskiego języka.

background image

Adresy niektórych polskich

Adresy niektórych polskich

wyszukiwarek

wyszukiwarek

www.szukacz.pl

www.gooru.pl

www.yandex.pl

www.netsprint.pl

www.netoskop.pl

background image

Jak szukać?

Jak szukać?

Zawsze dobra jest chwila zastanowienia

przed rozpoczęciem poszukiwań. Należy wtedy

przygotować strategię poszukiwań zadając

sobie następujące pytania :

Co chcę zrobić ?

- przeglądać sieć?

- znaleźć dokument w sieci odpowiadający

poszukiwanemu tematowi?

- znaleźć wszystkie dostępne informacje na

poszukiwany temat?

Odpowiedź na te pytania ma zasadnicze

znaczenie dla sposobów poszukiwania oraz

koniecznych narzędzi.

background image

Jeśli zamierzasz przeglądać sieć Internet w
poszukiwaniu ogólnej informacji zacznij od
katalogów internetowych takich, jak Yahoo! lub
Open Directory.
Następnie spróbuj użyć multiwyszukiwarkę np.
Emulti używając do wyszukiwania słów kluczowych.

Jeśli szukasz bardzo specyficznej informacji
skorzystaj z globalnych wyszukiwarek takich jak:
Fast Search lub Google,
lub specjalistycznej bazy danych .

Jeśli poszukujesz wszystkich informacji na zadany
temat spróbuj użyć tych samych słów kluczowych
w wielu wyszukiwarkach

background image

Budując zapytanie staraj się pamiętać

Budując zapytanie staraj się pamiętać

o następujących zasadach:

o następujących zasadach:

Używaj specyficznych słów

    Przykład:    meta keywords

Jeśli to możliwe używaj rzeczowników i

dopełnień jako słów kluczowych

    Przykład:    Huragan Anna

Umieść najważniejsze słowa na początku

listy i dodaj znak + aby mieć pewność, że

wszystkie słowa będą poszukiwane

    Przykład:    +hybrydowe

+elektryczne +pojazdy

Używaj przynajmniej 3 słów w zapytaniu

    Przykład:    dzieci antybiotyki wpływ

background image

Staraj się tworzyć frazy

    Przykład:    "search engine tutorial"

Unikaj słów powszechnie używanych np.

zielony. Jeśli jednak musisz użyć, stwórz

frazę z innymi słowami .

    Przykład:    "zielona herbata"

Spróbuj określić słowa, które spodziewasz

się znaleźć w treści dokumentu i użyj ich

jako słów kluczowych

    Przykład:    anoreksja bulimia

jedzenie

background image

Wybierz tak dużo słów lub fraz
opisujących szukany temat jak to tylko
możliwe. Dzięki temu zawężasz wyniki
wyszukiwania. Wykorzystuj operatory
logiczne, jeśli wyszukiwarka na to
pozwala.

Przede wszystkim bądź uparty i
pomysłowy. Wyszukiwarki są bardzo
pomocnymi narzędziami, lecz jeszcze
niedoskonałymi. Wykorzystaj
mechanizmy ich działania do
optymalizacji procesu wyszukiwania.

background image

Niniejsza prezentacja również
została stworzona z pomocą
wyszukiwarek. Głównie google , ale
również innych wymienionych wyżej.

background image

Strony źródłowe:

Strony źródłowe:

http://pl.wikipedia.org/wiki/Wyszukiw
arki_internetowe

http://www.extreme-is.com/technolog

ia/search_engines/introduction_to_s

earche_engines

http://gim18gda.neostrada.pl/wyszuk

iwarka.html

A także strony wymienionych w

tekście wyszukiwarek

background image

Autorki:

Autorki:

###### #########
####### ########


Document Outline


Wyszukiwarka

Podobne podstrony:
ćwiczenia 2 i 3 - przygotowane na zajęcia, studia pedagogiczne, Rok 4, Teoretyczne podstawy pracy op
Przykladowa prezentacja multimedialna na mature
Pozagałkowe zapalenie nerwu wzrokowego prezentacja na zajęcia
prezentacja na zajecia z etyki
Rola romantycznej poezji na przykładzie, prezentacja
Sulfonamidy, Farma, Notatki jakies z Kostowskiego i Hermana na zajecia do Dr Kusowsk, Notatki jakies
NLPZ, Farma, Notatki jakies z Kostowskiego i Hermana na zajecia do Dr Kusowsk, Notatki jakies z Kost
Przykład na zajęcia ze statystyki1, Politologia, Statystyka i demografia
Przykładowe gry dla dzieci, Przykładowe zabawy i gry ruchowe mozliwe do wykorzystania na za
WSZOP zajęcia 2008, WSZOP ocena ryzyka zawodowego, Dr inż
WSZOP zajęcia 2008, WSZOP ocena ryzyka zawodowego, Dr inż
PAL EC przyklad na zajecia
na sciage2 gi, PWr, grafika inżynierska - dr inż. G. Jaworski
Etapy pracy na materiale geometrycznym – przykładowe ćwiczenia na zajęcia z rewalidacji indywidualne
Opioidy, Farma, Notatki jakies z Kostowskiego i Hermana na zajecia do Dr Kusowsk, Notatki jakies z K
Prezentacja na zajęcia dostęp do informacji publicznej 9 10 2015 (1)
Przygotowanie na zajŕcia do dr Dŕbskiego, V rok, Pediatria

więcej podobnych podstron