Wyszukiwarka internetowa
(ang. serach engine) to program lub strona internetowa, której zadaniem jest ułatwienie użytkownikom Internetu znalezienie informacji w sieci.
Określenie Wyszukiwarka stosujemy do:
stron internetowych serwisów wyszukujących - czyli implementacji oprogramowania wyszukującego działającego z interfejsem WWW ogólnodostępnym dla internautów
oprogramowania przeznaczonego do indeksowania i wyszukiwania informacji w sieciach komputerowych: Internecie, Intranecie.
W znaczeniu ogólnym wyszukiwarka to oprogramowanie gromadzące w sposób automatyczny informacje o dokumentach tekstowych oraz plikach zgromadzonych w sieci (obszarze wyznaczonym dla wyszukiwarki do indeksowania).
Historia wyszukiwarek na świecie
1990 Archie
1991 Veronica
1991 JugHead
1992 WWW Wanderer
1994 WebCrawler
1995 AltaVista
1995 MetaCrawler
1996 Google na Uniwersytecie Standforda (pod adresem: http://google.stanford.edu)
1996 HotBot
1998 Google Google.com - jako niezależna firma
2005 MSN Search
2007 Zeni
Historia wyszukiwarek w Polsce
1994 Polski Archie
1995 Polski Infoseek ICM
1996 NEToskop
1996 Sieciowid
1996 Infoseek Onet
1996 Polska AltaVista
1997 Sieciowid kończy działalność
2000 Arena.pl przejmuje zasoby Polskiego Infoseeka
2001 NetSprint
2002 polska wersja Google
2003 Szukacz
2003 Polski Yandex
2004 Szook
2004 Gooru
2005 koniec NEToskopu
2005 koniec polskiej wersji wyszukiwarki Yandex
2006 Wyszukiwarka Hm?
2006 Wyszukiwarka Hidee.org
2006 Wyszukiwarka Giga
2007 Wyszukiwarka video - viFinder.com
Podział wyszukiwarek:
Wyszukiwarki oparte na analizie treści strony
Ponieważ Internet rośnie znacznie szybciej niż jakakolwiek grupa ludzi może go katalogować, oraz z powodu wad katalogów (np. pod danym hasłem może znajdować się tysiące stron), powstały wyszukiwarki, które przeszukują Internet analizując zawartość stron. Kiedy użytkownik poda wyszukiwarce zapytanie, ona odpowie mu łączami do stron, które uzna, w zależności od użytego algorytmu, za najbardziej odpowiednie.
Wyszukiwarki oparte na tej zasadzie mogą objąć znacznie większą część sieci niż katalogi. Niestety są one bardzo podatne na nadużycia, przez co użytkownik zamiast użytecznych informacji dostaje linki na strony nie mające nic wspólnego z jego zapytaniem. Szczególnie wyspecjalizowały się w tym strony pornograficzne.
Wyszukiwarki oparte na analizie topologii sieci
Żeby przeciwdziałać temu, wyszukiwarki zaczęły stosować analizę topologii sieci. Tak więc stronę uważa się za odpowiadającą zapytaniu "britney spears", jeśli wiele stron na temat "britney spears" do niej linkuje. Strona porno z nagimi zdjęciami Britney, niezależnie od własnej treści, i niezależnie od całkowitej liczby linków (głównie z innych stron porno) na nią, nie będzie w ten sposób uznana za związaną z tematem. Natomiast jeśli zada się zapytanie "britney spears nude", strona ta zostanie uznana za istotną, ponieważ linkuje na nią wiele stron o tematyce "nude".
Początkową istotność na podstawie prostej heurystyki, po czym zwykle używa się algorytmu losowego skakania po linkach.
Pierwszą wyszukiwarką, która zastosowała zaawansowane algorytmy analizy topologii sieci był Google (http://www.google.com/ ).
Wyszukiwarki oparte na analizie topologicznej są często uważane za bardzo odporne na nadużycia. W rzeczywistości stosunkowo częstym atakiem są spam-systemy automatycznej wymiany linków. Inną formą ataku jest stworzenie dużej ilości gęsto linkowanych stron, z czego wszystkie na ten sam temat. Jest to jednak zadanie trudne i wymagające dużego nakładu pracy, a modyfikując heurystykę wartości początkowych można znacznie ograniczyć ten proceder, którego skala na razie jest minimalna.
Wyszukiwarki oparte na zasadzie aukcji miejsc
Osobnym pomysłem jest wprowadzony przez Overture (http://overture.com/ ) system, gdzie strony płacą wyszukiwarce kilka centów za każde kliknięcie, przy czym miejsca są licytowane - strona która daje więcej za kliknięcie znajdzie się wyżej na liście rezultatów. Pozycje płatne są oznaczone jako takie, razem z ceną. System ten jest korzystny dla właścicieli stron - płacą oni tylko za wejścia nie za wyświetlenia.
Twórcy twierdzą, że jest on również korzystny dla użytkownika, gdyż tylko strony, które oferują coś użytecznego z danej dziedziny mogą sobie pozwolić na taką reklamę. Z drugiej jednak strony wiele użytecznych stron jest niekomercyjnych, a nawet przy stronach komercyjnych wyniki będą często nieoptymalne - np. na taką reklamę nie mogą sobie pozwolić strony, które mają niskie marże i oferują produkty po niskich cenach, a jedynie te, które mają wysokie marże i oferują produkty drożej.
Reklamy w wyszukiwarkach
Wyszukiwarki stanowią wymarzony cel reklamo dawców, ponieważ mają oni praktycznie pełną gwarancję, że osoba wyszukująca dane hasło jest nim zainteresowana. Tak więc większość wyszukiwarek oferuje reklamy zależne od treści zapytań (np. AdWords oferowany przez Google). Nie zawsze są one właściwie oddzielone od wyników poszukiwań, co stało się źródłem protestów grup ochrony praw konsumentów oraz kilku do dziś nierozstrzygniętych spraw sądowych. Ze względu na szeroką krytykę procederu nieoddzielania reklam od wyników, większość wyszukiwarek z niego zrezygnowała i wyraźnie zaznacza teraz reklamy.
Oprogramowanie wyszukiwarek
Oprogramowanie wyszukiwarek to zestaw programów, modułów, z których każdy ma oddzielne zadanie. W skład zestawu wchodzą takie elementy jak:
Crawler, Robot, Pająk, Spider, Bot - modułów pobierających dokumenty z sieci
Indeksera , Programów analizujących i oceniających
Searcher'a - interfejsu wyszukującego wyszukiwarki/podsystem odpowiadający na zapytania/analizator zapytań + moduł prezentacji wyników
Oraz dochodzą do tego:
programy konwersji dokumentów
programy archiwizujące repozytorium [Google używa archwizera Z]
programy analizy technik zabronionych [spam]
moduły administracyjne
Wyszukiwarki globalne
AltaVista
AltaVista jest jedną z największych wyszukiwarek internetowych pod względem ilości zaindeksowanych stron. Jej uniwersalność i łatwość używania zapewnia popularność wśród osób poszukujących informacji w Internecie. AltaVista oferuje liczne rozwiązania dla początkujących internautów, takie jak "Ask AltaVista", które pochodzi od Ask Jeeves. Wyszukiwanie wspierane jest przez katalogi internetowe Open directory oraz LookSmart. AltaVista została uruchomiona w grudniu 1995. Jej właścicielem była firma Digital, przejęta później przez Compaqa (w 1998 roku). Następnie została wyodrębniona jako samodzielna firma, dzisiaj kontrolowana przez CMGI. .
Excite
Excite jest jednym z serwisów z wielkiej 6 wyszukiwarek internetowych. Oferuje dużą bazę indeksów oraz bogaty serwis informacyjny. Excite powstał w 1995 roku. W następnych latach rozpoczął przejmowanie serwisów konkurencyjnych - Magellana w czerwcu 1996 oraz WebCrawler w listopadzie 1996. .
Google jest unikalnym rozwiązaniem łączącym zaawansowaną technologię z wyjątkowym softwarem. Aby osiągnąć wysoką wydajność systemu stworzony został superkomputer, który składa się z setek tanich komputerów połączonych w sieć.
Sercem programu jest unikalne rozwiązanie PageRank(TM) określające ranking znalezionych stron. Najwyżej cenione są te dokumenty, do których jest najwięcej odnośników ze stron cenionych przez Google. Google Wspiera swoją technologią takie portale jak Yahoo czy Netscape Search.
HotBot
HotBot wyróżnia się wśród wyszukiwarek swoimi możliwościami spośród innych wyszukiwarek. W większości przypadków na pierwszej stronie wyświetlane są rezultaty z serwisu Direct Hit, następne pochodzą z wyszukiwarki Inktomi. Katalogi stron pochodzą z projektu Open Directory. HotBot wystartował w maju 1996 roku jako wejście firmy Wired Digital na rynek wyszukiwarek internetowych. W październiku 1998 roku HotBot został kupiony przez firmę Lycos, lecz dalej funkcjonuje jako samodzielna wyszukiwarka.
Yahoo
Yahoo jest najpopularniejszym i najstarszym serwisem wyszukiwawczym- został uruchomiony w 1994 roku. Sekretem popularności są ludzie. Yahoo jest największym, opracowywanym przez 150 redaktorów przewodnikiem po Internecie. W bazie danych serwis posiada ponad milion zaindeksowanych stron. Od czerwca 2000 rezultaty wyszukiwania uzupełniane są przez serwis wyszukiwawczy Google.
Wyszukiwarki krajowe:
Szukacz
Szukacz jest narzędziem służącym do wyszukiwania dokumentów w Internecie. Został przygotowany przede wszystkim do wyszukiwania dokumentów w języku polskim. Szukacz składa się z czterech podstawowych modułów: zbieracza, tekstowacza, Indeksera i opowiadacza. Zbieracz, zwany też robotem lub pająkiem, "chodzi" po sieci i wyszukuje dokumenty, tworząc archiwa, z których co pewien czas (zwykle raz na dwa tygodnie) budowane są nowe kolekcje, korzystając z tekstowacza i Indeksera. Gotowa kolekcja jest wykorzystywana przez opowiadacz do konstruowania odpowiedzi.
Gooru
W sieci zadebiutowała nowa wyszukiwarka polskiego Internetu - GOORU.pl . Jest ona obecnie jednym z najbardziej zaawansowanych technologicznie narzędzi dostępnym dla celów przeszukiwania zasobów polskich stron WWW. Najważniejsze cechy wyszukiwarki: wysoki stopień trafności, duża liczba zindeksowanych stron WWW oraz szybkość wyszukiwania.
Yandex
Yandex.pl to najnowszy system wyszukiwawczy, umożliwiający przeszukiwanie zasobów polskiego Internetu. Powstał on we współpracy z Yandex Technologies oraz z naukowcami z renomowanych instytutów naukowo-badawczych i zawiera efekty lat badań - najnowocześniejsze algorytmy i rozwiązania techniczne i koncepcyjne. Podstawą serwisu yandex.pl jest jeden z największych w Polsce indeksów stron internetowych, specjalnie przygotowany i rozwijany na jego potrzeby. Rozwiązania oparte o technologię Yandex są dostępne zarówno w postaci oprogramowania jak i usług, oferowanych na bazie najbardziej zaawansowanej wersji systemu. Wyszukiwarka Yandex (www.yandex.pl) jest zarządzana i prowadzona przez firmę Yandex Polska.
NetSprint
NetSprint jest to wyszukiwarka internetowa, która pozwala na szybkie i precyzyjne dotarcie do dokumentów znajdujących się w Sieci. Rozwiązanie stworzyła firma XOR Internet (Grupa XOR Solutions).
NEToskop
NEToskop jest pierwszą polską wyszukiwarką. Został uruchomiony pod koniec grudnia 1996 roku i niezmiennie cieszy się dużą popularnością. Oprogramowanie, na którym działa on w tej chwili, zasadniczo się różni od pierwszej historycznej już wersji. Zostało napisane od nowa, przy użyciu najnowszych narzędzi i przy wykorzystaniu doświadczenia nabytego przy tworzeniu i prowadzeniu pierwszej wersji. Zamiarem twórców NEToskopu było stworzenie wyszukiwarki, która dostosowana byłaby do specyfiki języka polskiego i rozpoznawała różne sposoby zapisu polskich liter. Większość wyszukiwarek działających w Polsce pracuje z reguły na oprogramowaniu pisanym za granicą, dostosowanym do języka angielskiego i zupełnie nie przystosowanym do rozpoznawania polskich liter kodowanych na różne sposoby ani specyfiki polskiego języka.
Jak szukać?
Zawsze dobra jest chwila zastanowienia przed rozpoczęciem poszukiwań. Należy wtedy przygotować strategię poszukiwań zadając sobie następujące pytania :
Co chcę zrobić ?
- przeglądać sieć?
- znaleźć dokument w sieci odpowiadający poszukiwanemu tematowi?
- znaleźć wszystkie dostępne informacje na poszukiwany temat?
Odpowiedź na te pytania ma zasadnicze znaczenie dla sposobów poszukiwania oraz koniecznych narzędzi.
Jeśli zamierzasz przeglądać sieć Internet w poszukiwaniu ogólnej informacji zacznij od katalogów internetowych takich, jak Yahoo! lub Open Directory.
Następnie spróbuj użyć multiwyszukiwarkę np. Emulti używając do wyszukiwania słów kluczowych.
Jeśli szukasz bardzo specyficznej informacji skorzystaj z globalnych wyszukiwarek takich jak: Fast Search lub Google,
lub specjalistycznej bazy danych .
Jeśli poszukujesz wszystkich informacji na zadany temat spróbuj użyć tych samych słów kluczowych w wielu wyszukiwarkach Warto również sprawdzić źródła tradycyjne takie jak książki, czasopisma, encyklopedie.
Budowa zapytań |
Budując zapytanie staraj się pamiętać o następujących zasadach:
Używaj specyficznych słów
Przykład: meta keywords
Jeśli to możliwe używaj rzeczowników i dopełnień jako słów kluczowych
Przykład: Huragan Anna
Umieść najważniejsze słowa na początku listy i dodaj znak + aby mieć pewność, że wszystkie słowa będą poszukiwane
Przykład: +hybrydowe +elektryczne +pojazdy
Używaj przynajmniej 3 słów w zapytaniu
Przykład: dzieci antybiotyki wpływ
Staraj się tworzyć frazy
Przykład: "search engine tutorial"
Unikaj słów powszechnie używanych np. zielony. Jeśli jednak musisz użyć, stwórz frazę z innymi słowami .
Przykład: "zielona herbata"
Spróbuj określić słowa, które spodziewasz się znaleźć w treści dokumentu i użyj ich jako słów kluczowych
Przykład: anoreksja bulimia jedzenie
Wybierz tak dużo słów lub fraz opisujących szukany temat jak to tylko możliwe. Dzięki temu zawężasz wyniki wyszukiwania. Największym problemem jest ilość znalezionych dokumentów. Aby ograniczyć ich liczbę wykorzystuj operatory + oraz - : +radio -radiologia
Wykorzystuj operatory logiczne, jeśli wyszukiwarka na to pozwala. Use booleans and especially proximity operators to increase the relevancy of your hits. Where allowed, (Altavista, for example) you may control relevancy based on search terms. Including words in phrases with some search engines (Infoseek) is the same as using proximity operators. Use the adjacency operator where word order is important. Webcrawler has the best implementation of proximity and adjacency operators.
Przede wszystkim bądź uparty i pomysłowy. Wyszukiwarki są bardzo pomocnymi narzędziami, lecz jeszcze niedoskonałymi. Wykorzystaj mechanizmy ich działania do optymalizacji procesu wyszukiwania.
Początek formularza
Dół formularza
Powrót na stronę Mateusza Kowalika:
http://kokos.umcs.lublin.pl/s/MateuszKowalik/referat.html