SZUKACZ, MARKETING INTERNETOWY


Szukacz

Szukacz polska wyszukiwarka internetowa - oparta w całości na polskim, autorskim rozwiązaniu programowym. Stworzona i uruchomiona za sprawą wydawnictwa Prószyński i S-ka przy osobistym zaangażowaniu Mieczysława Prószyńskiego.

Cechy charakterystyczne [edytuj]

Jak konstruować pytania?

Jako odpowiedź na pytanie składające się z kilku słów (niezamkniętych wewnątrz nawiasu kwadratowego), Szukacz znajduje tylko takie dokumenty, w których występują wszystkie szukane słowa. Na początku listy trafień umieszcza te z nich, w których szukane słowa pojawiają się w tytule dokumentu lub nazwie witryny, a te znajdujące się wewnątrz dokumentu, występują blisko siebie i blisko początku.

Szukacz potrafi wyszukiwać frazy (ciągi słów zamknięte w cudzysłowie) oraz słowa z gwiazdką zamiast końcówki.

Nawiasy kwadratowe służą do tego, aby można było podać Szukaczowi do wyboru kilka wariantów fleksyjnych szukanego słowa lub kilka słów bliskoznacznych. Oczywiście, dokument znajdzie się na liście trafień, jeśli występują w nim wszystkie słowa znajdujące się poza takim nawiasem i chociaż jedno słowo spośród zawartych w nawiasie.

Przykłady pytań

 

Pytanie

 

Wynik

Ala ma kota oraz psa

 
Szukacz znajdzie dokumenty, w których występują wszystkie słowa.
 

"Ala ma kota" oraz psa

 
Szukacz znajdzie dokumenty, w których występuje fraza Ala ma kota oraz występują oba pozostałe słowa.
 

Ala ma kot*

 
Jak wyżej, ale słowo zakończone gwiazdką może wystąpić z dowolną końcówką. Gwiazdkę w pytaniu można umieścić na końcu słowa zawierającego co najmniej trzy litery lub cyfry.
 

Ala +Basia +Zosia

 
Szukacz znajdzie dokumenty, w których na pewno występuje Basia oraz Zosia. Dokumenty, których występują również Ala, otrzymają wyższą punktację i mają szansę znaleźć się na górze listy trafień.
 

Ala Basia -Karol

 
Szukacz znajdzie dokumenty, w których na pewno nie występuje Karol.
 

Ala ma [kota kotka koty kotki]

 
Szukacz znajdzie dokumenty, w których na pewno występuje Ala oraz ma i w których występuje co najmniej jedno ze słów z wnętrza nawiasu (którekolwiek).
 

Ala ma [kota kotka koty kotki] [psa psy psów]

 
Szukacz znajdzie dokumenty, w których występują pierwsze dwa słowa i w których występuje co najmniej po jednym ze słów z wnętrza każdego z nawiasów.
 

host:*.szukacz.pl

 
Szukacz poda, ile zna dokumentów z witryny o końcówce nazwy szukacz.pl, i je wskaże.
 

Ala ma kota host:*.szukacz.pl

 
Szukacz znajdzie dokumenty, które zawierają słowa Ala, ma oraz kota (wszystkie trzy słowa jednocześnie), pochodzące z witryny o końcówce nazwy szukacz.pl.
 

[ala ma kota] [url:wp url:onet]

 
Szukacz znajdzie dokumenty, zawierające co najmniej jedno ze słów z pierwszego nawiasu, z witryny, w której nazwie (w dowolnym miejscu) występuje wp lub onet.
 

Krako^w Wrocl^aw L^o^dx^

 
Można Szukaczowi zadać pytanie, w którym są polskie litery (tutaj Kraków, Wrocław Łódź), korzystając z komputera bez sterownika polskiej klawiatury. Aby wpisać polską literę, należy po jej angielskim odpowiedniku postawić daszek: ą = a^, ć = c^, ę = e^, ł = l^, ń = n^, ó = o^, ś = s^, ź = x^, ż = z^.
 

Podstawowe reguły i opis działania

Odpowiedzią na pytanie złożone z kilku słów oddzielonych spacjami jest lista trafień, czyli lista takich dokumentów, które zawierają wszystkie te słowa.

Na początku listy trafień znajdują się te dokumenty, w których występują wszystkie słowa znajdujące się w pytaniu i w których te słowa pojawiają się w miejscach, które Szukacz uważa za wyróżnione (np. w tytule dokumentu, w nazwie witryny).

Szukacz ocenia ogólną ważność każdego dokumentu i każdemu dokumentowi przypisuje pewną liczbę punktów. Spośród kilku dokumentów, zawierających te same słowa i w podobny sposób spełniających warunki postawione w pytaniu, jedne zostaną ocenione wyżej, inne niżej. Te ocenione lepiej znajdą się na czele listy.

Wyżej punktowane są dokumenty, w których szukane słowa występują w tytule lub nazwie witryny. Wyżej punktowane są dokumenty, w których szukane słowa występują bisko siebie i blisko początku dokumentu.

Plus przed słowem oznacza, że to słowo musi znajdować się w szukanym dokumencie. Wtedy pozostałe słowa z pytania mogą, ale nie muszą, występowac w szukanym dokumencie. Aby plus działał w ten sposób, musi przylegać do słowa.

Kilka słów zamkniętych w nawiasie kwadratowym oznacza, że w szukanym dokumencie musi wystąpić przynajmniej jedno z tych słów. Słowa zamknięte w nawiasie są kwadratowym traktowane wymiennie - w nawiasie słowa niepospolite mają taką samą wagę jak pospolite.

Minus przed słowem oznacza, że w szukanym dokumencie tego słowa być nie powinno. Aby minus działał w ten sposób, musi przylegać do słowa.

Jeśli w pytaniu pojawi się słowo specjalne host:, po którym (bez spacji) wystąpi nazwa witryny lub dowolna końcówka nazwy witryny poprzedzona gwiazdką i kropką, to Szukacz wyszuka wszystkie dokumenty z tej witryny lub z witryn o nazwach kończących się w ten sposób. Przykład: host:www.onet.pl, host:*.onet.pl. Zamiast host: można użyć słowa site:, wynik będzie ten sam.

Jeśli w pytaniu oprócz host: pojawi się inne słowo, Szukacz znajdzie dokumenty, w których jest to słowo, pochodzące z witryny podanej po słowie host:.

Jeśli w pytaniu wewnątrz słowa występuje znak, który nie jest literą ani cyfrą, to jest on zamieniany na spację. Pytanie jan.nowak@skrytka.pl jest równoważne pytaniu "jan nowak skrytka pl" (muszą wystąpić wszystkie słowa w tej właśnie kolejności, jedno po drugim). Pytanie 1992-2001 jest równoważne pytaniu "1992 2001".

Słowo specjalne host: pozwala także znaleźć dokumenty, które zawierają szukane słowo (jedno) w nazwie witryny. W tej chwili NIE można w ten sposób szukać słów znajdujących się w ścieżce (czyli następujących po ukośniku kończącym nazwę witryny).

Szukacz pokazuje na liście trafień po jednym najlepszym dokumencie z tej samej witryny. To standardowe ustawienie można zmienić, klikając link "Ustawienia" i zaznaczając odpowiednie miejsce w formularzu.

Znaki sterujące i słowa specjalne

Pytania składają się z szukanych słów oraz ze znaków sterujących, które określają, jak Szukacz ma te słowa traktować. W pytaniu mogą też występować łańcuchy zaczynające się od słowa specjalnego host: oraz grupa:.

W pytaniach mogą występować cyfry od 0 do 9, duże litery od A do Z oraz Ą, Ć, Ę, Ł, Ń, Ó, Ś, Ź, Ż i małe litery od a do z oraz ą, ć, ę, ł, ń, ó, ś, ź, ż. Szukacz automatycznie zamienia duże litery (wersaliki) na małe, dotyczy to także liter polskich. Szukacz nie odróżnia słów z dużymi literami od słów z małymi.

Znakami specjalnymi, sterującymi pracą Szukacza, są: plus +, gwiazdka *, nawiasy kwadratowe [  ], cudzysłów podwójny " oraz minus -. W słowach specjalnych pojawia się także dwukropek oddzielający właściwe słowo od reszty łańcucha, która zawiera dane.

Wszystkie inne znaki znajdujące się w pytaniu (jak również w dokumentach analizowanych i indeksowanych przez Szukacza) są automatycznie zamieniane na spacje. Jeśli wewnątrz słowa pojawia się minus lub gwiazdka, są one też zamieniane na spację.

Co nowego w Szukaczu?

115 milionów polskich dokumentów (27 listopada 2007)

Po ostatnim zasadniczym odświeżeniu całej kolekcji polskiej, które nastąpiło kilka dni temu i jest efektem 4 miesięcy gromadzenia danych, nasza główna kolekcja liczy 115 milionów dokumentów. Pochodzą one z nieco ponad miliona witryn (z 1,1031 miliona grup witryn; w rzeczywistości witryn mamy w kolekcji 135 tysiące więcej, ale wynika to z tego, że wiele witryn pojawia się pod różnymi nazwami, np. z prefiksem www i bez niego). W kolekcji tej zidentyfikowaliśmy 1,7 miliona dokumentów o treściach erotycznych i pornograficznych. Nie pokazujemy ich, jesli aktywny jest filtr obyczajowy (standardowo jest on włączony i Szukacz takich dokumentów nie pokazuje; można go wyłączyć w Ustawieniach).

Indeksy, które wykorzystujemy do odpowiadania na pytania zadawane Szukaczowi, to teraz 1,36 terrabajta danych. Są one rozlokowane na 23 twardych dyskach, zamontowanych w 4 serwerach. Ten zestaw jest zduplikowany na kolejnych 4 serwerach. W sumie cały system odpowiadający mieści się na 10 serwerach. Kolejne trzy serwery służą do zbierania danych i ich przetwarzania w postać indeksów.

Kolekcja "Świat" (1 lipca 2007)

Zrezygnowaliśmy z dalszego powadzenia kolekcji "Świat". Były w niej dokumenty z najciekawszych, wyselekcjonowanych witryn anglojęzycznych. W ostatniej kolekcji mieliśmy 45 mln dokumentów z 2 mln witryn. Tylko 4 procent pytań przychodzących do Szukacza skierowanych było do tej kolekcji.

Ponad 100 milionów polskich dokumentów (20 stycznia 2007)

Wielki moment. Kolekcja polskojęzyczna Szukacza przekroczyła 100 milionów dokumentów.

Po kolejnym odświeżeniu nasza kolekcja polska ma 125 milionów dokumentów.

W kolekcji "Świat" mamy 45 milionów dokumentów z 2 milionów witryn. Są to wyselekcjonowane, najciekawsze witryny anglojęzyczne.

87 milionów polskich dokumentów (22 września 2006)

Po kolejnym odświeżeniu nasza kolekcja polska ma 87,5 miliona dokumentów. Pochodzą one z nieco ponad miliona witryn (z 1,046 miliona grup witryn; w rzeczywistości witryn mamy w kolekcji 100 tysięcy więcej).

Odświeżanie: Podczas każdego kolejnego odświeżenia kolekcji polskiej, które ma miejsce mniej więcej raz na tydzień, staramy się poprawić całość danych. Usuwamy z nich wykryte powtórzenia oraz strony, które w międzyczasie przestały istnieć na swych macierzystych serwerach. Staramy się też nie pokazywać stron (i całych witryn), które służą wyłącznie do przekierowania ruchu do innych. No i oczywiście dodajemy nowe dokumenty, które zebraliśmy w ostatnim czasie, a których do tej pory w kolekcji nie było.

W kolekcji "Świat" mamy dzisiaj 33,6 miliona dokumentów z 1,9 miliona witryn.

Najpopularniejsze witryny w 2006 roku według Szukacza (4 marca 2006)

Marzec 2006 - sto napopularniejszych polskich witryn

Luty 2006 - sto napopularniejszych polskich witryn

Styczeń 2006 - sto napopularniejszych polskich witryn

Podsumowanie 2005 roku (15 stycznia 2006)

Unikalni użytkownicy

W ciągu 2005 roku skorzystało z Szukacza 2,6 mln osób. Tylu było unikalnych użytkowników identyfikowanych za pomocą ciasteczek. Zadali oni 32,6 miliona pytań.

Najpopularniejsze witryny w 2005 roku według Szukacza

Do poniższych witryn weszło najwięcej osób z list trafień Szukacza.


Witryna

Wejścia
na milion

1

encyklopedia.pwn.pl

14 076

2

pl.wikipedia.org

13 089

3

www.merlin.com.pl

7 069

4

www.sciagawa.pl

6 446

5

polityka.onet.pl

5 008

6

www.mapapolski.pl

4 615

7

www.wiw.pl

4 280

8

republika.pl

4 189

9

insiderpress.pl

3 504

10

prace.sciaga.pl

3 320

11

www.wprost.pl

2 936

12

www.webwweb.pl

2 753

13

www.filmpolski.pl

2 539

14

www.abc.com.pl

2 428

15

eduseek.interklasa.pl

2 345


Do zbudowania listy użyliśmy danych o 17,5 milionie kliknięć. Lista składa się z 618 tysięcy witryn.

Na czele listy znajdują się dwie duże encyklopedie internetowe - PWN i Wikipedia - z prawie identyczną liczbą trafień. Dalej księgarnia internetowa oraz kilka serwisów, o których można na pewno powiedzieć, że są bardzo użyteczne przy odrabianiu lekcji: www.sciagawa.pl, www.wiw.pl, praca.sciaga.pl, eduseek.interklasa.pl, sciaga.nauka.pl, www.profesor.pl...

Pytania najczęściej zadawane Szukaczowi w 2005 roku

Pytanie

Liczba wystąpień
na milion pytań

1

sex

1342

2

warszawa

1045

3

mapa polski

1024

4

gry

623

5

mp3

597

6

tapety

547

7

kraków

540

8

porno

519

9

mapa

500

10

praca

500

11

lista wildsteina

499

12

tapety na pulpit

478

13

teksty piosenek

474

14

katowice

464

15

allegro

451

Odświeżanie

Co tydzień odświeżamy mniej więcej jedną siódmą zawartości kolekcji polskiej. Oznacza to, że wszystkie dokumenty pokazywane na naszych listach trafień zostały ściągnięte z ich macierzystej witryny przez naszego robota w ciągu ostatnich dwóch miesięcy (lub też robot stwierdził, że są tam nadal, a ich zawartość się nie zmieniła w stosunku do tego, co ściągnął wcześniej).

Raz na tydzień dodajemy też dokumenty zgłoszone Szukaczowi za pomocą formularza Dodawanie witryn do kolekcji.

Od początku 2004 roku skutecznie, mamy nadzieję, blokujemy spamerów, którzy te same treści (oczywiście pornograficzne) mnożą w setkach witryn, zarówno dodając co nich najróżniejsze - także dynamiczne - prefiksy, jak i rejestrując w tym celu ciągle nowe domeny.

Filtr obyczajowy

Wśród dokumentów w kolekcji polskiej znajduje się mniej więcej 1,3% stron o treściach erotyczno-pornograficznych. Tych stron nie pokazujemy ich liście trafień, jeśli aktywny jest filtr obyczajowy (co jest ustawieniem domyślnym). Dokumenty z taką zawartością stanowią stosunkowo mały odsetek wszystkich, gdyż staramy się nie zbierać dokumentów z witryn zawierających ewidentny spam.

Statystyki Szukacza

Znakomita większość zadawanych pytań dotyczy kolekcji polskiej. Tylko 4 procent pytań dotyczy kolekcji "Świat".

Pytania składające się z jednego słowa stanowią 39 procent wszystkich niepustych pytań. Pozostałe 61 procent to pytania z dwóch lub większej liczby słów. Pytania o frazy stanowią 6 procent pytań niepustych. Cyfry pojawiają się w 6 procentach pytań niepustych, minus w 3 procentach, a gwiazdka kończąca słowo w 0,7 procent takich pytań.

Dziennie korzysta z Szukacza od 13 tysięcy (w soboty i święta) do 20 tysięcy osób.

W dni robocze w porze największego ruchu z Szukacza w ciągu godziny korzysta 1,8 tysiąca osób.

Szukacz z polską fleksją - odsłona druga

Szukając Szukaczem można wybrać jeden z trzech sposobów traktowania polskiej zawartości dokumentów:

  1. Tryb z fleksją  -  z polskimi znakami i polską fleksją

  2. Tryb normalny  -  z polskimi znakami, lecz bez polskiej fleksji

  3. Tryb bez diakrytów  -  bez polskich znaków i bez polskiej fleksji

Mamy nadzieję, że w ten sposób najlepiej, jak to tylko możliwe, spełniliśmy postulaty wielu użytkowników Szukacza, którzy pracowicie zgłaszali je nam w ciągu ostatnich trzech lat.

Ad. 1. W trybie z fleksją Szukacz uwzględnia właściwości polskiej fleksji. Oznacza to, że słów z pytania szuka on w dokumentach we wszystkich możliwych formach fleksyjnych, biorąc pod uwagę, że rzeczowniki i zaimki w języku polskim podlagają deklinacji, czasowniki - koniugacji, a przymiotniki mają formy wyższe i najwyższe.

W szczególności dla pytania Ala ma kota znajdzie nie tylko dokumenty zawierające szukane słowa w ich podstawowej formie fleksyjnej, tzn. ala mieć kot, ale także dokumenty zawierające wszystkie inne warianty fleksyjne, np. alę miały koty. Czasami ma to zaskakujące konsekwencje, bo w tym trybie na pytanie rada znajdzie także dokumenty dotyczące miasta radom, gdyż radom jest jedną z form fleksyjnych liczby mnogiej słowa rada.

Ad. 2. W trybie normalnym Szukacz znajduje tylko te dokumenty, w których słowa z pytania znajdują się w tej samej postaci (formie fleksyjnej), co w pytaniu. Oznacza to, że dla pytania Ala ma łódź znajdzie tylko dokumenty, które zawierają te słowa (z dokładnością do dużych i małych liter, bo tych nie rozróżnia).

Ad. 3. Tryb bez diakrytów różni się od pozostałych tym, że Szukacz nie zwraca uwagi na polskie znaki diakrytyczne. Zarówno w dokumentach, jak i w pytaniu, zamienia wszystkie polskie znaki diakrytyczne na ich odpowiedniki bez diakrytów (to znaczy zamienia ą na a, ć na c itd.). I dopiero wtedy porównuje słowa z pytania ze słowami z dokumentów.

Oznacza to, że dla pytania Ala ma łodź szuka dokumentów, które po usunięciu polskich diakrytów zawierają słowa ala, ma oraz lodz. W rezultacie znajdzie dokumenty, które w rzeczywistości zawierają np. słowa ąłą mą łodź.

W trybach z fleksją oraz normalnym Szukacz oczywiście rozpoznaje polskie znaki diakrytyczne ąć, ę, ł, ń, ó, ś, źż.

Jeśli w dowolnym z tych dwóch trybów pojawi się w pytaniu słowo z gwiazdką na końcu, Szukacz automatycznie będzie tego jednego słowa szukał, stosując tryb bez diakrytów, czyli nie będzie stosował fleksji i zgubi polskie diakryty.

Standardem dla kolekcji "Polska" jest tryb normalny. Tryb ten będzie stosowany, jeśli użytkownik nie zdefiniuje innego, korzystając ze strony Ustawienia.

Standardem dla anglojęzycznej kolekcji "Świat" jest tryb bez diakrytów i dla tej kolekcji inne tryby nie działają. Jeśli inny tryb jest zdefiniowany w ciasteczku, to Szukacz i tak przełączy się na tryb bez diakrytów na czas obsługiwania takiego pytania.

Słownik form fleksyjnych

Aby w trybie z fleksją znajdować słowa, które w dokumencie występują w innej formie fleksyjnej niż ta, która została użyta w pytaniu, Szukacz korzysta ze słownika form fleksyjnych przygotowanego specjalnie w tym celu.

Nasz słownik fleksyjny zawiera pełną odmianę 19.450 wyrazów. Oznacza to, że dla 19.450 wyrazów mamy wszystkie formy, w jakich występują one w języku polskim. Na przyklad dla imienia Ala są to: Ala, Ali, Alę, Alą, Alo. W słowniku mamy też 2.944 wybranych form fleksyjnych dla innych wyrazów. Są to te formy, które nie znalazły się wśród 19.450 słów z pełną odmianą, ale które są na tyle częste, że znalazły się na liście 10 tysięcy wyrazów, najczęściej pojawiających się w pytaniach zadawanych Szukaczowi.

W sumie nasz słownik fleksyjny liczy dzisiaj 234 tysiące unikalnych form.

W ten sposób pytanie Ala ma kota jest teraz - w trybie z fleksją - równoważne pytaniu Ala mieć kot.

Twórcą słownika fleksyjnego jest Katarzyna Głowińska (wielkie dzięki!).

W naszym słowniku fleksyjnym znajduje się 84 procent wszystkich słów, wpisanych przez użytkowników w pytaniach zadanych Szukaczowi w 2004 roku. W powyższym rachunku nie wzięliśmy pod uwagę słów zawierających cyfry oraz słów z gwiazdką na końcu, maskująca końcówkę. Takiech słów pojawia się w pytaniach 8,7 procent. Natomiast 84 procent spośród pozostałych słów pojawiających się w pytaniach jest w słowniku fleksyjnym. Wśród tych pozostałych 16 procent słów, jest oczywiście sporo słów obcych oraz polskich z błędami ortograficznymi, przestawionymi lub opuszczonymi literami, a także bez niektórych polskich znaków diakrytycznych. Biorąc to pod uwagę, uważamy, że te 84 procent to nie jest zły wynik!

Najpopularniejsze wyrazy w pytaniach w 2004 roku

W pytaniach zadanych Szukaczowi w ciągu 2004 roku wystąpiło 839 tysięcy unikalnych słów; pojawiły się one w pytaniach 70 mln razy. Wśród wystąpień 7,3 procent stanowiły słowa zawierające cyfrę lub cyfry, a 1,4 procent słowa z końcówką zastąpioną gwiazdką.

Unikalnych słów, które w pytaniach wystąpiły co najmniej 10 razy, było 210 tysięcy. Wystąpiły one w sumie 68,2 mln razy.

Pierwsze 1.369 słów z czoła listy odpowiadają za 50 procent wszystkich wystąpień w pytaniach; słowo znajdujące się na pozycji 1.369 zostało w ciągu roku użyte 6.704 razy.

Pierwsze 14.011 słów z czoła list odpowiadają za 80 procent wystapień w pytaniach; słowo na pozycji 14.011 wystąpiło 543 razy.

Pierwsze 42.663 słowa z czoła listy odpowiadają za 90 procent wystąpień w pytaniach; słowo na pozycji 42.663 wystąpiło 115 razy.

Najczęstszymi dwudziestoma słowami w pytaniach zadawanych Szukaczowi w ciągu 2004 roku są (zaczynając od najbardziej popularnego): do, i, na, w, o, dla, 2, a, pl, co, jak, download, 1, 2004, jest, gry, 3, mp3, 0, darmowe.

Ku naszemu ogromnemu zdumieniu stwierdzamy, że słowa sex oraz seks pojawiają się na liście frekwencyjnej dopiero na 138 oraz 1.428 miejscu i w pytaniach wystąpiły odpowiednio 39.005 oraz 6.428 razy. Powyższy fakt zostawiamy bez dalszego komentarza

W wielu zastosowaniach istotne są nie tylko częstości występowania wyrazów, ale także częstości pojawiania się zespołów składających się z kilku wyrazów (niekoniecznie szukanych jako fraza). Jest to na przykład bardzo istotne przy ustalaniu słów kluczowych, których obecność w pytaniu powoduje emisję reklamy na liście trafień Szukacza. Aby lepiej "targetować" taką reklamę, reklamodawca może używać kluczy składających się z kilku wyrazów. Dlatego też przygotowaliśmy listę najczęściej występujących par słów. Jeśli w pytaniu użytkownika było kilka słów (więcej niż dwa), do naszej analizy wzięliśmy wszystkie możliwe ich kombinacje. .

Plus jako nowy operator w pytaniu

Wprowadziliśmy nowy operator w pytaniu. Jeśli w pytaniu bezpośrednio przed niektórymi słowami znajduje się plus (jest do nich przyklejony), Szukacz uważa, że słowa te muszą znajdować się w szukanym dokumencie, natomiast słowa, które nie są poprzedzone plusem, nie muszą. Przykład: w pytaniu +Ala +ma kota słowo kota nie musi występować w szukanym dokumencie.

Jeśli natomiast nie ma plusa przed żadnym słowem, Szukacz - jak dotychczas - przyjmuje że wszystkie te słowa muszą być obecne w szukanym dokumencie.

Nowy silnik Szukacza

Największą zmianą w najnowszym silniku Szukacza, działającym od sierpnia 2004 roku, jest to, że - oprócz zawartości dokumentu, a także jego tytułu i nazwy witryny - umożliwia on przeszukiwanie także opisu dokumentu, słów kluczowych, a także słów, które zostały użyte w innych dokumentach w linkach, kierujących do niego.

Opis dokumentu (zawartość znacznika "description") i słowa kluczowe (zawartość znacznika "keywords") są zdefiniowane w jego nagłówku i w zwykłym trybie pracy nie są widoczne dla użytkownika. Moża zobaczyć je, otwierając taki dokument za pomocą edytora lub oglądając go w naszym archiwum.

Do wyszukiwania wykorzystujemy teraz słowa z innych dokumentów, które zostały w nich użyte do opisania linków, kierujących do danego dokumentu. Dotyczy to zarówno dokumentów pochodzących z tej samej witryny, z której pochodzi dany dokument, jak i z innych.

Poprawiliśmy też system ustalający kolejność dokumentów na liście trafień. W szczególności faworyzujemy teraz strony główne witryn oraz dokumenty, w których szukane słowa występują w tytule lub nazwie witryny.

Od stycznia 2004 roku silnik Szukacza dzieli pracę na elementy i może zlecić wykonanie części odpowiedzi podwykonawcy znajdującemu się na innym serwerze. Ta zmiana pozwala nam budować dowolnie duże systemy odpowiadające i obsługiwać dowolnie duże kolekcje.

Grupowanie witryn i zwijanie odpowiedzi

Grupujemy witryny, które mają aliasy, to znaczy są dostępne pod więcej niż jedną nazwą. O witrynie i jej aliasach mówimy, że stanowią grupę. Oznacza to, iż do tej samej zawartości (do tych samych stron-dokumentów) można dotrzeć wpisując różne nazwy hostów. Takich grup jest bardzo dużo. Najczęstszym przypadkiem grupy są pary witryn: z przedrostkiem "www" i bez niego.

Jeśli na liście trafień jest kilka dokumentów z tej samej grupy, pokazujemy je w postaci zgrupowanej. To znaczy pokazujemy tylko najlepszy dokument z całej grupy, a pozostałe wyświetlamy dopiero po kliknięciu linku "Pokaż inne dokumenty z...".

W kolekcji polskiej jest mniej więcej pół miliona grup witryn; unikalnych hostów jest w niej natomiast o 150 tysięcy więcej.

Ściągamy i indeksujemy wyłącznie dokumenty przygotowane w języku HTML oraz zwykłe dokumenty tekstowe. Nasze kolekcje zawierają też dokumenty (przede wszystkim strony główne witryn) wykonane w technice "flash", jeśli znajduje się w nich jakikolwiek opis w postaci zwykłego tekstu.

Szukacz "zwija" teraz odpowiedzi na liście trafień i pokazuje tylko najlepszy z dokumentów należących do tej samej grupy witryn.

Grupa witryn to wszystkie witryny z taką samą lub prawie taką samą zawartością. Na ogół grupę tworzą witryny o zbliżonych nazwach: witryna.pl, www.witryna.pl, witryna.com.pl, www.witryna.com.pl. Dość często do takiej grupy trafiają także witryny o innych nazwach, np. witryna.waw.pl, moja-witryna.biz. Dzieje się tak, jeśli Szukacz stwierdza, że są one aliasami witryn z danej grupy.

Wprowadziliśmy grupy, gdyż wiele witryn ma aliasy, to znaczy jest widocznych pod kilkoma, często bardzo różnymi nazwami. W rezultacie dokumenty z takiej witryny pojawiały się na liście trafień Szukacza wielokrotnie, nawet przy włączonym zwijaniu odpowiedzi.

Polscy rekordziści w tworzeniu aliasów budują witryny widoczne pod kilkoma tysiącami nazw. Absolutnym rekordzistą okazała się witryna iv.pl, w której wykryliśmy 72 tysiące przedrostków typu *.w.iv.pl oraz *.x.iv.pl. Cała ta witryna to dosłownie kilka różnych dokumentów tworzonych dynamicznie plus generator przedrostków oraz krzyżowych linków pomiędzy stronami z tymi przedrostkami.

Nie ściągamy dokumentów z witryn, które zostały specjalnie przygotowane po to, by wprowadzać roboty w błąd. W szczególności nie ściągamy dokumentów z witryn, których nazwy mają dynamicznie nadawane przedrostki.

Zmieniliśmy istotnie składnię pytania host: oraz dodaliśmy nowe pytanie grupa:.

Teraz w pytaniu host: nie zakładamy domyślnie występowania gwiazdki jako przedrostka nazwy. Pytanie: host:witryna.pl to pytanie o dokumenty z witryny witryna.pl. Aby także otrzymać dokumenty z www.witryna.pl oraz z witryn z innymi przedrostkami, należy zadać pytanie host:*.witryna.pl, a jeszcze lepiej grupa:*.witryna.pl.

Jedynym wyjątkiem od powyższej reguły jest pytanie z pojedynczym wyrazem następującym po host:. Odpowiedzią na pytanie host:witryna będzie lista dokumentów z wszystkich witryn zawierających w swojej nazwie słowo witryna na jakiejkolwiek pozycji.

Wyszukując przedrostki w nazwie witryny, za przedrostek uważamy każdy element oddzielony od innych przez kropkę lub minus. Dlatego też pytanie host:samsung da w wyniku witrynę www.samsung-electronics.com.pl, bo z punktu widzenia Szukacza ma ona w nazwie elementy: www, samsung, electronics, com, pl.

Pytanie host: może być stosowane zamiennie z pytaniem site:, a pytanie grupa: z pytaniem group:.

Jak działa Szukacz?

Szukacz jest narzędziem służącym do wyszukiwania dokumentów w Internecie. Został przygotowany przede wszystkim do wyszukiwania dokumentów w języku polskim.

Szukacz składa się z czterech podstawowych modułów: zbieracza, tekstowacza, indeksera i odpowiadacza.

Zbieracz, zwany też robotem lub pająkiem, "chodzi" po sieci i wyszukuje dokumenty, tworząc bazy danych, z których co pewien czas (zwykle raz na dwa, trzy tygodnie) budujemy nowe kolekcje, korzystając z tekstowacza i indeksera. Gotowa kolekcja jest wykorzystywana przez odpowiadacz do konstruowania odpowiedzi, czyli strony z adresami dokumentów, którą wysyłamy pytającemu. Tę stronę z odpowiedziami nazywamy w skrócie listą trafień. "Polskojęzyczność" Szukacza

Większość wyszukiwarek, z jakich korzystają dzisiaj polscy internauci, to narzędzia stworzone w świecie angielskojęzycznym. Nie są one dobrze przystosowane do szukania słów polskich, zawierających polskie znaki diakrytyczne: ąć, ę, ł, ń, ó, ś, ź, ż. Trudność sprawia również fakt, że w języku polskim jedno słowo może mieć różne końcówki fleksyjne. Kolejnym utrudnieniem dla tych narzędzi jest to, że polskie znaki są w Internecie kodowane w dwóch standardach (Windows-1250 oraz ISO-8859-2), co wprowadza dodatkowe zamieszanie.

Zaletą Szukacza jest to, że doskonale radzi sobie z dokumentami polskojęzycznymi, bez względu na to, jak zostały w nich zakodowane polskie znaki, i bez względu na to, czy została zdefiniowana strona kodowa. Szukacz radzi sobie także z typowymi błędami w kodowaniu polskich znaków i te błędy poprawia.

Szukając Szukaczem, można wybrać jeden z trzech sposobów traktowania polskiej zawartości dokumentów:

  1. Tryb z polskimi znakami i polską fleksją

  2. Tryb z polskimi znakami, lecz bez polskiej fleksji (tryb domyślny)

  3. Tryb bez polskich znaków i bez polskiej fleksji

W żadnym z trybów Szukacz nie rozróżnia dużych i małych liter - Ala i ala to dla Szukacza to samo słowo.

W trybie 2. Szukacz stosuje polskie znaki diakrytyczne, ale nie bierze poprawki na polską fleksję. Szuka dokumentów, które zawierają słowa z pytania w identycznej postaci fleksyjnej, w jakiej użytkownik je wpisał.

W trybie 3. Szukacz szuka tych słów "z dokładnością do diakrytów". Oznacza to, że przed szukaniem usuwa polskie diakryty zarówno ze słów z pytania, jak i ze słów z dokumentów.

W trybie 1. Szukacz korzysta z polskich znaków diakrytycznych, jak w trybie 2., jednak dodatkowo bierze pod uwagę, że słowa z pytania mogą w dokumentach występować w innycn formach fleksyjnych i szuka ich we wszystkich formach.

Robot Szukacza (zbieracz) wędruje po całym świecie, po wszystkich serwerach, do jakich znajdzie linki, szukając dokumentów polskojęzycznych. Zbiera wszystkie dokumenty. Nie ogranicza się do witryn, których nazwa kończy się na pl. Całkowicie automatycznie zbiera dokumenty z polską zawartością, znajdujące się w dowolnym miejscu, w dowolnej witrynie na świecie. Ponieważ jest to nasz własny produkt, a więc nie korzystamy z niego na zasadzie umowy licencyjnej (w ten czy inny sposób nas ograniczającej), nic nie przeszkadza Szukaczowi indeksować dowolnej liczby dokumentów. Jedynym ograniczeniem jest tu ich dostępność i miejsce na dyskach naszego archiwum.

Można zadawać Szukaczowi pytania ze słowami zawierającymi polskie litery, nie mając zainstalowanego sterownika polskiej klawiatury (typowa sytuacja w jakiej znajduje się osoba próbująca gdzieś poza granicami Polski skorzystać z cudzego komputera). Szukacz pozwala wpisywać polskie znaki w inny, łatwy sposób: ą = a^, ć = c^, ę = e^, ł = l^, ń = n^, ó = o^, ś = s^, ź = x^, ż = z^.

Fakt, że Szukacz tworzony był z myślą o dokumentach w języku polskim, nie oznacza, że nie można z jego pomocą dotrzeć do dokumentów obcojęzycznych. Doskonale radzi sobie z dokumentami w języku angielskim.

Jeśli Szukacz stwierdza, że dokument, na który natrafił jego zbieracz, nie jest napisany po polsku ani po angielsku i zawiera obce znaki diakrytyczne, przetwarza te znaki, na najbliższe im odpowiedniki angielskie. Dzięki temu można wykorzystać Szukacza do przeszukiwania całego Internetu. W szczególności można za jego pomocą z powodzeniem szukać dokumentów francuskich i niemieckich bez wpisywania francuskich i niemieckich znaków diakrytycznych (co jest zawsze uciążliwe, jako że mało kto w Polsce ma odpowiednie sterowniki klawiatury). Szukacz radzi sobie również z dokumentami w kilku innych językach europejskich. Zadawanie pytań

Każda wyszukiwarka działa tym skuteczniej, im bardziej precyzyjne jest pytanie zadane przez użytkownika. I tu Szukacz ma swoje zalety. Pozwala użytkownikowi budować dość skomplikowane pytania. Służy temu odpowiednia składnia pytań. Użytkownik widzi natychmiast, jak prosto jest zbudować w sumie dość skomplikowane pytanie.

W pytaniach można stosować gwiazdki, nawiasy kwadratowe oraz minusy.

Gwiazdkami można zastępować (maskować) końcówki słów, uwzględniając tym samym ich różne warianty fleksyjne. Jeśli słowo zakończone jest gwiadką, Szukacz automatycznie wyszukuje to jedno słowo, stosując tryb "bez polskich znaków", bez względu na to, jaki tryb pracy użytkownik wybrał i jaki jest jest stosowany dla pozostałych słów

Wyszukiwarki dzielą się na te, które spację oddzielającą słowa w pytaniu składającym się z kilku słów traktują jako logiczny operator OR, oraz na te, które spację taką traktują jako logiczny operator AND.

Szukacz traktuje spację miedzy wyrazami, nawiasami kwadratowymi oraz frazami zamkniętymi w cudzysłowach jako AND. Natomiast spację umieszczoną pomiędzy wyrażeniami znajdującymi się wewnątrz nawiasu kwadratowego traktuje jako operator OR.

Jeśli przed którymś ze słów w pytaniu znajduje się plus (i przylega do tego słowa), Szukacz stosuje specjalny tryb pracy. Przyjmuje w takim przypadku, że słowo poprzedzone plusem musi być obecne w szukanym dokumencie, natomiast pozostałe słowa z pytania mogą być obecne, ale nie muszą.

Szukacz pozwala też konstruować pytania znacznie bardziej złożone. Można szukać dokumentów, które zawierają jeden z kilku wyrazów. Takimi wyrazami mogą być np. wyrazy bliskoznaczne lub różne formy fleksyjne tego samego wyrazu. Do tego służą nawiasy. Zwykle pytającemu nie zależy na tym, jaką końcówkę flesyjną będzie miał wyraz w znalezionym dokumencie. Wystarczy, aby w znalezionym dokumencie występowała tylko jedna wersja tego wyrazu. Takie wyrazy należy zamknąć w nawiasie kwadratowym. Spacja wewnątrz nawiasu kwadratowego traktowana jest przez Szukacza jako logiczne OR, a wszystkie wyrazy z nawiasu traktowane są wymiennie (są tak samo istotne, czyli mają tę samą punktację).

Plus przed słowem (a także przed nawiasem oraz frazą zamkniętą w cudzysłowie) oznacza, że element ten musi być obecny w szukanym dokumencie. Pozostałe słowa mogą, ale nie muszą, być w takim przypadku obecne w dokumencie.

Minus przed słowem (nawiasem, frazą) oznacza, że takiego słowa (wyrażenia) w dokumencie być nie może.

Szukacz potrafi wyszukiwać frazy. Gdy dostaje pytanie z kilkoma słowami zamkniętymi w cudzysłowie, znajduje dokumenty, które zawierają wszystkie te słowa, i następnie sprawdza, czy tworzą one faktycznie frazę (czy następują jedno po drugim). We wnętrzu frazy można maskować gwiazdkami końcówki wszystkich słów ją tworzących.

Odpowiedzi, czyli lista trafień

Jeśli Szukacz znajdzie dokumenty, w których występują poszukiwane słowa lub frazy, wysyła pytającemu listę z odpowiedziami. Tę listę nazywamy listą trafień.

Jest to zbiór adresów dokumentów, które Szukacz wybiera i szereguje według specjalnego algorytmu. Na pierwszych miejscach na liście znajdują się więc dokumenty, w których są wszystkie szukane słowa, a niektóre z nich znajdują się w tytule dokumentu lub nazwie witryny.

W tym przetworzonym pytaniu niektóre słowa mogą być zapisane w nieco inny sposób. W szczególności w tym przetworzonym pytaniu widać, które znaki niealfanumeryczne zostały pominięte, gdyż w naszym systemie są zastępowane przez spacje lub frazę.

Wyświetlając listę trafień, Szukacz pokazuje na niej fragmenty dokumentów, w których znajdują się szukane słowa. Słowa te są w tekście dokumentu wyróżnione innym (standardowo: czerwonym) kolorem. Użytkownik, patrząc na link do dokumentu na liście trafień, może więc na pierwszy rzut oka ocenić, czy warto do dokumentu w ogóle zaglądać. To jedna z większych zalet Szukacza.

Każdy dokument na liście trafień jest opisany dodatkowo informacją zawierającą: tytuł dokumentu, jego adres (tj. nazwę serwera, na którym jest on przechowywany, oraz jego URL), datę ostatniej modyfikacji (o ile macierzysty serwer ją podaje), datę archiwizacji (kiedy Szukacz ostatni raz dotarł do tego dokumentu i go przeczytał) oraz wielkość.

Jeżeli dokument występuje w tej samej postaci w kilku różnych witrynach (lub w tej samej witrynie, widocznej pod kilkoma nazwami), na liście trafień taki dokument pojawi się najprawdopodobniej tylko jeden raz, gdyż Szukacz stara się eliminować z listy trafień odpowiedzi, które się dublują.

Szukacz pokazuje na liście trafień po jednym dokumencie z każdej witryny. Robi to celowo, aby pytający wśród pierwszych odpowiedzi zobaczył jak najwięcej dokumentów różnych, pochodzących z różnych witryn. Te "ukryte" odpowiedzi można zobaczyć, klikając odpowiedni link na liście trafień lub dopasowując standardowe ustawienia Szukacza do własnych upodobań.

Kolekcje i archiwa

Dwie podstawowe kolekcje Szukacza to "Polska" oraz "Świat".

Kolekcja polska składa się z wielu fragmentów (subkolekcji). Wśród nich znajduje się encyklopedia PWN. Są także elektroniczne archiwa gazet i czasopism: archiwum Polityki, Newsweeka, Wprost. Jest też subkolekcja aktów prawnych.

Archiwa Szukacza liczą dzisiaj około terrabajta (terrabajt to tysiąc gigabajtów) danych (są to pełne dokumenty HTML). Dziennie archiwizujemy prawie milion dokumentów. Ściągamy ich nawet więcej, ale nie wszystkie są warte archiwizowania.

Ściągamy i archiwizujemy zarówno dokumenty statyczne, jak i dynamiczne.

Dokumenty statyczne, to dokumenty istniejące cały czas w swojej ostatecznej postaci, czyli takiej, jaką widzi czytający. Dokumenty dynamiczne są generowane za każdym razem na nowo z odpowiedniej bazy danych i - zależnie od potrzeb - mogą przybierać różną postać.

Zbieranie dokumentów dynamicznych jest znacznie trudniejsze niż zbieranie dokumentów statycznych. Jest ono trudniejsze przede wszystkim dlatego, że stosunkowo łatwo jest zebrać wiele bardzo podobnych lub wręcz identycznych dokumentów z tej samej witryny, a także dlatego, że robiąc to, można wyrządzić krzywdę odpytywanemu serwerowi poprzez generowanie zbędnego ruchu i blokowanie dostępu innym użytkownikom.

Nasza obecna kolekcja polskojęzyczna zawiera 23,5 miliona dokumentów pochodzących z 495 tysięcy witryn polskojęzycznych. Kolekcja anglojęzyczna zawiera 46,8 miliona dokumentów z 1,6 miliona najciekawszych witryn świata (są w niej także dokumenty w innych językach opartych na alfabecie łacińskim).

Zarchiwizowane dokumenty stanowią bazę, z której indekser buduje kolekcję dla odpowiadacza, by ten ostatni mógł odpowiadać na pytania zadawane przez użytkowników.

O ważeniu linkami

Pozycja dokumentu na liście trafień zależy nie tylko od tego, jakie słowa z pytania w nim się znajdują, ile ich jest i czy są one w tytule dokumentu lub nazwie witryny. Na pozycję wpływa także to, w jak znanej witrynie się znajduje i jak wiele linków prowadzi do tej witryny z innych witryn.

Wykorzystanie komercyjne - licencje

Użytkownikom instytucjonalnym proponujemy umowę licencyjną, w ramach której jesteśmy gotowi serwować odpowiedzi z jednego z naszych serwerów. Ponieważ to my sami przez cały czas obsługujemy szukacza, oznacza to, iż jedynymi kosztami licencjobiorcy jest opłata licencyjna.

W ramach licencji możemy dostosować wygląd listy trafień, wkładając tam elementy graficzne charakterystyczne dla witryny czy portalu licencjobiorcy.

Przeszukiwanie "lokalne" Użytkownikom nieinstytucjonalnym proponujemy "lokalne" przeszukiwanie ich witryn. Jest to usługa "na zamówienie". Korzystający z takiej usługi może zdalnie uruchomić specjalną wersję Szukacza, która ściągnie strony z jego witryny i na naszym serwerze zbuduje z nich specjalną kolekcję. Szukacz będzie taką kolekcję obsługiwał w podobny sposób, jak dzisiaj obsługuje inne witryny. Oczywiście, korzystający z usługi będzie musiał w swojej witrynie umieścić okienko (formularz) Szukacza, aby osoby ją odwiedzające mogły wpisać pytanie. Szukacz zaś będzie - w wersji bezpłatnej tej usługi - takiej odwiedzającej osobie wysyłał swoją standardową listę trafień. Zaś w wersji płatnej będzie wysyłał odpowiedź zamawiającemu usługę, by ten - przed wysłaniem jej zadającemu pytanie - mógł ją odpowiednio sformatować, wyposażając w swoje elementy graficzne, plakietki reklamowe itp.

Takie lokalne przeszukiwanie działa już w kilku naszych witrynach (np. www.wiw.pl). Użytkownik otrzymuje wyniki z kolekcji (witryny), w której zadał Szukaczowi pytanie. Na liście trafień ma jednak guzik radiowy, za pomocą którego może zmienić przesukiwaną kolekcję: z lokalnej na "Polskę" oraz "Świat".

O autorach

Twórcami Szukacza są: Dariusz Kowalczyk, Mieczysław Prószyński i Artur Zgodziński. Znakomita większość obecnego kodu, składającego się na Szukacza, to dzieło Dariusza Kowalczyka (zbieracz, tekstowacz) i Artura Zgodzińskiego (indekser oraz właściwy odpowiadający na pytania).

Jak działa robot Szukacza?

Robot Szukacza (zbieracz) wędruje po sieci www od witryny do witryny, korzystając z linków, na jakie trafia, i indeksuje zawartość stron, na które trafia. To jest wersja nieco uproszczona.

W rzeczywistosci zbieracz zapisuje ściągnięte strony (dokumenty) w swojej bazie danych. Z dokumentów tych wyjmuje linki i włącza je do bazy linków. Następ losuje linki z tej bazy i ściąga dokumenty, do których one prowadzą. Archiwizuje je i wyjmuje linki -- cykl się zamyka.

Z dokumentów zebranych w bazie danych budujemy kolekcję, którą można przeszukiwać za pomocą Szukacza. Tę kolekcję budujemy co pewien czas, zwykle raz na dwa, trzy tygodnie. Codziennie do kolekcji dodajemy natomiast dokumenty zgłoszone przez użytkowników Szukacza poprzez formularz Dodawanie witryn do kolekcji.

Zdarza się, że zbieracz podczas swojej wędrówki trafia na strony, których nie powinien ściągać (bo np. nie zawierają treści wartych indeksowania).

Zdarza się też, że zbieracz zapętla się -- wielokrotnie ściąga tę samą stronę, uważając, że za każdym razem ściąga coś nowego. W ten sposób może obciążać witrynę, generując niepotrzebny ruch.

Staramy się do tego nie dopuszczać, ale nie zawsze się nam to udaje. Ograniczamy zbieracza w ten sposób, że po ściągnięciu strony z danej witryny przez następne kilka sekund nie wolno mu ściągać z niej niczego więcej.

Można robota w prosty sposób poinformować, żeby do danej witryny w ogóle nie wchodził lub żeby nie wchodził do niektórych katalogów, jakie się w niej znajdują. Można też zakazać mu czytania wybranych dokumentów w tych katalogach.

Można to zrobić dwojako: globalnie, tworząc plik robots.txt, dotyczący całej witryny, lub lokalnie, zabraniając mu indeksowania poszczególnych dokumentów, za pomocą metatagu robots umieszczonego w tych dokumentach.

Plik robots.txt

Plik robots.txt powinien znajdować się w głównym katalogu witryny, tzn. w przypadku witryny o nazwie www.witryna.pl powinien mieć adres www.witryna.pl/robots.txt.

W pliku robots.txt można zabronić wchodzenia do witryny wszystkim robotom lub tylko niektórym (w szczególności np. tylko Szukaczowi). Można zabronić im wchodzenia w ogóle lub tylko do niektórych katalogów, jakie się w niej znajdują.

Dokładny opis (po angielsku) pliku robots.txt znajduje się pod adresem: http://www.robotstxt.org/wc/norobots.html

Wyszukiwarka NetSprint

Wyszukiwarka internetu to pierwszy, flagowy produkt Spółki stworzony na początku 2000 roku przez zespół warszawskich programistów, kierowanych wówczas przez Tomasza Skalczyńskiego i Kamila Nagrodzkiego.

Pierwsze wdrożenie wyszukiwarki NetSprint miało miejsce w 2000 roku na portalu Hoga.pl. Od początku działalności strategicznym celem firmy był stały wzrost liczby przeszukiwanych stron. NetSprint już wówczas indeksował 4 mln dokumentów. W rankingu PC World Komputer w lutym 2001 roku NetSprint został uznany za najlepszą wyszukiwarkę w Polsce!
 
W 2001 r. miało miejsce uruchomienie serwisu NetSprint.pl oraz stworzenie sieci ponad 140 serwisów lokalnych korzystających z naszej wyszukiwarki i wyświetlających Linki Sponsorowane pozyskanych przez nas reklamodawców. Niezwykle istotne było rozpoczęcie pod koniec 2002 r. współpracy z portalem Wirtualna Polska. Wirtualna Polska jest najważniejszym partnerem NetSprinta. Współpraca ta bardzo przyśpieszyła rozwój technologiczny wyszukiwarki i powiększyła znacznie zasięg silnika NetSprint wśród polskich Użytkowników. W roku 2003 NetSprint indeksował już 19 mln stron.

We wrześniu 2005 r. został wdrożony nowy algorytm wyszukiwania NetSprinta - Traffic Index. Wykorzystuje on m.in. informacje o ruchu na kilkuset tysiącach domen internetowych (na podstawie danych dostarczanych przez Gemius). Serwisy, które potrafią zbudować wokół siebie społeczność zawierają najczęściej dużo cennych treści i są specjalnie premiowane. Pod koniec roku 2005 liczba indeksowanych dokumentów wzrosła do 67 mln. Pod koniec 2007 roku przekroczyła barierę 100 milionów. Aktualnie wynosi 133 mln i rośnie z dnia na dzień.

Wyszukiwarka NetSprint to nie tylko przeszukiwanie stron www. Ułatwiamy w dotarciu Internauty do danych teleadresowych konkretnych firm pochodzących z bazy 1 100 000 firm udostępnionej przez Panoramę Firm. Udostępniamy pierwszą polską wyszukiwarkę aktualności, przeszukiwanie zasobów grafiki, bazy encyklopedii PWN oraz słownika 5 języków obcych.

Wyszukiwarka na Twoją stronę www

Każdemu właścicielowi strony umożliwiamy bezpłatne umieszczenie wyszukiwarki NetSprint na swojej stronie. Wystarczy, skopiować i wkleić specjalny kod html. Oczywiście kod można swobodnie modyfikować, aby uzyskać wygląd wyszukiwarki najlepiej dostosowany do projektu graficznego strony. Nierozłączną częścią wyszukiwarki jest natomiast nasze logo, którego prosimy nie modyfikować.

Po wklejeniu kodu Twoja wyszukiwarka będzie wyglądała następująco:

Początek formularza

0x01 graphic
0x01 graphic
0x01 graphic

0x01 graphic
Szukaj w sieci 0x01 graphic
Szukaj w witrynie www.adrestwojejstrony.pl 0x01 graphic

Dół formularza

Dlaczego warto mieć wyszukiwarkę NetSprint na swoim serwisie:

Uwaga: warunkiem działania funkcji "szukaj w witrynie" jest zindeksowanie Twojej strony przez NetSprint. Jeżeli nie ma jej jeszcze w naszym indeksie, możesz ją dodać tutaj. Kody html do wstawienia wyszukiwarki dostępne są w tym miejscu: http://www.netsprint.pl/serwis/natwojej.

Misja i profil

NetSprint.pl Sp. z o.o. dostarcza złożone rozwiązania w obszarze wyszukiwania oraz reklamy kontekstowej dla każdego segmentu klientów biznesowych.

Kluczowe obszary naszej działalności to wyszukiwarka polskiego Internetu, reklama kontekstowa w wyszukiwarce oraz sieci partnerskiej, rozwiązania wyszukiwawcze na potrzeby serwisów, korporacji i sklepów internetowych, rozwiązania adserwerowe, a także monitoring komunikacji w internecie. Rozwiązania firmy oparte są o 8-letnie doświadczenie specjalistów firmy w zakresie rozwoju technologii wyszukiwawczej.

Nasze rozwiązania, wykorzystywane przez czołowych europejskich wydawców online, pozwalają budować i wzmacniać relacje z użytkownikami oraz reklamodawcami.

NetSprint.pl działa na rynku polskim, w Skandynawii, a także w krajach nadbałtyckich. Naszym strategicznym inwestorem jest Mecom Europe - drugi największy wydawca prasy codziennej w Europie.

Od czerwca 2007 roku nasza firma należy do Interactive Advertising Bureau Polska.

Obszary działalności

Prowadzimy wyłączną sprzedaż reklam w sieci reklamy kontekstowej Adkontekst, obejmującej wyniki wyszukiwania NetSprint.pl i WP.pl oraz najbardziej opiniotwórcze polskie serwisy. Ich łączny zasięg to ponad 10 mln polskich internautów (Megapanel PBI/Gemius). 

Oferujemy również dedykowane rozwiązania do przeszukiwania zasobów korporacyjnych i serwisów internetowych, oparte na uniwersalnej technologii NetSprint Advanced Search Platform. Dostarczamy rozwiązania wyszukiwawcze przystosowane specjalnie do potrzeb portali, serwisów wertykalnych, korporacji, wydawców, a także dla „yellow & white pages” i sklepów internetowych.

Kolejny obszar naszej działalności to monitoring internetu. NewsPoint to profesjonalne narzędzie wspomagające działania marketingowe i PR, wprowadzone przy współpracy z norweską firmą Opoint. System monitoruje ponad 10 500 serwisów polskich i zagranicznych, w tym portale, wortale, serwisy społecznościowe oraz blogi.

Bazując na naszych doświadczeniach związanych z budową największej polskiej sieci reklamy kontekstowej, stworzyliśmy rozwiązanie nsContext dla dużych wydawców on-line, którzy chcą oferować swoim klientom produkty reklamowe emitowane w powiązaniu z treścią strony. Rozwiązanie wspiera kilkanaście najbardziej popularnych wersji językowych.

Wyszukiwarka internetu to pierwszy, flagowy produkt Spółki stworzony na początku 2000 roku. Obecnie przeszukujemy 133 mln polskich stron www i liczba ta rośnie z dnia na dzień. Pomagamy Internautom dotrzeć do danych teleadresowych konkretnych firm, udostępniamy pierwszą polską wyszukiwarkę aktualności, przeszukiwanie zasobów grafiki, bazy encyklopedii PWN oraz słownika 5 języków obcych. Każdemu właścicielowi strony umożliwiamy bezpłatne umieszczenie wyszukiwarki NetSprint na swojej stronie.

Historia

Firma NetSprint.pl powstała w 2000 roku jako start-up internetowy. Założycielami spółki były 4 osoby prywatne.

Naszym pierwszym celem było stworzenie najlepszej polskiej wyszukiwarki internetowej. Dzięki zastosowaniu zaawansowanych algorytmów, koncentracji na potrzebach polskich użytkowników oraz łatwej w rozbudowie platformie sprzętowej w szybkim tempie rosła liczba użytkowników i portali korzystających z naszego rozwiązania.

Pierwszym klientem firmy był portal Hoga.pl. W 2001 roku uruchomiliśmy serwis netsprint.pl oraz rozpoczęliśmy tworzenie sieci portali korzystających z NetSprinta i wyświetlających Linki Sponsorowane pozyskanych przez nas reklamodawców. Rok później, w 2002 roku, nawiązaliśmy współpracę z portalem Wirtualna Polska, na którym została umieszczona nasza wyszukiwarka. Z pewnością współpraca ta bardzo przyśpieszyła rozwój technologiczny wyszukiwarki, ale też zwiększyła znacznie zasięg silnika NetSprint wśród polskich użytkowników. NetSprint.pl stał się również jedynym i wyłącznym podmiotem oferującym wyświetlanie linków sponsorowanych na tym portalu.

W 2004 roku poszerzyliśmy ofertę o lokalne linki sponsorowane. Produkt ten powstał z myślą o małych i średnich przedsiębiorstw działających na rynkach lokalnych, które nie potrzebują reklamy ogólnopolskiej. W tym roku udostępniliśmy również nową, rozbudowaną wersję swojej wyszukiwarki. Internauci zyskali możliwość przeszukiwania zasobów grafiki, bazy encyklopedii PWN oraz obszernego słownika języków obcych Ling.pl. Zmieniony został też logotyp firmy.

W tym roku również Spółka NetSprint.pl zajęła siódme miejsce w kategorii Rising Stars prestiżowego rankingu Fast 50 najszybciej rozwijających się firm technologicznych w Europie Środkowej. Ranking przygotowała międzynarodowa firma doradcza Deloitte.

Rok później we współpracy z Wirtualną Polską wprowadziliśmy Traffic Index - nowatorski algorytm wyszukiwawczy, który jako jeden z pierwszych na świecie,  w tak dużym stopniu uwzględnia analizę ruchu na poszczególnych serwisach. Mechanizm ten pozwala ocenić obiektywną wartość serwisów internetowych, walczy z nieuczciwym pozycjonowaniem stron i przedstawia użytkownikom wartościowe i najbardziej aktualne treści. Ponadto we współpracy z Eniro Polska rozpoczęliśmy prezentowanie danych teleadresowych firm w swoich wynikach wyszukiwania. Udostępniona została również możliwość przeszukiwania bazy 1 100 000 firm dostarczanej przez Panoramę Firm. Wprowadziliśmy także NetSprint.pl/news - pierwszą polską wyszukiwarkę aktualności.

Rok 2005 to również start systemu Adkontekst rozwijanego we współpracy z Wirtualną Polską. Umożliwia on wyświetlanie na stronach serwisów partnerskich reklam kontekstowo dopasowanych do treści danej strony oraz do charakteru całego serwisu.

W tym roku wprowadziliśmy do naszej oferty NetSprint Intranet - rozwiązanie przeszukujące wewnętrzne zasoby internetowe firmy. Wprowadzenie tego produktu było elementem naszej strategii zakładającej bardziej intensywną obecność na rynku korporacyjnych rozwiązań wyszukiwawczych. Pierwszym klientem, który zdecydował się skorzystać z naszego rozwiązania w zakresie przeszukiwania serwisu korporacyjnego był PTK Centertel. W kolejnych latach firma sukcesywnie tworzyła rozwiązania wyszukiwawcze dostosowywane do potrzeb dużych portali informacyjnych, YellowPages, sklepów internetowych oraz baz ogłoszeń drobnych. Kolejni pozyskani przez nas klienci korzystający z rozwiązań korporacyjnych to m.in.: Eniro, Kolporter S.A., Netia, Agito.pl (największy polski sklep z elektroniką użytkową), PKT.pl czy Presspublica (wydawca Rzeczpospolitej).

W 2006 zyskaliśmy inwestora strategicznego - międzynarodowy koncern medialny Orkla Media (później Mecom Europe). Zmiana ta umożliwiła przyśpieszenie rozwoju produktów firmy oraz stworzyła podstawę do ekspansji zagranicznej Spółki.

W 2007 roku we współpracy z norweską firmą Opoint AS wprowadziliśmy na rynek nowatorski system monitorowania internetu pod nową marką - NewsPoint. To kompleksowe rozwiązanie oferuje zbieranie i zarządzenie publikowanymi w Internecie (łącznie ponad 10.000 portali w wielu krajach Europy) informacjami.

Zastosowaliśmy bardzo istotne usprawnienia w wyszukiwarce. - umożliwiliśmy użytkownikom uzyskanie pełnej odpowiedzi na zadane pytanie już na szczycie wyników wyszukiwania.  Dzięki współpracy z kilkoma partnerami m.in.  Wirtualną Polską, Panoramą Firm, Wikipedią, Autocentrum czy Wydawnictwem IDG, NetSprint zapewnił narzędzie pomocne w rozwiązywaniu codziennych problemów użytkowników. Mogą oni sprawdzić np. kurs walut, repertuar kin w poszczególnych miastachpogodę, informacje sportowe, przygotować się do sprawdzianu z historii, czy dowiedzieć się czegoś o kraju, w którym planują wakacje.  Aby pomóc użytkownikom w  znalezieniu precyzyjnych odpowiedzi na zadane pytanie stworzyliśmy serwis Przewodnik NetSprint (www.przewodnik.netsprint.pl), podzielony na sześć głównych części: Edukacja, PodróżeHobbyPieniądze, Rozrywka oraz Inne.

Kontynuowaliśmy również intensywny rozwój sieci reklamy kontekstowej, której zasięg w grudniu po raz pierwszy przekroczył 10.000.000 UU miesięcznie.

Na początku 2008 roku w naszej ofercie po raz pierwszy pojawiły się reklamy graficzne - Adkontekst Exclusive. Jest to reklama kontekstowa wyświetlana w sieci Adkontekst, która oprócz typowego tekstu reklamowego zawiera dodatkowo element graficzny - na przykład logo reklamodawcy.

W maju 2008 uruchomiliśmy serwis dla reklamodawców i wydawców naszej sieci reklamy kontekstowej  Adkontekst (do tej pory marka ograniczona była do sieci partnerskiej). Marka Adkontekst objęła naszą ofertę reklamową zarówno w wynikach wyszukiwania WP.pl i Netsprint.pl, jak i w sieci serwisów partnerskich. Jednocześnie wprowadziliśmy rozliczenia w modelu aukcyjnym, w którym reklamodawca może wpływać na pozycję reklamy za pomocą zmiany ceny za kliknięcie.

Równolegle rozwijana była wyszukiwarka Internetu. Obok wprowadzania nowych funkcjonalności, połączyliśmy naszą platformę sprzętową z portalem  Wirtualna Polska. W wyniku operacji internauci zyskali możliwość przeszukiwania znacznie większej bazy polskich dokumentów. Dodatkowo wzrosła też skuteczność walki ze spamem w wynikach wyszukiwania.

W tym roku stworzyliśmy nową wersje platformy dla rozwiązań korporacyjnych - NetSprint Advanced Search Platform (NASP), która jest wykorzystywana we wszystkich nowych wdrożeniach firmy. Zaimplementowaliśmy moduł taksonomii, umożliwiający nam automatyczne klasyfikowanie dokumentów. Wydawcy online posiadający rozbudowane archiwa zyskali możliwość wielokrotnego zwiększenia przychodów dzięki wykorzystaniu NetSprint Information Access Platform

 

8



Wyszukiwarka