7862366401

Oba te kryteria, czyli położenie terminu oraz częstość jego występowania, chociaż mogą być pożyteczne, powodują wadliwość procesu wyszukiwania, gdyż próbują ustalać oceny merytoryczne dokumentów na podstawie ich cech fizycznych, takich jak częstość występowania terminu. Błędność tego podejścia wykażemy na dwa sposoby:

(A) Jeśli nawet termin pojawia się w istotnych częściach dokumentu, takich jak nagłówek, URL lub tytuł, to niekoniecznie oznacza to. że dokument ma wiele wspólnego z problemem oznaczanym tym terminem, może bowiem okazać się, że przywiązano do danego terminu zbyt dużą wagę Rozważmy komputer internetowy i jego URL www.webpagesthatsuck.com (następujące w opisie URL wyrażenia nie są prawdopodobnie rozkładane na pojedyncze słowa, ale wyrażenie “web pages that suck" pojawia się w polu tytułu). Jak łatwo się domyślić, ta strona WWW na pewno nie traktuje o korzyściach płynących z karmienia piersią, ale ponieważ słowo suck (oprócz „ssania” wyrażenie to oznacza w slangu, że coś jest nie w porządku) pojawia się w tytule lub URL (lub w obu naraz), system uznaje je za ważne, kiedy użytkownik wprowadza zapytanie na temat ssania (sucking) chcąc dowiedzieć się czegoś na temat karmienia piersią. Słowa z tytułu lub URL w zbiorach tekstów naukowych mogą mieć bezpośrednie odniesienie do treści dokumentów, nie musi tak jednak być w odniesieniu do nauk społecznych, sztuk pięknych lub nauk humanistycznych.

(B) Jeśli słowo nie pojawia się w tytule lub sekcji nagłówkowej dokumentu, to nie znaczy to, że dany dokument nie dotyczy oznaczanego nim problemu. Świetny artykuł Wayne’a Booth jest zatytułowany “The Company We Keep” (Firma, którą posiadamy) i trudno byłoby ustalić na podstawie tego tytułu, że artykuł ten jest wspaniałym opracowaniem na temat przeciwieństwa kultury słowa pisanego (drukowanego) i kultury wideo oraz że traktuje o radościach czytania i umiejętnościach, jakie wyrabia czytanie w przeciwieństwie do relatywnie zubożającego wyobraźnię oglądania filmów. Należy jednak przyznać, że przeszukiwanie katalogów rzeczowych oparte tylko na słowach zaczerpniętych z tytułu, mogłoby być równie trudne dla komercyjnych baz danych. Istnieją jednak inne drogi dostępu do tych baz, takie jak abstrakty, deskryptory lub identyfikatory, które nie są dostępne w Internecie (trudno bowiem nazwać abstraktem kilka pierwszych wierszy tekstu podawanego czasami przez Internetowe wyszukiwarki. W przyszłości sytuacja ta może ulec poprawie wraz z wykorzystaniem tzw. metaznaczników (metatags), takich jak słowa kluczowe (co zostało już zasugerowane przez Dublina Córa). Niestety nie istnieje możliwość mierzenia jakości różnych terminów w tytule, tak więc, z punktu widzenia szperacza każdy termin, tytuł lub URL jest równie ważny. W naszym przykładzie “web pages that suck” wyrazy: “web”, “pages” i “suck” są równie ważne i wyszukiwanie jednego z tych terminów umieściłoby tę stronę na liście wyników wyszukiwawczych.

Niestety częstość występowania słów jest równie mało przydatna przy określaniu relewancji terminów i jakości stron WWW. Wiele dokumentów w Internecie może często używać terminu „Internet” przy okazji ilustracji pewnych zasad, i tak nazwa zasady może zostać przysłonięta przez częstość użycia słowa, które pojawiało się jedynie w przykładach. Co gorsza, chociaż badania nad funkcjonowaniem anafory pozwoliły stworzyć systemy wyszukiwawcze uwzględniające odesłania anaforyczne, nadal ich zastosowanie w Internecie

Wyszukiwarka

Podobne podstrony:
2013 01 17 50 19 ta Nieruchomości Skarbu Państwa oraz jednostek samo rządu terytorialnego mogą być:
2013 01 17 50 19 ta Nieruchomości Skarbu Państwa oraz jednostek samo rządu terytorialnego mogą być:
od procesu funkcje rozkładu partonów (PDF) oraz funkcje fragmentacji (FF), które mogą być mierzone w
odbiorcy może być w stosunkowo prosty sposób optymalizowana, a często olbrzymie koszty dostaw mogą b
zdjęcie0537 W PD otępienie (demencja) jest również diagnozowane Częstość jego występowania u PD
Terminy ustawowe oznacza sam ustawodawca. Nie mogą być skracane ani wydłużane. Uchybienie terminu pr
dobre jego właściwości elektronowe oraz powszechność jego występowania w naturze. Stosuje się równie
w podłożu, które są konsekwencją ulewnych deszczy oraz kwaśny odczyn podłoża. Oba te czynniki
oszczędnościowej od rachunku lokaty terminowej jest krąg podmiotów, dla których oba te rachunki mogą
11131889?926305045716190696683 n Okres całkowite) n te pobudliwości czyli refrakcji bezwzględnej obe
DSC00196 1 dzkic. Oba te rodzaje ciał, mimo żc w aspekcie nym często niewiele się od siebie różniły,
IMG71 W zakresie temperatur od 600°C do 900°C następuje spadek udamości oraz zawartości ferrytu, ob
DSC00196 dzkie Oba te rodzaje ciał, mimo żc w aspekt,, nym często niewiele się od siebie różniły. to
amat urz kr068 wanie urządzeń dodatkowych, a mianowicie kompresorów dynamiki oraz ograniczników ampl
est ind 2 jpeg r Completa eon el verbo adecuado. /Sólo te quiero a ti. Cuando termine la universida
em Biuletyn EBIB nr 2/2011(120), Dział sprawozdania terminologii oraz jej skonfrontowania z terminol

więcej podobnych podstron