Eksploracja Zasobów Internetu LAB 2 - Miłosz Kadziński Ocena Jakości Wyszukiwania + Hubs and Authorities + Query Expanding
1. Plan Laboratorium II
1.1. Ocena jakości wyszukiwania (precision - dokładność, recall - kompletność oraz inne miary)
1.2. Ranking oparty na strukturze połączeń z elementami istotności na podstawie zawartości - algorytm HITS (authorities and hubs - autorytety i koncentratory)
1.3. Automatyczne rozszerzanie zapytań - metoda relevance feedback
1.4. Inne metody query expanding
2. Ocena jakości wyszukiwania
Miary oceny dopasowania odpowiedzi i efektywności systemu.
Miara dokładności (precision) i kompletności (recall) są używane również w pokrewnych dziedzinach (uczenie maszynowe, eksploracja danych).
Dany jest zbiór zapytań Q oraz zbiór dokumentów D i dla każdego zapytania q6D przedstawionego systemowi mamy:
■ zbiór dokumentów zwróconych (retrieved) przez system (otrzymane dokumenty) Rq <z D,
■ zbiór istotnych (relevanf) dokumentów Dq wybranych ręcznie z całego zbioru dokumentów D.
Dokładność jest zdefiniowana jako procent zwróconych dokumentów, które są istotne:
- = P(relevant/retrieved),
W
|relevanto retrievecj |retrievecj
a kompletność jako procent istotnych dokumentów, które są zwrócone:
|Dq r>R_ |relevantn retrieved
recall = R = -—:—= ------- = P(retrieved/ relevant).
D |relevanl|
Typowy użytkownik chciałby, aby na pierwszej stronie zwróconych dokumentów były tyko dokumenty istotne, ale nia ma ochoty przeglądać wszystkich dokumentów istotnych.
Przeszukując dysk twardy, jesteśmy zainteresowani znalezieniem wszystkich dokumentów istotnych.
Trade-off pomiędzy miarami precision i recall oddaje miara F, która jest ich średnią harmoniczną:
F = —:-r = —;-. gdzie P -
a należy do przedziały [0,1], a p należy do przedziału [0,ao], Gdy a=0.5, to p=1, co przekada się na równą ważność P i R. Gdy p>1, większy priorytet ma recall. Miara bliższa minimum dwóch wartości niż średnia arytmetyczna lub geometryczna.