7. Omówienie zadań do wykonania w zespołach
1. [2] Lista 20 pierwszych dokumentów zwróconych przez system dla zapytania jest następująca (R - relevant, N
- non-relevant):
RRNNNNNNRNRNNNRNNNNR
Załóż, że w całej kolekcji jest 6 istotnych dokumentów. Jaka jest wartość miar precision i recall dla 10 zwróconych dokumentów? [0.5] Jaka jest wartość miary F dla a=0.5 dla 10 zwróconych dokumentów? [0.5] Jaka jest wartość miary MAP dla tego zapytania? [0.5] Jak jest wartość miary MAP dla następującego rankingu dokumentów: NRNNNRRNRNNNRNNNRNNN. Czy w zestawieniu z MAP dla poprzedniego systemu otrzymany wynik jest zgodny z intuicją? Dlaczego? Co ma decydujący wpływ na wysoką miarę MAP? [0.5]
2. [2] Oblicz wagi koncentratorów (hubs) i autorytetów (authorities) dla następującego grafu:
D1 D3, D2 -> D2, D2 — D3, D3 -» D1, D3 — D3, D3 — D4, D4 — D4, D4 — D5, D5 — D7, D6 — D6, D6
— D7, D7 -> D4, D7 — D5, D7 — D7
Przedstaw macierz połączeń L [0.5], Pokaż obliczone macierze LLT oraz LTL. [0.5] Oblicz wektory h oraz a. Po każdej iteracji normalizuj wartości wektorów tak, by poszczególne składowe sumowały się do 1.0. Które strony po 10-tej iteracji mają największe wagi jako koncentrator i autorytet? W kontekście wartości wektorów a oraz h oraz macierz połączeń L uzasadnij dlaczego ich ocena jest tak wysoka [1].
3. [2] W systemie wyszukiwania informacji zaimplementowano metodę relevance feedback, która operuje tylko na termach z tytułu zwróconej strony. Użytkownik dla zapytania „banana sług”, rozważył trzy pierwsze dokumenty zwrócone przez system: D1= „banana sług Ariolimax columbianus", D2 = „Santa Cruz mountains banana sług”, D3 = “Santa Cruz Campus Mascot”. Pierwsze dwa uznał za istotne, a trzeci za nieistotny. Zakładając wykorzystanie reprezentacji bag-of-words oraz metody „Rocchio relevance feedback", jaka będzie postać zmodyfikowanego zapytania dla parametrów a=p=y=1. Ewentualne ujemne współrzędne sprowadź do 0. [1] Jakie muszą być wagi we wzorze na obliczenie zmodyfikowanego wektora, by zrealizować funkcję „znajdź stronę taka, jak ta"? Uzasadnij odpowiedź. [1]
4. [5] Rozwiń wyszukiwarkę dokumentów tekstowych, którą zaimplementowałeś po pierwszych zajęciach o moduł automatycznego rozszerzania zapytań. Możesz wykorzystać dowolną metodę (macierz korelacji, relevance feedback lub WordNet, ale zdecydowanie najwięcej można się nauczyć przy wykorzystaniu WordNetu). Każdy dokument składa się z dwóch części - w pierwszej linii znajduje się oznaczenie klasy, do której dokument należy (na tym etapie zignoruj tę linię), a potem następuje właściwa treść dokumentu, którą należy analizować w tym zadaniu (parametry - w przypadku macierzy korelacji liczba słów, o które rozszerzamy zapytanie; dla wszystkich metod waga dla tych słów; możliwość włączenia/wyłączenia rozszerzania zapytań). Zwróćcie uwagę na zapytania składające się z większej liczby słów niż 1 (jak proponować rozszerzenia?). W tym zadaniu bardziej niż o logikę działania modułu wyszukiwania, chodzi o propozycję rozszerzenia zapytań, które prezentujecie. Idealnie byłoby, gdyby prezentowana była określona liczba (np. 5) najlepszych rozszerzeń i dałoby się klikać w to, które chcemy zadać jak nowe zapytania. Nie odsiewajcie więc np. słów które nie znajdują się w słowniku dla kolekcji dokumentów - niech i tak pojawią się w propozycjach rozszerzenia zapytania. Rozszerzenie zapytania powinno zawierać zapytanie oryginalne.
Część zadaniowa - do poniedziałku do północy. Cześć programistyczna - na 27-28 października.
-7-