1484605990

1484605990



3. Algorytm HITS

HITS (Hyperlink Induced Topie Search) łączy ocenę istotności na podstawie zawartości strony z rankingiem opartym na strukturze połączeń (często połączenia nie mają nic wspólnego z popularnością; najbardziej popularne strony nie muszą być odpowiedziami na zapytanie).

Pomysł: skupienie się na istotnych stronach i obliczenie ich popularności z uwzględnieniem podziału na dwie

grupy:

   autorytet (authorities) jest wskazywany przez wiele koncentratorów - tu można znaleźć istotną informację,

   koncentrator (hubs) wskazuje na wiele autorytetów - mówi gdzie można znaleźć informację.

HITS działa na zależnej od zapytania części grafu sieci (IBM website vs. Computer hardware). Zaczyna od przeszukiwania według słów kluczowych, a potem analizuje strukturę połączeń dla otrzymanych istotnych stron (wydobywanie tematu):

■    znajdź za pomocą standardowego systemu wyszukiwania informacji tekstowych (niewielki) zbiór istotnych stron internetowych nazywany zbiorem-korzeniem R„ (root set);

■    rozszerz zbiór-korzeń przez dodanie stron, które cytują i są cytowane przez strony ze zbioru-korzenia; powstaje zbiór bazowy Sq (base set) (dobry autorytet może nie zawierać słowa kluczowego, ale znajdzie się w zbiorze bazowym, jeśli koncentrator był częścią odpowiedzi na zapytanie i vice versa; czyli zbiór koncentratorów i autorytetów w analizowanej puli jest wzbogacony);

■    przeanalizuj strukturę połączeń w Sq, aby znaleźć autorytety i koncentratory:

■    niech L będzie macierzą sąsiedztwa grafu, gdzie L(i,j)=1 jeżeli strona i cytuje stronę j, a L(i,j)=0 w przeciwnym razie (i oraz j należą do Sq);

■    niech a = (ai a2.... a„) będzie wektorem autorytetu, h = (ht h2.... h„) wektorem koncentratora:

■    inicjalizacja: a = (1 1 ... 1), h = (1 1 ... 1),

■    w pętli:

oraz



D|eSq: D:->Dj


■    znormalizuj h oraz a (będziemy stosować normalizację sumy składników do 1).

Ogólniej:

■    h = ALa = ApLLTh,

■    a = pLTh = ApLTLa,

Sposoby rozwiązania:

■    Oblicz h oraz a iteracyjnie, zakładając dla każdej strony jednostkowe wartości początkowe dla roli koncentratora i autorytetu (w kolejnych krokach otrzymywane wektory h oraz a mnoży się przez odpowiednio LLT lub L'L),

■    Rozwiąż układ równań, przyrównując wartości Ap lub oblicz wartości własne macierzy LLT (LTL) i przyjmij za rozwiązanie wektor własny odpowiadający największej wartości własnej (principle eigenvector).

Eksperymenty pokazują, że zbiór-korzeń powinien mieć ok. 200 stron, a żeby uzyskać dobre przybliżenie

wartości h oraz a wystarczy 5 iteracji.

-3-



Wyszukiwarka

Podobne podstrony:
choroszy&4 i algorytmu generacji decyzji. Trzecia grupa czynności - wyznaczenie decyzji przez komput
Algorytmy przeszukiwania drzew Dwa klasyczne algorytmy przeszukiwania drzew:: > BFS - breadth fir
Laboratorium Przemysłowe Systemy Cyfrowe (PLC) • na podstawie zatwierdzonego algorytmu sterowania
• KAR3iNCDW komórce roślinnej: •    MAP65 - łączy 2 równolegle nachodzące na siebie
dr inż. Sławomir Cellmer Analiza algorytmu wyznaczania pozycji na podstawie kodowych obserwacji
503 (4) ZAŁĄCZNIK 14UPROSZCZONY ALGORYTM PLANOWANIA PRZEJŚCIA NAWIGACYJNEGO Na podstawie wielu publi
ŁODYGA WYNOSI LIŚCIE W STRONĘ ŚWIATŁA 1 ŁĄCZY JE Z KORZENIAMI (wierzchołkowy) Podstawową funkcją
0000012 (15) 97 3.2. Techniczna realizacja łączy telekomunikacyjnych Istotną wielkością określającą
14.4. OPIS PROGRAMU Na podstawie przedstawionego algorytmu obliczeń opracowano program komputerowy.
Ćw. nr 3 ~ Usługi centrali abonenckiej DGT 2014-03-26 mniejszej liczby łączy, co pozwala na obniżeni
Algorytm uczenie metodą DELTA -> Dane: problem klasyfikacji obiektu na podstawie n cech. Wektor w
W pracy przedstawiono metodę, na podstawie której opracowano algorytmy do analizy dynamicznej dźwiga
szyfrującego. Aby zapobiec szyfrowaniu pakietów algorytmem RC4 generowanym na podstawie tego samego
W3 Zna metody i algorytmu wyznaczania pozycji robotów mobilnych na podstawie odometrii i przy wukorz

więcej podobnych podstron