Sys Inf Manning w


.

XML-owe systemy informacyjne.

Spis treści

  1. Tradycyjne metody wyszukiwania informacji.

  2. Wyszukiwanie strukturalne.

  3. Podstawowe koncepcje XML.

  4. Problemy wyszukiwania XML.

  5. Model przestrzeni dla wyszukiwania XML.

  6. Ocena wyników wyszukiwania XML.

  7. Porównanie wyszukiwania XML dla danych i tekstu.

  1. Tradycyjne metody wyszukiwania informacji.

Systemy wyszukiwania danych często porównywane są z relacyjnymi bazami danych.

0x01 graphic

0x01 graphic

  1. Wyszukiwanie strukturalne

Podczas wyszukiwania zadawane pytania mogą mieć dwie postacie: strukturalne i niestrukturalne. Dla ułatwienia zakładamy, że przetwarzane dokumenty są strukturalne.

Takimi dokumentami są:

Przykłady zapytań dla wyszukiwań niestrukturalnych:

Przykłady odpowiedz dla wyszukiwań niestrukturalnych:

0x01 graphic

Z tym rozwiązaniem wiąże się jednak problem:

Odpowiedzią jest zastosowanie XML-a.

0x01 graphic

W kontekście wyszukiwania informacji bierzemy pod uwagę XML jako język do odkodowania tekstu i dokumentów. Dla przykładu, możemy chcieć pobrać dane z systemu planowania zasobów pewnego przedsiębiorstwa, a następnie wczytać je do programu analitycznego tworzącego wykresy na podstawie tych danych. Ten typ aplikacji XML określany jest jako „data-centric” z powodu dominujących numerycznych i nietekstowych atrybutów.

Istnieje typ wyszukiwań znajdujący się pomiędzy wyszukiwaniem niestrukturalnym a wyszukiwaniem w relacyjnych bazach danych: wyszukiwanie parametryczne oraz strefowe. W modelu danych wyszukiwania parametrycznego oraz strefowego wyróżniamy pola parametryczne(data, wielkość pliku, itp.) oraz pola zwane strefami(autor, tytuł, itp.). Struktura takiego dokumentu jest płaska, bez zagnieżdżonych elementów, a ilość atrybutów jest niewielka.

  1. Podstawowe koncepcje XML.

Dokument XML jest uporządkowanym i opisanym drzewem. Każdy węzeł jest elementem XML. Każdy element posiada znacznik otwarcia i zamknięcia. Element może posiadać atrybuty oraz zawartość. Zawartość może być tekstem lub zagnieżdżonym elementem. Atrybuty muszą być unikalne dla każdego elementu.

0x01 graphic

0x01 graphic

Elementy opisują strukturę i meta dane. Drzewo odzwierciedla strukturę dokumentu. Standardem dostępu przetwarzania dokumentów XML jest XML Document Object Model czyli DOM. DOM reprezentuje elementy, atrybuty oraz tekst w elementach będących węzłami w drzewie. Z DOM API przetwarza się dokument XML rozpoczynając od korzenia, kierując się w dół drzewa do przez kolejne węzły.

0x01 graphic

node

Zwraca wszystkie elementy o tej nazwie

komputer/część lub komputer// część

Zapis ścieżki

/

Ustawia w korzeniu

0x01 graphic

0x01 graphic

0x01 graphic
0x01 graphic

Zapytanie przedstawione na powyższym rysunku szuka sekcji o letnich wakacjach, które były częścią artykułów z lat 2001 lub 2002.

  1. Problemy wyszukiwania XML

0x01 graphic

Zwykle pozbywa się ograniczeń atrybutów stosując przefiltrowanie lub postfiltrowanie. Polega to na wyłączeniu wszystkich elementów z wynikowego zbioru które nie spełniają założeń budowy relacyjnej atrybutów. Kiedy atrybuty relacyjne zostaną wyłączone, możemy zaprezentować dokument jako drzewo z tylko jednym rodzajem węzłów.

0x01 graphic

0x01 graphic

Spójrzmy na problemy na jakie się natykamy .

PROBLEM PIERWSZY:

STRUCTURED DOCUMENT RETRIEVAL PRINCIPLE

A SYSTEM SHOULD ALWAYS RETRIEVE THE MOST SPECIFIC PART OF A DOCUMENT ANSWERING THE QUERY.

Według tej strategii powinniśmy otrzymywać najmniejszą możliwą część odpowiadającą na pytanie. Trudność implementacji polega na postawieniu pytania. Pytając o element tytuł o wartości „Makbet” możemy z większym prawdopodobieństwem otrzymać odpowiedź dotyczącą dzieła niż jednego z aktów.

PROBLEM DRUGI:

Rozwiązanie pierwsze:

0x01 graphic

Podział na rozłączne niepokrywające się sekcje.

Rozwiązanie drugie:

0x01 graphic

Indeksowanie po korzeniu. Rozwiązanie to ma wadę: stopień relewancji dokumentu jest dużo niższy niż pojedynczego elementu (tracimy najlepsze rozwiązania)

Rozwiązanie trzecie:

Spróbujmy zatem zaindeksować wszystkie elementy

0x01 graphic

0x01 graphic

Często zdarza się, że kilka różnych schematów XML występuje w kolekcjach pochodzących z różnych źródeł. Na poniższej ilustracji można zaobserwować, że te same elementy mogą mieć różne nazwy: creator w d2 i author w d3.

0x01 graphic

  1. Model przestrzeni wyszukiwania XML

Na potrzeby wyszukiwania strukturalnego (kontekstowego) musimy określić przestrzeń wielosektorową. Aby to osiągnąć można zakodować termy wraz z ich pozycją w drzewie dokumentu. W tym celu rozbijamy drzewo reprezentujące strukturę.

0x01 graphic

Możemy przedstawić dokumenty i pytania jako wektory przestrzeni poddrzew i porównać ze sobą. Ilość wymiarów określa dokładność odpowiedzi. Ograniczenie się do warstwy termu powoduje zgubienie kontekstu. Pamiętać należy, że indeksuje się tylko ścieżki kończące się termem.

Do sortowania termów stosujemy funkcję:

0x01 graphic

Końcowy wynik dla dokumentu obliczamy:

0x01 graphic

ALGORYTMY

SimNoMerge - algorytmy obliczania podobieństwa rozważający poszczególne konteksty XML osobno

SimMerge - alternatywna funkcja z nieco luźniejszym podejściem do warunków zapytań i dokumentów

  1. Ocena wyników wyszukiwania XML

System INEX (Initiative for Evaluation of XML Retrieval)

Statystyki INEX 2002

0x01 graphic

Schemat dokumentu INEX

0x01 graphic

0x01 graphic

Obie miary w zestawieniu tworzą klasyfikator:

Funkcja oceniająca:

0x01 graphic

Porównanie skuteczności algorytmów klasyfikujących:

0x01 graphic

Usprawnienie wyszukiwania bezkontekstowego:

0x01 graphic

  1. Porównanie wyszukiwania XML dla danych i tekstu

0x01 graphic
0x01 graphic

  1. Bibliografia

 Manning C. D., Raghavan P., Schutze H. „Introduction to Information Retrieval” Cambridge 2009

0x01 graphic

1



Wyszukiwarka

Podobne podstrony:
Sys Inf 03 Manning w 06
Sys Inf 03 Manning w 19
Sys Inf 03 Manning w 02
Sys Inf 03 Manning w 07
Sys Inf 03 Manning w 03
Sys Inf 03 Manning w 21
Sys Inf 03 Manning w 20
Sys Inf 03 Manning w 09
Sys Inf 03 Manning w 01
Sys Inf 03 Manning w 04
Sys Inf 03 Manning w 08
Sys Inf 03 Manning w 05
Sys Inf 03 Manning w 06
Sys Inf 03 Manning w 19
Sys Inf 03 Manning w 02
Sys Inf 03 Manning w 07
opracowane pytania MSI (1), Studia Zarządzanie PWR, Zarządzanie PWR I Stopień, V Semestr, Modelowani
abc projekt sys.inf, szkola, projekt II
Mat Dyd sys inf zarz zapasami EFS

więcej podobnych podstron