SYSTEM INFORMACYJNY jest określany jako S = < X, A, V, ρ > gdzie:
X = { X1 , X2 , .... Xn } - skończony zbiór obiektów systemowych. Obiektem jest każdy byt dla którego tworzony jest system.
A = { A1 , A2 , .... An } - skończony zbiór atrybutów systemu. Atrybut - cecha, którą opisujemy obiekty np. autor książki, tytuł, wydawca itp. (zbiór cech, którymi są opisane obiekty).
suma logiczna wartości atrybutów dla każdego atrybutu Vai = { VAi , ...... VAn } np. kolor oczu {niebieskie, brązowe piwne itp. }
ρi - funkcja informacji X × A → V ρ (X, a) = V gdzie X obiekt (element), a - atrybut, v - nazwa Funkcja ρ parze obiekt element - atrybut przyporządkowuje nazwę i nosi nazwę FUNKCJI INFORMACJI. Funkcja informacji pozwala opisać każdy obiekt poprzez ciąg przyjętych atrybutów - podaje pełną informację o obiekcie. Informacja jest pełna jeżeli dla każdego atrybutu możemy przypisać wartość
Dwa elementy są nierozróżnialne ze względu na atrybut A wtedy i tylko wtedy, gy funkcja na tym argumencie jest taka sama.
x ~a y ⇔ ρX (a) = ρY (a)
x i y są równoważne, ze względu na atrybut a
x2 ~rok wydania x4 ; x1 ~wydawca x3 ; x1 ~dziedzina x2
RÓWNOWAŻNOŚĆ W SYSTEMIE
Dwa obiekty są równoważne w systemie S jeżeli dla każdego atrybutu A zachodzi zależność
x ~S y ⇔ ∧a∈A ρX (a) = ρY (a)
x2 ~rok wydania x4 ; x2 ~wydawca x4 ; x2 ~dziedzina x4 ; x2 ~S x4
Obiekty nierożróżnialne w systemie należą do tej samej klasy równoważności.
KLASA RÓWNOWAŻNOŚCI
Klasą równoważności nazywamy najmniejszy zbiór atrybutów opisywalny w systemie, także która da się opisać przez atrybuty sytemu.
Klasa równoważności - zbiór obiektów nierozróżnialnych w systemie.
Każdy atrybut dzieli system na KLASY OBIEKTÓW
~ Rok Wydania = { x1 , x3 } ∪ { x2 , x4 }
~ Wydawca = { x1 , x3 } ∪ { x2 , x4 }
~ Dziedzina = { x1 , x2 , x4 } ∪ { x3 }
~ S = { x2 , x4 } ∪ { x1 } ∪ { x3 }
Parę atrybut - wartość (a, v) gdzie a∈A , v∈Va nazywamy DESKRYPTOREM.
JĘZYKIEM DESKRYPTOROWYM LS nazywamy język systemowy, który jest językiem opisu w kartotece wyszukiwawczej, równocześnie język pytań i odpowiedzi w systemie.
LS = <A, G> gdzie LS - język deskryptorowy; A - alfabet; G - gramatyka dwustopniowa (składa się z symantyki i syntaktyki).
Definicja języka jest adaptowana do zadanego systemu informacyjnego.
ALFABET
0,1 ∈ A
A , V ∈ A gdzie A - zbiór wartości nazw atrybutów; V - zbiór wartości;
( , ) ∈ A
+, ⋅ , ~ ∈ A gdzie ~ - negacja (NEG)
GRAMATYKA
SYNTAKTYKA - określa zasady tworzenia słów w danym języku
TERMY - słowa w języku deskryptorowym
T - zbiór termów - zbiór słów w języku deskryptorowym
0,1 ∈ T
(a , v) ∈ T - deskryptor jest słowem w tym języku
t , t' ∈ T - jeżeli należą do języka to słowami języka są również:
~ t ∈ T
t + t' ∈ T
t ⋅ t' ∈ T + - „lub” ⋅ - „i”
(Wydawnictwo, PWN) ∈ T - Słowo w języku deskryptorowym
(Rok Wydania, 1990) + (Dziedzina, Informatyka) ∈ T
(Rok Wydania, 1990) ⋅ (Wydawnictwo, PWN) ∈ T
~ (Wydawnictwo, PWN) + (Rok Wydania, 1990) ⋅ (Dziedzina, Informatyka) + (Dziedzina, Elektronika) ∈ T
SEMANTYKA - określa znaczenie słów. Semantyka w języku deskryptorowym je określona jako: σ : T → X σ - odwzorowuje zbiór term w zbiór obiektów.
σ (0) = ∅ σ (1) = X (pełny zbiór obiektów;
σ (a, v) = { x ∈ X , ρX (a) = V }
σ (~t) = X \ σ (t)
σ (t + t') = σ (t) ∪ σ (t')
σ (t ⋅ t') = σ (t) ∩ σ (t')
Term T nazywamy termem elementarnym jeżeli jest on iloczynem wartości ze wszystkich atrybutów systemu. Term elementarny jest iloczynem deskryptorów po wszystkich atrybutach systemu.
t = (a1 , V1) ⋅ (a2 , V2) ⋅ . . . ⋅ (an , Vn)
tE = d1 ⋅ d2 ⋅ . . . ⋅ dn d - deskryptory
Własności termów elementarnych:
1. Wartości termów elementrnych są rozłączne (zbiór termów elementarnych w systemie są zbiorami elementarnymi).
σ(t1) ∩ σ(t2) = φ t1 , t2 ∈ TE σ - z semantyki - znaczenie termu → wartość termu.
2. Suma logiczna sumy wartości termów odpowiadająca wszystkim termom elementarnym daje pełny zbiór obiektów w systemie.
Term T nazywamy termem normalnym jeżeli term ten jest sumą termów elementarnych.
t = t1 + t2 + . . . + tn t1 , t2 , . . . , tn ∈ TE
Term T nazywamy termem składowym jeżeli jest on iloczynem deskryptorów nie po wszystkich atrybutach systemu.
t = (a1 , V1) ⋅ (a2 , V2) ⋅ . . . ⋅ (ak , Vk) k<n
tE = d1 ⋅ d2 ⋅ . . . ⋅ dk k<n d - deskryptory
W systemie częściej opisuje się term składowy niż elementarny choć term elementarny jest szczególnym przypadkiem termu składowego.
Sumę termów składowych, nie konieczne elementarny nazywać będziemy termem składowym.
Powiemy, że termy t1 i t2 są równe w systemie t1 = t2 wtedy i tylko wtedy gdy wartości tych termów są równe
t1 = t2 ⇔ σ(t1) = σ(t2)
Powiemy, że term t1 jest zawarty w termie t2 w systemie S wtedy i tylko wtedy gdy zbiór wartości obiektów odpowiadających termowi t2 jest zbiorem węższym niż zbiór odpowiadający termowi t1.
t1 ≤ t2 ⇔ σ(t1) ⊆ σ(t2)
metoda list inwersyjnych
Algorytm wyszukiwania :
1) pobierz pierwszy deskryptor pierwszego termu składowego
2) wygeneruj listę obiektów relewantnych do tego deskryptora
3) jeśli nie ma już następnych deskryptorów w tym termie składowym to przejdź do pkt. 8
4) pobierz następny deskryptor pytania
5) wygeneruj listę obiektów relewantnych do tego deskryptora
6) dokonaj przecięcia na dotychczas wygenerowanych listach
7) przejdź do 3
8) zapamiętaj wygenerowaną listę
9) jeśli nie ma już następnych termów składowych to przejdź do 17
10) pobierz pierwszy deskryptor następnego temu składowego
11) wygeneruj listę obiektów relewantnych do tego deskryptora
12) jeśli nie ma już następnych dekryptorów w tym termie składowym to przejdź do pkt 8.
13) pobierz następny deskryptor pytania
14) wygeneruj listę obiektów relewantnych do tego deskryptora
15) dokonaj przecięcia na dotychczas wygenerowanych dla tego termu składowego listach
16) przejdź do 12
17) Podaj na wyjście sumę zapamiętanych list
OPIS METODY WYSZUKIWANIA (tworzenie kartoteki wyszukiwawczej, proces wyszukiwania)
System wyszukiwania informacji zadany jest jak w innych systemach, poprzez określenie zbioru X, zbioru atrybutów A, zbioru wartości V oraz funkcji informacji ρ - S = < X, A, V, ρ > . W systemie Saltona zbiorem obiektów X jest zbiór dokumentów w języku naturalnym. Funkcja informacji ρ określa opis danego dokumentu.
W metodzie Saltona wszystkie obiekty (dokumenty) dzieli się na podgrupy Xi (i = 1 . . . m), przy czym te podgrupy stanowią pewne grupy dokumentów podobnych.
Każda utowrzona grupa Xi składa się z reprezentanta Ci , który jest nazywany centroidem i ze zbioru obiektów (dokumentów) należących do tej grupy. W miejsce centoida (Ci) może występwać profil grupy Pi.
Xi = (Ci, {tXi}).
Centroid jest pewnym zbiorem pojęć (wykorzystywany w algorytmie Rocchia), a profil jest jego odpowiednikiem (kodem) numerycznym (ewentualnie numerem grupy), tworzonym w grupowaniu algorytmem Doyle'a.
Istnieje wiele algorytmów grupowania, przy czym najbardziej popularne i najczęściej używane są dwa: algorytm Rocchia i algorytm Doyle'a. W algorytmie Rocchia (jak już wcześniej wspomniano) reprezentatem grupy jest centroid, zaś w algorytmie Doyle'a reprezentatem grupy jest profil.
Proces zakładania kartoteki wyszukiwawczej polega na przeprowadzeniu algorytmu grupowania dokumentów jedną z dwóch powyższych metod. Po założeniu kartoteki wyszukiwawczej proces wyszukiwania może być przeprowadzony metodą sekwencyjną lub metodą strukturalną. Metoda strukturalna jest orginalną metodą Saltona (metoda wyszukiwania Saltona).
ZAKŁADANIE KARTOTEKI WYSZUKIWAWCZEJ
Algorytm Rocchia (algorytm wiązania dokumentów w grupy)
Spośród wszystki dokumentów niezwiązanych wybieramy dokument, ktory stanowi przypuszczalne centrum grupy i obliczamy współczynnik korelacji tego dokumentu ze wszystkimi dokumentami tego zbioru.
Wybrany dokument poddajemy testowi gęstości. Test ten mówi, że co najmniej N1 dokumentów musi mieć współczynnik korelacji z wybranym dokumentem większy bądź równy od założonego parametru p1 i co najmniej N2 dokumentów musi mieć współczynnik korelacji z wybranym dokumentem większy bądź równy od założonego parametru p2, gdzie spełnione są następujące warunki: N1 ≥ p1 N2 ≥ p2 p2 > p1 N2 < N1 . Test ten gwarantuje, że dokumenty z brzegu grup nie będą wybrane jako centrum.
Jeżeli wybrany dokument przeszedł test gęstości - został uznany jako centrum grupy, to na podstawie rozpiętości granic grupy i rozkładów współczynnika korelacji określa się wartość progową współczynnika korelacji pmin. pmin będzie równe p1 (pmin = p1) jeśli mniej dokumentów niż wynosi minimalny rozmiar grupy ma współczynnik korelacji większy od p1. W każdym innym przypadku pmin wybiera się jako współczynnik korelacji dokumentu, przy ktorym nastąpiła największa różnica pomiędzy kolejnymi współczynnikami korelacji dokumentów sąsiadujących z grupą maksymalną. Liczba dokumentów w grupie minimalnej jest określana jako M1, zaś grupy maksymalnej jako M2.
Tworzymy wektor centroidalny, czyli centroid z terminów czy pojęć tych dokumentów, które należą do grupy minimalnej.
Definicje SA.:
S.A. nazywamy zbiór XE∈X, taki że σ(tE) = XE, tE∈TE
S.A. jest zbiorem będącym odpowiedzią na term elementarny
S.A. jest to najmniejsza klasa równoważności w systemie
Podzbiór obiektów nierozróżnialnych w systemie związanych z danym termem elementarnym
Najmniejszy rozróżnialny zbiór obiektów w systemie.
S.A. - zbiór obiektów o takim samym opisie, o takiej samej informacji o obiekcie (funkcji ρX)
Relacja równoważności ze względu na cały zbiór atrybutów systemu dzieli zbiór obiektów X na klasy abstrakcji będące zbiorami elementarnymi, czyli składowymi atomowymi:
B(x),B(y) - klasy abstrakcji
Klasy równoważności:
Zbiór obiektów nierozróżnialnych ze względu na atrybut
Zbiór obiektów dla których funkcja informacji zwraca tą samą wartość
Językiem deskryptorowym LS nazywamy język systemowy, który jest językiem opisu w kartotece wyszukiwawczej, równocześnie język pytań i odpowiedzi w systemie; jest szczególnym przypadkiem języka informacyjnego; jest definiowany jako para: LS = <A, G> gdzie A - alfabet; G - gramatyka dwustopniowa (składa się z semantyki i syntaktyki). Definicja języka jest adaptowana do zadanego systemu informacyjnego.
ALFABET - określa wszystkie symbole, które występują w języku
0,1 ∈ A - wartości typu logicznego służą do oznaczania zbioru pełnego i pustego;
A , V ∈ A gdzie A - zbiór wartości nazw atrybutów; V - zbiór wartości;
( , ) ∈ A
+, ⋅ , ~ ∈ A gdzie ~ - negacja (NEG)
GRAMATYKA jest definiowana dwustopniowo:
SYNTAKTYKA - określa zasady tworzenia słów w danym języku (TERMY - słowa w języku deskryptorowym, T - zbiór termów - zbiór słów w języku deskryptorowym)
0,1 ∈ T
(a , v) ∈ T - deskryptor jest słowem w tym języku
t , t' ∈ T - jeżeli należą do języka to słowami języka są również: ~ t ∈ T ; t + t' ∈ T ; t ⋅ t' ∈ T + - „lub” ⋅ - „i”
Pytanie do systemu jest również termem
SEMANTYKA - określa znaczenie słów (znaczeniem słów są obiekty). Semantyka w języku deskryptorowym je określona jako: σ : T → X σ - odwzorowuje zbiór term w zbiór obiektów. Jeżeli obiekty będą opisane termami to pytanie kierowane do systemu jest termem, a znalezienie odpowiedzi na pytanie jest nadaniem znaczenia termom tego pytania.
σ (0) = ∅ σ (1) = X (pełny zbiór obiektów);
σ (a, v) = { x ∈ X , ρX (a) = V }
σ (~t) = X \ σ (t) ; σ (t + t') = σ (t) ∪ σ (t') ; σ (t ⋅ t') = σ (t) ∩ σ (t')