SYSTEM INFORMACYJNY jest określany jako S


SYSTEM INFORMACYJNY jest określany jako S = < X, A, V, ρ > gdzie:

Dwa elementy są nierozróżnialne ze względu na atrybut A wtedy i tylko wtedy, gy funkcja na tym argumencie jest taka sama.

x ~a y ρX (a) = ρY (a)

x i y są równoważne, ze względu na atrybut a

x2 ~rok wydania x4 ; x1 ~wydawca x3 ; x1 ~dziedzina x2

RÓWNOWAŻNOŚĆ W SYSTEMIE

Dwa obiekty są równoważne w systemie S jeżeli dla każdego atrybutu A zachodzi zależność

x ~S y aA ρX (a) = ρY (a)

x2 ~rok wydania x4 ; x2 ~wydawca x4 ; x2 ~dziedzina x4 ; x2 ~S x4

Obiekty nierożróżnialne w systemie należą do tej samej klasy równoważności.

KLASA RÓWNOWAŻNOŚCI

  1. Klasą równoważności nazywamy najmniejszy zbiór atrybutów opisywalny w systemie, także która da się opisać przez atrybuty sytemu.

  1. Klasa równoważności - zbiór obiektów nierozróżnialnych w systemie.

Każdy atrybut dzieli system na KLASY OBIEKTÓW

~ Rok Wydania = { x1 , x3 } { x2 , x4 }

~ Wydawca = { x1 , x3 } { x2 , x4 }

~ Dziedzina = { x1 , x2 , x4 } { x3 }

~ S = { x2 , x4 } { x1 } { x3 }

Parę atrybut - wartość (a, v) gdzie aA , vVa nazywamy DESKRYPTOREM.

JĘZYKIEM DESKRYPTOROWYM LS nazywamy język systemowy, który jest językiem opisu w kartotece wyszukiwawczej, równocześnie język pytań i odpowiedzi w systemie.

LS = <A, G> gdzie LS - język deskryptorowy; A - alfabet; G - gramatyka dwustopniowa (składa się z symantyki i syntaktyki).

Definicja języka jest adaptowana do zadanego systemu informacyjnego.

ALFABET

  1. 0,1 A

  1. A , V A gdzie A - zbiór wartości nazw atrybutów; V - zbiór wartości;

  1. ( , ) A

  1. +, , ~ A gdzie ~ - negacja (NEG)

GRAMATYKA

SYNTAKTYKA - określa zasady tworzenia słów w danym języku

TERMY - słowa w języku deskryptorowym

T - zbiór termów - zbiór słów w języku deskryptorowym

  1. 0,1 T

  1. (a , v) T - deskryptor jest słowem w tym języku

  1. t , t' T - jeżeli należą do języka to słowami języka są również:

~ t T

t + t' T

t t' T + - „lub” - „i”

(Wydawnictwo, PWN) T - Słowo w języku deskryptorowym

(Rok Wydania, 1990) + (Dziedzina, Informatyka) T

(Rok Wydania, 1990) (Wydawnictwo, PWN) T

~ (Wydawnictwo, PWN) + (Rok Wydania, 1990) (Dziedzina, Informatyka) + (Dziedzina, Elektronika) T

SEMANTYKA - określa znaczenie słów. Semantyka w języku deskryptorowym je określona jako: σ : T X σ - odwzorowuje zbiór term w zbiór obiektów.

  1. σ (0) = σ (1) = X (pełny zbiór obiektów;

  1. σ (a, v) = { x X , ρX (a) = V }

  1. σ (~t) = X \ σ (t)

σ (t + t') = σ (t) σ (t')

σ (t t') = σ (t) σ (t')

Term T nazywamy termem elementarnym jeżeli jest on iloczynem wartości ze wszystkich atrybutów systemu. Term elementarny jest iloczynem deskryptorów po wszystkich atrybutach systemu.

t = (a1 , V1) (a2 , V2) . . . (an , Vn)

tE = d1 d2 . . . dn d - deskryptory

Własności termów elementarnych:

1. Wartości termów elementrnych są rozłączne (zbiór termów elementarnych w systemie są zbiorami elementarnymi).

σ(t1) σ(t2) = φ t1 , t2 TE σ - z semantyki - znaczenie termu wartość termu.

2. Suma logiczna sumy wartości termów odpowiadająca wszystkim termom elementarnym daje pełny zbiór obiektów w systemie.

Term T nazywamy termem normalnym jeżeli term ten jest sumą termów elementarnych.

t = t1 + t2 + . . . + tn t1 , t2 , . . . , tn TE

Term T nazywamy termem składowym jeżeli jest on iloczynem deskryptorów nie po wszystkich atrybutach systemu.

t = (a1 , V1) (a2 , V2) . . . (ak , Vk) k<n

tE = d1 d2 . . . dk k<n d - deskryptory

W systemie częściej opisuje się term składowy niż elementarny choć term elementarny jest szczególnym przypadkiem termu składowego.

Sumę termów składowych, nie konieczne elementarny nazywać będziemy termem składowym.

Powiemy, że termy t1 i t2 są równe w systemie t1 = t2 wtedy i tylko wtedy gdy wartości tych termów są równe

t1 = t2 σ(t1) = σ(t2)

Powiemy, że term t1 jest zawarty w termie t2 w systemie S wtedy i tylko wtedy gdy zbiór wartości obiektów odpowiadających termowi t2 jest zbiorem węższym niż zbiór odpowiadający termowi t1.

t1 t2 σ(t1) σ(t2)

metoda list inwersyjnych

Algorytm wyszukiwania :

1) pobierz pierwszy deskryptor pierwszego termu składowego

2) wygeneruj listę obiektów relewantnych do tego deskryptora

3) jeśli nie ma już następnych deskryptorów w tym termie składowym to przejdź do pkt. 8

4) pobierz następny deskryptor pytania

5) wygeneruj listę obiektów relewantnych do tego deskryptora

6) dokonaj przecięcia na dotychczas wygenerowanych listach

7) przejdź do 3

8) zapamiętaj wygenerowaną listę

9) jeśli nie ma już następnych termów składowych to przejdź do 17

10) pobierz pierwszy deskryptor następnego temu składowego

11) wygeneruj listę obiektów relewantnych do tego deskryptora

12) jeśli nie ma już następnych dekryptorów w tym termie składowym to przejdź do pkt 8.

13) pobierz następny deskryptor pytania

14) wygeneruj listę obiektów relewantnych do tego deskryptora

15) dokonaj przecięcia na dotychczas wygenerowanych dla tego termu składowego listach

16) przejdź do 12

17) Podaj na wyjście sumę zapamiętanych list

OPIS METODY WYSZUKIWANIA (tworzenie kartoteki wyszukiwawczej, proces wyszukiwania)

System wyszukiwania informacji zadany jest jak w innych systemach, poprzez określenie zbioru X, zbioru atrybutów A, zbioru wartości V oraz funkcji informacji ρ - S = < X, A, V, ρ > . W systemie Saltona zbiorem obiektów X jest zbiór dokumentów w języku naturalnym. Funkcja informacji ρ określa opis danego dokumentu.

W metodzie Saltona wszystkie obiekty (dokumenty) dzieli się na podgrupy Xi (i = 1 . . . m), przy czym te podgrupy stanowią pewne grupy dokumentów podobnych.

0x01 graphic

Każda utowrzona grupa Xi składa się z reprezentanta Ci , który jest nazywany centroidem i ze zbioru obiektów (dokumentów) należących do tej grupy. W miejsce centoida (Ci) może występwać profil grupy Pi.

Xi = (Ci, {tXi}).

Centroid jest pewnym zbiorem pojęć (wykorzystywany w algorytmie Rocchia), a profil jest jego odpowiednikiem (kodem) numerycznym (ewentualnie numerem grupy), tworzonym w grupowaniu algorytmem Doyle'a.

Istnieje wiele algorytmów grupowania, przy czym najbardziej popularne i najczęściej używane są dwa: algorytm Rocchia i algorytm Doyle'a. W algorytmie Rocchia (jak już wcześniej wspomniano) reprezentatem grupy jest centroid, zaś w algorytmie Doyle'a reprezentatem grupy jest profil.

Proces zakładania kartoteki wyszukiwawczej polega na przeprowadzeniu algorytmu grupowania dokumentów jedną z dwóch powyższych metod. Po założeniu kartoteki wyszukiwawczej proces wyszukiwania może być przeprowadzony metodą sekwencyjną lub metodą strukturalną. Metoda strukturalna jest orginalną metodą Saltona (metoda wyszukiwania Saltona).

ZAKŁADANIE KARTOTEKI WYSZUKIWAWCZEJ

Algorytm Rocchia (algorytm wiązania dokumentów w grupy)

  1. Spośród wszystki dokumentów niezwiązanych wybieramy dokument, ktory stanowi przypuszczalne centrum grupy i obliczamy współczynnik korelacji tego dokumentu ze wszystkimi dokumentami tego zbioru.

  2. Wybrany dokument poddajemy testowi gęstości. Test ten mówi, że co najmniej N1 dokumentów musi mieć współczynnik korelacji z wybranym dokumentem większy bądź równy od założonego parametru p1 i co najmniej N2 dokumentów musi mieć współczynnik korelacji z wybranym dokumentem większy bądź równy od założonego parametru p2, gdzie spełnione są następujące warunki: N1 p1 N2 p2 p2 > p1 N2 < N1 . Test ten gwarantuje, że dokumenty z brzegu grup nie będą wybrane jako centrum.

  3. Jeżeli wybrany dokument przeszedł test gęstości - został uznany jako centrum grupy, to na podstawie rozpiętości granic grupy i rozkładów współczynnika korelacji określa się wartość progową współczynnika korelacji pmin. pmin będzie równe p1 (pmin = p1) jeśli mniej dokumentów niż wynosi minimalny rozmiar grupy ma współczynnik korelacji większy od p1. W każdym innym przypadku pmin wybiera się jako współczynnik korelacji dokumentu, przy ktorym nastąpiła największa różnica pomiędzy kolejnymi współczynnikami korelacji dokumentów sąsiadujących z grupą maksymalną. Liczba dokumentów w grupie minimalnej jest określana jako M1, zaś grupy maksymalnej jako M2.

  4. Tworzymy wektor centroidalny, czyli centroid z terminów czy pojęć tych dokumentów, które należą do grupy minimalnej.

Definicje SA.:

  1. S.A. nazywamy zbiór XEX, taki że σ(tE) = XE, tETE

  2. S.A. jest zbiorem będącym odpowiedzią na term elementarny

  3. S.A. jest to najmniejsza klasa równoważności w systemie

  4. Podzbiór obiektów nierozróżnialnych w systemie związanych z danym termem elementarnym

  5. Najmniejszy rozróżnialny zbiór obiektów w systemie.

  6. S.A. - zbiór obiektów o takim samym opisie, o takiej samej informacji o obiekcie (funkcji ρX)

  7. Relacja równoważności ze względu na cały zbiór atrybutów systemu dzieli zbiór obiektów X na klasy abstrakcji będące zbiorami elementarnymi, czyli składowymi atomowymi:

0x01 graphic
B(x),B(y) - klasy abstrakcji

Klasy równoważności:

  1. Zbiór obiektów nierozróżnialnych ze względu na atrybut

  2. Zbiór obiektów dla których funkcja informacji zwraca tą samą wartość

Językiem deskryptorowym LS nazywamy język systemowy, który jest językiem opisu w kartotece wyszukiwawczej, równocześnie język pytań i odpowiedzi w systemie; jest szczególnym przypadkiem języka informacyjnego; jest definiowany jako para: LS = <A, G> gdzie A - alfabet; G - gramatyka dwustopniowa (składa się z semantyki i syntaktyki). Definicja języka jest adaptowana do zadanego systemu informacyjnego.

ALFABET - określa wszystkie symbole, które występują w języku

  1. 0,1 A - wartości typu logicznego służą do oznaczania zbioru pełnego i pustego;

  1. A , V A gdzie A - zbiór wartości nazw atrybutów; V - zbiór wartości;

  2. ( , ) A

  3. +, , ~ A gdzie ~ - negacja (NEG)

GRAMATYKA jest definiowana dwustopniowo:

SYNTAKTYKA - określa zasady tworzenia słów w danym języku (TERMY - słowa w języku deskryptorowym, T - zbiór termów - zbiór słów w języku deskryptorowym)

  1. 0,1 T

  1. (a , v) T - deskryptor jest słowem w tym języku

  1. t , t' T - jeżeli należą do języka to słowami języka są również: ~ t T ; t + t' T ; t t' T + - „lub” - „i”

  2. Pytanie do systemu jest również termem

SEMANTYKA - określa znaczenie słów (znaczeniem słów są obiekty). Semantyka w języku deskryptorowym je określona jako: σ : T X σ - odwzorowuje zbiór term w zbiór obiektów. Jeżeli obiekty będą opisane termami to pytanie kierowane do systemu jest termem, a znalezienie odpowiedzi na pytanie jest nadaniem znaczenia termom tego pytania.

  1. σ (0) = σ (1) = X (pełny zbiór obiektów);

  1. σ (a, v) = { x X , ρX (a) = V }

  1. σ (~t) = X \ σ (t) ; σ (t + t') = σ (t) σ (t') ; σ (t t') = σ (t) σ (t')



Wyszukiwarka

Podobne podstrony:
System informatyczny jest to zbior powiazanych zesoba elementow
Klimat Polski jest określany jako przejściowy, Klimat Polski jest określany jako przejściowy - międz
Pozostałe, ściaga - rachunkowoya II, Rachunkowość - jest to system informacyjny ciągłego ujmowania w
Badania marketingowe jako element systemu informacji marketingowej
czlowiek-jako-system-informacyjno, Biologia dokumenty
W obecnych czasach koniecznym warunkiem funkcjonowania systemów logistycznych w przedsiębiorstwie i
System informacyjny jako ogniwo systemu sterowania i zarzadzania 18 05
Jażdżewska, Iwona Rzeki jako bariery w kształtowaniu miejskiej sieci osadniczej Polski w świetle za
Wykorzystanie modelu procesow w projektowaniu systemow informatycznych
OK W2 System informacyjny i informatyczny
SYSTEMY INFORMATYCZNE ORGANIZACJI WIRTUALNEJ1
Metodyka punktow wezlowych w realizacji systemu informatycznego

więcej podobnych podstron