ADRES DOKUMENTU - lokalizacja dokumentu, umowne oznaczenie wskazujące na miejsce dokumentu w określonym zbiorze dokumentów.

AKTUALIZACJA BAZY DANYCH - czynność zapewniająca w każdej chwili właściwy zbiór danych, w bazie danych polega na dodawaniu, usuwaniu dokumentów z bazy danych oraz dokonywaniu zmian w opisach dokumentów. Aktualizacja może również dotyczyć programów w banku danych.

ALGORYTM - zbiór reguł określających sposob rozwiązywania postawionego problemu w skończonej liczbie kroków.

ATRYBUT - cecha, która jest wybrana do opisu obiektu.

BANK DANYCH - baza danych + oprogramowanie umożliwiające jej wykorzystanie w określonych systemach przetwarzania danych

BAZA DANYCH - zbiór danych lub powiązane ze sobą zbiory danych, których struktura wewnętrzna zapewnia szybkie i selektywne przetwarzanie danych.

CZAS WYSZUKIWANIA - czas upływający od momentu skierowania pytania do systemu, do momentu, gdy system za odpowiedź w swojej strukturze wewnętrznej.

DANA - informacja przedstawiona w sposób dogodny w danym systemie informacyjnym do przechowywania, przesyłania lub przetwarzania.

DESKRYPTOR - para atrybut-wartość lub jednostka składniowa używana jako podstawowy element (słowo kluczowe) języka informacyjno- wyszukiwawczego w systemie informatycznej analizy treści dokumentu lub automatycznego wyszukiwania dokumentów.

DOKŁADNOŚĆ (D) - określa zdolność systemu do niewyznaczania dokumentów nierelewantnych względem danego pytania; prawdopodobieństwo, że dokument realtywny zostanie wyszukany.

DOKUMENT - utrwalony sposób opisu obiektu.

DOKUMENT RELEWANTNY - dokument a jest relewantny względem pytania q, jeżeli w opisie dokumentu a występują wszystkie deskryptory niezaprzeczone pytania q i w opisie tym nie występuje żaden z deskryptorów zaprzeczonych pytania q (o ile q zawiera deskryptory zaprzeczone).

DOKUMENT WTÓRNY - dokument opracowany na podstawie dokumentu źródłowego przystosowany do konkretnego systemu informatycznego; dokument gdzie wszystkie informacje z dokumentu źródłowego są kodowane; są to informacje skrócone.

DOKUMENT WYSZUKIWAWCZY - jest to dokument opracowany na podstawie dokumentu wtórnego; przystosowany do konkretnej metody wyszukiwania informacji.

DOKUMENT ŻRÓDŁOWY - opis obiektu w postaci źródłowej (język naturalny); dokument na wejściu systemu (np. ankiety)

EFEKTYWNOŚĆ EKONOMICZNA - miara oceny systemu wyszukiwania informacji uwzględniająca parametry: czas, redundancja, zajętość.

EKEKTYWNOŚĆ SYSTEMÓW WYSZUKIWANIA INFORMACJI

Parametry oceny systemów: czas wyznaczania odpowiedzi, redundacja opisów dokumentów. Przyczyny niedostatecznej efektywności sysytemów: nieadekwatność opisów dokumentów w języku informacyjnym do dokumentów źródłowych; nieadekwatność pytań użytkownika do pytań w języku informacyjnym:

gdzie: K - kompletność; D - dokładność; F - pełność; G - szumy; a - ilość dokumentów wyszukanych relewantnych, b - ilość dokumentów wyszukanych nierelewantnych; c - ilość dokumentów niewyszukanych relewantnych; d - ilość dokumentów niewyszukanych nierelewantnych.

Duża dokładność jest otrzymywana kosztem małej kompletności o odwrotnie. Pełność opisu dokumentu polega na wyczerpującym uwzględnieniu w nim tematyki danego dokumentu. Szczegółowść deskryptorów tzn. występowanie w opisach dokumentów terminów specyficznych dla danej dziedziny zwiększa dokładność odpowiedzi.

EFEKTYWNOŚĆ TECHNICZNA - miara zdolności systemu do wyznaczania poprawnych odpowiedzi.

FUNKCJA INFORMACJI - odwzorowanie zbioru obiektów w zbiór atrybutów na zbiór wartości; daje nam całkowity opis obiektu; funkcja nie będzie poprawna, jeśli nie będzie w pełni określona (nie wszystkie pary (x,a) będą miały wartość); daje nam opis deskryptorowy obiektu; ρi : X→Y , ρ(X,Y); przyporządkowuje każdemu obiektowi i atrybutowi odpowiednią wartość.

FUNKCJA ODPOWIEDZI - funkcja nadająca znaczenia termom pytania σ:T→P(x)

HIERARCHIA - zależność, w którym dana klasa jest podklasą innej klasy; zależność ta może być wielostopniowa;

INFORMACJA RELEWANTNA - informacja uzyskana z systemu dokładnie odpowiadająca zapytaniu informacyjnemu

JĘZYKIEM DESKRYPTOROWYM LS nazywamy język systemowy, który jest językiem opisu w kartotece wyszukiwawczej, równocześnie język pytań i odpowiedzi w systemie; jest szcególnym przypadkiem języka informacyjnego; jest definiowany jako para: LS = <A, G> gdzie A - alfabet; G - gramatyka dwustopniowa (składa się z symantyki i syntaktyki). Definicja języka jest adaptowana do zadanego systemu informacyjnego.

ALFABET - określa wszystkie symbole, które występują w języku

  1. 0,1 ∈ A - wartości typu logicznego służą do oznaczania zbioru pełnego i pustego;

  1. A , V ∈ A gdzie A - zbiór wartości nazw atrybutów; V - zbiór wartości;

  1. ( , ) ∈ A

  1. +, ⋅ , ~ ∈ A gdzie ~ - negacja (NEG)

GRAMATYKA jest definiowana dwustopniowo:

SYNTAKTYKA - określa zasady tworzenia słów w danym języku (TERMY - słowa w języku deskryptorowym, T - zbiór termów - zbiór słów w języku deskryptorowym)

  1. 0,1 ∈ T

  1. (a , v) ∈ T - deskryptor jest słowem w tym języku

  1. t , t' ∈ T - jeżeli należą do języka to słowami języka są również: ~ t ∈ T ; t + t' ∈ T ; t ⋅ t' ∈ T + - „lub” ⋅ - „i”

  1. Pytanie do systemu jest również termem

(Wydawnictwo, PWN) ∈ T - Słowo w języku deskryptorowym (Rok Wydania, 1990) + (Dziedzina, Informatyka) ∈ T (Rok Wydania, 1990) ⋅ (Wydawnictwo, PWN) ∈ T ~ (Wydawnictwo, PWN) + (Rok Wydania, 1990) ⋅ (Dziedzina, Informatyka) + (Dziedzina, Elektronika) ∈ T

SEMANTYKA - określa znaczenie słów (znaczeniem słów są obiekty). Semantyka w języku deskryptorowym je określona jako: σ : T → X σ - odwzorowuje zbiór term w zbiór obiektów. Jeżeli obiekty będą opisane termami to pytanie kierowane do systemu jest termem, a znalezienie odpowiedzi na pytanie jest nadaniem znaczenia termom tego pytania.

  1. σ (0) = ∅ σ (1) = X (pełny zbiór obiektów);

  1. σ (a, v) = { x ∈ X , ρX (a) = V }

  1. σ (~t) = X \ σ (t) ; σ (t + t') = σ (t) ∪ σ (t') ; σ (t ⋅ t') = σ (t) ∩ σ (t')

JĘZYK INFORMACYJNY - specjalistyczny język sztuczny, przeznaczony do opisania podstawowych treści dokumentów i formuowania kwerend; jest językiem ogólnym, który jest interpretowany dopiero w zaprojektowanym systemie; język powinien być kompletny, zupełny, prosty i powinien spełniać oczekiwania użytkownika; ta sama informacja o obiekcie może być różnie zapisana w zależności od przyjętego języka.

KARTOTEKA - grupa zapisów dotyczących określonego problemu, traktowania w procesie przetwarzania informacji jaka odręba całość.

KARTOTEKA WTÓRNA -zbiór dokumentów wtórnych.

KARTOTEKA WYSZUKIWAWCZA - zbiór dokuemntów w postaci wyszukiwawczej wraz z niezbędnymi dodatkowymi informcjami (np. tablice, listy inwersyjne) potrzebnymi do wyszukiwania określoną metodą.

KARTOTEKA ŻRÓDŁOWA - zbiór dokuemtów żródłowych.

KLASA RÓWNOWAŻNOŚCI nazywamy najmniejszy zbiór atrybutów opisywalny w systemie, także która da się opisać przez atrybuty sytemu (zbiór obiektów nierozróżnialnych w systemie); może być ze względu na wybrane atrybuty lub ze względu na wszystkie atrybuty. Każdy atrybut w systemie ywznacza klasę równoważności.

KOMPLETNOŚĆ (K) - zdolność systemu do wyszukiwania wszystkich dokumentów, któr mogą okazać się relewantnymi; prawdopodopieństwo, że dokument relewantny zostanie wyszukany;

KWERENDA - zapytanie do systemu, określa jaką informację należy wyszukać lub podaje kryteria w/g których ta informacja winna być wyszukana.

MODYFIKACJA METODY WYSZUKIWANIA - zmiana podstawowych zasad i mechanizamów działań w klasycznej metodzie wyszukiwania informacji prowadząca do polepszenia właściwości tej metody.

NORMALIZACJA TERMÓW PYTANIA - dla każdego termu składowefo t istnieje taki term t', że odpowiedź na t jest równa odpowiedzi na t' a t' jest w postaci termu notmalnego (dla każdego termu różnego od termu elementarnego t∉tE istnieje taki term t', że σ(t)=σ(t'), t'∈TN

OBCIĘCIE - - prawdopodobieństwo, że dokument w ogóle został wyszukany

OBIEKTY - obiektami w sytemie są np. ludzie, ksiątki itp. Obiektami nie będzie coś, co nie ma swojego opisu np. sam rok wydania ma tylko wartość.

ODPOWIEDŹ - podzbiór obiektów, które spełniają warunek zawierania w pytaniu.

OGÓLNOŚĆ ODOWIEDZI (G) - prawdopodobieństwo, że dokument jest relewantny.

OPIS OBIEKTU - zbiór deskryptorów wyznaczonych przez informację o obiekcie x, inna nazwa to deskrypcja; przedstawia treść dokumentu.

PEŁNOŚĆ - zdolność systemu do wyszukania wszystkich dokumentów, które są nierelewntne.

PERTYNENCJA - odpowiedniość między dokuementami a informacją potrzebną użytkownikowi.

PYTANIA OGÓLNE - w postaci pojedynczego deskryptora (lub dwóch deskryptorów); pytanie o zbiór termów.

PYTANIE SZCZEGÓŁOWE - pytanie wielodeskryptorowe; pytanie o term elementrany.

REDUNDACJA - nadmiar informacji zawartej w opisach obiektów, w stosunku do uzasadnionego minimum.

REKORD - grupa znaków lub słów odpowiadająca najczęściej zawartości jednego dokumentu żródłowego lub jego części.

RELACJA - podzbiór iloczynu kartezjańskiego p ⊂ X2 lub p ⊂ X × Y

RELACJA RÓWNOWAŻNOŚCI - relacja, która spełnia następujące zależności:

- relacj jest zwrotna - X → X, ∨ x X, że ρ(X,X)

- relacja jest symetrczna - X → Y ⇒ Y → X ; ∨ xX yY, że ρ(X,Y) ⇔ ρ(Y,X)

- relacja jest przechodnia - X → Y ∧ Y → Z ⇒ X → Z ρ(X,Y) ∧ ρ(Y,Z) ⇒ ρ(X,Z)

RELEWANCJA - odpowiedniość między dokumentami a pytaniem użytkownia. Dokumenty uznane przez eksperta za adekwatne do pytania nazywamy relewantnymi, natomiast dokumenty wyznaczone za adekwatne przez system nazywamy wyszukanymi.

REORGANIZACJA BAZY DANYCH - jest to aktualizacja polegająca na całościowej zmianie bazy danych spowodwana głównie zmianą zbioru deskryptorów.

RÓWNOWAŻNOŚĆ DWÓCH ATRYBUTÓW W SYSTEMIE - dwa obiekty są równoważne w systemie S jeżeli dla każdego atrybutu A zachodzi zależność x ~S y ⇔ ∧aA ρX (a) = ρY (a) (relacja równoważności wprowadzona przez a1 jest równa relacji równoważności wprowadzonej przez a2);

RÓWNOWAŻNOŚĆ DWÓCH SYSTEMÓW - dwa systemy są równoważne ⇔ w systemie ma miejsce równoważność dla wszystkich atrybutów systemu i te atrybuty wnoszą identyczny podział na klasy równoważności

RÓWNOWAŻNOŚĆ TERMÓW dwa termy t i t' są równoważne w systemie S, gdy znaczenia tych termów są identyczne t=t'⇔ρ(t)=ρ(t')

RÓWNOWAŻNOŚĆ W SYSTEMIE - dwa obiekty x1 i x2 są równoważne systemie S ze względu naatrybut a, gdy funkcja informacji na atrybucie a jest taka sama x ~S y ⇔ ∧aA ρX (a) = ρY (a), więc jeśli podane są klasy, to obiekty są równoważne ze względu na klasę.

SYSTEM - całokształt elementow, przedmiotów lub pojęć wzajemnie powiązanych między sobą i rozpatrywanych jako jedność strukturalna (systemy różnią się kartoteką wyszukiwawczą).

SYSTEM INFORMACYJNY jest określany jako S = < X, A, V, ρ > gdzie:

Funkcja ρ parze obiekt element - atrybut przyporządkowuje nazwę i nosi nazwę FUNKCJI INFORMACJI. Funkcja informacji pozwala opisać każdy obiekt poprzez ciąg przyjętych atrybutów - podaje pełną informację o obiekcie. Informacja jest pełna jeżeli dla każdego atrybutu możemy przypisać wartość

SYSTEM KOMPLETNY (ZUPEŁNY) - system, w którym każda informacja jest niepusta.

SYSTEM SELEKTYWNY - system, w którym każdej informacji odpowiada co najwyżej 1 obiekt.

SZUM (ODRZUT) (F) - prawdopodobieństwo, że dokument nie relewantny jest wyszukany.

Term elementarny jest pytaniem zawierającym iloczyn deskryptorów po wszystkich atrybutach systemu t = (a1 , V1) ⋅ (a2 , V2) ⋅ . . . ⋅ (an , Vn)

tE = d1 ⋅ d2 ⋅ . . . ⋅ dn d - deskryptory

Własności termów elementarnych:

1. Wartości termów elementrnych są rozłączne (zbiór termów elementarnych w systemie są zbiorami elementarnymi).

σ(t1) ∩ σ(t2) = φ t1 , t2 ∈ TE σ - z semantyki - znaczenie termu → wartość termu.

2. Suma logiczna sumy wartości termów odpowiadająca wszystkim termom elementarnym daje pełny zbiór obiektów w systemie.

Term normalny - suma termów elementarnych. t = t1 + t2 + . . . + tn t1 , t2 , . . . , tn ∈ TE

Term składowy - iloczyn deskryptorów nie po wszystkich atrybutach systemu. t = (a1 , V1) ⋅ (a2 , V2) ⋅ . . . ⋅ (ak , Vk) k<n

tE = d1 ⋅ d2 ⋅ . . . ⋅ dk k<n d - deskryptory

TRYB PRACY KONWERSACYJNEJ - wymiana pytań i odpowiedzi pomiędzy użytkownikiem i komputerem.

WYSZUKIWANIE INFORMACJI (PROCES WYSZUKIWANIA) - wybieranie ze zbioru informacyjnego tych dokumentów i/lub dokumentów pierwotnych, których charakterystyki wyszukiwawcze są relewantne do pytania.

- metoda wyszukiwania decyduje o sposobie projektowania systemu,

- istnieje wiele metod wyszukiwania informacji, różnią się one zasadą tworzenia baz danych i sposobem wyszukiwania.

ZAWIERANIE SIĘ TERMÓW - term t1 jest zawarty w termie t2 w systemie S wtedy i tylko wtedy gdy zbiór wartości obiektów odpowiadających termowi t2 jest zbiorem węższym niż zbiór odpowiadający termowi t1. t1 ≤ t2 ⇔ σ(t1) ⊆ σ(t2)