ADRES DOKUMENTU - lokalizacja dokumentu, umowne oznaczenie wskazujące na miejsce dokumentu w określonym zbiorze dokumentów.
AKTUALIZACJA BAZY DANYCH - czynność zapewniająca w każdej chwili właściwy zbiór danych, w bazie danych polega na dodawaniu, usuwaniu dokumentów z bazy danych oraz dokonywaniu zmian w opisach dokumentów. Aktualizacja może również dotyczyć programów w banku danych.
ALGORYTM - zbiór reguł określających sposob rozwiązywania postawionego problemu w skończonej liczbie kroków.
ATRYBUT - cecha, która jest wybrana do opisu obiektu.
BANK DANYCH - baza danych + oprogramowanie umożliwiające jej wykorzystanie w określonych systemach przetwarzania danych
BAZA DANYCH - zbiór danych lub powiązane ze sobą zbiory danych, których struktura wewnętrzna zapewnia szybkie i selektywne przetwarzanie danych.
CZAS WYSZUKIWANIA - czas upływający od momentu skierowania pytania do systemu, do momentu, gdy system za odpowiedź w swojej strukturze wewnętrznej.
DANA - informacja przedstawiona w sposób dogodny w danym systemie informacyjnym do przechowywania, przesyłania lub przetwarzania.
DESKRYPTOR - para atrybut-wartość lub jednostka składniowa używana jako podstawowy element (słowo kluczowe) języka informacyjno- wyszukiwawczego w systemie informatycznej analizy treści dokumentu lub automatycznego wyszukiwania dokumentów.
DOKŁADNOŚĆ (D) - określa zdolność systemu do niewyznaczania dokumentów nierelewantnych względem danego pytania; prawdopodobieństwo, że dokument realtywny zostanie wyszukany.
DOKUMENT - utrwalony sposób opisu obiektu.
DOKUMENT RELEWANTNY - dokument a jest relewantny względem pytania q, jeżeli w opisie dokumentu a występują wszystkie deskryptory niezaprzeczone pytania q i w opisie tym nie występuje żaden z deskryptorów zaprzeczonych pytania q (o ile q zawiera deskryptory zaprzeczone).
DOKUMENT WTÓRNY - dokument opracowany na podstawie dokumentu źródłowego przystosowany do konkretnego systemu informatycznego; dokument gdzie wszystkie informacje z dokumentu źródłowego są kodowane; są to informacje skrócone.
DOKUMENT WYSZUKIWAWCZY - jest to dokument opracowany na podstawie dokumentu wtórnego; przystosowany do konkretnej metody wyszukiwania informacji.
DOKUMENT ŻRÓDŁOWY - opis obiektu w postaci źródłowej (język naturalny); dokument na wejściu systemu (np. ankiety)
EFEKTYWNOŚĆ EKONOMICZNA - miara oceny systemu wyszukiwania informacji uwzględniająca parametry: czas, redundancja, zajętość.
EKEKTYWNOŚĆ SYSTEMÓW WYSZUKIWANIA INFORMACJI
Parametry oceny systemów: czas wyznaczania odpowiedzi, redundacja opisów dokumentów. Przyczyny niedostatecznej efektywności sysytemów: nieadekwatność opisów dokumentów w języku informacyjnym do dokumentów źródłowych; nieadekwatność pytań użytkownika do pytań w języku informacyjnym:
gdzie: K - kompletność; D - dokładność; F - pełność; G - szumy; a - ilość dokumentów wyszukanych relewantnych, b - ilość dokumentów wyszukanych nierelewantnych; c - ilość dokumentów niewyszukanych relewantnych; d - ilość dokumentów niewyszukanych nierelewantnych.
Duża dokładność jest otrzymywana kosztem małej kompletności o odwrotnie. Pełność opisu dokumentu polega na wyczerpującym uwzględnieniu w nim tematyki danego dokumentu. Szczegółowść deskryptorów tzn. występowanie w opisach dokumentów terminów specyficznych dla danej dziedziny zwiększa dokładność odpowiedzi.
EFEKTYWNOŚĆ TECHNICZNA - miara zdolności systemu do wyznaczania poprawnych odpowiedzi.
FUNKCJA INFORMACJI - odwzorowanie zbioru obiektów w zbiór atrybutów na zbiór wartości; daje nam całkowity opis obiektu; funkcja nie będzie poprawna, jeśli nie będzie w pełni określona (nie wszystkie pary (x,a) będą miały wartość); daje nam opis deskryptorowy obiektu; ρi : X→Y , ρ(X,Y); przyporządkowuje każdemu obiektowi i atrybutowi odpowiednią wartość.
FUNKCJA ODPOWIEDZI - funkcja nadająca znaczenia termom pytania σ:T→P(x)
HIERARCHIA - zależność, w którym dana klasa jest podklasą innej klasy; zależność ta może być wielostopniowa;
INFORMACJA RELEWANTNA - informacja uzyskana z systemu dokładnie odpowiadająca zapytaniu informacyjnemu
JĘZYKIEM DESKRYPTOROWYM LS nazywamy język systemowy, który jest językiem opisu w kartotece wyszukiwawczej, równocześnie język pytań i odpowiedzi w systemie; jest szcególnym przypadkiem języka informacyjnego; jest definiowany jako para: LS = <A, G> gdzie A - alfabet; G - gramatyka dwustopniowa (składa się z symantyki i syntaktyki). Definicja języka jest adaptowana do zadanego systemu informacyjnego.
ALFABET - określa wszystkie symbole, które występują w języku
0,1 ∈ A - wartości typu logicznego służą do oznaczania zbioru pełnego i pustego;
A , V ∈ A gdzie A - zbiór wartości nazw atrybutów; V - zbiór wartości;
( , ) ∈ A
+, ⋅ , ~ ∈ A gdzie ~ - negacja (NEG)
GRAMATYKA jest definiowana dwustopniowo:
SYNTAKTYKA - określa zasady tworzenia słów w danym języku (TERMY - słowa w języku deskryptorowym, T - zbiór termów - zbiór słów w języku deskryptorowym)
0,1 ∈ T
(a , v) ∈ T - deskryptor jest słowem w tym języku
t , t' ∈ T - jeżeli należą do języka to słowami języka są również: ~ t ∈ T ; t + t' ∈ T ; t ⋅ t' ∈ T + - „lub” ⋅ - „i”
Pytanie do systemu jest również termem
(Wydawnictwo, PWN) ∈ T - Słowo w języku deskryptorowym (Rok Wydania, 1990) + (Dziedzina, Informatyka) ∈ T (Rok Wydania, 1990) ⋅ (Wydawnictwo, PWN) ∈ T ~ (Wydawnictwo, PWN) + (Rok Wydania, 1990) ⋅ (Dziedzina, Informatyka) + (Dziedzina, Elektronika) ∈ T
SEMANTYKA - określa znaczenie słów (znaczeniem słów są obiekty). Semantyka w języku deskryptorowym je określona jako: σ : T → X σ - odwzorowuje zbiór term w zbiór obiektów. Jeżeli obiekty będą opisane termami to pytanie kierowane do systemu jest termem, a znalezienie odpowiedzi na pytanie jest nadaniem znaczenia termom tego pytania.
σ (0) = ∅ σ (1) = X (pełny zbiór obiektów);
σ (a, v) = { x ∈ X , ρX (a) = V }
σ (~t) = X \ σ (t) ; σ (t + t') = σ (t) ∪ σ (t') ; σ (t ⋅ t') = σ (t) ∩ σ (t')
JĘZYK INFORMACYJNY - specjalistyczny język sztuczny, przeznaczony do opisania podstawowych treści dokumentów i formuowania kwerend; jest językiem ogólnym, który jest interpretowany dopiero w zaprojektowanym systemie; język powinien być kompletny, zupełny, prosty i powinien spełniać oczekiwania użytkownika; ta sama informacja o obiekcie może być różnie zapisana w zależności od przyjętego języka.
KARTOTEKA - grupa zapisów dotyczących określonego problemu, traktowania w procesie przetwarzania informacji jaka odręba całość.
KARTOTEKA WTÓRNA -zbiór dokumentów wtórnych.
KARTOTEKA WYSZUKIWAWCZA - zbiór dokuemntów w postaci wyszukiwawczej wraz z niezbędnymi dodatkowymi informcjami (np. tablice, listy inwersyjne) potrzebnymi do wyszukiwania określoną metodą.
KARTOTEKA ŻRÓDŁOWA - zbiór dokuemtów żródłowych.
KLASA RÓWNOWAŻNOŚCI nazywamy najmniejszy zbiór atrybutów opisywalny w systemie, także która da się opisać przez atrybuty sytemu (zbiór obiektów nierozróżnialnych w systemie); może być ze względu na wybrane atrybuty lub ze względu na wszystkie atrybuty. Każdy atrybut w systemie ywznacza klasę równoważności.
KOMPLETNOŚĆ (K) - zdolność systemu do wyszukiwania wszystkich dokumentów, któr mogą okazać się relewantnymi; prawdopodopieństwo, że dokument relewantny zostanie wyszukany;
KWERENDA - zapytanie do systemu, określa jaką informację należy wyszukać lub podaje kryteria w/g których ta informacja winna być wyszukana.
MODYFIKACJA METODY WYSZUKIWANIA - zmiana podstawowych zasad i mechanizamów działań w klasycznej metodzie wyszukiwania informacji prowadząca do polepszenia właściwości tej metody.
NORMALIZACJA TERMÓW PYTANIA - dla każdego termu składowefo t istnieje taki term t', że odpowiedź na t jest równa odpowiedzi na t' a t' jest w postaci termu notmalnego (dla każdego termu różnego od termu elementarnego t∉tE istnieje taki term t', że σ(t)=σ(t'), t'∈TN
OBCIĘCIE - - prawdopodobieństwo, że dokument w ogóle został wyszukany
OBIEKTY - obiektami w sytemie są np. ludzie, ksiątki itp. Obiektami nie będzie coś, co nie ma swojego opisu np. sam rok wydania ma tylko wartość.
ODPOWIEDŹ - podzbiór obiektów, które spełniają warunek zawierania w pytaniu.
OGÓLNOŚĆ ODOWIEDZI (G) - prawdopodobieństwo, że dokument jest relewantny.
OPIS OBIEKTU - zbiór deskryptorów wyznaczonych przez informację o obiekcie x, inna nazwa to deskrypcja; przedstawia treść dokumentu.
PEŁNOŚĆ - zdolność systemu do wyszukania wszystkich dokumentów, które są nierelewntne.
PERTYNENCJA - odpowiedniość między dokuementami a informacją potrzebną użytkownikowi.
PYTANIA OGÓLNE - w postaci pojedynczego deskryptora (lub dwóch deskryptorów); pytanie o zbiór termów.
PYTANIE SZCZEGÓŁOWE - pytanie wielodeskryptorowe; pytanie o term elementrany.
REDUNDACJA - nadmiar informacji zawartej w opisach obiektów, w stosunku do uzasadnionego minimum.
REKORD - grupa znaków lub słów odpowiadająca najczęściej zawartości jednego dokumentu żródłowego lub jego części.
RELACJA - podzbiór iloczynu kartezjańskiego p ⊂ X2 lub p ⊂ X × Y
RELACJA RÓWNOWAŻNOŚCI - relacja, która spełnia następujące zależności:
- relacj jest zwrotna - X → X, ∨ x ∈ X, że ρ(X,X)
- relacja jest symetrczna - X → Y ⇒ Y → X ; ∨ x∈X ∧ y∈Y, że ρ(X,Y) ⇔ ρ(Y,X)
- relacja jest przechodnia - X → Y ∧ Y → Z ⇒ X → Z ρ(X,Y) ∧ ρ(Y,Z) ⇒ ρ(X,Z)
RELEWANCJA - odpowiedniość między dokumentami a pytaniem użytkownia. Dokumenty uznane przez eksperta za adekwatne do pytania nazywamy relewantnymi, natomiast dokumenty wyznaczone za adekwatne przez system nazywamy wyszukanymi.
REORGANIZACJA BAZY DANYCH - jest to aktualizacja polegająca na całościowej zmianie bazy danych spowodwana głównie zmianą zbioru deskryptorów.
RÓWNOWAŻNOŚĆ DWÓCH ATRYBUTÓW W SYSTEMIE - dwa obiekty są równoważne w systemie S jeżeli dla każdego atrybutu A zachodzi zależność x ~S y ⇔ ∧a∈A ρX (a) = ρY (a) (relacja równoważności wprowadzona przez a1 jest równa relacji równoważności wprowadzonej przez a2);
RÓWNOWAŻNOŚĆ DWÓCH SYSTEMÓW - dwa systemy są równoważne ⇔ w systemie ma miejsce równoważność dla wszystkich atrybutów systemu i te atrybuty wnoszą identyczny podział na klasy równoważności
RÓWNOWAŻNOŚĆ TERMÓW dwa termy t i t' są równoważne w systemie S, gdy znaczenia tych termów są identyczne t=t'⇔ρ(t)=ρ(t')
RÓWNOWAŻNOŚĆ W SYSTEMIE - dwa obiekty x1 i x2 są równoważne systemie S ze względu naatrybut a, gdy funkcja informacji na atrybucie a jest taka sama x ~S y ⇔ ∧a∈A ρX (a) = ρY (a), więc jeśli podane są klasy, to obiekty są równoważne ze względu na klasę.
SYSTEM - całokształt elementow, przedmiotów lub pojęć wzajemnie powiązanych między sobą i rozpatrywanych jako jedność strukturalna (systemy różnią się kartoteką wyszukiwawczą).
SYSTEM INFORMACYJNY jest określany jako S = < X, A, V, ρ > gdzie:
X = { X1 , X2 , .... Xn } - skończony zbiór obiektów systemowych. Obiektem jest każdy byt dla którego tworzony jest system.
A = { A1 , A2 , .... An } - skończony zbiór atrybutów systemu. Atrybut - cecha, którą opisujemy obiekty np. autor książki, tytuł, wydawca itp. (zbiór cech, którymi są opisane obiekty).
suma logiczna wartości atrybutów dla każdego atrybutu Vai = { VAi , ...... VAn } np. kolor oczu {niebieskie, brązowe piwne itp. }
ρi - funkcja informacji X × A → V ρ (X, a) = V gdzie X obiekt (element), a - atrybut, v - nazwa
Funkcja ρ parze obiekt element - atrybut przyporządkowuje nazwę i nosi nazwę FUNKCJI INFORMACJI. Funkcja informacji pozwala opisać każdy obiekt poprzez ciąg przyjętych atrybutów - podaje pełną informację o obiekcie. Informacja jest pełna jeżeli dla każdego atrybutu możemy przypisać wartość
SYSTEM KOMPLETNY (ZUPEŁNY) - system, w którym każda informacja jest niepusta.
SYSTEM SELEKTYWNY - system, w którym każdej informacji odpowiada co najwyżej 1 obiekt.
SZUM (ODRZUT) (F) - prawdopodobieństwo, że dokument nie relewantny jest wyszukany.
Term elementarny jest pytaniem zawierającym iloczyn deskryptorów po wszystkich atrybutach systemu t = (a1 , V1) ⋅ (a2 , V2) ⋅ . . . ⋅ (an , Vn)
tE = d1 ⋅ d2 ⋅ . . . ⋅ dn d - deskryptory
Własności termów elementarnych:
1. Wartości termów elementrnych są rozłączne (zbiór termów elementarnych w systemie są zbiorami elementarnymi).
σ(t1) ∩ σ(t2) = φ t1 , t2 ∈ TE σ - z semantyki - znaczenie termu → wartość termu.
2. Suma logiczna sumy wartości termów odpowiadająca wszystkim termom elementarnym daje pełny zbiór obiektów w systemie.
Term normalny - suma termów elementarnych. t = t1 + t2 + . . . + tn t1 , t2 , . . . , tn ∈ TE
Term składowy - iloczyn deskryptorów nie po wszystkich atrybutach systemu. t = (a1 , V1) ⋅ (a2 , V2) ⋅ . . . ⋅ (ak , Vk) k<n
tE = d1 ⋅ d2 ⋅ . . . ⋅ dk k<n d - deskryptory
TRYB PRACY KONWERSACYJNEJ - wymiana pytań i odpowiedzi pomiędzy użytkownikiem i komputerem.
WYSZUKIWANIE INFORMACJI (PROCES WYSZUKIWANIA) - wybieranie ze zbioru informacyjnego tych dokumentów i/lub dokumentów pierwotnych, których charakterystyki wyszukiwawcze są relewantne do pytania.
- metoda wyszukiwania decyduje o sposobie projektowania systemu,
- istnieje wiele metod wyszukiwania informacji, różnią się one zasadą tworzenia baz danych i sposobem wyszukiwania.
ZAWIERANIE SIĘ TERMÓW - term t1 jest zawarty w termie t2 w systemie S wtedy i tylko wtedy gdy zbiór wartości obiektów odpowiadających termowi t2 jest zbiorem węższym niż zbiór odpowiadający termowi t1. t1 ≤ t2 ⇔ σ(t1) ⊆ σ(t2)