10 marca 2014, Jaskowska (KONWERSATORIUM + WYKŁAD)
Wyszukiwanie informacji– aktywny proces
1
selektywnego
2
pozyskiwania zgromadzonych danych.
1
Wyszukiwanie informacji jest procesem, nie stanem!
2
My docierając do źródła i poszukując informacji wewnątrz tego źródła dokonujemy selekcji
Information seeking – wyszukiwanie nie tylko wewnątrz źródła informacji, ale poszukiwanie źródeł
które mogłyby nam dać dostęp do tej informacji.
Information searching – poszukiwanie informacji wewnątrz źródła niekoniecznie zdobycie tej
informacji
Information retrieval – specjalistyczne czynności zw. ze znajomością prawidłowości dot. Budowy
źródeł informacji, języków informacji, znajomość problemu informacyjnego i dopiero ta
zaawansowana znajomość problemu i źródeł informacji.
Ludzie poszukujący informacji posługują się tzw. Strategią „berry picking” (Internet – wykład).
Jeżeli użytkownik otrzymuje informację zgodną ze swoim zapytaniem, to mówi się, że
informacja jest
relewantna
.
Wyszukiwanie informacji to czynność wyselekcjonowania ze zbioru informacji relewantnych (tych,
które są w stanie zaspokoić potrzebę informacyjną użytkownika)
Jeżeli nie otrzyma dokumentów, to jest to
cisza informacyjna
.
Jeżeli oprócz dokumentów relewantnych otrzyma też zbędne, to jest to
szum informacyjny
.
Trafność wyszukiwania
to zgodność wyszukanych informacji z zapytaniem informacyjnym :
im mniejszy szum informacyjny, tym większy stopień trafności
Wysoki stopień
kompletności wyszukiwania
otrzymujemy eliminując ciszę informacyjną, tzn.
dążąc do wyszukiwania wszystkich dokumentów w zbiorze, odpowiadających pytaniu
informacyjnemu.
Docierając do informacji wybieramy jedną z dwóch strategii :
Przeglądanie (BROWSING)
Szukanie (RETRIEVAL)
Przeglądanie : (np. wszelkie dokumenty pisane zawierające spis treści, indeksy itp.)
1. „prześlizgiwanie” wzrokiem po informacjach
2. Wybór
3. Sprawdzanie
4. Przyjęcie – zaakceptowanie danej informacji
Wyszukiwanie (bezpośrednie trafianie do celu; np. okienko wyszukiwania w źródłach
komputerowych)
! Źródło jest tym doskonalsze im więcej form dotarcia do informacji oferuje użytkownikowi
(wyszukiwanie i przeglądanie)
Każdy dokument (obiekt) o których informacje zawiera źródło są w nim opisane wg cech:
Formalnych (zewnętrznych, fizycznych)
Rzeczowych (Wewnętrznych, treściowych)
Język opisu formalnego:
Zasady jego konstruowania są szczegółowo określone w odpowiednich normach i przepisach.
Przepisy krajowe dostosowywane są do międzynarodowych
Język opisu rzeczowego:
Uwzględnia przede wszystkim rzeczowe cechy opisywanych obiektów, lecz także cechy
formalne jak forma (wyd. piśm. I język, które to cechy mają dla użytkownika wpływ…)
Wśród
języków informacyjno-wyszukiwawczych (język sztuczny)
1
wyróżnia się:
Klasyfikację
Język haseł przedmiotowych
Język słów kluczowych
Język deskryptorowy
1
nazw tych używa się zamiennie
1. Klasyfikacja…
Jest to wielostopniowy podział zbioru obiektów czy dziedziny, spełniający warunki podziału
logicznego
Musi być:
-
rozłączny
, tj. każdy element dzielonej dziedziny może należeć tylko i wyłącznie do jednej z
wyróżnionych na mocy podziału klas
-
wyczerpujący
, tj. wszystkie elementy tej dziedziny można na podstawie przyjętego kryterium
klasyfikacyjnego umieścić w którejś z klas
Cała klasyfikacja przedstawiona jest w tablicach klasyfikacyjnych
klasyfikacja może być
uniwersalna
(obejmująca wszystkie dziedziny wiedzy, np. UKD) i
specjalistyczna
Klasyfikacja może tez być
monohierarchiczna
i
polihierarchiczna
(fasetowa). UKD jest
monohierarchiczna w obrębie tablic głównych i fasetowa w obrębie pomocniczych
Klasyfikacja monohierarchiczna mamy możliwość gdy nie jesteśmy specjalistami z
danego tematu zapoznania się ze specyfiką danego obszaru wiedzy. Obserwując
podziały jakie zastosowano możemy przyjrzeć się bliżej zagadnieniu. Bardzo
często w specjalistycznych źródłach (poświęconych medycynie, archeologii itp.)
stosuje się układy klasyfikacyjne.
Przykład :
Polska Bibliografia Bibliologiczna
Bibliotekarstwo
Struktura i dzieje książki
Wytwarzanie książki
Ruch wydawniczy
Rozprowadzanie książki, księgarstwo
Pisarstwo
Drukarstwo
Estetyka książki
Papiernictwo
Informacja naukowa. Dokumentacja
Organizacja informacji naukowej
Informacja normalizacyjna i patentowa i in.
Użytkowanie książki
Czytelnictwo
Wystawy
Bibliofilstwo
Technika pracy z książką
Bibliologia
Bibliografie
Wydawnictwa ciągłe
Klasyfikacja, j i-w, tezaurusy
Bibliografia
Klasyfikacja
fasetowa
umożliwia zawężanie zbioru będącego obiektem naszego
wyszukiwania.
JITA Classification System of Library and Information Science (działy i poddziały)
H. Information sources, supports, channels
HA. Periodicals. Newspapers
HB. Grey Literature
HC. Archival materials
HD. Rare books and manuscripts
HE. Print materials
HF. Microforms
HG. Non-print materials
HH. Audio-visual, multimedia
HI. Electronic media
HJ. CD-ROM
HK. Online hosts
HL. Databases and database Networking
HM. OPACs
HN. e-journals
HO. e-books
HP. e-resources
HQ. Web Pages
HR. Portals
HS. Repositories
HZ. None of these but in this section
2. Język haseł przedmiotowych…
Hasła przedmiotowe są wyrażeniami języka haseł przedmiotowych, złożonymi na ogół z:
Jednego tematu
Określników (uściślających informacje o sposobie przedstawiania przedmiotu treści,
jego własnościach i formie dokumentu)
Tematem nazywa się wyrażenie oznaczające przede wszystkim przedmiot treści
dokumentu, ale także dziedzinę wiedzy, której wszystkie obiekty omówione są w
dokumencie, lub formę wydawniczą czy piśmienniczą.
Określnikami są nazwy własności przedmiotów dziedzin. Z punktu widzenia
których przedmioty omówiono, nazwy miejsc i określenia chronologiczne
lokalizujące przedmiot treści w przestrzeni i czasie oraz nazwy i formy
dokumentu.
Kolejność określników w rozwiniętym haśle przedmiotowym jest stała:
Temat (dopowiedzenie) – określnik rzeczowy – określnik geograficzny –określnik
chronologiczny – określnik formalny
Hasło proste – hasło składające się tylko z tematu
Hasło złożone – hasło składające się z tematu i określników
Opis utworzony z jednego hasła przedmiotowego jest opisem
jednokrotnym
, a
składające się z kilku haseł – opisem
wielokrotnym
Jeżeli poszukiwanie przez użytkownika hasło, np. nie znajduje się w wykazie, jest
on o tym informowany za pomocą odsyłaczy:
-
całkowitych
, np. kontrreformacja zob. REFORMACJA
-
uzupełniających
np. STAWY zob. też JEZIORA
-
orientacyjnych
np. ENCYKLOPEDIE zob. też nazwy poszcz. dziedzin,
np. FIZYKA
Hasła przedmiotowe są umieszczane w alfabetycznych wykazach w postaci
słowników języka haseł przedmiotowych
Słownik języka haseł przedmiotowych powinien zawierać terminy znane,
prawidłowe, nieprzestarzałe, niegwarowe, funkcjonujące w piśmiennictwie; język
musi być w dużym stopniu ograniczony w stosunku do naturalnego (redukcji
podlegają synonimy i wyrazy bliskoznaczne(, ale wystarczający do opisywania
publikacji wchodzących w skład danego zbioru : język haseł przedmiotowych jest
językiem żywym i musi podlegać zmianom.
JHP w Polsce:
- JHP Biblioteki Narodowej
- JHP KABA – Katalogi Automatyczne Bibliotek Akademickich
3. Język deskryptorowy…
Grupy wyrażeń synonimicznych i bliskoznacznych mają jednego reprezentanta zwanego
deskryptorem, nie obejmującym znaczeniem wszystkich wyrażeń zakwalifikowanych do
danej grupy, pozostałe elementy są askryptorami ( nie wolno ich używać do opisu dok. i
zapytań)
deskryptorami mogą być wyrażenia jedno- i wielowyrazowe
słownik języka deskryptorowego nosi nazwę
tezaurus
Artykuł deskryptorowy w tezaurusie składa się z:
-deskryptorów (
U
)
-askryptorów (
Nu
)
-szerszych deskryptorów (
SD
)
-węższych deskryptorów (
WD
)
-deskryptorów powiązane (???)
4. Język słów kluczowych (najmniej sztuczny język)…
Funkcję
słowa kluczowego
może pełnić zarówno prosty pod względem znaczenia
rzeczownik, jak rzeczowniki o znaczeniu złożonym. Jeśli znaczenie wyrażenia
złożonego można przedstawić przez połączenie znaczenia prostych wyrażeń
wchodzących w jego skład, to właśnie te wyrażenia powinny stać się słowami
kluczowymi
Język słów kluczowych nie pozwala wyeliminować z opisów dokumentów wyrażeń
synonimicznych i bliskoznacznych, ani wyrażeń wieloznacznych (homonimów)
BIBLIOGRAFIE DRUKOWANE
Przeglądanie
Wyszukiwanie
Układ działowy
Indeks przedmiotowy
Układ systematyczny
Indeks klasowy
Układ przedmiotowy
Indeks systematyczny
Układ klasowy
Indeks krzyżowy
Indeks osobowy (formalno-rzeczowy)
Indeks nazw geograficznych (form.- rzecz.)
Niektóre układy działowe mogą opierać się na klasyfikacji (UKD, dziesiętna, specjalistyczna)
Układ przedmiotowy – porządkuje cały materiał w układzie alfabetycznym wg przedmiotów
(przedmioty często pochodzą ze słownika haseł przedmiotowych)
Układ klasowy – mogą występować obok siebie pojęcia zupełnie ze sobą nie związane.
Indeks rzeczowy (opisuje treść dokumentu) – konstruowane w sposób nie zawsze
automatyczny
Indeks klasowy – tworzymy dla obiektów zarejestrowanych w danym systemie wyrażenia w
postaci klas, na końcu dokumentu jest układ alfabetyczny wszystkich klas.
Indeks systematyczny - Zbudowany z tzw. Haseł gniazdowych. Np. uczelnie, akademie – tylko
nazwy własne :
Akademie – Akademia Sztuk Pięknych, Akademia Wychowania Fizycznego itp.
Indeks krzyżowy – zawiera zapisy formalne i rzeczowe. W indeksie osobowym mogą się
znaleźć autorzy dzieł lub jako przedmiot dzieła (np. Adam Mickiewicz jako autor lub bohater
biografii)
Wyszukiwanie Zintegrowane
– kilka różnych baz danych zostanie połączonych w jeden
wspólny system. Wyszukiwania nie możemy oprzeć na 1 słowniku lub 1 indeksie, ponieważ
występuje ich kilka. Wtedy wyszukujemy wyszukiwanie pełnotekstowe. Nie opieramy się na
sztucznych językach i słownikach.
Strategia wyszukiwania informacji – przemyślany plan działań prowadzący do takiego
sposobu zapisania problemu wyszukiwawczego, który pozwoli zidentyfikować maksymalną
liczbę relewantnych dokumentów przy minimalnej ilości użytych słów (??)
1. Strategia formowania klas
w pierwszej kolejności identyfikuje się terminy którymi można odzwierciedlić treść
zapytania informacyjnego
dla każdego zagadnienia w obrębie zapytania informacyjnego tworzy się z zebranych
terminów klasy (synonimy, terminy węższe, terminy szersze, wyrażone w języku
naturalnym lub języku informacyjno-wyszukiwawczych)
wybiera się indeks, który będzie przeszukiwany (pola w rekordzie które będą
przeszukiwane)
2. Strategia kolejnych klas
(ang. Succesive facet strategy)
W pierwszej kolejności wybiera się klasę najbardziej charakterystyczną dla danego
wyszukiwania, aby następnie przez kolejne operacje poprawiać współczynnik
dokładności.
3. Strategia podwójnych klas
(ang. Pairwise facet strategy)
Jej zastosowanie powinno przynieść dobre efekty gdy m.in.:
- wszystkie aspekty wyszukiwanego zagadnienia sa tak samo istotne
- użytkownik kładzie nacisk w równym stopniu na precyzję i kompletność
wyszukiwania
1. Tworzymy 3 klasy wyrażeń
2. Łączymy ze sobą klasę pierwszą i drugą. Zapisujemy wynik jako „C”. 3.
Przeprowadzamy wyszukiwanie drugi raz tym razem łączymy klasę 1 i 3 z łącznikiem
AND. Wynik zapisujemy jako A
3. Trzeci raz przeprowadzamy wyszukiwanie; łączymy klasę drugą i trzecią spójnikiem
„AND”. Otrzymujemy wynik „B”.
4. Wynik „C”, „A” i „B” łączymy za pomocą spójnika OR.
5. W wyniku wyszukiwania otrzymamy rekordy w których jednakowo ważne są
wyrażenia opisane w pierwszych, drugiej i trzeciej klasie.
4. Wyszukiwanie fasetowe
(ang. Faceted search, faceted browsing, faceted nawigation, view based search guided
navigation)
W podejściu fasetowym proponuje się użytkownikowi zestaw kategorii różnych
poziomów, dzięki którym może on zobaczyć ogólny obraz możliwości wyszukiwania, a
następnie zawężać je dokonując selektywnych wyborów proponowanych opcji i
wyświetlanych wartości
Fasetyzacja jest istotnym elementem organizacji i wyszukiwania, jest poniekąd
probierzem zaawansowania aplikacji wyszukiwania.
Na tej zasadzie działa prawie każdy sklep internetowy. W okienko wyszukiwawcze
możemy wpisać dokładną nazwę, lub skorzystać z fasetów, czyli ograniczyć wyniki np.
do konkretnej firmy.
5. Strategia pomnażania odwołań
(ang. Citation pearl growing strategy)
Gdy nie można oprzeć się na jednym tezaurusie (bo korzysta się z kilku baz naraz)
Pierwszy (relewantny i znany nam artykuł) musi być poprawnie zindeksowany
Można tę strategię zastosować jako „drogę na skróty”, jednak należy mieć na
uwadze, że istnieje niebezpieczeństwo pominięcia relewantnych rekordów.
6. Strategia indeksów cytowań
(ang. Citation indexing strategy)
Polega na wykorzystaniu możliwości śledzenia cytowań, dostępnej w niektórych
bazach (ISI Web of Knowledge, LISTA, SCOPUS)
Opiera się na semantycznym związku pomiędzy dokumentami cytowanymi i
cytującymi
Wykorzystanie narzędzi semantycznych :
SemLib Project
Libris
Hakia
Powerset